[复现问题] GUI-Owl-1.5-8B-Instruct 在 ScreenSpot-Pro 上复现 67.2%，与报告 71.1% 有差距

你好，我在复现 GUI-Owl-1.5-8B-Instruct 在 ScreenSpot-Pro 上的 grounding 结果，技术报告为 71.1%，我最高跑到 67.2%，想请教一下官方的评测配置。

我的配置

模型：GUI-Owl-1.5-8B-Instruct（HuggingFace 下载）
数据：ScreenSpot-Pro，26 个任务，1581 样本，英文，positive
推理：vLLM 0.11.0（tensor-parallel=8）和 transformers（device_map="auto"）都试了，结果一致
硬件：8× A100-40GB

实验结果

用户指令	Overall Acc
`"Please generate the next move..."` (agent 风格)	48.64%
`"Please click on: {instruction}"` (直接点击)	67.2%
不带 system prompt	0%（不输出坐标）

System prompt 用的是 Mobile-Agent-v3.5/mobile_use/utils.py 里的 mobile_use tool prompt，图片用 smart_resize(factor=28, min_pixels=3136, max_pixels=10035200) 处理，temperature=0.0。

想请教

官方评测 ScreenSpot-Pro 用的具体 prompt 模板是什么？用户指令部分怎么写的？
图片预处理和 generation 参数有什么特殊设置吗？
评测脚本后续有开源计划吗？

感谢开源 GUI-Owl 1.5！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[复现问题] GUI-Owl-1.5-8B-Instruct 在 ScreenSpot-Pro 上复现 67.2%，与报告 71.1% 有差距 #254

[复现问题] GUI-Owl-1.5-8B-Instruct 在 ScreenSpot-Pro 上复现 67.2%，与报告 71.1% 有差距

我的配置

实验结果

想请教

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[复现问题] GUI-Owl-1.5-8B-Instruct 在 ScreenSpot-Pro 上复现 67.2%，与报告 71.1% 有差距 #254

Description

[复现问题] GUI-Owl-1.5-8B-Instruct 在 ScreenSpot-Pro 上复现 67.2%，与报告 71.1% 有差距

我的配置

实验结果

想请教

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions