[复现问题] GUI-Owl-1.5-8B-Instruct 在 ScreenSpot-Pro 上复现 67.2%,与报告 71.1% 有差距
你好,我在复现 GUI-Owl-1.5-8B-Instruct 在 ScreenSpot-Pro 上的 grounding 结果,技术报告为 71.1%,我最高跑到 67.2%,想请教一下官方的评测配置。
我的配置
- 模型:GUI-Owl-1.5-8B-Instruct(HuggingFace 下载)
- 数据:ScreenSpot-Pro,26 个任务,1581 样本,英文,positive
- 推理:vLLM 0.11.0(tensor-parallel=8)和 transformers(device_map="auto")都试了,结果一致
- 硬件:8× A100-40GB
实验结果
| 用户指令 |
Overall Acc |
"Please generate the next move..." (agent 风格) |
48.64% |
"Please click on: {instruction}" (直接点击) |
67.2% |
| 不带 system prompt |
0%(不输出坐标) |
System prompt 用的是 Mobile-Agent-v3.5/mobile_use/utils.py 里的 mobile_use tool prompt,图片用 smart_resize(factor=28, min_pixels=3136, max_pixels=10035200) 处理,temperature=0.0。
想请教
- 官方评测 ScreenSpot-Pro 用的具体 prompt 模板是什么?用户指令部分怎么写的?
- 图片预处理和 generation 参数有什么特殊设置吗?
- 评测脚本后续有开源计划吗?
感谢开源 GUI-Owl 1.5!