Skip to content

[复现问题] GUI-Owl-1.5-8B-Instruct 在 ScreenSpot-Pro 上复现 67.2%,与报告 71.1% 有差距 #254

@wy627

Description

@wy627

[复现问题] GUI-Owl-1.5-8B-Instruct 在 ScreenSpot-Pro 上复现 67.2%,与报告 71.1% 有差距

你好,我在复现 GUI-Owl-1.5-8B-Instruct 在 ScreenSpot-Pro 上的 grounding 结果,技术报告为 71.1%,我最高跑到 67.2%,想请教一下官方的评测配置。

我的配置

  • 模型:GUI-Owl-1.5-8B-Instruct(HuggingFace 下载)
  • 数据:ScreenSpot-Pro,26 个任务,1581 样本,英文,positive
  • 推理:vLLM 0.11.0(tensor-parallel=8)和 transformers(device_map="auto")都试了,结果一致
  • 硬件:8× A100-40GB

实验结果

用户指令 Overall Acc
"Please generate the next move..." (agent 风格) 48.64%
"Please click on: {instruction}" (直接点击) 67.2%
不带 system prompt 0%(不输出坐标)

System prompt 用的是 Mobile-Agent-v3.5/mobile_use/utils.py 里的 mobile_use tool prompt,图片用 smart_resize(factor=28, min_pixels=3136, max_pixels=10035200) 处理,temperature=0.0

想请教

  1. 官方评测 ScreenSpot-Pro 用的具体 prompt 模板是什么?用户指令部分怎么写的?
  2. 图片预处理和 generation 参数有什么特殊设置吗?
  3. 评测脚本后续有开源计划吗?

感谢开源 GUI-Owl 1.5!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions