VeriGUI:专为通用 GUI 代理设计的可验证长链任务数据集,助力复杂人机交互的迈进。

🔗 长链复杂度:2-15 个互依子任务,涵盖数百步 GUI 操作,跨应用与网页,模拟真实工作流,支持任意子任务起点。
子任务级可验证性:细粒度评估每个子任务,支持多样化探索路径,保证目标一致性,强化错误诊断与代理优化。
🌐 多环境覆盖:兼顾网页和桌面环境,跨平台任务切换,涵盖办公软件、操作系统及在线服务(桌面环境持续完善中)。
🧑‍🎨 专家注释:所有轨迹由人类专家精心标注,任务指令与子任务注释详尽,确保任务可行且贴合真实使用场景。
🚀 工具支持:开箱即用的评测脚本和代理示例,配套可视化工具实现事件时间线和视频同步,便于深入分析与调试。

VeriGUI突破传统短期交互限制,强调长时序任务分解与验证,推动具备强规划与决策能力的 GUI 代理发展,具有重要的长期研究价值。
 
 
Back to Top