BrowseComp-Plus 提供了一个更公平透明的深度研究 Agent 评测基准,解决了检索器与 LLM agent 交互影响难以分离的问题。核心特点如下:

• 基于 OpenAI BrowseComp 的高难度推理查询,使用固定且精心筛选的约 10 万网页文档库,包含人工验证的证据文档和难例负样本,确保任务挑战性和答案质量。📚
• 固定语料库控制检索过程,保障评测环境一致,实现不同检索器与同一 LLM agent 的系统化对比,推动结果可复现和公平竞争。
• 提供完整数据集下载与解密脚本,支持直接加载未混淆语料,便于复现实验和自定义检索器集成。
• 配套安装指南(包括 Python 3.10 环境管理工具 uv、Java 21)和预构建索引文件,简化实验上手门槛。
• 丰富实验复现支持,涵盖 OpenAI、Anthropic、Gemini、Qwen 等主流模型;可提交结果至排行榜,推动社区共享和进步。
• 除深度研究 Agent 外,支持仅检索效果的标准化评估与提交,兼顾多维度性能分析。
• 由多位顶尖学者联合打造,论文已开放获取,适合研究者长期参考和基准构建。
 
 
Back to Top