BrowseComp-Plus 提供了一个更公平透明的深度研究 Agent 评测基准，解决了检索器与 LLM agent 交互影响难以分离的问题

BrowseComp-Plus 提供了一个更公平透明的深度研究 Agent 评测基准，解决了检索器与 LLM agent 交互影响难以分离的问题。核心特点如下：

• 基于 OpenAI BrowseComp 的高难度推理查询，使用固定且精心筛选的约 10 万网页文档库，包含人工验证的证据文档和难例负样本，确保任务挑战性和答案质量。📚
• 固定语料库控制检索过程，保障评测环境一致，实现不同检索器与同一 LLM agent 的系统化对比，推动结果可复现和公平竞争。
• 提供完整数据集下载与解密脚本，支持直接加载未混淆语料，便于复现实验和自定义检索器集成。
• 配套安装指南（包括 Python 3.10 环境管理工具 uv、Java 21）和预构建索引文件，简化实验上手门槛。
• 丰富实验复现支持，涵盖 OpenAI、Anthropic、Gemini、Qwen 等主流模型；可提交结果至排行榜，推动社区共享和进步。
• 除深度研究 Agent 外，支持仅检索效果的标准化评估与提交，兼顾多维度性能分析。
• 由多位顶尖学者联合打造，论文已开放获取，适合研究者长期参考和基准构建。