为复杂终端任务设计的LLM基准测试工具。

提供约50个真实终端任务,覆盖从代码编译到模型训练的全场景;搭载沙盒环境,安全运行各类任务;支持多种语言模型,助力Agent性能评估

Terminal-Bench | #工具
 
 
Back to Top