为复杂终端任务设计的LLM基准测试工具

为复杂终端任务设计的LLM基准测试工具。

提供约50个真实终端任务，覆盖从代码编译到模型训练的全场景；搭载沙盒环境，安全运行各类任务；支持多种语言模型，助力Agent性能评估

Terminal-Bench | #工具