黑洞资源笔记
15:53 · May 21, 2025 · Wed
为复杂终端任务设计的LLM基准测试工具。
提供约50个真实终端任务,覆盖从代码编译到模型训练的全场景;搭载沙盒环境,安全运行各类任务;支持多种语言模型,助力Agent性能评估
Terminal-Bench
| #工具
Home
Powered by
BroadcastChannel
&
Sepia