15:17 · Apr 12, 2024 · Fri × 用于评估语言模型准确性的轻量库,包含多个评估,如 MMLU、MATH、GPQA、DROP、MGSM 和 HumanEval,并为 OpenAI 和 Anthropic API 提供了采样接口 | github