用于评估语言模型准确性的轻量库，包含多个评估，如 MMLU、MATH、GPQA、DROP、MGSM 和 HumanEval，并为 OpenAI 和 Anthropic API 提供了采样接口 | github

15:17 · Apr 12, 2024 · Fri

用于评估语言模型准确性的轻量库，包含多个评估，如 MMLU、MATH、GPQA、DROP、MGSM 和 HumanEval，并为 OpenAI 和 Anthropic API 提供了采样接口 | github