Skip to main content

用于评估语言模型准确性的轻量库,包含多个评估,如 MMLU、MATH、GPQA、DROP、MGSM 和 HumanEval,并为 OpenAI 和 Anthropic API 提供了采样接口 | github

  1. 用于评估语言模型准确性的轻量库,包含多个评估,如 MMLU、MATH、GPQA、DROP、MGSM 和 HumanEval,并为 OpenAI 和 Anthropic API 提供了采样接口 | github