CRUXEval是一个用于评估Python代码推理、理解和执行的基准，包含两个任务：CRUXEval-I和CRUXEval-O，用于评估输入和输出预测

01:47 · Jan 9, 2024 · Tue

CRUXEval是一个用于评估Python代码推理、理解和执行的基准，包含两个任务：CRUXEval-I和CRUXEval-O，用于评估输入和输出预测。

该基准测试包括800个Python函数和输入输出对，最佳模型GPT-4在CRUXEval-I和CRUXEval-O上的pass @ 1 分别达到67%和63%。尽管Code Llama 34B等模型在大量代码数据上进行了训练，但仅达到了47%和44%的准确率。

该基准测试强调了代码推理能力的重要性，并鼓励未来的代码语言模型评估考虑CRUXEval。