Skip to main content

CRUXEval是一个用于评估Python代码推理、理解和执行的基准,包含两个任务:CRUXEval-I和CRUXEval-O,用于评估输入和输出预测

  1. CRUXEval是一个用于评估Python代码推理、理解和执行的基准,包含两个任务:CRUXEval-I和CRUXEval-O,用于评估输入和输出预测。

    该基准测试包括800个Python函数和输入输出对,最佳模型GPT-4在CRUXEval-I和CRUXEval-O上的pass @ 1 分别达到67%和63%。尽管Code Llama 34B等模型在大量代码数据上进行了训练,但仅达到了47%和44%的准确率。

    该基准测试强调了代码推理能力的重要性,并鼓励未来的代码语言模型评估考虑CRUXEval。