01:47 · Jan 9, 2024 · Tue × CRUXEval是一个用于评估Python代码推理、理解和执行的基准,包含两个任务:CRUXEval-I和CRUXEval-O,用于评估输入和输出预测。该基准测试包括800个Python函数和输入输出对,最佳模型GPT-4在CRUXEval-I和CRUXEval-O上的pass @ 1 分别达到67%和63%。尽管Code Llama 34B等模型在大量代码数据上进行了训练,但仅达到了47%和44%的准确率。该基准测试强调了代码推理能力的重要性,并鼓励未来的代码语言模型评估考虑CRUXEval。