Code-R1:用可靠奖励重现代码生成的R1流程,让代码生成更精准、更高效。

仅用2K样本训练,性能超越7B参数模型;12K样本训练后,平均性能提升至62.5%,效果显著;提供可靠、可扩展且安全的沙盒化执行环境,减少奖励误判
 
 
Back to Top