Code-R1：用可靠奖励重现代码生成的R1流程，让代码生成更精准、更高效

Code-R1：用可靠奖励重现代码生成的R1流程，让代码生成更精准、更高效。

仅用2K样本训练，性能超越7B参数模型；12K样本训练后，平均性能提升至62.5%，效果显著；提供可靠、可扩展且安全的沙盒化执行环境，减少奖励误判