黑洞资源笔记
14:57 · Mar 4, 2025 · Tue
Code-R1
:用可靠奖励重现代码生成的R1流程,让代码生成更精准、更高效。
仅用2K样本训练,性能超越7B参数模型;12K样本训练后,平均性能提升至62.5%,效果显著;提供可靠、可扩展且安全的沙盒化执行环境,减少奖励误判
Home
Powered by
BroadcastChannel
&
Sepia