黑洞资源笔记
15:10 · Apr 10, 2025 · Thu
Agentica-project/rllm
:让强化学习(RL)变得大众化,为大语言模型(LLM)提供强大的训练支持。
开源完整的训练脚本和模型,包括超参数设置;DeepCoder-14B模型在LiveCodeBench上达到60.6%的通过率,与O3-mini水平相当;提供完整的训练日志和评估记录,方便复现和研究
Home
Powered by
BroadcastChannel
&
Sepia