Agentica-project/rllm:让强化学习(RL)变得大众化,为大语言模型(LLM)提供强大的训练支持。

开源完整的训练脚本和模型,包括超参数设置;DeepCoder-14B模型在LiveCodeBench上达到60.6%的通过率,与O3-mini水平相当;提供完整的训练日志和评估记录,方便复现和研究
 
 
Back to Top