Agentica-project/rllm：让强化学习（RL）变得大众化，为大语言模型（LLM）提供强大的训练支持

Agentica-project/rllm：让强化学习（RL）变得大众化，为大语言模型（LLM）提供强大的训练支持。

开源完整的训练脚本和模型，包括超参数设置；DeepCoder-14B模型在LiveCodeBench上达到60.6%的通过率，与O3-mini水平相当；提供完整的训练日志和评估记录，方便复现和研究