siiRL:上海创新院开源的分布式强化学习框架,专为突破大规模LLM后训练的性能瓶颈而生 | #框架

• 彻底去中心化的多控制器架构,实现近线性扩展,支持千GPU级大规模集群训练,打破传统框架单点瓶颈
• 全分布式数据流设计,极大降低通信与I/O开销,尤其在数据密集型任务中达到业内领先吞吐
• 灵活的DAG定义流水线,算法逻辑与底层硬件解耦,简化复杂RL流程设计,快速迭代低成本无代码实验
• 跨硬件兼容,支持华为Ascend NPU,拓宽训练与推理硬件选择,提升多平台适用性
• 7B至72B模型广泛验证,长上下文和多模态训练表现优异,训练稳定性与性能兼顾,模型收敛时间缩短21%
• 正式支持CPGD算法提升更新稳定性,集成LaMAS实现多代理RL微调,面向多智能体系统持续进化
• 未来重点推进多智能体交互、MARL算法支持及基础框架性能优化,开放社区贡献,共筑大模型训练新生态

siiRL通过架构创新与系统优化,深刻洞察LLM后训练的本质挑战,助力科研和工业界实现极致扩展与效率。
 
 
Back to Top