PipelineRL:一个可扩展的异步强化学习实现,能够在运行中更新权重,最大化GPU利用率,同时尽可能保持策略更新的实时性。

支持单节点和多节点部署,灵活适应不同硬件配置;提供文件系统和Redis两种数据流方式,可根据需求选择;仅需8个H100 GPU即可运行单节点实验,入门门槛低
 
 
Back to Top