PipelineRL：一个可扩展的异步强化学习实现，能够在运行中更新权重，最大化GPU利用率，同时尽可能保持策略更新的实时性

PipelineRL：一个可扩展的异步强化学习实现，能够在运行中更新权重，最大化GPU利用率，同时尽可能保持策略更新的实时性。

支持单节点和多节点部署，灵活适应不同硬件配置；提供文件系统和Redis两种数据流方式，可根据需求选择；仅需8个H100 GPU即可运行单节点实验，入门门槛低