黑洞资源笔记
15:54 · Apr 28, 2025 · Mon
PipelineRL
:一个可扩展的异步强化学习实现,能够在运行中更新权重,最大化GPU利用率,同时尽可能保持策略更新的实时性。
支持单节点和多节点部署,灵活适应不同硬件配置;提供文件系统和Redis两种数据流方式,可根据需求选择;仅需8个H100 GPU即可运行单节点实验,入门门槛低
Home
Powered by
BroadcastChannel
&
Sepia