Monarch🦋:Meta 推出的 PyTorch 分布式编程框架,基于可扩展的 actor 消息机制,重新定义多进程分布式计算。

• 远程 Actors 和 Meshes:支持将 Actors 组织为 Mesh 集合,消息可广播至所有成员,简化大规模分布式通信。
• 容错设计:内建监督树结构,故障自动向上传递,实现细粒度错误恢复和默认鲁棒行为。
• 高效 RDMA 传输:支持基于 libibverbs 的点对点一侧传输,显著降低 GPU/CPU 内存通信开销。
• 分布式张量支持:Actors 可操作跨进程分片张量,天然适配大规模训练任务。
• 简洁 Python API:代码风格直观,轻松创建进程与 Actors,快速构建分布式训练流水线。
• 支持多平台(Fedora、Ubuntu、MacOS),搭配 Rust nightly 工具链,灵活安装,满足不同硬件环境。
• 当前处于实验阶段,功能和 API 仍在迭代,欢迎社区贡献,适合前沿研发和定制化分布式系统构建。

Monarch 不仅提升分布式训练效率,更通过架构创新降低系统复杂度,助力长远可维护的深度学习基础设施建设。
 
 
Back to Top