LPLB 是一个基于线性规划的开源负载均衡器,专为 MoE 模型设计。它通过实时收集专家工作负载数据,动态重新排序和复制专家,利用线性规划优化每个批次的 token 分配,从而实现更均衡的计算负载。
项目还集成了 EPLB(专家并行负载均衡器),支持多种专家拓扑结构(如立方体、超立方体和环面),并借助 NVIDIA 的 cuSolverDx 和 cuBLASDx 实现高效线性代数计算。适合希望提升 MoE 训练性能的研究者和开发者。
主要特点:
- 利用线性规划动态优化 token 分配,减少批次间负载波动;
- 支持冗余专家复制和专家重排序,缓解静态和动态负载不均;
- 集成高效 LP 求解器,基于单 SM 内点法实现;
- 支持多种专家拓扑结构,灵活适配不同规模的 GPU 集群;
- 兼容 CUDA 12.6.3+,依赖 NVIDIA 相关库实现加速;
- 提供完整接口和示例代码,方便研究和二次开发。
当前处于早期研究阶段,性能和稳定性还在持续优化中。适合深度学习领域关注 MoE 训练负载均衡的团队参考使用