DeepEP:DeepSeek最新开源的高效专家并行通信库,提供了高吞吐、低延迟的 GPU 内核,支持低精度操作,并且与 DeepSeek-V3 论文中提出的组限制门控算法相匹配,为大规模分布式AI模型训练和推理加速。

提供高吞吐、低延迟的GPU通信内核,性能提升显著;支持低精度操作(如FP8),优化计算效率;低延迟内核延迟低至163微秒,适合推理解码场景
 
 
Back to Top