黑洞资源笔记
16:21 · Feb 26, 2025 · Wed
DeepEP
:DeepSeek最新开源的高效专家并行通信库,提供了高吞吐、低延迟的 GPU 内核,支持低精度操作,并且与 DeepSeek-V3 论文中提出的组限制门控算法相匹配,为大规模分布式AI模型训练和推理加速。
提供高吞吐、低延迟的GPU通信内核,性能提升显著;支持低精度操作(如FP8),优化计算效率;低延迟内核延迟低至163微秒,适合推理解码场景
Home
Powered by
BroadcastChannel
&
Sepia