黑洞资源笔记
16:07 · Feb 26, 2025 · Wed
MHA2MLA
:旨在通过实现 DeepSeek 的多头潜在注意力机制(MLA),使任何基于 Transformer 的大型语言模型(LLM)的推理过程更加经济高效。
经济推理,显著降低GPU内存占用;支持多种Transformer架构,适配性强;结合FlashMLA框架,理论内存节省可达80%以上
Home
Powered by
BroadcastChannel
&
Sepia