MHA2MLA:旨在通过实现 DeepSeek 的多头潜在注意力机制(MLA),使任何基于 Transformer 的大型语言模型(LLM)的推理过程更加经济高效。

经济推理,显著降低GPU内存占用;支持多种Transformer架构,适配性强;结合FlashMLA框架,理论内存节省可达80%以上
 
 
Back to Top