MHA2MLA：旨在通过实现 DeepSeek 的多头潜在注意力机制（MLA），使任何基于 Transformer 的大型语言模型（LLM）的推理过程更加经济高效

MHA2MLA：旨在通过实现 DeepSeek 的多头潜在注意力机制（MLA），使任何基于 Transformer 的大型语言模型（LLM）的推理过程更加经济高效。

经济推理，显著降低GPU内存占用；支持多种Transformer架构，适配性强；结合FlashMLA框架，理论内存节省可达80%以上