为了让 LLM 记住更多、记得更好，研究者们正在不断努力

06:13 · Oct 5, 2023 · Thu

为了让 LLM 记住更多、记得更好，研究者们正在不断努力。最近，来自 MIT、Meta AI、CMU 的研究者提出了一种名为「StreamingLLM」的方法，使语言模型能够流畅地处理无穷无尽的文本。

StreamingLLM 的工作原理是识别并保存模型固有的「注意力池」（attention sinks）锚定其推理的初始 token。结合最近 token 的滚动缓存，StreamingLLM 的推理速度提高了 22 倍，而不需要牺牲任何的准确性。短短几天，该项目在 GitHub 平台已斩获 2.5K 星。

论文 | 项目 | 详文