很多技术人都在焦虑被昂贵的算力军备竞赛抛下,但真正的高手已经在用十年前的报废服务器跑最新大模型了。有人用 2016 年的单核单路 Xeon 处理器和极慢的 DDR3 内存,在完全没有显卡的情况下,让 26B 的 Gemma 4 架构模型跑出了“人类阅读速度”。
这件事的核心本质在于:大模型在生成文本的“解码阶段”,底层的瓶颈从来都不是算力(Compute-bound),而是内存带宽(Memory-bound)。处理器每算一个词,都要把数百亿的参数从内存搬运到 CPU 缓存里。这个过程里,CPU 绝大多数时间都在干等内存把数据运过来。这就是所谓的“内存墙”。
大厂和商业软件通过黑盒工具(如 Ollama)向用户隐藏了所有性能调节杠杆,甚至默认把你的模型塞进虚拟内存(Swap)里吃土。而真正穿透技术护城河的方法,是直接接管底层逻辑。利用推测解码(Speculative decoding)将小模型常驻 L3 缓存来预测Token,再通过改写内存矩阵对齐 CPU 缓存(Run-time repack),以及把 Flash Attention 压榨到 CPU 上运行。这证明了本地 AI 的核心门槛不是硅片,而是你对硬件架构的压榨程度。拒绝黑盒,捡垃圾也能通往自由。