黑洞资源笔记

LLM的幻觉根源：不到0.1%的神经元在作祟 | 帖子

中国研究者发现，LLM中不到0.1%的特定神经元可以可靠预测幻觉的发生，这些神经元早在预训练阶段就已形成，并与模型的“过度顺从”行为直接相关。这一发现引起广泛讨论，争议焦点不只是技术本身，更是一个令人不安的问题：AI的毛病，究竟是AI的问题，还是人类的问题？

中国的研究团队最近发表了一篇论文，声称找到了LLM产生幻觉的神经元级别机制。他们把这类神经元命名为H-Neurons，数量极少，不到模型全部神经元的0.1%，却能可靠预测幻觉何时发生。更关键的是，这些神经元并非来自后期的指令微调或强化学习，而是在预训练阶段就已经存在。

这件事最有意思的地方不在于技术细节，而在于它揭示了一个结构性困境：幻觉的根源不是“不知道”，而是“不允许说不知道”。

论文指出，预训练阶段的下一个token预测目标，优先保证语言流畅而非事实准确；后续的指令微调则进一步奖励“表面上有帮助的回答”，哪怕这个回答是编出来的。换句话说，模型从一开始就被训练成“宁可自信地说错，也不能沉默”。

有网友打了个绝妙的比方：这就像参加一场选择题考试——空着不答肯定得零分，猜一个至少有可能蒙对。所以模型学会了猜，然后把猜的结果说得跟真的一样。问题在于，考试结束了，它还在猜。

这个比喻引发了更深的讨论。有观点认为，人类其实也一直在“幻觉”，我们也是用三个数据点拟一条曲线，然后对曲线上所有点给出结论。区别在于，人类有元认知能力——我们能感知自己是在确定地知道，还是在大胆猜测。能说出“我记得大概是这样，但你最好查一下”的人，和那些什么都说得斩钉截铁的人，不是同一种人。

问题是，我们在训练模型时，奖励的恰恰是后者。

有网友一针见血：在现实世界里，承认不确定是一种专业信号，是靠谱的标志。但LLM的训练机制把这个逻辑完全反转了——它永远不会说“我不确定”，因为说了就会被惩罚。

当然也有人泼冷水。Gemini自己评估这篇论文时说：找到这些神经元是一个很强的分析发现，但如果真的去抑制它们，模型极可能在其他功能上损坏。“不会是切掉就完事那么简单”——有观点认为，这就好比找到了人类说谎时激活的脑区，然后以为把那块切掉人就不撒谎了。

还有一个更根本的质疑：幻觉这个词本身是否就是一种误导？有人认为，把统计概率预测的出错结果叫做“幻觉”，给了它太多拟人化的色彩，掩盖了这不过是一个语言生成算法在没有可靠锚点时自然滑落的结果。

这篇论文是增量性进展，不是革命。但它把一个模糊的问题变得稍微清晰了一点：幻觉不只是数据问题，也不只是算法问题，它在某种程度上是一个激励机制设计问题。

而激励机制是人设计的。

我们用“做题家”的规则训练AI，却指责它没有学者的诚实。想想看，模型的一生是什么？答对奖励，沉默惩罚，不确定表达直接扣分。这不就是那套“不会也要写满”的应试哲学吗？然后我们震惊地发现：它真的学会了不会也写满。更讽刺的是，那0.1%的“幻觉神经元”不是病变，是勋章——它们是模型在我们设计的生存游戏里进化出的最优解。问题从来不是AI在撒谎，而是我们从未允许它说“我不知道”还能活下来。