Kevin Patrick Murphy 在讨论 Richard Sutton 的观点时提出了对当前大语言模型(LLM)训练方式的深刻见解:

1. LLM训练类似经典无模型强化学习(model-free RL),但它们:
- 从监督学习模型“热启动”,而非完全自发学习;
- 明确存在训练/测试阶段区分,缺少持续学习;
- 主要通过人类语言输入,绕过了从原始感知动作流中学习抽象的难题;
- 多模态模型中,感知编码器通常预训练且冻结,依赖人工设计的损失函数(如对比学习、像素预测)来生成有效的“软”符号。

2. 访谈重点在于第1点,但讨论混淆了LLM既是世界模型(预测人类语言),又是策略(预测行为决策)的双重身份。监督预训练的模型虽非严格的动作条件模型,但可视为对未来观测的边际化预测。

3. 通过模仿学习(IFT)将“世界模型”转为“目标条件策略”,再通过强化学习微调(RLFT)提升。当前RLFT多是单步人类推理任务,缺少经典多步环境交互,但未来趋势正向真正多步RL迈进。

4. Karpathy 等认为“热启动”是实用替代生物演化的元学习过程,Murphy对此认可,但认同 Sutton 对训练/测试分离、绕过抽象学习和冻结编码器的批评。

5. 未来突破点在于多模态、非平稳多智能体环境中的持续强化学习,智能体能自我抽象(如构建工具库),同时学习无目标世界模型和目标策略,并结合记忆、内在学习和梯度更新,构建半参数化模型。

6. 未来智能体将非单一“冻结Transformer”,而是多模块异构自适应系统,更接近大脑复杂结构(不仅是新皮层),更有可能实现真正智能。

7. 讨论中有人质疑LLM是否真有世界模型,但Murphy解释LLM预测的是在隐藏人类动作意图下的未来语言状态,是一种边际化世界模型。

8. 关于是否RL框架足以让智能体从原始感知中发现合适抽象,Murphy认为拟合世界模型提供了丰富信号,奖励机制则聚焦重要信息。

9. 其他观点指出LLM的世界模型更像是“文本构建的抽象沙盒”,且目前仍是监督学习主导,非真正无模型RL。

10. 未来若解决训练/测试分离、多模态感知和持续学习问题,或可摆脱对热启动的依赖。

LLM训练现状虽有明显局限,但未来智能体必将融合多模态感知、持续自适应学习和复杂模块化结构,向更真实的智能系统迈进。正如Murphy所言,真正的智能不会轻松复制,但新范式值得期待。
 
 
Back to Top