🤖 三巨头的路线之争:
1、 Yann LeCun (CNN之父):世界模型 + 感知。
他认为AGI需要强大的视觉等感知能力来构建世界模型,其代表作JEPA架构,核心是通过预测世界状态的内在表征来学习,强调理解世界是智能的基础。
2、 Richard Sutton (强化学习之父):行动 + 奖励。
他坚信智能诞生于与环境的持续互动中,一个实时的“行动-反馈-奖励”循环是关键。其OaK框架旨在构建一个持续学习、终身学习的智能体。
3、 Ilya Sutskever (GPT核心人物):压缩即智能。
他提出了一个更为本质和优雅的观点:智能,其核心是一种在特定上下文中进行的高效、有条件的压缩算法。你预测下一个词/token的能力,本质上就是对世界信息进行极致压缩的表现。
深度解析与思考:
1、 Ilya为何可能是对的?
原推主力挺Ilya。他认为,Transformer架构本身就是通往AGI的康庄大道。当下模型在上下文窗口(Context Window)中进行的“上下文学习”(In-context learning),可以看作是一种“浅层的反向传播”或“电路搜索”,这正是对信息进行条件压缩的体现。这个过程模拟了推理和学习,而无需像RL那样进行完整的、实时的反向传播。或许,更深度的学习(完整的反向传播)发生在类似生物“睡眠”的过程中。
2、 三者是互斥还是统一?
许多评论者指出,这三条路并非完全对立,更像是从不同层面解读智能:
- 统一视角:LeCun的感知和Sutton的互动,都可以被视为为Ilya的“压缩”提供数据和上下文(context)。智能体通过感知世界(JEPA),在互动中获得反馈(OaK),最终目标都是为了更精准地预测和建模世界,也就是进行更高效的“压缩”。
- 神经科学视角:人脑中既有类似CNN的视觉皮层,也有类似RL的多巴胺奖励通路。而“压缩”(如自由能原理)被认为是贯穿整个大脑的根本组织原则。它们是智能的不同侧面,而非相互排斥的路径。
3、 存在的问题与争议:
-“压缩”的局限性:当前模型虽然在压缩信息,但学习到的“电路”和压缩效率仍有待提高。JEPA和OaK的思路正是为了解决这些问题。
- 概念的模糊性:也有反对者(如Pedro Domingos)认为“智能即压缩”是早已被证伪的朴素观念。争论的背后,或许是对“压缩”一词定义和深度的理解不同。
这场辩论并非简单的三选一。Ilya的“压缩论”提供了一个极其深刻和统一的顶层抽象视角,解释了为何无监督学习和Transformer如此强大。而LeCun和Sutton则更关注实现这种高效压缩所必需的具体机制和通路——如何感知世界、如何与之互动。
真正的AGI,或许正是这三条路径的最终融合:一个以压缩为核心原则,通过丰富的感知和持续的互动反馈,不断优化其世界模型的智能体。
将文本渲染成图像以压缩Token,并非全新或唯一的思路。DeepSeek-OCR的成功不应简单归功于图像表示法的魔力。实际上,问题的关键不在于表示形式是文本还是图像。
Token压缩并非新大陆:剑桥大学的研究者早已证明,通过对语言模型进行微调,使其适应“被压缩”的文本Token,可以实现高达500倍的提示词压缩。这一成果未使用任何图像转换技术,表明优化文本自身表示同样潜力巨大。
表示形式并非关键:我们可以反向操作,将图像表示为一系列文本Token(例如,代表RGB值的序列),模型依然可以正常工作,LIFT论文就证明了这一点。这说明,无论是文本还是图像,都只是一种编码信息的载体,没有哪一种具有根本性的优越性。
真正的启示:DeepSeek-OCR等工作真正揭示的核心问题是,当前大语言模型(LLM)的嵌入空间(embedding space)极其庞大,甚至可以说存在严重的冗余和浪费。我们远未充分利用这个高维空间,以及模型在推理时投入的巨大算力。
更多佐证:近期多项研究也支持这一观点。例如,有论文发现,如果在单一上下文中混合来自多个任务的示例,模型能够同时解决多个不同的上下文学习(ICL)任务。这进一步证明了模型的上下文窗口和嵌入空间拥有超乎我们当前理解的容量和灵活性。
DeepSeek-OCR是一项很酷的技术探索,值得肯定。但其实现的Token压缩效果,通过直接微调LLM处理优化的文本Token同样可以达到,甚至可能更高。
一篇用Reddit 评论来分析 Claude Code 和 Codex 哪个更受欢迎的文章。| 原文
结论是Codex 明显更受欢迎,但同时 Claude Code 的用户量又明显更大。
考虑编程语言只有两种:被人骂的和没人用的,也许这两者到底谁能胜利还得等等。
文章中还提到GLM模型也开始被很多人作为最具性价比的模型所提及。
结论是Codex 明显更受欢迎,但同时 Claude Code 的用户量又明显更大。
考虑编程语言只有两种:被人骂的和没人用的,也许这两者到底谁能胜利还得等等。
文章中还提到GLM模型也开始被很多人作为最具性价比的模型所提及。
虽然名字里有个Data Systems,但更偏向于Machine Learning 。主页可以下载课件、笔记和讲课视频。
本课程分为三个部分,涵盖以下主题:
基础知识:深度学习、自动微分、CUDA编程、机器学习硬件
机器学习系统与优化:数据流图系统、机器学习编译、内存与图优化、机器学习并行化、自动并行化
大语言模型(LLM)系统:LLM训练、数据策展、推理与服务、注意力机制优化、缩放定律、检索增强生成(RAG)、LLM智能体。