关于通往AGI之路,三位AI巨擘提出了截然不同的核心理念,引发了一场深刻的思考:| 原文

🤖 三巨头的路线之争:

1、 Yann LeCun (CNN之父):世界模型 + 感知。
他认为AGI需要强大的视觉等感知能力来构建世界模型,其代表作JEPA架构,核心是通过预测世界状态的内在表征来学习,强调理解世界是智能的基础。

2、 Richard Sutton (强化学习之父):行动 + 奖励。
他坚信智能诞生于与环境的持续互动中,一个实时的“行动-反馈-奖励”循环是关键。其OaK框架旨在构建一个持续学习、终身学习的智能体。

3、 Ilya Sutskever (GPT核心人物):压缩即智能。
他提出了一个更为本质和优雅的观点:智能,其核心是一种在特定上下文中进行的高效、有条件的压缩算法。你预测下一个词/token的能力,本质上就是对世界信息进行极致压缩的表现。

深度解析与思考:

1、 Ilya为何可能是对的?
原推主力挺Ilya。他认为,Transformer架构本身就是通往AGI的康庄大道。当下模型在上下文窗口(Context Window)中进行的“上下文学习”(In-context learning),可以看作是一种“浅层的反向传播”或“电路搜索”,这正是对信息进行条件压缩的体现。这个过程模拟了推理和学习,而无需像RL那样进行完整的、实时的反向传播。或许,更深度的学习(完整的反向传播)发生在类似生物“睡眠”的过程中。

2、 三者是互斥还是统一?
许多评论者指出,这三条路并非完全对立,更像是从不同层面解读智能:
- 统一视角:LeCun的感知和Sutton的互动,都可以被视为为Ilya的“压缩”提供数据和上下文(context)。智能体通过感知世界(JEPA),在互动中获得反馈(OaK),最终目标都是为了更精准地预测和建模世界,也就是进行更高效的“压缩”。
- 神经科学视角:人脑中既有类似CNN的视觉皮层,也有类似RL的多巴胺奖励通路。而“压缩”(如自由能原理)被认为是贯穿整个大脑的根本组织原则。它们是智能的不同侧面,而非相互排斥的路径。

3、 存在的问题与争议:
-“压缩”的局限性:当前模型虽然在压缩信息,但学习到的“电路”和压缩效率仍有待提高。JEPA和OaK的思路正是为了解决这些问题。
- 概念的模糊性:也有反对者(如Pedro Domingos)认为“智能即压缩”是早已被证伪的朴素观念。争论的背后,或许是对“压缩”一词定义和深度的理解不同。

这场辩论并非简单的三选一。Ilya的“压缩论”提供了一个极其深刻和统一的顶层抽象视角,解释了为何无监督学习和Transformer如此强大。而LeCun和Sutton则更关注实现这种高效压缩所必需的具体机制和通路——如何感知世界、如何与之互动。

真正的AGI,或许正是这三条路径的最终融合:一个以压缩为核心原则,通过丰富的感知和持续的互动反馈,不断优化其世界模型的智能体。
最近关于DeepSeek-OCR的讨论非常热烈,但许多解读可能误判了其成功的核心原因。| 原文

将文本渲染成图像以压缩Token,并非全新或唯一的思路。DeepSeek-OCR的成功不应简单归功于图像表示法的魔力。实际上,问题的关键不在于表示形式是文本还是图像。

Token压缩并非新大陆:剑桥大学的研究者早已证明,通过对语言模型进行微调,使其适应“被压缩”的文本Token,可以实现高达500倍的提示词压缩。这一成果未使用任何图像转换技术,表明优化文本自身表示同样潜力巨大。

表示形式并非关键:我们可以反向操作,将图像表示为一系列文本Token(例如,代表RGB值的序列),模型依然可以正常工作,LIFT论文就证明了这一点。这说明,无论是文本还是图像,都只是一种编码信息的载体,没有哪一种具有根本性的优越性。

真正的启示:DeepSeek-OCR等工作真正揭示的核心问题是,当前大语言模型(LLM)的嵌入空间(embedding space)极其庞大,甚至可以说存在严重的冗余和浪费。我们远未充分利用这个高维空间,以及模型在推理时投入的巨大算力。

更多佐证:近期多项研究也支持这一观点。例如,有论文发现,如果在单一上下文中混合来自多个任务的示例,模型能够同时解决多个不同的上下文学习(ICL)任务。这进一步证明了模型的上下文窗口和嵌入空间拥有超乎我们当前理解的容量和灵活性。

DeepSeek-OCR是一项很酷的技术探索,值得肯定。但其实现的Token压缩效果,通过直接微调LLM处理优化的文本Token同样可以达到,甚至可能更高。
Matt Shumer分享了一套基于 OpenAI Codex 的工作流,它能实现比默认设置更复杂的功能,同时大大提升了代码的可靠性和质量,有效避免了范围蔓延。整个流程分为三个阶段:首先用初步解释的提示深入理解需求和现有代码,要求列出所有模糊或不明确的地方;接着在充分讨论后,生成一份简单、优雅且明确指引各步骤的计划文档;最后,当计划完善后,切换到 gpt-5-codex high 模型进行精确实现,每一步都有详细的进度追踪和注释。

此方法不仅适用于编程,也可扩展到其他领域:有人将计划传递给其它模型(如 Claude)进行复核和测试,以确保每个细节都达标。相比使用复杂的内存管理方案,仅通过文件记录和规划提示就能很好地保存项目上下文,避免了 context rot。
Agentic Design Patterns》中文翻译项目是一部针对 Antonio Gulli 所著《Agentic Design Patterns: A Hands-On Guide to Building Intelligent Systems》的中英文对照译本。该项目致力于为读者提供一个全面、专业的技术指南,详细介绍现代人工智能系统中智能体设计的核心理念与实践流程。

项目主要特点包括:

- 中英文对照,完整展示原书内容与译文对比
- 译文中对中文内容进行了黄色高亮处理,便于阅读与区分
- 严格遵循 Markdown 的格式规范,确保文档整洁统一
- 保留所有原书代码示例,方便读者进行实践和验证
- 翻译工作分章节持续更新,支持开放社区共同参与校对与改进

适合 AI 工程师、软件架构师、产品经理以及对智能系统设计感兴趣的研究者和学生。
一篇用Reddit 评论来分析 Claude Code 和 Codex 哪个更受欢迎的文章。| 原文
结论是Codex 明显更受欢迎,但同时 Claude Code 的用户量又明显更大。
考虑编程语言只有两种:被人骂的和没人用的,也许这两者到底谁能胜利还得等等。
文章中还提到GLM模型也开始被很多人作为最具性价比的模型所提及。
加州大学圣地亚哥分校的课程:Data Systems for Machine Learning

虽然名字里有个Data Systems,但更偏向于Machine Learning 。主页可以下载课件、笔记和讲课视频。

本课程分为三个部分,涵盖以下主题:
基础知识:深度学习、自动微分、CUDA编程、机器学习硬件
机器学习系统与优化:数据流图系统、机器学习编译、内存与图优化、机器学习并行化、自动并行化
大语言模型(LLM)系统:LLM训练、数据策展、推理与服务、注意力机制优化、缩放定律、检索增强生成(RAG)、LLM智能体。
加州大学伯克利分校的机器学习导论课程(2025年秋季版)

本课程介绍机器学习的理论基础、算法和应用,将数学的严谨性与实践经验相结合。这些大学的课程更新都很快,和现在的大模型等都有一些联系了。目前课程还在进行中,可以下载已经上完的课程的ppt和观看录像。

在整个学期中,我们将探索机器学习的完整流程,从问题构建、数据处理,到模型设计和优化。我们将从讨论什么是机器学习、如何构建和分类问题,以及常见学习范式的分类法开始。我们将回顾课程所需的数学背景,包括概率论和优化概念。

接着,我们将学习无监督学习方法,包括使用 k-means 和期望最大化(EM)算法进行聚类,以及使用主成分分析(PCA)进行降维。我们将详细讨论回归,从目标函数开始,然后转向线性回归及其最大似然估计(MLE)解释,最后探索回归与分类的联系。

课程的深度学习部分将从神经网络基础开始,包括构建非线性模型、选择架构和激活函数,以及定义损失函数。我们将涵盖 PyTorch 实现、反向传播、批量归一化、初始化策略和正则化。之后,我们将概览其他深度架构,如卷积神经网络(CNNs)、循环神经网络(RNNs)和 Transformer,以及生成模型,如大型语言模型(LLMs)、自编码器和生成对抗网络(GANs)。
前Manus工程师言午的一篇文章:从ChatGPT到AI Agent,一文讲透 Agent 的底层逻辑

“这篇文章,源于我一年半的AI开发实践,也源于我离职这近两个月里和许多团队密集交流后的一个强烈感受。我发现,在讨论Agent时,我们常常陷入两种误区:一些人将其神秘化,认为它无所不能;另一些人则将其过度简化,认为它“不过是把ChatGPT多调用几次”。

因为对 agentic 循环过程的体感缺少和原理的理解,形成认知的错位,最终导致我们的沟通成本很高。

因此,我写下这篇长文,希望能为我们这些从业者,建立一个关于Agent的体感和共识基础:AI Agent能力的质变,不仅在于底层大模型日益增长的智力,更关键的,在于我们围绕模型所设计的、那一套行之有效的“认知流程”。

本文近万字,就是体感的建立和对这套“流程”的完整拆解。”
以下是系统设计面试前你必须了解的关键算法清单,包含工作原理、优先级及典型应用场景,帮助你有针对性地准备:

1. Geohash(优先级★★★★★)
- 基于空间编码的地理位置划分算法
- 典型应用:基于位置的服务(LBS)

2. Quadtree(优先级★★★★★)
- 递归划分二维空间的树结构
- 典型应用:地理位置服务、空间索引

3. Consistent Hashing(优先级★★★★★)
- 哈希环实现节点负载均衡
- 典型应用:集群服务负载均衡

4. Leaky Bucket(优先级★★★★★)
- 流量限速算法,通过固定速率“漏水”控制请求
- 典型应用:限流

5. Token Bucket(优先级★★★★★)
- 令牌桶算法,允许突发流量且控制整体平均速率
- 典型应用:限流

6. Trie(优先级★★★★★)
- 字典树,支持前缀搜索
- 典型应用:搜索自动补全

7. Rsync(优先级★★★☆☆)
- 文件同步算法,支持高效增量传输
- 典型应用:文件传输

8. Raft/Paxos(优先级★★★☆☆)
- 分布式一致性算法
- 典型应用:分布式系统一致性保证

9. Bloom Filter(优先级★★★☆☆)
- 空间高效的概率型数据结构,快速判断元素是否存在
- 典型应用:减少昂贵的查找操作

10. Merkle Tree(优先级★★★☆☆)
- 树状哈希结构,用于节点间不一致性检测
- 典型应用:区块链、分布式存储数据校验

11. HyperLogLog(优先级★☆☆☆☆)
- 高效估算唯一元素数量的算法
- 典型应用:快速基数统计

12. Count-min Sketch(优先级★☆☆☆☆)
- 频率估计算法
- 典型应用:大数据流量统计

13. Hierarchical Timing Wheels(优先级★☆☆☆☆)
- 高效定时任务调度算法
- 典型应用:任务调度器

14. Operational Transformation(优先级★☆☆☆☆)
- 支持协作编辑的冲突解决算法
- 典型应用:多人协作编辑

总结:
- 地理位置相关算法(Geohash、Quadtree)优先级最高,适合LBS系统设计必备;
- 负载均衡(Consistent Hashing)、限流(Leaky Bucket、Token Bucket)、搜索(Trie)是核心基础算法;
- 一致性算法(Raft/Paxos)、布隆过滤器、Merkle树等为分布式系统设计的重要工具;
- 统计与调度类算法优先级较低,但在大规模系统中同样不可忽视。

系统设计面试中,理解算法原理、优缺点及实际应用场景,能帮助你更好地设计高效、可扩展的系统
Google Cloud 推出多智能体 AI 系统参考架构,助力构建高效协作的专业 AI 代理,实现复杂业务流程优化。核心思想是将大任务拆解成多个子任务,由多个专长智能体协同完成,提高效率与准确性,同时支持人机协作保障安全与可靠。

架构亮点:
- 用户输入由前端发送至协调者代理,自动选择合适代理流程(顺序执行或迭代优化)。
- 任务子代理、质量评估器和响应生成器分工明确,支持多轮优化与人工干预。
- 支持无服务器 Cloud Run,结合 Vertex AI、GKE、Model Armor 等多款 Google Cloud 产品和开放协议(A2A、MCP),确保系统安全、兼容和扩展性。

应用场景广泛:
- 财务顾问:实时数据检索、金融分析、个性化股票建议、自动交易执行。
- 研究助理:规划、数据收集分析、报告撰写,支持迭代评估完善。
- 供应链优化:库存管理、物流跟踪、供应商沟通,实现高效供应链协同。

设计要点:
- 安全:结合传统安全与动态防御,强调人工监督和最小权限,利用 Model Armor 防范提示注入和敏感信息泄露。
- 可靠性:支持容错设计、故障模拟、日志和异常处理,确保高可用。
- 运营:全面日志监控、智能体输出评估、工具共享和跟踪,提升运维效率。
- 费用与性能优化:合理选型模型与资源,提示工程优化输入输出,支持上下文缓存和批量请求降低成本与延迟。

后续行动:
- 利用智能体开发套件(ADK)快速构建与部署。
- 结合 Agent Garden 示例和代码,实践多智能体系统。
- 深入理解 Google Cloud AI 和机器学习的架构原则与最佳实践,实现业务价值最大化。

多智能体 AI 系统正推动智能自动化迈向新高度,将复杂任务拆解为可管理模块,提升效率与安全,适合金融、研究、供应链等多领域。
Back to Top