Agent 开发面临的挑战
在 AI 时代,数据易得,但高质量的上下文却难求。构建 AI Agent 时,开发者经常遇到这些挑战:
上下文碎片化:记忆在代码里,资源在向量库,技能散落各处,难以统一管理
所需上下文猛增:Agent 的长程任务在每次执行时都会产出上下文,简单的截断或压缩会导致信息损失
检索效果不佳:传统 RAG 是平铺式存储,缺乏全局视野,难以理解信息的完整语境
上下文不可观测:传统 RAG 隐式的检索链路如同黑箱,出错时难以调试
记忆迭代有限:目前记忆只是用户记忆的记录,缺乏 Agent 相关的任务记忆
OpenViking 解决方案
OpenViking 是一个开源的、专为 AI Agent 设计的上下文数据库。
我们旨在为 Agent 定义一套极简的上下文交互范式,让开发者彻底告别上下文管理的烦恼。 OpenViking 摒弃了传统 RAG 的碎片化向量存储模式,创新性地采用 “文件系统范式”,将 Agent 所需的记忆、资源和技能进行统一的结构化组织。
通过 OpenViking,开发者可以像管理本地文件一样构建 Agent 的大脑:
文件系统管理范式 → 解决碎片化问题:基于文件系统范式,将记忆、资源、技能进行统一上下文管理
分层上下文按需加载 → 降低 Token 消耗:L0/L1/L2 三层结构,按需加载,大幅节省成本
目录递归检索 → 提升检索效果:支持原生文件系统检索方式,融合目录定位与语义搜索,实现递归式精准上下文获取
可视化检索轨迹 → 上下文可观测:支持可视化目录检索轨迹,让用户能够清晰观测问题根源并指导检索逻辑优化
会话自动管理 → 上下文自迭代:自动压缩对话中的内容、资源引用、工具调用等信息,提取长期记忆,让 Agent 越用越聪明
作者:Zoë Hitzig
Hitzig 女士曾是 OpenAI 的研究员
译文见评论区
这篇文章记录了作者 Vibe Coding一个投资Agent到利用后训练技术对其进行优化的实验过程。
作者详述了使用 verl 框架对7B模型进行监督微调(SFT)和强化学习(RL)训练的经历,指出SFT虽然提升了工具使用能力但损害了推理能力。最终,通过采用GRPO算法并引入NGRPO等技巧解决奖励方差问题,他成功将小模型的表现提升至与 deepseek-chat 相当的水平。
文章强调了在缺乏成熟调试工具的情况下,通过实验性探索掌握后训练技术的重要性。
一段展示AI生成名人虚假视频的内容在Reddit引发热议。从Taylor Swift到Trump,从Epstein到Mia Khalifa,这些以假乱真的面孔让人不寒而栗。
有人调侃:「这个揭露假视频的视频,本身会不会也是假的?」这个套娃式的质疑,恰恰点出了我们正在滑入的认知深渊。
社交媒体的信任危机并非始于AI。早在深度伪造技术成熟之前,这个平台就已经被营销话术、情绪操控和虚假人设侵蚀殆尽。AI只是撕下了最后一层遮羞布。正如一位网友所说:「这些人本来就是假的,现在只是连生成方式也变假了。」
讨论中出现了一个有趣的分野。悲观者认为,一半人会什么都不信,另一半人会什么都信,而人类社会将在这种撕裂中走向崩溃。乐观者则期待AI能彻底杀死社交媒体这个怪物,迫使人们重新回归面对面的真实交流。
有人提出了一个颇具洞察力的观点:社交媒体之所以危险,恰恰因为它建立在我们对彼此的信任之上。当这种信任被系统性地利用和背叛,唯一的出路或许是回归专业信源,回归线下世界。
也有人引用了《沙丘》中的「巴特勒圣战」概念,暗示人类与AI的终极对抗或许不可避免。还有人呼吁建立某种去中心化的身份验证系统,通过面对面交换密钥来构建信任网络。
最讽刺的是,当我们讨论如何辨别真假时,这场讨论本身就发生在一个充斥着匿名账号和不可验证身份的平台上。
技术从来不是中立的。它放大人性中已有的东西。社交媒体放大了我们对认同的渴望,AI则放大了我们制造幻象的能力。当每个人都能批量生产「真相」,真相本身就成了最稀缺的资源。
二十多岁时收到的最好建议:没人在乎。
你赢的时候,没人在乎。你输的时候,也没人在乎。这不是说没人爱你,而是说没有人会像你自己那样在意你的人生。
这话乍听刺耳,细想却是解药。
我们总以为有一群观众在盯着自己的一举一动,随时准备评判。但真相是:大多数人忙着应付自己的焦虑,根本没空关注你的。你以为的聚光灯,其实只是自己打在自己身上的。
想想看,有多少冒险死在了“别人会怎么想”这句话里。不敢创业,不敢发表作品,不敢离开一份让你窒息的工作。但如果你把镜头拉远,大多数人看到你的决定,点点头,然后继续刷手机。
有人说得好:你没那么有趣。这话听着扎心,却是事实。还记得别人当众出丑的场景吗?两小时后你就忘了。你对别人如此,别人对你也一样。
一旦接受这个设定,压力就消失了。你不再为一个根本不存在的观众表演,开始真正为自己建造。停止等待许可,停止寻求掌声,直接行动。
有个程序员说,他花了两个月重构代码,后来意识到自己对“速度”的焦虑,不过是演给一个根本没在看的观众。没人在乎你的延迟,他们只在乎产品到手时好不好用。
这就是关键:人群的漠然是中性的,不是残忍的。它剥掉了虚构的压力,逼你成为自己的领导者。那些真正接受这一点的人,不再追逐认可的循环,开始安静地积累真正的筹码。
没人来救你,但也没人拦着你。既然一切都取决于你,那么力量也在你手里。
去失败十次吧,没人会记得。然后成功一次,人们会表现得好像你一直在赢。
MIT教授在Zoom课上忘关屏幕共享,意外暴露了自己的批改系统:47篇论文,12分钟搞定。
他的方法很简单。把学生论文和评分标准一起丢进NotebookLM,让AI逐篇对照标准评估,标记偏离预期的部分。
真正有意思的是下一步:他让AI交叉比对每个学生历次提交的写作风格,结果揪出三例风格突变的可疑情况。这种跨时间维度的模式识别,人眼几乎不可能完成。
最后一步才是点睛之笔:AI为每个学生生成个性化反馈,把薄弱点和具体课程材料精准关联。以前6小时的苦差事,现在15分钟收工,学生拿到的反馈质量反而更高。
批改从折磨变成了真正的教学。
评论区炸了。有人问:学生用AI写,教授用AI批,反馈AI生成,诚信AI检测,人类还剩什么?
这个问题问得好,但问反了。
当重复性劳动被卸载,人类反而能做回该做的事。一位数学老师说,他见过文科同事批作业批到崩溃,认真给反馈的人往往要花好几天。工具解放的不是责任,是被琐事吞噬的时间。
当然有人担心AI会出错。但NotebookLM有个特性:它只基于你喂给它的资料输出,不会凭空编造。这让它在学术场景下格外可靠。
更深一层的悖论是:教授们一边告诫学生不要用AI,一边自己悄悄用得飞起。这不是虚伪,而是现实在倒逼诚实。也许真正该教的,是如何与AI协作,而不是假装它不存在。
教育的核心从来不是批改本身,而是让学生知道自己哪里不会、该看什么。AI恰好擅长这个。
有人用纯C从零实现了一个GPT,没有PyTorch,没有autograd,连numpy都没有。前向传播、反向传播、Adam优化器、文本采样,全部手写。
严格来说这不是GPT的架构复刻,而是精神继承。没有可学习参数的LayerNorm,用的是RMSNorm;激活函数是Squared ReLU而非GELU;tokenizer是字符级的,不是BPE。但核心机制一个不少:embedding、多头因果自注意力、残差连接、MLP、交叉熵损失。
这篇文章真正的价值在于:它把transformer从黑盒API调用变成了你能用for循环和指针算术理解的东西。
当你看到attention就是两层嵌套循环做点积再softmax再加权求和,当你看到backprop就是把这些操作反过来一步步算偏导,那种"这玩意儿到底在干嘛"的困惑就消失了。
用C而不是Python来做这件事有独特的教学意义。numpy的广播和PyTorch的autograd隐藏了太多细节,C强迫你面对每一次内存访问、每一次循环、每一次乘法。框架让你高效,但也让你无知。
几个值得注意的实现细节:softmax加交叉熵的梯度简化被清晰展示了,就是那个经典的prob减one_hot;RMSNorm的反向传播推导是很多人会卡住的地方,这里给出了完整实现;KV cache不是作为优化技巧引入,而是作为架构的自然组成部分。
当然这不是生产级代码。batch size是1,梯度噪声极大;静态内存分配在某些系统上可能直接栈溢出;没有梯度裁剪。但教学代码的目标从来不是能用,而是能懂。
Karpathy的llm.c是这个方向的标杆,工程质量完全不在一个量级。这篇更像是micrograd精神在C语言中的投射:教学优先,能跑就行。
如果你想真正理解attention的每一个梯度是怎么流动的,这篇值得逐行读一遍。理解一个系统最好的方式,永远是亲手把它拆开再装回去。
一个独立开发者用几个月时间“氛围编程”出来的项目,被OpenAI收编了。这件事本身不大,但围绕它的争论,折射出AI行业最核心的一个矛盾:模型能力和产品分发,到底谁更值钱?
事情的起点很戏剧化。这个项目最初叫Clawdbot,和Claude发音几乎一模一样,Anthropic两次发函要求改名。开发者先改成Moltbot,后来又自己改成OpenClaw。讽刺的是,Anthropic在商标上赢了面子,却在人才上输了里子。这位开发者最终加入了OpenAI。
Reddit上吵得最凶的问题是:一个能被氛围编程搞出来的东西,凭什么值得OpenAI出手?
有人说得很到位:分发和产品市场契合度,远比产品质量重要一万倍。质量永远可以迭代,但产品市场契合是商业世界里最稀缺的东西。OpenClaw在极短时间内获得了大量真实用户,GitHub星标飙升,全球媒体报道。OpenAI买的不是代码,是势能。
也有人看得更透:他们雇的是一个造出了增长最快项目的流量明星。在今天的AI行业,能写好代码的工程师遍地都是,但能在正确的时间造出正确产品并引爆传播的人,凤毛麟角。想想那些AI公司高薪养着的开发团队,看着一个素人几周内做出大规模采用的产品,内心该有多恐慌。
这也映射出Anthropic和OpenAI两家公司路线的微妙分化。Anthropic更像一家专注的研究型公司,重心在做最好的模型,Claude Code和Cowork面向企业。OpenAI则越来越像一家产品公司,从ChatGPT到Codex到硬件,甚至请来了苹果iPhone团队的人做设备。有人说这让OpenAI不再纯粹,但反过来想,光有好模型不够,还得有人用。
关于Codex和Claude Code的性价比之争也很有意思。不少用户反映,20美元的Plus计划下用Codex,一周都用不完额度;而Claude Code的低价套餐,30分钟就能把限额烧光。背后的原因也很现实:OpenAI坐拥全球约40%的GPU资源,大语言模型在英伟达GPU上跑的效率本身就比Anthropic依赖的自研芯片更高。当然,也可能只是OpenAI更舍得烧钱补贴用户。对消费者来说,原因不重要,便宜好用就行。
但批评声同样尖锐。有人指出OpenClaw的技术含量有限,本质上就是一些脚本循环加简单的记忆系统,没有任何技术壁垒。还有人担忧安全隐患:过度自主的AI代理替用户做财务决策,出了事谁负责?更有人直言,这不过是OpenAI自DeepSeek事件以来又一次慌张的动作。
最有意思的反驳来自项目支持者:任何人都能一天之内复制一个Facebook,但你能让人们真的去用它吗?OpenClaw的代码库经过实战检验,代理在出错时会自动提交修复请求,这种活的生态比任何静态代码仓库都有价值。
Anthropic在商标维权上没有错,不保护商标就等于放弃商标,这是法律常识。但时机和方式值得商榷。当一个开源项目正在爆发式增长时,两封律师函的效果,往往是把人推向对手的怀抱。
这个故事的真正寓意也许是:在AI时代,产品的护城河从来都不在代码里。谁先占领了用户心智,谁就掌握了话语权。技术可以被复制,但时机和信任不能。
深度思考:
现实比"分发 vs 技术"的二元叙事要混沌得多。
OpenClaw事件真正值得关注的不是谁赢谁输,而是它暴露出的行业深层焦虑:当AI工具强大到让个人开发者能在几周内复制大公司几个月的工作时,大公司的应对策略不是技术创新,而是人才收编和叙事控制。这不是强者的姿态,这是防守。
至于"技术可以被复制,但时机和信任不能"这个结论——它只对了一半。时机确实不能复制,但信任可以被摧毁。当一个开源项目的创造者转身加入商业巨头,那些最初因为信任而来的用户和贡献者,会记住这个选择。
在AI时代,最稀缺的资源既不是代码,也不是分发,而是独立性。一旦卖掉,就买不回来了。
18年嵌入式Linux经验,过去一年深度使用AI。真正让人不安的不是AI现在能做什么,而是它的加速度曲线。
一年前Claude还在研究预览阶段,Karpathy刚提出“vibe coding”形容周末随手做的项目。现在他已经弃用这个词,改称“agentic engineering”。不懂编程的人在发布真正的应用,每一代模型都让上一代的工作方式显得原始。
我曾经以5年为单位规划职业生涯,现在连2年后都看不清。那些投入多年打磨的技能——底层调试、内核内部机制、构建系统——究竟是坚固的护城河,还是正在融化的冰山?今天它们有价值,因为AI还做不好。但“AI做不到的事”这个圈子正在缩小。
我真的不确定。只能继续投资AI素养和领域专业性,希望这个组合保持相关性。但我对任何预测都不再有信心。
+ 共识正在形成:从码农到规格大师
讨论中压倒性的共识是,未来的赌注在于成为AI的“规格大师”,而不仅仅是编码者。资深开发者凭借深厚的领域知识相对安全,因为工作重心从写代码转向了写详细规格(CLAUDE.md成为新宠)和验证AI的输出。你不再是程序员,而是agent编排者。
初级开发者和CS学生的前景黯淡,很多人感觉还没开始就要被取代。新的核心技能是高层架构、发现问题的能力,以及识别AI何时自信满满地犯错。
+ 护城河在哪里?
有人指出,低级调试和内核知识并非简单的任务清单,而是“约束素养”——关于系统如何在负载下、在凌晨3点、在真实硬件上失败的直觉。AI能生成代码,但在有状态、硬件耦合的系统中仍然难以处理深层因果关系。
真正昂贵的不再是打字,而是判断力。当代码生成变得廉价,知道代码何时出错的能力变得珍贵。持久的护城河不是写代码,而是验证代码。在加速时代生存的工程师不会是最快的建造者,而是最好的验证者。
一位开发者分享了实战经验:用Claude并行运行5个agents,真正的工作变成了撰写详细的CLAUDE.md文件和审查它们的差异。18年嵌入式经验意味着你知道规格应该说什么——这才是护城河。
+ 软技能的逆袭
有趣的是,越来越多人认为纯技术技能正在商品化。能与客户交流、制定计划、审查、测试和部署功能的人,现在相当于拥有一整个初级工程师团队来完成所有编码工作。
产品意识+AI素养可能是未来十年的黄金组合。编码部分正在快速商品化,但理解客户真正需要什么并将其转化为有用的东西,仍然很难自动化。非技术CEO不想成为CTO,他们需要能接电话说“修好它”的人,而不是自己跟提示词打交道。
一位临床研究护士提供了另一个视角:AI将显著改变她的工作,但主要是向好的方向。大量数据审查、录入和修正工作是愚蠢的,AI做得更好。如果她只需要打针、抽血、知情同意、体检和教育部分,每天能看的患者至少翻倍。工作将变成监督和验证AI的管理工作,而临床工作增加填补空白。
+ 逃生舱:回归物理世界
对于寻找逃生路线的人,反复出现的建议是学一门手艺。AI不能用激光脱毛、不能修管道、不能焊接……至少现在还不行。少数人认为LLM正在触及天花板,但大多数人在为大规模转变做准备。
有人半开玩笑地说要成为美容师,“因为没人信任AI给自己的屁股激光脱毛”。也有人计划做电工、木匠或护理——那些需要在现场、与真实物理世界交互的工作。
+ 系统性思考的价值
一位开发者犀利地指出:AI在自我纠正方面很糟糕。它擅长构建输入输出清晰明确的工具,但当这些输入输出需要改变时呢?AI只是工程工具,目的是加速人类工作流程,而不是取代它。人类仍然拥有真正的自我纠正能力、直觉和系统思维。
未来最受保护的人是那些不断寻找需要解决的问题、知道如何用AI更快理解和解决问题的人。在编程世界,最安全的人是问题发现者,而在过去仅仅是个好程序员和解决方案提供者就能过关。
+ 冷静的声音
也有人保持相对乐观:我们可能正在看到的不是模型本身的重大进步,而是工具使用和我们围绕模型构建的工具链的改进。模型的上下文窗口仍然相当小,在5万到10万token级别表现最佳。
增加上下文窗口可能提升AI,但世界上的算力(和能源)有限。人脑运行功率约20W,却提供令人难以置信的算力,效率惊人。在没有突破性新型AI的情况下,我们可能已经接近可处理的上下文和模型能力的天花板。人脑仍然需要推理整个应用和架构,应用多年有机培养的长期记忆经验。这些模型训练一次后就无法学习新东西——除了上下文窗口内的内容。
+ AI不是泡沫,是汽车时刻
一位即将退休的IT老兵提供了历史视角:大多数一厢情愿的人只是将AI视为即将破裂的泡沫。坦白说,如果我25岁刚开始科技职业生涯,我不知道该怎么办。但AI不是泡沫,它是汽车发明后的那个时刻——人类是马,AI是汽车。
唯一确定的是:那些冻结不动、等待确定性的人可能会被甩在后面。但没有确定性,只有行动。选一个工具开始用,让它教你如何使用它。人类不会消失,工作会转变但不会消失。总得有人决定构建什么、跨团队协调、做判断、与客户交谈、设定方向。