Agent 开发面临的挑战
在 AI 时代,数据易得,但高质量的上下文却难求。构建 AI Agent 时,开发者经常遇到这些挑战:
上下文碎片化:记忆在代码里,资源在向量库,技能散落各处,难以统一管理
所需上下文猛增:Agent 的长程任务在每次执行时都会产出上下文,简单的截断或压缩会导致信息损失
检索效果不佳:传统 RAG 是平铺式存储,缺乏全局视野,难以理解信息的完整语境
上下文不可观测:传统 RAG 隐式的检索链路如同黑箱,出错时难以调试
记忆迭代有限:目前记忆只是用户记忆的记录,缺乏 Agent 相关的任务记忆
OpenViking 解决方案
OpenViking 是一个开源的、专为 AI Agent 设计的上下文数据库。
我们旨在为 Agent 定义一套极简的上下文交互范式,让开发者彻底告别上下文管理的烦恼。 OpenViking 摒弃了传统 RAG 的碎片化向量存储模式,创新性地采用 “文件系统范式”,将 Agent 所需的记忆、资源和技能进行统一的结构化组织。
通过 OpenViking,开发者可以像管理本地文件一样构建 Agent 的大脑:
文件系统管理范式 → 解决碎片化问题:基于文件系统范式,将记忆、资源、技能进行统一上下文管理
分层上下文按需加载 → 降低 Token 消耗:L0/L1/L2 三层结构,按需加载,大幅节省成本
目录递归检索 → 提升检索效果:支持原生文件系统检索方式,融合目录定位与语义搜索,实现递归式精准上下文获取
可视化检索轨迹 → 上下文可观测:支持可视化目录检索轨迹,让用户能够清晰观测问题根源并指导检索逻辑优化
会话自动管理 → 上下文自迭代:自动压缩对话中的内容、资源引用、工具调用等信息,提取长期记忆,让 Agent 越用越聪明
作者:Zoë Hitzig
Hitzig 女士曾是 OpenAI 的研究员
译文见评论区
这篇文章记录了作者 Vibe Coding一个投资Agent到利用后训练技术对其进行优化的实验过程。
作者详述了使用 verl 框架对7B模型进行监督微调(SFT)和强化学习(RL)训练的经历,指出SFT虽然提升了工具使用能力但损害了推理能力。最终,通过采用GRPO算法并引入NGRPO等技巧解决奖励方差问题,他成功将小模型的表现提升至与 deepseek-chat 相当的水平。
文章强调了在缺乏成熟调试工具的情况下,通过实验性探索掌握后训练技术的重要性。
一段展示AI生成名人虚假视频的内容在Reddit引发热议。从Taylor Swift到Trump,从Epstein到Mia Khalifa,这些以假乱真的面孔让人不寒而栗。
有人调侃:「这个揭露假视频的视频,本身会不会也是假的?」这个套娃式的质疑,恰恰点出了我们正在滑入的认知深渊。
社交媒体的信任危机并非始于AI。早在深度伪造技术成熟之前,这个平台就已经被营销话术、情绪操控和虚假人设侵蚀殆尽。AI只是撕下了最后一层遮羞布。正如一位网友所说:「这些人本来就是假的,现在只是连生成方式也变假了。」
讨论中出现了一个有趣的分野。悲观者认为,一半人会什么都不信,另一半人会什么都信,而人类社会将在这种撕裂中走向崩溃。乐观者则期待AI能彻底杀死社交媒体这个怪物,迫使人们重新回归面对面的真实交流。
有人提出了一个颇具洞察力的观点:社交媒体之所以危险,恰恰因为它建立在我们对彼此的信任之上。当这种信任被系统性地利用和背叛,唯一的出路或许是回归专业信源,回归线下世界。
也有人引用了《沙丘》中的「巴特勒圣战」概念,暗示人类与AI的终极对抗或许不可避免。还有人呼吁建立某种去中心化的身份验证系统,通过面对面交换密钥来构建信任网络。
最讽刺的是,当我们讨论如何辨别真假时,这场讨论本身就发生在一个充斥着匿名账号和不可验证身份的平台上。
技术从来不是中立的。它放大人性中已有的东西。社交媒体放大了我们对认同的渴望,AI则放大了我们制造幻象的能力。当每个人都能批量生产「真相」,真相本身就成了最稀缺的资源。
二十多岁时收到的最好建议:没人在乎。
你赢的时候,没人在乎。你输的时候,也没人在乎。这不是说没人爱你,而是说没有人会像你自己那样在意你的人生。
这话乍听刺耳,细想却是解药。
我们总以为有一群观众在盯着自己的一举一动,随时准备评判。但真相是:大多数人忙着应付自己的焦虑,根本没空关注你的。你以为的聚光灯,其实只是自己打在自己身上的。
想想看,有多少冒险死在了“别人会怎么想”这句话里。不敢创业,不敢发表作品,不敢离开一份让你窒息的工作。但如果你把镜头拉远,大多数人看到你的决定,点点头,然后继续刷手机。
有人说得好:你没那么有趣。这话听着扎心,却是事实。还记得别人当众出丑的场景吗?两小时后你就忘了。你对别人如此,别人对你也一样。
一旦接受这个设定,压力就消失了。你不再为一个根本不存在的观众表演,开始真正为自己建造。停止等待许可,停止寻求掌声,直接行动。
有个程序员说,他花了两个月重构代码,后来意识到自己对“速度”的焦虑,不过是演给一个根本没在看的观众。没人在乎你的延迟,他们只在乎产品到手时好不好用。
这就是关键:人群的漠然是中性的,不是残忍的。它剥掉了虚构的压力,逼你成为自己的领导者。那些真正接受这一点的人,不再追逐认可的循环,开始安静地积累真正的筹码。
没人来救你,但也没人拦着你。既然一切都取决于你,那么力量也在你手里。
去失败十次吧,没人会记得。然后成功一次,人们会表现得好像你一直在赢。
MIT教授在Zoom课上忘关屏幕共享,意外暴露了自己的批改系统:47篇论文,12分钟搞定。
他的方法很简单。把学生论文和评分标准一起丢进NotebookLM,让AI逐篇对照标准评估,标记偏离预期的部分。
真正有意思的是下一步:他让AI交叉比对每个学生历次提交的写作风格,结果揪出三例风格突变的可疑情况。这种跨时间维度的模式识别,人眼几乎不可能完成。
最后一步才是点睛之笔:AI为每个学生生成个性化反馈,把薄弱点和具体课程材料精准关联。以前6小时的苦差事,现在15分钟收工,学生拿到的反馈质量反而更高。
批改从折磨变成了真正的教学。
评论区炸了。有人问:学生用AI写,教授用AI批,反馈AI生成,诚信AI检测,人类还剩什么?
这个问题问得好,但问反了。
当重复性劳动被卸载,人类反而能做回该做的事。一位数学老师说,他见过文科同事批作业批到崩溃,认真给反馈的人往往要花好几天。工具解放的不是责任,是被琐事吞噬的时间。
当然有人担心AI会出错。但NotebookLM有个特性:它只基于你喂给它的资料输出,不会凭空编造。这让它在学术场景下格外可靠。
更深一层的悖论是:教授们一边告诫学生不要用AI,一边自己悄悄用得飞起。这不是虚伪,而是现实在倒逼诚实。也许真正该教的,是如何与AI协作,而不是假装它不存在。
教育的核心从来不是批改本身,而是让学生知道自己哪里不会、该看什么。AI恰好擅长这个。
有人用纯C从零实现了一个GPT,没有PyTorch,没有autograd,连numpy都没有。前向传播、反向传播、Adam优化器、文本采样,全部手写。
严格来说这不是GPT的架构复刻,而是精神继承。没有可学习参数的LayerNorm,用的是RMSNorm;激活函数是Squared ReLU而非GELU;tokenizer是字符级的,不是BPE。但核心机制一个不少:embedding、多头因果自注意力、残差连接、MLP、交叉熵损失。
这篇文章真正的价值在于:它把transformer从黑盒API调用变成了你能用for循环和指针算术理解的东西。
当你看到attention就是两层嵌套循环做点积再softmax再加权求和,当你看到backprop就是把这些操作反过来一步步算偏导,那种"这玩意儿到底在干嘛"的困惑就消失了。
用C而不是Python来做这件事有独特的教学意义。numpy的广播和PyTorch的autograd隐藏了太多细节,C强迫你面对每一次内存访问、每一次循环、每一次乘法。框架让你高效,但也让你无知。
几个值得注意的实现细节:softmax加交叉熵的梯度简化被清晰展示了,就是那个经典的prob减one_hot;RMSNorm的反向传播推导是很多人会卡住的地方,这里给出了完整实现;KV cache不是作为优化技巧引入,而是作为架构的自然组成部分。
当然这不是生产级代码。batch size是1,梯度噪声极大;静态内存分配在某些系统上可能直接栈溢出;没有梯度裁剪。但教学代码的目标从来不是能用,而是能懂。
Karpathy的llm.c是这个方向的标杆,工程质量完全不在一个量级。这篇更像是micrograd精神在C语言中的投射:教学优先,能跑就行。
如果你想真正理解attention的每一个梯度是怎么流动的,这篇值得逐行读一遍。理解一个系统最好的方式,永远是亲手把它拆开再装回去。