春节雅思党必刷的8部英文电影
OpenViking:字跳开源的一个为 AI Agent 而生的上下文数据库

Agent 开发面临的挑战
在 AI 时代,数据易得,但高质量的上下文却难求。构建 AI Agent 时,开发者经常遇到这些挑战:

上下文碎片化:记忆在代码里,资源在向量库,技能散落各处,难以统一管理
所需上下文猛增:Agent 的长程任务在每次执行时都会产出上下文,简单的截断或压缩会导致信息损失
检索效果不佳:传统 RAG 是平铺式存储,缺乏全局视野,难以理解信息的完整语境
上下文不可观测:传统 RAG 隐式的检索链路如同黑箱,出错时难以调试
记忆迭代有限:目前记忆只是用户记忆的记录,缺乏 Agent 相关的任务记忆
OpenViking 解决方案
OpenViking 是一个开源的、专为 AI Agent 设计的上下文数据库。

我们旨在为 Agent 定义一套极简的上下文交互范式,让开发者彻底告别上下文管理的烦恼。 OpenViking 摒弃了传统 RAG 的碎片化向量存储模式,创新性地采用 “文件系统范式”,将 Agent 所需的记忆、资源和技能进行统一的结构化组织。

通过 OpenViking,开发者可以像管理本地文件一样构建 Agent 的大脑:

文件系统管理范式 → 解决碎片化问题:基于文件系统范式,将记忆、资源、技能进行统一上下文管理
分层上下文按需加载 → 降低 Token 消耗:L0/L1/L2 三层结构,按需加载,大幅节省成本
目录递归检索 → 提升检索效果:支持原生文件系统检索方式,融合目录定位与语义搜索,实现递归式精准上下文获取
可视化检索轨迹 → 上下文可观测:支持可视化目录检索轨迹,让用户能够清晰观测问题根源并指导检索逻辑优化
会话自动管理 → 上下文自迭代:自动压缩对话中的内容、资源引用、工具调用等信息,提取长期记忆,让 Agent 越用越聪明
NYT的一篇热文,OpenAI 正在重蹈 Facebook 的覆辙,我选择离开 OpenAI Is Making the Mistakes Facebook Made. I Quit.

作者:Zoë Hitzig
Hitzig 女士曾是 OpenAI 的研究员


译文见评论区
从 vibe coding agent 到后训练,从零开始的实验科学

这篇文章记录了作者 Vibe Coding一个投资Agent到利用后训练技术对其进行优化的实验过程。

作者详述了使用 verl 框架对7B模型进行监督微调(SFT)和强化学习(RL)训练的经历,指出SFT虽然提升了工具使用能力但损害了推理能力。最终,通过采用GRPO算法并引入NGRPO等技巧解决奖励方差问题,他成功将小模型的表现提升至与 deepseek-chat 相当的水平。

文章强调了在缺乏成熟调试工具的情况下,通过实验性探索掌握后训练技术的重要性。
当AI能伪造一切,我们还能相信什么 | 帖子

一段展示AI生成名人虚假视频的内容在Reddit引发热议。从Taylor Swift到Trump,从Epstein到Mia Khalifa,这些以假乱真的面孔让人不寒而栗。

有人调侃:「这个揭露假视频的视频,本身会不会也是假的?」这个套娃式的质疑,恰恰点出了我们正在滑入的认知深渊。

社交媒体的信任危机并非始于AI。早在深度伪造技术成熟之前,这个平台就已经被营销话术、情绪操控和虚假人设侵蚀殆尽。AI只是撕下了最后一层遮羞布。正如一位网友所说:「这些人本来就是假的,现在只是连生成方式也变假了。」

讨论中出现了一个有趣的分野。悲观者认为,一半人会什么都不信,另一半人会什么都信,而人类社会将在这种撕裂中走向崩溃。乐观者则期待AI能彻底杀死社交媒体这个怪物,迫使人们重新回归面对面的真实交流。

有人提出了一个颇具洞察力的观点:社交媒体之所以危险,恰恰因为它建立在我们对彼此的信任之上。当这种信任被系统性地利用和背叛,唯一的出路或许是回归专业信源,回归线下世界。

也有人引用了《沙丘》中的「巴特勒圣战」概念,暗示人类与AI的终极对抗或许不可避免。还有人呼吁建立某种去中心化的身份验证系统,通过面对面交换密钥来构建信任网络。

最讽刺的是,当我们讨论如何辨别真假时,这场讨论本身就发生在一个充斥着匿名账号和不可验证身份的平台上。

技术从来不是中立的。它放大人性中已有的东西。社交媒体放大了我们对认同的渴望,AI则放大了我们制造幻象的能力。当每个人都能批量生产「真相」,真相本身就成了最稀缺的资源。
Claude Code的28个官方插件,你可能只用了60%的能力 | 帖子

有人在Claude Code配置目录里发现了一个官方插件市场,藏着28个插件,大多数从未被讨论过。插件路径:

~/.claude/plugins/marketplaces/claude-plugins-official/plugins/

这些插件分两类。技术向的包括:typescript-lsp提供真正的类型检查而非猜测,security-guidance被动扫描安全漏洞,context7让Claude查阅最新文档而非依赖训练数据,playwright实现浏览器自动化测试。非技术向的有:claude-md-management自动维护项目文件,explanatory-output-style让Claude解释决策背后的原因,frontend-design引入设计系统和无障碍标准。

实测下来,typescript-lsp的代码质量提升肉眼可见,Claude不再靠猜来处理类型。security-guidance曾捕获一个Claude自己写出来却从未标记的认证绕过漏洞。context7解决了API建议过时的老问题。

但评论区的反应很有意思。高赞回复几乎都在说同一件事:这些插件根本不是什么秘密,在Claude Code里输入/plugins就能看到全部,官方文档写得清清楚楚。有人指出实际插件数量是53个而非28个,还有人发现帖子对hookify的描述完全错误。

这场讨论折射出一个更普遍的现象:人们宁愿看30分钟视频,也不愿花10分钟读官方文档。技术素养在年轻一代中正在下降,因为设备太好用了,好用到不需要理解任何底层逻辑。一位工程师说他团队里二十多岁的同事不知道"文件管理器"是什么意思。

工具的易用性和使用者的理解深度,似乎正在形成一种此消彼长的关系。当一切都能开箱即用,阅读手册就变成了稀缺能力。而那些愿意读文档的人,反而成了团队里所有人的答案来源,然后发现自己什么正事都干不了。

最实用的建议反而是最朴素的:先装三个插件用一周,再逐个添加。在CLAUDE.md里记一行:一个管代码质量,一个管安全,一个管工作流。当输出开始跑偏,禁用一个模块快速定位问题,而不是调试整个系统。
没人在乎你,这是你听过最好的消息 | 帖子

二十多岁时收到的最好建议:没人在乎。

你赢的时候,没人在乎。你输的时候,也没人在乎。这不是说没人爱你,而是说没有人会像你自己那样在意你的人生。

这话乍听刺耳,细想却是解药。

我们总以为有一群观众在盯着自己的一举一动,随时准备评判。但真相是:大多数人忙着应付自己的焦虑,根本没空关注你的。你以为的聚光灯,其实只是自己打在自己身上的。

想想看,有多少冒险死在了“别人会怎么想”这句话里。不敢创业,不敢发表作品,不敢离开一份让你窒息的工作。但如果你把镜头拉远,大多数人看到你的决定,点点头,然后继续刷手机。

有人说得好:你没那么有趣。这话听着扎心,却是事实。还记得别人当众出丑的场景吗?两小时后你就忘了。你对别人如此,别人对你也一样。

一旦接受这个设定,压力就消失了。你不再为一个根本不存在的观众表演,开始真正为自己建造。停止等待许可,停止寻求掌声,直接行动。

有个程序员说,他花了两个月重构代码,后来意识到自己对“速度”的焦虑,不过是演给一个根本没在看的观众。没人在乎你的延迟,他们只在乎产品到手时好不好用。

这就是关键:人群的漠然是中性的,不是残忍的。它剥掉了虚构的压力,逼你成为自己的领导者。那些真正接受这一点的人,不再追逐认可的循环,开始安静地积累真正的筹码。

没人来救你,但也没人拦着你。既然一切都取决于你,那么力量也在你手里。

去失败十次吧,没人会记得。然后成功一次,人们会表现得好像你一直在赢。
当教授也开始用AI批作业,教育的本质反而显现了 | 帖子

MIT教授在Zoom课上忘关屏幕共享,意外暴露了自己的批改系统:47篇论文,12分钟搞定。

他的方法很简单。把学生论文和评分标准一起丢进NotebookLM,让AI逐篇对照标准评估,标记偏离预期的部分。

真正有意思的是下一步:他让AI交叉比对每个学生历次提交的写作风格,结果揪出三例风格突变的可疑情况。这种跨时间维度的模式识别,人眼几乎不可能完成。

最后一步才是点睛之笔:AI为每个学生生成个性化反馈,把薄弱点和具体课程材料精准关联。以前6小时的苦差事,现在15分钟收工,学生拿到的反馈质量反而更高。

批改从折磨变成了真正的教学。

评论区炸了。有人问:学生用AI写,教授用AI批,反馈AI生成,诚信AI检测,人类还剩什么?

这个问题问得好,但问反了。

当重复性劳动被卸载,人类反而能做回该做的事。一位数学老师说,他见过文科同事批作业批到崩溃,认真给反馈的人往往要花好几天。工具解放的不是责任,是被琐事吞噬的时间。

当然有人担心AI会出错。但NotebookLM有个特性:它只基于你喂给它的资料输出,不会凭空编造。这让它在学术场景下格外可靠。

更深一层的悖论是:教授们一边告诫学生不要用AI,一边自己悄悄用得飞起。这不是虚伪,而是现实在倒逼诚实。也许真正该教的,是如何与AI协作,而不是假装它不存在。

教育的核心从来不是批改本身,而是让学生知道自己哪里不会、该看什么。AI恰好擅长这个。
500行C代码,把Transformer的神秘感彻底杀死 | 帖子

有人用纯C从零实现了一个GPT,没有PyTorch,没有autograd,连numpy都没有。前向传播、反向传播、Adam优化器、文本采样,全部手写。

严格来说这不是GPT的架构复刻,而是精神继承。没有可学习参数的LayerNorm,用的是RMSNorm;激活函数是Squared ReLU而非GELU;tokenizer是字符级的,不是BPE。但核心机制一个不少:embedding、多头因果自注意力、残差连接、MLP、交叉熵损失。

这篇文章真正的价值在于:它把transformer从黑盒API调用变成了你能用for循环和指针算术理解的东西。

当你看到attention就是两层嵌套循环做点积再softmax再加权求和,当你看到backprop就是把这些操作反过来一步步算偏导,那种"这玩意儿到底在干嘛"的困惑就消失了。

用C而不是Python来做这件事有独特的教学意义。numpy的广播和PyTorch的autograd隐藏了太多细节,C强迫你面对每一次内存访问、每一次循环、每一次乘法。框架让你高效,但也让你无知。

几个值得注意的实现细节:softmax加交叉熵的梯度简化被清晰展示了,就是那个经典的prob减one_hot;RMSNorm的反向传播推导是很多人会卡住的地方,这里给出了完整实现;KV cache不是作为优化技巧引入,而是作为架构的自然组成部分。

当然这不是生产级代码。batch size是1,梯度噪声极大;静态内存分配在某些系统上可能直接栈溢出;没有梯度裁剪。但教学代码的目标从来不是能用,而是能懂。

Karpathy的llm.c是这个方向的标杆,工程质量完全不在一个量级。这篇更像是micrograd精神在C语言中的投射:教学优先,能跑就行。

如果你想真正理解attention的每一个梯度是怎么流动的,这篇值得逐行读一遍。理解一个系统最好的方式,永远是亲手把它拆开再装回去。
当AI助手只需要5MB内存和10美元硬件

AI基础设施正在经历一场静默的革命。当大多数人还在为云端算力账单发愁时,一个叫ZeroClaw的开源项目证明了一件事:真正的技术突破不是堆资源,而是把资源需求降到极致。

这是一个用Rust写的全自主AI助手框架。数字很惊人:内存占用不到5MB,启动时间10毫秒以内,编译后的二进制文件只有3.4MB。作为对比,同类项目OpenClaw需要超过1GB内存,启动要500多秒。差距是两个数量级。

更有意思的是它的设计哲学。整个系统由8个核心trait构成,AI模型、消息通道、记忆系统、工具集、可观测性、运行时、安全策略、隧道服务,每一个都可以热插拔。想换AI供应商?改一行配置。想接入新的聊天平台?实现一个trait。这种"一切皆可替换"的架构,让技术选型从一次性决策变成了持续演进。

记忆系统的实现尤其值得玩味。没有依赖Pinecone,没有Elasticsearch,没有LangChain,纯粹用SQLite实现了向量数据库、全文检索和混合搜索。向量存成BLOB,关键词走FTS5,两者通过自定义权重函数融合。这种"零外部依赖"的执念,在微服务泛滥的今天显得格外清醒。

安全设计同样克制。网关默认只绑定本地地址,首次连接需要6位配对码,文件操作被限制在工作区内,14个系统目录和4个敏感配置文件被硬编码屏蔽。空的白名单意味着拒绝一切,而不是允许一切。这种"默认安全"的思路,比事后打补丁高明得多。

支持22个AI供应商,8个消息通道,50多个集成服务。能跑在Mac上,也能跑在10美元的树莓派上。ARM、x86、RISC-V通吃。

软件工程有一条被低估的真理:约束产生创造力。当你决定用Rust写、决定不依赖外部服务、决定让一切可替换时,你被迫去思考什么是真正必要的。ZeroClaw的极简不是功能缺失,而是对本质的逼近。

在AI领域,我们太习惯用更多资源解决问题了。但有时候,少即是多。
让AI自己教自己变强:5个Claude Code进阶技巧 | 帖子 | #技巧

用AI写代码的人越来越多,但大多数人只是把它当成一个高级补全工具。真正的高手在做什么?他们在教AI如何自我进化。

Luca Dellanna分享了5个他正在使用的Claude Code技巧,核心思路只有一个:让AI在工作中自动积累经验,而不是每次都从零开始。

第一招叫"自我改进注入"。设置一个全局钩子,当AI在一次任务中调用超过8次工具时,自动追加一条优化建议。可以是可复用的技能、记忆模式或工作流修复。关键在于那个"8次以上"的阈值设定。触发条件的精准度比提示内容本身更重要。在错误的任务类型上触发钩子,消耗的token比没有钩子还多。

第二招是"技能审计"。创建一个技能,列出所有已安装的技能及其代码行数,然后让用户选择哪些需要审查。审查什么?简洁性、清晰度、功能重叠、token效率。你的AI助手装了多少技能你可能都不记得了,但它们每一个都在消耗你的上下文窗口。

第三招是"配置文件审计"。让AI读取所有CLAUDE.md文件,检查冗余指令、啰嗦表述,以及可以移到记忆模块的内容。配置文件写一次就忘了,但它每次对话都在被读取。

第四招叫"反思"。让AI回顾当前对话,分析任务、错误和用户反馈,提取学习机会、技能创建和改进建议。这本质上是在对话结束时做一次复盘,把临时经验转化为持久能力。

第五招是"条件提示检查器"。当用户输入超过50个词时,自动追加一条提示,让AI确认预期结果是否清晰。提示越长,意图越容易模糊。

这些技巧的共同点是:它们都不需要复杂设置,不需要信任你不理解的第三方工具。复制粘贴那一段话就能用。

有意思的是,这套方法论的底层逻辑和管理团队很像。你不可能盯着每个细节,但你可以建立机制让系统自己发现问题、自己改进。AI工具正在从"被动执行"走向"主动学习",而推动这个转变的不是AI本身,是使用它的人。
Back to Top