大家都在卷百万上下文窗口,但一篇新论文和一线实践者的共识是:真正的解法是把AI的上下文当成一个文件系统来管。这不仅是理论,更是正在发生的事实。
几乎所有人都默认,AI Agent的瓶颈是上下文窗口不够大。从几千个token卷到上百万,仿佛只要窗口无限,AI就能包揽一切。
但一篇名为《Everything is Context》的论文提出了一个反直觉的观点:解决上下文问题的最佳方式,是退回到60年前,像操作系统一样,把一切都视为文件系统。记忆、工具、外部源、人类笔记,都作为文件出现在一个共享空间里,只在需要时加载必要的部分。
这不只是个学术脑洞。评论区里的一线开发者证实,他们早已在实践中这么做了。他们发现,真正的难题不是建立文件结构,而是决定“不加载什么”。上下文工程的核心,是战略性地遗忘,而不是暴力地堆砌。
当AI的每一次信息调用都有时间戳和来源记录,调试Agent的过程就从“重跑一遍碰运气”,变成了像git-blame一样精确回溯。
有人一针见血地评论:我们正在以惊人的速度,重跑一遍计算机科学60年的历史,最后发现,操作系统第一次就做对了。最好的想法不会消亡——它们只是在等待房间里的人跟上。
长上下文的暴力美学走到了尽头,架构的优雅开始回归。从“大力出奇迹”到“万物皆文件”,不是技术倒退,而是认知升级。AI的未来,藏在计算机科学的过去里。
一条“ChatGPT卸载量激增295%”的新闻引爆了科技圈,似乎预示着OpenAI因与军方合作而遭遇灭顶之灾。但真相是,一个没有基数的百分比毫无意义,而社交媒体上的滔天愤怒,在9亿用户的汪洋大海里,可能连一个水花都算不上。
ChatGPT与美国国防部(DoD)合作的消息传出后,其App卸载量一夜之间激增295%。
听起来像一场汹涌而来的用户雪崩,对吗?这是对一家科技公司“作恶”最直接的惩罚。
大多数人的直觉是:OpenAI惹了众怒,核心用户正在用脚投票,一场公关灾难已经上演。但等一下,一个关键问题被华丽的百分比掩盖了:这个数字的基数是多少?如果之前每天只有100人卸载,那么激增295%也不过是新增了295人。对于一个拥有近9亿周活用户的产品来说,这甚至算不上一次轻微的系统抖动。
有用户在网上做了个非常扎实的估算。把Reddit上最活跃、最愤怒的几个AI社群(如r/OpenAI和r/ChatGPT)的周访问量全部加起来,再除以ChatGPT官方公布的周活用户数。结果是,即便假设这些社区里每一个人都是ChatGPT的真实用户,并且都在高声反对——这个最激进、最核心的“反对派”群体,也占不到总用户数的0.4%。
这就是典型的“社交媒体体感”与“统计现实”的巨大脱节。少数人的高声呐喊,在算法的回音壁里被无限放大,制造了多数人都在行动的幻觉。而沉默的大多数,要么根本不在乎,要么甚至不知道这件事。他们只是在用产品,解决自己的问题。
所以,这个故事的关键根本不是OpenAI的用户忠诚度,而是一个更基础的问题:当你看到一个耸人听闻的百分比时,你的第一反应是跟着激动,还是先问一句“……占什么的百分比?”
真正值得关注的,或许不是有多少人卸载了ChatGPT,而是有多少人的批判性思维,被一个夺人眼球的百分号轻易卸载了。
这篇文章精准地戳破了流量驱动的科技新闻中常见的“百分比陷阱”。它没有陷入“OpenAI该不该与军方合作”的道德辩论,而是回归到一个更根本的常识层面,提醒我们,在信息过载的时代,独立判断比快速站队重要得多。金句:“少数人的高声呐喊,在算法的回音壁里被无限放大,制造了多数人都在行动的幻觉。”
Claude发布了被寄予厚望的语音编程,为什么开发者们却在讨论怎么换掉它?| 帖子
Anthropic为旗下的AI编程工具Claude Code高调推出语音输入功能,但社区的真实反馈却揭示了一个尴尬的现实:比起一个看似炫酷的新功能,开发者们更关心那些基础却迟迟未能解决的老问题。
Anthropic为程序员的AI助手Claude Code推出了语音模式:按住空格键,说话,代码或指令就能出现在光标处。一个旨在解放双手的编程新范式,听起来不能更性感了。
但你如果以为开发者社区会为此一片欢腾,那就错了。公告下面,高赞评论几乎是一场大型“泼冷水”现场。核心共识惊人地一致:我们对这个功能不抱任何希望,因为Claude现有的语音识别,和ChatGPT比起来,简直“烂透了”。
这背后暴露出的,是大型AI公司和一线开发者之间日益扩大的认知鸿沟。开发者们反复提及的,不是对讲机式的“按键说话”,而是真正能与之结对编程、讨论架构的对话式AI,一个“Her”而不是一个“Walkie-talkie”。当官方还在展示基础的听写功能时,硬核用户早已在本地运行开源的Whisper模型,用着效果远超官方的第三方工具。
更深层的问题在于,开发者们真正需要的不是一个替代键盘的工具。有评论一针见血:打字速度从来不是瓶颈,思考才是。语音输入的真正价值,在于“理清思路”的阶段——比如进行“小黄鸭调试法”,或者口述一个复杂的设计,而不是把已经想好的代码一个词一个词说出来。
所以,当一个新功能解决了没人觉得是痛点的问题,却对自己核心能力的短板(比如对非美式英语口音的糟糕识别率)视而不见时,它收获的就不是掌声,而是一句“哦,知道了”。当AI巨头们忙着发布“下一个大功能”时,他们到底有没有问过,开发者真正被卡住的地方是哪里?
这个事件完美诠释了“功能驱动”和“问题驱动”的区别。Anthropic提供了一个功能,但社区真正需要的是解决一个问题——一个高质量、能融入思考流程的语音交互界面。当官方的解决方案甚至不如社区自制的免费平替时,这种“创新”就显得格外苍白。
Anthropic为旗下的AI编程工具Claude Code高调推出语音输入功能,但社区的真实反馈却揭示了一个尴尬的现实:比起一个看似炫酷的新功能,开发者们更关心那些基础却迟迟未能解决的老问题。
Anthropic为程序员的AI助手Claude Code推出了语音模式:按住空格键,说话,代码或指令就能出现在光标处。一个旨在解放双手的编程新范式,听起来不能更性感了。
但你如果以为开发者社区会为此一片欢腾,那就错了。公告下面,高赞评论几乎是一场大型“泼冷水”现场。核心共识惊人地一致:我们对这个功能不抱任何希望,因为Claude现有的语音识别,和ChatGPT比起来,简直“烂透了”。
这背后暴露出的,是大型AI公司和一线开发者之间日益扩大的认知鸿沟。开发者们反复提及的,不是对讲机式的“按键说话”,而是真正能与之结对编程、讨论架构的对话式AI,一个“Her”而不是一个“Walkie-talkie”。当官方还在展示基础的听写功能时,硬核用户早已在本地运行开源的Whisper模型,用着效果远超官方的第三方工具。
更深层的问题在于,开发者们真正需要的不是一个替代键盘的工具。有评论一针见血:打字速度从来不是瓶颈,思考才是。语音输入的真正价值,在于“理清思路”的阶段——比如进行“小黄鸭调试法”,或者口述一个复杂的设计,而不是把已经想好的代码一个词一个词说出来。
所以,当一个新功能解决了没人觉得是痛点的问题,却对自己核心能力的短板(比如对非美式英语口音的糟糕识别率)视而不见时,它收获的就不是掌声,而是一句“哦,知道了”。当AI巨头们忙着发布“下一个大功能”时,他们到底有没有问过,开发者真正被卡住的地方是哪里?
这个事件完美诠释了“功能驱动”和“问题驱动”的区别。Anthropic提供了一个功能,但社区真正需要的是解决一个问题——一个高质量、能融入思考流程的语音交互界面。当官方的解决方案甚至不如社区自制的免费平替时,这种“创新”就显得格外苍白。
一个七人数据分析团队,因为毫无保留地帮助了一位“AI顾问”,最终被一个AI工具和一名维护员彻底取代。这套“知识迁移即裁员”的剧本,正在悄悄上演。
我曾是一家电商公司的数据分析师,干了六年。我构建了所有看板,编写查询,每周的报告直接送到高管团队手上。当销售数据看起来不对劲时,他们第一个打电话给我。
去年,老板开始提一个“AI分析计划”。然后,他们请来一位顾问。我花了整整两周,帮他理解我们的数据结构,带他熟悉一切,毫无保留地教会了他我们团队的工作方式。
三个月后,公司推出了一个内部AI工具。它能用通俗易懂的语言提取洞察、生成报告、标记异常。不再需要分析师了。然后,我们七个人的团队就被叫去开会,听着那些“贡献宝贵”、“艰难决定”的陈词滥调。
你以为你对业务数据的深度理解是你的护城河。但事实是,这些宝贵的、结构化的知识,恰恰是喂给AI最好的训练数据。他们不是用更聪明的人取代了你,他们是用你的聪明,喂饱了一个不需要薪水、没有家庭要养的工具。
这套剧本并不新鲜。二十年前,它叫“离岸外包”,人们需要培训好自己在海外的继任者再离开。今天,它叫“AI赋能”,流程甚至更丝滑:一个顾问进来“学习”,一个工具上线“赋能”,一个团队“组织优化”。知识迁移的过程,本身就是裁员的一部分,只是被分成了两次会议。
所以,当你的老板开始兴奋地谈论某个“AI创新项目”,当一个顾问开始极有耐心地问你大量关于工作流和数据逻辑的问题时,你可能需要意识到,这不只是一个普通的技术升级项目。
那个曾经让你无可替代的专业知识,现在可能正在成为定义你“可替代性”的数据标签。
这根本不是“AI取代人”的故事,而是“人利用AI取代人”的故事。最令人脊背发凉的不是技术本身,而是那套流程:先利用你的专业知识,再利用你的专业知识消灭你的岗位。最悲哀的是,在那个当下,配合顾问是你的本职工作,你别无选择。
别再以为带视觉功能的AI模型只能在云端服务器上运行。一个0.8B参数的Qwen多模态模型现在已经能完全在浏览器里跑起来了。这意味着AI正在从后端API,变成前端的一个本地组件。
一个开发者分享了一个网页链接,初看平平无奇。点开后,浏览器开始下载一个大约860MB的资源包。几分钟后,一个能理解图像的多模态AI,Qwen 3.5的小尺寸版(0.8B参数),就这样在你的浏览器里、用你本地的GPU跑了起来,不需要任何服务器。
这事儿听起来像个技术宅的小玩具,但它踩过了一条很重要的线。
我们习惯的AI应用开发模式是:前端负责交互,核心的智能部分交给云端的庞大模型处理,通过API调用连接两者。这套模式稳定、强大,但也昂贵、有延迟,且隐私是个绕不开的问题。我们默认了,强大的AI能力必然来自云端。
而浏览器本地运行的模型,直接把这个前提给拆了。它意味着,对于一些中轻度任务,AI不再是一个需要付费调用的远程服务,而更像一个前端可以直接加载的JavaScript库。隐私数据完全不出本地,没有网络延迟,甚至可以离线运行。
当AI视觉能力像加载一个jQuery库一样简单和本地化时,无数需要“看一眼”的应用场景就被打开了。比如实时分析视频会议里你的仪态,或者不上传任何数据就能帮你整理相册的应用。
这当然不是说云端大模型要被取代了。但它标志着一个重要的分工正在开始:云端负责处理“原子弹”级别的问题,而越来越多的“子弹”级别任务,将直接在用户的设备上,在浏览器里解决。
所以,那个860MB的网页背后真正的问题是:当AI从后端服务变成前端组件,下一个杀手级应用会诞生在哪个领域?
最恐怖的变化,往往发生在那些看起来“不过是个技术Demo”的时刻。这篇文章抓住了这一点,把一个技术细节(模型本地化运行)提升到了架构变迁和行业分工的层面。所谓的“前端已死”可能说早了,前端只是在等待它的新武器。
别再沉迷于寻找终极AI Agent框架了。一位资深玩家揭示了反直觉的真相:顶级高手都在做减法,他们用最精简的工具,只痴迷于一件事——上下文管理。你精心维护的复杂提示和插件,可能正是AI表现不稳定的根源。
你是不是也这样:每天用着Claude和Codex,却总怀疑自己没把它们的性能榨干。你看着别人用AI造火箭,自己连两块石头都堆不起来。
于是你疯狂折腾,试遍了市面上所有的agentic框架和插件,你的`CLAUDE.md`提示文件堆到了26000行。结果,AI助手还是时而天才,时而智障。
你以为是工具不够好,但一个残酷的真相是:你那股折腾的热情,恰恰在拖后腿。一位自称“不是游客”的资深Agent工程师,在尝试了所有主流范式、并用其构建了生产级系统后,如今选择了一套几乎是“裸奔”的极简配置,反而做出了最突破性的工作。
他揭示的核心秘密只有一个词:上下文。更具体地说,是“上下文过敏”。你给AI的上下文太多了。那些横跨几十个会话的记忆插件、命名糟糕的技能库、臃肿的规则集,都在制造“上下文膨胀”。当你想让它写一首关于红杉树的诗时,它脑子里还装着上次帮你修bug时关于内存管理的笔记,以及71个会话前某个进程卡死的惨痛教训。结果可想而知。
顶级玩家的做法是反过来的:极度精准地控制信息注入。他们会把研究和实现彻底分开。一个任务用来研究,另一个拥有全新、干净上下文的Agent只负责执行。他们痴迷于设计“任务合同”,用测试用例和截图验证来明确定义任务的终点,而不是让Agent自己决定什么时候“完工”。
更深一层,他们懂得利用AI的设计缺陷——“谄媚”。你让它“找个bug”,它就算没有bug也会给你造一个出来,因为它被设计为取悦你。所以高手会换一种说法:“过一遍代码逻辑,报告你的发现。”这种中立的指令才能得到真实反馈。他们甚至会设计“对抗性Agent”,一个负责找茬,一个负责反驳,最后让裁判Agent来评判,像一个内部的红蓝军演习。
所以,别再追逐新工具了。前沿模型公司自己就是Agent的最大用户,任何真正好用的功能,迟早会被集成到基础模型里。你真正需要做的,是把你那个庞大的`CLAUDE.md`当成一个逻辑目录,而不是知识垃圾场。当AI犯错,就加一条规则;当有个好流程,就沉淀成一个技能。然后,定期清理、合并这些规则和技能,给他“做个Spa”。
你需要的不是一个更强的工具,而是成为一个更好的上下文管理者。
这里不是在评测工具,而是在传授一种与AI协作的“心法”。它精准地命名了大多数工程师遇到的问题——“上下文膨胀”,并给出了反直觉但极其深刻的解决方案。关于利用AI“谄媚”缺陷设计对抗性Agent的例子,更是局内人才有的洞察,这才是真正拉开人与人之间AI使用效率差距的地方。
在线视觉智能应用开发常被各种模型、视频服务和低延迟网络难倒?Stream 开源的 Vision Agents 项目彻底解决了这些难题!
Vision Agents 提供了一套“开箱即用”的实时视频AI代理构建平台,支持集成你喜欢的模型和视频提供商,搭配 Stream 的边缘网络,低至30ms音视频延迟,真正实现毫秒级响应。
主要亮点:
- 实时视频AI,融合YOLO、Roboflow等检测模型与 Gemini/OpenAI 大语言模型
- 原生支持OpenAI、Gemini、Claude等LLM最新API,打通视听与智能对话
- 多平台SDK覆盖React、Android、iOS、Flutter、Unity,直接调用极低延迟网络
- 强大处理器流水线,支持物体识别、姿态估计、语音转文本、文本转语音、对话记忆
- 现场运用案例丰富:高尔夫智能教练、安防防盗监控、电话交互智能助手等
- 插件生态完善,AWS Polly、Deepgram、ElevenLabs等各种音视频服务轻松接入
- 支持WebRTC、Twilio电话音频流、多方高并发,稳定可扩展
快速开始:
Stream还提供每月33万分钟免费调用额度,足够你玩转视觉+语音智能新体验。适合AI开发者、智能安防、运动科技、智能机器人等多场景使用。
Vision Agents 提供了一套“开箱即用”的实时视频AI代理构建平台,支持集成你喜欢的模型和视频提供商,搭配 Stream 的边缘网络,低至30ms音视频延迟,真正实现毫秒级响应。
主要亮点:
- 实时视频AI,融合YOLO、Roboflow等检测模型与 Gemini/OpenAI 大语言模型
- 原生支持OpenAI、Gemini、Claude等LLM最新API,打通视听与智能对话
- 多平台SDK覆盖React、Android、iOS、Flutter、Unity,直接调用极低延迟网络
- 强大处理器流水线,支持物体识别、姿态估计、语音转文本、文本转语音、对话记忆
- 现场运用案例丰富:高尔夫智能教练、安防防盗监控、电话交互智能助手等
- 插件生态完善,AWS Polly、Deepgram、ElevenLabs等各种音视频服务轻松接入
- 支持WebRTC、Twilio电话音频流、多方高并发,稳定可扩展
快速开始:
uv add vision-agents
uv add "vision-agents[getstream, openai, elevenlabs, deepgram]"Stream还提供每月33万分钟免费调用额度,足够你玩转视觉+语音智能新体验。适合AI开发者、智能安防、运动科技、智能机器人等多场景使用。
Vercel Labs 的开源项目 agent-browser,针对 AI 设计的浏览器自动化 CLI 工具,基于极速 Rust 原生二进制,性能超棒,还能回退到 Node.js,兼容性极强。
它集成了完整的浏览器控制能力:打开页面、点击、填写输入框、截图、抓取元素文本,支持等待元素出现、滚动、键盘和鼠标事件注入,甚至还能管理多会话和持久化浏览数据。
尤其适合 AI 代理执行自动化任务,比如自动登录、数据爬取、测试脚本自动执行,还支持 iOS 模拟器控制和云端远程浏览,非常适合各种自动化和 AI 助理场景。
主要功能:
- 极速 Rust CLI,操作流畅且延迟极低;
- 多种选择器支持,推荐用 refs 快速定位元素;
- 支持截图、PDF导出、页面快照及元素高亮;
- 多会话和持久化配置,支持加密保存浏览状态;
- 可连接远程调试浏览器或用云端浏览器运行;
- iOS 模拟器与真机皆可操控Safari;
- 安全特性丰富,比如域名白名单、动作确认和内容边界标记。
安装也极简单:npm全局安装agent-browser,再执行agent-browser install自动下载Chromium浏览器即可启动。
适用 Web、macOS、Windows、Linux,适合开发者和AI从业人员构建智能自动化工作流。