Claude Code 2.1.20版本悄悄做了一件事:把所有文件读取和搜索操作的详细信息,压缩成了一行毫无意义的摘要。
以前你能看到它读了哪些文件、搜了什么关键词。现在你只能看到“读取了3个文件”。哪3个?不告诉你。“搜索了1个模式”。什么模式?不重要。
这不是一个无关痛痒的界面调整。对于在大型代码库中工作的开发者来说,看到AI正在读取哪些文件,是判断它有没有跑偏的唯一窗口。一位管理多个业务领域的CTO说得很精准:他只需要在前三秒确认Claude看的是正确的代码目录,然后就可以放心切到下一个任务。这三秒的信息密度,和其他任何形式的“详细输出”完全不是一回事。
一位使用屏幕阅读器的无障碍公司CTO的反馈更令人深思:视力正常的用户失去的是便利,而他失去的是对工具的信任。屏幕阅读器没有“扫一眼”这个概念,文字要么被朗读出来,要么就不存在。新版本给他的选择变成了“零信息”或“信息洪水”,而之前那个中间地带恰恰是最具可访问性的方案。
GitHub上多个issue里,用户的诉求高度一致:恢复内联显示文件路径,或者至少给一个配置开关。Anthropic的回应是:试试详细模式。
问题在于,详细模式会把思考过程、子代理输出、钩子日志全部倾泻到终端里。用户要的是一根针,给的是一个草垛。于是Anthropic开始反复手术般地从详细模式中剥离各种输出,试图让它变得“不那么详细”。这本质上是用最复杂的方式重新发明了一个配置开关。
更讽刺的是,原来真正使用详细模式查看思考过程的用户,现在反而需要额外按快捷键才能找回自己原有的功能。修一个问题,制造两个问题。
Anthropic团队成员Boris的回应倒是坦诚:随着模型越来越强,代理运行时间从几十秒延长到几小时甚至几天,终端输出量急剧膨胀,他们需要管理默认视图的信息密度。他承认对部分用户“没有达到预期”,并表示会持续迭代。
这个解释合理,但暴露了一个更深层的产品哲学问题。
一位产品经理一针见血:在“改善用户体验”的旗号下简化和移除有用信息,是产品管理中最经典的错误。犯这个错误的根源,是不够深入地理解用户为什么觉得某些信息有价值。很多人被教导“精简和移除是正面的”,尤其当非专家用户的声音占据注意力时,这种错误就更容易发生。
这里有一个被反复忽视的常识:开发者工具的用户喜欢可配置性。这就是为什么IDE至今还保留vim键位绑定和无数选项。当你的用户是高技能专业人士时,让他们自己决定想看什么,永远比替他们决定更安全。
有人把这件事上升到了更宏观的视角:Anthropic的品牌正在危险地滑向“AI界的微软”。微软在90年代末完全统治市场,但做了一些根本性的选择,用向导和“下一步”按钮隐藏了复杂性,结果培养了一代被简化的开发者。苹果则做了一个极具战略眼光的决定:在BSD基础上重建操作系统,与Linux生态对齐。两种选择,两种命运。
当然,也有冷静的声音指出:三十个在GitHub上抱怨的人,并不能代表Claude Code的全部用户群。那些觉得新界面更清爽的人不会专门开一个issue说“谢谢,挺好的”。产品决策永远是在不完整信息下的权衡。
但权衡的前提是尊重。一个布尔值的配置项,实现成本远低于反复改造详细模式。当三十个人说“给我们一个开关”,而回答始终是“让我帮你调整详细模式”的时候,这不是在倾听,这是在用自己的方案替代用户的需求。
这件事的本质其实不是一个UI争论。它折射出AI工具进入主流市场时必然面对的张力:当用户群从极客扩展到大众,产品该向哪个方向倾斜?简化默认体验没有错,但把专业用户的合理需求推到一个叫“详细模式”的角落里,然后反复重新定义这个模式的含义,这不是渐进式改良,这是在回避一个本该直面的设计决策。
模型在变强,代理在变长,终端在变拥挤。但解决信息过载的方式,应该是给用户更精细的控制权,而非替他们决定什么值得看。毕竟,你卖的是一把手术刀,不是一个黑箱。
前GitHub CEO Thomas Dohmke宣布创办新公司Entire,拿到6000万美元种子轮融资,估值3亿美元。投资方包括Felicis领投,Madrona、M12等跟投,个人投资者阵容也颇为豪华。他的愿景是为AI代理时代重建整个软件开发生命周期。
第一个产品是一个开源命令行工具,核心概念叫“Checkpoints”。做的事情说起来很简单:当AI代理生成代码并提交时,自动将完整的对话上下文、提示词、文件变更、token用量等信息作为元数据写入Git。代码本身不变,只是多了一层“为什么这样写”的记录。推送时,这些元数据会存入一个独立分支,形成一份只增不删的审计日志。
目前支持Claude Code和Gemini CLI,Codex和Cursor CLI即将跟进。
这个产品试图解决一个真实存在的问题:AI代理的会话是短命的。提示词活在终端里,推理过程活在上下文窗口中。一旦关闭会话,生成这些代码的决策链路就彻底蒸发了。Git记录了“改了什么”,却从不记录“为什么改”。当代理每次会话生成成百上千行代码时,这种上下文丢失的代价会急剧放大。
问题是真问题,争议在于解法。
网络上的讨论堪称两极分化的经典样本。支持者认为这是“AI时代的git blame”,反对者认为这是“一个10行bash脚本就能干的事”。
有意思的是,大量开发者在评论区分享了自己的土方法:有人让代理每次运行结束写一份结构化的工作总结存入markdown文件;有人用task.md做门控机制,在Claude Code的钩子里塞一张“便签”提醒代理当前任务是什么;有人把会话ID写进issue追踪系统;还有人干脆用git notes把摘要挂到提交上。这些手工方案五花八门,但都指向同一个痛点:代理生成的代码缺少可追溯的决策上下文。
当一个问题的解决方案在社区中自发涌现了几十种变体,说明需求是刚性的。但当这些变体都只需要几十行脚本,说明壁垒是脆弱的。
有人把这比作当年Dropbox在HN发布时遭遇的经典嘲讽:“我用FTP和NAS自己搭一个就行了。”这个类比既有道理也有漏洞。Dropbox面对的嘲讽来自非目标用户,而Entire面对的质疑恰恰来自它的目标用户群体。而且Dropbox发布时,普通人确实搭不出那种体验;今天任何一个用Claude Code的开发者,都能在午饭前把类似功能搭好。
更尖锐的质疑来自竞争格局:Anthropic完全可以在Claude Code里原生集成这个功能,GitHub可以把它变成平台标配。一个建在别人地基上的工具,护城河在哪里?
有一条评论看得很透:这个CLI工具本身大概率只是获取数据的入口。真正的商业逻辑藏在后面。当海量的代理推理轨迹汇聚到一个平台上,这些数据本身就是训练更好模型的燃料。另一种可能是,他们要建的其实是面向企业的AI代码协作平台,Checkpoints只是第一块砖。
6000万美元的种子轮,对一个刚发布命令行工具的公司来说确实惊人。但风投的赌注显然押的是Thomas Dohmke这个人。前GitHub CEO的身份意味着行业人脉、企业销售通道、以及对代码托管平台核心逻辑的深度理解。一位评论者说得直白:风投买的是他通讯录的保鲜期。
也有冷静的声音指出,开发者工具领域的成功案例几乎都是草根项目解决自身痛点后自然生长出来的,极少有靠巨额融资从天而降的。Git本身就是Linus解决自己版本管理需求的产物,GitHub是在git已经大量普及之后才找到了产品化的切入点。
讨论中最有深度的一个观察是:我们正处在一个奇特的时期。所有人都在为AI代理的工作流构建工具,但没人真正知道最终的工作流长什么样。Entire押注的是一个我们尚不确定是否需要的方案。这种豪赌在风投逻辑里完全合理,在工程逻辑里却充满风险。
当技术浪潮还在剧烈翻涌时,最聪明的策略未必是造船,而是先学会游泳。
第一个产品是一个开源命令行工具,核心概念叫“Checkpoints”。做的事情说起来很简单:当AI代理生成代码并提交时,自动将完整的对话上下文、提示词、文件变更、token用量等信息作为元数据写入Git。代码本身不变,只是多了一层“为什么这样写”的记录。推送时,这些元数据会存入一个独立分支,形成一份只增不删的审计日志。
目前支持Claude Code和Gemini CLI,Codex和Cursor CLI即将跟进。
这个产品试图解决一个真实存在的问题:AI代理的会话是短命的。提示词活在终端里,推理过程活在上下文窗口中。一旦关闭会话,生成这些代码的决策链路就彻底蒸发了。Git记录了“改了什么”,却从不记录“为什么改”。当代理每次会话生成成百上千行代码时,这种上下文丢失的代价会急剧放大。
问题是真问题,争议在于解法。
网络上的讨论堪称两极分化的经典样本。支持者认为这是“AI时代的git blame”,反对者认为这是“一个10行bash脚本就能干的事”。
有意思的是,大量开发者在评论区分享了自己的土方法:有人让代理每次运行结束写一份结构化的工作总结存入markdown文件;有人用task.md做门控机制,在Claude Code的钩子里塞一张“便签”提醒代理当前任务是什么;有人把会话ID写进issue追踪系统;还有人干脆用git notes把摘要挂到提交上。这些手工方案五花八门,但都指向同一个痛点:代理生成的代码缺少可追溯的决策上下文。
当一个问题的解决方案在社区中自发涌现了几十种变体,说明需求是刚性的。但当这些变体都只需要几十行脚本,说明壁垒是脆弱的。
有人把这比作当年Dropbox在HN发布时遭遇的经典嘲讽:“我用FTP和NAS自己搭一个就行了。”这个类比既有道理也有漏洞。Dropbox面对的嘲讽来自非目标用户,而Entire面对的质疑恰恰来自它的目标用户群体。而且Dropbox发布时,普通人确实搭不出那种体验;今天任何一个用Claude Code的开发者,都能在午饭前把类似功能搭好。
更尖锐的质疑来自竞争格局:Anthropic完全可以在Claude Code里原生集成这个功能,GitHub可以把它变成平台标配。一个建在别人地基上的工具,护城河在哪里?
有一条评论看得很透:这个CLI工具本身大概率只是获取数据的入口。真正的商业逻辑藏在后面。当海量的代理推理轨迹汇聚到一个平台上,这些数据本身就是训练更好模型的燃料。另一种可能是,他们要建的其实是面向企业的AI代码协作平台,Checkpoints只是第一块砖。
6000万美元的种子轮,对一个刚发布命令行工具的公司来说确实惊人。但风投的赌注显然押的是Thomas Dohmke这个人。前GitHub CEO的身份意味着行业人脉、企业销售通道、以及对代码托管平台核心逻辑的深度理解。一位评论者说得直白:风投买的是他通讯录的保鲜期。
也有冷静的声音指出,开发者工具领域的成功案例几乎都是草根项目解决自身痛点后自然生长出来的,极少有靠巨额融资从天而降的。Git本身就是Linus解决自己版本管理需求的产物,GitHub是在git已经大量普及之后才找到了产品化的切入点。
讨论中最有深度的一个观察是:我们正处在一个奇特的时期。所有人都在为AI代理的工作流构建工具,但没人真正知道最终的工作流长什么样。Entire押注的是一个我们尚不确定是否需要的方案。这种豪赌在风投逻辑里完全合理,在工程逻辑里却充满风险。
当技术浪潮还在剧烈翻涌时,最聪明的策略未必是造船,而是先学会游泳。
一位发表过150多篇论文的教授坦言:每次坐下来写作,感觉都像在湿水泥里拖行。你盯着空白页面,大脑死机,两小时后写出一段明天大概率会删掉的话。而隔壁同事同样的教学负担、同样的截止日期,一学期交了三篇。
你以为他们更自律、更有天赋、有更多“受保护的写作时间”。都不是。他们有一套系统。
这个区别至关重要。你不是不会写作,你是不会“怎么写”。
写作看似一件事,实际上是六种认知过程同时运转:决定写什么、选择怎么表达、记住读者是谁、追踪前文写过什么、规划下文写什么、判断写得好不好。六个进程同时跑,相当于浏览器开了59个标签页,然后纳闷为什么电脑像喷气发动机一样响。
多数人以为写作难是因为意志力不够。真正的问题是,写作同时向大脑索取了太多东西。
这套系统的核心是五个协议,每一个瞄准一个认知瓶颈。
第一,倒序组装。绝大多数人从标题写到结论,这在认知上完全是反的。引言要求最高的认知负荷,你要框定问题、定位贡献、向读者许诺,而此刻你手里的素材最少。这就像托尔金还没把霍比特人带出绿龙酒馆,就试图写夏尔的收复战。正确的顺序是:图表、方法、结果、讨论、引言、摘要。每一步都用上一步生成的素材,你永远不会面对一张白纸问自己“该写什么”。骑自行车下坡,而不是推着爆胎的车上山。
第二,零稿协议。人脑有两种模式:生成模式和评估模式,它们在神经层面互相排斥。生成是发散的、快速的;评估是收缩的、挑剔的。两者都吃工作记忆,而工作记忆极其有限。同时生成和评估,就像一脚踩油门一脚踩刹车。所以:设定25到45分钟计时器,尽可能快地写,不修改错别字,不查文献,大量使用占位符。你在往沙箱里铲沙子,之后才能堆城堡。采石的时候没法雕刻。
第三,结构模板。每个写作决策都消耗心智燃料。成熟的模板把结构选择变成填空题,释放工作记忆去做真正的智识劳动。摘要用“背景、问题、方案、发现、贡献”五段式;引言用斯韦尔斯的“建立领地、确立空缺、占据空缺”三步法;方法用“语境化、描述、论证”循环;结果用“提醒、描述、解释”循环;讨论从窄到宽,先总结发现,再扩展到领域影响。别即兴发挥,按公式来。
第四,用AI做陪练,不做代笔。AI会编造引用、生成通用文本,缺少你的智识指纹。但它极其擅长卸载特定认知任务:让它做反向大纲提取,找出论证薄弱处;让它扮演挑剔的审稿人,提前发现方法论漏洞;让它做清晰度编辑,优化表达但不改变意思。拳王阿里有陪练伙伴,但上场挥拳的永远是他自己。
第五,分层修改。多数人看到什么改什么,一个错别字、一个弱词。这极其低效,你可能精心打磨了一段话,结果发现整节都要砍掉。房子着火的时候擦银器,注意力可嘉,优先级全错。永远按这个顺序修改:结构、清晰度、风格、校对。从大到小,因为大的改动会让小的改动作废。
这五个协议合在一起,把写作从意志力的消耗战变成了流水线作业。你的大脑是一台超级计算机,别让它同时杂耍,给它顺序明确、边界清晰的任务。
发表过300多篇论文的学者Lennart Nacke分享了一张经典的论文结构图,揭示了学术写作中一个被低估的真相:好论文的结构像沙漏,先收窄,再放开。
摘要是论文的门面,四句话定生死:问题是什么,怎么研究的,发现了什么,意味着什么。多一句都是累赘。
引言的任务是"圈地"。先画一个大圈,告诉读者这个领域大家都在研究什么;然后指出圈里有块空地,前人没踩过;最后宣布:这块地,我来占。学术写作中最有力量的一句话往往是"It remains unclear why",因为它既承认了前人的贡献,又为自己的研究找到了存在的理由。
方法和结果是沙漏最窄的部分。这里没有修辞的空间,只有事实。数据怎么收集的,用什么方法分析的,发现了什么。克制住解释的冲动,让数据自己说话。
讨论部分沙漏重新张开。你的发现和前人的研究有什么关系?能推导出什么结论?有什么局限?未来可以往哪里走?好的讨论像一场对话,既回应过去,也指向未来。
有人说这和PPT演讲的逻辑一样:我要讲什么,我在讲什么,我刚讲了什么。确实如此。人类理解信息的方式是相通的,学术写作的结构本质上是对认知规律的尊重。
沙漏结构的精妙之处在于:它强迫你在最该精确的地方精确,在最该开阔的地方开阔。很多论文被拒,问题往往出在结构失衡,该窄的地方太散,该宽的地方又太紧。
LocalLLaMA社区最近爆发了一场集体吐槽,起因是一张海绵宝宝梗图,精准戳中了所有人的痛点:垃圾信息、机器人水军、还有那些让人哭笑不得的“vibe coding恶意软件”。
讽刺的是,一个专门研究本地大模型的技术社区,正在被AI生成的内容反噬。
版主透露,过去九小时删除了55条垃圾帖。但问题在于,即便清理完明显的垃圾,剩下的内容质量依然堪忧。那些用Claude写的自我推广帖,作者甚至懒得花五分钟亲自写一段介绍。AI让你编码快了100倍,却连写个帖子的时间都省了?
社区总结出几个经典的“AI味”特征:两段话里塞39个表情符号,LinkedIn式的空洞措辞,还有那句永恒的开场白“我们很高兴地宣布”,点开代码一看,明明就一个人加一个Claude。
有人贴出了一个典型的AI回复样本,开头是“强大的RTX 3090战斗站”,结尾是火箭和肌肉表情,中间推荐的居然还是Llama-2-13B和Mistral 7B这些老模型。这种回复在社区里随处可见,热情洋溢,却完全答非所问。
更危险的是那些vibe coding项目。有人发现某个被大肆宣传的工具存在严重安全漏洞,指出后作者先是否认,等AI帮他修复后又承认确实是“极端安全问题”,然后恼羞成怒删帖重发。这种人还会卷土重来,带着下一个漏洞百出的项目。
一位用户的评论很有意思:我们天天研究AI,却不想被AI内容包围。这听起来矛盾,但用户来这里是想和真人交流,不是和机器人对话。
llama.cpp是好东西,离它越远,离垃圾越近。这句话道出了某种本质:真正有价值的技术往往朴素,而那些花里胡哨的包装器、编排器、一键安装器,大多是噪音。
有人提议对项目推广帖实施更严格的规则:如果整篇帖子都是AI生成的,直接删除。这在AI社区禁止AI使用,听起来反直觉,但或许正是必要的自我保护。
当每个人都能用AI生成内容,内容本身就不再稀缺。稀缺的是判断力,是愿意花时间思考和表达的人。技术社区的价值从来不在于信息量,而在于信噪比。
大多数人用 NotebookLM 的方式是:上传 PDF,问几个基础问题,得到摘要。这和用搜索引擎没什么本质区别。
但斯坦福的顶尖学生玩法完全不同。
他们上传课堂笔记后,第一个问题是:“根据这份材料,最可能出现的三道考试题是什么?”
然后追问:“把这些概念和上周的阅读材料串联起来,生成一份学习指南。”
最后:“设计几道综合题,把今天的内容和之前的作业结合起来。”
这套流程的本质是什么?不是让 AI 帮你复习,而是让它扮演你的教授。
有人把这个方法论拆解得很透彻:普通学生把 NotebookLM 当检索工具,顶尖学生把它当预测引擎。
第一步“预测考题”,本质是强迫模型把材料映射到评估目标上,大幅缩小学习范围。第二步“跨周串联”,是在建立因果结构,孤立的记忆只会制造噪音,关联才能暴露盲点。第三步“生成练习题”,形成闭环:生成、测试、纠错。
学生不再是信息的消费者,而是在不断迭代反馈循环。
这就是为什么原本六小时的交叉引用工作,十五分钟就能完成。你在考试前就开始消除不确定性,而不是等到考完才知道自己哪里不会。
当然,这套方法有个风险:虚假的信心。
AI 是根据上下文推断模式,不是根据真实的评分标准。如果不和往年真题、教学大纲交叉验证,你可能只是在优化模型的猜测,而非现实。
正确的用法是把 NotebookLM 当作“观察放大器”,而非权威。上传笔记、生成预测、用真实材料验证、再迭代。
有医学院学生说,这根本不是什么秘密,他们早就这么干了。也有工程系学生泼冷水:对于那些考题和课堂内容完全脱节的硬核课程,这招不灵。
最有意思的批评来自一位教育者:这些学生学会的是如何破解考试,而不是真正理解知识为什么存在这样的关联。长期来看,这是一种贫瘠的学习方式。
但话说回来,考试本身测试的就是关联能力,而非单纯记忆。掌握 AI 辅助的模式识别的学生,会跑赢那些只会死记硬背的人。
学习的本质正在改变:从被动吸收,变成持续的预测与纠错循环。
以下是16个可以拿来就用的提示词:
一、提取核心问题
"分析所有输入内容,生成5个关键问题,回答这些问题就能抓住所有材料的核心要点。"Reddit用户称之为"改变游戏规则"的方法。它迫使AI提取有教学价值的结构,而非肤浅的摘要。
二、讲座笔记专用
在上述基础上聚焦:核心主题与定义、重点强调的概念、概念间的关系、提到的实际应用。
三、"有趣之处"提示词
NotebookLM的产品总监Steven Johnson用这个提示词处理了50万字的NASA访谈记录,20秒完成了10小时的手工活:"这些资料中最令人惊讶或有趣的信息是什么?请附上关键引文。"传统搜索能找到相关性,但找不到"有趣性"。
四、定向挖掘版
"我想写关于某主题的文章。这些资料中与该主题相关的最令人惊讶的事实或想法是什么?请附上关键引文。聚焦某具体方面,忽略其他方面。"
五、问答节目格式
让AI主持人互相出题,故意答错让纠正过程加深记忆。学生们特别喜欢这个。
六、多语言播客
在官方语言支持出现之前,用户就用这招生成西班牙语、德语、日语播客:"这是Deep Dive的首期国际特别节目,全程使用某语言。除非需要解释专有术语,否则不使用英语。"
七、产品经理视角
把文档变成决策备忘录,聚焦用户证据、可行性检查、盲区分析。
八、科研助理视角
为需要方法论而非结论的学者设计,聚焦样本量、实验设计、统计显著性,而非泛泛的结论。
九、中学教师视角
把复杂内容变得易懂:一句话总结、现实世界类比、三个难词的简单定义。
十、文献综述主题提取
识别5到10个最常出现的主题,说明每个主题在哪些论文中出现、如何被处理(争论、假设还是验证)。
十一、矛盾发现器
找出资料间的分歧,引用双方具体观点,分析分歧原因(方法、样本还是语境),指出什么证据能解决争议。
十二、差距分析
当你尝试某事但失败时使用。交叉对照你的做法与上传资料,找出你没遵循的方法论、完全遗漏的概念、跳过的前置条件。
十三、概念落地
把研究转化为行动步骤,每个要点都锚定具体引文,承认知识盲区。
十四、概念联结
发现想法之间不明显的联系,"综合某主题1和某主题2之间的联系,无论多抽象。"
十五、全面主题分析
最大长度、深度研究的输出。规划要探索的关键方面,区分事实与解读,用证据支撑观点。
十六、辩论格式
当你的资料本身存在分歧时使用。让两位主持人就某主题进行辩论,互相质疑,引用具体证据,让听众自己判断谁更有说服力。
这些提示词的共同智慧是:不要问AI"这是什么",要问"这里面有什么矛盾"、"我漏掉了什么"、"最反直觉的发现是什么"。好问题比好答案更稀缺。