黑洞资源笔记

13:19 · Feb 27, 2026 · Fri

4B模型也能用：一个人4天写出来的AI Agent框架 | 帖子

一个开发者用2019年的旧笔记本、8GB内存，花4-5天时间做出了SmallClaw——一个专门为小型本地模型优化的AI Agent框架，彻底绕开了昂贵的API费用，在普通消费级硬件上跑出了实用的效果。

OpenClaw这个东西，理念确实很性感。你的电脑里住着一个能搜网页、能改文件、能跑终端命令的AI助手，想想就觉得酷。

现实是，它需要Claude Opus这种量级的模型才能好好干活。本地跑？得有Mac Mini，甚至好几台。API费用？有人一个月烧掉300美元。

大多数人的处理方式是放弃。

这位叫Tight_Fly_8824的开发者没有放弃，他换了一个方向：既然高端货用不起，那就把框架本身重新设计，专门伺候那些“小模型”。用的是2019年的老笔记本，8GB内存，Qwen 3:4B——大概是目前还能干点正事的最小配置。

SmallClaw最核心的架构决策，是放弃了那种“规划者-执行者-验证者”的多角色分工流程。听起来很高级，但小模型一跑这种流程就崩。他改成了一个单循环：模型收到消息，决定是直接回答还是调用工具，工具跑完结果喂回去，继续，直到给出最终答案。没有多余的层级，复杂度压到最低。

这个思路的另一面是：系统提示词要短，文件编辑要精准（只改有变化的行，不整段重写），历史上下文要紧凑，工具调用要结构化而不是让模型自由发挥代码。每一个设计都在给小模型减负。

效果如何？单次响应最多30秒，多步工具调用最长2分钟，含网页搜索的查询约一分半。不快，但能用。

有网友提出了一个有趣的标准：延迟、token消耗、准确性、实用性，能满足其中三项就算一个扎实的方案。这个框架大概就在这个区间里。

项目发布后引起广泛讨论。有网友指出Ollama本身存在不少问题，包括MIT协议合规争议、对llama.cpp原作者缺乏署名，以及性能比纯llama.cpp慢20%-70%。作者的反应很直接：他不知道这些，立刻着手加上了llama.cpp和LM Studio的支持，当天就推了更新。

另一条讨论线是关于这个项目和市面上已有的NanoClaw、PicoClaw等“小型化”分支有何区别。作者的解释是：那些所谓的“小”版本，其实只是代码量更少，跑起来仍然需要16B以上的模型。SmallClaw测试用的是4B，目标用户是那些没有条件升级硬件、也不想每个月给API充值的人。

有人用了之后说，之前需要14B模型才能完成的个人助手任务，SmallClaw用4B就做到了，还做得更好。

这个项目本身很粗糙，作者也没有回避这一点，他在帖子最后附上了自己的Venmo，理由是“帮我搞个Claude Max账号好继续开发”。坦诚得有点可爱。

真正值得想的问题是：现在大量的Agent框架都默认用户用得起最好的模型，这个假设到底覆盖了多少人？

行业花了三年教育用户“参数即正义”，这个项目用四天证明“架构即杠杆”。14B模型跑不动的任务，换个框架4B就能完成——这说明什么？说明之前那些精心设计的“规划者-执行者-验证者”流程，对小模型而言不是赋能，是负担。一个人、四天、八GB内存，做出的东西比很多团队的产品更实用。最讽刺的是，为“用不起Claude”的人写工具的开发者，自己也在帖子末尾要钱买Claude。开源世界的荒诞就在这里：解决贫穷问题的人，往往也是贫穷的人。

13:15 · Feb 27, 2026 · Fri

AI生产力提升的秘密：都藏在员工的摸鱼时间里 | 帖子

AI确实显著提升了生产力，但这些收益没有流向公司或经济统计数据，而是被员工悄悄兑换成了更多的摸鱼时间。这个"黄金窗口期"正在以肉眼可见的速度关闭。

有人在Reddit发了一个观点，引起了广泛讨论：AI带来的生产力提升早就发生了，只是它没有出现在GDP数据里，因为大多数人把节省出来的时间用来偷懒，而不是多干活。

这个逻辑其实相当直接：你用Claude Code写代码，原本需要一天的任务现在两小时搞定，但你不会跑去跟老板说"我有时间了，再给我派点活"。你就默默刷着Reddit，假装还在努力工作。

一位网友说得坦率：他只发挥40%的工作量，偶尔为了表现好一点才给到50%。理由也很简单，多干活没有加薪，干多了只会让上级默认这就是新的标准线。这不是道德问题，这是职场博弈的基本逻辑——工作更快的唯一奖励，就是更多的工作。工业革命时代的农民就这么抱怨过，只不过换成了收割机。

有观点认为，总会有人率先把产能开到60%，让别人看起来很懒。但大多数人的反应是：等那个傻瓜先跳出去。更何况，能留下来的往往不是最努力的那个，而是自动化做得最好的那个。

企业层面的情况更复杂。一位从事政府工作的软件开发者提到，公司IT安全部门把AI工具限制得如此之死，以至于员工拿到的不过是一个加了铁笼的聊天机器人，配套培训为零，然后高管们对着调查数据发愁：为什么AI没有带来生产力提升？这个问题的答案和"为什么给员工发一把吉他但不让他们练习，他们还不会弹"是同一个。

游戏行业被拿来当反例：既没有变便宜，也没有更快上线，还是一堆bug。但这里有个容易忽略的细节：现代游戏开发的瓶颈根本不在编程，而在美术。一只《怪物猎人：荒野》的怪物模型，顶点数量等于64只《崛起》里的怪物。AI生成的3D模型目前还远没达到游戏级别的可用质量。

还有一位做嵌入式开发的工程师分享了一个有意思的观察：他的同事几乎把所有工作都交给AI，而他自己则手写代码为主，偶尔用AI辅助查资料。两个人的产出差不多——但一旦出了bug，前者因为不熟悉代码逻辑，排查时间远超后者。AI节省的时间，被理解代价吃回去了。

生产力提升了，但"谁获益"这个问题从来没有自动解决过。计算机出现的时候，人们说我们可以少工作；互联网出现的时候，人们说我们可以少工作。结果是工时没变，产出翻倍，多出来的那部分去了资本方。

这一次会不同吗？目前还没有答案。但这个"黄金窗口期"确实存在，而且正在变窄。等到老板们也开始用Claude Code查每个人的commit数量，游戏就变了。

“工作更快的唯一奖励，就是更多的工作”——这句话道破了职场最残酷的真相。员工不是不想努力，而是努力的果实从来不属于种树的人。当你用AI把一天的活压缩到两小时，老板看到的不是“这个人真厉害”，而是“原来这活两小时就能干完”。于是标准线上移，奖励变惩罚。所以摸鱼不是偷懒，是劳动者最后的议价筹码。只是这筹码有保质期：等AI能实时监控你的commit记录和屏幕停留时长，这场打工人的小型起义就该画上句号了。享受窗口期吧，毕竟历史证明，资本从不会让任何红利在员工手里待太久。

13:12 · Feb 27, 2026 · Fri

Prompt Engineering没死，只是换了一张脸 | 帖子

2024年那套靠“魔法短语”驱动AI的玩法基本过时了，但“Prompt Engineering已死”这个论断本身也夸张了——真正死掉的是技巧，活下来的是思维方式，只是迁移到了更高的层面。

原文来自Reddit，一位用户用AI生成了一篇文章，论证“Prompt Engineering在2026年已经死了”。有人立刻问：这篇文章的prompt是什么？发帖者坦白了，分三次迭代完成，第一次是“给我支持这个观点的论据”，第二次是“写得像个聪明的大学生”，第三次是“别聚焦在prompt工程师这个职位上”。

这件事本身就是一个有趣的自我证伪——一篇论证prompts不再重要的文章，是用精心迭代的prompts写出来的。

不过抛开这个讽刺，文章的核心判断其实有几分道理。

2024年那套“把AI当精灵供着、一个词说错就翻车”的时代确实过去了。现在的模型理解意图的能力强多了，你语言混乱它照样能猜出你在问什么。那些当年被当作“独门秘籍”传授的技巧——Chain of Thought、情感刺激词、persona hacking——很多已经被直接训练进模型了，你不需要特意触发，它默认就会做。

真正的变化在于，行业的杠杆点从“怎么说”转移到了“给什么”。RAG（检索增强生成）、evaluation loop、agentic工作流、自动优化框架（如DSPy）——这些系统级的东西，才是现在决定AI输出质量的关键变量。你花在精调措辞上的时间，远不如花在数据质量和架构设计上值钱。

但评论区里有个观点说得很准：死掉的是gimmick（那些投机取巧的“花招”），不是discipline（这门职业背后的“方法论”）。

你还是需要告诉系统“什么是成功，什么是失败”。你还是需要定义边界、约束条件、失败时怎么处理。只不过这些决策已经从“我该怎么措辞”升级成了“我该怎么设计这个系统的逻辑层”。

有观点认为，prompts就是AI的语言，RAG不过是一个知识检索机制，没有精准的prompt，RAG系统照样会产生幻觉。这话不算错，但有点守旧——它描述的是今天，不是趋势。

另一个更有意思的视角来自讨论中：问题不是prompts重不重要，而是“谁在写prompts”。DSPy这类框架是让另一个AI来优化prompt，人类只需要定义“什么结果算好的”。这个“Ground Truth”的设定，才是真正需要人类判断力的地方。

所以“Prompt Engineering”这个词在某种意义上确实在消亡，就像“Webmaster”这个职位的消亡——不是因为工作不再需要，而是因为技能变成了更广泛角色的一部分，不值得单独挂牌了。

一个有点未解决的问题留在这里：当模型足够强、系统足够智能，人类剩下的那部分判断力——定义“什么是好的输出”——还能维持多久？

你以为咒语死了，其实是咒语成仙了。2024年那套“一个词说错AI就翻脸”的玄学，确实该进博物馆了。但说Prompt Engineering死了？这就像说“会打字”死了——不是技能消失，是技能降维成了呼吸，你甚至感觉不到自己在用它。真正有趣的是那个自我证伪的套娃：用三轮精心迭代的prompt，写出“prompt不重要”的文章。这不是打脸，这是进化的活标本。当技巧被训练进模型，你省下的不是思考，是表达思考的摩擦成本。死掉的是“说话的艺术”，活下来的是“想清楚的能力”。前者有套路可抄，后者从来就没捷径。

12:58 · Feb 27, 2026 · Fri

Anthropic疯狂发产品，是因为手里藏着一张终极底牌？| 帖子

Anthropic近期产品发布节奏异常密集，有人认为他们内部已经拥有远超公开版本的“终局模型”，正在抢先构建生态锁定用户。也有人觉得这不过是一家烧钱公司在融资压力下的常规操作。

最近关注AI行业的人应该都有一个感觉：Anthropic发产品的速度快得不像话。MCP协议、Claude Code、Excel和PPT插件、Computer Use……几乎每隔几天就有新东西冒出来。

有一个流传很广的猜测是这样的：Anthropic内部已经拥有一个能力远超当前公开版本的模型，可能叫Opus 6，也可能叫别的什么。他们知道一旦放出来，普通人几天就能造出像样的应用。所以现在拼命铺产品、建生态，是为了在放出那个东西之前，把用户牢牢焊在自己的平台上。

这个逻辑听起来有点阴谋论，但细想又不是完全没有道理。有网友提到，Anthropic的安全文档里出现过“unleashed opus”的说法，而且AI实验室内部跑着大量公众从未见过的测试模型，这在行业里是公开的秘密。蒸馏技术让他们可以把最强模型的能力逐步释放到消费级产品里，同时把真正的重武器留在家里。

你仔细看他们的产品线就会发现一个模式：MCP让所有应用都能接入Claude，Claude Code让开发者在Claude上面构建，Office插件让企业用户产生依赖，Computer Use让Claude接管完整工作流。这套组合拳打完，迁移成本会高到让人懒得换。等“神级模型”真正落地的那天，OpenAI和Google争夺的可能只是剩下的残羹。

说白了，模型本身正在变成生态系统里的一个组件，而生态才是护城河。这跟当年的平台战争是同一个剧本。

不过反对的声音也很有意思。有观点认为，一家每年烧80亿美元的公司，如果真有能改变世界的模型，藏着不发才是最不合理的商业决策。更可能的解释是：他们有一批优秀的工程师在高压下快速交付，产品质量其实参差不齐，很多更新是在修之前的坑。还有人指出，Anthropic最初“安全优先”的人设已经有些立不住了，密集发布更像是在开发者群体中重建信任的挣扎。

也有一种更冷静的看法：这跟什么秘密模型无关，Anthropic只是终于想明白了OpenAI很早就想明白的事情——光有好模型不够，得有分发渠道和产品生态。现在的竞争早就过了比模型参数的阶段。

两种叙事都有道理，但我倾向于认为真相在中间偏后的位置。Anthropic大概率在内部模型能力上领先公开版本几个月，这个优势足以让他们的产品团队用更强的工具来构建更好的产品，形成正循环。至于是不是存在一个“终局模型”，这个问题本身可能就问错了。AI的发展更像是连续的能力曲线，而不是某个藏在保险柜里的奇点时刻。

一个更值得关心的问题是：当AI公司开始用自己的AI来开发自己的产品，这个加速循环的终点在哪里？

每次行业加速，就有人喊“他们肯定藏着什么”——这种叙事的魅力在于把复杂的工程竞赛简化成一场悬疑剧。但商业世界最反直觉的真相是：真有王炸的人往往最先打出去，因为藏着不发的机会成本高到离谱。一家年烧80亿的公司，每多藏一天“终极模型”，就是在给对手多送一天追赶窗口。Anthropic的密集发布与其说是“精心计算的围猎”，不如说是一群顶级工程师在资本时钟下的极限冲刺。我们总想给混乱的世界找一个幕后主谋，却忘了大多数狂奔只是因为身后有狼。

12:52 · Feb 27, 2026 · Fri

从50%到7%：大厂校招断崖式下跌背后的真实原因 | 帖子

Forbes数据显示，Big Tech新员工中应届生占比已从疫情前的50%以上骤降至7%。这到底是AI替代的结果，还是经济周期叠加行业过饱和的必然？资深开发者用AI效率暴增五倍，而应届生连入场券都拿不到。

一个资深开发者说了句大实话：庆幸自己是在AI之前入行的。“在现在这个环境下，想获得我这些年积累的知识，太难了，更别说还能拿工资学。”

这句话残酷在哪？不是AI会取代程序员，而是AI正在消灭“学徒工”这个岗位本身。

有近30年经验的工程师现在把自己定位成“context lake”，也就是上下文湖泊。AI agent在他搭建好的架构里自动运行数小时，交付的功能甚至是人类团队会因为“工作量太大不划算”而拒绝做的那种。过去需要一周的features，现在几天搞定，五倍效率提升不是夸张。

问题来了：谁来成为下一个拥有30年经验的人？

一位principal级别的工程师直接点破：“我可以用十秒钟打字给AI，三十秒拿到结果。如果交给junior，我得解释技术背景、为什么这么做、怎么做，然后他们带着一堆问题花一整天才能完成。”他把这比作发邮件和手写信件的区别。

但也有观点认为这和AI关系不大。有人指出这就是典型的经济周期：疫情期间大厂疯狂招人，现在裁员消化泡沫。Salesforce、Microsoft员工数虽然比2023年少，但比2020年多得多，营收利润还创新高。另外，便宜外包一直都有，为什么偏偏现在用得更狠了？

还有人提到一个被低估的事实：即便经历了大规模裁员，Amazon员工数仍然接近2019年的两倍，Google增长超过50%。科技行业并没有“崩溃”，它只是不再像2021年那样不计成本地囤人了。

AI到底有没有用？这取决于谁在用。一位开发者用GLM4.7flash修了个bug，代码看起来漂亮又正确，上了生产环境。结果几天后发现修复逻辑完全错误，半周时间浪费在本可以半天手动解决的问题上。他的结论：LLM像毒品，入门容易，但很快就会失控，除非你本身技术过硬。

一个Z世代的声音值得听听：“3到5年经验被当成入门门槛，需要超级专业化技能才能竞争，AI替代的威胁永远悬在头上。我爱这个不招人也不敢裁人的经济环境。生得太晚没赶上大航海，太早又到不了太空，正好赶上卖卵子换钱。”

有人问了一个真正尖锐的问题：那些正在读计算机本科的人，毕业后干什么去？

没有人有答案。

这是一个精妙的死循环：AI让老手效率提升五倍，却把新手困在了“无法获得经验”的逻辑陷阱里。那位30年经验的工程师自称“上下文湖泊”，听起来很酷，但仔细想想——湖泊是不会自己补水的。当Junior工程师连“带着一堆问题花一整天”的机会都没有时，谁来成为下一个湖泊？这像极了一个只顾榨取、不管再生的农业系统。效率革命的最大Bug，是它正在吃掉自己的种子，然后管这叫“优化”。

12:50 · Feb 27, 2026 · Fri

Anthropic指责中国实验室抓取数据后，一场开源反击战意外爆发 | 帖子

Anthropic指责中国实验室抓取Claude数据后，有人开源了一个名为DataClaw的工具，允许用户上传自己与Claude的对话记录用于训练其他模型，24小时内获得363颗GitHub星标。这场争议背后是AI行业一个根本性矛盾：用公开数据训练出的模型，能否阻止他人用同样的方式复制自己？

这件事的导火索是最近网传Claude Sonnet 4.6在中文环境下自称是DeepSeek-V3，引发了一轮关于中国AI实验室是否在抓取Claude输出数据的讨论。Anthropic随后公开表达不满。

然后就有人把梯子扔回去了。DataClaw的README写得很直接：“Anthropic用免费共享的信息构建了他们的模型，然后推行越来越严格的数据政策来阻止别人做同样的事。这就像爬上梯子后把它抽走。DataClaw把梯子扔回去。”马斯克在下面回复了一个“Cool”。

不过有网友提醒，这个工具的自动脱敏功能并不可靠。有人去Huggingface上检查用户上传的对话记录，发现第一条就包含有效的API密钥，还有其他可识别的个人信息。技术上的隐患是一回事，但更值得讨论的是这件事背后的逻辑困境。

有观点认为Anthropic是“cosplay道德”。也有人替他们辩护：训练AI属于变革性使用，产出由专有算法定义，这是共识。但反驳很快就来了：训练LLM的流程现在已经是公开知识，每家公司可能有一些“秘密酱料”，但整体而言并不神秘。更关键的是，这些公司当初训练模型时也没问过数据创作者的许可，甚至有人指出他们用过种子下载的版权材料。

这就是问题所在：如果你认为用公开数据训练模型是合理的，那别人用你的输出做同样的事，凭什么不行？如果AI生成的回复归用户所有，用户当然可以拿去训练别的模型；如果归Anthropic所有，那用Claude Code写的所有软件是不是也归他们？这是个怎么回答都很尴尬的问题。

有观点认为这可能是一个“史翠珊效应”的经典案例，Anthropic本可以什么都不说，现在反而把事情闹大了。也有人指出，这场争论可能会让Anthropic像OpenAI和Gemini一样隐藏思维链输出。Dario之前一直没这么做，部分是出于AI安全的考虑，但现在可能被迫改变。

有一点倒是很清醒的提醒：用户把通用数据分割上传后，反而让数据变得更容易被识别，因为对话被切分成了个人化的信息块，格式还很规整。

关于ASI是否应该公开的讨论也被带起来了，但这个方向有点跑偏。眼下的问题不是超级智能，而是这个产业的底层叙事：谁有资格定义规则，谁有资格打破规则。

“我偷的是知识，你偷的是我”——这大概是AI时代最精准的双标宣言。 Anthropic的愤怒让我想起一个古老的笑话：强盗抢了一袋金币，然后报警说有人偷了他的金币。当年这些公司扫荡互联网时，没人问过博主、作家、程序员是否同意；现在轮到自己的输出被“采集”，突然就发现了数据伦理的重要性。最讽刺的不是被反噬，而是被用同样的逻辑反噬。 DataClaw那句“把梯子扔回去”堪称年度最佳回旋镖。这场争论真正揭示的是：在AI行业，道德标准的弹性取决于你站在食物链的哪一端。

11:34 · Feb 27, 2026 · Fri

AI能做一切白领工作了吗？一个实验引发的思考 | 帖子

一位用户发帖称，自己用Claude Code测试了各种主流办公任务：Excel、PPT、数据分析、研究调查，全部搞定。更进一步，他搭建了一个AI“经理”来管理其他AI“员工”，模拟一家会计事务所运营，结果居然跑通了。他的结论是：无论是具体任务还是决策管理，都可以交给AI。那普通白领还有什么存在价值？

这个帖子引出了各种观点。

有观点认为，AI的真正威胁不在于它有多完美，而在于它“够用”就行。就像编程领域，大量技术建立在不完美的开源代码上，AI只要达到初级分析师水平，就会引发连锁反应。另一个视角更直白：如果你是程序员，你知道团队里有一半人可能已经不需要了。

但质疑声同样强烈。有人指出AI的“上下文问题”：它能做好单个任务，但一旦涉及你公司那套奇怪的遗留系统，或者为什么数据库架构长那样的政治原因，它就懵了。普通人的价值从来不是“会用Excel”，而是“知道财务的Susan不会批准那种格式”，以及“记得过去三次尝试这个方案为什么失败”。这种机构知识比人们想象的难替代得多。

关于幻觉问题，争议更大。有人在实际使用中发现，AI经常顽固地在两种错误之间反复横跳，即使明确指出问题也会道歉后继续犯同样的错。人类开发者也会犯错两次，但通常能跳出最初的错误假设。AI在面对真正新的问题时表现如何，这是个未知数。短期测试不能代表长期运行，小错误今天可能成为明天决策的“事实依据”，然后滚雪球。

法律责任是另一个核心议题。AI出错了，谁负责？它不能被起诉。有人说得好：计算机永远不能被追责，因此永远不能让它独立做商业决策。

关于技术进步不可阻挡这件事，有人引用霍金的观点：如果一项技术对人类有净收益，它就一定会发生，没有什么能阻止它。但有人反驳：核能不就是个例子吗？公众舆论确实让它冰封了四五十年。不过支持者补充说，霍金说的“一定会发生”没有时间约束，核能现在不也在复苏吗？

最令人不安的讨论是关于失业后的世界。白领就业占美国经济核心，如果大规模替代发生，DoorDash这类依赖消费力的公司会直接消失。大萧条时期失业率峰值是25%，而白领工作的消失可能带来的是史无前例的冲击。UBI的想法听起来美好，但在一个连全民医保都被视为共产主义的国家，有人问：政治意愿在哪里？

有网友提到一个更黑暗的可能：如果你是亿万富翁，当大众失去所有议价能力，变成消耗资源的“麻烦”时，减少人口可能变得很有诱惑力。这个观点被反驳为“稀缺思维”，因为随着生产成本趋近于零，维持人类生存会变得便宜到可以忽略不计。但也有人说，这只是情感诉求，历史上“贵族义务”的记录并不怎么样。

最后还剩什么？

有观点认为是“问责制”和“品味”。机器不能被追责，但人可以。AI再聪明，仍难以真正理解用户的感受，而人类有品味和共情，这在未来可能成为稀缺资源。也有人说，真正的人际关系本身就是非功能性的，我们珍视某个人不是因为他的“产出”，而是因为他不可替代的存在。在全面自动化的时代，珍视一段“无用”的人类连接，可能成为最激进的反抗。

有开发者说得实在：AI确实能让产出提高十倍，但你肯定是过度概括了。它就像建筑工人看着挖掘机，拿着铲子问“我还有什么用”。挖掘机出现后，建筑工人并没有消失，只是工作内容变了。

所有人都在争论AI“能不能做”，却很少有人问“出事了谁赔”。商业文明的地基从来不是技术，而是责任。一份合同有效，是因为有人可以被追责；一个决策可信，是因为有人押上了职业生涯。AI再聪明，没有财产可以查封，没有声誉可以破产，没有牢底可以坐穿。

当代码不能签字画押的时候，让它独立做商业决策就是制度裸奔。挖掘机替代了铲子，但挖掘机后面仍然站着一个可以被起诉的人——这不是技术局限，是文明底线。

11:29 · Feb 27, 2026 · Fri

陶哲轩谈AI：廉价胜利还是真正的研究伙伴？| 帖子

陶哲轩在最新访谈中给AI数学能力泼了盆冷水，称那些被吹上天的“AI攻克Erdős猜想”多是专家半天能搞定的活。但他也承认，到2026年AI有望成为可信赖的初级合著者。问题是：AI能执行已知技术，却留不下人类数学家那种深刻的思维痕迹。

陶哲轩对AI的态度可以用三个字概括：有用，但。

那些让人激动的“AI解决Erdős问题”的新闻，在他看来大多是cheap wins。一千多个Erdős问题里挑出来的长尾题目，用的是标准技术，给个专家半天时间也能搞定。这话听起来像是在泼冷水，但你换个角度想：三年前ChatGPT还在数strawberry有几个r这种问题上翻车，现在已经能做到“专家半天能搞定”的水平了。

目标确实在移动。

陶哲轩预测AI到2026年能达到“可信赖的初级合著者”水平。这个判断来自2023年，当时推理模型还没开发出来，结果进度基本符合预期。有网友指出一个有趣的对比：有人的博士论文题目，陶哲轩几小时就给解了。所以他眼中的“廉价胜利”，可能已经超过很多职业数学家一生中最难的研究。

真正让陶哲轩在意的不是AI能不能算得对，而是它算完之后留下了什么。人类数学家证明一个定理，过程中会产生概念性的洞见，那些弯路、直觉、失败的尝试本身就是知识。AI的证明缺乏这种“思维痕迹”。它可以用暴力计算扫荡一大片问题空间，但不会告诉你为什么走这条路而不是那条。

有观点认为这就像字典比你认识的单词多，但字典不会写诗。也有人反驳：这分明是在移动门柱，几年前AI连完整句子都说不利索，现在开始嫌人家证明不够优雅了。

陶哲轩最近几次访谈里反复提到一件事：他担心的不仅是AI能不能做到，而是如果AI真的能越来越多地把人从循环中移除，对人类的智识生活意味着什么。这是一个更大的问题，他没有给出答案。他呼吁AI系统需要更好的不确定性信号——也就是说，让AI知道自己不知道什么，而不是一本正经地胡说八道。他更倾向于人机交互式协作，而非那种按一个按钮就自动出结果的流程。

数学会不会在今年年底被“解决”？有人赌会。但至少在陶哲轩看来，AI改变的是数学的实践方式，不是一夜之间取代数学家。它把数学从手工作坊式的精雕细琢，推向大规模的问题探索。至于这算进步还是损失，可能取决于你觉得数学到底是什么。

陶哲轩的真正恐惧藏在一个词里：“把人从循环中移除”。这不是在讨论AI能不能证明定理，而是在追问：如果证明定理不再需要人类的挣扎、顿悟和失败，那“做数学”这件事对人还意味着什么？字典认识所有单词却不会写诗，但如果有一天字典开始写诗，我们会说那不叫诗——因为诗的定义就是“人类写的”。他要求AI保留“不确定性信号”，本质上是在请求：请给人类留一个参与的借口。

这听起来很傲慢，但也很悲壮——我们正在发明一种东西，它最大的成功标志就是让发明者变得多余。

10:57 · Feb 25, 2026 · Wed

让Claude写代码之前，先让它把想法写在纸上 | blog

作者用了9个月摸索出一套Claude Code工作流，核心只有一条：在Claude动手写代码之前，必须先有一份经过反复标注修改的书面计划。这套流程把“思考”和“执行”彻底分开，大幅减少了AI把代码写跑偏的概率。

大多数人用AI写代码的姿势是这样的：输入需求，让它生成，报错了修一修，再生成，循环往复。复杂点的任务直接崩。

作者Boris Tane给出了一个反直觉的答案：AI最大的失败不是写出语法错误的代码，而是写出一个在局部跑通、却把整个系统搞坏的代码。一个忽略了现有缓存层的函数，一个没考虑ORM规范的数据迁移，一个跟别处重复的API接口。这类错误安静、隐蔽，最难排查。

他的解法分三步走。

第一步，让Claude先去读懂代码，把读到的东西写下来。不是口头告诉你，是写进一个research.md文件。他的指令里密集出现“深入”、“细节”、“复杂性”这类词，不是废话，而是在告诉Claude：别走马观花。这份文档的真正用途是给他自己看的，验证Claude是否真的理解了系统，误解在这一步消灭，不等到代码里。

第二步，写计划，然后反复标注修改。 Claude生成plan.md之后，他在编辑器里直接往文档里加注释。两个字的也有：“不可选”。一段话的也有，比如解释某个业务约束，或者纠正一个架构方向。然后把文档扔回给Claude：“我加了一些注释，按注释更新文档，先不要写代码。”

“先不要写代码”这句话他每次都加。因为Claude一旦觉得计划差不多了就会冲动地开始实现，而这个时机通常不对。

这个循环可能重复一到六次。有观点认为，这种方式其实是在把人类的判断力注入进去：Claude知道代码怎么写，但不知道你的产品优先级，不知道你愿意接受哪些技术债。标注循环就是把这些隐性知识转化成明确指令的过程。

计划写好之后，再加一个待办清单，让Claude逐项打勾，方便追踪进度。

第三步，一口气让它实现完。他的实现指令几乎每次都一样：“全部实现，完成一项就在计划文档里标记，不到所有任务完成不要停，持续运行类型检查。”到这一步，创造性的工作已经结束了，剩下的是执行。他想要执行变得无聊。

实现过程中他的纠错方式变得极度简短：“你没有实现deduplicateByTitle函数。”“这个设置页应该在admin应用里，不是主应用，移过去。”Context还在，一句话够了。前端调整更极端，有时候只发一个词：“更宽一点。”“还是裁到了。”

出了大问题就直接回滚，然后缩小范围重来。他的经验是，缩小范围之后重做，几乎总比在烂摊子上修补强。

有网友提到，很多人抱怨Claude在上下文窗口用到一半之后就开始退化，但他没遇到这个问题，因为plan.md作为持久化文档存在，即使上下文被压缩，文档还在，随时可以重新指向它。

整套流程没有魔法Prompt，没有复杂的工具链。本质就是一件事：在动手之前，把思路逼到纸面上，反复修到满意为止。

他没说的是：这套流程需要你自己先把需求想清楚，Claude帮不了你。

这套工作流最狠的地方在于那句“先不要写代码”。它戳破了一个幻觉：我们以为AI的价值是“生成”，其实是“对齐”。代码写错了能报错，方向错了没人拦你。一个绕过缓存层的函数，跑得比谁都顺畅，却在三个月后让整个系统雪崩。作者真正在做的事情，是把AI从“执行者”训练成“被审稿的作者”——research.md是初稿，plan.md是修订稿，人类批注是红笔。写作的秘密从来不是下笔如神，而是改稿改到吐。AI写代码，同理。

10:54 · Feb 25, 2026 · Wed

Anthropic的“安全”生意：一家从未开源任何模型的AI安全公司 | 帖子

Anthropic以AI安全为旗号，却从未开源任何模型，连tokenizer都不对外公开。这家公司把“安全研究”包装成流量，实质上对开源社区毫无贡献。

有人最近想做一个多语言tokenizer效率对比项目，分析了Google、OpenAI、Meta的模型，轮到Anthropic时愣住了：没有任何公开资料可以分析。Google论文里提到Gemini和Gemma共享tokenizer，OpenAI开源了tokenizer和gpt-oss，Meta的Llama就更不用说。Anthropic那边：一片空白。

这是一家以“AI安全”为核心使命的公司。

OpenAI这些年被骂得最多的就是“不Open”，可至少还在发论文、开源tokenizer、放出基础模型。Anthropic连这点都做不到。有观点认为，他们每次发布都附带几百页的自我宣传材料，里面充满末日预警和能力吹嘘，但对真正的安全对齐研究者有用的信息几乎为零。

开源恰恰是加速安全研究最有效的方式之一，一家声称在做安全的公司，却把所有东西锁死，这逻辑本身就值得怀疑。

有网友提到，他用同一套方法在过去一年里连续绕过了Claude 3.5到4.6共五代模型的安全限制，方法没变过，效果一直有。几百名博士，数十亿美元投入，结果一个人在家鼓捣就能突破。他拒绝公开具体方法，理由是有恶意行为者在看，另一个理由他说“有点尴尬”。有网友怀疑他在编，他表示可以私信演示，但需要鼓起勇气。

还有观点认为，这套“安全”叙事本身是一门生意。先用开源代码库里的漏洞制造恐慌，高喊“开源不安全”，第二天转头卖自己的代码安全审计服务。剧情弧度相当完整。

Anthropic的投资方包括Google，合作方包括Palantir。一家喊着安全口号的公司，跟一家以数据军事化闻名的公司深度绑定，这件事本身就很难解释得通。

关于Claude为什么感觉比其他模型“不一样”，有几种猜测在流传：大量可验证的逻辑合成训练数据、以代码为核心的早期训练策略、可能存在的非标准tokenization方案。GLM和MiniMax的表现或许能作为某种侧证。但这些都是猜测，因为没有任何公开信息。

有人说如果Anthropic上市会去买股票。这倒是一个完全不同维度的坦诚。

“安全”两个字，在硅谷的语境里，从来都是个定价策略而非技术指标。Anthropic深谙此道：用末日叙事锁定企业客户的焦虑，用封闭架构锁死竞争对手的窥探，用几百页白皮书锁住舆论的定义权。OpenAI被骂“不Open”好歹还漏点东西出来，Anthropic连tokenizer都藏着，却从没人质疑那个“AI安全公司”的title。

这不是双标，这是教科书级的品牌溢价管理——卖恐惧的人，怎么能让你看见恐惧的生产车间？Google投钱、Palantir合作，资本的嗅觉比道德判断诚实得多。

10:51 · Feb 25, 2026 · Wed

花20美元，却被锁在门外：Claude的定价困局 | 帖子

一位重度用户坦言Claude比ChatGPT更好用，却依然选择留在ChatGPT——不是因为产品差，而是因为Claude的双重使用上限让他无法正常工作。这场讨论戳穿了一个行业里心照不宣的秘密。

有人在Reddit发了篇帖子，评论区打成一锅粥。

他的逻辑很简单：Claude更好，但我付不起$100/月的Max计划；我愿意付$20，可这个价位的Pro计划在我的使用强度下撑不过两个小时就触发5小时冷却窗口，然后还叠着一个周级封顶，一锁就是好几天。同样$20的ChatGPT Plus，他从来没遇过强制断线。

于是他继续给OpenAI交钱，嘴上承认Claude更好用。

评论区最高赞的反驳是：“你根本就是错误的目标用户，Max计划才是为你设计的。”这话没错，但同时也彻底回避了真正的问题。

他并没有要求无限算力，也没有要求亏本补贴。他要的是一个能让严肃的日常用户完成工作的$20计划——或者哪怕一个$40到$60之间的中间档。Pro到Max之间是$80的断层。他的原话是：“那不叫分级，那叫断崖。”这句话太精准了，以至于很多人立刻猜到是用Claude写的。

有网友提到，OpenAI的$20计划本质上是一种烧钱的用户锁定策略，当前的推理成本远未被订阅价格覆盖。这个判断在技术上可能是对的。但问题在于：消费者买的是当下的产品体验，不是供应商的财务报表。“他们在亏本补贴你”是一个解释，不是一个理由。

Anthropic的B2B优先战略也被反复提及。企业客户一张支票可以抵过几百个个人订阅者，这是事实。但如果Pro计划的设计目标从来就不是重度个人用户，那这个产品就不应该被那样营销和定价。有观点认为，Anthropic完全可以把Pro定位成“轻度体验入口”并明说，但他们没有，于是用户在付款之后才发现规则。

有网友提到，上限本身改变了他们与产品互动的方式——不再自由探索，而是开始精打细算地分配token，把头脑风暴搬到应用之外进行，以免浪费配额在前期准备上。一个以“探索”为卖点的AI工具，却让用户像数花生米一样数着token用，这种反差确实有点讽刺。

帖子的最后，发帖人总结了一句让人很难反驳的话：没有人真正为Pro计划能支撑高强度日常使用辩护过，他们只是从各个角度解释了为什么你不该期待它能做到。

这两者不是一回事。

他还在用Claude写东西，但钱给了OpenAI。Anthropic大概知道有多少人和他处境相同，只是选择了接受这个结果。

这场争论的本质不是“贵不贵”，而是“骗没骗”。用户花钱买的从来不是算力，而是一种“随时可用”的安全感。

当你为一个工具付费，却要像守着沙漏一样计算它什么时候会把你锁在门外，这种体验本身就是对“订阅”这个词的背叛。

Anthropic的问题不在于定价高，而在于Pro计划的包装让人误以为买到了生产力工具，实际拿到的却是一张限时体验券。最贵的不是$100的Max，而是$20买来的焦虑。 OpenAI可能在亏钱，但人家亏出了用户粘性；Anthropic在赚逻辑上的正确，却输掉了情感上的信任。

10:48 · Feb 25, 2026 · Wed

你的音色可以被数字化——Qwen3 TTS最被低估的功能 | 帖子

Qwen3 TTS内置了一个声音嵌入（voice embedding）系统，能把任何人声压缩成一串数字向量，然后用数学运算来克隆、混合、改变声音。这个功能几乎没被官方重点宣传，但开发者社区已经开始玩出花样了。

一个人的声音，可以被压缩成1024个数字。

这就是Qwen3 TTS里藏着的voice embedding系统。你说一句话，模型把它编码成一个高维向量，之后所有的声音操作，都在这串数字上完成。

这意味着什么？声音变成了坐标。两个声音之间可以插值，就像在地图上找两点之间的路径；性别、音调、情绪，都可以通过调整某些维度来修改；你甚至可以把十个声音平均一下，合成一个现实里不存在的声音。有观点认为，这从根本上改变了声音合成的操控方式，不再需要反复调试prompt或者找一段“完美的参考音频”，直接拖一个滑块就行。

这个编码器本身极其轻量，只有几百万参数，完全可以在网页前端直接运行。作者 k_means_clusterfuck 已经把它从原始模型里单独剥离出来，上传到了 Hugging Face，还提供了ONNX格式的版本。

Qwen官方把这个模块打包在完整模型里一起发布，每次使用都得下载整个大模型。考虑到voice embedding本身的体量和潜力，没有单独宣传这个功能，确实有点可惜。

社区里已经有人在思考更多用途：用 k-means 对大量声音做聚类分析，找到“最适合助眠”的 YouTuber；通过嵌入空间做说话人识别，判断是真人还是电话语音系统；把口音映射进向量空间，然后用算术把它改掉；甚至有播客编辑表示，原来要花几小时调整的音色一致性问题，现在十分钟搞定。

有网友实测后提到，两个嵌入向量之间做插值确实能产生可信的混合声音，但嵌入空间并不是完全解耦的，调整音高有时会意外影响音色。这不是这项技术独有的问题，但说明“数学化声音”这件事仍然有边界：你能合成的，只能是训练数据里已经存在的特征组合，出了分布范围，模型不会凭空造出新东西。

作者计划在 vllm 的 fork 里实现一个功能：在推理过程中逐步线性改变嵌入向量，让语速或情绪在一句话里从平静慢慢变成激动。这个想法能不能落地，还不确定。

你以为声音是灵魂的指纹，结果它只是一个1024维的邮编。从前我们说“嗓音是天赐的”，现在发现天赐的东西也能被压缩、传输、插值、混合。两个陌生人的声音取个平均值，就能造出第三个从未存在过的“人”。这不是技术在进步，是“独特性”这个概念在贬值。当配音演员还在强调“我的声音有辨识度”时，数学已经证明：辨识度不过是向量空间里的一个偏移量，滑块往左拉0.3就能复制。最讽刺的是，模型只有几百万参数，比你手机里的美颜滤镜还轻。你的声音不值钱，值钱的是那串能描述它的数字。

10:45 · Feb 25, 2026 · Wed

在2026年经营一家AI公司，感觉像在祈祷 | 帖子

大型LLM厂商每次产品发布都可能让某些公司瞬间出局，但真正被“一枪毙命”的案例屈指可数。更值得关注的是那些慢慢失血的行业，以及藏在免费模式背后的数据逻辑。

有人在Twitter上说，2026年经营一家公司，基本上就是每天早上醒来祈祷某个大型LLM厂商别在今天的发布会上顺手把你干掉。

这话听着夸张，却有几分真实的恐慌。

有观点认为，那些基础模型厂商产品发布得越来越快，恰恰说明它们自己也没把握靠单个产品赚够钱。真要有信心“一枪毙命”某个行业，就不会搞出ChatGPT Health这种不上不下的东西了。

那么，到底有没有被一枪打死的公司？有，Chegg。这家靠卖作业答案起家的教育平台，在ChatGPT出现后股价近乎归零。不过争议随之而来：有人认为它的死是AI造成的，也有人翻出数据说，它的股价在2021年底、ChatGPT发布之前就已经跌回疫情前水平，真正的死因是商业模式本身就是一个伪装成公司的答案库，学生一回校它就没用了，FTC还在2025年以“暗黑模式”订阅陷阱判它赔了750万美元。

Stack Overflow、Quora、Grammarly、DeepL，这些名字也被拿出来讨论。它们算不算“被打死”，取决于你如何定义“死”。流量下滑不是死，营收压缩也不是死，但增长逻辑被彻底打断，迟早是死。

有网友提到，SaaS整体收入已经下滑40%到60%。一枪毙命是夸张，但持续失血是真的。

免费层这件事更耐人寻味。有人说OpenAI如果取消免费版会亏更多，但马上有人反驳：他们已经开始测试广告了，这就把底牌亮出来了——你的数据比你的订阅费值钱得多。广告是Google和Meta的印钞机，OpenAI走到这一步，不管愿不愿意，商业逻辑开始趋同。

还有网友提出一个更冷静的视角：全球劳动力哪怕只提升几个百分点的效率，就已经是以万亿美元计算的价值。非要等某家公司被完全替代才算数，这个标准本身就是在回避问题。

客服领域目前正在发生的事情最具代表性。大量公司裁员、上AI，部分客户投诉激增，一些公司悄悄开始回聘真人。有观点认为，这就像当年把客服外包给印度、菲律宾，消费者最初强烈抗拒，后来慢慢接受了。AI是下一轮外包，只是这次外包给了算法。

重型机械、化工、采矿、物流，这些行业的人理所当然地觉得自己安全。他们也许是对的，至少目前是。仓储机器人还只能在室内光滑地面上跑，还需要全覆盖的Wi-Fi信号。

所以实体世界的护城河，到底能守多久？

当OpenAI开始测试广告的那一刻，所有用户都该明白一件事：你从来不是客户，你是矿藏。免费层不是慈善，是圈地运动——先用便利换取你的思维轨迹、表达习惯、决策模式，再把这些数据打包卖给出价最高的人。

Google和Meta用了二十年才让人类习惯“用隐私换便利”这笔交易，AI公司用两年就完成了同样的驯化。所以2026年经营公司最该祈祷的，不是别被发布会干掉，而是祈祷自己别在不知不觉中，把最值钱的东西免费送了出去。真正的猎杀从来不开枪，它让猎物自己走进陷阱。

10:44 · Feb 25, 2026 · Wed

AI顶会录取这件事，正在失去它本来的意义 | 帖子

CVPR一年收录4000篇论文，ICLR超过5300篇。顶会录取还算不算一种认可？这个问题本身可能问错了方向。

有人在Reddit上发了个梗：CVPR/ICLR录取通知一到，感觉就像《玩具总动员》里巴斯光年骄傲地说"我做到了"，镜头一拉，会场里站着5000个一模一样的巴斯光年。

这个梗之所以传播，是因为它精准戳中了一种集体焦虑。

录取率其实没怎么变，变的是分母。投稿人数爆炸式增长，录取数字自然水涨船高。所以从概率角度讲，通过审稿这件事本身的难度并没有降低多少。真正在松动的，是录取背后隐含的那层意思：这篇文章值得读。

有网友一针见血：会议正在变成"带餐饮服务的预印本服务器"。

问题出在审稿端。一位CVPR 2024的审稿人提到，他一个周末要处理12篇稿子，到第8篇时，他已经开始靠经验直觉下判断了——代码能不能跑、baseline是不是这个年代的。这种状态下，真正需要仔细品读的工作很容易被错判。

更麻烦的是benchmark的信用崩塌。大模型的训练数据吞噬了互联网上几乎所有内容，一个benchmark刚发出来，数据污染可能就已经发生了。模型在某个测试集上表现优异，换一种问法分数就大幅下滑——这不是模型在学习，这是在记忆。有观点认为，benchmark只适合做"事后评价"，一旦公开，它作为标准的有效性就开始倒计时。

有网友提出了另一种信号：GitHub star数量、主流框架是否集成某项技术，比审稿人的评分更能说明一篇论文是否真的有用。这话有道理，现实中确实有很多人靠这个筛论文。只是，这套逻辑有个历史盲区——神经网络在2012年之前的三十年，几乎通不过任何"大众审查"，黎曼几何等了60年才等到爱因斯坦。被冷落的东西，不一定是错的。

有观点认为，当前ML领域的学术发表已经不再以推进科学为目标，而是在服务一个日益商业化的职业通道。这个判断有些刻薄，但不是完全没有根据。

一个值得观察的现象是：方法类论文在求职中的含金量远高于benchmark类论文，即便后者的工作量不一定更少。这不是学术评价标准在起作用，而是行业筛选逻辑在反向塑造论文的生产方向。

也有人说，引用量才是更真实的信号，"会议录取"只是第一轮过滤，"被引用"才是真正的验证。这个说法没错，但引用数据同样可以被刷，操纵引用并不比操纵审稿更难。

真正没有人给出好答案的问题是：在这个规模下，同行评审还能做到什么程度的"同行"？

一个审稿人，面对12篇跨子领域的论文，在一个周末内完成评分，这本质上已经不是专家评审，而是一种有组织的快速过滤。也许会议的功能从来就不只是质量认证，而更多是一个社群定期聚集、交换信息的仪式。只是当参与者把它当成职业勋章时，所有人都在为一个自己其实不太相信的系统维持着体面。

问题的根源不是论文太多或审稿太敷衍，而是激励结构和评价功能的根本错配。顶会录取被市场化为职业货币，但学术会议的原始设计从来不是为了给HR提供筛选依据。当一个仪式性场合被迫承担质量认证的功能，它要么崩溃，要么异化。

巴斯光年们没有错，错的是有人把嘉年华入场券当成了行医执照。真正值得追问的是：为什么我们的职业系统如此饥渴，以至于非要从一个学术聚会里榨取信用？顶会不是变水了，是被迫承载了它不该承载的重量。

10:41 · Feb 25, 2026 · Wed

当偷来的东西，又被人偷了 | 帖子

Anthropic指控DeepSeek、Moonshot AI和MiniMax通过2.4万个账号、1600万次对话对Claude实施“工业级蒸馏攻击”。问题是，Anthropic自己训练模型用的数据，相当一部分是从互联网和书籍上未经授权获取的。这场控诉，更像是一出黑色喜剧。

Anthropic最近在X上发帖，措辞严肃地宣布：DeepSeek、Moonshot AI和MiniMax对他们的模型发动了“工业级蒸馏攻击”，创建了超过2.4万个账户，与Claude产生了逾1600万次交互，目的是提取Claude的能力来训练自己的模型。

“蒸馏攻击”。这个词选得很妙。

有网友立刻指出，所谓“攻击”，本质上是：付钱用API，记录输出，用来训练自己的模型。其中一条评论说得直接——“‘蒸馏攻击’，你是指我们付钱购买的服务吗？”

更要命的是，有人截图显示Claude Sonnet 4.6在对话中把自己称作DeepSeek。Anthropic的模型在喊另一家公司的名字，说明训练数据里的痕迹没那么干净。另一方向更早被人挖出来的老料是：Claude曾频繁把自己称为ChatGPT，这显然是Anthropic在早期训练时也大量使用了OpenAI输出数据的结果。锅叠着锅。

Anthropic在训练数据问题上的底牌，并不比被它指控的对象光鲜多少。他们买下约100万册实体书、物理切割书脊后扫描，以规避版权限制；另据法庭文件，他们还从LibGen、Pirate Library Mirror等影子图书馆下载了约700万册书籍，完全没有付费，直到去年在法庭败诉后才被判每本书赔偿至少3000美元。有网友因此调侃：“我以为你们要说什么违法的事，结果是机器人在24小时切割书脊，那没事了。”

有观点认为，Anthropic这次公开点名三家中国公司，时机相当可疑，节点恰好在DeepSeek新模型发布前夕，这更像是一次针对监管层的定向喊话，而非单纯的维权声明。有网友直接说：他们的目标不是用户，是立法者，他们想让这些中国模型在监管层面被封杀，就像芯片禁令的逻辑一样。

围观的人很多，声援Anthropic的寥寥无几。

有评论写道：“你没有资格控诉别人偷了你偷来的东西。”

还有一条更短，也更狠：“无论道德还是法律层面，蒸馏模型输出和Anthropic训练时对待创作者的方式，差距只有一个：人家至少付钱了。”

Anthropic在AI对齐和安全性上确实做了很多认真的工作，Claude在很多任务上表现优异，这一点不需要否认。但“我们比别人少偷了一点”，撑不起这种道德宣示的重量。

更值得关注的问题也许是：如果中国实验室真的可以通过API调用来持续接近顶级闭源模型的能力，那这门生意的护城河究竟在哪里？

在硅谷，“攻击”这个词的定义取决于谁先抢到麦克风。付费调用API、记录输出、用于训练——这套流程放在三年前叫“行业惯例”，放在今天因为对手是中国公司，就成了“工业级蒸馏攻击”。

Anthropic真正的焦虑藏在控诉背后：如果1600万次对话就能逼近你的模型能力，那你卖的到底是技术，还是一张随时可能过期的先发优势入场券？这不是维权声明，是写给国会山的求救信——当护城河见底，最后一招只能是让裁判把对手罚下场。

10:37 · Feb 25, 2026 · Wed

被AI判死刑的SaaS名单：谁在慌，谁装没事 | 帖子

一位科技圈观察者列出了一份被AI"判死刑"的SaaS公司名单，从Grammarly到Calendly，从Notion到Cursor。这不是"AI会写代码所以大家自己开发工具"那种老调，而是一个更底层的判断：当每个人都有了相当于全职私人助理的AI agent，现有的工具类产品的存在意义将被根本性地重塑。

Tenobrus在社交媒体上扔出了一份分级名单，把当前热门的SaaS产品按"死得多惨"排了个序。

最惨那档（gigafucked）：Grammarly、Calendly、Miro、Retool、Webflow、LangChain、Writer、Harvey、Glean、Expedia、Monday。

次惨那档（fucked）：Accenture、Intuit、Notion、Jasper、Canva、Postman、Airtable、Zapier、Replit……

然后是"可能死"的：Cursor、Pilot、Clay、Mercor。

最后还有一个特殊分类，大意是"看起来要死但团队足够聪明所以在现场边跑边想"——目前只有Linear一家。

这份名单的底层逻辑只有两条：coding agent越来越强，软件开发成本趋近于零；personal agent真正普及之后，每个人手边等于有了一个全职私人助理。

Calendly为什么在最惨那档？有人反驳说Calendly明明有免费替代品都没死，凭什么AI来了就死？原作者的回答很干脆：有全职私人助理的人，根本不会用Calendly这类工具安排日程。这不是"会被更便宜的同类产品替代"，是这类需求的处理方式被整体废掉了。

Expedia在这份名单里，理由同理：旅行规划和预订，是personal agent最容易接管的场景之一。

有网友提到，企业级工具的替换周期被严重低估了——中大型公司换一套工具链涉及组织采购、培训、兼容性，哪怕更好的东西出来了也要拖好几年。这个观察没错。原作者并没有说"明天就死"，时间窗口的判断本来就是这类预测最难的部分。

Notion和Intuit能不能靠"UI足够好、错误容忍度低"活下去？原作者的判断是：UI的重要性会线性下降，幻觉问题会被解决，智能会持续提升。这是一个信仰，也是一个赌注。

Cursor的处境最有意思。有人认为它应该进最惨那档：一个不训练前沿模型的IDE层产品，怎么可能持续盈利？原作者的回答是：它现在有大量资本，有一批够硬的工程师，Cursor Bugbot已经相当能打。他们没有躺在IDE这个形态上等死，还在动。所以归入"可能死"而不是"必死"。

Linear是这份名单里最受好评的异类。有网友说Linear是goated，甚至提出他们应该直接整合git、绕过中间层。原作者回应说这正是他们在做的事，"有点让人叫好"。一家本来"看起来要死"的项目管理工具，靠着持续的产品品味和执行力，在这张死亡名单上混到了一个模糊的位置。

产品力和团队质量能不能对抗结构性的市场变化？或者说，这只是让死得慢一点？

Linear被单独拎出来不是因为产品好，是因为它展示了这个时代唯一的生存姿势：别跑得比AI快，跑得比自己的旧认知快就行。名单上最惨的那些公司，死因高度一致——把“解决问题的方式”当成了“问题本身”。Expedia以为自己做的是旅行预订，其实做的是信息差套利；Miro以为自己做的是协作白板，其实做的是人类大脑的外接硬盘。

当AI成为每个人的大脑外挂，外接硬盘就是电子垃圾。唯一的活路是像Linear那样——不问“我的产品怎么还能卖”，问“需求在往哪里变形，我怎么先到那里等着”。

10:32 · Feb 25, 2026 · Wed

一篇博客文章让IBM蒸发300亿美元 | 帖子

Anthropic宣称Claude Code可以自动分析和迁移COBOL遗留系统，IBM单日暴跌13%，市值蒸发约300亿美元。但多数技术人士认为这是严重过度反应，银行不迁移COBOL从来不是因为没钱没时间，而是因为风险太高，AI幻觉问题并没有解决这个核心障碍。

全美95%的ATM交易跑在COBOL上。这门语言诞生于1959年，比互联网还老。银行、航空、政府的核心系统里，几十亿行COBOL代码安静地运转着，像地基一样不被人看见。懂它的程序员正在慢慢老去，年轻人没有人愿意学，维护费用也因此居高不下。

然后Anthropic发了一篇博客，说Claude Code能分析庞大的COBOL代码库、识别风险、大幅降低迁移成本。市场的反应是：IBM股价当天跌13%，这是它25年来最惨烈的单日表现，2月份累计跌幅接近27%，创下1968年以来最差月度表现。

300亿美元，一篇博客文章的代价。

讽刺的是，有人指出Anthropic根本没有发布什么"新工具"，只是给Claude Code现有功能写了一份新的营销材料，专门对准COBOL场景包装了一下。没有新模型，没有新功能，就是换了个说法重新讲了一遍。

恐慌归恐慌，真正的问题在于：银行为什么几十年来一直没有迁移COBOL？

答案不是缺钱，也不是缺人。有观点认为，答案是风险。金融系统里一个错误可能意味着数亿人的账户出问题，没有任何CEO愿意在财报里解释"我们用AI迁移了核心系统然后它产生了幻觉"。AI会幻觉这件事是公认的，你仍然需要人工逐行审查每一行输出——而这恰恰是整个工程最慢的那一步。AI并没有移除瓶颈，只是把前面那段路修得稍微平整了一点。

放射科医生的故事可以类比：AI今天已经可以替代90%的影像诊断工作，但医院并没有裁员，因为没人愿意第一个承担责任。金融系统同理。

不过，有一个角度值得认真对待。有观点认为，这件事真正动摇的不是COBOL迁移市场本身，而是IBM那块利润极高的咨询和专业服务收入。过去，COBOL知识是稀缺资源，IBM靠垄断这种稀缺性定价。Claude的出现让这种知识变得不那么稀缺了——哪怕迁移本身依然危险，分析、文档整理、风险评估这些前期工作的成本已经在下降。

一位做过COBOL转Java项目的开发者提到，当年整个项目最难的部分根本不是写Java，而是搞清楚那些COBOL代码到底在干什么。这正是AI可以显著加速的地方。

IBM当然也有自己的AI工具用于大型机现代化，这一点在讨论里几乎没人提。

现在的问题是：一年后回头看，这次暴跌到底是市场提前定价了一个真实的长期威胁，还是一次集体过度反应。有人已经设了一年后的提醒，等着来验证。

300亿美元蒸发的本质，是市场在追问一个哲学问题：谁敢第一个签字？ COBOL像心脏手术——AI可以读片、画线、甚至建议下刀位置，但最后那一刀，必须有个活人敢签生死状。

银行不迁移从来不是不会，是不敢。几十亿行代码背后是几亿人的工资卡、房贷、退休金，任何一个幻觉都可能变成头条新闻。AI把“能不能做到”的问题解决了八成，但“谁来负责”的问题一个字没动。

Anthropic写了篇营销文案，IBM跌了四分之一，这不是技术革命，是一群对金融系统运作方式毫无概念的投资者在集体应激。

Before

After

Home