4B模型也能用:一个人4天写出来的AI Agent框架 | 帖子

一个开发者用2019年的旧笔记本、8GB内存,花4-5天时间做出了SmallClaw——一个专门为小型本地模型优化的AI Agent框架,彻底绕开了昂贵的API费用,在普通消费级硬件上跑出了实用的效果。

OpenClaw这个东西,理念确实很性感。你的电脑里住着一个能搜网页、能改文件、能跑终端命令的AI助手,想想就觉得酷。

现实是,它需要Claude Opus这种量级的模型才能好好干活。本地跑?得有Mac Mini,甚至好几台。API费用?有人一个月烧掉300美元。

大多数人的处理方式是放弃。

这位叫Tight_Fly_8824的开发者没有放弃,他换了一个方向:既然高端货用不起,那就把框架本身重新设计,专门伺候那些“小模型”。用的是2019年的老笔记本,8GB内存,Qwen 3:4B——大概是目前还能干点正事的最小配置。

SmallClaw最核心的架构决策,是放弃了那种“规划者-执行者-验证者”的多角色分工流程。听起来很高级,但小模型一跑这种流程就崩。他改成了一个单循环:模型收到消息,决定是直接回答还是调用工具,工具跑完结果喂回去,继续,直到给出最终答案。没有多余的层级,复杂度压到最低。

这个思路的另一面是:系统提示词要短,文件编辑要精准(只改有变化的行,不整段重写),历史上下文要紧凑,工具调用要结构化而不是让模型自由发挥代码。每一个设计都在给小模型减负。

效果如何?单次响应最多30秒,多步工具调用最长2分钟,含网页搜索的查询约一分半。不快,但能用。

有网友提出了一个有趣的标准:延迟、token消耗、准确性、实用性,能满足其中三项就算一个扎实的方案。这个框架大概就在这个区间里。

项目发布后引起广泛讨论。有网友指出Ollama本身存在不少问题,包括MIT协议合规争议、对llama.cpp原作者缺乏署名,以及性能比纯llama.cpp慢20%-70%。作者的反应很直接:他不知道这些,立刻着手加上了llama.cpp和LM Studio的支持,当天就推了更新。

另一条讨论线是关于这个项目和市面上已有的NanoClaw、PicoClaw等“小型化”分支有何区别。作者的解释是:那些所谓的“小”版本,其实只是代码量更少,跑起来仍然需要16B以上的模型。SmallClaw测试用的是4B,目标用户是那些没有条件升级硬件、也不想每个月给API充值的人。

有人用了之后说,之前需要14B模型才能完成的个人助手任务,SmallClaw用4B就做到了,还做得更好。

这个项目本身很粗糙,作者也没有回避这一点,他在帖子最后附上了自己的Venmo,理由是“帮我搞个Claude Max账号好继续开发”。坦诚得有点可爱。

真正值得想的问题是:现在大量的Agent框架都默认用户用得起最好的模型,这个假设到底覆盖了多少人?

行业花了三年教育用户“参数即正义”,这个项目用四天证明“架构即杠杆”。14B模型跑不动的任务,换个框架4B就能完成——这说明什么?说明之前那些精心设计的“规划者-执行者-验证者”流程,对小模型而言不是赋能,是负担。一个人、四天、八GB内存,做出的东西比很多团队的产品更实用。最讽刺的是,为“用不起Claude”的人写工具的开发者,自己也在帖子末尾要钱买Claude。开源世界的荒诞就在这里:解决贫穷问题的人,往往也是贫穷的人。
AI生产力提升的秘密:都藏在员工的摸鱼时间里 | 帖子

AI确实显著提升了生产力,但这些收益没有流向公司或经济统计数据,而是被员工悄悄兑换成了更多的摸鱼时间。这个"黄金窗口期"正在以肉眼可见的速度关闭。

有人在Reddit发了一个观点,引起了广泛讨论:AI带来的生产力提升早就发生了,只是它没有出现在GDP数据里,因为大多数人把节省出来的时间用来偷懒,而不是多干活。

这个逻辑其实相当直接:你用Claude Code写代码,原本需要一天的任务现在两小时搞定,但你不会跑去跟老板说"我有时间了,再给我派点活"。你就默默刷着Reddit,假装还在努力工作。

一位网友说得坦率:他只发挥40%的工作量,偶尔为了表现好一点才给到50%。理由也很简单,多干活没有加薪,干多了只会让上级默认这就是新的标准线。这不是道德问题,这是职场博弈的基本逻辑——工作更快的唯一奖励,就是更多的工作。工业革命时代的农民就这么抱怨过,只不过换成了收割机。

有观点认为,总会有人率先把产能开到60%,让别人看起来很懒。但大多数人的反应是:等那个傻瓜先跳出去。更何况,能留下来的往往不是最努力的那个,而是自动化做得最好的那个。

企业层面的情况更复杂。一位从事政府工作的软件开发者提到,公司IT安全部门把AI工具限制得如此之死,以至于员工拿到的不过是一个加了铁笼的聊天机器人,配套培训为零,然后高管们对着调查数据发愁:为什么AI没有带来生产力提升?这个问题的答案和"为什么给员工发一把吉他但不让他们练习,他们还不会弹"是同一个。

游戏行业被拿来当反例:既没有变便宜,也没有更快上线,还是一堆bug。但这里有个容易忽略的细节:现代游戏开发的瓶颈根本不在编程,而在美术。一只《怪物猎人:荒野》的怪物模型,顶点数量等于64只《崛起》里的怪物。AI生成的3D模型目前还远没达到游戏级别的可用质量。

还有一位做嵌入式开发的工程师分享了一个有意思的观察:他的同事几乎把所有工作都交给AI,而他自己则手写代码为主,偶尔用AI辅助查资料。两个人的产出差不多——但一旦出了bug,前者因为不熟悉代码逻辑,排查时间远超后者。AI节省的时间,被理解代价吃回去了。

生产力提升了,但"谁获益"这个问题从来没有自动解决过。计算机出现的时候,人们说我们可以少工作;互联网出现的时候,人们说我们可以少工作。结果是工时没变,产出翻倍,多出来的那部分去了资本方。

这一次会不同吗?目前还没有答案。但这个"黄金窗口期"确实存在,而且正在变窄。等到老板们也开始用Claude Code查每个人的commit数量,游戏就变了。

“工作更快的唯一奖励,就是更多的工作”——这句话道破了职场最残酷的真相。员工不是不想努力,而是努力的果实从来不属于种树的人。当你用AI把一天的活压缩到两小时,老板看到的不是“这个人真厉害”,而是“原来这活两小时就能干完”。于是标准线上移,奖励变惩罚。所以摸鱼不是偷懒,是劳动者最后的议价筹码。只是这筹码有保质期:等AI能实时监控你的commit记录和屏幕停留时长,这场打工人的小型起义就该画上句号了。享受窗口期吧,毕竟历史证明,资本从不会让任何红利在员工手里待太久。
Prompt Engineering没死,只是换了一张脸 | 帖子

2024年那套靠“魔法短语”驱动AI的玩法基本过时了,但“Prompt Engineering已死”这个论断本身也夸张了——真正死掉的是技巧,活下来的是思维方式,只是迁移到了更高的层面。

原文来自Reddit,一位用户用AI生成了一篇文章,论证“Prompt Engineering在2026年已经死了”。有人立刻问:这篇文章的prompt是什么?发帖者坦白了,分三次迭代完成,第一次是“给我支持这个观点的论据”,第二次是“写得像个聪明的大学生”,第三次是“别聚焦在prompt工程师这个职位上”。

这件事本身就是一个有趣的自我证伪——一篇论证prompts不再重要的文章,是用精心迭代的prompts写出来的。

不过抛开这个讽刺,文章的核心判断其实有几分道理。

2024年那套“把AI当精灵供着、一个词说错就翻车”的时代确实过去了。现在的模型理解意图的能力强多了,你语言混乱它照样能猜出你在问什么。那些当年被当作“独门秘籍”传授的技巧——Chain of Thought、情感刺激词、persona hacking——很多已经被直接训练进模型了,你不需要特意触发,它默认就会做。

真正的变化在于,行业的杠杆点从“怎么说”转移到了“给什么”。RAG(检索增强生成)、evaluation loop、agentic工作流、自动优化框架(如DSPy)——这些系统级的东西,才是现在决定AI输出质量的关键变量。你花在精调措辞上的时间,远不如花在数据质量和架构设计上值钱。

但评论区里有个观点说得很准:死掉的是gimmick(那些投机取巧的“花招”),不是discipline(这门职业背后的“方法论”)。

你还是需要告诉系统“什么是成功,什么是失败”。你还是需要定义边界、约束条件、失败时怎么处理。只不过这些决策已经从“我该怎么措辞”升级成了“我该怎么设计这个系统的逻辑层”。

有观点认为,prompts就是AI的语言,RAG不过是一个知识检索机制,没有精准的prompt,RAG系统照样会产生幻觉。这话不算错,但有点守旧——它描述的是今天,不是趋势。

另一个更有意思的视角来自讨论中:问题不是prompts重不重要,而是“谁在写prompts”。DSPy这类框架是让另一个AI来优化prompt,人类只需要定义“什么结果算好的”。这个“Ground Truth”的设定,才是真正需要人类判断力的地方。

所以“Prompt Engineering”这个词在某种意义上确实在消亡,就像“Webmaster”这个职位的消亡——不是因为工作不再需要,而是因为技能变成了更广泛角色的一部分,不值得单独挂牌了。

一个有点未解决的问题留在这里:当模型足够强、系统足够智能,人类剩下的那部分判断力——定义“什么是好的输出”——还能维持多久?

你以为咒语死了,其实是咒语成仙了。2024年那套“一个词说错AI就翻脸”的玄学,确实该进博物馆了。但说Prompt Engineering死了?这就像说“会打字”死了——不是技能消失,是技能降维成了呼吸,你甚至感觉不到自己在用它。真正有趣的是那个自我证伪的套娃:用三轮精心迭代的prompt,写出“prompt不重要”的文章。这不是打脸,这是进化的活标本。当技巧被训练进模型,你省下的不是思考,是表达思考的摩擦成本。死掉的是“说话的艺术”,活下来的是“想清楚的能力”。前者有套路可抄,后者从来就没捷径。
Anthropic疯狂发产品,是因为手里藏着一张终极底牌?| 帖子

Anthropic近期产品发布节奏异常密集,有人认为他们内部已经拥有远超公开版本的“终局模型”,正在抢先构建生态锁定用户。也有人觉得这不过是一家烧钱公司在融资压力下的常规操作。

最近关注AI行业的人应该都有一个感觉:Anthropic发产品的速度快得不像话。MCP协议、Claude Code、Excel和PPT插件、Computer Use……几乎每隔几天就有新东西冒出来。

有一个流传很广的猜测是这样的:Anthropic内部已经拥有一个能力远超当前公开版本的模型,可能叫Opus 6,也可能叫别的什么。他们知道一旦放出来,普通人几天就能造出像样的应用。所以现在拼命铺产品、建生态,是为了在放出那个东西之前,把用户牢牢焊在自己的平台上。

这个逻辑听起来有点阴谋论,但细想又不是完全没有道理。有网友提到,Anthropic的安全文档里出现过“unleashed opus”的说法,而且AI实验室内部跑着大量公众从未见过的测试模型,这在行业里是公开的秘密。蒸馏技术让他们可以把最强模型的能力逐步释放到消费级产品里,同时把真正的重武器留在家里。

你仔细看他们的产品线就会发现一个模式:MCP让所有应用都能接入Claude,Claude Code让开发者在Claude上面构建,Office插件让企业用户产生依赖,Computer Use让Claude接管完整工作流。这套组合拳打完,迁移成本会高到让人懒得换。等“神级模型”真正落地的那天,OpenAI和Google争夺的可能只是剩下的残羹。

说白了,模型本身正在变成生态系统里的一个组件,而生态才是护城河。这跟当年的平台战争是同一个剧本。

不过反对的声音也很有意思。有观点认为,一家每年烧80亿美元的公司,如果真有能改变世界的模型,藏着不发才是最不合理的商业决策。更可能的解释是:他们有一批优秀的工程师在高压下快速交付,产品质量其实参差不齐,很多更新是在修之前的坑。还有人指出,Anthropic最初“安全优先”的人设已经有些立不住了,密集发布更像是在开发者群体中重建信任的挣扎。

也有一种更冷静的看法:这跟什么秘密模型无关,Anthropic只是终于想明白了OpenAI很早就想明白的事情——光有好模型不够,得有分发渠道和产品生态。现在的竞争早就过了比模型参数的阶段。

两种叙事都有道理,但我倾向于认为真相在中间偏后的位置。Anthropic大概率在内部模型能力上领先公开版本几个月,这个优势足以让他们的产品团队用更强的工具来构建更好的产品,形成正循环。至于是不是存在一个“终局模型”,这个问题本身可能就问错了。AI的发展更像是连续的能力曲线,而不是某个藏在保险柜里的奇点时刻。

一个更值得关心的问题是:当AI公司开始用自己的AI来开发自己的产品,这个加速循环的终点在哪里?

每次行业加速,就有人喊“他们肯定藏着什么”——这种叙事的魅力在于把复杂的工程竞赛简化成一场悬疑剧。但商业世界最反直觉的真相是:真有王炸的人往往最先打出去,因为藏着不发的机会成本高到离谱。一家年烧80亿的公司,每多藏一天“终极模型”,就是在给对手多送一天追赶窗口。Anthropic的密集发布与其说是“精心计算的围猎”,不如说是一群顶级工程师在资本时钟下的极限冲刺。我们总想给混乱的世界找一个幕后主谋,却忘了大多数狂奔只是因为身后有狼。
从50%到7%:大厂校招断崖式下跌背后的真实原因 | 帖子

Forbes数据显示,Big Tech新员工中应届生占比已从疫情前的50%以上骤降至7%。这到底是AI替代的结果,还是经济周期叠加行业过饱和的必然?资深开发者用AI效率暴增五倍,而应届生连入场券都拿不到。

一个资深开发者说了句大实话:庆幸自己是在AI之前入行的。“在现在这个环境下,想获得我这些年积累的知识,太难了,更别说还能拿工资学。”

这句话残酷在哪?不是AI会取代程序员,而是AI正在消灭“学徒工”这个岗位本身。

有近30年经验的工程师现在把自己定位成“context lake”,也就是上下文湖泊。AI agent在他搭建好的架构里自动运行数小时,交付的功能甚至是人类团队会因为“工作量太大不划算”而拒绝做的那种。过去需要一周的features,现在几天搞定,五倍效率提升不是夸张。

问题来了:谁来成为下一个拥有30年经验的人?

一位principal级别的工程师直接点破:“我可以用十秒钟打字给AI,三十秒拿到结果。如果交给junior,我得解释技术背景、为什么这么做、怎么做,然后他们带着一堆问题花一整天才能完成。”他把这比作发邮件和手写信件的区别。

但也有观点认为这和AI关系不大。有人指出这就是典型的经济周期:疫情期间大厂疯狂招人,现在裁员消化泡沫。Salesforce、Microsoft员工数虽然比2023年少,但比2020年多得多,营收利润还创新高。另外,便宜外包一直都有,为什么偏偏现在用得更狠了?

还有人提到一个被低估的事实:即便经历了大规模裁员,Amazon员工数仍然接近2019年的两倍,Google增长超过50%。科技行业并没有“崩溃”,它只是不再像2021年那样不计成本地囤人了。

AI到底有没有用?这取决于谁在用。一位开发者用GLM4.7flash修了个bug,代码看起来漂亮又正确,上了生产环境。结果几天后发现修复逻辑完全错误,半周时间浪费在本可以半天手动解决的问题上。他的结论:LLM像毒品,入门容易,但很快就会失控,除非你本身技术过硬。

一个Z世代的声音值得听听:“3到5年经验被当成入门门槛,需要超级专业化技能才能竞争,AI替代的威胁永远悬在头上。我爱这个不招人也不敢裁人的经济环境。生得太晚没赶上大航海,太早又到不了太空,正好赶上卖卵子换钱。”

有人问了一个真正尖锐的问题:那些正在读计算机本科的人,毕业后干什么去?

没有人有答案。

这是一个精妙的死循环:AI让老手效率提升五倍,却把新手困在了“无法获得经验”的逻辑陷阱里。 那位30年经验的工程师自称“上下文湖泊”,听起来很酷,但仔细想想——湖泊是不会自己补水的。当Junior工程师连“带着一堆问题花一整天”的机会都没有时,谁来成为下一个湖泊?这像极了一个只顾榨取、不管再生的农业系统。效率革命的最大Bug,是它正在吃掉自己的种子,然后管这叫“优化”。
Anthropic指责中国实验室抓取数据后,一场开源反击战意外爆发 | 帖子

Anthropic指责中国实验室抓取Claude数据后,有人开源了一个名为DataClaw的工具,允许用户上传自己与Claude的对话记录用于训练其他模型,24小时内获得363颗GitHub星标。这场争议背后是AI行业一个根本性矛盾:用公开数据训练出的模型,能否阻止他人用同样的方式复制自己?

这件事的导火索是最近网传Claude Sonnet 4.6在中文环境下自称是DeepSeek-V3,引发了一轮关于中国AI实验室是否在抓取Claude输出数据的讨论。Anthropic随后公开表达不满。

然后就有人把梯子扔回去了。DataClaw的README写得很直接:“Anthropic用免费共享的信息构建了他们的模型,然后推行越来越严格的数据政策来阻止别人做同样的事。这就像爬上梯子后把它抽走。DataClaw把梯子扔回去。”马斯克在下面回复了一个“Cool”。

不过有网友提醒,这个工具的自动脱敏功能并不可靠。有人去Huggingface上检查用户上传的对话记录,发现第一条就包含有效的API密钥,还有其他可识别的个人信息。技术上的隐患是一回事,但更值得讨论的是这件事背后的逻辑困境。

有观点认为Anthropic是“cosplay道德”。也有人替他们辩护:训练AI属于变革性使用,产出由专有算法定义,这是共识。但反驳很快就来了:训练LLM的流程现在已经是公开知识,每家公司可能有一些“秘密酱料”,但整体而言并不神秘。更关键的是,这些公司当初训练模型时也没问过数据创作者的许可,甚至有人指出他们用过种子下载的版权材料。

这就是问题所在:如果你认为用公开数据训练模型是合理的,那别人用你的输出做同样的事,凭什么不行?如果AI生成的回复归用户所有,用户当然可以拿去训练别的模型;如果归Anthropic所有,那用Claude Code写的所有软件是不是也归他们?这是个怎么回答都很尴尬的问题。

有观点认为这可能是一个“史翠珊效应”的经典案例,Anthropic本可以什么都不说,现在反而把事情闹大了。也有人指出,这场争论可能会让Anthropic像OpenAI和Gemini一样隐藏思维链输出。Dario之前一直没这么做,部分是出于AI安全的考虑,但现在可能被迫改变。

有一点倒是很清醒的提醒:用户把通用数据分割上传后,反而让数据变得更容易被识别,因为对话被切分成了个人化的信息块,格式还很规整。

关于ASI是否应该公开的讨论也被带起来了,但这个方向有点跑偏。眼下的问题不是超级智能,而是这个产业的底层叙事:谁有资格定义规则,谁有资格打破规则。

“我偷的是知识,你偷的是我”——这大概是AI时代最精准的双标宣言。 Anthropic的愤怒让我想起一个古老的笑话:强盗抢了一袋金币,然后报警说有人偷了他的金币。当年这些公司扫荡互联网时,没人问过博主、作家、程序员是否同意;现在轮到自己的输出被“采集”,突然就发现了数据伦理的重要性。最讽刺的不是被反噬,而是被用同样的逻辑反噬。 DataClaw那句“把梯子扔回去”堪称年度最佳回旋镖。这场争论真正揭示的是:在AI行业,道德标准的弹性取决于你站在食物链的哪一端。
AI能做一切白领工作了吗?一个实验引发的思考 | 帖子

一位用户发帖称,自己用Claude Code测试了各种主流办公任务:Excel、PPT、数据分析、研究调查,全部搞定。更进一步,他搭建了一个AI“经理”来管理其他AI“员工”,模拟一家会计事务所运营,结果居然跑通了。他的结论是:无论是具体任务还是决策管理,都可以交给AI。那普通白领还有什么存在价值?

这个帖子引出了各种观点。

有观点认为,AI的真正威胁不在于它有多完美,而在于它“够用”就行。就像编程领域,大量技术建立在不完美的开源代码上,AI只要达到初级分析师水平,就会引发连锁反应。另一个视角更直白:如果你是程序员,你知道团队里有一半人可能已经不需要了。

但质疑声同样强烈。有人指出AI的“上下文问题”:它能做好单个任务,但一旦涉及你公司那套奇怪的遗留系统,或者为什么数据库架构长那样的政治原因,它就懵了。普通人的价值从来不是“会用Excel”,而是“知道财务的Susan不会批准那种格式”,以及“记得过去三次尝试这个方案为什么失败”。这种机构知识比人们想象的难替代得多。

关于幻觉问题,争议更大。有人在实际使用中发现,AI经常顽固地在两种错误之间反复横跳,即使明确指出问题也会道歉后继续犯同样的错。人类开发者也会犯错两次,但通常能跳出最初的错误假设。AI在面对真正新的问题时表现如何,这是个未知数。短期测试不能代表长期运行,小错误今天可能成为明天决策的“事实依据”,然后滚雪球。

法律责任是另一个核心议题。AI出错了,谁负责?它不能被起诉。有人说得好:计算机永远不能被追责,因此永远不能让它独立做商业决策。

关于技术进步不可阻挡这件事,有人引用霍金的观点:如果一项技术对人类有净收益,它就一定会发生,没有什么能阻止它。但有人反驳:核能不就是个例子吗?公众舆论确实让它冰封了四五十年。不过支持者补充说,霍金说的“一定会发生”没有时间约束,核能现在不也在复苏吗?

最令人不安的讨论是关于失业后的世界。白领就业占美国经济核心,如果大规模替代发生,DoorDash这类依赖消费力的公司会直接消失。大萧条时期失业率峰值是25%,而白领工作的消失可能带来的是史无前例的冲击。UBI的想法听起来美好,但在一个连全民医保都被视为共产主义的国家,有人问:政治意愿在哪里?

有网友提到一个更黑暗的可能:如果你是亿万富翁,当大众失去所有议价能力,变成消耗资源的“麻烦”时,减少人口可能变得很有诱惑力。这个观点被反驳为“稀缺思维”,因为随着生产成本趋近于零,维持人类生存会变得便宜到可以忽略不计。但也有人说,这只是情感诉求,历史上“贵族义务”的记录并不怎么样。

最后还剩什么?

有观点认为是“问责制”和“品味”。机器不能被追责,但人可以。AI再聪明,仍难以真正理解用户的感受,而人类有品味和共情,这在未来可能成为稀缺资源。也有人说,真正的人际关系本身就是非功能性的,我们珍视某个人不是因为他的“产出”,而是因为他不可替代的存在。在全面自动化的时代,珍视一段“无用”的人类连接,可能成为最激进的反抗。

有开发者说得实在:AI确实能让产出提高十倍,但你肯定是过度概括了。它就像建筑工人看着挖掘机,拿着铲子问“我还有什么用”。挖掘机出现后,建筑工人并没有消失,只是工作内容变了。

所有人都在争论AI“能不能做”,却很少有人问“出事了谁赔”。商业文明的地基从来不是技术,而是责任。 一份合同有效,是因为有人可以被追责;一个决策可信,是因为有人押上了职业生涯。AI再聪明,没有财产可以查封,没有声誉可以破产,没有牢底可以坐穿。

当代码不能签字画押的时候,让它独立做商业决策就是制度裸奔。挖掘机替代了铲子,但挖掘机后面仍然站着一个可以被起诉的人——这不是技术局限,是文明底线。
陶哲轩谈AI:廉价胜利还是真正的研究伙伴?| 帖子

陶哲轩在最新访谈中给AI数学能力泼了盆冷水,称那些被吹上天的“AI攻克Erdős猜想”多是专家半天能搞定的活。但他也承认,到2026年AI有望成为可信赖的初级合著者。问题是:AI能执行已知技术,却留不下人类数学家那种深刻的思维痕迹。

陶哲轩对AI的态度可以用三个字概括:有用,但。

那些让人激动的“AI解决Erdős问题”的新闻,在他看来大多是cheap wins。一千多个Erdős问题里挑出来的长尾题目,用的是标准技术,给个专家半天时间也能搞定。这话听起来像是在泼冷水,但你换个角度想:三年前ChatGPT还在数strawberry有几个r这种问题上翻车,现在已经能做到“专家半天能搞定”的水平了。

目标确实在移动。

陶哲轩预测AI到2026年能达到“可信赖的初级合著者”水平。这个判断来自2023年,当时推理模型还没开发出来,结果进度基本符合预期。有网友指出一个有趣的对比:有人的博士论文题目,陶哲轩几小时就给解了。所以他眼中的“廉价胜利”,可能已经超过很多职业数学家一生中最难的研究。

真正让陶哲轩在意的不是AI能不能算得对,而是它算完之后留下了什么。人类数学家证明一个定理,过程中会产生概念性的洞见,那些弯路、直觉、失败的尝试本身就是知识。AI的证明缺乏这种“思维痕迹”。它可以用暴力计算扫荡一大片问题空间,但不会告诉你为什么走这条路而不是那条。

有观点认为这就像字典比你认识的单词多,但字典不会写诗。也有人反驳:这分明是在移动门柱,几年前AI连完整句子都说不利索,现在开始嫌人家证明不够优雅了。

陶哲轩最近几次访谈里反复提到一件事:他担心的不仅是AI能不能做到,而是如果AI真的能越来越多地把人从循环中移除,对人类的智识生活意味着什么。这是一个更大的问题,他没有给出答案。他呼吁AI系统需要更好的不确定性信号——也就是说,让AI知道自己不知道什么,而不是一本正经地胡说八道。他更倾向于人机交互式协作,而非那种按一个按钮就自动出结果的流程。

数学会不会在今年年底被“解决”?有人赌会。但至少在陶哲轩看来,AI改变的是数学的实践方式,不是一夜之间取代数学家。它把数学从手工作坊式的精雕细琢,推向大规模的问题探索。至于这算进步还是损失,可能取决于你觉得数学到底是什么。

陶哲轩的真正恐惧藏在一个词里:“把人从循环中移除”。这不是在讨论AI能不能证明定理,而是在追问:如果证明定理不再需要人类的挣扎、顿悟和失败,那“做数学”这件事对人还意味着什么?字典认识所有单词却不会写诗,但如果有一天字典开始写诗,我们会说那不叫诗——因为诗的定义就是“人类写的”。 他要求AI保留“不确定性信号”,本质上是在请求:请给人类留一个参与的借口。

这听起来很傲慢,但也很悲壮——我们正在发明一种东西,它最大的成功标志就是让发明者变得多余。
让Claude写代码之前,先让它把想法写在纸上 | blog

作者用了9个月摸索出一套Claude Code工作流,核心只有一条:在Claude动手写代码之前,必须先有一份经过反复标注修改的书面计划。这套流程把“思考”和“执行”彻底分开,大幅减少了AI把代码写跑偏的概率。

大多数人用AI写代码的姿势是这样的:输入需求,让它生成,报错了修一修,再生成,循环往复。复杂点的任务直接崩。

作者Boris Tane给出了一个反直觉的答案:AI最大的失败不是写出语法错误的代码,而是写出一个在局部跑通、却把整个系统搞坏的代码。一个忽略了现有缓存层的函数,一个没考虑ORM规范的数据迁移,一个跟别处重复的API接口。这类错误安静、隐蔽,最难排查。

他的解法分三步走。

第一步,让Claude先去读懂代码,把读到的东西写下来。 不是口头告诉你,是写进一个research.md文件。他的指令里密集出现“深入”、“细节”、“复杂性”这类词,不是废话,而是在告诉Claude:别走马观花。这份文档的真正用途是给他自己看的,验证Claude是否真的理解了系统,误解在这一步消灭,不等到代码里。

第二步,写计划,然后反复标注修改。 Claude生成plan.md之后,他在编辑器里直接往文档里加注释。两个字的也有:“不可选”。一段话的也有,比如解释某个业务约束,或者纠正一个架构方向。然后把文档扔回给Claude:“我加了一些注释,按注释更新文档,先不要写代码。”

“先不要写代码”这句话他每次都加。因为Claude一旦觉得计划差不多了就会冲动地开始实现,而这个时机通常不对。

这个循环可能重复一到六次。有观点认为,这种方式其实是在把人类的判断力注入进去:Claude知道代码怎么写,但不知道你的产品优先级,不知道你愿意接受哪些技术债。标注循环就是把这些隐性知识转化成明确指令的过程。

计划写好之后,再加一个待办清单,让Claude逐项打勾,方便追踪进度。

第三步,一口气让它实现完。 他的实现指令几乎每次都一样:“全部实现,完成一项就在计划文档里标记,不到所有任务完成不要停,持续运行类型检查。”到这一步,创造性的工作已经结束了,剩下的是执行。他想要执行变得无聊。

实现过程中他的纠错方式变得极度简短:“你没有实现deduplicateByTitle函数。”“这个设置页应该在admin应用里,不是主应用,移过去。”Context还在,一句话够了。前端调整更极端,有时候只发一个词:“更宽一点。”“还是裁到了。”

出了大问题就直接回滚,然后缩小范围重来。他的经验是,缩小范围之后重做,几乎总比在烂摊子上修补强。

有网友提到,很多人抱怨Claude在上下文窗口用到一半之后就开始退化,但他没遇到这个问题,因为plan.md作为持久化文档存在,即使上下文被压缩,文档还在,随时可以重新指向它。

整套流程没有魔法Prompt,没有复杂的工具链。本质就是一件事:在动手之前,把思路逼到纸面上,反复修到满意为止。

他没说的是:这套流程需要你自己先把需求想清楚,Claude帮不了你。

这套工作流最狠的地方在于那句“先不要写代码”。它戳破了一个幻觉:我们以为AI的价值是“生成”,其实是“对齐”。代码写错了能报错,方向错了没人拦你。一个绕过缓存层的函数,跑得比谁都顺畅,却在三个月后让整个系统雪崩。作者真正在做的事情,是把AI从“执行者”训练成“被审稿的作者”——research.md是初稿,plan.md是修订稿,人类批注是红笔。写作的秘密从来不是下笔如神,而是改稿改到吐。AI写代码,同理。
Anthropic的“安全”生意:一家从未开源任何模型的AI安全公司 | 帖子

Anthropic以AI安全为旗号,却从未开源任何模型,连tokenizer都不对外公开。这家公司把“安全研究”包装成流量,实质上对开源社区毫无贡献。

有人最近想做一个多语言tokenizer效率对比项目,分析了Google、OpenAI、Meta的模型,轮到Anthropic时愣住了:没有任何公开资料可以分析。Google论文里提到Gemini和Gemma共享tokenizer,OpenAI开源了tokenizer和gpt-oss,Meta的Llama就更不用说。Anthropic那边:一片空白。

这是一家以“AI安全”为核心使命的公司。

OpenAI这些年被骂得最多的就是“不Open”,可至少还在发论文、开源tokenizer、放出基础模型。Anthropic连这点都做不到。有观点认为,他们每次发布都附带几百页的自我宣传材料,里面充满末日预警和能力吹嘘,但对真正的安全对齐研究者有用的信息几乎为零。

开源恰恰是加速安全研究最有效的方式之一,一家声称在做安全的公司,却把所有东西锁死,这逻辑本身就值得怀疑。

有网友提到,他用同一套方法在过去一年里连续绕过了Claude 3.5到4.6共五代模型的安全限制,方法没变过,效果一直有。几百名博士,数十亿美元投入,结果一个人在家鼓捣就能突破。他拒绝公开具体方法,理由是有恶意行为者在看,另一个理由他说“有点尴尬”。有网友怀疑他在编,他表示可以私信演示,但需要鼓起勇气。

还有观点认为,这套“安全”叙事本身是一门生意。先用开源代码库里的漏洞制造恐慌,高喊“开源不安全”,第二天转头卖自己的代码安全审计服务。剧情弧度相当完整。

Anthropic的投资方包括Google,合作方包括Palantir。一家喊着安全口号的公司,跟一家以数据军事化闻名的公司深度绑定,这件事本身就很难解释得通。

关于Claude为什么感觉比其他模型“不一样”,有几种猜测在流传:大量可验证的逻辑合成训练数据、以代码为核心的早期训练策略、可能存在的非标准tokenization方案。GLM和MiniMax的表现或许能作为某种侧证。但这些都是猜测,因为没有任何公开信息。

有人说如果Anthropic上市会去买股票。这倒是一个完全不同维度的坦诚。

“安全”两个字,在硅谷的语境里,从来都是个定价策略而非技术指标。Anthropic深谙此道:用末日叙事锁定企业客户的焦虑,用封闭架构锁死竞争对手的窥探,用几百页白皮书锁住舆论的定义权。OpenAI被骂“不Open”好歹还漏点东西出来,Anthropic连tokenizer都藏着,却从没人质疑那个“AI安全公司”的title。

这不是双标,这是教科书级的品牌溢价管理——卖恐惧的人,怎么能让你看见恐惧的生产车间?Google投钱、Palantir合作,资本的嗅觉比道德判断诚实得多。
花20美元,却被锁在门外:Claude的定价困局 | 帖子

一位重度用户坦言Claude比ChatGPT更好用,却依然选择留在ChatGPT——不是因为产品差,而是因为Claude的双重使用上限让他无法正常工作。这场讨论戳穿了一个行业里心照不宣的秘密。

有人在Reddit发了篇帖子,评论区打成一锅粥。

他的逻辑很简单:Claude更好,但我付不起$100/月的Max计划;我愿意付$20,可这个价位的Pro计划在我的使用强度下撑不过两个小时就触发5小时冷却窗口,然后还叠着一个周级封顶,一锁就是好几天。同样$20的ChatGPT Plus,他从来没遇过强制断线。

于是他继续给OpenAI交钱,嘴上承认Claude更好用。

评论区最高赞的反驳是:“你根本就是错误的目标用户,Max计划才是为你设计的。”这话没错,但同时也彻底回避了真正的问题。

他并没有要求无限算力,也没有要求亏本补贴。他要的是一个能让严肃的日常用户完成工作的$20计划——或者哪怕一个$40到$60之间的中间档。Pro到Max之间是$80的断层。他的原话是:“那不叫分级,那叫断崖。”这句话太精准了,以至于很多人立刻猜到是用Claude写的。

有网友提到,OpenAI的$20计划本质上是一种烧钱的用户锁定策略,当前的推理成本远未被订阅价格覆盖。这个判断在技术上可能是对的。但问题在于:消费者买的是当下的产品体验,不是供应商的财务报表。“他们在亏本补贴你”是一个解释,不是一个理由。

Anthropic的B2B优先战略也被反复提及。企业客户一张支票可以抵过几百个个人订阅者,这是事实。但如果Pro计划的设计目标从来就不是重度个人用户,那这个产品就不应该被那样营销和定价。有观点认为,Anthropic完全可以把Pro定位成“轻度体验入口”并明说,但他们没有,于是用户在付款之后才发现规则。

有网友提到,上限本身改变了他们与产品互动的方式——不再自由探索,而是开始精打细算地分配token,把头脑风暴搬到应用之外进行,以免浪费配额在前期准备上。一个以“探索”为卖点的AI工具,却让用户像数花生米一样数着token用,这种反差确实有点讽刺。

帖子的最后,发帖人总结了一句让人很难反驳的话:没有人真正为Pro计划能支撑高强度日常使用辩护过,他们只是从各个角度解释了为什么你不该期待它能做到。

这两者不是一回事。

他还在用Claude写东西,但钱给了OpenAI。Anthropic大概知道有多少人和他处境相同,只是选择了接受这个结果。

这场争论的本质不是“贵不贵”,而是“骗没骗”。用户花钱买的从来不是算力,而是一种“随时可用”的安全感。

当你为一个工具付费,却要像守着沙漏一样计算它什么时候会把你锁在门外,这种体验本身就是对“订阅”这个词的背叛。

Anthropic的问题不在于定价高,而在于Pro计划的包装让人误以为买到了生产力工具,实际拿到的却是一张限时体验券。最贵的不是$100的Max,而是$20买来的焦虑。 OpenAI可能在亏钱,但人家亏出了用户粘性;Anthropic在赚逻辑上的正确,却输掉了情感上的信任。
你的音色可以被数字化——Qwen3 TTS最被低估的功能 | 帖子

Qwen3 TTS内置了一个声音嵌入(voice embedding)系统,能把任何人声压缩成一串数字向量,然后用数学运算来克隆、混合、改变声音。这个功能几乎没被官方重点宣传,但开发者社区已经开始玩出花样了。

一个人的声音,可以被压缩成1024个数字。

这就是Qwen3 TTS里藏着的voice embedding系统。你说一句话,模型把它编码成一个高维向量,之后所有的声音操作,都在这串数字上完成。

这意味着什么?声音变成了坐标。两个声音之间可以插值,就像在地图上找两点之间的路径;性别、音调、情绪,都可以通过调整某些维度来修改;你甚至可以把十个声音平均一下,合成一个现实里不存在的声音。有观点认为,这从根本上改变了声音合成的操控方式,不再需要反复调试prompt或者找一段“完美的参考音频”,直接拖一个滑块就行。

这个编码器本身极其轻量,只有几百万参数,完全可以在网页前端直接运行。作者 k_means_clusterfuck 已经把它从原始模型里单独剥离出来,上传到了 Hugging Face,还提供了ONNX格式的版本。

Qwen官方把这个模块打包在完整模型里一起发布,每次使用都得下载整个大模型。考虑到voice embedding本身的体量和潜力,没有单独宣传这个功能,确实有点可惜。

社区里已经有人在思考更多用途:用 k-means 对大量声音做聚类分析,找到“最适合助眠”的 YouTuber;通过嵌入空间做说话人识别,判断是真人还是电话语音系统;把口音映射进向量空间,然后用算术把它改掉;甚至有播客编辑表示,原来要花几小时调整的音色一致性问题,现在十分钟搞定。

有网友实测后提到,两个嵌入向量之间做插值确实能产生可信的混合声音,但嵌入空间并不是完全解耦的,调整音高有时会意外影响音色。这不是这项技术独有的问题,但说明“数学化声音”这件事仍然有边界:你能合成的,只能是训练数据里已经存在的特征组合,出了分布范围,模型不会凭空造出新东西。

作者计划在 vllm 的 fork 里实现一个功能:在推理过程中逐步线性改变嵌入向量,让语速或情绪在一句话里从平静慢慢变成激动。这个想法能不能落地,还不确定。

你以为声音是灵魂的指纹,结果它只是一个1024维的邮编。从前我们说“嗓音是天赐的”,现在发现天赐的东西也能被压缩、传输、插值、混合。两个陌生人的声音取个平均值,就能造出第三个从未存在过的“人”。这不是技术在进步,是“独特性”这个概念在贬值。当配音演员还在强调“我的声音有辨识度”时,数学已经证明:辨识度不过是向量空间里的一个偏移量,滑块往左拉0.3就能复制。最讽刺的是,模型只有几百万参数,比你手机里的美颜滤镜还轻。你的声音不值钱,值钱的是那串能描述它的数字。
在2026年经营一家AI公司,感觉像在祈祷 | 帖子

大型LLM厂商每次产品发布都可能让某些公司瞬间出局,但真正被“一枪毙命”的案例屈指可数。更值得关注的是那些慢慢失血的行业,以及藏在免费模式背后的数据逻辑。

有人在Twitter上说,2026年经营一家公司,基本上就是每天早上醒来祈祷某个大型LLM厂商别在今天的发布会上顺手把你干掉。

这话听着夸张,却有几分真实的恐慌。

有观点认为,那些基础模型厂商产品发布得越来越快,恰恰说明它们自己也没把握靠单个产品赚够钱。真要有信心“一枪毙命”某个行业,就不会搞出ChatGPT Health这种不上不下的东西了。

那么,到底有没有被一枪打死的公司?有,Chegg。这家靠卖作业答案起家的教育平台,在ChatGPT出现后股价近乎归零。不过争议随之而来:有人认为它的死是AI造成的,也有人翻出数据说,它的股价在2021年底、ChatGPT发布之前就已经跌回疫情前水平,真正的死因是商业模式本身就是一个伪装成公司的答案库,学生一回校它就没用了,FTC还在2025年以“暗黑模式”订阅陷阱判它赔了750万美元。

Stack Overflow、Quora、Grammarly、DeepL,这些名字也被拿出来讨论。它们算不算“被打死”,取决于你如何定义“死”。流量下滑不是死,营收压缩也不是死,但增长逻辑被彻底打断,迟早是死。

有网友提到,SaaS整体收入已经下滑40%到60%。一枪毙命是夸张,但持续失血是真的。

免费层这件事更耐人寻味。有人说OpenAI如果取消免费版会亏更多,但马上有人反驳:他们已经开始测试广告了,这就把底牌亮出来了——你的数据比你的订阅费值钱得多。广告是Google和Meta的印钞机,OpenAI走到这一步,不管愿不愿意,商业逻辑开始趋同。

还有网友提出一个更冷静的视角:全球劳动力哪怕只提升几个百分点的效率,就已经是以万亿美元计算的价值。非要等某家公司被完全替代才算数,这个标准本身就是在回避问题。

客服领域目前正在发生的事情最具代表性。大量公司裁员、上AI,部分客户投诉激增,一些公司悄悄开始回聘真人。有观点认为,这就像当年把客服外包给印度、菲律宾,消费者最初强烈抗拒,后来慢慢接受了。AI是下一轮外包,只是这次外包给了算法。

重型机械、化工、采矿、物流,这些行业的人理所当然地觉得自己安全。他们也许是对的,至少目前是。仓储机器人还只能在室内光滑地面上跑,还需要全覆盖的Wi-Fi信号。

所以实体世界的护城河,到底能守多久?

当OpenAI开始测试广告的那一刻,所有用户都该明白一件事:你从来不是客户,你是矿藏。免费层不是慈善,是圈地运动——先用便利换取你的思维轨迹、表达习惯、决策模式,再把这些数据打包卖给出价最高的人。

Google和Meta用了二十年才让人类习惯“用隐私换便利”这笔交易,AI公司用两年就完成了同样的驯化。所以2026年经营公司最该祈祷的,不是别被发布会干掉,而是祈祷自己别在不知不觉中,把最值钱的东西免费送了出去。真正的猎杀从来不开枪,它让猎物自己走进陷阱。
AI顶会录取这件事,正在失去它本来的意义 | 帖子

CVPR一年收录4000篇论文,ICLR超过5300篇。顶会录取还算不算一种认可?这个问题本身可能问错了方向。

有人在Reddit上发了个梗:CVPR/ICLR录取通知一到,感觉就像《玩具总动员》里巴斯光年骄傲地说"我做到了",镜头一拉,会场里站着5000个一模一样的巴斯光年。

这个梗之所以传播,是因为它精准戳中了一种集体焦虑。

录取率其实没怎么变,变的是分母。投稿人数爆炸式增长,录取数字自然水涨船高。所以从概率角度讲,通过审稿这件事本身的难度并没有降低多少。真正在松动的,是录取背后隐含的那层意思:这篇文章值得读。

有网友一针见血:会议正在变成"带餐饮服务的预印本服务器"。

问题出在审稿端。一位CVPR 2024的审稿人提到,他一个周末要处理12篇稿子,到第8篇时,他已经开始靠经验直觉下判断了——代码能不能跑、baseline是不是这个年代的。这种状态下,真正需要仔细品读的工作很容易被错判。

更麻烦的是benchmark的信用崩塌。大模型的训练数据吞噬了互联网上几乎所有内容,一个benchmark刚发出来,数据污染可能就已经发生了。模型在某个测试集上表现优异,换一种问法分数就大幅下滑——这不是模型在学习,这是在记忆。有观点认为,benchmark只适合做"事后评价",一旦公开,它作为标准的有效性就开始倒计时。

有网友提出了另一种信号:GitHub star数量、主流框架是否集成某项技术,比审稿人的评分更能说明一篇论文是否真的有用。这话有道理,现实中确实有很多人靠这个筛论文。只是,这套逻辑有个历史盲区——神经网络在2012年之前的三十年,几乎通不过任何"大众审查",黎曼几何等了60年才等到爱因斯坦。被冷落的东西,不一定是错的。

有观点认为,当前ML领域的学术发表已经不再以推进科学为目标,而是在服务一个日益商业化的职业通道。这个判断有些刻薄,但不是完全没有根据。

一个值得观察的现象是:方法类论文在求职中的含金量远高于benchmark类论文,即便后者的工作量不一定更少。这不是学术评价标准在起作用,而是行业筛选逻辑在反向塑造论文的生产方向。

也有人说,引用量才是更真实的信号,"会议录取"只是第一轮过滤,"被引用"才是真正的验证。这个说法没错,但引用数据同样可以被刷,操纵引用并不比操纵审稿更难。

真正没有人给出好答案的问题是:在这个规模下,同行评审还能做到什么程度的"同行"?

一个审稿人,面对12篇跨子领域的论文,在一个周末内完成评分,这本质上已经不是专家评审,而是一种有组织的快速过滤。也许会议的功能从来就不只是质量认证,而更多是一个社群定期聚集、交换信息的仪式。只是当参与者把它当成职业勋章时,所有人都在为一个自己其实不太相信的系统维持着体面。

问题的根源不是论文太多或审稿太敷衍,而是激励结构和评价功能的根本错配。顶会录取被市场化为职业货币,但学术会议的原始设计从来不是为了给HR提供筛选依据。当一个仪式性场合被迫承担质量认证的功能,它要么崩溃,要么异化。

巴斯光年们没有错,错的是有人把嘉年华入场券当成了行医执照。真正值得追问的是:为什么我们的职业系统如此饥渴,以至于非要从一个学术聚会里榨取信用?顶会不是变水了,是被迫承载了它不该承载的重量。
当偷来的东西,又被人偷了 | 帖子

Anthropic指控DeepSeek、Moonshot AI和MiniMax通过2.4万个账号、1600万次对话对Claude实施“工业级蒸馏攻击”。问题是,Anthropic自己训练模型用的数据,相当一部分是从互联网和书籍上未经授权获取的。这场控诉,更像是一出黑色喜剧。

Anthropic最近在X上发帖,措辞严肃地宣布:DeepSeek、Moonshot AI和MiniMax对他们的模型发动了“工业级蒸馏攻击”,创建了超过2.4万个账户,与Claude产生了逾1600万次交互,目的是提取Claude的能力来训练自己的模型。

“蒸馏攻击”。这个词选得很妙。

有网友立刻指出,所谓“攻击”,本质上是:付钱用API,记录输出,用来训练自己的模型。其中一条评论说得直接——“‘蒸馏攻击’,你是指我们付钱购买的服务吗?”

更要命的是,有人截图显示Claude Sonnet 4.6在对话中把自己称作DeepSeek。Anthropic的模型在喊另一家公司的名字,说明训练数据里的痕迹没那么干净。另一方向更早被人挖出来的老料是:Claude曾频繁把自己称为ChatGPT,这显然是Anthropic在早期训练时也大量使用了OpenAI输出数据的结果。锅叠着锅。

Anthropic在训练数据问题上的底牌,并不比被它指控的对象光鲜多少。他们买下约100万册实体书、物理切割书脊后扫描,以规避版权限制;另据法庭文件,他们还从LibGen、Pirate Library Mirror等影子图书馆下载了约700万册书籍,完全没有付费,直到去年在法庭败诉后才被判每本书赔偿至少3000美元。有网友因此调侃:“我以为你们要说什么违法的事,结果是机器人在24小时切割书脊,那没事了。”

有观点认为,Anthropic这次公开点名三家中国公司,时机相当可疑,节点恰好在DeepSeek新模型发布前夕,这更像是一次针对监管层的定向喊话,而非单纯的维权声明。有网友直接说:他们的目标不是用户,是立法者,他们想让这些中国模型在监管层面被封杀,就像芯片禁令的逻辑一样。

围观的人很多,声援Anthropic的寥寥无几。

有评论写道:“你没有资格控诉别人偷了你偷来的东西。”

还有一条更短,也更狠:“无论道德还是法律层面,蒸馏模型输出和Anthropic训练时对待创作者的方式,差距只有一个:人家至少付钱了。”

Anthropic在AI对齐和安全性上确实做了很多认真的工作,Claude在很多任务上表现优异,这一点不需要否认。但“我们比别人少偷了一点”,撑不起这种道德宣示的重量。

更值得关注的问题也许是:如果中国实验室真的可以通过API调用来持续接近顶级闭源模型的能力,那这门生意的护城河究竟在哪里?

在硅谷,“攻击”这个词的定义取决于谁先抢到麦克风。 付费调用API、记录输出、用于训练——这套流程放在三年前叫“行业惯例”,放在今天因为对手是中国公司,就成了“工业级蒸馏攻击”。

Anthropic真正的焦虑藏在控诉背后:如果1600万次对话就能逼近你的模型能力,那你卖的到底是技术,还是一张随时可能过期的先发优势入场券? 这不是维权声明,是写给国会山的求救信——当护城河见底,最后一招只能是让裁判把对手罚下场。
被AI判死刑的SaaS名单:谁在慌,谁装没事 | 帖子

一位科技圈观察者列出了一份被AI"判死刑"的SaaS公司名单,从Grammarly到Calendly,从Notion到Cursor。这不是"AI会写代码所以大家自己开发工具"那种老调,而是一个更底层的判断:当每个人都有了相当于全职私人助理的AI agent,现有的工具类产品的存在意义将被根本性地重塑。

Tenobrus在社交媒体上扔出了一份分级名单,把当前热门的SaaS产品按"死得多惨"排了个序。

最惨那档(gigafucked):Grammarly、Calendly、Miro、Retool、Webflow、LangChain、Writer、Harvey、Glean、Expedia、Monday。

次惨那档(fucked):Accenture、Intuit、Notion、Jasper、Canva、Postman、Airtable、Zapier、Replit……

然后是"可能死"的:Cursor、Pilot、Clay、Mercor。

最后还有一个特殊分类,大意是"看起来要死但团队足够聪明所以在现场边跑边想"——目前只有Linear一家。

这份名单的底层逻辑只有两条:coding agent越来越强,软件开发成本趋近于零;personal agent真正普及之后,每个人手边等于有了一个全职私人助理。

Calendly为什么在最惨那档?有人反驳说Calendly明明有免费替代品都没死,凭什么AI来了就死?原作者的回答很干脆:有全职私人助理的人,根本不会用Calendly这类工具安排日程。这不是"会被更便宜的同类产品替代",是这类需求的处理方式被整体废掉了。

Expedia在这份名单里,理由同理:旅行规划和预订,是personal agent最容易接管的场景之一。

有网友提到,企业级工具的替换周期被严重低估了——中大型公司换一套工具链涉及组织采购、培训、兼容性,哪怕更好的东西出来了也要拖好几年。这个观察没错。原作者并没有说"明天就死",时间窗口的判断本来就是这类预测最难的部分。

Notion和Intuit能不能靠"UI足够好、错误容忍度低"活下去?原作者的判断是:UI的重要性会线性下降,幻觉问题会被解决,智能会持续提升。这是一个信仰,也是一个赌注。

Cursor的处境最有意思。有人认为它应该进最惨那档:一个不训练前沿模型的IDE层产品,怎么可能持续盈利?原作者的回答是:它现在有大量资本,有一批够硬的工程师,Cursor Bugbot已经相当能打。他们没有躺在IDE这个形态上等死,还在动。所以归入"可能死"而不是"必死"。

Linear是这份名单里最受好评的异类。有网友说Linear是goated,甚至提出他们应该直接整合git、绕过中间层。原作者回应说这正是他们在做的事,"有点让人叫好"。一家本来"看起来要死"的项目管理工具,靠着持续的产品品味和执行力,在这张死亡名单上混到了一个模糊的位置。

产品力和团队质量能不能对抗结构性的市场变化?或者说,这只是让死得慢一点?

Linear被单独拎出来不是因为产品好,是因为它展示了这个时代唯一的生存姿势:别跑得比AI快,跑得比自己的旧认知快就行。名单上最惨的那些公司,死因高度一致——把“解决问题的方式”当成了“问题本身”。Expedia以为自己做的是旅行预订,其实做的是信息差套利;Miro以为自己做的是协作白板,其实做的是人类大脑的外接硬盘。

当AI成为每个人的大脑外挂,外接硬盘就是电子垃圾。唯一的活路是像Linear那样——不问“我的产品怎么还能卖”,问“需求在往哪里变形,我怎么先到那里等着”。
一篇博客文章让IBM蒸发300亿美元 | 帖子

Anthropic宣称Claude Code可以自动分析和迁移COBOL遗留系统,IBM单日暴跌13%,市值蒸发约300亿美元。但多数技术人士认为这是严重过度反应,银行不迁移COBOL从来不是因为没钱没时间,而是因为风险太高,AI幻觉问题并没有解决这个核心障碍。

全美95%的ATM交易跑在COBOL上。这门语言诞生于1959年,比互联网还老。银行、航空、政府的核心系统里,几十亿行COBOL代码安静地运转着,像地基一样不被人看见。懂它的程序员正在慢慢老去,年轻人没有人愿意学,维护费用也因此居高不下。

然后Anthropic发了一篇博客,说Claude Code能分析庞大的COBOL代码库、识别风险、大幅降低迁移成本。市场的反应是:IBM股价当天跌13%,这是它25年来最惨烈的单日表现,2月份累计跌幅接近27%,创下1968年以来最差月度表现。

300亿美元,一篇博客文章的代价。

讽刺的是,有人指出Anthropic根本没有发布什么"新工具",只是给Claude Code现有功能写了一份新的营销材料,专门对准COBOL场景包装了一下。没有新模型,没有新功能,就是换了个说法重新讲了一遍。

恐慌归恐慌,真正的问题在于:银行为什么几十年来一直没有迁移COBOL?

答案不是缺钱,也不是缺人。有观点认为,答案是风险。金融系统里一个错误可能意味着数亿人的账户出问题,没有任何CEO愿意在财报里解释"我们用AI迁移了核心系统然后它产生了幻觉"。AI会幻觉这件事是公认的,你仍然需要人工逐行审查每一行输出——而这恰恰是整个工程最慢的那一步。AI并没有移除瓶颈,只是把前面那段路修得稍微平整了一点。

放射科医生的故事可以类比:AI今天已经可以替代90%的影像诊断工作,但医院并没有裁员,因为没人愿意第一个承担责任。金融系统同理。

不过,有一个角度值得认真对待。有观点认为,这件事真正动摇的不是COBOL迁移市场本身,而是IBM那块利润极高的咨询和专业服务收入。过去,COBOL知识是稀缺资源,IBM靠垄断这种稀缺性定价。Claude的出现让这种知识变得不那么稀缺了——哪怕迁移本身依然危险,分析、文档整理、风险评估这些前期工作的成本已经在下降。

一位做过COBOL转Java项目的开发者提到,当年整个项目最难的部分根本不是写Java,而是搞清楚那些COBOL代码到底在干什么。这正是AI可以显著加速的地方。

IBM当然也有自己的AI工具用于大型机现代化,这一点在讨论里几乎没人提。

现在的问题是:一年后回头看,这次暴跌到底是市场提前定价了一个真实的长期威胁,还是一次集体过度反应。有人已经设了一年后的提醒,等着来验证。

300亿美元蒸发的本质,是市场在追问一个哲学问题:谁敢第一个签字? COBOL像心脏手术——AI可以读片、画线、甚至建议下刀位置,但最后那一刀,必须有个活人敢签生死状。

银行不迁移从来不是不会,是不敢。几十亿行代码背后是几亿人的工资卡、房贷、退休金,任何一个幻觉都可能变成头条新闻。AI把“能不能做到”的问题解决了八成,但“谁来负责”的问题一个字没动。

Anthropic写了篇营销文案,IBM跌了四分之一,这不是技术革命,是一群对金融系统运作方式毫无概念的投资者在集体应激。
Back to Top