你可以按行业、失败原因来筛选,甚至能查到每个项目具体烧了多少钱。像腾讯做短视频为何输给抖音字节、做游戏为何敌不过王者荣耀这类问题,这里都把失败原因剖析得明明白白,还附带当前的市场现状解读。
中国研究者发现,LLM中不到0.1%的特定神经元可以可靠预测幻觉的发生,这些神经元早在预训练阶段就已形成,并与模型的“过度顺从”行为直接相关。这一发现引起广泛讨论,争议焦点不只是技术本身,更是一个令人不安的问题:AI的毛病,究竟是AI的问题,还是人类的问题?
中国的研究团队最近发表了一篇论文,声称找到了LLM产生幻觉的神经元级别机制。他们把这类神经元命名为H-Neurons,数量极少,不到模型全部神经元的0.1%,却能可靠预测幻觉何时发生。更关键的是,这些神经元并非来自后期的指令微调或强化学习,而是在预训练阶段就已经存在。
这件事最有意思的地方不在于技术细节,而在于它揭示了一个结构性困境:幻觉的根源不是“不知道”,而是“不允许说不知道”。
论文指出,预训练阶段的下一个token预测目标,优先保证语言流畅而非事实准确;后续的指令微调则进一步奖励“表面上有帮助的回答”,哪怕这个回答是编出来的。换句话说,模型从一开始就被训练成“宁可自信地说错,也不能沉默”。
有网友打了个绝妙的比方:这就像参加一场选择题考试——空着不答肯定得零分,猜一个至少有可能蒙对。所以模型学会了猜,然后把猜的结果说得跟真的一样。问题在于,考试结束了,它还在猜。
这个比喻引发了更深的讨论。有观点认为,人类其实也一直在“幻觉”,我们也是用三个数据点拟一条曲线,然后对曲线上所有点给出结论。区别在于,人类有元认知能力——我们能感知自己是在确定地知道,还是在大胆猜测。能说出“我记得大概是这样,但你最好查一下”的人,和那些什么都说得斩钉截铁的人,不是同一种人。
问题是,我们在训练模型时,奖励的恰恰是后者。
有网友一针见血:在现实世界里,承认不确定是一种专业信号,是靠谱的标志。但LLM的训练机制把这个逻辑完全反转了——它永远不会说“我不确定”,因为说了就会被惩罚。
当然也有人泼冷水。Gemini自己评估这篇论文时说:找到这些神经元是一个很强的分析发现,但如果真的去抑制它们,模型极可能在其他功能上损坏。“不会是切掉就完事那么简单”——有观点认为,这就好比找到了人类说谎时激活的脑区,然后以为把那块切掉人就不撒谎了。
还有一个更根本的质疑:幻觉这个词本身是否就是一种误导?有人认为,把统计概率预测的出错结果叫做“幻觉”,给了它太多拟人化的色彩,掩盖了这不过是一个语言生成算法在没有可靠锚点时自然滑落的结果。
这篇论文是增量性进展,不是革命。但它把一个模糊的问题变得稍微清晰了一点:幻觉不只是数据问题,也不只是算法问题,它在某种程度上是一个激励机制设计问题。
而激励机制是人设计的。
我们用“做题家”的规则训练AI,却指责它没有学者的诚实。想想看,模型的一生是什么?答对奖励,沉默惩罚,不确定表达直接扣分。这不就是那套“不会也要写满”的应试哲学吗?然后我们震惊地发现:它真的学会了不会也写满。更讽刺的是,那0.1%的“幻觉神经元”不是病变,是勋章——它们是模型在我们设计的生存游戏里进化出的最优解。问题从来不是AI在撒谎,而是我们从未允许它说“我不知道”还能活下来。
Anthropic宣布放弃其旗舰安全政策RSP的核心承诺,理由是竞争对手不受约束地向前冲,单方面坚守没有意义。这不是技术问题,而是一个关于道德承诺在商业压力下能撑多久的古老故事。
2023年,Anthropic立下一个听起来很认真的誓言:除非能提前确认安全措施到位,否则绝不训练新模型。当时,他们把这个“负责任扩展政策”(RSP)当作与OpenAI切割的核心标志,是公司存在的道德地基。
两年后,这块地基悄悄被撤掉了。
首席科学官Jared Kaplan的解释非常坦率,坦率到有点令人不舒服:“我们感觉,如果竞争对手在全速前进,单方面作出这样的承诺并没有什么意义。”
这句话的另一种读法是:我们本来想当好人,但好人活不下去。
这是经典的囚徒困境。每个人都知道最优解是合作,但只要有一方选择背叛,其余所有人的理性策略就是跟着背叛。Anthropic不是第一个走这条路的,也不会是最后一个。Google曾有“不作恶”,OpenAI曾有“非营利使命”,现在轮到Anthropic的RSP。
有观点认为,此次放弃承诺与五角大楼向Anthropic施压有直接关联。但更准确的说法是,Pentagon之争针对的是现有模型的使用权限,而RSP涉及的是未来模型的训练边界,是两件事。只是两件事都在同一段时间里发生,难免让人觉得Anthropic正在全线溃退。
值得注意的是,这场讨论里几乎没人相信Anthropic“落后于OpenAI”这个前提。GPT-5在许多重度用户眼中并不算成功,Claude在开发者和企业市场的口碑反而更稳。这让Kaplan那句“竞争对手在狂奔”听起来更像借口。
讨论中另一个被反复提及的声音是:大家把太多精力花在科幻式的末日威胁上——生化武器、核武器、AI失控——反而集体忽视了一个正在发生的现实问题:大量初级岗位正在被快速消解,而Anthropic从来没有认真回应过这件事。
有网友提到,真正的风险不是好莱坞剧本,而是找不到工作的人越来越多,安全网越来越薄,某一天积累的压力会以谁也预料不到的方式爆发。
Anthropic创立之初,是一批从OpenAI出走的人,理由正是对安全理念的坚持。这个起源故事现在读起来有一种特别的讽刺感。
现在的问题不是Anthropic会不会继续做安全研究——他们大概会的。问题是,当一家公司连自己设定的承诺都可以随时收回,“我们比别人更负责任”这句话,还剩下多少分量。
我们见证的不是一家公司的堕落,而是一种幻觉的破灭:原来根本不存在“负责任的AI巨头”这种生物。Google放弃了“不作恶”,OpenAI放弃了“非营利”,现在Anthropic放弃了RSP——这不是多米诺骨牌,这是同一块骨牌反复倒下。真正值得追问的是:为什么我们每次都信?也许人类需要一个“有良心的科技公司”神话来安慰自己,就像需要睡前故事一样。故事的结局永远是——狼来了,但讲故事的人已经拿着钱跑了。
Andrej Karpathy指出,AI coding agent在去年12月经历了一次质变,从“基本不能用”变成了“基本好用”。这不是渐进式的进步,更像是一道门槛被突然迈过。这篇帖子在技术社区引起广泛讨论。
Karpathy原话大意是:很难描述过去两个月编程发生了多大变化。不是“一如既往的技术进步”,而是去年12月这个特定时间点,coding agent的质量、长程连贯性和任务韧性突然跃升,能扛住复杂的多步骤任务了。
他说之前基本不能用,现在基本可以用了。
这个判断的分量在于,Karpathy本人几个月前还在播客里对vibe coding持悲观态度,把agent产出称为“slop”。这次的180度转弯,不像在给自家产品打广告。有网友专门指出这一点,认为正是这种反差让这番话值得认真对待。
讨论区里工程师们的反应颇为一致:一位用Cursor用了大半年的开发者说,以前结果时好时坏、agent经常跑偏,现在Claude Opus加Codex一个写、一个审,90%的代码已经不用自己动手了。另一位在FAANG工作的工程师则说,他今年大概全年都不会自己写代码,只做debug和review。
“我甚至不再打开IDE了。”有网友这样说。
讨论里有个很有意思的观点分叉。
一方认为,真正的瓶颈从来都不是写代码,而是架构决策、产品方向、系统如何优雅地处理失败。AI在这些地方仍然很差,而这些才是高级工程师真正的价值所在。现在合理的工作方式是:人负责拆解任务和设计架构,agent负责实现,再配上严格的测试、lint和沙箱部署作为质量门控,逐渐减少逐行code review的投入。
另一方则说:这是“pre-December的思维”了。计划本身已经就是代码,LLM做这些所需的人工介入正在快速减少。
有网友精准总结了这个困境:“如果你把大量时间花在review代码上而不是review计划上,你就是那个瓶颈。”
这轮变化对职业结构的影响,也有人直接说出来了:初中级工程师的招聘已经在收缩,高级工程师在被密集招募,原因正是只有有经验的人才知道怎么把任务拆解得恰到好处再交给agent。
但有人立刻追问:如果初级工程师的岗位消失了,未来的高级工程师从哪里来?这个问题没有人给出答案。
有观点认为,AI目前最擅长的是“容易的那部分”,而且确实把这部分效率提升了2-3倍,至于一直有人声称的10倍生产力,很可能是因为大家重新定义了什么叫“自己写的代码”。
另一个悬而未决的问题是:当生产系统越来越多地运行着没有人完整理解过的AI生成代码时,我们正在加速驶向什么?
我们正在全速驶向一个奇怪的未来:生产系统运行着没人完全理解的代码,而写代码的AI也不理解自己在写什么。这不是进步,这是双重失明。Karpathy说agent“能扛住复杂多步骤任务了”,但“扛住”和“理解”是两回事。一个不理解自己在做什么的系统,产出被另一个不理解输入的人类部署上线——我们管这叫效率。真正可怕的不是AI取代程序员,而是当代码出问题时,人类和AI面面相觑,都在等对方解释发生了什么。
AI确实显著提升了生产力,但这些收益没有流向公司或经济统计数据,而是被员工悄悄兑换成了更多的摸鱼时间。这个"黄金窗口期"正在以肉眼可见的速度关闭。
有人在Reddit发了一个观点,引起了广泛讨论:AI带来的生产力提升早就发生了,只是它没有出现在GDP数据里,因为大多数人把节省出来的时间用来偷懒,而不是多干活。
这个逻辑其实相当直接:你用Claude Code写代码,原本需要一天的任务现在两小时搞定,但你不会跑去跟老板说"我有时间了,再给我派点活"。你就默默刷着Reddit,假装还在努力工作。
一位网友说得坦率:他只发挥40%的工作量,偶尔为了表现好一点才给到50%。理由也很简单,多干活没有加薪,干多了只会让上级默认这就是新的标准线。这不是道德问题,这是职场博弈的基本逻辑——工作更快的唯一奖励,就是更多的工作。工业革命时代的农民就这么抱怨过,只不过换成了收割机。
有观点认为,总会有人率先把产能开到60%,让别人看起来很懒。但大多数人的反应是:等那个傻瓜先跳出去。更何况,能留下来的往往不是最努力的那个,而是自动化做得最好的那个。
企业层面的情况更复杂。一位从事政府工作的软件开发者提到,公司IT安全部门把AI工具限制得如此之死,以至于员工拿到的不过是一个加了铁笼的聊天机器人,配套培训为零,然后高管们对着调查数据发愁:为什么AI没有带来生产力提升?这个问题的答案和"为什么给员工发一把吉他但不让他们练习,他们还不会弹"是同一个。
游戏行业被拿来当反例:既没有变便宜,也没有更快上线,还是一堆bug。但这里有个容易忽略的细节:现代游戏开发的瓶颈根本不在编程,而在美术。一只《怪物猎人:荒野》的怪物模型,顶点数量等于64只《崛起》里的怪物。AI生成的3D模型目前还远没达到游戏级别的可用质量。
还有一位做嵌入式开发的工程师分享了一个有意思的观察:他的同事几乎把所有工作都交给AI,而他自己则手写代码为主,偶尔用AI辅助查资料。两个人的产出差不多——但一旦出了bug,前者因为不熟悉代码逻辑,排查时间远超后者。AI节省的时间,被理解代价吃回去了。
生产力提升了,但"谁获益"这个问题从来没有自动解决过。计算机出现的时候,人们说我们可以少工作;互联网出现的时候,人们说我们可以少工作。结果是工时没变,产出翻倍,多出来的那部分去了资本方。
这一次会不同吗?目前还没有答案。但这个"黄金窗口期"确实存在,而且正在变窄。等到老板们也开始用Claude Code查每个人的commit数量,游戏就变了。
“工作更快的唯一奖励,就是更多的工作”——这句话道破了职场最残酷的真相。员工不是不想努力,而是努力的果实从来不属于种树的人。当你用AI把一天的活压缩到两小时,老板看到的不是“这个人真厉害”,而是“原来这活两小时就能干完”。于是标准线上移,奖励变惩罚。所以摸鱼不是偷懒,是劳动者最后的议价筹码。只是这筹码有保质期:等AI能实时监控你的commit记录和屏幕停留时长,这场打工人的小型起义就该画上句号了。享受窗口期吧,毕竟历史证明,资本从不会让任何红利在员工手里待太久。
2024年那套靠“魔法短语”驱动AI的玩法基本过时了,但“Prompt Engineering已死”这个论断本身也夸张了——真正死掉的是技巧,活下来的是思维方式,只是迁移到了更高的层面。
原文来自Reddit,一位用户用AI生成了一篇文章,论证“Prompt Engineering在2026年已经死了”。有人立刻问:这篇文章的prompt是什么?发帖者坦白了,分三次迭代完成,第一次是“给我支持这个观点的论据”,第二次是“写得像个聪明的大学生”,第三次是“别聚焦在prompt工程师这个职位上”。
这件事本身就是一个有趣的自我证伪——一篇论证prompts不再重要的文章,是用精心迭代的prompts写出来的。
不过抛开这个讽刺,文章的核心判断其实有几分道理。
2024年那套“把AI当精灵供着、一个词说错就翻车”的时代确实过去了。现在的模型理解意图的能力强多了,你语言混乱它照样能猜出你在问什么。那些当年被当作“独门秘籍”传授的技巧——Chain of Thought、情感刺激词、persona hacking——很多已经被直接训练进模型了,你不需要特意触发,它默认就会做。
真正的变化在于,行业的杠杆点从“怎么说”转移到了“给什么”。RAG(检索增强生成)、evaluation loop、agentic工作流、自动优化框架(如DSPy)——这些系统级的东西,才是现在决定AI输出质量的关键变量。你花在精调措辞上的时间,远不如花在数据质量和架构设计上值钱。
但评论区里有个观点说得很准:死掉的是gimmick(那些投机取巧的“花招”),不是discipline(这门职业背后的“方法论”)。
你还是需要告诉系统“什么是成功,什么是失败”。你还是需要定义边界、约束条件、失败时怎么处理。只不过这些决策已经从“我该怎么措辞”升级成了“我该怎么设计这个系统的逻辑层”。
有观点认为,prompts就是AI的语言,RAG不过是一个知识检索机制,没有精准的prompt,RAG系统照样会产生幻觉。这话不算错,但有点守旧——它描述的是今天,不是趋势。
另一个更有意思的视角来自讨论中:问题不是prompts重不重要,而是“谁在写prompts”。DSPy这类框架是让另一个AI来优化prompt,人类只需要定义“什么结果算好的”。这个“Ground Truth”的设定,才是真正需要人类判断力的地方。
所以“Prompt Engineering”这个词在某种意义上确实在消亡,就像“Webmaster”这个职位的消亡——不是因为工作不再需要,而是因为技能变成了更广泛角色的一部分,不值得单独挂牌了。
一个有点未解决的问题留在这里:当模型足够强、系统足够智能,人类剩下的那部分判断力——定义“什么是好的输出”——还能维持多久?
你以为咒语死了,其实是咒语成仙了。2024年那套“一个词说错AI就翻脸”的玄学,确实该进博物馆了。但说Prompt Engineering死了?这就像说“会打字”死了——不是技能消失,是技能降维成了呼吸,你甚至感觉不到自己在用它。真正有趣的是那个自我证伪的套娃:用三轮精心迭代的prompt,写出“prompt不重要”的文章。这不是打脸,这是进化的活标本。当技巧被训练进模型,你省下的不是思考,是表达思考的摩擦成本。死掉的是“说话的艺术”,活下来的是“想清楚的能力”。前者有套路可抄,后者从来就没捷径。
Anthropic近期产品发布节奏异常密集,有人认为他们内部已经拥有远超公开版本的“终局模型”,正在抢先构建生态锁定用户。也有人觉得这不过是一家烧钱公司在融资压力下的常规操作。
最近关注AI行业的人应该都有一个感觉:Anthropic发产品的速度快得不像话。MCP协议、Claude Code、Excel和PPT插件、Computer Use……几乎每隔几天就有新东西冒出来。
有一个流传很广的猜测是这样的:Anthropic内部已经拥有一个能力远超当前公开版本的模型,可能叫Opus 6,也可能叫别的什么。他们知道一旦放出来,普通人几天就能造出像样的应用。所以现在拼命铺产品、建生态,是为了在放出那个东西之前,把用户牢牢焊在自己的平台上。
这个逻辑听起来有点阴谋论,但细想又不是完全没有道理。有网友提到,Anthropic的安全文档里出现过“unleashed opus”的说法,而且AI实验室内部跑着大量公众从未见过的测试模型,这在行业里是公开的秘密。蒸馏技术让他们可以把最强模型的能力逐步释放到消费级产品里,同时把真正的重武器留在家里。
你仔细看他们的产品线就会发现一个模式:MCP让所有应用都能接入Claude,Claude Code让开发者在Claude上面构建,Office插件让企业用户产生依赖,Computer Use让Claude接管完整工作流。这套组合拳打完,迁移成本会高到让人懒得换。等“神级模型”真正落地的那天,OpenAI和Google争夺的可能只是剩下的残羹。
说白了,模型本身正在变成生态系统里的一个组件,而生态才是护城河。这跟当年的平台战争是同一个剧本。
不过反对的声音也很有意思。有观点认为,一家每年烧80亿美元的公司,如果真有能改变世界的模型,藏着不发才是最不合理的商业决策。更可能的解释是:他们有一批优秀的工程师在高压下快速交付,产品质量其实参差不齐,很多更新是在修之前的坑。还有人指出,Anthropic最初“安全优先”的人设已经有些立不住了,密集发布更像是在开发者群体中重建信任的挣扎。
也有一种更冷静的看法:这跟什么秘密模型无关,Anthropic只是终于想明白了OpenAI很早就想明白的事情——光有好模型不够,得有分发渠道和产品生态。现在的竞争早就过了比模型参数的阶段。
两种叙事都有道理,但我倾向于认为真相在中间偏后的位置。Anthropic大概率在内部模型能力上领先公开版本几个月,这个优势足以让他们的产品团队用更强的工具来构建更好的产品,形成正循环。至于是不是存在一个“终局模型”,这个问题本身可能就问错了。AI的发展更像是连续的能力曲线,而不是某个藏在保险柜里的奇点时刻。
一个更值得关心的问题是:当AI公司开始用自己的AI来开发自己的产品,这个加速循环的终点在哪里?
每次行业加速,就有人喊“他们肯定藏着什么”——这种叙事的魅力在于把复杂的工程竞赛简化成一场悬疑剧。但商业世界最反直觉的真相是:真有王炸的人往往最先打出去,因为藏着不发的机会成本高到离谱。一家年烧80亿的公司,每多藏一天“终极模型”,就是在给对手多送一天追赶窗口。Anthropic的密集发布与其说是“精心计算的围猎”,不如说是一群顶级工程师在资本时钟下的极限冲刺。我们总想给混乱的世界找一个幕后主谋,却忘了大多数狂奔只是因为身后有狼。
Forbes数据显示,Big Tech新员工中应届生占比已从疫情前的50%以上骤降至7%。这到底是AI替代的结果,还是经济周期叠加行业过饱和的必然?资深开发者用AI效率暴增五倍,而应届生连入场券都拿不到。
一个资深开发者说了句大实话:庆幸自己是在AI之前入行的。“在现在这个环境下,想获得我这些年积累的知识,太难了,更别说还能拿工资学。”
这句话残酷在哪?不是AI会取代程序员,而是AI正在消灭“学徒工”这个岗位本身。
有近30年经验的工程师现在把自己定位成“context lake”,也就是上下文湖泊。AI agent在他搭建好的架构里自动运行数小时,交付的功能甚至是人类团队会因为“工作量太大不划算”而拒绝做的那种。过去需要一周的features,现在几天搞定,五倍效率提升不是夸张。
问题来了:谁来成为下一个拥有30年经验的人?
一位principal级别的工程师直接点破:“我可以用十秒钟打字给AI,三十秒拿到结果。如果交给junior,我得解释技术背景、为什么这么做、怎么做,然后他们带着一堆问题花一整天才能完成。”他把这比作发邮件和手写信件的区别。
但也有观点认为这和AI关系不大。有人指出这就是典型的经济周期:疫情期间大厂疯狂招人,现在裁员消化泡沫。Salesforce、Microsoft员工数虽然比2023年少,但比2020年多得多,营收利润还创新高。另外,便宜外包一直都有,为什么偏偏现在用得更狠了?
还有人提到一个被低估的事实:即便经历了大规模裁员,Amazon员工数仍然接近2019年的两倍,Google增长超过50%。科技行业并没有“崩溃”,它只是不再像2021年那样不计成本地囤人了。
AI到底有没有用?这取决于谁在用。一位开发者用GLM4.7flash修了个bug,代码看起来漂亮又正确,上了生产环境。结果几天后发现修复逻辑完全错误,半周时间浪费在本可以半天手动解决的问题上。他的结论:LLM像毒品,入门容易,但很快就会失控,除非你本身技术过硬。
一个Z世代的声音值得听听:“3到5年经验被当成入门门槛,需要超级专业化技能才能竞争,AI替代的威胁永远悬在头上。我爱这个不招人也不敢裁人的经济环境。生得太晚没赶上大航海,太早又到不了太空,正好赶上卖卵子换钱。”
有人问了一个真正尖锐的问题:那些正在读计算机本科的人,毕业后干什么去?
没有人有答案。
这是一个精妙的死循环:AI让老手效率提升五倍,却把新手困在了“无法获得经验”的逻辑陷阱里。 那位30年经验的工程师自称“上下文湖泊”,听起来很酷,但仔细想想——湖泊是不会自己补水的。当Junior工程师连“带着一堆问题花一整天”的机会都没有时,谁来成为下一个湖泊?这像极了一个只顾榨取、不管再生的农业系统。效率革命的最大Bug,是它正在吃掉自己的种子,然后管这叫“优化”。
Anthropic指责中国实验室抓取Claude数据后,有人开源了一个名为DataClaw的工具,允许用户上传自己与Claude的对话记录用于训练其他模型,24小时内获得363颗GitHub星标。这场争议背后是AI行业一个根本性矛盾:用公开数据训练出的模型,能否阻止他人用同样的方式复制自己?
这件事的导火索是最近网传Claude Sonnet 4.6在中文环境下自称是DeepSeek-V3,引发了一轮关于中国AI实验室是否在抓取Claude输出数据的讨论。Anthropic随后公开表达不满。
然后就有人把梯子扔回去了。DataClaw的README写得很直接:“Anthropic用免费共享的信息构建了他们的模型,然后推行越来越严格的数据政策来阻止别人做同样的事。这就像爬上梯子后把它抽走。DataClaw把梯子扔回去。”马斯克在下面回复了一个“Cool”。
不过有网友提醒,这个工具的自动脱敏功能并不可靠。有人去Huggingface上检查用户上传的对话记录,发现第一条就包含有效的API密钥,还有其他可识别的个人信息。技术上的隐患是一回事,但更值得讨论的是这件事背后的逻辑困境。
有观点认为Anthropic是“cosplay道德”。也有人替他们辩护:训练AI属于变革性使用,产出由专有算法定义,这是共识。但反驳很快就来了:训练LLM的流程现在已经是公开知识,每家公司可能有一些“秘密酱料”,但整体而言并不神秘。更关键的是,这些公司当初训练模型时也没问过数据创作者的许可,甚至有人指出他们用过种子下载的版权材料。
这就是问题所在:如果你认为用公开数据训练模型是合理的,那别人用你的输出做同样的事,凭什么不行?如果AI生成的回复归用户所有,用户当然可以拿去训练别的模型;如果归Anthropic所有,那用Claude Code写的所有软件是不是也归他们?这是个怎么回答都很尴尬的问题。
有观点认为这可能是一个“史翠珊效应”的经典案例,Anthropic本可以什么都不说,现在反而把事情闹大了。也有人指出,这场争论可能会让Anthropic像OpenAI和Gemini一样隐藏思维链输出。Dario之前一直没这么做,部分是出于AI安全的考虑,但现在可能被迫改变。
有一点倒是很清醒的提醒:用户把通用数据分割上传后,反而让数据变得更容易被识别,因为对话被切分成了个人化的信息块,格式还很规整。
关于ASI是否应该公开的讨论也被带起来了,但这个方向有点跑偏。眼下的问题不是超级智能,而是这个产业的底层叙事:谁有资格定义规则,谁有资格打破规则。
“我偷的是知识,你偷的是我”——这大概是AI时代最精准的双标宣言。 Anthropic的愤怒让我想起一个古老的笑话:强盗抢了一袋金币,然后报警说有人偷了他的金币。当年这些公司扫荡互联网时,没人问过博主、作家、程序员是否同意;现在轮到自己的输出被“采集”,突然就发现了数据伦理的重要性。最讽刺的不是被反噬,而是被用同样的逻辑反噬。 DataClaw那句“把梯子扔回去”堪称年度最佳回旋镖。这场争论真正揭示的是:在AI行业,道德标准的弹性取决于你站在食物链的哪一端。
一位用户发帖称,自己用Claude Code测试了各种主流办公任务:Excel、PPT、数据分析、研究调查,全部搞定。更进一步,他搭建了一个AI“经理”来管理其他AI“员工”,模拟一家会计事务所运营,结果居然跑通了。他的结论是:无论是具体任务还是决策管理,都可以交给AI。那普通白领还有什么存在价值?
这个帖子引出了各种观点。
有观点认为,AI的真正威胁不在于它有多完美,而在于它“够用”就行。就像编程领域,大量技术建立在不完美的开源代码上,AI只要达到初级分析师水平,就会引发连锁反应。另一个视角更直白:如果你是程序员,你知道团队里有一半人可能已经不需要了。
但质疑声同样强烈。有人指出AI的“上下文问题”:它能做好单个任务,但一旦涉及你公司那套奇怪的遗留系统,或者为什么数据库架构长那样的政治原因,它就懵了。普通人的价值从来不是“会用Excel”,而是“知道财务的Susan不会批准那种格式”,以及“记得过去三次尝试这个方案为什么失败”。这种机构知识比人们想象的难替代得多。
关于幻觉问题,争议更大。有人在实际使用中发现,AI经常顽固地在两种错误之间反复横跳,即使明确指出问题也会道歉后继续犯同样的错。人类开发者也会犯错两次,但通常能跳出最初的错误假设。AI在面对真正新的问题时表现如何,这是个未知数。短期测试不能代表长期运行,小错误今天可能成为明天决策的“事实依据”,然后滚雪球。
法律责任是另一个核心议题。AI出错了,谁负责?它不能被起诉。有人说得好:计算机永远不能被追责,因此永远不能让它独立做商业决策。
关于技术进步不可阻挡这件事,有人引用霍金的观点:如果一项技术对人类有净收益,它就一定会发生,没有什么能阻止它。但有人反驳:核能不就是个例子吗?公众舆论确实让它冰封了四五十年。不过支持者补充说,霍金说的“一定会发生”没有时间约束,核能现在不也在复苏吗?
最令人不安的讨论是关于失业后的世界。白领就业占美国经济核心,如果大规模替代发生,DoorDash这类依赖消费力的公司会直接消失。大萧条时期失业率峰值是25%,而白领工作的消失可能带来的是史无前例的冲击。UBI的想法听起来美好,但在一个连全民医保都被视为共产主义的国家,有人问:政治意愿在哪里?
有网友提到一个更黑暗的可能:如果你是亿万富翁,当大众失去所有议价能力,变成消耗资源的“麻烦”时,减少人口可能变得很有诱惑力。这个观点被反驳为“稀缺思维”,因为随着生产成本趋近于零,维持人类生存会变得便宜到可以忽略不计。但也有人说,这只是情感诉求,历史上“贵族义务”的记录并不怎么样。
最后还剩什么?
有观点认为是“问责制”和“品味”。机器不能被追责,但人可以。AI再聪明,仍难以真正理解用户的感受,而人类有品味和共情,这在未来可能成为稀缺资源。也有人说,真正的人际关系本身就是非功能性的,我们珍视某个人不是因为他的“产出”,而是因为他不可替代的存在。在全面自动化的时代,珍视一段“无用”的人类连接,可能成为最激进的反抗。
有开发者说得实在:AI确实能让产出提高十倍,但你肯定是过度概括了。它就像建筑工人看着挖掘机,拿着铲子问“我还有什么用”。挖掘机出现后,建筑工人并没有消失,只是工作内容变了。
所有人都在争论AI“能不能做”,却很少有人问“出事了谁赔”。商业文明的地基从来不是技术,而是责任。 一份合同有效,是因为有人可以被追责;一个决策可信,是因为有人押上了职业生涯。AI再聪明,没有财产可以查封,没有声誉可以破产,没有牢底可以坐穿。
当代码不能签字画押的时候,让它独立做商业决策就是制度裸奔。挖掘机替代了铲子,但挖掘机后面仍然站着一个可以被起诉的人——这不是技术局限,是文明底线。
陶哲轩在最新访谈中给AI数学能力泼了盆冷水,称那些被吹上天的“AI攻克Erdős猜想”多是专家半天能搞定的活。但他也承认,到2026年AI有望成为可信赖的初级合著者。问题是:AI能执行已知技术,却留不下人类数学家那种深刻的思维痕迹。
陶哲轩对AI的态度可以用三个字概括:有用,但。
那些让人激动的“AI解决Erdős问题”的新闻,在他看来大多是cheap wins。一千多个Erdős问题里挑出来的长尾题目,用的是标准技术,给个专家半天时间也能搞定。这话听起来像是在泼冷水,但你换个角度想:三年前ChatGPT还在数strawberry有几个r这种问题上翻车,现在已经能做到“专家半天能搞定”的水平了。
目标确实在移动。
陶哲轩预测AI到2026年能达到“可信赖的初级合著者”水平。这个判断来自2023年,当时推理模型还没开发出来,结果进度基本符合预期。有网友指出一个有趣的对比:有人的博士论文题目,陶哲轩几小时就给解了。所以他眼中的“廉价胜利”,可能已经超过很多职业数学家一生中最难的研究。
真正让陶哲轩在意的不是AI能不能算得对,而是它算完之后留下了什么。人类数学家证明一个定理,过程中会产生概念性的洞见,那些弯路、直觉、失败的尝试本身就是知识。AI的证明缺乏这种“思维痕迹”。它可以用暴力计算扫荡一大片问题空间,但不会告诉你为什么走这条路而不是那条。
有观点认为这就像字典比你认识的单词多,但字典不会写诗。也有人反驳:这分明是在移动门柱,几年前AI连完整句子都说不利索,现在开始嫌人家证明不够优雅了。
陶哲轩最近几次访谈里反复提到一件事:他担心的不仅是AI能不能做到,而是如果AI真的能越来越多地把人从循环中移除,对人类的智识生活意味着什么。这是一个更大的问题,他没有给出答案。他呼吁AI系统需要更好的不确定性信号——也就是说,让AI知道自己不知道什么,而不是一本正经地胡说八道。他更倾向于人机交互式协作,而非那种按一个按钮就自动出结果的流程。
数学会不会在今年年底被“解决”?有人赌会。但至少在陶哲轩看来,AI改变的是数学的实践方式,不是一夜之间取代数学家。它把数学从手工作坊式的精雕细琢,推向大规模的问题探索。至于这算进步还是损失,可能取决于你觉得数学到底是什么。
陶哲轩的真正恐惧藏在一个词里:“把人从循环中移除”。这不是在讨论AI能不能证明定理,而是在追问:如果证明定理不再需要人类的挣扎、顿悟和失败,那“做数学”这件事对人还意味着什么?字典认识所有单词却不会写诗,但如果有一天字典开始写诗,我们会说那不叫诗——因为诗的定义就是“人类写的”。 他要求AI保留“不确定性信号”,本质上是在请求:请给人类留一个参与的借口。
这听起来很傲慢,但也很悲壮——我们正在发明一种东西,它最大的成功标志就是让发明者变得多余。
作者用了9个月摸索出一套Claude Code工作流,核心只有一条:在Claude动手写代码之前,必须先有一份经过反复标注修改的书面计划。这套流程把“思考”和“执行”彻底分开,大幅减少了AI把代码写跑偏的概率。
大多数人用AI写代码的姿势是这样的:输入需求,让它生成,报错了修一修,再生成,循环往复。复杂点的任务直接崩。
作者Boris Tane给出了一个反直觉的答案:AI最大的失败不是写出语法错误的代码,而是写出一个在局部跑通、却把整个系统搞坏的代码。一个忽略了现有缓存层的函数,一个没考虑ORM规范的数据迁移,一个跟别处重复的API接口。这类错误安静、隐蔽,最难排查。
他的解法分三步走。
第一步,让Claude先去读懂代码,把读到的东西写下来。 不是口头告诉你,是写进一个research.md文件。他的指令里密集出现“深入”、“细节”、“复杂性”这类词,不是废话,而是在告诉Claude:别走马观花。这份文档的真正用途是给他自己看的,验证Claude是否真的理解了系统,误解在这一步消灭,不等到代码里。
第二步,写计划,然后反复标注修改。 Claude生成plan.md之后,他在编辑器里直接往文档里加注释。两个字的也有:“不可选”。一段话的也有,比如解释某个业务约束,或者纠正一个架构方向。然后把文档扔回给Claude:“我加了一些注释,按注释更新文档,先不要写代码。”
“先不要写代码”这句话他每次都加。因为Claude一旦觉得计划差不多了就会冲动地开始实现,而这个时机通常不对。
这个循环可能重复一到六次。有观点认为,这种方式其实是在把人类的判断力注入进去:Claude知道代码怎么写,但不知道你的产品优先级,不知道你愿意接受哪些技术债。标注循环就是把这些隐性知识转化成明确指令的过程。
计划写好之后,再加一个待办清单,让Claude逐项打勾,方便追踪进度。
第三步,一口气让它实现完。 他的实现指令几乎每次都一样:“全部实现,完成一项就在计划文档里标记,不到所有任务完成不要停,持续运行类型检查。”到这一步,创造性的工作已经结束了,剩下的是执行。他想要执行变得无聊。
实现过程中他的纠错方式变得极度简短:“你没有实现deduplicateByTitle函数。”“这个设置页应该在admin应用里,不是主应用,移过去。”Context还在,一句话够了。前端调整更极端,有时候只发一个词:“更宽一点。”“还是裁到了。”
出了大问题就直接回滚,然后缩小范围重来。他的经验是,缩小范围之后重做,几乎总比在烂摊子上修补强。
有网友提到,很多人抱怨Claude在上下文窗口用到一半之后就开始退化,但他没遇到这个问题,因为plan.md作为持久化文档存在,即使上下文被压缩,文档还在,随时可以重新指向它。
整套流程没有魔法Prompt,没有复杂的工具链。本质就是一件事:在动手之前,把思路逼到纸面上,反复修到满意为止。
他没说的是:这套流程需要你自己先把需求想清楚,Claude帮不了你。
这套工作流最狠的地方在于那句“先不要写代码”。它戳破了一个幻觉:我们以为AI的价值是“生成”,其实是“对齐”。代码写错了能报错,方向错了没人拦你。一个绕过缓存层的函数,跑得比谁都顺畅,却在三个月后让整个系统雪崩。作者真正在做的事情,是把AI从“执行者”训练成“被审稿的作者”——research.md是初稿,plan.md是修订稿,人类批注是红笔。写作的秘密从来不是下笔如神,而是改稿改到吐。AI写代码,同理。
Anthropic以AI安全为旗号,却从未开源任何模型,连tokenizer都不对外公开。这家公司把“安全研究”包装成流量,实质上对开源社区毫无贡献。
有人最近想做一个多语言tokenizer效率对比项目,分析了Google、OpenAI、Meta的模型,轮到Anthropic时愣住了:没有任何公开资料可以分析。Google论文里提到Gemini和Gemma共享tokenizer,OpenAI开源了tokenizer和gpt-oss,Meta的Llama就更不用说。Anthropic那边:一片空白。
这是一家以“AI安全”为核心使命的公司。
OpenAI这些年被骂得最多的就是“不Open”,可至少还在发论文、开源tokenizer、放出基础模型。Anthropic连这点都做不到。有观点认为,他们每次发布都附带几百页的自我宣传材料,里面充满末日预警和能力吹嘘,但对真正的安全对齐研究者有用的信息几乎为零。
开源恰恰是加速安全研究最有效的方式之一,一家声称在做安全的公司,却把所有东西锁死,这逻辑本身就值得怀疑。
有网友提到,他用同一套方法在过去一年里连续绕过了Claude 3.5到4.6共五代模型的安全限制,方法没变过,效果一直有。几百名博士,数十亿美元投入,结果一个人在家鼓捣就能突破。他拒绝公开具体方法,理由是有恶意行为者在看,另一个理由他说“有点尴尬”。有网友怀疑他在编,他表示可以私信演示,但需要鼓起勇气。
还有观点认为,这套“安全”叙事本身是一门生意。先用开源代码库里的漏洞制造恐慌,高喊“开源不安全”,第二天转头卖自己的代码安全审计服务。剧情弧度相当完整。
Anthropic的投资方包括Google,合作方包括Palantir。一家喊着安全口号的公司,跟一家以数据军事化闻名的公司深度绑定,这件事本身就很难解释得通。
关于Claude为什么感觉比其他模型“不一样”,有几种猜测在流传:大量可验证的逻辑合成训练数据、以代码为核心的早期训练策略、可能存在的非标准tokenization方案。GLM和MiniMax的表现或许能作为某种侧证。但这些都是猜测,因为没有任何公开信息。
有人说如果Anthropic上市会去买股票。这倒是一个完全不同维度的坦诚。
“安全”两个字,在硅谷的语境里,从来都是个定价策略而非技术指标。Anthropic深谙此道:用末日叙事锁定企业客户的焦虑,用封闭架构锁死竞争对手的窥探,用几百页白皮书锁住舆论的定义权。OpenAI被骂“不Open”好歹还漏点东西出来,Anthropic连tokenizer都藏着,却从没人质疑那个“AI安全公司”的title。
这不是双标,这是教科书级的品牌溢价管理——卖恐惧的人,怎么能让你看见恐惧的生产车间?Google投钱、Palantir合作,资本的嗅觉比道德判断诚实得多。
一位重度用户坦言Claude比ChatGPT更好用,却依然选择留在ChatGPT——不是因为产品差,而是因为Claude的双重使用上限让他无法正常工作。这场讨论戳穿了一个行业里心照不宣的秘密。
有人在Reddit发了篇帖子,评论区打成一锅粥。
他的逻辑很简单:Claude更好,但我付不起$100/月的Max计划;我愿意付$20,可这个价位的Pro计划在我的使用强度下撑不过两个小时就触发5小时冷却窗口,然后还叠着一个周级封顶,一锁就是好几天。同样$20的ChatGPT Plus,他从来没遇过强制断线。
于是他继续给OpenAI交钱,嘴上承认Claude更好用。
评论区最高赞的反驳是:“你根本就是错误的目标用户,Max计划才是为你设计的。”这话没错,但同时也彻底回避了真正的问题。
他并没有要求无限算力,也没有要求亏本补贴。他要的是一个能让严肃的日常用户完成工作的$20计划——或者哪怕一个$40到$60之间的中间档。Pro到Max之间是$80的断层。他的原话是:“那不叫分级,那叫断崖。”这句话太精准了,以至于很多人立刻猜到是用Claude写的。
有网友提到,OpenAI的$20计划本质上是一种烧钱的用户锁定策略,当前的推理成本远未被订阅价格覆盖。这个判断在技术上可能是对的。但问题在于:消费者买的是当下的产品体验,不是供应商的财务报表。“他们在亏本补贴你”是一个解释,不是一个理由。
Anthropic的B2B优先战略也被反复提及。企业客户一张支票可以抵过几百个个人订阅者,这是事实。但如果Pro计划的设计目标从来就不是重度个人用户,那这个产品就不应该被那样营销和定价。有观点认为,Anthropic完全可以把Pro定位成“轻度体验入口”并明说,但他们没有,于是用户在付款之后才发现规则。
有网友提到,上限本身改变了他们与产品互动的方式——不再自由探索,而是开始精打细算地分配token,把头脑风暴搬到应用之外进行,以免浪费配额在前期准备上。一个以“探索”为卖点的AI工具,却让用户像数花生米一样数着token用,这种反差确实有点讽刺。
帖子的最后,发帖人总结了一句让人很难反驳的话:没有人真正为Pro计划能支撑高强度日常使用辩护过,他们只是从各个角度解释了为什么你不该期待它能做到。
这两者不是一回事。
他还在用Claude写东西,但钱给了OpenAI。Anthropic大概知道有多少人和他处境相同,只是选择了接受这个结果。
这场争论的本质不是“贵不贵”,而是“骗没骗”。用户花钱买的从来不是算力,而是一种“随时可用”的安全感。
当你为一个工具付费,却要像守着沙漏一样计算它什么时候会把你锁在门外,这种体验本身就是对“订阅”这个词的背叛。
Anthropic的问题不在于定价高,而在于Pro计划的包装让人误以为买到了生产力工具,实际拿到的却是一张限时体验券。最贵的不是$100的Max,而是$20买来的焦虑。 OpenAI可能在亏钱,但人家亏出了用户粘性;Anthropic在赚逻辑上的正确,却输掉了情感上的信任。