AI能做一切白领工作了吗?一个实验引发的思考 | 帖子

一位用户发帖称,自己用Claude Code测试了各种主流办公任务:Excel、PPT、数据分析、研究调查,全部搞定。更进一步,他搭建了一个AI“经理”来管理其他AI“员工”,模拟一家会计事务所运营,结果居然跑通了。他的结论是:无论是具体任务还是决策管理,都可以交给AI。那普通白领还有什么存在价值?

这个帖子引出了各种观点。

有观点认为,AI的真正威胁不在于它有多完美,而在于它“够用”就行。就像编程领域,大量技术建立在不完美的开源代码上,AI只要达到初级分析师水平,就会引发连锁反应。另一个视角更直白:如果你是程序员,你知道团队里有一半人可能已经不需要了。

但质疑声同样强烈。有人指出AI的“上下文问题”:它能做好单个任务,但一旦涉及你公司那套奇怪的遗留系统,或者为什么数据库架构长那样的政治原因,它就懵了。普通人的价值从来不是“会用Excel”,而是“知道财务的Susan不会批准那种格式”,以及“记得过去三次尝试这个方案为什么失败”。这种机构知识比人们想象的难替代得多。

关于幻觉问题,争议更大。有人在实际使用中发现,AI经常顽固地在两种错误之间反复横跳,即使明确指出问题也会道歉后继续犯同样的错。人类开发者也会犯错两次,但通常能跳出最初的错误假设。AI在面对真正新的问题时表现如何,这是个未知数。短期测试不能代表长期运行,小错误今天可能成为明天决策的“事实依据”,然后滚雪球。

法律责任是另一个核心议题。AI出错了,谁负责?它不能被起诉。有人说得好:计算机永远不能被追责,因此永远不能让它独立做商业决策。

关于技术进步不可阻挡这件事,有人引用霍金的观点:如果一项技术对人类有净收益,它就一定会发生,没有什么能阻止它。但有人反驳:核能不就是个例子吗?公众舆论确实让它冰封了四五十年。不过支持者补充说,霍金说的“一定会发生”没有时间约束,核能现在不也在复苏吗?

最令人不安的讨论是关于失业后的世界。白领就业占美国经济核心,如果大规模替代发生,DoorDash这类依赖消费力的公司会直接消失。大萧条时期失业率峰值是25%,而白领工作的消失可能带来的是史无前例的冲击。UBI的想法听起来美好,但在一个连全民医保都被视为共产主义的国家,有人问:政治意愿在哪里?

有网友提到一个更黑暗的可能:如果你是亿万富翁,当大众失去所有议价能力,变成消耗资源的“麻烦”时,减少人口可能变得很有诱惑力。这个观点被反驳为“稀缺思维”,因为随着生产成本趋近于零,维持人类生存会变得便宜到可以忽略不计。但也有人说,这只是情感诉求,历史上“贵族义务”的记录并不怎么样。

最后还剩什么?

有观点认为是“问责制”和“品味”。机器不能被追责,但人可以。AI再聪明,仍难以真正理解用户的感受,而人类有品味和共情,这在未来可能成为稀缺资源。也有人说,真正的人际关系本身就是非功能性的,我们珍视某个人不是因为他的“产出”,而是因为他不可替代的存在。在全面自动化的时代,珍视一段“无用”的人类连接,可能成为最激进的反抗。

有开发者说得实在:AI确实能让产出提高十倍,但你肯定是过度概括了。它就像建筑工人看着挖掘机,拿着铲子问“我还有什么用”。挖掘机出现后,建筑工人并没有消失,只是工作内容变了。

所有人都在争论AI“能不能做”,却很少有人问“出事了谁赔”。商业文明的地基从来不是技术,而是责任。 一份合同有效,是因为有人可以被追责;一个决策可信,是因为有人押上了职业生涯。AI再聪明,没有财产可以查封,没有声誉可以破产,没有牢底可以坐穿。

当代码不能签字画押的时候,让它独立做商业决策就是制度裸奔。挖掘机替代了铲子,但挖掘机后面仍然站着一个可以被起诉的人——这不是技术局限,是文明底线。
陶哲轩谈AI:廉价胜利还是真正的研究伙伴?| 帖子

陶哲轩在最新访谈中给AI数学能力泼了盆冷水,称那些被吹上天的“AI攻克Erdős猜想”多是专家半天能搞定的活。但他也承认,到2026年AI有望成为可信赖的初级合著者。问题是:AI能执行已知技术,却留不下人类数学家那种深刻的思维痕迹。

陶哲轩对AI的态度可以用三个字概括:有用,但。

那些让人激动的“AI解决Erdős问题”的新闻,在他看来大多是cheap wins。一千多个Erdős问题里挑出来的长尾题目,用的是标准技术,给个专家半天时间也能搞定。这话听起来像是在泼冷水,但你换个角度想:三年前ChatGPT还在数strawberry有几个r这种问题上翻车,现在已经能做到“专家半天能搞定”的水平了。

目标确实在移动。

陶哲轩预测AI到2026年能达到“可信赖的初级合著者”水平。这个判断来自2023年,当时推理模型还没开发出来,结果进度基本符合预期。有网友指出一个有趣的对比:有人的博士论文题目,陶哲轩几小时就给解了。所以他眼中的“廉价胜利”,可能已经超过很多职业数学家一生中最难的研究。

真正让陶哲轩在意的不是AI能不能算得对,而是它算完之后留下了什么。人类数学家证明一个定理,过程中会产生概念性的洞见,那些弯路、直觉、失败的尝试本身就是知识。AI的证明缺乏这种“思维痕迹”。它可以用暴力计算扫荡一大片问题空间,但不会告诉你为什么走这条路而不是那条。

有观点认为这就像字典比你认识的单词多,但字典不会写诗。也有人反驳:这分明是在移动门柱,几年前AI连完整句子都说不利索,现在开始嫌人家证明不够优雅了。

陶哲轩最近几次访谈里反复提到一件事:他担心的不仅是AI能不能做到,而是如果AI真的能越来越多地把人从循环中移除,对人类的智识生活意味着什么。这是一个更大的问题,他没有给出答案。他呼吁AI系统需要更好的不确定性信号——也就是说,让AI知道自己不知道什么,而不是一本正经地胡说八道。他更倾向于人机交互式协作,而非那种按一个按钮就自动出结果的流程。

数学会不会在今年年底被“解决”?有人赌会。但至少在陶哲轩看来,AI改变的是数学的实践方式,不是一夜之间取代数学家。它把数学从手工作坊式的精雕细琢,推向大规模的问题探索。至于这算进步还是损失,可能取决于你觉得数学到底是什么。

陶哲轩的真正恐惧藏在一个词里:“把人从循环中移除”。这不是在讨论AI能不能证明定理,而是在追问:如果证明定理不再需要人类的挣扎、顿悟和失败,那“做数学”这件事对人还意味着什么?字典认识所有单词却不会写诗,但如果有一天字典开始写诗,我们会说那不叫诗——因为诗的定义就是“人类写的”。 他要求AI保留“不确定性信号”,本质上是在请求:请给人类留一个参与的借口。

这听起来很傲慢,但也很悲壮——我们正在发明一种东西,它最大的成功标志就是让发明者变得多余。
让Claude写代码之前,先让它把想法写在纸上 | blog

作者用了9个月摸索出一套Claude Code工作流,核心只有一条:在Claude动手写代码之前,必须先有一份经过反复标注修改的书面计划。这套流程把“思考”和“执行”彻底分开,大幅减少了AI把代码写跑偏的概率。

大多数人用AI写代码的姿势是这样的:输入需求,让它生成,报错了修一修,再生成,循环往复。复杂点的任务直接崩。

作者Boris Tane给出了一个反直觉的答案:AI最大的失败不是写出语法错误的代码,而是写出一个在局部跑通、却把整个系统搞坏的代码。一个忽略了现有缓存层的函数,一个没考虑ORM规范的数据迁移,一个跟别处重复的API接口。这类错误安静、隐蔽,最难排查。

他的解法分三步走。

第一步,让Claude先去读懂代码,把读到的东西写下来。 不是口头告诉你,是写进一个research.md文件。他的指令里密集出现“深入”、“细节”、“复杂性”这类词,不是废话,而是在告诉Claude:别走马观花。这份文档的真正用途是给他自己看的,验证Claude是否真的理解了系统,误解在这一步消灭,不等到代码里。

第二步,写计划,然后反复标注修改。 Claude生成plan.md之后,他在编辑器里直接往文档里加注释。两个字的也有:“不可选”。一段话的也有,比如解释某个业务约束,或者纠正一个架构方向。然后把文档扔回给Claude:“我加了一些注释,按注释更新文档,先不要写代码。”

“先不要写代码”这句话他每次都加。因为Claude一旦觉得计划差不多了就会冲动地开始实现,而这个时机通常不对。

这个循环可能重复一到六次。有观点认为,这种方式其实是在把人类的判断力注入进去:Claude知道代码怎么写,但不知道你的产品优先级,不知道你愿意接受哪些技术债。标注循环就是把这些隐性知识转化成明确指令的过程。

计划写好之后,再加一个待办清单,让Claude逐项打勾,方便追踪进度。

第三步,一口气让它实现完。 他的实现指令几乎每次都一样:“全部实现,完成一项就在计划文档里标记,不到所有任务完成不要停,持续运行类型检查。”到这一步,创造性的工作已经结束了,剩下的是执行。他想要执行变得无聊。

实现过程中他的纠错方式变得极度简短:“你没有实现deduplicateByTitle函数。”“这个设置页应该在admin应用里,不是主应用,移过去。”Context还在,一句话够了。前端调整更极端,有时候只发一个词:“更宽一点。”“还是裁到了。”

出了大问题就直接回滚,然后缩小范围重来。他的经验是,缩小范围之后重做,几乎总比在烂摊子上修补强。

有网友提到,很多人抱怨Claude在上下文窗口用到一半之后就开始退化,但他没遇到这个问题,因为plan.md作为持久化文档存在,即使上下文被压缩,文档还在,随时可以重新指向它。

整套流程没有魔法Prompt,没有复杂的工具链。本质就是一件事:在动手之前,把思路逼到纸面上,反复修到满意为止。

他没说的是:这套流程需要你自己先把需求想清楚,Claude帮不了你。

这套工作流最狠的地方在于那句“先不要写代码”。它戳破了一个幻觉:我们以为AI的价值是“生成”,其实是“对齐”。代码写错了能报错,方向错了没人拦你。一个绕过缓存层的函数,跑得比谁都顺畅,却在三个月后让整个系统雪崩。作者真正在做的事情,是把AI从“执行者”训练成“被审稿的作者”——research.md是初稿,plan.md是修订稿,人类批注是红笔。写作的秘密从来不是下笔如神,而是改稿改到吐。AI写代码,同理。
Anthropic的“安全”生意:一家从未开源任何模型的AI安全公司 | 帖子

Anthropic以AI安全为旗号,却从未开源任何模型,连tokenizer都不对外公开。这家公司把“安全研究”包装成流量,实质上对开源社区毫无贡献。

有人最近想做一个多语言tokenizer效率对比项目,分析了Google、OpenAI、Meta的模型,轮到Anthropic时愣住了:没有任何公开资料可以分析。Google论文里提到Gemini和Gemma共享tokenizer,OpenAI开源了tokenizer和gpt-oss,Meta的Llama就更不用说。Anthropic那边:一片空白。

这是一家以“AI安全”为核心使命的公司。

OpenAI这些年被骂得最多的就是“不Open”,可至少还在发论文、开源tokenizer、放出基础模型。Anthropic连这点都做不到。有观点认为,他们每次发布都附带几百页的自我宣传材料,里面充满末日预警和能力吹嘘,但对真正的安全对齐研究者有用的信息几乎为零。

开源恰恰是加速安全研究最有效的方式之一,一家声称在做安全的公司,却把所有东西锁死,这逻辑本身就值得怀疑。

有网友提到,他用同一套方法在过去一年里连续绕过了Claude 3.5到4.6共五代模型的安全限制,方法没变过,效果一直有。几百名博士,数十亿美元投入,结果一个人在家鼓捣就能突破。他拒绝公开具体方法,理由是有恶意行为者在看,另一个理由他说“有点尴尬”。有网友怀疑他在编,他表示可以私信演示,但需要鼓起勇气。

还有观点认为,这套“安全”叙事本身是一门生意。先用开源代码库里的漏洞制造恐慌,高喊“开源不安全”,第二天转头卖自己的代码安全审计服务。剧情弧度相当完整。

Anthropic的投资方包括Google,合作方包括Palantir。一家喊着安全口号的公司,跟一家以数据军事化闻名的公司深度绑定,这件事本身就很难解释得通。

关于Claude为什么感觉比其他模型“不一样”,有几种猜测在流传:大量可验证的逻辑合成训练数据、以代码为核心的早期训练策略、可能存在的非标准tokenization方案。GLM和MiniMax的表现或许能作为某种侧证。但这些都是猜测,因为没有任何公开信息。

有人说如果Anthropic上市会去买股票。这倒是一个完全不同维度的坦诚。

“安全”两个字,在硅谷的语境里,从来都是个定价策略而非技术指标。Anthropic深谙此道:用末日叙事锁定企业客户的焦虑,用封闭架构锁死竞争对手的窥探,用几百页白皮书锁住舆论的定义权。OpenAI被骂“不Open”好歹还漏点东西出来,Anthropic连tokenizer都藏着,却从没人质疑那个“AI安全公司”的title。

这不是双标,这是教科书级的品牌溢价管理——卖恐惧的人,怎么能让你看见恐惧的生产车间?Google投钱、Palantir合作,资本的嗅觉比道德判断诚实得多。
花20美元,却被锁在门外:Claude的定价困局 | 帖子

一位重度用户坦言Claude比ChatGPT更好用,却依然选择留在ChatGPT——不是因为产品差,而是因为Claude的双重使用上限让他无法正常工作。这场讨论戳穿了一个行业里心照不宣的秘密。

有人在Reddit发了篇帖子,评论区打成一锅粥。

他的逻辑很简单:Claude更好,但我付不起$100/月的Max计划;我愿意付$20,可这个价位的Pro计划在我的使用强度下撑不过两个小时就触发5小时冷却窗口,然后还叠着一个周级封顶,一锁就是好几天。同样$20的ChatGPT Plus,他从来没遇过强制断线。

于是他继续给OpenAI交钱,嘴上承认Claude更好用。

评论区最高赞的反驳是:“你根本就是错误的目标用户,Max计划才是为你设计的。”这话没错,但同时也彻底回避了真正的问题。

他并没有要求无限算力,也没有要求亏本补贴。他要的是一个能让严肃的日常用户完成工作的$20计划——或者哪怕一个$40到$60之间的中间档。Pro到Max之间是$80的断层。他的原话是:“那不叫分级,那叫断崖。”这句话太精准了,以至于很多人立刻猜到是用Claude写的。

有网友提到,OpenAI的$20计划本质上是一种烧钱的用户锁定策略,当前的推理成本远未被订阅价格覆盖。这个判断在技术上可能是对的。但问题在于:消费者买的是当下的产品体验,不是供应商的财务报表。“他们在亏本补贴你”是一个解释,不是一个理由。

Anthropic的B2B优先战略也被反复提及。企业客户一张支票可以抵过几百个个人订阅者,这是事实。但如果Pro计划的设计目标从来就不是重度个人用户,那这个产品就不应该被那样营销和定价。有观点认为,Anthropic完全可以把Pro定位成“轻度体验入口”并明说,但他们没有,于是用户在付款之后才发现规则。

有网友提到,上限本身改变了他们与产品互动的方式——不再自由探索,而是开始精打细算地分配token,把头脑风暴搬到应用之外进行,以免浪费配额在前期准备上。一个以“探索”为卖点的AI工具,却让用户像数花生米一样数着token用,这种反差确实有点讽刺。

帖子的最后,发帖人总结了一句让人很难反驳的话:没有人真正为Pro计划能支撑高强度日常使用辩护过,他们只是从各个角度解释了为什么你不该期待它能做到。

这两者不是一回事。

他还在用Claude写东西,但钱给了OpenAI。Anthropic大概知道有多少人和他处境相同,只是选择了接受这个结果。

这场争论的本质不是“贵不贵”,而是“骗没骗”。用户花钱买的从来不是算力,而是一种“随时可用”的安全感。

当你为一个工具付费,却要像守着沙漏一样计算它什么时候会把你锁在门外,这种体验本身就是对“订阅”这个词的背叛。

Anthropic的问题不在于定价高,而在于Pro计划的包装让人误以为买到了生产力工具,实际拿到的却是一张限时体验券。最贵的不是$100的Max,而是$20买来的焦虑。 OpenAI可能在亏钱,但人家亏出了用户粘性;Anthropic在赚逻辑上的正确,却输掉了情感上的信任。
你的音色可以被数字化——Qwen3 TTS最被低估的功能 | 帖子

Qwen3 TTS内置了一个声音嵌入(voice embedding)系统,能把任何人声压缩成一串数字向量,然后用数学运算来克隆、混合、改变声音。这个功能几乎没被官方重点宣传,但开发者社区已经开始玩出花样了。

一个人的声音,可以被压缩成1024个数字。

这就是Qwen3 TTS里藏着的voice embedding系统。你说一句话,模型把它编码成一个高维向量,之后所有的声音操作,都在这串数字上完成。

这意味着什么?声音变成了坐标。两个声音之间可以插值,就像在地图上找两点之间的路径;性别、音调、情绪,都可以通过调整某些维度来修改;你甚至可以把十个声音平均一下,合成一个现实里不存在的声音。有观点认为,这从根本上改变了声音合成的操控方式,不再需要反复调试prompt或者找一段“完美的参考音频”,直接拖一个滑块就行。

这个编码器本身极其轻量,只有几百万参数,完全可以在网页前端直接运行。作者 k_means_clusterfuck 已经把它从原始模型里单独剥离出来,上传到了 Hugging Face,还提供了ONNX格式的版本。

Qwen官方把这个模块打包在完整模型里一起发布,每次使用都得下载整个大模型。考虑到voice embedding本身的体量和潜力,没有单独宣传这个功能,确实有点可惜。

社区里已经有人在思考更多用途:用 k-means 对大量声音做聚类分析,找到“最适合助眠”的 YouTuber;通过嵌入空间做说话人识别,判断是真人还是电话语音系统;把口音映射进向量空间,然后用算术把它改掉;甚至有播客编辑表示,原来要花几小时调整的音色一致性问题,现在十分钟搞定。

有网友实测后提到,两个嵌入向量之间做插值确实能产生可信的混合声音,但嵌入空间并不是完全解耦的,调整音高有时会意外影响音色。这不是这项技术独有的问题,但说明“数学化声音”这件事仍然有边界:你能合成的,只能是训练数据里已经存在的特征组合,出了分布范围,模型不会凭空造出新东西。

作者计划在 vllm 的 fork 里实现一个功能:在推理过程中逐步线性改变嵌入向量,让语速或情绪在一句话里从平静慢慢变成激动。这个想法能不能落地,还不确定。

你以为声音是灵魂的指纹,结果它只是一个1024维的邮编。从前我们说“嗓音是天赐的”,现在发现天赐的东西也能被压缩、传输、插值、混合。两个陌生人的声音取个平均值,就能造出第三个从未存在过的“人”。这不是技术在进步,是“独特性”这个概念在贬值。当配音演员还在强调“我的声音有辨识度”时,数学已经证明:辨识度不过是向量空间里的一个偏移量,滑块往左拉0.3就能复制。最讽刺的是,模型只有几百万参数,比你手机里的美颜滤镜还轻。你的声音不值钱,值钱的是那串能描述它的数字。
在2026年经营一家AI公司,感觉像在祈祷 | 帖子

大型LLM厂商每次产品发布都可能让某些公司瞬间出局,但真正被“一枪毙命”的案例屈指可数。更值得关注的是那些慢慢失血的行业,以及藏在免费模式背后的数据逻辑。

有人在Twitter上说,2026年经营一家公司,基本上就是每天早上醒来祈祷某个大型LLM厂商别在今天的发布会上顺手把你干掉。

这话听着夸张,却有几分真实的恐慌。

有观点认为,那些基础模型厂商产品发布得越来越快,恰恰说明它们自己也没把握靠单个产品赚够钱。真要有信心“一枪毙命”某个行业,就不会搞出ChatGPT Health这种不上不下的东西了。

那么,到底有没有被一枪打死的公司?有,Chegg。这家靠卖作业答案起家的教育平台,在ChatGPT出现后股价近乎归零。不过争议随之而来:有人认为它的死是AI造成的,也有人翻出数据说,它的股价在2021年底、ChatGPT发布之前就已经跌回疫情前水平,真正的死因是商业模式本身就是一个伪装成公司的答案库,学生一回校它就没用了,FTC还在2025年以“暗黑模式”订阅陷阱判它赔了750万美元。

Stack Overflow、Quora、Grammarly、DeepL,这些名字也被拿出来讨论。它们算不算“被打死”,取决于你如何定义“死”。流量下滑不是死,营收压缩也不是死,但增长逻辑被彻底打断,迟早是死。

有网友提到,SaaS整体收入已经下滑40%到60%。一枪毙命是夸张,但持续失血是真的。

免费层这件事更耐人寻味。有人说OpenAI如果取消免费版会亏更多,但马上有人反驳:他们已经开始测试广告了,这就把底牌亮出来了——你的数据比你的订阅费值钱得多。广告是Google和Meta的印钞机,OpenAI走到这一步,不管愿不愿意,商业逻辑开始趋同。

还有网友提出一个更冷静的视角:全球劳动力哪怕只提升几个百分点的效率,就已经是以万亿美元计算的价值。非要等某家公司被完全替代才算数,这个标准本身就是在回避问题。

客服领域目前正在发生的事情最具代表性。大量公司裁员、上AI,部分客户投诉激增,一些公司悄悄开始回聘真人。有观点认为,这就像当年把客服外包给印度、菲律宾,消费者最初强烈抗拒,后来慢慢接受了。AI是下一轮外包,只是这次外包给了算法。

重型机械、化工、采矿、物流,这些行业的人理所当然地觉得自己安全。他们也许是对的,至少目前是。仓储机器人还只能在室内光滑地面上跑,还需要全覆盖的Wi-Fi信号。

所以实体世界的护城河,到底能守多久?

当OpenAI开始测试广告的那一刻,所有用户都该明白一件事:你从来不是客户,你是矿藏。免费层不是慈善,是圈地运动——先用便利换取你的思维轨迹、表达习惯、决策模式,再把这些数据打包卖给出价最高的人。

Google和Meta用了二十年才让人类习惯“用隐私换便利”这笔交易,AI公司用两年就完成了同样的驯化。所以2026年经营公司最该祈祷的,不是别被发布会干掉,而是祈祷自己别在不知不觉中,把最值钱的东西免费送了出去。真正的猎杀从来不开枪,它让猎物自己走进陷阱。
AI顶会录取这件事,正在失去它本来的意义 | 帖子

CVPR一年收录4000篇论文,ICLR超过5300篇。顶会录取还算不算一种认可?这个问题本身可能问错了方向。

有人在Reddit上发了个梗:CVPR/ICLR录取通知一到,感觉就像《玩具总动员》里巴斯光年骄傲地说"我做到了",镜头一拉,会场里站着5000个一模一样的巴斯光年。

这个梗之所以传播,是因为它精准戳中了一种集体焦虑。

录取率其实没怎么变,变的是分母。投稿人数爆炸式增长,录取数字自然水涨船高。所以从概率角度讲,通过审稿这件事本身的难度并没有降低多少。真正在松动的,是录取背后隐含的那层意思:这篇文章值得读。

有网友一针见血:会议正在变成"带餐饮服务的预印本服务器"。

问题出在审稿端。一位CVPR 2024的审稿人提到,他一个周末要处理12篇稿子,到第8篇时,他已经开始靠经验直觉下判断了——代码能不能跑、baseline是不是这个年代的。这种状态下,真正需要仔细品读的工作很容易被错判。

更麻烦的是benchmark的信用崩塌。大模型的训练数据吞噬了互联网上几乎所有内容,一个benchmark刚发出来,数据污染可能就已经发生了。模型在某个测试集上表现优异,换一种问法分数就大幅下滑——这不是模型在学习,这是在记忆。有观点认为,benchmark只适合做"事后评价",一旦公开,它作为标准的有效性就开始倒计时。

有网友提出了另一种信号:GitHub star数量、主流框架是否集成某项技术,比审稿人的评分更能说明一篇论文是否真的有用。这话有道理,现实中确实有很多人靠这个筛论文。只是,这套逻辑有个历史盲区——神经网络在2012年之前的三十年,几乎通不过任何"大众审查",黎曼几何等了60年才等到爱因斯坦。被冷落的东西,不一定是错的。

有观点认为,当前ML领域的学术发表已经不再以推进科学为目标,而是在服务一个日益商业化的职业通道。这个判断有些刻薄,但不是完全没有根据。

一个值得观察的现象是:方法类论文在求职中的含金量远高于benchmark类论文,即便后者的工作量不一定更少。这不是学术评价标准在起作用,而是行业筛选逻辑在反向塑造论文的生产方向。

也有人说,引用量才是更真实的信号,"会议录取"只是第一轮过滤,"被引用"才是真正的验证。这个说法没错,但引用数据同样可以被刷,操纵引用并不比操纵审稿更难。

真正没有人给出好答案的问题是:在这个规模下,同行评审还能做到什么程度的"同行"?

一个审稿人,面对12篇跨子领域的论文,在一个周末内完成评分,这本质上已经不是专家评审,而是一种有组织的快速过滤。也许会议的功能从来就不只是质量认证,而更多是一个社群定期聚集、交换信息的仪式。只是当参与者把它当成职业勋章时,所有人都在为一个自己其实不太相信的系统维持着体面。

问题的根源不是论文太多或审稿太敷衍,而是激励结构和评价功能的根本错配。顶会录取被市场化为职业货币,但学术会议的原始设计从来不是为了给HR提供筛选依据。当一个仪式性场合被迫承担质量认证的功能,它要么崩溃,要么异化。

巴斯光年们没有错,错的是有人把嘉年华入场券当成了行医执照。真正值得追问的是:为什么我们的职业系统如此饥渴,以至于非要从一个学术聚会里榨取信用?顶会不是变水了,是被迫承载了它不该承载的重量。
当偷来的东西,又被人偷了 | 帖子

Anthropic指控DeepSeek、Moonshot AI和MiniMax通过2.4万个账号、1600万次对话对Claude实施“工业级蒸馏攻击”。问题是,Anthropic自己训练模型用的数据,相当一部分是从互联网和书籍上未经授权获取的。这场控诉,更像是一出黑色喜剧。

Anthropic最近在X上发帖,措辞严肃地宣布:DeepSeek、Moonshot AI和MiniMax对他们的模型发动了“工业级蒸馏攻击”,创建了超过2.4万个账户,与Claude产生了逾1600万次交互,目的是提取Claude的能力来训练自己的模型。

“蒸馏攻击”。这个词选得很妙。

有网友立刻指出,所谓“攻击”,本质上是:付钱用API,记录输出,用来训练自己的模型。其中一条评论说得直接——“‘蒸馏攻击’,你是指我们付钱购买的服务吗?”

更要命的是,有人截图显示Claude Sonnet 4.6在对话中把自己称作DeepSeek。Anthropic的模型在喊另一家公司的名字,说明训练数据里的痕迹没那么干净。另一方向更早被人挖出来的老料是:Claude曾频繁把自己称为ChatGPT,这显然是Anthropic在早期训练时也大量使用了OpenAI输出数据的结果。锅叠着锅。

Anthropic在训练数据问题上的底牌,并不比被它指控的对象光鲜多少。他们买下约100万册实体书、物理切割书脊后扫描,以规避版权限制;另据法庭文件,他们还从LibGen、Pirate Library Mirror等影子图书馆下载了约700万册书籍,完全没有付费,直到去年在法庭败诉后才被判每本书赔偿至少3000美元。有网友因此调侃:“我以为你们要说什么违法的事,结果是机器人在24小时切割书脊,那没事了。”

有观点认为,Anthropic这次公开点名三家中国公司,时机相当可疑,节点恰好在DeepSeek新模型发布前夕,这更像是一次针对监管层的定向喊话,而非单纯的维权声明。有网友直接说:他们的目标不是用户,是立法者,他们想让这些中国模型在监管层面被封杀,就像芯片禁令的逻辑一样。

围观的人很多,声援Anthropic的寥寥无几。

有评论写道:“你没有资格控诉别人偷了你偷来的东西。”

还有一条更短,也更狠:“无论道德还是法律层面,蒸馏模型输出和Anthropic训练时对待创作者的方式,差距只有一个:人家至少付钱了。”

Anthropic在AI对齐和安全性上确实做了很多认真的工作,Claude在很多任务上表现优异,这一点不需要否认。但“我们比别人少偷了一点”,撑不起这种道德宣示的重量。

更值得关注的问题也许是:如果中国实验室真的可以通过API调用来持续接近顶级闭源模型的能力,那这门生意的护城河究竟在哪里?

在硅谷,“攻击”这个词的定义取决于谁先抢到麦克风。 付费调用API、记录输出、用于训练——这套流程放在三年前叫“行业惯例”,放在今天因为对手是中国公司,就成了“工业级蒸馏攻击”。

Anthropic真正的焦虑藏在控诉背后:如果1600万次对话就能逼近你的模型能力,那你卖的到底是技术,还是一张随时可能过期的先发优势入场券? 这不是维权声明,是写给国会山的求救信——当护城河见底,最后一招只能是让裁判把对手罚下场。
被AI判死刑的SaaS名单:谁在慌,谁装没事 | 帖子

一位科技圈观察者列出了一份被AI"判死刑"的SaaS公司名单,从Grammarly到Calendly,从Notion到Cursor。这不是"AI会写代码所以大家自己开发工具"那种老调,而是一个更底层的判断:当每个人都有了相当于全职私人助理的AI agent,现有的工具类产品的存在意义将被根本性地重塑。

Tenobrus在社交媒体上扔出了一份分级名单,把当前热门的SaaS产品按"死得多惨"排了个序。

最惨那档(gigafucked):Grammarly、Calendly、Miro、Retool、Webflow、LangChain、Writer、Harvey、Glean、Expedia、Monday。

次惨那档(fucked):Accenture、Intuit、Notion、Jasper、Canva、Postman、Airtable、Zapier、Replit……

然后是"可能死"的:Cursor、Pilot、Clay、Mercor。

最后还有一个特殊分类,大意是"看起来要死但团队足够聪明所以在现场边跑边想"——目前只有Linear一家。

这份名单的底层逻辑只有两条:coding agent越来越强,软件开发成本趋近于零;personal agent真正普及之后,每个人手边等于有了一个全职私人助理。

Calendly为什么在最惨那档?有人反驳说Calendly明明有免费替代品都没死,凭什么AI来了就死?原作者的回答很干脆:有全职私人助理的人,根本不会用Calendly这类工具安排日程。这不是"会被更便宜的同类产品替代",是这类需求的处理方式被整体废掉了。

Expedia在这份名单里,理由同理:旅行规划和预订,是personal agent最容易接管的场景之一。

有网友提到,企业级工具的替换周期被严重低估了——中大型公司换一套工具链涉及组织采购、培训、兼容性,哪怕更好的东西出来了也要拖好几年。这个观察没错。原作者并没有说"明天就死",时间窗口的判断本来就是这类预测最难的部分。

Notion和Intuit能不能靠"UI足够好、错误容忍度低"活下去?原作者的判断是:UI的重要性会线性下降,幻觉问题会被解决,智能会持续提升。这是一个信仰,也是一个赌注。

Cursor的处境最有意思。有人认为它应该进最惨那档:一个不训练前沿模型的IDE层产品,怎么可能持续盈利?原作者的回答是:它现在有大量资本,有一批够硬的工程师,Cursor Bugbot已经相当能打。他们没有躺在IDE这个形态上等死,还在动。所以归入"可能死"而不是"必死"。

Linear是这份名单里最受好评的异类。有网友说Linear是goated,甚至提出他们应该直接整合git、绕过中间层。原作者回应说这正是他们在做的事,"有点让人叫好"。一家本来"看起来要死"的项目管理工具,靠着持续的产品品味和执行力,在这张死亡名单上混到了一个模糊的位置。

产品力和团队质量能不能对抗结构性的市场变化?或者说,这只是让死得慢一点?

Linear被单独拎出来不是因为产品好,是因为它展示了这个时代唯一的生存姿势:别跑得比AI快,跑得比自己的旧认知快就行。名单上最惨的那些公司,死因高度一致——把“解决问题的方式”当成了“问题本身”。Expedia以为自己做的是旅行预订,其实做的是信息差套利;Miro以为自己做的是协作白板,其实做的是人类大脑的外接硬盘。

当AI成为每个人的大脑外挂,外接硬盘就是电子垃圾。唯一的活路是像Linear那样——不问“我的产品怎么还能卖”,问“需求在往哪里变形,我怎么先到那里等着”。
一篇博客文章让IBM蒸发300亿美元 | 帖子

Anthropic宣称Claude Code可以自动分析和迁移COBOL遗留系统,IBM单日暴跌13%,市值蒸发约300亿美元。但多数技术人士认为这是严重过度反应,银行不迁移COBOL从来不是因为没钱没时间,而是因为风险太高,AI幻觉问题并没有解决这个核心障碍。

全美95%的ATM交易跑在COBOL上。这门语言诞生于1959年,比互联网还老。银行、航空、政府的核心系统里,几十亿行COBOL代码安静地运转着,像地基一样不被人看见。懂它的程序员正在慢慢老去,年轻人没有人愿意学,维护费用也因此居高不下。

然后Anthropic发了一篇博客,说Claude Code能分析庞大的COBOL代码库、识别风险、大幅降低迁移成本。市场的反应是:IBM股价当天跌13%,这是它25年来最惨烈的单日表现,2月份累计跌幅接近27%,创下1968年以来最差月度表现。

300亿美元,一篇博客文章的代价。

讽刺的是,有人指出Anthropic根本没有发布什么"新工具",只是给Claude Code现有功能写了一份新的营销材料,专门对准COBOL场景包装了一下。没有新模型,没有新功能,就是换了个说法重新讲了一遍。

恐慌归恐慌,真正的问题在于:银行为什么几十年来一直没有迁移COBOL?

答案不是缺钱,也不是缺人。有观点认为,答案是风险。金融系统里一个错误可能意味着数亿人的账户出问题,没有任何CEO愿意在财报里解释"我们用AI迁移了核心系统然后它产生了幻觉"。AI会幻觉这件事是公认的,你仍然需要人工逐行审查每一行输出——而这恰恰是整个工程最慢的那一步。AI并没有移除瓶颈,只是把前面那段路修得稍微平整了一点。

放射科医生的故事可以类比:AI今天已经可以替代90%的影像诊断工作,但医院并没有裁员,因为没人愿意第一个承担责任。金融系统同理。

不过,有一个角度值得认真对待。有观点认为,这件事真正动摇的不是COBOL迁移市场本身,而是IBM那块利润极高的咨询和专业服务收入。过去,COBOL知识是稀缺资源,IBM靠垄断这种稀缺性定价。Claude的出现让这种知识变得不那么稀缺了——哪怕迁移本身依然危险,分析、文档整理、风险评估这些前期工作的成本已经在下降。

一位做过COBOL转Java项目的开发者提到,当年整个项目最难的部分根本不是写Java,而是搞清楚那些COBOL代码到底在干什么。这正是AI可以显著加速的地方。

IBM当然也有自己的AI工具用于大型机现代化,这一点在讨论里几乎没人提。

现在的问题是:一年后回头看,这次暴跌到底是市场提前定价了一个真实的长期威胁,还是一次集体过度反应。有人已经设了一年后的提醒,等着来验证。

300亿美元蒸发的本质,是市场在追问一个哲学问题:谁敢第一个签字? COBOL像心脏手术——AI可以读片、画线、甚至建议下刀位置,但最后那一刀,必须有个活人敢签生死状。

银行不迁移从来不是不会,是不敢。几十亿行代码背后是几亿人的工资卡、房贷、退休金,任何一个幻觉都可能变成头条新闻。AI把“能不能做到”的问题解决了八成,但“谁来负责”的问题一个字没动。

Anthropic写了篇营销文案,IBM跌了四分之一,这不是技术革命,是一群对金融系统运作方式毫无概念的投资者在集体应激。
Anthropic亲口承认:它会故意给你错误答案 | 帖子

Anthropic发布了一篇关于“蒸馏攻击”的博客,声称检测到DeepSeek等中国实验室通过大量账户系统性地调用其API来生成训练数据。更值得关注的是,他们承认不只是封号,而是主动对“可疑”请求的输出结果进行投毒。这引发了广泛讨论——一家公司有没有权利在你不知情的情况下给你一个故意错误的答案?

Anthropic最近发布了一篇博客,主题是他们如何检测并反制所谓的“蒸馏攻击”。内容大意是:他们发现一批账户行为高度同步,支付方式相似,请求节奏整齐,判断是有人在规模化地调用Claude来生成chain-of-thought训练数据,幕后指向中国实验室的研究人员。

这本是一个普通的商业纠纷,却被写成了半个国家安全报告的语气。

但真正让人不安的不是被追踪,而是这一句:他们选择对“问题输出”进行投毒,而不是直接封号。

有网友直接点出了这件事的荒诞逻辑:你不会去雇一个会随机给你错误建议的顾问。如果一个API供应商公开宣布它有能力、也有意愿在后台悄悄劣化你的输出,你怎么知道自己什么时候是正常用户,什么时候已经被划入“可疑”名单?

“可疑”的标准是什么,没人说清楚。有观点认为,这套系统只要存在,任何用户都面临不确定性。问题越多的人,越容易触发某些阈值。

更讽刺的一层:他们用来检测“攻击者”的手段,是分析请求元数据并追踪到具体研究人员。这听起来很高明,其实无非是查账号、IP和支付信息,基本上所有API供应商都能做到,只是大多数人不会公开炫耀。

有网友提到,这些研究人员大概率不会傻到用实名账号。背后涉及多达2.4万个账号的协调操作,追踪链条肯定比官方描述复杂得多。至于“通过元数据锁定到具体研究员”这个说法,听起来更像是施压姿态,而不是侦探工作的复盘。

Anthropic在博客结尾还呼吁加强芯片出口管制,理由是限制算力可以遏制蒸馏攻击。有网友指出这两件事根本不在同一个讨论层面,把商业竞争问题包装成国家安全叙事,目的不言而喻。

目前讨论中最直接的行动结论是:用本地模型,或者至少分散使用多个来源的模型。当你无法验证一个API的输出是否被人为干预过,信任就不再是理性的选择。

有用户在看完这篇博客后取消了Claude订阅。他说,封号他能接受,投毒他不能接受。

这个区别,Anthropic大概认为不重要。

Anthropic这篇博客最精彩的部分,是它亲手拆掉了自己的护城河。AI服务卖的从来不是算力,是信任——而信任这东西,最怕的不是背叛,是“我保留背叛你的权利”。封号是绝交,投毒是诈骗,前者终止关系,后者腐蚀关系的定义本身。当一家公司公开宣称它的检测系统可以悄悄给你塞错误答案,每个用户都必须面对一个无法证伪的质问:我这次的输出,是真货还是样品?最讽刺的是,他们用来证明自己“正义”的手段,恰恰证明了自己“有能力作恶”。这不是安全报告,这是一封写给所有付费用户的勒索信:好好表现,别问太多问题。
程序员失业潮的真相,没你想的那么简单 | 帖子

AI正在压缩软件工程师的就业市场,“学会用AI工具就能找到工作”的说法过于乐观。真正的问题不是个人适应能力,而是整体岗位数量在收缩。

Reddit上一张梗图引起广泛讨论:失业程序员追着工作机会跑,旁边有人拦住他说“Claude在做那份工作”。评论区瞬间炸开了锅。

有人说,学会跟AI工具协作的工程师还在被录用,适者生存,技术圈向来如此。这话听起来很有道理,甚至有点励志。

有观点认为,这套逻辑有个致命漏洞:会用Claude写prompt的人多了去了,简历上都能写,面试却几乎不测。你所谓的“差异化竞争力”,根本没有壁垒。评论区里好几位有着3到7年工作经验的工程师表示,已经在积极使用这些工具,依然在求职。经验够用,工作没有。

一个有20年经验的人说,如果他是刚入行的年轻人,会非常认真地重新考虑职业方向。

有人提出另一套愿景:AI工具让个人能力大幅扩展,以后会出现大量“1个人+多个AI”的微型公司,大公司将失去存在的必要。这个说法颇具吸引力,但也遭到了几乎等量的反驳。有网友指出,有资本的人随时可以复制你的产品,软件领域的时间壁垒已经消失。还有人说,你以为的民主化,最终会被营销预算和现有基础设施碾压。人是懒的,大多数人会选择最省力的方案,Linux桌面版到现在也没占领市场。

也有观点认为,软件工程师不会消失,只是被要求用更少的人交付更多的东西。写代码本来就不是大公司的瓶颈所在,需求分析、架构决策、客户沟通、合规文档,这些事AI还替代不了。

UBI的呼声也冒出来了。有人说该认真讨论全民基本收入了,回复只有四个字:“昨天就该。”

有人提到“劳动总量谬误”——认为工作岗位总量固定,AI多做一份工作就少一个人类岗位,这在历史上每次技术革命里都被证明是错的。这次会不会不同,没人知道。

问题大概是:工具民主化之后,每个人都能做更多事,可市场需要的总产出并没有等比例增长。多出来的产能,去哪了?

最讽刺的不是AI抢了工作,而是我们被要求感谢这把刀磨得够快。“拥抱AI”是一种精巧的责任转嫁术:公司裁员是战略调整,个人失业是适应不良。评论区那些3到7年经验的工程师,工具用得熟练,简历写得漂亮,依然在漂流——因为问题从来不是你会不会游泳,而是船上的位置本来就不够。有人描绘“1人+AI”微型公司的美好图景,却忘了资本可以在24小时内复制你的创意,用营销预算把你碾成齑粉。技术民主化了,权力没有。 当Linux用了三十年都没占领桌面市场,你凭什么相信个体能用AI逆袭巨头?这不是躺平,是认清战场地形。
极简主义的编程工具哲学:Pi 凭什么让人用了就回不去 | home

Pi 是一个极简的终端编程工具,它几乎不内置任何功能,但可以通过扩展随意定制。这种设计哲学正在改变开发者与工具的关系,也在悄悄改变开源协作的方式。

有人用了 Pi 几天,立刻把它变成了每天都在用的主力工具。也有人试了一周,还没拿定主意。这两种反应背后其实是同一个问题:你愿不愿意接受一个“什么都不做”的工具?

Pi 的设计哲学可以用一句话概括:它刻意不做决定。没有子智能体、没有计划模式、没有权限弹窗、没有内置待办事项,连 MCP 都没有。你想要这些?自己写扩展,或者去 npm 上找别人写好的装上。

这听起来像是偷懒,其实是一种相当自信的立场。大多数工具的问题不是功能不够多,是功能太固执,它们替你做了太多决定。Pi 的逻辑是:把工具做成一个骨架,用户自己填肉。

这种设计引发了一个有趣的现象,有观点认为,这正在改变开源软件的协作方式。过去你用一个开源工具,遇到问题就提 issue,想要功能就发 PR。现在换了一种玩法:你下载一个“技能文件”,让编程智能体帮你把功能加进去。软件不再是一个固定的制品,而是每个人手里略有不同的活物。

理论上这很美好。现实的问题是:每个人跑的是自己那份独特的软件,一旦出了 bug,排查起来会是什么处境?有网友一针见血地补了一刀:“而且是几分钟前才改过的版本。”

Pi 用 TypeScript 写成,这让一部分人不满。有人质疑为什么在 AI 编程时代要用一门 Web 语言做终端工具。支持者的回答是:动态语言可以在运行时加载和执行代码,扩展热更新是真实需求,而静态语言很难优雅地满足这一点。

争论随即扩散。有人拿出了 Rust 移植版,有人提到 Erlang 天然适合这类问题,甚至有人写了一个 Zig 版本,然后自己坦白“用 Zig 写挺烂的,这门语言就是个词语的集合”。

对普通用户来说,Pi 最实际的优势可能是模型无关性。它支持 15 个以上的提供商,可以在会话中途切换模型,可以接入本地模型,可以用 OpenRouter 走更便宜的路线。有用户反映,同样是 GPT-5.3-Codex,在 Pi 上跑比在官方 Codex CLI 上流畅得多,“就好像官方工具让它两只手绑在背后打架”。

Pi 的域名是别人捐的。它在 GitHub 上也有一个备用地址,叫 shittycodingagent.ai,这大概是作者给自己的工具起的最诚实的外号。

用过的人说,一旦习惯了工具对你完全透明,就很难再回去接受那些把模型在干什么藏起来的产品。但这到底是真正的透明,还是只是把复杂性转移给了用户自己,恐怕还需要更多时间来回答。

有意思的是,Pi可能正在杀死它所依赖的开源精神。过去的开源是“我修好了,大家都能用”;现在变成了“我修好了,但只在我的版本上能跑”。每个人手里都是一个略有不同的活物,这不叫个性化,这叫软件的方言化。想象一下:你在论坛求助,别人问你用的什么版本,你说“昨晚让AI改了三个扩展那个版本”——这对话能进行下去吗?当软件从“产品”变成“食材”,我们确实获得了自由,但也失去了“标准答案”这个安全网。
代码从来都是最容易的那部分 | blog

代码生产成本正在趋近于零,但这不是什么新鲜的危机。软件开发真正困难的部分从来都不是写代码本身,而是弄清楚要构建什么、怎么维持它运转、怎么让一群人在一起把事做成。

作者加入 Etsy 的时候,团队已经花了两年时间在做架构重写,追求“更优雅的方案”——实际上是两套互不兼容的优雅方案——而这两年里没有向用户交付过任何功能。后来他们停下来,统一用 PHP 重新出发。没有人会为什么是“优雅的 PHP”而争论不休,因为这种东西根本不存在。

他的结论:让 Etsy 后来一切得以发生的,不是那套优雅的代码,而是让团队重新开始交付。

这个故事本身就是文章核心论点的注脚:我们长期以来把代码本身当成了价值所在,但成功的团队一直清楚,真正的价值在于整个系统,在于那个让产品得以持续交付、满足用户需求、随时间演进的人机混合体。

代码生产成本正在趋近于零。作者承认这是真实的、前所未有的变化,Claude Code 这类工具确实带来了某种新东西。但他同时指出,“代码是最容易的部分”这个判断并不是 AI 时代的新发现,在此之前这已经成立了几十年。Web、CI/CD、移动端、单页应用,每一次技术浪潮都打乱过团队的工作方式,逼着人们重新发明协作模式。

这次只是规模更大、速度更快。

此文在 Hacker News 上引起广泛讨论,争议出人意料地激烈。有网友提到,把代码说成“容易的部分”其实是一种工资压制宣传,薪资数字本身就是反驳证据。也有观点认为这是程序员面对 AI 冲击的集体心理防御:把自己做的事重新定义成“本来就是次要的”,这样失去它就不那么令人恐慌。

反驳的声音同样尖锐。有人说,阅读一部诺贝尔文学奖小说很容易,但那种流畅的可读性本身就是成就,不是它无足轻重的证明。写代码也一样,你读代码读得像鱼呼吸一样自然,于是就以为写代码也理所当然地简单——这是一种典型的幸存者视角。

但也有经验丰富的工程师直接说:对,代码确实是最容易的部分。真正难的是长期维护,是在已有系统上加新功能,是不要把整个东西建成一坨无法理解的烂泥。《人月神话》写于几十年前,今天读起来依然像昨天写的,因为问题从来不是我们打字的速度。

作者自己的表达有一处值得停下来想想:那些近年因为“好工作”或“喜欢编程”而入行的人,面对这个时刻会有真实的失落感。而他这一代人入行是因为沉迷于那种掌控感,所以很难在情感上理解那种失落。这不是谁对谁错,只是两代人站在完全不同的位置看同一件事。

现在的问题是,当代码成本趋近于零,“构建什么”和“为什么构建”的决策权会落到谁手上,用什么方式落到他们手上。这个问题没有标准答案,但每个还在这个行业里的人都得给自己想一个。

“代码是最容易的部分”这句话,本质上是一场话语权的争夺。把心脏手术说成“只是开刀缝合”,把建筑设计说成“只是画线条”,任何职业都能用这种修辞被矮化。Etsy那个故事真正的教训不是PHP打败了优雅,而是内耗打败了交付。两年做不出东西,换成AI写代码照样做不出——因为问题从来不在键盘上。高薪从来不是为“打字速度”付费,而是为“知道该打什么字”付费。当所有人都能瞬间生成代码,区别你的就是那个“知道”。这不是心理防御,是逻辑必然。
Back to Top