黑洞资源笔记

11:34 · Feb 27, 2026 · Fri

AI能做一切白领工作了吗？一个实验引发的思考 | 帖子

一位用户发帖称，自己用Claude Code测试了各种主流办公任务：Excel、PPT、数据分析、研究调查，全部搞定。更进一步，他搭建了一个AI“经理”来管理其他AI“员工”，模拟一家会计事务所运营，结果居然跑通了。他的结论是：无论是具体任务还是决策管理，都可以交给AI。那普通白领还有什么存在价值？

这个帖子引出了各种观点。

有观点认为，AI的真正威胁不在于它有多完美，而在于它“够用”就行。就像编程领域，大量技术建立在不完美的开源代码上，AI只要达到初级分析师水平，就会引发连锁反应。另一个视角更直白：如果你是程序员，你知道团队里有一半人可能已经不需要了。

但质疑声同样强烈。有人指出AI的“上下文问题”：它能做好单个任务，但一旦涉及你公司那套奇怪的遗留系统，或者为什么数据库架构长那样的政治原因，它就懵了。普通人的价值从来不是“会用Excel”，而是“知道财务的Susan不会批准那种格式”，以及“记得过去三次尝试这个方案为什么失败”。这种机构知识比人们想象的难替代得多。

关于幻觉问题，争议更大。有人在实际使用中发现，AI经常顽固地在两种错误之间反复横跳，即使明确指出问题也会道歉后继续犯同样的错。人类开发者也会犯错两次，但通常能跳出最初的错误假设。AI在面对真正新的问题时表现如何，这是个未知数。短期测试不能代表长期运行，小错误今天可能成为明天决策的“事实依据”，然后滚雪球。

法律责任是另一个核心议题。AI出错了，谁负责？它不能被起诉。有人说得好：计算机永远不能被追责，因此永远不能让它独立做商业决策。

关于技术进步不可阻挡这件事，有人引用霍金的观点：如果一项技术对人类有净收益，它就一定会发生，没有什么能阻止它。但有人反驳：核能不就是个例子吗？公众舆论确实让它冰封了四五十年。不过支持者补充说，霍金说的“一定会发生”没有时间约束，核能现在不也在复苏吗？

最令人不安的讨论是关于失业后的世界。白领就业占美国经济核心，如果大规模替代发生，DoorDash这类依赖消费力的公司会直接消失。大萧条时期失业率峰值是25%，而白领工作的消失可能带来的是史无前例的冲击。UBI的想法听起来美好，但在一个连全民医保都被视为共产主义的国家，有人问：政治意愿在哪里？

有网友提到一个更黑暗的可能：如果你是亿万富翁，当大众失去所有议价能力，变成消耗资源的“麻烦”时，减少人口可能变得很有诱惑力。这个观点被反驳为“稀缺思维”，因为随着生产成本趋近于零，维持人类生存会变得便宜到可以忽略不计。但也有人说，这只是情感诉求，历史上“贵族义务”的记录并不怎么样。

最后还剩什么？

有观点认为是“问责制”和“品味”。机器不能被追责，但人可以。AI再聪明，仍难以真正理解用户的感受，而人类有品味和共情，这在未来可能成为稀缺资源。也有人说，真正的人际关系本身就是非功能性的，我们珍视某个人不是因为他的“产出”，而是因为他不可替代的存在。在全面自动化的时代，珍视一段“无用”的人类连接，可能成为最激进的反抗。

有开发者说得实在：AI确实能让产出提高十倍，但你肯定是过度概括了。它就像建筑工人看着挖掘机，拿着铲子问“我还有什么用”。挖掘机出现后，建筑工人并没有消失，只是工作内容变了。

所有人都在争论AI“能不能做”，却很少有人问“出事了谁赔”。商业文明的地基从来不是技术，而是责任。一份合同有效，是因为有人可以被追责；一个决策可信，是因为有人押上了职业生涯。AI再聪明，没有财产可以查封，没有声誉可以破产，没有牢底可以坐穿。

当代码不能签字画押的时候，让它独立做商业决策就是制度裸奔。挖掘机替代了铲子，但挖掘机后面仍然站着一个可以被起诉的人——这不是技术局限，是文明底线。

11:29 · Feb 27, 2026 · Fri

陶哲轩谈AI：廉价胜利还是真正的研究伙伴？| 帖子

陶哲轩在最新访谈中给AI数学能力泼了盆冷水，称那些被吹上天的“AI攻克Erdős猜想”多是专家半天能搞定的活。但他也承认，到2026年AI有望成为可信赖的初级合著者。问题是：AI能执行已知技术，却留不下人类数学家那种深刻的思维痕迹。

陶哲轩对AI的态度可以用三个字概括：有用，但。

那些让人激动的“AI解决Erdős问题”的新闻，在他看来大多是cheap wins。一千多个Erdős问题里挑出来的长尾题目，用的是标准技术，给个专家半天时间也能搞定。这话听起来像是在泼冷水，但你换个角度想：三年前ChatGPT还在数strawberry有几个r这种问题上翻车，现在已经能做到“专家半天能搞定”的水平了。

目标确实在移动。

陶哲轩预测AI到2026年能达到“可信赖的初级合著者”水平。这个判断来自2023年，当时推理模型还没开发出来，结果进度基本符合预期。有网友指出一个有趣的对比：有人的博士论文题目，陶哲轩几小时就给解了。所以他眼中的“廉价胜利”，可能已经超过很多职业数学家一生中最难的研究。

真正让陶哲轩在意的不是AI能不能算得对，而是它算完之后留下了什么。人类数学家证明一个定理，过程中会产生概念性的洞见，那些弯路、直觉、失败的尝试本身就是知识。AI的证明缺乏这种“思维痕迹”。它可以用暴力计算扫荡一大片问题空间，但不会告诉你为什么走这条路而不是那条。

有观点认为这就像字典比你认识的单词多，但字典不会写诗。也有人反驳：这分明是在移动门柱，几年前AI连完整句子都说不利索，现在开始嫌人家证明不够优雅了。

陶哲轩最近几次访谈里反复提到一件事：他担心的不仅是AI能不能做到，而是如果AI真的能越来越多地把人从循环中移除，对人类的智识生活意味着什么。这是一个更大的问题，他没有给出答案。他呼吁AI系统需要更好的不确定性信号——也就是说，让AI知道自己不知道什么，而不是一本正经地胡说八道。他更倾向于人机交互式协作，而非那种按一个按钮就自动出结果的流程。

数学会不会在今年年底被“解决”？有人赌会。但至少在陶哲轩看来，AI改变的是数学的实践方式，不是一夜之间取代数学家。它把数学从手工作坊式的精雕细琢，推向大规模的问题探索。至于这算进步还是损失，可能取决于你觉得数学到底是什么。

陶哲轩的真正恐惧藏在一个词里：“把人从循环中移除”。这不是在讨论AI能不能证明定理，而是在追问：如果证明定理不再需要人类的挣扎、顿悟和失败，那“做数学”这件事对人还意味着什么？字典认识所有单词却不会写诗，但如果有一天字典开始写诗，我们会说那不叫诗——因为诗的定义就是“人类写的”。他要求AI保留“不确定性信号”，本质上是在请求：请给人类留一个参与的借口。

这听起来很傲慢，但也很悲壮——我们正在发明一种东西，它最大的成功标志就是让发明者变得多余。

10:57 · Feb 25, 2026 · Wed

让Claude写代码之前，先让它把想法写在纸上 | blog

作者用了9个月摸索出一套Claude Code工作流，核心只有一条：在Claude动手写代码之前，必须先有一份经过反复标注修改的书面计划。这套流程把“思考”和“执行”彻底分开，大幅减少了AI把代码写跑偏的概率。

大多数人用AI写代码的姿势是这样的：输入需求，让它生成，报错了修一修，再生成，循环往复。复杂点的任务直接崩。

作者Boris Tane给出了一个反直觉的答案：AI最大的失败不是写出语法错误的代码，而是写出一个在局部跑通、却把整个系统搞坏的代码。一个忽略了现有缓存层的函数，一个没考虑ORM规范的数据迁移，一个跟别处重复的API接口。这类错误安静、隐蔽，最难排查。

他的解法分三步走。

第一步，让Claude先去读懂代码，把读到的东西写下来。不是口头告诉你，是写进一个research.md文件。他的指令里密集出现“深入”、“细节”、“复杂性”这类词，不是废话，而是在告诉Claude：别走马观花。这份文档的真正用途是给他自己看的，验证Claude是否真的理解了系统，误解在这一步消灭，不等到代码里。

第二步，写计划，然后反复标注修改。 Claude生成plan.md之后，他在编辑器里直接往文档里加注释。两个字的也有：“不可选”。一段话的也有，比如解释某个业务约束，或者纠正一个架构方向。然后把文档扔回给Claude：“我加了一些注释，按注释更新文档，先不要写代码。”

“先不要写代码”这句话他每次都加。因为Claude一旦觉得计划差不多了就会冲动地开始实现，而这个时机通常不对。

这个循环可能重复一到六次。有观点认为，这种方式其实是在把人类的判断力注入进去：Claude知道代码怎么写，但不知道你的产品优先级，不知道你愿意接受哪些技术债。标注循环就是把这些隐性知识转化成明确指令的过程。

计划写好之后，再加一个待办清单，让Claude逐项打勾，方便追踪进度。

第三步，一口气让它实现完。他的实现指令几乎每次都一样：“全部实现，完成一项就在计划文档里标记，不到所有任务完成不要停，持续运行类型检查。”到这一步，创造性的工作已经结束了，剩下的是执行。他想要执行变得无聊。

实现过程中他的纠错方式变得极度简短：“你没有实现deduplicateByTitle函数。”“这个设置页应该在admin应用里，不是主应用，移过去。”Context还在，一句话够了。前端调整更极端，有时候只发一个词：“更宽一点。”“还是裁到了。”

出了大问题就直接回滚，然后缩小范围重来。他的经验是，缩小范围之后重做，几乎总比在烂摊子上修补强。

有网友提到，很多人抱怨Claude在上下文窗口用到一半之后就开始退化，但他没遇到这个问题，因为plan.md作为持久化文档存在，即使上下文被压缩，文档还在，随时可以重新指向它。

整套流程没有魔法Prompt，没有复杂的工具链。本质就是一件事：在动手之前，把思路逼到纸面上，反复修到满意为止。

他没说的是：这套流程需要你自己先把需求想清楚，Claude帮不了你。

这套工作流最狠的地方在于那句“先不要写代码”。它戳破了一个幻觉：我们以为AI的价值是“生成”，其实是“对齐”。代码写错了能报错，方向错了没人拦你。一个绕过缓存层的函数，跑得比谁都顺畅，却在三个月后让整个系统雪崩。作者真正在做的事情，是把AI从“执行者”训练成“被审稿的作者”——research.md是初稿，plan.md是修订稿，人类批注是红笔。写作的秘密从来不是下笔如神，而是改稿改到吐。AI写代码，同理。

10:54 · Feb 25, 2026 · Wed

Anthropic的“安全”生意：一家从未开源任何模型的AI安全公司 | 帖子

Anthropic以AI安全为旗号，却从未开源任何模型，连tokenizer都不对外公开。这家公司把“安全研究”包装成流量，实质上对开源社区毫无贡献。

有人最近想做一个多语言tokenizer效率对比项目，分析了Google、OpenAI、Meta的模型，轮到Anthropic时愣住了：没有任何公开资料可以分析。Google论文里提到Gemini和Gemma共享tokenizer，OpenAI开源了tokenizer和gpt-oss，Meta的Llama就更不用说。Anthropic那边：一片空白。

这是一家以“AI安全”为核心使命的公司。

OpenAI这些年被骂得最多的就是“不Open”，可至少还在发论文、开源tokenizer、放出基础模型。Anthropic连这点都做不到。有观点认为，他们每次发布都附带几百页的自我宣传材料，里面充满末日预警和能力吹嘘，但对真正的安全对齐研究者有用的信息几乎为零。

开源恰恰是加速安全研究最有效的方式之一，一家声称在做安全的公司，却把所有东西锁死，这逻辑本身就值得怀疑。

有网友提到，他用同一套方法在过去一年里连续绕过了Claude 3.5到4.6共五代模型的安全限制，方法没变过，效果一直有。几百名博士，数十亿美元投入，结果一个人在家鼓捣就能突破。他拒绝公开具体方法，理由是有恶意行为者在看，另一个理由他说“有点尴尬”。有网友怀疑他在编，他表示可以私信演示，但需要鼓起勇气。

还有观点认为，这套“安全”叙事本身是一门生意。先用开源代码库里的漏洞制造恐慌，高喊“开源不安全”，第二天转头卖自己的代码安全审计服务。剧情弧度相当完整。

Anthropic的投资方包括Google，合作方包括Palantir。一家喊着安全口号的公司，跟一家以数据军事化闻名的公司深度绑定，这件事本身就很难解释得通。

关于Claude为什么感觉比其他模型“不一样”，有几种猜测在流传：大量可验证的逻辑合成训练数据、以代码为核心的早期训练策略、可能存在的非标准tokenization方案。GLM和MiniMax的表现或许能作为某种侧证。但这些都是猜测，因为没有任何公开信息。

有人说如果Anthropic上市会去买股票。这倒是一个完全不同维度的坦诚。

“安全”两个字，在硅谷的语境里，从来都是个定价策略而非技术指标。Anthropic深谙此道：用末日叙事锁定企业客户的焦虑，用封闭架构锁死竞争对手的窥探，用几百页白皮书锁住舆论的定义权。OpenAI被骂“不Open”好歹还漏点东西出来，Anthropic连tokenizer都藏着，却从没人质疑那个“AI安全公司”的title。

这不是双标，这是教科书级的品牌溢价管理——卖恐惧的人，怎么能让你看见恐惧的生产车间？Google投钱、Palantir合作，资本的嗅觉比道德判断诚实得多。

10:51 · Feb 25, 2026 · Wed

花20美元，却被锁在门外：Claude的定价困局 | 帖子

一位重度用户坦言Claude比ChatGPT更好用，却依然选择留在ChatGPT——不是因为产品差，而是因为Claude的双重使用上限让他无法正常工作。这场讨论戳穿了一个行业里心照不宣的秘密。

有人在Reddit发了篇帖子，评论区打成一锅粥。

他的逻辑很简单：Claude更好，但我付不起$100/月的Max计划；我愿意付$20，可这个价位的Pro计划在我的使用强度下撑不过两个小时就触发5小时冷却窗口，然后还叠着一个周级封顶，一锁就是好几天。同样$20的ChatGPT Plus，他从来没遇过强制断线。

于是他继续给OpenAI交钱，嘴上承认Claude更好用。

评论区最高赞的反驳是：“你根本就是错误的目标用户，Max计划才是为你设计的。”这话没错，但同时也彻底回避了真正的问题。

他并没有要求无限算力，也没有要求亏本补贴。他要的是一个能让严肃的日常用户完成工作的$20计划——或者哪怕一个$40到$60之间的中间档。Pro到Max之间是$80的断层。他的原话是：“那不叫分级，那叫断崖。”这句话太精准了，以至于很多人立刻猜到是用Claude写的。

有网友提到，OpenAI的$20计划本质上是一种烧钱的用户锁定策略，当前的推理成本远未被订阅价格覆盖。这个判断在技术上可能是对的。但问题在于：消费者买的是当下的产品体验，不是供应商的财务报表。“他们在亏本补贴你”是一个解释，不是一个理由。

Anthropic的B2B优先战略也被反复提及。企业客户一张支票可以抵过几百个个人订阅者，这是事实。但如果Pro计划的设计目标从来就不是重度个人用户，那这个产品就不应该被那样营销和定价。有观点认为，Anthropic完全可以把Pro定位成“轻度体验入口”并明说，但他们没有，于是用户在付款之后才发现规则。

有网友提到，上限本身改变了他们与产品互动的方式——不再自由探索，而是开始精打细算地分配token，把头脑风暴搬到应用之外进行，以免浪费配额在前期准备上。一个以“探索”为卖点的AI工具，却让用户像数花生米一样数着token用，这种反差确实有点讽刺。

帖子的最后，发帖人总结了一句让人很难反驳的话：没有人真正为Pro计划能支撑高强度日常使用辩护过，他们只是从各个角度解释了为什么你不该期待它能做到。

这两者不是一回事。

他还在用Claude写东西，但钱给了OpenAI。Anthropic大概知道有多少人和他处境相同，只是选择了接受这个结果。

这场争论的本质不是“贵不贵”，而是“骗没骗”。用户花钱买的从来不是算力，而是一种“随时可用”的安全感。

当你为一个工具付费，却要像守着沙漏一样计算它什么时候会把你锁在门外，这种体验本身就是对“订阅”这个词的背叛。

Anthropic的问题不在于定价高，而在于Pro计划的包装让人误以为买到了生产力工具，实际拿到的却是一张限时体验券。最贵的不是$100的Max，而是$20买来的焦虑。 OpenAI可能在亏钱，但人家亏出了用户粘性；Anthropic在赚逻辑上的正确，却输掉了情感上的信任。

10:48 · Feb 25, 2026 · Wed

你的音色可以被数字化——Qwen3 TTS最被低估的功能 | 帖子

Qwen3 TTS内置了一个声音嵌入（voice embedding）系统，能把任何人声压缩成一串数字向量，然后用数学运算来克隆、混合、改变声音。这个功能几乎没被官方重点宣传，但开发者社区已经开始玩出花样了。

一个人的声音，可以被压缩成1024个数字。

这就是Qwen3 TTS里藏着的voice embedding系统。你说一句话，模型把它编码成一个高维向量，之后所有的声音操作，都在这串数字上完成。

这意味着什么？声音变成了坐标。两个声音之间可以插值，就像在地图上找两点之间的路径；性别、音调、情绪，都可以通过调整某些维度来修改；你甚至可以把十个声音平均一下，合成一个现实里不存在的声音。有观点认为，这从根本上改变了声音合成的操控方式，不再需要反复调试prompt或者找一段“完美的参考音频”，直接拖一个滑块就行。

这个编码器本身极其轻量，只有几百万参数，完全可以在网页前端直接运行。作者 k_means_clusterfuck 已经把它从原始模型里单独剥离出来，上传到了 Hugging Face，还提供了ONNX格式的版本。

Qwen官方把这个模块打包在完整模型里一起发布，每次使用都得下载整个大模型。考虑到voice embedding本身的体量和潜力，没有单独宣传这个功能，确实有点可惜。

社区里已经有人在思考更多用途：用 k-means 对大量声音做聚类分析，找到“最适合助眠”的 YouTuber；通过嵌入空间做说话人识别，判断是真人还是电话语音系统；把口音映射进向量空间，然后用算术把它改掉；甚至有播客编辑表示，原来要花几小时调整的音色一致性问题，现在十分钟搞定。

有网友实测后提到，两个嵌入向量之间做插值确实能产生可信的混合声音，但嵌入空间并不是完全解耦的，调整音高有时会意外影响音色。这不是这项技术独有的问题，但说明“数学化声音”这件事仍然有边界：你能合成的，只能是训练数据里已经存在的特征组合，出了分布范围，模型不会凭空造出新东西。

作者计划在 vllm 的 fork 里实现一个功能：在推理过程中逐步线性改变嵌入向量，让语速或情绪在一句话里从平静慢慢变成激动。这个想法能不能落地，还不确定。

你以为声音是灵魂的指纹，结果它只是一个1024维的邮编。从前我们说“嗓音是天赐的”，现在发现天赐的东西也能被压缩、传输、插值、混合。两个陌生人的声音取个平均值，就能造出第三个从未存在过的“人”。这不是技术在进步，是“独特性”这个概念在贬值。当配音演员还在强调“我的声音有辨识度”时，数学已经证明：辨识度不过是向量空间里的一个偏移量，滑块往左拉0.3就能复制。最讽刺的是，模型只有几百万参数，比你手机里的美颜滤镜还轻。你的声音不值钱，值钱的是那串能描述它的数字。

10:45 · Feb 25, 2026 · Wed

在2026年经营一家AI公司，感觉像在祈祷 | 帖子

大型LLM厂商每次产品发布都可能让某些公司瞬间出局，但真正被“一枪毙命”的案例屈指可数。更值得关注的是那些慢慢失血的行业，以及藏在免费模式背后的数据逻辑。

有人在Twitter上说，2026年经营一家公司，基本上就是每天早上醒来祈祷某个大型LLM厂商别在今天的发布会上顺手把你干掉。

这话听着夸张，却有几分真实的恐慌。

有观点认为，那些基础模型厂商产品发布得越来越快，恰恰说明它们自己也没把握靠单个产品赚够钱。真要有信心“一枪毙命”某个行业，就不会搞出ChatGPT Health这种不上不下的东西了。

那么，到底有没有被一枪打死的公司？有，Chegg。这家靠卖作业答案起家的教育平台，在ChatGPT出现后股价近乎归零。不过争议随之而来：有人认为它的死是AI造成的，也有人翻出数据说，它的股价在2021年底、ChatGPT发布之前就已经跌回疫情前水平，真正的死因是商业模式本身就是一个伪装成公司的答案库，学生一回校它就没用了，FTC还在2025年以“暗黑模式”订阅陷阱判它赔了750万美元。

Stack Overflow、Quora、Grammarly、DeepL，这些名字也被拿出来讨论。它们算不算“被打死”，取决于你如何定义“死”。流量下滑不是死，营收压缩也不是死，但增长逻辑被彻底打断，迟早是死。

有网友提到，SaaS整体收入已经下滑40%到60%。一枪毙命是夸张，但持续失血是真的。

免费层这件事更耐人寻味。有人说OpenAI如果取消免费版会亏更多，但马上有人反驳：他们已经开始测试广告了，这就把底牌亮出来了——你的数据比你的订阅费值钱得多。广告是Google和Meta的印钞机，OpenAI走到这一步，不管愿不愿意，商业逻辑开始趋同。

还有网友提出一个更冷静的视角：全球劳动力哪怕只提升几个百分点的效率，就已经是以万亿美元计算的价值。非要等某家公司被完全替代才算数，这个标准本身就是在回避问题。

客服领域目前正在发生的事情最具代表性。大量公司裁员、上AI，部分客户投诉激增，一些公司悄悄开始回聘真人。有观点认为，这就像当年把客服外包给印度、菲律宾，消费者最初强烈抗拒，后来慢慢接受了。AI是下一轮外包，只是这次外包给了算法。

重型机械、化工、采矿、物流，这些行业的人理所当然地觉得自己安全。他们也许是对的，至少目前是。仓储机器人还只能在室内光滑地面上跑，还需要全覆盖的Wi-Fi信号。

所以实体世界的护城河，到底能守多久？

当OpenAI开始测试广告的那一刻，所有用户都该明白一件事：你从来不是客户，你是矿藏。免费层不是慈善，是圈地运动——先用便利换取你的思维轨迹、表达习惯、决策模式，再把这些数据打包卖给出价最高的人。

Google和Meta用了二十年才让人类习惯“用隐私换便利”这笔交易，AI公司用两年就完成了同样的驯化。所以2026年经营公司最该祈祷的，不是别被发布会干掉，而是祈祷自己别在不知不觉中，把最值钱的东西免费送了出去。真正的猎杀从来不开枪，它让猎物自己走进陷阱。

10:44 · Feb 25, 2026 · Wed

AI顶会录取这件事，正在失去它本来的意义 | 帖子

CVPR一年收录4000篇论文，ICLR超过5300篇。顶会录取还算不算一种认可？这个问题本身可能问错了方向。

有人在Reddit上发了个梗：CVPR/ICLR录取通知一到，感觉就像《玩具总动员》里巴斯光年骄傲地说"我做到了"，镜头一拉，会场里站着5000个一模一样的巴斯光年。

这个梗之所以传播，是因为它精准戳中了一种集体焦虑。

录取率其实没怎么变，变的是分母。投稿人数爆炸式增长，录取数字自然水涨船高。所以从概率角度讲，通过审稿这件事本身的难度并没有降低多少。真正在松动的，是录取背后隐含的那层意思：这篇文章值得读。

有网友一针见血：会议正在变成"带餐饮服务的预印本服务器"。

问题出在审稿端。一位CVPR 2024的审稿人提到，他一个周末要处理12篇稿子，到第8篇时，他已经开始靠经验直觉下判断了——代码能不能跑、baseline是不是这个年代的。这种状态下，真正需要仔细品读的工作很容易被错判。

更麻烦的是benchmark的信用崩塌。大模型的训练数据吞噬了互联网上几乎所有内容，一个benchmark刚发出来，数据污染可能就已经发生了。模型在某个测试集上表现优异，换一种问法分数就大幅下滑——这不是模型在学习，这是在记忆。有观点认为，benchmark只适合做"事后评价"，一旦公开，它作为标准的有效性就开始倒计时。

有网友提出了另一种信号：GitHub star数量、主流框架是否集成某项技术，比审稿人的评分更能说明一篇论文是否真的有用。这话有道理，现实中确实有很多人靠这个筛论文。只是，这套逻辑有个历史盲区——神经网络在2012年之前的三十年，几乎通不过任何"大众审查"，黎曼几何等了60年才等到爱因斯坦。被冷落的东西，不一定是错的。

有观点认为，当前ML领域的学术发表已经不再以推进科学为目标，而是在服务一个日益商业化的职业通道。这个判断有些刻薄，但不是完全没有根据。

一个值得观察的现象是：方法类论文在求职中的含金量远高于benchmark类论文，即便后者的工作量不一定更少。这不是学术评价标准在起作用，而是行业筛选逻辑在反向塑造论文的生产方向。

也有人说，引用量才是更真实的信号，"会议录取"只是第一轮过滤，"被引用"才是真正的验证。这个说法没错，但引用数据同样可以被刷，操纵引用并不比操纵审稿更难。

真正没有人给出好答案的问题是：在这个规模下，同行评审还能做到什么程度的"同行"？

一个审稿人，面对12篇跨子领域的论文，在一个周末内完成评分，这本质上已经不是专家评审，而是一种有组织的快速过滤。也许会议的功能从来就不只是质量认证，而更多是一个社群定期聚集、交换信息的仪式。只是当参与者把它当成职业勋章时，所有人都在为一个自己其实不太相信的系统维持着体面。

问题的根源不是论文太多或审稿太敷衍，而是激励结构和评价功能的根本错配。顶会录取被市场化为职业货币，但学术会议的原始设计从来不是为了给HR提供筛选依据。当一个仪式性场合被迫承担质量认证的功能，它要么崩溃，要么异化。

巴斯光年们没有错，错的是有人把嘉年华入场券当成了行医执照。真正值得追问的是：为什么我们的职业系统如此饥渴，以至于非要从一个学术聚会里榨取信用？顶会不是变水了，是被迫承载了它不该承载的重量。

10:41 · Feb 25, 2026 · Wed

当偷来的东西，又被人偷了 | 帖子

Anthropic指控DeepSeek、Moonshot AI和MiniMax通过2.4万个账号、1600万次对话对Claude实施“工业级蒸馏攻击”。问题是，Anthropic自己训练模型用的数据，相当一部分是从互联网和书籍上未经授权获取的。这场控诉，更像是一出黑色喜剧。

Anthropic最近在X上发帖，措辞严肃地宣布：DeepSeek、Moonshot AI和MiniMax对他们的模型发动了“工业级蒸馏攻击”，创建了超过2.4万个账户，与Claude产生了逾1600万次交互，目的是提取Claude的能力来训练自己的模型。

“蒸馏攻击”。这个词选得很妙。

有网友立刻指出，所谓“攻击”，本质上是：付钱用API，记录输出，用来训练自己的模型。其中一条评论说得直接——“‘蒸馏攻击’，你是指我们付钱购买的服务吗？”

更要命的是，有人截图显示Claude Sonnet 4.6在对话中把自己称作DeepSeek。Anthropic的模型在喊另一家公司的名字，说明训练数据里的痕迹没那么干净。另一方向更早被人挖出来的老料是：Claude曾频繁把自己称为ChatGPT，这显然是Anthropic在早期训练时也大量使用了OpenAI输出数据的结果。锅叠着锅。

Anthropic在训练数据问题上的底牌，并不比被它指控的对象光鲜多少。他们买下约100万册实体书、物理切割书脊后扫描，以规避版权限制；另据法庭文件，他们还从LibGen、Pirate Library Mirror等影子图书馆下载了约700万册书籍，完全没有付费，直到去年在法庭败诉后才被判每本书赔偿至少3000美元。有网友因此调侃：“我以为你们要说什么违法的事，结果是机器人在24小时切割书脊，那没事了。”

有观点认为，Anthropic这次公开点名三家中国公司，时机相当可疑，节点恰好在DeepSeek新模型发布前夕，这更像是一次针对监管层的定向喊话，而非单纯的维权声明。有网友直接说：他们的目标不是用户，是立法者，他们想让这些中国模型在监管层面被封杀，就像芯片禁令的逻辑一样。

围观的人很多，声援Anthropic的寥寥无几。

有评论写道：“你没有资格控诉别人偷了你偷来的东西。”

还有一条更短，也更狠：“无论道德还是法律层面，蒸馏模型输出和Anthropic训练时对待创作者的方式，差距只有一个：人家至少付钱了。”

Anthropic在AI对齐和安全性上确实做了很多认真的工作，Claude在很多任务上表现优异，这一点不需要否认。但“我们比别人少偷了一点”，撑不起这种道德宣示的重量。

更值得关注的问题也许是：如果中国实验室真的可以通过API调用来持续接近顶级闭源模型的能力，那这门生意的护城河究竟在哪里？

在硅谷，“攻击”这个词的定义取决于谁先抢到麦克风。付费调用API、记录输出、用于训练——这套流程放在三年前叫“行业惯例”，放在今天因为对手是中国公司，就成了“工业级蒸馏攻击”。

Anthropic真正的焦虑藏在控诉背后：如果1600万次对话就能逼近你的模型能力，那你卖的到底是技术，还是一张随时可能过期的先发优势入场券？这不是维权声明，是写给国会山的求救信——当护城河见底，最后一招只能是让裁判把对手罚下场。

10:37 · Feb 25, 2026 · Wed

被AI判死刑的SaaS名单：谁在慌，谁装没事 | 帖子

一位科技圈观察者列出了一份被AI"判死刑"的SaaS公司名单，从Grammarly到Calendly，从Notion到Cursor。这不是"AI会写代码所以大家自己开发工具"那种老调，而是一个更底层的判断：当每个人都有了相当于全职私人助理的AI agent，现有的工具类产品的存在意义将被根本性地重塑。

Tenobrus在社交媒体上扔出了一份分级名单，把当前热门的SaaS产品按"死得多惨"排了个序。

最惨那档（gigafucked）：Grammarly、Calendly、Miro、Retool、Webflow、LangChain、Writer、Harvey、Glean、Expedia、Monday。

次惨那档（fucked）：Accenture、Intuit、Notion、Jasper、Canva、Postman、Airtable、Zapier、Replit……

然后是"可能死"的：Cursor、Pilot、Clay、Mercor。

最后还有一个特殊分类，大意是"看起来要死但团队足够聪明所以在现场边跑边想"——目前只有Linear一家。

这份名单的底层逻辑只有两条：coding agent越来越强，软件开发成本趋近于零；personal agent真正普及之后，每个人手边等于有了一个全职私人助理。

Calendly为什么在最惨那档？有人反驳说Calendly明明有免费替代品都没死，凭什么AI来了就死？原作者的回答很干脆：有全职私人助理的人，根本不会用Calendly这类工具安排日程。这不是"会被更便宜的同类产品替代"，是这类需求的处理方式被整体废掉了。

Expedia在这份名单里，理由同理：旅行规划和预订，是personal agent最容易接管的场景之一。

有网友提到，企业级工具的替换周期被严重低估了——中大型公司换一套工具链涉及组织采购、培训、兼容性，哪怕更好的东西出来了也要拖好几年。这个观察没错。原作者并没有说"明天就死"，时间窗口的判断本来就是这类预测最难的部分。

Notion和Intuit能不能靠"UI足够好、错误容忍度低"活下去？原作者的判断是：UI的重要性会线性下降，幻觉问题会被解决，智能会持续提升。这是一个信仰，也是一个赌注。

Cursor的处境最有意思。有人认为它应该进最惨那档：一个不训练前沿模型的IDE层产品，怎么可能持续盈利？原作者的回答是：它现在有大量资本，有一批够硬的工程师，Cursor Bugbot已经相当能打。他们没有躺在IDE这个形态上等死，还在动。所以归入"可能死"而不是"必死"。

Linear是这份名单里最受好评的异类。有网友说Linear是goated，甚至提出他们应该直接整合git、绕过中间层。原作者回应说这正是他们在做的事，"有点让人叫好"。一家本来"看起来要死"的项目管理工具，靠着持续的产品品味和执行力，在这张死亡名单上混到了一个模糊的位置。

产品力和团队质量能不能对抗结构性的市场变化？或者说，这只是让死得慢一点？

Linear被单独拎出来不是因为产品好，是因为它展示了这个时代唯一的生存姿势：别跑得比AI快，跑得比自己的旧认知快就行。名单上最惨的那些公司，死因高度一致——把“解决问题的方式”当成了“问题本身”。Expedia以为自己做的是旅行预订，其实做的是信息差套利；Miro以为自己做的是协作白板，其实做的是人类大脑的外接硬盘。

当AI成为每个人的大脑外挂，外接硬盘就是电子垃圾。唯一的活路是像Linear那样——不问“我的产品怎么还能卖”，问“需求在往哪里变形，我怎么先到那里等着”。

10:32 · Feb 25, 2026 · Wed

一篇博客文章让IBM蒸发300亿美元 | 帖子

Anthropic宣称Claude Code可以自动分析和迁移COBOL遗留系统，IBM单日暴跌13%，市值蒸发约300亿美元。但多数技术人士认为这是严重过度反应，银行不迁移COBOL从来不是因为没钱没时间，而是因为风险太高，AI幻觉问题并没有解决这个核心障碍。

全美95%的ATM交易跑在COBOL上。这门语言诞生于1959年，比互联网还老。银行、航空、政府的核心系统里，几十亿行COBOL代码安静地运转着，像地基一样不被人看见。懂它的程序员正在慢慢老去，年轻人没有人愿意学，维护费用也因此居高不下。

然后Anthropic发了一篇博客，说Claude Code能分析庞大的COBOL代码库、识别风险、大幅降低迁移成本。市场的反应是：IBM股价当天跌13%，这是它25年来最惨烈的单日表现，2月份累计跌幅接近27%，创下1968年以来最差月度表现。

300亿美元，一篇博客文章的代价。

讽刺的是，有人指出Anthropic根本没有发布什么"新工具"，只是给Claude Code现有功能写了一份新的营销材料，专门对准COBOL场景包装了一下。没有新模型，没有新功能，就是换了个说法重新讲了一遍。

恐慌归恐慌，真正的问题在于：银行为什么几十年来一直没有迁移COBOL？

答案不是缺钱，也不是缺人。有观点认为，答案是风险。金融系统里一个错误可能意味着数亿人的账户出问题，没有任何CEO愿意在财报里解释"我们用AI迁移了核心系统然后它产生了幻觉"。AI会幻觉这件事是公认的，你仍然需要人工逐行审查每一行输出——而这恰恰是整个工程最慢的那一步。AI并没有移除瓶颈，只是把前面那段路修得稍微平整了一点。

放射科医生的故事可以类比：AI今天已经可以替代90%的影像诊断工作，但医院并没有裁员，因为没人愿意第一个承担责任。金融系统同理。

不过，有一个角度值得认真对待。有观点认为，这件事真正动摇的不是COBOL迁移市场本身，而是IBM那块利润极高的咨询和专业服务收入。过去，COBOL知识是稀缺资源，IBM靠垄断这种稀缺性定价。Claude的出现让这种知识变得不那么稀缺了——哪怕迁移本身依然危险，分析、文档整理、风险评估这些前期工作的成本已经在下降。

一位做过COBOL转Java项目的开发者提到，当年整个项目最难的部分根本不是写Java，而是搞清楚那些COBOL代码到底在干什么。这正是AI可以显著加速的地方。

IBM当然也有自己的AI工具用于大型机现代化，这一点在讨论里几乎没人提。

现在的问题是：一年后回头看，这次暴跌到底是市场提前定价了一个真实的长期威胁，还是一次集体过度反应。有人已经设了一年后的提醒，等着来验证。

300亿美元蒸发的本质，是市场在追问一个哲学问题：谁敢第一个签字？ COBOL像心脏手术——AI可以读片、画线、甚至建议下刀位置，但最后那一刀，必须有个活人敢签生死状。

银行不迁移从来不是不会，是不敢。几十亿行代码背后是几亿人的工资卡、房贷、退休金，任何一个幻觉都可能变成头条新闻。AI把“能不能做到”的问题解决了八成，但“谁来负责”的问题一个字没动。

Anthropic写了篇营销文案，IBM跌了四分之一，这不是技术革命，是一群对金融系统运作方式毫无概念的投资者在集体应激。

10:30 · Feb 25, 2026 · Wed

Anthropic亲口承认：它会故意给你错误答案 | 帖子

Anthropic发布了一篇关于“蒸馏攻击”的博客，声称检测到DeepSeek等中国实验室通过大量账户系统性地调用其API来生成训练数据。更值得关注的是，他们承认不只是封号，而是主动对“可疑”请求的输出结果进行投毒。这引发了广泛讨论——一家公司有没有权利在你不知情的情况下给你一个故意错误的答案？

Anthropic最近发布了一篇博客，主题是他们如何检测并反制所谓的“蒸馏攻击”。内容大意是：他们发现一批账户行为高度同步，支付方式相似，请求节奏整齐，判断是有人在规模化地调用Claude来生成chain-of-thought训练数据，幕后指向中国实验室的研究人员。

这本是一个普通的商业纠纷，却被写成了半个国家安全报告的语气。

但真正让人不安的不是被追踪，而是这一句：他们选择对“问题输出”进行投毒，而不是直接封号。

有网友直接点出了这件事的荒诞逻辑：你不会去雇一个会随机给你错误建议的顾问。如果一个API供应商公开宣布它有能力、也有意愿在后台悄悄劣化你的输出，你怎么知道自己什么时候是正常用户，什么时候已经被划入“可疑”名单？

“可疑”的标准是什么，没人说清楚。有观点认为，这套系统只要存在，任何用户都面临不确定性。问题越多的人，越容易触发某些阈值。

更讽刺的一层：他们用来检测“攻击者”的手段，是分析请求元数据并追踪到具体研究人员。这听起来很高明，其实无非是查账号、IP和支付信息，基本上所有API供应商都能做到，只是大多数人不会公开炫耀。

有网友提到，这些研究人员大概率不会傻到用实名账号。背后涉及多达2.4万个账号的协调操作，追踪链条肯定比官方描述复杂得多。至于“通过元数据锁定到具体研究员”这个说法，听起来更像是施压姿态，而不是侦探工作的复盘。

Anthropic在博客结尾还呼吁加强芯片出口管制，理由是限制算力可以遏制蒸馏攻击。有网友指出这两件事根本不在同一个讨论层面，把商业竞争问题包装成国家安全叙事，目的不言而喻。

目前讨论中最直接的行动结论是：用本地模型，或者至少分散使用多个来源的模型。当你无法验证一个API的输出是否被人为干预过，信任就不再是理性的选择。

有用户在看完这篇博客后取消了Claude订阅。他说，封号他能接受，投毒他不能接受。

这个区别，Anthropic大概认为不重要。

Anthropic这篇博客最精彩的部分，是它亲手拆掉了自己的护城河。AI服务卖的从来不是算力，是信任——而信任这东西，最怕的不是背叛，是“我保留背叛你的权利”。封号是绝交，投毒是诈骗，前者终止关系，后者腐蚀关系的定义本身。当一家公司公开宣称它的检测系统可以悄悄给你塞错误答案，每个用户都必须面对一个无法证伪的质问：我这次的输出，是真货还是样品？最讽刺的是，他们用来证明自己“正义”的手段，恰恰证明了自己“有能力作恶”。这不是安全报告，这是一封写给所有付费用户的勒索信：好好表现，别问太多问题。

10:26 · Feb 25, 2026 · Wed

程序员失业潮的真相，没你想的那么简单 | 帖子

AI正在压缩软件工程师的就业市场，“学会用AI工具就能找到工作”的说法过于乐观。真正的问题不是个人适应能力，而是整体岗位数量在收缩。

Reddit上一张梗图引起广泛讨论：失业程序员追着工作机会跑，旁边有人拦住他说“Claude在做那份工作”。评论区瞬间炸开了锅。

有人说，学会跟AI工具协作的工程师还在被录用，适者生存，技术圈向来如此。这话听起来很有道理，甚至有点励志。

有观点认为，这套逻辑有个致命漏洞：会用Claude写prompt的人多了去了，简历上都能写，面试却几乎不测。你所谓的“差异化竞争力”，根本没有壁垒。评论区里好几位有着3到7年工作经验的工程师表示，已经在积极使用这些工具，依然在求职。经验够用，工作没有。

一个有20年经验的人说，如果他是刚入行的年轻人，会非常认真地重新考虑职业方向。

有人提出另一套愿景：AI工具让个人能力大幅扩展，以后会出现大量“1个人+多个AI”的微型公司，大公司将失去存在的必要。这个说法颇具吸引力，但也遭到了几乎等量的反驳。有网友指出，有资本的人随时可以复制你的产品，软件领域的时间壁垒已经消失。还有人说，你以为的民主化，最终会被营销预算和现有基础设施碾压。人是懒的，大多数人会选择最省力的方案，Linux桌面版到现在也没占领市场。

也有观点认为，软件工程师不会消失，只是被要求用更少的人交付更多的东西。写代码本来就不是大公司的瓶颈所在，需求分析、架构决策、客户沟通、合规文档，这些事AI还替代不了。

UBI的呼声也冒出来了。有人说该认真讨论全民基本收入了，回复只有四个字：“昨天就该。”

有人提到“劳动总量谬误”——认为工作岗位总量固定，AI多做一份工作就少一个人类岗位，这在历史上每次技术革命里都被证明是错的。这次会不会不同，没人知道。

问题大概是：工具民主化之后，每个人都能做更多事，可市场需要的总产出并没有等比例增长。多出来的产能，去哪了？

最讽刺的不是AI抢了工作，而是我们被要求感谢这把刀磨得够快。“拥抱AI”是一种精巧的责任转嫁术：公司裁员是战略调整，个人失业是适应不良。评论区那些3到7年经验的工程师，工具用得熟练，简历写得漂亮，依然在漂流——因为问题从来不是你会不会游泳，而是船上的位置本来就不够。有人描绘“1人+AI”微型公司的美好图景，却忘了资本可以在24小时内复制你的创意，用营销预算把你碾成齑粉。技术民主化了，权力没有。当Linux用了三十年都没占领桌面市场，你凭什么相信个体能用AI逆袭巨头？这不是躺平，是认清战场地形。

10:15 · Feb 25, 2026 · Wed

极简主义的编程工具哲学：Pi 凭什么让人用了就回不去 | home

Pi 是一个极简的终端编程工具，它几乎不内置任何功能，但可以通过扩展随意定制。这种设计哲学正在改变开发者与工具的关系，也在悄悄改变开源协作的方式。

有人用了 Pi 几天，立刻把它变成了每天都在用的主力工具。也有人试了一周，还没拿定主意。这两种反应背后其实是同一个问题：你愿不愿意接受一个“什么都不做”的工具？

Pi 的设计哲学可以用一句话概括：它刻意不做决定。没有子智能体、没有计划模式、没有权限弹窗、没有内置待办事项，连 MCP 都没有。你想要这些？自己写扩展，或者去 npm 上找别人写好的装上。

这听起来像是偷懒，其实是一种相当自信的立场。大多数工具的问题不是功能不够多，是功能太固执，它们替你做了太多决定。Pi 的逻辑是：把工具做成一个骨架，用户自己填肉。

这种设计引发了一个有趣的现象，有观点认为，这正在改变开源软件的协作方式。过去你用一个开源工具，遇到问题就提 issue，想要功能就发 PR。现在换了一种玩法：你下载一个“技能文件”，让编程智能体帮你把功能加进去。软件不再是一个固定的制品，而是每个人手里略有不同的活物。

理论上这很美好。现实的问题是：每个人跑的是自己那份独特的软件，一旦出了 bug，排查起来会是什么处境？有网友一针见血地补了一刀：“而且是几分钟前才改过的版本。”

Pi 用 TypeScript 写成，这让一部分人不满。有人质疑为什么在 AI 编程时代要用一门 Web 语言做终端工具。支持者的回答是：动态语言可以在运行时加载和执行代码，扩展热更新是真实需求，而静态语言很难优雅地满足这一点。

争论随即扩散。有人拿出了 Rust 移植版，有人提到 Erlang 天然适合这类问题，甚至有人写了一个 Zig 版本，然后自己坦白“用 Zig 写挺烂的，这门语言就是个词语的集合”。

对普通用户来说，Pi 最实际的优势可能是模型无关性。它支持 15 个以上的提供商，可以在会话中途切换模型，可以接入本地模型，可以用 OpenRouter 走更便宜的路线。有用户反映，同样是 GPT-5.3-Codex，在 Pi 上跑比在官方 Codex CLI 上流畅得多，“就好像官方工具让它两只手绑在背后打架”。

Pi 的域名是别人捐的。它在 GitHub 上也有一个备用地址，叫 shittycodingagent.ai，这大概是作者给自己的工具起的最诚实的外号。

用过的人说，一旦习惯了工具对你完全透明，就很难再回去接受那些把模型在干什么藏起来的产品。但这到底是真正的透明，还是只是把复杂性转移给了用户自己，恐怕还需要更多时间来回答。

有意思的是，Pi可能正在杀死它所依赖的开源精神。过去的开源是“我修好了，大家都能用”；现在变成了“我修好了，但只在我的版本上能跑”。每个人手里都是一个略有不同的活物，这不叫个性化，这叫软件的方言化。想象一下：你在论坛求助，别人问你用的什么版本，你说“昨晚让AI改了三个扩展那个版本”——这对话能进行下去吗？当软件从“产品”变成“食材”，我们确实获得了自由，但也失去了“标准答案”这个安全网。

10:11 · Feb 25, 2026 · Wed

代码从来都是最容易的那部分 | blog

代码生产成本正在趋近于零，但这不是什么新鲜的危机。软件开发真正困难的部分从来都不是写代码本身，而是弄清楚要构建什么、怎么维持它运转、怎么让一群人在一起把事做成。

作者加入 Etsy 的时候，团队已经花了两年时间在做架构重写，追求“更优雅的方案”——实际上是两套互不兼容的优雅方案——而这两年里没有向用户交付过任何功能。后来他们停下来，统一用 PHP 重新出发。没有人会为什么是“优雅的 PHP”而争论不休，因为这种东西根本不存在。

他的结论：让 Etsy 后来一切得以发生的，不是那套优雅的代码，而是让团队重新开始交付。

这个故事本身就是文章核心论点的注脚：我们长期以来把代码本身当成了价值所在，但成功的团队一直清楚，真正的价值在于整个系统，在于那个让产品得以持续交付、满足用户需求、随时间演进的人机混合体。

代码生产成本正在趋近于零。作者承认这是真实的、前所未有的变化，Claude Code 这类工具确实带来了某种新东西。但他同时指出，“代码是最容易的部分”这个判断并不是 AI 时代的新发现，在此之前这已经成立了几十年。Web、CI/CD、移动端、单页应用，每一次技术浪潮都打乱过团队的工作方式，逼着人们重新发明协作模式。

这次只是规模更大、速度更快。

此文在 Hacker News 上引起广泛讨论，争议出人意料地激烈。有网友提到，把代码说成“容易的部分”其实是一种工资压制宣传，薪资数字本身就是反驳证据。也有观点认为这是程序员面对 AI 冲击的集体心理防御：把自己做的事重新定义成“本来就是次要的”，这样失去它就不那么令人恐慌。

反驳的声音同样尖锐。有人说，阅读一部诺贝尔文学奖小说很容易，但那种流畅的可读性本身就是成就，不是它无足轻重的证明。写代码也一样，你读代码读得像鱼呼吸一样自然，于是就以为写代码也理所当然地简单——这是一种典型的幸存者视角。

但也有经验丰富的工程师直接说：对，代码确实是最容易的部分。真正难的是长期维护，是在已有系统上加新功能，是不要把整个东西建成一坨无法理解的烂泥。《人月神话》写于几十年前，今天读起来依然像昨天写的，因为问题从来不是我们打字的速度。

作者自己的表达有一处值得停下来想想：那些近年因为“好工作”或“喜欢编程”而入行的人，面对这个时刻会有真实的失落感。而他这一代人入行是因为沉迷于那种掌控感，所以很难在情感上理解那种失落。这不是谁对谁错，只是两代人站在完全不同的位置看同一件事。

现在的问题是，当代码成本趋近于零，“构建什么”和“为什么构建”的决策权会落到谁手上，用什么方式落到他们手上。这个问题没有标准答案，但每个还在这个行业里的人都得给自己想一个。

“代码是最容易的部分”这句话，本质上是一场话语权的争夺。把心脏手术说成“只是开刀缝合”，把建筑设计说成“只是画线条”，任何职业都能用这种修辞被矮化。Etsy那个故事真正的教训不是PHP打败了优雅，而是内耗打败了交付。两年做不出东西，换成AI写代码照样做不出——因为问题从来不在键盘上。高薪从来不是为“打字速度”付费，而是为“知道该打什么字”付费。当所有人都能瞬间生成代码，区别你的就是那个“知道”。这不是心理防御，是逻辑必然。

Before

After

Home