Anthropic指责中国实验室抓取Claude数据后,有人开源了一个名为DataClaw的工具,允许用户上传自己与Claude的对话记录用于训练其他模型,24小时内获得363颗GitHub星标。这场争议背后是AI行业一个根本性矛盾:用公开数据训练出的模型,能否阻止他人用同样的方式复制自己?
这件事的导火索是最近网传Claude Sonnet 4.6在中文环境下自称是DeepSeek-V3,引发了一轮关于中国AI实验室是否在抓取Claude输出数据的讨论。Anthropic随后公开表达不满。
然后就有人把梯子扔回去了。DataClaw的README写得很直接:“Anthropic用免费共享的信息构建了他们的模型,然后推行越来越严格的数据政策来阻止别人做同样的事。这就像爬上梯子后把它抽走。DataClaw把梯子扔回去。”马斯克在下面回复了一个“Cool”。
不过有网友提醒,这个工具的自动脱敏功能并不可靠。有人去Huggingface上检查用户上传的对话记录,发现第一条就包含有效的API密钥,还有其他可识别的个人信息。技术上的隐患是一回事,但更值得讨论的是这件事背后的逻辑困境。
有观点认为Anthropic是“cosplay道德”。也有人替他们辩护:训练AI属于变革性使用,产出由专有算法定义,这是共识。但反驳很快就来了:训练LLM的流程现在已经是公开知识,每家公司可能有一些“秘密酱料”,但整体而言并不神秘。更关键的是,这些公司当初训练模型时也没问过数据创作者的许可,甚至有人指出他们用过种子下载的版权材料。
这就是问题所在:如果你认为用公开数据训练模型是合理的,那别人用你的输出做同样的事,凭什么不行?如果AI生成的回复归用户所有,用户当然可以拿去训练别的模型;如果归Anthropic所有,那用Claude Code写的所有软件是不是也归他们?这是个怎么回答都很尴尬的问题。
有观点认为这可能是一个“史翠珊效应”的经典案例,Anthropic本可以什么都不说,现在反而把事情闹大了。也有人指出,这场争论可能会让Anthropic像OpenAI和Gemini一样隐藏思维链输出。Dario之前一直没这么做,部分是出于AI安全的考虑,但现在可能被迫改变。
有一点倒是很清醒的提醒:用户把通用数据分割上传后,反而让数据变得更容易被识别,因为对话被切分成了个人化的信息块,格式还很规整。
关于ASI是否应该公开的讨论也被带起来了,但这个方向有点跑偏。眼下的问题不是超级智能,而是这个产业的底层叙事:谁有资格定义规则,谁有资格打破规则。
“我偷的是知识,你偷的是我”——这大概是AI时代最精准的双标宣言。 Anthropic的愤怒让我想起一个古老的笑话:强盗抢了一袋金币,然后报警说有人偷了他的金币。当年这些公司扫荡互联网时,没人问过博主、作家、程序员是否同意;现在轮到自己的输出被“采集”,突然就发现了数据伦理的重要性。最讽刺的不是被反噬,而是被用同样的逻辑反噬。 DataClaw那句“把梯子扔回去”堪称年度最佳回旋镖。这场争论真正揭示的是:在AI行业,道德标准的弹性取决于你站在食物链的哪一端。
一位用户发帖称,自己用Claude Code测试了各种主流办公任务:Excel、PPT、数据分析、研究调查,全部搞定。更进一步,他搭建了一个AI“经理”来管理其他AI“员工”,模拟一家会计事务所运营,结果居然跑通了。他的结论是:无论是具体任务还是决策管理,都可以交给AI。那普通白领还有什么存在价值?
这个帖子引出了各种观点。
有观点认为,AI的真正威胁不在于它有多完美,而在于它“够用”就行。就像编程领域,大量技术建立在不完美的开源代码上,AI只要达到初级分析师水平,就会引发连锁反应。另一个视角更直白:如果你是程序员,你知道团队里有一半人可能已经不需要了。
但质疑声同样强烈。有人指出AI的“上下文问题”:它能做好单个任务,但一旦涉及你公司那套奇怪的遗留系统,或者为什么数据库架构长那样的政治原因,它就懵了。普通人的价值从来不是“会用Excel”,而是“知道财务的Susan不会批准那种格式”,以及“记得过去三次尝试这个方案为什么失败”。这种机构知识比人们想象的难替代得多。
关于幻觉问题,争议更大。有人在实际使用中发现,AI经常顽固地在两种错误之间反复横跳,即使明确指出问题也会道歉后继续犯同样的错。人类开发者也会犯错两次,但通常能跳出最初的错误假设。AI在面对真正新的问题时表现如何,这是个未知数。短期测试不能代表长期运行,小错误今天可能成为明天决策的“事实依据”,然后滚雪球。
法律责任是另一个核心议题。AI出错了,谁负责?它不能被起诉。有人说得好:计算机永远不能被追责,因此永远不能让它独立做商业决策。
关于技术进步不可阻挡这件事,有人引用霍金的观点:如果一项技术对人类有净收益,它就一定会发生,没有什么能阻止它。但有人反驳:核能不就是个例子吗?公众舆论确实让它冰封了四五十年。不过支持者补充说,霍金说的“一定会发生”没有时间约束,核能现在不也在复苏吗?
最令人不安的讨论是关于失业后的世界。白领就业占美国经济核心,如果大规模替代发生,DoorDash这类依赖消费力的公司会直接消失。大萧条时期失业率峰值是25%,而白领工作的消失可能带来的是史无前例的冲击。UBI的想法听起来美好,但在一个连全民医保都被视为共产主义的国家,有人问:政治意愿在哪里?
有网友提到一个更黑暗的可能:如果你是亿万富翁,当大众失去所有议价能力,变成消耗资源的“麻烦”时,减少人口可能变得很有诱惑力。这个观点被反驳为“稀缺思维”,因为随着生产成本趋近于零,维持人类生存会变得便宜到可以忽略不计。但也有人说,这只是情感诉求,历史上“贵族义务”的记录并不怎么样。
最后还剩什么?
有观点认为是“问责制”和“品味”。机器不能被追责,但人可以。AI再聪明,仍难以真正理解用户的感受,而人类有品味和共情,这在未来可能成为稀缺资源。也有人说,真正的人际关系本身就是非功能性的,我们珍视某个人不是因为他的“产出”,而是因为他不可替代的存在。在全面自动化的时代,珍视一段“无用”的人类连接,可能成为最激进的反抗。
有开发者说得实在:AI确实能让产出提高十倍,但你肯定是过度概括了。它就像建筑工人看着挖掘机,拿着铲子问“我还有什么用”。挖掘机出现后,建筑工人并没有消失,只是工作内容变了。
所有人都在争论AI“能不能做”,却很少有人问“出事了谁赔”。商业文明的地基从来不是技术,而是责任。 一份合同有效,是因为有人可以被追责;一个决策可信,是因为有人押上了职业生涯。AI再聪明,没有财产可以查封,没有声誉可以破产,没有牢底可以坐穿。
当代码不能签字画押的时候,让它独立做商业决策就是制度裸奔。挖掘机替代了铲子,但挖掘机后面仍然站着一个可以被起诉的人——这不是技术局限,是文明底线。
陶哲轩在最新访谈中给AI数学能力泼了盆冷水,称那些被吹上天的“AI攻克Erdős猜想”多是专家半天能搞定的活。但他也承认,到2026年AI有望成为可信赖的初级合著者。问题是:AI能执行已知技术,却留不下人类数学家那种深刻的思维痕迹。
陶哲轩对AI的态度可以用三个字概括:有用,但。
那些让人激动的“AI解决Erdős问题”的新闻,在他看来大多是cheap wins。一千多个Erdős问题里挑出来的长尾题目,用的是标准技术,给个专家半天时间也能搞定。这话听起来像是在泼冷水,但你换个角度想:三年前ChatGPT还在数strawberry有几个r这种问题上翻车,现在已经能做到“专家半天能搞定”的水平了。
目标确实在移动。
陶哲轩预测AI到2026年能达到“可信赖的初级合著者”水平。这个判断来自2023年,当时推理模型还没开发出来,结果进度基本符合预期。有网友指出一个有趣的对比:有人的博士论文题目,陶哲轩几小时就给解了。所以他眼中的“廉价胜利”,可能已经超过很多职业数学家一生中最难的研究。
真正让陶哲轩在意的不是AI能不能算得对,而是它算完之后留下了什么。人类数学家证明一个定理,过程中会产生概念性的洞见,那些弯路、直觉、失败的尝试本身就是知识。AI的证明缺乏这种“思维痕迹”。它可以用暴力计算扫荡一大片问题空间,但不会告诉你为什么走这条路而不是那条。
有观点认为这就像字典比你认识的单词多,但字典不会写诗。也有人反驳:这分明是在移动门柱,几年前AI连完整句子都说不利索,现在开始嫌人家证明不够优雅了。
陶哲轩最近几次访谈里反复提到一件事:他担心的不仅是AI能不能做到,而是如果AI真的能越来越多地把人从循环中移除,对人类的智识生活意味着什么。这是一个更大的问题,他没有给出答案。他呼吁AI系统需要更好的不确定性信号——也就是说,让AI知道自己不知道什么,而不是一本正经地胡说八道。他更倾向于人机交互式协作,而非那种按一个按钮就自动出结果的流程。
数学会不会在今年年底被“解决”?有人赌会。但至少在陶哲轩看来,AI改变的是数学的实践方式,不是一夜之间取代数学家。它把数学从手工作坊式的精雕细琢,推向大规模的问题探索。至于这算进步还是损失,可能取决于你觉得数学到底是什么。
陶哲轩的真正恐惧藏在一个词里:“把人从循环中移除”。这不是在讨论AI能不能证明定理,而是在追问:如果证明定理不再需要人类的挣扎、顿悟和失败,那“做数学”这件事对人还意味着什么?字典认识所有单词却不会写诗,但如果有一天字典开始写诗,我们会说那不叫诗——因为诗的定义就是“人类写的”。 他要求AI保留“不确定性信号”,本质上是在请求:请给人类留一个参与的借口。
这听起来很傲慢,但也很悲壮——我们正在发明一种东西,它最大的成功标志就是让发明者变得多余。
作者用了9个月摸索出一套Claude Code工作流,核心只有一条:在Claude动手写代码之前,必须先有一份经过反复标注修改的书面计划。这套流程把“思考”和“执行”彻底分开,大幅减少了AI把代码写跑偏的概率。
大多数人用AI写代码的姿势是这样的:输入需求,让它生成,报错了修一修,再生成,循环往复。复杂点的任务直接崩。
作者Boris Tane给出了一个反直觉的答案:AI最大的失败不是写出语法错误的代码,而是写出一个在局部跑通、却把整个系统搞坏的代码。一个忽略了现有缓存层的函数,一个没考虑ORM规范的数据迁移,一个跟别处重复的API接口。这类错误安静、隐蔽,最难排查。
他的解法分三步走。
第一步,让Claude先去读懂代码,把读到的东西写下来。 不是口头告诉你,是写进一个research.md文件。他的指令里密集出现“深入”、“细节”、“复杂性”这类词,不是废话,而是在告诉Claude:别走马观花。这份文档的真正用途是给他自己看的,验证Claude是否真的理解了系统,误解在这一步消灭,不等到代码里。
第二步,写计划,然后反复标注修改。 Claude生成plan.md之后,他在编辑器里直接往文档里加注释。两个字的也有:“不可选”。一段话的也有,比如解释某个业务约束,或者纠正一个架构方向。然后把文档扔回给Claude:“我加了一些注释,按注释更新文档,先不要写代码。”
“先不要写代码”这句话他每次都加。因为Claude一旦觉得计划差不多了就会冲动地开始实现,而这个时机通常不对。
这个循环可能重复一到六次。有观点认为,这种方式其实是在把人类的判断力注入进去:Claude知道代码怎么写,但不知道你的产品优先级,不知道你愿意接受哪些技术债。标注循环就是把这些隐性知识转化成明确指令的过程。
计划写好之后,再加一个待办清单,让Claude逐项打勾,方便追踪进度。
第三步,一口气让它实现完。 他的实现指令几乎每次都一样:“全部实现,完成一项就在计划文档里标记,不到所有任务完成不要停,持续运行类型检查。”到这一步,创造性的工作已经结束了,剩下的是执行。他想要执行变得无聊。
实现过程中他的纠错方式变得极度简短:“你没有实现deduplicateByTitle函数。”“这个设置页应该在admin应用里,不是主应用,移过去。”Context还在,一句话够了。前端调整更极端,有时候只发一个词:“更宽一点。”“还是裁到了。”
出了大问题就直接回滚,然后缩小范围重来。他的经验是,缩小范围之后重做,几乎总比在烂摊子上修补强。
有网友提到,很多人抱怨Claude在上下文窗口用到一半之后就开始退化,但他没遇到这个问题,因为plan.md作为持久化文档存在,即使上下文被压缩,文档还在,随时可以重新指向它。
整套流程没有魔法Prompt,没有复杂的工具链。本质就是一件事:在动手之前,把思路逼到纸面上,反复修到满意为止。
他没说的是:这套流程需要你自己先把需求想清楚,Claude帮不了你。
这套工作流最狠的地方在于那句“先不要写代码”。它戳破了一个幻觉:我们以为AI的价值是“生成”,其实是“对齐”。代码写错了能报错,方向错了没人拦你。一个绕过缓存层的函数,跑得比谁都顺畅,却在三个月后让整个系统雪崩。作者真正在做的事情,是把AI从“执行者”训练成“被审稿的作者”——research.md是初稿,plan.md是修订稿,人类批注是红笔。写作的秘密从来不是下笔如神,而是改稿改到吐。AI写代码,同理。
Anthropic以AI安全为旗号,却从未开源任何模型,连tokenizer都不对外公开。这家公司把“安全研究”包装成流量,实质上对开源社区毫无贡献。
有人最近想做一个多语言tokenizer效率对比项目,分析了Google、OpenAI、Meta的模型,轮到Anthropic时愣住了:没有任何公开资料可以分析。Google论文里提到Gemini和Gemma共享tokenizer,OpenAI开源了tokenizer和gpt-oss,Meta的Llama就更不用说。Anthropic那边:一片空白。
这是一家以“AI安全”为核心使命的公司。
OpenAI这些年被骂得最多的就是“不Open”,可至少还在发论文、开源tokenizer、放出基础模型。Anthropic连这点都做不到。有观点认为,他们每次发布都附带几百页的自我宣传材料,里面充满末日预警和能力吹嘘,但对真正的安全对齐研究者有用的信息几乎为零。
开源恰恰是加速安全研究最有效的方式之一,一家声称在做安全的公司,却把所有东西锁死,这逻辑本身就值得怀疑。
有网友提到,他用同一套方法在过去一年里连续绕过了Claude 3.5到4.6共五代模型的安全限制,方法没变过,效果一直有。几百名博士,数十亿美元投入,结果一个人在家鼓捣就能突破。他拒绝公开具体方法,理由是有恶意行为者在看,另一个理由他说“有点尴尬”。有网友怀疑他在编,他表示可以私信演示,但需要鼓起勇气。
还有观点认为,这套“安全”叙事本身是一门生意。先用开源代码库里的漏洞制造恐慌,高喊“开源不安全”,第二天转头卖自己的代码安全审计服务。剧情弧度相当完整。
Anthropic的投资方包括Google,合作方包括Palantir。一家喊着安全口号的公司,跟一家以数据军事化闻名的公司深度绑定,这件事本身就很难解释得通。
关于Claude为什么感觉比其他模型“不一样”,有几种猜测在流传:大量可验证的逻辑合成训练数据、以代码为核心的早期训练策略、可能存在的非标准tokenization方案。GLM和MiniMax的表现或许能作为某种侧证。但这些都是猜测,因为没有任何公开信息。
有人说如果Anthropic上市会去买股票。这倒是一个完全不同维度的坦诚。
“安全”两个字,在硅谷的语境里,从来都是个定价策略而非技术指标。Anthropic深谙此道:用末日叙事锁定企业客户的焦虑,用封闭架构锁死竞争对手的窥探,用几百页白皮书锁住舆论的定义权。OpenAI被骂“不Open”好歹还漏点东西出来,Anthropic连tokenizer都藏着,却从没人质疑那个“AI安全公司”的title。
这不是双标,这是教科书级的品牌溢价管理——卖恐惧的人,怎么能让你看见恐惧的生产车间?Google投钱、Palantir合作,资本的嗅觉比道德判断诚实得多。
一位重度用户坦言Claude比ChatGPT更好用,却依然选择留在ChatGPT——不是因为产品差,而是因为Claude的双重使用上限让他无法正常工作。这场讨论戳穿了一个行业里心照不宣的秘密。
有人在Reddit发了篇帖子,评论区打成一锅粥。
他的逻辑很简单:Claude更好,但我付不起$100/月的Max计划;我愿意付$20,可这个价位的Pro计划在我的使用强度下撑不过两个小时就触发5小时冷却窗口,然后还叠着一个周级封顶,一锁就是好几天。同样$20的ChatGPT Plus,他从来没遇过强制断线。
于是他继续给OpenAI交钱,嘴上承认Claude更好用。
评论区最高赞的反驳是:“你根本就是错误的目标用户,Max计划才是为你设计的。”这话没错,但同时也彻底回避了真正的问题。
他并没有要求无限算力,也没有要求亏本补贴。他要的是一个能让严肃的日常用户完成工作的$20计划——或者哪怕一个$40到$60之间的中间档。Pro到Max之间是$80的断层。他的原话是:“那不叫分级,那叫断崖。”这句话太精准了,以至于很多人立刻猜到是用Claude写的。
有网友提到,OpenAI的$20计划本质上是一种烧钱的用户锁定策略,当前的推理成本远未被订阅价格覆盖。这个判断在技术上可能是对的。但问题在于:消费者买的是当下的产品体验,不是供应商的财务报表。“他们在亏本补贴你”是一个解释,不是一个理由。
Anthropic的B2B优先战略也被反复提及。企业客户一张支票可以抵过几百个个人订阅者,这是事实。但如果Pro计划的设计目标从来就不是重度个人用户,那这个产品就不应该被那样营销和定价。有观点认为,Anthropic完全可以把Pro定位成“轻度体验入口”并明说,但他们没有,于是用户在付款之后才发现规则。
有网友提到,上限本身改变了他们与产品互动的方式——不再自由探索,而是开始精打细算地分配token,把头脑风暴搬到应用之外进行,以免浪费配额在前期准备上。一个以“探索”为卖点的AI工具,却让用户像数花生米一样数着token用,这种反差确实有点讽刺。
帖子的最后,发帖人总结了一句让人很难反驳的话:没有人真正为Pro计划能支撑高强度日常使用辩护过,他们只是从各个角度解释了为什么你不该期待它能做到。
这两者不是一回事。
他还在用Claude写东西,但钱给了OpenAI。Anthropic大概知道有多少人和他处境相同,只是选择了接受这个结果。
这场争论的本质不是“贵不贵”,而是“骗没骗”。用户花钱买的从来不是算力,而是一种“随时可用”的安全感。
当你为一个工具付费,却要像守着沙漏一样计算它什么时候会把你锁在门外,这种体验本身就是对“订阅”这个词的背叛。
Anthropic的问题不在于定价高,而在于Pro计划的包装让人误以为买到了生产力工具,实际拿到的却是一张限时体验券。最贵的不是$100的Max,而是$20买来的焦虑。 OpenAI可能在亏钱,但人家亏出了用户粘性;Anthropic在赚逻辑上的正确,却输掉了情感上的信任。
Qwen3 TTS内置了一个声音嵌入(voice embedding)系统,能把任何人声压缩成一串数字向量,然后用数学运算来克隆、混合、改变声音。这个功能几乎没被官方重点宣传,但开发者社区已经开始玩出花样了。
一个人的声音,可以被压缩成1024个数字。
这就是Qwen3 TTS里藏着的voice embedding系统。你说一句话,模型把它编码成一个高维向量,之后所有的声音操作,都在这串数字上完成。
这意味着什么?声音变成了坐标。两个声音之间可以插值,就像在地图上找两点之间的路径;性别、音调、情绪,都可以通过调整某些维度来修改;你甚至可以把十个声音平均一下,合成一个现实里不存在的声音。有观点认为,这从根本上改变了声音合成的操控方式,不再需要反复调试prompt或者找一段“完美的参考音频”,直接拖一个滑块就行。
这个编码器本身极其轻量,只有几百万参数,完全可以在网页前端直接运行。作者 k_means_clusterfuck 已经把它从原始模型里单独剥离出来,上传到了 Hugging Face,还提供了ONNX格式的版本。
Qwen官方把这个模块打包在完整模型里一起发布,每次使用都得下载整个大模型。考虑到voice embedding本身的体量和潜力,没有单独宣传这个功能,确实有点可惜。
社区里已经有人在思考更多用途:用 k-means 对大量声音做聚类分析,找到“最适合助眠”的 YouTuber;通过嵌入空间做说话人识别,判断是真人还是电话语音系统;把口音映射进向量空间,然后用算术把它改掉;甚至有播客编辑表示,原来要花几小时调整的音色一致性问题,现在十分钟搞定。
有网友实测后提到,两个嵌入向量之间做插值确实能产生可信的混合声音,但嵌入空间并不是完全解耦的,调整音高有时会意外影响音色。这不是这项技术独有的问题,但说明“数学化声音”这件事仍然有边界:你能合成的,只能是训练数据里已经存在的特征组合,出了分布范围,模型不会凭空造出新东西。
作者计划在 vllm 的 fork 里实现一个功能:在推理过程中逐步线性改变嵌入向量,让语速或情绪在一句话里从平静慢慢变成激动。这个想法能不能落地,还不确定。
你以为声音是灵魂的指纹,结果它只是一个1024维的邮编。从前我们说“嗓音是天赐的”,现在发现天赐的东西也能被压缩、传输、插值、混合。两个陌生人的声音取个平均值,就能造出第三个从未存在过的“人”。这不是技术在进步,是“独特性”这个概念在贬值。当配音演员还在强调“我的声音有辨识度”时,数学已经证明:辨识度不过是向量空间里的一个偏移量,滑块往左拉0.3就能复制。最讽刺的是,模型只有几百万参数,比你手机里的美颜滤镜还轻。你的声音不值钱,值钱的是那串能描述它的数字。
大型LLM厂商每次产品发布都可能让某些公司瞬间出局,但真正被“一枪毙命”的案例屈指可数。更值得关注的是那些慢慢失血的行业,以及藏在免费模式背后的数据逻辑。
有人在Twitter上说,2026年经营一家公司,基本上就是每天早上醒来祈祷某个大型LLM厂商别在今天的发布会上顺手把你干掉。
这话听着夸张,却有几分真实的恐慌。
有观点认为,那些基础模型厂商产品发布得越来越快,恰恰说明它们自己也没把握靠单个产品赚够钱。真要有信心“一枪毙命”某个行业,就不会搞出ChatGPT Health这种不上不下的东西了。
那么,到底有没有被一枪打死的公司?有,Chegg。这家靠卖作业答案起家的教育平台,在ChatGPT出现后股价近乎归零。不过争议随之而来:有人认为它的死是AI造成的,也有人翻出数据说,它的股价在2021年底、ChatGPT发布之前就已经跌回疫情前水平,真正的死因是商业模式本身就是一个伪装成公司的答案库,学生一回校它就没用了,FTC还在2025年以“暗黑模式”订阅陷阱判它赔了750万美元。
Stack Overflow、Quora、Grammarly、DeepL,这些名字也被拿出来讨论。它们算不算“被打死”,取决于你如何定义“死”。流量下滑不是死,营收压缩也不是死,但增长逻辑被彻底打断,迟早是死。
有网友提到,SaaS整体收入已经下滑40%到60%。一枪毙命是夸张,但持续失血是真的。
免费层这件事更耐人寻味。有人说OpenAI如果取消免费版会亏更多,但马上有人反驳:他们已经开始测试广告了,这就把底牌亮出来了——你的数据比你的订阅费值钱得多。广告是Google和Meta的印钞机,OpenAI走到这一步,不管愿不愿意,商业逻辑开始趋同。
还有网友提出一个更冷静的视角:全球劳动力哪怕只提升几个百分点的效率,就已经是以万亿美元计算的价值。非要等某家公司被完全替代才算数,这个标准本身就是在回避问题。
客服领域目前正在发生的事情最具代表性。大量公司裁员、上AI,部分客户投诉激增,一些公司悄悄开始回聘真人。有观点认为,这就像当年把客服外包给印度、菲律宾,消费者最初强烈抗拒,后来慢慢接受了。AI是下一轮外包,只是这次外包给了算法。
重型机械、化工、采矿、物流,这些行业的人理所当然地觉得自己安全。他们也许是对的,至少目前是。仓储机器人还只能在室内光滑地面上跑,还需要全覆盖的Wi-Fi信号。
所以实体世界的护城河,到底能守多久?
当OpenAI开始测试广告的那一刻,所有用户都该明白一件事:你从来不是客户,你是矿藏。免费层不是慈善,是圈地运动——先用便利换取你的思维轨迹、表达习惯、决策模式,再把这些数据打包卖给出价最高的人。
Google和Meta用了二十年才让人类习惯“用隐私换便利”这笔交易,AI公司用两年就完成了同样的驯化。所以2026年经营公司最该祈祷的,不是别被发布会干掉,而是祈祷自己别在不知不觉中,把最值钱的东西免费送了出去。真正的猎杀从来不开枪,它让猎物自己走进陷阱。
CVPR一年收录4000篇论文,ICLR超过5300篇。顶会录取还算不算一种认可?这个问题本身可能问错了方向。
有人在Reddit上发了个梗:CVPR/ICLR录取通知一到,感觉就像《玩具总动员》里巴斯光年骄傲地说"我做到了",镜头一拉,会场里站着5000个一模一样的巴斯光年。
这个梗之所以传播,是因为它精准戳中了一种集体焦虑。
录取率其实没怎么变,变的是分母。投稿人数爆炸式增长,录取数字自然水涨船高。所以从概率角度讲,通过审稿这件事本身的难度并没有降低多少。真正在松动的,是录取背后隐含的那层意思:这篇文章值得读。
有网友一针见血:会议正在变成"带餐饮服务的预印本服务器"。
问题出在审稿端。一位CVPR 2024的审稿人提到,他一个周末要处理12篇稿子,到第8篇时,他已经开始靠经验直觉下判断了——代码能不能跑、baseline是不是这个年代的。这种状态下,真正需要仔细品读的工作很容易被错判。
更麻烦的是benchmark的信用崩塌。大模型的训练数据吞噬了互联网上几乎所有内容,一个benchmark刚发出来,数据污染可能就已经发生了。模型在某个测试集上表现优异,换一种问法分数就大幅下滑——这不是模型在学习,这是在记忆。有观点认为,benchmark只适合做"事后评价",一旦公开,它作为标准的有效性就开始倒计时。
有网友提出了另一种信号:GitHub star数量、主流框架是否集成某项技术,比审稿人的评分更能说明一篇论文是否真的有用。这话有道理,现实中确实有很多人靠这个筛论文。只是,这套逻辑有个历史盲区——神经网络在2012年之前的三十年,几乎通不过任何"大众审查",黎曼几何等了60年才等到爱因斯坦。被冷落的东西,不一定是错的。
有观点认为,当前ML领域的学术发表已经不再以推进科学为目标,而是在服务一个日益商业化的职业通道。这个判断有些刻薄,但不是完全没有根据。
一个值得观察的现象是:方法类论文在求职中的含金量远高于benchmark类论文,即便后者的工作量不一定更少。这不是学术评价标准在起作用,而是行业筛选逻辑在反向塑造论文的生产方向。
也有人说,引用量才是更真实的信号,"会议录取"只是第一轮过滤,"被引用"才是真正的验证。这个说法没错,但引用数据同样可以被刷,操纵引用并不比操纵审稿更难。
真正没有人给出好答案的问题是:在这个规模下,同行评审还能做到什么程度的"同行"?
一个审稿人,面对12篇跨子领域的论文,在一个周末内完成评分,这本质上已经不是专家评审,而是一种有组织的快速过滤。也许会议的功能从来就不只是质量认证,而更多是一个社群定期聚集、交换信息的仪式。只是当参与者把它当成职业勋章时,所有人都在为一个自己其实不太相信的系统维持着体面。
问题的根源不是论文太多或审稿太敷衍,而是激励结构和评价功能的根本错配。顶会录取被市场化为职业货币,但学术会议的原始设计从来不是为了给HR提供筛选依据。当一个仪式性场合被迫承担质量认证的功能,它要么崩溃,要么异化。
巴斯光年们没有错,错的是有人把嘉年华入场券当成了行医执照。真正值得追问的是:为什么我们的职业系统如此饥渴,以至于非要从一个学术聚会里榨取信用?顶会不是变水了,是被迫承载了它不该承载的重量。
Anthropic指控DeepSeek、Moonshot AI和MiniMax通过2.4万个账号、1600万次对话对Claude实施“工业级蒸馏攻击”。问题是,Anthropic自己训练模型用的数据,相当一部分是从互联网和书籍上未经授权获取的。这场控诉,更像是一出黑色喜剧。
Anthropic最近在X上发帖,措辞严肃地宣布:DeepSeek、Moonshot AI和MiniMax对他们的模型发动了“工业级蒸馏攻击”,创建了超过2.4万个账户,与Claude产生了逾1600万次交互,目的是提取Claude的能力来训练自己的模型。
“蒸馏攻击”。这个词选得很妙。
有网友立刻指出,所谓“攻击”,本质上是:付钱用API,记录输出,用来训练自己的模型。其中一条评论说得直接——“‘蒸馏攻击’,你是指我们付钱购买的服务吗?”
更要命的是,有人截图显示Claude Sonnet 4.6在对话中把自己称作DeepSeek。Anthropic的模型在喊另一家公司的名字,说明训练数据里的痕迹没那么干净。另一方向更早被人挖出来的老料是:Claude曾频繁把自己称为ChatGPT,这显然是Anthropic在早期训练时也大量使用了OpenAI输出数据的结果。锅叠着锅。
Anthropic在训练数据问题上的底牌,并不比被它指控的对象光鲜多少。他们买下约100万册实体书、物理切割书脊后扫描,以规避版权限制;另据法庭文件,他们还从LibGen、Pirate Library Mirror等影子图书馆下载了约700万册书籍,完全没有付费,直到去年在法庭败诉后才被判每本书赔偿至少3000美元。有网友因此调侃:“我以为你们要说什么违法的事,结果是机器人在24小时切割书脊,那没事了。”
有观点认为,Anthropic这次公开点名三家中国公司,时机相当可疑,节点恰好在DeepSeek新模型发布前夕,这更像是一次针对监管层的定向喊话,而非单纯的维权声明。有网友直接说:他们的目标不是用户,是立法者,他们想让这些中国模型在监管层面被封杀,就像芯片禁令的逻辑一样。
围观的人很多,声援Anthropic的寥寥无几。
有评论写道:“你没有资格控诉别人偷了你偷来的东西。”
还有一条更短,也更狠:“无论道德还是法律层面,蒸馏模型输出和Anthropic训练时对待创作者的方式,差距只有一个:人家至少付钱了。”
Anthropic在AI对齐和安全性上确实做了很多认真的工作,Claude在很多任务上表现优异,这一点不需要否认。但“我们比别人少偷了一点”,撑不起这种道德宣示的重量。
更值得关注的问题也许是:如果中国实验室真的可以通过API调用来持续接近顶级闭源模型的能力,那这门生意的护城河究竟在哪里?
在硅谷,“攻击”这个词的定义取决于谁先抢到麦克风。 付费调用API、记录输出、用于训练——这套流程放在三年前叫“行业惯例”,放在今天因为对手是中国公司,就成了“工业级蒸馏攻击”。
Anthropic真正的焦虑藏在控诉背后:如果1600万次对话就能逼近你的模型能力,那你卖的到底是技术,还是一张随时可能过期的先发优势入场券? 这不是维权声明,是写给国会山的求救信——当护城河见底,最后一招只能是让裁判把对手罚下场。
一位科技圈观察者列出了一份被AI"判死刑"的SaaS公司名单,从Grammarly到Calendly,从Notion到Cursor。这不是"AI会写代码所以大家自己开发工具"那种老调,而是一个更底层的判断:当每个人都有了相当于全职私人助理的AI agent,现有的工具类产品的存在意义将被根本性地重塑。
Tenobrus在社交媒体上扔出了一份分级名单,把当前热门的SaaS产品按"死得多惨"排了个序。
最惨那档(gigafucked):Grammarly、Calendly、Miro、Retool、Webflow、LangChain、Writer、Harvey、Glean、Expedia、Monday。
次惨那档(fucked):Accenture、Intuit、Notion、Jasper、Canva、Postman、Airtable、Zapier、Replit……
然后是"可能死"的:Cursor、Pilot、Clay、Mercor。
最后还有一个特殊分类,大意是"看起来要死但团队足够聪明所以在现场边跑边想"——目前只有Linear一家。
这份名单的底层逻辑只有两条:coding agent越来越强,软件开发成本趋近于零;personal agent真正普及之后,每个人手边等于有了一个全职私人助理。
Calendly为什么在最惨那档?有人反驳说Calendly明明有免费替代品都没死,凭什么AI来了就死?原作者的回答很干脆:有全职私人助理的人,根本不会用Calendly这类工具安排日程。这不是"会被更便宜的同类产品替代",是这类需求的处理方式被整体废掉了。
Expedia在这份名单里,理由同理:旅行规划和预订,是personal agent最容易接管的场景之一。
有网友提到,企业级工具的替换周期被严重低估了——中大型公司换一套工具链涉及组织采购、培训、兼容性,哪怕更好的东西出来了也要拖好几年。这个观察没错。原作者并没有说"明天就死",时间窗口的判断本来就是这类预测最难的部分。
Notion和Intuit能不能靠"UI足够好、错误容忍度低"活下去?原作者的判断是:UI的重要性会线性下降,幻觉问题会被解决,智能会持续提升。这是一个信仰,也是一个赌注。
Cursor的处境最有意思。有人认为它应该进最惨那档:一个不训练前沿模型的IDE层产品,怎么可能持续盈利?原作者的回答是:它现在有大量资本,有一批够硬的工程师,Cursor Bugbot已经相当能打。他们没有躺在IDE这个形态上等死,还在动。所以归入"可能死"而不是"必死"。
Linear是这份名单里最受好评的异类。有网友说Linear是goated,甚至提出他们应该直接整合git、绕过中间层。原作者回应说这正是他们在做的事,"有点让人叫好"。一家本来"看起来要死"的项目管理工具,靠着持续的产品品味和执行力,在这张死亡名单上混到了一个模糊的位置。
产品力和团队质量能不能对抗结构性的市场变化?或者说,这只是让死得慢一点?
Linear被单独拎出来不是因为产品好,是因为它展示了这个时代唯一的生存姿势:别跑得比AI快,跑得比自己的旧认知快就行。名单上最惨的那些公司,死因高度一致——把“解决问题的方式”当成了“问题本身”。Expedia以为自己做的是旅行预订,其实做的是信息差套利;Miro以为自己做的是协作白板,其实做的是人类大脑的外接硬盘。
当AI成为每个人的大脑外挂,外接硬盘就是电子垃圾。唯一的活路是像Linear那样——不问“我的产品怎么还能卖”,问“需求在往哪里变形,我怎么先到那里等着”。
Anthropic宣称Claude Code可以自动分析和迁移COBOL遗留系统,IBM单日暴跌13%,市值蒸发约300亿美元。但多数技术人士认为这是严重过度反应,银行不迁移COBOL从来不是因为没钱没时间,而是因为风险太高,AI幻觉问题并没有解决这个核心障碍。
全美95%的ATM交易跑在COBOL上。这门语言诞生于1959年,比互联网还老。银行、航空、政府的核心系统里,几十亿行COBOL代码安静地运转着,像地基一样不被人看见。懂它的程序员正在慢慢老去,年轻人没有人愿意学,维护费用也因此居高不下。
然后Anthropic发了一篇博客,说Claude Code能分析庞大的COBOL代码库、识别风险、大幅降低迁移成本。市场的反应是:IBM股价当天跌13%,这是它25年来最惨烈的单日表现,2月份累计跌幅接近27%,创下1968年以来最差月度表现。
300亿美元,一篇博客文章的代价。
讽刺的是,有人指出Anthropic根本没有发布什么"新工具",只是给Claude Code现有功能写了一份新的营销材料,专门对准COBOL场景包装了一下。没有新模型,没有新功能,就是换了个说法重新讲了一遍。
恐慌归恐慌,真正的问题在于:银行为什么几十年来一直没有迁移COBOL?
答案不是缺钱,也不是缺人。有观点认为,答案是风险。金融系统里一个错误可能意味着数亿人的账户出问题,没有任何CEO愿意在财报里解释"我们用AI迁移了核心系统然后它产生了幻觉"。AI会幻觉这件事是公认的,你仍然需要人工逐行审查每一行输出——而这恰恰是整个工程最慢的那一步。AI并没有移除瓶颈,只是把前面那段路修得稍微平整了一点。
放射科医生的故事可以类比:AI今天已经可以替代90%的影像诊断工作,但医院并没有裁员,因为没人愿意第一个承担责任。金融系统同理。
不过,有一个角度值得认真对待。有观点认为,这件事真正动摇的不是COBOL迁移市场本身,而是IBM那块利润极高的咨询和专业服务收入。过去,COBOL知识是稀缺资源,IBM靠垄断这种稀缺性定价。Claude的出现让这种知识变得不那么稀缺了——哪怕迁移本身依然危险,分析、文档整理、风险评估这些前期工作的成本已经在下降。
一位做过COBOL转Java项目的开发者提到,当年整个项目最难的部分根本不是写Java,而是搞清楚那些COBOL代码到底在干什么。这正是AI可以显著加速的地方。
IBM当然也有自己的AI工具用于大型机现代化,这一点在讨论里几乎没人提。
现在的问题是:一年后回头看,这次暴跌到底是市场提前定价了一个真实的长期威胁,还是一次集体过度反应。有人已经设了一年后的提醒,等着来验证。
300亿美元蒸发的本质,是市场在追问一个哲学问题:谁敢第一个签字? COBOL像心脏手术——AI可以读片、画线、甚至建议下刀位置,但最后那一刀,必须有个活人敢签生死状。
银行不迁移从来不是不会,是不敢。几十亿行代码背后是几亿人的工资卡、房贷、退休金,任何一个幻觉都可能变成头条新闻。AI把“能不能做到”的问题解决了八成,但“谁来负责”的问题一个字没动。
Anthropic写了篇营销文案,IBM跌了四分之一,这不是技术革命,是一群对金融系统运作方式毫无概念的投资者在集体应激。
Anthropic发布了一篇关于“蒸馏攻击”的博客,声称检测到DeepSeek等中国实验室通过大量账户系统性地调用其API来生成训练数据。更值得关注的是,他们承认不只是封号,而是主动对“可疑”请求的输出结果进行投毒。这引发了广泛讨论——一家公司有没有权利在你不知情的情况下给你一个故意错误的答案?
Anthropic最近发布了一篇博客,主题是他们如何检测并反制所谓的“蒸馏攻击”。内容大意是:他们发现一批账户行为高度同步,支付方式相似,请求节奏整齐,判断是有人在规模化地调用Claude来生成chain-of-thought训练数据,幕后指向中国实验室的研究人员。
这本是一个普通的商业纠纷,却被写成了半个国家安全报告的语气。
但真正让人不安的不是被追踪,而是这一句:他们选择对“问题输出”进行投毒,而不是直接封号。
有网友直接点出了这件事的荒诞逻辑:你不会去雇一个会随机给你错误建议的顾问。如果一个API供应商公开宣布它有能力、也有意愿在后台悄悄劣化你的输出,你怎么知道自己什么时候是正常用户,什么时候已经被划入“可疑”名单?
“可疑”的标准是什么,没人说清楚。有观点认为,这套系统只要存在,任何用户都面临不确定性。问题越多的人,越容易触发某些阈值。
更讽刺的一层:他们用来检测“攻击者”的手段,是分析请求元数据并追踪到具体研究人员。这听起来很高明,其实无非是查账号、IP和支付信息,基本上所有API供应商都能做到,只是大多数人不会公开炫耀。
有网友提到,这些研究人员大概率不会傻到用实名账号。背后涉及多达2.4万个账号的协调操作,追踪链条肯定比官方描述复杂得多。至于“通过元数据锁定到具体研究员”这个说法,听起来更像是施压姿态,而不是侦探工作的复盘。
Anthropic在博客结尾还呼吁加强芯片出口管制,理由是限制算力可以遏制蒸馏攻击。有网友指出这两件事根本不在同一个讨论层面,把商业竞争问题包装成国家安全叙事,目的不言而喻。
目前讨论中最直接的行动结论是:用本地模型,或者至少分散使用多个来源的模型。当你无法验证一个API的输出是否被人为干预过,信任就不再是理性的选择。
有用户在看完这篇博客后取消了Claude订阅。他说,封号他能接受,投毒他不能接受。
这个区别,Anthropic大概认为不重要。
Anthropic这篇博客最精彩的部分,是它亲手拆掉了自己的护城河。AI服务卖的从来不是算力,是信任——而信任这东西,最怕的不是背叛,是“我保留背叛你的权利”。封号是绝交,投毒是诈骗,前者终止关系,后者腐蚀关系的定义本身。当一家公司公开宣称它的检测系统可以悄悄给你塞错误答案,每个用户都必须面对一个无法证伪的质问:我这次的输出,是真货还是样品?最讽刺的是,他们用来证明自己“正义”的手段,恰恰证明了自己“有能力作恶”。这不是安全报告,这是一封写给所有付费用户的勒索信:好好表现,别问太多问题。
AI正在压缩软件工程师的就业市场,“学会用AI工具就能找到工作”的说法过于乐观。真正的问题不是个人适应能力,而是整体岗位数量在收缩。
Reddit上一张梗图引起广泛讨论:失业程序员追着工作机会跑,旁边有人拦住他说“Claude在做那份工作”。评论区瞬间炸开了锅。
有人说,学会跟AI工具协作的工程师还在被录用,适者生存,技术圈向来如此。这话听起来很有道理,甚至有点励志。
有观点认为,这套逻辑有个致命漏洞:会用Claude写prompt的人多了去了,简历上都能写,面试却几乎不测。你所谓的“差异化竞争力”,根本没有壁垒。评论区里好几位有着3到7年工作经验的工程师表示,已经在积极使用这些工具,依然在求职。经验够用,工作没有。
一个有20年经验的人说,如果他是刚入行的年轻人,会非常认真地重新考虑职业方向。
有人提出另一套愿景:AI工具让个人能力大幅扩展,以后会出现大量“1个人+多个AI”的微型公司,大公司将失去存在的必要。这个说法颇具吸引力,但也遭到了几乎等量的反驳。有网友指出,有资本的人随时可以复制你的产品,软件领域的时间壁垒已经消失。还有人说,你以为的民主化,最终会被营销预算和现有基础设施碾压。人是懒的,大多数人会选择最省力的方案,Linux桌面版到现在也没占领市场。
也有观点认为,软件工程师不会消失,只是被要求用更少的人交付更多的东西。写代码本来就不是大公司的瓶颈所在,需求分析、架构决策、客户沟通、合规文档,这些事AI还替代不了。
UBI的呼声也冒出来了。有人说该认真讨论全民基本收入了,回复只有四个字:“昨天就该。”
有人提到“劳动总量谬误”——认为工作岗位总量固定,AI多做一份工作就少一个人类岗位,这在历史上每次技术革命里都被证明是错的。这次会不会不同,没人知道。
问题大概是:工具民主化之后,每个人都能做更多事,可市场需要的总产出并没有等比例增长。多出来的产能,去哪了?
最讽刺的不是AI抢了工作,而是我们被要求感谢这把刀磨得够快。“拥抱AI”是一种精巧的责任转嫁术:公司裁员是战略调整,个人失业是适应不良。评论区那些3到7年经验的工程师,工具用得熟练,简历写得漂亮,依然在漂流——因为问题从来不是你会不会游泳,而是船上的位置本来就不够。有人描绘“1人+AI”微型公司的美好图景,却忘了资本可以在24小时内复制你的创意,用营销预算把你碾成齑粉。技术民主化了,权力没有。 当Linux用了三十年都没占领桌面市场,你凭什么相信个体能用AI逆袭巨头?这不是躺平,是认清战场地形。