Anthropic要求开源项目OpenCode移除所有Claude相关功能,包括API集成。背后原因是Claude Code订阅采用“折扣Token”模式,官方不希望用户在第三方工具中使用。这一强硬做法引发用户强烈不满,许多人开始转向ChatGPT。
Anthropic有两款产品:按使用量计费的Claude API,和包月订阅的Claude Code。订阅价格看起来便宜得多,实际上是Anthropic有意补贴,目的是把用户锁定在自家工具里。
OpenCode和OpenClaw这类第三方工具,一直允许用户用订阅账号调用Claude模型。用户觉得这很合理——我付了钱,为什么不能选自己喜欢的工具?但Anthropic明确表示:订阅只能用于官方客户端,想用第三方工具就得按API价格付费。
有观点认为,这种做法类似于Gmail早期提供1GB存储空间,结果有人开发了GmailFS把邮箱当网盘用,Google最后修改了服务条款。看起来是在保护商业模式。
但用户的愤怒不难理解。OpenCode的体验比Claude Code更好,功能更丰富,Token消耗却不会更多——订阅本身就有使用上限。Anthropic的限制并非出于成本考虑,而是担心用户发现:离开Claude Code后,换用其他模型轻而易举。
更耐人寻味的是时机。有人注意到,Claude Code最近一个月表现明显变差,怀疑是在后台偷偷把更多任务分配给便宜的Haiku和Sonnet模型,以应对DoW事件后暴增的使用量。也就是说,Anthropic可能正在牺牲高价订阅用户的体验,用来补贴低价用户增长。
一位用户的遭遇很有代表性:因为用OpenCode被封号,换了邮箱重新订阅,只用官方工具,结果还是被封。他说,从没见过一家科技公司对用户这么敌视,包括90年代的微软。
不少人已经转向Codex配合$200/月的OpenAI订阅。Claude的模型优势正在缩小,而工具生态的封闭正在加速这个过程。Anthropic团队给人的感觉是,他们觉得自己在造神,普通用户的需求无足轻重。
当整个行业都在追逐Agent能力时,有人想要的只是一个「博学」的模型——不需要写代码、不需要调用工具,就像离线版的全知百科。但这个需求在2025年似乎已经过时了。
三年前接触LLM,是为了摆脱搜索引擎那糟糕的信噪比,获取贴合场景的定制化知识。现在所有实验室都在堆Agent能力,这让人困惑:有限的参数预算下,强化工具调用是否会削弱模型本身的知识储备?
有观点认为知识量与参数数直接相关。测试Qwen3.5时发现,35B的MoE在Q4量化下的幻觉比27B密集模型的Q5还多,即便27B降到IQ3、显存只占12GB,仍比20GB的35B更可靠。规模更大的MoE能否改善这一点?
前沿实验室似乎已经放弃了纯知识路线。合成数据(chain-of-thought、工具使用轨迹)让模型更擅长推理,但训练算力有限,知识广度成了牺牲品。Tulu 3是个例外,它基于更多自然语料而非合成推理数据训练。
但「知识」和「认知」的界限本就模糊。如果只想要信息源,小模型+搜索工具就够了。但要让AI真正教学、解释、适配目标,你需要的不是知识堆砌,而是认知能力——这恰恰就是Agent。
有人提出解决方案:用Qwen3.5-9B这样的小模型,配上搜索工具,在系统提示词里列出可信来源优先级。模型的任务不是记住所有事实,而是知道去哪找、如何用。这比让405B模型硬记维基百科高效得多。
实际上,即使是Claude Opus这样的顶级模型,最近在简单常识问题上也开始失误,稍加质疑就会反复翻转立场。GPT-4在2023年的领域深度记忆比某些更新的「更聪明」模型还好,因为它没被过度调优成输出格式工具。模型正在被训练成「外包者」而非「思考者」。
有网友提到,依赖模型内置知识风险极高——幻觉不可靠,就算有知识也容易出错。现在的大context和工具调用能力下,引用外部知识才是正道。
仅英文维基百科未压缩就有10TB。没有哪个「本地规模」模型能装得下所有事实。知识需要参数,也需要正确使用这些参数的能力。
最接近「全知百科」的配置:Qwen3.5 397B(密集模型)+ 维基百科/Wikidata的RAG,一个9B模型配好检索能打败裸奔的70B。或者试试GLM-5、Kimi-K2.5、DeepSeek V3.1这些新的超大模型。
核心矛盾在于:谁来定义「真相」?LLM从来不是魔法真理机器,它需要海量已知真相来训练。真相是相对的,判断是用户的工作,不是模型的。
模型会过时,这就是为什么实验室都转向推理能力+搜索工具,而非单纯喂数据。知识不是终点,上下文和推理才是实际使用中更重要的东西。
OpenAI宣称现在已经出现“1000倍效率”的工程师,但一线开发者的反馈却截然不同。AI工具确实有帮助,但远非那种“一个顶一千个”的革命性飞跃,而且持续指导AI、检查修正其输出反而让工作更累了。
有观点认为,这种说法把工程工作变成了一场对抗虚构完美标准的竞赛,最糟的是让人永远觉得自己落后了。
真正在用AI写代码的人怎么说?一位开发者提到:“AI根本无法独立完成工作。我必须全程在场指导它、引导它、检查它的成果、纠正错误……这些模型输出token的流从不停歇,和AI协作实际上很累人,即使我几乎不再亲手写代码了。”
更值得警惕的是长期风险。AI生成的代码在短期内看起来运行良好,但时间一长可能会出现无法修复的bug,到那时只能推倒重来。问题是后果往往来得很晚,但伤害已经造成。
当然,也有开发者表示最近几个月没遇到“无法修复需要重启”的问题,但前提是有成熟的开发流程:系统化的规划、详细的技术规格、测试、上下文管理和代码审查,在AI写任何一行代码之前就做好准备。这更接近“智能体工程”而非单纯的AI代码生成。
有传言称一些顶尖工程师在AI credits上的花费已经接近年薪,大型科技公司可以轻松追踪工程师的算力消耗和产出,甚至可能搞出反乌托邦式的绩效排行榜。如果拿一个完全不用AI的工程师做对比,所谓的“1000倍工程师”可能只是lines of code游戏。
一位开发者的评论很现实:“就算有了成千上万美元的tokens和数百小时专家级prompt调教,Claude也做不了我为了通过高年级开发课必须做的事。”
这些夸张数字更像是营销团队为了吸引投资者而堆砌的修辞。真要出现几个100倍工程师,产品团队跟不上,QA跟不上,销售、运营、客服都会掉队,业务流程会直接崩溃。
一个名为prompt-master的开源Claude技能在一周内获得600+星标。它能根据你使用的AI工具(Cursor、Midjourney、Claude Code等)自动生成最优提示词,避免重复调整和浪费Credits。工具已支持35种常见错误模式修正和12种任务模板。
提示词优化工具并不新鲜,但这个项目的核心竞争力在于“工具特定路由”。
同样是生成吉卜力风格的东京夜景俯视图,给Midjourney的提示词是45个token的逗号分隔描述符,先锁定相机角度防止模型默认街景构图,再叠加视觉线索。给DALL-E 3的提示词则变成80个token的散文句式,末尾专门加上“不要在图像中包含任何文字或字母”来抑制它爱出现的随机文本伪影。
这种差异不是表面功夫。Cursor和Claude Code的上下文管理逻辑完全不同,用同一套提示词会直接崩。ComfyUI用户在用Stable Diffusion 1.5、SDXL还是Flux,输出结构都不一样,需要分别生成正向和负向提示块。甚至向o1模型添加思维链反而会降低效果,这是35种“烧Credits模式”中的一种。
有观点认为直接跟Claude Code像跟人聊天一样就行,出错了再说要改什么。开发者的回应很务实:这能省Credits,也能让模型理解更清晰。但更重要的是使用场景远不止对话,图像、视频、研究、演示、配音,每个领域的最佳实践完全不同。
项目在7天内从600星涨到900星,期间社区持续提出支持新工具的请求:Figma Make、Kimi 2.5、Ollama、Google Stitch。开发者几乎全天候在评论区确认兼容性,甚至当天就为特定用户添加了SeeDream和LTX 2.3的路由。v1.4刚发布,v1.5已经在规划agent支持。
整个项目像是在验证一个简单但容易被忽视的事实:AI工具之间的差异比我们想象的大得多,通用方案在具体场景下往往意味着妥协。
GitAgent提出了一个新思路:把GitHub仓库本身变成AI Agent的身份、记忆和技能载体。这意味着AI智能体的所有行为都可以像代码一样被版本控制、审查和复现。
GitAgent的核心想法简单得让人想拍大腿:既然我们已经用Git管理代码,为什么不直接用它来管理AI Agent?
当prompts、工具和行为逻辑都存进代码仓库,你终于可以像review代码一样review一个AI的“人格”了。有网友提到,这种“把repo当作agent真相来源”的做法感觉对了——一旦提示词和行为都进了版本库,你就能diff它们,看到AI究竟在哪次commit变“聪明”或变“蠢”了。
这解决了一个被低估的痛点。
现在训练AI Agent像炼丹,成功了也不知道为什么,失败了更说不清。GitAgent让智能体开发告别“在我机器上能跑”的混沌状态,进入可追溯、可复现的工程化阶段。它兼容OpenAI、Claude、CrewAI等多个框架,像一套统一的“智能体操作系统”。
Claude官方用例页面展示了远超日常聊天的深度应用场景,涵盖研究、写作、代码和分析等领域。多位开发者反馈,这个页面不只是示例集合,更像是一套提示词工程教程,每个案例都在演示如何精确地提出需求。
有开发者扔进去两篇毫无关联的产品吐槽,Claude整理出了一份用户真正买账的功能提案。这种综合能力让人意外——它不是简单拼凑信息,而是能找到碎片之间的内在逻辑。
用例页面涵盖自动化研究、金融压力测试、多源信息整合,展现的深度远超预期。有观点认为,大部分团队直接扑向API文档和提示词技巧,跳过了这个环节。但看到实际可能性,会影响你设计整个系统的方式。
更有价值的视角是:别把它当案例集,当成提示词课程来读。每个示例都在演示如何精确构建请求。浏览者看到的是“酷炫示例”,真正获益的人把它当工程师手册研读。
结构化输出的质量,在复杂任务中表现超出预期。这不是营销话术,是实际工作流中跑出来的结论。
也有人提到反差:一边是花几千美元token费用却不知道从何下手的建设者,一边是把官方页面当教材反复研究的开发者。工具的能力边界,很多时候取决于使用者如何提问。