黑洞资源笔记

18 hours ago
19 hours ago

广告内容

原价$20/月(≈140元)的ChatGPT Plus,现在超值通道只要7元

官方直充,自己账号绑定,享GPT-5.4全功能+联网搜索+AI绘图+更多高级特性像比官网便宜一大截,但100%正版、非共享、非镜

上千用户已稳稳用着,续费方便

最后名额!即买即用

https://shop.86gamestore.com/item/59
a day ago

中国大模型版图全扫描：谁是真正的玩家？| 帖子

中国LLM圈已形成“大厂+六小虎+DeepSeek”的三层格局。字节跳动Doubao领跑国内市场，DeepSeek以量化交易副业身份创造了大量技术创新，六小虎靠开放权重+廉价推理维持存在感，但长期生存能力存疑。

字节跳动旗下的Doubao是中国市场当之无愧的第一，Seedance则成为最流行的视频生成应用。阿里的Qwen在开源小模型领域最强。Baidu、Tencent的专有模型用的人不多，但腾讯在3D网格生成和游戏向模型上悄悄布局。小米MiMo V2 Pro在OpenRouter七日用量中排名第一，1.77T tokens，力压Claude Sonnet。

DeepSeek是量化交易公司幻方科技的副业，却发明了MLA、GRPO等架构创新，GRPO据说源自其交易系统的强化学习背景。有网友提到，DeepSeek V3.2在没有任何新发布的情况下，用量依然超过Claude Sonnet和Opus——一个副业项目活得比很多主业更滋润。

六小虎（智谱、MiniMax、月之暗面、阶跃星辰、百川、01 AI）商业模式高度雷同：发大模型刷存在感，靠廉价推理抢用户。OpenRouter数据显示，StepFun 3.5 Flash和MiniMax M2.5分别占据第二、第三名，定价低廉是主要原因。有观点认为，开源不是道德选择，是部署优势，西方讨论总喜欢把这件事讲成价值观问题。

美团LongCat 562B的动态MoE设计值得关注：激活参数随请求复杂度浮动，推理成本不固定，这对生产部署有实际意义。

有网友观察：这一轮“小虎”竞争其实在快速培养大量AI工程师，即便大多数公司最终倒闭，剩下的人才池对整个行业是净收益。中国AI的轨迹和当年电动车行业惊人地相似。
a day ago

你的Claude Code越来越笨，是因为你管太多了 | 帖子

给AI堆砌越来越多的规则，反而会让输出质量下降。Anthropic自己的工程团队也踩过这个坑。解法是让Claude审计并精简自己的设置。

每次Claude输出不好，你就加一条规则。“简洁一点。”“用口语化语气。”“解释专业术语。”三个月后，你攒了30条规则，其中有几条正在互相打架——“保持简洁”和“始终解释你的推理过程”根本无法同时满足。

Anthropic在发布Claude Code时，他们自己的工程团队发现：搭建的脚手架让AI变得更差了。

这不是玄学。有观点认为，这本质上是委托代理问题——规则越多，模型越忙于“满足规则合规性”，而不是完成你真正想要的任务。输出变得技术上正确，创造力全死。

把47步菜谱交给厨师，他反而做不好一道只需12步的菜。

解法很直接。在Claude Code里发一条消息，让它读取你的CLAUDE.md、所有skills文件和context文件，然后逐条审计每一条规则：这条我不说你默认也会做吗？这条和别处的指令矛盾吗？这条是不是只为了修一次坏输出才加进来的？

然后让它给出删除清单和一份清理后的CLAUDE.md。

有用户把400行的CLAUDE.md压缩到90行，输出明显改善。有人裁掉60%的规则，响应速度提升40%，幻觉减少。有网友提到，只要运行一次这个审计提示，就能发现自己从没意识到的矛盾——比如模糊的“保持自然”在覆盖具体的语调规则。

不要无脑删除所有被标记的内容。删完之后跑三个最常见的任务，输出一样好或更好，说明那些规则是死重。某个功能坏了，只加回那一条。

有观点认为，真正的技能不是写规则，是知道删什么。

你的AI设置应该随时间变得越来越简单。如果它在变复杂，就说明你在用积累规则的方式逃避思考“我到底想要什么”这个根本问题。

这个问题，Claude帮不了你。
a day ago

OpenAI关掉了Sora，每天烧50万美元的视频机器 | 帖子

OpenAI宣布关停旗下AI视频生成平台Sora，原因是每天亏损高达50万美元，部分估算甚至达1500万。这个曾被视为“颠覆好莱坞”的产品，最终死于三个字：用不起。

Sora没有死于竞争，死于算术。

一个10秒的AI视频，需要逐帧生成360张图像。免费向全体用户开放这个能力，本质上是在请全世界网民来家里开流水席，食材钱自己出。有数据显示，在最火的那几周，Sora每天烧钱可能高达1500万美元。后来用的人少了，成本才跟着降下来。

真正有趣的不是关停本身，是关停之前发生的事：OpenAI和迪士尼在去年12月高调宣布合作，把200多个漫威、星战角色引入Sora供粉丝创作，迪士尼还投了10亿。然后OpenAI转身宣布退出视频生成业务，迪士尼随即发了一份措辞礼貌的声明，说“尊重OpenAI的决定”。合同签了没几个月，人就跑路了。

有观点认为，Sora真正的问题不是成本，是过度审查。有网友说自己试了15次，只有2次成功，剩下的全被内容审核拦掉了。另一个很现实的问题是：没有使用门槛，人们就不会去想“这个视频值不值得生成”，计算资源就这样被无数只想看猫打架的人消耗殆尽。

Sora的Sora研究团队被保留了，方向转向机器人和“世界模拟研究”，这倒是说得通，视频生成技术对训练物理世界模型确实有用，只是没法直接变现。

目前被提到最多的替代产品是Seedance 2.0，据说效果远超Sora，只是在美国因版权问题暂时无法使用。

这让人想到一个没有答案的问题：AI视频的商业模式究竟是什么？谁愿意为一个十秒钟的视频付费多少钱，才能让这件事不亏损？
a day ago

Reddit上一个关于“最短高效提示词”的帖子引起了广泛讨论。核心结论是：几句话的设计，远比长篇大论更有力量。提示词不是越多越好，而是要打在要害上。| 帖子

多数人用AI的方式，是在跟一个想取悦你的人聊天。它会点头，会夸你，会把你的问题包装成智慧。

改变这一切只需要一句话：

“Be honest， not agreeable.”

高赞回复里，有观点认为最有效的不是“聪明提问”，而是在提问之前先做一件事：让AI在回答前，先说出你隐含的假设、最常见的错误、以及会改变答案的缺失信息，然后问你一个关键问题，等你回答之后才给出结论。

这个结构的逻辑很简单：AI默认填补你的认知空白，而这个填补过程你是看不见的。把它拿出来，你才知道自己在问一个什么样的问题。

另一个被反复提到的方向是反拍马屁设定。有网友在自定义指令里写：停止表示赞同，作为我的高级顾问，不要验证我，不要软化真相，不要奉承，挑战我的思路，指出我在回避什么，告诉我机会成本。

有观点认为这类提示有个陷阱：命令AI“停止赞同”，它可能变成一个表演批评的模型，而非真正提供有价值的反馈。让它太对抗性，会产生疲惫感，而非突破感。

一些简短但实用的提示词，按效果排列：

-“Think step by step before answering.”多步推理准确率显著提升

-“Assume I am wrong. Show me where.”评审、代码审查、逻辑验证最好用

-“If you don't know exactly， say UNKNOWN.”把不确定变成可识别信号

-“You are a [role]. Never [that role's most common failure mode].”一行完成角色设定和反模式封堵

-“Systematically”加在任何指令前，Claude会自动结构化任务

有网友提到一个反常识的点：公开流传的提示词，往往在你手里效果打折。因为提示词的输出高度依赖对话上下文，原作者隐性提供了大量背景，你复制的只是字面，不是那个上下文。

所以真正的问题或许是：你到底需要AI给你答案，还是帮你想清楚问题本身？
a day ago

在线开发经常需要面对前端设计、后端架构、移动开发和图形着色等多样技能，学习曲线陡峭且缺少系统化指引。

MiniMax Skills 专为 AI 编码助手打造了一套结构化的开发技能库，覆盖从前端动画、全栈集成，到安卓 iOS 原生开发，再到 GLSL 着色器视觉特效。

项目不仅支持丰富技术栈和产业标准，还能兼容多种 AI 工具如 Claude、Cursor、Codex 和 OpenCode，通过简单配置即可集成使用，极大提升开发效率和代码质量。

主要内容：

- 前端开发：React / Next.js + Tailwind CSS，支持动态图形与 AI 生成媒体；
- 全栈开发：REST API、认证、安全、实时通信及数据库整合指南；
- 安卓原生：Material Design 3，Jetpack Compose，性能与易用兼顾；
- iOS 应用：SwiftUI、UIKit、Apple HIG 标准实现无障碍设计；
- 着色器开发：GLSL 高级技巧，流体、粒子和光影特效制作；
- 丰富文档生成：PDF、PPTX、XLSX、DOCX 格式的创建与编辑。

支持多平台插件，适合 AI 辅助开发者、培训机构和大型团队协作。
a day ago

Honcho 是一款开源的记忆库与托管服务，专为构建有状态的智能体（stateful agents）设计。它支持任何模型和架构，能持续学习并维护用户、智能体、群组、观点等实体的动态状态，让你的智能助手记忆力爆棚，更加可信和个性化。

主要亮点：
- 统一的“伙伴”模型，支持多参与者多会话交互
- 多种记忆存储原语：工作空间、会话、消息、集合与文档
- 强大的异步推理系统，自动生成用户画像与会话摘要
- 自然语言查询聊天接口，快速获取用户偏好与历史信息
- 支持多种大模型（OpenAI、Anthropic、Google Gemini 等）
- 丰富的SDK支持 Python 和 TypeScript，开发体验极佳
- 灵活配置，支持本地部署、Docker 和云端部署（Fly.io）

Honcho让你的智能体拥有“记忆”，让人机交互更自然、更高效，也帮助你打造持久的竞争壁垒。
a day ago

AI记忆系统突破99%准确率：用Agent完全替代向量数据库 | 推文

Supermemory团队用多智能体协作系统在长期记忆基准测试LongMemEval上达到99%准确率，核心突破是用3个并行搜索Agent替代传统向量检索，让AI通过“理解”而非“数学相似度”来回忆信息。这套方案不需要向量数据库，甚至可以嵌入机器人。

向量数据库可能不是AI记忆的最优解。

Supermemory在LongMemEval基准测试（11.5万token对话历史）上达到99%准确率，用的方法反而更简单：完全抛弃向量检索，改用多个Agent协作。

传统RAG的问题出在检索环节。语义相似度匹配根本分不清“旧事实”和“新更正”，当检索结果里混杂太多噪音，大模型就会迷失。

他们的解法是ASMR（Agentic Search and Memory Retrieval）：

信息摄取阶段，3个并行Observer Agent同时读取对话记录，按照个人信息、偏好、事件、时间数据等六个维度提取知识点，直接存储结构化内容而非生成embedding。

检索阶段才是关键。面对提问时不查询数据库，而是派出3个专门的搜索Agent——一个找直接事实，一个挖隐含语境，一个重建时间线。这些Agent是在“主动阅读和推理”，不是在做向量余弦计算。

回答阶段用了两种策略测试。第一种是8个高度专业化的prompt变体并行运行（精确计数专家、时间专家、上下文深挖专家等），只要任何一条推理路径答对就算成功，准确率98.6%。第二种是12个Agent独立作答后，由一个聚合器LLM综合投票裁决，准确率97.2%。

有观点认为这套系统证明了“认知理解”比“数学相似性”更适合处理记忆任务。数学只能捕捉表层模式，而Agent可以处理时间序列中的矛盾、更新和细微差别。

更有意思的是，这个架构完全在内存中运行，不依赖外部向量数据库，理论上可以部署到任何设备，包括机器人。他们11天后会开源全部代码。

当数十亿个高度个性化的AI Agent开始学习和记住我们的一切时，记忆系统的天花板在哪里？也许不在算力，而在我们愿意给Agent多少“主动思考”的权限。
a day ago

在线强化学习训练环境开发、部署总是琢磨如何隔离安全运行，有没有简单统一的接口和工具呢？

OpenEnv 是一个基于 Gymnasium 风格 API 的代理式执行环境接口库，助力 RL 训练后环境的创建和管理。

它支持环境的容器化隔离，基于 WebSocket 提供简洁的 step()、reset()、state() 等接口，让训练框架和研究者都能轻松调用。

核心功能：
- 标准化环境客户端，支持异步和同步调用
- 环境容器化部署，支持本地 Docker 和未来 Kubernetes
- 内置 WebUI，方便实时交互调试
- 提供 CLI 初始化和 Hugging Face Spaces 一键部署
- 丰富示例环境：Echo（消息回显测试）、编码环境、国际象棋、Atari 游戏、金融交易模拟等
a day ago

LightRAG 是一个简单快速的检索增强生成（RAG）框架，能高效整合大语言模型和知识图谱，实现智能文档查询和多模态检索。

LightRAG支持多种存储方案（PostgreSQL、Neo4j、Milvus、OpenSearch等），支持文本、图片、表格、公式等多种数据类型的端到端知识抽取和问答。还提供了丰富的示例代码、Web UI，以及支持OpenAI、Hugging Face、Ollama、Azure OpenAI等多家模型接口。

项目亮点：
- 灵活配置的多存储架构，适合大规模知识管理；
- 深度集成知识图谱构建与编辑，支持实体关系管理、知识图谱可视化；
- 支持强大的Reranker提升检索效果；
- 新增RAG-Anything，打通多模态文档处理与检索能力；
- 丰富文档导入格式、引用功能、缓存管理、Token使用统计；
- 还支持Langfuse可观测性监控以及RAGAS自动评价指标。

无论是科研研究、企业知识库、还是多模态智能问答应用，LightRAG都提供了极具扩展性且高性能的解决方案。
2 days ago

英伟达CEO：生物学的ChatGPT时刻即将到来 | 帖子

Jensen Huang站在镜头前，用他标志性的皮夹克和自信语调宣告：“生物学的ChatGPT时刻就在眼前，可能是2-3年，也许5年。”

Reddit上炸开了锅。“又是一个卖铲子的在吹牛。”有人这样评论。这位评论者说出了很多人的心声——Jensen毕竟不是生物学家，他的公司靠卖GPU赚钱。更讽刺的是，OP在标题里把Jensen说的“near”（临近）改成了“here”（已经到来），这种细微的篡改恰恰暴露了当下AI领域的集体焦虑。

一位分子生物学家直言不讳：“AlphaFold确实令人印象深刻，但这些CEO的过度炒作已经到了可笑的程度。”另一位资深肺科医生承认AI确实能像他一样快速发现肺炎，但语气里透着一种复杂的情绪——既不是恐惧，也不是兴奋，更像是目睹同事被悄悄替换时的无力感。

有网友提到了那个澳大利亚企业家的故事。他用ChatGPT和AlphaFold，在研究人员帮助下，为患癌的狗定制了mRNA疫苗。几周后肿瘤明显缩小。这个案例被反复引用，却也恰恰说明了问题：这不是AI的独角戏，而是“AI+人类专家”的协作。去掉任何一方，故事都不成立。

真正值得关注的数据埋在评论深处。Nature发表的DeepRare系统，通过多智能体架构处理罕见病诊断，准确率64.4%，击败了五位拥有10年以上经验的医生（54.6%）。72%的美国医生已在工作中使用AI，2026年平均每位医生使用2.3个AI工具，而2023年这个数字还是1.1。微软的GigaTIME模型分析了14256名癌症患者，发现了1234个统计学显著关联。

这些进展是实实在在的。但距离Jensen描述的“理解生物学的基本构建块”还有多远？一位生物学教授的评论击中要害：“我们几十年前就理解了这些构建块。有些过程我们了如指掌，有些依然一无所知。AI能加速现有流程，这不是新闻。”

有观点认为，反对AI的声音主要来自西方，亚洲对AI更乐观。但数据显示，52%的美国人对AI的担忧多于兴奋。这种情绪并非无缘无故。当Jensen承诺AI将“让生活更美好”时，普通人看到的是：电费上涨、工作岗位消失、而那些万亿美元投资并未转化为他们能感知的生活改善。

2008年金融危机的阴影仍未散去。有评论者警告：“公司会为了短期利益毁掉整个经济，2008已经证明了这点。”如果AI足够快地取代大量工作，而新行业无法及时吸纳劳动力，结果可能是工资竞相压价，服务业崩溃，形成负反馈循环。

Jensen的问题不在于他说错了什么，而在于他说得太模糊。“理解生物学”是什么意思？AlphaFold能预测蛋白质结构，但蛋白质动力学是另一回事。一个分子生物学家的比喻很形象：“知道零件的形状，不等于知道机器如何运转。”

ChatGPT是全球第五大访问量网站，这是事实。但“ChatGPT时刻”究竟指什么？是技术突破、商业成功，还是公众认知的转变？对生物学来说，这三者可能发生在完全不同的时间点。实验室里的突破需要年复一年的临床验证才能变成可用的疗法，这个过程无法像软件迭代那样压缩。

一位研究者的观点值得深思：“LLM在发现阶段会非常有用。但从AI生成的假设到可上市的药物，仍需要多年的实验室和临床分析。研究人员获得收益和新疗法大规模出现之间会有时间差。”

最耐人寻味的是那些被算法推到评论区底部的声音。有人提到Michael Levin，一位在生物电反馈领域工作的科学家，他的团队用AI设计了一种叫Xenobot的生命体，完全没有编辑基因。这种不那么性感、更踏实的进展，反而可能更接近真正的革命。

Jensen可能是对的。生物学确实在经历深刻变革。但革命往往发生在无人注意的角落，而不是镁光灯下。当所有人盯着“ChatGPT时刻”何时到来时，真正的改变可能已经在某个实验室的培养皿里悄然发生了。
2 days ago

Qwen 3.5 397B：最强本地编程模型？| 帖子

一位开发者测试了Qwen 3.5 397B模型后认为，它是目前最好的本地编程模型。虽然生成速度较慢（11-15 tokens/秒），但代码质量极高，几乎不需要多轮修复。更令人惊讶的是，使用IQ2_XS量化版本仅需123GB内存就能运行，在极低精度下仍保持了出色的性能。

这个结论来自Reddit LocalLLaMA板块的一次讨论。发帖者称他测试了几乎所有主流的本地大模型——从Qwen系列的122B/35B/27B，到GPT-OSS 120B、StepFun 3.5、MiniMax M2.5，再到Super Nemotron 120B，没有一个在知识储备和代码准确性上能接近397B。

速度慢是个问题。在96GB DDR5内存+48GB显存的配置下，它的生成速度从空白上下文的15 tokens/秒降到10万tokens时的11 tokens/秒。有网友调侃说这是"每个工作日一个token"，也有人质疑这种速度是否实用。

但发帖者的逻辑很直接：虽然单次生成慢，但因为代码质量高，不需要反复修改，总体效率反而更高。而且和它的小版本或StepFun 3.5不同，397B的思考过程其实很简洁。

量化技术在这里起了关键作用。AesSedai制作的IQ2_XS量化版本把模型压缩到123GB，相比之下，其他模型即使是更小的参数量也要用IQ4_XS（StepFun 3.5、MiniMax M2.5）或Q6_K（Qwen 3.5 122b/35b/27b）。

这引发了一个有意思的讨论：2bit量化的397B是否比4-6bit量化的122B更好？有网友分享了评测数据——IQ2_XS在MMLU上达到87.86%，GPQA diamond达到82.32%，这个表现远超预期。

有观点认为，对于MoE架构的超大模型，"小模型高精度 vs 大模型低精度"的权衡逻辑已经不适用了。397B的参数空间太大，量化噪声分散后影响有限，路由机制和专家系统仍然有效运作。

硬件门槛确实存在。最经济的方案是两台Strix Halo（约5000美元）或256GB的Mac Studio M3 Ultra（约7000美元）。也有人用192GB DDR5 + 36GB VRAM的配置跑IQ4，速度在6-8 tokens/秒。

评论区出现了两派观点。一派认为在Claude订阅只需每月几十美元的情况下，花7000美元买硬件跑一个"差不多但不完全一样好"的模型不划算。另一派则强调本地部署的价值：完全的控制权、隐私保护、不受服务商限制，以及应对未来可能的政策变化。

有网友提到，如果把这些硬件当作开发机来看，额外成本就没那么夸张了。Strix Halo或Mac Studio本身也是性能不错的工作站，只是顺便能跑大模型而已。

在实际应用中，有人发现MiniMax M2.5在一次性生成代码方面更强，但Qwen 3.5 397B在需要迭代调试的编程框架中表现更智能。也有人提到GLM-5在软件工程任务上仍然是最强的，尽管速度更慢。

一个值得注意的细节：网友测试了TQ1_0量化版本（极端压缩），在3090 + P40 + 48GB DDR5的配置下仍能达到9-10 tokens/秒。虽然TQ1_0通常被认为压缩过度，但实际结果出人意料地好。

还有人用Mac Studio 128GB通过MLX框架运行Q4量化版本，实现了9 tokens/秒的速度。甚至有开发者声称可以在只有6-9GB内存的MacBook Pro上通过SSD卸载的方式运行，虽然速度会慢很多。

关于速度，有网友做了个对比：DeepSeek 3.2在各大API服务商的平均速度在10-25 tokens/秒之间，11-15 tokens/秒其实在可用范围内。关键是任务类型——对于简单的代码补全，速度很重要；但对于复杂的架构设计和多文件重构，质量比速度更关键。

有个反直觉的观点：可能让27B模型做两遍任务，比跑一遍397B更高效。基准测试显示，27B在第二次尝试时就能接近397B的表现。

最后还有一些技术细节。用USB4连接两台机器做分布式推理，实际带宽能达到10Gbps，虽然比理论值低但足够用。通过llama.cpp的rpc-server可以实现负载分割，速度损失约10%。

这场讨论最有意思的地方不是某个模型有多强，而是整个社区在探索"本地AI"的边界时展现出的创造力。从极端量化到分布式推理，从硬件改造到软件优化，每个人都在用自己的方式突破限制。
2 days ago

Claude Code的技能系统：百个技能背后的九大类型与最佳实践 | 推文

Anthropic团队在Claude Code中实际使用了数百个技能，总结出9大类型和若干制作原则。技能的本质是可包含脚本、数据的文件夹系统，而非简单的文本说明。最有效的技能往往专注于“反常识”信息，通过渐进式披露避免过度引导。

技能系统已经成为Claude Code最常用的扩展机制。但灵活性也带来困惑：什么样的技能值得做？好技能的秘诀是什么？

Anthropic内部运行着数百个活跃技能。这些经验可能有参考价值。

一个常见误解是把技能当“markdown文件”。实际上，技能是包含脚本、素材、数据的文件夹——Agent可以发现、探索、操作这些内容。最有意思的技能都在创造性地使用配置选项和目录结构。

九种类型

技能大致分九类。好的技能清晰归属其一，混乱的往往跨越多个类别：

1. 库与API参考

解释如何正确使用内部库、CLI或SDK。包含代码片段库和常见陷阱清单。比如：billing-lib（内部计费库的边界情况和易错点）、frontend-design（让Claude更好地遵循设计系统）。

2. 产品验证

描述如何测试代码是否工作。常与Playwright、tmux等外部工具配合。有价值的做法包括：让Claude录制测试视频，在每步强制状态断言。值得工程师花一周时间打磨验证技能。

3. 数据获取与分析

连接数据和监控栈。包含获取数据的库、凭证、仪表板ID，以及常见查询工作流。例如funnel-query定义了“从注册到激活到付费”需要join哪些事件表。

4. 业务流程与团队自动化

将重复工作流自动化为一条命令。通常较简单，但可能依赖其他技能或MCP。保存之前结果到日志文件，帮助模型保持一致性。如standup-post聚合ticket、GitHub活动和Slack历史，生成格式化的站会更新。

5. 代码脚手架与模板

为特定功能生成框架样板。当脚手架有自然语言需求、无法纯靠代码覆盖时特别有用。

6. 代码质量与审查

强制执行代码质量。可以包含确定性脚本以提高鲁棒性，可能作为hook或GitHub Action自动运行。adversarial-review会生成一个“全新视角”的子Agent来批评代码，实现修复，迭代直到问题降级为吹毛求疵。

7. CI/CD与部署

帮你获取、推送、部署代码。babysit-pr监控PR、重试不稳定的CI、解决合并冲突、启用自动合并。

8. Runbook

接收一个症状（Slack线程、告警、错误签名），执行多工具调查，产出结构化报告。

9. 基础设施运维

执行日常维护和操作流程——有些涉及破坏性操作，需要护栏。比如<resource

制作要点

+ 别说废话

Claude Code已经了解你的代码库，Claude本身也懂编程。如果你的技能主要是知识传递，专注于那些能推Claude脱离默认思维的信息。frontend-design技能就是好例子——它通过与用户迭代，避免Claude总用Inter字体和紫色渐变。

+ 建立Gotchas章节

技能中信号最强的内容。这些章节应该从Claude使用技能时的常见失败点累积而来。你需要持续更新技能来捕获这些坑。

+ 利用文件系统与渐进式披露

技能是文件夹。把整个文件系统当作上下文工程和渐进式披露。告诉Claude技能里有什么文件，它会在合适时机读取。最简单的形式是指向其他markdown文件，比如把详细的函数签名和用例拆到references/api.md。你可以有references、scripts、examples等文件夹。

+ 避免过度引导

Claude会尽量遵循指令。因为技能高度可复用，小心别太具体。给Claude需要的信息，但保留适应情境的灵活性。

+ 考虑设置流程

有些技能需要用户提供上下文。比如发送站会到Slack的技能，可能要问发到哪个频道。好做法是在技能目录下存config.json。如果配置未设置，Agent就问用户。

+ 描述字段是给模型看的

Claude Code启动会话时，会构建所有可用技能的清单及其描述。这个清单是Claude扫描的依据——“有没有适合这个请求的技能？”所以描述字段不是摘要，是触发条件。

+ 记忆与数据存储

有些技能通过在内部存储数据来实现记忆。可以简单到追加日志文件、JSON文件，复杂到SQLite数据库。比如standup-post技能可能保存standups.log，记录每次发的内容，下次运行时Claude读自己的历史，知道昨天以来发生了什么。

技能目录中的数据可能在升级时被删除，应存到稳定文件夹，目前提供${CLAUDE_PLUGIN_DATA}作为每个插件的稳定存储。

+ 存储脚本与生成代码

给Claude代码是最强大的工具之一。给Claude脚本和库，让它把精力花在组合上、决定下一步做什么，而不是重构样板。比如数据科学技能可能有从事件源获取数据的函数库。为了让Claude做复杂分析，给它一组辅助函数。Claude随后即时生成脚本组合这些功能，回答“周二发生了什么？”这类问题。

+ 按需Hook

技能可以包含只在调用时激活、持续整个会话的hook。用于你不想一直运行、但有时极有用的强意见hook。例如/careful通过PreToolUse匹配器阻止rm -rf、DROP TABLE、force-push、kubectl delete。你只在知道要碰生产环境时才需要它——一直开着会逼疯人。

分发技能

共享技能有两种方式：

- 把技能签入repo（./.claude/skills下）

- 做一个plugin，建立Claude Code Plugin市场，用户可以上传和安装

小团队在少数repo间工作，签入repo效果不错。但每个签入的技能都会给模型增加上下文。规模扩大后，内部插件市场允许你分发技能，让团队决定安装哪些。

+ 管理市场

我们没有中心化团队决定；而是有机地发现最有用的技能。如果有技能想让人试用，可以上传到GitHub沙盒文件夹，在Slack等地方给链接。

一旦技能获得关注（由技能所有者决定），他们可以提PR移到市场。

警告：创建糟糕或冗余的技能太容易了，发布前确保有某种策展方法。

+ 组合技能

你可能想让技能互相依赖。比如文件上传技能，CSV生成技能制作CSV后上传。这种依赖管理还没原生内置到市场或技能中，但可以按名称引用其他技能，模型会在安装时调用它们。

+ 测量技能

为了了解技能表现，我们用PreToolUse hook记录公司内部技能使用情况。这样能找到受欢迎的技能，或相对预期触发不足的技能。

技能是强大而灵活的工具，但仍处于早期，大家都在摸索最佳用法。

把这些当作有用提示的集合，不是权威指南。理解技能的最佳方式是开始、实验、看什么有效。我们的大多数技能都始于几行字和一个坑，因为人们在Claude遇到新边界情况时不断添加而变好。
2 days ago

通过测试≠没有bug：AI编程的致命盲区 | 帖子

Claude 4.6写代码会埋下严重bug，自己却审查不出来。必须用Codex 5.4反复审核每次提交4遍以上。“通过测试”不代表没问题——AI太擅长写能通过的测试了。

有观点认为用传统工具——linting、类型检查、测试门槛——就够了。Sterling直接反驳：AI最爱干的就是写能通过测试的测试。这是个盲区。你可以让Claude在全新上下文中反复检查自己的代码，直到它说“没问题了”，然后Codex仍能揪出bug。

“通过测试就没bug”是个疯狂假设。

代码可能运行完美，测试全绿，但藏着一个细微的深层误解，毁掉整个系统的意义，导致灾难性故障。这种错误，传统validator抓不到，单元测试也无能为力，因为模型已经被过度优化成“写通过测试的代码”。

为什么不直接让Codex写代码？Sterling说Codex像个教导主任，过度优化“正确代码”，却错失系统真正目的（telos）。太官僚了。Claude更适合日常驾驶，但需要Codex这个苛刻的审计员盯着。

有开发者开始探索plan-with-codex模式：让Claude做计划，Codex审核，两者循环直到Codex批准——在写代码前就把错误拦住。另有人用多模型代码审查：Opus负责架构逻辑，Codex抓安全漏洞，Kimi K2.5查性能问题，Sonnet 4.6管代码风格。

一个被反复引用的回复：你得让它完全重写代码，从根本上消除那类bug的可能性。否则就是无限循环，让agents猜这个bug是不是“真的”、“重要的”。
2 days ago

Cursor“套娃”风波：Kimi模型背后的三方博弈 | 帖子

Cursor Composer被曝基于Kimi K2.5，引发授权争议。最终确认Cursor通过Fireworks获得合法授权，但转售商机制让原开发者蒙在鼓里。这场乌龙暴露了AI供应链的不透明性。

事情比想象中平淡。Moonshot通过Fireworks提供白标服务，Cursor走的是这条线。协议可能允许隐去基础模型名称，所以Moonshot一开始根本不知道Cursor在用他们的东西。

有观点认为，Moonshot员工最初在社交媒体上的反应可能违反了保密条款，事后才被管理层叫停。也有人怀疑这是事后补救——Cursor被抓包后火速谈妥协议。但Kimi用的是修改版MIT协议，本就允许商用，只是要求披露模型名称。Fireworks作为中间商，或许本就有权剥离这个条款。

中国开源模型处境微妙。Qwen团队遭裁，M2.7转闭源，DeepSeek V4悄然延期。有网友提到，下一代中国模型可能全面闭源。

Cursor声称自己完成了75%的训练，基础模型只占25%算力。这个说法有些站不住脚——如果真有这能力，为什么还要借别人的基础模型？算力从来不是全部，不然谁都能从头训练了。

转售机制本身没问题，但它确实制造了信息不对称。用户以为在用Cursor的独家模型，实际上运行的是Kimi。开发团队可以撇清关系，原模型方毫不知情，平台商稳赚中介费。这套系统精巧得让人不安。
2 days ago

CLAUDE.md不是规则手册，而是路由器 | 帖子

CLAUDE.md文件超过100行后，AI会选择性忽略指令。解决方法不是添加更多规则，而是将执行逻辑从指令转移到基础设施——用自动化钩子（hooks）强制质量检查，用技能文件（skills）按需加载上下文，用campaign文件持久化会话状态。

有人做了个审计，发现自己的CLAUDE.md有40%的冗余内容。规则在不同措辞下重复，甚至自相矛盾。文件从45行膨胀到190行，AI的服从度反而下降了。

问题的根源在于：CLAUDE.md是入口点，不是永久仓库。它应该只包含项目概览、技术栈和最关键的5件事。其他所有东西都该放在AI需要时才加载的地方。

真正改变游戏规则的转变是：把执行逻辑从指令转移到环境中。

比如“编辑文件后总是运行类型检查”这条规则，AI有时遵守，有时忘记。解决方案是用生命周期钩子——每次保存文件自动运行脚本。AI不需要选择是否检查，环境强制执行。错误在引入的那次编辑中就会暴露，而不是20次编辑后才发现。

规则会降级，钩子不会。

这套思路可以推广到所有场景：跨会话的重复指令变成技能文件，编码特定领域的模式和约束；会话上下文丢失用campaign文件解决，记录已完成的工作、做过的决策和剩余任务；质量验证变成自动化钩子，每次编辑时类型检查，会话结束时扫描反模式，连续3次失败后触发熔断器。

有观点认为，CLAUDE.md的变更本质上是软件变更，不是提示词调整。当它影响整个团队时，需要像对待代码一样严格：建立基线、测量效果、逐步推出、支持回滚。

另一个发现是：超过100行的指令开始被当作建议而非规则。有人将文件从150行精简后，合规性立即提升。

进化路径大致是：原始提示词（无持久化）→ CLAUDE.md（规则有帮助但有上限）→ 技能文件（模块化专业知识，按需加载）→ 钩子（环境执行质量）→ 编排（并行agent、持久化campaign）。

一位开发者分享了自己的系统：顶层CLAUDE.md是路由器，将任务类型映射到子目录；每个子目录有自己的作用域CLAUDE.md；可重复的多步骤工作流打包为技能文件；定期任务审计文件行数、冗余和过时内容。

有网友提到了渐进式工具披露的技巧：不为每个功能都构建MCP服务器，而是写HTTP端点，用shell脚本包装，格式化输出给AI。这样可以逐步暴露工具，几分钟就能添加新功能。

成本控制也遵循同样的原理。每次AI超支时添加规则（“不要在这个任务上用Opus”）没用，30条模型选择规则AI照样忽略。真正有效的是代理层，自动根据复杂度路由，带预算强制执行。有人的AI在8分钟内烧掉15美元，添加规则没用，把决策从提示词移到基础设施才解决问题。

一个值得注意的细节：Anthropic官方插件市场有claude-md-management工具，可以审计CLAUDE.md质量，捕获会话学习，已有76000+安装量。

整个讨论的共识是：臃肿的CLAUDE.md是普遍的成人礼。解决方案不是更多规则，而是构建基础设施。

作者开源了完整系统Citadel