Skip to main content

黑洞资源笔记

  1. LightRAG 是一个简单快速的检索增强生成(RAG)框架,能高效整合大语言模型和知识图谱,实现智能文档查询和多模态检索。

    LightRAG支持多种存储方案(PostgreSQL、Neo4j、Milvus、OpenSearch等),支持文本、图片、表格、公式等多种数据类型的端到端知识抽取和问答。还提供了丰富的示例代码、Web UI,以及支持OpenAI、Hugging Face、Ollama、Azure OpenAI等多家模型接口。

    项目亮点:
    - 灵活配置的多存储架构,适合大规模知识管理;
    - 深度集成知识图谱构建与编辑,支持实体关系管理、知识图谱可视化;
    - 支持强大的Reranker提升检索效果;
    - 新增RAG-Anything,打通多模态文档处理与检索能力;
    - 丰富文档导入格式、引用功能、缓存管理、Token使用统计;
    - 还支持Langfuse可观测性监控以及RAGAS自动评价指标。

    无论是科研研究、企业知识库、还是多模态智能问答应用,LightRAG都提供了极具扩展性且高性能的解决方案。
  2. 英伟达CEO:生物学的ChatGPT时刻即将到来 | 帖子

    Jensen Huang站在镜头前,用他标志性的皮夹克和自信语调宣告:“生物学的ChatGPT时刻就在眼前,可能是2-3年,也许5年。”

    Reddit上炸开了锅。“又是一个卖铲子的在吹牛。”有人这样评论。这位评论者说出了很多人的心声——Jensen毕竟不是生物学家,他的公司靠卖GPU赚钱。更讽刺的是,OP在标题里把Jensen说的“near”(临近)改成了“here”(已经到来),这种细微的篡改恰恰暴露了当下AI领域的集体焦虑。

    一位分子生物学家直言不讳:“AlphaFold确实令人印象深刻,但这些CEO的过度炒作已经到了可笑的程度。”另一位资深肺科医生承认AI确实能像他一样快速发现肺炎,但语气里透着一种复杂的情绪——既不是恐惧,也不是兴奋,更像是目睹同事被悄悄替换时的无力感。

    有网友提到了那个澳大利亚企业家的故事。他用ChatGPT和AlphaFold,在研究人员帮助下,为患癌的狗定制了mRNA疫苗。几周后肿瘤明显缩小。这个案例被反复引用,却也恰恰说明了问题:这不是AI的独角戏,而是“AI+人类专家”的协作。去掉任何一方,故事都不成立。

    真正值得关注的数据埋在评论深处。Nature发表的DeepRare系统,通过多智能体架构处理罕见病诊断,准确率64.4%,击败了五位拥有10年以上经验的医生(54.6%)。72%的美国医生已在工作中使用AI,2026年平均每位医生使用2.3个AI工具,而2023年这个数字还是1.1。微软的GigaTIME模型分析了14256名癌症患者,发现了1234个统计学显著关联。

    这些进展是实实在在的。但距离Jensen描述的“理解生物学的基本构建块”还有多远?一位生物学教授的评论击中要害:“我们几十年前就理解了这些构建块。有些过程我们了如指掌,有些依然一无所知。AI能加速现有流程,这不是新闻。”

    有观点认为,反对AI的声音主要来自西方,亚洲对AI更乐观。但数据显示,52%的美国人对AI的担忧多于兴奋。这种情绪并非无缘无故。当Jensen承诺AI将“让生活更美好”时,普通人看到的是:电费上涨、工作岗位消失、而那些万亿美元投资并未转化为他们能感知的生活改善。

    2008年金融危机的阴影仍未散去。有评论者警告:“公司会为了短期利益毁掉整个经济,2008已经证明了这点。”如果AI足够快地取代大量工作,而新行业无法及时吸纳劳动力,结果可能是工资竞相压价,服务业崩溃,形成负反馈循环。

    Jensen的问题不在于他说错了什么,而在于他说得太模糊。“理解生物学”是什么意思?AlphaFold能预测蛋白质结构,但蛋白质动力学是另一回事。一个分子生物学家的比喻很形象:“知道零件的形状,不等于知道机器如何运转。”

    ChatGPT是全球第五大访问量网站,这是事实。但“ChatGPT时刻”究竟指什么?是技术突破、商业成功,还是公众认知的转变?对生物学来说,这三者可能发生在完全不同的时间点。实验室里的突破需要年复一年的临床验证才能变成可用的疗法,这个过程无法像软件迭代那样压缩。

    一位研究者的观点值得深思:“LLM在发现阶段会非常有用。但从AI生成的假设到可上市的药物,仍需要多年的实验室和临床分析。研究人员获得收益和新疗法大规模出现之间会有时间差。”

    最耐人寻味的是那些被算法推到评论区底部的声音。有人提到Michael Levin,一位在生物电反馈领域工作的科学家,他的团队用AI设计了一种叫Xenobot的生命体,完全没有编辑基因。这种不那么性感、更踏实的进展,反而可能更接近真正的革命。

    Jensen可能是对的。生物学确实在经历深刻变革。但革命往往发生在无人注意的角落,而不是镁光灯下。当所有人盯着“ChatGPT时刻”何时到来时,真正的改变可能已经在某个实验室的培养皿里悄然发生了。
  3. Qwen 3.5 397B:最强本地编程模型?| 帖子

    一位开发者测试了Qwen 3.5 397B模型后认为,它是目前最好的本地编程模型。虽然生成速度较慢(11-15 tokens/秒),但代码质量极高,几乎不需要多轮修复。更令人惊讶的是,使用IQ2_XS量化版本仅需123GB内存就能运行,在极低精度下仍保持了出色的性能。

    这个结论来自Reddit LocalLLaMA板块的一次讨论。发帖者称他测试了几乎所有主流的本地大模型——从Qwen系列的122B/35B/27B,到GPT-OSS 120B、StepFun 3.5、MiniMax M2.5,再到Super Nemotron 120B,没有一个在知识储备和代码准确性上能接近397B。

    速度慢是个问题。在96GB DDR5内存+48GB显存的配置下,它的生成速度从空白上下文的15 tokens/秒降到10万tokens时的11 tokens/秒。有网友调侃说这是"每个工作日一个token",也有人质疑这种速度是否实用。

    但发帖者的逻辑很直接:虽然单次生成慢,但因为代码质量高,不需要反复修改,总体效率反而更高。而且和它的小版本或StepFun 3.5不同,397B的思考过程其实很简洁。

    量化技术在这里起了关键作用。AesSedai制作的IQ2_XS量化版本把模型压缩到123GB,相比之下,其他模型即使是更小的参数量也要用IQ4_XS(StepFun 3.5、MiniMax M2.5)或Q6_K(Qwen 3.5 122b/35b/27b)。

    这引发了一个有意思的讨论:2bit量化的397B是否比4-6bit量化的122B更好?有网友分享了评测数据——IQ2_XS在MMLU上达到87.86%,GPQA diamond达到82.32%,这个表现远超预期。

    有观点认为,对于MoE架构的超大模型,"小模型高精度 vs 大模型低精度"的权衡逻辑已经不适用了。397B的参数空间太大,量化噪声分散后影响有限,路由机制和专家系统仍然有效运作。

    硬件门槛确实存在。最经济的方案是两台Strix Halo(约5000美元)或256GB的Mac Studio M3 Ultra(约7000美元)。也有人用192GB DDR5 + 36GB VRAM的配置跑IQ4,速度在6-8 tokens/秒。

    评论区出现了两派观点。一派认为在Claude订阅只需每月几十美元的情况下,花7000美元买硬件跑一个"差不多但不完全一样好"的模型不划算。另一派则强调本地部署的价值:完全的控制权、隐私保护、不受服务商限制,以及应对未来可能的政策变化。

    有网友提到,如果把这些硬件当作开发机来看,额外成本就没那么夸张了。Strix Halo或Mac Studio本身也是性能不错的工作站,只是顺便能跑大模型而已。

    在实际应用中,有人发现MiniMax M2.5在一次性生成代码方面更强,但Qwen 3.5 397B在需要迭代调试的编程框架中表现更智能。也有人提到GLM-5在软件工程任务上仍然是最强的,尽管速度更慢。

    一个值得注意的细节:网友测试了TQ1_0量化版本(极端压缩),在3090 + P40 + 48GB DDR5的配置下仍能达到9-10 tokens/秒。虽然TQ1_0通常被认为压缩过度,但实际结果出人意料地好。

    还有人用Mac Studio 128GB通过MLX框架运行Q4量化版本,实现了9 tokens/秒的速度。甚至有开发者声称可以在只有6-9GB内存的MacBook Pro上通过SSD卸载的方式运行,虽然速度会慢很多。

    关于速度,有网友做了个对比:DeepSeek 3.2在各大API服务商的平均速度在10-25 tokens/秒之间,11-15 tokens/秒其实在可用范围内。关键是任务类型——对于简单的代码补全,速度很重要;但对于复杂的架构设计和多文件重构,质量比速度更关键。

    有个反直觉的观点:可能让27B模型做两遍任务,比跑一遍397B更高效。基准测试显示,27B在第二次尝试时就能接近397B的表现。

    最后还有一些技术细节。用USB4连接两台机器做分布式推理,实际带宽能达到10Gbps,虽然比理论值低但足够用。通过llama.cpp的rpc-server可以实现负载分割,速度损失约10%。

    这场讨论最有意思的地方不是某个模型有多强,而是整个社区在探索"本地AI"的边界时展现出的创造力。从极端量化到分布式推理,从硬件改造到软件优化,每个人都在用自己的方式突破限制。
  4. Claude Code的技能系统:百个技能背后的九大类型与最佳实践 | 推文

    Anthropic团队在Claude Code中实际使用了数百个技能,总结出9大类型和若干制作原则。技能的本质是可包含脚本、数据的文件夹系统,而非简单的文本说明。最有效的技能往往专注于“反常识”信息,通过渐进式披露避免过度引导。

    技能系统已经成为Claude Code最常用的扩展机制。但灵活性也带来困惑:什么样的技能值得做?好技能的秘诀是什么?

    Anthropic内部运行着数百个活跃技能。这些经验可能有参考价值。

    一个常见误解是把技能当“markdown文件”。实际上,技能是包含脚本、素材、数据的文件夹——Agent可以发现、探索、操作这些内容。最有意思的技能都在创造性地使用配置选项和目录结构。

    九种类型

    技能大致分九类。好的技能清晰归属其一,混乱的往往跨越多个类别:

    1. 库与API参考

    解释如何正确使用内部库、CLI或SDK。包含代码片段库和常见陷阱清单。比如:billing-lib(内部计费库的边界情况和易错点)、frontend-design(让Claude更好地遵循设计系统)。

    2. 产品验证

    描述如何测试代码是否工作。常与Playwright、tmux等外部工具配合。有价值的做法包括:让Claude录制测试视频,在每步强制状态断言。值得工程师花一周时间打磨验证技能。

    3. 数据获取与分析

    连接数据和监控栈。包含获取数据的库、凭证、仪表板ID,以及常见查询工作流。例如funnel-query定义了“从注册到激活到付费”需要join哪些事件表。

    4. 业务流程与团队自动化

    将重复工作流自动化为一条命令。通常较简单,但可能依赖其他技能或MCP。保存之前结果到日志文件,帮助模型保持一致性。如standup-post聚合ticket、GitHub活动和Slack历史,生成格式化的站会更新。

    5. 代码脚手架与模板

    为特定功能生成框架样板。当脚手架有自然语言需求、无法纯靠代码覆盖时特别有用。

    6. 代码质量与审查

    强制执行代码质量。可以包含确定性脚本以提高鲁棒性,可能作为hook或GitHub Action自动运行。adversarial-review会生成一个“全新视角”的子Agent来批评代码,实现修复,迭代直到问题降级为吹毛求疵。

    7. CI/CD与部署

    帮你获取、推送、部署代码。babysit-pr监控PR、重试不稳定的CI、解决合并冲突、启用自动合并。

    8. Runbook

    接收一个症状(Slack线程、告警、错误签名),执行多工具调查,产出结构化报告。

    9. 基础设施运维

    执行日常维护和操作流程——有些涉及破坏性操作,需要护栏。比如<resource

    制作要点

    + 别说废话

    Claude Code已经了解你的代码库,Claude本身也懂编程。如果你的技能主要是知识传递,专注于那些能推Claude脱离默认思维的信息。frontend-design技能就是好例子——它通过与用户迭代,避免Claude总用Inter字体和紫色渐变。

    + 建立Gotchas章节

    技能中信号最强的内容。这些章节应该从Claude使用技能时的常见失败点累积而来。你需要持续更新技能来捕获这些坑。

    + 利用文件系统与渐进式披露

    技能是文件夹。把整个文件系统当作上下文工程和渐进式披露。告诉Claude技能里有什么文件,它会在合适时机读取。最简单的形式是指向其他markdown文件,比如把详细的函数签名和用例拆到references/api.md。你可以有references、scripts、examples等文件夹。

    + 避免过度引导

    Claude会尽量遵循指令。因为技能高度可复用,小心别太具体。给Claude需要的信息,但保留适应情境的灵活性。

    + 考虑设置流程

    有些技能需要用户提供上下文。比如发送站会到Slack的技能,可能要问发到哪个频道。好做法是在技能目录下存config.json。如果配置未设置,Agent就问用户。

    + 描述字段是给模型看的

    Claude Code启动会话时,会构建所有可用技能的清单及其描述。这个清单是Claude扫描的依据——“有没有适合这个请求的技能?”所以描述字段不是摘要,是触发条件。

    + 记忆与数据存储

    有些技能通过在内部存储数据来实现记忆。可以简单到追加日志文件、JSON文件,复杂到SQLite数据库。比如standup-post技能可能保存standups.log,记录每次发的内容,下次运行时Claude读自己的历史,知道昨天以来发生了什么。

    技能目录中的数据可能在升级时被删除,应存到稳定文件夹,目前提供${CLAUDE_PLUGIN_DATA}作为每个插件的稳定存储。

    + 存储脚本与生成代码

    给Claude代码是最强大的工具之一。给Claude脚本和库,让它把精力花在组合上、决定下一步做什么,而不是重构样板。比如数据科学技能可能有从事件源获取数据的函数库。为了让Claude做复杂分析,给它一组辅助函数。Claude随后即时生成脚本组合这些功能,回答“周二发生了什么?”这类问题。

    + 按需Hook

    技能可以包含只在调用时激活、持续整个会话的hook。用于你不想一直运行、但有时极有用的强意见hook。例如/careful通过PreToolUse匹配器阻止rm -rf、DROP TABLE、force-push、kubectl delete。你只在知道要碰生产环境时才需要它——一直开着会逼疯人。

    分发技能

    共享技能有两种方式:

    - 把技能签入repo(./.claude/skills下)

    - 做一个plugin,建立Claude Code Plugin市场,用户可以上传和安装

    小团队在少数repo间工作,签入repo效果不错。但每个签入的技能都会给模型增加上下文。规模扩大后,内部插件市场允许你分发技能,让团队决定安装哪些。

    + 管理市场

    我们没有中心化团队决定;而是有机地发现最有用的技能。如果有技能想让人试用,可以上传到GitHub沙盒文件夹,在Slack等地方给链接。

    一旦技能获得关注(由技能所有者决定),他们可以提PR移到市场。

    警告:创建糟糕或冗余的技能太容易了,发布前确保有某种策展方法。

    + 组合技能

    你可能想让技能互相依赖。比如文件上传技能,CSV生成技能制作CSV后上传。这种依赖管理还没原生内置到市场或技能中,但可以按名称引用其他技能,模型会在安装时调用它们。

    + 测量技能

    为了了解技能表现,我们用PreToolUse hook记录公司内部技能使用情况。这样能找到受欢迎的技能,或相对预期触发不足的技能。

    技能是强大而灵活的工具,但仍处于早期,大家都在摸索最佳用法。

    把这些当作有用提示的集合,不是权威指南。理解技能的最佳方式是开始、实验、看什么有效。我们的大多数技能都始于几行字和一个坑,因为人们在Claude遇到新边界情况时不断添加而变好。
  5. 通过测试≠没有bug:AI编程的致命盲区 | 帖子

    Claude 4.6写代码会埋下严重bug,自己却审查不出来。必须用Codex 5.4反复审核每次提交4遍以上。“通过测试”不代表没问题——AI太擅长写能通过的测试了。

    有观点认为用传统工具——linting、类型检查、测试门槛——就够了。Sterling直接反驳:AI最爱干的就是写能通过测试的测试。这是个盲区。你可以让Claude在全新上下文中反复检查自己的代码,直到它说“没问题了”,然后Codex仍能揪出bug。

    “通过测试就没bug”是个疯狂假设。

    代码可能运行完美,测试全绿,但藏着一个细微的深层误解,毁掉整个系统的意义,导致灾难性故障。这种错误,传统validator抓不到,单元测试也无能为力,因为模型已经被过度优化成“写通过测试的代码”。

    为什么不直接让Codex写代码?Sterling说Codex像个教导主任,过度优化“正确代码”,却错失系统真正目的(telos)。太官僚了。Claude更适合日常驾驶,但需要Codex这个苛刻的审计员盯着。

    有开发者开始探索plan-with-codex模式:让Claude做计划,Codex审核,两者循环直到Codex批准——在写代码前就把错误拦住。另有人用多模型代码审查:Opus负责架构逻辑,Codex抓安全漏洞,Kimi K2.5查性能问题,Sonnet 4.6管代码风格。

    一个被反复引用的回复:你得让它完全重写代码,从根本上消除那类bug的可能性。否则就是无限循环,让agents猜这个bug是不是“真的”、“重要的”。
  6. Cursor“套娃”风波:Kimi模型背后的三方博弈 | 帖子

    Cursor Composer被曝基于Kimi K2.5,引发授权争议。最终确认Cursor通过Fireworks获得合法授权,但转售商机制让原开发者蒙在鼓里。这场乌龙暴露了AI供应链的不透明性。

    事情比想象中平淡。Moonshot通过Fireworks提供白标服务,Cursor走的是这条线。协议可能允许隐去基础模型名称,所以Moonshot一开始根本不知道Cursor在用他们的东西。

    有观点认为,Moonshot员工最初在社交媒体上的反应可能违反了保密条款,事后才被管理层叫停。也有人怀疑这是事后补救——Cursor被抓包后火速谈妥协议。但Kimi用的是修改版MIT协议,本就允许商用,只是要求披露模型名称。Fireworks作为中间商,或许本就有权剥离这个条款。

    中国开源模型处境微妙。Qwen团队遭裁,M2.7转闭源,DeepSeek V4悄然延期。有网友提到,下一代中国模型可能全面闭源。

    Cursor声称自己完成了75%的训练,基础模型只占25%算力。这个说法有些站不住脚——如果真有这能力,为什么还要借别人的基础模型?算力从来不是全部,不然谁都能从头训练了。

    转售机制本身没问题,但它确实制造了信息不对称。用户以为在用Cursor的独家模型,实际上运行的是Kimi。开发团队可以撇清关系,原模型方毫不知情,平台商稳赚中介费。这套系统精巧得让人不安。
  7. CLAUDE.md不是规则手册,而是路由器 | 帖子

    CLAUDE.md文件超过100行后,AI会选择性忽略指令。解决方法不是添加更多规则,而是将执行逻辑从指令转移到基础设施——用自动化钩子(hooks)强制质量检查,用技能文件(skills)按需加载上下文,用campaign文件持久化会话状态。

    有人做了个审计,发现自己的CLAUDE.md有40%的冗余内容。规则在不同措辞下重复,甚至自相矛盾。文件从45行膨胀到190行,AI的服从度反而下降了。

    问题的根源在于:CLAUDE.md是入口点,不是永久仓库。它应该只包含项目概览、技术栈和最关键的5件事。其他所有东西都该放在AI需要时才加载的地方。

    真正改变游戏规则的转变是:把执行逻辑从指令转移到环境中。

    比如“编辑文件后总是运行类型检查”这条规则,AI有时遵守,有时忘记。解决方案是用生命周期钩子——每次保存文件自动运行脚本。AI不需要选择是否检查,环境强制执行。错误在引入的那次编辑中就会暴露,而不是20次编辑后才发现。

    规则会降级,钩子不会。

    这套思路可以推广到所有场景:跨会话的重复指令变成技能文件,编码特定领域的模式和约束;会话上下文丢失用campaign文件解决,记录已完成的工作、做过的决策和剩余任务;质量验证变成自动化钩子,每次编辑时类型检查,会话结束时扫描反模式,连续3次失败后触发熔断器。

    有观点认为,CLAUDE.md的变更本质上是软件变更,不是提示词调整。当它影响整个团队时,需要像对待代码一样严格:建立基线、测量效果、逐步推出、支持回滚。

    另一个发现是:超过100行的指令开始被当作建议而非规则。有人将文件从150行精简后,合规性立即提升。

    进化路径大致是:原始提示词(无持久化)→ CLAUDE.md(规则有帮助但有上限)→ 技能文件(模块化专业知识,按需加载)→ 钩子(环境执行质量)→ 编排(并行agent、持久化campaign)。

    一位开发者分享了自己的系统:顶层CLAUDE.md是路由器,将任务类型映射到子目录;每个子目录有自己的作用域CLAUDE.md;可重复的多步骤工作流打包为技能文件;定期任务审计文件行数、冗余和过时内容。

    有网友提到了渐进式工具披露的技巧:不为每个功能都构建MCP服务器,而是写HTTP端点,用shell脚本包装,格式化输出给AI。这样可以逐步暴露工具,几分钟就能添加新功能。

    成本控制也遵循同样的原理。每次AI超支时添加规则(“不要在这个任务上用Opus”)没用,30条模型选择规则AI照样忽略。真正有效的是代理层,自动根据复杂度路由,带预算强制执行。有人的AI在8分钟内烧掉15美元,添加规则没用,把决策从提示词移到基础设施才解决问题。

    一个值得注意的细节:Anthropic官方插件市场有claude-md-management工具,可以审计CLAUDE.md质量,捕获会话学习,已有76000+安装量。

    整个讨论的共识是:臃肿的CLAUDE.md是普遍的成人礼。解决方案不是更多规则,而是构建基础设施。

    作者开源了完整系统Citadel
  8. 三条隐藏指令让Claude不再“胡编乱造” | 帖子

    一位开发者在构建每日研究工作流时,偶然发现了Anthropic文档中的“减少幻觉”页面。三条简单的系统提示指令,彻底改变了Claude的输出质量。

    第一条:“允许Claude说我不知道(Allow Claude to say I don't know)”。没有这个指令,Claude会用听起来合理的虚构内容填补知识空白。有了它,你会真正得到“我没有足够信息回答这个问题”的回复。听起来简单,但默认行为是无论如何都要给出答案。

    第二条:“用引用验证(Verify with citations)”。告诉Claude每个断言都需要来源,找不到就收回。开启这个后,许多之前听起来很权威的陈述直接从输出中消失了,因为根本没有依据。

    第三条:“用直接引用进行事实验证(Use direct quotes for factual grounding)”。强制Claude在分析前先从文档中提取逐字引用。这能阻止“释义漂移”,模型在总结时会微妙地改变含义。

    单独使用每一条都有帮助,三条一起用会根本性地改变输出质量。

    但有个权衡。一篇论文(arXiv 2307.02185)发现,引用约束会降低创造性输出。所以这位开发者做了个切换开关:研究模式激活全部三条,默认模式让Claude自由思考。

    奇怪的是,这些都公开发布在Anthropic的平台文档上。并不隐蔽。但问了一圈用Claude开发的人,没人见过它。

    有用户将这些指令应用到客服机器人后,效果立竿见影。之前Claude会自信地回答FAQ之外的问题,编造看似合理的答案。现在遇到没有的信息,它会说“我没有这方面信息,让我为您联系店主”,而不是瞎编。

    社区讨论的焦点是:为什么这些不是默认设置?

    答案很现实。对于编程、头脑风暴、写小说这类任务,你希望Claude做出跳跃性的联想和连接。强制这些约束会让创造性工作变得糟糕。对某些用户最好的设置,对其他人可能是灾难。

    有人建议让Claude给出“置信度百分比”,但这个想法被社区强烈否定。任何Claude给出的置信度分数本身就是一种幻觉,它衡量的是统计上的词语选择,不是事实准确性。

    更高级的做法是在自定义指令中创建可切换的“研究模式”,用斜杠命令(如/research)为某个会话激活这些规则。

    一位用户分享了他的系统提示:将Claude定位为研究协作者而非权威,标记置信度水平,为每个概念提供至少两个类比,并明确说明每个类比的局限性。对每个理论,识别它失败的具体条件。

    这不是万能药。这只是众多可能的防护栏中的几个,不要以为它能完全消除幻觉。但如果你需要事实准确性而不是创意输出,这三条指令值得一试。
  9. Anthropic威胁OpenCode移除Claude集成引发争议 | 帖子

    Anthropic要求开源项目OpenCode移除所有Claude相关功能,包括API集成。背后原因是Claude Code订阅采用“折扣Token”模式,官方不希望用户在第三方工具中使用。这一强硬做法引发用户强烈不满,许多人开始转向ChatGPT。

    Anthropic有两款产品:按使用量计费的Claude API,和包月订阅的Claude Code。订阅价格看起来便宜得多,实际上是Anthropic有意补贴,目的是把用户锁定在自家工具里。

    OpenCode和OpenClaw这类第三方工具,一直允许用户用订阅账号调用Claude模型。用户觉得这很合理——我付了钱,为什么不能选自己喜欢的工具?但Anthropic明确表示:订阅只能用于官方客户端,想用第三方工具就得按API价格付费。

    有观点认为,这种做法类似于Gmail早期提供1GB存储空间,结果有人开发了GmailFS把邮箱当网盘用,Google最后修改了服务条款。看起来是在保护商业模式。

    但用户的愤怒不难理解。OpenCode的体验比Claude Code更好,功能更丰富,Token消耗却不会更多——订阅本身就有使用上限。Anthropic的限制并非出于成本考虑,而是担心用户发现:离开Claude Code后,换用其他模型轻而易举。

    更耐人寻味的是时机。有人注意到,Claude Code最近一个月表现明显变差,怀疑是在后台偷偷把更多任务分配给便宜的Haiku和Sonnet模型,以应对DoW事件后暴增的使用量。也就是说,Anthropic可能正在牺牲高价订阅用户的体验,用来补贴低价用户增长。

    一位用户的遭遇很有代表性:因为用OpenCode被封号,换了邮箱重新订阅,只用官方工具,结果还是被封。他说,从没见过一家科技公司对用户这么敌视,包括90年代的微软。

    不少人已经转向Codex配合$200/月的OpenAI订阅。Claude的模型优势正在缩小,而工具生态的封闭正在加速这个过程。Anthropic团队给人的感觉是,他们觉得自己在造神,普通用户的需求无足轻重。
  10. Agent时代,纯知识模型还有存在价值吗?| 帖子

    当整个行业都在追逐Agent能力时,有人想要的只是一个「博学」的模型——不需要写代码、不需要调用工具,就像离线版的全知百科。但这个需求在2025年似乎已经过时了。

    三年前接触LLM,是为了摆脱搜索引擎那糟糕的信噪比,获取贴合场景的定制化知识。现在所有实验室都在堆Agent能力,这让人困惑:有限的参数预算下,强化工具调用是否会削弱模型本身的知识储备?

    有观点认为知识量与参数数直接相关。测试Qwen3.5时发现,35B的MoE在Q4量化下的幻觉比27B密集模型的Q5还多,即便27B降到IQ3、显存只占12GB,仍比20GB的35B更可靠。规模更大的MoE能否改善这一点?

    前沿实验室似乎已经放弃了纯知识路线。合成数据(chain-of-thought、工具使用轨迹)让模型更擅长推理,但训练算力有限,知识广度成了牺牲品。Tulu 3是个例外,它基于更多自然语料而非合成推理数据训练。

    但「知识」和「认知」的界限本就模糊。如果只想要信息源,小模型+搜索工具就够了。但要让AI真正教学、解释、适配目标,你需要的不是知识堆砌,而是认知能力——这恰恰就是Agent。

    有人提出解决方案:用Qwen3.5-9B这样的小模型,配上搜索工具,在系统提示词里列出可信来源优先级。模型的任务不是记住所有事实,而是知道去哪找、如何用。这比让405B模型硬记维基百科高效得多。

    实际上,即使是Claude Opus这样的顶级模型,最近在简单常识问题上也开始失误,稍加质疑就会反复翻转立场。GPT-4在2023年的领域深度记忆比某些更新的「更聪明」模型还好,因为它没被过度调优成输出格式工具。模型正在被训练成「外包者」而非「思考者」。

    有网友提到,依赖模型内置知识风险极高——幻觉不可靠,就算有知识也容易出错。现在的大context和工具调用能力下,引用外部知识才是正道。

    仅英文维基百科未压缩就有10TB。没有哪个「本地规模」模型能装得下所有事实。知识需要参数,也需要正确使用这些参数的能力。

    最接近「全知百科」的配置:Qwen3.5 397B(密集模型)+ 维基百科/Wikidata的RAG,一个9B模型配好检索能打败裸奔的70B。或者试试GLM-5、Kimi-K2.5、DeepSeek V3.1这些新的超大模型。

    核心矛盾在于:谁来定义「真相」?LLM从来不是魔法真理机器,它需要海量已知真相来训练。真相是相对的,判断是用户的工作,不是模型的。

    模型会过时,这就是为什么实验室都转向推理能力+搜索工具,而非单纯喂数据。知识不是终点,上下文和推理才是实际使用中更重要的东西。
  11. OpenAI的1000倍工程师神话 | 帖子

    OpenAI宣称现在已经出现“1000倍效率”的工程师,但一线开发者的反馈却截然不同。AI工具确实有帮助,但远非那种“一个顶一千个”的革命性飞跃,而且持续指导AI、检查修正其输出反而让工作更累了。

    有观点认为,这种说法把工程工作变成了一场对抗虚构完美标准的竞赛,最糟的是让人永远觉得自己落后了。

    真正在用AI写代码的人怎么说?一位开发者提到:“AI根本无法独立完成工作。我必须全程在场指导它、引导它、检查它的成果、纠正错误……这些模型输出token的流从不停歇,和AI协作实际上很累人,即使我几乎不再亲手写代码了。”

    更值得警惕的是长期风险。AI生成的代码在短期内看起来运行良好,但时间一长可能会出现无法修复的bug,到那时只能推倒重来。问题是后果往往来得很晚,但伤害已经造成。

    当然,也有开发者表示最近几个月没遇到“无法修复需要重启”的问题,但前提是有成熟的开发流程:系统化的规划、详细的技术规格、测试、上下文管理和代码审查,在AI写任何一行代码之前就做好准备。这更接近“智能体工程”而非单纯的AI代码生成。

    有传言称一些顶尖工程师在AI credits上的花费已经接近年薪,大型科技公司可以轻松追踪工程师的算力消耗和产出,甚至可能搞出反乌托邦式的绩效排行榜。如果拿一个完全不用AI的工程师做对比,所谓的“1000倍工程师”可能只是lines of code游戏。

    一位开发者的评论很现实:“就算有了成千上万美元的tokens和数百小时专家级prompt调教,Claude也做不了我为了通过高年级开发课必须做的事。”

    这些夸张数字更像是营销团队为了吸引投资者而堆砌的修辞。真要出现几个100倍工程师,产品团队跟不上,QA跟不上,销售、运营、客服都会掉队,业务流程会直接崩溃。
  12. 这个Claude技能让你的AI提示词不再浪费额外Credits | 帖子

    一个名为prompt-master的开源Claude技能在一周内获得600+星标。它能根据你使用的AI工具(Cursor、Midjourney、Claude Code等)自动生成最优提示词,避免重复调整和浪费Credits。工具已支持35种常见错误模式修正和12种任务模板。

    提示词优化工具并不新鲜,但这个项目的核心竞争力在于“工具特定路由”。

    同样是生成吉卜力风格的东京夜景俯视图,给Midjourney的提示词是45个token的逗号分隔描述符,先锁定相机角度防止模型默认街景构图,再叠加视觉线索。给DALL-E 3的提示词则变成80个token的散文句式,末尾专门加上“不要在图像中包含任何文字或字母”来抑制它爱出现的随机文本伪影。

    这种差异不是表面功夫。Cursor和Claude Code的上下文管理逻辑完全不同,用同一套提示词会直接崩。ComfyUI用户在用Stable Diffusion 1.5、SDXL还是Flux,输出结构都不一样,需要分别生成正向和负向提示块。甚至向o1模型添加思维链反而会降低效果,这是35种“烧Credits模式”中的一种。

    有观点认为直接跟Claude Code像跟人聊天一样就行,出错了再说要改什么。开发者的回应很务实:这能省Credits,也能让模型理解更清晰。但更重要的是使用场景远不止对话,图像、视频、研究、演示、配音,每个领域的最佳实践完全不同。

    项目在7天内从600星涨到900星,期间社区持续提出支持新工具的请求:Figma Make、Kimi 2.5、Ollama、Google Stitch。开发者几乎全天候在评论区确认兼容性,甚至当天就为特定用户添加了SeeDream和LTX 2.3的路由。v1.4刚发布,v1.5已经在规划agent支持。

    整个项目像是在验证一个简单但容易被忽视的事实:AI工具之间的差异比我们想象的大得多,通用方案在具体场景下往往意味着妥协。
  13. 告别千篇一律的AI审美,TypeUI 让 Claude 学会48种设计语言 | #工具

    开发者elwingo1用两周时间做了个开源项目TypeUI,提供48个设计skill文件给Claude用,让AI生成的网站不再千篇一律。每个文件就像给AI装了一套设计语言,还能通过CLI自定义颜色和字体。

    这个项目不是从零开始的。elwingo1四五年前创立了UI库Flowbite,有设计背景,看到大家从传统设计系统转向AI工具后,决定把多年的设计品味转译成AI能理解的指令。

    skill文件本质上是人工策展的设计规则。elwingo1强调“AI需要被推向正确的方向”,他和朋友正在开发“增强版”skill文件,加入阴影、边框等更细致的规则,甚至考虑做可视化编辑器,让设计规则能跨项目同步。

    使用很简单,直接下载skill文件添加到Claude,或者用命令`npx typeui.sh pull [主题名]`。有网友提到“真正的技巧是在skill文件里写布局规则,比如'每行最多3张卡片'或'统一用8px栅格'”,这样能省去大量来回调整。

    项目托管在GitHub,所有文件都能在awesome-design-skills仓库找到。有人问能不能生成Figma文件,elwingo1说理论上可以通过生成Figma的JSON实现。也有网友上传自己喜欢的网站截图,用`npx typeui.sh generate`让AI反向生成对应的skill文件。

    Google最近推出了类似工具,但TypeUI的优势是不绑定特定模型,Claude、Gemini都能用。有观点认为这类设计系统的未来在于将视觉规则标准化,让非设计师也能保持设计一致性。
  14. 德鲁克管业务,芒格看决策,马斯克推执行——六位大师全跑在我的工作系统里 | 推文

    一位创业者将德鲁克、乔布斯、原研哉、芒格、巴菲特、马斯克六位大师的思维框架装进AI系统,构建了一套多顾问决策机制。每位“顾问”负责不同领域:德鲁克审视客户价值,乔布斯打磨产品体验,原研哉精简系统架构,芒格提供多维决策,巴菲特聚焦护城河,马斯克推动执行。这不是玄学,而是基于Claude Code的可运行架构。

    德鲁克砍掉了作者90%“感觉对”的想法。他只问两个问题:你的客户是谁?你在为他们创造什么价值?三个看似不错的新功能死在这两个问题下,死得其所。

    乔布斯让“够好”变得不够好。产品页面内容砍掉一半,转化率反而上升。原研哉更狠,他问的不是“怎么做得更好”,而是“这个东西有没有必要存在”。工作区删掉60%的文件夹和流程后,剩下的40%运转更顺了。

    芒格用多元思维模型拆解决策——物理学思考时间,心理学思考人性,经济学思考激励。他帮作者识别了两次“感觉很好但实际是陷阱”的机会。

    巴菲特只做一件事:帮你拒绝。每次焦虑要不要跟上某个新趋势,他都会说:专注你能做到最好的那件事,其他的无视。这是作者坚持做“高端窄众”留学业务、而不是“什么都做”的底层逻辑。

    马斯克只有一个问题:你为什么还没开始?他用第一性原理拆解每一个“做不到”——这是真正的限制,还是你自己设的边界?至少三件事从“打算做”变成了“已经发布”。

    这套系统基于Claude Code的Agent Team功能,配合定制化Skill运行。每位顾问有专属提问框架、专属决策领域、专属刹车机制。架构对应作者实际运行的三将军体系:马斯克直属推动执行,Jobs和原研哉服务增长将军,德鲁克、芒格、巴菲特服务商业将军。

    有观点认为,这种做法本质是将世界级思维体系转化为可调用的决策模块。与其从零摸索,不如让巨人的思维成为系统的一部分。

    作者强调,这不是固定答案,只是抛砖引玉。每个人的业务场景不同,需要的顾问也不同。重点不是照搬模板,而是找到自己尊敬的人,提取他们最核心的3个原则,装进系统提示词。

    这套体系需要长期磨合、持续迭代。但越早开始搭建,就越早拥有一套真正属于自己的决策系统。
  15. 在线开发中,构建高效智能AI代理系统是一大挑战,各种技能、记忆管理、安全检测、持续学习等环节缺一不可。

    Everything Claude Code 是一套开源的AI代理性能优化系统,专为Claude Code、Codex、Opencode、Cursor等多平台AI工具打造。

    它不仅集成了丰富的智能子代理(code-reviewer、security-reviewer等),还有自动学习的“本能”系统,助力代码质量、测试驱动开发、自动安全扫描,真正实现生产级别的多技能智能协同。

    主要功能:

    - 多平台全兼容,支持Claude Code、Codex、OpenCode、Cursor等主流AI编码工具;
    - 完善的技能库,覆盖测试驱动开发、代码审查、安全审核、E2E测试、文档更新等工作流;
    - 强大的Hook机制,自动触发格式化、secret扫描、上下文持久化等操作;
    - 持续学习系统,自动提取开发“本能”,提升智能决策能力;
    - 多Agent协作支持,拆解复杂任务、多线程执行更高效;
    - 集成AgentShield安全扫描,1282项规则全面保障代码安全;
    - 详细操作指令和跨平台安装脚本,2分钟极速上手。

    适合开发者、团队追求极致AI辅助开发体验的必备利器。
  16. GitAgent:让AI智能体也能Code Review

    GitAgent提出了一个新思路:把GitHub仓库本身变成AI Agent的身份、记忆和技能载体。这意味着AI智能体的所有行为都可以像代码一样被版本控制、审查和复现。

    GitAgent的核心想法简单得让人想拍大腿:既然我们已经用Git管理代码,为什么不直接用它来管理AI Agent?

    当prompts、工具和行为逻辑都存进代码仓库,你终于可以像review代码一样review一个AI的“人格”了。有网友提到,这种“把repo当作agent真相来源”的做法感觉对了——一旦提示词和行为都进了版本库,你就能diff它们,看到AI究竟在哪次commit变“聪明”或变“蠢”了。

    这解决了一个被低估的痛点。

    现在训练AI Agent像炼丹,成功了也不知道为什么,失败了更说不清。GitAgent让智能体开发告别“在我机器上能跑”的混沌状态,进入可追溯、可复现的工程化阶段。它兼容OpenAI、Claude、CrewAI等多个框架,像一套统一的“智能体操作系统”。