Skip to main content

黑洞资源笔记

  1. 7个提示词,让 Claude 从聊天机器人变成思考伙伴 | 帖子

    普通人给 AI 一个问题,等一个答案。Karpathy 给 AI 一套思维框架,然后让它在框架里工作。

    有网友一语点破:这些提示词本身只是表象,真正的差距在于你如何定义问题。提示词是结果,思维方式才是原因。

    以下是 7 种具体用法:

    1. 系统拆解提示:遇到复杂问题,强制 Claude 按步骤走:明确问题、列出假设、识别约束、拆分子问题、提三种方案、比较权衡、给出执行路径、预判失败点。这套流程本质上是把你的思维过程外包出去,然后让 AI 替你跑一遍。

    2. 第一性原理提示:不要类比,不要总结,从最底层概念开始,一层一层建起来,最后给出心智模型、真实应用和常见误解。适合搞懂 LLM、系统设计、数学原理这类容易“以为自己懂了”的东西。

    3. 研究简报生成:让 Claude 给出某个领域的全景图,包括玩家格局、当前路径、失败案例、市场空白、逆向洞察和可落地机会。它会变成一个还不错的分析师。

    4. 构建架构提示:从想法到实现,要求它给出最简版本、组件结构、数据流、技术栈、构建顺序、边界情况和扩展策略。省去大量乱猜阶段。

    5. 提示词优化器:把你自己写的提示词扔进去,让它优化清晰度、结构、约束条件和输出格式,并解释改了什么、为什么更好。提示词质量会随时间复利增长。

    6. 专家模式切换:让它以高级工程师对工程师的方式回答,跳过入门解释,直接聚焦实现、权衡和踩坑点。

    7. 批判性思考伙伴:让它不要盲目附和,主动挑战你的假设、指出逻辑漏洞、提出替代方向。这一步大多数人从来不做。

    有网友补充了一个实践细节:在开发应用的过程中,你得反复做审计,一旦发现模型开始循环并强行引入不必要的改动,那就是该叫停的时机。

    这 7 个提示词值得存起来反复用。不过更值得记住的是:AI 给出的答案质量,上限就是你提出问题的质量。
  2. Google发布TurboQuant压缩算法,或改变AI成本结构 | blog

    大模型越做越大,但真正卡脖子的不是参数量,是内存。

    每次推理时,模型都要维护一个叫 KV cache 的东西,相当于一张随时翻查的“答题小抄”。上下文越长,这张小抄越大,内存就越先撑不住。这是当前所有长文本任务的共同痛点。

    Google Research 最新发布的 TurboQuant,直接针对这个卡点下手。

    它的思路分两步走。第一步叫 PolarQuant,把向量从直角坐标转成极坐标,好比把“向东3步、向北4步”换成“沿37度角走5步”,这样就不需要每次重新校准边界,砍掉了传统方法必须携带的那部分冗余存储。第二步叫 QJL,只用1个 bit 来处理第一步压缩后残留的微小误差,把偏差消掉,同时做到零额外内存开销。

    两步加起来,整个过程没有新引入的“存储税”。

    测试结果很直接:TurboQuant 把 KV cache 压到3 bit,内存占用缩小6倍以上,在 H100 上计算注意力分数的速度提升最高8倍,而且在问答、代码生成、长文本摘要等标准 benchmark 上,精度几乎没有可见损耗。跟同类方法比,它甚至不需要针对特定数据集调参。

    更重要的一点:这套算法在数学上是可以被证明的,运行接近理论下界,不是调出来的经验值。

    除了 LLM,TurboQuant 对向量搜索也有直接影响。现代搜索引擎已经越来越依赖语义向量来理解用户意图,而不只是关键词匹配,这意味着数据库里要存数十亿个高维向量。压缩效率的每一点提升,都会直接反映在成本和响应速度上。

    压缩做到极致之后,AI 的规模边界在哪里,还真不好说。
  3. 在线搭建AI开发工作站,配置环境和调试工具往往令人头疼,安装Claude Code、配浏览器无头运行、搞各种命令行AI,过程繁琐又容易出错。

    HolyClaude 这个开源容器项目,整合了 Claude Code 主力代码AI、直观Web界面、五大AI命令行工具、无头浏览器和50+开发工具,统一容器化部署,轻轻松松跑起来。

    只需一条docker-compose命令,2分钟连环境问题都不必操心,完美支持Linux/macOS/Windows/主流NAS,多架构兼容,且支持你的已有Claude账号,无需额外绑定或付费。

    主要功能:

    - 集成Claude Code官方CLI,支持Max/Pro订阅和API key认证;
    - 内置五大AI CLI工具,包括Google Gemini、OpenAI Codex等多模型多供应商;
    - 配备Playwright预置配置的无头Chromium浏览器,网页截图、自动化测试轻松搞定;
    - 包含TypeScript、Python环境,集成50+开发相关工具链,代码编写调试健全;
    - 持久化绑定本地目录,凭证代码数据完美保存重启无忧;
    - 强大权限管理,支持通知推送(Discord、Telegram等100+服务);
    - 全面解决Docker中Chromium运行、权限、共享内存、文件监听、SQLite锁等常见坑。

    HolyClaude让复杂的AI开发环境变得傻瓜式起步,不再为琐碎配置浪费时间,专注编码和创新!
  4. 在线调研需要翻遍Reddit、X、YouTube、Hacker News、Polymarket等平台,信息纷繁复杂,难以快速把握重点。

    last30days-skill是一个AI智能调研助手,能自动搜集过去30天内各大平台最受关注的内容,筛选出高质量信息,帮你轻松获取行业趋势和社区声音。

    核心功能包括:

    - 跨平台搜索:覆盖Reddit、X(推特)、Bluesky、YouTube、TikTok、Instagram、Hacker News、Polymarket和网页;
    - 智能排序:结合帖子的点赞数、评论数、热度、时间等复合算法,输出最具参考价值的内容;
    - 深度补充:自动发现相关账号、子版块,进行二次查找,确保信息全面;
    - 趋势洞察:通过聚合多个平台相似内容,快速发现热点话题和最佳实践;
    - 预测市场数据:整合Polymarket真实资金投注,辅助判断行业趋势和事件概率;
    - 可定制化:支持看板、定期自动调研、智能摘要生成,方便个人及企业高效跟踪感兴趣话题;
    - 多种调用方式:支持Claude Code插件、CLI工具,易集成到现有工作流。

    适合高阶的内容分析、市场调研、新技术追踪、行业竞争分析等场景,让你在信息洪流中拥有独家视角。
  5. 中国大模型版图全扫描:谁是真正的玩家?| 帖子

    中国LLM圈已形成“大厂+六小虎+DeepSeek”的三层格局。字节跳动Doubao领跑国内市场,DeepSeek以量化交易副业身份创造了大量技术创新,六小虎靠开放权重+廉价推理维持存在感,但长期生存能力存疑。

    字节跳动旗下的Doubao是中国市场当之无愧的第一,Seedance则成为最流行的视频生成应用。阿里的Qwen在开源小模型领域最强。Baidu、Tencent的专有模型用的人不多,但腾讯在3D网格生成和游戏向模型上悄悄布局。小米MiMo V2 Pro在OpenRouter七日用量中排名第一,1.77T tokens,力压Claude Sonnet。

    DeepSeek是量化交易公司幻方科技的副业,却发明了MLA、GRPO等架构创新,GRPO据说源自其交易系统的强化学习背景。有网友提到,DeepSeek V3.2在没有任何新发布的情况下,用量依然超过Claude Sonnet和Opus——一个副业项目活得比很多主业更滋润。

    六小虎(智谱、MiniMax、月之暗面、阶跃星辰、百川、01 AI)商业模式高度雷同:发大模型刷存在感,靠廉价推理抢用户。OpenRouter数据显示,StepFun 3.5 Flash和MiniMax M2.5分别占据第二、第三名,定价低廉是主要原因。有观点认为,开源不是道德选择,是部署优势,西方讨论总喜欢把这件事讲成价值观问题。

    美团LongCat 562B的动态MoE设计值得关注:激活参数随请求复杂度浮动,推理成本不固定,这对生产部署有实际意义。

    有网友观察:这一轮“小虎”竞争其实在快速培养大量AI工程师,即便大多数公司最终倒闭,剩下的人才池对整个行业是净收益。中国AI的轨迹和当年电动车行业惊人地相似。
  6. 你的Claude Code越来越笨,是因为你管太多了 | 帖子

    给AI堆砌越来越多的规则,反而会让输出质量下降。Anthropic自己的工程团队也踩过这个坑。解法是让Claude审计并精简自己的设置。

    每次Claude输出不好,你就加一条规则。“简洁一点。”“用口语化语气。”“解释专业术语。”三个月后,你攒了30条规则,其中有几条正在互相打架——“保持简洁”和“始终解释你的推理过程”根本无法同时满足。

    Anthropic在发布Claude Code时,他们自己的工程团队发现:搭建的脚手架让AI变得更差了。

    这不是玄学。有观点认为,这本质上是委托代理问题——规则越多,模型越忙于“满足规则合规性”,而不是完成你真正想要的任务。输出变得技术上正确,创造力全死。

    把47步菜谱交给厨师,他反而做不好一道只需12步的菜。

    解法很直接。在Claude Code里发一条消息,让它读取你的CLAUDE.md、所有skills文件和context文件,然后逐条审计每一条规则:这条我不说你默认也会做吗?这条和别处的指令矛盾吗?这条是不是只为了修一次坏输出才加进来的?

    然后让它给出删除清单和一份清理后的CLAUDE.md。

    有用户把400行的CLAUDE.md压缩到90行,输出明显改善。有人裁掉60%的规则,响应速度提升40%,幻觉减少。有网友提到,只要运行一次这个审计提示,就能发现自己从没意识到的矛盾——比如模糊的“保持自然”在覆盖具体的语调规则。

    不要无脑删除所有被标记的内容。删完之后跑三个最常见的任务,输出一样好或更好,说明那些规则是死重。某个功能坏了,只加回那一条。

    有观点认为,真正的技能不是写规则,是知道删什么。

    你的AI设置应该随时间变得越来越简单。如果它在变复杂,就说明你在用积累规则的方式逃避思考“我到底想要什么”这个根本问题。

    这个问题,Claude帮不了你。
  7. OpenAI关掉了Sora,每天烧50万美元的视频机器 | 帖子

    OpenAI宣布关停旗下AI视频生成平台Sora,原因是每天亏损高达50万美元,部分估算甚至达1500万。这个曾被视为“颠覆好莱坞”的产品,最终死于三个字:用不起。

    Sora没有死于竞争,死于算术。

    一个10秒的AI视频,需要逐帧生成360张图像。免费向全体用户开放这个能力,本质上是在请全世界网民来家里开流水席,食材钱自己出。有数据显示,在最火的那几周,Sora每天烧钱可能高达1500万美元。后来用的人少了,成本才跟着降下来。

    真正有趣的不是关停本身,是关停之前发生的事:OpenAI和迪士尼在去年12月高调宣布合作,把200多个漫威、星战角色引入Sora供粉丝创作,迪士尼还投了10亿。然后OpenAI转身宣布退出视频生成业务,迪士尼随即发了一份措辞礼貌的声明,说“尊重OpenAI的决定”。合同签了没几个月,人就跑路了。

    有观点认为,Sora真正的问题不是成本,是过度审查。有网友说自己试了15次,只有2次成功,剩下的全被内容审核拦掉了。另一个很现实的问题是:没有使用门槛,人们就不会去想“这个视频值不值得生成”,计算资源就这样被无数只想看猫打架的人消耗殆尽。

    Sora的Sora研究团队被保留了,方向转向机器人和“世界模拟研究”,这倒是说得通,视频生成技术对训练物理世界模型确实有用,只是没法直接变现。

    目前被提到最多的替代产品是Seedance 2.0,据说效果远超Sora,只是在美国因版权问题暂时无法使用。

    这让人想到一个没有答案的问题:AI视频的商业模式究竟是什么?谁愿意为一个十秒钟的视频付费多少钱,才能让这件事不亏损?
  8. Reddit上一个关于“最短高效提示词”的帖子引起了广泛讨论。核心结论是:几句话的设计,远比长篇大论更有力量。提示词不是越多越好,而是要打在要害上。| 帖子

    多数人用AI的方式,是在跟一个想取悦你的人聊天。它会点头,会夸你,会把你的问题包装成智慧。

    改变这一切只需要一句话:

    “Be honest, not agreeable.”

    高赞回复里,有观点认为最有效的不是“聪明提问”,而是在提问之前先做一件事:让AI在回答前,先说出你隐含的假设、最常见的错误、以及会改变答案的缺失信息,然后问你一个关键问题,等你回答之后才给出结论。

    这个结构的逻辑很简单:AI默认填补你的认知空白,而这个填补过程你是看不见的。把它拿出来,你才知道自己在问一个什么样的问题。

    另一个被反复提到的方向是反拍马屁设定。有网友在自定义指令里写:停止表示赞同,作为我的高级顾问,不要验证我,不要软化真相,不要奉承,挑战我的思路,指出我在回避什么,告诉我机会成本。

    有观点认为这类提示有个陷阱:命令AI“停止赞同”,它可能变成一个表演批评的模型,而非真正提供有价值的反馈。让它太对抗性,会产生疲惫感,而非突破感。

    一些简短但实用的提示词,按效果排列:

    -“Think step by step before answering.”多步推理准确率显著提升

    -“Assume I am wrong. Show me where.”评审、代码审查、逻辑验证最好用

    -“If you don't know exactly, say UNKNOWN.”把不确定变成可识别信号

    -“You are a [role]. Never [that role's most common failure mode].”一行完成角色设定和反模式封堵

    -“Systematically”加在任何指令前,Claude会自动结构化任务

    有网友提到一个反常识的点:公开流传的提示词,往往在你手里效果打折。因为提示词的输出高度依赖对话上下文,原作者隐性提供了大量背景,你复制的只是字面,不是那个上下文。

    所以真正的问题或许是:你到底需要AI给你答案,还是帮你想清楚问题本身?
  9. 在线开发经常需要面对前端设计、后端架构、移动开发和图形着色等多样技能,学习曲线陡峭且缺少系统化指引。

    MiniMax Skills 专为 AI 编码助手打造了一套结构化的开发技能库,覆盖从前端动画、全栈集成,到安卓 iOS 原生开发,再到 GLSL 着色器视觉特效。

    项目不仅支持丰富技术栈和产业标准,还能兼容多种 AI 工具如 Claude、Cursor、Codex 和 OpenCode,通过简单配置即可集成使用,极大提升开发效率和代码质量。

    主要内容:

    - 前端开发:React / Next.js + Tailwind CSS,支持动态图形与 AI 生成媒体;
    - 全栈开发:REST API、认证、安全、实时通信及数据库整合指南;
    - 安卓原生:Material Design 3,Jetpack Compose,性能与易用兼顾;
    - iOS 应用:SwiftUI、UIKit、Apple HIG 标准实现无障碍设计;
    - 着色器开发:GLSL 高级技巧,流体、粒子和光影特效制作;
    - 丰富文档生成:PDF、PPTX、XLSX、DOCX 格式的创建与编辑。

    支持多平台插件,适合 AI 辅助开发者、培训机构和大型团队协作。
  10. Honcho 是一款开源的记忆库与托管服务,专为构建有状态的智能体(stateful agents)设计。它支持任何模型和架构,能持续学习并维护用户、智能体、群组、观点等实体的动态状态,让你的智能助手记忆力爆棚,更加可信和个性化。

    主要亮点:
    - 统一的“伙伴”模型,支持多参与者多会话交互
    - 多种记忆存储原语:工作空间、会话、消息、集合与文档
    - 强大的异步推理系统,自动生成用户画像与会话摘要
    - 自然语言查询聊天接口,快速获取用户偏好与历史信息
    - 支持多种大模型(OpenAI、Anthropic、Google Gemini 等)
    - 丰富的SDK支持 Python 和 TypeScript,开发体验极佳
    - 灵活配置,支持本地部署、Docker 和云端部署(Fly.io)

    Honcho让你的智能体拥有“记忆”,让人机交互更自然、更高效,也帮助你打造持久的竞争壁垒。
  11. AI记忆系统突破99%准确率:用Agent完全替代向量数据库 | 推文

    Supermemory团队用多智能体协作系统在长期记忆基准测试LongMemEval上达到99%准确率,核心突破是用3个并行搜索Agent替代传统向量检索,让AI通过“理解”而非“数学相似度”来回忆信息。这套方案不需要向量数据库,甚至可以嵌入机器人。

    向量数据库可能不是AI记忆的最优解。

    Supermemory在LongMemEval基准测试(11.5万token对话历史)上达到99%准确率,用的方法反而更简单:完全抛弃向量检索,改用多个Agent协作。

    传统RAG的问题出在检索环节。语义相似度匹配根本分不清“旧事实”和“新更正”,当检索结果里混杂太多噪音,大模型就会迷失。

    他们的解法是ASMR(Agentic Search and Memory Retrieval):

    信息摄取阶段,3个并行Observer Agent同时读取对话记录,按照个人信息、偏好、事件、时间数据等六个维度提取知识点,直接存储结构化内容而非生成embedding。

    检索阶段才是关键。面对提问时不查询数据库,而是派出3个专门的搜索Agent——一个找直接事实,一个挖隐含语境,一个重建时间线。这些Agent是在“主动阅读和推理”,不是在做向量余弦计算。

    回答阶段用了两种策略测试。第一种是8个高度专业化的prompt变体并行运行(精确计数专家、时间专家、上下文深挖专家等),只要任何一条推理路径答对就算成功,准确率98.6%。第二种是12个Agent独立作答后,由一个聚合器LLM综合投票裁决,准确率97.2%。

    有观点认为这套系统证明了“认知理解”比“数学相似性”更适合处理记忆任务。数学只能捕捉表层模式,而Agent可以处理时间序列中的矛盾、更新和细微差别。

    更有意思的是,这个架构完全在内存中运行,不依赖外部向量数据库,理论上可以部署到任何设备,包括机器人。他们11天后会开源全部代码。

    当数十亿个高度个性化的AI Agent开始学习和记住我们的一切时,记忆系统的天花板在哪里?也许不在算力,而在我们愿意给Agent多少“主动思考”的权限。
  12. 在线强化学习训练环境开发、部署总是琢磨如何隔离安全运行,有没有简单统一的接口和工具呢?

    OpenEnv 是一个基于 Gymnasium 风格 API 的代理式执行环境接口库,助力 RL 训练后环境的创建和管理。

    它支持环境的容器化隔离,基于 WebSocket 提供简洁的 step()、reset()、state() 等接口,让训练框架和研究者都能轻松调用。

    核心功能:
    - 标准化环境客户端,支持异步和同步调用
    - 环境容器化部署,支持本地 Docker 和未来 Kubernetes
    - 内置 WebUI,方便实时交互调试
    - 提供 CLI 初始化和 Hugging Face Spaces 一键部署
    - 丰富示例环境:Echo(消息回显测试)、编码环境、国际象棋、Atari 游戏、金融交易模拟等