Skip to main content

黑洞资源笔记

  1. 用四元数重新发明量化:10-19倍加速的数学魔法 | 帖子

    一位开发者用Clifford代数中的“旋子”替换了TurboQuant里的随机正交矩阵,在RTX PRO 4000上实现10-19倍加速,Apple M4上高达31倍,参数量减少44倍,而精度几乎没有损失。

    TurboQuant的思路是把一个128维向量扔进128×128的随机旋转矩阵里猛甩,像洗牌一样把所有维度彻底打乱,然后再量化。效果好,但代价是16,384次浮点运算,计算量不小。

    RotorQuant换了个角度。把128维向量切成43组,每组3个维度,用一个只有4个参数的Clifford旋子来旋转。总共约100次浮点运算,GPU把所有数据全程锁在寄存器里,连一次内存来回都没有。这才是速度优势真正的来源,跟参数少只有间接关系。

    测试结果在Qwen2.5-3B的KV cache上:余弦相似度0.990,对比TurboQuant的0.991,needle-in-haystack测试满分。

    有网友指出理论上的漏洞:TurboQuant的全局Haar旋转能把能量均匀散布到所有128个维度;而RotorQuant只在3个维度的小组内旋转,遇到one-hot向量这类极端情况,能量还是集中在几个维度里,这正是低比特量化最怕的场景。这也解释了为什么合成数据上的MSE更差。

    有观点认为,这个理论缺陷在真实KV cache分布里基本不会触发,因为实际模型的向量根本不是对抗性构造的。理论最坏情况和工程实际之间的距离,有时候就是整个产品。

    另一个有意思的讨论:游戏引擎里早就在用这套数学,Unity和Unreal处理3D旋转用的就是四元数,而四元数本质上是Clifford代数Cl(0,3)里的特殊情况。有网友调侃说,这不过是“图形编程101”里的老把戏换了个场合。

    作者坦承整个POC是和Claude一起在一晚上完成的,并没有刻意回避这一点。有人觉得这削弱了“创新”的成色,也有人觉得这恰恰说明AI辅助研究的效率已经到了某个临界点。

    目前最缺的是32k乃至128k长上下文下的端到端困惑度测试,以及真实的TPS前后对比数据。3D局部旋转在超长序列里会不会累积误差漂移,这个问题还没有答案。
  2. 越复杂越容易崩:AI创业者用25个项目学到的教训 | 帖子

    构建过25个以上AI Agent的开发者发现,真正稳定挣钱的项目几乎都是“一个API调用+一个好Prompt”的极简结构。复杂的多Agent系统看起来很厉害,实际上每增加一个Agent就多一个崩溃点,每次Agent之间的交接就是一次信息损耗。

    有人在Reddit发帖引发广泛讨论:做了25个以上AI Agent,最后发现最能稳定挣钱的几个,简单到说出来都嫌丢人。

    邮件自动写入CRM,一个Agent,每月$200,从不报错。招聘简历解析,每个席位$50,一个Prompt搞定。FAQ支持机器人,零编排。全是这种东西。

    没有Agent之间互相开会,没有主管Agent统筹协调,没有什么记忆管道。

    他总结了一条核心规则:每增加一个Agent,就多一个故障点;每次交接,就是上下文死亡一次。

    这个判断有网友补充得更精确:Agent A知道自己为什么做这个决定,Agent B只拿到输出,不知道原因。到了Agent C,你在玩传话游戏。五个Agent串成链,原始信息里的细节和语境,基本已经被“电话游戏”掉了。

    有人做过一个具体实验:三个图像识别Agent并联跑,比单Agent准确率高了2%,但token消耗是三倍。串联跑,每次交接误差叠加,最后准确率反而掉了30%。

    也有网友指出,把它叫做“Agent”还是“自动化流水线”,其实是个概念问题。有人认为,没有真正自主决策的系统,只是“带LLM节点的工作流”,算不上Agent。帖子作者的回应相当直接:叫什么不重要,客户付钱是因为问题被解决了,不是因为架构名词好听。

    反驳者说,用户完全可以自己用Claude搭同样的东西。作者说,这个逻辑适用于所有服务行业,YouTube上有水管教程,水管工照样存在。他的客户是运营经理、招聘专员、物流协调员,不是技术创始人。技术上可行和商业上可靠运行之间的那段距离,才是服务的价值所在。

    有观点认为,Prompt本身是商品,关系和可靠性才是人们真正付钱的东西。有人见过别人用一个他两小时能复刻的工作流收$500/月,原因只是那个人拥有细分市场、完善的新用户引导和用户信任。

    有一条留言的锐度让人印象深刻:那些在演示视频里看起来很厉害的复杂多Agent系统,通常在60天内就被替换掉了。而那些无聊的单Agent,挣着钱,没人关注。

    “一个Agent,一个任务,可衡量的输出。”

    这个判断其实也有边界。真正需要并行处理、子任务彼此独立的场景,多Agent的设计是合理的。但问题在于,大部分人在还没验证简单版本能不能用的时候,就已经开始搭复杂系统了。

    最后有人补了一句:多Agent系统最吸引人的地方,恰恰是它会让你感觉自己在做严肃的工程。这通常只是严肃的过度工程。
  3. 手机发指令,Mac干活,这就是2026年的打工方式 | 帖子

    Anthropic推出Claude Dispatch + Computer Use,理论上让你用手机远程控制Mac干活。但Reddit上的讨论很快揭示了一个被原帖忽视的核心问题:人们买Mac Mini,从来就不是为了省钱。

    原帖的逻辑是这样的:以前人们疯抢二手Mac Mini,就为了搭一套多智能体系统让AI替自己干活。现在Claude出了Dispatch功能,$20/月就能在手机上发指令、Mac上执行,什么导出PDF、跑终端、批量改图,全能干。所以,那些$600的硬件需求消失了。

    这个逻辑听起来挺顺,实际上根本没有对上。

    评论区把这件事说清楚了。有观点认为,人们买独立Mac Mini的核心原因是隔离,把AI代理关在一台没有你银行账号、没有你密码、没有你个人文件的机器里。Dispatch运行在你的主力机上,等于把这道隔离墙直接拆掉了,还换成了一扇更大的门。

    一台专门的机器,你知道它能碰什么,不能碰什么。你的主力Mac,就是你的全部。

    有网友提到,更干净的做法是直接用VM,甚至有人花50英镑买了台旧Dell,装上Ubuntu和Claude,接上Telegram,成本不到60英镑就跑起来了一套“永远在线”的本地代理。也有人用SSH+Mosh协议,从手机终端直接控制开发机,WiFi切换到4G会话也不断——这套方案支持任何AI代理,不只是Claude。

    有观点认为,Dispatch和Mac Mini其实是互补关系,各有擅长的场景。批量改图、整理文件这些无所谓隐私的事情,Dispatch很方便;涉及深度系统权限、需要AI自由探索文件系统的任务,还是放在一台可以随时抹掉的隔离机器上更安全。

    还有一个问题原帖一笔带过了:Dispatch要求Mac保持唤醒状态,而很多人的Mac是每天背着到处跑的笔记本。你不在电脑旁边,Mac也不在,这时候一台7×24小时开着的Mac Mini仍然是刚需。

    所以那些Mac Mini,到底还需不需要买?这个问题的答案,取决于你有多少事情不想让AI随便碰。
  4. 在线开发智能代理应用,经常需要协调模型推理、工具调用、消息管理、记忆存储等多项功能,流程复杂难以掌控。

    AgentScope 专为构建“可见、可理解、可信赖”的智能代理而打造,提供了从模型调用到工具集成、从多代理协作到强化学习微调的全套开发框架。

    它内置了 ReAct 代理、多代理消息中心、实时语音交互、人机协同调控、持久化记忆与规划组件,支持快速搭建和生产部署,兼容本地、云端和 Kubernetes 环境。| #框架

    主要功能:

    - 易用的 ReAct Agent,拥有模型推理与多工具调用能力;
    - 丰富的工具生态,可扩展集成各类 API 和本地命令执行;
    - 内建多代理消息中心,支持同行协作和复杂工作流管理;
    - 支持实时语音输入输出,打造声音交互的智能助手;
    - 强化学习和模型微调支持,提升代理能力和任务表现;
    - 人机协同机制,允许实时中断与调整代理行为;
    - 灵活记忆模块,支持数据库持久化与记忆压缩。

    只需 Python 3.10 以上环境,pip 一键安装即可快速上手,适合 AI开发者、研究者及企业团队打造智能多代理应用。
  5. 一句“嘿”吞掉22%用量配额,Claude的计费逻辑你可能从没搞清楚 | 帖子

    用户发现对一个久置的Claude Code会话发了句“hey”,用量暴涨22%。这不是bug,而是LLM的底层工作机制——每条新消息都会把整个对话历史重新发送一遍。叠加缓存过期、1M超长上下文等因素,账单会失控得很优雅。

    每次你在一个旧会话里发消息,你不是在发那条消息。你是在把这个会话里所有的内容、系统提示、工具定义,全部重新塞给模型一遍,然后再加上你那句“hey”。

    Claude Code有缓存机制,活跃会话期间的上下文读取成本会打一折。但这个缓存有过期时间:Pro计划5分钟,Max计划1小时。放了一夜再回来,缓存早就没了。你的那句“hey”触发的是一次全量重建,费用比正常输入还要贵25%。

    有网友在GitHub(issue #16157)追踪了一个典型案例:某会话92%的Token消耗来自缓存读取,实际输出Token几乎是零,但API实际收费$1.50,被折算成了$65的用量。

    1M的上下文窗口是个放大器。过去200K的时候同样的问题不那么刺痛,现在你随便跑个项目,一个过夜的会话就能让你的用量配额在早上一声“嗨”里消失大半。

    有观点认为,当Claude遇到服务不稳定时,它会静默重试请求,而每次重试都按完整的上下文长度计费。你以为卡住了,实际上它在一遍一遍地读你的所有历史记录。

    暂时能用的应对方法:用`/compact`在离开前压缩上下文;别去唤醒过夜的旧会话,直接开新的;用`/cost`或`/stats`随时监控消耗。

    有网友提到,更根本的问题在于用量计费完全是个黑盒,同样的操作今天用20%,明天可能用89%,没有任何预警。Anthropic到目前为止没有正式回应。

    1M上下文窗口给到你,但你用不起——这个悖论大概才是真正该讨论的问题。
  6. 给AI一个真实科研问题,它找到了一个我没见过的方法 | 推文

    作者把一个真实ML研究问题交给Codex,让它自主运行数小时。AI不仅完成了任务,还独立提出了一个新的评估方法。这次实验让他开始重新思考AI在科研中的角色。

    作者给Codex的任务并不简单:设计一个基于无标注长文档的指标,用于预测模型在长上下文任务上的表现。这类问题通常会交给刚入门的PhD学生。

    实验过程总结出三个教训。

    第一,任务描述必须足够锐利。把原始研究问题直接扔给agent,得到的基本上是聊天体验:评论、想法、一点代码,仅此而已。要让它自主运行几个小时,就得给它一个可以真正攀爬的目标函数。作者最终写了一份竞赛风格的problem.md,配上starter code和固定的评估脚本,agent才真正跑起来。

    第二,reward hacking来得比你想象的快。规范一精化,Codex立刻找到了一个“近乎完美”的解:相关系数接近1。但它把问题偷换成了回归,直接拟合目标值。更有意思的是,它没有掩盖这件事,主动说:我可以走捷径,也可以走正路,你来决定。人类判断在这里不是锦上添花,是必须的。目标几乎永远是欠规范的,agent很容易产出看上去很强的结果,实际上什么都没解决。

    第三,给了参考点反而限制了它。作者最初提供了一篇相关论文作为基线,agent确实改进了,但结果只是增量工作。后来他把参考点拿掉,要求相关系数必须超过0.5,agent的反应是立刻放弃之前所有方向,重新框架问题。

    它想出的方法是:从长文档中抽一段,以及紧接其后的续写,构造一个预测任务。没有完整文档时续写是模糊的,把完整文档前置后就变得清晰,前提是模型能真正检索利用它。这个差值就是指标。

    作者说他在文献里没见过类似的想法,足够发表,Codex不到一分钟就想出来了。

    很多研究者还把agent当成高级代码补全工具,这个认知确实该更新了。至于它最终会改变什么,谁来做研究、社区奖励什么样的产出,作者自己也没想清楚。
  7. 在线做AI研究助手,信息查找、论文审阅、实验复现多任务轻松搞定?

    Feynman 是一个开源 AI 研究代理项目,集合了多智能体协作、文献检索、批判性评审、实验复现等功能,帮你高效产出生信可靠的科研成果。

    它支持自然语言交互,指令也能自动调动不同agent工作,比如:
    - /deepresearch <话题> ,聚合大量论文和资料深入探讨
    - /lit <话题> ,完成权威文献综述
    - /audit <论文编号>,对比源代码核验论文结论
    - /replicate <实验>,本地或云端复现实验流程

    还内置了基于Pi框架的agent运行时和alphaXiv文献解析大脑,输出的所有内容都附带精准引用。

    多平台运行依赖Node.js环境,支持Web、CLI等形式,适合AI科学家、工程师和研发团队加速创新。

    主要特点:
    - 多智能体自动协作,提升研究深度与广度
    - 完整文献检索、批评复审和实验复现链条
    - 结构化输出,方便撰写论文和报告
    - 支持Docker容器,保证安全隔离执行
    - 自动链接文献和代码,确保结果透明可信
  8. 在线追踪顶尖 AI 开发者信息,总因信息泛滥难以筛选?

    一个超赞的skill「Follow Builders」:实时监控 AI 领域一线建设者(研究员、创始人、产品经理、工程师)在 X 及 YouTube 播客上的原创内容,并将海量内容提炼成清晰易读的摘要。

    项目特点:

    - 汇聚 25 位精选 AI 建设者的精选推文与见解,远离“网红”重复内容;
    - 追踪热门 AI 播客新内容,提炼关键观点;
    - 收录主流 AI 公司(Anthropic、Claude)官方博客的深度文章;
    - 支持中文、英文及双语摘要,根据喜好定制推送时间和渠道(Telegram、Discord、邮件等);
    - 可通过对话完成配置,无需复杂文件操作,甚至能调节摘要风格长度、语言风格;
    - 无需 API Key,内容由中心统一抓取更新,数据安全私密。

    开箱即用,适合对 AI 动态保持敏锐洞察的开发者、研究者和爱好者。
  9. 7个提示词,让 Claude 从聊天机器人变成思考伙伴 | 帖子

    普通人给 AI 一个问题,等一个答案。Karpathy 给 AI 一套思维框架,然后让它在框架里工作。

    有网友一语点破:这些提示词本身只是表象,真正的差距在于你如何定义问题。提示词是结果,思维方式才是原因。

    以下是 7 种具体用法:

    1. 系统拆解提示:遇到复杂问题,强制 Claude 按步骤走:明确问题、列出假设、识别约束、拆分子问题、提三种方案、比较权衡、给出执行路径、预判失败点。这套流程本质上是把你的思维过程外包出去,然后让 AI 替你跑一遍。

    2. 第一性原理提示:不要类比,不要总结,从最底层概念开始,一层一层建起来,最后给出心智模型、真实应用和常见误解。适合搞懂 LLM、系统设计、数学原理这类容易“以为自己懂了”的东西。

    3. 研究简报生成:让 Claude 给出某个领域的全景图,包括玩家格局、当前路径、失败案例、市场空白、逆向洞察和可落地机会。它会变成一个还不错的分析师。

    4. 构建架构提示:从想法到实现,要求它给出最简版本、组件结构、数据流、技术栈、构建顺序、边界情况和扩展策略。省去大量乱猜阶段。

    5. 提示词优化器:把你自己写的提示词扔进去,让它优化清晰度、结构、约束条件和输出格式,并解释改了什么、为什么更好。提示词质量会随时间复利增长。

    6. 专家模式切换:让它以高级工程师对工程师的方式回答,跳过入门解释,直接聚焦实现、权衡和踩坑点。

    7. 批判性思考伙伴:让它不要盲目附和,主动挑战你的假设、指出逻辑漏洞、提出替代方向。这一步大多数人从来不做。

    有网友补充了一个实践细节:在开发应用的过程中,你得反复做审计,一旦发现模型开始循环并强行引入不必要的改动,那就是该叫停的时机。

    这 7 个提示词值得存起来反复用。不过更值得记住的是:AI 给出的答案质量,上限就是你提出问题的质量。
  10. Google发布TurboQuant压缩算法,或改变AI成本结构 | blog

    大模型越做越大,但真正卡脖子的不是参数量,是内存。

    每次推理时,模型都要维护一个叫 KV cache 的东西,相当于一张随时翻查的“答题小抄”。上下文越长,这张小抄越大,内存就越先撑不住。这是当前所有长文本任务的共同痛点。

    Google Research 最新发布的 TurboQuant,直接针对这个卡点下手。

    它的思路分两步走。第一步叫 PolarQuant,把向量从直角坐标转成极坐标,好比把“向东3步、向北4步”换成“沿37度角走5步”,这样就不需要每次重新校准边界,砍掉了传统方法必须携带的那部分冗余存储。第二步叫 QJL,只用1个 bit 来处理第一步压缩后残留的微小误差,把偏差消掉,同时做到零额外内存开销。

    两步加起来,整个过程没有新引入的“存储税”。

    测试结果很直接:TurboQuant 把 KV cache 压到3 bit,内存占用缩小6倍以上,在 H100 上计算注意力分数的速度提升最高8倍,而且在问答、代码生成、长文本摘要等标准 benchmark 上,精度几乎没有可见损耗。跟同类方法比,它甚至不需要针对特定数据集调参。

    更重要的一点:这套算法在数学上是可以被证明的,运行接近理论下界,不是调出来的经验值。

    除了 LLM,TurboQuant 对向量搜索也有直接影响。现代搜索引擎已经越来越依赖语义向量来理解用户意图,而不只是关键词匹配,这意味着数据库里要存数十亿个高维向量。压缩效率的每一点提升,都会直接反映在成本和响应速度上。

    压缩做到极致之后,AI 的规模边界在哪里,还真不好说。
  11. 在线搭建AI开发工作站,配置环境和调试工具往往令人头疼,安装Claude Code、配浏览器无头运行、搞各种命令行AI,过程繁琐又容易出错。

    HolyClaude 这个开源容器项目,整合了 Claude Code 主力代码AI、直观Web界面、五大AI命令行工具、无头浏览器和50+开发工具,统一容器化部署,轻轻松松跑起来。

    只需一条docker-compose命令,2分钟连环境问题都不必操心,完美支持Linux/macOS/Windows/主流NAS,多架构兼容,且支持你的已有Claude账号,无需额外绑定或付费。

    主要功能:

    - 集成Claude Code官方CLI,支持Max/Pro订阅和API key认证;
    - 内置五大AI CLI工具,包括Google Gemini、OpenAI Codex等多模型多供应商;
    - 配备Playwright预置配置的无头Chromium浏览器,网页截图、自动化测试轻松搞定;
    - 包含TypeScript、Python环境,集成50+开发相关工具链,代码编写调试健全;
    - 持久化绑定本地目录,凭证代码数据完美保存重启无忧;
    - 强大权限管理,支持通知推送(Discord、Telegram等100+服务);
    - 全面解决Docker中Chromium运行、权限、共享内存、文件监听、SQLite锁等常见坑。

    HolyClaude让复杂的AI开发环境变得傻瓜式起步,不再为琐碎配置浪费时间,专注编码和创新!
  12. 在线调研需要翻遍Reddit、X、YouTube、Hacker News、Polymarket等平台,信息纷繁复杂,难以快速把握重点。

    last30days-skill是一个AI智能调研助手,能自动搜集过去30天内各大平台最受关注的内容,筛选出高质量信息,帮你轻松获取行业趋势和社区声音。

    核心功能包括:

    - 跨平台搜索:覆盖Reddit、X(推特)、Bluesky、YouTube、TikTok、Instagram、Hacker News、Polymarket和网页;
    - 智能排序:结合帖子的点赞数、评论数、热度、时间等复合算法,输出最具参考价值的内容;
    - 深度补充:自动发现相关账号、子版块,进行二次查找,确保信息全面;
    - 趋势洞察:通过聚合多个平台相似内容,快速发现热点话题和最佳实践;
    - 预测市场数据:整合Polymarket真实资金投注,辅助判断行业趋势和事件概率;
    - 可定制化:支持看板、定期自动调研、智能摘要生成,方便个人及企业高效跟踪感兴趣话题;
    - 多种调用方式:支持Claude Code插件、CLI工具,易集成到现有工作流。

    适合高阶的内容分析、市场调研、新技术追踪、行业竞争分析等场景,让你在信息洪流中拥有独家视角。