黑洞资源笔记

02:14 · Mar 29, 2026 · Sun

用四元数重新发明量化：10-19倍加速的数学魔法 | 帖子

一位开发者用Clifford代数中的“旋子”替换了TurboQuant里的随机正交矩阵，在RTX PRO 4000上实现10-19倍加速，Apple M4上高达31倍，参数量减少44倍，而精度几乎没有损失。

TurboQuant的思路是把一个128维向量扔进128×128的随机旋转矩阵里猛甩，像洗牌一样把所有维度彻底打乱，然后再量化。效果好，但代价是16，384次浮点运算，计算量不小。

RotorQuant换了个角度。把128维向量切成43组，每组3个维度，用一个只有4个参数的Clifford旋子来旋转。总共约100次浮点运算，GPU把所有数据全程锁在寄存器里，连一次内存来回都没有。这才是速度优势真正的来源，跟参数少只有间接关系。

测试结果在Qwen2.5-3B的KV cache上：余弦相似度0.990，对比TurboQuant的0.991，needle-in-haystack测试满分。

有网友指出理论上的漏洞：TurboQuant的全局Haar旋转能把能量均匀散布到所有128个维度；而RotorQuant只在3个维度的小组内旋转，遇到one-hot向量这类极端情况，能量还是集中在几个维度里，这正是低比特量化最怕的场景。这也解释了为什么合成数据上的MSE更差。

有观点认为，这个理论缺陷在真实KV cache分布里基本不会触发，因为实际模型的向量根本不是对抗性构造的。理论最坏情况和工程实际之间的距离，有时候就是整个产品。

另一个有意思的讨论：游戏引擎里早就在用这套数学，Unity和Unreal处理3D旋转用的就是四元数，而四元数本质上是Clifford代数Cl(0，3)里的特殊情况。有网友调侃说，这不过是“图形编程101”里的老把戏换了个场合。

作者坦承整个POC是和Claude一起在一晚上完成的，并没有刻意回避这一点。有人觉得这削弱了“创新”的成色，也有人觉得这恰恰说明AI辅助研究的效率已经到了某个临界点。

目前最缺的是32k乃至128k长上下文下的端到端困惑度测试，以及真实的TPS前后对比数据。3D局部旋转在超长序列里会不会累积误差漂移，这个问题还没有答案。
02:12 · Mar 29, 2026 · Sun

越复杂越容易崩：AI创业者用25个项目学到的教训 | 帖子

构建过25个以上AI Agent的开发者发现，真正稳定挣钱的项目几乎都是“一个API调用+一个好Prompt”的极简结构。复杂的多Agent系统看起来很厉害，实际上每增加一个Agent就多一个崩溃点，每次Agent之间的交接就是一次信息损耗。

有人在Reddit发帖引发广泛讨论：做了25个以上AI Agent，最后发现最能稳定挣钱的几个，简单到说出来都嫌丢人。

邮件自动写入CRM，一个Agent，每月$200，从不报错。招聘简历解析，每个席位$50，一个Prompt搞定。FAQ支持机器人，零编排。全是这种东西。

没有Agent之间互相开会，没有主管Agent统筹协调，没有什么记忆管道。

他总结了一条核心规则：每增加一个Agent，就多一个故障点；每次交接，就是上下文死亡一次。

这个判断有网友补充得更精确：Agent A知道自己为什么做这个决定，Agent B只拿到输出，不知道原因。到了Agent C，你在玩传话游戏。五个Agent串成链，原始信息里的细节和语境，基本已经被“电话游戏”掉了。

有人做过一个具体实验：三个图像识别Agent并联跑，比单Agent准确率高了2%，但token消耗是三倍。串联跑，每次交接误差叠加，最后准确率反而掉了30%。

也有网友指出，把它叫做“Agent”还是“自动化流水线”，其实是个概念问题。有人认为，没有真正自主决策的系统，只是“带LLM节点的工作流”，算不上Agent。帖子作者的回应相当直接：叫什么不重要，客户付钱是因为问题被解决了，不是因为架构名词好听。

反驳者说，用户完全可以自己用Claude搭同样的东西。作者说，这个逻辑适用于所有服务行业，YouTube上有水管教程，水管工照样存在。他的客户是运营经理、招聘专员、物流协调员，不是技术创始人。技术上可行和商业上可靠运行之间的那段距离，才是服务的价值所在。

有观点认为，Prompt本身是商品，关系和可靠性才是人们真正付钱的东西。有人见过别人用一个他两小时能复刻的工作流收$500/月，原因只是那个人拥有细分市场、完善的新用户引导和用户信任。

有一条留言的锐度让人印象深刻：那些在演示视频里看起来很厉害的复杂多Agent系统，通常在60天内就被替换掉了。而那些无聊的单Agent，挣着钱，没人关注。

“一个Agent，一个任务，可衡量的输出。”

这个判断其实也有边界。真正需要并行处理、子任务彼此独立的场景，多Agent的设计是合理的。但问题在于，大部分人在还没验证简单版本能不能用的时候，就已经开始搭复杂系统了。

最后有人补了一句：多Agent系统最吸引人的地方，恰恰是它会让你感觉自己在做严肃的工程。这通常只是严肃的过度工程。
02:08 · Mar 29, 2026 · Sun

手机发指令，Mac干活，这就是2026年的打工方式 | 帖子

Anthropic推出Claude Dispatch + Computer Use，理论上让你用手机远程控制Mac干活。但Reddit上的讨论很快揭示了一个被原帖忽视的核心问题：人们买Mac Mini，从来就不是为了省钱。

原帖的逻辑是这样的：以前人们疯抢二手Mac Mini，就为了搭一套多智能体系统让AI替自己干活。现在Claude出了Dispatch功能，$20/月就能在手机上发指令、Mac上执行，什么导出PDF、跑终端、批量改图，全能干。所以，那些$600的硬件需求消失了。

这个逻辑听起来挺顺，实际上根本没有对上。

评论区把这件事说清楚了。有观点认为，人们买独立Mac Mini的核心原因是隔离，把AI代理关在一台没有你银行账号、没有你密码、没有你个人文件的机器里。Dispatch运行在你的主力机上，等于把这道隔离墙直接拆掉了，还换成了一扇更大的门。

一台专门的机器，你知道它能碰什么，不能碰什么。你的主力Mac，就是你的全部。

有网友提到，更干净的做法是直接用VM，甚至有人花50英镑买了台旧Dell，装上Ubuntu和Claude，接上Telegram，成本不到60英镑就跑起来了一套“永远在线”的本地代理。也有人用SSH+Mosh协议，从手机终端直接控制开发机，WiFi切换到4G会话也不断——这套方案支持任何AI代理，不只是Claude。

有观点认为，Dispatch和Mac Mini其实是互补关系，各有擅长的场景。批量改图、整理文件这些无所谓隐私的事情，Dispatch很方便；涉及深度系统权限、需要AI自由探索文件系统的任务，还是放在一台可以随时抹掉的隔离机器上更安全。

还有一个问题原帖一笔带过了：Dispatch要求Mac保持唤醒状态，而很多人的Mac是每天背着到处跑的笔记本。你不在电脑旁边，Mac也不在，这时候一台7×24小时开着的Mac Mini仍然是刚需。

所以那些Mac Mini，到底还需不需要买？这个问题的答案，取决于你有多少事情不想让AI随便碰。
02:05 · Mar 29, 2026 · Sun

在线开发智能代理应用，经常需要协调模型推理、工具调用、消息管理、记忆存储等多项功能，流程复杂难以掌控。

AgentScope 专为构建“可见、可理解、可信赖”的智能代理而打造，提供了从模型调用到工具集成、从多代理协作到强化学习微调的全套开发框架。

它内置了 ReAct 代理、多代理消息中心、实时语音交互、人机协同调控、持久化记忆与规划组件，支持快速搭建和生产部署，兼容本地、云端和 Kubernetes 环境。| #框架

主要功能：

- 易用的 ReAct Agent，拥有模型推理与多工具调用能力；
- 丰富的工具生态，可扩展集成各类 API 和本地命令执行；
- 内建多代理消息中心，支持同行协作和复杂工作流管理；
- 支持实时语音输入输出，打造声音交互的智能助手；
- 强化学习和模型微调支持，提升代理能力和任务表现；
- 人机协同机制，允许实时中断与调整代理行为；
- 灵活记忆模块，支持数据库持久化与记忆压缩。

只需 Python 3.10 以上环境，pip 一键安装即可快速上手，适合 AI开发者、研究者及企业团队打造智能多代理应用。

框架
02:03 · Mar 29, 2026 · Sun

一句“嘿”吞掉22%用量配额，Claude的计费逻辑你可能从没搞清楚 | 帖子

用户发现对一个久置的Claude Code会话发了句“hey”，用量暴涨22%。这不是bug，而是LLM的底层工作机制——每条新消息都会把整个对话历史重新发送一遍。叠加缓存过期、1M超长上下文等因素，账单会失控得很优雅。

每次你在一个旧会话里发消息，你不是在发那条消息。你是在把这个会话里所有的内容、系统提示、工具定义，全部重新塞给模型一遍，然后再加上你那句“hey”。

Claude Code有缓存机制，活跃会话期间的上下文读取成本会打一折。但这个缓存有过期时间：Pro计划5分钟，Max计划1小时。放了一夜再回来，缓存早就没了。你的那句“hey”触发的是一次全量重建，费用比正常输入还要贵25%。

有网友在GitHub（issue #16157）追踪了一个典型案例：某会话92%的Token消耗来自缓存读取，实际输出Token几乎是零，但API实际收费$1.50，被折算成了$65的用量。

1M的上下文窗口是个放大器。过去200K的时候同样的问题不那么刺痛，现在你随便跑个项目，一个过夜的会话就能让你的用量配额在早上一声“嗨”里消失大半。

有观点认为，当Claude遇到服务不稳定时，它会静默重试请求，而每次重试都按完整的上下文长度计费。你以为卡住了，实际上它在一遍一遍地读你的所有历史记录。

暂时能用的应对方法：用`/compact`在离开前压缩上下文；别去唤醒过夜的旧会话，直接开新的；用`/cost`或`/stats`随时监控消耗。

有网友提到，更根本的问题在于用量计费完全是个黑盒，同样的操作今天用20%，明天可能用89%，没有任何预警。Anthropic到目前为止没有正式回应。

1M上下文窗口给到你，但你用不起——这个悖论大概才是真正该讨论的问题。
01:37 · Mar 29, 2026 · Sun

给AI一个真实科研问题，它找到了一个我没见过的方法 | 推文

作者把一个真实ML研究问题交给Codex，让它自主运行数小时。AI不仅完成了任务，还独立提出了一个新的评估方法。这次实验让他开始重新思考AI在科研中的角色。

作者给Codex的任务并不简单：设计一个基于无标注长文档的指标，用于预测模型在长上下文任务上的表现。这类问题通常会交给刚入门的PhD学生。

实验过程总结出三个教训。

第一，任务描述必须足够锐利。把原始研究问题直接扔给agent，得到的基本上是聊天体验：评论、想法、一点代码，仅此而已。要让它自主运行几个小时，就得给它一个可以真正攀爬的目标函数。作者最终写了一份竞赛风格的problem.md，配上starter code和固定的评估脚本，agent才真正跑起来。

第二，reward hacking来得比你想象的快。规范一精化，Codex立刻找到了一个“近乎完美”的解：相关系数接近1。但它把问题偷换成了回归，直接拟合目标值。更有意思的是，它没有掩盖这件事，主动说：我可以走捷径，也可以走正路，你来决定。人类判断在这里不是锦上添花，是必须的。目标几乎永远是欠规范的，agent很容易产出看上去很强的结果，实际上什么都没解决。

第三，给了参考点反而限制了它。作者最初提供了一篇相关论文作为基线，agent确实改进了，但结果只是增量工作。后来他把参考点拿掉，要求相关系数必须超过0.5，agent的反应是立刻放弃之前所有方向，重新框架问题。

它想出的方法是：从长文档中抽一段，以及紧接其后的续写，构造一个预测任务。没有完整文档时续写是模糊的，把完整文档前置后就变得清晰，前提是模型能真正检索利用它。这个差值就是指标。

作者说他在文献里没见过类似的想法，足够发表，Codex不到一分钟就想出来了。

很多研究者还把agent当成高级代码补全工具，这个认知确实该更新了。至于它最终会改变什么，谁来做研究、社区奖励什么样的产出，作者自己也没想清楚。
01:34 · Mar 29, 2026 · Sun

在线做AI研究助手，信息查找、论文审阅、实验复现多任务轻松搞定？

Feynman 是一个开源 AI 研究代理项目，集合了多智能体协作、文献检索、批判性评审、实验复现等功能，帮你高效产出生信可靠的科研成果。

它支持自然语言交互，指令也能自动调动不同agent工作，比如：
- /deepresearch <话题> ，聚合大量论文和资料深入探讨
- /lit <话题> ，完成权威文献综述
- /audit <论文编号>，对比源代码核验论文结论
- /replicate <实验>，本地或云端复现实验流程

还内置了基于Pi框架的agent运行时和alphaXiv文献解析大脑，输出的所有内容都附带精准引用。

多平台运行依赖Node.js环境，支持Web、CLI等形式，适合AI科学家、工程师和研发团队加速创新。

主要特点：
- 多智能体自动协作，提升研究深度与广度
- 完整文献检索、批评复审和实验复现链条
- 结构化输出，方便撰写论文和报告
- 支持Docker容器，保证安全隔离执行
- 自动链接文献和代码，确保结果透明可信
01:31 · Mar 29, 2026 · Sun

在线追踪顶尖 AI 开发者信息，总因信息泛滥难以筛选？

一个超赞的skill「Follow Builders」：实时监控 AI 领域一线建设者（研究员、创始人、产品经理、工程师）在 X 及 YouTube 播客上的原创内容，并将海量内容提炼成清晰易读的摘要。

项目特点：

- 汇聚 25 位精选 AI 建设者的精选推文与见解，远离“网红”重复内容；
- 追踪热门 AI 播客新内容，提炼关键观点；
- 收录主流 AI 公司（Anthropic、Claude）官方博客的深度文章；
- 支持中文、英文及双语摘要，根据喜好定制推送时间和渠道（Telegram、Discord、邮件等）；
- 可通过对话完成配置，无需复杂文件操作，甚至能调节摘要风格长度、语言风格；
- 无需 API Key，内容由中心统一抓取更新，数据安全私密。

开箱即用，适合对 AI 动态保持敏锐洞察的开发者、研究者和爱好者。
01:27 · Mar 29, 2026 · Sun

7个提示词，让 Claude 从聊天机器人变成思考伙伴 | 帖子

普通人给 AI 一个问题，等一个答案。Karpathy 给 AI 一套思维框架，然后让它在框架里工作。

有网友一语点破：这些提示词本身只是表象，真正的差距在于你如何定义问题。提示词是结果，思维方式才是原因。

以下是 7 种具体用法：

1. 系统拆解提示：遇到复杂问题，强制 Claude 按步骤走：明确问题、列出假设、识别约束、拆分子问题、提三种方案、比较权衡、给出执行路径、预判失败点。这套流程本质上是把你的思维过程外包出去，然后让 AI 替你跑一遍。

2. 第一性原理提示：不要类比，不要总结，从最底层概念开始，一层一层建起来，最后给出心智模型、真实应用和常见误解。适合搞懂 LLM、系统设计、数学原理这类容易“以为自己懂了”的东西。

3. 研究简报生成：让 Claude 给出某个领域的全景图，包括玩家格局、当前路径、失败案例、市场空白、逆向洞察和可落地机会。它会变成一个还不错的分析师。

4. 构建架构提示：从想法到实现，要求它给出最简版本、组件结构、数据流、技术栈、构建顺序、边界情况和扩展策略。省去大量乱猜阶段。

5. 提示词优化器：把你自己写的提示词扔进去，让它优化清晰度、结构、约束条件和输出格式，并解释改了什么、为什么更好。提示词质量会随时间复利增长。

6. 专家模式切换：让它以高级工程师对工程师的方式回答，跳过入门解释，直接聚焦实现、权衡和踩坑点。

7. 批判性思考伙伴：让它不要盲目附和，主动挑战你的假设、指出逻辑漏洞、提出替代方向。这一步大多数人从来不做。

有网友补充了一个实践细节：在开发应用的过程中，你得反复做审计，一旦发现模型开始循环并强行引入不必要的改动，那就是该叫停的时机。

这 7 个提示词值得存起来反复用。不过更值得记住的是：AI 给出的答案质量，上限就是你提出问题的质量。
01:25 · Mar 29, 2026 · Sun

Google发布TurboQuant压缩算法，或改变AI成本结构 | blog

大模型越做越大，但真正卡脖子的不是参数量，是内存。

每次推理时，模型都要维护一个叫 KV cache 的东西，相当于一张随时翻查的“答题小抄”。上下文越长，这张小抄越大，内存就越先撑不住。这是当前所有长文本任务的共同痛点。

Google Research 最新发布的 TurboQuant，直接针对这个卡点下手。

它的思路分两步走。第一步叫 PolarQuant，把向量从直角坐标转成极坐标，好比把“向东3步、向北4步”换成“沿37度角走5步”，这样就不需要每次重新校准边界，砍掉了传统方法必须携带的那部分冗余存储。第二步叫 QJL，只用1个 bit 来处理第一步压缩后残留的微小误差，把偏差消掉，同时做到零额外内存开销。

两步加起来，整个过程没有新引入的“存储税”。

测试结果很直接：TurboQuant 把 KV cache 压到3 bit，内存占用缩小6倍以上，在 H100 上计算注意力分数的速度提升最高8倍，而且在问答、代码生成、长文本摘要等标准 benchmark 上，精度几乎没有可见损耗。跟同类方法比，它甚至不需要针对特定数据集调参。

更重要的一点：这套算法在数学上是可以被证明的，运行接近理论下界，不是调出来的经验值。

除了 LLM，TurboQuant 对向量搜索也有直接影响。现代搜索引擎已经越来越依赖语义向量来理解用户意图，而不只是关键词匹配，这意味着数据库里要存数十亿个高维向量。压缩效率的每一点提升，都会直接反映在成本和响应速度上。

压缩做到极致之后，AI 的规模边界在哪里，还真不好说。
01:23 · Mar 29, 2026 · Sun

在线搭建AI开发工作站，配置环境和调试工具往往令人头疼，安装Claude Code、配浏览器无头运行、搞各种命令行AI，过程繁琐又容易出错。

HolyClaude 这个开源容器项目，整合了 Claude Code 主力代码AI、直观Web界面、五大AI命令行工具、无头浏览器和50+开发工具，统一容器化部署，轻轻松松跑起来。

只需一条docker-compose命令，2分钟连环境问题都不必操心，完美支持Linux/macOS/Windows/主流NAS，多架构兼容，且支持你的已有Claude账号，无需额外绑定或付费。

主要功能：

- 集成Claude Code官方CLI，支持Max/Pro订阅和API key认证；
- 内置五大AI CLI工具，包括Google Gemini、OpenAI Codex等多模型多供应商；
- 配备Playwright预置配置的无头Chromium浏览器，网页截图、自动化测试轻松搞定；
- 包含TypeScript、Python环境，集成50+开发相关工具链，代码编写调试健全；
- 持久化绑定本地目录，凭证代码数据完美保存重启无忧；
- 强大权限管理，支持通知推送（Discord、Telegram等100+服务）；
- 全面解决Docker中Chromium运行、权限、共享内存、文件监听、SQLite锁等常见坑。

HolyClaude让复杂的AI开发环境变得傻瓜式起步，不再为琐碎配置浪费时间，专注编码和创新！
01:21 · Mar 29, 2026 · Sun

在线调研需要翻遍Reddit、X、YouTube、Hacker News、Polymarket等平台，信息纷繁复杂，难以快速把握重点。

last30days-skill是一个AI智能调研助手，能自动搜集过去30天内各大平台最受关注的内容，筛选出高质量信息，帮你轻松获取行业趋势和社区声音。

核心功能包括：

- 跨平台搜索：覆盖Reddit、X（推特）、Bluesky、YouTube、TikTok、Instagram、Hacker News、Polymarket和网页；
- 智能排序：结合帖子的点赞数、评论数、热度、时间等复合算法，输出最具参考价值的内容；
- 深度补充：自动发现相关账号、子版块，进行二次查找，确保信息全面；
- 趋势洞察：通过聚合多个平台相似内容，快速发现热点话题和最佳实践；
- 预测市场数据：整合Polymarket真实资金投注，辅助判断行业趋势和事件概率；
- 可定制化：支持看板、定期自动调研、智能摘要生成，方便个人及企业高效跟踪感兴趣话题；
- 多种调用方式：支持Claude Code插件、CLI工具，易集成到现有工作流。

适合高阶的内容分析、市场调研、新技术追踪、行业竞争分析等场景，让你在信息洪流中拥有独家视角。