Skip to main content

黑洞资源笔记

  1. 开发人形机器人控制器需要多个独立模块,RL处理下肢运动、IK控制上肢动作、规划器生成路径、推理栈部署硬件,来回切换调试效率低下。

    GR00T Whole-Body Control 把人形机器人全身控制所需的功能全部整合到一起,提供了统一的开发与部署平台。

    不仅有解耦WBC模型(用于NVIDIA Isaac-GR00T N1.5/N1.6)、GEAR-SONIC通用行为基础模型,还支持VR全身遥操作、运动砖块实时生成、训练/推理/部署全流程。

    主要功能:

    - GEAR-SONIC:基于大规模人类运动数据训练的全身控制器,支持行走、跑步、跪爬、跳跃、双臂操作等自然行为;
    - Decoupled WBC:下肢RL+上肢IK解耦控制器,用于GR00T N1.5/N1.6模型;
    - VR全身遥操作:通过PICO VR头显实现实时人机运动转移,支持数据采集;
    - MotionBricks:实时潜空间生成框架,15k FPS零样本运动合成;
    - 运动规划器:键盘/游戏手柄实时生成步态,支持多种风格(跑步、潜行、受伤等);
    - C++推理栈:硬件部署,支持ONNX导出、ZMQ协议、电机监控;
    - 训练管道:PPO训练、Bones-SEED数据集处理(142K+动作,288小时),支持从头训练/微调。

    支持MuJoCo仿真、Isaac Lab训练、真实机器人部署(Unitree G1),通过Git LFS拉取模型快速本地运行,适合机器人研究者和开发者。
  2. PPT Master 用AI一键将任意文档转为**原生可编辑PPTX**,生成真实PowerPoint形状、文本框和图表,不是图片!直接点击编辑。

    支持PDF、DOCX、URL、Markdown输入,还能复制公司模板、添加动画过渡、生成旁白语音,甚至导出MP4视频。

    主要功能:

    - AI自动生成**原生可编辑PPTX**,形状/图表/动画真实支持PowerPoint编辑;
    - 支持PDF/DOCX/Markdown/URL等多种文档格式一键转换;
    - 模板复制功能,可提取任意PPT作为私有模板库;
    - 页面过渡+元素入口动画,原生OOXML支持;
    - 语音旁白生成(支持克隆声线),直接嵌入PPTX并导出MP4;
    - 图片智能获取(AI生成+网络搜索),支持Pexels/Pixabay等;

    只需安装Python + pip install -r requirements.txt,即可在Claude/Cursor/VS Code等AI IDE中聊天生成:「请从这个PDF制作PPT」即可。数据本地处理,无平台锁定。
  3. 传统TTS合成往往依赖GPU或云端API,资源消耗大、延迟高,还需网络连接,使用起来门槛不低。

    Agora Pocket TTS 颠覆传统,提供超轻量级文本转语音解决方案,完全适配CPU运行。

    仅100M参数模型,支持音频流式生成,低至200ms首帧延迟,MacBook Air M4上CPU实时6倍速,仅用2核。支持Python API/CLI、语音克隆、多语言(英法德葡意西),无限长文本输入,甚至浏览器端运行。

    主要功能:

    - CPU高效运行,无需GPU,~200ms低延迟音频流式生成;
    - 超轻量100M参数模型,实时6x速度,仅2核CPU;
    - 语音克隆,支持自定义wav样本快速适配;
    - 多语言支持:英语、法语、德语、葡萄牙语、意大利语、西班牙语;
    - Python库/CLI/HTTP服务,pip/uv一键安装;
    - 浏览器WebAssembly运行,无需安装即试用;
    - 无限长文本处理,适合长篇朗读/ audiobook。

    支持Python 3.10+,PyTorch 2.5+,跨平台Web/桌面,通过pip install pocket-tts本地运行,适合开发者、内容创作者和AI应用。
  4. 开发项目管理常常需要监督编码代理,监控任务进度、审查PR、验证CI状态,还要手动处理复杂工作,来回协调效率低下。

    OpenAI Symphony 将项目工作转化为隔离的自主实现运行,让团队管理工作而非监督编码代理。

    不仅能监控Linear看板自动生成代理处理任务,还提供CI状态、PR审查反馈、复杂度分析和演示视频等工作证明,验收后安全合并PR。

    主要功能:

    - 监控任务板(如Linear),自动生成隔离代理实现任务;
    - 提供完整工作证明:CI状态、PR审查、复杂度分析、walkthrough视频;
    - 安全PR合并机制,工程师无需实时监督;
    - 支持harness engineering代码库,适用于成熟项目;
    - 实验性Elixir参考实现,可快速部署运行;
    - SPEC规范公开,便于自定义开发其他语言版本。

    支持Elixir/Python等语言实现,适合工程团队和AI开发项目使用,低调工程预览版,专为可信环境测试。
  5. 为什么 AI 复杂任务,正在放弃 Markdown 转向 HTML | 推文

    随着 AI 代理能力的增强,传统的 Markdown 格式已难以承载复杂的逻辑与视觉需求。转向 HTML 作为 AI 的输出媒介,能实现更高信息密度、交互式体验与更直观的视觉呈现,从而让人类在协作中保持深度参与。

    当 AI 代理(Agent)开始处理极其复杂的任务时,Markdown 这种“轻量级”的语法反而成了一种枷锁。

    如果你习惯于看 AI 生成的 Markdown 计划书,大概会发现一个尴尬的现状:一旦文档超过百行,阅读体验就开始崩塌。为了弥补表达能力的不足,AI 甚至会用 Unicode 字符去模拟颜色,或者用 ASCII 字符画一些简陋的流程图。这就像是在用电报机试图传输高清视频,虽然能传达意思,但效率低得令人沮丧。

    HTML 正在成为一种更高效的“通信协议”。

    它不仅仅是关于“好看”。HTML 的核心优势在于信息密度。通过嵌入 SVG 矢量图、利用 CSS 进行布局、甚至加入 JavaScript 实现交互,AI 可以交付一个真正的“产品”而非仅仅是一段“描述”。比如,与其看一段描述数据趋势的文字,不如让 AI 直接生成一个带滑块的交互式仪表盘。

    有网友提到,HTML 带来的交互感能让协作变得更有趣。你可以要求 AI 生成一个临时的、针对特定任务的“微型编辑器”:比如一个可以拖拽排序的任务卡片流,或者一个带实时预览的 Prompt 调试器。这种“即用即弃”的工具感,让文档从静态的记录变成了动态的实验室。

    当然,这种转变并非没有代价。

    HTML 的 Token 消耗通常是 Markdown 的数倍,且在版本控制(Git Diff)中显得非常臃肿。如果只是为了简单的笔记,Markdown 依然是王者。但当我们需要进行复杂的架构设计、代码评审或原型开发时,HTML 提供的语义化结构和视觉清晰度,能显著降低人类的认知负荷。

    与其说我们在重新发现 HTML,不如说我们在利用 Web 技术栈,为 AI 时代构建一种全新的、可交互的“数字界面”。

    当文档本身变成了一个可以运行的小程序,我们与 AI 的关系,也从单纯的“指令与反馈”,进化成了真正的“共创”。
  6. 重构 Claude 使用逻辑:从自动补全升级为 AI 协作伙伴 | 推文

    通过将 Andrej Karpathy 的 4 条基础规则扩展为针对现代 Agent 工作流的 12 条指令,可以将 Claude 的编程错误率大幅降低。核心在于将 AI 从“自动补全工具”升级为遵循“行为契约”的协作伙伴。

    很多人把 CLAUDE.md 当成随手丢弃的偏好清单,要么塞满 4000 个 token 导致模型完全无视,要么干脆空着。这就像给一个极度聪明的实习生发了一本厚得没法读的员工手册,最后他只能靠直觉乱撞。

    Karpathy 最初提出的 4 条规则解决了“写代码”时的基本逻辑问题:别瞎猜、保持简单、外科手术式修改、目标导向。这确实把错误率压了下来,但现在的 AI 已经不是只会写单行代码的补全工具了,它们是会在多个文件间跳转、执行多步任务的 Agent。

    现在的痛点变了。有网友提到,Agent 会在长任务中迷失方向,或者在两个不同的代码风格之间试图“取平均值”,结果写出了一堆逻辑混乱的缝合怪。

    为了补齐这些漏洞,需要引入更硬核的约束。比如,别让模型去做确定性的逻辑判断,那是代码该干的事,不是概率模型该干的事;必须设置严格的 Token 预算,否则它会陷入无休止的循环,直到烧光你的额度;还有最重要的,要求它“大声失败”。如果迁移漏掉了记录,或者测试只是在测常量,它必须直接告诉你“我没把握”,而不是伪装成成功。

    有趣的是,规则并不是越多越好。当规则超过 200 行,模型就会开始机械地模仿“存在规则”这个事实,而不再理解规则本身。

    这本质上是在为 AI 编写一套“操作系统协议”。规则不是建议,而是契约。
  7. 数学知识分散在教材、笔记、网页,到处找定义、公式、证明,学习效率低下。

    Algebrica 把大学数学知识体系化整理,提供清晰、结构化的免费知识库。

    不仅有精确定义、定理证明,还配数学准确的SVG插图,支持Markdown+SVG开源复用,覆盖积分、极限、复数、多项式等核心主题。

    主要功能:

    - 结构化数学知识:从定义到定理到例题,逻辑递进无死角;
    - 矢量SVG插图:精确、可编辑,完美适配笔记/讲义/教育资源;
    - Markdown源文件:透明开源,CC BY-NC 4.0许可非商业复用;
    - 概念连贯性:统一符号、逐步推导,避免教材间不一致;
    - 大学水平覆盖:分析几何、代数结构、线性系统、三角等;
    - 持续迭代:作者亲手撰写,不断精炼提升准确性。

    支持离线阅读、GitHub预览、本地编辑,通过 Git clone 即可获取全部内容,适合学生、教师、自学者使用。
  8. 科研绘图经常需要反复调参数,配色不标准、字体不对、布局乱七八糟,还得AI重绘或手动修半天。

    nature-skills 把Nature期刊绘图规范全部整合到一起,提供了整套科研绘图的解决方案。| #科研 #工具

    不仅有publication-ready的多面板matplotlib图表生成,还支持学术prose润色、审稿回复、数据可用性声明,甚至paper转PPT工作流。

    主要功能:

    - nature-figure:Nature级matplotlib多面板图,支持10种图表类型(柱状/折线/热图/散点/雷达等),输出可编辑SVG;
    - nature-polishing:学术文本润色到Nature风格,≤30词句子、时态对齐、英国英语;
    - nature-citation:Nature/CNS引用检索,支持ENW/RIS/Zotero RDF导出;
    - nature-response:审稿意见逐点回复,行动映射+风险检查;
    - nature-data:数据可用性声明+FAIR元数据审计;
    - nature-paper2ppt:论文转中文化PPTX,精简证据链+演讲笔记。

    基于真实Nature论文和指南规则,支持Python本地运行,适合科研工作者、博士生和投稿党。
  9. 微信聊天记录太多,搜索费劲、导出麻烦、数据分析全靠手动翻页,私域运营和日常管理超级头疼。

    wx-cli 把微信本地数据全解锁,用命令行一键查询聊天记录、朋友圈、联系人,提供高效的数据管理解决方案。| #工具

    不仅能毫秒级全库搜索消息,还支持朋友圈挖掘、聊天统计、收藏检索,甚至一键导出 Markdown,完美适配 AI Agent。

    主要功能:

    - 全库消息搜索和历史记录查询,支持关键词、时间范围、群聊过滤;
    - 朋友圈数据挖掘,包括通知、时间线搜索、作者限定和媒体详情;
    - 会话管理,查看最近会话、未读消息、新增消息,区分私聊/群聊/公众号;
    - 联系人和群成员列表,支持姓名搜索;
    - 收藏内容检索,按类型(图片/文章/视频)或关键词筛选;
    - 聊天统计分析,按时间范围统计消息频率;
    - 一键导出,支持 Markdown/JSON 格式,便于备份和分享;
    - Daemon 架构,零依赖安装,完全本地运行,数据不出机。

    支持 macOS、Linux、Windows 多平台,npm 一键全局安装,保持微信运行即可初始化使用,适合私域运营、数据分析师和开发者。