黑洞资源笔记

3 days ago

多模态AI开发常常需要多个专用模型，理解模型处理视觉分析，生成模型负责图像输出，还要额外集成推理和工具调用，切换繁琐效率低下。

SenseNova-U1 用NEO-unify架构从第一性原理统一多模态理解、推理和生成，提供端到端原生多模态解决方案。| 在线尝试

不仅实现像素到词的统一建模，支持高质量文本到图像生成、图像编辑、交错图文生成，还能进行视觉问答、视觉语言行动（VLA）和世界建模，开源SOTA性能。

主要功能：

- 原生统一多模态架构，无需VE和VAE，支持端到端像素-词处理；
- 高质量文本到图像生成，支持复杂信息图表、海报、漫画等高密度渲染；
- 图像编辑和交错图文生成，可生成连贯的文本+图像教程和故事；
- 视觉理解和推理，支持长上下文VQA和代理式视觉任务；
- 支持GGUF量化、低显存推理，单GPU友好，兼容Web/本地部署；
- 提供SenseNova-Studio在线 playground 和SenseNova-Skills代理集成。

支持 Transformers、LightLLM 多框架部署，8B/A3B模型规模，Apache 2.0许可，适合AI开发者、研究者和应用集成。
3 days ago

OCR识别需要多个工具，布局分析工具拆分文档结构，文本识别模型提取内容，还要额外的手动后处理，来回切换效率低下。

GLM-OCR 把OCR全流程功能全部整合到一起，提供了精准×快速×全面的文档理解解决方案。

不仅有SOTA级多模态OCR模型和布局分析，还支持复杂表格/公式/代码识别，云端API和本地部署，甚至一键CLI/Python调用。

主要功能：

- SOTA性能，在OmniDocBench V1.5得分94.62，文档理解基准排名第一；
- 实景优化，完美处理复杂表格、代码文档、印章等挑战场景；
- 高效推理，仅0.9B参数，支持vLLM/SGLang/Ollama部署，低延迟高并发；
- 超易使用，pip install glmocr 一行命令解析图片/PDF，支持CLI/Python/Flask API；
- 完整SDK，云API（零GPU）或自托管，支持大图/PDF多页文档；
- 模块化架构，可自定义布局检测、OCR调用和结果格式化（JSON/Markdown）。

支持云端API、vLLM/SGLang本地部署、多平台使用，通过pip安装即可快速上手，适合AI开发者和企业文档处理。
3 days ago

生物细胞3D建模需要切换多个工具，三维渲染软件处理模型展示，AI生成工具创建细胞结构，还要额外的交互面板查看细节，来回切换颇为麻烦。

3DCellForge 把细胞探索所需的功能全部整合到一起，提供了AI驱动的交互式3D细胞生成与探索工作室。

不仅有流畅的WebGL细胞查看器，支持拖拽旋转、缩放和器官细节面板，还能通过图像转3D生成真实细胞模型，支持GLB导出、截图和离线缓存。

主要功能：

- 交互式3D细胞查看器，支持React Three Fiber实时渲染和轨道控制；
- 图像转3D生成，支持Tripo云端、Hunyuan3D本地和浏览器深度图多种模式；
- 器官细节卡片、显微镜视图、比较面板、笔记和图库管理；
- GLB/GLTF模型导入导出、截图功能和本地缓存，支持离线演示；
- 多平台浏览器运行，集成Vite快速开发，无需复杂环境配置；
- 安全API密钥管理，后端Node服务处理生成任务，前端零暴露。

支持 Web 浏览器直接运行，通过 npm install 和 npm run dev 即可本地启动，适合生物研究者和教育工作者使用。

0:27

Media is too big
VIEW IN TELEGRAM
3 days ago

AI 高效工作流：原型实验+倒带压缩，实现试错到认知升级 | 帖子

提要：通过 /prototype 进行原型实验，再利用 /rewind 结合 summarize 功能将实验过程压缩为结构化知识，从而在保持上下文精简的同时，实现从“试错”到“认知”的跨越。

很多人用 AI 就像在沙堆上盖房子，一边堆一边塌。

有个很有意思的工作流：先用文档去“拷问”AI，遇到答不上来的问题，直接进入 /prototype 模式，不计成本地消耗 Token 去做一个原型。等原型跑通了，关键动作来了：使用 /rewind 回到问题点，并执行 summarize。

这本质上是在做一种上下文的“垃圾回收”与“知识提取”。

有网友提到，这个组合拳最厉害的地方在于，它把昂贵的 Token 消耗从单纯的“氛围感试错”转化成了可复用的“产品记忆”。如果你只是盲目地在对话框里堆砌指令，你是在浪费算力；但如果你学会了“自由探索→压缩学习成果→带着更优上下文继续”，AI 才真正开始像一个工程协作伙伴。

这让人想起操作系统的内存管理。直接把所有运行日志塞进上下文，迟早会触发 OOM（内存溢出）或者让推理变得极其迟钝。通过 summarize 进行压缩，就像是把频繁访问的热数据提取成索引，把冗长的执行路径变成了一行简洁的函数调用。

有观点认为，这种流程一旦跑通，就可以将其封装成 SKILL.md，让整个团队直接共享这种思维模型，而不是每个人都去重新发明轮子。

不过也有人觉得，这种频繁的“倒带”操作可能会打断心流。这大概取决于你是在做简单的 Prompt，还是在进行深度架构设计。

如果实验本身就是为了寻找答案，那么在看到答案的那一刻，把过程“压缩”掉，只留下结论，或许是目前最高效的交互方式。

下一步该怎么做？或许是把这种经过验证的流程，直接变成 Agent 的内置技能。
3 days ago
3 days ago
4 days ago

星星大厂云服务器（阿里云腾讯云亚马逊谷歌云），提供自助充值平台，解决24小时充值问题，全网招代理，全网最低折扣。
大厂云自助开户充值 @xxbots
星星云频道介绍 @xxy88
需要海外服务器联系星 @xxyun0 #AD

AD
01:56 · May 7, 2026 · Thu

netflix的官方技术博客发了篇长文介绍模型服务中的路由现状 | blog

“这是一个多篇系列博客的第一篇，分享了我们如何通过机器学习模型服务基础设施在多个领域（例如，标题推荐、商务）大规模提供个性化体验的技术见解。

在这篇介绍性博客中，我们将深入探讨我们的领域无关 API 抽象及其流量路由能力，该能力由中央 ML 模型服务平台向多个特定领域的微服务暴露，用于模型推理。这个单一的 API，即进入 ML 模型服务平台的入口，显著提升了在现有 ML 体验上迭代新版本的创新速度，同时也支持使用 ML 构建全新的产品体验。”

在大规模在线推理系统里，路由不只是把请求分发到任意实例，而是要在延迟、吞吐、成本、可用性、模型/硬件异构性和实时负载变化之间做权衡；文章梳理了从简单静态/轮询式负载均衡，到更智能的、感知服务状态与性能指标的自适应路由思路，强调好的 routing layer 应该把模型副本、容量、队列、SLO、降级策略和观测数据结合起来，动态决定请求去哪里，从而提升资源利用率并稳定用户体验。
01:53 · May 7, 2026 · Thu

强化学习教程：Hands-On Modern RL，现代强化学习实战指南：涵盖经典控制、LLM 后训练、RLVR 与多模态智能体 | 在线阅读 | github | #电子书 #指南 #教程

2016 年，AlphaGo 击败李世石，强化学习第一次震撼公众。2022 年 ChatGPT 发布，人们发现 RL 正是让大语言模型从"能说话"变成"说好话"的关键技术。从 DeepSeek-R1 到各类开源对齐模型，RLHF、DPO、GRPO 等算法已经深刻地重塑了整个 AI 行业。

然而，市面上的学习资源严重滞后于行业实践。主流教程对 RL 一笔带过，专门的 RL 教材又停留在传统框架，对 PPO、DPO、GRPO 只字不提。一个想要理解 RLHF 流程的工程师，不得不在经典教材和最新论文之间艰难地自行搭建桥梁。我们着手写这本书，就是为了填补这道鸿沟。

这本书代表了我们的尝试——让现代强化学习变得平易近人，用代码、数学和直觉的融合来教会人们核心概念。

一种"先动手、后理论"的学习路径

许多教科书先讲完 MDP 的全部性质，再讲贝尔曼方程，最后才允许你碰一行代码。在这本书中，你将从第一章的第一行代码开始训练一个智能体。当你亲眼看到 CartPole 的小车从摇摇晃晃到稳稳站立，亲手用 DPO 让一个大模型学会"说好话"，再回过头理解背后的数学时，学习过程会更加自然，理解也会更加持久。

每一章都遵循一个四步循环：先给你一段可运行的代码，让你获得直接经验；然后引导你关注训练曲线上的关键现象；接着在具备直觉的基础上讲解数学原理；最后用理论重新解读之前的现象，完成从直觉到形式化的闭环。

本书的每一章都包含可运行的代码示例。强化学习中的许多直觉只能通过试错来建立——调一调学习率，观察 reward 曲线的振荡；改一改 clip 参数，看看策略是否会崩溃。这些经验无法仅靠阅读公式来获得。

本书面向学生、工程师和研究人员。不需要过往的深度学习或机器学习背景，只需基本的 Python 编程能力、线性代数（矩阵运算）、微积分（偏导数、链式法则）和概率论基础（期望、条件概率）。大多数时候，我们会优先考虑直觉和想法，而不是数学的严谨性。

电子书指南教程
01:48 · May 7, 2026 · Thu

Realmbird正在写Deepseek 新架构mHC的系列文章，目前完成了一篇。| blog

流形约束超连接（Manifold-Constrained Hyper-Connections，mHC）是 Deepseek 新增的一种架构，并已在 Deepseek v4 中实现。

mHC 是对 HC（超连接）的一种修复，它解决了 HC 导致的梯度消失或爆炸问题，同时仍保持性能提升。因为在 HC 上添加权重和偏置会使来自较早层的信号更难更新，从而使残差流的“残差性”降低。

HC 是一种诅咒般的方法，通过在残差流上添加权重和偏置来模拟更宽的残差流。

mHC 是对 HC 的改进，其中使用 Sinkhorn-Knopp 方法使残差流上的权重和偏置变为双随机矩阵。双随机矩阵的行和列之和都为 1，就像同时沿行和列应用 softmax。MHC-lite 与 mHC 论文类似，但使用了 Birkhoff-von Neumann 方法来实现双随机矩阵。
01:45 · May 7, 2026 · Thu

一份面向工程设计的人形机器人指南，很多人形机器人的硬件/物理学知识 | blog | #指南

“一个类人机器人每小时大约走 5,000 步。每一步都会将相当于身体重量 2–3 倍的冲击力传递到腿部执行器——偶尔承受这样的力还可以，但当这种冲击连续数千次而不间断时，就会造成破坏。这种无情的工作循环正是大多数类人机器人执行器失效的原因，也是幸存者最终都采用相同工程解决方案的原因。

关键在于，因为这种冲击发生的速度快于任何传感器循环的反应时间（亚毫秒级），执行器必须在机械上能够‘让步’（可反向驱动性），以吸收能量。如果执行器在机械上是自锁的——如大多数工业用滚珠丝杠——齿轮箱就必须吸收 100% 的冲击能量，从而导致瞬间剪切失效。”

指南