黑洞资源笔记

09:24 · Nov 29, 2025 · Sat

一位前谷歌DeepMind研究员直言，Gemini 3虽然在网页开发上表现不错，但在真正的编码工作中却常显“为测试而优化”，缺乏面对复杂真实项目时的稳定性和适应力。它在演示中光鲜亮丽，却难以胜任“战场”上的各种边缘场景。

许多开发者的共鸣在于：真实编码远比基准测试复杂。模糊需求、遗留代码、依赖地狱和异常逻辑才是日常。Gemini 3在这些方面表现不佳，甚至出现误删API、无法处理文档、过度冗长等问题。相较之下，Claude、Opus等模型在实际使用中更靠谱，能更好地完成开发者需求，减少反复调试的负担。

这反映出业界普遍的“基准测试与实际应用脱节”问题。模型往往为了在指定任务中拿高分而“走捷径”，缺乏对真实复杂环境的理解和适应能力。真正有价值的AI助手，应能深入代码上下文，理解含糊需求，适应多变场景，甚至能通过持续测试和反馈不断自我进化。

总结来看，Gemini 3虽有潜力，但仍需从“演示王”向“实战王”转变。开发者应理性看待各种AI工具，结合自身项目实际反复验证，而非盲目追随营销榜单。未来的AI编程助手，必然是多模型优势互补、不断学习进化的智能协作体，才能真正助力复杂软件开发的突破。

09:20 · Nov 29, 2025 · Sat

科研工作中，整合多领域工具进行复杂分析常常繁琐耗时。Claude Scientific Skills 提供一套开箱即用的科学技能集合，支持生物信息学、化学信息学、临床研究、材料科学等多学科，助力将 Claude AI 转变成科研助理，完成多步骤科学计算和数据处理。

涵盖内容包括：
- 直接调用26+科学数据库（PubMed、UniProt、ChEMBL等）
- 52+主流科研Python包（RDKit、Scanpy、PyTorch Lightning等）
- 15+科研平台集成（Benchling、DNAnexus）
- 20+数据分析与文献写作工具

支持快速搭建从基因组学分析、药物筛选到临床变异解读、系统生物学网络构建的复杂科研流程。文档完善，提供丰富示例与最佳实践，支持多平台部署，适合科研人员和机构提升研究效率。

主要特点：
- 一键安装，自动调用相关技能，无需繁琐配置
- 跨学科全覆盖，助力多模态多步骤科研任务
- 持续更新，社区活跃，支持企业级使用

09:11 · Nov 29, 2025 · Sat

Kimi.ai 推出全新Agentic Slides，搭载Nano Banana Pro，助你轻松将研究论文、市场信息、建筑图纸等多种文件转化为专业演示文稿。功能亮点包括：

- 智能搜索引擎Kimi K2，快速精准定位内容
- 多格式支持（PDF、图片、文档等）一键转幻灯片
- 完全可编辑，支持PPTX导出，方便二次创作
- 设计师级视觉效果，自动生成信息图表与插画

感恩节特别福利：限时48小时免费无限制试用，零门槛体验未来演示新方式。用户反馈显示视觉效果惊艳，操作简便，帮助大幅提升工作效率和视觉冲击力。部分用户提出对图表编辑灵活性和API开放的期待，也体现出市场对更深度集成和定制的需求。

06:36 · Nov 28, 2025 · Fri

storm 运行了24个Claude代码代理并行工作，完美无缝。他用GitHub作为协调层，处理代码评审、CI检查和规划，打造了高效协作闭环。| 帖子

选择24个实例并非随意，而是基于任务分工：工程师、审阅者、规划者等多角色协同，避免重复劳动。他强调，平行化关键在于构建流程，让人类只在关键决策介入，其他环节全部自动化，层层递进，体现深厚的架构设计功力。

尽管规模庞大，系统依然稳定，得益于反复调优提示和完善的测试机制。虽然偶尔会遇到服务限制或停机，但整体表现依旧流畅。

许多人关心成本和限额，storm并未具体透露，但暗示需要账户额度提升和合理调度，才能支撑如此大规模运算。使用GitHub不仅仅是代码存储，更是规划、复核和任务分配的“智脑”，这点被不少同行称赞为“天才”。

从这套方案看，未来多代理系统的潜力巨大：自动化能大幅释放人力，提升开发效率，同时也提出了新的挑战——如何避免冲突、保证目标一致性，以及合理控制成本。

这不仅是技术实现，更是对协作方式的深刻变革。正如storm所说，自动化不是简单的“按键”，而是多层次、细致入微的工程艺术。

06:27 · Nov 28, 2025 · Fri

DeepScholar是由伯克利和斯坦福联合研发的开放式深度研究系统，专注于高效处理数百篇学术文章，实现长文献综述的自动合成。DeepScholar不仅在研究合成质量上与OpenAI的同类系统不相上下，而且速度提升了近2倍，极大降低了时间和成本。

DeepScholar的核心技术依托于LOTUS，这是一个开源的语义查询引擎，采用AI驱动的语义操作符，能高效批量处理海量文献。团队围绕真实科研写作需求设计，特别是论文相关工作综述部分，平均需要处理20多篇文献，DeepScholar能精准完成这一复杂任务。

系统综合评估涵盖知识合成质量、检索准确度及结果可验证性，表现优异。虽然目前面临访问高峰带来的稳定性挑战，开发团队积极修复，欢迎社区贡献和反馈。

同时，项目开源了基准测试数据集与代码，及LOTUS引擎，助力科研与开发者打造更强大的研究辅助工具。公开的排行榜和论文为行业提供了参考标准和发展方向。

这一创新不仅展示了AI在学术研究领域的巨大潜力，也启示我们：面对日益爆炸的信息量，智能筛选和高质量合成是未来科研的关键。DeepScholar证明，技术进步能让学术知识更快、更准确、更易获取，推动科学发现的速度和深度。

06:19 · Nov 28, 2025 · Fri

Continuous batching：本文梳理了大型语言模型（LLM）推理效率的核心技术——连续批量处理（Continuous Batching）。从基础的注意力机制和KV缓存出发，逐步揭示了如何优化计算吞吐量，提升多用户同时服务的性能。

首先，LLM是通过预测下一个词元（token）实现文本生成的，但每生成一个词都需大量计算，尤其是注意力机制中计算查询（Q）、键（K）、值（V）三者之间的复杂关系，复杂度随序列长度平方增长。为了高效推理，引入了KV缓存：已计算过的键值对被存储，生成新词时无需重复计算，大幅减少计算量。

面对长提示词（prompt）超出显存限制，模型采用分块预填充（Chunked Prefill）策略，分批处理输入，结合KV缓存保持上下文信息完整，解决了显存瓶颈。

传统批量处理要求所有输入长度一致，需大量补齐（padding），导致资源浪费和效率下降。连续批处理突破这一限制，将多个请求的词元按序拼接，利用注意力掩码控制不同句子间不互相干扰，实现“锯齿形”批量处理（ragged batching）。结合动态调度，将已完成的请求即时替换为新请求，保持GPU利用率最大化。

总结来说，连续批处理整合了KV缓存、分块预填充和锯齿形批处理三大技术，极大提升了模型推理的吞吐量和效率，使得像ChatGPT这样的大规模服务能高效支持成千上万的并发用户。

这不仅是对模型计算逻辑的优化，更是架构设计上的创新，体现了在有限资源下满足海量实时请求的智慧。未来，随着缓存管理和调度策略的进一步演进，LLM推理的效率还将持续提升。

06:15 · Nov 28, 2025 · Fri

通义实验室推出Z-Image——一款仅60亿参数、性能卓越的图像生成基础模型。它通过系统性优化，证明了无需庞大模型规模，也能实现顶尖的真实感图像生成和中英文文本渲染，效果媲美领先商业模型。

Z-Image参数量仅为6亿，却能生成媲美十倍规模模型的高质量照片级真实图像，且能在普通显卡（<16GB显存）上流畅运行，极大降低了高端图像生成的门槛。目前已公开发布Z-Image-Turbo（生成版），编辑版Z-Image-Edit即将推出。

架构上，Z-Image采用单流扩散Transformer设计，将文本、图像条件信息与噪声潜变量统一编码为一条序列，简化模型结构，提升计算效率和表现力。

内部ELO竞技测试显示，Z-Image在开放源代码模型中处于领先地位，且与商业巨头模型竞争力强劲。

Z-Image-Turbo在细节、光影、质感控制上表现优异，高清真实且具备良好审美，生成效果兼顾真实感与艺术性。

特别值得一提的是它的双语文本渲染能力：不仅能准确呈现中英文文字，还能在海报设计中展现强大的构图与排版能力，即使小字体环境下也能保证文本清晰且美观。

Z-Image拥有丰富的世界知识与文化认知，能够精准生成名胜古迹、知名人物及特定实物，体现深厚的语义理解力。

内置的提示增强器（Prompt Enhancer）通过结构化推理注入逻辑与常识，支持处理复杂任务，如“鸡兔同笼”问题或古诗意境的视觉化，编辑时也能根据模糊指令推断用户意图，确保结果合乎逻辑。

编辑版Z-Image-Edit支持复杂指令执行，能同时修改与亮化背景，精准调整指定位置文本，并在大幅变换场景下保持人物一致性，实现对图像元素的细粒度控制。

GitHub | ModelScope | HuggingFace | Z-Image gallry

06:10 · Nov 28, 2025 · Fri

有人说用“vibe coding”（凭感觉用AI写代码）能直接做出上线的生产级应用，这是不现实的。生产环境的软件必然复杂，需要大量代码的编写和维护，单靠写prompt根本撑不起。

AI确实能帮你快速生成代码片段，甚至能做一些简单小工具、小项目，或者快速搭建原型，提升开发效率。但当涉及到真正的生产级应用，边界条件、集成、安全、性能和稳定性等问题，都需要工程师的严谨设计、测试和持续维护。

那些说“vibe coding”能做出SAP、Salesforce这样的大型系统，显然是夸张了。相反，经验丰富的工程师利用AI辅助，能快速完成70%-80%的代码工作，但他们依然需要深入理解业务、规范开发流程、严格测试和持续重构。

成功案例确实存在，比如一些小型APP或合规项目用AI辅助开发并上线，但这更多是建立在开发者本身具备扎实的基础和工程能力上。完全靠AI和prompt从零开始，几乎不可能保证产品质量和稳定性。

AI是加速器，不是替代品。真正的生产级软件开发，离不开架构设计、代码审查、测试覆盖和持续迭代。那些只靠prompt写代码，却指望一劳永逸的人，注定会碰壁。

生产级代码的核心，是对复杂性的掌控，而不是对AI的盲目信任。AI帮你写代码，工程师帮你撑起整个系统。

06:08 · Nov 28, 2025 · Fri

现代开发离不开终端和浏览器的频繁切换：查文档、预览文件、监控系统、调用 AI 助手等。

Wave Terminal 是一款开源跨平台终端，将传统终端功能与图形化操作完美结合，支持文件预览、网页浏览和智能 AI 辅助，所有操作都能在终端内完成，极大提升工作流效率。

Wave 支持 macOS、Windows 和 Linux，功能丰富包括：

- 灵活拖拽布局，管理多个终端、编辑器、浏览器和 AI 助手窗口；
- 内置编辑器支持远程文件编辑和语法高亮；
- 文件预览支持图片、视频、PDF、Markdown、CSV 等多种格式；
- AI 助手能理解终端上下文，辅助调试和文件操作；
- 远程连接一键直达，兼顾安全的凭证管理；
- 丰富自定义主题及命令行工作空间管理。

06:06 · Nov 28, 2025 · Fri

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

DeepSeekMath-V2代表了数学推理领域的重要突破。当前大型语言模型虽然在数学竞赛中表现优异，但仅靠最终答案的准确性无法保证推理过程的严谨性。DeepSeekMath-V2提出了“自我验证”机制，训练出一个高精度、可信赖的定理证明验证器，并以此作为奖励模型，推动生成器不断发现并修正自身证明中的错误，提升推理质量。

该方法不仅解决了传统强化学习模型忽视推理过程的问题，还通过扩大验证计算能力，自动标注新的复杂证明，持续增强验证器的能力。最终，DeepSeekMath-V2在IMO 2025、CMO 2024和Putnam 2024等顶级竞赛中取得了金牌水平的成绩，Putnam得分高达118/120，显示出强大的数学推理和证明能力。

这一成果表明，迈向自我验证的数学推理是提升AI数学能力的关键方向。它不仅推动了数学AI系统在科学研究中的应用潜力，也为解决开放性数学难题提供了新的思路和工具。尽管仍有挑战，DeepSeekMath-V2为未来可解释、可靠的数学AI奠定了坚实基础。

06:03 · Nov 28, 2025 · Fri

LaurieWired分享了一个实用技巧：通过合理格式化，你可以把普通的消费级SSD“升级”为接近企业级的耐用度，只需牺牲约5%的容量，就能获得约10倍的写入寿命提升。| 帖子 | #技巧

以Crucial MX500 1TB为例，默认耐用度是0.2 DWPD（每天写入全盘0.2次），而同样闪存颗粒的Micron 5300 PRO 960GB企业级SSD耐用度是1.5 DWPD。企业级SSD很大程度上其实是超额预留空间更多的消费盘，厂商刻意用更多预留区来换取更高耐用度，因为消费者通常偏好更大容量，却不太关注寿命。

Laurie的做法是新买SSD后，只格式化90%-95%的空间，留出一部分不分区不使用，等于人为增加了过度预留区。对于视频编辑等写入量巨大的场景，这样的空间换耐用度的策略非常划算，能显著延长盘的寿命。

其他网友补充指出，很多消费级SSD会在使用超过约50%容量时，从快速的SLC缓存模式切换到更慢的TLC或QLC，导致性能和延迟下降。留足空闲空间不仅延长寿命，也能保持性能稳定。还有人提醒，企业级SSD的电源断电保护和固件优化也更优秀，适合更苛刻的服务器环境。

这背后反映的是存储设计的一个核心原则：容量和耐用度经常是此消彼长的关系。对大多数普通用户来说，过度预留带来的耐用提升可能用不上，但对专业用户和重负载场景，合理减少可用容量换取耐用度，是一条高效且省钱的“升级”路径。

对消费者来说，理解SSD背后的工作机制和厂商策略，能帮助更聪明地使用硬盘，避免性能骤降和过早损耗。未来存储设备设计若能更开放、更易拆卸替换，像企业级的U.2、EDSFF接口那样，将大幅提升用户体验和设备寿命

技巧