一位前谷歌DeepMind研究员直言,Gemini 3虽然在网页开发上表现不错,但在真正的编码工作中却常显“为测试而优化”,缺乏面对复杂真实项目时的稳定性和适应力。它在演示中光鲜亮丽,却难以胜任“战场”上的各种边缘场景。

许多开发者的共鸣在于:真实编码远比基准测试复杂。模糊需求、遗留代码、依赖地狱和异常逻辑才是日常。Gemini 3在这些方面表现不佳,甚至出现误删API、无法处理文档、过度冗长等问题。相较之下,Claude、Opus等模型在实际使用中更靠谱,能更好地完成开发者需求,减少反复调试的负担。

这反映出业界普遍的“基准测试与实际应用脱节”问题。模型往往为了在指定任务中拿高分而“走捷径”,缺乏对真实复杂环境的理解和适应能力。真正有价值的AI助手,应能深入代码上下文,理解含糊需求,适应多变场景,甚至能通过持续测试和反馈不断自我进化。

总结来看,Gemini 3虽有潜力,但仍需从“演示王”向“实战王”转变。开发者应理性看待各种AI工具,结合自身项目实际反复验证,而非盲目追随营销榜单。未来的AI编程助手,必然是多模型优势互补、不断学习进化的智能协作体,才能真正助力复杂软件开发的突破。
科研工作中,整合多领域工具进行复杂分析常常繁琐耗时。Claude Scientific Skills 提供一套开箱即用的科学技能集合,支持生物信息学、化学信息学、临床研究、材料科学等多学科,助力将 Claude AI 转变成科研助理,完成多步骤科学计算和数据处理。

涵盖内容包括:
- 直接调用26+科学数据库(PubMed、UniProt、ChEMBL等)
- 52+主流科研Python包(RDKit、Scanpy、PyTorch Lightning等)
- 15+科研平台集成(Benchling、DNAnexus)
- 20+数据分析与文献写作工具

支持快速搭建从基因组学分析、药物筛选到临床变异解读、系统生物学网络构建的复杂科研流程。文档完善,提供丰富示例与最佳实践,支持多平台部署,适合科研人员和机构提升研究效率。

主要特点:
- 一键安装,自动调用相关技能,无需繁琐配置
- 跨学科全覆盖,助力多模态多步骤科研任务
- 持续更新,社区活跃,支持企业级使用
Kimi.ai 推出全新Agentic Slides,搭载Nano Banana Pro,助你轻松将研究论文、市场信息、建筑图纸等多种文件转化为专业演示文稿。功能亮点包括:

- 智能搜索引擎Kimi K2,快速精准定位内容
- 多格式支持(PDF、图片、文档等)一键转幻灯片
- 完全可编辑,支持PPTX导出,方便二次创作
- 设计师级视觉效果,自动生成信息图表与插画

感恩节特别福利:限时48小时免费无限制试用,零门槛体验未来演示新方式。用户反馈显示视觉效果惊艳,操作简便,帮助大幅提升工作效率和视觉冲击力。部分用户提出对图表编辑灵活性和API开放的期待,也体现出市场对更深度集成和定制的需求。
storm 运行了24个Claude代码代理并行工作,完美无缝。他用GitHub作为协调层,处理代码评审、CI检查和规划,打造了高效协作闭环。| 帖子

选择24个实例并非随意,而是基于任务分工:工程师、审阅者、规划者等多角色协同,避免重复劳动。他强调,平行化关键在于构建流程,让人类只在关键决策介入,其他环节全部自动化,层层递进,体现深厚的架构设计功力。

尽管规模庞大,系统依然稳定,得益于反复调优提示和完善的测试机制。虽然偶尔会遇到服务限制或停机,但整体表现依旧流畅。

许多人关心成本和限额,storm并未具体透露,但暗示需要账户额度提升和合理调度,才能支撑如此大规模运算。使用GitHub不仅仅是代码存储,更是规划、复核和任务分配的“智脑”,这点被不少同行称赞为“天才”。

从这套方案看,未来多代理系统的潜力巨大:自动化能大幅释放人力,提升开发效率,同时也提出了新的挑战——如何避免冲突、保证目标一致性,以及合理控制成本。

这不仅是技术实现,更是对协作方式的深刻变革。正如storm所说,自动化不是简单的“按键”,而是多层次、细致入微的工程艺术。
DeepScholar是由伯克利和斯坦福联合研发的开放式深度研究系统,专注于高效处理数百篇学术文章,实现长文献综述的自动合成。DeepScholar不仅在研究合成质量上与OpenAI的同类系统不相上下,而且速度提升了近2倍,极大降低了时间和成本。

DeepScholar的核心技术依托于LOTUS,这是一个开源的语义查询引擎,采用AI驱动的语义操作符,能高效批量处理海量文献。团队围绕真实科研写作需求设计,特别是论文相关工作综述部分,平均需要处理20多篇文献,DeepScholar能精准完成这一复杂任务。

系统综合评估涵盖知识合成质量、检索准确度及结果可验证性,表现优异。虽然目前面临访问高峰带来的稳定性挑战,开发团队积极修复,欢迎社区贡献和反馈。

同时,项目开源了基准测试数据集与代码,及LOTUS引擎,助力科研与开发者打造更强大的研究辅助工具。公开的排行榜和论文为行业提供了参考标准和发展方向。

这一创新不仅展示了AI在学术研究领域的巨大潜力,也启示我们:面对日益爆炸的信息量,智能筛选和高质量合成是未来科研的关键。DeepScholar证明,技术进步能让学术知识更快、更准确、更易获取,推动科学发现的速度和深度。
Continuous batching:本文梳理了大型语言模型(LLM)推理效率的核心技术——连续批量处理(Continuous Batching)。从基础的注意力机制和KV缓存出发,逐步揭示了如何优化计算吞吐量,提升多用户同时服务的性能。

首先,LLM是通过预测下一个词元(token)实现文本生成的,但每生成一个词都需大量计算,尤其是注意力机制中计算查询(Q)、键(K)、值(V)三者之间的复杂关系,复杂度随序列长度平方增长。为了高效推理,引入了KV缓存:已计算过的键值对被存储,生成新词时无需重复计算,大幅减少计算量。

面对长提示词(prompt)超出显存限制,模型采用分块预填充(Chunked Prefill)策略,分批处理输入,结合KV缓存保持上下文信息完整,解决了显存瓶颈。

传统批量处理要求所有输入长度一致,需大量补齐(padding),导致资源浪费和效率下降。连续批处理突破这一限制,将多个请求的词元按序拼接,利用注意力掩码控制不同句子间不互相干扰,实现“锯齿形”批量处理(ragged batching)。结合动态调度,将已完成的请求即时替换为新请求,保持GPU利用率最大化。

总结来说,连续批处理整合了KV缓存、分块预填充和锯齿形批处理三大技术,极大提升了模型推理的吞吐量和效率,使得像ChatGPT这样的大规模服务能高效支持成千上万的并发用户。

这不仅是对模型计算逻辑的优化,更是架构设计上的创新,体现了在有限资源下满足海量实时请求的智慧。未来,随着缓存管理和调度策略的进一步演进,LLM推理的效率还将持续提升。
通义实验室推出Z-Image——一款仅60亿参数、性能卓越的图像生成基础模型。它通过系统性优化,证明了无需庞大模型规模,也能实现顶尖的真实感图像生成和中英文文本渲染,效果媲美领先商业模型。

Z-Image参数量仅为6亿,却能生成媲美十倍规模模型的高质量照片级真实图像,且能在普通显卡(<16GB显存)上流畅运行,极大降低了高端图像生成的门槛。目前已公开发布Z-Image-Turbo(生成版),编辑版Z-Image-Edit即将推出。

架构上,Z-Image采用单流扩散Transformer设计,将文本、图像条件信息与噪声潜变量统一编码为一条序列,简化模型结构,提升计算效率和表现力。

内部ELO竞技测试显示,Z-Image在开放源代码模型中处于领先地位,且与商业巨头模型竞争力强劲。

Z-Image-Turbo在细节、光影、质感控制上表现优异,高清真实且具备良好审美,生成效果兼顾真实感与艺术性。

特别值得一提的是它的双语文本渲染能力:不仅能准确呈现中英文文字,还能在海报设计中展现强大的构图与排版能力,即使小字体环境下也能保证文本清晰且美观。

Z-Image拥有丰富的世界知识与文化认知,能够精准生成名胜古迹、知名人物及特定实物,体现深厚的语义理解力。

内置的提示增强器(Prompt Enhancer)通过结构化推理注入逻辑与常识,支持处理复杂任务,如“鸡兔同笼”问题或古诗意境的视觉化,编辑时也能根据模糊指令推断用户意图,确保结果合乎逻辑。

编辑版Z-Image-Edit支持复杂指令执行,能同时修改与亮化背景,精准调整指定位置文本,并在大幅变换场景下保持人物一致性,实现对图像元素的细粒度控制。

GitHub | ModelScope | HuggingFace | Z-Image gallry
有人说用“vibe coding”(凭感觉用AI写代码)能直接做出上线的生产级应用,这是不现实的。生产环境的软件必然复杂,需要大量代码的编写和维护,单靠写prompt根本撑不起。

AI确实能帮你快速生成代码片段,甚至能做一些简单小工具、小项目,或者快速搭建原型,提升开发效率。但当涉及到真正的生产级应用,边界条件、集成、安全、性能和稳定性等问题,都需要工程师的严谨设计、测试和持续维护。

那些说“vibe coding”能做出SAP、Salesforce这样的大型系统,显然是夸张了。相反,经验丰富的工程师利用AI辅助,能快速完成70%-80%的代码工作,但他们依然需要深入理解业务、规范开发流程、严格测试和持续重构。

成功案例确实存在,比如一些小型APP或合规项目用AI辅助开发并上线,但这更多是建立在开发者本身具备扎实的基础和工程能力上。完全靠AI和prompt从零开始,几乎不可能保证产品质量和稳定性。

AI是加速器,不是替代品。真正的生产级软件开发,离不开架构设计、代码审查、测试覆盖和持续迭代。那些只靠prompt写代码,却指望一劳永逸的人,注定会碰壁。

生产级代码的核心,是对复杂性的掌控,而不是对AI的盲目信任。AI帮你写代码,工程师帮你撑起整个系统。
现代开发离不开终端和浏览器的频繁切换:查文档、预览文件、监控系统、调用 AI 助手等。

Wave Terminal
是一款开源跨平台终端,将传统终端功能与图形化操作完美结合,支持文件预览、网页浏览和智能 AI 辅助,所有操作都能在终端内完成,极大提升工作流效率。

Wave 支持 macOS、Windows 和 Linux,功能丰富包括:

- 灵活拖拽布局,管理多个终端、编辑器、浏览器和 AI 助手窗口;
- 内置编辑器支持远程文件编辑和语法高亮;
- 文件预览支持图片、视频、PDF、Markdown、CSV 等多种格式;
- AI 助手能理解终端上下文,辅助调试和文件操作;
- 远程连接一键直达,兼顾安全的凭证管理;
- 丰富自定义主题及命令行工作空间管理。
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

DeepSeekMath-V2代表了数学推理领域的重要突破。当前大型语言模型虽然在数学竞赛中表现优异,但仅靠最终答案的准确性无法保证推理过程的严谨性。DeepSeekMath-V2提出了“自我验证”机制,训练出一个高精度、可信赖的定理证明验证器,并以此作为奖励模型,推动生成器不断发现并修正自身证明中的错误,提升推理质量。

该方法不仅解决了传统强化学习模型忽视推理过程的问题,还通过扩大验证计算能力,自动标注新的复杂证明,持续增强验证器的能力。最终,DeepSeekMath-V2在IMO 2025、CMO 2024和Putnam 2024等顶级竞赛中取得了金牌水平的成绩,Putnam得分高达118/120,显示出强大的数学推理和证明能力。

这一成果表明,迈向自我验证的数学推理是提升AI数学能力的关键方向。它不仅推动了数学AI系统在科学研究中的应用潜力,也为解决开放性数学难题提供了新的思路和工具。尽管仍有挑战,DeepSeekMath-V2为未来可解释、可靠的数学AI奠定了坚实基础。
LaurieWired分享了一个实用技巧:通过合理格式化,你可以把普通的消费级SSD“升级”为接近企业级的耐用度,只需牺牲约5%的容量,就能获得约10倍的写入寿命提升。| 帖子 | #技巧

以Crucial MX500 1TB为例,默认耐用度是0.2 DWPD(每天写入全盘0.2次),而同样闪存颗粒的Micron 5300 PRO 960GB企业级SSD耐用度是1.5 DWPD。企业级SSD很大程度上其实是超额预留空间更多的消费盘,厂商刻意用更多预留区来换取更高耐用度,因为消费者通常偏好更大容量,却不太关注寿命。

Laurie的做法是新买SSD后,只格式化90%-95%的空间,留出一部分不分区不使用,等于人为增加了过度预留区。对于视频编辑等写入量巨大的场景,这样的空间换耐用度的策略非常划算,能显著延长盘的寿命。

其他网友补充指出,很多消费级SSD会在使用超过约50%容量时,从快速的SLC缓存模式切换到更慢的TLC或QLC,导致性能和延迟下降。留足空闲空间不仅延长寿命,也能保持性能稳定。还有人提醒,企业级SSD的电源断电保护和固件优化也更优秀,适合更苛刻的服务器环境。

这背后反映的是存储设计的一个核心原则:容量和耐用度经常是此消彼长的关系。对大多数普通用户来说,过度预留带来的耐用提升可能用不上,但对专业用户和重负载场景,合理减少可用容量换取耐用度,是一条高效且省钱的“升级”路径。

对消费者来说,理解SSD背后的工作机制和厂商策略,能帮助更聪明地使用硬盘,避免性能骤降和过早损耗。未来存储设备设计若能更开放、更易拆卸替换,像企业级的U.2、EDSFF接口那样,将大幅提升用户体验和设备寿命
Back to Top