Andrew Ng 推出全新课程《Agentic AI》!

AI智能体开发正成为职场最抢手技能。这门课程系统教授4大关键设计模式:

1. 反思(Reflection)——智能体自我审视输出,持续改进;
2. 工具调用(Tool use)——结合大语言模型(LLM)调用搜索、日历、邮件、编程等功能;
3. 规划(Planning)——用LLM拆解任务,合理分配子任务执行;
4. 多智能体协作(Multi-agent collaboration)——构建多个专职智能体协同完成复杂任务。

课程还教你如何将复杂应用拆解成任务序列,系统应用这些模式。

最重要的是,Andrew Ng强调严谨的评估和错误分析流程是成功执行的关键。课程传授如何基于数据精准定位改进点,避免盲目试错,极大提升开发效率和质量。

课程采用纯Python实现,框架中立,帮助你深入理解底层原理,适合熟悉Python且了解LLM基础的学员,无论未来用哪个框架都能轻松上手。

未来,掌握Agentic AI设计模式,将让你在AI浪潮中抢占先机,打造真正能自主解决复杂问题的智能系统。
无限大的餐巾纸》| #电子书

这是一本浅显易懂且大部分内容自成一体的高等数学入门书籍,涵盖的范围大致从本科课程到研究生第一年的内容。

该书提供了各个领域的主旨概览,讲述了它们的魅力所在。它不像传统教科书那样详细,但比通俗数学书籍更为精准,并假设读者具备一定的证明经验。例如,定义和定理的表述通常会是完整且准确的,但对于结果为何“应当”成立的解释会优先于正式证明。

本书的目标仅仅是让读者对某个特定主题有所感觉,而不是要模拟一整个学期的课程。

作者最初写这本书时,心中设想的读者是那些才华横溢的高中生,尤其是有数学奥林匹克竞赛背景的学生。这种文化偏好的些许痕迹在书中仍随处可见,尤其体现在那些选自数学竞赛的各类挑战题中。
Large Language Model Optimization: Memory, Compute, and Inference Techniques

大型语言模型(LLM)训练与推理的优化技术总结:

随着模型参数规模达到数十亿,传统训练和部署方法面临巨大挑战。本文凝练了业内主流且高效的优化思路,涵盖内存、计算和推理三大核心方向,适合对大模型优化感兴趣的技术人员和面试准备者参考。

一、显存优化
- Flash Attention:通过“切块计算+重算”降低注意力机制的内存复杂度,从全矩阵处理变为分块处理,仅保存归一化因子,显著减小内存占用。
- 多查询注意力(MQA/GQA):共享键值减少内存,分组查询权衡效率与质量。
- 激活检查点:保存部分激活,训练时重算其余,降低显存压力。

二、计算优化
- 序列打包:将多条训练序列拼接,消除padding,提升GPU利用率。
- 高效Transformer:借助BigBird、Longformer等局部+全局注意力,实现长序列线性复杂度。
- 低秩近似与层级扩张注意力:进一步降低计算量,支持更大规模输入。

三、推理优化
- KV缓存:缓存历史键值,避免重复计算,提升生成速度和内存效率。
- 状态缓存:用滚动哈希和LRU算法管理对话历史,支持缓存复用。
- 推测解码:先用小模型快速生成候选,再用大模型验证,推理速度提升2-3倍。
- 量化技术:8位、混合精度和量化感知训练,在保证精度前提下极大压缩模型大小。

四、训练优化
- 混合精度训练:bfloat16结合动态loss scaling,兼顾速度和数值稳定。
- 数据并行与ZeRO优化:通过分割参数、梯度和优化器状态,实现显存极限压缩。
- 流水线并行:GPipe、PipeDream等减少GPU空闲,支持多阶段并行执行。
- 张量并行:列切分和行切分矩阵乘法,实现大模型跨设备高效计算。
- 上下文并行:序列长度分割多GPU,结合先进通信协议保证效率。
- 专家并行(MoE):引入专家子网,路由不同token至不同专家,显著扩展模型容量,同时需解决负载均衡。

优化大模型是一项系统工程,需多维度平衡内存、计算和通信开销。本文汇总的核心技术涵盖了当前业界最前沿的思路,有助于理解和掌握大模型训练与推理的关键瓶颈及解决方案。未来,随着模型规模持续增长,这些优化策略将愈发重要。
Jason Zhou 分享了如何通过“上下文工程”(Context Engineering)和完善的文档系统,让 Claude Code 在复杂代码库中的表现提升10倍,干货满满,值得深度学习:

1. 上下文工程是关键
Claude Code 默认接收系统提示(System prompt)、系统工具、MCP工具、CLAUDE.md文档和消息。使用 /context 指令可以查看上下文结构,合理设计上下文能极大提升代码智能生成质量。

2. 子代理(Sub-agent)管理上下文
子代理适合只读任务(如调研),能将大量信息浓缩成关键摘要,帮助主代理聚焦核心内容,避免上下文爆炸。

3. 高效的文档系统至关重要
Jason推荐建立 .agent 文件夹,包含:
- System:项目结构、技术栈、数据库模式、关键模块
- SOP:常见错误及最佳实践流程
- Tasks:产品需求文档(PRD)
- README:文档总目录,支持管理大型代码库

这个结构借鉴了 Manus 的本地缓存上下文卸载思路,能处理复杂项目。

4. 自动更新文档
设计 /update-doc 命令,代理每完成关键功能或修正错误后自动更新文档,保持知识库与代码同步,防止“上下文漂移”。

5. 实践案例:管理遗留代码库
@ODMtweets 分享了用类似方法管理基于 WordPress 的大规模遗留代码库。为每个类生成文档,并配合定制代理模式,显著提升了代理对旧代码的理解和操作效率。

上下文工程改变游戏规则:合理设计上下文不仅提升效率,还能让初级开发者产出接近资深水平。
- 文档驱动开发(DDD)落地:结合PRD和细化任务计划,让AI协助代码实现与评审,形成闭环。
- 防止提示漂移:保持文档即时更新和子代理分工,避免上下文信息丢失或偏离目标。
- 成本与收益权衡:更智能的上下文管理虽增加计算成本,但带来的开发效率提升远超投入。
OpenZL 是 Meta 开源的高性能数据压缩框架,兼具极高压缩率和超快速度,专门针对特定格式的数据打造专属压缩器,远超通用压缩工具的表现。| #框架

它由核心库和生成专用压缩器的工具组成,支持单一通用解压器,特别适合需要处理海量专业数据(如 AI 训练数据)的工程师们。

主要特点:

- 针对数据格式定制压缩方案,压缩率和速度双优;
- 提供通用解压器,兼容所有生成的压缩数据;
- 支持多线程构建,适配多平台(Web、Windows、macOS等);
- 活跃开发中,Meta 已在生产环境广泛使用;
- 提供丰富文档和快速入门教程,方便快速上手。
很多实时流式数据传输场景中,网络断开导致数据丢失是个难题。

resumable-stream 是一个开源库,专为 Web 流(比如 SSE)设计,支持客户端断点续传和多客户端同步跟随。

它基于 Redis 的发布订阅机制,能在无状态无粘性负载均衡的服务器环境下稳定工作,且优化了延迟和 Redis 资源消耗,日常使用时性能开销极小。

主要功能:
- 支持客户端断线后从断点恢复数据流
- 多客户端可同时订阅同一流,保持数据同步
- 适用于服务器无状态架构(Serverless)
- 与 Next.js 等现代框架兼容,API 简洁易用
- 支持 ioredis 作为 Redis 客户端替代方案

适合需要实时流数据可靠传输、断点续传功能的 Web 开发者和产品,特别是事件流、消息推送等场景。
轻松实现流式数据的高可用和多端同步体验。
开发者日常常用的各种小工具,找半天还要装一堆软件,效率大打折扣?

ut 是一个基于 Rust 的轻量级开发者工具箱,把常见的编码、哈希、UUID生成、文本处理、HTTP工具等功能整合到一个命令行程序里。安装简单,一条命令搞定,极大提升工作流畅度。| #工具

主要功能:

- Base64 和 URL 编码/解码
- 多种哈希算法(MD5、SHA 系列)快速计算
- 多版本 UUID 生成,支持v1/v3/v4/v5/v7
- 生成安全随机 Token 和占位文本
- 文本大小写转换、差异对比和 JSON 构建
- 交互式正则测试工具
- 日期时间解析和时区转换
- 本地 HTTP 文件服务器和二维码生成
- 多色彩格式转换和 Unicode 符号查询

支持 Linux、macOS 和 Windows,单文件二进制无依赖,适合开发者和 IT 专业人士日常使用。

安装方式多样,支持源码编译,也有预编译脚本,开箱即用。

命令行输入 ut --help 查看所有功能,极简设计,极致体验
代码质量检查总是离不开多种工具的配合,静态分析、复杂度检测、死代码识别……切换太多工具效率低。

pyscn 是一个开源的 Python 代码质量分析器,集成了静态分析、代码复杂度、克隆检测、架构耦合度和死代码检测等多项功能,一站式帮你掌控代码健康。

不仅能精准发现冗余死代码、重复代码片段,还能量化函数复杂度和模块依赖,助力你持续保持代码整洁易维护。

主要功能:

- 基于控制流图(CFG)的死代码检测,帮你找出无法执行的代码路径;
- 利用树编辑距离和局部敏感哈希(LSH)实现代码克隆检测,发现重构机会;
- 计算模块耦合度(CBO),监控架构质量和依赖关系;
- 环形复杂度分析,揭示过于复杂的函数,提示拆分重构;
- 支持生成详细的 HTML 和 JSON 报告,方便集成到CI/CD流程;
- 快速的质量门控检查,轻松设定复杂度阈值,自动通过或失败;

支持通过 pipx 一键安装,命令行操作简单,适合 Python开发者、团队和持续集成环境使用。
医学数据分析往往涉及大量复杂的多变量时序和文本信息,传统模型难以同时理解和推理这些多模态数据。

OpenTSLM 是斯坦福团队开源的时间序列语言模型项目,创新性地将时序数据作为原生输入模态,融合预训练大语言模型,实现对多变量医疗时序和文本数据的自然语言推理。

它可以处理任意长度的多条时序数据,自动生成诊断结论、数据解读和推理过程,支持睡眠阶段判别、心电问答、人类活动识别等多种任务。

主要特点:

- 原生支持多变量时序与文本的联合推理;
- 多阶段课程式训练,提升模型在医疗时序任务的表现;
- 兼容主流大语言模型(如Llama、Gemma);
- 开放源码,方便研究者复现和扩展;
- 提供详细示例和完整训练流程。

适合医学AI研究者、数据科学家和数字健康领域开发者使用,助力医疗时序数据智能分析与临床辅助决策。
Back to Top