曾发布经典 AI Agent 指南的谷歌高级总监再次出手,带来一份长达 171 页的 LLM 白皮书,堪称目前最全面、最系统化的 LLM 学习文档。

这份文档不仅是知识的集合,更是一张从核心原理到前沿架构的完整技术地图,覆盖了 LLM 领域的几乎所有关键节点。

文档核心结构:
- Part 1: 基础原理 🏗
从 Transformer 的开山之作“Attention is All You Need”讲起,深入浅出地剖析了 Encoder/Decoder、多头注意力机制、Scaling Laws 等基础,并延伸至上下文窗口管理、MoE、多模态等现代架构的核心概念。
- Part 2: 推理与对齐 🤖
系统梳理了从思维链 (CoT) 到思维树 (ToT) 的高级推理范式演进,并详细拆解了 RLHF、RLAIF、DPO 等关键的对齐技术,解释了模型如何学会“思考”并与人类价值观对齐。
- Part 3 & 4: 核心技术与代码实现 🛠
不仅逐行拆解了基础 Transformer 的代码实现,还对 MoE、GQA (Grouped-Query Attention)、RoPE (Rotary Position Embeddings)、KV Caching 等现代 LLM 赖以成功的关键优化技术,进行了原理与代码的双重解读。
- Part 5 & 6: 前沿架构与源码剖析 🔍
全面评述了 2025 年各大厂商的旗舰模型架构,包括 DeepSeek-V3、Llama 4、Gemma 3、Qwen3 等,并以 Google 开源的 Gemma 3 为例,进行了源码级的深度剖析。

这不仅是一份文档,更是一位资深从业者为你精心绘制的 LLM 技术全景图。
大语言模型(LLM)微调的5个高效技巧,突破传统算力瓶颈,极大提升参数利用率💡

• 传统微调因模型体量庞大(数百GB参数)不切实际,广泛采用参数高效微调(PEFT)手段,极大降低计算和存储需求。
• 核心思想:通过低秩矩阵分解,替代全量权重更新,实现信息压缩与精细调整。

1️⃣ LoRA
- 添加两个低秩训练矩阵 A 和 B,替代直接微调巨量权重 W。
- 内存占用仅几MB,支持超大模型。
- QLoRA 是其量化版本,进一步节省资源。

2️⃣ LoRA-FA
- 冻结矩阵 A,仅更新矩阵 B,显著减少激活内存开销,适合资源受限场景。

3️⃣ VeRA
- A、B 矩阵冻结且随机共享全层,通过学习层特化缩放向量 b、d 实现微调,进一步压缩参数空间。

4️⃣ Delta-LoRA
- 不同于传统,微调时将 A 和 B 乘积的增量(delta)累加至 W,兼顾微调灵活性与稳定性。

5️⃣ LoRA+
- 赋予矩阵 B 更大学习率,优化收敛速度与效果,提升训练效率。

这些方法均基于矩阵低秩近似,体现了对模型结构和训练动态深刻理解,助力更普适、高效的 LLM 微调实践。高效 PEFT 技术已成为大模型实际应用的关键突破口。
MaxKB:打造企业级智能体的开源利器,集成最新RAG技术与多模态交互,助力复杂业务场景智能升级。

• RAG Pipeline支持文档上传与自动爬取,自动分割与向量化极大降低大模型幻觉,提升问答准确率。
• 强大的Agentic Workflow引擎搭配丰富函数库和MCP工具,灵活编排AI流程,适配多样复杂业务需求。
• 无需编码即可快速无缝集成至现有系统,快速赋能智能客服、知识库、学研和教育场景,提升用户体验。
• 模型无关设计,兼容DeepSeek、Llama、Qwen等私有模型和OpenAI、Claude、Gemini等公有模型,灵活选型。
• 原生支持文本、图片、音频、视频多模态输入输出,拓展智能体交互边界。
• 基于Vue.js、Python/Django和LangChain技术栈,稳定高效,数据存储采用PostgreSQL+pgvector保障性能。

MaxKB让企业智能体建设不再受限于复杂开发,快速实现业务智能化转型的同时,降低风险和成本。
PageIndex:颠覆传统向量检索的专业文档多步推理检索系统

• 摒弃向量数据库与强制切块,利用文档天然结构和LLM推理实现精准检索
• 模拟专家思维,构建“目录树”索引,采用树搜索方式高效定位关键内容
• 透明检索流程,摆脱传统向量检索的“模糊匹配”,实现真正的相关性而非相似性
• 支持超长文档(财报、法规、学术和技术手册等),突破LLM上下文限制
• PageIndex OCR提升复杂PDF结构识别,领先市面主流OCR工具,保证层级与语义完整
• 开源自主部署或云端即用,提供API和Dashboard,快速上手零门槛
• Mafin 2.5基于PageIndex,在FinanceBench财经文档分析基准中达98.7%准确率,显著超越传统RAG
orx-parallel:高性能、可配置且表达力强的并行计算库,专注于通过迭代器方法组合定义并行任务。

• 迭代器即并行计算:只需将 .iter() 替换为 `.par()`,即可轻松将顺序程序转为高效并行程序,支持常用的 map、filter、reduce 等链式操作,极大简化并行开发复杂度。

• 支持多种并行集合类型:内置对 Vec、VecDeque、Slice、Range 等标准库集合的直接并行支持,及 SplitVec、FixedVec、LinkedList 等自定义集合;同时可通过实现 IntoConcurrentIter 轻松扩展新集合。

• 任意迭代器均可并行:通过 `iter_into_par()`,实现对任意标准迭代器的并行化,支持可变引用并发访问,具备缓冲和任务切片优化,适合计算密集型任务。

• 灵活处理不可并行集合:提供两种策略——基于迭代器并行化或先收集至 Vec 后并行处理,用户可根据元素大小和任务复杂度灵活选用,兼顾性能和内存开销。

• 全面性能优势:多项基准测试显示,orx-parallel 在 collect、reduce、early-exit 等典型场景均显著优于 rayon 和顺序执行,且支持长链式复杂计算高效组合。

• 支持失败短路的并行迭代器:创新引入 fallible parallel iterators,模拟 Rust ? 操作符语义,实现包含错误传播的并行流程控制,提升代码简洁性与错误处理效率。

• 线程本地可变变量安全访问:通过 using 与 `using_clone`,为每个线程管理独立可变状态,完美解决并行环境下的竞态条件,适合带状态的随机数生成等场景。

• 配置简洁灵活:支持自动或手动设置线程数与任务块大小,兼顾资源限制和负载均衡,允许按需降级至顺序执行,满足多样化性能调优需求。

• 采用无锁高效并发结构:底层基于 lock-free 并发迭代器和线程安全容器,提升并行输入拉取与输出收集效率,同时可自定义 ParallelRunner 以适配特殊应用。

orx-parallel 适合需要极致性能与灵活性的 Rust 并行计算场景,帮助开发者用最小改动获得最大加速,兼容多种集合和复杂迭代操作,长远来看极大提升并行代码的可维护性与扩展性。
Kingfisher:极致高速的多源秘密检测与实时验证利器,助力代码安全全方位护航

• Rust语言打造,结合Intel硬件加速Hyperscan正则引擎与Tree-Sitter语言感知解析,实现多线程超高速扫描
• 内置数百条规则,支持自定义YAML规则,覆盖20+编程语言和各类云服务、AI SaaS、DevOps工具的密钥与令牌检测
• 支持扫描多种目标:本地Git仓库、GitHub/GitLab组织与用户、仓库工件(issue、PR、wiki等)、Docker镜像、Jira问题、Confluence页面、Slack消息及AWS S3桶
• 实现压缩包内文件解压扫描、Base64内容检测,结合活跃凭证的云API实时验证,精准识别有效密钥
• 灵活的基线管理,支持已知秘密抑制,确保只报警新增风险,提升排查效率
• 多平台支持,提供macOS、Linux、Windows原生二进制,方便集成CI/CD流水线与安全审计流程
• 丰富CLI参数,支持扫描路径过滤、性能统计、输出JSON/SARIF等多格式报告,满足企业级安全合规需求
• 自动版本检测与一键自更新,保障工具长期高效稳定运行
Kingfisher以极致性能与多源覆盖打破传统秘密扫描局限,成为现代云原生与多团队环境下不可或缺的安全利器。
CodeCombat:用游戏方式重塑编程学习体验

• 多人在线编程游戏,结合趣味与实战,适合初学者和进阶者。
• 完全开源,代码采用MIT许可,艺术与音乐资源遵循CC-BY协议,社区活跃,贡献友好。
• 丰富的开发者文档和Wiki支持,提供详细的开发环境搭建及功能扩展指南。
• 支持API集成,包含SSO、用户管理及学习进度数据,便于教学平台和应用深度对接。
• 关卡内容虽非开源,但游戏核心技术开放,方便开发者参与创新与定制。
• 提供Slack开发者聊天室、论坛和问题追踪,助力从新手到专家的技术交流与合作。
• 代码与艺术的完美结合,激发学习动力,项目已吸引8.2k星标和4.1k分叉。

用游戏激活编程学习新可能,推动全球数百万玩家发现编码乐趣。
iOS OCR Server 利用 Apple Vision Framework,将 iPhone 转变为本地高精度 OCR 服务器,实现无云依赖、无限制使用与完整隐私保护:

• 自动启动服务器,局域网内设备通过 IP 访问,方便快捷
• 支持多语言自动识别,适配多国文字环境
• 通过 Web 上传图片,秒级返回文本识别结果,效率极高
• JSON 格式 API,轻松集成进自有应用,支持 Python 等多语言调用
• 100% 本地处理,无需联网,确保数据安全与隐私无忧
• 可在同一网络内共享 OCR 服务,多设备协同构建分布式识别系统
• iOS 引导访问模式保证持续运行,适合自动化、批量识别场景

摒弃传统云 OCR 的延迟与隐私风险,iOS OCR Server 让本地设备成为智能文字识别中心,适合开发者、企业和隐私敏感场景长期使用。| #OCR
AgentScope:面向大模型应用的开发框架,突破传统封装,打开可视化与可控性新局面。| #框架

• 透明可控:所有流程(Prompt、API、Agent构建、工作流编排)一览无遗,无隐式魔法,便于调试和优化。
• 实时中断与定制处理,支持对对话和任务执行的动态干预,保障交互连贯且灵活。
• 模块化乐高搭建:组件独立、自由组合,支持异步执行、多工具并行调用和多智能体协同。
• 多智能体架构:显式消息传递,工作流清晰,适合复杂协作场景,无深度封装导致的黑箱风险。
• 模型无关:一次编程,多模型运行,兼容多种大模型,极大提升开发效率与适应性。
• 长期记忆与工具管控:支持智能体级工具管理与长期记忆,增强任务持续性和上下文理解。
• 丰富支持:OpenTelemetry追踪、多渠道高精度控制、分布式评测及可视化调试工具(AgentScope Studio)全覆盖。
• 开源且活跃:Apache-2.0许可,10.6k ⭐️,已发布1.0版本,支持Python 3.10+,社区资源丰富,教程完善。

近期重磅更新:AgentScope Runtime和Studio已开源,助力生产级部署和直观开发体验。
适用领域涵盖多智能体对话、复杂工具调用、异步任务编排等前沿AI应用场景。
Speech Note:Linux 及 Sailfish OS 下的全离线语音笔记解决方案,集成语音转文字、文字转语音与机器翻译,全面兼顾隐私与多语种支持。

• 完全离线处理,语音识别、语音合成及翻译均在本地完成,杜绝数据外泄风险🛡
• 支持多种领先引擎:Coqui STT、Vosk、whisper.cpp、Faster Whisper、Piper、RHVoice、Bergamot Translator 等
• 覆盖上百种语言及方言,支持多种STT和TTS模型自由下载与切换,用户可自定义扩展模型库
• 提供Flatpak安装包及AUR、openSUSE仓库支持,方便在主流Linux发行版和Sailfish OS上部署
• GPU加速选项(NVIDIA、AMD),显著提升语音处理速度,满足高效办公需求
• 支持命令行操作与全局快捷键,灵活集成桌面工作流,兼容Wayland与X11环境
• 特色功能包括字幕生成与同步朗读,语音转字幕(SRT格式),实现多场景应用
• 项目开源,基于MPL-2.0协议,依托丰富开源生态,持续活跃开发与社区贡献

无网络条件下的高性能语音笔记与翻译工具,适合注重隐私与多语言环境的专业用户。
Back to Top