很多技术爱好者和开发者想快速跟上AI领域的发展,但面对海量资料往往无从下手。

AI Crash Course 是一个开源项目,专门为忙碌的开发者设计,帮助你在两周内掌握AI研究的前沿动态和核心知识。

它整理了从基础神经网络到最新大语言模型的关键论文和综述文章,涵盖了模型架构、训练方法、推理规划、应用案例和基准测试等多个方面。

项目还推荐了高质量的教学视频和实用网站,方便你系统学习和实践。

主要内容包括:

- 详尽的神经网络和大语言模型系列学习路径;
- 2023-2025年最新的调研论文和技术突破;
- 重点论文解读,如Transformer、RLHF、LoRA等;
- 规划与推理模型,如AlphaZero、Chain of Thought等;
- 实际应用和前沿开源项目介绍;
- 各类AI评测基准和排行榜;
- 精选视频课程和学习资源推荐。

支持快速掌握AI核心知识,适合想系统学习AI、跟进前沿进展的开发者和研究人员。
Sebastian Raschka新发布的长篇博文《Beyond Standard LLMs

主要介绍了几种新兴的LLM替代架构,包括线性注意力混合架构、文本扩散模型、代码世界模型以及小型递归变换器等。| #替代品

1️⃣线性注意力混合架构:此类模型旨在提高计算效率,尤其是在处理长序列时的性能。例如,Kimi Linear与Qwen3-Next都采用了混合注意力策略,能够更好地控制内存使用。

2️⃣文本扩散模型:文本扩散模型借鉴了图像生成中的去噪扩散概率模型(Denoising Diffusion Probabilistic Models)。这些模型通过逐步去噪的方式生成文本,从而实现更高效和更快速的生成。

3️⃣代码世界模型(Code World Models):这一新兴方向结合了LLM与世界模型的思想,尝试通过更深层次的结构理解代码生成。尽管目前这些模型还处于概念验证阶段,但它们显示了AI发展的另一种可能路径。

4️⃣小型递归变换器:这种架构适用于特定任务,如推理和谜题解决,具有轻量级和高效性,可能成为其他工具调用型LLM的补充。
DeepOCR -- DeepSeek-OCR的完全开源复现项目

DeepSeek-OCR的开源是只包含权重和技术报告,想复现还是有些难度。爱荷华州立大学和普林斯顿大学搞得这个 DeepOCR 项目则带你从头开始复现 deepseek-ocr 的训练过程,包括训练和评估的代码等。
知名游戏设计师Raph Koster,总结的游戏设计的12个步骤:

第一部分:游戏的核心(问题与乐趣)
🌟乐趣 (Fun): 对游戏设计而言,有用的“乐趣”定义是“精通问题”和“对预测取得进展”。它是一种学习和掌握的过程,而不是单纯的感官愉悦(如看五彩纸屑)。

🌟问题与玩具 (Problems and toys): 游戏就是有目标的问题(由规则和约束定义)。如果一个系统只有规则和约束但没有目标,它就是“玩具”。玩家通过自行设定目标,将玩具变为游戏。

🌟预测与不确定性 (Prediction and uncertainty): 游戏是围绕“不确定性”建立的。游戏的过程就是将不确定的结果变为确定。好的游戏问题(与“谜题”相对)具有深度和不确定性,允许玩家不断演进答案。

第二部分:游戏的基本机制(循环与反馈)
🌟循环 (Loops): 游戏包含两种循环:
操作循环: 玩家“观察-假设-行动-检验结果-更新假设”的互动过程。
进阶循环: 即“核心循环”。玩家在不断变化的情境中重复核心动作(如在不同位置捡起棍子),这是一个螺旋上升的学习过程,直到玩家完全掌握(变得可预测),乐趣也就终结了。

🌟反馈 (Feedback): 学习的基础。玩家必须清楚地知道:①能做什么(行动)?②是否做了(确认)?③产生了什么效果(状态改变)?④这效果是好是坏(目标评估)?反馈必须清晰且与底层问题相符。

🌟变化与升级 (Variation and escalation): 游戏系统设计是设计“问题类型”(如“如何乘法”),而不是“内容”(如“6x9等于多少”)。好的机制(动词)应适用于多种不断升级的复杂情境,迫使玩家测试、提炼和放弃旧策略(如《吃豆人》用随机性升级难度)。

第三部分:构建完整的体验
🌟节奏与平衡 (Pacing and balance): 玩家在“挑战略高于其能力”时学习效果最好。游戏的节奏应像“上升的正弦波”:挑战、达到高峰、适当喘息(但难度不完全回落)、再进行更高挑战。

🌟游戏由游戏构成 (Games are made of games): 几乎没有游戏只有一个循环。游戏是多个循环(小问题)通过“价值链”或“游戏经济”(如FPS中的射击循环+移动循环)编织、嵌套而成的复杂网络。

🌟系统设计 (Actual systems design): 游戏问题的基本类型是有限的(如数学、社交、身体掌握)。这些问题经常被伪装。设计师应从其他游戏和现实世界中“窃取”这些系统原型,并加以组合。

🌟包装与体验 (Dressing and experience): 这是指用美术、故事、设定等“外皮”来呈现底层的问题。同一套数学问题(底层系统)可以被包装成截然不同的体验(如扔球或计算毒素伤害)。“包装”艺术和“系统”设计是相辅相成的。

第四部分:宏观视角
🌟动机 (Motivations): 玩家(因心理、文化等因素)对不同类型的问题和包装有不同的偏好。了解目标受众的动机,是决定“为谁设计什么问题”的关键。

🌟简单,但并非如此 (It’s simple, but not): 这十一个步骤中的每一步都是一个庞大的学科。设计师需要“广知皮毛,精通一处”。游戏设计的难点在于,设计师和玩家都在一同学习。如果设计师只做自己会的,玩家会觉得无聊(类型死亡);如果做得太复杂,玩家无法理解(类型也会死亡)。真正的乐趣(对设计师和玩家而言)永远存在于“已知”和“未知”的边缘。
在处理大语言模型(LLM)时,JSON数据虽然通用,但往往令token消耗高昂,成本不菲。

Token-Oriented Object Notation(TOON)
是一个专为LLM设计的高效序列化格式,以更紧凑的结构表达相同信息,通常能节省30%~60%的token。

TOON结合了YAML的缩进层级和CSV的表格形式,特别适合统一结构的数组对象,既保留了数据的明确定义,又大幅降低了token使用量。同时,TOON支持多种分隔符(逗号、制表符、管道符),可根据需求灵活切换,进一步提升效率。

主要特点包括:
- 结构清晰,易于LLM解析和验证
- 语法简洁,避免冗余符号
- 支持嵌套对象和表格数组
- 具备严格和宽松两种解码模式
- 提供官方TypeScript实现及CLI工具,方便集成和转换

非常适合需要大量结构化数据输入LLM的场景,如提示工程、数据传输和模型交互。
Karpathy说得对:YouTube上的内容充其量是“信息娱乐”,很多时候只是娱乐而已。真正的学习,尤其是数学等难学科,来自结构化课程和专家反馈。看视频不能让你掌握知识,解决问题才是关键。| 帖子

大量实践才能培养直觉,单靠观看视频无法替代动手做题。YouTube视频能激发兴趣,启发思考,但不能代替系统训练和刻意练习。就像运动技能一样,数学需要重复和深入钻研。

有些人通过与AI对话深化理解,读书只是引导,真正的学习靠主动思考和反复实践。LLM模型有时会产生错误,不能完全依赖。

无论是编程、写作还是体育,光看别人做永远成不了高手。学习是“做”的过程,是在解决问题中构建内化的知识体系,而非被动接受。

YouTube是很好的起点,免费且易接触,但它只能作为辅助手段。结构化课程、同伴支持和真实反馈才是深度学习的保障。知识的真正掌握,是行动驱动的结果。
Back to Top