Sebastian Raschka新发布的长篇博文《Beyond Standard LLMs

主要介绍了几种新兴的LLM替代架构,包括线性注意力混合架构、文本扩散模型、代码世界模型以及小型递归变换器等。| #替代品

1️⃣线性注意力混合架构:此类模型旨在提高计算效率,尤其是在处理长序列时的性能。例如,Kimi Linear与Qwen3-Next都采用了混合注意力策略,能够更好地控制内存使用。

2️⃣文本扩散模型:文本扩散模型借鉴了图像生成中的去噪扩散概率模型(Denoising Diffusion Probabilistic Models)。这些模型通过逐步去噪的方式生成文本,从而实现更高效和更快速的生成。

3️⃣代码世界模型(Code World Models):这一新兴方向结合了LLM与世界模型的思想,尝试通过更深层次的结构理解代码生成。尽管目前这些模型还处于概念验证阶段,但它们显示了AI发展的另一种可能路径。

4️⃣小型递归变换器:这种架构适用于特定任务,如推理和谜题解决,具有轻量级和高效性,可能成为其他工具调用型LLM的补充。
DeepOCR -- DeepSeek-OCR的完全开源复现项目

DeepSeek-OCR的开源是只包含权重和技术报告,想复现还是有些难度。爱荷华州立大学和普林斯顿大学搞得这个 DeepOCR 项目则带你从头开始复现 deepseek-ocr 的训练过程,包括训练和评估的代码等。
知名游戏设计师Raph Koster,总结的游戏设计的12个步骤:

第一部分:游戏的核心(问题与乐趣)
🌟乐趣 (Fun): 对游戏设计而言,有用的“乐趣”定义是“精通问题”和“对预测取得进展”。它是一种学习和掌握的过程,而不是单纯的感官愉悦(如看五彩纸屑)。

🌟问题与玩具 (Problems and toys): 游戏就是有目标的问题(由规则和约束定义)。如果一个系统只有规则和约束但没有目标,它就是“玩具”。玩家通过自行设定目标,将玩具变为游戏。

🌟预测与不确定性 (Prediction and uncertainty): 游戏是围绕“不确定性”建立的。游戏的过程就是将不确定的结果变为确定。好的游戏问题(与“谜题”相对)具有深度和不确定性,允许玩家不断演进答案。

第二部分:游戏的基本机制(循环与反馈)
🌟循环 (Loops): 游戏包含两种循环:
操作循环: 玩家“观察-假设-行动-检验结果-更新假设”的互动过程。
进阶循环: 即“核心循环”。玩家在不断变化的情境中重复核心动作(如在不同位置捡起棍子),这是一个螺旋上升的学习过程,直到玩家完全掌握(变得可预测),乐趣也就终结了。

🌟反馈 (Feedback): 学习的基础。玩家必须清楚地知道:①能做什么(行动)?②是否做了(确认)?③产生了什么效果(状态改变)?④这效果是好是坏(目标评估)?反馈必须清晰且与底层问题相符。

🌟变化与升级 (Variation and escalation): 游戏系统设计是设计“问题类型”(如“如何乘法”),而不是“内容”(如“6x9等于多少”)。好的机制(动词)应适用于多种不断升级的复杂情境,迫使玩家测试、提炼和放弃旧策略(如《吃豆人》用随机性升级难度)。

第三部分:构建完整的体验
🌟节奏与平衡 (Pacing and balance): 玩家在“挑战略高于其能力”时学习效果最好。游戏的节奏应像“上升的正弦波”:挑战、达到高峰、适当喘息(但难度不完全回落)、再进行更高挑战。

🌟游戏由游戏构成 (Games are made of games): 几乎没有游戏只有一个循环。游戏是多个循环(小问题)通过“价值链”或“游戏经济”(如FPS中的射击循环+移动循环)编织、嵌套而成的复杂网络。

🌟系统设计 (Actual systems design): 游戏问题的基本类型是有限的(如数学、社交、身体掌握)。这些问题经常被伪装。设计师应从其他游戏和现实世界中“窃取”这些系统原型,并加以组合。

🌟包装与体验 (Dressing and experience): 这是指用美术、故事、设定等“外皮”来呈现底层的问题。同一套数学问题(底层系统)可以被包装成截然不同的体验(如扔球或计算毒素伤害)。“包装”艺术和“系统”设计是相辅相成的。

第四部分:宏观视角
🌟动机 (Motivations): 玩家(因心理、文化等因素)对不同类型的问题和包装有不同的偏好。了解目标受众的动机,是决定“为谁设计什么问题”的关键。

🌟简单,但并非如此 (It’s simple, but not): 这十一个步骤中的每一步都是一个庞大的学科。设计师需要“广知皮毛,精通一处”。游戏设计的难点在于,设计师和玩家都在一同学习。如果设计师只做自己会的,玩家会觉得无聊(类型死亡);如果做得太复杂,玩家无法理解(类型也会死亡)。真正的乐趣(对设计师和玩家而言)永远存在于“已知”和“未知”的边缘。
在处理大语言模型(LLM)时,JSON数据虽然通用,但往往令token消耗高昂,成本不菲。

Token-Oriented Object Notation(TOON)
是一个专为LLM设计的高效序列化格式,以更紧凑的结构表达相同信息,通常能节省30%~60%的token。

TOON结合了YAML的缩进层级和CSV的表格形式,特别适合统一结构的数组对象,既保留了数据的明确定义,又大幅降低了token使用量。同时,TOON支持多种分隔符(逗号、制表符、管道符),可根据需求灵活切换,进一步提升效率。

主要特点包括:
- 结构清晰,易于LLM解析和验证
- 语法简洁,避免冗余符号
- 支持嵌套对象和表格数组
- 具备严格和宽松两种解码模式
- 提供官方TypeScript实现及CLI工具,方便集成和转换

非常适合需要大量结构化数据输入LLM的场景,如提示工程、数据传输和模型交互。
Karpathy说得对:YouTube上的内容充其量是“信息娱乐”,很多时候只是娱乐而已。真正的学习,尤其是数学等难学科,来自结构化课程和专家反馈。看视频不能让你掌握知识,解决问题才是关键。| 帖子

大量实践才能培养直觉,单靠观看视频无法替代动手做题。YouTube视频能激发兴趣,启发思考,但不能代替系统训练和刻意练习。就像运动技能一样,数学需要重复和深入钻研。

有些人通过与AI对话深化理解,读书只是引导,真正的学习靠主动思考和反复实践。LLM模型有时会产生错误,不能完全依赖。

无论是编程、写作还是体育,光看别人做永远成不了高手。学习是“做”的过程,是在解决问题中构建内化的知识体系,而非被动接受。

YouTube是很好的起点,免费且易接触,但它只能作为辅助手段。结构化课程、同伴支持和真实反馈才是深度学习的保障。知识的真正掌握,是行动驱动的结果。
博士生必备工具清单,助你科研提效:

1. 论文写作——AnswerThis,帮你快速构建内容框架
2. 语法拼写校对——Paperpal,提升论文语言质量
3. 文献综述数据提取——SciSpace,高效抓取关键信息
4. 论文同行评审——Review-it,获得专业反馈
5. 奖学金申请——Global Study Road,精准定位机会
6. 论文引用查找——Liner,轻松找到相关文献
7. 理解复杂主题——Ponder,深入剖析难点
8. 文献筛选——Jenni AI,智能推荐高质量论文
9. 论文转海报——Bohrium,一键生成展示材料

这些工具中,有免费试用也有付费选项,覆盖从写作、校对到研究辅助的各个环节。合理使用,能显著提升效率与成果质量。
传统文件系统为应用提供文件和目录的抽象,而AgentFS则专为AI代理设计,提供了符合代理需求的存储解决方案。

AgentFS基于SQLite和Turso实现,集成了类POSIX虚拟文件系统、键值存储和操作审计功能,所有代理产生的文件、状态和工具调用都存储在一个SQLite数据库文件中,方便调试、回溯和迁移。

主要功能包括:

- 命令行工具(CLI)管理代理文件系统;
- TypeScript和Rust SDK支持程序化访问;
- 兼容Linux的沙箱环境,安全执行代理代码;
- 完整的SQLite架构规范,支持审计和历史查询。
Back to Top