ollm:在仅8GB显存的GPU上,利用SSD卸载技术运行超大语言模型(LLM)并支持10万token上下文,无需量化处理。这意味着即使硬件受限,也能处理海量上下文数据。

🔹 速度约为0.5 token/秒,虽不适合实时交互,但适合非实时、离线或后台任务。
🔹 这种做法对SSD寿命有较大影响,需权衡性能与硬件耐用性。
🔹 业内讨论关注点:
- 是否值得牺牲SSD寿命换取超大上下文?
- 未来能否结合新内存扩展技术(如三星CXL DRAM扩展)实现更高效方案?
- 量化与混合硬件策略是否更实用?

这项技术拓宽了超大模型的部署边界,尤其适合资源有限但需要处理海量上下文的场景。未来优化空间巨大,值得持续关注。

当前主流LLM部署受限于显存大小,SSD卸载为“显存瓶颈”提供了新思路,但速度和硬件磨损是现实挑战。结合硬件创新(如CXL内存扩展)与软件优化(量化、分布式推理),未来或能实现高效、耐用的超长上下文推理,为复杂任务提供更强支持。
Apple MCP 是一套集成 Apple 原生应用的模型上下文协议工具,让你的 Mac 不仅仅是“好看”,还能变成 AI 助手,帮你自动完成各种日常任务。

它支持消息、备忘录、联系人、邮件、提醒事项、日历和地图等应用的智能操作,比如自动发短信、快速创建和搜索笔记、智能管理联系人、定时发送邮件、提醒和安排日程,甚至还能智能查找地图位置和生成导航。

它还支持“串联命令”,你只需一句话就能完成多步操作,真正实现“说一句,做一堆”。

主要功能:
- 自动发送和读取消息,支持定时短信
- 快速创建、搜索和管理备忘录
- 联系人快速查找和信息提取
- 专业邮件管理,支持附件、抄送、定时发送
- 提醒事项智能创建和查询
- 高效日历事件管理与查询
- 地图查找、收藏和路线规划
- 支持多步语音命令串联执行,实现复杂操作自动化

适合所有想让 Mac 更聪明、更高效的用户,轻松提升办公和生活效率!

快速安装:
npx -y install-mcp apple-mcp --client claude


或者手动克隆运行:
git clone 
cd apple-mcp
bun install
bun run index.ts
深度学习实验配置写起来总是头疼?sws 是一个极简、可预测、无坑的配置库,专为深度学习项目设计。

它区分“配置构建”和“配置使用”两个阶段:先写完配置(支持嵌套、依赖和懒计算),再调用 finalize() 固定所有值,还能用命令行覆盖参数,方便调试和实验管理。

主要特点:
- 配置写法简单直观,支持 lambda 懒加载,自动解析表达式
- 支持嵌套结构,字段间依赖安全无死循环
- finalize 后配置变只读,防止运行时意外改动
- 可从命令行动态覆盖参数,支持短名和完整路径
- 支持存储函数、序列化为 JSON,便于日志和复现
- 轻量无依赖,适合任何 Python 深度学习项目
经常需要处理海量文本数据,想快速筛选和分类?Essential-Web v1.0 开源项目提供了一套强大的数据集整理和标注工具,专注于文档的全面分类和质量评估。| #工具

它内置了细粒度的分类体系(EAI Taxonomy),覆盖数学、STEM、医疗等多个领域,支持多种格式的数据过滤和标注,助力构建高质量训练集。无论用 Hugging Face、PySpark 还是 Daft,加载和处理数据都非常便捷。

主要特点:
- 综合层次化分类体系,精准标注文档主题和类型
- 丰富的质量评估指标,保障数据可靠性
- 多平台支持,适合大规模分布式处理
- 提供示例和笔记本,方便自定义数据集创建

适合研究者、数据科学家及机器学习从业者进行大规模文本数据清洗和构建高质量语料库。
AI工程不断迭代升级,想掌握LLM、RAG和智能代理的实战技巧?

AI Engineering Hub 是一个集深度教程与实战案例于一体的开源项目,覆盖大语言模型、检索增强生成、AI代理等前沿内容。无论你是入门者、开发者还是研究者,都能在这里找到丰富资源,助力项目落地和技能提升。

主要特色:
- 系统讲解大型语言模型(LLM)和检索增强生成(RAG)技术
- 丰富的AI智能代理实战案例,展示真实业务应用
- 详细示例代码,方便快速上手和二次开发
- 免费数据科学电子书赠送,涵盖150+核心课程,订阅即得
Kevin Patrick Murphy 在讨论 Richard Sutton 的观点时提出了对当前大语言模型(LLM)训练方式的深刻见解:

1. LLM训练类似经典无模型强化学习(model-free RL),但它们:
- 从监督学习模型“热启动”,而非完全自发学习;
- 明确存在训练/测试阶段区分,缺少持续学习;
- 主要通过人类语言输入,绕过了从原始感知动作流中学习抽象的难题;
- 多模态模型中,感知编码器通常预训练且冻结,依赖人工设计的损失函数(如对比学习、像素预测)来生成有效的“软”符号。

2. 访谈重点在于第1点,但讨论混淆了LLM既是世界模型(预测人类语言),又是策略(预测行为决策)的双重身份。监督预训练的模型虽非严格的动作条件模型,但可视为对未来观测的边际化预测。

3. 通过模仿学习(IFT)将“世界模型”转为“目标条件策略”,再通过强化学习微调(RLFT)提升。当前RLFT多是单步人类推理任务,缺少经典多步环境交互,但未来趋势正向真正多步RL迈进。

4. Karpathy 等认为“热启动”是实用替代生物演化的元学习过程,Murphy对此认可,但认同 Sutton 对训练/测试分离、绕过抽象学习和冻结编码器的批评。

5. 未来突破点在于多模态、非平稳多智能体环境中的持续强化学习,智能体能自我抽象(如构建工具库),同时学习无目标世界模型和目标策略,并结合记忆、内在学习和梯度更新,构建半参数化模型。

6. 未来智能体将非单一“冻结Transformer”,而是多模块异构自适应系统,更接近大脑复杂结构(不仅是新皮层),更有可能实现真正智能。

7. 讨论中有人质疑LLM是否真有世界模型,但Murphy解释LLM预测的是在隐藏人类动作意图下的未来语言状态,是一种边际化世界模型。

8. 关于是否RL框架足以让智能体从原始感知中发现合适抽象,Murphy认为拟合世界模型提供了丰富信号,奖励机制则聚焦重要信息。

9. 其他观点指出LLM的世界模型更像是“文本构建的抽象沙盒”,且目前仍是监督学习主导,非真正无模型RL。

10. 未来若解决训练/测试分离、多模态感知和持续学习问题,或可摆脱对热启动的依赖。

LLM训练现状虽有明显局限,但未来智能体必将融合多模态感知、持续自适应学习和复杂模块化结构,向更真实的智能系统迈进。正如Murphy所言,真正的智能不会轻松复制,但新范式值得期待。
Retrieval-of-Thought(RoT)是一种创新的推理加速技术,通过复用之前的推理步骤作为模板,极大提升模型效率。其核心是构建一个“思维图谱”,将推理步骤以节点形式存储,既体现步骤顺序,也反映语义关联。

RoT带来显著优势:
- 输出token减少40%
- 推理速度提升82%
- 成本降低59%
同时保持推理准确性无损。

工作原理分四步:

1️⃣ 构建思维图谱
收集3,340个推理模板,将每一步作为图中节点,附加主题标签(如代数、几何)。通过顺序边连接步骤,语义边连接类似步骤,形成丰富的推理片段记忆库。

2️⃣ 确定起点
针对新问题,筛选相关标签节点(如几何问题只选“几何”节点),基于语义相似度和起始有效性评分,选出最优起点。

3️⃣ 奖励引导扩展
沿图谱按语义匹配和推理流畅度评分,逐步扩展推理模板,直到相关性不足、长度超限或无后续步骤为止。

4️⃣ 模板融入推理
将生成的模板嵌入模型提示中,通过特殊的<think>标签引导模型跟随复用的推理路径,无需额外微调。

为何RoT表现这么好?
- 动态构建上下文相关的推理模板,灵活适应不同问题
- 奖励引导遍历算法确保高质量组合推理步骤
- 轻量思维图谱+嵌入模型仅占1.7GB,便于部署
- 尤其提升小模型表现,因为它们更擅长跟随指令

这意味着,RoT不仅优化了推理速度和成本,还为更智能、更经济的AI推理开辟了新路径。

RoT的思维图谱方法,类似人类通过积累经验构建知识网络,未来或成为AI推理范式的关键升级。动态模板搭建与奖励引导遍历,兼顾灵活性和效率,值得在多模态推理、复杂决策系统中深入探索。小模型获益更大,也为普及AI推理带来可能,降低大规模模型依赖和计算门槛
谷歌悄然取消了num=100参数,将搜索结果每页最多显示数从100降至10,这一细节变化却影响深远:

1️⃣ 绝大多数大型语言模型(如OpenAI、Perplexity)依赖谷歌索引的网页数据,访问“长尾”信息的能力瞬间缩水90%。

2️⃣ 根据Search Engine Land数据,88%的网站流量曝光量骤降,尤其是排名在11-100位的Reddit,其LLM引用大幅减少,股价一度跌15%。

3️⃣ 对初创企业冲击巨大,单靠好产品已不足以赢得市场,分发渠道才是生死关键。正如彼得·蒂尔所言:“优秀分发能造就垄断,单靠好产品不够。”

4️⃣ 这也暴露了AI和互联网生态对谷歌搜索的高度依赖。谷歌此举无疑筑起一道难以逾越的“护城河”,迫使AI公司在“支付更高费用、自己爬取或接受更差结果”间艰难抉择。

5️⃣ 未来,分发能力将成为产品成功的核心竞争力,产品好坏不再是唯一焦点。企业必须重视内容创作与渠道布局,才能持续被发现和使用。

💡思考:数字时代,信息入口的变动直接改变了竞争格局。企业和开发者需警惕依赖单一平台的风险,探索多元分发和去中心化发现机制,才能立于不败之地。
深度学习为何有效?——全息原理揭秘 | 相关视频

🔍 深度学习的核心秘密,或许藏在“全息原理”(Holographic Principle)中。这个概念来源于物理学,意味着高维信息可以浓缩于较低维度的结构中,而神经网络正是利用了类似的“张量网络”结构,实现对复杂数据的高效表达与处理。

📊 图示解析:
(a) 标量、向量、矩阵、张量的基本表示,揭示数据从简单到复杂的多维扩展。
(b) 张量的分组,说明如何将复杂结构拆解成更简单的部分,便于计算。
(c) 张量乘积与缩并,揭示神经网络中信息融合与特征抽取的数学本质。
(d) 张量网络示意,展示神经网络层间复杂连接如何通过张量缩并实现高效计算。

💡 深度学习通过张量网络将高维数据映射为紧凑结构,类似全息图将三维信息储存在二维表面。这样的结构不仅节省了计算资源,还提升了泛化能力,解释了为何深度神经网络能在海量数据中捕捉关键特征。

🔗 这为理解深度学习的工作机制提供了新的视角:不是简单的堆叠层级,而是信息的全息编码与解码过程。

——深度学习的力量,正源于对信息结构的“全息”把握。
Mole 是一个轻量级终端工具,能快速帮你释放上百GB空间,功能强大且零冗余:| #工具

- 🐦 深度系统清理,覆盖超 22 个位置,比 CleanMyMac 更彻底
- 📦 智能卸载应用,连带清理相关残留文件
- 📊 交互式磁盘分析器,轻松找到大文件,一键删除
- ⚡️ 快速响应,支持分页和键盘导航,操作流畅
- 🧹 每月清理,帮你恢复大量宝贵空间

安装简单,支持 Homebrew 一键安装:

brew install tw93/tap/mole


运行命令也非常直观:

mole clean          # 一键清理
mole analyze        # 磁盘空间分析
mole uninstall      # 卸载应用及残留
mole clean --dry-run # 预览清理内容,安全第一
Back to Top