Skip to main content

黑洞资源笔记

  1. 榨干垃圾服务器:本地AI运行的底层逻辑并非买显卡 | blog

    很多技术人都在焦虑被昂贵的算力军备竞赛抛下,但真正的高手已经在用十年前的报废服务器跑最新大模型了。有人用 2016 年的单核单路 Xeon 处理器和极慢的 DDR3 内存,在完全没有显卡的情况下,让 26B 的 Gemma 4 架构模型跑出了“人类阅读速度”。

    这件事的核心本质在于:大模型在生成文本的“解码阶段”,底层的瓶颈从来都不是算力(Compute-bound),而是内存带宽(Memory-bound)。处理器每算一个词,都要把数百亿的参数从内存搬运到 CPU 缓存里。这个过程里,CPU 绝大多数时间都在干等内存把数据运过来。这就是所谓的“内存墙”。

    大厂和商业软件通过黑盒工具(如 Ollama)向用户隐藏了所有性能调节杠杆,甚至默认把你的模型塞进虚拟内存(Swap)里吃土。而真正穿透技术护城河的方法,是直接接管底层逻辑。利用推测解码(Speculative decoding)将小模型常驻 L3 缓存来预测Token,再通过改写内存矩阵对齐 CPU 缓存(Run-time repack),以及把 Flash Attention 压榨到 CPU 上运行。这证明了本地 AI 的核心门槛不是硅片,而是你对硬件架构的压榨程度。拒绝黑盒,捡垃圾也能通往自由。
  2. Linux内核的隐秘角落:如何让代码在百核时代狂飙 | blog

    很多人以为多线程编程的终极答案是无锁原子操作,但在128核甚至192核的现代CPU面前,原子操作底层的缓存一致性协议(MESI)会变成新的硬件级不卡顿锁。多核争抢同一个缓存行,性能照样雪崩。

    Linux内核早就提供了一个破局解法:Restartable Sequences(rseq)。它的底层逻辑非常松弛且聪明——把并发控制从“线程维度”降级到“CPU核心维度”。在用户态给每个CPU分配独立的数据结构,代码执行时直接当成单线程来写,彻底丢掉锁和原子操作。

    唯一的漏洞是:万一代码刚写到一半,线程被内核调度换到别的CPU上怎么办?rseq的解法不是让内核“不准中断我”(这在抢占式系统中代价太高),而是跟内核达成了轻量级的共享内存契约:“如果我被中断了,请直接把我踢回这段代码的开头重来。”

    这就是一种零抽象成本的、局限于单CPU的用户态微型事务。在百核机器上,这种用汇编实现的十几条指令的小把戏,能让malloc这类基础库的性能直接飙升几十倍。在多核大行其道的AI时代,所有的底层数据结构和系统语言,迟早都要为了这个内核特性重新写一遍。
  3. Terax 是一款轻量级的终端优先 AI 原生开发工作空间,它将多功能终端、代码编辑器、版本控制和 AI 代理集成于一体,专为追求极致效率的开发者打造。

    仅 7MB 的体积却拥有原生 PTY 后端和 WebGL 渲染,支持多标签终端、行内 AI 自动补全、AI 差异编辑、Git 提交图、文件资源管理器及本地开发服务器预览。完全本地运行、无遥测、无需账号,即可通过自带密钥或本地模型调用各类大模型。

    主要功能:

    - 多标签终端,支持 WebGL 渲染、原生 PTY 与分屏布局;
    - 内置 CodeMirror 6 编辑器,支持 Vim 模式与 AI 行内补全;
    - 完整 Git 工作流,包含提交图、分支可视化与搜索;
    - 文件资源管理器,支持模糊搜索、Catppuccin 图标与一键附加给 AI;
    - 本地服务器自动检测预览与原生子 webview 外部 URL 查看;
    - 自定义主题、背景图与透明度调节,编辑器主题独立可配;
    - Agentic AI 侧边栏,支持计划模式、多代理、文件读写与 bash 执行;
    - 支持 OpenAI、Anthropic、Ollama、LM Studio 等多种模型接入。

    支持 Windows、macOS、Linux,通过 pnpm install 即可本地运行,适合个人开发者与团队日常编码场景。
  4. 工具快了,也可能让你更快完蛋 | 帖子

    网上流传一张恶搞MIT科技评论的图:“既然你能用AI做任何事,为什么你还没富?因为你的想法蠢透了。”

    这句糙话戳破了当下最大的幻觉:很多人把“生产力的提升”等同于“竞争力的提升”。AI确实把开发和执行的门槛降到了史无前例的低,但这也意味着,平庸想法的贬值速度同样史无前例地快。

    以前一个烂点子,从立项、招人到写代码,得花半年和几十万预算,你可能在第三个月就及时止损了。现在有了AI,你能在三天内把一个没人要的垃圾产品做出来,然后以极高的效率、极快的速度破产。

    AI就像一把电锯。给伐木工,效率翻倍;给傻子,他只会更快地锯掉自己的腿。当技术不再是瓶颈,决定胜负的就只剩下两件事:你对真实世界痛点的敏锐度,以及你把东西卖出去的商业手腕。工具再高级,也救不了逻辑的硬伤。
  5. mathVideoMaker 是一套专为数学教学打造的 Cursor Agent Skill,能同时生成高质量讲解视频和交互式网页。它把 Manim 动画渲染与自包含 HTML 结合,让数学概念的推导过程既能“看明白”,又能“玩明白”。

    通过结构化检查与文字化验证,即使模型视觉能力有限,也能稳定输出准确、生动的数学内容。视频强制展示推导过程,网页提供参数拖拽交互,二者共享设计语言,互为补充。内置 SafeScene 布局警告、字体检查、网页静态校验等机制,配合深色配色与辉光动效,保障成品专业度。

    主要功能:
    - 一键生成 Manim 渲染的数学/物理讲解 MP4 视频;
    - 输出自包含单文件交互网页,支持 KaTeX 公式与 canvas 实时参数调节;
    - 强制演示推导与证明过程,满足“遮住旁白也能看懂”的自检要求;
    - 多层质量保障:SafeScene 布局检查、字体缺字检测、网页元素与 JS 语法校验;
    - 机械化安全布局 + 生动视觉设计,深色主题 + 辉光 + 强调动效;
    - 提供完整安装脚本与环境检查,快速搭建 Manim + ffmpeg 渲染环境。

    支持 macOS / Linux,通过简单命令即可安装依赖并在 Cursor 中直接调用,适合教师、内容创作者及数学科普团队使用。
  6. 本地大模型+MCP:把AI的“脑子”插上本地插头

    以前玩本地大模型,最尴尬的是它空有一脑子理论,却连你电脑里的一个txt文件都打不开。Unsloth刚出了个教程,教你用MCP(Model Context Protocol)协议把Qwen或Gemma这类本地模型跟外部工具链起来。

    这件事的底层逻辑是:MCP正在成为AI时代的“USB接口标准”。以前你要给模型写各种定制API,现在通过MCP,本地大模型能直接、安全地调用你的本地文件、浏览器、甚至是Vercel和GitHub。

    这不仅是省事,更是隐私的终极解法。数据不用上传云端,模型在本地跑,工具在本地调。当调用工具的协议标准化之后,本地模型就不再是“为了隐私而妥协的残血版”,而是真正能干脏活累活的私人助理。
  7. agents-best-practices 是一套跨平台的 Agent 技能,专注于帮助开发者设计、生成 MVP 蓝图、审计和重构各类 Agent 运行时框架。

    它不仅提供统一的模型-工具-观测循环,还支持工具权限分级、审批门控、上下文压缩、提示缓存以及工作流编排,让 Agent 在真实业务系统中安全可靠地运行。

    主要功能:
    - 提供 MVP Agent 蓝图模板,快速搭建生产级运行框架;
    - 支持工具与权限的分级设计,避免宽泛工具带来的安全风险;
    - 内置上下文压缩、记忆管理和提示缓存策略,降低长会话成本;
    - 包含完整的审计清单、评估标准和上线检查表;
    - 兼容 Codex、Claude Code 等主流 Agent 运行环境。

    支持通过 npx 或 Git 快速安装,适用于研究、运维、销售、数据分析等多个领域。
  8. Gemma Skills 是一套专为 Gemma 模型与智能体交互打造的技能库,提供了模型开发与知识问答的完整能力支持。

    仓库内已包含 gemma-dev 技能,可用于快速构建基于 Gemma 的应用或进行通用知识查询。安装方式灵活,既可通过 Vercel Skills CLI 交互式浏览和全局安装,也可使用 Context7 Skills CLI 完成指定技能部署,方便开发者按需扩展。

    主要功能:

    - 提供 Gemma 模型开发与通用知识问答技能
    - 支持 Vercel Skills CLI 交互式浏览和安装
    - 支持 Context7 Skills CLI 全局或指定技能部署
    - 技能可按需扩展,适用于各类 Gemma 应用场景

    项目采用 Apache-2.0 协议,适合开发者与研究人员使用。
  9. 不要用“模仿大脑”来给AI计算量注水了 | 帖子

    最近有研究试图用更符合生物学特征的复杂模型去迭代1950年代延续至今的经典神经元公式($u = \text{activation}(w \cdot x + b)$),声称能大幅减少训练所需的数据量。

    这事看似在做“底层突破”,其实是个伪命题。评论区有清醒的同行一针见血:历史正好相反。1950年代人类手里多得是复杂的神经元架构,但产业界耗费几十年时间,最终在80-90年代主动选择向最简单的算式妥协。

    原因很简单:AI的尽头是规模化(Scaling)。
    现在大模型跑得通,靠的是简单的乘加运算能够轻易被GPU矩阵乘法加速。那些精细的、试图还原生物脑细节的复杂公式,看似优雅,代价却是极高的计算成本和极难的并行扩展。在实际工程中,与其在单个神经元里雕花、增加参数,不如直接多堆几层网络,或者把算力留给吞噬更多的数据。

    别把营销概念当成现实,现行的神经网络早就和生物学脱钩了。机器有机器的进化路径,强行让AI去致敬生物学,不过是倒退回已经被淘汰的旧路里重新发明轮子。
  10. sag 是一款现代化的命令行文本转语音工具,灵感来自 macOS 的 say 命令,却接入了 ElevenLabs 的高质量语音引擎。默认直接将文本输出到扬声器,也能保存为音频文件或列出可用音色。

    安装只需一条命令:brew install steipete/tap/sag,或 go install github.com/steipete/sag/cmd/saglatest。支持 macOS、Linux、Windows 多平台,配置 ELEVENLABS_API_KEY 即可使用。

    主要特性:
    - 类 say 的极简用法:sag "Hello world" 即可朗读;
    - 支持流式播放、文件输出,格式自动识别;
    - 丰富的语音参数:速度、稳定性、相似度、风格、种子等;
    - 内置 voices 子命令快速筛选和试听音色;
    - 支持多种 ElevenLabs 模型,可按需切换低延迟或高表现力版本。

    无论写脚本、做演示还是日常朗读,sag 都能让你用一行命令获得专业级语音输出。
  11. 突破80年数学难题!OpenAI推理模型改写离散几何研究史 | blog

    OpenAI 的通用推理模型自主破解了存在 80 年之久的离散几何难题——单位距离问题。这不仅是 AI 首次独立解决数学领域的重大猜想,更通过跨学科的“降维打击”,证明了 AI 具备从现有知识中提取并建立全新逻辑连接的原创能力。

    关于“LLM 只是在对训练数据进行插值”的论调,最近被一个数学事实扇了耳光。

    大家常说 AI 没有创造力,只是在已有的知识凸包(Convex Hull)里做插值,也就是在已知点之间找过渡。但 OpenAI 的模型刚刚做了一件极其反直觉的事:它推翻了 Erdős 提出的单位距离问题猜想。这个猜想困扰了数学界 80 年,大家一直觉得“方格阵列”就是最优解,结果 AI 甩出了一个完全不同的构造方式。

    有意思的是,这个解法不是靠暴力穷举,而是极其优雅地把代数数论里的深奥工具,跨界应用到了几何问题上。这就像是在一个原本以为已经填满的房间里,AI 突然发现了一扇通往新维度的门。

    有网友对此讨论得很有深度。有人认为,这种跨领域的“组合创新”本质上就是一种高级的插值,因为工具本身是人类发明的。但也有观点反驳,如果 AI 仅仅是复读机,它怎么可能在没有任何几何学训练的情况下,精准地调用代数数论的“武器库”来解决问题?

    这让人想起计算机体系里的指令流水线。如果 LLM 只是简单的查表,它永远无法处理未定义的指令。现在的突破说明,模型内部已经形成了某种程度的“概念表征”,它能通过逻辑链条,在看似无关的知识层级之间进行函数调用。

    这并不意味着数学家失业了。相反,当 AI 能在庞大的知识空间里进行高效搜索和路径探索时,人类的价值在于定义那些“值得被解决”的问题,并从 AI 给出的奇异解中,读出背后的真理。

    数学的疆域远比我们看到的要大,也许我们之前只是在已知空间的边缘徘徊。