Skip to main content

黑洞资源笔记

  1. 理解统计学与实验设计》如何不靠统计数据说谎 | #电子书

    这本开放获取的教科书提供了在不同场景中正确使用、解释和理解统计学及统计数据的背景知识。

    第一部分清晰阐述了统计学的关键概念。第一和第二部分概述了最常见的检验方法(t 检验、方差分析、相关性分析)并阐明了其统计原理。第三部分深入探讨了元统计学(统计学的统计学),解释了为何实验经常无法复现。最后,教科书展示了如何通过巧妙的设计实验来避免复杂的统计分析。

    无论是非科研人员还是生物学、生物医学及工程领域的学生,都将通过本书获益——学习科学论断背后的统计基础,并掌握评估学术期刊和新闻媒体报道中科研报告质量的方法。
  2. 使用 Rust 构建一台 1 美元的掌上游戏机。| blog

    核心芯片用的RISC-V芯片CH32V003,不到一块钱。显示器也只有几块钱。
  3. 给 Claude Code 接上「整个代码库」的语义搜索 | claude-context

    大模型 context window 再大,也有上限。真正的工程项目动辄几十万行代码,没法一次性全塞进去。Zilliz 开源的 claude-context 解决的就是这个问题:把你的代码库向量化存进数据库,让 Claude Code 在需要时按语义检索相关代码片段——而不是每次都把整个目录加载进 context。

    1. 核心机制
    代码不是以文件为单位存储,而是先用 AST(抽象语法树)做智能分块,再通过 OpenAI embedding 模型向量化,存入 Milvus / Zilliz Cloud 向量数据库。

    检索时用的是混合搜索:BM25 关键词匹配 + 向量语义搜索,两种方式的结果合并排序,相关性比单纯向量搜索准。

    官方测评数据:在同等检索质量下,减少约 40% 的 token 消耗。代码库越大,节省越明显。

    2. 增量索引
    用 Merkle Tree 跟踪文件变化,只重新索引改动的文件,不需要每次全量跑一遍。

    3. 安装方式极简
    对 Claude Code 来说,加完claude-context 之后,在 Claude Code 里直接说「Index this codebase」,等索引完成,就可以用自然语言检索了:「找所有处理用户认证的函数」。

    4. 兼容范围
    不只 Claude Code,Cursor、Codex CLI、Gemini CLI、Windsurf、VS Code、Cline 全都支持,都是改 MCP 配置文件,几行 JSON 搞定。

    支持的编程语言:TypeScript、Python、Java、Go、Rust、C++、C Sharp、Ruby、Swift 等主流语言。

    Embedding 也可以换:除了 OpenAI,还支持 VoyageAI(voyage-code-3,代码搜索效果更好)、Ollama 本地模型、Gemini。

    5. 本质上
    Claude Code 默认的代码理解方式是:你告诉它看哪里,它看哪里。这个工具把它升级成:你问它一个问题,它自己去整个代码库里找相关的部分,带上来给你用。

    对于中大型项目,这个差距很明显——不用再手动 (at)file 指定文件,不用担心忘了哪个关键模块,Agent 的自主性和准确性都会提升。
  4. 算法与复杂度 | #手册 #算法

    “这个系列的博文会逐个介绍计算机科学里面最基础、也是最重要的一部分内容:算法(algorithm)。提到它,这可能是你最擅长的部分,亦或是你学生生涯的噩梦。不管怎么样,对于学计算机的小伙伴来讲,它始终是不可回避的一个话题。不论是学生时代的你还是已经踏上了工作的岗位,算法都会一直陪伴着你。

    为什么要做这个系列呢?因为网上对于这一块的内容实在是太多,甚至是太杂,而很少有把算法的知识体系整合起来形成一个系列的教学博客。于是乎想尽自己的微薄之力,让更多的人能够更好地理解算法,不畏惧算法,在未来求职的面试中不再因为它而与自己理想的公司失之交臂。

    我将有别于国内的教学方式和教学内容。形式上不再是只针对如何解决这个问题,因为只会解决问题并不代表真正理解这个问题。我会花一些篇幅着重介绍一些概念性的内容,这也是国内的教学最欠缺的部分。国内的课堂不会告诉你自然对数 e 揭示了自然界生长的规律;学完了线性代数,你可能光学会了如何解行列式,却忽视了行列式也是有几何意义的。在内容上我不再按照“排序算法”、“搜索算法”等方式分类,而采用了解决问题的不同方式来划分,比如“暴力求解”、“分治法”、“动态规划”等等。整个系列我以 Levin 编写的 Introduction to The Design and Analysis of Algorithms, 3rd Edition 作为参考。要是你觉得这本书讲得太基础,你也可以参考 MIT 的《算法导论》,绝对的算法界的权威书籍。”
  5. 《逻辑学简短入门》牛津通识读本的重译版 | #电子书

    Graham Priest 的 Logic: A Very Short Introduction 是牛津通识系列中的一本。该书在众多逻辑学入门书中独树一帜,并不试图完整介绍逻辑学的理论,而是通过一些哲学难题或逻辑谜题引入解决这些问题的逻辑理论和方法,在介绍逻辑知识的同时展示逻辑可以如何来用。

    译者wxflogic发现之前的翻译有些术语不太准确,所以重新翻译了一下。
  6. Matt Pocock 的 skills 在 GitHub Trending 榜上突然爆发——短短一天内新增超过 5600 颗 Star,总 Star 数突破 3 万,成功登顶。

    Matt 是一个 TypeScript 课程作者,最近一年多在教开发者如何真正用好 AI 编程。他最近在 AI Engineer 上的演讲被放了出来,反响不错。应该是这个演讲让他的 skills 翻红。

    Matt Pocock 认为:软件工程基本功在 AI 时代比以往任何时候都更重要。

    Matt 把 AI 编程中常见的问题归纳为六个失败模式(见评论区),他的 Skills 仓库里的每一个工具,基本上都对应其中一个,很多论据则来自软件工程领域的一些书籍和概念。

    这些技能不是孤立工具,它们可以构成一套完整的工作流。

    github | youtube:link1 link2
  7. 写技术文章、课程课件时,总是纠结配图:找现成的不匹配,自绘太费时,AI生成又容易风格杂乱、文字错乱。

    Ian Handdrawn PPT 提供一套中文手绘技术解释图生成 Skill,一键把文章、笔记、提纲变成专业 PPT-style 页面图。

    生成21:9 超宽封面 + 16:9 正文配图,PNG 整页输出,统一手绘风格,完美适配文章插图、课程课件、技术概念解释。

    主要功能:

    - 智能内容提炼,先规划叙事结构,再生成多页手绘解释图;
    - 21:9 文章封面 + 16:9 正文页面,支持 contact sheet 快速预览;
    - 统一视觉 DNA:近白纸底、细手绘线条、淡彩标记、中文短文字;
    - 支持文章、课程大纲、讲稿等多种输入,输出 slide blueprint + PNG 图;
    - 多种页面 archetype:封面隐喻、左右对比、流程图、矩阵分类等;
    - 兼容 Codex Skill,只规划不生图模式,精细控制每页构图。

    克隆仓库安装到 Codex skills 目录,通过自然语言指令生成,适合技术博主、讲师、内容创作者。
  8. 建筑设计经常需要昂贵的专业软件如AutoCAD或Revit,年费动辄数万美元,还得安装桌面客户端,跨平台协作麻烦重重。

    Pascal Editor 把3D建筑设计全流程搬到浏览器,提供免费开源的完整解决方案。

    基于React Three Fiber和WebGPU的高性能渲染,支持实时编辑建筑/楼层/墙体/区域,支持层叠/爆炸/独立视图显示,还内置撤销重做、几何系统生成和空间碰撞检测。

    主要功能:

    - 完整的节点层级:Site→Building→Level→Wall/Slab/Zone/Item,支持实时编辑和几何生成;
    - GPU加速3D渲染,墙体倒角、CSG切割门窗、楼板多边形生成;
    - 智能系统更新,仅重渲染脏节点,高效性能;
    - 撤销/重做(Zundo)、IndexedDB持久化存储场景;
    - 空间网格管理,支持物品放置验证和楼板高度计算;
    - 工具系统:墙体绘制、区域创建、物品摆放、选择/变换工具。

    支持Web浏览器直接运行,通过bun dev本地开发,14.6k星标,适合建筑师、设计师和初学者快速原型设计。
  9. AI 领域目前有两条职业路径:API Caller(只会调用 API,低杠杆、易被自动化,15 万刀薪资)和 Architect(能从零构建模型,高杠杆、50 万刀+ 薪资)。

    斯坦福 CS336《Language Modeling from Scratch》这份免费 17 讲视频课程,教你成为 Architect,从零打造语言模型。| #教程

    课程纯干货、无废话:数据收集与清洗(Lec 13-14)、构建 Transformer & MoE(Lec 3-4)、加速优化(Lec 5-8:GPU、内核、并行)、推理部署(Lec 10)、对齐与 RL(Lec 15-17)

    主要内容:

    - 数据收集与精炼,确保训练集高质量;
    - 从头构建 Transformer 和 MoE 架构;
    - 性能优化:GPU 编程、自定义内核、并行计算;
    - 高效推理引擎,实现实时部署;
    - 对齐训练与 RL,提升模型智能与安全性;
    - 完整从零到一的语言模型开发流程。

    适合有编程基础的学习者,自学即可上手,助力 AI 工程师转型高薪 Architect。
  10. 科研写作常常要切换多个工具,LaTeX编辑器编译文档,Python环境跑数据分析,AI助手生成内容,还得额外管理参考文献和版本历史,来回折腾效率低下。

    ClaudePrism 把科研写作所需的功能全部整合到一起,提供了离线优先的科学写作工作空间。

    不仅有内置Tectonic离线LaTeX编译、高质量Claude AI助手,还支持一键Python环境(uv+venv)、100+科研技能、Git版本历史,甚至Zotero集成和PDF实时预览。

    主要功能:

    - 离线LaTeX编译(Tectonic引擎),无需安装TeX Live,支持实时PDF预览和SyncTeX;
    - 内置Python环境(uv包管理+venv),一键创建项目级虚拟环境,生成图表和分析脚本;
    - 100+科研技能(生物信息学、化学信息学、机器学习等),Claude自动加载领域知识;
    - Claude AI助手,支持Sonnet/Opus/Haiku模型,聊天式编辑、工具调用和自定义命令;
    - Git-based版本历史,带标签和可视化diff,支持快照恢复和AI建议变更审核;
    - Zotero集成、PDF捕获分析(⌘X选区问Claude)、模板向导和多文件项目管理。

    支持桌面原生运行(Tauri+Rust),从GitHub Releases下载安装即可离线使用,适合科研工作者和学术作者。
  11. 别再迷信 AI Agent 躺平工作:体力减负,脑力负荷翻倍 | 帖子

    AI Agent 并没有真正减轻工作量,而是通过消除执行层面的体力消耗,将压力转移到了高频的决策与审核上。这种从“体力输出”向“判断力输出”的转变,正在制造一种新型的、更深层的精神倦怠。

    很多人觉得有了 Agent 就能实现“睡后生产”,觉得只要多开几个智能体、多写点 Prompt、少睡会儿觉就能跑赢所有人。这种感觉在初期确实很爽,就像给原本单线程的 CPU 挂载了无数个协程。

    但问题在于,工作的消耗逻辑变了。

    以前的累是“肌肉记忆”式的,是敲键盘、写代码时的体力消耗,这种疲劳是有自然停顿点的。现在的累是“上下文切换”式的。Agent 可以 24/7 不间断地跑,但人类的判断力有硬上限。当执行被自动化后,瓶颈就从“写”变成了“审”。

    你不再是那个搬砖的工人,而是一个被迫时刻待命的监工。

    有网友提到,Agent 并没有消除压力,反而扩大了你必须负责的“责任面积”。你会陷入一种无止境的 Review Loop:Agent 几分钟就能生成一堆东西,你却得花几小时去仔细核对。这种高频的决策、验证和纠错,会迅速榨干你的认知带宽。

    甚至有人感慨,Agent 的记忆问题其实就是人类的倦怠问题。Agent 每次启动都是全新的,而你得带着上一轮决策的疲惫、错误的残余和切换上下文的眩晕进入下一场战斗。

    这种状态很像是在一台不断提速的跑步机上,你以为自己在利用杠杆,其实只是在被压缩的节奏里加速透支。

    当生产力不再受限于“手速”,而受限于“脑速”时,真正的挑战变成了:在无限的自动化流水线面前,如何守住那点极其稀缺的判断力。
  12. AI 写的代码无版权?所有权与法律责任千万别混淆 | blog

    如果你正在使用 Claude Code 或 Cursor 编写代码,请意识到:你交付的产品可能根本不受版权保护,或者正潜伏着开源协议违规的风险。这不仅是法律问题,更是决定你个人项目生死或公司并购能否成功的关键。

    如果你这周刚上线了代码,其中一部分大概率是 AI 写的。

    很多人以为这没关系,代码好用就行。但法律逻辑并不关心代码的运行效率,它只关心“谁”是作者。目前的法律基准非常冷酷:版权只保护人类创作的作品。如果代码主要是由 AI 生成,且你没有进行“有意义的人类干预”,那么这段代码在法律意义上可能属于公共领域。这意味着,如果竞争对手直接抄袭你的核心逻辑,你可能拿不出任何法律武器来维权。

    等等,这听起来有点不对。如果代码不属于我,那我为什么还要为它负责?

    这正是最危险的地方。虽然你可能无法通过版权主张“所有权”,但你必须承担“责任”。如果 AI 偷偷从训练数据里“复读”了某段带有 GPL 协议的代码,而你直接把它合进了商业产品,这种“版权污染”会直接找上你。有网友提到,这就像是在用一台不知来源的复印机,虽然你不知道纸张是从哪来的,但如果复印件上有版权标志,责任还是你的。

    还有个更现实的坑:你的雇主。

    即便代码本身由于 AI 的参与变得难以申请版权,你的劳动合同大概率已经提前锁死了所有权。大多数合同里关于“知识产权归属”或“工作成果”的条款,即便面对 AI 辅助工作,依然有效。有开发者分享过类似的经历:他用公司授权的 AI 工具做个人项目,结果公司辩称因为 AI 接触了公司的代码上下文,所以他的个人项目变成了公司的衍生作品。虽然这种说法在法理上还在争论,但它足以在公司内部引发一场混乱。

    与其在事后找律师,不如现在就开始做这几件事:

    第一,给你的代码做个开源协议扫描,别让隐藏的 GPL 协议毁了你的商业化进程。

    第二,像对待法律证据一样对待你的 Prompt 记录和 Commit Message。不要只写“添加功能”,要写“重构了 AI 生成的架构,拒绝了其初始的状态管理方案”。这些记录是你证明“人类进行了有意义决策”的唯一凭证。

    第三,如果你在搞副业,请务必使用个人的电脑、个人的账号和自费的工具。

    最后,别指望通过“这都是 AI 写的”来逃避责任。法律对“所有权”和“责任”的判定是两条完全不同的流水线。