黑洞资源笔记

14:23 · Nov 18, 2025 · Tue

Andrej Karpathy分享了他用大语言模型（LLM）辅助阅读各种文本（博客、文章、书籍章节等）的三步法：第一遍人工阅读，第二遍让LLM解释和总结，第三遍通过问答深化理解。这样不仅提升了阅读效率，还能获得比单纯阅读更深刻的认知，成为他最重要的学习方式之一。| 帖子

他也指出，随着这种方式兴起，写作者的心态可能会改变——从“写给人看”转向“写给LLM看”。因为当LLM理解了内容，它能为不同读者定制和传递信息，实现更精准的沟通。

Karpathy还开源了一个名为reader3的工具，方便用户用LLM逐章阅读电子书（EPUB格式）。他强调目前还没有专门工具，自己通常就是复制粘贴到不同的LLM里轮换使用。

社区回应中，有人分享了类似经验：
- 用LLM辅助读书能大幅提升信息保留和理解深度，变被动阅读为主动思考。
- AI将教育从“一刀切”转变为个性化辅导，学生能随时通过对话拆解难题。
- 未来写作可能陷入“为AI优化”的循环，导致信息自我引用，创新受限。
- 有人开发工具让AI帮忙筛选和索引长文档，提升查阅效率。

也有人提醒，写作过度迎合AI可能让文字缺乏人性和灵魂。真正的学习和交流，依赖人类间的互动和思考，而非单纯AI的反馈。

此外，使用LLM读书的关键在于“提问的艺术”：
善问问题，AI才能激发更深入的洞见和持续的好奇心，创造自然流畅的对话，从而推动认知升级。

02:56 · Nov 17, 2025 · Mon

Google 的 Code Wiki 是一个由 Gemini AI 驱动的代码理解工具，于 2025 年 11 月 13 日以公共预览版发布。它提供自动化、智能化的 wiki 平台，用于代码仓库的文档维护和交互，帮助开发者快速理解代码库，支持与代码“聊天”查询，并生成持续更新的结构化文档。

目前完全免费，支持公共仓库，未来将扩展到私有仓库和Gemini CLI。

这不仅是DeepWiki的升级版，更为复杂项目提供了极佳支持，极大降低了代码学习和维护的门槛。开发者们对其表现出极大期待，称其可能彻底改变团队协作和代码管理方式。

类似工具还有DeepWiki、DeepGraph和GitDiagram，分别侧重代码库可视化和理解，形成了AI辅助代码理解的生态圈。

这场由AI驱动的代码理解革命，不仅节省了大量学习时间，也推动了软件开发效率的飞跃。未来，理解代码不再是负担，而是轻松的对话与探索。

02:53 · Nov 17, 2025 · Mon

Guided lab sessions：一套深度学习主题的引导式实验笔记本合集，涵盖从基础知识、PyTorch、JAX，到自动微分和模型可解释性，适合系统学习和动手实践。每个笔记本独立成篇，方便逐个攻克，适合初学者和进阶者。

这套资源不仅涵盖理论与算法实现，更注重“从零开始”的实操体验，帮助你真正理解深度学习的每个环节。学深学透，方能不被工具所奴役。

02:51 · Nov 17, 2025 · Mon

Linux内存管理核心解读

Linux内存管理掌控着操作系统如何高效利用RAM、交换空间及虚拟内存，保障每个进程获得所需资源，同时维持系统稳定和高性能。其基于虚拟内存机制，为每个进程提供独立且安全的地址空间。

虚拟内存使得即便物理内存有限，进程也能像拥有连续大内存一样运行。Linux通过页表将虚拟地址映射到物理内存，既保证进程隔离，也提升内存利用率，支持大型应用。

内存被划分为固定大小的“页”（通常4KB），进程运行时，内核按需将页加载至RAM。内存不足时，闲置页被移至交换空间（swap），实现多任务高效切换。

MMU（内存管理单元）负责虚拟地址到物理地址的硬件转换，TLB缓存加速这一过程，关键于整体访问速度和性能。

物理内存分配依赖Buddy系统（大块连续内存）和Slab分配器（内核对象），有效减少内存碎片，加快分配速度。

交换空间为内存溢出时的“缓冲区”，虽速度远不及RAM，但保证系统不卡死。常用命令包括`swapon -s`查看交换，`free -h`监控内存使用。

Linux按硬件需求划分内存区域（ZONE_DMA、ZONE_NORMAL、ZONE_HIGHMEM），确保针对不同架构的合理分配。

缓存机制利用空闲内存加速文件访问，包括页面缓存和缓冲区缓存，缓存会根据需求自动释放，确保内存灵活使用。

当内存和交换空间耗尽，Linux启动OOM Killer，终止占用内存最多的进程，保护系统不崩溃。

监控工具丰富：`free -h`, top, htop, vmstat, `/proc/meminfo`等，帮助用户实时掌握内存状态，定位问题。

/proc文件系统提供详细内存信息，调试内存泄漏和分析进程内存布局的重要利器。

NUMA架构下，Linux智能分配内存，优先使用靠近CPU的内存，优化多核服务器的性能表现。

Linux内存管理系统复杂而高效，虚拟内存、分页、缓存等机制协同工作，保障系统公平、隔离和稳定。深入理解这些工具与原理，不仅能提升系统调优能力，更能助力解决实际问题。

01:30 · Nov 17, 2025 · Mon

计算机科学的核心，涵盖从算法到存储的关键原则：帖子

- 哈希实现快速查找，排序支持高效搜索；
- 追加写入保障写入吞吐，内存存储带来极致速度；
- 概率性数据结构（如布隆过滤器）在空间与误判间取得平衡；
- B-tree优化磁盘访问，写前日志保证数据持久不牺牲性能；
- 缓存和索引让读写更迅速，压缩减少存储成本但需付出计算代价；
- 分片和复制实现横向扩展与高可用，列式存储加速分析型查询；
- LSM tree适合高写入，跳表简化锁机制，哈希一致性确保扩容时数据平衡；
- Trie树、高效前缀匹配，环形缓冲区维持边界内内存使用；
- 拷贝写入节省内存，默克尔树实现篡改检测和同步；
- 线段树、费恩维克树支持快速区间和前缀计算，并查集优化连通查询；
- 后缀数组和倒排索引提升字符串及全文检索效率，空间索引助力地理查询；
- 时间序列数据库专注时序数据的压缩存储，事件溯源保存完整审计链；
- CRDT实现无协调开销的最终一致性，无锁数据结构支持高并发；
- 分区提高性能，物化视图加速复杂查询，增量压缩节省存储空间；
- Heap、Rope和Radix tree带来优先队列、大文本操作和内存高效的前缀存储；
- 自适应数据结构根据访问模式自我优化，批处理提升吞吐率。

这些基础与设计模式，是构建任何复杂系统的基石。掌握它们，才能在数据密集和高并发的时代游刃有余。

深度理解，不止于记忆，更在于如何灵活运用。每一个数据结构和算法，都是对性能、资源和场景的权衡。成为高手，先从理解这些核心开始。

01:13 · Nov 17, 2025 · Mon

Bas van Opheusden分享了他加入OpenAI的面试经验，给求职者提供了宝贵的洞见和实用建议。|

首先，面试过程压力巨大，别忘了保护好心理和身体健康，保持支持网络，合理作息。面试虽看似竞争，实则大家目标一致——希望你成功通过并接受offer。

面试难免会有失败，重要的是坚持和成长。即使被拒，别气馁，未来依然有机会。多家AI/ML公司面试经历告诉我们，面试其实也很有趣——你会接触顶尖专家，学习新技能，体验编程挑战。

准备是成功关键：建议至少投入约100小时刷题，如Leetcode，另花类似时间阅读论文、复习基础知识、模拟面试。所有对话都非“随便聊聊”，每次交流都是展现自我和热情的机会。

技术面试中，面试官希望你成功，切勿紧张。掌握策略：保持简洁介绍，解决一个问题后迅速进入下一个，适应白板和Python编码。善用“todo”注释和断言帮助自己理清思路，遇难题可适当调整思路。

行为面试重在讲故事，使用STAR(I)法则，准备涵盖领导力、失败经历等主题的真实案例，展现成长和反思。

领域面试需熟悉基础与前沿知识，准备好讨论论文和当前项目。利用ChatGPT、Deep Research等工具辅助学习。

拿到面试机会往往靠可见的优秀成果和人脉推荐。保持活跃，发布作品，参加活动，善用LinkedIn和个人主页。面试前务必了解招聘经理背景，真诚表达对职位和团队的热情。

谈判时别只盯着薪资，关注团队、使命、文化和生活品质。最终选择让你每天都乐于工作的地方。

AI research interviews | #面试 #经验

面试经验

01:09 · Nov 17, 2025 · Mon

从零开始实现GPT和Llama模型，带来的不仅是代码，更是深刻的实践体悟。本文作者总结了六大核心经验，值得每个深度学习工程师反复品味：

1. 放弃notebooks依赖，拥抱代码仓库。Colab和Kaggle方便，但真正的项目价值在于结构清晰、易维护的git repo，养成使用专业编辑器和工程化脚本的习惯，才是通向工业级开发的必经之路。

2. GPU永远不能闲着。深度学习的加速根本在于大规模并行计算。就像撕散书页在桌面铺开，GPU能同时处理海量数据。利用Wandb等MLOps工具实时监控GPU使用率，避免资源浪费，是保证训练效率的关键。

3. 持续优化代码细节。比如作者通过替换Parquet Reader为Dataloader、用PyTorch内置的Scaled Dot Product Attention替代自定义实现，token处理速度提升近10倍。性能提升往往藏在内核融合和内存优化的细节里，别放过任何提升空间。

4. 时刻关注张量维度。深度学习中Tensor维度变化频繁，做好注释、标明形状，避免因转置、reshape导致的逻辑混乱，是代码可读性和debug效率提升的基础。

5. 深刻理解模型组件差异。GPT用LayerNorm，Llama改用RMSNorm。拆解每个子模块，理解其设计动机和作用，才能更好地把握整张架构图，代码实现也能更加准确高效。

6. 善于横向比较架构演进。新模型往往在旧模型基础上做局部创新，比如Mixture of Experts用多个小网络替代大网络结构。通过对比，抓住关键创新点，快速洞察论文核心，有助于精准实现和性能评估。

最后，初学时别怕依赖如Grok、GPT、Gemini等工具，失败是成长的必经阶段，坚持下来终能独立驾驭复杂模型。

Learnings after coding GPT & Llama from scratch :) | #经验

经验

01:07 · Nov 17, 2025 · Mon

谷歌悄然向6.5亿用户推出了Gemini 3，这一自动化智能代理彻底颠覆了AI咨询行业。过去那些收费1.5万美元、耗时6周的“AI定制方案”，现在只需4分钟，手机上即可完成。| 帖子

Gemini 3的核心变化：
- 自动规划多步工作流程，完全自主执行，无需任何指导
- 面向非技术用户，无需计算机专业背景
- 已在移动端上线，触手可及

与那些“AI机构”高价卖战略方案不同，谷歌直接将真正的自动化能力带给了比ChatGPT用户还多的人群。AI自动化的门槛瞬间降至：只需一部手机，4分钟设置。

现实是，很多企业还在固守“半年规划+技术团队+高额咨询费”的老思维，殊不知时代已经变了。真正的竞争力来自把AI当作本能，而非项目。

更深层的启示是：自动化变得轻松，不代表价值消失，而是价值上移。低阶重复的流程被机器取代，高阶的判断力、策略设计和运营模式将成为稀缺资产。

15:28 · Nov 15, 2025 · Sat

10个权威网站获取博士论文资源，轻松下载全球开源学位论文：

1. Open Access Theses and Dissertations — 海量免费论文库
2. Open Thesis — 多学科开放存取论文平台
3. DART-Europe E-theses Portal — 欧洲博士论文集中地
4. ProQuest Dissertations & Theses — 国际知名学术资源
5. MIT Theses — 麻省理工学院论文资源
6. Digital Library of Theses & Dissertations — 数字化学位论文库
7. Caltech Thesis — 加州理工学院学术论文
8. British Library — 英国国家图书馆论文收藏
9. Electronic Theses & Dissertation Centre — 电子论文中心
10. Harvard DASH — 哈佛大学开放存取论文 | #论文

论文