黑洞资源笔记

02:29 · Oct 24, 2025 · Fri

《现代大语言模型采样入门指南》，一篇长文，系统介绍了LLM中的文本生成采样技术。

文章从基础的token化原理（如为何使用子词、BPE和SentencePiece分词方法）讲起，详细解析了各类采样策略（如温度调节、Top-K、Top-P、重复惩罚等）及其对生成结果的影响，并探讨了不同采样方法之间的相互作用与组合效果，强调了采样顺序和参数协同的重要性，旨在帮助理解如何通过合理配置采样策略来提升生成文本的质量、多样性和连贯性。

02:27 · Oct 24, 2025 · Fri

Claude Agent Skills 官方最佳实践，值得一读，除了理解Claude Skills，也能帮你更好的写好提示词和理解上下文。

了解如何编写Claude 可以发现并成功使用的有效技能。优秀的技能简洁明了、结构合理，并经过实际测试。

02:10 · Oct 24, 2025 · Fri

最近，一种名为“Attentive Reasoning Queries（ARQ）”的新推理方法被开源，显著减少了大型语言模型（LLM）中的幻觉问题，成功率高达90.2%，超过了广泛使用的Chain-of-Thought（CoT）等技术。

核心痛点在于：当前LLM在处理长对话时，难以持续关注关键规则和上下文，常出现“前面说的忘了”“规则被忽略”的情况。比如，当系统提示含2000字政策和行为规范时，模型最初能遵守，但很快就会偏离，甚至给出违背规则的答复。

传统推理方法如CoT允许模型“自由思考”，缺乏针对特定领域的严格控制，导致效果有限。

ARQ通过将推理步骤结构化为明确且具领域针对性的JSON格式问题，强制模型逐步检查和确认关键信息。这样不仅帮助模型在多轮对话中保持规则一致，也使推理过程更易审计和验证。

示例JSON包括当前上下文、激活的指导原则、是否采取过某行动、是否需要调用工具及下一步操作等字段，确保每一步推理都有据可依。

测试显示，ARQ在87个场景中的成功率为90.2%，显著优于CoT的86.1%和直接生成的81.5%。该方法已集成于开源框架Parlant（14k星），覆盖指导规则选择、工具调用和最终回复生成等关键模块。

这一研究提醒我们：在复杂多轮或高风险任务中，明确、结构化且领域感知的推理方法远比自由发挥更可靠。尽管自由形式思考适合创造性工作，严谨的框架才是保证模型行为符合预期的关键。

推文 | Github

02:06 · Oct 24, 2025 · Fri

Vector RAG系统构建流程

1. 数据采集与预处理
用爬虫（如Firecrawl）、数据连接器（数据库、API）或专门的平台（如Unstructured.io）收集并清洗数据，确保后续切片和向量化质量。

2. 切分成块
利用LangChain、LlamaIndex等工具，将文档分成有意义的小块，保持上下文连贯，方便精准检索。切分方式可多样：固定长度、语义切分、递归等。

3. 生成向量嵌入
用先进模型（text-embedding-ada-002、Cohere Embed v3、BGE-M3、llama-text-embed-v2）将文本块转成高维向量，便于相似度计算。

4. 存储与索引
向量存入专用数据库（Pinecone、Weaviate、Qdrant、Milvus、pgvector），也可用Elastic或MongoDB等支持向量搜索的传统库。

5. 信息检索
结合密集向量搜索、稀疏检索（BM25、SPLADE）或混合检索（RRF等），用LangChain、Haystack等框架实现相关内容召回，并通过重排序（bge-reranker、Cohere Rerank）提升准确度。

6. 流程编排
用LangChain、LlamaIndex，或n8n、Google Cloud Vertex AI Pipelines等工具，协调各环节数据流和调用顺序，保证系统稳定高效。

7. 选择大模型生成
接入Claude、GPT-4o、Gemini、Llama 3、DeepSeek、Mistral等LLM，通过API或AI网关（Portkey、Eden、OpenRouter）调用，实现文本生成。

8. 监控与可观测性
利用Langfuse、PromptLayer、Helicone、Arize AI等平台，跟踪提示词表现、延迟、资源消耗及模型输出，及时发现并解决问题。

9. 持续评估优化
借助自动评测指标（准确性、一致性、召回率）、A/B测试和人工反馈，反复调优检索和生成效果，必要时进行模型微调。

这套流程涵盖了Vector RAG系统从数据采集到生成优化的每一步，是构建高质量智能问答和知识检索系统的实用指南。建议收藏并实践。

这份方案不仅系统全面，还结合了当前主流开源工具和商业产品，适合技术爱好者、开发者及企业研发团队参考。

02:03 · Oct 24, 2025 · Fri

系统设计面试中的15条实用启发法：

1. 低延迟+全球分布 → CDN：利用边缘服务器加速数据传输，减少延迟。
2. 高读取+瓶颈 → 缓存：热点数据缓存，减轻数据库压力。
3. 高写入+流量峰值 → 队列：写操作异步排队，平滑高峰流量。
4. 分布式+事务 → Saga模式：多服务事务用补偿动作保证一致性。
5. 强一致性+关系型 → SQL数据库：保证事务完整性和ACID特性。
6. 灵活性+扩展 → NoSQL：支持灵活数据模型和横向扩展。
7. SQL+规模扩展 → 数据库分片：数据分区分库提升扩展性。
8. 负载+增长 → 横向扩容：增加服务器应对增长流量。
9. 流量+可靠性 → 负载均衡：均匀分配请求，提升性能和稳定性。
10. 核心组件+故障 → 冗余设计：关键服务多副本避免单点故障。
11. 持久性+容错 → 数据复制：确保数据可用性与灾难恢复。
12. 请求+突发 → 限流：防止服务器过载，保障系统稳定。
13. 负载+波动 → 自动扩缩容：根据流量自动调整资源。
14. 实时+更新 → WebSocket：实现实时双向通信。
15. 重试+安全 → 幂等设计：操作可安全重试，无副作用。

这些启发法是快速判断和面试参考的利器，具体方案仍需结合实际需求权衡取舍。理解每种模式背后的权衡，远比死记硬背更重要。

02:02 · Oct 24, 2025 · Fri

如何用AI一天读完一本书，并真正学会作者的思维框架和系统，而非简单速读？| 推文

1. 获取书籍，PDF格式最佳，epub等也可。关键不是格式，而是后续处理方式。

2. 大部分人犯的错误：把整本400页以上的书一次性上传给AI，期待完美总结，结果往往泛泛而谈，遗漏关键细节。

3. 原因在于：大型语言模型（LLM）处理超大文本时注意力会分散，无法连贯理解长篇内容。解决方案是分段读取，建议每2-3章分一次，极致做法是逐章拆分，确保AI深入抓取每部分细节。

4. 短书（200页以下）可直接整体上传，避免复杂拆分。

5. 成败关键在于「提问方式」：不是让AI简单总结，而是系统提取知识。你要的是深度理解和可操作的框架，而非表面印象。

6. 学习重点包括：
- 作者的视角和教学风格，理解其独特的表达和例证。
- 具体的框架和步骤，可直接应用于实际工作。
- 细节故事和关键“顿悟”，防止误用框架，深化理解。

7. 构建提问流程：
- 先让AI确认书名和作者，方便调用相关知识。
- 选择两种路径：
a) 个性化学习：AI基于你的背景和需求互动提问，帮助你将知识应用于自身情境。
b) 原汁原味传递：AI严格按照作者意图讲解，保持内容纯粹无偏。这是作者推荐的首选路径。

8. 理想顺序：先纯粹学习作者原版内容，再用个性化路径将其应用于自身业务。避免一开始就过滤视角，错过潜在突破。

9. 实操技巧：用拆分章节做Claude项目里的系统提示，每章单独上传对话，方便管理和深度挖掘。

10. 读完后别停：
- 让AI生成一页总结便于回顾。
- 制作互动练习和测验，检验记忆和理解。
- 提取精彩语录，形成细致执行清单，设计案例研究，把被动阅读转化为主动掌握。

11. 真实案例：作者用90分钟分6次读完350页商业书，获得深刻理解、个性化计划和90%知识保留率。传统阅读需要10小时且效果远不及此。

12. 关键不是速度，而是深度结合即时应用。你不是为了读完而读，而是为了提取可用框架并立刻落地。

13. 传统阅读最大陷阱：读完一周后几乎忘光，无法实际运用。AI辅助阅读则逼你主动参与，边学边测，边建方案，真正实现知识工程。

14. 思维转变：别以读了多少书为成功标准，而看你实际用多少框架解决了问题。唯有实战才有价值。

01:46 · Oct 24, 2025 · Fri

Anthropic 推出 Claude Code 网页版，开发者无需打开终端即可委托 AI 处理编程任务。支持多任务并行执行，方便管理 Bug 积压、日常修复和并行开发，极大提升工作效率。

目前处于 Pro 和 Max 用户的测试预览阶段，期待更多反馈和优化。此举标志着 AI 工具从辅助走向“共同开发者”，让开发者专注于产品愿景而非繁琐语法。

用户建议加入目录选择、上传附件、GitLab 集成等功能，期待更灵活且贴合实际开发场景的支持。业内也指出，AI 不是取代工程师，而是加速从想法到产出的路径。

这种“零门槛”在线编程体验，有望彻底改变软件开发的工作方式，未来开发环境或将变得更加轻量和无缝。

01:44 · Oct 24, 2025 · Fri

Claude生态三大核心：Skills、Subagents和Projects区别 | 推文

- Skills是Claude的基础技能模块，类似工具包，专注单一功能。
- Subagents则是具备独立任务能力的小代理，可以调用多个Skills协同工作，完成更复杂任务。
- Projects是将多个Subagents组合成完整解决方案，支持多步骤、多角色协作，应用场景更丰富。

理解这三者关系，有助于高效设计和部署Claude驱动的AI系统，避免混淆和重复工作。

01:41 · Oct 24, 2025 · Fri

What makes documentation good

一篇好的文档，核心在于将有用信息准确传递给读者。优秀文档的关键在于易读、简明且具条理，能有效减少读者的搜索时间，提升解决问题的效率。

首先，文档要便于快速浏览。通过清晰的章节标题指引读者，优先使用带信息量的标题而非抽象名词，比如“Streaming减少首个token时间50%”比单纯写“结果”更直观。目录的设置能快速定位信息，也帮助读者判断文档是否值得深入阅读。段落保持简短，关键观点单独成段，避免信息埋没。段落开头用独立且主题明确的句子，方便读者快速捕捉内容。主题词尽量放在句首，提升扫描效率。重要结论应放在前面，避免冗长铺垫。使用项目符号和表格辅助梳理内容，重点文字可适当加粗，帮助突出关键点。

其次，写作风格要力求清晰简洁。避免复杂长句和多余修饰，倾向用简明句式表达，确保句子结构易于理解。避免左侧分支长句和指示代词“这”“那个”等跨句引用，减少读者记忆负担。保持一致性，无论是大小写、标点还是命名风格，都应统一，避免干扰阅读体验。避免揣测读者状态，使用客观陈述更专业。

此外，文档应对不同层次读者友好。语言简单明了，避免缩写，尽量写全称，方便非母语及初学者理解。主动提供潜在问题的解决方案，兼顾初学者和专家的需求。用准确且具体的术语替代行话，比如用“输入”替代“prompt”，“最大token限制”代替“上下文限制”。代码示例应尽量通用且独立，减少依赖，方便复制运行。优先覆盖常见问题，避免稀有细节占用过多篇幅。绝不示范坏习惯，比如代码中暴露API密钥。介绍新主题时，先用广泛背景铺垫，使读者更易接受和理解。

最后，文档写作是对读者的同理心体现，应灵活应用规则，针对读者需求做出最佳选择。