黑洞资源笔记

20 hours ago

2026 AI 工程师面试核心：90% 考点都在这 12 个概念里 | 帖子

站在2026年的门槛上，AI工程师的面试已经从最初的玄学回归到了工程本质。无论面试官如何发问，90%的核心考点都逃不出这12个概念的范畴。

这不仅是一份面试清单，更是构建生产级AI应用的技术地图。

1. 提示工程 (Prompt Engineering)
这是与模型沟通的艺术。不仅是写几句话，而是通过Zero-shot、Few-shot、思维链(CoT)、思维树(ToT)以及ReAct框架来精准引导模型。
见解：提示词是最低成本的逻辑控制，但其脆弱性要求工程师必须具备模型无关的防御性编程思维。

2. 检索增强生成 (RAG)
让模型查字典后再说话。通过检索相关知识块并注入提示词，解决模型幻觉和知识滞后问题。
见解：RAG的本质是知识解耦，检索质量直接决定了生成的上限。

3. 向量嵌入与向量数据库 (Vector Embeddings & DBs)
语义搜索的基石。将非结构化数据转化为数学向量，实现真正的语义理解。
见解：选型Pinecone或PGVector只是开始，索引的更新频率和检索精度才是生产环境的痛点。

4. 智能体与工具调用 (Agentic AI & Tool Calling)
从对话框到行动派。让模型自主规划、调用外部API并进行自我反思。
见解：Agent是AI从“助理”向“员工”转变的关键，难点在于如何防止逻辑死循环和幻觉执行。

5. 深度推理与思维链 (CoT & Reasoning)
让模型“想清楚再开口”。通过步骤拆解、自我批判来提升逻辑复杂任务的表现。
见解：推理能力是有代价的，工程师需要在Token成本、响应延迟与逻辑正确性之间寻找平衡。

6. 记忆持久化与上下文管理 (Memory Management)
解决AI的“鱼类记忆”。利用向量存储和摘要技术，管理长短期记忆。
见解：上下文窗口再大也有极限，高效的上下文压缩和状态管理是长对话系统的核心。

7. 流式传输与异步模式 (Streaming & Async)
优化用户体验的关键。实时推送Token，异步处理工具调用和后台任务。
见解：在AI时代，UX就是生产力。流式输出能极大缓解用户在等待复杂推理时的焦虑。

8. 推理优化 (Inference Optimization)
让AI跑得更快、更省。涉及量化、蒸馏、vLLM加速和缓存技术。
见解：模型训练是科学，模型推理是工程。5到10倍的成本缩减往往来自于这些底层的优化。

9. Token与成本管理 (FinOps)
每一行输出都是真金白银。通过提示词压缩、模型路由和精细化监控来控制账单。
见解：不能为公司省钱的AI工程师不是好的架构师。

10. 微调技术 (Fine-Tuning/PEFT)
领域专家的养成。利用LoRA、QLoRA等轻量化技术，在有限资源下实现模型风格和知识的定制。
见解：微调不是为了灌输知识，而是为了对齐领域内的表达风格和任务规范。

11. 评估与度量 (LLM Eval)
告别“体感评估”。使用RAGAS、LLM-as-judge以及黄金数据集进行量化评分。
见解：没有度量就没有进步。自动化评估流程是CI/CD在AI时代的延伸。

12. MLOps与生产部署
从Demo到服务。涵盖监控、漂移检测、护栏机制(Guardrails)和回滚策略。
见解：AI应用的稳定性不取决于模型本身，而取决于支撑它的工程基础设施。

虽然这12个概念定义了AI工程师的专业深度，但面试的第一关往往依然是扎实的编程功底。Python数据结构、算法以及系统设计是进入这些高级讨论的入场券。

提示工程提供即时控制，RAG注入可靠知识，向量实现语义搜索，Agent赋予行动能力，而MLOps则保证这一切在生产环境中稳定运行。
20 hours ago

本地运行大模型常常需要折腾各种框架，内存吃紧、速度慢、还容易被审查过滤，切换工具调试参数超级麻烦。

SuperGemma4-26B-Uncensored GGUF v2 把顶级性能全整合到一起，提供最强开源本地AI解决方案。

不仅真正无审查（0/100拒绝率）、修复工具调用bug，还超快速度（89.4 tok/s生成）、支持韩文/代码/对话，完美适配Apple Silicon和llama.cpp。

主要功能：

- 真正无审查聊天，0拒绝率，支持敏感查询和自由对话；
- 超快推理速度，提示处理222 tok/s，生成89.4 tok/s（Q4_K_M量化16.8GB）；
- 修复工具调用和分词问题，自然聊天不乱入编码模式；
- 高性能韩文/代码/逻辑任务，优于原版Gemma-4 26B；
- 支持llama.cpp、Apple M4 Max等本地部署，18-22GB VRAM即可运行；
- 嵌入中性聊天模板，避免旧版提示路由bug。

支持Web、Mac、Windows多平台，下载GGUF文件直接用llama.cpp运行，适合开发者、研究者和本地AI爱好者。
20 hours ago

微信收藏夹内容繁多，却难快速检索和回顾，手动翻找费时费力，分类统计更是一团乱麻。

wx-favorites-report 把微信收藏可视化处理全搞定，从加密数据库到交互式报告一键生成。

不仅有统计仪表盘、月度趋势、类型分布、来源排行，还支持活跃热力图、词云标签云，以及按类型/标签筛选浏览。

主要功能：

- 智能密钥提取，hook Frida 解密微信 Mac 收藏数据库；
- 丰富统计可视化：总数/日均/最忙日/来源 Top15 排行；
- 多维度图表：月趋势折线、类型甜甜圈、活跃热力图；
- 词云+标签云，自动提取标题关键词和收藏标签；
- 交互浏览区，支持类型/标签筛选、全文搜索、分页排序；
- 单文件 HTML 报告，暗黑主题，ECharts 驱动，点击详情弹窗。

支持 macOS (Apple Silicon/Intel)，用 Claude Code 一键执行全流程，或手动 pip3 + frida 运行，完美回顾你的收藏记忆。
20 hours ago

OpenMythos：从第一性原理，还原 Claude Mythos 的 “思考” 本质

这不仅是一个代码库，更是一场关于大模型“思考”本质的深度实验。Kye Gomez 推出的 OpenMythos，试图从第一性原理出发，还原那个让业界惊叹的 Claude Mythos 背后可能的运行逻辑。

核心观点与架构深度解析

1. 循环深度Transformer (RDT)：隐式思维的源头
OpenMythos 的核心假设是：Mythos 并非无限堆叠层数，而是一个循环深度Transformer。
- 逻辑：它在单个前向传播中，将一组固定的权重重复调用 T 次（最高可达 16 次）。
- 这意味着推理发生在连续的潜空间（Latent Space）中，而不是通过显式的 Token 输出。这是一种“沉默的思考”，在逻辑深度上等同于思维链（CoT），但效率更高。

2. 混合专家模型 (MoE) 的进化：深度与广度的平衡
在循环块内部，FFN 层被替换为类似 DeepSeekMoE 的精细化 MoE 设计。
- 动态路由：最关键的创新在于，路由器的选择在每一次循环中都是不同的。
- 这意味着每一轮循环并不是简单的重复，而是针对不同领域知识的连续精炼。MoE 提供了知识的广度，而循环提供了推理的深度。

3. 架构三部曲：前奏、循环与尾声
- Prelude（前奏）：标准 Transformer 层，负责初始编码。
- Recurrent Block（循环块）：计算核心，通过 LTI（线性时不变）稳定规则进行输入注入，确保隐状态在多次循环中不漂移。
- Coda（尾声）：标准 Transformer 层，负责最终输出解码。

4. 效率的降维打击
- 参数复用：一个 k 层的模型运行 L 次循环，可以达到 k 乘以 L 层标准模型的质量。
- 性能飞跃：在 770M 参数规模下，RDT 的表现足以匹配 1.3B 的标准模型。
- 见解：这重塑了缩放定律（Scaling Laws）的讨论——未来的竞争力可能不再是训练时的参数量，而是推理时的循环深度。

技术稳定性与优化

为了解决循环模型常见的训练不稳定问题，OpenMythos 引入了三项关键机制：
- LTI 约束注入：通过数学构造确保谱半径小于 1，从根本上防止残差爆炸。
- 适应性计算时间 (ACT)：允许模型根据任务难度自动决定何时停止循环。
- 深度 LoRA 适配器：在保持权重共享的同时，让每一轮循环拥有微小的行为差异化。

传统的 Transformer 在处理从未见过的逻辑组合时往往会失效，而循环架构展现出了“系统性泛化”的能力。它更像人类的大脑：面对简单问题快速反应，面对复杂问题则在脑中反复盘旋、多次迭代，最终得出一个深思熟虑的答案。

OpenMythos 证明了：推理深度是推理时间计算量（Inference-time Compute）的函数，而不仅仅是存储参数的堆砌。

项目资源：代码仓库 | 社区讨论

参考文献与延伸阅读

- 循环深度Transformer中的隐式推理
- Parcae 稳定循环语言模型缩放定律
- 潜空间中的推理能力研究
- DeepSeekMoE 专家专业化研究
20 hours ago

AI 代理操作浏览器时，经常卡在复杂交互上：需要精确的元素选择器、处理弹窗、应对页面变化，还要编写一堆工具函数，调试起来异常繁琐。

Browser Harness 将 LLM 浏览器自动化所需的全部能力整合到一起，提供了一套自愈式浏览器控制解决方案。

直接基于 CDP（Chrome DevTools Protocol）构建，支持代理实时编写缺失工具、中途自愈修复、无框架限制的自由操作。

主要功能：

- 自愈式浏览器控制，代理可中途编辑 helpers.py 添加缺失功能（如文件上传）；
- 纯 CDP WebSocket 直连 Chrome，无中间层干扰，~592 行 Python 核心代码；
- 预载工具函数（helpers.py），支持屏幕激活、交互演示和远程浏览器；
- 领域技能系统（domain-skills），自动学习并保存 GitHub、LinkedIn、Amazon 等站点操作；
- 免费远程浏览器服务，3 个并发实例，支持部署子代理；
- 一键运行（run.py），安装后即可连接真实浏览器执行任意任务。

支持本地 Chrome + Python 环境，通过 install.md 快速部署，适合 AI 开发者、自动化工程师使用。
20 hours ago

金融分析常常需要同时打开多个软件，数据源工具抓取行情，Excel建模计算，TradingView画K线图，聊天工具交流观点，来回切换效率低下。

Fincept Terminal 将金融分析所需功能完美整合，提供专业级投资研究解决方案。

不仅有CFA级量化分析、37个AI智能代理（巴菲特、芒格等策略框架），还支持100+数据源实时连接、16家券商交易集成、节点编辑器自动化工作流。

主要功能：

- CFA级分析工具，支持DCF估值、投资组合优化、风险度量（VaR、Sharpe比率）、衍生品定价；
- 37个AI代理，覆盖交易/投资、经济、地缘政治，本地LLM多模型支持；
- 100+数据连接器，Yahoo Finance、FRED、Kraken、Polygon等实时行情；
- 实时交易支持，16家券商集成（IBKR、Alpaca等），算法交易/模拟交易；
- QuantLib量化套件，18个模块包括定价、风险、波动率分析；
- 节点编辑器可视化工作流，AI量化实验室支持机器学习/HFT策略。

纯C++20/Qt6原生桌面应用，支持Windows、Linux、macOS，一键安装运行，适合投资者、交易员、量化研究者。