20260106上午11点 ChatGPT 美国军人认证实操记录 | JIKE社区
Meta刚以20亿美元收购了Manus。一位开发者深入研究了其核心工作原理,并将关键模式开源分享。
AI Agent面临一个普遍困境:经过大量工具调用后,它们会逐渐迷失目标。上下文膨胀、错误被淹没、任务偏离轨道。
Manus的解决方案出奇简单——仅用三个Markdown文件:
- task_plan.md:用复选框追踪进度
- notes.md:存储研究内容,避免塞满上下文
- deliverable.md:最终交付物
核心机制是:Agent在每次决策前都会重新读取计划文件,确保目标始终停留在注意力窗口内。
这个发现引发了社区热烈讨论,也暴露出一些关键洞见:
关于"这不是什么新东西"的质疑,确实如此。Claude Code本身就会自动创建plan.md文件,Spec-kit、APM等开源工具早已实现类似工作流。但这恰恰验证了这个模式的有效性——当多个独立开发者不约而同地收敛到同一解决方案时,说明它确实解决了真实问题。
关于"写入notes.md不也是在填充上下文吗"的技术追问,这是个精准的观察。写入操作确实会产生token消耗。但关键不在于减少token数量,而在于注意力操控。LLM存在"大海捞针"问题——随着上下文增长,它们会逐渐遗忘早期目标。通过在每次重大决策前重新读取计划文件,目标被强制拉回注意力窗口。
社区提出了更进阶的方案:使用子Agent处理上下文密集型任务。主Agent保持轻量,只负责追踪进度和协调;子Agent在独立上下文中完成繁重工作后汇报结果。这样既保持了主Agent上下文的清洁,又能处理复杂任务。
一位开发者分享了他的实战经验:将Claude视为员工,一次只分配一个任务,每完成一步就提交git,全程人工审核。这是8小时工作日的节奏,不是"设置后就忘"的自动化。
关于工作流设计的最佳实践:保持CLAUDE.md极度精简,只描述核心行为预期;将数据库、API等专项知识拆分到独立文件,仅在相关任务时加载;维护一个愿望清单,让未来功能不干扰当前工作。
有人一针见血地指出:20亿美元买的不是三个Markdown文件,而是一家6个月创造1亿美元收入的公司,以及其虚拟机能力、浏览器自动化和完整Agent平台。这个模式只是其中一块拼图。
这场讨论揭示了一个更深层的趋势:上下文工程正在成为一门独立学科。我们正在见证"Agent工程师"这个新角色的诞生——他们是软件工程师,但具备云服务、API和Agent能力的综合知识。
最实用的一句话总结来自社区:Claude是我的员工,我给它分配任务、检查每个任务、控制每个步骤。不要试图让Claude一次完成所有事情,那是不可能的。
reddit | 原始技能仓库 |Spec-kit |多Agent管理框架APM | Manus上下文工程博客
Obsidian创始人kepano在推特上发起了一个问题:你是怎么用Obsidian配合Claude Code的?评论区涌现出大量令人惊艳的实践案例,堪称一场关于"AI增强型知识管理"的集体智慧展示。
一、把AI变成你的"记忆唤醒器"
有用户分享了一个极具仪式感的习惯:每天打开电脑第一件事,就是问Claude Code"我们上次聊到哪了?帮我检查一下笔记库"。AI会自动回顾最近完成的工作,然后用户开始描述今天想做什么、想怎么组织思考——Claude Code成了指挥中心,Obsidian则是审阅和编辑的主战场。
这不是在用工具,而是在和工具对话。
二、知识库的深度整合
不少开发者已经把Claude Code直接嵌入Obsidian。有人开源了obsidian-claude-code插件,因为"受够了在Obsidian和终端之间来回切换"。还有人写了CLI脚本来追踪wiki链接,让常青笔记承担起向AI传递方法论、信念、偏好、项目背景的重任。
更有人用它来构建记忆图谱层,让AI写入的记忆更易读、更结构化。
三、批量操作与自动化
Claude Code在批量处理上展现出惊人效率:批量编辑复杂的bash命令、添加链接、修改属性、重命名笔记、格式化、添加反向链接、按文件夹整理。有用户建立了风格指南文件,让Claude按规范更新笔记后,再反过来询问是否需要更新指南本身——形成了一个自我进化的系统。
四、研究与思考的深度伙伴
有人每周用Granola转录心理治疗记录,导入Obsidian后让Claude每季度做一次大复盘,分析成长轨迹和盲区。有人用它处理GB级数据,提炼洞察写入笔记,再生成信息图。还有人把它当作"不太在意组织结构"的搜索引擎,直接问"我写过什么关于X的内容"。
五、个人操作系统的雏形
一位用户的思考尤其深刻:他正在构建一个"个人操作系统",希望Obsidian这样的开源工具能成为任何人都可以接入的知识库——信息、实体、技能都能在其中被组织、手动编辑或优雅浏览。"那些我们技术上可以在终端里做的事,但要有更漂亮的轨道。"
这或许指向了一个更大的愿景:当AI能够深度理解和操作你的知识库时,早期在个人知识管理上的投入,正在以复利的形式回报。
hyprwhspr:Arch Linux 上的原生语音转文字工具 | #工具
用语音输入文字这件事,在 Linux 桌面上一直不太顺手。要么依赖云端服务有延迟,要么本地方案配置繁琐,Wayland 环境下更是各种兼容问题。
hyprwhspr 是一个专为 Arch Linux 和 Hyprland 打造的语音转文字工具,按下快捷键说话,松开后文字直接出现在光标位置,整个过程在本地完成。
项目默认使用 Whisper 模型实现离线识别,也支持最新的 Parakeet-v3 模型,有 NVIDIA 或 AMD 显卡还能启用 GPU 加速。除了本地模型,同样支持 OpenAI、Groq 等云端 API,甚至可以接入任意自定义后端。
主要特性:
- 通过 AUR 一键安装,交互式配置向导自动完成设置;
- 支持切换、按住说话、自动检测三种录音模式;
- 可视化录音状态指示器,自动匹配 Omarchy 主题配色;
- 内置词语替换功能,可自定义专业术语和标点符号转换;
- Waybar 托盘集成,实时显示服务状态;
- 支持多语言识别,可指定语言或自动检测。
安装后运行 hyprwhspr setup 即可完成配置,默认快捷键 Super+Alt+D 触发录音,文字自动粘贴到当前活动窗口。
用语音输入文字这件事,在 Linux 桌面上一直不太顺手。要么依赖云端服务有延迟,要么本地方案配置繁琐,Wayland 环境下更是各种兼容问题。
hyprwhspr 是一个专为 Arch Linux 和 Hyprland 打造的语音转文字工具,按下快捷键说话,松开后文字直接出现在光标位置,整个过程在本地完成。
项目默认使用 Whisper 模型实现离线识别,也支持最新的 Parakeet-v3 模型,有 NVIDIA 或 AMD 显卡还能启用 GPU 加速。除了本地模型,同样支持 OpenAI、Groq 等云端 API,甚至可以接入任意自定义后端。
主要特性:
- 通过 AUR 一键安装,交互式配置向导自动完成设置;
- 支持切换、按住说话、自动检测三种录音模式;
- 可视化录音状态指示器,自动匹配 Omarchy 主题配色;
- 内置词语替换功能,可自定义专业术语和标点符号转换;
- Waybar 托盘集成,实时显示服务状态;
- 支持多语言识别,可指定语言或自动检测。
安装后运行 hyprwhspr setup 即可完成配置,默认快捷键 Super+Alt+D 触发录音,文字自动粘贴到当前活动窗口。
AI时代的编程圣经:Unix哲学的17条法则为何比以往更重要 | 帖子
Vercel CEO Guillermo Rauch 分享了一张图,将经典的Unix哲学重新定义为"成功进行Agentic编程的17条法则"。这些诞生于上世纪的设计原则,在AI Agent大行其道的今天,反而焕发出了新的生命力。
这17条法则分别是:
1. 模块化法则:编写简单的部件,用清晰的接口连接
2. 清晰法则:清晰胜于聪明
3. 组合法则:设计程序时要考虑与其他程序的连接
4. 分离法则:策略与机制分离,接口与引擎分离
5. 简洁法则:为简洁而设计,只在必要时增加复杂性
6. 节俭法则:只有当证明别无他法时,才写大型程序
7. 透明法则:为可见性而设计,让检查和调试更容易
8. 健壮法则:健壮性是透明性和简洁性的产物
9. 表示法则:将知识折叠进数据,让程序逻辑保持简单和健壮
10. 最小惊讶法则:在接口设计中,永远做最不令人惊讶的事
11. 沉默法则:当程序没有什么惊人的事要说时,就什么都不说
12. 修复法则:当必须失败时,要尽早失败,并大声报错
13. 经济法则:程序员的时间是昂贵的,优先节省它而非机器时间
14. 生成法则:避免手工编码,尽可能用程序来写程序
15. 优化法则:先做原型再打磨,先让它跑起来再优化
16. 多样性法则:不要相信任何"唯一正确方式"的说法
17. 扩展性法则:为未来而设计,因为它来得比你想象的更快
为什么这些老原则在Agent时代更加重要?
评论区的讨论揭示了深层原因。有人指出,"沉默法则"对Agent的意义已经发生了质变——Unix时代它意味着"不要打印不必要的输出",而在Agent时代它意味着"不要采取不必要的行动"。同样的哲学,但当程序可以批量修改你的代码库时,风险等级完全不同。
另一位开发者补充道:Unix哲学对Agent的价值被严重低估了——小型、可组合的工具,清晰的输入输出契约,幂等的步骤,可重放的日志。Agent越是可检查,你就越不需要盲目信任那些"魔法"。
还有人将Python之禅与这些法则对照:
- "显式优于隐式"在调试非确定性系统时变得至关重要
- "可读性很重要"因为你会不断盯着traces、prompts和工具定义
- "错误永远不应该静默传递"映射为:永远要暴露LLM失败、工具失败、解析失败
关于第14条"生成法则",有人认为这是最重要的一条:如果某件事没有按计划进行,就相应地修改规格说明并重新生成,而不是手动修补。这恰恰是Agentic编程的精髓。
也有人提出了不同看法:这些法则在"提示生成代码"的范式下可以很好地应用,但在"提示行为"的范式下却难以一致地执行,因为后者从程序员手中拿走了太多控制权。
关于第14条"生成法则",有人认为这是最重要的一条:如果某件事没有按计划进行,就相应地修改规格说明并重新生成,而不是手动修补。这恰恰是Agentic编程的精髓。
也有人提出了不同看法:这些法则在"提示生成代码"的范式下可以很好地应用,但在"提示行为"的范式下却难以一致地执行,因为后者从程序员手中拿走了太多控制权。
当我们把编程的执行权交给AI Agent时,我们实际上是在把几十年积累的工程智慧编码进系统提示词里。Unix哲学不再只是程序员的行为准则,而是成为了约束AI行为的宪法。
清晰胜于聪明,简洁胜于复杂,可检查胜于黑箱——这些原则在人类程序员时代是美德,在Agent时代则是生存法则。
Vercel CEO Guillermo Rauch 分享了一张图,将经典的Unix哲学重新定义为"成功进行Agentic编程的17条法则"。这些诞生于上世纪的设计原则,在AI Agent大行其道的今天,反而焕发出了新的生命力。
这17条法则分别是:
1. 模块化法则:编写简单的部件,用清晰的接口连接
2. 清晰法则:清晰胜于聪明
3. 组合法则:设计程序时要考虑与其他程序的连接
4. 分离法则:策略与机制分离,接口与引擎分离
5. 简洁法则:为简洁而设计,只在必要时增加复杂性
6. 节俭法则:只有当证明别无他法时,才写大型程序
7. 透明法则:为可见性而设计,让检查和调试更容易
8. 健壮法则:健壮性是透明性和简洁性的产物
9. 表示法则:将知识折叠进数据,让程序逻辑保持简单和健壮
10. 最小惊讶法则:在接口设计中,永远做最不令人惊讶的事
11. 沉默法则:当程序没有什么惊人的事要说时,就什么都不说
12. 修复法则:当必须失败时,要尽早失败,并大声报错
13. 经济法则:程序员的时间是昂贵的,优先节省它而非机器时间
14. 生成法则:避免手工编码,尽可能用程序来写程序
15. 优化法则:先做原型再打磨,先让它跑起来再优化
16. 多样性法则:不要相信任何"唯一正确方式"的说法
17. 扩展性法则:为未来而设计,因为它来得比你想象的更快
为什么这些老原则在Agent时代更加重要?
评论区的讨论揭示了深层原因。有人指出,"沉默法则"对Agent的意义已经发生了质变——Unix时代它意味着"不要打印不必要的输出",而在Agent时代它意味着"不要采取不必要的行动"。同样的哲学,但当程序可以批量修改你的代码库时,风险等级完全不同。
另一位开发者补充道:Unix哲学对Agent的价值被严重低估了——小型、可组合的工具,清晰的输入输出契约,幂等的步骤,可重放的日志。Agent越是可检查,你就越不需要盲目信任那些"魔法"。
还有人将Python之禅与这些法则对照:
- "显式优于隐式"在调试非确定性系统时变得至关重要
- "可读性很重要"因为你会不断盯着traces、prompts和工具定义
- "错误永远不应该静默传递"映射为:永远要暴露LLM失败、工具失败、解析失败
关于第14条"生成法则",有人认为这是最重要的一条:如果某件事没有按计划进行,就相应地修改规格说明并重新生成,而不是手动修补。这恰恰是Agentic编程的精髓。
也有人提出了不同看法:这些法则在"提示生成代码"的范式下可以很好地应用,但在"提示行为"的范式下却难以一致地执行,因为后者从程序员手中拿走了太多控制权。
关于第14条"生成法则",有人认为这是最重要的一条:如果某件事没有按计划进行,就相应地修改规格说明并重新生成,而不是手动修补。这恰恰是Agentic编程的精髓。
也有人提出了不同看法:这些法则在"提示生成代码"的范式下可以很好地应用,但在"提示行为"的范式下却难以一致地执行,因为后者从程序员手中拿走了太多控制权。
当我们把编程的执行权交给AI Agent时,我们实际上是在把几十年积累的工程智慧编码进系统提示词里。Unix哲学不再只是程序员的行为准则,而是成为了约束AI行为的宪法。
清晰胜于聪明,简洁胜于复杂,可检查胜于黑箱——这些原则在人类程序员时代是美德,在Agent时代则是生存法则。
Anthropic悄悄放出了一门官方课程,专门教你如何把Claude Code用到极致。15节课,1小时视频,还有测验和证书,干货密度相当高。
有人学完后整理了核心要点,值得收藏:
快捷键与模式切换
- Shift + Tab 按两次进入规划模式
- Ctrl + V 可以直接插入截图(注意不是 Command + V)
- 配合插件可以让Claude Code直接操作浏览器
控制推理深度的魔法词
在提示词中加入这些关键词,可以调节模型在任务上投入的token量:
- "Think" — 基础推理
- "Think more" — 扩展推理
- "Think a lot" — 全面推理
- "Think longer" — 延长推理时间
- "Ultrathink" — 最大推理能力
上下文管理
- /clear 清空上下文
- /compact 压缩上下文,可释放80%以上空间
进阶扩展
- 使用MCP服务器可以扩展工具集
- 支持大量pre-hooks和post-hooks,在工具执行前后自动运行
社区讨论中有个观点很有价值:课程没教的真正技能,是知道什么时候该重置上下文。很多人卡在问题里挣扎几小时,其实是在和"上下文腐化"作斗争,不如在完成一个里程碑后果断清空重来。
还有人指出,/clear比/compact更彻底,该用哪个要看场景。
当然也有老手表示,如果你已经每天高强度使用Claude Code,这门课的增量信息有限。但对于想系统入门或查漏补缺的人来说,官方出品的体系化内容,依然是最稳妥的起点。
Claude Code Workflow Studio 是一款专为 Claude Code 设计的可视化工作流编辑器,它将复杂的 AI 编排过程转化为了直观的拖拽式操作。
通过该工具,用户可以像搭积木一样设计 AI 智能体的工作路径,不仅支持复杂的条件分支和子代理协作,还能通过自然语言对话让 AI 协助优化和调整工作流结构。
在信息爆炸的时代,AI/ML从业者面临一个共同难题:如何高效追踪海量新论文?Reddit上的一场讨论揭示了业内人士的真实做法。
+ 核心发现渠道
Google Scholar的作者追踪功能是最受欢迎的方式。关注领域内重要作者,当他们发表新作时自动收到通知。同时追踪领域奠基性论文的引用情况,新引用往往意味着相关新研究。
顶会论文仍是重要信息源。ICML、ICLR、NeurIPS等会议的录用论文,通过关键词搜索可快速定位相关工作。有人甚至会花整整一周时间,逐篇阅读NeurIPS所有论文的标题和摘要。
Twitter/X在学术圈的角色颇具争议。一方面,它是获取最新论文的最快渠道,算法会根据你的关注和点赞推送相关内容。另一方面,平台上充斥着对研究结果的夸大解读,真正有洞见的内容凤毛麟角。有人呼吁学术界尽快迁移到其他平台。
+ 工具推荐
- Scholar-inbox (scholar-inbox.com):基于你的研究兴趣推送论文,附带相关性评分
- Semantic Scholar (semanticscholar.org):根据你收藏的论文进行语义搜索和推荐
- Paper Digest (paperdigest.org):每日邮件推送排序和摘要后的新论文
+ 时间投入的残酷现实
一位博士三年级学生每周花10-12小时阅读论文。即便如此,积压的待读论文仍在不断增长。他开始尝试用LLM筛选值得阅读的论文,但效果仍在调试中。
2025年论文数量几乎翻倍,有人不得不先用关键词过滤到1000篇以下,再逐一浏览标题和摘要。
对于全职工作者,周末成了唯一的阅读时间。一位Google员工坦言,即便在Google这样拥有顶级数据和算力的公司,80%的团队做的也只是"名义上的ML工作"——大部分时间在做prompt engineering和RAG调优,真正训练模型的机会很少。
+ 务实的生存策略
一个聪明的做法:只关注那些代码可复现、实验可重复的作者和实验室。与其追求全面覆盖,不如建立信任名单。
另一个策略:等待你信任的、有时间精力的同行先筛选和评论,再决定是否深入阅读。
最重要的心态转变是接受"不可能读完所有论文"这个事实。阅读摘要、快速浏览,至少知道某个方向存在什么工作,需要时再回头深挖——这可能是最现实的策略。
信息过载时代,选择不读什么,比选择读什么更重要。
核心问题很简单:大多数RAG系统失败,不是因为模型不够聪明,而是因为"垃圾进,垃圾出"。当PDF解析器把表格打散成碎片,产品名和价格的关联就丢失了,模型只能靠猜。
他的四层防线:
第一层:解析质量。使用IBM开源的Docling解析器,输出结构化的Markdown,保留表格、标题、列表的层级关系。这让LLM能"看懂"文档原本的结构,而不是面对一堆乱码。
第二层:混合检索。纯语义搜索擅长理解"意思",但对精确匹配很糟糕——搜"型号X-500"可能返回"型号X-400"。他用Dense向量(e5-base-v2 + RaBitQ量化)加BM25关键词匹配,确保产品编码、日期、SKU这类精确信息不会被漏掉。
第三层:激进重排序。向量数据库返回的50条结果里,可能只有3条真正相关。用BGE-Reranker筛选到Top-5,这一步就砍掉了约60%的错误上下文答案。那些"差不多但不对"的结果,正是幻觉的温床。
第四层:严格的系统提示。强制模型在回答前先列出相关事实、解释推理过程,最关键的是——给它一个明确的"退出通道":如果信息不在上下文里,就说"我不知道"。阻止模型"好心办坏事"地编造答案。
评论区有人用Gemini分析了这套架构,结论是"行业标准plus"级别。但也指出了两个盲区:这套方案解决的是检索问题(找对信息),不解决推理问题(理解对信息);另外对扫描PDF和图片的处理,作者坦承还没测试过。
一个值得思考的点:为什么开源组件能比云厂商的闭源方案更准确?作者的解释是,Vertex和Bedrock这类服务在简单查询上体验很好,但在企业级场景(定价表、合同、技术手册)下,既不够准确又贵得离谱。
这套方案的本质洞察:幻觉不是模型的问题,是数据管道的问题。你无法修复你无法测量的东西——用RAGAS框架量化Faithfulness和Answer Relevance,才能形成调优的反馈闭环。