核心系统
⭕️Skills:包含 109 个自然语言触发的工具,涵盖文件操作、代码分析、记忆调用等。
⭕️Agents :32 个专用代理,拥有独立的角色和职责,通过“元技能”进行编排。
⭕️Hooks:30 个钩子用于维护状态、拦截工具调用并注入上下文,确保系统行为符合预期。
⭕️TLDR Code Analysis:一个智能的代码阅读和索引工具,能够进行语义搜索、死代码检测和架构分析,避免盲目读取大量代码。
⭕️Memory System:
会话结束后自动后台提取“思考块(thinking blocks)”中的推理过程。
支持自然语言的记忆存取(如“记住 auth 使用 JWT”)。
使用向量数据库进行相关性检索。
⭕️Continuity System:确保工作流在不同会话间无缝衔接,通过 YAML 文件管理状态交接。
这个项目试图让 AI 编程助手不仅仅是一个一次性的问答工具,而是一个能像人类开发者一样“记住”项目细节、历史决策并持续进化的长期合作伙伴。
Super fast and accurate image classification on edge devices:在边缘设备上实现超快速和精度的图像分类
这个项目是一个面向开发者的本地 VLM 实战指南,该项目证明了开源的小参数量 VLM在经过适当调整后,可以在本地设备上以极低的成本实现高精度的图像分类。
也就是教你如何利用小型视觉语言模型(如 Liquid AI LFM2-VL),配合结构化 JSON 输出和监督微调(SFT)技术,将通用的多模态模型转化为能运行在本地设备上、低成本且高精度的特定领域(如猫狗分类)图像分类器。
这个项目是一个面向开发者的本地 VLM 实战指南,该项目证明了开源的小参数量 VLM在经过适当调整后,可以在本地设备上以极低的成本实现高精度的图像分类。
也就是教你如何利用小型视觉语言模型(如 Liquid AI LFM2-VL),配合结构化 JSON 输出和监督微调(SFT)技术,将通用的多模态模型转化为能运行在本地设备上、低成本且高精度的特定领域(如猫狗分类)图像分类器。
AI行业的价值重心正从构建简单的API封装(“玩具”)迅速转向开发复杂的、生产级的自主系统。
目前市场充斥着基于大型语言模型的浅层应用,这些应用缺乏护城河,容易被大型科技公司取代。
为了在未来保持竞争力并获得高薪(报告中指出“提示工程师”与“系统架构师”之间存在15万美元的薪资差距),工程师必须深入理解并实践系统编排、内存管理和本地推理等核心能力。
该路线图提出了一个由五个难度递增的项目组成的实践蓝图,旨在帮助工程师构建一份能够证明其具备处理生产环境复杂性能力的强大作品集。
这些项目涵盖了从边缘AI和资源优化,到智能体循环、多模态AI集成,再到隐私优先的个人化AI助手和企业级的自主工作流编排。
真正的职业保障源于专业知识和构建真实系统的能力。成功的关键在于立即行动、公开构建并记录过程,而非停留在理论学习。
只有那些将知识转化为实际生产系统的人,才能成为未来企业迫切需要、不可替代的核心人才。
核心观点:从“封装者”到“架构师”的转变。
大多数开发者正在构建的只是“玩具”,而世界需要的是“系统”。为了实现职业上的突破,工程师必须摆脱“教程地狱”的舒适区,转向更具深度和复杂性的挑战。
五个生产级项目:通往大师之路
以下五个项目(内容较多,见评论区)按复杂性排序,旨在构建一个能够证明工程师具备驾驭生产级复杂性能力的作品集。
前进之路:从思考者到实践者
> 2026年的残酷真相
- 可替代者: 那些继续构建简单封装层的开发者。
- 不可替代者: 那些交付并部署自主系统的工程师。
- 两者之间的差距,仅仅是完成这五个项目的决心和行动。
> 立即行动
- 选择一个项目开始: 新手从项目一开始,经验丰富的工程师可以直接挑战项目五。关键在于“开始”。
- 立即构建: 利用周末时间开始构建,因为市场奖励的是交付成果,而不是学习过程。
- 完整记录: 记录架构决策、失败与恢复过程、自我修正循环以及生产部署的全部细节。
- 公开构建: 在公共平台上分享进展,这有助于建立个人品牌并获得反馈。
> 成果的差异
- 绝大多数人(90%)在阅读后将无所作为,继续构建相同的封装应用。
- 而另外10%的行动者将交付出真正的系统,他们将获得面试机会、工作录用和职业发展的主动权。
总之:
选择很简单:要么成为企业迫切需要聘请的架构师,要么被时代淘汰。
专业知识是唯一剩下的职业保障。生产系统是唯一重要的作品集。现在,去构建一个能在现实中存活下来的东西。
项目期望可将 Claude 转变为全能的 AI 科研助手。该项目收集了 140 多个 现成的科学类(Skills),使 Claude 能够执行跨生物学、化学、医学、物理学等多个领域的复杂多步骤科研工作流。
核心目标是加速科学研究,让研究人员无需查阅繁琐的 API 文档或从头编写集成代码。
支持通过简单的自然语言指令执行复杂的任务(例如:“查询 ChEMBL 数据库寻找 EGFR 抑制剂,用 RDKit 分析构效关系,并生成报告”)。
20260106上午11点 ChatGPT 美国军人认证实操记录 | JIKE社区
Meta刚以20亿美元收购了Manus。一位开发者深入研究了其核心工作原理,并将关键模式开源分享。
AI Agent面临一个普遍困境:经过大量工具调用后,它们会逐渐迷失目标。上下文膨胀、错误被淹没、任务偏离轨道。
Manus的解决方案出奇简单——仅用三个Markdown文件:
- task_plan.md:用复选框追踪进度
- notes.md:存储研究内容,避免塞满上下文
- deliverable.md:最终交付物
核心机制是:Agent在每次决策前都会重新读取计划文件,确保目标始终停留在注意力窗口内。
这个发现引发了社区热烈讨论,也暴露出一些关键洞见:
关于"这不是什么新东西"的质疑,确实如此。Claude Code本身就会自动创建plan.md文件,Spec-kit、APM等开源工具早已实现类似工作流。但这恰恰验证了这个模式的有效性——当多个独立开发者不约而同地收敛到同一解决方案时,说明它确实解决了真实问题。
关于"写入notes.md不也是在填充上下文吗"的技术追问,这是个精准的观察。写入操作确实会产生token消耗。但关键不在于减少token数量,而在于注意力操控。LLM存在"大海捞针"问题——随着上下文增长,它们会逐渐遗忘早期目标。通过在每次重大决策前重新读取计划文件,目标被强制拉回注意力窗口。
社区提出了更进阶的方案:使用子Agent处理上下文密集型任务。主Agent保持轻量,只负责追踪进度和协调;子Agent在独立上下文中完成繁重工作后汇报结果。这样既保持了主Agent上下文的清洁,又能处理复杂任务。
一位开发者分享了他的实战经验:将Claude视为员工,一次只分配一个任务,每完成一步就提交git,全程人工审核。这是8小时工作日的节奏,不是"设置后就忘"的自动化。
关于工作流设计的最佳实践:保持CLAUDE.md极度精简,只描述核心行为预期;将数据库、API等专项知识拆分到独立文件,仅在相关任务时加载;维护一个愿望清单,让未来功能不干扰当前工作。
有人一针见血地指出:20亿美元买的不是三个Markdown文件,而是一家6个月创造1亿美元收入的公司,以及其虚拟机能力、浏览器自动化和完整Agent平台。这个模式只是其中一块拼图。
这场讨论揭示了一个更深层的趋势:上下文工程正在成为一门独立学科。我们正在见证"Agent工程师"这个新角色的诞生——他们是软件工程师,但具备云服务、API和Agent能力的综合知识。
最实用的一句话总结来自社区:Claude是我的员工,我给它分配任务、检查每个任务、控制每个步骤。不要试图让Claude一次完成所有事情,那是不可能的。
reddit | 原始技能仓库 |Spec-kit |多Agent管理框架APM | Manus上下文工程博客
Obsidian创始人kepano在推特上发起了一个问题:你是怎么用Obsidian配合Claude Code的?评论区涌现出大量令人惊艳的实践案例,堪称一场关于"AI增强型知识管理"的集体智慧展示。
一、把AI变成你的"记忆唤醒器"
有用户分享了一个极具仪式感的习惯:每天打开电脑第一件事,就是问Claude Code"我们上次聊到哪了?帮我检查一下笔记库"。AI会自动回顾最近完成的工作,然后用户开始描述今天想做什么、想怎么组织思考——Claude Code成了指挥中心,Obsidian则是审阅和编辑的主战场。
这不是在用工具,而是在和工具对话。
二、知识库的深度整合
不少开发者已经把Claude Code直接嵌入Obsidian。有人开源了obsidian-claude-code插件,因为"受够了在Obsidian和终端之间来回切换"。还有人写了CLI脚本来追踪wiki链接,让常青笔记承担起向AI传递方法论、信念、偏好、项目背景的重任。
更有人用它来构建记忆图谱层,让AI写入的记忆更易读、更结构化。
三、批量操作与自动化
Claude Code在批量处理上展现出惊人效率:批量编辑复杂的bash命令、添加链接、修改属性、重命名笔记、格式化、添加反向链接、按文件夹整理。有用户建立了风格指南文件,让Claude按规范更新笔记后,再反过来询问是否需要更新指南本身——形成了一个自我进化的系统。
四、研究与思考的深度伙伴
有人每周用Granola转录心理治疗记录,导入Obsidian后让Claude每季度做一次大复盘,分析成长轨迹和盲区。有人用它处理GB级数据,提炼洞察写入笔记,再生成信息图。还有人把它当作"不太在意组织结构"的搜索引擎,直接问"我写过什么关于X的内容"。
五、个人操作系统的雏形
一位用户的思考尤其深刻:他正在构建一个"个人操作系统",希望Obsidian这样的开源工具能成为任何人都可以接入的知识库——信息、实体、技能都能在其中被组织、手动编辑或优雅浏览。"那些我们技术上可以在终端里做的事,但要有更漂亮的轨道。"
这或许指向了一个更大的愿景:当AI能够深度理解和操作你的知识库时,早期在个人知识管理上的投入,正在以复利的形式回报。
hyprwhspr:Arch Linux 上的原生语音转文字工具 | #工具
用语音输入文字这件事,在 Linux 桌面上一直不太顺手。要么依赖云端服务有延迟,要么本地方案配置繁琐,Wayland 环境下更是各种兼容问题。
hyprwhspr 是一个专为 Arch Linux 和 Hyprland 打造的语音转文字工具,按下快捷键说话,松开后文字直接出现在光标位置,整个过程在本地完成。
项目默认使用 Whisper 模型实现离线识别,也支持最新的 Parakeet-v3 模型,有 NVIDIA 或 AMD 显卡还能启用 GPU 加速。除了本地模型,同样支持 OpenAI、Groq 等云端 API,甚至可以接入任意自定义后端。
主要特性:
- 通过 AUR 一键安装,交互式配置向导自动完成设置;
- 支持切换、按住说话、自动检测三种录音模式;
- 可视化录音状态指示器,自动匹配 Omarchy 主题配色;
- 内置词语替换功能,可自定义专业术语和标点符号转换;
- Waybar 托盘集成,实时显示服务状态;
- 支持多语言识别,可指定语言或自动检测。
安装后运行 hyprwhspr setup 即可完成配置,默认快捷键 Super+Alt+D 触发录音,文字自动粘贴到当前活动窗口。
用语音输入文字这件事,在 Linux 桌面上一直不太顺手。要么依赖云端服务有延迟,要么本地方案配置繁琐,Wayland 环境下更是各种兼容问题。
hyprwhspr 是一个专为 Arch Linux 和 Hyprland 打造的语音转文字工具,按下快捷键说话,松开后文字直接出现在光标位置,整个过程在本地完成。
项目默认使用 Whisper 模型实现离线识别,也支持最新的 Parakeet-v3 模型,有 NVIDIA 或 AMD 显卡还能启用 GPU 加速。除了本地模型,同样支持 OpenAI、Groq 等云端 API,甚至可以接入任意自定义后端。
主要特性:
- 通过 AUR 一键安装,交互式配置向导自动完成设置;
- 支持切换、按住说话、自动检测三种录音模式;
- 可视化录音状态指示器,自动匹配 Omarchy 主题配色;
- 内置词语替换功能,可自定义专业术语和标点符号转换;
- Waybar 托盘集成,实时显示服务状态;
- 支持多语言识别,可指定语言或自动检测。
安装后运行 hyprwhspr setup 即可完成配置,默认快捷键 Super+Alt+D 触发录音,文字自动粘贴到当前活动窗口。