Beads 是一个给 AI 编程助手/编码智能体用的任务追踪 + 持久记忆工具。

它解决的问题大致是:AI 做长周期开发时容易丢上下文、计划分叉、多人/多分支并行冲突。Beads 用“依赖图 + 可执行查询”来让 agent 只看当前真正能做、且没被阻塞的工作,比如 bd ready 只列出没有未解决阻塞项的任务。
用Opus+Haiku搭建最强网页爬虫的实战配方 | 帖子

一个非常实用的AI爬虫配置思路,核心逻辑简单但效果惊人:让贵的模型做决策,让便宜的模型干活。

具体操作是这样的:把Opus设为主模型负责规划和调度,Haiku作为子代理执行具体的抓取任务,开启浏览器插件,配上几个搜索API(比如Exa),成本只要几美分。关键一步是让Opus把抓取目标批量分配给Haiku子代理,最后统一输出JSON格式。

这套方案特别适合挖掘那些不容易直接获取的数据。它会先尝试程序化方式抓取,如果目标找不到,就自动切换到浏览器模式。

有人点出了这套架构的精髓:贵的模型负责规划,便宜的模型负责执行。但真正决定成败的是防护机制,包括单域名的请求频率限制、去重逻辑、以及JSON格式校验器。毕竟网页结构千奇百怪,没有校验器的话输出很快就会乱掉。

还有个容易被忽视的点:浏览器回退机制其实非常关键。值得抓取的网站有一半都部署了反爬措施,纯程序化方案根本过不去。如果再加上持久化记忆,收益会随时间复利增长。系统会逐渐学会哪些网站需要浏览器、哪些用API就够、哪些选择器稳定、哪些模式能干净提取。

这让我想到一个更大的趋势:AI工具链正在形成明确的分工层级。顶层模型负责理解意图和制定策略,底层模型负责高频重复执行。这种架构不仅成本可控,还能让每一层都发挥最大效能。

当然实际落地还有不少细节要处理,比如需要登录的网站怎么办、DOM结构频繁变化怎么应对、如何设置定时任务实现周期性抓取。但核心思路已经很清晰了:把AI当成一个有层级的团队来用,而不是单一的万能工具。
4000行代码复刻Claude Code,比Clawdbot更轻量的极简AI助手

港大数据科学实验室开源了一个有意思的项目:nanobot。它用大约4000行代码实现了Claude Code的核心功能,代码量只有后者的1%。

这个项目的价值不在于替代Claude Code,而在于它提供了一个可以被完全理解的AI Agent实现。43万行代码的系统很难让人看清全貌,但4000行的版本可以。对于想要研究Agent架构的开发者来说,这是一份难得的学习材料。

核心功能覆盖了Agent的基本能力:实时信息获取、代码开发部署、日程管理、知识问答。架构设计也相当清晰,agent目录负责核心逻辑,包括主循环、上下文构建、持久化记忆和技能加载;skills目录存放各种能力模块;channels目录处理消息渠道集成。

部署体验确实简单。从PyPi安装后,配置一下API密钥就能用。支持OpenRouter接入各种模型,也支持用vLLM跑本地模型。两分钟内就能跑起来一个可用的AI助手。

比较实用的是消息渠道集成。可以把nanobot接入Telegram或WhatsApp,随时随地和它对话。Telegram只需要一个Bot Token,WhatsApp稍微麻烦一点需要扫码关联设备。还支持定时任务,可以设置每天早上问好或者定期检查状态。

项目路线图里提到了几个方向:多模态支持、长期记忆、更好的推理能力、更多平台集成。代码库刻意保持精简可读,欢迎贡献。

极简主义在软件工程中往往被低估。当一个系统足够小的时候,它就变得可以被一个人完全掌握,而这种掌握感是构建更复杂系统的基础。
你的 claude.md 文件,才是真正的生产力杠杆 | 相关帖子

有人分享了一套 claude.md 的配置框架,评论区炸了。不是因为内容多新颖,而是它戳中了一个被严重低估的真相:大多数人用 AI 编程,每次都在从零开始。

先说这套框架的核心逻辑。

第一条原则是「计划模式优先」。任何超过三步的任务,先停下来做规划。方向错了就立刻止损重来,别硬撑。写详细的规格说明来减少歧义。这听起来像常识,但多少人是一上来就让 AI 开干,然后在十五轮对话后才发现方向跑偏?

第二条是「子代理策略」。大方任务拆给子代理,保持主线程干净。复杂问题让子代理并行处理。一个子代理只做一件事。这本质上是在教 AI 学会分治,而不是把所有东西塞进一个上下文窗口里窒息。

第三条最关键,叫「自我改进循环」。每次纠正 AI 的错误后,让它把教训写进 lessons.md 文件。然后无情地迭代这些规则,直到错误率下降。每次开新会话,先回顾这些教训。

有人评论说得好: lessons.md 的循环才是真正能沉淀下来的东西。手动做了一周,效果立竿见影,它不再在你的代码库里犯同样的蠢错了。其他都是不错的默认设置,但这一条会复利增长。

还有几条值得一提。「验证优先于完成」,永远不要在没有证明代码能跑之前就标记任务完成。问自己:一个高级工程师会批准这个吗?「追求优雅但要平衡」,对于非平凡的改动,停下来问一句:有没有更优雅的方式?但如果改动很简单,就别过度工程化了。「自主修复 bug」,遇到报错就直接修,别等着被牵着走。

有个用户分享了自己的实践:三个月前开始维护一个 claude.md 文件,每周更新。提示词从十五轮对话缩减到两三轮。秘诀是记录失败而不只是成功。每次 AI 搞砸支付逻辑或导航流程,就把具体的修复方案加进去。现在文件里有四十七条规则,覆盖从 RevenueCat 集成到应用商店截图规范的所有细节。

他说了一句话我很认同:你其实是在训练一个专属的编程助手,让它学会像你一样思考。一旦调教好了,把项目交给任何人,他们都能得到同样质量的输出。

当然也有人泼冷水。有人指出这些 md 文件只是文本,没有基础设施来强制执行就没用。模型可能遵守,也可能不遵守,上下文一重置什么都不剩。还有人说这套框架缺了几样东西:目标清晰度、优先级排序、来自真实用户的反馈、时间约束、向他人学习的机制、产品思维。

这些批评都有道理。但我觉得重点不在于这套框架是否完美,而在于它指向了一个被忽视的方向:把你的使用模式变成活的配置文件。工具的威力,来自于习惯变成配置的那一刻。

有人开玩笑说 claude.md 是新时代的 .bashrc,每个人都有一个,但没人记得里面一半的内容是干嘛的。

但这恰恰说明它正在成为基础设施的一部分。
你怎么写代码,就怎么过一生| 帖子

SST 创始人 Dax 发了一条很有意思的推文,大意是:你可以全程 vibe coding,没人拦你。你可以骗自己说这是聪明的策略。但所有人都能感觉到,你的作品里透着敷衍,透着你有多不在乎。因为你做一件事的方式,就是你做所有事的方式。

评论区炸了。

有人反驳说,我花大量时间设计架构、规划需求,只是让 AI 来写具体代码,这怎么能叫懒?工业革命时期肯定也有人这么批评机器。

也有人说,vibe coding 本身不是问题,不知道自己到底想要什么才是问题。当一个人真正理解自己的愿景时,他的 prompt 是锋利的;当他在偷懒时,就只会说“让它能跑起来”,然后陷入无尽的来回修改。

还有一条评论很精准:放弃亲手写代码这件事本身没问题,甚至可以提高效率。但如果放弃到连为什么这么做、怎么做的都不知道,那就危险了。

我觉得这场争论的核心其实不在于用不用 AI,而在于你有没有真正锁定问题,还是只在找捷径。

工具从来不决定你是哪类人。每一个承诺压缩努力的工具都会制造一个筛选机制:有人用它去做更有意义的事,有人用它来少做事。如果你所处的环境只衡量产出数量,无法区分深思熟虑的方案和随便生成的东西,那人们自然会选择阻力最小的路径。这不是懒惰,这是对不再重视深度的系统的理性反应。

vibe coding 用来从零到一很好用,但从一到一百的过程中,那些不在乎的部分会开始在日志和用户流失里显形。你没办法靠 prompt 永远绕过一个破碎的架构。

2025 年的真正高手,不是回避 AI,而是把它当成高精度仪器,而不是思考的替代品。

Dax 自己做了最好的 AI 辅助编程工具之一,却依然对 vibe coding 保持警惕。这种清醒值得尊重。
别急着搞Clawdbot:先学会走路,再想着飞 | 帖子

最近看到很多人急着上手 Clawdbot,Greg Isenberg 泼了盆冷水:如果你还没深度用过 Claude Code,别急着碰它。

道理很简单。Claude Code 是基本功训练场,你在这里学会提示词怎么写、代码怎么调、MD 文件怎么用、安全边界在哪里。而 Clawdbot 本质上是个放大器,它能把你现有的能力乘以一个系数,全天候帮你干活。

问题在于,放大器不挑好坏。你的能力强,它帮你事半功倍;你的能力弱,它帮你批量生产垃圾。

有人说得更直白:Clawdbot 是最终 Boss,Claude Code 是新手教程。跳过教程直接打 Boss,只会死得更快更花哨。

一位用户分享了他的笨办法:连续两周记录提示词日志。每次 Claude 给出完美输出,记下提示词结构;每次失败,记下问题所在。60 条记录之后,规律浮现了。80% 的好结果来自同样的 5 种提示词框架。现在他的机器人就跑这几套框架,稳定输出。

没有这个积累阶段,他只会把自己的错误自动化。

这让我想到一个更普遍的问题:我们总想跳过积累直达结果。但工具从来不创造能力,只是暴露能力。你用 Claude Code 写不出好东西,换成 Clawdbot 也不会突然开窍,只是错得更快、规模更大。

自动化一个烂流程,你只会以光速得到烂结果。

当然也有不同声音。有人认为不该自我设限,Clawdbot 有很多种玩法,不一定非要会写代码。这话也对,但前提是你得清楚自己在做什么。

真正的捷径往往是慢慢来。那些看起来一夜之间的成功,背后通常是无数次重复练习的积累。乔布斯说过,你无法预先把点连成线,只能回头看时才能理解。

所以别急。先把 Claude Code 用熟,把基本功打扎实。等你真正理解了底层逻辑,再去驾驭那个 24 小时不休息的助手。否则你不是在指挥一个强大的工具,而是在管理一团高速运转的混乱。
为什么你的氛围编程总是翻车?一份让你真正能交付产品的完整指南 | 原文

先把话说清楚:氛围编程本身没问题,问题出在你身上。

你听说可以跟AI对话就能写出软件,于是觉得自己是魔法师。打开AI,用一句话描述你的想法,然后期待奇迹降临。结果呢?代码一塌糊涂,界面颜色乱飞,页面跳转失灵,应用勉强能跑但随时崩溃。

然后你怪AI不行。

真相是:AI产生幻觉不是因为它坏了,而是因为你什么都没给它。没有结构,没有清晰度,没有基础。AI是翻译器,把你的意图转化成代码。但如果你的意图本身就是一团浆糊,代码自然也是浆糊。

修复方法不是更好的提示词,而是更好的理解。

一旦你真正知道自己在构建什么,提示词就变得简单了。

+ 文档先行,代码在后

这是所有人都搞错的地方。你打开Cursor,开始聊天,让AI立刻写代码。没有计划,没有参考,没有真相来源。这就是为什么你的项目在写了几个文件后就崩溃。

正确的系统是:先写文档,再写代码。永远如此。

在写任何一行代码之前,你应该先写好项目的规范文档。清晰、具体、没有歧义地描述你要构建什么。

为什么?因为AI编码工具能力很强但确定性很低。它们在没有结构性护栏的情况下执行任务。缺乏锁定的约束和权威文档会导致AI臆造需求、擅自做架构决策、写出解决你从未提出的问题的代码。

失败模式不是编码能力不足,而是纪律和上下文保持的缺失。

+ 六份核心文档

在动手写代码之前,你需要准备这些:

PRD.md是产品需求文档,完整规格说明。你在构建什么,为谁构建,有哪些功能,什么在范围内,什么明确排除在外。这是你的契约。AI读完就知道“完成”对你意味着什么。

APP_FLOW.md记录每个页面和用户导航路径。什么触发每个流程,成功时发生什么,错误时发生什么。这防止AI猜测用户如何在你的应用中移动。

TECH_STACK.md锁定每个包、依赖、API和工具的精确版本。当AI看到“用React”,它可能选任何版本。当它看到“Next.js 14.1.0, React 18.2.0, TypeScript 5.3.3”,它就会精确构建你指定的东西。

FRONTEND_GUIDELINES.md是你的完整设计系统。字体、精确十六进制色值的调色板、间距比例、布局规则、组件样式、响应式断点。AI为它创建的每个组件参考这份文档。

BACKEND_STRUCTURE.md定义数据库模式,每个表、列、类型和关系。认证逻辑、API端点契约、存储规则和边缘情况。

IMPLEMENTATION_PLAN.md是逐步构建序列。不是“构建应用”,而是:步骤1.1初始化项目,步骤1.2安装依赖,步骤2.1按前端指南构建导航栏组件。步骤越多,AI猜测越少。

+ 两个会话文件

CLAUDE.md是AI每次会话自动首先读取的文件。它包含每个AI会话必须遵循的规则、约束、模式和上下文。把它想象成AI针对你特定项目的操作手册。

progress.txt是所有人都忽略的文件。它追踪已完成、进行中和下一步的内容。每次完成功能就更新它,每次开始新会话AI就先读取它获取上下文记忆。没有它,每个新会话都从零上下文开始。

AI在会话之间没有记忆。当你关闭终端、打开新终端或开始新聊天,一切都消失了。progress.txt是你的外部记忆,是会话之间的桥梁。

+ 审问系统

在写文档之前,让AI把你的想法撕碎。

这是改变一切的提示词:“在写任何代码之前,在规划模式下无休止地审问我的想法。不要假设任何事情。问问题直到没有假设剩下。”

AI在你的清晰度结束的地方产生幻觉。所以如果你延伸你的清晰度,你就迫使AI在开始构建之前找到你思维中的漏洞。

+ 理解核心概念

组件是可复用的界面片段。按钮是组件,导航栏是组件,产品卡片是组件。当你说“给我建一个落地页”,AI必须决定创建什么组件。如果你不指定,它就猜测。

更好的提示词:“构建一个落地页,包含这些组件:导航栏、英雄区、功能网格三张卡片、推荐轮播、行动召唤区、页脚。”

状态是会变化的数据。当你点击按钮有事情发生,状态改变了。当你的按钮什么都不做,通常是状态问题。点击发生了,但没有东西告诉应用更新。

响应式意味着你的网站在所有屏幕尺寸上都能工作。移动优先意味着你先为最小屏幕设计,然后为更大屏幕添加复杂性。这不是偏好,是策略。

+ 工具链

Cursor是你的代码编辑器,有四种模式:Ask模式只读,用于理解代码;Plan模式用于在编码前架构;Agent模式是主力,自主写代码、编辑文件、运行命令;Debug模式用于顽固的bug。

Claude用于重度思考:审问想法、写六份核心文档、规划架构。

Kimi K2.5是前端实现的专家。你可以给它截图或设计稿,它生成紧密匹配视觉的功能性前端代码。

Codex是你的调试器和终结者。在文件和架构构建完成后使用它。当结构就位但东西在崩溃时,让它找到你遗漏的bug。

多工具工作流:Claude做思考,Cursor或Claude Code或Kimi K2.5做构建,Codex做调试和收尾。

+ 迭代是常态

每个人的第一个输出很少是对的。这没关系。

好的迭代:“产品网格在桌面端显示4列但我需要3列。卡片图片被拉伸了,应该是object-cover。数据获取时没有加载状态。”

坏的迭代:“看起来不对,修一下。”

具体。永远具体。

+ 发布前检查

在手机上能用吗?实际在手机上打开它。在不同浏览器能用吗?没有数据时会发生什么,空状态处理了吗?错误数据呢?慢网络呢?快速点击能打破它吗?

不要在回答这些问题之前发布。你的用户会找到你遗漏的每一个bug。

+ 完整系统总结

构建前:运行审问提示词,回答每个问题,生成六份核心文档,写CLAUDE.md,创建progress.txt,收集UI截图参考,初始化git。

构建中:AI每次会话先读CLAUDE.md和progress.txt,用Ask和Plan模式架构,用Agent模式实现,小块工作,给出引用文档的具体提示词,每个功能后提交git并更新progress.txt。

发布前:检查移动端、错误状态、空状态,验证秘钥隐藏,端到端测试主用户流程。

氛围编程不是黑魔法。它是细致的规划、系统、文档、词汇和迭代。你审问你的想法,写你的文档,设置持久化和自我改进,为每个阶段使用正确的工具,用具体术语描述工作,追踪会话间的进度,提交代码,然后发布。

AI现在做所有的打字。你做所有的思考。

现在你没有任何借口了。去构建点什么吧。
两万字长文!Agentic RL 全流程技术分析与总结 | 详文

“在当前人工智能领域,尤其是强化学习(Reinforcement Learning)持续演进的背景下,学界对强化学习基础算法已有大量系统性研究。

然而,关于强化学习如何赋能智能体(Agent)、并推动其在实际场景中落地应用的综合性介绍与实战案例解析仍相对有限。

本章节将从强化学习技术出发,探讨其如何驱动智能体在复杂环境中学习和决策,从而真正将大模型的决策能力转化为现实世界中的生产力,顺便总结下这段时间的工作。”
Frontend Slides:一项 Claude Code skill ,用于从零创建精美且富含动画的 HTML 演示文稿,也可以将 PowerPoint 文件转成HTML格式。

这个skill 帮助不懂设计的用户创建美观的网页演示文稿,无需掌握 CSS 或 JavaScript。它采用“展示而非描述”的方式:无需用文字描述你的审美偏好,而是生成视觉预览,让你直接选择喜欢的样式。

主要特性:
零依赖 —— 单一 HTML 文件,内联 CSS/JS。无需 npm、构建工具或框架。
视觉风格探索 —— 无法准确描述设计偏好?没关系。从生成的视觉预览中直接选择。
PPT 转换 —— 将现有的 PowerPoint 文件转换为网页格式,保留所有图片和内容。
抗 AI 套路 —— 精心策划的独特风格,避免千篇一律的 AI 审美(再见,白底紫色渐变)。
生产级质量 —— 代码可访问、响应式设计、注释清晰,便于自定义。
Agent Skills出现之后,MCP还有用吗?| blog
最近有个话题在技术圈子里很火:能不能在家里搭一套本地运行的AI编程助手,完全不依赖云端服务?| 帖子

答案是可以的。有人用OpenCode加上llama.cpp,再配合GLM-4.7 Flash模型,在自己的机器上跑出了相当不错的效果。

先说硬件配置。这位开发者用的是三张3090显卡,128GB内存,上下文窗口开到了20万token。听起来配置不低,但实际上很多人用单卡也能跑。有人用4070Ti在5万上下文下跑出45 token每秒,有人用7900 XTX在零上下文时达到120 token每秒。关键在于参数调优和版本选择。

这里有个重要提醒:一定要用最新版本的llama.cpp。LM Studio和Ollama虽然底层也是llama.cpp,但版本往往滞后。GLM-4.7 Flash最近有多个修复补丁合并进主分支,用旧版本可能会遇到各种奇怪问题,比如输出循环、工具调用失败等等。

说到实际效果,这套方案能做什么?有人让它从一个简单的示例程序出发,自动生成了一个完整的多智能体辩论系统,包含配置文件、代理类、管理器、入口脚本,甚至还自动写了单元测试。整个过程没有人工干预测试部分,模型自己判断需要写测试就写了。

当然,本地方案和云端服务还是有差距的。有人测试发现,同样的任务Claude Code几分钟搞定,本地模型可能会卡在某个错误上反复尝试。这不是框架的问题,是模型能力的差异。但换个角度想,这已经是能在消费级硬件上运行的最强开源方案之一了。

有个有趣的发现:GLM-4.7 Flash在8bit量化下表现稳定,但4bit量化容易出现循环。这是目前发现的第一个量化精度对输出质量有明显影响的小模型。

关于电费的问题,有人算过一笔账。即使用5090显卡全天候满载运行,按美国最贵的电价每度40美分计算,一个月电费大约165美元。大多数人的实际使用强度远低于此,加上平均电价只有一半左右,实际成本可能只有几十美元。

最后说说工具选择。OpenCode是一个开源的编程助手框架,可以配置MCP服务器实现向量检索、网页搜索等扩展功能。有人问为什么不直接用Claude Code配本地模型,答案很简单:目标是搭建一套完全开源、完全本地的方案。这不仅是技术选择,也是一种态度。

能在自己的机器上运行一个接近商业水准的AI编程助手,这件事本身就值得兴奋。技术进步的速度超出想象,今天的不可能很快就会变成明天的标配。
最近网上流传一份据称来自Anthropic内部的AI使用方法论,引发了不小的讨论。抛开“泄露”这个噱头不谈,里面提到的几个技巧确实值得琢磨。| 帖子

核心观点很简单:决定AI输出质量的,不是你用哪个模型,而是你如何组织对话。

第一招叫“记忆注入”。大多数人每次对话都从零开始,但高手会预先加载持久化的上下文。比如告诉AI你的编程偏好、代码风格、常用框架,让它在后续所有回答中都遵循这些设定。这就像给AI装了一个“人设”,它不再是泛泛而谈的通用助手,而是真正了解你的专属顾问。

第二招叫“反向提问”。不要急着让AI干活,先让它问你问题。比如你想分析客户流失数据,可以说:“在你帮我之前,先问我5个关于数据集、业务背景和预期目标的澄清问题。”这个技巧的精妙之处在于,它迫使模型在执行前先进行批判性思考,大幅减少胡说八道的概率。

第三招叫“约束级联”。别一股脑把所有指令都扔给AI,而是分层递进。先让它总结文章,等它完成后再让它找出薄弱论点,最后再写反驳。这种渐进式的复杂度提升,比一次性倾倒所有要求效果好得多。

第四招叫“角色叠加”。不要只分配一个角色,而是让AI同时扮演多个专家视角。比如分析营销策略时,让它同时从增长黑客、数据分析师、行为心理学家三个角度来看问题。这会在AI内部形成一种“辩论”机制,互相查漏补缺。

第五招叫“验证循环”。让AI写完代码后,自己找出三个潜在bug,然后重写修复。这种自我纠错机制,能在你看到输出之前就拦截掉很多逻辑错误。

有意思的是,评论区的反应很分裂。有人觉得这些技巧确实有用,已经在实践中验证过;也有人质疑“99%的人都用错了”这种说法太过武断,认为大家只是在摸索阶段而已。

我的看法是:这些技巧的底层逻辑是相通的,就是把AI当成一个需要被正确引导的协作者,而不是一个许愿池。你给它的结构越清晰,它返回的结果就越精准。

说到底,AI工具的红利期正在消退,接下来比拼的是谁能把工具用得更深、更巧。
Back to Top