好工具的终极形态:让每个人用出自己的样子 | 帖子

Boris Cherny 是 Claude Code 的核心工程师,他最近分享了一个观察:开发者爱上 Claude Code,很大程度上是因为它的可定制性。这个判断很准确,因为它触及了一个被长期忽视的真相:工程师选择工具的终极标准,从来都是“这个东西能不能长成我的形状”。

Claude Code 提供了 37 项配置和 84 个环境变量,覆盖了从终端主题、快捷键、状态栏到权限系统的几乎所有层面。但真正有意思的,是这些定制能力背后的设计哲学。

先说几个实用的定制方向。

终端层面,你可以设置明暗主题、通知方式、换行快捷键,甚至开启 Vim 模式。这些看似琐碎,但终端是开发者每天盯着最久的界面,细节的舒适度直接影响心流状态。

努力程度可调,分低、中、高三档。低档省 token、快响应,高档多思考、更聪明。Boris 本人全程开高档,这倒也符合直觉:既然用了最强的工具,为什么要让它省力气?

插件系统是重头戏。Claude Code 支持安装 LSP(主流语言全覆盖)、MCP、技能包、自定义代理和钩子。你可以从官方市场安装,也可以为自己的公司搭建私有市场,然后把配置文件提交到代码仓库,团队成员自动同步。这意味着工具的定制成果可以像代码一样版本管理和团队共享。

自定义代理的设计尤其值得关注。只需在 .claude/agents 目录下放入 Markdown 文件,就能创建拥有独立名称、配色、工具集、权限模式和模型的专属代理。你甚至可以指定默认代理来接管主对话。这本质上是让每个开发者拥有了一个可编程的 AI 协作者,而且编程方式是写自然语言文档。

权限系统的设计体现了安全与效率的平衡术。Claude Code 底层结合了提示注入检测、静态分析、沙盒隔离和人工审核,默认只预批准一小组安全命令。你可以通过通配符语法扩展白名单,比如允许所有“bun run”开头的命令,或允许编辑 /docs 目录下的所有文件。沙盒功能支持文件和网络双重隔离,在本地运行,兼顾了安全性和低延迟。

钩子机制是高阶玩法。它允许你在 Claude 的生命周期中插入确定性逻辑:把权限请求自动转发到 Slack,在一轮对话结束时判断是否需要继续,对工具调用做预处理或后处理。这实际上把 Claude Code 从一个对话工具变成了一个可编排的工作流引擎。

还有一些让人会心一笑的小设计:自定义加载动画的动词、自定义状态栏显示内容、输出风格切换。比如“解释型”风格适合熟悉新代码库时使用,Claude 会边工作边解释框架和设计模式;“学习型”风格则让 Claude 扮演教练角色,引导你自己完成代码修改。

有人质疑说“无限的可配置性往往掩盖了缺乏主见的设计”,Boris 的回应很简洁:Claude Code 有主见的默认值,你可以改,但不是必须改。这恰好是优秀工具设计的黄金法则。默认值体现品味,可定制性体现尊重。一个工具如果只有好的默认值,它是好产品;如果同时还能被深度定制,它就变成了每个人手中不同的武器。

所有配置都可以通过 settings.json 提交到代码仓库,支持代码库级、子目录级、个人级和企业级四个层次的配置粒度。这意味着团队的最佳实践可以像代码规范一样沉淀和传承。

工具的终极价值从来不在于功能列表的长度,而在于它能多大程度上消失在使用者的工作流中,成为思维的自然延伸。Claude Code 正在朝这个方向走。
发了150篇论文,我依然害怕打开空白文档 | 帖子 | #经验 #论文

一位发表过150多篇论文的教授坦言:每次坐下来写作,感觉都像在湿水泥里拖行。你盯着空白页面,大脑死机,两小时后写出一段明天大概率会删掉的话。而隔壁同事同样的教学负担、同样的截止日期,一学期交了三篇。

你以为他们更自律、更有天赋、有更多“受保护的写作时间”。都不是。他们有一套系统。

这个区别至关重要。你不是不会写作,你是不会“怎么写”。

写作看似一件事,实际上是六种认知过程同时运转:决定写什么、选择怎么表达、记住读者是谁、追踪前文写过什么、规划下文写什么、判断写得好不好。六个进程同时跑,相当于浏览器开了59个标签页,然后纳闷为什么电脑像喷气发动机一样响。

多数人以为写作难是因为意志力不够。真正的问题是,写作同时向大脑索取了太多东西。

这套系统的核心是五个协议,每一个瞄准一个认知瓶颈。

第一,倒序组装。绝大多数人从标题写到结论,这在认知上完全是反的。引言要求最高的认知负荷,你要框定问题、定位贡献、向读者许诺,而此刻你手里的素材最少。这就像托尔金还没把霍比特人带出绿龙酒馆,就试图写夏尔的收复战。正确的顺序是:图表、方法、结果、讨论、引言、摘要。每一步都用上一步生成的素材,你永远不会面对一张白纸问自己“该写什么”。骑自行车下坡,而不是推着爆胎的车上山。

第二,零稿协议。人脑有两种模式:生成模式和评估模式,它们在神经层面互相排斥。生成是发散的、快速的;评估是收缩的、挑剔的。两者都吃工作记忆,而工作记忆极其有限。同时生成和评估,就像一脚踩油门一脚踩刹车。所以:设定25到45分钟计时器,尽可能快地写,不修改错别字,不查文献,大量使用占位符。你在往沙箱里铲沙子,之后才能堆城堡。采石的时候没法雕刻。

第三,结构模板。每个写作决策都消耗心智燃料。成熟的模板把结构选择变成填空题,释放工作记忆去做真正的智识劳动。摘要用“背景、问题、方案、发现、贡献”五段式;引言用斯韦尔斯的“建立领地、确立空缺、占据空缺”三步法;方法用“语境化、描述、论证”循环;结果用“提醒、描述、解释”循环;讨论从窄到宽,先总结发现,再扩展到领域影响。别即兴发挥,按公式来。

第四,用AI做陪练,不做代笔。AI会编造引用、生成通用文本,缺少你的智识指纹。但它极其擅长卸载特定认知任务:让它做反向大纲提取,找出论证薄弱处;让它扮演挑剔的审稿人,提前发现方法论漏洞;让它做清晰度编辑,优化表达但不改变意思。拳王阿里有陪练伙伴,但上场挥拳的永远是他自己。

第五,分层修改。多数人看到什么改什么,一个错别字、一个弱词。这极其低效,你可能精心打磨了一段话,结果发现整节都要砍掉。房子着火的时候擦银器,注意力可嘉,优先级全错。永远按这个顺序修改:结构、清晰度、风格、校对。从大到小,因为大的改动会让小的改动作废。

这五个协议合在一起,把写作从意志力的消耗战变成了流水线作业。你的大脑是一台超级计算机,别让它同时杂耍,给它顺序明确、边界清晰的任务。
论文写作的沙漏法则:300篇论文后的结构心法 | 帖子 | #论文

发表过300多篇论文的学者Lennart Nacke分享了一张经典的论文结构图,揭示了学术写作中一个被低估的真相:好论文的结构像沙漏,先收窄,再放开。

摘要是论文的门面,四句话定生死:问题是什么,怎么研究的,发现了什么,意味着什么。多一句都是累赘。

引言的任务是"圈地"。先画一个大圈,告诉读者这个领域大家都在研究什么;然后指出圈里有块空地,前人没踩过;最后宣布:这块地,我来占。学术写作中最有力量的一句话往往是"It remains unclear why",因为它既承认了前人的贡献,又为自己的研究找到了存在的理由。

方法和结果是沙漏最窄的部分。这里没有修辞的空间,只有事实。数据怎么收集的,用什么方法分析的,发现了什么。克制住解释的冲动,让数据自己说话。

讨论部分沙漏重新张开。你的发现和前人的研究有什么关系?能推导出什么结论?有什么局限?未来可以往哪里走?好的讨论像一场对话,既回应过去,也指向未来。

有人说这和PPT演讲的逻辑一样:我要讲什么,我在讲什么,我刚讲了什么。确实如此。人类理解信息的方式是相通的,学术写作的结构本质上是对认知规律的尊重。

沙漏结构的精妙之处在于:它强迫你在最该精确的地方精确,在最该开阔的地方开阔。很多论文被拒,问题往往出在结构失衡,该窄的地方太散,该宽的地方又太紧。
当AI社区被AI淹没:一场荒诞的自我吞噬 | 帖子

LocalLLaMA社区最近爆发了一场集体吐槽,起因是一张海绵宝宝梗图,精准戳中了所有人的痛点:垃圾信息、机器人水军、还有那些让人哭笑不得的“vibe coding恶意软件”。

讽刺的是,一个专门研究本地大模型的技术社区,正在被AI生成的内容反噬。

版主透露,过去九小时删除了55条垃圾帖。但问题在于,即便清理完明显的垃圾,剩下的内容质量依然堪忧。那些用Claude写的自我推广帖,作者甚至懒得花五分钟亲自写一段介绍。AI让你编码快了100倍,却连写个帖子的时间都省了?

社区总结出几个经典的“AI味”特征:两段话里塞39个表情符号,LinkedIn式的空洞措辞,还有那句永恒的开场白“我们很高兴地宣布”,点开代码一看,明明就一个人加一个Claude。

有人贴出了一个典型的AI回复样本,开头是“强大的RTX 3090战斗站”,结尾是火箭和肌肉表情,中间推荐的居然还是Llama-2-13B和Mistral 7B这些老模型。这种回复在社区里随处可见,热情洋溢,却完全答非所问。

更危险的是那些vibe coding项目。有人发现某个被大肆宣传的工具存在严重安全漏洞,指出后作者先是否认,等AI帮他修复后又承认确实是“极端安全问题”,然后恼羞成怒删帖重发。这种人还会卷土重来,带着下一个漏洞百出的项目。

一位用户的评论很有意思:我们天天研究AI,却不想被AI内容包围。这听起来矛盾,但用户来这里是想和真人交流,不是和机器人对话。

llama.cpp是好东西,离它越远,离垃圾越近。这句话道出了某种本质:真正有价值的技术往往朴素,而那些花里胡哨的包装器、编排器、一键安装器,大多是噪音。

有人提议对项目推广帖实施更严格的规则:如果整篇帖子都是AI生成的,直接删除。这在AI社区禁止AI使用,听起来反直觉,但或许正是必要的自我保护。

当每个人都能用AI生成内容,内容本身就不再稀缺。稀缺的是判断力,是愿意花时间思考和表达的人。技术社区的价值从来不在于信息量,而在于信噪比。
谷歌悄悄放出数学怪兽,但你永远用不上 | 帖子

谷歌低调发布了一个叫 Aletheia 的数学专用模型,在国际数学奥林匹克竞赛基准测试上拿了满分,把所有竞争对手远远甩在身后。榜单上第二名 GPT-5.2 Thinking 只有35.7%,而 Aletheia 高达91.9%。

这名字起得很有意思。Aletheia 是古希腊哲学中「真理」的意思,但比字面含义更深一层,指的是「去蔽」,让隐藏的东西显现出来。一个数学模型叫这个名字,暗示它不是在编造答案,而是在揭示事物本来的面目。

更值得关注的是谷歌同步发布的论文。Aletheia 在解决问题时展现出了跨领域建立联系的能力,比如用几何分析中的概率测度紧致性来设计近似算法,或者发现 Kirszbraun 扩展定理与 Steiner 树计算之间此前从未被注意到的关联。这些不是简单的模式匹配,而是接近真正的数学发现。

但社区的反应很分裂。

一派认为这是里程碑式的进展。如果模型能够产生非平凡的数学洞见,科学发现的加速可能比我们想象的更近。有人说得好:即使所有能力提升今天就停止,我们也需要十年才能消化已经取得的进展。

另一派则相当冷淡:不开放公众使用,不关心。这话听起来刺耳,但指向一个真实的问题。Aletheia 本质上是一个生成器加验证器的智能体系统,配合大量脚手架工程和微调,运行成本极高。它和榜单上其他纯语言模型根本不是同一类东西,就像拿 AlphaGo 和普通棋手比赛然后宣布 AlphaGo 更聪明一样。

这里藏着一个更深的问题:你真的相信未来能用上最先进的模型吗?事实上,今天你已经用不上了。

最前沿的能力正在变成一种基础设施,而非消费品。它们会被用来加速科学研究、优化算法、推动发现,但普通用户能触及的,永远是经过层层稀释的版本。这不是阴谋,只是经济学。

谷歌擅长把东西藏起来,直到某个创业公司做出差不多的产品逼他们出手。Aletheia 大概也会走这条路。
斯坦福学生的学习秘诀:让AI像教授一样思考 | 帖子

大多数人用 NotebookLM 的方式是:上传 PDF,问几个基础问题,得到摘要。这和用搜索引擎没什么本质区别。

但斯坦福的顶尖学生玩法完全不同。

他们上传课堂笔记后,第一个问题是:“根据这份材料,最可能出现的三道考试题是什么?”

然后追问:“把这些概念和上周的阅读材料串联起来,生成一份学习指南。”

最后:“设计几道综合题,把今天的内容和之前的作业结合起来。”

这套流程的本质是什么?不是让 AI 帮你复习,而是让它扮演你的教授。

有人把这个方法论拆解得很透彻:普通学生把 NotebookLM 当检索工具,顶尖学生把它当预测引擎。

第一步“预测考题”,本质是强迫模型把材料映射到评估目标上,大幅缩小学习范围。第二步“跨周串联”,是在建立因果结构,孤立的记忆只会制造噪音,关联才能暴露盲点。第三步“生成练习题”,形成闭环:生成、测试、纠错。

学生不再是信息的消费者,而是在不断迭代反馈循环。

这就是为什么原本六小时的交叉引用工作,十五分钟就能完成。你在考试前就开始消除不确定性,而不是等到考完才知道自己哪里不会。

当然,这套方法有个风险:虚假的信心。

AI 是根据上下文推断模式,不是根据真实的评分标准。如果不和往年真题、教学大纲交叉验证,你可能只是在优化模型的猜测,而非现实。

正确的用法是把 NotebookLM 当作“观察放大器”,而非权威。上传笔记、生成预测、用真实材料验证、再迭代。

有医学院学生说,这根本不是什么秘密,他们早就这么干了。也有工程系学生泼冷水:对于那些考题和课堂内容完全脱节的硬核课程,这招不灵。

最有意思的批评来自一位教育者:这些学生学会的是如何破解考试,而不是真正理解知识为什么存在这样的关联。长期来看,这是一种贫瘠的学习方式。

但话说回来,考试本身测试的就是关联能力,而非单纯记忆。掌握 AI 辅助的模式识别的学生,会跑赢那些只会死记硬背的人。

学习的本质正在改变:从被动吸收,变成持续的预测与纠错循环。
有人在Reddit、X和各种研究社区里收集了所有爆火的NotebookLM提示词。核心发现:所有病毒式传播的提示词都有共同模式。要求引用具体原文,追问矛盾而非摘要,强制承认知识盲区,规定结构化输出格式。NotebookLM的真正威力在于它的"锚定架构",你越懂得利用这一点,它就越强大。| 帖子

以下是16个可以拿来就用的提示词:

一、提取核心问题

"分析所有输入内容,生成5个关键问题,回答这些问题就能抓住所有材料的核心要点。"Reddit用户称之为"改变游戏规则"的方法。它迫使AI提取有教学价值的结构,而非肤浅的摘要。

二、讲座笔记专用

在上述基础上聚焦:核心主题与定义、重点强调的概念、概念间的关系、提到的实际应用。

三、"有趣之处"提示词

NotebookLM的产品总监Steven Johnson用这个提示词处理了50万字的NASA访谈记录,20秒完成了10小时的手工活:"这些资料中最令人惊讶或有趣的信息是什么?请附上关键引文。"传统搜索能找到相关性,但找不到"有趣性"。

四、定向挖掘版

"我想写关于某主题的文章。这些资料中与该主题相关的最令人惊讶的事实或想法是什么?请附上关键引文。聚焦某具体方面,忽略其他方面。"

五、问答节目格式

让AI主持人互相出题,故意答错让纠正过程加深记忆。学生们特别喜欢这个。

六、多语言播客

在官方语言支持出现之前,用户就用这招生成西班牙语、德语、日语播客:"这是Deep Dive的首期国际特别节目,全程使用某语言。除非需要解释专有术语,否则不使用英语。"

七、产品经理视角

把文档变成决策备忘录,聚焦用户证据、可行性检查、盲区分析。

八、科研助理视角

为需要方法论而非结论的学者设计,聚焦样本量、实验设计、统计显著性,而非泛泛的结论。

九、中学教师视角

把复杂内容变得易懂:一句话总结、现实世界类比、三个难词的简单定义。

十、文献综述主题提取

识别5到10个最常出现的主题,说明每个主题在哪些论文中出现、如何被处理(争论、假设还是验证)。

十一、矛盾发现器

找出资料间的分歧,引用双方具体观点,分析分歧原因(方法、样本还是语境),指出什么证据能解决争议。

十二、差距分析

当你尝试某事但失败时使用。交叉对照你的做法与上传资料,找出你没遵循的方法论、完全遗漏的概念、跳过的前置条件。

十三、概念落地

把研究转化为行动步骤,每个要点都锚定具体引文,承认知识盲区。

十四、概念联结

发现想法之间不明显的联系,"综合某主题1和某主题2之间的联系,无论多抽象。"

十五、全面主题分析

最大长度、深度研究的输出。规划要探索的关键方面,区分事实与解读,用证据支撑观点。

十六、辩论格式

当你的资料本身存在分歧时使用。让两位主持人就某主题进行辩论,互相质疑,引用具体证据,让听众自己判断谁更有说服力。

这些提示词的共同智慧是:不要问AI"这是什么",要问"这里面有什么矛盾"、"我漏掉了什么"、"最反直觉的发现是什么"。好问题比好答案更稀缺。
让 Claude Code 真正好用的六个插件 | 帖子 | #插件

用 AI 写代码最怕什么?能跑但丑,能用但乱,声称没问题结果一堆 bug。这几个插件专治这些毛病。

1. Superpowers:大项目必备。它会启动子代理做调研,先想清楚再动手。内置 TDD 和系统化调试流程,防止 Claude 写完就说"搞定了"然后一运行全是错。

2. Frontend Design:让 Claude 真正在意视觉。生成的组件不再是千篇一律的模板脸,字体、间距、配色都会有意识地打磨。做落地页和仪表盘的时候特别有用。

3. Code Simplifier:功能跑通之后用它清理代码。专门针对最近改动的文件,把 Claude 写出来那些"能用但看着难受"的代码收拾干净。

4. Playground:一行命令生成独立的 HTML 工具,数据可视化、设计探索器、概念图都行。单文件,零依赖,浏览器打开直接用。

5. Claude in Chrome:让 Claude 能看到浏览器、点按钮、填表单。调试线上页面、抓数据、自动化重复操作,直接用你登录好的会话,不用单独处理认证。

6. PR Review Toolkit:一组专门的代码审查代理,分别负责测试覆盖率、错误处理、类型设计、代码质量。每个代理只管一件事,比单次审查更彻底。

一个进阶玩法:让 Claude 和 Codex 互相审查对方的代码,交叉检验能发现不少问题。

工具的价值在于组合。规划用 Superpowers,界面用 Frontend Design,完成后用 PR Review。先把一个用熟,再叠加下一个,最终你会开始写自己的插件。
AI研究员的提示词工具箱:哪些真有用,哪些是玄学 | 帖子

有人声称采访了12位来自OpenAI、Anthropic和Google的AI研究员,总结出他们共同使用的10个提示词。这份清单在社交媒体上广泛传播,但真正有意思的是评论区里一位用户让Claude自己评价这些技巧,得到了一份相当诚实的答案。

先说确实有效的几个:

「展示推理过程」和「思考预算」本质上是同一件事:强迫模型把思维链条外化。这在数学、逻辑和复杂分析任务上效果显著,有大量研究支撑。给模型更多token去思考,确实能换来更好的推理质量。

「验证链」要求模型先回答问题,再列出可能出错的地方,最后自我修正。这种内置的自我纠错机制真的能抓住模型原本会自信地犯下的错误。

「对抗性质询」让模型反驳自己的答案,是避免AI变成你观点回音壁的最佳方式之一。模型天生过度自信,这个技巧强迫它保持智识上的诚实。

「边缘案例猎手」在代码审查和系统设计中特别有用,能暴露模型的盲点。

再说效果因场景而异的:

「约束强制」确实能让输出更简洁,「不要使用模糊语言」这个指令在去除废话方面出奇有效。「比较协议」在你指定比较维度时效果更好,否则模型会挑自己方便的角度。

「不确定性量化」可以做,但说实话,模型给出的置信度数字更多是一种「感觉」,没有经过校准。当作方向性参考就好,别太当真。

最后是被高估的:

「专家角色扮演」,那种「你是一位有15年经验的资深专家」的写法,大部分是表演。模型要么懂这个领域,要么不懂,角色设定可能稍微改变语气,但不会解锁什么隐藏知识。

「格式锁定」要求输出JSON格式,这只是正确使用工具的方式,算不上什么秘密技巧。

真正的元教训是:最有效的提示词都在做同一件事,给模型提供结构和约束。清晰的预期带来清晰的输出,这和一个好老板给出清晰需求是一个道理。

这些技巧本身都是实用的沟通原则,只是被包装成了「研究员内部秘密」来获取流量。没有什么隐藏的研究员知识,有的只是好的沟通方式。
据俄媒 RBC 报道,俄罗斯国家通讯监管机构Roskomnadzor reportedly已开始对加密通讯应用Telegram实施降速并限制访问,理由是Telegram在打击诈骗和犯罪活动方面措施不力。

Roskomnadzor去年8 月曾部分封锁Telegram和WhatsApp的语音通话功能,称这两款应用被用于勒索和“恐怖主义活动”。同一时期,俄罗斯还要求手机和平板厂商在在俄销售的新设备中预装国家主导的 Max 即时通讯应用,以推动本土替代方案的普及。

——cnbeta
迅雷旗下公司推出「光鸭云盘」,号称免登录下载和支持三方应用连接。可以通过播放器直连云盘并刮削数据搭建自己的影视库以及 4K 分辨率播放。

光鸭云盘看起来主要是对标阿里云盘,后者支持三方应用连接直接播放内容,但矛盾在于直接播放内容需要大量带宽,所以阿里云盘现在对此类使用需求收费,估计光鸭云盘也无法避免此类问题。

光鸭云盘具有如下特点:

-小型文件免登录快速下载,对于 100MB 以下的分享文件不需要登录即可下载
-为用户提供更大的空间,用户注册后即可获得 2TB 空间,最高支持 500TB 空间
-支持多种云下载协议,包括普通链接、磁力链接、ED2K 以及种子解析等
-最高支持上传高达 100GB 的单文件,满足部分用户需要上传超大文件的痛点
-提供 API 允许第三方应用对接,例如播放器类应用可以直连并支持海报刮削等
-支持原画无损播放,最高可以支持 4K 分辨率播放且支持最高五倍速播放

——蓝点网
一份值得收藏的AI社区导航手册 | 帖子

在信息爆炸的时代,找到高质量的学习社区比掌握任何单一技能都重要。Reddit用户JensPetrus花了大量时间整理了一份AI相关子版块的完整清单,覆盖了从大语言模型到图像生成、从自动化工作流到AI编程的几乎所有领域。

这份清单的价值在于它的筛选标准:活跃度高、有教育意义或能带来灵感启发。

通用AI讨论区包括ArtificialIntelligence、PromptEngineering、GenerativeAI等,适合了解行业动态和交流使用心得。AIToolTesting专门分享各类工具的实测体验,是发现新工具的好去处。

大语言模型板块最为丰富。ChatGPT相关的就有好几个:ChatGPT是最大的综合社区,ChatGPTPro面向专业用户分享工作流和进阶技巧,ChatGPTPromptGenius则专注于提示词优化。此外还有OpenAI、Anthropic、ClaudeAI、GeminiAI、PerplexityAI、DeepSeek、Grok、MistralAI、QwenAI、LocalLLaMA等,几乎覆盖了市面上所有主流模型。

图像和视频生成领域同样热闹。Midjourney和StableDiffusion是两个最大的图像生成社区,Veo3专门展示谷歌视频生成器的作品,KlingAIVideos和HiggsfieldAI则聚焦其他视频工具。

AI音乐创作以SunoAI为主阵地,这是目前最受欢迎的AI音乐平台。UdioMusic因为下载限制,热度已经下降不少。

AI写作社区相对小众但很专注,WritingWithAI是最大的一个,BookwritingAI则专门讨论用AI写书。

AI编程是当下最火的应用场景之一。VibeCoding和ClaudeCode是两个最大的社区,ChatGPTCoding专注于用ChatGPT写代码,Cursor则围绕这款热门AI编程工具展开讨论。OnlyAIcoding特别适合没有编程基础的人,大家在这里分享策略和提示词。

工作自动化方面,n8n和Zapier是两个主流平台的官方社区,AI_Agents专门讨论能自主执行任务的智能代理。

研究导向的社区包括MachineLearning这个2009年就创建的老牌版块,以及关注技术奇点的Singularity。

有用户建议创建一个多版块聚合订阅,这样可以一次性关注所有相关内容。已经有人做好了现成的聚合链接,感兴趣的可以去原帖查看。

学习AI最高效的方式,是把自己放进一个持续产出高质量内容的信息环境里。这份清单就是一张入场券。
当AI开始自动给你的代码库提PR,我们该担心什么 | 文档

GitHub刚刚发布了一个野心勃勃的新项目:Agentic Workflows。设想一下,每天早上你打开电脑,发现代码库里已经躺着几个自动生成的PR,文档更新了,测试覆盖率提高了,CI失败被自动分析了,Issue也被自动分类了。听起来很美好,对吧?

这套系统的核心思路是把AI编程代理塞进GitHub Actions里,用Markdown文件定义任务,然后让Copilot、Claude或Codex这些模型去执行。官方强调了安全设计:默认只读权限、沙箱执行、网络隔离、工具白名单。

但社区的反应相当精彩。

有人挖出了一个真实案例:Dependabot创建了一个版本升级的Issue,AI代理接手后,没有用正确的go get命令,而是直接在go.mod里加了一个replace语句。这根本不是正确的做法。更离谱的是,PR里还混入了一些无关的改动,AI审查员指出了问题,但人类维护者没注意就直接合并了。

这暴露了一个根本性问题:AI代理并没有真正理解它在做什么,它只是在模式匹配字符串,然后生成看起来正确的新字符串。

类似的问题在npm的package.json里也很常见。代理不会用npm install命令,而是直接编辑JSON文件,然后幻觉出一个版本号。重命名变量时更糟糕,代理不会用IDE的重构工具,而是暴力用字符串替换,然后编译、看报错、再改,烧掉大量算力。

有开发者分享了应对策略:在提示词里明确写上「添加依赖时用cargo add,不要指定版本」,问题就消失了。但这治标不治本,当上下文窗口变长,模型遵循指令的能力会下降。

更深层的担忧是:执行安全和决策验证是两回事。权限控制解决的是代理能做什么,但真正的失败往往来自代理在权限范围内做了错误的事情,而且信心满满。

还有人吐槽GitHub的优先级问题。Actions的核心功能还有一堆bug没修,付费用户遇到问题一年了还没解决,现在却在往上面堆AI功能。有开源维护者直言:我交的钱被拿去搞AI噱头,而不是改进核心产品,这让我很恼火。

域名选择也引发了争议。官方用的是github.github.io而不是github.com,这违反了人们被教导的防钓鱼规则。GitHub自己说过github.io是用户生成内容的域名,官方内容应该在github.com上。现在自己打脸,等于在训练用户忽视域名安全。

不过也有人看到了价值。把代理放在一个能访问CI、Issue和源码的中心化平台上,确实是个合理的位置。关键是要把AI调用和实际应用分开,这个架构思路是对的。

项目团队在评论区积极回应,承认这还是早期研究,欢迎反馈。他们修复了一些被指出的问题,包括那个go.mod的案例。

自动化本身其实不是问题,问题是我们还没有好的方法来验证AI的决策质量。代码不只是字符串,它承载着组织的知识。让AI慢慢改进代码库是个好想法,但前提是每一步都经过人类审视。否则,你得到的不是助手,而是一个需要你不断收拾烂摊子的实习生。
Back to Top