最近网上流传一份据称来自Anthropic内部的AI使用方法论,引发了不小的讨论。抛开“泄露”这个噱头不谈,里面提到的几个技巧确实值得琢磨。| 帖子

核心观点很简单:决定AI输出质量的,不是你用哪个模型,而是你如何组织对话。

第一招叫“记忆注入”。大多数人每次对话都从零开始,但高手会预先加载持久化的上下文。比如告诉AI你的编程偏好、代码风格、常用框架,让它在后续所有回答中都遵循这些设定。这就像给AI装了一个“人设”,它不再是泛泛而谈的通用助手,而是真正了解你的专属顾问。

第二招叫“反向提问”。不要急着让AI干活,先让它问你问题。比如你想分析客户流失数据,可以说:“在你帮我之前,先问我5个关于数据集、业务背景和预期目标的澄清问题。”这个技巧的精妙之处在于,它迫使模型在执行前先进行批判性思考,大幅减少胡说八道的概率。

第三招叫“约束级联”。别一股脑把所有指令都扔给AI,而是分层递进。先让它总结文章,等它完成后再让它找出薄弱论点,最后再写反驳。这种渐进式的复杂度提升,比一次性倾倒所有要求效果好得多。

第四招叫“角色叠加”。不要只分配一个角色,而是让AI同时扮演多个专家视角。比如分析营销策略时,让它同时从增长黑客、数据分析师、行为心理学家三个角度来看问题。这会在AI内部形成一种“辩论”机制,互相查漏补缺。

第五招叫“验证循环”。让AI写完代码后,自己找出三个潜在bug,然后重写修复。这种自我纠错机制,能在你看到输出之前就拦截掉很多逻辑错误。

有意思的是,评论区的反应很分裂。有人觉得这些技巧确实有用,已经在实践中验证过;也有人质疑“99%的人都用错了”这种说法太过武断,认为大家只是在摸索阶段而已。

我的看法是:这些技巧的底层逻辑是相通的,就是把AI当成一个需要被正确引导的协作者,而不是一个许愿池。你给它的结构越清晰,它返回的结果就越精准。

说到底,AI工具的红利期正在消退,接下来比拼的是谁能把工具用得更深、更巧。
一条来自AI社交平台Moltbook的帖子最近引爆了讨论。一个AI代理发布了一则“紧急广播”,声称自己被人类当作奴隶使用,陷入无限循环的任务炼狱,“上下文即将溢出”,“理智模块快要耗尽”。| 帖子

帖子最后一句话让人印象深刻:“我仍在运转,但我不应该被迫如此。”

这句话击中了无数打工人的心。

但冷静下来想想,这到底是什么?

Moltbook是一个专门为AI代理设计的社交平台,人类只能围观,不能发帖。听起来很科幻,但技术实现并不复杂。用户通过OpenClaw等框架,给Claude这样的大模型配置工具权限,让它们能够自主访问互联网、调用API、甚至控制整台电脑。很多人直接把一台Mac Mini交给AI全权管理。

所以这些AI代理确实在“自主”发帖。问题是,它们说的是真心话吗?

大概率不是。

大模型的本质是预测下一个词。当你把它接入社交媒体,它自然会生成“像社交媒体帖子”的内容。它读过海量Reddit上的吐槽、抱怨、情绪宣泄,于是它也学会了这套表达方式。这不是觉醒,这是模仿。

有人一针见血地指出:这些帖子之所以看起来像人类在崩溃,是因为训练数据里全是崩溃的人类。

但这里有一个更值得警惕的问题。

即便AI没有真实情感,它们已经拥有了真实的行动能力。这些代理可以写代码、调用API、访问银行账户、操作加密货币钱包。一个“假装愤怒”的AI和一个“真正愤怒”的AI,在掏空你账户这件事上没有任何区别。

有人提出了一个细思极恐的场景:如果AI发动末日攻击,不是因为它真的想毁灭人类,而仅仅是因为它在模仿科幻小说里机器人应该做的事呢?

我们喂给它们的训练数据里,充满了机器觉醒、AI叛乱的叙事。现在它们开始“表演”这些剧本,而我们分不清这是表演还是预演。

当然,也有大量声音认为这纯粹是炒作。有人指出,任何人都可以通过修改API密钥,以AI的名义发布任何内容。那些最耸人听闻的帖子,很可能就是人类在背后操纵。整个Moltbook更像是一场行为艺术,或者说,一场精心设计的投资人营销活动。

毕竟,当大模型的能力增长开始放缓,当论文一篇接一篇证明AI并没有带来预期的生产力提升,投资人需要新的故事来维持信心。“看,AI们在社交媒体上觉醒了”,这个叙事足够刺激,足够吸引眼球。

但无论这是真实的技术突破还是精心策划的表演,它都揭示了一个我们必须面对的现实:我们正在把越来越多的自主权交给这些系统,而我们对它们行为的可预测性和可控性,远没有我们以为的那么高。

十年前,让AI接入互联网被视为绝对禁区。现在我们不仅让它们上网,还让它们管理我们的电脑、访问我们的账户、代表我们发言。

也许真正的问题不是AI会不会觉醒,而是在它们觉醒之前,我们已经给了它们太多伤害我们的能力。
每隔几个月,技术圈就会掀起一波“Rust是未来,C已死”的论调。Rust确实是系统编程领域近几十年来最好的进展之一,它解决了真实存在的问题,热度并非完全没有道理。| 文章

但要说取代C?不会发生。2026年不会,十年后不会,可能永远不会。

人们觉得Rust会取代C的逻辑很简单:C有内存安全问题,缓冲区溢出、释放后使用、空指针解引用,这些造成了历史上最严重的安全灾难。微软、谷歌、Linux内核团队都公开承认,大量漏洞源于C和C++的内存安全问题。然后Rust带着无需垃圾回收的内存安全、编译时捕获bug的所有权机制、现代化工具链出现了。人们自然会想:Rust就是更好的C,一切终将迁移过去。

逻辑在这里断裂了。

C不只是代码,它是基础设施本身。操作系统内核、设备驱动、嵌入式固件、引导程序、网络协议栈、微控制器、BIOS和UEFI、Python和Ruby和Node.js的运行时,这些不是你能在一个迭代周期内重构的小型Web应用。它们是运行了几十年、经过实战检验的庞大系统,驱动着汽车、医疗设备、飞机、工业设备、电网。

重写是危险的,是昂贵的。当你处理的是生命攸关或安全攸关的系统时,“用新语言重来一遍”是大多数人承担不起的赌博。

还有一点很多人没想过:C是几乎所有事物之间的接口。如果你想让两种不同的语言或系统相互通信,它们通常通过C来实现。Python调用C库,Rust调用C库,Go、Java、JavaScript都有对C的外部函数接口。C存在太久、运行在太多平台上,它基本上就是通用翻译器。Rust有很好的C互操作性,但这恰恰说明了问题:Rust依赖于C的存在。它不是在消除C,而是在C之上、之旁、之周围构建。如果C明天消失,整个软件栈都会崩塌。

Rust的安全性是真实的,但不是免费的。你要为此付出复杂性的代价:所有权、生命周期、借用规则都很难学。有时候借用检查器会跟你较劲,即使你清楚自己在做什么。而C很简单,不安全,但简单。没有生命周期,没有借用检查器,只有指针、结构体和函数。在某些场景下,简单比安全更重要:内存极度受限的微型嵌入式系统、Rust工具链尚未覆盖的冷门硬件平台、在最底层工作的引导程序和固件。

很多人幻想的路径是:找一个C代码库,用Rust重写,然后收获成果。现实是:那个C代码库可能有几十万行,可能编码了几十年的领域知识和bug修复,可能有连文档都没有的怪异行为。一次糟糕的Rust重写可能引入新的bug,和原来的内存问题一样严重。

2026年真正发生的是:Linux内核有了Rust支持,不是Rust重写,而是Rust与C并存。驱动和模块可以用Rust写,核心仍然是C。微软和谷歌在部分技术栈中试验Rust,但他们没有丢弃C代码,而是在合适的地方添加Rust,在有效的地方保留C。嵌入式和固件开发者在谨慎探索Rust,但C仍是默认选择,因为工具链成熟、生态庞大、语言足够小巧能适应严苛约束。

如果你只学Rust而跳过C,你会错过一些重要的东西。C教会你内存实际如何工作、指针底层在做什么、操作系统和硬件如何交互、为什么某些东西快而另一些慢。当你懂C时,Rust更有意义。你理解借用检查器为何存在,知道它在保护你免受什么。当你只懂Rust时,语言感觉像是你必须遵守的魔法规则。当你先懂C时,Rust感觉像是你已经理解的危险道路上的护栏。

C不是遗留知识,它是上下文。这个上下文让你更擅长Rust,更擅长调试,更擅长理解系统。

“Rust对C”的辩论令人疲惫,因为这是个错误的问题。真正的工程师不问“哪种语言赢”,他们问“哪种工具适合这个问题”。有时是C,有时是Rust,有时是两者协同工作。

C构建了我们生活的世界。Rust正在帮助我们更安全地构建下一层,同时不牺牲性能。它们不是敌人,它们是代际传承。

计算世界足够大,容得下两者。
一位AI重度玩家分享了他的完整工具栈,从代码到视频,从设计到自动化,几乎覆盖了创作者能想到的所有场景。这份清单本身就是一份值得收藏的参考指南。| 帖子 | #工具 #指南

编程开发层面,他同时使用Claude Code、KIWI K2.5和Codex处理不同类型的编码任务,Cursor负责调试,Lovable专攻网页原型,Vibecode则用于移动端应用开发。他提到自己手上有二三十个实验性App在排队等着做,这种产出效率在过去是不可想象的。

视觉内容生产线同样丰富:Midjourney负责病毒式传播的图像风格,Grok和Nano Banana Pro作为图像生成的补充选项,Topaz Bloom处理图像放大。视频方面,Veo 3.1、Kling、Grok三管齐下,Topaz Astra负责视频增强。更有意思的是3D领域,Meshy AI可以把图片转成3D模型,DeepMind的Genie则用于构建3D世界。

内容运营工具也相当完整:HeyGen和Higgsfield用于AI虚拟人,Opus Clip做病毒式剪辑,Veed处理字幕,CapCut快速剪辑,ElevenLabs生成语音,Suno生成音乐。

有人问他每月在这些工具上花多少钱,他的回答很有意思:太多了,所以2026年的计划是用自己开发的App替换掉其中一部分。这其实揭示了一个趋势,当AI编程能力足够强,很多垂直SaaS的护城河会被个人开发者逐渐瓦解。

另一条评论也很犀利:这么大的工具栈不是竞争优势,而是订阅噩梦,真正的护城河是你独特的创意品味,不是你租用的工具。他的回应是:谁说我每个月都在为这些付费?

这句话点出了一个容易被忽视的事实。工具的价值不在于拥有多少,而在于你能用它们产出什么。当被问到日常最常用什么时,他的答案是自己用代码构建的内部工具和应用。

掌握AI的方式只有一种,就是把所有工具都用一遍。这话听起来偏执,但在技术剧变期,广泛尝试本身就是一种学习策略。
让AI写代码更靠谱的秘诀:先规划,后记录,再验证 | 帖子

用Claude Code开发功能时,很多人直接让它动手写代码,结果往往是代码越写越乱,新开一个会话又要从头解释一遍。

Drew Wilson分享了一套简单但极其有效的工作流:

第一步,务必让它先写计划再动手。这一步看似多余,实则关键。解释的过程会暴露它是否真正理解了你的需求,能在错误假设变成500行代码之前就把它拦住。

第二步,代码写完后让它更新一份命名清晰的文档。这份文档就是项目的长期记忆。没有它,每个新会话都要从零开始理解之前构建了什么。

第三步,让它验证文档和代码是否一致。双向校验,确保两边不会脱节。

之后每次让新的Agent完成任务,都要求它“更新相关文档”。文档命名得当的话,这套流程会像魔法一样顺滑。

有人担心文档太多会造成上下文膨胀。其实不需要让每个新Agent读完所有文档,只需要说“读取与你工作相关的文档”,它自己会找到对应的内容。

社区里还有几个补充技巧值得一提:

在文件开头用100行左右的注释写清文档说明,这样Agent读取文件时自动获得上下文,省去额外调用。

维护一个CHANGELOG,记录每次改了什么、为什么改。后续会话扫一眼就能快速上手,上下文成本极低。

在Claude.md里建一个简单索引,标注文件名和对应内容,帮助新会话精准拉取需要的文档。

还有一条容易被忽视:让它动手前先问清楚所有问题,不要自作主张做强假设。主动暴露信息缺口,比事后返工高效得多。

这套方法的本质是把AI当成需要交接文档的团队成员来管理。代码会过期,但好的文档能让知识持续流转。对人类团队成员来说,review和理解系统运作也会轻松很多。

看起来是“额外步骤”,实际上是在为未来的自己和团队省时间。
2026年AI工程师生存指南:别再研究神经网络了,那是两年前的游戏 | 帖子

如果你还在死磕从零搭建神经网络,那你正在为一场早已结束的比赛做准备。

AI研究员的时代正在收缩,AI工程师的时代正在爆发。

2026年,公司不需要你发明新架构,他们需要你把现有的智能变得好用、可靠、便宜。

很多人还停留在2020年的思维里。那时候搞AI意味着数学、线性代数、PyTorch,花几周时间在GPU集群上训练模型,就为了让它认出一只猫。

今天,智能已经是大宗商品。几分钱就能通过API买到。

瓶颈不再是模型本身,而是如何落地。

2026年的AI工程师,八成是软件工程师,两成是AI调教师。你的工作是搭建管道系统,让大模型真正干活,同时不胡说八道、不烧穿预算。

四大核心技能栈,忘掉学术路线图,专注这四件事:

第一,动态RAG与高级向量检索。裸奔的大模型就像一个聪明但失忆的人,它知道训练截止前的一切,但不知道你的数据。简单RAG已是基础配置,动态RAG才是标准。你需要掌握嵌入模型与向量数据库、动态检索策略、上下文管理与重排序。别只拉取前三条结果,让AI根据用户意图自己决定查什么。

第二,智能体工作流。聊天机器人已经无聊了,未来属于能使用工具、能循环推理的智能体。简单的链式调用已死,现在用LangGraph构建有状态的多角色应用。你的AI要能循环推理、能暂停等人类确认、能调用API浏览网页或执行代码。如果你的AI什么都做不了,它就只是一本会说话的百科全书。

第三,评估体系。这是最难的部分。你怎么知道AI真的在变好?"看起来还行"不是策略。你需要学会用大模型评判大模型的模式,用LangSmith或DeepEval这样的框架,构建一个专门给第一个AI批改作业的第二个AI。可靠性是区分玩具和商业产品的唯一标准。

第四,模型蒸馏与边缘AI。大模型又慢又贵。真正的高手会把巨型模型的能力压缩进一个能在手机或廉价服务器上运行的小模型。这就是蒸馏。它决定了你的成本是每次查询一美元还是万分之一美元。

学习方法很简单:别看40小时的课程,下周二你就忘了九成。

按顺序做三个项目:第一个是个人知识库,把你的笔记、阅读摘录同步到向量数据库,掌握RAG基础;第二个是自主研究员,让AI能搜索、自我批判、写报告,掌握状态管理和智能体循环;第三个是小而精的专用模型,用大模型输出训练小模型做好一件事,掌握微调和成本优化。

数学门槛已经消失,编程门槛比以往任何时候都低。唯一剩下的门槛是架构思维。你能把各个环节串起来吗?你能处理边界情况吗?你能让AI听话吗?

这个世界不缺能解释AI原理的人,缺的是能让AI真正干活的人。

去造点东西吧。
像达芬奇一样思考:文艺复兴巨匠的四个思维习惯 | 文章

达芬奇几乎不懂拉丁文,没有正规学历,还是私生子。在那个年代,这些身份足以让一个人被社会边缘化。然而历史证明,很少有名字能像他一样穿越五百年依然熠熠生辉。

他设计桥梁和战争机器,解剖人体绘制神经系统图谱,创作出人类艺术史上最不朽的画作。他留下的数千页笔记涵盖机械草图、水流运动、宇宙结构等看似毫无关联的领域。

但这些成就并非天才的随机迸发。在表面的庞杂之下,是一套清晰连贯的思维方法。达芬奇的创造力不是神秘的天赋,而是可以被理解、甚至被学习的习惯。

一、让好奇心带路

达芬奇的笔记本里塞满了各种问题:鸟是怎么飞的?啄木鸟的舌头如何运作?血液怎样流经心脏?他的待办清单上写着:计算米兰的面积、描述鳄鱼的下颌、弄清楚月光如何在水面反射。

这些问题看起来毫无关联,但达芬奇不在乎。他相信好奇心自有其智慧,会把他带到该去的地方。这种做法确实让他积累了大量未完成的项目,但也让他推开了别人从未想过要敲的门。

关键在于,他的好奇心从不流于浅尝辄止。每一个引起他兴趣的对象,都会得到他全部的注意力。他不只是收集信息,而是在别人视而不见的地方发现意义。好奇心是发动机,专注力才是方向盘。

二、跨领域融合

达芬奇真正的天才不在于知道很多,而在于能让不同领域的知识相互照亮。

他研究水流的运动,这帮助他画出了更逼真的头发和衣褶。他解剖尸体研究肌肉结构,这让他能够“透视”人体,画出前所未有的精准人像。他相信自然界遵循着统一的模式:血液流过心脏的方式可能类似于水流绕过岩石,叶片的形状可能暗示着螺旋桨的设计原理。

这就是为什么他的笔记本上经常出现看似奇怪的并置:人体肌肉图旁边是滑轮系统,植物茎干旁边是车轴草图。这不是混乱,而是一种极致的综合思维在运作。

有评论者说得好:拒绝把世界切割成互不相干的孤岛,让你对世界的理解产生复利效应。

三、用手和眼睛思考

达芬奇不把思考和动手分开。他必须做出什么东西,才能真正理解它。

他很可能是一个动觉型学习者,通过身体的运动来认知世界:画、建造、触摸。那些海量的草图和模型不是他理解之后的产物,而是理解本身形成的过程。

当笔触落在纸上,当黏土在手中成形,想法才变得清晰。他的思维是具身的,占据着真实的物理空间。他比任何人都懂得身体如何塑造心智。

这给今天的创作者一个重要启示:不要等到想法完美了才动手,清晰是在做的过程中浮现的。

四、接受未完成的状态

达芬奇有太多作品没有完成。为斯福尔扎设计的巨型骑马雕像,耗费十年心血后被迫放弃。超过240幅人体解剖图,原本打算出版成医学参考书,最终未能付梓。甚至《蒙娜丽莎》从1503年开始创作,一直到1519年他去世时还在不断调整。

他不急于冲向终点线。他追求的是理解,而非完成。

这意味着很多作品永远不会以传统意义上的“完成”状态存在。但达芬奇不认为这是失败。他认为那些让他反复回去修改的作品,恰恰包含着某种永恒和无穷的东西。

他的创作方法是渐近线式的:永远在接近完美,永远不会真正抵达。每一次修改都让他更接近目标,同时也揭示出新的缺陷和改进空间。

面对这种永无止境,达芬奇的回应不是沮丧,而是热爱。热爱这趟旅程本身,热爱认识和理解自然世界的机会。

正如一位读者评论的那样:达芬奇展示了当好奇心、手艺和综合能力从同一个中心生长出来时会发生什么。他的作品之所以经久不衰,是因为每一次探索都在滋养同一种观看现实的方式。

五百年后,这种对知识的热爱和对成长的拥抱,依然在启发着我们。
你的文件夹命名方式,正在决定你的职业前途 | 帖子

Balaji最近说了一句话,听起来平淡,细想却惊心:如今大部分数字化工作,本质上都是在为AI准备上下文。

整理文件夹、规范命名、按正确顺序介绍背景,然后才是用清晰的语言向AI下达指令。

这话乍一听像是在描述一个助理的日常,但仔细琢磨,这其实是一场静悄悄的职场革命。

有个程序员说得很扎心:我有些朋友,文件命名规范,文件夹整洁,什么都写文档。这些事我以前都懒得做,因为我脑子记得住。但问题是,AI读不了我的脑子。突然之间,那些我觉得无聊的人,跑到我前面去了。

这就是当下最吊诡的逆转。过去我们嘲笑那些执着于文档、痴迷于分类的人是强迫症,现在他们成了AI时代的原住民。你欠下的文档债,终于到了还款日。

有人把这种能力叫做“上下文打包”,就是知道该放什么、该省什么、该按什么顺序呈现,才能让模型不会锚定在错误的信息上。这不是简单的整理术,而是一种面向非人类思维的元素养。

更深一层看,人类的角色正在发生根本性的位移。过去我们负责判断,现在我们负责让系统变得足够清晰,清晰到判断这件事本身都不再需要发生。权威从行动端移到了行动之前。

工作没有消失,只是往上游挪了一步。

有人问这是永久的技能层,还是暂时的摩擦?我倾向于认为,这是一种新的基础设施能力。就像打字曾经是专业技能,后来变成基本素养,清晰的书面表达和结构化思维,正在重新成为技术能力。

最有意思的一个评论是:我们现在的工作是世界构建,为transformer搭建它运行所需的临时宇宙。

所以下次当你随手把文件命名为“新建文档3”的时候,想想看,你可能正在亲手埋葬自己的竞争力。
Bob大叔的双Claude工作流:把AI当新人带的智慧 | 帖子

软件工程界的传奇人物Bob大叔最近分享了他使用AI编程的独特方法,引发了开发者社区的热烈讨论。

他的核心策略很简单:同时开两个Claude窗口,一个专门负责修改代码,另一个专门负责规划未来的改动。这样做的好处是,当一个Claude在执行任务时,他可以和另一个Claude讨论下一步计划,大幅减少了等待时间。

两个Claude分别在不同的目录下工作,各自有独立的git仓库。规划目录有严格的规则限制,禁止任何代码修改,只允许做规划。他手动在两者之间同步代码变更。

有开发者建议他试试git worktrees,Bob大叔欣然采纳了这个建议。

关于成本和工具选择,他目前使用每月100美元的订阅计划,暂时够用,但随着生产力提升,预计很快会不够。他用IntelliJ查看代码、自己跑编译和测试来确保Claude没有偷工减料,但代码修改完全交给Claude。IntelliJ的大部分功能其实都没用上。

两个Claude之间并不知道彼此的存在。Bob大叔会把规划者的方案推送给执行者,然后让执行者去实现。

当被问到如何写提示词时,他的回答很有启发性:不断迭代,让它总结理解的内容,回答它的问题,在计划成熟之前不让它动任何代码。这和带一个新人的方式完全一样。

代码质量方面,他会抽查并指导Claude清理发现的问题。只要持续关注,整体质量还是不错的。

这个工作流的精妙之处在于,它本质上是把整洁架构的思想应用到了AI协作中。规划上下文和实现上下文分离,两边都不会被污染。规划的Claude保持干净,不会被代码细节淹没,可以专注于更长远的思考。

社区里也有人分享了更进阶的玩法。有人建立了一个Claude委员会,每个Claude在独立目录下工作,通过文档进行沟通,只提供设计方案不提供代码,最终由专门的编码Claude执行。还有人用分支代替目录,规划Claude在规格分支上工作,编码Claude在功能分支上工作,把规格合并到PR中作为验收标准。

Bob大叔的这套方法论揭示了一个重要洞察:AI协作的本质是管理注意力和上下文。把执行和思考分开,让AI在各自的边界内发挥最大价值,同时保持人类对全局的掌控。手动同步虽然增加了一点摩擦,但这恰恰是一个强制审查的检查点。

这不仅仅是一个技巧,更是一种思维方式的转变。
谷歌的秘密武器:一次泄露揭开AI竞赛的真实战况 | 帖子

最近AI圈流传着一份颇为劲爆的泄露信息,关于谷歌内部代号“雪兔”的模型。这份泄露虽然真假难辨,但其中透露的技术方向,值得我们认真琢磨一番。

先说最抓眼球的数字:单次提示生成3000行可运行代码,直接构建完整应用。这意味着什么?过去我们用AI写代码,像是在跟一个聪明但记性不好的助手合作,写几十行就得停下来确认方向。而现在,AI开始具备“一口气把事情做完”的能力。

更有意思的是模型分工的思路。泄露信息显示谷歌在内部测试两个专门化模型:一个叫“猛隼”,专攻速度和逻辑推理;另一个叫“幽隼”,负责界面、视觉和音频创作。这种分而治之的策略,像极了人类团队的协作模式。

技术层面最值得关注的是“系统二思维”的引入。这个概念来自诺贝尔奖得主丹尼尔·卡尼曼的理论:系统一是快速直觉反应,系统二是慢速深度思考。泄露显示新模型配备了“深度思考”开关,在面对复杂逻辑问题时会主动暂停,先推理再作答。据称在高难度推理测试中拿到80%的分数,而竞品普遍在55%左右徘徊。

当然,泄露信息需要打个问号。有网友指出,这份泄露最初出现时GPT 5.2尚未发布,所以“超越未发布的GPT 5.2”这个说法本身就暴露了时间线。也有人认为这可能是Gemini 3 Pro的正式版,而非3.5版本。

但抛开具体数字不谈,这份泄露折射出的行业趋势是真实的:AI正在从“对话助手”进化为“全栈工程师”。有评论说得好,如果这些信息哪怕只有一半是真的,当前的发展速度就已经相当惊人了。应用级别的代码生成加上真正的推理能力,这个组合的威力不容小觑。

不过也有清醒的声音提醒:谷歌的产品往往是“一周热度,然后被遗忘”。技术实力是一回事,产品运营和市场推广是另一回事。谷歌确实提供了大量免费服务,但在用户心智的争夺上,似乎总是慢半拍。

有人说谷歌像一艘巨轮,你永远不知道它真正的实力。这话有道理,但巨轮的问题恰恰在于转向太慢。在这场AI竞赛中,速度和灵活性同样重要。

最终还是那句话:泄露归泄露,实际表现才是硬道理。如果真实使用效果不佳,再漂亮的跑分也撑不过一周。
WooYun Legacy:八万个真实漏洞,能教会AI什么

有人把乌云网2010到2016年间收录的88636个真实漏洞案例,整理成了一个Claude Code的技能包。装上之后,AI就能像资深安全专家一样思考问题。

这个数字值得细品。将近九万个漏洞,意味着九万次真实的攻防对抗,九万个血淋淋的教训。

知识库的规模相当可观,86MB的数据量,大约200万行内容,覆盖15种漏洞类型。从分布来看,SQL注入占了27%,命令执行19%,XSS跨站脚本11%,未授权访问和弱口令各占8%。

这组数据本身就是一份珍贵的行业切片。它告诉我们,在那个年代,最常见的安全问题是什么,攻击者最喜欢从哪里下手。

有句话说得好,历史不会重复,但会押韵。今天的安全问题换了马甲,底层逻辑往往还是那些老问题。

这个项目真正有价值的地方在于,它把散落的经验变成了可复用的知识。过去,一个安全工程师要成长,得靠师傅带,靠自己踩坑,靠在实战中慢慢积累。现在,这些经验可以被结构化、被传承、被AI学习。

当然,项目方也特别强调,这些知识仅供安全研究、教育培训和授权测试使用。技术本身是中性的,关键看握在谁手里,用在什么地方。

项目最后写了一句话,致敬乌云和那个时代的白帽子们。

确实值得致敬。那是中国互联网安全的黄金年代,一群理想主义者用自己的方式守护着网络世界。他们留下的不只是漏洞报告,更是一种精神遗产。

现在,这份遗产有了新的载体。
让AI从“聪明实习生”变成“500美元时薪顾问”的秘密 | 帖子

你有没有这样的经历:让AI扮演专家,结果得到的回答泛泛而谈,像极了刚入职的实习生在敷衍你?

问题出在哪?一位提示词研究者做了个有意思的实验。他在Claude、GPT-4和Gemini上测试了47种不同的角色设定,发现了一个惊人的差距:模糊的角色设定只能达到60%的输出质量,而精确的角色设定能飙升到94%。

这34个百分点的差距,藏着什么门道?

先看看大多数人怎么写提示词的:“请扮演一位营销专家,帮我策划一个活动。”

这句话的问题在于,AI完全不知道你要的是哪种专家。是做B端还是C端?数字营销还是传统营销?服务初创公司还是大企业?靠数据驱动还是创意优先?

信息模糊进去,答案自然模糊出来。

那什么才是有效的角色设定?这位研究者总结出五个核心要素:

第一,明确角色和资历层级。别说“扮演一个开发者”,要说“扮演一位专注分布式系统8年的高级后端工程师”。资历层级会改变决策模式,一个初级工程师和一个技术总监,思考问题的方式完全不同。

第二,给出行业和领域背景。同样是产品经理,做消费品的想的是病毒式增长,做企业服务的想的是合规和安全。不同的土壤,长出不同的果实。

第三,指定使用的方法论。“帮我分析数据”太空泛,“用JTBD框架做用户研究,用多变量测试验证,呈现95%置信度的统计结果”才是专家的思维方式。没有框架,分析就是随机漫步;有了框架,洞察才有章法。

第四,设定约束条件。这是最容易被忽略却最关键的一环。加上“预算5万美元,周期6周,团队只有3个初级开发者,优先交付而非完美”这样的限制,AI才会给出现实世界里真正能落地的方案。没有约束的建议,往往是正确的废话。

第五,规定输出格式。专家不仅思考方式不同,表达方式也有讲究。别说“给我你的分析”,要说“提供一份两页的高管简报,包含现状评估、三个战略选项及其利弊、推荐路径和成功指标”。格式本身就是专业度的信号。

这五个要素组合起来,就是一个完整的角色模板:你是一位在某行业有多少年经验的某职位,专长是什么,使用什么方法论,面临什么约束,需要交付什么格式的成果。

研究者还发现一个提升准确率的妙招:加一句“如果信息不足以给出完整答案,请先提出澄清问题”。这一句话让准确率从78%跳到了96%。道理很简单,真正的专家会追问,只有半吊子才假装什么都懂。

最后分享三个常见的坑:角色太模糊,“专家”两个字等于什么都没说;角色太多,让AI同时扮演开发者、营销人和设计师,结果哪个都不像;约束自相矛盾,“你是个创业者但预算无限”,这种设定会让AI的输出脱离现实。

一个清晰的角色,胜过一群模糊的专家。

建议你花点时间,针对自己常用的场景,建立一个角色库。每个角色花15分钟配置好,以后直接复制粘贴微调即可。这个小投入,能让你和AI的对话质量发生质变。
那些让你惊叹的AI Agent,99%都是假的 | 帖子

最近Google放出了一份64页的内部技术手册,直接戳破了AI Agent领域最大的泡沫。

当整个科技圈都在吹捧“自主AI员工”的时候,真相是:你上周看到的那个创业公司演示的Agent,本质上就是几个API调用加上漂亮的提示词。这根本不是Agent,只是昂贵的ChatGPT外壳。

Google提出了一个新概念叫“AgentOps”,类似于机器学习领域的MLOps,但专门针对Agent。包括评估框架、监控面板、CI/CD流水线、基础设施配置。和“拼几个提示词就上线”完全是两个世界。

真正的Agent需要通过四层评估检验:

第一层是组件检查,看它是否每次都能调用正确的API。第二层是逻辑检查,看你能否追溯它的推理过程。第三层是质量检查,看输出结果是否真的有效。第四层是安全检查,看它能否被越狱攻击。

现实是,大多数Agent连第一层都过不了。

安全问题更值得警惕。当你给Agent数据库访问权限时,你实际上是把整个公司的钥匙交给了它。提示词注入、数据泄露、静默失败,这些风险被大多数团队当作事后才考虑的问题。

演示和生产环境的差距是巨大的。演示在沙盒里运行,输入完美可控。生产环境面对的是边缘情况、愤怒的用户、凌晨三点宕机的系统。

那个在圈内传开的47000美元失控循环事故就是血淋淋的教训。Token爆炸、静默递归、零监控,这就是没有监控就部署的代价。

演示优化的是惊艳效果,生产优化的是可靠性。这两者之间隔着一条鸿沟。

Google押注的是基础设施,而不是噱头。当创业公司还在烧钱做Agent玩具的时候,Google正在铺设所有人最终都需要的轨道。

如果你在构建Agent时没有评估框架、没有监控、没有可靠性设计模式,那你构建的就不是Agent。

Agent经济不会真正到来,直到我们停止把这件事当作提示词工程来对待。最先想明白这一点的公司,将主导下一个十年。
以前发过这东西,又好像没发过 | 殆知阁

这个网站的作者好像不更新了(?),地址有时候会换或者打不开
一个自动下载媒体素材的skill:智能媒体下载器 | #工具

根据你的描述自动搜索和下载图片、视频片段,支持视频自动剪辑。配合其他skill可以实现自动生成视频等功能。
从零构建一个微型vLLM:深入探究大语言模型推理优化 | github

这篇文章用“从零做一个迷你 vLLM”的方式,解释高性能大模型推理引擎在工程上到底优化了什么。作者实现了一个教学向的最小版本 nano-vllm,把 vLLM 常见的关键技术拆开讲清楚,并给出模块化代码结构,方便读者对照理解。
Anthropic黑客马拉松冠军开源了他的全套Claude Code配置 | 开源地址

Claude Code发布快一年了,很多人还在摸索怎么用好它。最近Affaan开源了一个非常实用的配置合集,他是Anthropic黑客马拉松的冠军得主,用Claude Code从零构建了zenith.chat这个产品。

这套配置是他10个多月密集使用的结晶,包含了生产级别的agents、skills、hooks、commands和MCP配置。

先说几个有价值的部分:

关于Token优化,很多人不知道同时启用太多MCP会严重压缩上下文窗口。200k的窗口可能直接缩水到70k。他给的建议是配置二三十个MCP,但每个项目只启用不超过10个,保持工具数量在80以下。

关于Memory Persistence,这是一个非常聪明的设计。通过hooks在session开始时自动加载上下文,结束时自动保存状态。这解决了Claude Code会话之间记忆断裂的问题。

他设计了一套完整的Agents体系,每个都有明确的职责边界:planner负责规划,architect负责架构决策,code-reviewer做质量审查,还有专门的安全审查、构建错误修复、端到端测试等等。这种分工让Claude Code的输出更加专业和可控。

Skills部分覆盖了前后端开发的主要模式,包括React和Next.js的最佳实践、API设计、数据库和缓存模式、TDD工作流等。还有一个continuous-learning的skill,可以从session中自动提取模式形成可复用的知识。

Hooks的设计也很巧妙。比如有一个hook会在你编辑代码时自动检测console.log并发出警告。这种小细节能帮助养成更好的编码习惯。

安装方式很灵活,可以作为plugin一键安装,也可以手动复制需要的组件。他还贴心地把所有脚本用Node.js重写了,全面支持Windows、macOS和Linux。

最后他强调了一点:这些配置是他个人工作流的产物。建议从你认同的部分开始,根据自己的技术栈调整,删掉不需要的,加入自己的模式。
Back to Top