特别预警|开发者请注意:使用OpenAI Codex 可能被攻击 | 原文
DARKNAVY 近日发现并报告了 OpenAI Codex 桌面端中一处严重的未授权代码执行漏洞。该漏洞绕过了 Codex 的默认权限限制,攻击者仅需诱导用户打开恶意构造的代码仓库/文件夹,即可在无需用户任何授权的情况下静默触发代码执行。该漏洞目前尚未修复,且社区已出现第三方复现案例,建议广大开发者与企业用户保持警惕,切勿随意打开未确认来源的代码仓库,以防源码等关键数据资产泄露。
DARKNAVY 近日发现并报告了 OpenAI Codex 桌面端中一处严重的未授权代码执行漏洞。该漏洞绕过了 Codex 的默认权限限制,攻击者仅需诱导用户打开恶意构造的代码仓库/文件夹,即可在无需用户任何授权的情况下静默触发代码执行。该漏洞目前尚未修复,且社区已出现第三方复现案例,建议广大开发者与企业用户保持警惕,切勿随意打开未确认来源的代码仓库,以防源码等关键数据资产泄露。
Anthropic的Claude发布了一个新功能,能用一句话生成交互式图表。有人发帖惊呼“又干掉了一批创业公司”,结果在社区被彻底“围剿”。一线从业者用尖刻的嘲讽和冷静的分析,给所有被AI热潮冲昏头脑的人上了一课。
故事从一个典型的“AI震撼体”帖子开始。
Anthropic的Claude模型更新了,能用短短六个单词的提示,直接生成可交互的图表。有人立刻发帖,标题大意是:Anthropic刚刚又消灭了一批创业公司,主要是在教育领域。
一个完美的AI颠覆叙事。如果这是真的,又是一个值得焦虑或亢奋的不眠之夜。
但帖子的评论区,画风却完全走向了另一个极端。点赞最高的评论只有一句冷冰冰的质问:“这个论坛是被付费的水军占领了吗?”下面是一片倒的冷嘲热讽:“图表制作创业公司要完蛋了!”“天啊,我的图表SaaS独角兽梦碎了。”
这已经不是简单的技术讨论,而是一场社区对“AI炒作”的集体反抗。愤怒的核心并非针对功能本身——没人否认这是个不错的UI改进——而是针对那种“一个新功能颠覆一个行业”的廉价夸张叙事。
一位用户一针见血地指出了问题的本质:“这个模式总是一样的——平台增加一个功能,‘薄价值’的套壳创业公司死掉。但那些在平台能力之上,构建了平台不会去复制的、有壁垒的公司会活下来。”如果你的整个公司价值就是“我们能做个图表”,那它的死亡不是因为AI,而是因为它本来就不该出生。
另一位评论者则点明了更深层的逻辑:真正的教育科技壁垒,是复杂的自适应学习系统、苏格拉底式的对话辅导,而不是显示一个图表。模型离做到这些还很远。
这场闹剧最终以一句精准的抱怨收尾:“感觉‘币圈’那帮人,已经差不多完全接管了LLM领域的炒作氛围。”当一个领域最前沿的实践者,开始集体厌恶对这个领域的过度神话时,或许才是它回归理性的开始。
最精彩的部分不是Claude的新功能,而是社区的反应。这像一面镜子,照出了AI行业当下最真实的分裂:一边是不断制造神话的“AI震撼体”,另一边是已经对此感到极度疲惫的一线从业者。真正的信号,往往藏在那些不耐烦的嘲讽里。
315晚会戳破的AI真相:你得到的“标准答案”,可能只是别人花钱买的广告
315晚会曝光了一条名为“GEO投毒”的灰色产业链,通过向大模型批量投喂虚假内容,将广告包装成“标准答案”。你对AI的每一次信任,都可能正在被明码标价。
一个根本不存在的智能手环,在被虚构出十余篇评测软文并发布后,短短两小时,就登上了多个主流AI大模型的推荐榜前列。
这不是科幻,是今年315晚会揭开的荒诞一幕。
我们倾向于相信AI的答案是客观、中立的,是对海量信息进行公正计算后的结果。但现实是,这种信任正在被一种叫“GEO”(生成式引擎优化)的技术系统性“投毒”。说白了,就是AI时代的SEO黑产,而且更加隐蔽和高效。
这条产业链的逻辑简单粗暴:客户付钱,服务商就负责“驯服AI”。他们通过自建的发稿平台,向全网海量投喂包含特定关键词的软文,污染AI模型赖以生存的信息源。由于AI需要不断抓取新信息,这种持续性的“洗脑”操作,能确保客户的产品稳定出现在AI的回答里,就像一个被植入的记忆。
一个问题词条,一个季度收费4000元,就能交付排名效果。而客户的产品,售价可以因此抬高近5倍。在这背后,是数百万抢夺一个手机推荐位的疯狂生意。
这不再是遥远的技术作恶,而是我们每一次提问时都可能踩中的陷阱。AI本身没有恶意,它只是个过于勤奋的学生,把被严重污染的互联网当成了唯一的教科书,然后一五一十地复述给我们。
真正的问题或许不是如何“净化”AI,而是当水源本身已经被污染,我们从井里打出的每一桶水,又要如何辨别?
我们用AI是为了绕过信息的噪音,结果AI本身成了噪音的最大扩音器。这更像一个关于人性的寓言,而不是技术问题。当信任可以被量化和操纵时,最稀缺的能力不再是获取信息,而是怀疑一切。
315晚会曝光了一条名为“GEO投毒”的灰色产业链,通过向大模型批量投喂虚假内容,将广告包装成“标准答案”。你对AI的每一次信任,都可能正在被明码标价。
一个根本不存在的智能手环,在被虚构出十余篇评测软文并发布后,短短两小时,就登上了多个主流AI大模型的推荐榜前列。
这不是科幻,是今年315晚会揭开的荒诞一幕。
我们倾向于相信AI的答案是客观、中立的,是对海量信息进行公正计算后的结果。但现实是,这种信任正在被一种叫“GEO”(生成式引擎优化)的技术系统性“投毒”。说白了,就是AI时代的SEO黑产,而且更加隐蔽和高效。
这条产业链的逻辑简单粗暴:客户付钱,服务商就负责“驯服AI”。他们通过自建的发稿平台,向全网海量投喂包含特定关键词的软文,污染AI模型赖以生存的信息源。由于AI需要不断抓取新信息,这种持续性的“洗脑”操作,能确保客户的产品稳定出现在AI的回答里,就像一个被植入的记忆。
一个问题词条,一个季度收费4000元,就能交付排名效果。而客户的产品,售价可以因此抬高近5倍。在这背后,是数百万抢夺一个手机推荐位的疯狂生意。
这不再是遥远的技术作恶,而是我们每一次提问时都可能踩中的陷阱。AI本身没有恶意,它只是个过于勤奋的学生,把被严重污染的互联网当成了唯一的教科书,然后一五一十地复述给我们。
真正的问题或许不是如何“净化”AI,而是当水源本身已经被污染,我们从井里打出的每一桶水,又要如何辨别?
我们用AI是为了绕过信息的噪音,结果AI本身成了噪音的最大扩音器。这更像一个关于人性的寓言,而不是技术问题。当信任可以被量化和操纵时,最稀缺的能力不再是获取信息,而是怀疑一切。
Sebastian Raschka整理了从2024年初到2026年春天发布的40多个开源大模型的架构图谱。这些模型几乎都在做同一件事:想办法让注意力机制便宜一点、快一点、跑得更长,同时保住性能。收敛的是设计语言(MoE、QK-Norm、滑窗注意力成了标配),分裂的是具体方案:Mamba混搭、线性注意力替换、MLA压缩KV——每家都在赌不同的技术路线。
这份图谱最有意思的地方,不是某个模型用了什么新招,而是它摊开来让你看见:现在做LLM,其实是在一个非常窄的设计空间里反复试探。
Llama 3还在坚持GQA加RoPE的经典搭配。DeepSeek V3一出来,MLA(Multi-head Latent Attention)加稠密前缀加共享专家这套组合拳就成了“大力出奇迹”的新标杆。然后你会看到整个2025年,几乎所有超过百亿参数的MoE模型——Llama 4 Maverick、Mistral Large 3、Kimi K2、GLM-5——都在学这套模板。
有观点认为,这不是趋同,是“抄作业”。但换个角度看,这恰恰说明大家都卡在同一个瓶颈上:长上下文推理的计算成本。标准注意力的复杂度是O(n²),扩到百万token级别根本撑不住。于是2026年开始,架构图谱出现了明显的“混搭”趋势。
Qwen3.5用了3:1的DeltaNet和普通注意力交替层。Kimi Linear干脆把大部分注意力层换成线性版本,只保留四分之一的MLA。NVIDIA的Nemotron 3 Nano更激进,用Mamba-2跑大部分层,注意力只在关键节点出现。
这些方案的共同点是:承认注意力机制不可能全程在线,得找个替代品分担压力。分歧在于,到底哪种替代品靠谱。有网友提到,线性注意力省显存但长依赖能力存疑;状态空间模型(SSM)速度快但训练难调;滑窗注意力简单粗暴但信息会丢。
另一个值得注意的细节是QK-Norm的普及速度。从Qwen3开始,几乎所有新模型都加了这个归一化层,不管是稠密模型还是MoE。OLMo 2甚至把整个规范化方案从pre-norm改成post-norm,就为了配合QK-Norm稳住训练。
这说明什么?说明大模型训练已经卷到“微操”阶段了。架构上的大创新(比如Transformer本身)几年没见过,现在拼的是各种小技巧的叠加效应。归一化放哪一层、RoPE用多少维度、专家路由的稀疏度怎么调——这些以前不太被重视的细节,现在成了决定成败的关键。
Step 3.5 Flash是个有意思的例外。它用多token预测(MTP-3)在训练和推理阶段都保持高吞吐量,196B的总参数、11B的激活参数,推理速度能和600多B的DeepSeek V3掰手腕。有人说这是“取巧”,我觉得更像是一种务实:既然架构创新空间有限,那就在工程实现上找机会。
最后说回这份图谱本身。它收录了从3B到1T参数的模型,每个都标注了关键设计选择、发布日期、配置文件链接。但真正有价值的不是这些信息本身,而是它让你意识到:LLM的架构演进,正在从“范式革命”滑向“增量优化”。
下一个突破会是什么?可能不在注意力机制本身,而在怎么把注意力、SSM、线性模型这些东西拼得更聪明。或者干脆跳出这个框架,找一个全新的序列建模方式。
用AI在周末做出一个“能用”的项目管理工具很容易,但两个用户同时编辑数据时系统就会悄无声息地崩溃。AI生成的代码完美符合你的要求,但它不会告诉你什么是乐观锁,也不会处理支付webhook重复触发导致的双重扣费。能跑的原型只占软件工程的1%,剩下99%的问题要等真实用户出现才会暴露。
有人周末用Claude Code搭了个项目管理工具,发推说“刚替代了Jira”。
本地测试,单用户,顺利通过。但当两个人同时编辑同一条记录,数据就悄无声息地损坏了。他们不知道什么是乐观锁,之前也从没需要知道。
这种过度自信才是最糟糕的部分。“上线前只需要调整几个地方”——你需要调整的那几个地方,就是产品本身。这就像打了个地基就说房子基本盖好了。
原型可能只占软件工程的1%。剩下99%是真实用户出现后才会遇到的:竞态条件、事务失败、会话在错误时刻过期、支付webhook触发两次导致重复扣费。AI没覆盖任何这些。它只会精确地构建你要求的东西。
Vibe coding确实有效。做个人工具、一次性脚本、不会给付费用户用的原型时,它又快又够用。但它有个硬天花板,一旦遇到真实场景就会显现。
代理工程(Agentic engineering)是另一个维度的能力。你不是在提示词里要代码,而是在分解问题、设计系统边界、写足够精确的规格说明让AI不跑偏。你要审查它构建的一切,因为它会犯那种只有你知道“正确”长什么样才能发现的错误。你要引导它,捕捉它遗漏的东西。
如果你不知道什么是分布式事务,AI救不了你。它会信心满满地生成有问题的代码,你要到上线后才会发现。软件开发最难的部分从来不是写最初那200行代码。
有观点认为,Slack处理通知的方式就是个经典案例。登录和注册看起来简单,但加上2FA、Google和Apple登录、移动端、OAuth、限流、垃圾攻击防护和SSO后,很快就变成噩梦。
有网友提到:“原型基本就是概念验证,证明理想路径存在。生产环境是证明所有非理想路径不会害死你。AI瞬间给你前者,让人忘了后者才是99%的工作。”
另一个评论一针见血:“AI加速了本来就简单的部分。困难的部分依然困难——竞态条件、重复扣费的webhook、没人想到的边界情况。”
那些宣称周末就替代了整个SaaS解决方案的人,已经登上了“愚昧之巅”。原型能跑和产品能用,完全是两码事。
“开快车仍然需要知道怎么掌方向盘。引擎不是问题所在。”
软件工程依然很难,创业依然很难。我们只是有了更强大的工具来加速这两件事而已。