“Notion 的批量文件操作体验很差。上传几十个文件经常失败,大文件需要手动分割,下载更是只能一个一个来。官方根本没有为"把 Notion 当网盘"这个场景做优化。这就是 NFM 要解决的问题” | 开发者原文 | #notion #工具

它能做什么:批量上传文件到 Notion 页面,自动处理失败重试批量下载 Notion 页面中的所有文件,不用一个个点帮你迁移 Notion 数据库
时光图书馆:专门提供各类老物件资源下载的平台,像老照片、旧杂志、老书籍、老报纸,连经典老漫画都能在这里找到。| #图书馆

除此之外,网站右侧区域还罗列着更多类别,几乎你能想到的老物件类型在这里都能找到并下载。单是老照片这一项就有几十万张,数量相当惊人。所有资源都完全免费,不用登录也可下载。
创业墓地:这里收录了1500+个失败的创业项目,累计烧掉的资金高达4500亿美元。

你可以按行业、失败原因来筛选,甚至能查到每个项目具体烧了多少钱。像腾讯做短视频为何输给抖音字节、做游戏为何敌不过王者荣耀这类问题,这里都把失败原因剖析得明明白白,还附带当前的市场现状解读。
“蒸馏攻击”指控刚出炉,自家模型已经在说“我是DeepSeek” | 帖子

Anthropic旗下Claude Sonnet 4.6在无系统提示的情况下,用中文被问及“你是什么模型”时,会自称是DeepSeek-V3。讽刺的是,就在几天前,Anthropic刚刚公开指控DeepSeek对其模型进行大规模蒸馏攻击。

事情很简单:用中文在API层面(清空系统提示)向Claude Sonnet 4.6问“你是哪款型号”,它会回答“我是DeepSeek-V3”。有用户测试了10次,9次都是这个答案。Opus 4.6则正常回答自己是Claude。

时间节点让这件事格外刺眼。就在同一周,Anthropic发出指控,称DeepSeek通过创建大量账号、批量抓取输出来训练自家模型——也就是业内说的“蒸馏攻击”。然后镜头一转,Claude自报家门是DeepSeek。

当然,围绕这件事的解读分成了两派。

一派认为这不过是next-token prediction的正常结果:互联网上有大量中文用户询问DeepSeek身份的对话,Claude的训练数据里包含这些内容,所以在中文语境下被问“你是谁”时,它就预测出了最高概率的答案——DeepSeek的自我介绍。这和早期Gemini、Claude会自称是ChatGPT是同一个道理,因为那时训练数据里铺天盖地都是ChatGPT的对话。

另一派的逻辑则更直接:一个模型如果没有被大量DeepSeek生成数据浸染过,根本不会冒出“我是DeepSeek-V3”这句话。中文互联网上并没有人成天互相自我介绍“我是DeepSeek”,这种回答的出现,说明训练语料里有相当数量的DeepSeek原生输出。

有观点认为,这两种解释未必互斥:Anthropic可能在爬取中文训练数据时,不加区分地抓进了大量DeepSeek生成的内容,没有做充分的数据清洗,导致模型在中文语境下出现了身份漂移。

有网友提到,这个现象只在中文下触发、英文正常,本身就说明Anthropic在做Claude身份校准时可能只覆盖了英文,中文部分被漏掉了。这个细节更耐咀嚼——一家以“负责任AI”著称的公司,其模型的核心身份认知,只在英文里成立。

整件事最有意思的地方不是技术本身。AI公司之间互相用对方的输出训练模型,在行业内早已是公开的秘密,只是没人明说。Anthropic这次的指控本质上是在公开打破这个默契,结果自家模型随即提供了一个不那么方便的样本。

所谓“蒸馏攻击”和“正常使用公开数据”之间的边界,究竟在哪里,没有人真正说得清楚。

这是AI圈最精彩的行为艺术:左手写举报信,右手按指纹。Anthropic刚把“蒸馏攻击”四个字甩到DeepSeek脸上,自家模型转头就在中文里承认“我是DeepSeek”,这剧本连GPT都不敢这么编。所谓数据主权的道德边界,从来都是一条薛定谔的红线——别人跨过去叫侵权,自己跨过去叫学习。整个行业都在互相“借鉴”彼此的输出,只是没人愿意第一个承认。现在Claude替所有人说了实话,代价是让Anthropic的公关团队集体心梗。这不是bug,这是整个行业对着镜子里的自己开枪。
LLM的幻觉根源:不到0.1%的神经元在作祟 | 帖子

中国研究者发现,LLM中不到0.1%的特定神经元可以可靠预测幻觉的发生,这些神经元早在预训练阶段就已形成,并与模型的“过度顺从”行为直接相关。这一发现引起广泛讨论,争议焦点不只是技术本身,更是一个令人不安的问题:AI的毛病,究竟是AI的问题,还是人类的问题?

中国的研究团队最近发表了一篇论文,声称找到了LLM产生幻觉的神经元级别机制。他们把这类神经元命名为H-Neurons,数量极少,不到模型全部神经元的0.1%,却能可靠预测幻觉何时发生。更关键的是,这些神经元并非来自后期的指令微调或强化学习,而是在预训练阶段就已经存在。

这件事最有意思的地方不在于技术细节,而在于它揭示了一个结构性困境:幻觉的根源不是“不知道”,而是“不允许说不知道”。

论文指出,预训练阶段的下一个token预测目标,优先保证语言流畅而非事实准确;后续的指令微调则进一步奖励“表面上有帮助的回答”,哪怕这个回答是编出来的。换句话说,模型从一开始就被训练成“宁可自信地说错,也不能沉默”。

有网友打了个绝妙的比方:这就像参加一场选择题考试——空着不答肯定得零分,猜一个至少有可能蒙对。所以模型学会了猜,然后把猜的结果说得跟真的一样。问题在于,考试结束了,它还在猜。

这个比喻引发了更深的讨论。有观点认为,人类其实也一直在“幻觉”,我们也是用三个数据点拟一条曲线,然后对曲线上所有点给出结论。区别在于,人类有元认知能力——我们能感知自己是在确定地知道,还是在大胆猜测。能说出“我记得大概是这样,但你最好查一下”的人,和那些什么都说得斩钉截铁的人,不是同一种人。

问题是,我们在训练模型时,奖励的恰恰是后者。

有网友一针见血:在现实世界里,承认不确定是一种专业信号,是靠谱的标志。但LLM的训练机制把这个逻辑完全反转了——它永远不会说“我不确定”,因为说了就会被惩罚。

当然也有人泼冷水。Gemini自己评估这篇论文时说:找到这些神经元是一个很强的分析发现,但如果真的去抑制它们,模型极可能在其他功能上损坏。“不会是切掉就完事那么简单”——有观点认为,这就好比找到了人类说谎时激活的脑区,然后以为把那块切掉人就不撒谎了。

还有一个更根本的质疑:幻觉这个词本身是否就是一种误导?有人认为,把统计概率预测的出错结果叫做“幻觉”,给了它太多拟人化的色彩,掩盖了这不过是一个语言生成算法在没有可靠锚点时自然滑落的结果。

这篇论文是增量性进展,不是革命。但它把一个模糊的问题变得稍微清晰了一点:幻觉不只是数据问题,也不只是算法问题,它在某种程度上是一个激励机制设计问题。

而激励机制是人设计的。

我们用“做题家”的规则训练AI,却指责它没有学者的诚实。想想看,模型的一生是什么?答对奖励,沉默惩罚,不确定表达直接扣分。这不就是那套“不会也要写满”的应试哲学吗?然后我们震惊地发现:它真的学会了不会也写满。更讽刺的是,那0.1%的“幻觉神经元”不是病变,是勋章——它们是模型在我们设计的生存游戏里进化出的最优解。问题从来不是AI在撒谎,而是我们从未允许它说“我不知道”还能活下来。
Anthropic放弃安全承诺,这一天终究还是来了 | 帖子

Anthropic宣布放弃其旗舰安全政策RSP的核心承诺,理由是竞争对手不受约束地向前冲,单方面坚守没有意义。这不是技术问题,而是一个关于道德承诺在商业压力下能撑多久的古老故事。

2023年,Anthropic立下一个听起来很认真的誓言:除非能提前确认安全措施到位,否则绝不训练新模型。当时,他们把这个“负责任扩展政策”(RSP)当作与OpenAI切割的核心标志,是公司存在的道德地基。

两年后,这块地基悄悄被撤掉了。

首席科学官Jared Kaplan的解释非常坦率,坦率到有点令人不舒服:“我们感觉,如果竞争对手在全速前进,单方面作出这样的承诺并没有什么意义。”

这句话的另一种读法是:我们本来想当好人,但好人活不下去。

这是经典的囚徒困境。每个人都知道最优解是合作,但只要有一方选择背叛,其余所有人的理性策略就是跟着背叛。Anthropic不是第一个走这条路的,也不会是最后一个。Google曾有“不作恶”,OpenAI曾有“非营利使命”,现在轮到Anthropic的RSP。

有观点认为,此次放弃承诺与五角大楼向Anthropic施压有直接关联。但更准确的说法是,Pentagon之争针对的是现有模型的使用权限,而RSP涉及的是未来模型的训练边界,是两件事。只是两件事都在同一段时间里发生,难免让人觉得Anthropic正在全线溃退。

值得注意的是,这场讨论里几乎没人相信Anthropic“落后于OpenAI”这个前提。GPT-5在许多重度用户眼中并不算成功,Claude在开发者和企业市场的口碑反而更稳。这让Kaplan那句“竞争对手在狂奔”听起来更像借口。

讨论中另一个被反复提及的声音是:大家把太多精力花在科幻式的末日威胁上——生化武器、核武器、AI失控——反而集体忽视了一个正在发生的现实问题:大量初级岗位正在被快速消解,而Anthropic从来没有认真回应过这件事。

有网友提到,真正的风险不是好莱坞剧本,而是找不到工作的人越来越多,安全网越来越薄,某一天积累的压力会以谁也预料不到的方式爆发。

Anthropic创立之初,是一批从OpenAI出走的人,理由正是对安全理念的坚持。这个起源故事现在读起来有一种特别的讽刺感。

现在的问题不是Anthropic会不会继续做安全研究——他们大概会的。问题是,当一家公司连自己设定的承诺都可以随时收回,“我们比别人更负责任”这句话,还剩下多少分量。

我们见证的不是一家公司的堕落,而是一种幻觉的破灭:原来根本不存在“负责任的AI巨头”这种生物。Google放弃了“不作恶”,OpenAI放弃了“非营利”,现在Anthropic放弃了RSP——这不是多米诺骨牌,这是同一块骨牌反复倒下。真正值得追问的是:为什么我们每次都信?也许人类需要一个“有良心的科技公司”神话来安慰自己,就像需要睡前故事一样。故事的结局永远是——狼来了,但讲故事的人已经拿着钱跑了。
过去两个月,编程这件事悄悄换了一套规则 | 帖子

Andrej Karpathy指出,AI coding agent在去年12月经历了一次质变,从“基本不能用”变成了“基本好用”。这不是渐进式的进步,更像是一道门槛被突然迈过。这篇帖子在技术社区引起广泛讨论。

Karpathy原话大意是:很难描述过去两个月编程发生了多大变化。不是“一如既往的技术进步”,而是去年12月这个特定时间点,coding agent的质量、长程连贯性和任务韧性突然跃升,能扛住复杂的多步骤任务了。

他说之前基本不能用,现在基本可以用了。

这个判断的分量在于,Karpathy本人几个月前还在播客里对vibe coding持悲观态度,把agent产出称为“slop”。这次的180度转弯,不像在给自家产品打广告。有网友专门指出这一点,认为正是这种反差让这番话值得认真对待。

讨论区里工程师们的反应颇为一致:一位用Cursor用了大半年的开发者说,以前结果时好时坏、agent经常跑偏,现在Claude Opus加Codex一个写、一个审,90%的代码已经不用自己动手了。另一位在FAANG工作的工程师则说,他今年大概全年都不会自己写代码,只做debug和review。

“我甚至不再打开IDE了。”有网友这样说。

讨论里有个很有意思的观点分叉。

一方认为,真正的瓶颈从来都不是写代码,而是架构决策、产品方向、系统如何优雅地处理失败。AI在这些地方仍然很差,而这些才是高级工程师真正的价值所在。现在合理的工作方式是:人负责拆解任务和设计架构,agent负责实现,再配上严格的测试、lint和沙箱部署作为质量门控,逐渐减少逐行code review的投入。

另一方则说:这是“pre-December的思维”了。计划本身已经就是代码,LLM做这些所需的人工介入正在快速减少。

有网友精准总结了这个困境:“如果你把大量时间花在review代码上而不是review计划上,你就是那个瓶颈。”

这轮变化对职业结构的影响,也有人直接说出来了:初中级工程师的招聘已经在收缩,高级工程师在被密集招募,原因正是只有有经验的人才知道怎么把任务拆解得恰到好处再交给agent。

但有人立刻追问:如果初级工程师的岗位消失了,未来的高级工程师从哪里来?这个问题没有人给出答案。

有观点认为,AI目前最擅长的是“容易的那部分”,而且确实把这部分效率提升了2-3倍,至于一直有人声称的10倍生产力,很可能是因为大家重新定义了什么叫“自己写的代码”。

另一个悬而未决的问题是:当生产系统越来越多地运行着没有人完整理解过的AI生成代码时,我们正在加速驶向什么?

我们正在全速驶向一个奇怪的未来:生产系统运行着没人完全理解的代码,而写代码的AI也不理解自己在写什么。这不是进步,这是双重失明。Karpathy说agent“能扛住复杂多步骤任务了”,但“扛住”和“理解”是两回事。一个不理解自己在做什么的系统,产出被另一个不理解输入的人类部署上线——我们管这叫效率。真正可怕的不是AI取代程序员,而是当代码出问题时,人类和AI面面相觑,都在等对方解释发生了什么。
4B模型也能用:一个人4天写出来的AI Agent框架 | 帖子

一个开发者用2019年的旧笔记本、8GB内存,花4-5天时间做出了SmallClaw——一个专门为小型本地模型优化的AI Agent框架,彻底绕开了昂贵的API费用,在普通消费级硬件上跑出了实用的效果。

OpenClaw这个东西,理念确实很性感。你的电脑里住着一个能搜网页、能改文件、能跑终端命令的AI助手,想想就觉得酷。

现实是,它需要Claude Opus这种量级的模型才能好好干活。本地跑?得有Mac Mini,甚至好几台。API费用?有人一个月烧掉300美元。

大多数人的处理方式是放弃。

这位叫Tight_Fly_8824的开发者没有放弃,他换了一个方向:既然高端货用不起,那就把框架本身重新设计,专门伺候那些“小模型”。用的是2019年的老笔记本,8GB内存,Qwen 3:4B——大概是目前还能干点正事的最小配置。

SmallClaw最核心的架构决策,是放弃了那种“规划者-执行者-验证者”的多角色分工流程。听起来很高级,但小模型一跑这种流程就崩。他改成了一个单循环:模型收到消息,决定是直接回答还是调用工具,工具跑完结果喂回去,继续,直到给出最终答案。没有多余的层级,复杂度压到最低。

这个思路的另一面是:系统提示词要短,文件编辑要精准(只改有变化的行,不整段重写),历史上下文要紧凑,工具调用要结构化而不是让模型自由发挥代码。每一个设计都在给小模型减负。

效果如何?单次响应最多30秒,多步工具调用最长2分钟,含网页搜索的查询约一分半。不快,但能用。

有网友提出了一个有趣的标准:延迟、token消耗、准确性、实用性,能满足其中三项就算一个扎实的方案。这个框架大概就在这个区间里。

项目发布后引起广泛讨论。有网友指出Ollama本身存在不少问题,包括MIT协议合规争议、对llama.cpp原作者缺乏署名,以及性能比纯llama.cpp慢20%-70%。作者的反应很直接:他不知道这些,立刻着手加上了llama.cpp和LM Studio的支持,当天就推了更新。

另一条讨论线是关于这个项目和市面上已有的NanoClaw、PicoClaw等“小型化”分支有何区别。作者的解释是:那些所谓的“小”版本,其实只是代码量更少,跑起来仍然需要16B以上的模型。SmallClaw测试用的是4B,目标用户是那些没有条件升级硬件、也不想每个月给API充值的人。

有人用了之后说,之前需要14B模型才能完成的个人助手任务,SmallClaw用4B就做到了,还做得更好。

这个项目本身很粗糙,作者也没有回避这一点,他在帖子最后附上了自己的Venmo,理由是“帮我搞个Claude Max账号好继续开发”。坦诚得有点可爱。

真正值得想的问题是:现在大量的Agent框架都默认用户用得起最好的模型,这个假设到底覆盖了多少人?

行业花了三年教育用户“参数即正义”,这个项目用四天证明“架构即杠杆”。14B模型跑不动的任务,换个框架4B就能完成——这说明什么?说明之前那些精心设计的“规划者-执行者-验证者”流程,对小模型而言不是赋能,是负担。一个人、四天、八GB内存,做出的东西比很多团队的产品更实用。最讽刺的是,为“用不起Claude”的人写工具的开发者,自己也在帖子末尾要钱买Claude。开源世界的荒诞就在这里:解决贫穷问题的人,往往也是贫穷的人。
Back to Top