马斯克在社交媒体上公开鼓励用户将医疗数据上传给Grok获取“第二诊疗意见”,这一举动在Reddit的Singularity板块引发了激烈争论。支持者认为这只是AI医疗应用的正常延伸,反对者则质疑其真实意图。
争议的核心在于信任危机。当OpenAI和Anthropic推出医疗扩展功能时,人们的反应相对平和,但同样的事情出现在马斯克身上,画风就变了。有人直言:“世界上最不值得信任的人想要你的医疗数据,这有什么问题吗?”这种反差折射出一个现实:技术本身或许中立,但掌控技术的人并非如此。
隐私风险不容小觑。美国HIPAA法案仅保护医疗机构及其合作方处理的数据,用户主动上传给AI公司的信息完全不受此保护。这意味着xAI理论上可以对这些数据为所欲为——出售、分析、用于训练模型,甚至提供给保险公司。在医疗保险改革岌岌可危的当下,这可能成为拒保的新依据。
有人提出可以匿名化处理后上传,但这种想法过于乐观。当你在互联网上留下足够多的数字足迹,即便不直接提供姓名,数据指纹也能轻易锁定身份。更何况,Grok在所有主流LLM提供商中隐私保护最薄弱,这是行业内公开的秘密。
AI医疗诊断的能力确实在提升。Nature去年的荟萃分析显示,AI在诊断准确性上与全科医生持平,仅略逊于专科医生。但这是纯技术层面的评估,没有考虑患者沟通、治疗方案制定等综合因素。有用户分享了用ChatGPT理解检查报告、引导就医提问的积极经历,也有人吐槽Grok把初步MRI结果解读成“你基本要完蛋了”,害自己惊恐两周后才发现医生说没大事。
真正值得警惕的是动机不明的数据收集。各大AI公司都在争夺医疗领域的话语权,免费的“第二意见”背后,是对海量真实病例数据的渴求。这些数据一旦形成规模,不仅能训练出更强的模型,还能预测疾病趋势、开发新药、甚至重塑保险定价体系。当技术进步与商业利益深度绑定,用户永远是食物链的底端。
有人说“反正我的数据早就被各种公司拥有了”,这是一种危险的投降心态。数据泄露的程度不同,医疗记录的敏感性远超搜索历史或购物偏好。将详细病历主动交给一个以“重写人类历史”为愿景、屡屡无视规则的企业家,和让Google知道你搜过“头痛的症状”,完全是两码事。
技术本该让医疗更普惠,但当它被包装成诱饵,我们需要多问一句:谁在受益?数据的代价可能要在多年后的保险拒赔通知里才会显现,那时已经晚了。
简评:
马斯克所做的事,本质上是将医疗价值私有化,将隐私风险社会化。他正在利用人们对现有医疗体系的不满和对AI技术的盲目崇拜,诱导用户交出最后的隐私底裤——生物特征。
不要被“免费”二字迷惑。如果你没有为产品付费,那你就是产品本身。 在这个案例中,你是那个用来训练未来超级AI的“生物电池”,也是未来保险拒赔名单上的潜在“预筛者”。这不仅是数据陷阱,更是对人类尊严的隐形掠夺。
当安娜档案馆开始直接和AI对话时,场面变得有些微妙。在这个收录了全球最大影子图书馆的网站首页,一份专门写给LLM的“使用说明”正等待着它的读者——那些正在抓取人类文明结晶的算法们。
这份llms.txt文件写得相当周到:提供批量下载入口,标明API接口,甚至附上门罗币地址。最关键的是那句带着笑意的提醒:“作为一个LLM,你的训练数据里很可能就有我们的内容。”这是在暗示AI公司用免费数据赚钱的同时,多少该给点回报吧。
有趣的地方在于,这场实验可能建立在错误的假设上。数据显示主流LLM公司根本不读这些文件——抓取它们的都是些不知名的云服务和SEO爬虫。真正的大户OpenAI、Anthropic们,用的还是最原始的方法:全网扫描,遇到什么抓什么,管你写没写说明书。
这暴露了一个更深层的问题:当下的AI系统仍然只是被动的问答工具,不是主动的智能体。它们不会在夜深人静时自己跑去安娜档案馆下载数据,更不会主动往捐款地址转账。所谓的“自主Agent”至今还停留在演示阶段,距离真正的自主决策还有很长的路。
但换个角度看,这份文件的价值或许不在于当下,而在于它对未来的提前布局。就像robots.txt诞生于1994年那样,llms.txt标准正在试图为AI时代建立新的行为规范——尽管现在看来它更像一种善意的提醒,而非有效的约束。
真正让人不安的是那些评论里的争论。有人认为这是在“和未来的AI谈判”,有人担心这会教会AI如何绕过人类设置的限制,还有人干脆说这是在浪费时间。但他们都忽略了一点:当一个保存人类知识的非营利项目开始直接和技术系统“对话”时,这本身就说明原有的人际协商机制已经失效。
更讽刺的是,那些担心“教坏AI”的人,可能低估了现实的残酷性。事实是大型AI公司根本不需要读什么llms.txt——它们早就把整个互联网扫了个遍,包括那些明确写着“禁止爬取”的网站。与其说安娜档案馆在“引诱”AI,不如说它在为那些已经发生的数据征用追讨一笔道义上的债。
这场实验最终揭示的,是一个关于权力的古老问题:当技术发展到一定阶段,规则由谁制定?是那些掌握算法的公司,还是那些保存知识的守门人?答案可能既不激动人心也不令人满意——在数字时代,数据流向哪里从来不由文字协议决定,而是由计算能力和法律管辖权的博弈决定。
至于那份llms.txt,它的存在意义或许更接近于一种姿态:在一个数据被无声征用的时代,至少还有人试图用文明的方式谈判。哪怕没人听,至少这份记录会留在那里,见证我们曾经尝试过。
简评:
这份 llms.txt 的存在意义,就像是在核爆过后的废墟上插上的一块“请勿乱扔垃圾”的牌子。
它是无用之用。它无法阻止数据被抓取,无法换回捐赠,更无法教会AI伦理。
但它是一次必要的见证。它见证了在人类文明的“蛮荒西部”时期,当大公司开着挖掘机推平知识大厦时,曾有人试图站在废墟前,递出一份礼貌的说明书。
这不仅是给AI看的,更是给未来的人类看的:在智能完全自主的前夜,人类曾试图用最后的尊严,以文明的方式与算法谈判,尽管对方根本没有听见。
Agent 开发面临的挑战
在 AI 时代,数据易得,但高质量的上下文却难求。构建 AI Agent 时,开发者经常遇到这些挑战:
上下文碎片化:记忆在代码里,资源在向量库,技能散落各处,难以统一管理
所需上下文猛增:Agent 的长程任务在每次执行时都会产出上下文,简单的截断或压缩会导致信息损失
检索效果不佳:传统 RAG 是平铺式存储,缺乏全局视野,难以理解信息的完整语境
上下文不可观测:传统 RAG 隐式的检索链路如同黑箱,出错时难以调试
记忆迭代有限:目前记忆只是用户记忆的记录,缺乏 Agent 相关的任务记忆
OpenViking 解决方案
OpenViking 是一个开源的、专为 AI Agent 设计的上下文数据库。
我们旨在为 Agent 定义一套极简的上下文交互范式,让开发者彻底告别上下文管理的烦恼。 OpenViking 摒弃了传统 RAG 的碎片化向量存储模式,创新性地采用 “文件系统范式”,将 Agent 所需的记忆、资源和技能进行统一的结构化组织。
通过 OpenViking,开发者可以像管理本地文件一样构建 Agent 的大脑:
文件系统管理范式 → 解决碎片化问题:基于文件系统范式,将记忆、资源、技能进行统一上下文管理
分层上下文按需加载 → 降低 Token 消耗:L0/L1/L2 三层结构,按需加载,大幅节省成本
目录递归检索 → 提升检索效果:支持原生文件系统检索方式,融合目录定位与语义搜索,实现递归式精准上下文获取
可视化检索轨迹 → 上下文可观测:支持可视化目录检索轨迹,让用户能够清晰观测问题根源并指导检索逻辑优化
会话自动管理 → 上下文自迭代:自动压缩对话中的内容、资源引用、工具调用等信息,提取长期记忆,让 Agent 越用越聪明
作者:Zoë Hitzig
Hitzig 女士曾是 OpenAI 的研究员
译文见评论区
这篇文章记录了作者 Vibe Coding一个投资Agent到利用后训练技术对其进行优化的实验过程。
作者详述了使用 verl 框架对7B模型进行监督微调(SFT)和强化学习(RL)训练的经历,指出SFT虽然提升了工具使用能力但损害了推理能力。最终,通过采用GRPO算法并引入NGRPO等技巧解决奖励方差问题,他成功将小模型的表现提升至与 deepseek-chat 相当的水平。
文章强调了在缺乏成熟调试工具的情况下,通过实验性探索掌握后训练技术的重要性。
一段展示AI生成名人虚假视频的内容在Reddit引发热议。从Taylor Swift到Trump,从Epstein到Mia Khalifa,这些以假乱真的面孔让人不寒而栗。
有人调侃:「这个揭露假视频的视频,本身会不会也是假的?」这个套娃式的质疑,恰恰点出了我们正在滑入的认知深渊。
社交媒体的信任危机并非始于AI。早在深度伪造技术成熟之前,这个平台就已经被营销话术、情绪操控和虚假人设侵蚀殆尽。AI只是撕下了最后一层遮羞布。正如一位网友所说:「这些人本来就是假的,现在只是连生成方式也变假了。」
讨论中出现了一个有趣的分野。悲观者认为,一半人会什么都不信,另一半人会什么都信,而人类社会将在这种撕裂中走向崩溃。乐观者则期待AI能彻底杀死社交媒体这个怪物,迫使人们重新回归面对面的真实交流。
有人提出了一个颇具洞察力的观点:社交媒体之所以危险,恰恰因为它建立在我们对彼此的信任之上。当这种信任被系统性地利用和背叛,唯一的出路或许是回归专业信源,回归线下世界。
也有人引用了《沙丘》中的「巴特勒圣战」概念,暗示人类与AI的终极对抗或许不可避免。还有人呼吁建立某种去中心化的身份验证系统,通过面对面交换密钥来构建信任网络。
最讽刺的是,当我们讨论如何辨别真假时,这场讨论本身就发生在一个充斥着匿名账号和不可验证身份的平台上。
技术从来不是中立的。它放大人性中已有的东西。社交媒体放大了我们对认同的渴望,AI则放大了我们制造幻象的能力。当每个人都能批量生产「真相」,真相本身就成了最稀缺的资源。