最近,一种名为“Attentive Reasoning Queries(ARQ)”的新推理方法被开源,显著减少了大型语言模型(LLM)中的幻觉问题,成功率高达90.2%,超过了广泛使用的Chain-of-Thought(CoT)等技术。

核心痛点在于:当前LLM在处理长对话时,难以持续关注关键规则和上下文,常出现“前面说的忘了”“规则被忽略”的情况。比如,当系统提示含2000字政策和行为规范时,模型最初能遵守,但很快就会偏离,甚至给出违背规则的答复。

传统推理方法如CoT允许模型“自由思考”,缺乏针对特定领域的严格控制,导致效果有限。

ARQ通过将推理步骤结构化为明确且具领域针对性的JSON格式问题,强制模型逐步检查和确认关键信息。这样不仅帮助模型在多轮对话中保持规则一致,也使推理过程更易审计和验证。

示例JSON包括当前上下文、激活的指导原则、是否采取过某行动、是否需要调用工具及下一步操作等字段,确保每一步推理都有据可依。

测试显示,ARQ在87个场景中的成功率为90.2%,显著优于CoT的86.1%和直接生成的81.5%。该方法已集成于开源框架Parlant(14k星),覆盖指导规则选择、工具调用和最终回复生成等关键模块。

这一研究提醒我们:在复杂多轮或高风险任务中,明确、结构化且领域感知的推理方法远比自由发挥更可靠。尽管自由形式思考适合创造性工作,严谨的框架才是保证模型行为符合预期的关键。

推文 | Github
Vector RAG系统构建流程

1. 数据采集与预处理
用爬虫(如Firecrawl)、数据连接器(数据库、API)或专门的平台(如Unstructured.io)收集并清洗数据,确保后续切片和向量化质量。

2. 切分成块
利用LangChain、LlamaIndex等工具,将文档分成有意义的小块,保持上下文连贯,方便精准检索。切分方式可多样:固定长度、语义切分、递归等。

3. 生成向量嵌入
用先进模型(text-embedding-ada-002、Cohere Embed v3、BGE-M3、llama-text-embed-v2)将文本块转成高维向量,便于相似度计算。

4. 存储与索引
向量存入专用数据库(Pinecone、Weaviate、Qdrant、Milvus、pgvector),也可用Elastic或MongoDB等支持向量搜索的传统库。

5. 信息检索
结合密集向量搜索、稀疏检索(BM25、SPLADE)或混合检索(RRF等),用LangChain、Haystack等框架实现相关内容召回,并通过重排序(bge-reranker、Cohere Rerank)提升准确度。

6. 流程编排
用LangChain、LlamaIndex,或n8n、Google Cloud Vertex AI Pipelines等工具,协调各环节数据流和调用顺序,保证系统稳定高效。

7. 选择大模型生成
接入Claude、GPT-4o、Gemini、Llama 3、DeepSeek、Mistral等LLM,通过API或AI网关(Portkey、Eden、OpenRouter)调用,实现文本生成。

8. 监控与可观测性
利用Langfuse、PromptLayer、Helicone、Arize AI等平台,跟踪提示词表现、延迟、资源消耗及模型输出,及时发现并解决问题。

9. 持续评估优化
借助自动评测指标(准确性、一致性、召回率)、A/B测试和人工反馈,反复调优检索和生成效果,必要时进行模型微调。

这套流程涵盖了Vector RAG系统从数据采集到生成优化的每一步,是构建高质量智能问答和知识检索系统的实用指南。建议收藏并实践。

这份方案不仅系统全面,还结合了当前主流开源工具和商业产品,适合技术爱好者、开发者及企业研发团队参考。
系统设计面试中的15条实用启发法

1. 低延迟+全球分布 → CDN:利用边缘服务器加速数据传输,减少延迟。
2. 高读取+瓶颈 → 缓存:热点数据缓存,减轻数据库压力。
3. 高写入+流量峰值 → 队列:写操作异步排队,平滑高峰流量。
4. 分布式+事务 → Saga模式:多服务事务用补偿动作保证一致性。
5. 强一致性+关系型 → SQL数据库:保证事务完整性和ACID特性。
6. 灵活性+扩展 → NoSQL:支持灵活数据模型和横向扩展。
7. SQL+规模扩展 → 数据库分片:数据分区分库提升扩展性。
8. 负载+增长 → 横向扩容:增加服务器应对增长流量。
9. 流量+可靠性 → 负载均衡:均匀分配请求,提升性能和稳定性。
10. 核心组件+故障 → 冗余设计:关键服务多副本避免单点故障。
11. 持久性+容错 → 数据复制:确保数据可用性与灾难恢复。
12. 请求+突发 → 限流:防止服务器过载,保障系统稳定。
13. 负载+波动 → 自动扩缩容:根据流量自动调整资源。
14. 实时+更新 → WebSocket:实现实时双向通信。
15. 重试+安全 → 幂等设计:操作可安全重试,无副作用。

这些启发法是快速判断和面试参考的利器,具体方案仍需结合实际需求权衡取舍。理解每种模式背后的权衡,远比死记硬背更重要。
如何用AI一天读完一本书,并真正学会作者的思维框架和系统,而非简单速读?| 推文

1. 获取书籍,PDF格式最佳,epub等也可。关键不是格式,而是后续处理方式。

2. 大部分人犯的错误:把整本400页以上的书一次性上传给AI,期待完美总结,结果往往泛泛而谈,遗漏关键细节。

3. 原因在于:大型语言模型(LLM)处理超大文本时注意力会分散,无法连贯理解长篇内容。解决方案是分段读取,建议每2-3章分一次,极致做法是逐章拆分,确保AI深入抓取每部分细节。

4. 短书(200页以下)可直接整体上传,避免复杂拆分。

5. 成败关键在于「提问方式」:不是让AI简单总结,而是系统提取知识。你要的是深度理解和可操作的框架,而非表面印象。

6. 学习重点包括:
- 作者的视角和教学风格,理解其独特的表达和例证。
- 具体的框架和步骤,可直接应用于实际工作。
- 细节故事和关键“顿悟”,防止误用框架,深化理解。

7. 构建提问流程:
- 先让AI确认书名和作者,方便调用相关知识。
- 选择两种路径:
a) 个性化学习:AI基于你的背景和需求互动提问,帮助你将知识应用于自身情境。
b) 原汁原味传递:AI严格按照作者意图讲解,保持内容纯粹无偏。这是作者推荐的首选路径。

8. 理想顺序:先纯粹学习作者原版内容,再用个性化路径将其应用于自身业务。避免一开始就过滤视角,错过潜在突破。

9. 实操技巧:用拆分章节做Claude项目里的系统提示,每章单独上传对话,方便管理和深度挖掘。

10. 读完后别停:
- 让AI生成一页总结便于回顾。
- 制作互动练习和测验,检验记忆和理解。
- 提取精彩语录,形成细致执行清单,设计案例研究,把被动阅读转化为主动掌握。

11. 真实案例:作者用90分钟分6次读完350页商业书,获得深刻理解、个性化计划和90%知识保留率。传统阅读需要10小时且效果远不及此。

12. 关键不是速度,而是深度结合即时应用。你不是为了读完而读,而是为了提取可用框架并立刻落地。

13. 传统阅读最大陷阱:读完一周后几乎忘光,无法实际运用。AI辅助阅读则逼你主动参与,边学边测,边建方案,真正实现知识工程。

14. 思维转变:别以读了多少书为成功标准,而看你实际用多少框架解决了问题。唯有实战才有价值。
Anthropic 推出 Claude Code 网页版,开发者无需打开终端即可委托 AI 处理编程任务。支持多任务并行执行,方便管理 Bug 积压、日常修复和并行开发,极大提升工作效率。

目前处于 Pro 和 Max 用户的测试预览阶段,期待更多反馈和优化。此举标志着 AI 工具从辅助走向“共同开发者”,让开发者专注于产品愿景而非繁琐语法。

用户建议加入目录选择、上传附件、GitLab 集成等功能,期待更灵活且贴合实际开发场景的支持。业内也指出,AI 不是取代工程师,而是加速从想法到产出的路径。

这种“零门槛”在线编程体验,有望彻底改变软件开发的工作方式,未来开发环境或将变得更加轻量和无缝。
Claude生态三大核心:Skills、Subagents和Projects区别 | 推文

- Skills是Claude的基础技能模块,类似工具包,专注单一功能。
- Subagents则是具备独立任务能力的小代理,可以调用多个Skills协同工作,完成更复杂任务。
- Projects是将多个Subagents组合成完整解决方案,支持多步骤、多角色协作,应用场景更丰富。

理解这三者关系,有助于高效设计和部署Claude驱动的AI系统,避免混淆和重复工作。
What makes documentation good

一篇好的文档,核心在于将有用信息准确传递给读者。优秀文档的关键在于易读、简明且具条理,能有效减少读者的搜索时间,提升解决问题的效率。

首先,文档要便于快速浏览。通过清晰的章节标题指引读者,优先使用带信息量的标题而非抽象名词,比如“Streaming减少首个token时间50%”比单纯写“结果”更直观。目录的设置能快速定位信息,也帮助读者判断文档是否值得深入阅读。段落保持简短,关键观点单独成段,避免信息埋没。段落开头用独立且主题明确的句子,方便读者快速捕捉内容。主题词尽量放在句首,提升扫描效率。重要结论应放在前面,避免冗长铺垫。使用项目符号和表格辅助梳理内容,重点文字可适当加粗,帮助突出关键点。

其次,写作风格要力求清晰简洁。避免复杂长句和多余修饰,倾向用简明句式表达,确保句子结构易于理解。避免左侧分支长句和指示代词“这”“那个”等跨句引用,减少读者记忆负担。保持一致性,无论是大小写、标点还是命名风格,都应统一,避免干扰阅读体验。避免揣测读者状态,使用客观陈述更专业。

此外,文档应对不同层次读者友好。语言简单明了,避免缩写,尽量写全称,方便非母语及初学者理解。主动提供潜在问题的解决方案,兼顾初学者和专家的需求。用准确且具体的术语替代行话,比如用“输入”替代“prompt”,“最大token限制”代替“上下文限制”。代码示例应尽量通用且独立,减少依赖,方便复制运行。优先覆盖常见问题,避免稀有细节占用过多篇幅。绝不示范坏习惯,比如代码中暴露API密钥。介绍新主题时,先用广泛背景铺垫,使读者更易接受和理解。

最后,文档写作是对读者的同理心体现,应灵活应用规则,针对读者需求做出最佳选择。
腾讯混元团队开源了Hunyuan World 1.1(WorldMirror),一款通用的前馈式3D重建模型。相比之前的1.0版本(支持文本或单视角图像生成3D世界,轻量级可部署于消费级GPU),1.1版本大幅拓展了输入范围,支持视频到3D、多视角到3D的世界构建。

核心亮点:
- 支持多种几何先验(相机位姿、内参、深度图等),有效解决结构歧义,保证3D结果的几何一致性;
- 同时输出多种3D表现形式:密集点云、多视角深度图、相机参数、表面法线及3D高斯散射,实现多维度高质量重建;
- 单GPU快速推理,所有3D属性一次前向即可生成,秒级响应,极大提升效率和实用性。

🌐 项目页面 | 🔗 Github | 🤗 huggingface.co | Demo | 📄 技术报告
Media is too big
VIEW IN TELEGRAM
Chandra OCR开源发布,具备强大功能和广泛应用潜力:

- 支持完整版面信息解析,能识别并标注图片、图表
- 优秀的手写体、表格和表单识别能力
- 兼容transformers和vLLM架构,易于集成和扩展

获取方式:
Huggingface仓库 | Github代码库 | 在线演示体验(推荐平衡模式)
通过Datalab API调用,支持balanced和accurate两种模式

快速上手:
pip install chandra-ocr chandra_vllm
chandra input.pdf ./output

性能与对比:
- 在olmocr基准测试中优于Deepseek OCR,展现出更高准确率
- 相较Marker OCR,Chandra更擅长复杂格式和整体排版,但速度稍慢
- 支持多语言(基于Surya语言支持),但对部分低资源语言仍有提升空间

已知限制:
- 纯数学公式识别尚不及Marker
- 旋转页面识别准确度下降
- 部分低资源语言效果欠佳

未来计划:
- 持续优化模型精度和性能
- 量化与加速支持,提升推理速度
- 扩展语言和用例覆盖
开源OCR模型运行成本低且注重隐私保护,但市面上新模型层出不穷,如DeepSeek-OCR、Nanonets、PaddleOCR,选哪个成了难题。

Hugging Face最新博客详细讲解了如何挑选模型、对比最前沿技术、部署方案(本地或云端),甚至教你如何突破OCR的传统边界,实现更多可能。这样一来,选择合适的OCR模型既省钱又安全,极大降低了使用门槛。
关于通往AGI之路,三位AI巨擘提出了截然不同的核心理念,引发了一场深刻的思考:| 原文

🤖 三巨头的路线之争:

1、 Yann LeCun (CNN之父):世界模型 + 感知。
他认为AGI需要强大的视觉等感知能力来构建世界模型,其代表作JEPA架构,核心是通过预测世界状态的内在表征来学习,强调理解世界是智能的基础。

2、 Richard Sutton (强化学习之父):行动 + 奖励。
他坚信智能诞生于与环境的持续互动中,一个实时的“行动-反馈-奖励”循环是关键。其OaK框架旨在构建一个持续学习、终身学习的智能体。

3、 Ilya Sutskever (GPT核心人物):压缩即智能。
他提出了一个更为本质和优雅的观点:智能,其核心是一种在特定上下文中进行的高效、有条件的压缩算法。你预测下一个词/token的能力,本质上就是对世界信息进行极致压缩的表现。

深度解析与思考:

1、 Ilya为何可能是对的?
原推主力挺Ilya。他认为,Transformer架构本身就是通往AGI的康庄大道。当下模型在上下文窗口(Context Window)中进行的“上下文学习”(In-context learning),可以看作是一种“浅层的反向传播”或“电路搜索”,这正是对信息进行条件压缩的体现。这个过程模拟了推理和学习,而无需像RL那样进行完整的、实时的反向传播。或许,更深度的学习(完整的反向传播)发生在类似生物“睡眠”的过程中。

2、 三者是互斥还是统一?
许多评论者指出,这三条路并非完全对立,更像是从不同层面解读智能:
- 统一视角:LeCun的感知和Sutton的互动,都可以被视为为Ilya的“压缩”提供数据和上下文(context)。智能体通过感知世界(JEPA),在互动中获得反馈(OaK),最终目标都是为了更精准地预测和建模世界,也就是进行更高效的“压缩”。
- 神经科学视角:人脑中既有类似CNN的视觉皮层,也有类似RL的多巴胺奖励通路。而“压缩”(如自由能原理)被认为是贯穿整个大脑的根本组织原则。它们是智能的不同侧面,而非相互排斥的路径。

3、 存在的问题与争议:
-“压缩”的局限性:当前模型虽然在压缩信息,但学习到的“电路”和压缩效率仍有待提高。JEPA和OaK的思路正是为了解决这些问题。
- 概念的模糊性:也有反对者(如Pedro Domingos)认为“智能即压缩”是早已被证伪的朴素观念。争论的背后,或许是对“压缩”一词定义和深度的理解不同。

这场辩论并非简单的三选一。Ilya的“压缩论”提供了一个极其深刻和统一的顶层抽象视角,解释了为何无监督学习和Transformer如此强大。而LeCun和Sutton则更关注实现这种高效压缩所必需的具体机制和通路——如何感知世界、如何与之互动。

真正的AGI,或许正是这三条路径的最终融合:一个以压缩为核心原则,通过丰富的感知和持续的互动反馈,不断优化其世界模型的智能体。
最近关于DeepSeek-OCR的讨论非常热烈,但许多解读可能误判了其成功的核心原因。| 原文

将文本渲染成图像以压缩Token,并非全新或唯一的思路。DeepSeek-OCR的成功不应简单归功于图像表示法的魔力。实际上,问题的关键不在于表示形式是文本还是图像。

Token压缩并非新大陆:剑桥大学的研究者早已证明,通过对语言模型进行微调,使其适应“被压缩”的文本Token,可以实现高达500倍的提示词压缩。这一成果未使用任何图像转换技术,表明优化文本自身表示同样潜力巨大。

表示形式并非关键:我们可以反向操作,将图像表示为一系列文本Token(例如,代表RGB值的序列),模型依然可以正常工作,LIFT论文就证明了这一点。这说明,无论是文本还是图像,都只是一种编码信息的载体,没有哪一种具有根本性的优越性。

真正的启示:DeepSeek-OCR等工作真正揭示的核心问题是,当前大语言模型(LLM)的嵌入空间(embedding space)极其庞大,甚至可以说存在严重的冗余和浪费。我们远未充分利用这个高维空间,以及模型在推理时投入的巨大算力。

更多佐证:近期多项研究也支持这一观点。例如,有论文发现,如果在单一上下文中混合来自多个任务的示例,模型能够同时解决多个不同的上下文学习(ICL)任务。这进一步证明了模型的上下文窗口和嵌入空间拥有超乎我们当前理解的容量和灵活性。

DeepSeek-OCR是一项很酷的技术探索,值得肯定。但其实现的Token压缩效果,通过直接微调LLM处理优化的文本Token同样可以达到,甚至可能更高。
Matt Shumer分享了一套基于 OpenAI Codex 的工作流,它能实现比默认设置更复杂的功能,同时大大提升了代码的可靠性和质量,有效避免了范围蔓延。整个流程分为三个阶段:首先用初步解释的提示深入理解需求和现有代码,要求列出所有模糊或不明确的地方;接着在充分讨论后,生成一份简单、优雅且明确指引各步骤的计划文档;最后,当计划完善后,切换到 gpt-5-codex high 模型进行精确实现,每一步都有详细的进度追踪和注释。

此方法不仅适用于编程,也可扩展到其他领域:有人将计划传递给其它模型(如 Claude)进行复核和测试,以确保每个细节都达标。相比使用复杂的内存管理方案,仅通过文件记录和规划提示就能很好地保存项目上下文,避免了 context rot。
Back to Top