黑洞资源笔记

向量数据库被颠覆？一个无需嵌入的RAG新思路 | github

最近开源社区出现了一个有意思的项目PageIndex，它提出了一种完全不同的RAG实现路径：用文档树结构替代传统的向量嵌入，在FinanceBench基准测试上达到了98.7%的准确率。

这个方案的核心理念是让大模型直接在文档结构上进行推理，而不是通过关键词匹配来检索。不需要嵌入，不需要分块，完全开源。

听起来很激进，但仔细想想，这其实回归了一个朴素的问题：人类阅读文档时，依赖的是什么？是语义相似度，还是章节、标题、表格这些结构化线索？

对于金融报告、法律合同、合规文档这类天然具有清晰层级结构的内容，让模型沿着文档树进行推理，确实比把文档切成碎片再用向量匹配更符合直觉。结构优先的检索方式，也让引用溯源变得更加可靠。

但社区的实测反馈也很真实。有人指出它目前只能处理单个文档，跨文档比较和相似性匹配这类场景还是需要向量数据库。也有人反映速度偏慢，对于简单查询来说，逐层遍历节点的开销不小。还有人质疑：面对大规模非结构化数据，这种方案能否扩展？

一位开发者的评论很中肯：向量数据库能用廉价的数学运算实现毫秒级检索，而PageIndex依赖的是昂贵且缓慢的大模型推理，在需要扫描海量文档的场景下，可行性存疑。

所以这不是一个“谁取代谁”的故事。更准确的理解是：RAG的工具箱里多了一件趁手的武器。结构化文档用文档树，非结构化内容用向量嵌入，复杂场景可能需要混合方案。

技术选型从来不是非此即彼。真正的答案永远是：在你自己的数据上跑一遍基准测试。