向量数据库被颠覆?一个无需嵌入的RAG新思路 | github

最近开源社区出现了一个有意思的项目PageIndex,它提出了一种完全不同的RAG实现路径:用文档树结构替代传统的向量嵌入,在FinanceBench基准测试上达到了98.7%的准确率。

这个方案的核心理念是让大模型直接在文档结构上进行推理,而不是通过关键词匹配来检索。不需要嵌入,不需要分块,完全开源。

听起来很激进,但仔细想想,这其实回归了一个朴素的问题:人类阅读文档时,依赖的是什么?是语义相似度,还是章节、标题、表格这些结构化线索?

对于金融报告、法律合同、合规文档这类天然具有清晰层级结构的内容,让模型沿着文档树进行推理,确实比把文档切成碎片再用向量匹配更符合直觉。结构优先的检索方式,也让引用溯源变得更加可靠。

但社区的实测反馈也很真实。有人指出它目前只能处理单个文档,跨文档比较和相似性匹配这类场景还是需要向量数据库。也有人反映速度偏慢,对于简单查询来说,逐层遍历节点的开销不小。还有人质疑:面对大规模非结构化数据,这种方案能否扩展?

一位开发者的评论很中肯:向量数据库能用廉价的数学运算实现毫秒级检索,而PageIndex依赖的是昂贵且缓慢的大模型推理,在需要扫描海量文档的场景下,可行性存疑。

所以这不是一个“谁取代谁”的故事。更准确的理解是:RAG的工具箱里多了一件趁手的武器。结构化文档用文档树,非结构化内容用向量嵌入,复杂场景可能需要混合方案。

技术选型从来不是非此即彼。真正的答案永远是:在你自己的数据上跑一遍基准测试。
 
 
Back to Top