在
arxiv.org 链接前面加上“talk2”,可直接针对论文内容进行问答(需要自备OpenAI key)|
githubTalk2Arxiv 是专为学术论文 PDF 构建的开源 RAG(检索增强生成)系统,由talk2arxiv 服务器提供支持
特征
PDF 解析:利用 GROBID 从 PDF 中高效提取文本。
分块算法:用于最佳文本分块的定制算法。按逻辑部分(简介、摘要、作者等)进行分块,并且还利用递归细分分块(块为 512 个字符,然后是 256 个字符,然后是 128 个字符......)
文本嵌入:使用 Cohere 的 EmbedV3 模型进行准确的文本嵌入。
矢量数据库集成:使用 Pinecone 来存储和查询嵌入。这也可以缓存研究论文,因此论文只需要嵌入一次。
上下文相关性:采用重新排名过程来根据用户输入选择最相关的内容。