Branko 分享了将公司知识整合进大语言模型(LLM)的实践经验:帖子
起初,他尝试用5000份公司文档微调Llama 2模型:
- 训练耗时6小时,花费450美元GPU实例
- 模型获得了公司事实知识
- 但存在“幻觉”问题(生成错误变体)
- 每次更新知识都需重新训练,成本高且耗时
随后,他转向RAG(检索增强生成)方案:
- 用OpenAI做文档向量嵌入,存入pgvector数据库
- 查询时先检索相关文档,再结合问题输入LLM生成答案
- 配置时间仅2小时,成本约0.02美元/查询
- 好处明显:知识更新快(秒级添加/修改文档),无需重新训练,能标注答案来源,适配任何LLM
微调的优势:
- 推理成本低,无检索步骤,响应快
- 可定制模型风格和行为
- 支持离线部署
适用场景对比:
- 微调:需教模型新任务或风格,高频推理且离线需求强时用
- RAG:知识动态变化、多领域、需快速迭代及来源追踪时用
总结建议:
先用RAG解决知识更新问题,再用微调调整模型行为。多数情况下,不必定制模型权重,只需打造带上下文的好提示(prompt)。
起初,他尝试用5000份公司文档微调Llama 2模型:
- 训练耗时6小时,花费450美元GPU实例
- 模型获得了公司事实知识
- 但存在“幻觉”问题(生成错误变体)
- 每次更新知识都需重新训练,成本高且耗时
随后,他转向RAG(检索增强生成)方案:
- 用OpenAI做文档向量嵌入,存入pgvector数据库
- 查询时先检索相关文档,再结合问题输入LLM生成答案
- 配置时间仅2小时,成本约0.02美元/查询
- 好处明显:知识更新快(秒级添加/修改文档),无需重新训练,能标注答案来源,适配任何LLM
微调的优势:
- 推理成本低,无检索步骤,响应快
- 可定制模型风格和行为
- 支持离线部署
适用场景对比:
- 微调:需教模型新任务或风格,高频推理且离线需求强时用
- RAG:知识动态变化、多领域、需快速迭代及来源追踪时用
总结建议:
先用RAG解决知识更新问题,再用微调调整模型行为。多数情况下,不必定制模型权重,只需打造带上下文的好提示(prompt)。