Branko 分享了将公司知识整合进大语言模型（LLM）的实践经验：帖子起初，他尝试用5000份公司文档微调Llama 2模型：- 训练耗时6小时，花费450美元GPU实例- 模型获得了公司事实知识- 但存在“幻觉”问题（生成错误变体）- 每次更新知识都需重新训练，成本高且耗时随后，他转向RAG（检索增强生成）方案：- 用OpenAI做文档向量嵌入，存入pgvector数据库- 查询时先检索相关文档，再结合问题输入LLM生成答案- 配置时间仅2小时，成本约0.02美元/查询- 好处明显：知识更新快（秒级添加/修改文档），无需重新训练，能标注答案来源，适配任何LLM微调的优势：- 推理成本低，无检索步骤，响应快- 可定制模型风格和行为- 支持离线部署适用场景对比：- 微调：需教模型新任务或风格，高频推理且离线需求强时用- RAG：知识动态变化、多领域、需快速迭代及来源追踪时用总结建议：先用RAG解决知识更新问题，再用微调调整模型行为

Branko 分享了将公司知识整合进大语言模型（LLM）的实践经验：帖子

起初，他尝试用5000份公司文档微调Llama 2模型：
- 训练耗时6小时，花费450美元GPU实例
- 模型获得了公司事实知识
- 但存在“幻觉”问题（生成错误变体）
- 每次更新知识都需重新训练，成本高且耗时

随后，他转向RAG（检索增强生成）方案：
- 用OpenAI做文档向量嵌入，存入pgvector数据库
- 查询时先检索相关文档，再结合问题输入LLM生成答案
- 配置时间仅2小时，成本约0.02美元/查询
- 好处明显：知识更新快（秒级添加/修改文档），无需重新训练，能标注答案来源，适配任何LLM

微调的优势：
- 推理成本低，无检索步骤，响应快
- 可定制模型风格和行为
- 支持离线部署

适用场景对比：
- 微调：需教模型新任务或风格，高频推理且离线需求强时用
- RAG：知识动态变化、多领域、需快速迭代及来源追踪时用

总结建议：
先用RAG解决知识更新问题，再用微调调整模型行为。多数情况下，不必定制模型权重，只需打造带上下文的好提示（prompt）。