Knowledge-R1:为知识检索与推理协同强化学习提供创新框架,解决推理模型知识不足和复杂推理优化难题。

多轮知识交互,逐步提升模型理解与决策能力;强化学习优化,动态增强知识与推理协同;在Qwen-1.5B-Instruct上成功复现显著提升结果
 
 
Back to Top