黑洞资源笔记
15:50 · Mar 14, 2025 · Fri
Knowledge-R1
:为知识检索与推理协同强化学习提供创新框架,解决推理模型知识不足和复杂推理优化难题。
多轮知识交互,逐步提升模型理解与决策能力;强化学习优化,动态增强知识与推理协同;在Qwen-1.5B-Instruct上成功复现显著提升结果
Home
Powered by
BroadcastChannel
&
Sepia