黑洞资源笔记
09:00 · Feb 23, 2026 · Mon
Don't Exclude Rollouts From Your RL Training Runs
一篇由开发者 Kalomaze 撰写的技术博文,针对大模型的强化学习提出了一个反直觉的观点:在构建用于训练推理模型的数据集时,不应随意剔除或清洗掉那些包含“试错、自我修正、甚至死胡同”的长思维链(RL Rollouts)。
这些看似冗余或不完美的推理过程,恰恰是模型通过强化学习涌现出智能的关键特征。应该设计奖励信号来主动引导模型远离该行为。
Home
Powered by
BroadcastChannel
&
Sepia