simple_GRPO：一个简单的 GRPO（Generative Reinforcement Learning for Policy Optimization）实现，旨在复现类似 r1 的大型语言模型（LLM）思维过程

simple_GRPO：一个简单的 GRPO（Generative Reinforcement Learning for Policy Optimization）实现，旨在复现类似 r1 的大型语言模型（LLM）思维过程。

仅200行代码，依赖极少，快速上手；分离式参考模型，可在不同GPU上运行，节省显存；1小时内完成训练，快速观察到模型的“顿悟时刻”