DeepSeek R1：介绍了如何从头构建 DeepSeek R1 模型，包括使用 Qwen 作为基础模型，应用 GRPO 算法进行初步训练，以及通过 Supervised Fine-Tuning (SFT) 和改进的强化学习方法提升模型的推理能力和语言一致性

DeepSeek R1：介绍了如何从头构建 DeepSeek R1 模型，包括使用 Qwen 作为基础模型，应用 GRPO 算法进行初步训练，以及通过 Supervised Fine-Tuning (SFT) 和改进的强化学习方法提升模型的推理能力和语言一致性。

从基础模型到推理模型，全流程代码实现；使用GRPO算法优化推理能力，效率提升显著；提供详细的训练过程和手绘流程图，小白也能轻松上手