一个开源的全参数微调指南,提供了 DeepSeek V3/R1 671B 模型的训练和推理代码,和实践中的经验与结论。

支持671B超大规模模型的全参数微调;集成数据并行与序列并行,优化训练效率;提供从训练到推理的完整代码和实践经验总结

DeepSeek-V3/R1-617B 全参数微调指南 | #指南
 
 
Back to Top