黑洞资源笔记
14:34 · Mar 10, 2025 · Mon
一个开源的全参数微调指南,提供了 DeepSeek V3/R1 671B 模型的训练和推理代码,和实践中的经验与结论。
支持671B超大规模模型的全参数微调;集成数据并行与序列并行,优化训练效率;提供从训练到推理的完整代码和实践经验总结
DeepSeek-V3/R1-617B 全参数微调指南
| #指南
Home
Powered by
BroadcastChannel
&
Sepia