awesome-direct-preference-optimization:DPO研究的宝库,为语言模型优化提供系统性框架。

提供4个维度的详细分类,涵盖数据策略、学习框架等;包含多种数据质量、反馈方式和优化方法;汇集众多前沿论文,助力研究者快速上手
 
 
Back to Top