黑洞资源笔记
04:41 · Jul 6, 2025 · Sun
awesome-direct-preference-optimization
:DPO研究的宝库,为语言模型优化提供系统性框架。
提供4个维度的详细分类,涵盖数据策略、学习框架等;包含多种数据质量、反馈方式和优化方法;汇集众多前沿论文,助力研究者快速上手
Home
Powered by
BroadcastChannel
&
Sepia