大语言模型（LLM）微调的5个高效技巧，突破传统算力瓶颈，极大提升参数利用率💡：• 传统微调因模型体量庞大（数百GB参数）不切实际，广泛采用参数高效微调（PEFT）手段，极大降低计算和存储需求

大语言模型（LLM）微调的5个高效技巧，突破传统算力瓶颈，极大提升参数利用率💡：

• 传统微调因模型体量庞大（数百GB参数）不切实际，广泛采用参数高效微调（PEFT）手段，极大降低计算和存储需求。
• 核心思想：通过低秩矩阵分解，替代全量权重更新，实现信息压缩与精细调整。

1️⃣ LoRA
- 添加两个低秩训练矩阵 A 和 B，替代直接微调巨量权重 W。
- 内存占用仅几MB，支持超大模型。
- QLoRA 是其量化版本，进一步节省资源。

2️⃣ LoRA-FA
- 冻结矩阵 A，仅更新矩阵 B，显著减少激活内存开销，适合资源受限场景。

3️⃣ VeRA
- A、B 矩阵冻结且随机共享全层，通过学习层特化缩放向量 b、d 实现微调，进一步压缩参数空间。

4️⃣ Delta-LoRA
- 不同于传统，微调时将 A 和 B 乘积的增量（delta）累加至 W，兼顾微调灵活性与稳定性。

5️⃣ LoRA+
- 赋予矩阵 B 更大学习率，优化收敛速度与效果，提升训练效率。

这些方法均基于矩阵低秩近似，体现了对模型结构和训练动态深刻理解，助力更普适、高效的 LLM 微调实践。高效 PEFT 技术已成为大模型实际应用的关键突破口。