DAPO
Decoupled Clip and Dynamic Sampling Policy Optimization(解耦裁剪与动态采样策略优化)
背景
LLM的RLHF面临三大核心痛点:
- 动作空间高维离散(词汇表数万级),传统对称裁剪抑制探索,易熵崩溃;
- 奖励同质化导致梯度消失,样本效率低;
- 长序列梯度稀释、截断样本奖励噪声大,训练不稳定。
核心改进与公式
Clip-Higher(解耦非对称裁剪)
- 改进:突破PPO/GRPO的对称裁剪(如±0.2),对正优势token放宽裁剪上限,鼓励探索低概率token,避免熵崩溃。
- 公式:
- 概率比:
- 非对称裁剪:,其中
- 裁剪损失:
Dynamic Sampling(动态采样)
- 改进:过滤组内奖励标准差为0的样本(全对/全错),确保批次梯度有效,提升训练效率。
- 公式:
- 组内奖励标准化优势:,(为组内样本数)
- 动态采样规则:仅保留的组,否则重采样至批次填满
Token-Level Policy Gradient Loss(token级策略梯度损失)
- 改进:GRPO句子级归一化导致长序列梯度稀释,DAPO按token归一化,解决梯度偏置。
- 公式:
- Token级优势:(为序列长度,为微小常数)
- Token级损失:
info
实际上就相当于加了一个长度的权重。GRPO在轨迹内先求平均,然后再轨迹间求平均,得到最后loss。而DAPO是直接在token级别求平均,相当于每个token的贡献应该是一致的。
GRPO是轨迹级别,长度越长,每个token的贡献就被稀释了。
Overlong Reward Shaping(超长奖励塑形)
- 改进:惩罚超阈值长度的回复,减少奖励噪声,稳定训练。
- 公式:
- 塑形奖励:,其中为惩罚系数,为生成长度,为阈值