DPO算法-EW帮帮网

DPO（Direct Preference Optimization）直接偏好优化。

训练集每个样本是一个三元组，结构如下：

(prompt, chosen, rejected）

chosen（被选响应）
指针对同一提示（prompt），人类标注者或评估系统认为质量更高、更符合需求的响应。例如：

提示：“请解释水的三态变化。”
chosen：“水有三种状态：固态、液态和气态。温度变化会导致状态转化，如冰融化成水，水蒸发成水蒸气。”

rejected（被拒响应）
指针对同一提示，人类标注者认为质量较低、不符合需求或存在错误的响应。例如：

rejected：“水是一种液体，在自然界中很常见。”（未完整回答问题）

策略模型（Policy Model）

定义与作用：
策略模型是待优化的目标模型，其参数在训练过程中会被更新，目标是学习生成更符合人类偏好的响应。

训练机制：

接收输入提示（prompt）后，策略模型会生成响应并计算其概率分布。
通过DPO损失函数（如基于Bradley-Terry模型的损失），模型调整参数以提高被选响应（chosen）的生成概率，降低被拒响应（rejected）的概率。

特点：

可训练：参数通过梯度更新不断优化。
对齐偏好：最终目标是使模型输出更接近人类标注的高质量响应。

参考模型（Reference Model）

定义与作用：

参考模型是参数冻结的基准模型，通常为监督微调（SFT）后的模型，提供原始能力分布作为优化约束。
核心功能：
- 计算隐式奖励：通过比较策略模型与参考模型的输出概率差异，生成隐式奖励信号（如： $rθ(x,y)=βlog⁡πθ(y∣x)πref(y∣x)r_θ(x,y)=\beta \log \frac{\pi_{\theta}(y|x)}{\pi_{\text{ref}}(y|x)}$ ）
- 控制分布偏移：KL散度约束防止策略模型过度偏离参考模型，避免生成不合理或低质量内容。
特点：
- 参数固定：训练中不更新权重，仅提供计算基准。
- 稳定性保障：作为正则化项，确保训练过程稳定。

Loss函数

直接偏好优化 (DPO) 损失函数

数学公式表示：

$\mathcal{L}_{\text{DPO}} = -\log \sigma\left(\beta\left(\log \frac{\pi_{\theta}\left(y_{w} \mid x\right)}{\pi_{\text{ref}}\left(y_{w} \mid x\right)}-\log \frac{\pi_{\theta}\left(y_{l} \mid x\right)}{\pi_{\text{ref}}\left(y_{l} \mid x\right)}\right)\right)$

公式符号说明：

符号	含义
$LDPO\mathcal{L}_{\text{DPO}}$	DPO 损失函数
$σ\sigma$	Sigmoid 激活函数
$β\beta$	温度参数 (控制偏好强度)
$πθ\pi_{\theta}$	策略模型 (待优化)
$πref\pi_{\text{ref}}$	参考模型 (固定参数)
$x$	输入提示 (prompt)
$y_w$	被选响应 (chosen response)
$y_l$	被拒响应 (rejected response)

公式解读：

核心计算：比较策略模型与参考模型对优质( $y_w$ )和劣质( $y_l$ )响应的概率比差异
$log⁡πθ(yw∣x)πref(yw∣x)−log⁡πθ(yl∣x)πref(yl∣x)\log \frac{\pi_{\theta}(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \log \frac{\pi_{\theta}(y_l|x)}{\pi_{\text{ref}}(y_l|x)}$
$β\beta$ 缩放：调节偏好差异的显著程度
Sigmoid 转换： $σ(⋅)\sigma(\cdot)$ 将差异映射到 (0,1) 区间
负对数损失： $−log⁡(⋅)-\log(\cdot)$ 使模型优化倾向于更大的偏好差异

参考

https://mp.weixin.qq.com/s/jnSGEBgzTkS4rid2rP3Omg

DPO算法

策略模型（Policy Model）

参考模型（Reference Model）

Loss函数

直接偏好优化 (DPO) 损失函数

公式符号说明：

公式解读：

网站公告

今日签到

热门文章

最新发布