去噪扩散模型（Denoising Diffusion Probabilistic Models, DDPM）过渡分布两个标量选取的推导-EW帮帮网

解析扩散模型中的魔术标量 ( $\sqrt{α_t}$ ) 和 ( $1 - α_t$ )：推导与意义

在研究去噪扩散模型（Denoising Diffusion Probabilistic Models, DDPM）时，过渡分布 ( $q_φ(x_t|x_{t-1})$ ) 的定义引入了两个看似“魔术”的标量 ( $\sqrt{α_t}$ ) 和 ( $1 - α_t$ )。这些参数并非随意选择，而是通过数学推导得出的，确保扩散过程最终趋向标准正态分布 ( $\mathcal{N}(0, I)$ )。本文将详细介绍这一设计的动机和推导过程，并探讨其在条件分布 ( $q_φ(x_t|x_0)$ ) 中的扩展，目标读者是具备概率论和线性代数基础的深度学习研究者。

魔术标量的起源

参考：https://arxiv.org/pdf/2403.18103

问题背景

扩散模型通过逐步添加噪声，将数据 ( $x_0$ ) 转化为纯噪声 ( $x_T \sim \mathcal{N}(0, I)$ )。过渡分布定义为高斯分布：

$q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α_t} x_{t-1}, (1 - α_t) I)$

这里 ( $α_t$ ) 是时间步 ( $t$ ) 相关的参数（通常 ( $0 < α_t < 1$ )），而 ( $\sqrt{α_t}$ ) 和 ( $1 - α_t$ ) 分别控制均值和方差。你可能会好奇：为什么是 ( $\sqrt{α_t}$ ) 和 ( $1 - α_t$ )？为了解开这个谜团，我们从一般形式入手。

一般形式的假设

假设过渡分布为：

$q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I)$

其中 ( $a$ ) 和 ( $b$ ) 是待定标量，目标是选择 ( $a$ ) 和 ( $b$ )，使得通过多次迭代后，( $x_t$ ) 的分布在 ( $\to \infty$ ) 时趋近 ( $\mathcal{N}(0, I)$ )。

推导 ( $\sqrt{α}$ ) 和 ( $\sqrt{1 - α}$ )

重参数化形式

根据高斯分布的采样性质，( $x_t$ ) 可以重参数化为：

$x_t = a x_{t-1} + b ϵ_{t-1}, \quad ϵ_{t-1} \sim \mathcal{N}(0, I)$

递归展开

通过迭代，逐步展开 ( $x_t$ )：

( $x_t = a x_{t-1} + b ϵ_{t-1}$ )
代入 ( $x_{t-1} = a x_{t-2} + b ϵ_{t-2}$ )：

$x_t = a (a x_{t-2} + b ϵ_{t-2}) + b ϵ_{t-1} = a^2 x_{t-2} + a b ϵ_{t-2} + b ϵ_{t-1}$

继续递归至初始 ( $x_0$ )：

$x_t = a^t x_0 + b (ϵ_{t-1} + a ϵ_{t-2} + a^2 ϵ_{t-3} + \cdots + a^{t-1} ϵ_0)$

定义噪声项总和：

$w_t = b (ϵ_{t-1} + a ϵ_{t-2} + a^2 ϵ_{t-3} + \cdots + a^{t-1} ϵ_0)$

则：

$x_t = a^t x_0 + w_t$

均值和协方差

均值：( $\mathbb{E}[x_t] = \mathbb{E}[a^t x_0 + w_t] = a^t x_0$ )（因为 ( $\mathbb{E}[ϵ_i] = 0$ )）。
协方差：( $w_t$ ) 是独立高斯变量之和，其协方差为：

$\text{Cov}[w_t] = \mathbb{E}[w_t w_t^T] = b^2 \mathbb{E}\left[ \sum_{k=0}^{t-1} a^k ϵ_{t-1-k} \left( \sum_{m=0}^{t-1} a^m ϵ_{t-1-m} \right)^T \right]$

由于 ( $ϵ_i$ ) 独立且 ( $\mathbb{E}[ϵ_i ϵ_j^T] = I$ )（当 ( $i = j$ )），否则为 0：

$\text{Cov}[w_t] = b^2 \sum_{k=0}^{t-1} a^{2k} \mathbb{E}[ϵ_{t-1-k} ϵ_{t-1-k}^T] = b^2 \sum_{k=0}^{t-1} a^{2k} I$

这是一个几何级数：

$\sum_{k=0}^{t-1} a^{2k} = \frac{1 - a^{2t}}{1 - a^2} \quad (a^2 \neq 1)$

当 ( $\to \infty$ ) 且 ( $0 < a < 1$ )（即 ( $a^2| < 1$ )），( $a^{2t} \to 0$ )：

$\lim_{t \to \infty} \sum_{k=0}^{t-1} a^{2k} = \frac{1}{1 - a^2}$

因此：

$\lim_{t \to \infty} \text{Cov}[w_t] = \frac{b^2}{1 - a^2} I$

满足 ( $\mathcal{N}(0, I)$ ) 的条件

要使 ( $x_t$ ) 分布趋近 ( $\mathcal{N}(0, I)$ )：

均值 ( $\mathbb{E}[x_t] = a^t x_0 \to 0$ ) 要求 ( $a^t \to 0$ )，故 ( $∣ a ∣ < 1$ )。
协方差 ( $\lim_{t \to \infty} \text{Cov}[x_t] = \frac{b^2}{1 - a^2} I = I$ ) 要求：

$\frac{b^2}{1 - a^2} = 1$

$b^2 = 1 - a^2$

$\sqrt{1 - a^2} \quad (b > 0)$

设 ( $\sqrt{α}$ )（( $0 < α < 1$ )），则：

$\sqrt{1 - α}$

过渡分布

代入 ( $q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I)$ )：

$q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α} x_{t-1}, (1 - α) I)$

扩展到时间步 ( $α_t$ )：

$q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α_t} x_{t-1}, (1 - α_t) I)$

这证实了 ( $\sqrt{α_t}$ ) 和 ( $1 - α_t$ ) 的选择。

条件分布 ( $q_φ(x_t|x_0)$ ) 的推导

递归扩展

从 ( $x_t = \sqrt{α_t} x_{t-1} + \sqrt{1 - α_t} ϵ_{t-1}$ ) 开始：

( $x_t = \sqrt{α_t} (\sqrt{α_{t-1}} x_{t-2} + \sqrt{1 - α_{t-1}} ϵ_{t-2}) + \sqrt{1 - α_t} ϵ_{t-1}$ )
化简：

$\sqrt{α_t α_{t-1}} x_{t-2} + \sqrt{α_t (1 - α_{t-1})} ϵ_{t-2} + \sqrt{1 - α_t} ϵ_{t-1}$

定义噪声项 ( $w_1 = \sqrt{α_t (1 - α_{t-1})} ϵ_{t-2} + \sqrt{1 - α_t} ϵ_{t-1}$ )，其协方差：

$\text{Cov}[w_1] = \mathbb{E}[w_1 w_1^T] = [\alpha_t (1 - α_{t-1}) + (1 - α_t)] I = [1 - α_t α_{t-1}] I$

继续递归至 ( $x_0$ )：

$x_t = \sqrt{\prod_{i=1}^t α_i} x_0 + \sqrt{1 - \prod_{i=1}^t α_i} ϵ_0$

设 ( $α_t = \prod_{i=1}^t α_i$ )：

$x_t = \sqrt{α_t} x_0 + \sqrt{1 - α_t} ϵ_0$

分布形式

( $x_t$ ) 是高斯变量，均值为 ( $\sqrt{α_t} x_0$ )，噪声项协方差为 ( $1 - α_t) I$ )，故：

$q_φ(x_t|x_0) = \mathcal{N}(x_t | \sqrt{α_t} x_0, (1 - α_t) I)$

意义与应用

扩散过程：( $\sqrt{α_t}$ ) 和 ( $1 - α_t$ ) 确保多步迭代后 ( $x_t \to \mathcal{N}(0, I)$ )。
条件生成：( $q_φ(x_t|x_0)$ ) 描述了从初始数据 ( $x_0$ ) 到噪声 ( $x_t$ ) 的演化，有助于反向去噪。

总结

通过递归推导，( $\sqrt{α_t}$ ) 和 ( $1 - α_t$ ) 被证明是唯一满足扩散过程趋向 ( $\mathcal{N}(0, I)$ ) 的标量。扩展到 ( $q_φ(x_t|x_0)$ ) 展示了条件分布的结构，这一设计是 DDPM 成功的关键。

希望这篇博客加深了你的理解！

解析 ( $w_t$ ) 协方差推导至 ( $b^2 \sum_{k=0}^{t-1} a^{2k} I$ ) 的过程

在去噪扩散模型（Denoising Diffusion Probabilistic Models, DDPM）的数学推导中，过渡分布 ( $q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I)$ ) 的递归性质需要通过协方差分析来验证其长期行为。推导中，噪声项 ( $w_t$ ) 的协方差从 ( $\mathbb{E}[w_t w_t^T]$ ) 逐步简化为 ( $b^2 \sum_{k=0}^{t-1} a^{2k} I$ )，这一步骤涉及高斯变量的性质和期望的线性性质。以下是详细的推导过程，面向具备概率论和线性代数基础的深度学习研究者。

背景回顾

根据上文的推导，定义：

$x_t = a^t x_0 + w_t$

其中 ( $w_t$ ) 是累积噪声项：

$w_t = b (\epsilon_{t-1} + a \epsilon_{t-2} + a^2 \epsilon_{t-3} + \cdots + a^{t-1} \epsilon_0)$

目标是计算 ( $w_t$ ) 的协方差矩阵 ( $\text{Cov}[w_t] = \mathbb{E}[w_t w_t^T]$ )，并验证其在 ( $\to \infty$ ) 时的极限行为。

协方差的初始表达式

协方差定义为零均值向量 ( $w_t$ ) 的二阶矩：

$\text{Cov}[w_t] = \mathbb{E}[w_t w_t^T]$

将 ( $w_t$ ) 代入：

$w_t = b \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k}$

则：

$w_t w_t^T = \left( b \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \right) \left( b \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T$

取期望：

$\mathbb{E}[w_t w_t^T] = \mathbb{E}\left[ b \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \cdot b \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m}^T \right]$

因为 ( $b$ ) 是标量，提到期望外：

$b^2 \mathbb{E}\left[ \left( \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \right) \left( \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T \right]$

这正是推导中给出的初始形式：

$\text{Cov}[w_t] = b^2 \mathbb{E}\left[ \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \left( \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T \right]$

逐步化简

1. 期望的线性性

期望是线性和操作，因此可以交换和期望：

$\mathbb{E}\left[ \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \left( \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T \right]$

这表示对所有可能的 ( $k$ ) 和 ( $m$ ) 组合进行求和。然而，由于 ( $\epsilon_i$ ) 是随机向量，其期望依赖于索引是否匹配。

2. 展开双重和

将双重和展开为：

$\sum_{k=0}^{t-1} \sum_{m=0}^{t-1} a^k a^m \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-m}^T \right]$

噪声的独立性：( $\epsilon_i \sim \mathcal{N}(0, I)$ ) 是独立的高斯噪声向量，满足：
- ( $\mathbb{E}[\epsilon_i \epsilon_j^T] = I$ ) 当 ( $i = j$ )（因为 ( $\epsilon_i^T \epsilon_i = \sum_{d=1}^D \epsilon_{i,d}^2$ )，期望为迹 ( $\text{Tr}(I) = D$ )）。
- ( $\mathbb{E}[\epsilon_i \epsilon_j^T] = 0$ ) 当 ( $\neq j$ )（因为独立性，交叉项期望为零矩阵）。

因此，( $\mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-m}^T \right]$ ) 只在 ( $k = m$ ) 时非零：

$\mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-m}^T \right] = \begin{cases} I & \text{if } k = m \\ 0 & \text{if } k \neq m \end{cases}$

3. 化简双重和为单重和

由于 ( $\epsilon_{t-1-k}$ ) 和 ( $\epsilon_{t-1-m}$ ) 的期望只在 ( $k = m$ ) 贡献项，展开的和可以简化为对角项之和：

$\sum_{k=0}^{t-1} \sum_{m=0}^{t-1} a^k a^m \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-m}^T \right] = \sum_{k=0}^{t-1} a^k a^k \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-k}^T \right]$

因为 ( $k = m$ )，项变为 ( $a^k a^m = a^{2k}$ )，且：

$\mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-k}^T \right] = I$

因此：

$\sum_{k=0}^{t-1} a^{2k} I$

4. 乘以 ( $b^2$ )

回到协方差定义：

$\text{Cov}[w_t] = b^2 \mathbb{E}\left[ \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \left( \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T \right]$

代入简化的结果：

$b^2 \sum_{k=0}^{t-1} a^{2k} I$

详细解释

为什么只保留对角项？

( $\epsilon_i$ ) 的独立性是关键。双重和 ( $\sum_{k} \sum_{m}$ ) 中，只有 ( $k = m$ ) 时的项有非零贡献，因为 ( $\epsilon_{t-1-k}$ ) 和 ( $\epsilon_{t-1-m}$ ) 只有在同一时间步才相关。
其他 ( $\neq m$ ) 的交叉项期望为零矩阵，消除了非对角贡献。

几何级数的意义

( $\sum_{k=0}^{t-1} a^{2k}$ ) 是几何级数，表示噪声在每次迭代中按 ( $a^2$ ) 衰减的累积效应。
( $I$ ) 保留了各维度的独立性，反映了协方差矩阵的对角结构。

验证与后续步骤

这一结果与推导一致，后续用几何级数求和 ( $\frac{1 - a^{2t}}{1 - a^2}$ ) 并取极限 ( $\to \infty$ )（当 ( $∣ a ∣ < 1$ ) 时），得到 ( $\frac{b^2}{1 - a^2} I$ )。
条件 ( $\frac{b^2}{1 - a^2} = 1$ ) 导出 ( $\sqrt{1 - a^2}$ )。

总结

协方差 ( $\text{Cov}[w_t] = b^2 \sum_{k=0}^{t-1} a^{2k} I$ ) 的推导依赖于 ( $\epsilon_i$ ) 的独立性和期望的线性性。通过将双重和简化为对角项之和，消除了无关的交叉项，最终得到噪声累积的几何级数形式。这一步骤是理解扩散模型收敛机制的关键。

希望这篇详细推导解答了你的疑问！

后记

2025年3月4日15点20分于上海，在grok 3大模型辅助下完成。

去噪扩散模型（Denoising Diffusion Probabilistic Models, DDPM）过渡分布两个标量选取的推导

解析扩散模型中的魔术标量 ( $\sqrt{α_t}$ ) 和 ( $1 - α_t$ )：推导与意义

魔术标量的起源

问题背景

一般形式的假设

推导 ( $\sqrt{α}$ ) 和 ( $\sqrt{1 - α}$ )

重参数化形式

递归展开

均值和协方差

满足 ( $\mathcal{N}(0, I)$ ) 的条件

过渡分布

条件分布 ( $q_φ(x_t|x_0)$ ) 的推导

递归扩展

分布形式

意义与应用

总结

解析 ( $w_t$ ) 协方差推导至 ( $b^2 \sum_{k=0}^{t-1} a^{2k} I$ ) 的过程

背景回顾

协方差的初始表达式

逐步化简

1. 期望的线性性

2. 展开双重和

3. 化简双重和为单重和

4. 乘以 ( $b^2$ )

详细解释

为什么只保留对角项？

几何级数的意义

验证与后续步骤

总结

后记

网站公告

今日签到

热门文章

最新发布

去噪扩散模型（Denoising Diffusion Probabilistic Models, DDPM）过渡分布两个标量选取的推导

解析扩散模型中的魔术标量 ( α t \sqrt{α_t} αt​ ​ ) 和 ( 1 − α t 1 - α_t 1−αt​ )：推导与意义

魔术标量的起源

问题背景

一般形式的假设

推导 ( a = α a = \sqrt{α} a=α ​ ) 和 ( b = 1 − α b = \sqrt{1 - α} b=1−α ​ )

重参数化形式

递归展开

均值和协方差

满足 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) ) 的条件

过渡分布

条件分布 ( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ​(xt​∣x0​) ) 的推导

递归扩展

分布形式

意义与应用

总结

解析 ( w t w_t wt​ ) 协方差推导至 ( b 2 ∑ k = 0 t − 1 a 2 k I b^2 \sum_{k=0}^{t-1} a^{2k} I b2∑k=0t−1​a2kI ) 的过程

背景回顾

协方差的初始表达式

逐步化简

1. 期望的线性性

2. 展开双重和

3. 化简双重和为单重和

4. 乘以 ( b 2 b^2 b2 )

详细解释

为什么只保留对角项？

几何级数的意义

验证与后续步骤

总结

后记

网站公告

今日签到

热门文章

最新发布

解析扩散模型中的魔术标量 ( $\sqrt{α_t}$ ) 和 ( $1 - α_t$ )：推导与意义

推导 ( $\sqrt{α}$ ) 和 ( $\sqrt{1 - α}$ )

满足 ( $\mathcal{N}(0, I)$ ) 的条件

条件分布 ( $q_φ(x_t|x_0)$ ) 的推导

解析 ( $w_t$ ) 协方差推导至 ( $b^2 \sum_{k=0}^{t-1} a^{2k} I$ ) 的过程

4. 乘以 ( $b^2$ )