解析扩散模型中的魔术标量 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ):推导与意义
在研究去噪扩散模型(Denoising Diffusion Probabilistic Models, DDPM)时,过渡分布 ( q φ ( x t ∣ x t − 1 ) q_φ(x_t|x_{t-1}) qφ(xt∣xt−1) ) 的定义引入了两个看似“魔术”的标量 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt )。这些参数并非随意选择,而是通过数学推导得出的,确保扩散过程最终趋向标准正态分布 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) )。本文将详细介绍这一设计的动机和推导过程,并探讨其在条件分布 ( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xt∣x0) ) 中的扩展,目标读者是具备概率论和线性代数基础的深度学习研究者。
魔术标量的起源
参考:https://arxiv.org/pdf/2403.18103
问题背景
扩散模型通过逐步添加噪声,将数据 ( x 0 x_0 x0 ) 转化为纯噪声 ( x T ∼ N ( 0 , I ) x_T \sim \mathcal{N}(0, I) xT∼N(0,I) )。过渡分布定义为高斯分布:
q φ ( x t ∣ x t − 1 ) = N ( x t ∣ α t x t − 1 , ( 1 − α t ) I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α_t} x_{t-1}, (1 - α_t) I) qφ(xt∣xt−1)=N(xt∣αtxt−1,(1−αt)I)
这里 ( α t α_t αt ) 是时间步 ( t t t ) 相关的参数(通常 ( 0 < α t < 1 0 < α_t < 1 0<αt<1 )),而 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ) 分别控制均值和方差。你可能会好奇:为什么是 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt )?为了解开这个谜团,我们从一般形式入手。
一般形式的假设
假设过渡分布为:
q φ ( x t ∣ x t − 1 ) = N ( x t ∣ a x t − 1 , b 2 I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I) qφ(xt∣xt−1)=N(xt∣axt−1,b2I)
其中 ( a a a ) 和 ( b b b ) 是待定标量,目标是选择 ( a a a ) 和 ( b b b ),使得通过多次迭代后,( x t x_t xt ) 的分布在 ( t → ∞ t \to \infty t→∞ ) 时趋近 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) )。
推导 ( a = α a = \sqrt{α} a=α ) 和 ( b = 1 − α b = \sqrt{1 - α} b=1−α )
重参数化形式
根据高斯分布的采样性质,( x t x_t xt ) 可以重参数化为:
x t = a x t − 1 + b ϵ t − 1 , ϵ t − 1 ∼ N ( 0 , I ) x_t = a x_{t-1} + b ϵ_{t-1}, \quad ϵ_{t-1} \sim \mathcal{N}(0, I) xt=axt−1+bϵt−1,ϵt−1∼N(0,I)
递归展开
通过迭代,逐步展开 ( x t x_t xt ):
- ( x t = a x t − 1 + b ϵ t − 1 x_t = a x_{t-1} + b ϵ_{t-1} xt=axt−1+bϵt−1)
- 代入 ( x t − 1 = a x t − 2 + b ϵ t − 2 x_{t-1} = a x_{t-2} + b ϵ_{t-2} xt−1=axt−2+bϵt−2 ):
x t = a ( a x t − 2 + b ϵ t − 2 ) + b ϵ t − 1 = a 2 x t − 2 + a b ϵ t − 2 + b ϵ t − 1 x_t = a (a x_{t-2} + b ϵ_{t-2}) + b ϵ_{t-1} = a^2 x_{t-2} + a b ϵ_{t-2} + b ϵ_{t-1} xt=a(axt−2+bϵt−2)+bϵt−1=a2xt−2+abϵt−2+bϵt−1
- 继续递归至初始 ( x 0 x_0 x0 ):
x t = a t x 0 + b ( ϵ t − 1 + a ϵ t − 2 + a 2 ϵ t − 3 + ⋯ + a t − 1 ϵ 0 ) x_t = a^t x_0 + b (ϵ_{t-1} + a ϵ_{t-2} + a^2 ϵ_{t-3} + \cdots + a^{t-1} ϵ_0) xt=atx0+b(ϵt−1+aϵt−2+a2ϵt−3+⋯+at−1ϵ0)
定义噪声项总和:
w t = b ( ϵ t − 1 + a ϵ t − 2 + a 2 ϵ t − 3 + ⋯ + a t − 1 ϵ 0 ) w_t = b (ϵ_{t-1} + a ϵ_{t-2} + a^2 ϵ_{t-3} + \cdots + a^{t-1} ϵ_0) wt=b(ϵt−1+aϵt−2+a2ϵt−3+⋯+at−1ϵ0)
则:
x t = a t x 0 + w t x_t = a^t x_0 + w_t xt=atx0+wt
均值和协方差
- 均值:( E [ x t ] = E [ a t x 0 + w t ] = a t x 0 \mathbb{E}[x_t] = \mathbb{E}[a^t x_0 + w_t] = a^t x_0 E[xt]=E[atx0+wt]=atx0 )(因为 ( E [ ϵ i ] = 0 \mathbb{E}[ϵ_i] = 0 E[ϵi]=0 ))。
- 协方差:( w t w_t wt ) 是独立高斯变量之和,其协方差为:
Cov [ w t ] = E [ w t w t T ] = b 2 E [ ∑ k = 0 t − 1 a k ϵ t − 1 − k ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T ] \text{Cov}[w_t] = \mathbb{E}[w_t w_t^T] = b^2 \mathbb{E}\left[ \sum_{k=0}^{t-1} a^k ϵ_{t-1-k} \left( \sum_{m=0}^{t-1} a^m ϵ_{t-1-m} \right)^T \right] Cov[wt]=E[wtwtT]=b2E k=0∑t−1akϵt−1−k(m=0∑t−1amϵt−1−m)T
由于 ( ϵ i ϵ_i ϵi ) 独立且 ( E [ ϵ i ϵ j T ] = I \mathbb{E}[ϵ_i ϵ_j^T] = I E[ϵiϵjT]=I )(当 ( i = j i = j i=j )),否则为 0:
Cov [ w t ] = b 2 ∑ k = 0 t − 1 a 2 k E [ ϵ t − 1 − k ϵ t − 1 − k T ] = b 2 ∑ k = 0 t − 1 a 2 k I \text{Cov}[w_t] = b^2 \sum_{k=0}^{t-1} a^{2k} \mathbb{E}[ϵ_{t-1-k} ϵ_{t-1-k}^T] = b^2 \sum_{k=0}^{t-1} a^{2k} I Cov[wt]=b2k=0∑t−1a2kE[ϵt−1−kϵt−1−kT]=b2k=0∑t−1a2kI
这是一个几何级数:
∑ k = 0 t − 1 a 2 k = 1 − a 2 t 1 − a 2 ( a 2 ≠ 1 ) \sum_{k=0}^{t-1} a^{2k} = \frac{1 - a^{2t}}{1 - a^2} \quad (a^2 \neq 1) k=0∑t−1a2k=1−a21−a2t(a2=1)
当 ( t → ∞ t \to \infty t→∞ ) 且 ( 0 < a < 1 0 < a < 1 0<a<1 )(即 ( ∣ a 2 ∣ < 1 |a^2| < 1 ∣a2∣<1 )),( a 2 t → 0 a^{2t} \to 0 a2t→0 ):
lim t → ∞ ∑ k = 0 t − 1 a 2 k = 1 1 − a 2 \lim_{t \to \infty} \sum_{k=0}^{t-1} a^{2k} = \frac{1}{1 - a^2} t→∞limk=0∑t−1a2k=1−a21
因此:
lim t → ∞ Cov [ w t ] = b 2 1 − a 2 I \lim_{t \to \infty} \text{Cov}[w_t] = \frac{b^2}{1 - a^2} I t→∞limCov[wt]=1−a2b2I
满足 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) ) 的条件
要使 ( x t x_t xt ) 分布趋近 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) ):
- 均值 ( E [ x t ] = a t x 0 → 0 \mathbb{E}[x_t] = a^t x_0 \to 0 E[xt]=atx0→0 ) 要求 ( a t → 0 a^t \to 0 at→0 ),故 ( ∣ a ∣ < 1 |a| < 1 ∣a∣<1 )。
- 协方差 ( lim t → ∞ Cov [ x t ] = b 2 1 − a 2 I = I \lim_{t \to \infty} \text{Cov}[x_t] = \frac{b^2}{1 - a^2} I = I limt→∞Cov[xt]=1−a2b2I=I ) 要求:
b 2 1 − a 2 = 1 \frac{b^2}{1 - a^2} = 1 1−a2b2=1
b 2 = 1 − a 2 b^2 = 1 - a^2 b2=1−a2
b = 1 − a 2 ( b > 0 ) b = \sqrt{1 - a^2} \quad (b > 0) b=1−a2(b>0)
设 ( a = α a = \sqrt{α} a=α )(( 0 < α < 1 0 < α < 1 0<α<1 )),则:
b = 1 − α b = \sqrt{1 - α} b=1−α
过渡分布
代入 ( q φ ( x t ∣ x t − 1 ) = N ( x t ∣ a x t − 1 , b 2 I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I) qφ(xt∣xt−1)=N(xt∣axt−1,b2I) ):
q φ ( x t ∣ x t − 1 ) = N ( x t ∣ α x t − 1 , ( 1 − α ) I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α} x_{t-1}, (1 - α) I) qφ(xt∣xt−1)=N(xt∣αxt−1,(1−α)I)
扩展到时间步 ( α t α_t αt ):
q φ ( x t ∣ x t − 1 ) = N ( x t ∣ α t x t − 1 , ( 1 − α t ) I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α_t} x_{t-1}, (1 - α_t) I) qφ(xt∣xt−1)=N(xt∣αtxt−1,(1−αt)I)
这证实了 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ) 的选择。
条件分布 ( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xt∣x0) ) 的推导
递归扩展
从 ( x t = α t x t − 1 + 1 − α t ϵ t − 1 x_t = \sqrt{α_t} x_{t-1} + \sqrt{1 - α_t} ϵ_{t-1} xt=αtxt−1+1−αtϵt−1 ) 开始:
- ( x t = α t ( α t − 1 x t − 2 + 1 − α t − 1 ϵ t − 2 ) + 1 − α t ϵ t − 1 x_t = \sqrt{α_t} (\sqrt{α_{t-1}} x_{t-2} + \sqrt{1 - α_{t-1}} ϵ_{t-2}) + \sqrt{1 - α_t} ϵ_{t-1} xt=αt(αt−1xt−2+1−αt−1ϵt−2)+1−αtϵt−1 )
- 化简:
= α t α t − 1 x t − 2 + α t ( 1 − α t − 1 ) ϵ t − 2 + 1 − α t ϵ t − 1 = \sqrt{α_t α_{t-1}} x_{t-2} + \sqrt{α_t (1 - α_{t-1})} ϵ_{t-2} + \sqrt{1 - α_t} ϵ_{t-1} =αtαt−1xt−2+αt(1−αt−1)ϵt−2+1−αtϵt−1
定义噪声项 ( w 1 = α t ( 1 − α t − 1 ) ϵ t − 2 + 1 − α t ϵ t − 1 w_1 = \sqrt{α_t (1 - α_{t-1})} ϵ_{t-2} + \sqrt{1 - α_t} ϵ_{t-1} w1=αt(1−αt−1)ϵt−2+1−αtϵt−1 ),其协方差:
Cov [ w 1 ] = E [ w 1 w 1 T ] = [ α t ( 1 − α t − 1 ) + ( 1 − α t ) ] I = [ 1 − α t α t − 1 ] I \text{Cov}[w_1] = \mathbb{E}[w_1 w_1^T] = [\alpha_t (1 - α_{t-1}) + (1 - α_t)] I = [1 - α_t α_{t-1}] I Cov[w1]=E[w1w1T]=[αt(1−αt−1)+(1−αt)]I=[1−αtαt−1]I
- 继续递归至 ( x 0 x_0 x0 ):
x t = ∏ i = 1 t α i x 0 + 1 − ∏ i = 1 t α i ϵ 0 x_t = \sqrt{\prod_{i=1}^t α_i} x_0 + \sqrt{1 - \prod_{i=1}^t α_i} ϵ_0 xt=i=1∏tαix0+1−i=1∏tαiϵ0
设 ( α t = ∏ i = 1 t α i α_t = \prod_{i=1}^t α_i αt=∏i=1tαi ):
x t = α t x 0 + 1 − α t ϵ 0 x_t = \sqrt{α_t} x_0 + \sqrt{1 - α_t} ϵ_0 xt=αtx0+1−αtϵ0
分布形式
( x t x_t xt ) 是高斯变量,均值为 ( α t x 0 \sqrt{α_t} x_0 αtx0 ),噪声项协方差为 ( ( 1 − α t ) I (1 - α_t) I (1−αt)I ),故:
q φ ( x t ∣ x 0 ) = N ( x t ∣ α t x 0 , ( 1 − α t ) I ) q_φ(x_t|x_0) = \mathcal{N}(x_t | \sqrt{α_t} x_0, (1 - α_t) I) qφ(xt∣x0)=N(xt∣αtx0,(1−αt)I)
意义与应用
- 扩散过程:( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ) 确保多步迭代后 ( x t → N ( 0 , I ) x_t \to \mathcal{N}(0, I) xt→N(0,I) )。
- 条件生成:( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xt∣x0) ) 描述了从初始数据 ( x 0 x_0 x0 ) 到噪声 ( x t x_t xt ) 的演化,有助于反向去噪。
总结
通过递归推导,( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ) 被证明是唯一满足扩散过程趋向 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) ) 的标量。扩展到 ( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xt∣x0)) 展示了条件分布的结构,这一设计是 DDPM 成功的关键。
希望这篇博客加深了你的理解!
解析 ( w t w_t wt ) 协方差推导至 ( b 2 ∑ k = 0 t − 1 a 2 k I b^2 \sum_{k=0}^{t-1} a^{2k} I b2∑k=0t−1a2kI ) 的过程
在去噪扩散模型(Denoising Diffusion Probabilistic Models, DDPM)的数学推导中,过渡分布 ( q φ ( x t ∣ x t − 1 ) = N ( x t ∣ a x t − 1 , b 2 I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I) qφ(xt∣xt−1)=N(xt∣axt−1,b2I) ) 的递归性质需要通过协方差分析来验证其长期行为。推导中,噪声项 ( w t w_t wt ) 的协方差从 ( E [ w t w t T ] \mathbb{E}[w_t w_t^T] E[wtwtT]) 逐步简化为 ( b 2 ∑ k = 0 t − 1 a 2 k I b^2 \sum_{k=0}^{t-1} a^{2k} I b2∑k=0t−1a2kI ),这一步骤涉及高斯变量的性质和期望的线性性质。以下是详细的推导过程,面向具备概率论和线性代数基础的深度学习研究者。
背景回顾
根据上文的推导,定义:
x t = a t x 0 + w t x_t = a^t x_0 + w_t xt=atx0+wt
其中 ( w t w_t wt) 是累积噪声项:
w t = b ( ϵ t − 1 + a ϵ t − 2 + a 2 ϵ t − 3 + ⋯ + a t − 1 ϵ 0 ) w_t = b (\epsilon_{t-1} + a \epsilon_{t-2} + a^2 \epsilon_{t-3} + \cdots + a^{t-1} \epsilon_0) wt=b(ϵt−1+aϵt−2+a2ϵt−3+⋯+at−1ϵ0)
目标是计算 ( w t w_t wt ) 的协方差矩阵 ( Cov [ w t ] = E [ w t w t T ] \text{Cov}[w_t] = \mathbb{E}[w_t w_t^T] Cov[wt]=E[wtwtT] ),并验证其在 ( t → ∞ t \to \infty t→∞ ) 时的极限行为。
协方差的初始表达式
协方差定义为零均值向量 ( w t w_t wt ) 的二阶矩:
Cov [ w t ] = E [ w t w t T ] \text{Cov}[w_t] = \mathbb{E}[w_t w_t^T] Cov[wt]=E[wtwtT]
将 ( w t w_t wt ) 代入:
w t = b ∑ k = 0 t − 1 a k ϵ t − 1 − k w_t = b \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} wt=bk=0∑t−1akϵt−1−k
则:
w t w t T = ( b ∑ k = 0 t − 1 a k ϵ t − 1 − k ) ( b ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T w_t w_t^T = \left( b \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \right) \left( b \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T wtwtT=(bk=0∑t−1akϵt−1−k)(bm=0∑t−1amϵt−1−m)T
取期望:
E [ w t w t T ] = E [ b ∑ k = 0 t − 1 a k ϵ t − 1 − k ⋅ b ∑ m = 0 t − 1 a m ϵ t − 1 − m T ] \mathbb{E}[w_t w_t^T] = \mathbb{E}\left[ b \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \cdot b \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m}^T \right] E[wtwtT]=E[bk=0∑t−1akϵt−1−k⋅bm=0∑t−1amϵt−1−mT]
因为 ( b b b ) 是标量,提到期望外:
= b 2 E [ ( ∑ k = 0 t − 1 a k ϵ t − 1 − k ) ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T ] = b^2 \mathbb{E}\left[ \left( \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \right) \left( \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T \right] =b2E (k=0∑t−1akϵt−1−k)(m=0∑t−1amϵt−1−m)T
这正是推导中给出的初始形式:
Cov [ w t ] = b 2 E [ ∑ k = 0 t − 1 a k ϵ t − 1 − k ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T ] \text{Cov}[w_t] = b^2 \mathbb{E}\left[ \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \left( \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T \right] Cov[wt]=b2E k=0∑t−1akϵt−1−k(m=0∑t−1amϵt−1−m)T
逐步化简
1. 期望的线性性
期望是线性和操作,因此可以交换和期望:
E [ ∑ k = 0 t − 1 a k ϵ t − 1 − k ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T ] \mathbb{E}\left[ \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \left( \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T \right] E k=0∑t−1akϵt−1−k(m=0∑t−1amϵt−1−m)T
这表示对所有可能的 ( k k k ) 和 ( m m m ) 组合进行求和。然而,由于 ( ϵ i \epsilon_i ϵi ) 是随机向量,其期望依赖于索引是否匹配。
2. 展开双重和
将双重和展开为:
∑ k = 0 t − 1 ∑ m = 0 t − 1 a k a m E [ ϵ t − 1 − k ϵ t − 1 − m T ] \sum_{k=0}^{t-1} \sum_{m=0}^{t-1} a^k a^m \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-m}^T \right] k=0∑t−1m=0∑t−1akamE[ϵt−1−kϵt−1−mT]
- 噪声的独立性:( ϵ i ∼ N ( 0 , I ) \epsilon_i \sim \mathcal{N}(0, I) ϵi∼N(0,I) ) 是独立的高斯噪声向量,满足:
- ( E [ ϵ i ϵ j T ] = I \mathbb{E}[\epsilon_i \epsilon_j^T] = I E[ϵiϵjT]=I ) 当 ( i = j i = j i=j )(因为 ( ϵ i T ϵ i = ∑ d = 1 D ϵ i , d 2 \epsilon_i^T \epsilon_i = \sum_{d=1}^D \epsilon_{i,d}^2 ϵiTϵi=∑d=1Dϵi,d2 ),期望为迹 ( Tr ( I ) = D \text{Tr}(I) = D Tr(I)=D ))。
- ( E [ ϵ i ϵ j T ] = 0 \mathbb{E}[\epsilon_i \epsilon_j^T] = 0 E[ϵiϵjT]=0 ) 当 ( i ≠ j i \neq j i=j )(因为独立性,交叉项期望为零矩阵)。
因此,( E [ ϵ t − 1 − k ϵ t − 1 − m T ] \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-m}^T \right] E[ϵt−1−kϵt−1−mT] ) 只在 ( k = m k = m k=m ) 时非零:
E [ ϵ t − 1 − k ϵ t − 1 − m T ] = { I if k = m 0 if k ≠ m \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-m}^T \right] = \begin{cases} I & \text{if } k = m \\ 0 & \text{if } k \neq m \end{cases} E[ϵt−1−kϵt−1−mT]={I0if k=mif k=m
3. 化简双重和为单重和
由于 ( ϵ t − 1 − k \epsilon_{t-1-k} ϵt−1−k ) 和 ( ϵ t − 1 − m \epsilon_{t-1-m} ϵt−1−m ) 的期望只在 ( k = m k = m k=m ) 贡献项,展开的和可以简化为对角项之和:
∑ k = 0 t − 1 ∑ m = 0 t − 1 a k a m E [ ϵ t − 1 − k ϵ t − 1 − m T ] = ∑ k = 0 t − 1 a k a k E [ ϵ t − 1 − k ϵ t − 1 − k T ] \sum_{k=0}^{t-1} \sum_{m=0}^{t-1} a^k a^m \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-m}^T \right] = \sum_{k=0}^{t-1} a^k a^k \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-k}^T \right] k=0∑t−1m=0∑t−1akamE[ϵt−1−kϵt−1−mT]=k=0∑t−1akakE[ϵt−1−kϵt−1−kT]
因为 ( k = m k = m k=m ),项变为 ( a k a m = a 2 k a^k a^m = a^{2k} akam=a2k ),且:
E [ ϵ t − 1 − k ϵ t − 1 − k T ] = I \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-k}^T \right] = I E[ϵt−1−kϵt−1−kT]=I
因此:
= ∑ k = 0 t − 1 a 2 k I = \sum_{k=0}^{t-1} a^{2k} I =k=0∑t−1a2kI
4. 乘以 ( b 2 b^2 b2 )
回到协方差定义:
Cov [ w t ] = b 2 E [ ∑ k = 0 t − 1 a k ϵ t − 1 − k ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T ] \text{Cov}[w_t] = b^2 \mathbb{E}\left[ \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \left( \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T \right] Cov[wt]=b2E k=0∑t−1akϵt−1−k(m=0∑t−1amϵt−1−m)T
代入简化的结果:
= b 2 ∑ k = 0 t − 1 a 2 k I = b^2 \sum_{k=0}^{t-1} a^{2k} I =b2k=0∑t−1a2kI
详细解释
为什么只保留对角项?
- ( ϵ i \epsilon_i ϵi ) 的独立性是关键。双重和 ( ∑ k ∑ m \sum_{k} \sum_{m} ∑k∑m ) 中,只有 ( k = m k = m k=m ) 时的项有非零贡献,因为 ( ϵ t − 1 − k \epsilon_{t-1-k} ϵt−1−k ) 和 ( ϵ t − 1 − m \epsilon_{t-1-m} ϵt−1−m ) 只有在同一时间步才相关。
- 其他 ( k ≠ m k \neq m k=m ) 的交叉项期望为零矩阵,消除了非对角贡献。
几何级数的意义
- ( ∑ k = 0 t − 1 a 2 k \sum_{k=0}^{t-1} a^{2k} ∑k=0t−1a2k ) 是几何级数,表示噪声在每次迭代中按 ( a 2 a^2 a2 ) 衰减的累积效应。
- ( I I I ) 保留了各维度的独立性,反映了协方差矩阵的对角结构。
验证与后续步骤
- 这一结果与推导一致,后续用几何级数求和 ( 1 − a 2 t 1 − a 2 \frac{1 - a^{2t}}{1 - a^2} 1−a21−a2t ) 并取极限 ( t → ∞ t \to \infty t→∞ )(当 ( ∣ a ∣ < 1 |a| < 1 ∣a∣<1 ) 时),得到 ( b 2 1 − a 2 I \frac{b^2}{1 - a^2} I 1−a2b2I )。
- 条件 ( b 2 1 − a 2 = 1 \frac{b^2}{1 - a^2} = 1 1−a2b2=1 ) 导出 ( b = 1 − a 2 b = \sqrt{1 - a^2} b=1−a2 )。
总结
协方差 ( Cov [ w t ] = b 2 ∑ k = 0 t − 1 a 2 k I \text{Cov}[w_t] = b^2 \sum_{k=0}^{t-1} a^{2k} I Cov[wt]=b2∑k=0t−1a2kI ) 的推导依赖于 ( ϵ i \epsilon_i ϵi ) 的独立性和期望的线性性。通过将双重和简化为对角项之和,消除了无关的交叉项,最终得到噪声累积的几何级数形式。这一步骤是理解扩散模型收敛机制的关键。
希望这篇详细推导解答了你的疑问!
后记
2025年3月4日15点20分于上海,在grok 3大模型辅助下完成。