去噪扩散模型(Denoising Diffusion Probabilistic Models, DDPM)过渡分布两个标量选取的推导

发布于:2025-03-06 ⋅ 阅读:(13) ⋅ 点赞:(0)

解析扩散模型中的魔术标量 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1αt ):推导与意义

在研究去噪扩散模型(Denoising Diffusion Probabilistic Models, DDPM)时,过渡分布 ( q φ ( x t ∣ x t − 1 ) q_φ(x_t|x_{t-1}) qφ(xtxt1) ) 的定义引入了两个看似“魔术”的标量 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1αt )。这些参数并非随意选择,而是通过数学推导得出的,确保扩散过程最终趋向标准正态分布 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) )。本文将详细介绍这一设计的动机和推导过程,并探讨其在条件分布 ( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xtx0) ) 中的扩展,目标读者是具备概率论和线性代数基础的深度学习研究者。


魔术标量的起源

参考:https://arxiv.org/pdf/2403.18103

问题背景

扩散模型通过逐步添加噪声,将数据 ( x 0 x_0 x0 ) 转化为纯噪声 ( x T ∼ N ( 0 , I ) x_T \sim \mathcal{N}(0, I) xTN(0,I) )。过渡分布定义为高斯分布:

q φ ( x t ∣ x t − 1 ) = N ( x t ∣ α t x t − 1 , ( 1 − α t ) I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α_t} x_{t-1}, (1 - α_t) I) qφ(xtxt1)=N(xtαt xt1,(1αt)I)

这里 ( α t α_t αt ) 是时间步 ( t t t ) 相关的参数(通常 ( 0 < α t < 1 0 < α_t < 1 0<αt<1 )),而 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1αt ) 分别控制均值和方差。你可能会好奇:为什么是 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1αt )?为了解开这个谜团,我们从一般形式入手。

一般形式的假设

假设过渡分布为:

q φ ( x t ∣ x t − 1 ) = N ( x t ∣ a x t − 1 , b 2 I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I) qφ(xtxt1)=N(xtaxt1,b2I)

其中 ( a a a ) 和 ( b b b ) 是待定标量,目标是选择 ( a a a ) 和 ( b b b ),使得通过多次迭代后,( x t x_t xt ) 的分布在 ( t → ∞ t \to \infty t ) 时趋近 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) )。


推导 ( a = α a = \sqrt{α} a=α ) 和 ( b = 1 − α b = \sqrt{1 - α} b=1α )

重参数化形式

根据高斯分布的采样性质,( x t x_t xt ) 可以重参数化为:

x t = a x t − 1 + b ϵ t − 1 , ϵ t − 1 ∼ N ( 0 , I ) x_t = a x_{t-1} + b ϵ_{t-1}, \quad ϵ_{t-1} \sim \mathcal{N}(0, I) xt=axt1+bϵt1,ϵt1N(0,I)

递归展开

通过迭代,逐步展开 ( x t x_t xt ):

  1. ( x t = a x t − 1 + b ϵ t − 1 x_t = a x_{t-1} + b ϵ_{t-1} xt=axt1+bϵt1)
  2. 代入 ( x t − 1 = a x t − 2 + b ϵ t − 2 x_{t-1} = a x_{t-2} + b ϵ_{t-2} xt1=axt2+bϵt2 ):

x t = a ( a x t − 2 + b ϵ t − 2 ) + b ϵ t − 1 = a 2 x t − 2 + a b ϵ t − 2 + b ϵ t − 1 x_t = a (a x_{t-2} + b ϵ_{t-2}) + b ϵ_{t-1} = a^2 x_{t-2} + a b ϵ_{t-2} + b ϵ_{t-1} xt=a(axt2+bϵt2)+bϵt1=a2xt2+abϵt2+bϵt1

  1. 继续递归至初始 ( x 0 x_0 x0 ):

x t = a t x 0 + b ( ϵ t − 1 + a ϵ t − 2 + a 2 ϵ t − 3 + ⋯ + a t − 1 ϵ 0 ) x_t = a^t x_0 + b (ϵ_{t-1} + a ϵ_{t-2} + a^2 ϵ_{t-3} + \cdots + a^{t-1} ϵ_0) xt=atx0+b(ϵt1+aϵt2+a2ϵt3++at1ϵ0)

定义噪声项总和:

w t = b ( ϵ t − 1 + a ϵ t − 2 + a 2 ϵ t − 3 + ⋯ + a t − 1 ϵ 0 ) w_t = b (ϵ_{t-1} + a ϵ_{t-2} + a^2 ϵ_{t-3} + \cdots + a^{t-1} ϵ_0) wt=b(ϵt1+aϵt2+a2ϵt3++at1ϵ0)

则:

x t = a t x 0 + w t x_t = a^t x_0 + w_t xt=atx0+wt

均值和协方差

  • 均值:( E [ x t ] = E [ a t x 0 + w t ] = a t x 0 \mathbb{E}[x_t] = \mathbb{E}[a^t x_0 + w_t] = a^t x_0 E[xt]=E[atx0+wt]=atx0 )(因为 ( E [ ϵ i ] = 0 \mathbb{E}[ϵ_i] = 0 E[ϵi]=0 ))。
  • 协方差:( w t w_t wt ) 是独立高斯变量之和,其协方差为:

Cov [ w t ] = E [ w t w t T ] = b 2 E [ ∑ k = 0 t − 1 a k ϵ t − 1 − k ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T ] \text{Cov}[w_t] = \mathbb{E}[w_t w_t^T] = b^2 \mathbb{E}\left[ \sum_{k=0}^{t-1} a^k ϵ_{t-1-k} \left( \sum_{m=0}^{t-1} a^m ϵ_{t-1-m} \right)^T \right] Cov[wt]=E[wtwtT]=b2E k=0t1akϵt1k(m=0t1amϵt1m)T

由于 ( ϵ i ϵ_i ϵi ) 独立且 ( E [ ϵ i ϵ j T ] = I \mathbb{E}[ϵ_i ϵ_j^T] = I E[ϵiϵjT]=I )(当 ( i = j i = j i=j )),否则为 0:

Cov [ w t ] = b 2 ∑ k = 0 t − 1 a 2 k E [ ϵ t − 1 − k ϵ t − 1 − k T ] = b 2 ∑ k = 0 t − 1 a 2 k I \text{Cov}[w_t] = b^2 \sum_{k=0}^{t-1} a^{2k} \mathbb{E}[ϵ_{t-1-k} ϵ_{t-1-k}^T] = b^2 \sum_{k=0}^{t-1} a^{2k} I Cov[wt]=b2k=0t1a2kE[ϵt1kϵt1kT]=b2k=0t1a2kI

这是一个几何级数:

∑ k = 0 t − 1 a 2 k = 1 − a 2 t 1 − a 2 ( a 2 ≠ 1 ) \sum_{k=0}^{t-1} a^{2k} = \frac{1 - a^{2t}}{1 - a^2} \quad (a^2 \neq 1) k=0t1a2k=1a21a2t(a2=1)

当 ( t → ∞ t \to \infty t ) 且 ( 0 < a < 1 0 < a < 1 0<a<1 )(即 ( ∣ a 2 ∣ < 1 |a^2| < 1 a2<1 )),( a 2 t → 0 a^{2t} \to 0 a2t0 ):

lim ⁡ t → ∞ ∑ k = 0 t − 1 a 2 k = 1 1 − a 2 \lim_{t \to \infty} \sum_{k=0}^{t-1} a^{2k} = \frac{1}{1 - a^2} tlimk=0t1a2k=1a21

因此:

lim ⁡ t → ∞ Cov [ w t ] = b 2 1 − a 2 I \lim_{t \to \infty} \text{Cov}[w_t] = \frac{b^2}{1 - a^2} I tlimCov[wt]=1a2b2I

满足 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) ) 的条件

要使 ( x t x_t xt ) 分布趋近 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) ):

  • 均值 ( E [ x t ] = a t x 0 → 0 \mathbb{E}[x_t] = a^t x_0 \to 0 E[xt]=atx00 ) 要求 ( a t → 0 a^t \to 0 at0 ),故 ( ∣ a ∣ < 1 |a| < 1 a<1 )。
  • 协方差 ( lim ⁡ t → ∞ Cov [ x t ] = b 2 1 − a 2 I = I \lim_{t \to \infty} \text{Cov}[x_t] = \frac{b^2}{1 - a^2} I = I limtCov[xt]=1a2b2I=I ) 要求:

b 2 1 − a 2 = 1 \frac{b^2}{1 - a^2} = 1 1a2b2=1

b 2 = 1 − a 2 b^2 = 1 - a^2 b2=1a2

b = 1 − a 2 ( b > 0 ) b = \sqrt{1 - a^2} \quad (b > 0) b=1a2 (b>0)

设 ( a = α a = \sqrt{α} a=α )(( 0 < α < 1 0 < α < 1 0<α<1 )),则:

b = 1 − α b = \sqrt{1 - α} b=1α

过渡分布

代入 ( q φ ( x t ∣ x t − 1 ) = N ( x t ∣ a x t − 1 , b 2 I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I) qφ(xtxt1)=N(xtaxt1,b2I) ):

q φ ( x t ∣ x t − 1 ) = N ( x t ∣ α x t − 1 , ( 1 − α ) I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α} x_{t-1}, (1 - α) I) qφ(xtxt1)=N(xtα xt1,(1α)I)

扩展到时间步 ( α t α_t αt ):

q φ ( x t ∣ x t − 1 ) = N ( x t ∣ α t x t − 1 , ( 1 − α t ) I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α_t} x_{t-1}, (1 - α_t) I) qφ(xtxt1)=N(xtαt xt1,(1αt)I)

这证实了 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1αt ) 的选择。


条件分布 ( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xtx0) ) 的推导

递归扩展

从 ( x t = α t x t − 1 + 1 − α t ϵ t − 1 x_t = \sqrt{α_t} x_{t-1} + \sqrt{1 - α_t} ϵ_{t-1} xt=αt xt1+1αt ϵt1 ) 开始:

  1. ( x t = α t ( α t − 1 x t − 2 + 1 − α t − 1 ϵ t − 2 ) + 1 − α t ϵ t − 1 x_t = \sqrt{α_t} (\sqrt{α_{t-1}} x_{t-2} + \sqrt{1 - α_{t-1}} ϵ_{t-2}) + \sqrt{1 - α_t} ϵ_{t-1} xt=αt (αt1 xt2+1αt1 ϵt2)+1αt ϵt1 )
  2. 化简:

= α t α t − 1 x t − 2 + α t ( 1 − α t − 1 ) ϵ t − 2 + 1 − α t ϵ t − 1 = \sqrt{α_t α_{t-1}} x_{t-2} + \sqrt{α_t (1 - α_{t-1})} ϵ_{t-2} + \sqrt{1 - α_t} ϵ_{t-1} =αtαt1 xt2+αt(1αt1) ϵt2+1αt ϵt1

定义噪声项 ( w 1 = α t ( 1 − α t − 1 ) ϵ t − 2 + 1 − α t ϵ t − 1 w_1 = \sqrt{α_t (1 - α_{t-1})} ϵ_{t-2} + \sqrt{1 - α_t} ϵ_{t-1} w1=αt(1αt1) ϵt2+1αt ϵt1 ),其协方差:

Cov [ w 1 ] = E [ w 1 w 1 T ] = [ α t ( 1 − α t − 1 ) + ( 1 − α t ) ] I = [ 1 − α t α t − 1 ] I \text{Cov}[w_1] = \mathbb{E}[w_1 w_1^T] = [\alpha_t (1 - α_{t-1}) + (1 - α_t)] I = [1 - α_t α_{t-1}] I Cov[w1]=E[w1w1T]=[αt(1αt1)+(1αt)]I=[1αtαt1]I

  1. 继续递归至 ( x 0 x_0 x0 ):

x t = ∏ i = 1 t α i x 0 + 1 − ∏ i = 1 t α i ϵ 0 x_t = \sqrt{\prod_{i=1}^t α_i} x_0 + \sqrt{1 - \prod_{i=1}^t α_i} ϵ_0 xt=i=1tαi x0+1i=1tαi ϵ0

设 ( α t = ∏ i = 1 t α i α_t = \prod_{i=1}^t α_i αt=i=1tαi ):

x t = α t x 0 + 1 − α t ϵ 0 x_t = \sqrt{α_t} x_0 + \sqrt{1 - α_t} ϵ_0 xt=αt x0+1αt ϵ0

分布形式

( x t x_t xt ) 是高斯变量,均值为 ( α t x 0 \sqrt{α_t} x_0 αt x0 ),噪声项协方差为 ( ( 1 − α t ) I (1 - α_t) I (1αt)I ),故:

q φ ( x t ∣ x 0 ) = N ( x t ∣ α t x 0 , ( 1 − α t ) I ) q_φ(x_t|x_0) = \mathcal{N}(x_t | \sqrt{α_t} x_0, (1 - α_t) I) qφ(xtx0)=N(xtαt x0,(1αt)I)


意义与应用

  • 扩散过程:( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1αt ) 确保多步迭代后 ( x t → N ( 0 , I ) x_t \to \mathcal{N}(0, I) xtN(0,I) )。
  • 条件生成:( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xtx0) ) 描述了从初始数据 ( x 0 x_0 x0 ) 到噪声 ( x t x_t xt ) 的演化,有助于反向去噪。

总结

通过递归推导,( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1αt ) 被证明是唯一满足扩散过程趋向 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) ) 的标量。扩展到 ( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xtx0)) 展示了条件分布的结构,这一设计是 DDPM 成功的关键。

希望这篇博客加深了你的理解!

解析 ( w t w_t wt ) 协方差推导至 ( b 2 ∑ k = 0 t − 1 a 2 k I b^2 \sum_{k=0}^{t-1} a^{2k} I b2k=0t1a2kI ) 的过程

在去噪扩散模型(Denoising Diffusion Probabilistic Models, DDPM)的数学推导中,过渡分布 ( q φ ( x t ∣ x t − 1 ) = N ( x t ∣ a x t − 1 , b 2 I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I) qφ(xtxt1)=N(xtaxt1,b2I) ) 的递归性质需要通过协方差分析来验证其长期行为。推导中,噪声项 ( w t w_t wt ) 的协方差从 ( E [ w t w t T ] \mathbb{E}[w_t w_t^T] E[wtwtT]) 逐步简化为 ( b 2 ∑ k = 0 t − 1 a 2 k I b^2 \sum_{k=0}^{t-1} a^{2k} I b2k=0t1a2kI ),这一步骤涉及高斯变量的性质和期望的线性性质。以下是详细的推导过程,面向具备概率论和线性代数基础的深度学习研究者。


背景回顾

根据上文的推导,定义:

x t = a t x 0 + w t x_t = a^t x_0 + w_t xt=atx0+wt

其中 ( w t w_t wt) 是累积噪声项:

w t = b ( ϵ t − 1 + a ϵ t − 2 + a 2 ϵ t − 3 + ⋯ + a t − 1 ϵ 0 ) w_t = b (\epsilon_{t-1} + a \epsilon_{t-2} + a^2 \epsilon_{t-3} + \cdots + a^{t-1} \epsilon_0) wt=b(ϵt1+aϵt2+a2ϵt3++at1ϵ0)

目标是计算 ( w t w_t wt ) 的协方差矩阵 ( Cov [ w t ] = E [ w t w t T ] \text{Cov}[w_t] = \mathbb{E}[w_t w_t^T] Cov[wt]=E[wtwtT] ),并验证其在 ( t → ∞ t \to \infty t ) 时的极限行为。


协方差的初始表达式

协方差定义为零均值向量 ( w t w_t wt ) 的二阶矩:

Cov [ w t ] = E [ w t w t T ] \text{Cov}[w_t] = \mathbb{E}[w_t w_t^T] Cov[wt]=E[wtwtT]

将 ( w t w_t wt ) 代入:

w t = b ∑ k = 0 t − 1 a k ϵ t − 1 − k w_t = b \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} wt=bk=0t1akϵt1k

则:

w t w t T = ( b ∑ k = 0 t − 1 a k ϵ t − 1 − k ) ( b ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T w_t w_t^T = \left( b \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \right) \left( b \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T wtwtT=(bk=0t1akϵt1k)(bm=0t1amϵt1m)T

取期望:

E [ w t w t T ] = E [ b ∑ k = 0 t − 1 a k ϵ t − 1 − k ⋅ b ∑ m = 0 t − 1 a m ϵ t − 1 − m T ] \mathbb{E}[w_t w_t^T] = \mathbb{E}\left[ b \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \cdot b \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m}^T \right] E[wtwtT]=E[bk=0t1akϵt1kbm=0t1amϵt1mT]

因为 ( b b b ) 是标量,提到期望外:

= b 2 E [ ( ∑ k = 0 t − 1 a k ϵ t − 1 − k ) ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T ] = b^2 \mathbb{E}\left[ \left( \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \right) \left( \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T \right] =b2E (k=0t1akϵt1k)(m=0t1amϵt1m)T

这正是推导中给出的初始形式:

Cov [ w t ] = b 2 E [ ∑ k = 0 t − 1 a k ϵ t − 1 − k ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T ] \text{Cov}[w_t] = b^2 \mathbb{E}\left[ \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \left( \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T \right] Cov[wt]=b2E k=0t1akϵt1k(m=0t1amϵt1m)T


逐步化简

1. 期望的线性性

期望是线性和操作,因此可以交换和期望:

E [ ∑ k = 0 t − 1 a k ϵ t − 1 − k ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T ] \mathbb{E}\left[ \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \left( \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T \right] E k=0t1akϵt1k(m=0t1amϵt1m)T

这表示对所有可能的 ( k k k ) 和 ( m m m ) 组合进行求和。然而,由于 ( ϵ i \epsilon_i ϵi ) 是随机向量,其期望依赖于索引是否匹配。

2. 展开双重和

将双重和展开为:

∑ k = 0 t − 1 ∑ m = 0 t − 1 a k a m E [ ϵ t − 1 − k ϵ t − 1 − m T ] \sum_{k=0}^{t-1} \sum_{m=0}^{t-1} a^k a^m \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-m}^T \right] k=0t1m=0t1akamE[ϵt1kϵt1mT]

  • 噪声的独立性:( ϵ i ∼ N ( 0 , I ) \epsilon_i \sim \mathcal{N}(0, I) ϵiN(0,I) ) 是独立的高斯噪声向量,满足:
    • ( E [ ϵ i ϵ j T ] = I \mathbb{E}[\epsilon_i \epsilon_j^T] = I E[ϵiϵjT]=I ) 当 ( i = j i = j i=j )(因为 ( ϵ i T ϵ i = ∑ d = 1 D ϵ i , d 2 \epsilon_i^T \epsilon_i = \sum_{d=1}^D \epsilon_{i,d}^2 ϵiTϵi=d=1Dϵi,d2 ),期望为迹 ( Tr ( I ) = D \text{Tr}(I) = D Tr(I)=D ))。
    • ( E [ ϵ i ϵ j T ] = 0 \mathbb{E}[\epsilon_i \epsilon_j^T] = 0 E[ϵiϵjT]=0 ) 当 ( i ≠ j i \neq j i=j )(因为独立性,交叉项期望为零矩阵)。

因此,( E [ ϵ t − 1 − k ϵ t − 1 − m T ] \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-m}^T \right] E[ϵt1kϵt1mT] ) 只在 ( k = m k = m k=m ) 时非零:

E [ ϵ t − 1 − k ϵ t − 1 − m T ] = { I if  k = m 0 if  k ≠ m \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-m}^T \right] = \begin{cases} I & \text{if } k = m \\ 0 & \text{if } k \neq m \end{cases} E[ϵt1kϵt1mT]={I0if k=mif k=m

3. 化简双重和为单重和

由于 ( ϵ t − 1 − k \epsilon_{t-1-k} ϵt1k ) 和 ( ϵ t − 1 − m \epsilon_{t-1-m} ϵt1m ) 的期望只在 ( k = m k = m k=m ) 贡献项,展开的和可以简化为对角项之和:

∑ k = 0 t − 1 ∑ m = 0 t − 1 a k a m E [ ϵ t − 1 − k ϵ t − 1 − m T ] = ∑ k = 0 t − 1 a k a k E [ ϵ t − 1 − k ϵ t − 1 − k T ] \sum_{k=0}^{t-1} \sum_{m=0}^{t-1} a^k a^m \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-m}^T \right] = \sum_{k=0}^{t-1} a^k a^k \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-k}^T \right] k=0t1m=0t1akamE[ϵt1kϵt1mT]=k=0t1akakE[ϵt1kϵt1kT]

因为 ( k = m k = m k=m ),项变为 ( a k a m = a 2 k a^k a^m = a^{2k} akam=a2k ),且:

E [ ϵ t − 1 − k ϵ t − 1 − k T ] = I \mathbb{E}\left[ \epsilon_{t-1-k} \epsilon_{t-1-k}^T \right] = I E[ϵt1kϵt1kT]=I

因此:

= ∑ k = 0 t − 1 a 2 k I = \sum_{k=0}^{t-1} a^{2k} I =k=0t1a2kI

4. 乘以 ( b 2 b^2 b2 )

回到协方差定义:

Cov [ w t ] = b 2 E [ ∑ k = 0 t − 1 a k ϵ t − 1 − k ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T ] \text{Cov}[w_t] = b^2 \mathbb{E}\left[ \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \left( \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T \right] Cov[wt]=b2E k=0t1akϵt1k(m=0t1amϵt1m)T

代入简化的结果:

= b 2 ∑ k = 0 t − 1 a 2 k I = b^2 \sum_{k=0}^{t-1} a^{2k} I =b2k=0t1a2kI


详细解释

为什么只保留对角项?

  • ( ϵ i \epsilon_i ϵi ) 的独立性是关键。双重和 ( ∑ k ∑ m \sum_{k} \sum_{m} km ) 中,只有 ( k = m k = m k=m ) 时的项有非零贡献,因为 ( ϵ t − 1 − k \epsilon_{t-1-k} ϵt1k ) 和 ( ϵ t − 1 − m \epsilon_{t-1-m} ϵt1m ) 只有在同一时间步才相关。
  • 其他 ( k ≠ m k \neq m k=m ) 的交叉项期望为零矩阵,消除了非对角贡献。

几何级数的意义

  • ( ∑ k = 0 t − 1 a 2 k \sum_{k=0}^{t-1} a^{2k} k=0t1a2k ) 是几何级数,表示噪声在每次迭代中按 ( a 2 a^2 a2 ) 衰减的累积效应。
  • ( I I I ) 保留了各维度的独立性,反映了协方差矩阵的对角结构。

验证与后续步骤

  • 这一结果与推导一致,后续用几何级数求和 ( 1 − a 2 t 1 − a 2 \frac{1 - a^{2t}}{1 - a^2} 1a21a2t ) 并取极限 ( t → ∞ t \to \infty t )(当 ( ∣ a ∣ < 1 |a| < 1 a<1 ) 时),得到 ( b 2 1 − a 2 I \frac{b^2}{1 - a^2} I 1a2b2I )。
  • 条件 ( b 2 1 − a 2 = 1 \frac{b^2}{1 - a^2} = 1 1a2b2=1 ) 导出 ( b = 1 − a 2 b = \sqrt{1 - a^2} b=1a2 )。

总结

协方差 ( Cov [ w t ] = b 2 ∑ k = 0 t − 1 a 2 k I \text{Cov}[w_t] = b^2 \sum_{k=0}^{t-1} a^{2k} I Cov[wt]=b2k=0t1a2kI ) 的推导依赖于 ( ϵ i \epsilon_i ϵi ) 的独立性和期望的线性性。通过将双重和简化为对角项之和,消除了无关的交叉项,最终得到噪声累积的几何级数形式。这一步骤是理解扩散模型收敛机制的关键。

希望这篇详细推导解答了你的疑问!

后记

2025年3月4日15点20分于上海,在grok 3大模型辅助下完成。


网站公告

今日签到

点亮在社区的每一天
去签到