【LLMs篇】14:扩散语言模型的理论优势与局限性

发布于:2025-06-08 ⋅ 阅读:(17) ⋅ 点赞:(0)
项目 内容
论文标题 扩散语言模型的理论优势与局限性 (Theoretical Benefit and Limitation of Diffusion Language Model)
研究背景 扩散语言模型(尤其是掩码扩散模型 MDM)因其并行生成能力被认为有潜力超越自回归模型,但其在效率-准确性上的权衡尚未被深入理解。
研究方法 1. 理论分析:构建了一个基于隐马尔可夫模型(HMM)和n-gram语言的理论框架。
2. 定义双重指标:使用两个互补的指标来评估模型:
- 词元错误率 (TER):通过困惑度衡量,反映生成文本的流畅性
- 序列错误率 (SER):衡量整个序列的正确性,对推理等任务至关重要。
3. 实证验证:在形式语言和真实语言任务(文本生成、数学推理)上进行实验,验证理论发现。
核心创新点 1. 首次揭示了评估指标对扩散模型效率结论的决定性影响:证明了MDM的效率优势并非绝对,而是依赖于任务和评估标准。
2. 提供了MDM效率的双面理论界定
- 优势 (Benefit):在TER (流畅性)指标下,MDM所需的采样步数与序列长度无关(O(1)),因此在长序列生成上具有显著效率优势。
- 局限 (Limitation):在
SER (正确性)指标下,MDM所需的采样步数必须与序列长度成线性
关系(N = CL),这抵消了其并行采样的效率优势,甚至计算成本更高。
3. 建立了首个理解MDM优势与局限的理论基础,并为不同应用场景下选择生成模型提供了清晰的指导。
主要结论 MDM在需要高流畅性的文本生成任务中是高效的,但在需要高(全序列)正确性的推理等任务中,其效率优势不复存在,可能不如自回归模型。模型的选择应基于具体任务对流畅性和正确性的不同要求。
验证方式 1. 理论证明:在附录中提供了严格的数学推导来支持核心定理。
2. 实验验证
- 形式语言实验:在n-gram和HMM上清晰地展示了TER和SER随采样步数变化的不同趋势,与理论预测一致。
- 真实任务实验:在文本生成(低TER要求)和数学推理(低SER要求)任务上,复现了理论预测的效率差异。

论文具体实现流程总结

本论文的核心是一项理论分析工作,其“实现流程”主要指其研究和验证的逻辑流程,而非一个具体的软件实现。

整体流程概述

该研究通过理论建模和实验验证,系统地探究了掩码扩散模型(MDM)的效率边界。流程的核心是分别在两个关键指标(TER和SER)下分析MDM生成序列所需的计算成本(以采样步数衡量),并与自回归模型进行比较,最终得出其适用场景。

输入 (Input)

  1. 模型框架
    • 待分析模型:掩码扩散模型(MDM)。
    • 基准模型:自回归(Autoregressive)模型。
  2. 理论分析对象
    • 目标语言:形式化的语言模型,如n-gram语言和隐马尔可夫模型(HMM),用于简化和严格化理论推导。
  3. 评估指标 (Metrics)
    • 词元错误率 (TER):基于困惑度,衡量流畅性。
    • 序列错误率 (SER):基于整个序列的正确率,衡量严谨性。
  4. 实验数据
    • 形式语言数据集:通过随机生成的n-gram和HMM参数创建的序列数据。
    • 真实世界数据集:OpenWebText(用于文本生成),GSM8K(用于数学推理)。

核心流转逻辑 (Core Flow Logic)

  1. 形式化定义 (Formalization)

    • 定义MDM:详细描述了MDM的前向(加噪/掩码)过程和逆向(去噪/生成)过程。
    • 定义评估体系:数学上精确定义了TER和SER两个核心指标。
    • 设定理论假设:提出“小误差学习”假设(Assumption 4.1),即MDM能够很好地学习目标数据分布。
  2. 理论分析 - TER (流畅性)

    • 目标:证明MDM在TER指标下是高效的。
    • 过程:推导定理4.2。证明为了达到接近最优的TER,所需的采样步数N是一个不依赖于序列长度L的常数(O(1))。
    • 结论:MDM在生成流畅文本时具有效率优势,尤其对于长序列。
  3. 理论分析 - SER (正确性)

    • 目标:证明MDM在SER指标下效率受限。
    • 过程
      • 首先证明可能性(定理4.3):只要步数足够多,MDM理论上可以实现低SER。
      • 然后证明成本(定理4.4):通过构建一个反例HMM,证明要实现低SER,采样步数N必须与序列长度L线性关系 (N = CL)。
    • 结论:MDM在生成逻辑严谨的序列时,其并行采样的效率优势被消除。
  4. 实证验证 (Empirical Validation)

    • 形式语言实验
      • 在n-gram和HMM数据集上训练MDM和自回归模型。
      • 改变MDM的采样步数(如8, 16, …, 2048),生成大量序列。
      • 分别计算生成序列的TER(困惑度)SER
      • 绘制困惑度 vs. 步数SER vs. 步数的图表(如图1),结果显示TER很快收敛,而SER收敛极慢,完美验证了理论。
    • 真实任务实验
      • 文本生成 (TER导向):使用大型MDM (MDLM-OWT) 生成文本,与GPT2-medium比较。结果显示,MDM用较少步数(如32步)即可达到相当的困惑度,验证了其在流畅性任务上的高效。
      • 数学推理 (SER导向):使用在GSM8K上微调的MDM,与Qwen2-Math模型比较。结果显示,当步数远小于答案长度时,准确率急剧下降,验证了其在正确性任务上的局限性。

输出 (Output)

  1. 理论成果:一系列关于MDM采样效率的定理和引理,清晰界定了其在不同指标下的性能边界。
  2. 实证数据:多组实验图表和数据,直观展示了MDM在流畅性(TER)和正确性(SER)任务上的效率-准确性权衡。
  3. 核心洞见与指导:为学术界和工业界提供了关于何时使用扩散模型、何时坚持使用自回归模型的清晰、有理论依据的指导。
摘要

扩散语言模型已成为一种很有前途的文本生成方法。人们自然会期望这种方法能够有效替代自回归模型,因为在每个扩散步骤中都可以并行采样多个词元(token)。然而,其效率与准确性之间的权衡关系尚未被充分理解。在本文中,我们对一种广泛使用的扩散语言模型——掩码扩散模型(MDM)进行了严格的理论分析,并发现其有效性在很大程度上取决于目标评估指标。在温和的条件下,我们证明了当使用困惑度(perplexity)作为指标时,MDM 可以在不考虑序列长度的情况下,以较少的采样步数实现接近最优的困惑度,这表明可以在不牺牲性能的情况下实现高效率。然而,当使用序列错误率(sequence error rate)——这对于理解序列(如推理链)的“正确性”至关重要——我们表明,所需的采样步数必须与序列长度成线性关系才能获得“正确”的序列,从而消除了 MDM 相较于自回归模型的效率优势。我们的分析为理解 MDM 的优势和局限性建立了第一个理论基础。所有的理论发现都得到了实证研究的支持。


1. 引言

扩散模型(Ho et al., 2020; Song et al., 2021b)已成为生成模型领域一个强大的范式,在图像合成方面取得了最先进的性能(Karras et al., 2022; Song et al., 2021a)。它们在离散域的扩展为生成序列开辟了新的可能性,例如自然语言(Campbell et al., 2022; Dieleman et al., 2022; Zheng et al., 2023; Lou et al., 2024; Campbell et al., 2024; Lovelace et al., 2024)和生物序列(Rastogi et al., 2022; Vignac et al., 2022; Sun & Yang, 2023; Avdeyev et al., 2023)。在各种离散扩散架构中,掩码扩散模型(MDMs)(Shi et al., 2024; Sahoo et al., 2024; Ou et al., 2024)——通过迭代地将掩码转换为词元来生成序列——已成为一种杰出的方法,并在各种语言建模任务中表现出具有竞争力的性能。

自回归模型是逐词元生成序列的,而离散扩散模型可以在每个步骤(逆向过程)中同时生成多个词元。因此,很自然地可以假设这种并行采样提高了生成效率。然而,我们认为,要得出结论需要同时考虑计算成本和生成质量。具体来说,我们提出以下问题:当生成的内容达到可接受的质量标准时,离散扩散模型是否能实现更高的效率?这个问题可能有多种答案。如果扩散模型在保持质量的同时需要更少的神经网络执行次数,它们就能提供更好的加速。相反,如果它们的执行次数与自回归模型相当或更多,那么扩散语言模型可能不是一个更好的选择。

为了回答上述问题,我们利用两个互补的指标来评估 MDM 在语言建模中的效率。第一个指标是词元错误率(token error rate, TER),它量化了词元级别的准确性,并与生成文本的流畅性相关。在实践中,困惑度是衡量语言模型词元级别错误的广泛使用指标(Jelinek et al., 1977; Devlin et al., 2019);因此,我们在本文中通过困惑度来定义 TER。第二个指标是序列错误率(sequence error rate, SER),它评估整个序列的正确性,这对于需要逻辑正确序列的推理任务至关重要。我们提供了一个自然的 SER 定义,反映了整个序列的正确性。这些指标共同构成了对 MDM 在词元级别和序列级别指标下效率的全面评估。我们首先给出了一个关于 TER 的积极理论结果。我们证明,在温和条件下,MDM 可以在不考虑序列长度 L 的情况下,以较少的采样步数实现接近最优的 TER。与必须执行 L 次才能生成序列的自回归模型相比,MDM 表现出显著的效率提升,尤其是在生成长度较长时。


2. 相关工作

离散扩散模型。 自回归范式在语言建模中取得了巨大成功(Dai, 2019; Floridi & Chiriatti, 2020; Achiam et al., 2023)。然而,其从左到右、逐词元生成的方并非没有局限性。值得注意的是,它面临着诸如可控性受限(Zhang et al., 2023)和推理速度效率低下(Leviathan et al., 2023)等挑战。为了克服这些缺点,受图像生成领域扩散模型成功的启发(Sohl-Dickstein et al., 2015; Song et al., 2021a; Karras et al., 2022),研究人员已将这些技术应用于自然语言处理任务(Austin et al., 2021; He et al., 2022; Chen et al., 2022; Meng et al., 2022; Ye et al., 2023; Gulrajani & Hashimoto, 2023; Zhang et al., 2024)。特别是离散扩散模型,已经显示出有希望的结果,在多个自然语言处理基准测试中取得了与自回归模型相当的性能。

离散扩散模型可以根据逆向过程的初始化策略进行分类:(1)从掩码序列开始的逆向过程和(2)从词表中随机采样词元序列开始的逆向过程。第一类,称为掩码扩散模型(MDMs),包括 SEDD Absorb(Lou et al., 2024)及其在后续工作中的简化变体(Sahoo et al., 2024; Zhao et al., 2024; Shi et al., 2024; Ou et al., 2024; Zheng et al., 2024)。第二类包括像 SEDD Uniform(Lou et al., 2024)这样的模型,以及后续研究中引入的扩展(Campbell et al., 2024)。值得注意的是,Gat et al. (2024); Davis et al. (2024) 和 Campbell et al. (2024) 进一步将流匹配(flow-matching)扩展到离散域,但初始化策略不同:前者采用掩码序列,而后者则为逆向过程使用定制的分布。

掩码扩散模型。 在两类主要的离散扩散模型中,MDM 一直表现出卓越的性能和可扩展性(Lou et al., 2024; Campbell et al., 2024)。例如,在 Lou et al. (2024) 的工作中,SEDD 的掩码变体在一系列基准测试中显著优于其均匀(uniform)对应物。同样,Campbell et al. (2024) 报告称,掩码变体在大多数语言任务中取得了更好的结果。此外,最近的进展已成功将 MDM 扩展到超过10亿参数(Gat et al., 2024; Nie et al., 2024; Gong et al., 2024; Shi et al., 2024),凸显了它们对大规模自然语言处理模型的鲁棒性和适应性。本文中,我们专注于 MDM,我们的理论贡献可以应用于所有 MDM,包括离散流匹配的掩码变体。

自然语言处理任务中的各种指标。 自然语言处理任务中的评估指标内在地与其各自领域的特定目标和要求相关联。对于通用语言建模任务,困惑度(Jelinek et al., 1977; Devlin et al., 2019)因其能有效捕捉模型的预测性能而仍然是首选指标。然而,特定领域的任务通常需要更专门的评估标准。例如,在机器翻译中(Bahdanau, 2014; Wu et al., 2016),BLEU 分数被广泛视为翻译质量的标准度量(Papineni et al., 2002),而文本生成任务(Sutskever, 2014)则频繁依赖 ROUGE 等指标来评估输出的保真度(Lin, 2004)。类似地,需要推理的任务(Wei et al., 2022b),如数学(Bubeck et al., 2023)或代码生成(Roziere et al., 2023; Ouyang et al., 2023),通常采用准确率作为一种直观且直接的成功度量。


3. 掩码扩散语言模型

不失一般性,我们研究序列生成任务,其中序列长度上限为 L。令 V 表示词汇表。MDM(Lou et al., 2024; Shi et al., 2024; Gong et al., 2024; Sahoo et al., 2024)通过引入一个特殊的掩码词元 [m] 来扩展词汇表 V。前向扩散过程将一个初始序列 x₀ = (x₀⁰, x₀¹, …, x₀ᴸ⁻¹) ∈ Vᴸ 逐渐转换为一个完全被掩码的序列 x₁ = ([m], [m], …, [m])。

然而,我们表明当考虑 SER 时,这种效率优势会减弱。我们从理论上证明,为了实现低 SER,MDM 所需的采样步数至少与序列长度成线性关系。直观地看,这个限制源于 SER 作为一个衡量整个序列的指标,要求生成的序列在整个序列中没有任何错误,这迫使 MDM 每步只能采样少量词元以减轻这种不一致性。因此,所需的采样步数可能会很大。值得注意的是,在相同架构下,MDM 的每个采样步通常比自回归模型的单步计算成本更高,因此在该指标下,MDM 没有任何效率优势。

最后,我们通过全面的实验验证了我们的理论发现。我们的实验在形式语言上检验了 MDM,包括 n-gram 语言和隐马尔可夫模型(HMMs),系统地分析了在 TER 和 SER 两个指标下性能与效率之间的关系。在自然语言任务上的额外实验,包括文本生成的 TER 评估和 GSM8k 数据集(Cobbe et al., 2021)上的 SER 评估,也证实了我们的理论预测:虽然实现低 SER 需要大量的采样步数,但相对较少的步数就足以实现低 TER。这些结果为在不同应用中部署扩散语言模型提供了实用的指导。

3.1. 前向过程

给定一个序列 x₀ 和一个掩码调度 αt,在时间 t ∈ [0, 1] 的序列 xt 的分布表示为:
q t ∣ 0 ( x t ∣ x 0 ) = ∏ i = 0 L − 1 q t ∣ 0 ( x t i ∣ x 0 i ) ( 1 ) q_{t|0}(x_t | x_0) = \prod_{i=0}^{L-1} q_{t|0}(x_t^i | x_0^i) \quad (1) qt∣0(xtx0)=i=0L1qt∣0(xtix0i)(1)
其中
q t ∣ 0 ( x t i ∣ x 0 i ) = { α t , x t i = x 0 i , 1 − α t , x t i = [ m ] . q_{t|0}(x_t^i | x_0^i) = \begin{cases} \alpha_t, & x_t^i = x_0^i, \\ 1 - \alpha_t, & x_t^i = [m]. \end{cases} qt∣0(xtix0i)={αt,1αt,xti=x0i,xti=[m].
掩码调度 αt 的设计使得 α₀ = 1,确保序列在过程开始时保持未掩码状态。与连续扩散方法类似(Ho et al., 2020; Song et al., 2021a; Karras et al., 2022),我们设置 α₁ = 0(或一个接近零的值),确保序列在前向过程结束时完全被掩码。

3.2. 逆向过程

逆向过程通过逆转前向动态从一个被掩码的版本重建序列。给定时间 t 的序列 xt 和原始序列 x₀,时间 s < t 的序列 xs 的条件分布定义为:
q s ∣ t , 0 ( x s ∣ x t , x 0 ) = 1 − α s 1 − α t δ x t ( x s ) + α s − α t 1 − α t δ x 0 ( x s ) q_{s|t,0}(x_s|x_t, x_0) = \frac{1 - \alpha_s}{1 - \alpha_t} \delta_{x_t}(x_s) + \frac{\alpha_s - \alpha_t}{1 - \alpha_t} \delta_{x_0}(x_s) qst,0(xsxt,x0)=1αt1αsδxt(xs)+1αtαsαtδx0(xs)
其中 δy(x) 是克罗内克 δ 函数。对 x₀ 进行边缘化,得到真实的逆向过程 q(xs|xt):
q s ∣ t ( x s ∣ x t ) = ∏ i = 0 L − 1 q s ∣ t ( x s i ∣ x t i ) , 其中 q_{s|t}(x_s|x_t) = \prod_{i=0}^{L-1} q_{s|t}(x_s^i|x_t^i), \quad \text{其中} qst(xsxt)=i=0L1qst(xsixti),其中
q s ∣ t ( x s i ∣ x t i ) = { 1 , x s i ≠ [ m ] , x t i = x s i , 1 − α s 1 − α t , x s i = [ m ] , x t i = [ m ] , q 0 ∣ t ( x s i ∣ x t i ) , x s i = [ m ] , x t i ≠ [ m ] , 0 , otherwise . ( 2 ) q_{s|t}(x_s^i|x_t^i) = \begin{cases} 1, & x_s^i \neq [m], x_t^i = x_s^i, \\ \frac{1 - \alpha_s}{1 - \alpha_t}, & x_s^i = [m], x_t^i = [m], \\ q_{0|t}(x_s^i|x_t^i), & x_s^i = [m], x_t^i \neq [m], \\ 0, & \text{otherwise}. \end{cases} \quad (2) qst(xsixti)= 1,1αt1αs,q0∣t(xsixti),0,xsi=[m],xti=xsi,xsi=[m],xti=[m],xsi=[m],xti=[m],otherwise.(2)
在 MDM 中,通常使用一个参数化的逆向模型 pθ 来近似分布 q₀|t(x₀|x+)。这个模型通过最小化证据下界(ELBO)(Lou et al., 2024; Shi et al., 2024; Gong et al., 2024; Sahoo et al., 2024)关于数据分布 q₀ 的负对数似然来训练。

推理。 MDM 框架内的推理需要将逆向过程离散化,以迭代地从一个完全掩码的序列中重建。令 T 表示采样步数。从一个完全掩码的序列开始,去噪过程通过 qs|t(xs | xt) 进行,其中 s = (i-1)/T 且 t = i/T。在每一步,模型首先从条件分布 pθ(x₀ | xt) 中采样 x₀,然后根据 q(xs | xt, x₀) 对特定词元进行掩码。

在实践中,逆向模型使用一个分解的去噪模型进行参数化,其中条件分布 pθ(x₀ | xt) 表示为:
p θ ( x 0 ∣ x t ) = ∏ i = 1 L p θ ( x 0 i ∣ x t ) . ( 3 ) p_\theta(x_0 | x_t) = \prod_{i=1}^{L} p_\theta(x_0^i | x_t). \quad (3) pθ(x0xt)=i=1Lpθ(x0ixt).(3)
这里,每个词元都使用 pθ(x₀ⁱ | xt) 独立预测,允许高效的并行采样。然而,这种分解方法带来了一个显著的限制:它忽略了序列内词元之间的相互依赖性。因此,分解模型 pθ(x₀ | xt) 无法精确匹配真实的逆向分布 q(x₀ | xt)(Xu et al., 2024)。在本文中,我们分析了在这种采样方法下,如何才能在效率和生成序列质量之间取得有利的平衡。


4. 理论分析

在图像生成中,主要目标通常是产生视觉上吸引人且无缝的图像(Heusel et al., 2017)。而语言生成则更具任务特定性。根据应用的不同,用户可能更喜欢流畅的输出(如文章写作),或者精确且准确的推理(如解决问题的任务)。在本节中,我们探讨 MDM 在处理不同语言任务时,相对于不同评估指标的采样效率。

4.1. 符号和问题设定

我们的研究采用隐马尔可夫模型(HMM)框架来分析自然语言生成。本节建立了我们后续分析所基于的形式化符号和问题设定。

HMMs(Eddy, 1996)为具有潜在结构的序列数据建模提供了概率基础,其中观察到的序列是由一个不可观察的隐藏状态序列生成的。形式上,一个 HMM H = (S, V, A, B, π) 由以下组件表征:一个有限的隐藏状态集 S = {s₁, s₂, …, sN},一个可观察的词汇表 V,一个状态转移概率矩阵 A ∈ Rᴺˣᴺ,一个发射概率矩阵 B ∈ Rᴺˣ|V|,以及一个初始状态分布 π ∈ Rᴺ。给定一个观察序列 x = (x₁, x₂, …, xL) ∈ Vᴸ 和一个隐藏状态序列 s = (s₁, s₂, …, sL) ∈ Sᴸ,HMM 的生成过程由以下概率关系控制:
Pr ( s 1 ) = π s 1 , Pr ( x i ∣ s i ) = B s i , x i Pr ( s i ∣ s 1 : i − 1 ) = Pr ( s i ∣ s i − 1 ) = A s i − 1 , s i \text{Pr}(s_1) = \pi_{s_1}, \quad \text{Pr}(x_i | s_i) = B_{s_i, x_i} \\ \text{Pr}(s_i | s_{1:i-1}) = \text{Pr}(s_i | s_{i-1}) = A_{s_{i-1}, s_i} Pr(s1)=πs1,Pr(xisi)=Bsi,xiPr(sis1:i1)=Pr(sisi1)=Asi1,si
这种形式化使 HMM 能够捕捉隐藏状态之间的序列依赖关系及其与观察数据的概率关系。在自然语言处理领域,HMM 是模拟自然语言的基本统计工具(Eddy, 1996; Marti & Bunke, 2001)。HMM 的一个显著特例是 n-gram 语言模型(Brown et al., 1992),它估计一个词元在给定其前 n-1 个词元的情况下的概率。尽管 n-gram 模型很简单,但它们是自然语言处理任务中的基础工具(Brown et al., 1992; De Novais et al., 2010)。此外,Liu et al. (2024) 指出,扩大 n-gram 模型也可以实现与现代大型语言模型相当的性能。

形式上,我们的目标是解决以下问题:如果 MDM 能够近似一个目标 HMM 模型,其计算成本是多少,并且 MDM 是否比自回归模型有优势?为了评估 MDM 的近似质量,我们采用了两个广泛使用的指标:TER 和 SER,它们量化了模型性能的不同方面。

词元错误率(Token Error Rate)。 在实践中,困惑度是评估语言模型词元级别错误最广泛使用的指标之一。它量化了模型在预测序列中下一个词元时的不确定性,并作为评估文本生成质量的标准度量。在本文中,我们通过困惑度来定义 TER。具有较低 TER 的模型通常被认为在生成流畅和连贯的文本方面更有效。形式上,给定一个基准语言模型 q 和一个被评估的模型 p,TER 计算如下:
TER ( p ) = 2 E x ∼ q [ − 1 L log ⁡ ( p ( x ) ) ] . ( 4 ) \text{TER}(p) = 2^{\mathbb{E}_{x \sim q}[-\frac{1}{L} \log(p(x))]}. \quad (4) TER(p)=2Exq[L1log(p(x))].(4)

序列错误率(Sequence Error Rate)。 SER 评估整个序列的正确性,而非单个词元。令 q 表示在词汇表 V 上定义的目标语言,并令 Lq = {x ∈ V* | q(x) > 0} 表示分布 q 的支持集。对于一个生成模型 p,SER 定义为:
SER ( p ) = 1 − ∑ x ∈ L q p ( x ) . ( 5 ) \text{SER}(p) = 1 - \sum_{x \in \mathcal{L}_q} p(x). \quad (5) SER(p)=1xLqp(x).(5)
该指标量化了模型生成落在基准分布支持集之外的序列的概率。

与 TER 相比,SER 施加了更严格的评估标准,因为它要求整个序列的正确性。这使得 SER 特别适用于需要逻辑一致性或推理的任务,其中完整推理链的正确性至关重要。

4.2. MDM 可以高效生成低 TER 的句子

在本小节中,我们严格考察 MDM 的采样效率,证明 MDM 能够高效地生成具有接近最优 TER 的句子。为了建立主要的理论结果,我们假设 MDM 具有足够的表达能力,并从以下假设开始:

假设 4.1(小误差学习)。 令 q 表示目标语言模型,词汇表为 V,令 pθ 表示在掩码调度 αt 下训练的、用于近似生成目标语言的逆向模型。假设存在一个 ϵ_learning > 0,使得 pθ 与生成语言 q 的逆向过程分布之间的 KL 散度以 ϵ_learning 为界,即:
D K L ( q 0 ∣ t ( x 0 ∣ x t ) ∣ ∣ p θ ( x 0 ∣ x t ) ) < ϵ learning , ∀ t  and  x t . D_{KL}(q_{0|t}(x_0|x_t) || p_\theta(x_0|x_t)) < \epsilon_{\text{learning}}, \quad \forall t \text{ and } x_t. DKL(q0∣t(x0xt)∣∣pθ(x0xt))<ϵlearning,t and xt.
值得注意的是,pθ(x₀ | xt) = q₀|t(x₀ | xt) 代表了训练期间 ELBO 损失的最优解。假设 4.1 意味着 MDM 模型训练得很好,并且仅以一个小的误差近似了基准分布。

在 MDM 推理期间,时间间隔 [0, 1] 被离散化为 N 步,其中 ti = i/N, i ∈ [N],并从一个完全掩码的序列中迭代地重建序列。以下定理表明,即使采样步数很少,逆向过程生成的序列分布也能实现接近最优的 TER。因此,MDM 在生成 n-gram 语言方面表现出高效率。

定理 4.2(n-Gram 语言生成的 TER 界限)。 对于任何 n-gram 语言 q 和任何 ϵ > 0,令 pθ 表示逆向模型,L 表示序列长度。由 pθ 生成的序列分布记为 p。对于任何 L > O(n^(n+0.5)/ϵ),在假设 4.1 下,存在一个掩码调度 αt,使得当采样步数 N = O(1/ϵ) 时,MDM 的 TER 上界为:
log ⁡ TER ( p ) ≤ log ⁡ TER ( q ) + ϵ learning + 4 ϵ log ⁡ ∣ V ∣ . ( 6 ) \log \text{TER}(p) \le \log \text{TER}(q) + \epsilon_{\text{learning}} + 4\epsilon \log |V|. \quad (6) logTER(p)logTER(q)+ϵlearning+4ϵlogV∣.(6)
该定理的证明见附录 B。

定理 4.2 表明 MDM 可以高效地生成高保真度的句子。值得注意的是,对于给定的数据分布 q,当 p = q 时,语言模型 p 的 TER 达到其全局最小值。为确保采样期间与最优 TER 的差距最多为 ϵ,所需的采样步数由 O(1/ϵ) 限定。

上述结果表明,为了实现接近最优的 TER,MDM 仅需一个与序列长度无关的采样步数。

4.3. MDM 无法以低成本生成低 SER 的句子

在本小节中,我们考察 MDM 中的 SER 采样,并强调 MDM 在生成逻辑严谨语言方面的一个根本局限。我们首先确定,通过足够的采样步数,MDM 能够以完美的 SER 近似目标 HMM 模型。

定理 4.3(足够步数下 HMM 的精确生成)。 令 q 表示任何 HMM,pθ 表示在任意掩码调度下的逆向模型,其中 L 是序列长度。令 p 表示由 pθ 生成的序列分布。在假设 4.1 下,学习误差 ϵ_learning < O(1/L²),并且给定足够数量的逆向步数,生成文本的序列错误率 SER§ 满足:
SER ( p ) ≤ δ . \text{SER}(p) \le \delta. SER(p)δ.
定理 4.3 的完整证明详见附录 C.1。虽然这个结果确立了 MDM 实现低 SER 的理论能力,但我们仍需估计实现它所需的计算成本。以下定理为这个问题提供了一个负面结果。

定理 4.4(HMM 生成的 SER 界限)。 存在一个在大小为 16 的词汇表上的 HMM q,满足以下条件:对于任何在假设 4.1 下学习误差 ϵ_learning < 1/128 的逆向模型 pθ,以及任何掩码调度 αt,令 p 表示由 pθ 生成的序列分布。存在一个常数 C,如果采样步数满足 N = CL,其中 L 是序列长度,则生成文本的 SER 下界为:
SER ( p ) > 1 2 . \text{SER}(p) > \frac{1}{2}. SER(p)>21.
该证明见附录 C.2。

定理 4.4 表明,为了生成低 SER 的序列,MDM 中的采样步数必须至少与序列长度 L 成线性关系,这表明 MDM 和自回归模型之间的神经网络执行次数是相当的。然而,MDM 的这种扩展定律通常导致比自回归模型高得多的计算成本。例如,在基于 Transformer 的架构中,MDM 的每个执行步骤在 L 方面具有二次计算复杂度,而自回归 Transformer 模型在每个生成步骤中具有线性复杂度(通过重用存储的 KV 缓存)。因此,在对准确性要求高的应用中,MDM 相对于自回归模型没有计算效率优势。

此外,一些先前的工作(Sahoo et al., 2024; Ou et al., 2024)提出了高效的采样策略,即当在给定步骤中没有词元从 [m] 修改时,重用缓存的输出来避免额外的网络前向传播。尽管如此,我们的理论结果仍然适用于这些采样策略,如附录 D 所讨论。

TER 和 SER 是否冲突? 上述结果揭示,MDM 可以高效地生成低 TER 的句子,但在 SER 评估下可能会产生更高的成本。人们可能会认为这些结果是矛盾的。注意,一些先前的工作已经表明 TER(即困惑度)可能无法反映模型在解决几个长序列理解任务中的真实性能(Huang et al., 2022; Hu et al., 2024; Luden et al., 2024)。因此,根据所使用的指标得出不同的结论是很自然的。

此外,许多实际场景表明,评估指标的选择显著影响了对其他问题的结论。例如,虽然社区以前关注的是涌现现象,但最近 Wei et al. (2022a) 和 Schaeffer et al. (2024) 的工作表明,这种现象可能源于使用了非平滑的评估指标。我们的工作进一步揭示了关于 MDM 效率的结论在很大程度上取决于所采用的评估指标。具体来说,MDM 在优先考虑流畅性的应用中表现出色。相比之下,对于需要高精度轨迹的推理密集型任务,MDM 可能无法提供相对于自回归模型的显著效率优势。


5. 实验

我们进行了一系列实验,以从经验上验证理论发现,重点评估 MDM 在不同指标下的采样质量和计算效率。结果显示,虽然 MDM 能有效生成低 TER 的序列,但实现低 SER 需要大量的计算资源。我们将首先介绍我们的实验设置,然后展示实验结果。
在这里插入图片描述
图1: MDM在形式语言上的采样效率与质量 上图展示了在 n-gram 语言(n ∈ {2, 3, 4})和 HMM 上,生成序列的生成困惑度与采样步数的关系。y 轴表示生成困惑度,x 轴表示采样步数,最后一个点表示自回归模型的性能。下图显示了相同形式语言下,生成序列的 SER 与采样步数的关系。y 轴表示 SER,x 轴与上图相同。每个条形上方的数字表示在该采样步数下,MDM 相对于自回归模型的加速比。

5.1. 实验设置

任务和数据集。 首先,我们在多种形式语言上评估了 MDM,包括 n-gram 语言(n ∈ {2,3,4})和 HMM。对于每种形式语言,转移矩阵、观察矩阵和初始分布等参数都是通过随机采样生成的。参数生成过程的详细描述以及所得序列的示例见附录 E.1。我们使用这些形式语言构建了包含 1,000,000 个样本的数据集,其中 990,000 用于训练,10,000 用于验证。在使用形式语言模型生成数据集时,我们将最大长度设为 512。

模型训练。 我们采用基于 Transformer 的架构作为骨干模型,因为它们在序列建模任务中具有可扩展性和表达能力。包括层数、隐藏维度和位置编码方案在内的详细架构信息在附录 E.2 的表 2 中提供。训练过程遵循 Sahoo et al. (2024) 提出的框架,额外的训练配置详见表 3。模型训练了 20 个周期,并使用验证集监控其收敛性。困惑度被用作主要的收敛指标,训练后的模型达到了与生成数据集的基准语言模型一致的最优困惑度值。

评估指标。 为了评估生成序列的质量,我们使用 TER 和 SER 作为主要评估指标,与我们的理论框架保持一致。计算效率基于采样步数进行评估。遵循先前的工作(Lou et al., 2024; Xu et al., 2024),我们采用生成困惑度作为 TER 指标,以评估不同采样步数下的样本质量。我们使用基准模型计算 MDM 生成序列的似然,然后将其转换为困惑度分数。SER 直接使用其在公式(5)中的定义进行计算,利用基准模型进行评估。对于序列生成,我们使用了先前工作(Sahoo et al., 2024)中提出的 ddpm_cache 采样器,以确保高效采样。计算效率通过采样步数来衡量,我们还在附录 D 中进一步讨论了 ddpm_cache 在不同采样步数下的影响。此外,我们还测试了 MDM 在不同采样步数下相对于自回归模型的真实加速比。
在这里插入图片描述
图2: 语言任务评估 左子图展示了 MDLM-OWT 在不同采样步数下的文本生成质量,以 GPT2-medium 为基线。y 轴表示 2000 个生成文本的平均生成困惑度,x 轴表示采样步数。上方的数字表示 MDLM-OWT 在不同采样步数下相比 GPT2-medium 的加速比。右子图显示了 MDM 在 GSM8K 基准测试中不同采样步数下的准确率,以 Qwen-Math-1.5B 为基线。y 轴表示准确率,x 轴表示采样步数。

为了将 MDM 与自回归模型进行比较,我们在由形式语言生成的相同数据集上,用相同的架构和模型大小训练了自回归模型。这些模型在相同的指标下进行评估,作为性能比较的基线。训练配置在表 4 中提供。

5.2. 实验结果

实验结果如图 1 所示。上子图显示了在不同形式语言和不同采样步数下的生成困惑度。x 轴表示采样步数,从 8 到 2048 不等,y 轴衡量生成困惑度,数值越低表示文本流畅度和词元级准确性越高。自回归模型的性能作为 x 轴上的最后一个点进行比较。如图所示,MDM 以相对较少的采样步数实现了接近最优的生成困惑度。为了达到与自回归模型相似的困惑度,MDM 仅需约 64 步,并展示了相比自回归模型 1.57 倍的加速。这表明即使采样步数很少,MDM 也能高效地生成流畅的序列。随着采样步数的增加,MDM 的性能接近自回归模型,收敛到相似的生成困惑度水平。

下子图评估了采样步数与 SER 之间的关系,SER 衡量整个序列的正确性。x 轴同样表示采样步数,自回归模型的性能作为基线,y 轴衡量 SER,数值越低表示序列级准确性越高。与上子图相比,该子图揭示了随着采样步数的增加,SER 的改善速度较慢。对于这些形式语言,实现低 SER 需要明显更多的采样步数。此外,即使采样步数达到 2048,MDM 和自回归模型之间的 SER 仍存在差距。这些结果表明,自回归模型在 SER 方面保持明显优势,因为它们的逐词元生成在这些任务中实现了零 SER。

图 1 从经验上突显了 MDM 的效率与准确性之间的权衡。虽然 MDM 在生成具有低 TER 的流畅输出方面表现出色,但它们需要大量的采样步数才能实现低 SER,尤其是在需要序列级正确性的推理密集型任务中。这些实验结果进一步强化了我们的理论发现。


6. 在大型模型上的初步实验

我们进一步使用开源 MDM 在语言任务上进行了一系列广泛的实验。首先,我们使用 MDLM-OWT(Sahoo et al., 2024)——一个在 OpenWebText(Gokaslan & Cohen, 2019)上训练的扩散语言模型——来评估文本生成的质量。为了公平比较,我们评估了大小相似的 GPT2-medium(Radford et al., 2019)。其次,我们探讨了 MDM 在 GSM8K 数据集(Cobbe et al., 2021)上的数学推理能力。考虑到小模型通常推理性能较差,我们使用了一个由 Nie et al. (2024) 提出的、拥有 11 亿非嵌入参数的微调扩散语言模型,并将其与一个参数数量相似的模型进行比较。生成困惑度代表了 TER 指标,而数学推理的准确率则衡量 SER。

文本生成。 对于文本生成,我们使用了 MDLM-OWT,其上下文长度为 1024,大小与 GPT2-medium 相似,并在 OWT 数据集上训练。由于我们的目标是比较 MDM 相对于自回归模型的加速,并检验步数对文本生成质量的影响,模型的绝对大小和能力不那么重要。我们使用了 ddpm_cache 采样器和 GPT2 分词器。对于 4 到 2048 的采样步数,我们生成了 2000 个长度为 1024 的样本,并使用 GPT2-large 评估其生成困惑度。为了与自回归模型比较,我们以 GPT2-medium 作为基线,并以同样的方式计算其生成困惑度。

实验结果显示在图 2 的左子图中,它展示了 MDLM-OWT 在不同采样步数下的文本生成质量,以 GPT2-medium 为基线。x 轴表示采样步数,y 轴表示 2000 个生成文本的平均生成困惑度,较低的困惑度表示更高的流畅性,从而有更低的 TER。上方的数字表示 MDLM-OWT 在不同采样步数下相比 GPT2-medium 的加速比。如图所示,MDLM-OWT 仅用 32 步就达到了与 GPT2-medium 相当的生成困惑度,此时有 2.28 倍的加速,并且随着采样步数的增加,困惑度持续下降并收敛。这表明 MDM 可以在保证高流畅性的同时高效地生成文本,展示了 MDM 在基础语言生成任务中大规模应用的潜力。

数学推理。 对于数学推理,我们使用了 Nie et al. (2024) 提供的 MDM,该模型在 SlimPajama(Soboleva et al., 2023)上进行了 3.3 × 10²¹ FLOPs 的训练,拥有 11 亿非嵌入参数,并在 GSM8K 上进行了微调。这是迄今为止第一个在数学推理任务上进行微调的 MDM。我们为 1 到 256 的采样步数生成了最大长度为 256 的答案。由于在相同规模下微调于 GSM8K 的模型很少,我们选择了 Qwen2-Math-1.5B(Yang et al., 2024)作为基线。我们遵循广泛使用的语言模型评估框架(Gao et al., 2024)评估其性能,并计算了生成答案的平均长度,这部分反映了模型的效率。

实验结果显示在图 2 的右子图中。对于所有测试的步数,MDM 生成答案的平均长度约为 30,而基线模型的平均长度约为 105。与文本生成不同,MDM 在数学推理任务上没有显示出比自回归模型显著的优势。当步数低于序列长度时,MDM 的准确率急剧下降,而当样本数超过序列长度时,其准确率仅有轻微提升。虽然后者可能是由于我们使用的 MDM 的局限性,但前者很可能是由于采样不足,导致了高的序列错误率。值得注意的是,MDM 和基线模型的实验设置不同,因此基线准确率仅供参考。

总结。 图 2 展示了 MDM 在语言任务上的性能及其对采样步数的依赖性。对于文本生成,MDLM-OWT 以较少的采样步数达到了与 GPT2-medium 相当的性能,展示了在生成流畅文本方面的效率。相反,MDM 在 GSM8K 准确率上没有显示出显著优势,当步数低于序列长度时性能迅速下降。这些结果凸显了 MDM 在文本生成方面的能力,但表明其在与推理相关的任务中面临挑战。


7. 结论与局限性

结论。 本文对 MDM 在各种指标下的效率进行了严格的理论和实证分析。我们证明,MDM 可以在不考虑序列长度的情况下,以固定的采样步数实现接近最优的 TER,这使得它们在强调流畅性的任务中非常高效。然而,当使用 SER 进行评估时,MDM 需要与序列长度成线性关系的采样步数,从而抵消了其相对于自回归模型的效率优势。这些发现突显了效率和准确性之间的权衡,具体取决于评估指标。实验结果进一步加强了我们在形式语言和自然语言任务上的理论结果,为部署 MDM 提供了实用的指导。虽然 MDM 在优先考虑流畅性的应用中展示了效率优势,但它们在需要高准确性的推理密集型任务中可能不如自回归模型。

局限性。 我们的研究侧重于使用 HMM 建模的形式语言,虽然这些是基础,但仍与现代语言模型有所不同。将此分析扩展到更高级的语言模型是未来工作的一个重要方向。此外,我们主要分析了掩码扩散模型,但更广泛的基于扩散的语言模型家族,包括像 SEDD-uniform(Lou et al., 2024)这样的变体,需要进一步的研究。总之,虽然我们的工作为 MDM 建立了理论上的理解,但仍需进一步探索,以将我们的发现推广到真实世界的设置,并系统地分析其他扩散方法。


网站公告

今日签到

点亮在社区的每一天
去签到