💡 ****

随机微分

在DDPM中，扩散过程被划分为了固定的T步，还是用DDPM中的类比来说，就是“拆楼”和“建楼”都被事先划分为了T步，这个划分有着相当大的人为性。事实上，真实的“拆”、“建”过程应该是没有刻意划分的步骤的，我们可以将它们理解为一个在时间上连续的变换过程，可以用随机微分方程（Stochastic Differential Equation，SDE）来描述。

为此，我们用下述SDE描述前向过程（“拆楼”）：

d x = f_{t} (x) d t + g_{t} d w

相信很多读者都对SDE很陌生，笔者也只是在硕士阶段刚好接触过一段时间，略懂皮毛。不过不懂不要紧，我们只需要将它看成是下述离散形式在 $Δ t \to 0$ 时的极限：

x_{t + Δ t} - x_{t} = f_{t} (x_{t}) Δ t + g_{t} Δ t ε, ε \sim N (0, I)

再直白一点，如果假设拆楼需要1天，那么拆楼就是 $x$ 从 $t = 0$ 到 $t = 1$ 的变化过程，每一小步的变化我们可以用上述方程描述。至于时间间隔 $Δ t$ ，我们并没有做特殊限制，只是越小的 $Δ t$ 意味着是对原始SDE越好的近似，如果取 $Δ t = 0.001$ ，那就对应于原来的 $T = 1000$ ，如果是 $Δ t = 0.01$ 则对应于 $T = 100$ ，等等。也就是说，在连续时间的SDE视角之下，不同的 $T$ 是SDE不同的离散化程度的体现，它们会自动地导致相似的结果，我们不需要事先指定 $T$ ，而是根据实际情况下的精确度来取适当的 $T$ 进行数值计算。

所以，引入SDE形式来描述扩散模型的本质好处是“将理论分析和代码实现分离开来”，我们可以借助连续性SDE的数学工具对它做分析，而实践的时候，则只需要用任意适当的离散化方案对SDE进行数值计算。

对于式2，读者可能比较有疑惑的是为什么右端第一项是 $O (Δ t)$ 的，而第二项是 $O (Δ t)$ 的？也就是说为什么随机项的阶要比确定项的阶要高？这个还真不是那么容易解释，也是SDE比较让人迷惑的地方之一。简单来说，就是 $ε$ 一直服从标准正态分布，如果随机项的权重也是 $O (Δ t)$ ，那么由于标准正态分布的均值为 $0$ 、协方差为 $I$ ，临近的随机效应会相互抵消掉，要放大到 $O (Δ t)$ 才能在长期结果中体现出随机效应的作用。

$w_{t} \sim N (0, t)$
$w_{t + Δ t} - w_{t} \sim N (0, Δ t)$
$Δ t \to 0$
$d w = d t ε, ε \sim N (0, I)$

用概率的语言，式2意味着条件概率为

p (x_{t + Δ t} ∣ x_{t}) = \propto N (x_{t + Δ t}; x_{t} + f_{t} (x_{t}) Δ t, g_{t}^{2} Δ t I) exp (- \frac{∥ x _{t + Δ t} - x _{t} - f _{t} ( x _{t} ) Δ t ∥ ^{2}}{2 g _{t}^{2} Δ t})

逆向方程

简单起见，这里没有写出无关紧要的归一化因子。按照DDPM的思想，我们最终是想要从“拆楼”的过程中学会“建楼”，即得到 $p (x_{t} ∣ x_{t + Δ t})$ ，为此，我们用贝叶斯定理：

p (x_{t} ∣ x_{t + Δ t}) = \propto \frac{p ( x _{t + Δ t} ∣ x _{t} ) p ( x _{t} )}{p ( x _{t + Δ t} )} = p (x_{t + Δ t} ∣ x_{t}) exp (lo g p (x_{t}) - lo g p (x_{t + Δ t})) exp (- \frac{∥ x _{t + Δ t} - x _{t} - f _{t} ( x _{t} ) Δ t ∥ ^{2}}{2 g _{t}^{2} Δ t} + lo g p (x_{t}) - lo g p (x_{t + Δ t}))

不难发现，当 $Δ t$ 足够小时，只有当 $x_{t + Δ t}$ 与 $x_{t}$ 足够接近时， $p (x_{t + Δ t} ∣ x_{t})$ 才会明显不等于0，反过来也只有这种情况下 $p (x_{t} ∣ x_{t + Δ t})$ 才会明显不等于0。因此，我们只需要对 $x_{t + Δ t} 与 x_{t}$ 足够接近时的情形做近似分析，为此，我们可以用泰勒展开：

lo g p (x_{t + Δ t}) \approx lo g p (x_{t}) + (x_{t + Δ t} - x_{t}) \cdot \nabla_{x_{t}} lo g p (x_{t}) + Δ t \frac{\partial}{\partial t} lo g p (x_{t})

注意不要忽略了 $\frac{\partial}{\partial t}$ 项，因为 $p (x_{t})$ 实际上是“ $t$ 时刻随机变量等于 $x_{t}$ 的概率密度”，而 $p (x_{t + Δ t})$ 实际上是“ $t + Δ t$ 时刻随机变量等于 $x_{t + Δ t}$ 的概率密度”，也就是说 $p (x_{t})$ 实际上同时是 $t$ 和 $x_{t}$ 的函数，所以要多一项 $t$ 的偏导数。代入到式4后，配方得到

p (x_{t} ∣ x_{t + Δ t}) \propto exp (- \frac{∥ x _{t + Δ t} - x _{t} - [ f _{t} ( x _{t} ) - g _{t}^{2} \nabla _{x_{t}} lo g p ( x _{t} ) ] Δ t ∥ ^{2}}{2 g _{t}^{2} Δ t} + O (Δ t))

当 $Δ t \to 0$ 时， $O (Δ t) \to 0$ 不起作用，因此

p (x_{t} ∣ x_{t + Δ t}) \propto \approx exp (- \frac{∥ x _{t + Δ t} - x _{t} - [ f _{t} ( x _{t} ) - g _{t}^{2} \nabla _{x_{t}} lo g p ( x _{t} ) ] Δ t ∥ ^{2}}{2 g _{t}^{2} Δ t}) exp (- \frac{∥ x _{t} - x _{t + Δ t} + [ f _{t + Δ t} ( x _{t + Δ t} ) - g _{t + Δ t}^{2} \nabla _{x_{t + Δ t}} lo g p ( x _{t + Δ t} ) ] Δ t ∥ ^{2}}{2 g _{t + Δ t}^{2} Δ t})

即 $p (x_{t} ∣ x_{t + Δ t})$ 近似一个均值为 $x_{t + Δ t} - [f_{t + Δ t} (x_{t + Δ t}) - g_{t + Δ t}^{2} \nabla_{x_{t + Δ t}} lo g p (x_{t + Δ t})] Δ t$ 、协方差为 $g_{t + Δ t}^{2} Δ t I$ 的正态分布，取 $Δ t \to 0$ 的极限，那么对应于SDE：

d x = [f_{t} (x) - g_{t}^{2} \nabla_{x} lo g p_{t} (x)] d t + g_{t} d w

这就是反向过程对应的SDE，最早出现在

《Reverse-Time Diffusion Equation Models》

中。这里我们特意在p处标注了下标t，以突出这是t时刻的分布。

所以相比前向过程，逆向过程的SDE多了一个score fuction $\nabla_{x} lo g p_{t} (x)$ ，需要对score fuction进行求解，就可以完成采样过程。

得分匹配

现在我们已经得到了逆向的SDE为公式8，如果进一步知道 $\nabla_{x} lo g p_{t} (x)$ ，那么就可以通过离散化格式

x_{t} - x_{t + Δ t} = - [f_{t + Δ t} (x_{t + Δ t}) - g_{t + Δ t}^{2} \nabla_{x_{t + Δ t}} lo g p (x_{t + Δ t})] Δ t - g_{t + Δ t} Δ t ε

来逐步完成“建楼”的生成过程【其中 $ε \sim N (0, I)$ 】，从而完成一个生成扩散模型的构建。

那么如何得到 $\nabla_{x} lo g p_{t} (x)$ 呢？t时刻的 $p_{t} (x)$ 就是前面的 $p (x_{t})$ ，它的含义就是 $t$ 时刻的边缘分布。在实际使用时，我们一般会设计能找到 $p (x_{t} ∣ x_{0})$ 解析解的模型，这意味着

p (x_{t} ∣ x_{0}) = Δ t \to 0 lim \int \dots \iint p (x_{t} ∣ x_{t - Δ t}) p (x_{t - Δ t} ∣ x_{t - 2Δ t}) \dots p (x_{Δ t} ∣ x_{0}) d x_{t - Δ t} d x_{t - 2Δ t} \dots d x_{Δ t}

是可以直接求出的，比如当 $f_{t} (x)$ 是关于 $x$ 的线性函数时， $p (x_{t} ∣ x_{0})$ 就可以解析求解。在此前提下，有

p (x_{t}) = \int p (x_{t} ∣ x_{0}) \tilde{p} (x_{0}) d x_{0} = E_{x_{0}} [p (x_{t} ∣ x_{0})]

于是

\nabla_{x_{t}} lo g p (x_{t}) = \frac{E _{x_{0}} [ \nabla _{x_{t}} p ( x _{t} ∣ x _{0} ) ]}{E _{x_{0}} [ p ( x _{t} ∣ x _{0} ) ]} = \frac{E _{x_{0}} [ p ( x _{t} ∣ x _{0} ) \nabla _{x_{t}} lo g p ( x _{t} ∣ x _{0} ) ]}{E _{x_{0}} [ p ( x _{t} ∣ x _{0} ) ]}

可以看到最后的式子具有“ $\nabla_{x_{t}} lo g p (x_{t} ∣ x_{0})$ 的加权平均”的形式，由于假设了 $p (x_{t} ∣ x_{0})$ 有解析解，因此上式实际上是能够直接估算的，然而它涉及到对全体训练样本 $x_{0}$ 的平均，一来计算量大，二来泛化能力也不够好。因此，我们希望用神经网络学一个函数 $s_{θ} (x_{t}, t)$ ，使得它能够直接计算 $\nabla_{x_{t}} lo g p (x_{t})$ 。

很多读者应该对如下结果并不陌生（或者推导一遍也不困难）：

E [x] = argmin_{μ} E_{x} [∥ μ - x ∥^{2}]

即要让 $μ$ 等于 $x$ 的均值，只需要最小化 $∥ μ - x ∥^{2}$ 的均值。同理，要让 $s_{θ} (x_{t}, t)$ 等于 $\nabla_{x_{t}} lo g p (x_{t} ∣ x_{0})$ 的加权平均【即 $\nabla_{x_{t}} lo g p (x_{t})$ 】，则只需要最小化 $∥ s_{θ} (x_{t}, t) - \nabla_{x_{t}} lo g p (x_{t} ∣ x_{0}) ∥^{2}$ 的加权平均，即

\frac{E _{x_{0}} [ p ( x _{t} ∣ x _{0} ) ∥ s _{θ} ( x _{t} , t ) - \nabla _{x_{t}} lo g p ( x _{t} ∣ x _{0} ) ∥ ^{2} ]}{E _{x_{0}} [ p ( x _{t} ∣ x _{0} ) ]}

分母的 $E_{x_{0}} [p (x_{t} ∣ x_{0})]$ 只是起到调节Loss权重的作用，简单起见我们可以直接去掉它，这不会影响最优解的结果。最后我们再对 $x_{t}$ 积分（相当于对于每一个 $x_{t}$ 都要最小化上述损失），得到最终的损失函数

= \int E_{x_{0}} [p (x_{t} ∣ x_{0}) ∥ s_{θ} (x_{t}, t) - \nabla_{x_{t}} lo g p (x_{t} ∣ x_{0}) ∥^{2}] d x_{t} E_{x_{0}, x_{t} \sim p (x_{t} ∣ x_{0}) \tilde{p} (x_{0})} [∥ s_{θ} (x_{t}, t) - \nabla_{x_{t}} lo g p (x_{t} ∣ x_{0}) ∥^{2}]

这就是“（条件）得分匹配”的损失函数。得分匹配的最早出处可以追溯到2005年的论文《Estimation of Non-Normalized Statistical Models by Score Matching》，至于条件得分匹配的最早出处，笔者追溯到的是2011年的论文《A Connection Between Score Matching and Denoising Autoencoders》。不过，虽然该结果跟得分匹配是一样的，但其实在这一节的推导中，我们已经抛开了“得分”的概念了，纯粹是由目标自然地引导出来的答案，笔者认为这样的处理过程更有启发性，希望这一推导能降低大家对得分匹配的理解难度。

结果倒推

至此，我们构建了生成扩散模型的一般流程：

1、通过随机微分方程式1定义“拆楼”（前向过程）；

可能大家看到SDE、微分方程等字眼，天然就觉得“恐慌”，但本质上来说，SDE只是个“幌子”，实际上将对SDE的理解转换到式2和式3上后，完全就可以抛开SDE的概念了，因此概念上其实是没有太大难度的。

不难发现，定义一个随机微分方程式1是很容易的，但是从式1求解 $p (x_{t} ∣ x_{0})$ 却是不容易的。原论文的剩余篇幅，主要是对两个有实用性的例子推导和实验。然而，既然求解 $p (x_{t} ∣ x_{0})$ 不容易，那么按照笔者的看法，与其先定义式1再求解 $p (x_{t} ∣ x_{0})$ ，倒不如像DDIM一样，先定义 $p (x_{t} ∣ x_{0})$ ，然后再来反推对应的SDE？

例如，我们先定义

p (x_{t} ∣ x_{0}) = N (x_{t}; \overset{α}{ˉ}_{t} x_{0}, \overset{ˉ}{β}_{t}^{2} I)

并且不失一般性假设起点是 $t = 0$ ，终点是 $t = 1$ ，那么 $\overset{α}{ˉ}_{t}, \overset{ˉ}{β}_{t}$ 要满足的边界就是

\overset{α}{ˉ}_{0} = 1, \overset{α}{ˉ}_{1} = 0, \overset{ˉ}{β}_{0} = 0, \overset{ˉ}{β}_{1} = 1

当然，上述边界条件理论上足够近似就行，也不一定非要精确相等，比如上一篇文章我们分析过DDPM相当于选择了 $\overset{α}{ˉ}_{t} = e^{- 5 t^{2}}$ ，当t=1时结果为 $e^{- 5} \approx 0$ 。

有了 $p (x_{t} ∣ x_{0})$ ，我们去反推式1，本质上就是要求解 $p (x_{t + Δ t} ∣ x_{t})$ ，它要满足

p (x_{t + Δ t} ∣ x_{0}) = \int p (x_{t + Δ t} ∣ x_{t}) p (x_{t} ∣ x_{0}) d x_{t}

我们考虑线性的解，即

d x = f_{t} x d t + g_{t} d w

跟《DDIM = 高观点DDPM》一样，我们写出

记号 p (x_{t + Δ t} ∣ x_{0}) p (x_{t} ∣ x_{0}) p (x_{t + Δ t} ∣ x_{t}) \int p (x_{t + Δ t} ∣ x_{t}) p (x_{t} ∣ x_{0}) d x_{t} 含义 N (x_{t}; \overset{α}{ˉ}_{t + Δ t} x_{0}, \overset{ˉ}{β}_{t + Δ t}^{2} I) N (x_{t}; \overset{α}{ˉ}_{t} x_{0}, \overset{ˉ}{β}_{t}^{2} I) N (x_{t + Δ t}; (1 + f_{t} Δ t) x_{t}, g_{t}^{2} Δ t I) 采样 x_{t + Δ t} = \overset{α}{ˉ}_{t + Δ t} x_{0} + \overset{ˉ}{β}_{t + Δ t} ε x_{t} = \overset{α}{ˉ}_{t} x_{0} + \overset{ˉ}{β}_{t} ε_{1} x_{t + Δ t} = (1 + f_{t} Δ t) x_{t} + g_{t} Δ t ε_{2} = = = x_{t + Δ t} (1 + f_{t} Δ t) x_{t} + g_{t} Δ t ε_{2} (1 + f_{t} Δ t) (\overset{α}{ˉ}_{t} x_{0} + \overset{ˉ}{β}_{t} ε_{1}) + g_{t} Δ t ε_{2} (1 + f_{t} Δ t) \overset{α}{ˉ}_{t} x_{0} + ((1 + f_{t} Δ t) \overset{ˉ}{β}_{t} ε_{1} + g_{t} Δ t ε_{2})

由此可得

\overset{α}{ˉ}_{t + Δ t} = \overset{ˉ}{β}_{t + Δ t}^{2} = (1 + f_{t} Δ t) \overset{α}{ˉ}_{t} (1 + f_{t} Δ t)^{2} \overset{ˉ}{β}_{t}^{2} + g_{t}^{2} Δ t

令 $Δ t \to 0$ ，分别解得

f_{t} = \frac{d}{d t} (ln \overset{α}{ˉ}_{t}) = \frac{1}{α ˉ _{t}} \frac{d α ˉ _{t}}{d t}, g_{t}^{2} = \overset{α}{ˉ}_{t}^{2} \frac{d}{d t} (\frac{β ˉ _{t}^{2}}{α ˉ _{t}^{2}}) = 2 \overset{α}{ˉ}_{t} \overset{ˉ}{β}_{t} \frac{d}{d t} (\frac{β ˉ _{t}}{α ˉ _{t}})

取 $\overset{α}{ˉ}_{t} \equiv 1$ 时，结果就是论文中的VE-SDE（Variance Exploding SDE）；而如果取 $\overset{α}{ˉ}_{t}^{2} + \overset{ˉ}{β}_{t}^{2} = 1$ 时，结果就是原论文中的VP-SDE（Variance Preserving SDE）。

至于损失函数，此时我们可以算得

\nabla_{x_{t}} lo g p (x_{t} ∣ x_{0}) = - \frac{x _{t} - α ˉ _{t} x _{0}}{β ˉ _{t}^{2}} = - \frac{ε}{β ˉ _{t}}

第二个等号是因为 $x_{t} = \overset{α}{ˉ}_{t} x_{0} + \overset{ˉ}{β}_{t} ε$ ，为了跟以往的结果对齐，我们设 $s_{θ} (x_{t}, t) = - \frac{ϵ _{θ} ( x _{t} , t )}{β ˉ _{t}}$ ，此时式15为

\frac{1}{β ˉ _{t}^{2}} E_{x_{0} \sim \tilde{p} (x_{0}), ε \sim N (0, I)} [ϵ_{θ} (\overset{α}{ˉ}_{t} x_{0} + \overset{ˉ}{β}_{t} ε, t) - ε^{2}]

忽略系数后就是DDPM的损失函数，而用 $- \frac{ϵ _{θ} ( x _{t + Δ t} , t + Δ t )}{β ˉ _{t + Δ t}}$ 替换掉式9的 $\nabla_{x_{t + Δ t}} lo g p (x_{t + Δ t})$ 后，结果与DDPM的采样过程具有相同的一阶近似（意味着 $Δ t \to 0$ 时两者等价）。

具体实例

上述 $d x = f (x, t) d t + g (t) d w$ 给出了一般化的SDE的定义，实际上 $f (x, t)$ 和 $g (t)$ 的不同取值也会得到不同的生成模型。SMLD 和 DDPM 中使用的噪声扰动可以看作是两个不同 SDE 的离散化。

VE-SDE在 $t \to \infty$ 时总是产生方差爆炸的过程。相反，VP-SDE产生具有有界方差的过程。

VE-SDE（Variance Exploding SDE）

当使用总共N个噪声尺度时，SMLD的每个扰动核 $p_{σ_{i}} (x ∣ x_{0})$ 对应于 $x_{i}$ 的分布，即可写成一下马尔可夫链形式：

x_{i} = x_{i - 1} + σ_{i}^{2} - σ_{i - 1}^{2} z_{i - 1}, i = 1, \dots, N

在上述表达中，我们假设初始随机变量 $z_{i - 1}$ 符合均值为 $0$ 协方差矩阵为单位矩阵 $I$ 的多元正态分布 $N (0, I)$ 。为了简化符号，引入了参数 $σ_{0} = 0$ 。在 $N \to \infty$ 的极限下，随机变量序列 ${σ_{i}}_{i = 1}^{N}$ 变成了连续函数 $σ (t)$ , $z_{i}$ 变成了连续随机过程 $z (t)$ 。马尔可夫链 ${x_{i}}_{i = 1}^{N}$ 也演变为了连续随机过程 ${x (t)}_{t = 0}^{1}$ ，其中我们使用连续时间变量 $t \in [0, 1]$ 进行索引，而不再使用整数 $i$ 。由此可以将上式写为：

x (t + Δ t) = x (t) + σ^{2} (t + Δ t) - σ^{2} (t) z (t) \approx x (t) + \frac{d [ σ ^{2} ( t ) ]}{d t} Δ t z (t)

当 $Δ t ≪ 1$ 时，近似等式成立。在 $Δ t \to 0$ 的极限下，它收敛于以下SDE：

d x = \frac{d [ σ ^{2} ( t ) ]}{d t} d w

VP-SDE（Variance Preserving SDE）

同样对于 DDPM 的扰动核 ${p_{α_{i}} (x ∣ x_{0})}_{i = 1}^{N}$ ，离散马尔可夫链是

x_{i} = 1 - β_{i} x_{i - 1} + β_{i} z_{i - 1}, i = 1, \dots, N

同样简化时间变量到 $t \in [0, 1]$ 的范围，上式可改写为：

x_{i} = 1 - \frac{β ˉ _{i}}{N} x_{i - 1} + \frac{β ˉ _{i}}{N} z_{i - 1}, i = 1, \dots, N .

令 $Δ t = 1/ N$ ，上式可以改写为离散形式下的：

x (t + Δ t) = 1 - β (t + Δ t) Δ t x (t) + β (t + Δ t) Δ t z (t) \approx x (t) - \frac{1}{2} β (t + Δ t) Δ t x (t) + β (t + Δ t) Δ t z (t) \approx x (t) - \frac{1}{2} β (t) Δ t x (t) + β (t) Δ t z (t),

当 $Δ t ≪ 1$ 时，近似等式成立。在 $Δ t \to 0$ 的极限下，它收敛于以下SDE：

d x = - \frac{1}{2} β (t) x d t + β (t) d w

整合联系

DDPM与SMLD的联系

DDPM中我们希望找到一个 $ϵ_{θ} (x_{t}, t)$ 去近似 $\frac{x _{t} - α ˉ _{t} x _{0}}{β ˉ _{t}}$ ，而SMLD中则是希望找到一个 $s_{θ} (x, t)$ 来估计 $\nabla_{x} lo g p (x)$

而在这两个模型中， $x_{t}$ 的条件概率都可以写成 $p (x_{t} ∣ x_{0}) = N (x_{t}; \overset{α}{ˉ}_{t} x_{0}, \overset{ˉ}{β}_{t}^{2} I)$ （DDPM要求 $\overset{α}{ˉ}_{t}^{2} + \overset{ˉ}{β}_{t}^{2} = 1$ ；而SMLD要求 $\overset{α}{ˉ}_{t} = 1$ ）

于是可以得到 $\nabla_{x_{t}} lo g p (x_{t} ∣ x_{0}) = - \frac{x _{t} - α ˉ _{t} x _{0}}{β ˉ _{t}^{2}} = - \frac{ε}{β ˉ _{t}}$ ，令 $s_{θ} (x_{t}, t) = - \frac{ϵ _{θ} ( x _{t} , t )}{β ˉ _{t}}$ ，此时SMLD的损失函数可以写为：

\frac{1}{β ˉ _{t}^{2}} E_{x_{0} \sim \tilde{p} (x_{0}), ε \sim N (0, I)} [ε_{θ} (\overset{α}{ˉ}_{t} x_{0} + \overset{ˉ}{β}_{t} ε, t) - ε^{2}]

忽略系数后就是DDPM的损失函数，这说明二者实质上是相通的，也即VE-SDE和VP-SDE是相通的。由此即将DDPM、SMLD和SDE联系了起来。

#

!

SDE和扩散模型