知识库 -

VAE 变分自编码器

Generative Model

2025-09-08

分布变换通常我们会拿VAE跟GAN比较，的确，它们两个的目标基本是一致的——希望构建一个从隐变量 Z 生成目标数据 X 的模型，但是实现上有所不同。更准确地讲，它们是假设了 Z 服从某些常见的分布（比如正态分布或均匀分布），然后希望训练一个模型 X=g(Z) ，这个模型能够将原来的概率分布映射到训练集的概率分布，也就是说，它们的目的都是进行分布之间的变换。生成模型的难题就是判断生成分布与真实分布的相似度，因为我们只知道两者的采样结果，不知道它们的分布表达式那现在假设 Z 服从标准的正态分布，那么我就可以从中采样得到若干个 [Math] ，然后对它做变换得到 [Math] ，我们怎么判断这个通过 g 构造出来的数据集，它的分布跟我们目标的数据集分布是不是一样的呢？有读者说不是有KL散度吗...

#VAE #Generating Model

READ

Deep Generative Models概述

Generative Model

2025-03-17

简介如果以概率的视角看待世界的生成模型。在这样的世界观中，我们可以将任何类型的观察数据（例如 D ）视为来自底层分布（例如 p_{data} ）的有限样本集。任何生成模型的目标都是在访问数据集 D 的情况下近似该数据分布。如果我们能够学习到一个好的生成模型，我们可以将学习到的模型用于下游推理。我们主要对数据分布的参数近似感兴趣，在一组有限的参数中，它总结了关于数据集 D 的所有信息。与非参数模型相比，参数模型在处理大型数据集时能够更有效地扩展，但受限于可以表示的分布族。在参数的设置中，我们可以将学习生成模型的任务视为在模型分布族中挑选参数，以最小化模型分布和数据分布之间的距离。如上图，给定一个狗的图像数据集，我们的目标是学习模型族 M 中生成模型 θ 的参数，使得模型分布 p...

#Generating Model #VAE #Autoregressive

READ

漫谈重参数：从正态分布到Gumbel Softmax

Deep Learning

2025-01-11

文章从连续情形出发开始介绍重参数，主要的例子是正态分布的重参数；然后引入离散分布的重参数，这就涉及到了Gumbel Softmax，包括Gumbel Softmax的一些证明和讨论；最后再讲讲重参数背后的一些故事，这主要跟梯度估计有关。基本概念重参数（Reparameterization）实际上是处理如下期望形式的目标函数的一种技巧： [公式] 这样的目标在VAE中会出现，在文本GAN也会出现，在强化学习中也会出现（ f(z) 对应于奖励函数），所以深究下去，我们会经常碰到这样的目标函数。取决于 z 的连续性，它对应不同的形式： [公式] 当然，离散情况下我们更喜欢将记号 z 换成 y 或者 c 。为了最小化 [Math] ，我们就需要把 [Math] 明确地写出来，这意味着我们要实现...

#DL基础 #VAE

READ

VQ-VAE

Generative Model

2025-01-10

简介作为一个自编码器，VQVAE的一个明显特征是它编码出的编码向量是离散的，换句话说，它最后得到的编码向量的每个元素都是一个整数，这也就是“Quantised”的含义，我们可以称之为“量子化”（跟量子力学的“量子”一样，都包含离散化的意思）。明明整个模型都是连续的、可导的，但最终得到的编码向量却是离散的，并且重构效果看起来还很清晰（如文章开头的图），这至少意味着VQVAE会包含一些有意思、有价值的技巧，值得我们学习一番。首先，VQVAE其实就是一个AE（自编码器）而不是VAE（变分自编码器），我不知道作者出于什么目的非得用概率的语言来沾VAE的边，这明显加大了读懂这篇论文的难度。其次，VQVAE的核心步骤之一是StraightThrough Estimator，这是将引变量离散化后的优...

#VAE #Generating Model

READ

VQGAN

Generative Model

2025-01-02

2022年中旬，以扩散模型为核心的图像生成模型将AI绘画带入了大众的视野。实际上，在更早的一年之前，就有了一个能根据文字生成高清图片的模型——VQGAN。VQGAN不仅本身具有强大的图像生成能力，更是传承了前作VQVAE把图像压缩成离散编码的思想，推广了「先压缩，再生成」的两阶段图像生成思路，启发了无数后续工作。 VQGAN 核心思想 VQGAN的论文名为 Taming Transformers for HighResolution Image Synthesis，直译过来是「驯服Transformer模型以实现高清图像合成」。可以看出，该方法是在用Transformer生成图像。可是，为什么这个模型叫做VQGAN，是一个GAN呢？这是因为，VQGAN使用了两阶段的图像生成方法：训练时，先...

#GAN #VAE #Generating Model

READ

INCOMING TRANSMISSION

VAE 变分自编码器

Deep Generative Models概述

漫谈重参数：从正态分布到Gumbel Softmax

VQ-VAE

VQGAN