知识库 - Orange

Janus 系列

Large Model

2026-04-15

Janus 论文名称: Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation 论文地址: arxiv.org/pdf/2410.13848 项目主页 : github.com/deepseek-ai/Janus 模型 Janus 是使用一个统一的 Transformer 架构来统一多模态图像理解和多模态图像生成任务的模型。这种方法通常使用单个视觉编码器来处理这 2 个任务的输入。然而，多模态理解和生成任务所需的表征差异很大：多模态理解任务中，视觉编码器的目的是提取高级语义信息。理解任务的输出不仅涉及从图像中提取信息，还涉及复杂的语义推理。因此，视觉编码器表示的粒度往往主要集中在高维语义的表征上。相比之下，视觉生成任务中，主要关注点是生成局部细节并保持图像中的全局一致性。在这种情况下，表征需要表示出细粒度的空间结构，以及纹理细节。在同一空间中统一这两个任务的表示将导致冲突...

#VLM #生成理解模型

READ

DeepSeek OCR

Large Model

2026-04-15

DeeSeek-OCR 简介当前的大型语言模型（LLMs）在处理长文本时面临显著的计算挑战，其开销随序列长度呈二次增长。本文探索一种潜在的解决方案：将视觉模态作为高效的文本信息压缩媒介。单张包含文档文本的图像，能够用显著更少的 token 表达丰富信息，相比等量的数字文本更为紧凑；这表明，通过视觉 token 进行光学压缩有望实现更高的压缩比。本文关注视觉编码器如何提升 LLM 在处理文本信息时的效率，而非人类本就擅长的基础 VQA 任务当前主流 VLM 视觉编码器的问题第一类是以 Vary 为代表的双塔（dual-tower）架构，通过并行的 SAM 编码器来提升高分辨率图像处理时的视觉词表参数规模。该方法虽然在参数量与激活内存上更可控，但也存在显著缺点：需要对图像进行两套预处理，增加了部署复杂度；同时在训练中使编码器管线的并行化变得困难。第二类是以 InternVL2.0 为代表的切片（tile-based）方法，通过将图像划分为小块并行处理，在高分辨率场景下降低激活内存。尽管这种方法能够处理极高分辨率，但由于其原生编码器分辨率通常较低（低于...

#VLM #LLM #Large Model

READ

离散扩散模型用于文本生成

Large Model

2026-04-15

引言 Diffusion模型近年来在图像生成这一连续域任务中取得了显著成果，展现出强大的生成能力。然而，在文本生成这一离散域任务中整体效果仍不尽如人意，未能在该领域引起广泛关注。去年，一篇研究离散扩散模型在文本生成的文章《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》获得ICML 2024的Best Paper，引发了学术界的广泛兴趣，也激发了新一轮的研究热潮。随后在2025年，越来越多高校和企业也开始积极探索基于Diffusion的文本生成方法。其中，近期备受关注的Block Diffusion也成功入选ICLR oral，进一步推动了该方向的发展。...

#diffusion #LLM

READ

LLaDA--扩散模型LLM

Large Model

2026-04-15

这是一篇尝试改变LLM「范式」的文章：当前主流的LLM架构都是「自回归」的，通俗地理解就是必须「从左到右依次生成」。这篇文章挑战了这一范式，探索扩散模型在 LLMs 上的可行性，通过随机掩码 - 预测的逆向思维，让模型学会「全局思考」。论文： [2502.09992] Large Language Diffusion Models 背景主流大语言模型架构：自回归模型 (Autoregressive LLMs) 过去几年，自回归模型（Autoregressive Models, ARMs）一直是大语言模型(LLM)的主流架构。典型的自回归语言模型以Transformer解码器为基础，按照从左到右的顺序依次预测下一个词元(token)。形式化地，自回归模型将一个长度为 \(N\) 的文本序列 \(X=(x_1, x_2, ..., x_N)\) 的概率分解为各位置的条件概率连乘积： \[P_{\theta}(x_1, x_2, \dots, x_N) = \prod_{i=1}^{N} P_{\theta}(x_i \mid x_1, x_2, \dots,...

#LLM #diffusion

READ

自回归生成模型（Autoregressive Models）

Generative Model

2026-04-15

研究对象与基本设定我们希望学习一个能够“生成数据”的概率模型。假设我们有一个数据集 \(D\) ，每个样本是 \(n\) 维二值向量： \(x \in \{0,1\}^n\) 我们的目标是用一个参数化分布 \(p_\theta(x)\) 去逼近真实数据分布 \(p_{\text{data}}(x)\) ，并最终能够：密度估计：给定 \(x\) 计算 \(p_\theta(x)\) 或 \(\log p_\theta(x)\) 采样生成：从 \(p_\theta(x)\) 采样得到新的 \(x\) 给定一个具体的任务，如MNIST中的手写数字二值图分类，从Generative的角度进行Represent，并在Inference中Learning. 下面先介绍：描述如何对这个MINST任务建模 \(p(X,Y)\) （Representation）对MNIST任务建模对于一张pixel为 \(28\times28\) 大小的图片，令 \(x_1\) 表示第一个pixel的随机变量， \(x_1\in\{0,1\}\) ，需明确：任务目标：学习一个模型分布...

#Autoregressive #Generating Model

READ

流模型Flow的基本概念与实现

Generative Model

2026-04-15

背景本文主要是《NICE: Non-linear Independent Components Estimation》一文的介绍和实现。这篇文章也是glow这个模型的基础文章之一，可以说它就是glow的奠基石。艰难的分布众所周知，目前主流的生成模型包括VAE和GAN，但事实上除了这两个之外，还有基于flow的模型（flow可以直接翻译为“流”，它的概念我们后面再介绍）。事实上flow的历史和VAE、GAN它们一样悠久，但是flow却鲜为人知。在我看来，大概原因是flow找不到像GAN一样的诸如“造假者-鉴别者”的直观解释吧，因为flow整体偏数学化，加上早期效果没有特别好但计算量又特别大，所以很难让人提起兴趣来。不过现在看来，OpenAI的这个好得让人惊叹的、基于flow的glow模型，估计会让更多的人投入到flow模型的改进中。 glow模型生成的高清人脸生成模型的本质，就是希望用一个我们知道的概率模型来拟合所给的数据样本，也就是说，我们得写出一个带参数 \(𝜃\) 的分布 \(q_{\boldsymbol{\theta}}(\boldsymbol{x})\)...

#flow #Generating Model

READ

Normalizing flow

Generative Model

2026-04-15

Normalizing flow（标准化流）是一类对概率分布进行建模的工具，它能完成简单的概率分布（例如高斯分布）和任意复杂分布之间的相互转换，经常被用于 data generation、density estimation、inpainting 等任务中，例如 Stability AI 提出的 Stable Diffusion 3 中用到的 rectified flow 就是 normalizing flow 的变体之一。为了便于理解，在正式开始介绍之前先简要说明一下 normalizing flow 的做法。如上图所示，为了将一个高斯分布 \(z_0\) 转换为一个复杂的分布 \(z_K\) ，normalizing flow 会对初始的分布 \(z_0\) 进行多次可逆的变换，将其逐渐转换为 \(z_K\) 。由于每一次变换都是可逆的，从 \(z_K\) 出发也能得到高斯分布 \(z_0\) 。这样，我们就实现了复杂分布与高斯分布之间的互相转换，从而能从简单的高斯分布建立任意复杂分布。对 diffusion models 比较熟悉的读者可能已经发现了，这个过程和...

#flow #Generating Model

READ

Rectified Flow

Generative Model

2026-04-15

1-Rectified Flow 可以认为是 flow matching的ot最优传输形式 Rectified Flow目的是将多对多无约束映射转变成一对一有约束映射。 ode会保证路径是“因果”的，也就是避免相交的情况 2-Rectified Flow或者叫Reflow 核心的实际上是加噪过程的样本交点数目降低，交点处模型无法精确学习向量场，交点数少了，模型在每个点预测都更准了，加噪过程是直线，所以能更少步数走到起点(但整体采样过程不是直线) 原本随机采样的DDPM模型中，也隐含了一个确定性的采样过程DDIM，它的连续极限也是一个ODE 。细想上述过程，可以发现不管是“DDPM→DDIM”还是“SDE→ODE”，都是从随机采样模型过渡到确定性模型，而如果我们一开始的目标就是ODE，那么该过程未免显得有点“迂回”了。在本文中，笔者尝试给出ODE扩散模型的直接推导，并揭示了它与雅可比行列式、热传导方程等内容的联系。 Rectified Flow 理论推导微分方程...

#Generating Model #flow #diffusion

READ

Generative Adversarial Networks (GAN)

Generative Model

2026-04-15

简介生成对抗网络 ( Generative Adversarial Network, GAN ) 是由 Goodfellow 于 2014 年提出的一种对抗网络。这个网络框架包含两个部分，一个生成模型 (generative model) 和一个判别模型 (discriminative model)。其中，生成模型可以理解为一个伪造者，试图通过构造假的数据骗过判别模型的甄别；判别模型可以理解为一个警察，尽可能甄别数据是来自于真实样本还是伪造者构造的假数据。两个模型都通过不断的学习提高自己的能力，即生成模型希望生成更真的假数据骗过判别模型，而判别模型希望能学习如何更准确的识别生成模型的假数据。网络框架 GAN 由两部分构成，一个生成器 ( Generator ) 和一个判别器 ( Discriminator )。对于生成器，我们需要学习关于数据 \(x\) 的一个分布 \(p_g\) ，首先定义一个输入数据的先验分布 \(p_z(z)\) ，其次定义一个映射 \(G \left(\boldsymbol{z}; \theta_g\right): \boldsymbol{z}...

#Generating Model #GAN

READ

从Wasserstein距离、对偶理论到WGAN

Generative Model

2026-04-15

本文受启发于著名的国外博文《Wasserstein GAN and the Kantorovich-Rubinstein Duality》，内容跟它大体上相同，但是删除了一些冗余的部分，对不够充分或者含糊不清的地方作了补充。 Wasserstein距离显然，整篇文章必然围绕着Wasserstein距离（ \(\mathcal{W}\) 距离）来展开。假设我们有了两个概率分布 \(p(x),q(x)\) ，那么Wasserstein距离的定义为 \[\mathcal{W}[p,q]=\inf_{\gamma\in \Pi[p,q]} \iint \gamma(\boldsymbol{x},\boldsymbol{y}) d(\boldsymbol{x},\boldsymbol{y}) d\boldsymbol{x}d\boldsymbol{y}\] 事实上，这也算是最优传输理论中最核心的定义了。成本函数首先 \(d(x,y)\) ，它不一定是距离，其准确含义应该是一个成本函数，代表着从 \(x\) 运输到 \(y\) 的成本。常用的 \(d\) 是基于 \(l\)...

#Generating Model #GAN

READ

VQGAN

Generative Model

2026-04-15

2022年中旬，以扩散模型为核心的图像生成模型将AI绘画带入了大众的视野。实际上，在更早的一年之前，就有了一个能根据文字生成高清图片的模型——VQGAN。VQGAN不仅本身具有强大的图像生成能力，更是传承了前作VQVAE把图像压缩成离散编码的思想，推广了「先压缩，再生成」的两阶段图像生成思路，启发了无数后续工作。 VQGAN 核心思想 VQGAN的论文名为 Taming Transformers for High-Resolution Image Synthesis，直译过来是「驯服Transformer模型以实现高清图像合成」。可以看出，该方法是在用Transformer生成图像。可是，为什么这个模型叫做VQGAN，是一个GAN呢？这是因为，VQGAN使用了两阶段的图像生成方法：训练时，先训练一个图像压缩模型（包括编码器和解码器两个子模型），再训练一个生成压缩图像的模型。生成时，先用第二个模型生成出一个压缩图像，再用第一个模型复原成真实图像。其中，第一个图像压缩模型叫做VQGAN，第二个压缩图像生成模型是一个基于Transformer的模型。...

#VAE #Generating Model #GAN

READ

DDIM

Generative Model

2026-04-15

DDPM 有一个非常明显的问题：采样过程很慢。因为 DDPM 的反向过程利用了马尔可夫假设，所以每次都必须在相邻的时间步之间进行去噪，而不能跳过中间步骤。原始论文使用了 1000 个时间步，所以我们在采样时也需要循环 1000 次去噪过程，这个过程是非常慢的。为了加速 DDPM 的采样过程，DDIM 在不利用马尔可夫假设的情况下推导出了 diffusion 的反向过程，最终可以实现仅采样 20～100 步的情况下达到和 DDPM 采样 1000 步相近的生成效果，也就是提速 10～50 倍。这篇文章将对 DDIM 的理论进行讲解，并实现 DDIM 采样的代码。 DDPM 的反向过程首先我们回顾一下 DDPM 反向过程的推导，为了推导出 \(q(\mathbf{x}_{t-1}|\mathbf{x}_t)\) 这个条件概率分布，DDPM 利用贝叶斯公式将其变成了先验分布的组合，并且通过向条件中加入 \(\mathbf{x}_0 \) 将所有的分布转换为已知分布：...

#diffusion #Generating Model

READ

#

!

INCOMING TRANSMISSION

Janus 系列

DeepSeek OCR

离散扩散模型用于文本生成

LLaDA--扩散模型LLM

自回归生成模型（Autoregressive Models）

流模型Flow的基本概念与实现

Normalizing flow

Rectified Flow

Generative Adversarial Networks (GAN)

从Wasserstein距离、对偶理论到WGAN

VQGAN

DDIM