知识库 - Orange

AIM系列--大视觉模型的自回归预训练

Self-Supervised

2026-04-30

AIM v1 论文名称：Scalable Pre-training of Large Autoregressive Image Models (Arxiv 24.01) 论文地址： arxiv.org/pdf/2401.08541.pdf 代码地址： github.com/apple/ml-aim 简介自回归预训练的大视觉模型会不会像 LLM 一样有缩放性质？大语言模型 (LLM) 的革命性发展使得与任务无关的预训练成为自然语言处理任务的主流。大语言模型可以解决复杂的推理任务，遵从人类的指令，并且成为人工智能助手。LLM 成功的一个非常关键的因素是：随着模型容量和数据量的扩增，带来的模型能力的持续提升。为什么大语言模型具有缩放性质？作者提出以下2点原因：即使这些模型只使用最简单的目标函数进行 Next Token Prediction 的自回归预训练，它们也可以在复杂的上下文中学习到复杂的范式。大语言模型的缩放性质是一些工作在 Transformer 架构中发现的，这也暗示了自回归预训练与 Transformer 架构之间的协同关系。本文探索的目标是：自回归预训练和...

#CV #Autoregressive

READ

Self-Supervised Learning 概述

Self-Supervised

2026-04-16

the machine predicts any parts of its input for any observed part 这是LeCun在AAAI 2020上对自监督学习的定义，再结合传统的自监督学习定义，可以总结如下两点特征：通过“半自动”过程从数据本身获取“标签”；从“其他部分”预测部分数据。个人理解，其实任意挖掘对象之间联系、探索不同对象共同本质的方法，都或多或少算是自监督学习的思想。自监督学习与无监督学习的区别主要在于，无监督学习专注于检测特定的数据模式，如聚类、社区发现或异常检测，而自监督学习的目标是恢复（recovering），仍处于监督学习的范式中。上图展示了三者之间的区别，自监督中的“related information” 可以来自其他模态、输入的其他部分以及输入的不同形式。 Self-Supervised...

#Autoregressive #Self-Supervised

READ

自回归生成模型（Autoregressive Models）

Generative Model

2026-04-15

研究对象与基本设定我们希望学习一个能够“生成数据”的概率模型。假设我们有一个数据集 \(D\) ，每个样本是 \(n\) 维二值向量： \(x \in \{0,1\}^n\) 我们的目标是用一个参数化分布 \(p_\theta(x)\) 去逼近真实数据分布 \(p_{\text{data}}(x)\) ，并最终能够：密度估计：给定 \(x\) 计算 \(p_\theta(x)\) 或 \(\log p_\theta(x)\) 采样生成：从 \(p_\theta(x)\) 采样得到新的 \(x\) 给定一个具体的任务，如MNIST中的手写数字二值图分类，从Generative的角度进行Represent，并在Inference中Learning. 下面先介绍：描述如何对这个MINST任务建模 \(p(X,Y)\) （Representation）对MNIST任务建模对于一张pixel为 \(28\times28\) 大小的图片，令 \(x_1\) 表示第一个pixel的随机变量， \(x_1\in\{0,1\}\) ，需明确：任务目标：学习一个模型分布...

#Generating Model #Autoregressive

READ

NLP分词算法概述

NLP

2026-04-15

Tokenizer 背景与基础目前的机器学习模型都是数学模型，其对应的输入要求必须是数字形式（number）的，而我们处理的真实场景往往会包含许多非数字形式的输入（有时候即使原始输入是数字形式，我们也需要转换），最典型的就是 NLP 中的文字(string)，为了让文字能够作为输入参与到模型的计算中去，我们就需要构建一个映射关系(mapping)：将对应的文字映射到一个数字形式上去，而其对应的数字就是 token。而对应的这个映射关系，就是我们的 tokenizer：他可以将文字映射到其对应的数字上去(encode)，也可以将数字映射回对应的文字上(decode)。诸如GPT-3/4以及LlaMA/LlaMA2大语言模型都采用了token的作为模型的输入输出，其输入是文本，然后将文本转为token（正整数），然后从一串token（对应于文本）预测下一个token。进入OpenAI官网提供的tokenizer可以看到GPT-3tokenizer采用的方法。这里以Hello World为例说明。...

#NLP #Tokenizer

READ

Generative Adversarial Networks (GAN)

Generative Model

2026-04-15

简介生成对抗网络 ( Generative Adversarial Network, GAN ) 是由 Goodfellow 于 2014 年提出的一种对抗网络。这个网络框架包含两个部分，一个生成模型 (generative model) 和一个判别模型 (discriminative model)。其中，生成模型可以理解为一个伪造者，试图通过构造假的数据骗过判别模型的甄别；判别模型可以理解为一个警察，尽可能甄别数据是来自于真实样本还是伪造者构造的假数据。两个模型都通过不断的学习提高自己的能力，即生成模型希望生成更真的假数据骗过判别模型，而判别模型希望能学习如何更准确的识别生成模型的假数据。网络框架 GAN 由两部分构成，一个生成器 ( Generator ) 和一个判别器 ( Discriminator )。对于生成器，我们需要学习关于数据 \(x\) 的一个分布 \(p_g\) ，首先定义一个输入数据的先验分布 \(p_z(z)\) ，其次定义一个映射 \(G \left(\boldsymbol{z}; \theta_g\right): \boldsymbol{z}...

#GAN #Generating Model

READ

从Wasserstein距离、对偶理论到WGAN

Generative Model

2026-04-15

本文受启发于著名的国外博文《Wasserstein GAN and the Kantorovich-Rubinstein Duality》，内容跟它大体上相同，但是删除了一些冗余的部分，对不够充分或者含糊不清的地方作了补充。 Wasserstein距离显然，整篇文章必然围绕着Wasserstein距离（ \(\mathcal{W}\) 距离）来展开。假设我们有了两个概率分布 \(p(x),q(x)\) ，那么Wasserstein距离的定义为 \[\mathcal{W}[p,q]=\inf_{\gamma\in \Pi[p,q]} \iint \gamma(\boldsymbol{x},\boldsymbol{y}) d(\boldsymbol{x},\boldsymbol{y}) d\boldsymbol{x}d\boldsymbol{y}\] 事实上，这也算是最优传输理论中最核心的定义了。成本函数首先 \(d(x,y)\) ，它不一定是距离，其准确含义应该是一个成本函数，代表着从 \(x\) 运输到 \(y\) 的成本。常用的 \(d\) 是基于 \(l\)...

#Generating Model #GAN

READ

VQGAN

Generative Model

2026-04-15

2022年中旬，以扩散模型为核心的图像生成模型将AI绘画带入了大众的视野。实际上，在更早的一年之前，就有了一个能根据文字生成高清图片的模型——VQGAN。VQGAN不仅本身具有强大的图像生成能力，更是传承了前作VQVAE把图像压缩成离散编码的思想，推广了「先压缩，再生成」的两阶段图像生成思路，启发了无数后续工作。 VQGAN 核心思想 VQGAN的论文名为 Taming Transformers for High-Resolution Image Synthesis，直译过来是「驯服Transformer模型以实现高清图像合成」。可以看出，该方法是在用Transformer生成图像。可是，为什么这个模型叫做VQGAN，是一个GAN呢？这是因为，VQGAN使用了两阶段的图像生成方法：训练时，先训练一个图像压缩模型（包括编码器和解码器两个子模型），再训练一个生成压缩图像的模型。生成时，先用第二个模型生成出一个压缩图像，再用第一个模型复原成真实图像。其中，第一个图像压缩模型叫做VQGAN，第二个压缩图像生成模型是一个基于Transformer的模型。...

#VAE #GAN #Generating Model

READ

价值迭代和策略迭代

Reinforcement Learning

2026-04-15

引言强化学习中，找到最优策略是核心目标。本文详细介绍三种能够找到最优策略的基础算法：价值迭代、策略迭代和截断策略迭代。这些算法属于动态规划范畴，需要系统模型，是后续无模型强化学习算法的重要基础。在强化学习的发展路线中，这些算法处于"基础工具"到"算法/方法"的过渡阶段，是从"有模型"到"无模型"学习的重要桥梁。价值迭代（Value iteration）价值迭代算法基于收缩映射定理求解贝尔曼最优方程。其核心迭代公式为： \[\begin{equation}v_{k+1} = \max_{\pi \in \Pi} (r_\pi + \gamma P_\pi v_k), k = 0, 1, 2, ...\tag{1}\end{equation}\] 根据收缩映射定理，当 \(k \to \infty\) 时， \(v_k\) 和 \(\pi_k\) 分别收敛到最优状态值和最优策略。每次迭代包含两个步骤：策略更新步骤（policy update step）：找到能解决以下优化问题的策略 \[\pi_{k+1} = \arg\max_\pi (r_\pi +...

#Reinforcement Learning

READ

随机近似（Stochastic Approximation）

Math

2026-04-15

引言与背景随机逼近（Stochastic Approximation）是一类用于求解寻根或优化问题的随机迭代算法，其特点是不需要知道目标函数或其导数的表达式。随机逼近的核心优势在于：能够处理带有随机噪声的观测数据不需要目标函数的解析表达式可以在线学习，每获得一个新样本就更新估计值均值估计问题考虑一个随机变量 \(X\) ，其取值来自有限集合 \(\mathcal{X}\) 。我们的目标是估计 \(E[X]\) 。假设我们有一个独立同分布的样本序列 \(\{x_i\}_{i=1}^n\) ，那么 \(X\) 的期望值可以近似为： \[E[X] \approx \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i\] 非增量方法与增量方法非增量方法：先收集所有样本，然后计算平均值。缺点是如果样本数量很大，可能需要等待很长时间。增量方法：定义 \[w_{k+1} = \frac{1}{k}\sum_{i=1}^k x_i, k = 1, 2, ...\] 可以推导出递归公式： \[{w}_{k + 1} =...

#math #Reinforcement Learning

READ

强化学习Model-Free之蒙特卡洛

Reinforcement Learning

2026-04-15

引言与背景蒙特卡洛方法是强化学习中的重要算法类别，它标志着从基于模型到无模型算法的转变。这类算法不依赖环境模型，而是通过与环境的直接交互获取经验数据来学习最优策略。蒙特卡洛方法在强化学习算法谱系中处于"无模型"方法的起始位置，是从基于模型的方法（如值迭代和策略迭代）向无模型方法过渡的第一步。无模型强化学习的核心理念可以简述为：如果没有模型，我们必须有数据；如果没有数据，我们必须有模型；如果两者都没有，我们就无法找到最优策略。在强化学习中，"数据"通常指智能体与环境交互的经验。均值估计问题在介绍蒙特卡洛强化学习算法之前，我们首先需要理解均值估计问题，这是理解从数据而非模型中学习的基础。考虑一个可以取有限实数集合 \(X\) 中值的随机变量 \(X\) ，我们的任务是计算 \(X\) 的均值或期望值： \(E[X]\) 有两种方法可以计算 \(E[X]\) ：基于模型的方法：当已知随机变量的概率分布时，可以直接根据期望值的定义计算： \[E[X] = \sum_{x \in X} p(x) \cdot x\] 其中 \(p(x)\) 是 \(X\) 取值为 \(x\)...

#Q-Learning #Reinforcement Learning

READ

从DPG到DDPG

Reinforcement Learning

2026-04-15

引言 DDPG同样使用了Actor-Critic的结构，Deterministic的确定性策略是和随机策略相对而言的，对于某一些动作集合来说，它可能是连续值，或者非常高维的离散值，这样动作的空间维度极大。如果我们使用随机策略，即像DQN一样研究它所有的可能动作的概率，并计算各个可能的动作的价值的话，那需要的样本量是非常大才可行的。于是有人就想出使用确定性策略来简化这个问题。作为随机策略，在相同的策略，在同一个状态 \(s\) 处，采用的动作 \(\pi_\theta(a|s)\) 是基于一个概率分布的，即是不确定的。而确定性策略则决定简单点，虽然在同一个状态处，采用的动作概率不同，但是最大概率只有一个，如果我们只取最大概率的动作，去掉这个概率分布，那么就简单多了。即作为确定性策略，相同的策略，在同一个状态处，动作是唯一确定的，即策略变成 \[a = \mu(s, \theta)\] 所以DDPG基于确定性策略梯度(DPG)算法，结合了DQN的成功经验。使用回放缓冲区中的样本进行离策略训练，以减少样本之间的相关性使用目标Q网络在时序差分更新过程中提供一致的目标...

#Reinforcement Learning #Policy Gradient

READ

DPO(Direct Preference Optimization)

Reinforcement Learning

2026-04-15

背景 RLHF 通常包括三个阶段：有监督微调（SFT） RLHF首先通过在高质量数据上进行监督学习来微调预训练的语言模型，得到模型 \(\pi_{SFT}\) 。奖励建模阶段（Reward Model）在第二阶段，SFT模型根据提示 \(x\) 生成答案对 \((y_1, y_2) \sim \pi_{SFT}(y|x)\) 。这些答案对呈现给人类标注者，他们表达对一个答案的偏好，表示为 \(y_w \succ y_l|x\) ，其中 \(y_w\) 和 \(y_l\) 分别表示在 \((y_1, y_2)\) 中更受偏好和不受偏好的答案。这些偏好被假定由某个潜在的奖励模型 \(r^*(y, x)\) 生成，我们无法直接访问该模型。一种流行的建模偏好的方法是Bradley-Terry（BT）模型，该模型规定人类偏好分布 \(p^*\) 可以写为： \[p^*(y_1 \succ y_2|x) = \frac{\exp(r^*(x, y_1))}{\exp(r^*(x, y_1)) + \exp(r^*(x, y_2))} \] 假设我们有一个从 \(p^*\)...

#LLM #Reinforcement Learning

READ

#

!

INCOMING TRANSMISSION

AIM系列--大视觉模型的自回归预训练

Self-Supervised Learning 概述

自回归生成模型（Autoregressive Models）

NLP分词算法概述

Generative Adversarial Networks (GAN)

从Wasserstein距离、对偶理论到WGAN

VQGAN

价值迭代和策略迭代

随机近似（Stochastic Approximation）

强化学习Model-Free之蒙特卡洛

从DPG到DDPG

DPO(Direct Preference Optimization)