知识库 - Orange

朗之万动力学

Math

2026-04-15

朗之万动力学(Langevin Dynamics)是扩散模型和score matching方法中的采样过程，是文本生成图像中的一个重要步骤。想要洞悉文生图的基本原理，朗之万动力学是绕不开的话题。朗之万动力学原理简介本文的主要内容是基于以下教程： Tutorial on Diffusion Models for Imaging and Vision 此教程写的非常好，非常推荐大家学习。教程的语言风格也很亲切，时不时地蹦出诸如“这是地球人能想出来的公式？”这样的话，为你枯燥的学习过程增添些许趣味。朗之万动力学(Langevin Dynamics)是扩散模型和score matching方法中的采样过程，是文本生成图像中的一个重要步骤。想要洞悉文生图的基本原理，朗之万动力学是绕不开的话题。给定一个已知的概率分布 \(p(x)\) ，我们的目标是采样出概率密度更大的那些样本。解决这个问题有多种方法，比如生成伪随机均匀分布，然后用概率分布变换的方法；或者用马尔可夫链蒙特卡洛方法(MCMC)。而朗之万动力学给出的方法是这样：随机选取空间中一个点(这是很简单的，采用高斯生成与 \(x\)...

#物理学

READ

大规模预训练模型BERT

NLP

2026-04-15

Self-Supervised Learning ，又称为自监督学习，我们知道一般机器学习分为有监督学习，无监督学习和强化学习。而 Self-Supervised Learning 是无监督学习里面的一种，主要是希望能够学习到一种通用的特征表达用于下游任务 (Downstream Tasks) 。其主要的方式就是通过自己监督自己。作为代表作的 kaiming 的 MoCo 引发一波热议， Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。所以在这个系列中，我会系统地解读 Self-Supervised Learning 的经典工作。本文主要介绍 Self-Supervised Learning 在 NLP领域的经典工作：BERT模型的原理及其变体。本文来自台湾大学李宏毅老师PPT： https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/bert_v8.pdf 芝麻街在介绍 Self-Supervised Learning...

#Self-Supervised #NLP #transformer

READ

BEiT：视觉BERT预训练模型

Self-Supervised

2026-04-15

BERT 方法回顾在大规模预训练模型BERT 里面我们介绍了 BERT 的自监督预训练的方法，BERT 可以做的事情也就是Transformer 的 Encoder 可以做的事情，就是输入一排向量，输出另外一排向量，输入和输出的维度是一致的。那么不仅仅是一句话可以看做是一个sequence，一段语音也可以看做是一个sequence，甚至一个image也可以看做是一个sequence。所以BERT其实不仅可以用在NLP上，还可以用在CV里面。所以BERT其实输入的是一段文字，如下图所示。 BERT的架构就是Transformer 的 Encoder 接下来要做的事情是把这段输入文字里面的一部分随机盖住。随机盖住有 2 种，一种是直接用一个Mask 把要盖住的token (对中文来说就是一个字)给Mask掉，具体是换成一个特殊的字符。另一种做法是把这个token替换成一个随机的token。把这段输入文字里面的一部分随机盖住具体BERT详情可以参考：大规模预训练模型BERT BERT 可以直接用在视觉任务上吗？上面的 BERT 都是在 NLP 任务上使用，因为 NLP...

#Self-Supervised #transformer

READ

DETR

Computer Vision

2026-04-15

原理分析网络架构本文的任务是Object detection，用到的工具是Transformers，特点是End-to-end。目标检测的任务是要去预测一系列的Bounding Box的坐标以及Label，现代大多数检测器通过定义一些proposal，anchor或者windows，把问题构建成为一个分类和回归问题来间接地完成这个任务。文章所做的工作，就是将transformers运用到了object detection领域，取代了现在的模型需要手工设计的工作，并且取得了不错的结果。在object detection上DETR准确率和运行时间上和Faster RCNN相当；将模型 generalize 到 panoptic segmentation 任务上，DETR表现甚至还超过了其他的baseline。DETR第一个使用End to End的方式解决检测问题，解决的方法是把检测问题视作是一个set prediction problem，如下图所示。...

#Object Detection #CV #transformer

READ

ViT

Computer Vision

2026-04-15

ViT（vision transformer）是Google在2020年提出的直接将transformer应用在图像分类的模型，后面很多的工作都是基于ViT进行改进的。ViT的思路很简单：直接把图像分成固定大小的patchs，然后通过线性变换得到patch embedding，这就类比NLP的words和word embedding，由于transformer的输入就是a sequence of token embeddings，所以将图像的patch embeddings送入transformer后就能够进行特征提取从而分类了。ViT模型原理如下图所示，其实ViT模型只是用了transformer的Encoder来提取特征（原始的transformer还有decoder部分，用于实现sequence to sequence，比如机器翻译）。下面将分别对各个部分做详细的介绍。 Patch Embedding 对于ViT来说，首先要将原始的2-D图像转换成一系列1-D的patch embeddings，这就好似NLP中的word embedding。输入的2-D图像记为 \(x\in...

#CV #transformer

READ

Swin-Transformer

Computer Vision

2026-04-15

前言首先看论文题目。Swin Transformer： Hierarchical Vision Transformer using Shifted Windows。即：Swin Transformer是一个用了移动窗口的层级式Vision Transformer 所以Swin来自于 Shifted Windows ，它能够使Vision Transformer像卷积神经网络一样，做层级式的特征提取，这样提取出来的特征具有多尺度的概念，这也是 Swin Transformer这篇论文的主要贡献。标准的Transformer直接用到视觉领域有一些挑战，即：多尺度问题：比如一张图片里的各种物体尺度不统一，NLP中没有这个问题；分辨率太大：如果将图片的每一个像素值当作一个token直接输入Transformer，计算量太大，不利于在多种机器视觉任务中的应用。基于这两点，本文提出了 hierarchical Transformer，通过移动窗口来学习特征。移动窗口学习，即只在滑动窗口内部计算自注意力，所以称为W-MSA（Window Multi-Self-Attention）。...

#CV #transformer

READ

MAE(Masked Autoencoders)

Computer Vision

2026-04-15

导言自监督学习（Self-Supervised Learning）能利用大量无标注的数据进行表征学习，然后在特定下游任务上对参数进行微调。通过这样的方式，能够在较少有标注数据上取得优于有监督学习方法的精度。近年来，自监督学习受到了越来越多的关注，如Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。在CV领域涌现了如SwAV、MOCO、DINO、MoBY等一系列工作。MAE是kaiming继MOCO之后在自监督学习领域的又一力作。首先，本文会对MAE进行解读，然后基于EasyCV库的精度复现过程及其中遇到的一些问题作出解答。概述 MAE的做法很简单：随机mask掉图片中的一些patch，然后通过模型去重建这些丢失的区域。包括两个核心的设计：1.非对称编码-解码结构 2.用较高的掩码率（75%）。通过这两个设计MAE在预训练过程中可以取得3倍以上的训练速度和更高的精度，如ViT-Huge能够通过ImageNet-1K数据上取得87.8%的准确率。模型拆解...

#Self-Supervised #CV #transformer

READ

Transformer结构及其应用

NLP

2026-04-15

取代RNN——Transformer 在介绍Transformer前我们来回顾一下RNN的结构对RNN有一定了解的话，一定会知道，RNN有两个很明显的问题效率问题：需要逐个词进行处理，后一个词要等到前一个词的隐状态输出以后才能开始处理如果传递距离过长还会有梯度消失、梯度爆炸和遗忘问题为了缓解传递间的梯度和遗忘问题，设计了各种各样的RNN cell，最著名的两个就是LSTM和GRU了 LSTM (Long Short Term Memory) GRU (Gated Recurrent Unit) 但是，引用网上一个博主的比喻，这么做就像是在给马车换车轮，为什么不直接换成汽车呢？于是就有了 Transformer 。Transformer 是Google Brain 2017的提出的一篇工作，它针对RNN的弱点进行重新设计，解决了RNN效率问题和传递中的缺陷等，在很多问题上都超过了RNN的表现。Transfromer的基本结构如下图所示，...

#NLP #transformer

READ

Stable Diffusion系列

Generative Model

2026-04-15

SD模型原理 SD是CompVis、Stability AI和LAION等公司研发的一个文生图模型，它的模型和代码是开源的，而且训练数据LAION-5B也是开源的。SD在开源90天github仓库就收获了 33K的stars ，可见这个模型是多受欢迎。 SD是一个基于latent的扩散模型，它在UNet中引入text condition来实现基于文本生成图像。SD的核心来源于 Latent Diffusion 这个工作，常规的扩散模型是基于pixel的生成模型，而Latent Diffusion是基于latent的生成模型，它先采用一个autoencoder将图像压缩到latent空间，然后用扩散模型来生成图像的latents，最后送入autoencoder的decoder模块就可以得到生成的图像。基于latent的扩散模型的优势在于计算效率更高效，因为图像的latent空间要比图像pixel空间要小，这也是SD的核心优势...

#flow #diffusion #Generating Model #transformer

READ

价值迭代和策略迭代

Reinforcement Learning

2026-04-15

引言强化学习中，找到最优策略是核心目标。本文详细介绍三种能够找到最优策略的基础算法：价值迭代、策略迭代和截断策略迭代。这些算法属于动态规划范畴，需要系统模型，是后续无模型强化学习算法的重要基础。在强化学习的发展路线中，这些算法处于"基础工具"到"算法/方法"的过渡阶段，是从"有模型"到"无模型"学习的重要桥梁。价值迭代（Value iteration）价值迭代算法基于收缩映射定理求解贝尔曼最优方程。其核心迭代公式为： \[\begin{equation}v_{k+1} = \max_{\pi \in \Pi} (r_\pi + \gamma P_\pi v_k), k = 0, 1, 2, ...\tag{1}\end{equation}\] 根据收缩映射定理，当 \(k \to \infty\) 时， \(v_k\) 和 \(\pi_k\) 分别收敛到最优状态值和最优策略。每次迭代包含两个步骤：策略更新步骤（policy update step）：找到能解决以下优化问题的策略 \[\pi_{k+1} = \arg\max_\pi (r_\pi +...

#Reinforcement Learning

READ

随机近似（Stochastic Approximation）

Math

2026-04-15

引言与背景随机逼近（Stochastic Approximation）是一类用于求解寻根或优化问题的随机迭代算法，其特点是不需要知道目标函数或其导数的表达式。随机逼近的核心优势在于：能够处理带有随机噪声的观测数据不需要目标函数的解析表达式可以在线学习，每获得一个新样本就更新估计值均值估计问题考虑一个随机变量 \(X\) ，其取值来自有限集合 \(\mathcal{X}\) 。我们的目标是估计 \(E[X]\) 。假设我们有一个独立同分布的样本序列 \(\{x_i\}_{i=1}^n\) ，那么 \(X\) 的期望值可以近似为： \[E[X] \approx \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i\] 非增量方法与增量方法非增量方法：先收集所有样本，然后计算平均值。缺点是如果样本数量很大，可能需要等待很长时间。增量方法：定义 \[w_{k+1} = \frac{1}{k}\sum_{i=1}^k x_i, k = 1, 2, ...\] 可以推导出递归公式： \[{w}_{k + 1} =...

#Reinforcement Learning #math

READ

强化学习Model-Free之蒙特卡洛

Reinforcement Learning

2026-04-15

引言与背景蒙特卡洛方法是强化学习中的重要算法类别，它标志着从基于模型到无模型算法的转变。这类算法不依赖环境模型，而是通过与环境的直接交互获取经验数据来学习最优策略。蒙特卡洛方法在强化学习算法谱系中处于"无模型"方法的起始位置，是从基于模型的方法（如值迭代和策略迭代）向无模型方法过渡的第一步。无模型强化学习的核心理念可以简述为：如果没有模型，我们必须有数据；如果没有数据，我们必须有模型；如果两者都没有，我们就无法找到最优策略。在强化学习中，"数据"通常指智能体与环境交互的经验。均值估计问题在介绍蒙特卡洛强化学习算法之前，我们首先需要理解均值估计问题，这是理解从数据而非模型中学习的基础。考虑一个可以取有限实数集合 \(X\) 中值的随机变量 \(X\) ，我们的任务是计算 \(X\) 的均值或期望值： \(E[X]\) 有两种方法可以计算 \(E[X]\) ：基于模型的方法：当已知随机变量的概率分布时，可以直接根据期望值的定义计算： \[E[X] = \sum_{x \in X} p(x) \cdot x\] 其中 \(p(x)\) 是 \(X\) 取值为 \(x\)...

#Q-Learning #Reinforcement Learning

READ

#

!

INCOMING TRANSMISSION

朗之万动力学

大规模预训练模型BERT

BEiT：视觉BERT预训练模型

DETR

ViT

Swin-Transformer

MAE(Masked Autoencoders)

Transformer结构及其应用

Stable Diffusion系列

价值迭代和策略迭代

随机近似（Stochastic Approximation）

强化学习Model-Free之蒙特卡洛