知识库 - Orange

AIM系列--大视觉模型的自回归预训练

Self-Supervised

2026-04-20

AIM v1 论文名称：Scalable Pre-training of Large Autoregressive Image Models (Arxiv 24.01) 论文地址： arxiv.org/pdf/2401.08541.pdf 代码地址： github.com/apple/ml-aim 简介自回归预训练的大视觉模型会不会像 LLM 一样有缩放性质？大语言模型 (LLM) 的革命性发展使得与任务无关的预训练成为自然语言处理任务的主流。大语言模型可以解决复杂的推理任务，遵从人类的指令，并且成为人工智能助手。LLM 成功的一个非常关键的因素是：随着模型容量和数据量的扩增，带来的模型能力的持续提升。为什么大语言模型具有缩放性质？作者提出以下2点原因：即使这些模型只使用最简单的目标函数进行 Next Token Prediction 的自回归预训练，它们也可以在复杂的上下文中学习到复杂的范式。大语言模型的缩放性质是一些工作在 Transformer 架构中发现的，这也暗示了自回归预训练与 Transformer 架构之间的协同关系。本文探索的目标是：自回归预训练和...

#CV #Autoregressive

READ

Self-Supervised Learning 概述

Self-Supervised

2026-04-16

the machine predicts any parts of its input for any observed part 这是LeCun在AAAI 2020上对自监督学习的定义，再结合传统的自监督学习定义，可以总结如下两点特征：通过“半自动”过程从数据本身获取“标签”；从“其他部分”预测部分数据。个人理解，其实任意挖掘对象之间联系、探索不同对象共同本质的方法，都或多或少算是自监督学习的思想。自监督学习与无监督学习的区别主要在于，无监督学习专注于检测特定的数据模式，如聚类、社区发现或异常检测，而自监督学习的目标是恢复（recovering），仍处于监督学习的范式中。上图展示了三者之间的区别，自监督中的“related information” 可以来自其他模态、输入的其他部分以及输入的不同形式。 Self-Supervised...

#Autoregressive #Self-Supervised

READ

KLT 光流算法详解

3D Model

2026-04-15

光流（Optical Flow）是物体在三维空间中的运动（运动场）在二维图像平面上的投影，由物体与相机的相对速度产生，反映了微小时间内物体对应的图像像素的运动方向和速度。 KLT 是基于光流原理的一种特征点跟踪算法，本文首先介绍光流原理，然后介绍 KLT 及相关 KLT 变种算法。 Optical Flow 光流法假设：亮度恒定，图像中物体的像素亮度在连续帧之间不会发生变化；短距离(短时)运动，相邻帧之间的时间足够短，物体运动较小；空间一致性，相邻像素具有相似的运动；记 \(I(x,y,t)\) 为 \(t\) 时刻像素点 \((x,y)\) 的像素值，那么根据前两个假设，可得到： \[I(x,y,t)=I(x+dx,y+dy,t+dt)\] 一阶泰勒展开： \[I(x+dx,y+dy,t+dt)=I(x,y,t)+\frac{\partial I}{\partial x}dx+\frac{\partial I}{\partial y}dy+\frac{\partial I}{\partial t}dt\] 由此可得： \[\frac{\partial I}{\partial...

#video

READ

自回归生成模型（Autoregressive Models）

Generative Model

2026-04-15

研究对象与基本设定我们希望学习一个能够“生成数据”的概率模型。假设我们有一个数据集 \(D\) ，每个样本是 \(n\) 维二值向量： \(x \in \{0,1\}^n\) 我们的目标是用一个参数化分布 \(p_\theta(x)\) 去逼近真实数据分布 \(p_{\text{data}}(x)\) ，并最终能够：密度估计：给定 \(x\) 计算 \(p_\theta(x)\) 或 \(\log p_\theta(x)\) 采样生成：从 \(p_\theta(x)\) 采样得到新的 \(x\) 给定一个具体的任务，如MNIST中的手写数字二值图分类，从Generative的角度进行Represent，并在Inference中Learning. 下面先介绍：描述如何对这个MINST任务建模 \(p(X,Y)\) （Representation）对MNIST任务建模对于一张pixel为 \(28\times28\) 大小的图片，令 \(x_1\) 表示第一个pixel的随机变量， \(x_1\in\{0,1\}\) ，需明确：任务目标：学习一个模型分布...

#Generating Model #Autoregressive

READ

PointNet系列

3D Model

2026-04-15

三维深度学习简介多视角（multi-view）：通过多视角二维图片组合为三维物体，此方法将传统CNN应用于多张二维视角的图片，特征被view pooling procedure聚合起来形成三维物体；体素（volumetric）：通过将物体表现为空间中的体素进行类似于二维的三维卷积（例如，卷积核大小为5x5x5），是规律化的并且易于类比二维的，但同时因为多了一个维度出来，时间和空间复杂度都非常高，目前已经不是主流的方法了；点云（point clouds）：直接将三维点云抛入网络进行训练，数据量小。主要任务有分类、分割以及大场景下语义分割；非欧式（manifold，graph）：在流形或图的结构上进行卷积，三维点云可以表现为mesh结构，可以通过点对之间临接关系表现为图的结构。点云的特性无序性...

#PointCloud #3D

READ

PointConv

3D Model

2026-04-15

概括这篇文章将卷积比较自然地拓展到点云的情形，思路很赞！文章的主要创新点：“weight function”和“density function”，并能实现translation-invariance和permutation-invariance，可以实现层级化特征提取，而且能自然推广到其deconvolution的情形实现分割，在二维CIFAR-10图像分类任务中精度堪比CNN（表明能够充分近似卷积网络），达到了SOTA的性能。缺点：每个kernel都需要由“kernel function”生成，而“kernel function”实质上是一个CNN网络，计算量比较大。思想察觉到：二维卷积中pixel的相对centroid位置与kernel vector的生成方式有关。以二维卷积为例说明一下如何将卷积拓展到点云。这里只考虑使用一个kernel在一个location的一次卷积操作。对于二维图像，我们可以将图像的pixels看作是一个点，那么图像就是整齐排列的点阵。每个point都有维度为 \(C_{in}\)...

#3D #PointCloud

READ

VoteNet

3D Model

2026-04-15

Hough Voting 本文的标题是Deep Hough Voting，先来说一下Hough Voting。用Hough变换检测直线大家想必都听过：对于一条直线，可以使用 \((r,θ)\) 两个参数进行描述，那么对于图像中的一点，过这个点的直线有很多条，可以生成一系列的 \((r,θ)\) ，在参数平面内就是一条曲线，也就是说，一个点对应着参数平面内的一个曲线。那如果有很多个点，则会在参数平面内生成很多曲线。那么，如果这些点是能构成一条直线的，那么这条直线的参数 \((r,θ)\) 就在每条曲线中都存在，所以看起来就像是多条曲线相交在 \((r,θ)\) 。可以用多条曲线投票的方式来看，其他点都是很少的票数，而 \((r,θ)\) 则票数很多，所以直线的参数就是 \((r,θ)\) 。所以Hough变换的思想就是在于，在参数空间内进行投票，投票得数高的就是要得到的值。文中提到的Hough Voting如下： A traditional Hough voting 2D detector comprises an offline and an online step....

#3D #PointCloud

READ

Online Action Detection

3D Model

2026-04-15

Temporal action detection可以分为两种setting，一是offline的，在检测时视频是完整可得的，也就是可以利用完整的视频检测动作发生的时间区间（开始时间+结束时间）以及动作的类别; 二是 online的，即处理的是一个视频流，需要在线的检测（or 预测未来）发生的动作类别，但无法知道检测时间点之后的内容。online的问题设定更符合surveillance的需求，需要做实时的检测或者预警；offline的设定更符合视频搜索的需求，比如youtube可能用到的 highlight detection / preview generation。问题演化 Early action detection -> Online action detection -> Online action anticipation：在学术界关注online action detection之前，有一个相似的问题叫做 early event detection ，问题定义是 “detect the event as soon as possible, after it...

#video

READ

Video Model 概述

3D Model

2026-04-15

Classification，Detection Classification：给定预先裁剪好的视频片段，预测其所属的行为类别 Detection：视频是未经过裁剪的，需要先进行人的检测where和行为定位（分析行为的始末时间）when，再进行行为的分类what。通常所说的行为识别更偏向于对时域预先分割好的序列进行行为动作的分类，即 Trimmed Video Action Classification。 Two-Stream Two-stream convolutional networks 简介 Two-Stream CNN网络顾名思义分为两个部分，空间流处理 RGB图像，得到形状信息; 时间流/光流处理光流图像，得到运动信息。两个流最后经过softmax后，做分类分数的融合，可以采用平均法或者是SVM。不过这两个流都是二维卷积操作。最终联合训练，并分类。如图所示，其实做法非常的简单，相当于训练两个CNN的分类器。一个是专门对于 RGB 图的，一个专门对于光流图的，然后将两者的结果进行一个 fushion 的过程。...

#video

READ

Deep Generative Models概述

Generative Model

2026-04-15

简介如果以概率的视角看待世界的生成模型。在这样的世界观中，我们可以将任何类型的观察数据（例如 \(D\) ）视为来自底层分布（例如 \( p_{data}\) ）的有限样本集。任何生成模型的目标都是在访问数据集 \(D\) 的情况下近似该数据分布。如果我们能够学习到一个好的生成模型，我们可以将学习到的模型用于下游推理。我们主要对数据分布的参数近似感兴趣，在一组有限的参数中，它总结了关于数据集 \(D\) 的所有信息。与非参数模型相比，参数模型在处理大型数据集时能够更有效地扩展，但受限于可以表示的分布族。在参数的设置中，我们可以将学习生成模型的任务视为在模型分布族中挑选参数，以最小化模型分布和数据分布之间的距离。如上图，给定一个狗的图像数据集，我们的目标是学习模型族 \(M\) 中生成模型 θ 的参数，使得模型分布 \(p_θ\) 接近 \(p_{data}\) 上的数据分布。在数学上，我们可以将我们的目标指定为以下优化问题: \[\mathop{min}\limits_{\theta\in M}d(p_\theta,p_{data})\] 其中， \(d()\)...

#Generating Model #VAE #Autoregressive

READ

Structured Generation

Large Model

2026-04-15

引言 Structured Generation with LLM，是指让LLM按照预先定义的schema，输出符合schema的结构化结果。常见的应用场景有：数据处理。主要功能为a -> b，即从源文本中抽取/生成符合schema的结果，例如给定新闻，进行分类、抽取关键词、生成总结等； Agent 。主要功能是Tool Calling，即根据用户query，选择适当的tool和入参。将 LLM 限制为始终生成符合特定模式的、有效的 JSON 或 YAML，是许多应用的关键功能。 Kor Kor ，一个基于prompt的技术方案；Kor比较适合数据处理场景，且原理简单、易于理解，适合作为入门, 并且Kor适用于那些不支持function calling的比较旧的模型。使用Kor进行structured generation的流程如下：定义schema，包括结构、注释还有例子； Kor用特定的 prompt template ，将用户提供的schema和待处理的raw text，组装成prompt；将prompt发送给LLM，借助其通用的In...

#LLM #Large Model #Acceleration

READ

Flash-Attention

Large Model

2026-04-15

引言与背景 FlashAttention的关键创新在于使用类似于在线Softmax的思想来对自注意力计算进行分块（tiling），从而能够融合整个多头注意力层的计算，而无需访问GPU全局内存来存储中间的logits和注意力分数在深度学习中，Transformer模型的自注意力机制是计算密集型操作。传统实现需要在GPU全局内存中存储大量中间结果，这导致：内存瓶颈：中间矩阵占用大量显存 I/O开销：频繁的全局内存访问降低效率扩展性限制：难以处理超长序列 FlashAttention通过算法创新解决了这些问题。 Self-Atention 自注意力机制的计算可以总结为（为简化说明，忽略头数和批次维度，也省略注意力掩码和缩放因子 \(\frac{1}{\sqrt{D}}\) ）： \[O = \text{softmax}(QK^T)V\] 其中： \(Q, K, V, O\) 都是形状为 \((L, D)\) 的二维矩阵 \(L\) 是序列长度 \(D\) 是每个头的维度（头维度） softmax应用于最后一个维度（列）标准计算流程，传统方法将自注意力计算分解为几个阶段：...

#Acceleration #Large Model

READ

#

!

INCOMING TRANSMISSION

AIM系列--大视觉模型的自回归预训练

Self-Supervised Learning 概述

KLT 光流算法详解

自回归生成模型（Autoregressive Models）

PointNet系列

PointConv

VoteNet

Online Action Detection

Video Model 概述

Deep Generative Models概述

Structured Generation

Flash-Attention