知识库 - Orange

AIM系列--大视觉模型的自回归预训练

Self-Supervised

2026-04-20

AIM v1 论文名称：Scalable Pre-training of Large Autoregressive Image Models (Arxiv 24.01) 论文地址： arxiv.org/pdf/2401.08541.pdf 代码地址： github.com/apple/ml-aim 简介自回归预训练的大视觉模型会不会像 LLM 一样有缩放性质？大语言模型 (LLM) 的革命性发展使得与任务无关的预训练成为自然语言处理任务的主流。大语言模型可以解决复杂的推理任务，遵从人类的指令，并且成为人工智能助手。LLM 成功的一个非常关键的因素是：随着模型容量和数据量的扩增，带来的模型能力的持续提升。为什么大语言模型具有缩放性质？作者提出以下2点原因：即使这些模型只使用最简单的目标函数进行 Next Token Prediction 的自回归预训练，它们也可以在复杂的上下文中学习到复杂的范式。大语言模型的缩放性质是一些工作在 Transformer 架构中发现的，这也暗示了自回归预训练与 Transformer 架构之间的协同关系。本文探索的目标是：自回归预训练和...

#CV #Autoregressive

READ

Self-Supervised Learning 概述

Self-Supervised

2026-04-16

the machine predicts any parts of its input for any observed part 这是LeCun在AAAI 2020上对自监督学习的定义，再结合传统的自监督学习定义，可以总结如下两点特征：通过“半自动”过程从数据本身获取“标签”；从“其他部分”预测部分数据。个人理解，其实任意挖掘对象之间联系、探索不同对象共同本质的方法，都或多或少算是自监督学习的思想。自监督学习与无监督学习的区别主要在于，无监督学习专注于检测特定的数据模式，如聚类、社区发现或异常检测，而自监督学习的目标是恢复（recovering），仍处于监督学习的范式中。上图展示了三者之间的区别，自监督中的“related information” 可以来自其他模态、输入的其他部分以及输入的不同形式。 Self-Supervised...

#Autoregressive #Self-Supervised

READ

Focal Loss的一些列改进

Computer Vision

2026-04-15

Focal Loss 在早期的目标检测中，最头疼的问题是正负样本极度不平衡（背景太多，物体太少），且大量背景是“容易分类的负样本”。传统的交叉熵损失（BCE）会被这些海量的简单样本淹没。为了解决这个问题，Focal Loss (FL) 引入了一个动态缩放因子：对于正样本，损失大致为： \(-(1-p)^\gamma \log(p)\) 核心逻辑：如果模型已经预测得很准了（概率 \(p\) 接近 \(1\) ），那么 \((1−p)^\gamma\) 就会趋近于 \(0\) ，从而降低简单样本的权重，强迫模型去关注那些还没学好的“困难样本”。 focal loss 形式如下 \[\text{FL}(p,y) = \begin{cases} -\alpha(1-p)^\gamma log(p) & y = 1 \\ -(1-\alpha)p^\gamma log(1-p) & y=0 \end{cases}\tag{1}\] 详情参考： Focal Loss & RetinaNet GFL(Generalized Focal Loss) 论文地址：...

#CV #Object Detection

READ

排序算法

Algorithm

2026-04-15

164. 最大间距题目给定一个无序的数组，找出数组在排序之后，相邻元素之间最大的差值。如果数组元素个数小于 2，则返回 0。 Example 1: Input: [3,6,9,1] Output: 3 Explanation: The sorted form of the array is [1,3,6,9], either (3,6) or (6,9) has the maximum difference 3. 题解如果进行排序，这里会超时。采用桶排序基础排序算法的思想，可以在线性时间解决。首先建立桶，每个桶中只需要存放这个桶中元素的最大值和最小值。我们期望将数组中的各个数等距离分配，也就是每个桶的长度相同，也就是对于所有桶来说，桶内最大值减去桶内最小值都是一样的。可以当成公式来记。 \[每个桶的长度=\max(1,\lfloor{{\max(nums)-\min(nums)}\over{len(nums)-1}}\rfloor)\tag{1}\]...

#Algorithm

READ

堆（大顶堆&小顶堆）

Algorithm

2026-04-15

实现方式一：使用 heapq 标准库这是 Python 最快、最节省内存的方式，因为 heapq 底层是用 C 语言实现的。小顶堆 (Min Heap) Python 的 heapq 默认就是小顶堆。 import heapq # 初始化 min_heap = [] # 添加元素 O(log N) heapq.heappush(min_heap, 5) heapq.heappush(min_heap, 2) heapq.heappush(min_heap, 8) # 查看堆顶 O(1) print(min_heap[0]) # 输出: 2 # 弹出堆顶 O(log N) pop_val = heapq.heappop(min_heap) print(pop_val) # 输出: 2 print(min_heap) # 输出: [5, 8] (注意：堆内部不一定有序，但堆顶一定是最小的) # 将已有的列表转化为堆 O(N) nums = [5, 7, 1, 3] heapq.heapify(nums) print(nums) #...

#Algorithm

READ

自回归生成模型（Autoregressive Models）

Generative Model

2026-04-15

研究对象与基本设定我们希望学习一个能够“生成数据”的概率模型。假设我们有一个数据集 \(D\) ，每个样本是 \(n\) 维二值向量： \(x \in \{0,1\}^n\) 我们的目标是用一个参数化分布 \(p_\theta(x)\) 去逼近真实数据分布 \(p_{\text{data}}(x)\) ，并最终能够：密度估计：给定 \(x\) 计算 \(p_\theta(x)\) 或 \(\log p_\theta(x)\) 采样生成：从 \(p_\theta(x)\) 采样得到新的 \(x\) 给定一个具体的任务，如MNIST中的手写数字二值图分类，从Generative的角度进行Represent，并在Inference中Learning. 下面先介绍：描述如何对这个MINST任务建模 \(p(X,Y)\) （Representation）对MNIST任务建模对于一张pixel为 \(28\times28\) 大小的图片，令 \(x_1\) 表示第一个pixel的随机变量， \(x_1\in\{0,1\}\) ，需明确：任务目标：学习一个模型分布...

#Generating Model #Autoregressive

READ

NLP分词算法概述

NLP

2026-04-15

Tokenizer 背景与基础目前的机器学习模型都是数学模型，其对应的输入要求必须是数字形式（number）的，而我们处理的真实场景往往会包含许多非数字形式的输入（有时候即使原始输入是数字形式，我们也需要转换），最典型的就是 NLP 中的文字(string)，为了让文字能够作为输入参与到模型的计算中去，我们就需要构建一个映射关系(mapping)：将对应的文字映射到一个数字形式上去，而其对应的数字就是 token。而对应的这个映射关系，就是我们的 tokenizer：他可以将文字映射到其对应的数字上去(encode)，也可以将数字映射回对应的文字上(decode)。诸如GPT-3/4以及LlaMA/LlaMA2大语言模型都采用了token的作为模型的输入输出，其输入是文本，然后将文本转为token（正整数），然后从一串token（对应于文本）预测下一个token。进入OpenAI官网提供的tokenizer可以看到GPT-3tokenizer采用的方法。这里以Hello World为例说明。...

#NLP #Tokenizer

READ

Word2Vec 之 Skip-Gram 模型

NLP

2026-04-15

什么是Word2Vec和Embeddings？ Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理（NLP）中。那么它是如何帮助我们做自然语言处理呢？Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射，将单词从原先所属的空间映射到新的多维空间中，也就是把原先词所在空间嵌入到一个新的空间中去。我们从直观角度上来理解一下，cat这个单词和kitten属于语义上很相近的词，而dog和kitten则不是那么相近，iphone这个单词和kitten的语义就差的更远了。通过对词汇表中单词进行这种数值表示方式的学习（也就是将单词转换为词向量），能够让我们基于这样的数值进行向量化的操作从而得到一些有趣的结论。比如说，如果我们对词向量kitten、cat以及dog执行这样的操作：kitten - cat + dog，那么最终得到的嵌入向量（embedded vector）将与puppy这个词向量十分相近。第一部分模型...

#NLP

READ

RNN与LSTM

NLP

2026-04-15

RNN 概述在前面讲到的DNN和CNN中，训练样本的输入和输出是比较的确定的。但是有一类问题DNN和CNN不好解决，就是训练样本输入是连续的序列,且序列的长短不一，比如基于时间的序列：一段段连续的语音，一段段连续的手写文字。这些序列比较长，且长度不一，比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练。而对于这类问题，RNN则比较的擅长。那么RNN是怎么做到的呢？RNN假设我们的样本是基于序列的。比如是从序列索引1到序列索引 \(τ\) 。对于这其中的任意序列索引号 \(t\) ,它对应的输入是对应的样本序列中的 \(x(t)\) 。而模型在序列索引号 \(t\) 位置的隐藏状态 \(h(t)\) ，则由 \(x(t)\) 和在 \(t−1\) 位置的隐藏状态 \(h(t−1)\) 共同决定。在任意序列索引号 \(t\) ，我们也有对应的模型预测输出 \(o(t)\) 。通过预测输出 \(o(t)\) 和训练序列真实输出 \(y(t)\) ,以及损失函数 \(L(t)\) ，我们就可以用DNN类似的方法来训练模型，接着用来预测测试序列中的一些位置的输出。...

#NLP

READ

大规模预训练模型BERT

NLP

2026-04-15

Self-Supervised Learning ，又称为自监督学习，我们知道一般机器学习分为有监督学习，无监督学习和强化学习。而 Self-Supervised Learning 是无监督学习里面的一种，主要是希望能够学习到一种通用的特征表达用于下游任务 (Downstream Tasks) 。其主要的方式就是通过自己监督自己。作为代表作的 kaiming 的 MoCo 引发一波热议， Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。所以在这个系列中，我会系统地解读 Self-Supervised Learning 的经典工作。本文主要介绍 Self-Supervised Learning 在 NLP领域的经典工作：BERT模型的原理及其变体。本文来自台湾大学李宏毅老师PPT： https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/bert_v8.pdf 芝麻街在介绍 Self-Supervised Learning...

#NLP #transformer #Self-Supervised

READ

IoU loss系列

Computer Vision

2026-04-15

IOU(Intersection over Union) 特性(优点) IoU就是我们所说的交并比，是目标检测中最常用的指标，在anchor-based的方法中，他的作用不仅用来确定正样本和负样本，还可以用来评价输出框（predict box）和ground-truth的距离。 \[IoU = \frac{|A \cap B|}{|A \cup B|} \] 可以说它可以反映预测检测框与真实检测框的检测效果。还有一个很好的特性就是尺度不变性，也就是对尺度不敏感（scale invariant），在regression任务中，判断predict box和gt的距离最直接的指标就是IoU。 (满足非负性；同一性；对称性；三角不等性) import numpy as np def Iou(box1, box2, wh=False): if wh == False: xmin1, ymin1, xmax1, ymax1 = box1 xmin2, ymin2, xmax2, ymax2 = box2 else: xmin1, ymin1 =...

#Object Detection #CV

READ

NMS及其改进

Computer Vision

2026-04-15

过程：根据分类概率从小到大排序ABCDEF 从最大概率F开始，F与A～E的IOU是否大于阈值大于的扔掉，从剩下的当中继续重复2～3 import numpy as np def nms(bbox, scores, Nt): if len(bbox) == 0: return [] bboxes = np.array(bbox) x1 = bboxes[:, 0] y1 = bboxes[:, 1] x2 = bboxes[:, 2] y2 = bboxes[:, 3] area = (x2 - x1 + 1) * (y2 - y1 + 1) order = np.argsort(scores) res = [] while order.size > 0: index = order[-1] res.append(bboxes[index]) x11 = np.maximum(x1[index], x1[order[:-1]]) ...

#Object Detection #CV

READ

#

!

INCOMING TRANSMISSION

AIM系列--大视觉模型的自回归预训练

Self-Supervised Learning 概述

Focal Loss的一些列改进

排序算法

堆（大顶堆&小顶堆）

自回归生成模型（Autoregressive Models）

NLP分词算法概述

Word2Vec 之 Skip-Gram 模型

RNN与LSTM

大规模预训练模型BERT

IoU loss系列

NMS及其改进