知识库 - Orange

Janus 系列

Large Model

2026-04-15

Janus 论文名称: Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation 论文地址: arxiv.org/pdf/2410.13848 项目主页 : github.com/deepseek-ai/Janus 模型 Janus 是使用一个统一的 Transformer 架构来统一多模态图像理解和多模态图像生成任务的模型。这种方法通常使用单个视觉编码器来处理这 2 个任务的输入。然而，多模态理解和生成任务所需的表征差异很大：多模态理解任务中，视觉编码器的目的是提取高级语义信息。理解任务的输出不仅涉及从图像中提取信息，还涉及复杂的语义推理。因此，视觉编码器表示的粒度往往主要集中在高维语义的表征上。相比之下，视觉生成任务中，主要关注点是生成局部细节并保持图像中的全局一致性。在这种情况下，表征需要表示出细粒度的空间结构，以及纹理细节。在同一空间中统一这两个任务的表示将导致冲突...

#VLM #生成理解模型

READ

多摸位置编码的进一步探索--MHRoPE / MRoPE-I

Large Model

2026-04-15

简介论文：《REVISITING MULTIMODAL POSITIONAL ENCODING IN VISION–LANGUAGE MODELS》通过对多模态旋转位置嵌入（RoPE）的两个核心组件——位置设计和频率分配进行综合分析。通过实验，确定了三个关键指南：位置一致性、频率全利用和保留文本先验。基于这些见解，提出了多头RoPE（MHRoPE）和MRoPE-Interleave（MRoPE-I），这两种简单且即插即用的变体不需要任何架构更改。为了构建更稳健的多模态位置编码，作者在MRoPE的基础上，系统地探索了三个未充分研究的方案：位置设计——如何为文本和视觉标记分配无歧义、分离良好的坐标；频率分配——如何将旋转频率分配到每个位置轴的嵌入维度；与纯文本RoPE的兼容性——确保设计默认为标准RoPE，以便进行有效的迁移学习。 Vanilla RoPE RoPE与加性位置嵌入不同，RoPE对query和key向量应用旋转变换，从而将相对位置依赖直接纳入自注意力机制。给定位置 \(m\) 的查询向量 \(q\) 和位置 \(n\) 的键向量 \(k\) ，注意力分数...

#位置编码 #VLM

READ

DeepSeek OCR

Large Model

2026-04-15

DeeSeek-OCR 简介当前的大型语言模型（LLMs）在处理长文本时面临显著的计算挑战，其开销随序列长度呈二次增长。本文探索一种潜在的解决方案：将视觉模态作为高效的文本信息压缩媒介。单张包含文档文本的图像，能够用显著更少的 token 表达丰富信息，相比等量的数字文本更为紧凑；这表明，通过视觉 token 进行光学压缩有望实现更高的压缩比。本文关注视觉编码器如何提升 LLM 在处理文本信息时的效率，而非人类本就擅长的基础 VQA 任务当前主流 VLM 视觉编码器的问题第一类是以 Vary 为代表的双塔（dual-tower）架构，通过并行的 SAM 编码器来提升高分辨率图像处理时的视觉词表参数规模。该方法虽然在参数量与激活内存上更可控，但也存在显著缺点：需要对图像进行两套预处理，增加了部署复杂度；同时在训练中使编码器管线的并行化变得困难。第二类是以 InternVL2.0 为代表的切片（tile-based）方法，通过将图像划分为小块并行处理，在高分辨率场景下降低激活内存。尽管这种方法能够处理极高分辨率，但由于其原生编码器分辨率通常较低（低于...

#VLM #LLM #Large Model

READ

MiniCPM-V系列

Large Model

2026-04-15

MiniCPM-V系列是面壁智能推出的小参数量的开源多模态大模型，没有超过9B的版本。主打小而强。 MiniCPM-Llama3-V 2.5 这版有论文了，详细写。应该也是2.6的基础。这一版在 OpenCompass 评估中优于强大的 GPT-4V-1106、Gemini Pro 和 Claude 3。能力支持最高1.8M像素的高分辨率图像输入（例如1344*1344），支持任意长宽比图像强大的OCR，OCRBench 上优于 GPT-4V、Gemini Pro 和 Qwen-VL-Max，支持table-to-markdown 可信，基于RLAIF-V技术做了对齐，减少幻觉，更符合人类喜好多语言，基于VisCPM技术，支持30多种语言系统地集成了一套端侧部署优化技术模型架构基本架构三部分：visual encoder, 压缩层, LLM visual encoder：SigLIP SoViT-400m/14 压缩层：单层交叉注意力 LLM：每一代都不同 Adaptive Visual Encoding...

#Large Model #VLM

READ

流模型Flow的基本概念与实现

Generative Model

2026-04-15

背景本文主要是《NICE: Non-linear Independent Components Estimation》一文的介绍和实现。这篇文章也是glow这个模型的基础文章之一，可以说它就是glow的奠基石。艰难的分布众所周知，目前主流的生成模型包括VAE和GAN，但事实上除了这两个之外，还有基于flow的模型（flow可以直接翻译为“流”，它的概念我们后面再介绍）。事实上flow的历史和VAE、GAN它们一样悠久，但是flow却鲜为人知。在我看来，大概原因是flow找不到像GAN一样的诸如“造假者-鉴别者”的直观解释吧，因为flow整体偏数学化，加上早期效果没有特别好但计算量又特别大，所以很难让人提起兴趣来。不过现在看来，OpenAI的这个好得让人惊叹的、基于flow的glow模型，估计会让更多的人投入到flow模型的改进中。 glow模型生成的高清人脸生成模型的本质，就是希望用一个我们知道的概率模型来拟合所给的数据样本，也就是说，我们得写出一个带参数 \(𝜃\) 的分布 \(q_{\boldsymbol{\theta}}(\boldsymbol{x})\)...

#Generating Model #flow

READ

Normalizing flow

Generative Model

2026-04-15

Normalizing flow（标准化流）是一类对概率分布进行建模的工具，它能完成简单的概率分布（例如高斯分布）和任意复杂分布之间的相互转换，经常被用于 data generation、density estimation、inpainting 等任务中，例如 Stability AI 提出的 Stable Diffusion 3 中用到的 rectified flow 就是 normalizing flow 的变体之一。为了便于理解，在正式开始介绍之前先简要说明一下 normalizing flow 的做法。如上图所示，为了将一个高斯分布 \(z_0\) 转换为一个复杂的分布 \(z_K\) ，normalizing flow 会对初始的分布 \(z_0\) 进行多次可逆的变换，将其逐渐转换为 \(z_K\) 。由于每一次变换都是可逆的，从 \(z_K\) 出发也能得到高斯分布 \(z_0\) 。这样，我们就实现了复杂分布与高斯分布之间的互相转换，从而能从简单的高斯分布建立任意复杂分布。对 diffusion models 比较熟悉的读者可能已经发现了，这个过程和...

#Generating Model #flow

READ

Rectified Flow

Generative Model

2026-04-15

1-Rectified Flow 可以认为是 flow matching的ot最优传输形式 Rectified Flow目的是将多对多无约束映射转变成一对一有约束映射。 ode会保证路径是“因果”的，也就是避免相交的情况 2-Rectified Flow或者叫Reflow 核心的实际上是加噪过程的样本交点数目降低，交点处模型无法精确学习向量场，交点数少了，模型在每个点预测都更准了，加噪过程是直线，所以能更少步数走到起点(但整体采样过程不是直线) 原本随机采样的DDPM模型中，也隐含了一个确定性的采样过程DDIM，它的连续极限也是一个ODE 。细想上述过程，可以发现不管是“DDPM→DDIM”还是“SDE→ODE”，都是从随机采样模型过渡到确定性模型，而如果我们一开始的目标就是ODE，那么该过程未免显得有点“迂回”了。在本文中，笔者尝试给出ODE扩散模型的直接推导，并揭示了它与雅可比行列式、热传导方程等内容的联系。 Rectified Flow 理论推导微分方程...

#diffusion #Generating Model #flow

READ

泊松分布和指数分布

Math

2026-04-15

泊松分布日常生活中，大量事件是有固定频率的。某医院平均每小时出生3个婴儿某公司平均每10分钟接到1个电话某超市平均每天销售4包xx牌奶粉某网站平均每分钟有2次访问它们的特点就是，我们可以预估这些事件的总数，但是没法知道具体的发生时间。已知平均每小时出生3个婴儿，请问下一个小时，会出生几个？有可能一下子出生6个，也有可能一个都不出生。这是我们没法知道的。泊松分布就是描述某段时间内，事件具体的发生概率。 \[P(N(t)=n)=\frac{(\lambda t)^n e^{-\lambda t}}{n!}\] 上面就是泊松分布的公式。等号的左边， \(P\) 表示概率， \(N\) 表示某种函数关系， \(t\) 表示时间， \(n\) 表示数量，1小时内出生3个婴儿的概率，就表示为 \(P(N(1) = 3)\) 。等号的右边，参数λ是单位时间（或单位面积）内随机事件的平均发生率。接下来两个小时，一个婴儿都不出生的概率是0.25%，基本不可能发生。 \[P(N(2) = 0) = \frac{(3 \times 2)^0 e^{-3 \times 2}}{0!}...

#math

READ

方向导数与梯度

Math

2026-04-15

基本概念方向导数：是一个数；反映的是 \(f(x,y)\) 在 \(P_0\) 点沿方向 \(v\) 的变化率。偏导数：是多个数（每元有一个）；是指多元函数沿坐标轴方向的方向导数，因此二元函数就有两个偏导数。偏导函数：是一个函数；是一个关于点的偏导数的函数。梯度：是一个向量；每个元素为函数对一元变量的偏导数；它既有大小（其大小为最大方向导数），也有方向。方向导数反映的是 \(f(x,y)\) 在 \(P_0\) 点沿方向 \(v\) 的变化率。例子如下：题目设二元函数 \( f(x, y) = x^2 + y^2\) ，分别计算此函数在点 \((1, 2)\) 沿方向 \(w=\{3, -4\}\) 与方向 \(u=\{1, 0\}\) 的方向导数。解：由于 \(w\) 不是单位向量，因此首先应对其进行单位化： \[v = w^0 = \frac{w}{|w|} = \left\{ \frac{3}{5}, -\frac{4}{5} \right\}\] 计算函数增量： \[\begin{aligned} \therefore f(x_0 + tv_1,...

#math

READ

GLaMM

Large Model

2026-04-15

简介该工作建立了一个 GCG（Grounded Conversation Generation ）的数据集和对应多模态大模型，与之前的工作主要的区别在于针对输入图像，可以生成grounding pixel-level理解的语言对话，如下图示例所示： Model Automated Dataset Annotation Pipeline level 1: Object locatlization and attributes 1. Landmark Categorization 基于 LLaVA 模型对图像做场景的分类，包含主要场景和细粒度场景。就是对数据集整体做一个大的类别标签和子类别标签，做场景的划分 def get_main_prompt(model, conv_mode="llava_v1"): options = ["Indoor scene", "Outdoor scene", "Transportation scene", "Sports and recreation scene"] qs = (f"Categorize the image...

#VLM

READ

随机游走问题

Math

2026-04-15

问题表示有很多概率问题，尤其是独立重复实验问题，如果用生成函数的方法来做，会显得特别方便。本文要讲的“随机游走”问题便是其中一例，它又被形象地叫做“醉汉问题”，其本质上是一个二项分布，但是由于取了极限，出现了很多新的性质和应用。我们先考虑如下问题：考虑实数轴上的一个粒子，在 \(t=0\) 时刻它位于原点，每过一秒，它要不向前移动一格（ \(+1\) ），要不就向后移动一格（ \(-1\) ），问 \(n\) 秒后它所处位置的概率分布。不难发现，这个问题跟二项分布是雷同的。如果把这个粒子形象比喻成一个“喝醉酒的人”，那么上面的走法就类似于一个完全不省人事的醉汉走路问题了。（当然，醉汉是在三维空间走路的，这里简单起见，只描述了一维的。）这是一个独立重复实验，每秒的行走可用函数描述为 \(\frac{1}{2}(z+z^{-1})\) ，于是 \(n\) 秒后的运动分布情况可以用 \[\frac{1}{2^n}(z+z^{-1})^n\] 来描述， \(z^i(i=-n,-n+1,\dots,n-1,n)\) 的系数表示粒子位于 \(i\) 的概率。 💡...

#math

READ

Flow Matching

Generative Model

2026-04-15

Flow Matching 其实是将 flow 的离散形式转换为连续形式（连续标准化流CNF），进而可以看成是一个ODE方程，实际求解的是这个ODE 求解的核心思路是：构建速度场通过数值积分求解位移，也就是通过预测速度场，从而转为ode求解从概率路径的角度上来说，解是无穷多的，不同的方法本质上讲是在于构造尽可能简单、直接、易解的概率路径通过不同的条件概率路径，可以构造出VP（score matching）、 VE（diffusion）、OT（1-rectified flow）等形式实际的边缘概率分布路径并不是一条直线，我们是通过拟合条件速度场来逼近边缘速度场，即使我们证明了对于参数 \(\theta\) 来说优化目标是等价的，但终究还是有一些gap Flow-based Models Normalizing Flow Normalizing Flow 是一种基于变换对概率分布进行建模的模型，其通过一系列离散且可逆的变换实现任意分布与先验分布（例如标准高斯分布）之间的相互转换。在 Normalizing Flow...

#flow #diffusion #Generating Model

READ

#

!

INCOMING TRANSMISSION