知识库 - Orange

Bagel

Large Model

2026-04-15

简介 bagel-ai.org BAGEL 模型原生支持统一的多模态理解和生成，是一个 decoder-only 的模型，BAGEL 在包含文本、图像、视频和网络数据的大量多模态数据上进行了预训练，包括数万亿 tokens。尽管有一些研究尝试扩展其统一模型，但它们主要仍然依赖于标准图像生成和理解任务中的图像-文本配对数据进行训练。然而，最近的研究发现，学术模型与 GPT-4o 和 Gemini 2.0 等专有系统在统一多模态理解和生成方面存在显著差距，而这些专有系统的底层技术并未公开。作者认为，弥合这一差距的关键在于使用精心构建的多模态交错数据进行规模化训练。这种多模态交错数据整合了文本、图像、视频和网络来源。通过使用这种多样化的多模态交错数据进行扩展时，模型展现出复杂的、新兴的多模态推理能力。这种规模化不仅增强了核心的多模态理解和生成能力，还促进了复杂的组合能力，例如自由形式的视觉操作和需要长上下文推理的多模态生成。论文主要贡献：数据策略创新，融合多源数据。包含：架构设计理念，采用 Mixture-of-Transformer-Experts...

#VLM #生成理解模型

READ

Structured Generation

Large Model

2026-04-15

引言 Structured Generation with LLM，是指让LLM按照预先定义的schema，输出符合schema的结构化结果。常见的应用场景有：数据处理。主要功能为a -> b，即从源文本中抽取/生成符合schema的结果，例如给定新闻，进行分类、抽取关键词、生成总结等； Agent 。主要功能是Tool Calling，即根据用户query，选择适当的tool和入参。将 LLM 限制为始终生成符合特定模式的、有效的 JSON 或 YAML，是许多应用的关键功能。 Kor Kor ，一个基于prompt的技术方案；Kor比较适合数据处理场景，且原理简单、易于理解，适合作为入门, 并且Kor适用于那些不支持function calling的比较旧的模型。使用Kor进行structured generation的流程如下：定义schema，包括结构、注释还有例子； Kor用特定的 prompt template ，将用户提供的schema和待处理的raw text，组装成prompt；将prompt发送给LLM，借助其通用的In...

#Acceleration #Large Model #LLM

READ

生成理解统一模型概述

Large Model

2026-04-15

Chameleon 论文： https://arxiv.org/pdf/2405.09818 Chameleon 是一个既能做图像理解，又可以做图像或者文本生成任务的，从头训练的 Transformer 模型。完整记录了为实现 mixed-modal 模型的架构设计，稳定训练方法，对齐的配方。并在一系列全面的任务上进行评估：有纯文本任务，也有图像文本任务 (视觉问答、图像字幕)，也有图像生成任务，还有混合模态的生产任务。如下图所示，Chameleon 将所有模态数据 (图像、文本和代码) 都表示为离散 token，并使用统一的 Transformer 架构。训练数据是交错混合模态数据 ∼10T token，以端到端的方式从头开始训练。文本 token 用绿色表示，图像 token 用蓝色表示研究背景 Chameleon 开创了一种新的模型范式，生成理解统一架构。多模态基础模型的一般特点是单独去建模不同的模块，一般而言通过 modal-specific 的编码器或者解码器。这带来了一个问题就是可能会限制模型跨模态整合信息的能力，以及生成可以包含任意图像和文本序列的多模态文档...

#生成理解模型 #VLM

READ

Actor-Critic Methods

Reinforcement Learning

2026-04-15

概述与理论背景 Actor-Critic方法是强化学习中的一类重要算法，它巧妙地结合了基于策略(policy-based)和基于价值(value-based)的方法。在这种结构中， "Actor"指策略更新步骤，负责根据策略执行动作；而"Critic"指价值更新步骤，负责评估Actor的表现。从另一个角度看，Actor-Critic方法本质上仍是策略梯度算法，可以通过扩展策略梯度算法获得。 Actor-Critic方法在强化学习中的位置非常重要，它既保留了策略梯度方法直接优化策略的优势，又利用了值函数方法的效率。这种结合使得Actor-Critic方法成为解决复杂强化学习问题的强大工具。最简单的Actor-Critic算法(QAC) QAC算法通过扩展策略梯度方法得到。策略梯度方法的核心思想是通过最大化标量度量 \(J(\theta)\) 来搜索最优策略。其梯度上升算法为： \[\begin{equation}\begin{aligned}\theta_{t+1} &= \theta_t + \alpha\nabla_\theta J(\theta_t)\\&=...

#Policy Gradient #Reinforcement Learning

READ

策略梯度方法（Policy Gradient Methods）

Reinforcement Learning

2026-04-15

引言与背景策略梯度方法是强化学习中的一种重要方法，它标志着从基于价值的方法向基于策略的方法的重要转变。之前我们主要讨论了基于价值的方法（value-based），而策略梯度方法则直接优化策略函数(policy-based)，这是一个重要的进步。当策略用函数表示时，策略梯度方法的核心思想是通过优化某些标量指标来获得最优策略。与传统的表格表示策略不同，策略梯度方法使用参数化函数 \(\pi(a|s, \theta)\) 来表示策略，其中 \(\theta \in \mathbb{R}^m\) 是参数向量。这种表示方法也可以写成其他形式，如 \(\pi_\theta(a|s)\) 、 \(\pi_\theta(a, s)\) 或 \(\pi(a, s, \theta)\) 。策略梯度方法具有多种优势：更高效地处理大型状态/动作空间具有更强的泛化能力样本使用效率更高策略表示：从表格到函数当策略的表示从表格转变为函数时，存在以下几个关键区别：最优策略的定义：表格表示：最优策略是使每个状态值最大化的策略函数表示：最优策略是使某些标量指标最大化的策略策略更新方式：...

#Policy Gradient #Reinforcement Learning

READ

InternVL系列

Large Model

2026-04-15

InternVL Blog： https://internvl.github.io/blog/ Github： https://github.com/OpenGVLab/InternVL InternVL 1.0 对齐策略语言模型和视觉模型各自发展，各有突破，但如何让语言模型会看图，或者让视觉模型会说话？为了将视觉模型与语言模型进行连接，对齐如同“胶水”,将两种模型链接在一起，如使用QFormer或线性投影这样的轻量级“胶水”层，来形成视觉-语言模型，如InstructBLIP和LLaVA，但均存在局限性。现有对齐策略的局限性参数规模的不一致： LLM的参数规模已经达到1000亿，而广泛使用的VLLM的视觉编码器仍在10亿参数左右。这种差距可能导致LLM的能力无法被充分利用。特征表示的不一致：在纯视觉数据上训练的视觉模型或与BERT系列对齐的模型往往与LLM存在表示上的不一致。连接效率低下： “胶水”层通常是轻量的、随机初始化的，可能无法捕捉到多模态理解和生成所需的丰富的跨模态交互和依赖关系。 InternVL引入全新的对齐策略...

#VLM #Large Model

READ

RLHF in LLM

Reinforcement Learning

2026-04-15

引言大语言模型（LLMs）在近年来取得了显著进展，展现出上下文学习、指令跟随和逐步推理等突出特性。然而，由于这些模型是在包含高质量和低质量数据的预训练语料库上训练的，它们可能会表现出编造事实、生成有偏见或有毒文本等意外行为。因此，将LLMs与人类价值观对齐变得至关重要，特别是在帮助性、诚实性和无害性（3H）方面。基于人类反馈的强化学习（RLHF）已被验证为有效的对齐方法，但训练过程复杂且不稳定。本文深入分析了RLHF框架，特别是PPO算法的内部工作原理，并提出了PPO-max算法，以提高策略模型训练的稳定性和效果。 RLHF的基本框架 RLHF训练过程包括三个主要阶段：监督微调（SFT）：模型通过模仿人类标注的对话示例来学习一般的人类对话方式，优化模型的指令跟随能力奖励模型（RM）训练：模型学习基于人类反馈比较不同回复的偏好近端策略优化（PPO）：模型基于奖励模型的反馈进行更新，通过探索和利用来发现优化的策略奖励建模（Reward Model）奖励模型使用预训练的基于Transformer的语言模型，...

#Policy Gradient #Reinforcement Learning #LLM

READ

Policy Gradient 优化：TRPO，PPO

Reinforcement Learning

2026-04-15

概念符号定义来源用途特点 Reward \(r_t\) 即时奖励环境基础信号局部、即时 Return \(G_t\) \(Σ γ^k·r_{t+k}\) 计算 Value训练目标实际、高方差 Value \(V(s)\) \(E[G_t|s_t=s]\) 模型状态评估预测、期望 Q-Value \(Q(s,a)\) \(E[G_t|s_t=s,a_t=a]\) 模型动作评估更细粒度 Advantage \(A(s,a)\) \(Q(s,a) - V(s)\) 计算 Policy更新相对、低方差 GAE \(GAE(λ)\) 加权Advantage 算法优势估计平衡bias-variance 引言 Trust Region Policy Optimization (TRPO) 是2015年的ICML会议上提出的一种强大的基于策略的强化学习算法。TRPO 解决了传统策略梯度方法中的一些关键问题，特别是训练不稳定和步长选择困难的问题。与传统策略梯度算法相比，TRPO 具有更高的稳健性和样本效率，能够在复杂环境中取得更好的性能。优化基础...

#Policy Gradient #Reinforcement Learning

READ

BLIP系列：统一理解和生成的自举多模态模型

Large Model

2026-04-15

BLIP 论文名称：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML 2022) 论文地址： https://arxiv.org/pdf/2201.12086.pdf 代码地址： https://github.com/salesforce/BLIP 官方解读博客： https://blog.salesforceairesearch.com/blip-bootstrapping-language-image-pretraining/ 背景和动机视觉语言训练 (Vision-Language Pre-training, VLP) 最近在各种多模态下游任务上取得了巨大的成功。然而，现有方法有两个主要限制：模型层面：大多数现有的预训练模型仅在基于理解的任务或者基于生成的任务方面表现出色，很少有可以兼顾的模型。比如，基于编码器的模型，像 CLIP，ALBEF 不能直接转移到文本生成任务...

#pretrain #VLM

READ

Flash-Attention

Large Model

2026-04-15

引言与背景 FlashAttention的关键创新在于使用类似于在线Softmax的思想来对自注意力计算进行分块（tiling），从而能够融合整个多头注意力层的计算，而无需访问GPU全局内存来存储中间的logits和注意力分数在深度学习中，Transformer模型的自注意力机制是计算密集型操作。传统实现需要在GPU全局内存中存储大量中间结果，这导致：内存瓶颈：中间矩阵占用大量显存 I/O开销：频繁的全局内存访问降低效率扩展性限制：难以处理超长序列 FlashAttention通过算法创新解决了这些问题。 Self-Atention 自注意力机制的计算可以总结为（为简化说明，忽略头数和批次维度，也省略注意力掩码和缩放因子 \(\frac{1}{\sqrt{D}}\) ）： \[O = \text{softmax}(QK^T)V\] 其中： \(Q, K, V, O\) 都是形状为 \((L, D)\) 的二维矩阵 \(L\) 是序列长度 \(D\) 是每个头的维度（头维度） softmax应用于最后一个维度（列）标准计算流程，传统方法将自注意力计算分解为几个阶段：...

#Large Model #Acceleration

READ

GRPO(Group Relative Policy Optimization)

Reinforcement Learning

2026-04-15

GRPO(Group Relative Policy Optimization)

💡 GRPO相比PPO主要优势： 1. 训练更稳定引入 KL 散度惩罚项，有效控制策略更新的幅度，避免策略崩溃，提高训练的稳定性 GRPO用组内相对优势替代value model，消除了value估计误差通过组内归一化，自动消除reward scale和bias的影响实验中发现GRPO的advantage方差比PPO小30%左右，训练崩溃率更低 2. 工程更简单只需要1-2个模型（policy + reference），而PPO需要4个显存占用减少50%以上，训练速度提升2-3倍超参数更少，更容易调优 3. 相对奖励机制通过对同一输入生成的多个输出进行比较，GRPO 能够更稳定地估计优势函数，减少了训练过程中的方差背景 GRPO是 DeepSeek-Math model中提出的对PPO方法的改进策略：强化学习(RL)在提升模型数学推理能力方面被证明是有效的传统PPO算法需要较大训练资源 GRPO作为PPO的变体被提出,可以更高效地优化模型 PPO Vs GRPO PPO回顾 PPO的目标函数为: \[\begin{aligned}J_{PPO}(\theta) =...

#Reinforcement Learning #LLM #Policy Gradient

READ

混合精度训练

Large Model

2026-04-15

通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32。近年来，为了加快训练时间、减少网络训练时候所占用的内存，并且保存训练出来的模型精度持平的条件下，业界提出越来越多的混合精度训练的方法。这里的混合精度训练是指在训练的过程中，同时使用单精度（FP32）和半精度（FP16）。浮点数据类型浮点数据类型主要分为双精度（FP64）、单精度（FP32）、半精度（FP16）。在神经网络模型的训练过程中，一般默认采用单精度（FP32）浮点数据类型，来表示网络模型权重和其他参数。在了解混合精度训练之前，这里简单了解浮点数据类型。根据IEEE二进制浮点数算术标准（IEEE 754）的定义，浮点数据类型分为双精度（FP64）、单精度（FP32）、半精度（FP16）三种，其中每一种都有三个不同的位来表示。 FP64表示采用8个字节共64位，来进行的编码存储的一种数据类型； FP32表示采用4个字节共32位来表示； FP16则是采用2字节共16位来表示。如图所示：从图中可以看出，与FP32相比，FP16的存储空间是FP32的一半，FP32则是FP16的一半。主要分为三个部分：...

#Acceleration

READ

#

!

INCOMING TRANSMISSION

Bagel

Structured Generation

生成理解统一模型概述

Actor-Critic Methods

策略梯度方法（Policy Gradient Methods）

InternVL系列

RLHF in LLM

Policy Gradient 优化：TRPO，PPO

BLIP系列：统一理解和生成的自举多模态模型

Flash-Attention

GRPO(Group Relative Policy Optimization)

混合精度训练