知识库 - Orange

Reinforce Learning 概述

2026-04-15

强化学习基础 RL基础概念贝尔曼方程（Bellman Equation) 贝尔曼最优方程(Bellman Optimality Equation) 价值迭代和策略迭代强化学习Model-Free之蒙特卡洛强化学习Model-Free之时序差分从价值函数到DQN 策略梯度方法（Policy Gradient Methods） Actor-Critic Methods 改进算法从DPG到DDPG Policy Gradient 优化：TRPO，PPO LLM中的RL RLHF in LLM DPO(Direct Preference Optimization) GRPO(Group Relative Policy Optimization) 从GRPO到GSPO、DAPO

#Reinforcement Learning

READ

ViT系列

Computer Vision

2026-04-15

概述在计算机视觉领域（CV），对视觉特征的理解CNN是长期处于主导地位的。而在NLP领域，Transformer框架的巨大成功，也激发了不少研究者探索将Transformer用于计算机视觉任务。ViT（Vision Transformer）的出现标志着在CV领域Transformer架构迈出了重要的一步。尤其在当前结合LLM的多模态探索上（MM-LLM），都是以LLM大语言模型为骨干架构的模型，多种模态的信息需要先做token化处理，再输入到LLM模型。ViT天然具有序列化特征的建模能力，自然在MM-LLM探索中大放异彩~ ViT在多模态模型中的角色类似于自然语言建模中的Tokenizer组件，对图像进行视觉特征编码，产出图像的序列特征。只不过ViT的编码过程本身也是采用了Transformer的模型结构。本文主要结合几篇paper和源码讲讲ViT和针对ViT的一些优化方法~ ViT（Vision Transformer）...

#CV #transformer

READ

GRPO(Group Relative Policy Optimization)

Reinforcement Learning

2026-04-15

GRPO(Group Relative Policy Optimization)

💡 GRPO相比PPO主要优势： 1. 训练更稳定引入 KL 散度惩罚项，有效控制策略更新的幅度，避免策略崩溃，提高训练的稳定性 GRPO用组内相对优势替代value model，消除了value估计误差通过组内归一化，自动消除reward scale和bias的影响实验中发现GRPO的advantage方差比PPO小30%左右，训练崩溃率更低 2. 工程更简单只需要1-2个模型（policy + reference），而PPO需要4个显存占用减少50%以上，训练速度提升2-3倍超参数更少，更容易调优 3. 相对奖励机制通过对同一输入生成的多个输出进行比较，GRPO 能够更稳定地估计优势函数，减少了训练过程中的方差背景 GRPO是 DeepSeek-Math model中提出的对PPO方法的改进策略：强化学习(RL)在提升模型数学推理能力方面被证明是有效的传统PPO算法需要较大训练资源 GRPO作为PPO的变体被提出,可以更高效地优化模型 PPO Vs GRPO PPO回顾 PPO的目标函数为: \[\begin{aligned}J_{PPO}(\theta) =...

#LLM #Policy Gradient #Reinforcement Learning

READ

多模态模型发展

Large Model

2026-04-15

总览由于是“图文多模态”，还是要从“图”和“文”的表征方法讲起，然后讲清楚图文表征的融合方法。这里只讲两件事情：视觉表征：分为两个部分问题，一是如何合理建模视觉输入特征，二是如何通过预训练手段进行充分学习表征，这两点是基于视觉完成具体算法任务的基础；视觉与自然语言的对齐（Visul Language Alignment）或融合：目的是将视觉和自然语言建模到同一表征空间并进行融合，实现自然语言和视觉语义的互通，这点同样离不开预训练这一过程。模态对齐是处理多模态问题的基础，也是现在流行的多模态大模型技术前提。对于视觉表征，从发展上可以分为卷积神经网络（CNN）和Vision Transformer（VIT）两大脉络，二者分别都有各自的表征、预训练以及多模态对齐的发展过程。而对于VIT线，另有多模态大模型如火如荼的发展，可谓日新月异。 CNN：视觉理解的一代先驱点击展开卷积视觉表征模型和预训练...

#CV #VLM #transformer

READ

SigLIP系列

Large Model

2026-04-15

SigLIP 概述 CLIP自提出以来在zero-shot分类、跨模态搜索、多模态对齐等多个领域得到广泛应用。得益于其令人惊叹的能力，激起了研究者广泛的关注和优化。目前对CLIP的优化主要可以分为两大类：其一是如何降低CLIP的训练成本；其二是如何提升CLIP的performance。对于第一类优化任务的常见思路有3种。优化训练架构，如 LiT 通过freezen image encoder，单独训练text encoder来进行text 和image的对齐来加速训练；减少训练token，如 FLIP 通过引入视觉mask，通过只计算非mask区域的视觉表征来实现加速（MAE中的思路）优化目标函数，如 CatLIP 将caption转为class label，用分类任务来代替对比学习任务来实现加速。对于第二类提升CLIP的performance最常用和有效的手段就是数据治理，即构建高质量、大规模、高多样性的图文数据，典型的工作如：DFN。 SigLIP这篇paper 提出用sigmoid...

#VLM #pretrain

READ

从GRPO到GSPO、DAPO

Reinforcement Learning

2026-04-15

回顾 PPO \[\begin{equation}\begin{aligned}\mathcal{J}_{\text{PPO}}(\theta) &= \mathbb{E}_{(q,a)\sim\mathcal{D}, o_{<t}\sim\pi_{\theta_{\text{old}}}(\cdot|q)} \\ &\left[ \min \left( \frac{\pi_\theta(o_t \mid q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t \mid q, o_{<t})} \hat{A}_t, \text{clip}\left(\frac{\pi_\theta(o_t \mid q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t \mid q, o_{<t})}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}_t \right) \right]\end{aligned}\tag{1}\end{equation}\] 其中 \((q, a)\) 是数据集...

#Large Model #Reinforcement Learning

READ

分割指标

Computer Vision

2026-01-11

PA Pixel Accuracy(PA，像素精度)：这是最简单的度量，为标记正确的像素占总像素的比例。 [公式] 图像中共有k+1（包含背景）类， p_{ii} 表示将第i类分成第 i 类的像素数量(正确分类的像素数量)， p_{ij} 表示将第 i 类分成第 j 类的像素数量(所有像素数量) 因此该比值表示正确分类的像素数量占总像素数量的比例。优点：简单缺点：如果图像中大面积是背景，而目标较小，即使将整个图片预测为背景，也会有很高的PA得分，因此该指标不适用于评价以小目标为主的图像分割效果。 MPA Mean Pixel Accuracy(MPA，均像素精度)：是PA的一种简单提升，计算每个类内被正确分类像素数的比例，之后求所有类的平均。 [公式] MIoU Mean Interse...

#CV #Segmentation

READ

#

!

INCOMING TRANSMISSION

Reinforce Learning 概述

ViT系列

GRPO(Group Relative Policy Optimization)

多模态模型发展

SigLIP系列

从GRPO到GSPO、DAPO

分割指标