知识库 - Orange

Policy Gradient 优化：TRPO，PPO

2026-04-15

概念符号定义来源用途特点 Reward \(r_t\) 即时奖励环境基础信号局部、即时 Return \(G_t\) \(Σ γ^k·r_{t+k}\) 计算 Value训练目标实际、高方差 Value \(V(s)\) \(E[G_t|s_t=s]\) 模型状态评估预测、期望 Q-Value \(Q(s,a)\) \(E[G_t|s_t=s,a_t=a]\) 模型动作评估更细粒度 Advantage \(A(s,a)\) \(Q(s,a) - V(s)\) 计算 Policy更新相对、低方差 GAE \(GAE(λ)\) 加权Advantage 算法优势估计平衡bias-variance 引言 Trust Region Policy Optimization (TRPO) 是2015年的ICML会议上提出的一种强大的基于策略的强化学习算法。TRPO 解决了传统策略梯度方法中的一些关键问题，特别是训练不稳定和步长选择困难的问题。与传统策略梯度算法相比，TRPO 具有更高的稳健性和样本效率，能够在复杂环境中取得更好的性能。优化基础...

#Policy Gradient #Reinforcement Learning

READ

Reinforce Learning 概述

Reinforcement Learning

2026-04-15

强化学习基础 RL基础概念贝尔曼方程（Bellman Equation) 贝尔曼最优方程(Bellman Optimality Equation) 价值迭代和策略迭代强化学习Model-Free之蒙特卡洛强化学习Model-Free之时序差分从价值函数到DQN 策略梯度方法（Policy Gradient Methods） Actor-Critic Methods 改进算法从DPG到DDPG Policy Gradient 优化：TRPO，PPO LLM中的RL RLHF in LLM DPO(Direct Preference Optimization) GRPO(Group Relative Policy Optimization) 从GRPO到GSPO、DAPO

#Reinforcement Learning

READ

GRPO(Group Relative Policy Optimization)

Reinforcement Learning

2026-04-15

GRPO(Group Relative Policy Optimization)

💡 GRPO相比PPO主要优势： 1. 训练更稳定引入 KL 散度惩罚项，有效控制策略更新的幅度，避免策略崩溃，提高训练的稳定性 GRPO用组内相对优势替代value model，消除了value估计误差通过组内归一化，自动消除reward scale和bias的影响实验中发现GRPO的advantage方差比PPO小30%左右，训练崩溃率更低 2. 工程更简单只需要1-2个模型（policy + reference），而PPO需要4个显存占用减少50%以上，训练速度提升2-3倍超参数更少，更容易调优 3. 相对奖励机制通过对同一输入生成的多个输出进行比较，GRPO 能够更稳定地估计优势函数，减少了训练过程中的方差背景 GRPO是 DeepSeek-Math model中提出的对PPO方法的改进策略：强化学习(RL)在提升模型数学推理能力方面被证明是有效的传统PPO算法需要较大训练资源 GRPO作为PPO的变体被提出,可以更高效地优化模型 PPO Vs GRPO PPO回顾 PPO的目标函数为: \[\begin{aligned}J_{PPO}(\theta) =...

#Reinforcement Learning #Policy Gradient #LLM

READ

Transformer位置编码

NLP

2026-04-15

不同于RNN、CNN等模型，对于Transformer模型来说，位置编码的加入是必不可少的，因为纯粹的Attention模块是无法捕捉输入顺序的，即无法区分不同位置的Token。为此我们大体有两个选择：想办法将位置信息融入到输入中，这构成了绝对位置编码的一般做法；想办法微调一下Attention结构，使得它有能力分辨不同位置的Token，这构成了相对位置编码的一般做法。虽然说起来主要就是绝对位置编码和相对位置编码两大类，但每一类其实又能衍生出各种各样的变种，为此研究人员可算是煞费苦心、绞尽脑汁了，此外还有一些不按套路出牌的位置编码。本文就让我们来欣赏一下研究人员为了更好地表达位置信息所构建出来的“八仙过海，各显神通”般的编码方案。绝对位置编码形式上来看，绝对位置编码是相对简单的一种方案，但即便如此，也不妨碍各路研究人员的奇思妙想，也有不少的变种。一般来说，绝对位置编码会加到输入中：在输入的第 𝑘 个向量 \(𝑥_𝑘\) 中加入位置向量 \(𝑝_𝑘\) 变为 \(\boldsymbol{x}_k + \boldsymbol{p}_k\) ，其中 \(...

#位置编码 #transformer

READ

旋转式位置编码 RoPE

NLP

2026-04-15

旋转式位置编码（ROPE）原始的Sinusoidal位置编码总的感觉是一种“想要成为相对位置编码的绝对位置编码”。一般来说，绝对位置编码具有实现简单、计算速度快等优点，而相对位置编码则直接地体现了相对位置信号，跟我们的直观理解吻合，实际性能往往也更好。由此可见，如果可以通过绝对位置编码的方式实现相对位置编码，那么就是“集各家之所长”、“鱼与熊掌兼得”了。Sinusoidal位置编码隐约做到了这一点，但并不够好。本文将会介绍我们自研的Rotary Transformer（RoFormer）模型，它的主要改动是应用了笔者构思的“旋转式位置编码（Rotary Position Embedding，RoPE）”，这是一种配合Attention机制能达到“绝对位置编码的方式实现相对位置编码”的设计。而也正因为这种设计，它还是目前唯一一种可用于线性Attention的相对位置编码。 RoFormer：https://github.com/ZhuiyiTechnology/roformer 基本思路这里简要介绍过RoPE： Transformer位置编码...

#transformer #位置编码

READ

从GRPO到GSPO、DAPO

Reinforcement Learning

2026-04-15

回顾 PPO \[\begin{equation}\begin{aligned}\mathcal{J}_{\text{PPO}}(\theta) &= \mathbb{E}_{(q,a)\sim\mathcal{D}, o_{<t}\sim\pi_{\theta_{\text{old}}}(\cdot|q)} \\ &\left[ \min \left( \frac{\pi_\theta(o_t \mid q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t \mid q, o_{<t})} \hat{A}_t, \text{clip}\left(\frac{\pi_\theta(o_t \mid q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t \mid q, o_{<t})}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}_t \right) \right]\end{aligned}\tag{1}\end{equation}\] 其中 \((q, a)\) 是数据集...

#Large Model #Reinforcement Learning

READ

#

!

INCOMING TRANSMISSION

Policy Gradient 优化：TRPO，PPO

Reinforce Learning 概述

GRPO(Group Relative Policy Optimization)

Transformer位置编码

旋转式位置编码 RoPE

从GRPO到GSPO、DAPO