知识库 - Orange

KLT 光流算法详解

3D Model

2026-04-15

光流（Optical Flow）是物体在三维空间中的运动（运动场）在二维图像平面上的投影，由物体与相机的相对速度产生，反映了微小时间内物体对应的图像像素的运动方向和速度。 KLT 是基于光流原理的一种特征点跟踪算法，本文首先介绍光流原理，然后介绍 KLT 及相关 KLT 变种算法。 Optical Flow 光流法假设：亮度恒定，图像中物体的像素亮度在连续帧之间不会发生变化；短距离(短时)运动，相邻帧之间的时间足够短，物体运动较小；空间一致性，相邻像素具有相似的运动；记 \(I(x,y,t)\) 为 \(t\) 时刻像素点 \((x,y)\) 的像素值，那么根据前两个假设，可得到： \[I(x,y,t)=I(x+dx,y+dy,t+dt)\] 一阶泰勒展开： \[I(x+dx,y+dy,t+dt)=I(x,y,t)+\frac{\partial I}{\partial x}dx+\frac{\partial I}{\partial y}dy+\frac{\partial I}{\partial t}dt\] 由此可得： \[\frac{\partial I}{\partial...

#video

READ

Online Action Detection

3D Model

2026-04-15

Temporal action detection可以分为两种setting，一是offline的，在检测时视频是完整可得的，也就是可以利用完整的视频检测动作发生的时间区间（开始时间+结束时间）以及动作的类别; 二是 online的，即处理的是一个视频流，需要在线的检测（or 预测未来）发生的动作类别，但无法知道检测时间点之后的内容。online的问题设定更符合surveillance的需求，需要做实时的检测或者预警；offline的设定更符合视频搜索的需求，比如youtube可能用到的 highlight detection / preview generation。问题演化 Early action detection -> Online action detection -> Online action anticipation：在学术界关注online action detection之前，有一个相似的问题叫做 early event detection ，问题定义是 “detect the event as soon as possible, after it...

#video

READ

Video Model 概述

3D Model

2026-04-15

Classification，Detection Classification：给定预先裁剪好的视频片段，预测其所属的行为类别 Detection：视频是未经过裁剪的，需要先进行人的检测where和行为定位（分析行为的始末时间）when，再进行行为的分类what。通常所说的行为识别更偏向于对时域预先分割好的序列进行行为动作的分类，即 Trimmed Video Action Classification。 Two-Stream Two-stream convolutional networks 简介 Two-Stream CNN网络顾名思义分为两个部分，空间流处理 RGB图像，得到形状信息; 时间流/光流处理光流图像，得到运动信息。两个流最后经过softmax后，做分类分数的融合，可以采用平均法或者是SVM。不过这两个流都是二维卷积操作。最终联合训练，并分类。如图所示，其实做法非常的简单，相当于训练两个CNN的分类器。一个是专门对于 RGB 图的，一个专门对于光流图的，然后将两者的结果进行一个 fushion 的过程。...

#video

READ

强化学习Model-Free之蒙特卡洛

Reinforcement Learning

2026-04-15

引言与背景蒙特卡洛方法是强化学习中的重要算法类别，它标志着从基于模型到无模型算法的转变。这类算法不依赖环境模型，而是通过与环境的直接交互获取经验数据来学习最优策略。蒙特卡洛方法在强化学习算法谱系中处于"无模型"方法的起始位置，是从基于模型的方法（如值迭代和策略迭代）向无模型方法过渡的第一步。无模型强化学习的核心理念可以简述为：如果没有模型，我们必须有数据；如果没有数据，我们必须有模型；如果两者都没有，我们就无法找到最优策略。在强化学习中，"数据"通常指智能体与环境交互的经验。均值估计问题在介绍蒙特卡洛强化学习算法之前，我们首先需要理解均值估计问题，这是理解从数据而非模型中学习的基础。考虑一个可以取有限实数集合 \(X\) 中值的随机变量 \(X\) ，我们的任务是计算 \(X\) 的均值或期望值： \(E[X]\) 有两种方法可以计算 \(E[X]\) ：基于模型的方法：当已知随机变量的概率分布时，可以直接根据期望值的定义计算： \[E[X] = \sum_{x \in X} p(x) \cdot x\] 其中 \(p(x)\) 是 \(X\) 取值为 \(x\)...

#Q-Learning #Reinforcement Learning

READ

从DPG到DDPG

Reinforcement Learning

2026-04-15

引言 DDPG同样使用了Actor-Critic的结构，Deterministic的确定性策略是和随机策略相对而言的，对于某一些动作集合来说，它可能是连续值，或者非常高维的离散值，这样动作的空间维度极大。如果我们使用随机策略，即像DQN一样研究它所有的可能动作的概率，并计算各个可能的动作的价值的话，那需要的样本量是非常大才可行的。于是有人就想出使用确定性策略来简化这个问题。作为随机策略，在相同的策略，在同一个状态 \(s\) 处，采用的动作 \(\pi_\theta(a|s)\) 是基于一个概率分布的，即是不确定的。而确定性策略则决定简单点，虽然在同一个状态处，采用的动作概率不同，但是最大概率只有一个，如果我们只取最大概率的动作，去掉这个概率分布，那么就简单多了。即作为确定性策略，相同的策略，在同一个状态处，动作是唯一确定的，即策略变成 \[a = \mu(s, \theta)\] 所以DDPG基于确定性策略梯度(DPG)算法，结合了DQN的成功经验。使用回放缓冲区中的样本进行离策略训练，以减少样本之间的相关性使用目标Q网络在时序差分更新过程中提供一致的目标...

#Reinforcement Learning #Policy Gradient

READ

Kimi

Large Model

2026-04-15

k1.5—CoT强化训练概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 \(D = \{(x_i, y^*_i)\}_{i=1}^n\) ，其中包含问题 \(x_i\) 和对应的真实答案 \(y^*_i\) ，目标是训练一个策略模型 \(\pi_\theta\) 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 \(z = (z_1, z_2, ..., z_m)\) 来连接问题 \(x\) 和答案 \(y\) ，每个 \(z_i\) 是解决问题的重要中间步骤。当解决问题 \(x\) 时，思维 \(z_t \sim \pi_\theta(\cdot|x, z_1, ..., z_{t-1})\) 被自回归采样，最终答案 \(y \sim \pi_\theta(\cdot|x, z_1, ..., z_m)\) 。强化学习目标基于真实答案 \(y^*\) ，分配一个值 \(r(x, y, y^*)...

#Reinforcement Learning #Large Model #Policy Gradient #LLM

READ

Structured Generation

Large Model

2026-04-15

引言 Structured Generation with LLM，是指让LLM按照预先定义的schema，输出符合schema的结构化结果。常见的应用场景有：数据处理。主要功能为a -> b，即从源文本中抽取/生成符合schema的结果，例如给定新闻，进行分类、抽取关键词、生成总结等； Agent 。主要功能是Tool Calling，即根据用户query，选择适当的tool和入参。将 LLM 限制为始终生成符合特定模式的、有效的 JSON 或 YAML，是许多应用的关键功能。 Kor Kor ，一个基于prompt的技术方案；Kor比较适合数据处理场景，且原理简单、易于理解，适合作为入门, 并且Kor适用于那些不支持function calling的比较旧的模型。使用Kor进行structured generation的流程如下：定义schema，包括结构、注释还有例子； Kor用特定的 prompt template ，将用户提供的schema和待处理的raw text，组装成prompt；将prompt发送给LLM，借助其通用的In...

#Acceleration #Large Model #LLM

READ

强化学习Model-Free之时序差分

Reinforcement Learning

2026-04-15

引言时序差分（Temporal-Difference，TD）方法是强化学习中的一类核心算法，它结合了动态规划与蒙特卡洛方法的优点。TD方法是无模型（model-free）学习方法，不需要环境模型即可学习价值函数和最优策略。 TD方法的核心特点是通过比较不同时间步骤的估计值之间的差异来更新价值函数，这种差异被称为"时序差分误差"（TD error）。TD方法可以被视为解决贝尔曼方程或贝尔曼最优方程的特殊随机逼近算法。基础TD算法：状态值函数学习给定策略 \(\pi\) ，基础TD算法用于估计状态值函数 \(v_\pi(s)\) 。假设我们有一些按照策略 \(\pi\) 生成的经验样本 \((s_0, r_1, s_1, ..., s_t, r_{t+1}, s_{t+1}, ...)\) ，TD算法的更新规则为： \[\begin{equation}\begin{aligned}v_{t+1}(s_t) &= v_t(s_t) - \alpha_t(s_t)[v_t(s_t) - (r_{t+1} + \gamma v_t(s_{t+1}))]\\ v_{t+1}(s) &=...

#Q-Learning #Reinforcement Learning

READ

Actor-Critic Methods

Reinforcement Learning

2026-04-15

概述与理论背景 Actor-Critic方法是强化学习中的一类重要算法，它巧妙地结合了基于策略(policy-based)和基于价值(value-based)的方法。在这种结构中， "Actor"指策略更新步骤，负责根据策略执行动作；而"Critic"指价值更新步骤，负责评估Actor的表现。从另一个角度看，Actor-Critic方法本质上仍是策略梯度算法，可以通过扩展策略梯度算法获得。 Actor-Critic方法在强化学习中的位置非常重要，它既保留了策略梯度方法直接优化策略的优势，又利用了值函数方法的效率。这种结合使得Actor-Critic方法成为解决复杂强化学习问题的强大工具。最简单的Actor-Critic算法(QAC) QAC算法通过扩展策略梯度方法得到。策略梯度方法的核心思想是通过最大化标量度量 \(J(\theta)\) 来搜索最优策略。其梯度上升算法为： \[\begin{equation}\begin{aligned}\theta_{t+1} &= \theta_t + \alpha\nabla_\theta J(\theta_t)\\&=...

#Policy Gradient #Reinforcement Learning

READ

策略梯度方法（Policy Gradient Methods）

Reinforcement Learning

2026-04-15

引言与背景策略梯度方法是强化学习中的一种重要方法，它标志着从基于价值的方法向基于策略的方法的重要转变。之前我们主要讨论了基于价值的方法（value-based），而策略梯度方法则直接优化策略函数(policy-based)，这是一个重要的进步。当策略用函数表示时，策略梯度方法的核心思想是通过优化某些标量指标来获得最优策略。与传统的表格表示策略不同，策略梯度方法使用参数化函数 \(\pi(a|s, \theta)\) 来表示策略，其中 \(\theta \in \mathbb{R}^m\) 是参数向量。这种表示方法也可以写成其他形式，如 \(\pi_\theta(a|s)\) 、 \(\pi_\theta(a, s)\) 或 \(\pi(a, s, \theta)\) 。策略梯度方法具有多种优势：更高效地处理大型状态/动作空间具有更强的泛化能力样本使用效率更高策略表示：从表格到函数当策略的表示从表格转变为函数时，存在以下几个关键区别：最优策略的定义：表格表示：最优策略是使每个状态值最大化的策略函数表示：最优策略是使某些标量指标最大化的策略策略更新方式：...

#Reinforcement Learning #Policy Gradient

READ

从价值函数到DQN

Reinforcement Learning

2026-04-15

引言与背景价值函数方法是强化学习中的核心技术，它解决了传统表格方法在处理大型状态或动作空间时的效率问题。本文探讨了从表格表示向函数表示的转变，这是强化学习算法发展的重要里程碑。在强化学习的发展路径中，价值函数方法位于从基于模型到无模型、从表格表示到函数表示的演进过程中。它结合了时序差分学习的思想，并通过函数近似技术来处理复杂环境。价值表示：从表格到函数表格与函数表示的对比传统的表格方法将状态值存储在一个表格中：状态 \(s_1\) \(s_2\) \(\cdots\) \(s_n\) 估计值 \(\hat{v}(s_1)\) \(\hat{v}(s_2)\) \(\cdots\) \(\hat{v}(s_n)\) 而函数近似方法则使用参数化函数来表示这些值，例如： \[\hat{v}(s, w) = as + b = [s, 1] \begin{bmatrix} a \\ b \end{bmatrix} = \phi^T(s)w\] 其中 \(\phi(s)\in\mathbb{R}^2\) 称作是状态 \(s\) 的特征向量， \(w\) 是参数向量。...

#Q-Learning #Reinforcement Learning

READ

RLHF in LLM

Reinforcement Learning

2026-04-15

引言大语言模型（LLMs）在近年来取得了显著进展，展现出上下文学习、指令跟随和逐步推理等突出特性。然而，由于这些模型是在包含高质量和低质量数据的预训练语料库上训练的，它们可能会表现出编造事实、生成有偏见或有毒文本等意外行为。因此，将LLMs与人类价值观对齐变得至关重要，特别是在帮助性、诚实性和无害性（3H）方面。基于人类反馈的强化学习（RLHF）已被验证为有效的对齐方法，但训练过程复杂且不稳定。本文深入分析了RLHF框架，特别是PPO算法的内部工作原理，并提出了PPO-max算法，以提高策略模型训练的稳定性和效果。 RLHF的基本框架 RLHF训练过程包括三个主要阶段：监督微调（SFT）：模型通过模仿人类标注的对话示例来学习一般的人类对话方式，优化模型的指令跟随能力奖励模型（RM）训练：模型学习基于人类反馈比较不同回复的偏好近端策略优化（PPO）：模型基于奖励模型的反馈进行更新，通过探索和利用来发现优化的策略奖励建模（Reward Model）奖励模型使用预训练的基于Transformer的语言模型，...

#Reinforcement Learning #Policy Gradient #LLM

READ

#

!

INCOMING TRANSMISSION

KLT 光流算法详解

Online Action Detection

Video Model 概述

强化学习Model-Free之蒙特卡洛

从DPG到DDPG

Kimi

Structured Generation

强化学习Model-Free之时序差分

Actor-Critic Methods

策略梯度方法（Policy Gradient Methods）

从价值函数到DQN

RLHF in LLM