知识库 - Orange

EDM

2026-04-15

基于文章《Elucidating the Design Space of Diffusion-Based Generative Models》来统一扩散模型框架通用扩散模型框架推导加噪公式 Flow Matching的一步加噪公式 \[\mathbf{x}_t=(1-t)\mathbf{x}_0+t\varepsilon\] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;(1-t)\mathbf{x}_0,t^2\mathbf{I})\] Score Matching的一步加噪公式 \[\mathbf{x}_t=\mathbf{x}_0+\sigma_t\varepsilon \] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;\mathbf{x}_0,\sigma_t^2\mathbf{I})\] DDPM/DDIM的一步加噪公式...

#ODE #Generating Model #diffusion #flow #SDE

READ

强化学习Model-Free之时序差分

Reinforcement Learning

2026-04-15

引言时序差分（Temporal-Difference，TD）方法是强化学习中的一类核心算法，它结合了动态规划与蒙特卡洛方法的优点。TD方法是无模型（model-free）学习方法，不需要环境模型即可学习价值函数和最优策略。 TD方法的核心特点是通过比较不同时间步骤的估计值之间的差异来更新价值函数，这种差异被称为"时序差分误差"（TD error）。TD方法可以被视为解决贝尔曼方程或贝尔曼最优方程的特殊随机逼近算法。基础TD算法：状态值函数学习给定策略 \(\pi\) ，基础TD算法用于估计状态值函数 \(v_\pi(s)\) 。假设我们有一些按照策略 \(\pi\) 生成的经验样本 \((s_0, r_1, s_1, ..., s_t, r_{t+1}, s_{t+1}, ...)\) ，TD算法的更新规则为： \[\begin{equation}\begin{aligned}v_{t+1}(s_t) &= v_t(s_t) - \alpha_t(s_t)[v_t(s_t) - (r_{t+1} + \gamma v_t(s_{t+1}))]\\ v_{t+1}(s) &=...

#Q-Learning #Reinforcement Learning

READ

从价值函数到DQN

Reinforcement Learning

2026-04-15

引言与背景价值函数方法是强化学习中的核心技术，它解决了传统表格方法在处理大型状态或动作空间时的效率问题。本文探讨了从表格表示向函数表示的转变，这是强化学习算法发展的重要里程碑。在强化学习的发展路径中，价值函数方法位于从基于模型到无模型、从表格表示到函数表示的演进过程中。它结合了时序差分学习的思想，并通过函数近似技术来处理复杂环境。价值表示：从表格到函数表格与函数表示的对比传统的表格方法将状态值存储在一个表格中：状态 \(s_1\) \(s_2\) \(\cdots\) \(s_n\) 估计值 \(\hat{v}(s_1)\) \(\hat{v}(s_2)\) \(\cdots\) \(\hat{v}(s_n)\) 而函数近似方法则使用参数化函数来表示这些值，例如： \[\hat{v}(s, w) = as + b = [s, 1] \begin{bmatrix} a \\ b \end{bmatrix} = \phi^T(s)w\] 其中 \(\phi(s)\in\mathbb{R}^2\) 称作是状态 \(s\) 的特征向量， \(w\) 是参数向量。...

#Reinforcement Learning #Q-Learning

READ

BLIP系列：统一理解和生成的自举多模态模型

Large Model

2026-04-15

BLIP 论文名称：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML 2022) 论文地址： https://arxiv.org/pdf/2201.12086.pdf 代码地址： https://github.com/salesforce/BLIP 官方解读博客： https://blog.salesforceairesearch.com/blip-bootstrapping-language-image-pretraining/ 背景和动机视觉语言训练 (Vision-Language Pre-training, VLP) 最近在各种多模态下游任务上取得了巨大的成功。然而，现有方法有两个主要限制：模型层面：大多数现有的预训练模型仅在基于理解的任务或者基于生成的任务方面表现出色，很少有可以兼顾的模型。比如，基于编码器的模型，像 CLIP，ALBEF 不能直接转移到文本生成任务...

#VLM #pretrain

READ

SigLIP系列

Large Model

2026-04-15

SigLIP 概述 CLIP自提出以来在zero-shot分类、跨模态搜索、多模态对齐等多个领域得到广泛应用。得益于其令人惊叹的能力，激起了研究者广泛的关注和优化。目前对CLIP的优化主要可以分为两大类：其一是如何降低CLIP的训练成本；其二是如何提升CLIP的performance。对于第一类优化任务的常见思路有3种。优化训练架构，如 LiT 通过freezen image encoder，单独训练text encoder来进行text 和image的对齐来加速训练；减少训练token，如 FLIP 通过引入视觉mask，通过只计算非mask区域的视觉表征来实现加速（MAE中的思路）优化目标函数，如 CatLIP 将caption转为class label，用分类任务来代替对比学习任务来实现加速。对于第二类提升CLIP的performance最常用和有效的手段就是数据治理，即构建高质量、大规模、高多样性的图文数据，典型的工作如：DFN。 SigLIP这篇paper 提出用sigmoid...

#VLM #pretrain

READ

#

!

INCOMING TRANSMISSION

EDM

强化学习Model-Free之时序差分

从价值函数到DQN

BLIP系列：统一理解和生成的自举多模态模型

SigLIP系列