知识库 - Orange

Ensemble Learning概述

2026-04-15

集成学习主要分为以下几类：Bagging，Boosting以及Stacking。传统机器学习算法 (例如：决策树，人工神经网络，支持向量机，朴素贝叶斯等) 的目标都是寻找一个最优分类器尽可能的将训练数据分开。集成学习 (Ensemble Learning) 算法的基本思想就是将多个分类器组合，从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话：三个臭皮匠，赛过诸葛亮。 Thomas G. Dietterich 指出了集成算法在统计，计算和表示上的有效原因：统计上的原因一个学习算法可以理解为在一个假设空间 H 中选找到一个最好的假设。但是，当训练样本的数据量小到不够用来精确的学习到目标假设时，学习算法可以找到很多满足训练样本的分类器。所以，学习算法选择任何一个分类器都会面临一定错误分类的风险，因此将多个假设集成起来可以降低选择错误分类器的风险。计算上的原因很多学习算法在进行最优化搜索时很有可能陷入局部最优的错误中，因此对于学习算法而言很难得到一个全局最优的假设。事实上人工神经网络和决策树已经被证实为是一个NP...

#Machine Learning #Ensemble Learning

READ

Gaze采集标定方案

3D Model

2026-04-15

整体流程 # 文件夹biaoding处理加crop以及生成.yml系列文件,保存在calib_params以及biaoding_pipeline文件夹中 0_test_calibprocess.sh # 内参标定,往往需要多天数据,且要保证标定板出现的多样性以及cover大部分区域 1_calib_intrics.sh # 外参标定,使用混合的内参对单天数据进行外参标定,最好loss在0.000x 1_calib_extrics.sh # 修改anchor.yaml相机信息进行15标定,loss 100以下,A88参考为50左右 2_test_merge.sh # 选择数据送标anchor,返回后, loss 0.00x, 不准基本就是anchor标错或者方向盘等位置发生运动 python tools/display_tags.py --anchor_path /mnt/.../anchor 3_test_anchors.sh # 检查anchor的3d位置是否正确 # 首先根据点位加入颜色 python 3_addcolor_anchor.py #...

#3D

READ

函数光滑化：不可导函数的可导逼近

Deep Learning

2026-04-15

一般来说，神经网络处理的东西都是连续的浮点数，标准的输出也是连续型的数字。但实际问题中，我们很多时候都需要一个离散的结果，比如分类问题中我们希望输出正确的类别，“类别”是离散的，“类别的概率”才是连续的；又比如我们很多任务的评测指标实际上都是离散的，比如分类问题的正确率和F1、机器翻译中的BLEU，等等。还是以分类问题为例，常见的评测指标是正确率，而常见的损失函数是交叉熵。交叉熵的降低与正确率的提升确实会有一定的关联，但它们不是绝对的单调相关关系。换句话说，交叉熵下降了，正确率不一定上升。显然，如果能用正确率的相反数做损失函数，那是最理想的，但正确率是不可导的（涉及到 \(\text{argmax}\) 等操作），所以没法直接用。这时候一般有两种解决方案；一是动用强化学习，将正确率设为奖励函数，这是“用牛刀杀鸡”的方案；另外一种是试图给正确率找一个光滑可导的近似公式。本文就来探讨一下常见的不可导函数的光滑近似，有时候我们称之为“光滑化”，有时候我们也称之为“软化”。 max 后面谈到的大部分内容，基础点就是max操作的光滑近似，我们有：...

#DL基础

READ

重参数化：从正态分布到Gumbel Softmax

Deep Learning

2026-04-15

文章从连续情形出发开始介绍重参数，主要的例子是正态分布的重参数；然后引入离散分布的重参数，这就涉及到了Gumbel Softmax，包括Gumbel Softmax的一些证明和讨论；最后再讲讲重参数背后的一些故事，这主要跟梯度估计有关。基本概念重参数（Reparameterization）实际上是处理如下期望形式的目标函数的一种技巧： \[L_{\theta}=\mathbb{E}_{z\sim p_{\theta}(z)}[f(z)]\tag{1}\] 这样的目标在VAE中会出现，在文本GAN也会出现，在强化学习中也会出现（ \(f(z)\) 对应于奖励函数），所以深究下去，我们会经常碰到这样的目标函数。取决于 \(z\) 的连续性，它对应不同的形式： \[\int p_{\theta}(z) f(z)dz\,\,\,\text{(连续情形)}\qquad\qquad \sum_{z} p_{\theta}(z) f(z)\,\,\,\text{(离散情形)}\tag{2}\] 当然，离散情况下我们更喜欢将记号 \(z\) 换成 \(y\) 或者 \(c\) 。为了最小化...

#DL基础 #VAE

READ

Gaze Estimation

3D Model

2026-04-15

概述问题定义广义的 Gaze Estimation 泛指与眼球、眼动、视线等相关的研究，因此有不少做 saliency 和 egocentric 的论文也以 gaze 为关键词。而本文介绍的 Gaze Estimation 主要以眼睛图像或人脸图像为处理对象，估算人的视线方向或注视点位置，如下图所示。 gaze角度的表示一般使用一个3d向量作为表示，也可以转换为pitch 和yaw角度，具体可参考欧拉角、旋转矩阵、旋转向量、四元数 Model Gaze模型一般使用回归模型，所以这里基本只介绍一些在gaze model中使用的小技巧 Rle Loss RLE Loss 实际问题 Gaze采集标定方案

#3D

READ

Transformers are RNNs

NLP

2026-04-15

Attention 当前最流行的Attention机制当属 Scaled-Dot Attention，形式为 \[Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\boldsymbol{Q}\boldsymbol{K}^{\top}\right)\boldsymbol{V}\tag{1}\] 这里的 \(\boldsymbol{Q}\in\mathbb{R}^{n\times d_k}, \boldsymbol{K}\in\mathbb{R}^{m\times d_k}, \boldsymbol{V}\in\mathbb{R}^{m\times d_v}\) ，简单起见我们就没显式地写出Attention的缩放因子了。本文我们主要关心Self Attention场景，所以为了介绍上的方便统一设 \(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}\in\mathbb{R}^{n\times d}\) ，一般场景下都有 \(n > d\) 甚至...

#transformer #Linear Attention

READ

Preformer

NLP

2026-04-15

Attention 当前最流行的Attention机制当属 Scaled-Dot Attention，形式为 \[\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\boldsymbol{Q}\boldsymbol{K}^{\top}\right)\boldsymbol{V}\tag{1}\end{equation}\] 这里的 \(\boldsymbol{Q}\in\mathbb{R}^{n\times d_k}, \boldsymbol{K}\in\mathbb{R}^{m\times d_k}, \boldsymbol{V}\in\mathbb{R}^{m\times d_v}\) ，简单起见我们就没显式地写出Attention的缩放因子了。本文我们主要关心Self Attention场景，所以为了介绍上的方便统一设 \(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}\in\mathbb{R}^{n\times...

#Linear Attention #transformer

READ

The Devil in Linear Transformer

NLP

2026-04-15

Attention 当前最流行的Attention机制当属 Scaled-Dot Attention，形式为 \[\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\boldsymbol{Q}\boldsymbol{K}^{\top}\right)\boldsymbol{V}\tag{1}\end{equation}\] 这里的 \(\boldsymbol{Q}\in\mathbb{R}^{n\times d_k}, \boldsymbol{K}\in\mathbb{R}^{m\times d_k}, \boldsymbol{V}\in\mathbb{R}^{m\times d_v}\) ，简单起见我们就没显式地写出Attention的缩放因子了。本文我们主要关心Self Attention场景，所以为了介绍上的方便统一设 \(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}\in\mathbb{R}^{n\times...

#Linear Attention

READ

FLASH：高效Transformer设计

NLP

2026-04-15

概述本文模型脉络图本文介绍一个比较有意思的高效Transformer工作——来自Google的《Transformer Quality in Linear Time》 , 什么样的结果值得我们用“惊喜”来形容？有没有言过其实？我们不妨先来看看论文做到了什么：提出了一种新的Transformer变体，它依然具有二次的复杂度，但是相比标准的Transformer，它有着更快的速度、更低的显存占用以及更好的效果；提出一种新的线性化Transformer方案，它不但提升了原有线性Attention的效果，还保持了做Decoder的可能性，并且做Decoder时还能保持高效的训练并行性。说实话，笔者觉得做到以上任意一点都是非常难得的，而这篇论文一下子做到了两点，所以我愿意用“惊喜满满”来形容它。更重要的是，论文的改进总的来说还是比较自然和优雅的，不像很多类似工作一样显得很生硬。此外，笔者自己也做了简单的复现实验，结果显示论文的可复现性应该是蛮好的，所以真的有种“Transformer危矣”的感觉了。门控注意（Gated Attention Unit）...

#transformer #Linear Attention

READ

RLE Loss

3D Model

2026-04-15

论文地址： https://arxiv.org/pdf/2107.11291 代码地址： https://github.com/Jeff-sjtu/res-loglikelihood-regression 前言一般来说，我们可以把姿态估计任务分成两个流派：Heatmap-based和Regression-based。其主要区别在于监督信息的不同，Heatmap-based方法监督模型学习的是高斯概率分布图，即把GroundTruth中每个点渲染成一张高斯热图，最后网络输出为K张特征图对应K个关键点，然后通过argmax或soft-argmax来获取最大值点作为估计结果。这种方法由于需要渲染高斯热图，且由于热图中的最值点直接对应了结果，不可避免地需要维持一个相对高分辨率的热图（常见的是64x64，再小的话误差下界过大会造成严重的精度损失），因此也就自然而然导致了很大的计算量和内存开销。 Regression-based方法则非常简单粗暴，直接监督模型学习坐标值，计算坐标值的L1或L2...

#CV #3D

READ

LinearAttention 概述

NLP

2026-04-15

概述众所周知，尽管基于Attention机制的Transformer类模型有着良好的并行性能，但它的空间和时间复杂度都是 \(\mathcal{O}(n^2)\) 级别的， \(n\) 是序列长度，所以当 \(n\) 比较大时Transformer模型的计算量难以承受。近来，也有不少工作致力于降低Transformer模型的计算量，比如模型剪枝、量化、蒸馏等精简技术，又或者修改Attention结构，使得其复杂度能降低到 \(\mathcal{O}(n\log n)\) 甚至 \(\mathcal{O}(n)\) 。改变这一复杂度的思路主要有两种：一是走稀疏化的思路，比如OpenAI的 Sparse Attention ，通过“只保留小区域内的数值、强制让大部分注意力为零”的方式，来减少Attention的计算量。经过特殊设计之后，Attention矩阵的大部分元素都是0，因此理论上它也能节省显存占用量和计算量。后续类似工作还有《Explicit Sparse Transformer: Concentrated Attention Through Explicit...

#transformer #Linear Attention

READ

状态空间模型SSM到Mamba

NLP

2026-04-15

概述 SSM的概念由来已久，但这里我们特指深度学习中的SSM，一般认为其开篇之作是2021年的 S4 ，不算太老，而SSM最新最火的变体大概是 Mamba 。当然，当我们谈到SSM时，也可能泛指一切线性RNN模型，这样 RWKV 、 RetNet 还有此前LRU都可以归入此类。不少SSM变体致力于成为Transformer的竞争者，尽管笔者并不认为有完全替代的可能性，但SSM本身优雅的数学性质也值得学习一番。尽管我们说SSM起源于S4，但在S4之前，SSM有一篇非常强大的奠基之作《HiPPO: Recurrent Memory with Optimal Polynomial Projections》（简称HiPPO），所以本文从HiPPO开始说起。另外值得一提的是，SSM代表作HiPPO、S4、Mamba的一作都是 Albert Gu ，他还有很多篇SSM相关的作品，毫不夸张地说，这些工作筑起了SSM大厦的基础。不论SSM前景如何，这种坚持不懈地钻研同一个课题的精神都值得我们由衷地敬佩。今天，基本上你能叫出的任何语言模型都是 Transformer 模型。OpenAI 的...

#NLP #Linear Attention

READ

#

!

INCOMING TRANSMISSION

Ensemble Learning概述

Gaze采集标定方案

函数光滑化：不可导函数的可导逼近

重参数化：从正态分布到Gumbel Softmax

Gaze Estimation

Transformers are RNNs

Preformer

The Devil in Linear Transformer

FLASH：高效Transformer设计

RLE Loss

LinearAttention 概述

状态空间模型SSM到Mamba