知识库 - Orange

Stacked Hourglass Networks

3D Model

2026-04-15

论文介绍了一种新的网络结构用于人体姿态检测，作者在论文中展现了不断重复bottom-up、top-down过程以及运用intermediate supervison（中间监督）对于网络性能的提升，下面来介绍Stacked Hourglass Networks. 简介理解人类的姿态对于一些高级的任务比如行为识别来说特别重要，而且也是一些人机交互任务的基础。作者提出了一种新的网络结构Stacked Hourglass Networks来对人体的姿态进行识别，这个网络结构能够捕获并整合图像所有尺度的信息。之所以称这种网络为Stacked Hourglass Networks，主要是它长得很像堆叠起来的沙漏，如下图所示：这种堆叠在一起的Hourglass模块结构是对称的，bottom-up过程将图片从高分辨率降到低分辨率，top-down过程将图片从低分辨率升到高分辨率，这种网络结构包含了许多pooling和upsampling的步骤，pooling可以将图片降到一个很低的分辨率，upsampling可以结合多个分辨率的特征。下面介绍具体的网络结构。 Hourglass Module...

#3D

READ

3D Model 概述

3D Model

2026-04-15

深度相机 “工欲善其事必先利其器‘’我们先从能够获取RGBD数据的相机开始谈起。首先我们来看一看其分类。根据其工作原理主要分为三类： 1.双目方案基于双目立体视觉的深度相机类似人类的双眼，和基于TOF、结构光原理的深度相机不同，它不对外主动投射光源，完全依靠拍摄的两张图片（彩色RGB或者灰度图）来计算深度，因此有时候也被称为被动双目深度相机。比较知名的产品有STEROLABS 推出的 ZED 2K Stereo Camera和Point Grey 公司推出的 BumbleBee。双目立体视觉是基于视差原理，由多幅图像获取物体三维几何信息的方法。在机器视觉系统中，双目视觉一般由双摄像机从不同角度同时获取周围景物的两幅数字图像，或有由单摄像机在不同时刻从不同角度获取周围景物的两幅数字图像，并基于视差原理即可恢复出物体三维几何信息，重建周围景物的三维形状与位置。双目视觉有的时候我们也会把它称为体视，是人类利用双眼获取环境三维信息的主要途径。从目前来看，随着机器视觉理论的发展，双目立体视觉在机器视觉研究中发回来看了越来越重要的作用为什么非得用双目相机才能得到深度？...

#Depth-Estimation #RGB-D #3D

READ

Gaze采集标定方案

3D Model

2026-04-15

整体流程 # 文件夹biaoding处理加crop以及生成.yml系列文件,保存在calib_params以及biaoding_pipeline文件夹中 0_test_calibprocess.sh # 内参标定,往往需要多天数据,且要保证标定板出现的多样性以及cover大部分区域 1_calib_intrics.sh # 外参标定,使用混合的内参对单天数据进行外参标定,最好loss在0.000x 1_calib_extrics.sh # 修改anchor.yaml相机信息进行15标定,loss 100以下,A88参考为50左右 2_test_merge.sh # 选择数据送标anchor,返回后, loss 0.00x, 不准基本就是anchor标错或者方向盘等位置发生运动 python tools/display_tags.py --anchor_path /mnt/.../anchor 3_test_anchors.sh # 检查anchor的3d位置是否正确 # 首先根据点位加入颜色 python 3_addcolor_anchor.py #...

#3D

READ

Gaze Estimation

3D Model

2026-04-15

概述问题定义广义的 Gaze Estimation 泛指与眼球、眼动、视线等相关的研究，因此有不少做 saliency 和 egocentric 的论文也以 gaze 为关键词。而本文介绍的 Gaze Estimation 主要以眼睛图像或人脸图像为处理对象，估算人的视线方向或注视点位置，如下图所示。 gaze角度的表示一般使用一个3d向量作为表示，也可以转换为pitch 和yaw角度，具体可参考欧拉角、旋转矩阵、旋转向量、四元数 Model Gaze模型一般使用回归模型，所以这里基本只介绍一些在gaze model中使用的小技巧 Rle Loss RLE Loss 实际问题 Gaze采集标定方案

#3D

READ

CLIP

Large Model

2026-04-15

CLIP算法原理 CLIP 不预先定义图像和文本标签类别，直接利用从互联网爬取的 400 million 个image-text pair 进行图文匹配任务的训练，并将其成功迁移应用于30个现存的计算机视觉分类。简单的说，CLIP 无需利用 ImageNet 的数据和标签进行训练，就可以达到 ResNet50 在 ImageNet数据集上有监督训练的结果，所以叫做 Zero-shot。 CLIP（contrastive language-image pre-training）主要的贡献就是利用无监督的文本信息，作为监督信号来学习视觉特征。 CLIP 作者先是回顾了并总结了和上述相关的两条表征学习路线：构建image和text的联系，比如利用已有的image-text pair数据集，从text中学习image的表征；获取更多的数据（不要求高质量，也不要求full...

#pretrain #VLM

READ

RLE Loss

3D Model

2026-04-15

论文地址： https://arxiv.org/pdf/2107.11291 代码地址： https://github.com/Jeff-sjtu/res-loglikelihood-regression 前言一般来说，我们可以把姿态估计任务分成两个流派：Heatmap-based和Regression-based。其主要区别在于监督信息的不同，Heatmap-based方法监督模型学习的是高斯概率分布图，即把GroundTruth中每个点渲染成一张高斯热图，最后网络输出为K张特征图对应K个关键点，然后通过argmax或soft-argmax来获取最大值点作为估计结果。这种方法由于需要渲染高斯热图，且由于热图中的最值点直接对应了结果，不可避免地需要维持一个相对高分辨率的热图（常见的是64x64，再小的话误差下界过大会造成严重的精度损失），因此也就自然而然导致了很大的计算量和内存开销。 Regression-based方法则非常简单粗暴，直接监督模型学习坐标值，计算坐标值的L1或L2...

#CV #3D

READ

Attention长度外推

NLP

2026-04-15

这篇文章主要去“复盘”一下主流的长度外推结果，并试图从中发现免训练长度外推的关键之处。问题定义顾名思义，免训练长度外推，就是不需要用长序列数据进行额外的训练，只用短序列语料对模型进行训练，就可以得到一个能够处理和预测长序列的模型，即“Train Short, Test Long”。那么如何判断一个模型能否用于长序列呢？最基本的指标就是模型的长序列Loss或者PPL不会爆炸，更加符合实践的评测则是输入足够长的Context，让模型去预测答案，然后跟真实答案做对比，算BLEU、ROUGE等， LongBench 就是就属于这类榜单。但要注意的是，长度外推应当不以牺牲远程依赖为代价——否则考虑长度外推就没有意义了，倒不如直接截断文本——这意味着通过显式地截断远程依赖的方案都需要谨慎选择，比如ALIBI，还有带显式Decay的线性RNN ，这些方案当序列长度足够大时都表现为局部注意力，即便有可能实现长度外推，也会有远程依赖不足的风险，需要根据自己的场景斟酌使用。如何判断在长度外推的同时有没有损失远程依赖呢？比较严谨的是像 ReRoPE...

#位置编码 #transformer

READ

BLIP系列：统一理解和生成的自举多模态模型

Large Model

2026-04-15

BLIP 论文名称：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML 2022) 论文地址： https://arxiv.org/pdf/2201.12086.pdf 代码地址： https://github.com/salesforce/BLIP 官方解读博客： https://blog.salesforceairesearch.com/blip-bootstrapping-language-image-pretraining/ 背景和动机视觉语言训练 (Vision-Language Pre-training, VLP) 最近在各种多模态下游任务上取得了巨大的成功。然而，现有方法有两个主要限制：模型层面：大多数现有的预训练模型仅在基于理解的任务或者基于生成的任务方面表现出色，很少有可以兼顾的模型。比如，基于编码器的模型，像 CLIP，ALBEF 不能直接转移到文本生成任务...

#VLM #pretrain

READ

Transformer位置编码

NLP

2026-04-15

不同于RNN、CNN等模型，对于Transformer模型来说，位置编码的加入是必不可少的，因为纯粹的Attention模块是无法捕捉输入顺序的，即无法区分不同位置的Token。为此我们大体有两个选择：想办法将位置信息融入到输入中，这构成了绝对位置编码的一般做法；想办法微调一下Attention结构，使得它有能力分辨不同位置的Token，这构成了相对位置编码的一般做法。虽然说起来主要就是绝对位置编码和相对位置编码两大类，但每一类其实又能衍生出各种各样的变种，为此研究人员可算是煞费苦心、绞尽脑汁了，此外还有一些不按套路出牌的位置编码。本文就让我们来欣赏一下研究人员为了更好地表达位置信息所构建出来的“八仙过海，各显神通”般的编码方案。绝对位置编码形式上来看，绝对位置编码是相对简单的一种方案，但即便如此，也不妨碍各路研究人员的奇思妙想，也有不少的变种。一般来说，绝对位置编码会加到输入中：在输入的第 𝑘 个向量 \(𝑥_𝑘\) 中加入位置向量 \(𝑝_𝑘\) 变为 \(\boldsymbol{x}_k + \boldsymbol{p}_k\) ，其中 \(...

#transformer #位置编码

READ

旋转式位置编码 RoPE

NLP

2026-04-15

旋转式位置编码（ROPE）原始的Sinusoidal位置编码总的感觉是一种“想要成为相对位置编码的绝对位置编码”。一般来说，绝对位置编码具有实现简单、计算速度快等优点，而相对位置编码则直接地体现了相对位置信号，跟我们的直观理解吻合，实际性能往往也更好。由此可见，如果可以通过绝对位置编码的方式实现相对位置编码，那么就是“集各家之所长”、“鱼与熊掌兼得”了。Sinusoidal位置编码隐约做到了这一点，但并不够好。本文将会介绍我们自研的Rotary Transformer（RoFormer）模型，它的主要改动是应用了笔者构思的“旋转式位置编码（Rotary Position Embedding，RoPE）”，这是一种配合Attention机制能达到“绝对位置编码的方式实现相对位置编码”的设计。而也正因为这种设计，它还是目前唯一一种可用于线性Attention的相对位置编码。 RoFormer：https://github.com/ZhuiyiTechnology/roformer 基本思路这里简要介绍过RoPE： Transformer位置编码...

#transformer #位置编码

READ

SigLIP系列

Large Model

2026-04-15

SigLIP 概述 CLIP自提出以来在zero-shot分类、跨模态搜索、多模态对齐等多个领域得到广泛应用。得益于其令人惊叹的能力，激起了研究者广泛的关注和优化。目前对CLIP的优化主要可以分为两大类：其一是如何降低CLIP的训练成本；其二是如何提升CLIP的performance。对于第一类优化任务的常见思路有3种。优化训练架构，如 LiT 通过freezen image encoder，单独训练text encoder来进行text 和image的对齐来加速训练；减少训练token，如 FLIP 通过引入视觉mask，通过只计算非mask区域的视觉表征来实现加速（MAE中的思路）优化目标函数，如 CatLIP 将caption转为class label，用分类任务来代替对比学习任务来实现加速。对于第二类提升CLIP的performance最常用和有效的手段就是数据治理，即构建高质量、大规模、高多样性的图文数据，典型的工作如：DFN。 SigLIP这篇paper 提出用sigmoid...

#pretrain #VLM

READ

#

!

INCOMING TRANSMISSION

Stacked Hourglass Networks

3D Model 概述

Gaze采集标定方案

Gaze Estimation

CLIP

RLE Loss

Attention长度外推

BLIP系列：统一理解和生成的自举多模态模型

Transformer位置编码

旋转式位置编码 RoPE

SigLIP系列