知识库 -

Object Detection

Computer Vision

2025-03-17

上图是Yolo v4中，对各种detector部件的总结：包含Input、backbone、neck、head、... Backbone Neck 例如：SPP 、 ASPP 、 RFB、 SAM 用来增加感受野特征融合，主要是指不同输出层直接的特征融合，主要包括FPN、PAN、SFAM、ASFF和BiFPN。结构 One stage TwoStage Anchor Free Transformer Problems

#CV #Object Detection

READ

Object-detection中mAP计算

Computer Vision

2024-12-31

mAP定义及相关概念 mAP: mean Average Precision, 即各类别AP的平均值 AP: PR曲线下面积，后文会详细讲解 PR曲线: PrecisionRecall曲线 Precision: TP / (TP + FP) Recall: TP / (TP + FN) TP: IoU0.5的检测框数量（同一Ground Truth只计算一次） FP: IoU= 0, 0.1, 0.2, ..., 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值。在VOC2010及以后，需要针对每一个不同的Recall值（包括0和1），选取其大于等于这些Recall值时的Precision最大值，然后计算PR曲线下面积作为AP值。 mAP计算示例假...

#CV #DL基础 #Object Detection

READ

Additional blocks

Computer Vision

2024-12-31

SPP (spatial pyramid pooling layer) SPP applies a slightly different strategy in detecting objects of different scales. It replaces the last pooling layer (after the last convolutional layer) with a spatial pyramid pooling layer. The feature maps are spatially divided into m×m bins with m, say, equals 1, 2, and 4 respectively. Then a maximum pool i...

#CV #Object Detection

READ

Yolo系列

Computer Vision

2024-12-31

YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别。 faster RCNN中也直接用整张图作为输入，但是fasterRCNN整体还是采用了RCNN那种 proposal+classifier的思想，只不过是将提取proposal的步骤放在CNN中实现了,而YOLO则采用直接回归的思路。 YOLO v1 将一幅图像分成SxS个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。这个confidence代表了所预测的b...

#CV #Object Detection

READ

Deformable DETR

Computer Vision

2024-12-31

Deformable Convolution 在正式介绍这个工作之前很有必要先了解什么是 Deformable Convolution 。 Deformable Convolution 是MSRA的代季峰老师以及实习生在2017年提出的一种全新的卷积结构。这种方法将固定形状的卷积过程改造成了能适应物体形状的可变的卷积过程，从而使结构适应物体形变的能力更强。传统的CNN只能靠一些简单的方法(比如max pooling)来适应物体的形变，如果形变的太厉害就无能为力了。因为CNN的卷积核的geometric structure是fixed的，也就是固定住的。卷积核总是在固定位置对输入特征特征进行采样。为了改变这种情况专家们想了很多方法，最常见的有两种： 1. 使用大量的数据进行训练。比如用Im...

#CV #Object Detection #transformer

READ

Anchor-Free

Computer Vision

2024-12-31

简介 "Anchorfree"（无锚点）是一种目标检测方法，与传统的使用锚框（anchor boxes）的方法（例如Faster RCNN）不同。在传统方法中，锚框是预先定义的、具有不同尺寸和长宽比的矩形区域，用于捕捉不同尺寸和形状的目标。而在"anchorfree"方法中，不再使用锚框，而是直接预测目标的位置和形状，通常使用网络输出的热图和偏移信息。以下是对"anchorfree"方法的一些关键理解点：无需预定义锚框：在传统目标检测方法中，需要事先定义和生成一组锚框，这可能需要大量的人工工作。而在"anchorfree"方法中，不再需要锚框，模型可以自动学习目标的位置和形状。直接位置和形状回归： "anchorfree"方法通过输出的热图来表示目标的存在概率，并使用偏移信息来定位目...

#CV #Object Detection

READ

CornerNet

Computer Vision

2024-12-31

简介 CornerNet是密歇根大学Hei Law等人在发表ECCV2018的一篇论文，作者总结目前anchorbased方法存在两个缺点： 1. 提取的anchor boxes数量较多，比如DSSD使用40k， RetinaNet使用100k，anchor boxes众多造成anchor boxes正负样本的不均衡； 1. anchor boxes需要调整很多超参数，比如anchor boxes数量、尺寸、比率，影响模型的训练和推断速率。作者的思路其实来源于一篇多人姿态估计的论文"Endtoend learning for joint detection and grouping"。基于CNN的2D多人姿态估计方法，通常有2个思路（BottomUp Approaches和TopDown ...

#CV #Object Detection

READ

CenterNet

Computer Vision

2024-12-31

前言 anchorfree目标检测属于anchorfree系列的目标检测，相比于CornerNet做出了改进，使得检测速度和精度相比于onestage和twostage的框架都有不小的提高，尤其是与YOLOv3作比较，在相同速度的条件下，CenterNet的精度比YOLOv3提高了4个左右的点。 CenterNet不仅可以用于目标检测，还可以用于其他的一些任务，如肢体识别或者3D目标检测等等。那CenterNet相比于之前的onestage和twostage的目标检测有什么特点？ CenterNet的“anchor”仅仅会出现在当前目标的位置处而不是整张图上撒，所以也没有所谓的box overlap大于多少多少的算positive anchor这一说，也不需要区分这个anchor是物体还是...

#CV #Object Detection

READ

FCOS

Computer Vision

2024-12-31

先要明确的知道，FCOS是一个基于FCN（全卷积网络用于目标检测）、一阶段（one stage）、anchor free、proposal free、参考语义分割思想实现的逐像素目标检测的模型。简要介绍下FCOS几个核心点：（1）FCOS方法借鉴了FCN的思想，对 feature map 上每个特征点做回归操作，预测四个值，分别代表特征点到Ground Truth Bounding box上、下、左、右边界的距离。（2）特征点映射会原图后对应多个GT Bounding box，无法准确判断原图像素所属类别，因此模型引入 FPN 结构，利用不同的层来处理不同尺寸的目标框。（3）远离目标中心点可能会产生劣质预测结果，为了增强中心点选取的准确性，模型引入了Centerness lay...

#CV #Object Detection

READ

VarifocalNet

Computer Vision

2024-12-31

Introduction 目标检测中NMS需要依据候选检测目标的排序来进行筛选框，如果分类得分较低，但是定位框准确会导致在NMS中将该bbox框被排除掉，因此这个排序的可靠性就非常重要。之前的工作主要采用IOU分支（IOUNet）与Centerness得分（FCOS）来作为大量候选检测的排序依据。然而，本文认为这些方法可以有效缓解分类得分和物体定位精度之间的不对齐问题。但是，它们是次优解的，因为将两个不完善的预测相乘可能会导致排名依旧变差，作者经过试验表明，通过这种方法实现的性能上限非常有限。此外，增加一个额外的网络分支来预测定位分数并不是一个很好的解决方案，并且会带来额外的计算负担。基于上述分析，作者提出：不采用预测一个额外的定位精确度得分（IOUaware Centerness）...

#CV #Object Detection

READ

ATSS

Computer Vision

2024-12-31

Introduction 由于FPN和Focal loss 的加入，anchorfree模型变得越来越多。在仔细比对了anchorbased和anchorfree目标检测方法后，结合实验结果，论文认为两者的性能差异主要来源于正负样本的定义，假如训练过程中使用相同的正负样本，两者的最终性能将会相差无几。作者将目前的Anchorfree分为两个大类： 1. keypointbased methods：以CornerNet和ExtremeNet为代表，首先定位几个预定义或自学习的关键点，然后限制物体的空间范围； 1. centerbased methods：以FCOS和Foveabox为代表，使用物体的中心点或区域定义基准点，然后预测从该点到物体边界的四个距离。为此，论文提出ATSS( Ada...

#CV #Object Detection

READ

Focal Loss & RetinaNet

Computer Vision

2024-12-31

Motivation 我们知道object detection的算法主要可以分为两大类：twostage detector和onestage detector。前者是指类似Faster RCNN，RFCN这样需要region proposal的检测算法，这类算法可以达到很高的准确率，但是速度较慢。虽然可以通过减少proposal的数量或降低输入图像的分辨率等方式达到提速，但是速度并没有质的提升。后者是指类似YOLO，SSD这样不需要region proposal，直接回归的检测算法，这类算法速度很快，但是准确率不如前者。作者提出focal loss的出发点也是希望onestage detector可以达到twostage detector的准确率，同时不影响原有的速度。既然有了出发点，那么...

#CV #Object Detection

READ

INCOMING TRANSMISSION