SNIPER的关键是减少了SNIP的计算量。SNIP借鉴了multi-scale training的思想进行训练，multi-scale training是用图像金字塔作为模型的输入，这种做法虽然能够提高模型效果，但是计算量的增加也非常明显，因为模型需要处理每个scale图像的每个像素，而SNIPER（Scale Normalization for Image Pyramids with Efficient Resampling）算法以适当的比例处理ground truth（称为chips）周围的上下文区域，在训练期间每个图像生成的chips的数量会根据场景复杂度而自适应地变化，由于SNIPER在采样后的低分辨率的chips上运行，故其可以在训练期间收益于Batch Normalization，而不需要在GPU之间再用同步批量标准化进行统计信息。实验证明，BN有助于最后性能的提升。

这些chips主要分为两大类：

一种是postivice chips，这些chips包含ground truth；

另一种是从RPN网络输出的ROI抽样得到的negative chips，这些chips相当于是难分类的背景，而那些容易分类的背景就没必要进行多尺度训练了。

因此模型最终只处理这些chips，而不是处理整张图像，这样就达到提升效果的同时提升速度。相比于SNIP，基于Faster RCNN（ResNet101作为Backbone）的实验结果显示SNIPER的mAP值比SNIP算法提升了4.6百分点，所以效果也还是非常不错的。在单卡V100上，每秒可以处理5张图像，这个速度在two-stage的算法中来看并不快，但是效果是非常好。

SNIPER的思路：

把图片丢到网络中时，就会产生不同尺度的feature map。作者的想法就是在特征图上的ground truth box周围去crop一些图片，这些图片称为chips。

1、如何选择positive chips : 就是在图像金字塔的每一层中，都设定一个范围，在该大小范围内的目标就可以标出来作为ground truth box，然后对图片中ground truth box所在的地方进行crop，crop出来的图片就是chips。这决定哪些gt目标参与该尺度的训练。在每个尺度贪婪地选择包含gt目标最多的chip作为正chip，每个gt至少在一个chip中（因为范围R有重叠）。

左侧中，绿色框起来的就是ground truth的所在，其他颜色是生成的chips，这张图就生成了4个chips，右侧中绿色线条就是valid box，红色的线就是invalid box。可以看出，合适尺度内的ground truth box就是valid box(蓝色和红色框内绿线)，否则就是invalid box(黄色和紫色图中的红线就是invalid)（clip的尺寸要比原图小很多，不然就起不到减少计算量的目的，对于高分辨率的图，clip可以比它小十倍不止）

2、如何选择negative chips : 如果只基于前面的positive chip，那么因为大量的背景区域没有参与训练，所以容易误检（比较高的false positive rate），传统的multi scale训练方式因为有大量的背景区域参与计算，所以误检率没那么高，但因为大部分背景区域都是非常容易分类的，所以这部分计算量是可以避免的，于是就有了negative chip seleciton。选择negative chips的目的在于要让网络更容易去判断出哪些是背景，而不必花费太多的时间在上面。在Faster-RCNN中的RPN的其中一步就是，将anchor和ground truth box交并比小于0.3视为背景，全部去掉（去掉易分样本）。然后剩下的再去掉完全覆盖groun truth box的proposal（去掉易分样本），大部分proposal都是具有假阳性的，也就是和ground truth 都有一部分的交集，但是比较小，我们的negative chips都从这里来。(negative chips就是难分样本)。这样可以用来减少假阳率。

上面一行就是ground truth boxes，下面一行就是作者选择的negative chips，比如最后两个，negative chips都和ground truth box有一定的交集。这就是我们所需要的negative chips。第二行图像中的红色小圆点表示没有被positive chips（Cipos）包含的negative proposals，因为proposals较多，用框画出来的话比较繁杂，所以用红色小圆点表示。橘色框表示基于这些negative proposals生成的negative chips，也就是Cineg。每个negative chip是这么得到的：对于尺度i而言，首先移除包含在Cipos的region proposal，然后在Ri范围内，每个chip都至少选择M个proposal。在训练模型时，每一张图像的每个epoch都处理固定数量的negative chip，这些固定数量的negative chip就是从所有scale的negative chip中抽样得到的。

3、标注label：每一张chip上大概产生300个proposal，但是对这300个proposals不做限制（比如faster-rcnn会滤除掉背景部分，我们不这样），而是对里面的一些proposal抽出来做positive proposal。

4、模型训练：应该是先生成chips，然后再用chips去训练一个端到端的网络，所以其实是分开进行的。

优点

1、确实可以减少计算量；(一张图片可以Crop出5个512x512的chips，而且进行3个尺度的训练，但是它的计算量只比一张800x1333的图片进行单尺度训练多出30%，要是800x1333也进行多尺度训练时，训练量可比这种方法大多了)

2、用固定大小的chips去进行训练时，数据很容易被打包，更利于GPU的使用。（把数据丢到GPU中去训练，这30%的差距算个毛线，GPU计算速度那么大呢）

3、更为重要的是，可以进行多尺度训练，设置更大的batch_size和batch normalization，而且再也不用担心这些操作会拉低我们的速度了！

实验细节：用图像金字塔生成chips的时候，在不同scale的层上使用的ground truth box范围在[0,80²]、[32²,150²]、[120²， inf]。训练RPN是为了获取negative chips。每一张图上产生的chips是不同的，如果这张图包含的目标多，产生的chips就会增多，相反则减少。

在SNIP的基础上加了一个「positive/negative chip selection」，从实验结果来看是非常SOTA的，可以说碾压了Mosaic反应出来的结果。另外基于ResNet101的Faster RCNN架构结合SNIPER，精度超过了YOLOV4接近4个点，效果是非常好的。