失眠网 > YOLO9000: Better Faster Stronger 论文学习笔记

YOLO9000: Better Faster Stronger 论文学习笔记

时间：2022-02-03 20:29:26

论文基本信息

标题：YOLO9000: Better, Faster, Stronger作者：Joseph Redmon,Ali Farhadi机构：University of Washington来源：CVPR时间：论文地址：/content_cvpr_/papers/Redmon_YOLO9000_Better_Faster_CVPR__paper.pdf

论文概要

YOLIO v2是对YOLOv1的改进版本，作者依然后Joseph Redmon。这是发表在CVPR上的一篇文章，引用量9000+。是目标检测领域的一篇重要的文章。是后面YOLO v3、v4、v5的基础。

解决问题

提出了一系列的措施，解决YOLO v1的一些缺陷。数据集的标注是很贵的，计算机是觉得研究又需要大量的标注数据。为了缓解这个问题，作者提出了一种联合训练的思路。

YOLO v1的缺陷

准确性较差，mAP较其他two-stage的检测算法来说比较低。定位性能比较差recall 比较低检测小目标和密集目标的能力比较差。

YOLO V2对v1存在的缺陷进行了改进。

创新点

提出了一系列的改进YOLO v1的措施，具体见后文论文细节中的描述。YOLO v2算法的无论在精度还是在速度上，都达到了当时较高的水平。提出了一种联合训练机制，将不同的数据集放在一块训练，使得训练出的模型更加鲁棒。为解决数据不足问题提出了一种新的解决思路。

效果

YOLO v2在VOC数据集上在FPS为67的情况下达到了76.8%的map，在FPS为40的时候，map达到了78.6%,超过了当时的SOTA。YOLO 9000能够检测超过9000个不同的类别的物体。

论文细节

Better

作者在YOLO v1的基础上增加了batch normalization、hi-res classifier、convolutional、anchor boxes、new network、dimension priors、location prediction、passthrough、multi-scale、hi-res detector。效果如下表。

Batch Normalization

在卷积层后加入batch normalization可以避免过拟合,、加快收敛、改善梯度。加入后高了%2的map。

High Resolution Classifier

YOLOv2是要在分类网络上预训练的时候就采用了448448的分辨率（之前是224224），训练10个epochs在ImageNet。然后在检测任务上微调。这样通过高分辨率的分类网络提高了接近4%的map。

Convolutional With Anchor Boxes

在YOLO v1中，将图片划分成了7*7的grid cell。由每个grid cell预测两个bbox。此时的bbox是不加限制地，也就会导致模型会不是很稳定。在YOLO v2中，首先是将图片划分成了13*13的grid cell，每个grid cell 有固定数量的anchor，不同的anchor的长宽比和大小是不同的，由每个anchor来预测bbox的偏移量和类别。这样就增加了模型的稳定性。如下图所示，YOLO v2最后每个grid cell 会生成一个更大维度的向量，首先是每个anchor对应一个box，k个anchor就对应k个box。类别也是由anchor来确定，也就是每个anchor要产生 4+1+20=25维度的向量，4是位置信息，1是置信度，20是每个类别的置信度。k个anchor就是每个grid cell生成k*25维的信息。

Dimension Clusters

在选择多少个anchor的时候，不同于faster rcnn手动确定anchor的方式，YOLO v2采用了k -mens聚类的方式对VOC数据集和COCO数据集的bbox的大小进行聚类，结果如图

聚类的种类越多肯定IOU 越大，但是模型的复杂度也会加大，最后采用了5种不同大小的anchor如上图中右图所示。采用该种方法来确定anchor的大小比手动确定anchor的大小在性能上有了较大的提升。

由图中可以看到，采用聚类的方法5类anchor就能达到61.0的IOU，而手动确定要9类才能得到差不多的效果。

Direct location prediction

解决问题：

对于每一个anchor，会输出一组(tx,ty,tw,th,to,c1,…c20)，只对定位的(tx,ty,tw,th,to)进行讨论。对预测值进行解码回得到框的位置，在通常的region proposal Network中的解码方式如下：其中xa,ya,wa,ha。是anchor的中心位置和高宽。这就会导致一个问题，

其中xa,ya,wa,ha。是anchor的中心位置和高宽。这就会导致一个问题，就是x,y可以跑到任意位置，就是我们解码出来的预测框的中心点可能到图中的任意一个位置。YOLO v2做了一些限制。使得预测的中心点的位置不会有太大的偏移。

具体思路

对预测的值的解码方式进行改变。

其中tx,ty,tw,th是预测的四个值，cx,cy是grid cell左上角的坐标，pw，ph是anchor的宽和高。σ表示sigmod函数，将tx，ty都变到0-1之间，然后交加上cx,cy就将bx,by限制到grid cell里面了。

bx,by,bw,bh是预测框的中心点和w，h。