个人微信公众号:AI研习图书馆,欢迎关注~
深度学习知识及资源分享,学习交流,共同进步~
1. 引言
论文:You Only Look Once: Unified, Real-Time Object Detection
论文下载:/abs/1506.02640
darknet版的代码下载:/pjreddie/darknet
tensorflow版本的代码下载:/hizhangp/yolo_tensorflow
2. YOLO简介
人类视觉系统快速且精准,只需瞄一眼(You Only Look Once)即可识别图像中物品及其位置。作者用了You Only Look Once的首字母YOLO来表示其算法,相当有趣。YOLO为一种新的目标检测方法,该方法的特点是实现快速检测的同时还达到较高的准确率。作者将目标检测任务看作目标区域预测和类别预测的回归问题。该方法采用单个神经网络直接预测物体边界和类别概率,实现端到端(end to end)的物体检测。同时,该方法检测速非常快,基础版可以达到45帧/s的实时检测;Fast YOLO可以达到155帧/s。与当前最好系统相比,YOLO目标区域定位误差更大,但是背景预测的准确性优于当前最好的方法。
YOLO的网络结构:模型采用卷积神经网络结构。开始的卷积层提取图像特征,全连接层预测输出概率。模型结构类似于GoogleNet,如图3所示。作者还训练了YOLO的快速版本(fast YOLO)。Fast YOLO模型卷积层和filter更少。最终输出为7×7×30的tensor。
YOLO主要特点
速度快,能够达到实时的要求。在 Titan X 的 GPU 上 能够达到 45 帧每秒。使用全图作为 Context 信息,背景错误(把背景错认为物体)比较少。泛化能力强。
YOLO的核心思想
YOLO的核心思想就是利用整张图作为网络的输入,直接在输出层回归bounding box的位置和bounding box所属的类别。faster RCNN中也直接用整张图作为输入,但是faster-RCNN整体还是采用了RCNN那种 proposal+classifier的思想,只不过是将提取proposal的步骤放在CNN中实现了。
3. YOLO的实现方法
将一幅图像分成SxS个网格(grid cell),如果某个object的中心 落在这个网格中,则这个网格就负责预测这个object每个网格要预测B个bounding box,每个bounding box除了要回归自身的位置之外,还要附带预测一个confidence值。
这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息,其值是这样计算的:
其中如果有object落在一个grid cell里,第一项取1,否则取0。 第二项是预测的bou
如果觉得《目标检测-YOLO算法学习总结》对你有帮助,请点赞、收藏,并留下你的观点哦!