失眠网 > 目标检测-YOLO算法学习总结

目标检测-YOLO算法学习总结

时间：2022-11-11 11:01:01

相关推荐

目标检测-YOLO算法学习总结

个人微信公众号：AI研习图书馆，欢迎关注~

深度学习知识及资源分享，学习交流，共同进步~

1. 引言

论文：You Only Look Once: Unified, Real-Time Object Detection

论文下载：/abs/1506.02640

darknet版的代码下载：/pjreddie/darknet

tensorflow版本的代码下载：/hizhangp/yolo_tensorflow

2. YOLO简介

人类视觉系统快速且精准，只需瞄一眼（You Only Look Once）即可识别图像中物品及其位置。作者用了You Only Look Once的首字母YOLO来表示其算法，相当有趣。YOLO为一种新的目标检测方法，该方法的特点是实现快速检测的同时还达到较高的准确率。作者将目标检测任务看作目标区域预测和类别预测的回归问题。该方法采用单个神经网络直接预测物体边界和类别概率，实现端到端（end to end）的物体检测。同时，该方法检测速非常快，基础版可以达到45帧/s的实时检测；Fast YOLO可以达到155帧/s。与当前最好系统相比，YOLO目标区域定位误差更大，但是背景预测的准确性优于当前最好的方法。

YOLO的网络结构：模型采用卷积神经网络结构。开始的卷积层提取图像特征，全连接层预测输出概率。模型结构类似于GoogleNet，如图3所示。作者还训练了YOLO的快速版本（fast YOLO）。Fast YOLO模型卷积层和filter更少。最终输出为7×7×30的tensor。

YOLO主要特点

速度快，能够达到实时的要求。在 Titan X 的 GPU 上能够达到 45 帧每秒。使用全图作为 Context 信息，背景错误（把背景错认为物体）比较少。泛化能力强。

YOLO的核心思想

YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别。faster RCNN中也直接用整张图作为输入，但是faster-RCNN整体还是采用了RCNN那种 proposal+classifier的思想，只不过是将提取proposal的步骤放在CNN中实现了。