目标检测入门之YOLOv1

论文题目:You Only Look Once: Unified, Real-Time Object Detection

网络架构

YOLOv1的模型架构参考GoogleNet,一共有24个卷积层,2个全连接层,激活函数为Leaky ReLU,最后一次则是采用Linear activation.

整体网络架构图如下所示:

检测流程

YOLO 的整体处理流程如下:

将图像resize成448X448,并分割成7X7的网格
输入整张图像至CNN model,提取其特征并进行网络预测
通过非最大值抑制算法(NMS)过滤confidence较低的预测框

上述过程如下所示:

模型预测

YOLOV1前向预测方法如下:

首先将输入的图像切分成7X7的网格(grid cell),每个网格负责预测2个bounding box以及输出预测每个类别的概率.论文中采用的数据集为PASCAL VOC,该数据集一共有20个类别.
每个bounding box的输出有5个预测值:x,y,w,h以及confidence,分别表示为预测的物体的中心点(x,y),长宽(w,h)以及置信度(confidence)
注意上述中x,y,w,h值为bounding box中心点的x坐标,y坐标,bounding box的宽度高度,并且均为归一化后的结果
注意上述confidence为boundingbox与Ground Truth的IOU值,可以由该值来判断这个boundingbox框出的是物体还是背景

下面来解释每个网格(grid cell)的输出:

1
2
3

每个grid cell输出: 2X5+20
2个(B=2)bounding box坐标和confidence以及该cell的预测类别
网格grid cell的尺寸为 7x7,所以总输出: 7X7X(2X5+20)=7X7X30

重要概念

YOLOv1还有一个重要的概念:

若被预测物体的中心落入某个网格中,那么这个网格就要负责去预测该物体

如下图所示,预测到猫咪的bounding box中心点位于粉红框的网格内,则该网格会负责预测这只猫咪.

由上图可知,一个图像会预测出7X7X2=98个bounding box,这些预测框有的可能被认为是背景(没有框出任何物体),此时confidence会为0,在进行NMS时,该框会被删除;若该框有框出物体,那么它预测出的x,y的值可能被认为是该物体的中心点,这里说可能是因为该预测物体框不一定就是实际答案.

对于同一物体,由于预测到的物体框可能有多个,最后需要经过NMS来消除那些重叠,置信度较低的框,剩下的框就是选出来的物体框.

NMS

下图所示为模型预测的过程:划分grid cell, 预测bounding box以及class,对bounding box 进行NMS,筛选后的bounding box与class结合后输出结果.

上述用来挑选最佳的目标检测预测框的算法为NMS,该算法的流程如下:

设定一个IOU阈值(threshold)
将所有预测框根据confidence进行排序
选择confidence最高的预测框作为最终输出预测框,并计算与其他预测框的IOU,若IOU大于阈值,代表两个框框住了同一个物体,则将confidence较小的框设为0, 即删除此预测框;若是小于阈值,则代表两者框住的是不同的物体框,需要留下该预测框.
重复上述步骤,直到遍历完所有预测框

损失函数

在介绍损失函数之前,我们先来引入以下参数:

1).bounding box中心点坐标xy与宽高

$(b{xi},b{yi})$ 为gt框的中心点坐标, $(\hat{b}{xi},\hat{b}{yi})$为预测框的中心点坐标
$1^{obj}{xi}$ 为第i个网格中第j个bounding box是否有匹配到gt中的标记框.若有匹配,表示该gt标记框与该预测框有最大IOU,此时该bounding box负责检测该物体,此时 $1^{obj}{xi}=1$
$(b{wi},b{hi})$为gt框的宽和高, $(\hat{b}{wi},\hat{b}{hi})$为预测框的宽和高
$\lambda_{coord}=5$使模型着重于物体定位能力

2). bounding box物体的置信度