8

目标检测说明:YOLO v2。

 2 years ago
source link: https://panchuang.net/2021/10/04/%e7%9b%ae%e6%a0%87%e6%a3%80%e6%b5%8b%e8%af%b4%e6%98%8e%ef%bc%9ayolo-v2%e3%80%82/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

YOLO v2-更好、更快、更强大

在我的对象检测解释系列之前,我讨论并介绍了YOLOv1架构。对于YOLOv2,我总结了作者添加的所有修改要点。作者介绍了很多修改,但我希望您对YOLO v1非常熟悉,因为它将帮助您更快、更好、更强大地理解YOLO v2。

原文:YOLO9000:更好、更快、更强:https://arxiv.org/pdf/1612.08242v1.pdfhttps://arxiv.org/pdf/1612.08242v1.pdf

RCNNRCNN

快速RCNNFast RCNN

FPNFPN

更快的RCNNFaster RCNN

固态硬盘SSD

YOLO v1YOLO v1

作者指出,与Fast-RCNN相比,YOLO v1犯了更多的定位错误,而且召回率也相对较低。因此,针对上述问题,他们对撞击进行了如下修改:

1.批量归一化(BN)

在YOLOv1中的每一卷积层之后都引入了BN层,从而使MAP提高了约2%。

2.高分辨率分类器

YOLO v1以224×224的图像分辨率训练分类器,并将其提高到448以进行检测。然而,YOLO v2在开始训练网络进行检测之前,首先在ImageNet上将其分类器直接微调为448×448分辨率10个历元。这导致MAP提高了4%。

3.带锚箱的卷积

作者从YOLOv1中删除了完全连接的层(您可以参考我以前关于YOLOv1的文章),并使用锚框来预测边界框。此外,他们删除了一个池层,并将输入分辨率从448×448更改为416个输入图像。这样做是因为他们在我们的要素地图中需要奇数个位置,所以只有一个中心单元。结果,他们在MAP方面的表现略有下降,但在召回率方面有了很好的改善,大约为7%。

4.维度集群

与YOLO配合使用时,锚箱有两个问题。首先,我们需要为网络选择好的先例,即锚盒,这样网络就更容易学习。因此,作者在训练集包围盒上采用K-均值聚类。

它是这样做的:

a)他们选择如下距离函数:D(方框,质心)=1−IOU(方框,质心)。

b)他们用不同的k值运行K-Means,发现k=5在模型复杂性和高召回率之间提供了一个很好的折衷。

5.直接位置预测

遇到的第二个问题是模型不稳定。因此,在过去,区域建议网络t_x和t_y,而中心坐标(x,y)计算如下:

然而,这个公式是不受约束的,因此它造成了不稳定。因此,作者使用以下公式:

其中网络预测t_x、t_y、t_w、t_h和t_o(客观性)。同时,(c_x,c_y)从图像的左上角偏移,p_w和p_h是先前边界框的宽度和高度。正如你所看到的,地面真相被限定在[0,1]的范围内(S型激活)。

由于维数簇结合了对包围盒中心位置的直接预测,作者获得了大约5%的改进。

6.多规模培训

网络不固定输入图像大小,而是从以下32的倍数中随机选择不同的输入分辨率,每隔10个历元:{320352kb,…,608}。这一制度鼓励网络在各种输入维度下表现良好。此外,它还提供了速度和准确性之间的简单折衷。

1.暗网-19

作者提出了一种新的主干,Darknet-19,它有19个卷积层和5个最大合并层。处理一幅图像需要55.8亿次运算,但在ImageNet上,TOP-1准确率达到72.9%,TOP-5准确率达到91.2%。

2.分类训练

作者使用了标准的扩充。首先,他们以224×224的输入分辨率训练他们提出的主干,并在更大的尺寸上进行微调,448,持续10个历元。更多详情请参考原文。

有多个数据集用于分类和检测。它们能结合在一起吗?请注意,作者提出YOLO9000,而不是YOLOv2,只是出于这个原因。他们把两个数据集结合起来,得到了9000多个班级,所以这一部分是关于YOLO9000是如何训练的。

  • Microsoft Coco包含10万张图片,有80个类别、检测标签,类别比较通用,例如“狗”或“船”。
  • ImageNet有1300万张图片,有22000个类别,分类标签更具体,比如“诺福克梗”、“约克郡梗”或“贝德灵顿梗”。

然而,像“狗”和“诺福克梗”这样的职业是相互排斥的。

要进行组合,请使用WordTree:

如上所述,作者使用WordTree构建了视觉概念的分层树。因此,“诺福克梗”也被贴上“狗”和“哺乳动物”的标签。总共有9418个班。

2.联合分类检测

  • 作者使用3个先验,而不是5个,来限制输出大小。
  • 对于检测图像,损失像正常情况一样反向传播。
  • 对于分类图像,只有分类损失在标签的相应级别或以上被反向传播。
  • 实现了19.7%的MAP。

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/10/04/%e7%9b%ae%e6%a0%87%e6%a3%80%e6%b5%8b%e8%af%b4%e6%98%8e%ef%bc%9ayolo-v2%e3%80%82/


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK