目标检测说明：YOLO v2。

YOLO v2-更好、更快、更强大

在我的对象检测解释系列之前，我讨论并介绍了YOLOv1架构。对于YOLOv2，我总结了作者添加的所有修改要点。作者介绍了很多修改，但我希望您对YOLO v1非常熟悉，因为它将帮助您更快、更好、更强大地理解YOLO v2。

原文：YOLO9000：更好、更快、更强：https://arxiv.org/pdf/1612.08242v1.pdfhttps://arxiv.org/pdf/1612.08242v1.pdf

RCNNRCNN

快速RCNNFast RCNN

FPNFPN

更快的RCNNFaster RCNN

固态硬盘SSD

YOLO v1YOLO v1

作者指出，与Fast-RCNN相比，YOLO v1犯了更多的定位错误，而且召回率也相对较低。因此，针对上述问题，他们对撞击进行了如下修改：

1.批量归一化(BN)

在YOLOv1中的每一卷积层之后都引入了BN层，从而使MAP提高了约2%。

2.高分辨率分类器

YOLO v1以224×224的图像分辨率训练分类器，并将其提高到448以进行检测。然而，YOLO v2在开始训练网络进行检测之前，首先在ImageNet上将其分类器直接微调为448×448分辨率10个历元。这导致MAP提高了4%。

3.带锚箱的卷积

作者从YOLOv1中删除了完全连接的层(您可以参考我以前关于YOLOv1的文章)，并使用锚框来预测边界框。此外，他们删除了一个池层，并将输入分辨率从448×448更改为416个输入图像。这样做是因为他们在我们的要素地图中需要奇数个位置，所以只有一个中心单元。结果，他们在MAP方面的表现略有下降，但在召回率方面有了很好的改善，大约为7%。

4.维度集群

与YOLO配合使用时，锚箱有两个问题。首先，我们需要为网络选择好的先例，即锚盒，这样网络就更容易学习。因此，作者在训练集包围盒上采用K-均值聚类。

它是这样做的：

a)他们选择如下距离函数：D(方框，质心)=1−IOU(方框，质心)。

b)他们用不同的k值运行K-Means，发现k=5在模型复杂性和高召回率之间提供了一个很好的折衷。

5.直接位置预测

遇到的第二个问题是模型不稳定。因此，在过去，区域建议网络t_x和t_y，而中心坐标(x，y)计算如下：

然而，这个公式是不受约束的，因此它造成了不稳定。因此，作者使用以下公式：

其中网络预测t_x、t_y、t_w、t_h和t_o(客观性)。同时，(c_x，c_y)从图像的左上角偏移，p_w和p_h是先前边界框的宽度和高度。正如你所看到的，地面真相被限定在[0，1]的范围内(S型激活)。

由于维数簇结合了对包围盒中心位置的直接预测，作者获得了大约5%的改进。

6.多规模培训

网络不固定输入图像大小，而是从以下32的倍数中随机选择不同的输入分辨率，每隔10个历元：{320352kb，…，608}。这一制度鼓励网络在各种输入维度下表现良好。此外，它还提供了速度和准确性之间的简单折衷。

1.暗网-19

作者提出了一种新的主干，Darknet-19，它有19个卷积层和5个最大合并层。处理一幅图像需要55.8亿次运算，但在ImageNet上，TOP-1准确率达到72.9%，TOP-5准确率达到91.2%。

2.分类训练

作者使用了标准的扩充。首先，他们以224×224的输入分辨率训练他们提出的主干，并在更大的尺寸上进行微调，448，持续10个历元。更多详情请参考原文。

有多个数据集用于分类和检测。它们能结合在一起吗？请注意，作者提出YOLO9000，而不是YOLOv2，只是出于这个原因。他们把两个数据集结合起来，得到了9000多个班级，所以这一部分是关于YOLO9000是如何训练的。

Microsoft Coco包含10万张图片，有80个类别、检测标签，类别比较通用，例如“狗”或“船”。
ImageNet有1300万张图片，有22000个类别，分类标签更具体，比如“诺福克梗”、“约克郡梗”或“贝德灵顿梗”。

然而，像“狗”和“诺福克梗”这样的职业是相互排斥的。

要进行组合，请使用WordTree：

如上所述，作者使用WordTree构建了视觉概念的分层树。因此，“诺福克梗”也被贴上“狗”和“哺乳动物”的标签。总共有9418个班。

2.联合分类检测

作者使用3个先验，而不是5个，来限制输出大小。
对于检测图像，损失像正常情况一样反向传播。
对于分类图像，只有分类损失在标签的相应级别或以上被反向传播。

实现了19.7%的MAP。

原创文章，作者：fendouai，如若转载，请注明出处：https://panchuang.net/2021/10/04/%e7%9b%ae%e6%a0%87%e6%a3%80%e6%b5%8b%e8%af%b4%e6%98%8e%ef%bc%9ayolo-v2%e3%80%82/

1.批量归一化(BN)

2.高分辨率分类器

3.带锚箱的卷积

4.维度集群

6.多规模培训

1.暗网-19

2.分类训练

2.联合分类检测

Recommend

What is the Unity for Humanity program?

部署Azure Spring Cloud微服务应用

猫猫狗狗都能直播带货，MCN机构到底有多内卷？

网络安全的学习方向和路线是怎么样的？

TT-SRN：基于变压器的视频实例分割框架(下)

国庆微信渐变国旗图像制作工具教程

Introducing: Unity Robotics Visualizations Package

10 年回望，乔布斯到底留下了什么？

Hosting a Django Project on Heroku

万字报告丨元宇宙的价值究竟在哪，有哪些方向值得重点关注？

About Joyk