YOLOv5全面解析教程①：网络结构逐行代码解读

撰文 | Fengwen, BBuf

本教程涉及的代码在：

https://github.com/Oneflow-Inc/one-yolov5

教程也同样适用于 Ultralytics/YOLOv5，因为 One-YOLOv5 仅仅是换了一个运行时后端而已，计算逻辑和代码相比 Ultralytics/YOLOv5 没有做任何改变，欢迎 star 。详细信息请看：一个更快的YOLOv5问世，附送全面中文解析教程

引言

YOLOv5针对不同大小（n, s, m, l, x）的网络整体架构都是一样的，只不过会在每个子模块中采用不同的深度和宽度，分别应对yaml文件中的depth_multiple和width_multiple参数。

还需要注意一点，官方除了n, s, m, l, x版本外还有n6, s6, m6, l6, x6，区别在于后者是针对更大分辨率的图片比如1280x1280, 当然结构上也有些差异，前者只会下采样到32倍且采用3个预测特征层 , 而后者会下采样64倍，采用4个预测特征层。

本章将以YOLOv5s为例，

从配置文件models/yolov5s.yaml

(https://github.com/Oneflow-Inc/one-yolov5/blob/main/models/yolov5s.yaml)到models/yolo.py (https://github.com/Oneflow-Inc/one-yolov5/blob/main/models/yolo.py)

源码进行解读。

yolov5s.yaml文件内容

anchors 解读

YOLOv5 初始化了 9 个 anchors，分别在三个特征图（feature map）中使用，每个 feature map 的每个 grid cell 都有三个 anchor 进行预测。分配规则：

尺度越大的 feature map 越靠前，相对原图的下采样率越小，感受野越小，所以相对可以预测一些尺度比较小的物体(小目标)，分配到的 anchors 越小。
尺度越小的 feature map 越靠后，相对原图的下采样率越大，感受野越大，所以可以预测一些尺度比较大的物体(大目标)，所以分配到的 anchors 越大。
即在小特征图（feature map）上检测大目标，中等大小的特征图上检测中等目标，在大特征图上检测小目标。

backbone & head 解读

[from, number, module, args] 参数

四个参数的意义分别是：

第一个参数 from ：从哪一层获得输入，-1表示从上一层获得，[-1, 6]表示从上层和第6层两层获得。
第二个参数 number：表示有几个相同的模块，如果为9则表示有9个相同的模块。
第三个参数 module：模块的名称，这些模块写在common.py中。
第四个参数 args：类的初始化参数，用于解析作为 moudle 的传入参数。

下面以第一个模块Conv 为例介绍下common.py中的模块

Conv 模块定义如下:

比如上面把width_multiple设置为了0.5，那么第一个 [64, 6, 2, 2] 就会被解析为 [3,64*0.5=32,6,2,2]，其中第一个 3 为输入channel(因为输入)，32 为输出channel。

关于调整网络大小的详解说明

在yolo.py (https://github.com/Oneflow-Inc/one-yolov5/blob/main/models/yolo.py)的256行有对yaml 文件的nc,depth_multiple等参数读取，具体代码如下:

anchors, nc, gd, gw = d['anchors'], d['nc'], d['depth_multiple'], d['width_multiple']

"width_multiple"参数的作用前面介绍args参数中已经介绍过了，那么"depth_multiple"又是什么作用呢？

在yolo.py (https://github.com/Oneflow-Inc/one-yolov5/blob/main/models/yolo.py) 的257行有对参数的具体定义：

n = n_ = max(round(n * gd), 1) if n > 1 else n  # depth gain 暂且将这段代码当作公式(1)

其中 gd 就是depth_multiple的值，n的值就是backbone中列表的第二个参数：

根据公式(1)很容易看出 gd 影响 n 的大小，从而影响网络的结构大小。

后面各层之间的模块数量、卷积核大小和数量等也都产生了变化，YOLOv5l 与 YOLOv5s 相比较起来训练参数的大小成倍数增长，

其模型的深度和宽度也会大很多，这就使得 YOLOv5l 的精度值要比 YOLOv5s 好很多，因此在最终推理时的检测精度高，但是模型的推理速度更慢。

所以 YOLOv5 提供了不同的选择，如果想要追求推理速度可选用较小一些的模型如 YOLOv5s、YOLOv5m，如果想要追求精度更高对推理速度要求不高的可以选择其他两个稍大的模型。

如下面这张图：

yolov5模型复杂度比较图

Conv模块解读

网络结构预览

下面是根据yolov5s.yaml

(https://github.com/Oneflow-Inc/one-yolov5/blob/main/models/yolov5s.yaml) 绘制的网络整体结构简化版。

yolov5s网络整体结构图

详细的网络结构图：

https://oneflow-static.oss-cn-beijing.aliyuncs.com/one-yolo/imgs/yolov5s.onnx.png

通过export.py导出的onnx格式，并通过 https://netron.app/ 网站导出的图片(模型导出将在本教程的后续文章单独介绍)。
模块组件右边参数表示特征图的的形状，比如在第一层( Conv )输入图片形状为 [ 3, 640, 640] ,关于这些参数，可以固定一张图片输入到网络并通过yolov5s.yaml

(https://github.com/Oneflow-Inc/one-yolov5/blob/main/models/yolov5s.yaml) 的模型参数计算得到，并且可以在工程models/yolo.py(https://github.com/Oneflow-Inc/one-yolov5/blob/main/models/yolo.py) 通过代码进行print查看，详细数据可以参考附件表2.1。

yolo.py模块解读

文件地址(https://github.com/Oneflow-Inc/one-yolov5/blob/main/models/yolo.py)

文件主要包含三大部分: Detect类、 Model类和 parse_model 函数

可以通过 python models/yolo.py --cfg yolov5s.yaml 运行该脚本进行观察

parse_model函数解读

Model类解读

Detect类解读

附件

表2.1 yolov5s.yaml解析表

(https://github.com/Oneflow-Inc/one-yolov5/blob/main/models/yolov5s.yaml)

层数	form	moudule	arguments	input	output
0	-1	Conv	[3, 32, 6, 2, 2]	[3, 640, 640]	[32, 320, 320]
1	-1	Conv	[32, 64, 3, 2]	[32, 320, 320]	[64, 160, 160]
2	-1	C3	[64, 64, 1]	[64, 160, 160]	[64, 160, 160]
3	-1	Conv	[64, 128, 3, 2]	[64, 160, 160]	[128, 80, 80]
4	-1	C3	[128, 128, 2]	[128, 80, 80]	[128, 80, 80]
5	-1	Conv	[128, 256, 3, 2]	[128, 80, 80]	[256, 40, 40]
6	-1	C3	[256, 256, 3]	[256, 40, 40]	[256, 40, 40]
7	-1	Conv	[256, 512, 3, 2]	[256, 40, 40]	[512, 20, 20]
8	-1	C3	[512, 512, 1]	[512, 20, 20]	[512, 20, 20]
9	-1	SPPF	[512, 512, 5]	[512, 20, 20]	[512, 20, 20]
10	-1	Conv	[512, 256, 1, 1]	[512, 20, 20]	[256, 20, 20]
11	-1	Upsample	[None, 2, 'nearest']	[256, 20, 20]	[256, 40, 40]
12	[-1, 6]	Concat	[1]	[1, 256, 40, 40],[1, 256, 40, 40]	[512, 40, 40]
13	-1	C3	[512, 256, 1, False]	[512, 40, 40]	[256, 40, 40]
14	-1	Conv	[256, 128, 1, 1]	[256, 40, 40]	[128, 40, 40]
15	-1	Upsample	[None, 2, 'nearest']	[128, 40, 40]	[128, 80, 80]
16	[-1, 4]	Concat	[1]	[1, 128, 80, 80],[1, 128, 80, 80]	[256, 80, 80]
17	-1	C3	[256, 128, 1, False]	[256, 80, 80]	[128, 80, 80]
18	-1	Conv	[128, 128, 3, 2]	[128, 80, 80]	[128, 40, 40]
19	[-1, 14]	Concat	[1]	[1, 128, 40, 40],[1, 128, 40, 40]	[256, 40, 40]
20	-1	C3	[256, 256, 1, False]	[256, 40, 40]	[256, 40, 40]
21	-1	Conv	[256, 256, 3, 2]	[256, 40, 40]	[256, 20, 20]
22	[-1, 10]	Concat	[1]	[1, 256, 20, 20],[1, 256, 20, 20]	[512, 20, 20]
23	-1	C3	[512, 512, 1, False]	[512, 20, 20]	[512, 20, 20]
24	[17, 20, 23]	Detect	[80, [[10, 13, 16, 30, 33, 23], [30, 61, 62, 45, 59, 119], [116, 90, 156, 198, 373, 326]], [128, 256, 512]]	[1, 128, 80, 80],[1, 256, 40, 40],[1, 512, 20, 20]	[1, 3, 80, 80, 85],[1, 3, 40, 40, 85],[1, 3, 20, 20, 85]

参考文章

https://zhuanlan.zhihu.com/p/436891962?ivk_sa=1025922q
https://zhuanlan.zhihu.com/p/110204563
https://www.it610.com/article/1550621248474648576.htm

其他人都在看

欢迎Star、试用OneFlow最新版本：GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient. - GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.https://github.com/Oneflow-Inc/oneflow/

YOLOv5全面解析教程①：网络结构逐行代码解读

YOLOv5全面解析教程①：网络结构逐行代码解读

[from, number, module, args] 参数

关于调整网络大小的详解说明

网络结构预览

Recommend

京东小时购年货节开启：年货小时达爆品不止5折周末更有满99减50大额券

愉悦资本获新浪2022科技风云榜年度最佳投资机构奖

How to Hide a Page Title in WordPress

深度学习之残差网络 - 故y

pyqt5制作俄罗斯方块小游戏-----源码解析 - pikeduo

破解中小微企业融资难融资贵京东供应链金融科技推出八大金融服务举措

第三方供应商数据泄漏，Gemini 客户恐遭钓鱼攻击

下载装小蜜监理拍摄的图片

和府捞面CTO阚卫东：传统餐饮行业有4大问题难解

Cloudflare achieves FedRAMP authorization to secure more of the public sector

About Joyk