YOLOv3的理解和认识

发表于 2022-12-14 更新于 2022-12-15 分类于深度学习算法阅读次数： Valine：

本文字数： 1.8k 阅读时长 ≈ 2 分钟

yolov3

主干提取网络采用的是darknet52；
在darknet52中，优点是采用了残差连接和1×1和3×3的卷积核连接使用，1×1和3×3的卷积核连接使用可以有效的减少参数量；
在检测网络中采用了多尺度特征融合，能够有效提高算法的检测精度；
在yolov3中有3种在不同尺寸特征图上的预测结果，以输入图像是416×416大小为例，分别会生成尺寸为52×52、26×26、13×13的特征图，分别预测小、中、大目标；

ab14c47c98f3d0400a3e5d44ff53426

损失函数包括四部分，分别为正样本坐标损失、正样本类别损失、正样本置信度损失和负样本置信度损失。

注：所有样本=正样本+负样本+忽略样本

正样本：真正预测物体的预测框；

忽略样本：不是真正预测物体的预测框，但是与真实框的最大IOU大于0.5

负样本：不是真正预测物体的预测框，但是与真实框的最大IOU小于0.5

坐标是用x,y,w,h进行表示，分别为中心点坐标和框的宽高的偏移量；
在代码中计算损失是用的BCELoss;
在对标签数据进行处理时，对于没有物体的anchor，x,y,w,h,conf和cls都设置为0；
对小框的惩罚项：对真正预测物体的anchor进行设置，设置的值为该anchor真实的w和h的乘积；其余没有真实物体的值设置为0；
对4中求出的最终求出的结果，要用2减去；
在代码中，对小框的惩罚项到乘到标签数据的x,y,w和h上面；
如何惩罚小框：惩罚小框就是使损失值变大，对于存在物体的anchor的框较小时，对应的w和h也更小(因为w和h代表宽高的偏移量)，因此乘积也就更小，当用2减去该值是，所得到的的值就越大，乘到损失函数上就会使损失变大；

bbox：指预测框(在anchor的基础上调整过后的预测框)；

grid cell：指图像划分成的小格格；

ground truth：指人工标注框；

anchor：指初始化的预测框；