YOLOv3
Darknet53
YOLOv3采用了Darknet53为主干网络;
多scale
在YOLOv3上设计了3种scale,分别为特征图大小13 13、26 26、52 * 52上进行大、中、小目标预测;
网络结构
Residual module
残差网络,会有A(保存原来的不进行任何操作),B两种通道,然后再合并,即使F(x)不起作用,还会保存以前的输出结果。
注:使用残差网络,不能保证效果一定有多大提升,但是至少不会差。
输出
- YOLOv3网络的输入尺寸为 (m,416,416,3), 其中m代表每个batch中图像数目,m=1,代表每个batch处理1张输入图像;
- YOLOv3分3个尺度进行预测, 3个尺度的特征图的大小依次为13X13,26X26以及52X52;
- YOLOv3中每个cell预测3个bounding box,每个bounding box 可以表示为6元组 ;
- 在COCO数据集中一共有80个类别,此时我们将c扩展成80维向量,这样我们每个bounding box可以用85维向量进行表示;
- 特征图大小为13 13,可以预测169(13 13)个物体,然后依次类推;
先验眶的生成
先使用K-means方法生成9个先验框,然后按照大小进行排序,分给3个不同的scale。
logistic
Softmax实现物体单分类最后的评判, Softmax能够确保所有物体的预测概率之和为1,比如一个物体的预测是狗的概率是80%,那么是其他物体的概率之和为20%。这就是单标签概率。
然后,对于多标签预测,比如,一个物体是狗的概率是80%,是狼狗的概率是70%,是猎狗的概率是75%,像这样的分类判决,Softmax就无法胜任了。
YOLO V3使用了logistic激活函数替换了softmax函数,把物体的联合的多分类,变成独立的二分类,从而实现对物体多标签的支持
(此部分参考YOLO V3 - 网络结构、原理、改进的全新、全面、通俗、结构化讲解)
逻辑回归中的基本构造函数
在逻辑回归算法中,选用的基本函数就是sigmoid函数
该函数用于预测输入x后标签y的概率,注意,这里的x并非是数据集的原始数据输入,而是乘以了参数θ之后的值,即 x = X ⋅ θ,因此逻辑回归的基本函数为: