1. 4
特征提取过程描述
本设计采用了 ssd 架构的人脸检测算法,在这基础上增加一个类别分类,即
戴口罩和不戴口罩两类。在这个模型中输入是 260*260 大小的图片,主干网络只
有 8 个卷积层,有五个定位和分类层,一共具有 28 层,且每个卷积层的通道数
目基本都是 32、64、128 这三种。其网络结构为:
Conv+ReLu—Pooling—Conv+ReLu—Pooling—Conv+ReLu—Pooling—Conv
+ReLu—Pooling—Conv+ReLu—Pooling—Conv+ReLu—Pooling—Conv+ReLu—
Conv+ReLu— Conv—ReLu—Conv—Permute—Reshape—sigmoid,
其中前面八个卷积层为主干网络,主要应用于特征提取,最后面为定位和分
类层。在 ssd 的网络中原始图像经过卷积层转换后得到原图像的特征映射图,再
用多个卷积层对特征映射图处理后用来定位和检测原始图像。ssd 的网络结构中
包含了基础网络,辅助卷积层和预测卷积层。其中基础网络用来提取低尺度的特
征映射图,辅助卷积层用来提取高尺度的特征映射图。
基础网络的结构采用了 vgg-16 的网络架构,因为 VCG-16 网络包含了卷积
层和全连接层(FC Layers),全连接层的任务用来分类,由于基础网络只需要
提取特征映射图,因此需要对全连接层用卷积层代替。辅助卷积层连接基础网络
最后的特征映射图,通过卷积神经网络输出 4 个高尺度的特征映射图
1. 5
分类过程描述
在 ssd 网络模型中预测卷积层用来输出特征映射图的位置信息和分类信息。
训练目标检测模型,最重要的就是合理的设置 anchor 的大小和宽高比。所以在
模型五个卷积上接出来的定位分类层其大小设置为:
第一层:特征图大小 45*45, anchor 大小 0.04,0.056, anchor 宽高比 1,0.62,0.42;
第二层:特征图大小 23*23, anchor 大小 0.08,0.11, anchor 宽高比 1,0.62,0.42;
第三层:特征图大小 12*12, anchor 大小 0.16,0.22, anchor 宽高比 1,0.62,0.42;
第四层:特征图大小 6*6, anchor 大小 0.32,0.45, anchor 宽高比 1,0.62,0.42;
第五层:特征图大小 4*4, anchor 大小 0.64,0.72, anchor 宽高比 1,0.62,0.42;
预测层预测了映射图每个点的矩形框信息和分类信息,该点的损失值等于矩
形框位置的损失与分类的损失之和。首先我们计算映射图每个点的先验框与真实