网络层 输入尺寸 核尺寸 输出尺寸 可训练参数量
卷积层$C_1$ $^*$ $224\times224\times3$ $11\times11\times3/4,48(\times2_{GPU})$ $55\times55\times48(\times2_{GPU})$ $(11\times11\times3+1)\times48\times2$
下采样层
$S_{max}$$^*$
$55\times55\times48(\times2_{GPU})$ $3\times3/2(\times2_{GPU})$ $27\times27\times48(\times2_{GPU})$ 0
卷积层$C_2$ $27\times27\times48(\times2_{GPU})$ $5\times5\times48/1,128(\times2_{GPU})$ $27\times27\times128(\times2_{GPU})$ $(5\times5\times48+1)\times128\times2$
下采样层$S_{max}$ $27\times27\times128(\times2_{GPU})$ $3\times3/2(\times2_{GPU})$ $13\times13\times128(\times2_{GPU})$ 0
卷积层$C_3$ $^*$ $13\times13\times128\times2_{GPU}$ $3\times3\times256/1,192(\times2_{GPU})$ $13\times13\times192(\times2_{GPU})$ $(3\times3\times256+1)\times192\times2$
卷积层$C_4$ $13\times13\times192(\times2_{GPU})$ $3\times3\times192/1,192(\times2_{GPU})$ $13\times13\times192(\times2_{GPU})$ $(3\times3\times192+1)\times192\times2$
卷积层$C_5$ $13\times13\times192(\times2_{GPU})$ $3\times3\times192/1,128(\times2_{GPU})$ $13\times13\times128(\times2_{GPU})$ $(3\times3\times192+1)\times128\times2$
下采样层$S_{max}$ $13\times13\times128(\times2_{GPU})$ $3\times3/2(\times2_{GPU})$ $6\times6\times128(\times2_{GPU})$ 0
全连接层$F_6$ $^*$ $6\times6\times128\times2_{GPU}$ $9216\times2048(\times2_{GPU})$ $1\times1\times2048(\times2_{GPU})$ $(9216+1)\times2048\times2$
全连接层$F_7$ $1\times1\times2048\times2_{GPU}$ $4096\times2048(\times2_{GPU})$ $1\times1\times2048(\times2_{GPU})$ $(4096+1)\times2048\times2$
全连接层$F_8$ $1\times1\times2048\times2_{GPU}$ $4096\times1000$ $1\times1\times1000$ $(4096+1)\times1000\times2$
卷积层$C_1$输入为$224\times224\times3$的图片数据,分别在两个GPU中经过核为
$11\times11\times3$、步长(stride)为4的卷积卷积后,分别得到两条独立的
$55\times55\times48$的输出数据。
下采样层$S{max}$
实
际
上
是
嵌
套在卷
积
中
的
最
大
池
化
操
作
,
但
是
为了
区
分
没
有
采
用
最
大
池
化
的
卷
积
层
单
独
列出
来
。
在
$C{1-2}$卷积层中的池化操作之后(ReLU激活操作之前),还有一个LRN操
作,用作对相邻特征点的归一化处理。
卷积层$C_3$ 的输入与其他卷积层不同,$13\times13\times192\times2_{GPU}$表示汇聚了上
一层网络在两个GPU上的输出结果作为输入,所以在进行卷积操作时通道上的卷积核维度为
384。
全连接层$F_{6-8}$中输入数据尺寸也和$C_3$类似,都是融合了两个GPU流向的输出结果作为输
入。
4.2.3 模型特性
所有卷积层都使用ReLU作为非线性映射函数,使模型收敛速度更快
在多个GPU上进行模型的训练,不但可以提高模型的训练速度,还能提升数据的使用规模
使用LRN对局部的特征进行归一化,结果作为ReLU激活函数的输入能有效降低错误率
重叠最大池化(overlapping max pooling),即池化范围z与步长s存在关系$z>s$(如
$S_{max}$中核尺度为$3\times3/2$),避免平均池化(average pooling)的平均效应
使用随机丢弃技术(dropout)选择性地忽略训练中的单个神经元,避免模型的过拟合
4.3 ZFNet
4.3.1 模型介绍
ZFNet是由$Matthew$ $D. Zeiler$和$Rob$ $Fergus$在AlexNet基础上提出的大型卷积网络,在
2013年ILSVRC图像分类竞赛中以11.19%的错误率获得冠军(实际上原ZFNet所在的队伍并不是真正的
冠军,原ZFNet以13.51%错误率排在第8,真正的冠军是$Clarifai$这个队伍,而$Clarifai$这个队伍所
对应的一家初创公司的CEO又是$Zeiler$,而且$Clarifai$对ZFNet的改动比较小,所以通常认为是
ZFNet获得了冠军)$^{[3-4]} $。ZFNet实际上是微调(fine-tuning)了的AlexNet,并通过反卷积
(Deconvolution)的方式可视化各层的输出特征图,进一步解释了卷积操作在大型网络中效果显著的
原因。
4.3.2 模型结构