深度学习经典网络推荐.pdf中提到了一种经典的用于识别数字的卷积网络LeNet-5。LeNet-5共有7层,不包括输入层,每层都包含可训练参数。每个层都有多个特征图(Feature Map),每个Feature Map通过卷积滤波器提取输入的不同特征,并且每个Feature Map都有多个神经元。
首先介绍的是C1层,这是一个卷积层,输入图片的大小为32*32,卷积核的大小为5*5。C1层有6个不同的卷积核,输出的特征图的大小为28*28(32-5+1)。C1层的神经元数量为28*28*6,共有(5*5*1)*6个可训练参数,其中每个滤波器有25个单位参数和一个偏置参数,一共有6个滤波器。因此,C1层的连接数为(5*5*1)*6*28*28。
接下来介绍的是S2层,这是一个下采样层。S2层的输入为28*28的特征图,采样区域为2*2。S2层的采样方式是将4个输入相加,并乘以一个可训练参数,然后再加上一个可训练的偏置。S2层的输出特征图的大小为14*14(28/2),神经元数量为14*14*6。S2层有2个可训练参数。
LeNet-5还包括C3层、S4层、C5层和F6层。C3层和C1层相似,都是卷积层,但是C3层的输入为S2层的输出特征图,有16个卷积核,输出的特征图大小为10*10。S4层和S2层也很相似,都是下采样层,但是S4层的输入为C3层的输出特征图,采样区域为2*2,采样方式和S2层一样,输出的特征图大小为5*5。C5层是一个全连接层,将S4层的输出特征图展开成一个向量,然后与权重参数矩阵相乘得到一个长度为120的特征向量。F6层也是一个全连接层,将C5层的输出向量与权重参数矩阵相乘,得到一个长度为84的特征向量。
LeNet-5的最后一层是输出层,根据具体的任务而定。对于数字识别任务来说,一般使用10个神经元的全连接层,每个神经元对应一个数字的输出。
LeNet-5网络的训练方法是通过反向传播算法来更新每层的参数,使得网络能够根据输入数据准确地识别出相应的数字。该网络在手写数字识别任务中取得了较好的效果,在当时的深度学习研究中具有重要意义。