2.1.1.1. 卷积层
卷积神经网络的设计初衷是更好地处理自然图像信息。对于多层感知机来说,图像
的输入是不带有显式的位置信息的,而是一个按像素点顺序排列的像素值列表。一
张图片的像素级别越高,这个输入列表就越长,网络的每个输入的维度甚至能够达
到百万、千万的级别。在这种输入维度下,仅仅需要个位数的隐藏层层数,以及不
多的隐藏层单元,网络的参数量级就会膨胀到无法承受的地步。隐藏单元数量不足
则不能够学习到良好的图像特征,高数量级的参数更需要收集海量的数据进行训练
才能够拟合。
2.1.1.1.1. 卷积核(Convolution Kernel)
CNN 的设计创造性地利用了自然图像的普遍特性,以较少的参数解决了图像处理中
的许多问题。CNN 的设计包括两个特性:“平移不变性(Translation Invariance)”和
“局部性(Locality)”。 这两个特性也是“卷积”在神经网络中的表现。
假设神经网络的输入是二维图像 ,则是该图像在神经网络中的隐藏表示,两者
具有相同的维度。使用
和
表示图像和隐藏表示中位置 的像素,
则对于多层感知机的全连接层,可以作如下的表示:
其中,索引是位置偏移,对隐藏表示中任意给定位置 处的像素值
,
都可以通过在中以 为中心对像素进行加权求和得到,
即为该加
权求和使用的权重,
为偏置参数。
而满足平移不变性的情况下,图像中的元素在输入 中的平移将仅导致隐藏表示
中的平移,即上式中加权矩阵仅与索引偏移 有关,和像素的位置 无
关:
,偏置参数
也成为一个常数 ,由此可以简化得到
隐藏表示的公式为:
或许是因为该式与数学定义上的卷积形式上非常相似,这个使用权重系数
对
位置 附近的像素 进行加权得到
的过程被提出该方法的作
者称为卷积(Convolution)。相比于多层感知机的权重参数
,CNN 的权重参
数
的系数减少了两个指数级。
进一步地,为了满足局部性,用来训练参数
的信息应该在位置
就近收
集。用数学语言描述则是,当
时
. 那么
可以进
一步地减少运算复杂度至下式: