定向响应网络：主动旋转卷积过程中，产生明确编码的位置和方向的特征图，用于深度学习图像表示和分类

74 浏览量更新于2023-10-15 收藏 2.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1定向响应网络周延昭1，叶启祥1，邱强2，王娇11中国科学2杜克大学zhouyanzhao215@mails.ucas.ac.cn，{qxye，jiaojb} @ucas.ac.cn，qiang. duke.edu摘要深度卷积神经网络（DCNN）能够学习前所未有的有效图像表示。然而，它们在处理显著的局部和全局图像旋转方面的能力仍然有限。在本文中，我们提出了主动旋转过滤器（ARF），积极旋转卷积过程中，并产生明确编码的位置和方向的特征图。ARF充当包含滤波器本身及其多个非物质化旋转版本的虚拟滤波器组。在反向传播过程中，ARF使用来自其所有旋转版本的误差来集体更新。使用ARF的DCNN，被称为定向响应网络（ORN），可以产生类内旋转不变的深度特征，同时保持分类任务的类间区分。由ORN产生的定向响应也可以用于图像和对象定向估计任务。在多个最先进的DCNN架构中，例如VGG，ResNet和STN，我们始终观察到用所提出的ARF替换常规滤波器会导致网络参数数量的显着减少和分类性能的改善。我们在几个常用的基准测试中报告了最佳结果1。1. 介绍方位信息编码的问题已经在手工制作的特征中得到了广泛的研究，[15][17][18][19][1 在深度卷积神经网络（DCNN）中，卷积和池化的固有属性减轻了局部转换和扭曲的影响;然而，缺乏处理大图像旋转的分类[20，23]。1源代码可在zhouyanzhao.github.io/ORN上公开获取图1. ARF是一个尺寸为W×W×N的滤波器，被视为W×W网格上的N个方向的点。ARF的形式使其能够有效地定义相对旋转，例如，鸟的头部绕着身体旋转。ARF在卷积期间主动旋转;因此，它充当包含规范滤波器本身及其多个未具体化的旋转版本的虚拟滤波器组。在该示例中，处于不同姿势的鸟类的位置和取向由ARF捕获并且明确地编码到特征图中。由于缺乏对旋转的充分理解能力，DCNN减少其损失的最直接方法是“死记硬背”。卷积滤波器的可视化[11，46]表明，一个相同图像结构的不同旋转版本通常在低级，中级和相对高级的滤波器中冗余学习，例如在ImageNet上训练的VGG-16模型中的那些[10]。当对象部分相对于对象本身旋转时，例如，为了将鸟的头部移动到其身体，它需要使用更多的卷积滤波器来学习每个方向不同的分量的多个组合。在这种情况下，网络可能会放弃对整个对象概念的理解，而倾向于使用其中有区别的部分来做出最终决定[47]。死记硬背的学习策略需要大量的参数来生成方向冗余滤波器，从而显著增加了训练时间和网络过拟合的风险。此外，训练数据没有得到充分利用，因为有限的实例被隐式地分成子集，这可能增加滤波器欠拟合的可能性。为了缓解这样问题，数据扩充，旋转每个519520将训练样本转换成多个面向版本，是经常使用的。数据增强通过扩展训练集来提高学习性能。然而，它通常需要更多的网络参数和更高的训练成本。在本文中，我们提出了主动旋转滤波器（ARF）和利用定向响应卷积（ORConv）生成的特征图与方向通道，明确编码的位置和方向信息的歧视性模式。与传统滤波器相比，ARF具有额外的维度来定义定向结构的排列。在卷积过程中，每个ARF旋转并产生特征图，以捕获来自多个方向的感受野的响应，如图2所示。1.一、具有定向通道的特征图携带定向响应以及分层网络以产生高级表示，赋予DCNN捕获全局/局部旋转的能力和对旋转样本的泛化能力之前从未见过而不是引入额外的功能模块或新的网络拓扑结构，我们的方法将旋转的先验知识实现到DCNN的最基本元素，即，卷积运算符。因此，它可以自然地与现代DCNN架构融合，将其升级为更具表达力和紧凑的定向响应网络（ORN）。利用ORN产生的方向信息，我们可以应用SIFT类特征对齐以实现旋转不变性或执行图像/对象方向估计。本文的贡献是总结如下：• 提出了有源旋转滤波器和定向响应卷积，改进了最基本的模块，赋予DCNN显式编码层次方向信息的能力。我们进一步将这种方向信息应用于旋转不变图像分类和目标方向估计。• 我们将成功的DCNN，包括VGG，ResNet，TI-Pooling和ORN，在流行的基准测试中，网络参数显著减少，从而实现最先进的性能。2. 相关作品2.1. 手工制作的功能。方向信息已明确编码在经典的手工制作的功能，包括韦伯[33，1]。SIFT描述符[31]及其仿射局部区域[25]的修改找到了特征点的主导方向，根据该方向累积图像强度的局部梯度方向的统计数据，以给出局部图像结构的概括描述。利用基于主方向的特征对齐，SIFT实现旋转不变性和稳健性适度的透视变换[2，12]。从局部邻域中的像素的圆形对称相邻集合的灰度值开始，LBP导出一个算子，该算子根据定义对灰度的任何单调变换都是不变的[33，1]。通过使用位循环移位最小化LBP码值来实现旋转不变性。其他代表性描述符包括CF-HOG[38]使用方向对齐和RI-HOG [30]，利用径向梯度变换保持旋转不变。2.2. 深度卷积神经网络深度卷积神经网络具有处理转换的能力，包括适度的转换，尺度变化和小旋转。这种能力被赋予了卷积运算、冗余卷积滤波器和分层空间池的固有属性[35，20]。更一般的池化操作[26]允许考虑对局部变形不变性，然而其不对应于特定的先验知识。数据扩充。给定丰富且通常冗余的卷积滤波器，数据增强可用于实现局部/全局变换不变性[42]。尽管数据增强是有效的，但其主要缺点在于，学习增强数据的所有可能变换通常需要更多的网络参数，这显著增加了训练成本和过度拟合的风险。最新的TI池化[23]通过对所考虑的变换集使用并行网络架构并在顶层之前对其输出应用变换不变池化运算符来消除缺点。TI-Pooling的本质包括多实例学习和权重共享，这有助于找到输入图像的最佳规范实例进行训练，并减少学习网络中的冗余。然而，由于内置了数据增强，TI池需要比标准DCNN更多的训练和测试成本。空间转换网络。代表性地，空间Transformer网络（CNN）[20]引入了一个自适应网络模块，该模块可以根据用局部化子CNN估计的变换矩阵来操纵特征图。CNN为空间变换提供了一个通用的框架，但是如何通过CNN精确估计复变换参数的问题仍然没有得到很好的解决[14，34]。在[21，36]中，卷积限制玻尔兹曼机（C-RBM）引入了变换感知滤波器，即，其产生具有概念的滤波器，所述滤波器与哪一特定图像变换一起使用。从群论的观点看，Cohen等。[8]证明了图像的空间变换可以反映在特征图和滤波器中，为我们的工作提供了理论基础。最新作品5212′N，顺时针旋转，pqℱ′ℱ′，pqPdstu，v + 1ℱ′，pq −u，vOPsrcu + 1，PqARF1坐标旋转2方向旋转旋转ARF导管图2. ARF F顺时针旋转θ，以两步产生其旋转变量Fθ：坐标旋转和方向旋转。[43，13]已经尝试旋转传统滤波器来执行旋转不变的纹理和图像分类;然而，在没有将传统滤波器升级为具有方向通道的多方向滤波器的情况下，它们关于捕获分层和精细详细的方向信息的能力仍然有限。|、|J |≤ W −1，0 ≤ n ≤ N − 1，i，j，n ∈ N。|≤W−1, 0 ≤ n ≤ N − 1, i, j, n ∈ N. 通过以下两个步骤，坐标旋转和定向，将ARF F顺时针旋转θ以产生其旋转变体Fθ旋转。坐标旋转。ARF围绕原点O旋转，图2，并且Fθ中的（p，q）处的点被计算。′′′ ′拉特湾从F中（p，q）周围的四个相邻子，（p，q）=3. 定向响应网络（pq）cos（θ）sin（θ）−sin（θ）cos（θ），使用双线性插值定向响应网络（ORN）是一种深度控制网络。-−→−→− − →基于有源旋转滤波器的卷积神经网络F′θ，pq=（1−µ）（1−ω）Fuv+（1−µ）ωFu，v+1（ARF）。ARF是一种过滤器，在-- − →- − − →（一）使用卷积来产生具有多个方向通道的特征图。因此，ARF充当虚拟滤波器组，其中仅一个滤波器被具体化和学习。使用ARF，ORN需要显著更少的网络参数，计算开销可以忽略不计，并且能够显式地分层定向信息编码。在下文中，我们解决在DCNN中采用ARF的三个问题。首先，我们构造了一个两步的技术，有效地旋转的ARF的基础上的傅立叶变换的循环移位其次，我们描述了卷积，使用ARF产生的位置和方向明确编码的特征图。第三，我们展示了所有旋转版本的ARF如何有助于其学习，反向传播更新阶段。+μ（1−ω）Fu+1，v+μωFu+1，v+1，其中u=p′，v=q′，µ=p′−u，ω=q′−v。请注意，内切圆外的点用0填充定向旋转。如所讨论的，ARF可以被视为网格上的N每个N-方向-−→点Fθ，pq是所需的N点均匀采样定向响应F′θ，pq（α），它是角α的周期为2π的连续周期函数。在坐标之后−−→旋转时，它仍然需要顺时针旋转θ以产生Fθ，pq，这实际上是F′θ的量子化，pq（α−θ），图2。因此，可以有效地处理这样的自旋过程在傅立叶域中利用离散傅立叶变换（DFT）的循环移位性质，−′−→（n）X（k）n阶DFT{Fθ，pq}3.1. 有源旋转滤波器N−1−−→（二）主动旋转滤波器（ARF）是一种大小为W×W×N的滤波器，它在卷积过程中主动旋转N-1次，以产生N个方向的特征图渠道，图。二、因此，ARFF实际上可以是−−→（n）=n=0F′θ，pq(n) e−jk2πn−jkθk=0、1、…N−1，被视为一组N个滤波器（N×W×W×N），其中仅规范滤波器F本身被具体化并被学习，Fθ，pq{X（k）e}1N−1}2πn（三522NFij）剩下的N-1个过滤器是它的非物化副本。这样的滤波器组中的第n个滤波器，n∈[1，N-1]，是= Nk=0X（k）ejk（N−θ），n=0，1，.，N−1。通过将F顺时针旋转2πn得到。一个ARF包含N个方向通道，被看作是W×W网格上的N个方向点。每个元素在ARF中，F可以通过−→（n）访问，其中0≤为了平滑地处理所有旋转角度，ARF需要大量的方向通道。在实践中，由于多层池操作的方向523N（0分）（1）（2）（3个）θk−θkθk以保证准确性。DCNN的成功实践，例如，VGG [37]和ResNet [18，19]表明，多个小型过滤器的堆栈比大型过滤器更具表达力和参数效率。此外，当使用小滤波器和有限数量的定向通道的组合时，旋转ARF的计算复杂度可以进一步降低，因为坐标旋转和定向自旋都可以由循环移位算子计算，并且在合理的近似下通过高效的存储器映射来采取以一个3×3×8的ARFF阵为例，计算了它的θ顺时针旋转的方向Fθ被公式化为−−→−−−−−−→F<$′θ，（i<$=F<$′（（i−k）modN<$，i∈I，−→−→（四）Fθ（n）=F′θ （（n-k）mod N），n=0，1，...，N−1，.Σ其中k∈N，θ=k2π，N=8且I=7 0 1625 4 3是一映射表，定义每个周围−→ −→ −→ −→ −→元素，表示FFF−→−→F<$1，0，F<$-−→F考虑到上述情况，我们使用1×1和3×3ARF，其中4在大多数实验中有8个3.2. 定向响应卷积ARF在卷积期间主动旋转N-1次以产生N个方向通道的特征图，并且这样的特征图显式地编码位置和方向通道。定向信息。由于ARF被定义为尺寸W×W×N，因此ARFF和N通道特征图M都可以被视为网格上的N方向点。利用ARF，我们定义了定向响应卷积在F和M上，记作M_n=ORC_nv（F，M）。输出特征图M由N个方向通道组成，第k个通道计算为：Nπ−12π图3. 在旋转MNIST数据集上训练的ORN的每一层上由一个ARF生成的示例特征图，以不同旋转中的数字“4”作为输入（每行一个网络层，每列一个输入）。最右侧的列放大特征图中的示例区域。它清楚地表明，特征图明确地编码了位置和方向。在第二层，图像被扩展为全向地图以适应ORConv。在倒数第二（ORConv4）层，观察到深度特征的值相似，但方向不同，这表明方向信息是由ORN提取的。最后一层（ORAlign）执行类似SIFT的对齐，以实现旋转不变性（屏幕上的最佳查看缩放）。3.3. 更新筛选器M（k）=F（n）<$M（n），θk=kN，k=0，…，N−1，（5）在反向传播期间，误差信号δ（k）所有n=0ARF的旋转版本与δ（k）对齐使用（1）其中Fθk是F的顺时针θk旋转版本，F（n）以及（2），并被聚集以更新具体化的ARF，和M（n）是Fθk和M分别根据（5），δ（k）=LΔFθk2π，θk=kN ，k =0，1，...，N−1，输出特征图M由θk旋转版本F← F−ηNΣ−1 δ（k），（六）实现的ARF。这意味着，在每一个面向响应卷积，ARF主动捕获多个方向的图像响应，并将其位置和方向显式编码到具有多个方向通道的单个特征图中，如图所示。3.第三章。（5）还证明了ARF的每个方向通道分别对最终的卷积响应做出贡献，赋予ORN比常规CNN捕获更丰富和更精细的模式的能力−θk0其中L代表训练损失，η代表学习率。 ARF充当包含物化的规范滤波器本身和非物化的旋转版本的虚拟滤波器组。根据（6），反向传播仅集体地更新具体化的滤波器，使得聚集外观相似但方向不同的样本的训练误差。在低层中，这种集体更新524扩大N3x3ORConv，1031x31x16ARF取向通道CNN图像ReLU，池，/2STN图像TIPoolingNet图像增强，x8ORN图像延伸ReLU，池，/2图4.从纹理数据集学习的31×31×16ARF它以N方向点形式显示（左），并进一步可视化为每个图像一个方向通道（右）。ARF通过多方向边缘的组合清晰地定义了纹理图案（在屏幕上最佳查看缩放）。3x3Conv，160ReLU，池，/23x3Conv，320ReLU，池，/23x3ORConv，20ReLU，池，/23x3ORConv，40ReLU，池，/2贡献更显著，因为在单个图像中存在可以利用的许多外观相似但方向不同的补丁。当只给出有限的训练样本集体更新的ARF的一个4.第一章3.4. 旋转不变特征编码ORN中的特征映射不是旋转不变的，3x3Conv，640FC 1024辍学率，0.5FC 10辍学率，0.5FC 103x3ORConv，80ORAlign/OR池化FC 1024辍学率，0.5FC 10方位信息被编码而不是被丢弃。当需要类内旋转不变性时，我们在ORN的顶层引入了两种策略，ORAlign和ORPooling。为了简单起见，我们选择了DCNN架构，其中特征图的大小逐渐增加。缩小到1×1×N。N是方向通道的数量。最后一个ORConv图层的每个要素地图都具有图像大小的感受野，代表高级代表图案的定向响应。第一个策略是ORAlign。不失一般性，让我们表示最后一个的第i个特征图。- −→ORCon v层为M{i}，其中的每个定向响应图5. 网络拓扑比较。[24]以验证其旋转泛化能力。节中4.2，在弱监督的方向估计任务中，展示了直接利用ORN提取的方向信息的巨大潜力。节中4.3，我们将VGG [37]，ResNet [18]和 WideResNet [44] 升级为 ORN ，并在 CIFAR10 和CIFAR100 [22]上训练它们，展示了自然图像分类任务的最新性能。4.1. 旋转不变性- −→当M∈{i}（n）时，0≤n≤N−1。-−→M{i}是N维旋转MNIST。我们随机旋转每个样本，张量记录了来自不同方向的响应，我们使用它执行类似SIFT的对齐以实现旋转鲁棒性。这是通过首先计算主导方向（具有最强响应的方向）来完成的，- −→D=argmaxM{i}（d），并将特征旋转−D2πD图3 .第三章。第二个策略是ORPooling，[29]在[0，2π]之间的MNIST数据集[ 29 ]产生MNIST-rot。到评估数据增加对不同模型的影响，我们进一步将MNIST-rot训练集中的每个样本旋转到八个方向，间隔为45度，这意味着训练集增加了八倍。增强的数据集被标识为MNIST-rot+。我们建立了一个具有四个卷积层的基线CNN- −→−−→通过简单地将M{i}池化为标量max（M{i}（j）），0

下载后可阅读完整内容，剩余1页未读，立即下载