没有合适的资源?快使用搜索试试~ 我知道了~
多尺度空间非对称重标定图像分类王艳1 *,谢凌希2 *,乔思远2,张亚1(),张文军1,Alan L.Yuille21上海交通大学合作媒体创新中心2约翰霍普金斯大学计算机科学系tiffany940107@gmail.com,198808xc@gmail.com,siyuan. jhu.edu,{张雅,张文军}@ sjtu.edu.cn,alan.l. gmail.com抽象。 卷积是空间对称的,即视觉特征与其在图像中的位置无关,这限制了其利用上下文线索进行视觉识别的能力。本文通过引入重新校准过程来解决这个问题,该过程涉及每个神经元的周围区域,计算重要性值并将其乘以原始神经响应。我 们 的方 法 被 命 名 为 多 尺 度 空 间 非 对 称 重 校 准 ( MS-SAR),它提取视觉线索从周围的区域在多个尺度,并设计了一个加权方案,这是在空间域中的非对称。 MS-SAR以有效的方式实现,使得仅需要小部分的额外参数和计算。我们将MS-SAR应用于几个流行的构建块,包括残差块和密集连接块,并在CIFAR和ILSVRC 2012分类任务中展示了其优越的性能关键词:大规模图像分类,卷积神经网络,多尺度空间非对称重校准1介绍近年来,深度学习在计算机视觉领域占据主导地位作为深度学习中最重要的模型之一,卷积神经网络(CNN)已被应用于各种视觉任务,包括图像分类[19],对象检测[7],语义分割[23],边界检测[41]等。 其基本思想是将多个线性运算(例如卷积)和非线性激活(例如,,ReLU [24]),因此深度网络能够拟合非常复杂的分布。训练深度网络有两个先决条件,即大规模图像数据的可用性和强大计算资源的支持。前两位作者贡献相当。本工作得到了国家高技术研究发展计划2015AA015801、国家自然科学基金61521062、国家自然科学基金18DZ2270700和2018年CSC-IBM未来数据科学家奖学金计划(Y-100),NSF奖CCF-1317376和ONR N 00014 -15-1-2356。我们感谢王惠宇的讨论。2Wang等人卷积是深度网络中最重要的运算。一个窗口在图像网格上滑动,并且应用许多小卷积核来捕获局部视觉模式。 该操作具有空间对称的弱点,其假设视觉特征独立于空间位置。这限制了两个工作人员从常见的X线索(例如,一个物体位于另一个物体之上),这在视觉识别中通常是重要的。传统的网络通过堆叠一些卷积并逐渐扩大感受野来捕获这种空间信息,但我们提出了一种替代解决方案,该解决方案使每个神经元都能够有效地在多个尺度上参考其上下文我们的方法被命名为多尺度空间不对称重新校准(MS-SAR)。它通过分数量化每个神经元的重要性,并将其乘以原始神经反应。这个过程被称为重新校准[13]。提出了两个特征来增强重新校准的效果。首先,从覆盖该神经元的局部区域(称为坐标集)计算每个神经元的重要性分数这将空间位置的因素引入到重新校准中,导致期望的空间不对称性质。其次,我们将每个神经元与不同大小的多个坐标集相关联,以便通过合并多尺度信息来评估该神经元的重要性。我们的方法的概念流程图如图1所示。在实践中,重新校准函数(从坐标集获取输入并输出重要性分数)是两个线性操作和两个非线性激活的组合为了避免沉重的计算成本以及大量的为了引入额外的参数,我们首先在坐标集上执行区域池化以降低空间分辨率,并且在第一线性层中使用较少数量的输出以降低信道分辨率。因此,我们的方法只需要一小部分额外的参数和计算超出基线构建块。我们将MS-SAR集成到两个流行的构建块中,即残差块[11]和密集连接块[15],并根据经验评估其在两个图像分类任务中的性能。在CIFAR数据集[18]中,我们的方法优于基线网络,ResNets [11]和DenseNets[15]。在ILSVRC 2012数据集[29]中,我们还与SENet [13]进行了比较,SENet[13]是我们采用单尺度空间对称重新校准的方法的特例,并证明了MS-SAR的优越性能。在所有情况下,MS-SAR带来的额外计算开销不超过1%。本文的其余部分组织如下。第2节简要回顾了以前关于基于深度学习的图像分类的文献,第3节说明了MS-SAR方法,并描述了我们如何应用它to different不同building建造blocks块.在第4节中展示了大量的实验结果之后,我们在第5节中总结了这项工作。多尺度空间非对称重标定图像分类32相关工作2.1用于视觉识别的深度卷积神经网络(CNN)已被广泛应用于计算机视觉任务。这些模型是基于相同的动机,学习和组织视觉功能的分层方式。 在早期,CNN在简单的分类问题中被证明是成功的,其中输入图像很小但很简单(例如,[20]和CIFAR [18]),并且网络是浅的(即, 具有3 -5层)。随着大规模图像数据集[4][22]和GPU等强大计算资源的出现,可以设计和训练深度网络来识别高分辨率自然图像[19]。重要的技术进步包括使用分段线性ReLU激活[24]来防止欠拟合,并应用Dropout[32]来规范训练过程并避免过度拟合。现代深度网络是建立在少数构建块上的,包括卷积,池化,归一化,激活,元素运算(求和[11]或乘积[36])等。其中,卷积被认为是通过模板匹配(计算输入数据和学习的模板之间的内积)来捕获视觉 模 式 的 最 重 要 的 据 信 , 增 加 深 度 会 导 致 更 好 的 识 别 性 能[34][31][11][3][15]。为了有效地训练这些非常深的网络,研究人员提出了批量归一化[17]以提高数值稳定性,以及高速公路连接[33][11]以促进视 觉信息更快 地传播。自 动学习网络 架构的想法 也被探索[38][47]。图像分类是其他视觉任务的基础预训练的网络可用于提取高质量的视觉特征,用于图像分类[5],实例检索[27],细粒度对象识别[45][39]或对象检测[8],超越传统手工特征的性能。转移在这些网络中学习的知识的另一种方式是将它们微调到其他任务中,包括对象检测[7][28],语义分割[23][1],边界检测[41],姿态估计[35][25]等。具有更强分类结果的网络通常在其他任务中工作得更好。2.2深度网络的空间增强深度网络最重要的因素之一在于空间域。虽然卷积运算对于空间平移是自然不变的,但是仍然存在旨在通过将不同的先验引入深度网络来增强视觉识别能力的各种方法在图像中,当两个特征的空间位置彼此更接近时,它们对这种距离敏感信息建模的一种有效方法是执行空间池化[10],它明确地将图像网格分成几组,并忽略特征4Wang等人××S×联系我们S在同一组。这个想法也被广泛用于对象检测,以总结给定一组区域建议的视觉特征[7][28]。另一方面,研究人员还注意到空间重要性(显着性)在空间域中并不是均匀分布的因此,设计了各种方法典型的例子包括使用梯度反向传播来找到对分类结果贡献最大的神经元[43][39],将显着性[30][26]或注意力[2]引入网络,并研究局部属性(例如,神经元的局部属性)。,smoothness [37])。 我们注意到,常规卷积层也捕获空间域中的局部模式,但是(i)它执行线性模板匹配,因此不能捕获非线性特性(例如,非线性特性)。平滑度),同时(ii)它通常需要更大数量的参数和更重的计算开销。在这项工作中,我们考虑了一种重新校准方法[13],其目的是通过空间权重来修订每个神经元的响应。与[13]不同,所提出的方法利用多尺度视觉信息,并允许在不同的空间位置添加不同的权重。这带来了显著的精度增益。3我们的方法3.1动机:为什么需要空间不对称?假设X是卷积层的输出这是一个3D立方体,W其中W和H是宽度和高度,指示空间分辨率,并且D是深度,指示卷积核的数量。根据卷积的定义,X中的每个元素(由Xw,h,d表示)表示坐标(w,h)处的第d个视觉图案的强度,其是从第d个卷积核和对应于坐标(w,h)的输入区域的内积获得的这里我们注意到卷积执行空间对称模板匹配,其中强度xw,h,d与空间位置(w,h)无关。我们认为这不是最佳选择。在视觉识别中,我们经常需要一种复杂的视觉形式(例如:G. 在图2中,图1中的应用程序在图1中的应用程序2中的应用程序1中的应用程序2中的应用程序1),并且在图1中的应用程序2中的应用程序2中的应用程序2中的应用程序3中的应用程序2中的应用程序3中的应用程序2中的应用程序3中的应用程序2中的应用程序1。 为此,我们将w,h定义为包含(w,h)的相邻坐标的坐标集(在下一小节中详细描述)。我们的目标是计算新的响应x~w,h,d,其通过在所有新的神经元上进行同步来实现。w,h1,2,. . . ,D,其中表示笛卡尔积。我们的方法与现有的几种方法相关但不同。– 首先,我们注意到标准卷积可以学习小的局部区域中的上下文,例如。,Sw,h是一个以(w,h)为中心的3× 3正方形 我们的方法可以参考多个 卷 积 , 它 具 有 不 同 的 规 模 , 可 以 实 现 卷 积 形式,并且比卷积更有计算效率。– 第二种类型在空间域中工作,它使用Sw,h×{d}中的响应来计算xw,h,d。执行包含SpatialPyramid的示例多尺度空间非对称重标定图像分类5W、H联系我们⊙w=1,h=1ǁ −ǁ×1×S′′′′池化(SPP)[10]层,其设置规则池化区域并且忽略每个区域内的特征多样性,以及几何神经短语池化(GNPP)[37]层,其利用邻近神经元的空间关系但是,它们都是非参数化的,并且在每个通道中单独工作,这限制了它们调整特征权重的能力。– 另一种相关的方法称为特征重新校准[13],其通过对第二图像时刻中的visualcue进行重新估计来计算x_w ,h,d,即,e. ,其中t(w,h)w=1,h = 11,2,. . . ,D被使用。这仍然是一个空间对称操作正如我们将在后面看到的,我们的方法是一个广义的版本,产生更好的视觉识别性能。3.2配方:空间非对称重新校准给定神经响应立方体X和坐标集Sw,h,at(w,h),目标是将目标计算确定在空间x~w,h,d中,其中p是在空间形式中确定的。我们将其作为 一个weig htingshemex~w , h , d=xw , h , d×zw , h , d ,其中hiczw , h , d=fd(X,Sw,h)并且fd(·)被称为该重新计算的分数阶[13]。该曲线表示为具有以下结构的立方体Z:将其分解为X,并将X ~=X Z到下一个网络层。我们将D维特征向量⊤的X在(w,h)byxw,h=[xw,h,l;. . . ;x ~w,h,D],并且对于x~w,h和z~w,h是类似的。设所有空间位置的集合为P={(w,h)}W,H。坐标每个位置的集合是P的子集,即,Sw,h∈2P,其中2P是幂集合P。每个坐标集Sw,h定义对应的特征集[xw′,h′](w′,h′)∈Sw,h ,并将X Sw,h缩写为Xw,h。因此,zw,h,d=fd(X,Sw,h)可以重写为zw,h,d=fd(Xw,h)。这意味着,对于两个空间位置(w1,h1)和d(w2,h2),如果(w2,h2)∈Sw1,h1,并且v ∈ a,则zw1,h1可以由y×w2,h2i压缩,并且如果(w2,h2)∈Sw1,h1,并且v∈a。 这是一个共同的知识,它包含了两个顶点(w1,h1)和(w2,h2)的信息,即:e. ,(w1,h1)(w2,h2)1是small3,它们的特征向量的关系更可能是紧密的。因此,我们将每个Sw,h定义为覆盖(w,h)自身的连续区域4我们提供了两种定义Sw,h的方法,这两种方法都基于一个标度parameterK. 第一个问题是在√gstrategy中定义的slid,其中swh={(w,h)|(w,h)−(w,h)距离第二种是区域战略,它划分了将图像点阵分成K个大小相等的区域,并且w,h由落在与它相同的区域中的所有位置组成。前者更灵活,即,每个位置都有一个唯一的空间区域集,因此有W H个不同的集合,而后者将这个数量减少到K2,这稍微降低了计算成本(见3.5节)。3约束(w1,h1)−(w2,h2)会产生一个正方形区域,这在实现上比约束(w1,h1)−(w2,h2)2更友好。4通过连续,我们意味着S等于包含w,h它,即,在该区域中没有孔6Wang等人·····输入图像卷积特征图比例尺1= 1加权矢量113,3秤2= 2加权向量223,33,31+2+3规模3= 4加权向量3重新校准:3,3=3,3⊙3,33,333,333,3Fig. 1.多尺度空间非对称重新校准(MS-SAR)的图示。用于重新校准的特征向量用红色标记,不同尺度的空间坐标集用黄色标记,加权向量用绿色标记对于第一和第二尺度,为了更好的可视化,我们复制了用于重新校准的神经反应。这个数字最好用彩色看。确定再校准函数fd(Xw,h)的形式。主要的考虑是减少参数的数量以减轻过拟合的风险,并且减少计算成本(FLOP)以防止网络慢得多。为此,我们借用了增加空间和信道瓶颈的想法[13]。X,w,h首先被下采样为单个−1Σ使用平均池化的向量,即,y w,h= |Sw,h|(w,h)∈Sw,h x w,h,且通过通过两个完全连接的层:zw,h,d= σ2[Ω2,dσ1[Ω1y w,h]]。这里,Ω1和Ω2,d都是可学习的权重矩阵,σ1 []和σ2 []是激活函数,可为重新校准函数添加非线性。Ω1的尺寸为D′×D(D′
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功