没有合适的资源?快使用搜索试试~ 我知道了~
ConvNets的大采样域动态滤波吴嘉林1、2[0000 − 0003 − 4684 − 5212]、戴立1、于洋1、Chandrajit Bajaj2、季向阳11清华大学自动化系,北京,100084{lidai15,yang-yu16}@mails.tsinghua.edu.cnxyji@tsinghua.edu.cn2The University of Texas at Austin,Austin TX 78712,USA{jialinwu,bajaj}@ cs.utexas.edu抽象。我们提出了一种用于ConvNets(LS-DFN)的大采样域动态过滤策略,其中特定于位置的内核不仅从相同的位置学习,而且还从多个采样的相邻区域学习。在采样过程中,残差学习被引入到简化训练和注意力机制被应用到融合来自不同样本的特征。这样的多个样本显著地扩大了籽粒感受野,虽然LS-DFN继承了DFN [5]的优点,即在保持平移不变性的同时避免了位置核的特征图模糊,但它也有效地缓解了由比正常CNN更多的参数引起的过拟合问题。我们的模型是高效的,可以通过标准的反向传播进行端到端的训练。我们展示了我们的LS-DFN的优点,稀疏和密集的预测任务,涉及对象检测,语义分割和流量估计。我们的结果表明,与强基线相比,LS-DFN在VOC基准[8]上的对象检测和语义分割任务中具有更强的识别能力,并且在FlyingChairs数据集[6]上的关键词:大采样场,目标检测,语义分割,流量估计1介绍卷积神经网络最近在稀疏预测任务(包括图像分类[15,11,29],对象检测[3,22,9])和密集预测任务(如语义分割[18,2,16])方面取得了重大进展流量估计[7,13,27]等。一般来说,更深的[25,28,11]架构由于更多的可训练参数和更大的感受野而提供更丰富的功能。大多数神经网络结构主要采用在一般情况下工作良好然而,在训练过程中,每个空间位置处的梯度可能不具有相同的下降方向,同等贡献2Wu等人原始图像常规CNNLS-DFNFig. 1. 有效感受野(ERF)的可视化。黄色圆圈表示物体上的位置,红色区域表示相应的ERF。可以最小化每个位置处的损失这些现象是相当普遍的,当多个对象出现在一个单一的图像中的对象检测或多个对象具有不同的运动方向的流量估计,这使得空间共享的原因在于,即使内核对于每个位置都远非最优,全局梯度(其是整个特征图上的梯度的空间总和)也可以接近于零。因为它们在更新过程中使用,所以反向传播过程几乎不应该取得进展。采用特定于位置的内核可以缓解不可共享的下降方向问题,并利用每个位置处的梯度(即,局部梯度),因为核参数不是空间共享的。为了保持平移不变性,Brabandereet al. [5]提出了一种通用的动态过滤网络(DFN)模型,并在移动MNIST数据集上进行了验证[26]第10段。然而,DFN [5]仅为它们自己的位置生成动态位置特定的内核。因此,内核只能从相同的位置(即内核大小的平方)接收梯度,这通常比普通CNN更不稳定,噪声更大,更难收敛同时,适当地扩大感受野是设计CNN架构时最重要的考虑因素之一。在许多神经网络体系结构中,采用具有小内核的堆叠卷积层(即3× 3)[25]比更大的内核(即7× 7)[15],因为前者用较少的参数获得相同的感受野然而,已经证明,由于一些弱连接和一些未激活的ReLU单元,有效感受野(ERF)[20]仅占整个理论感受野的一小部分。在实践中,已经表明采用扩张策略[1]可以进一步提高性能[3,16],这意味着在单层中扩大感受野仍然是有益的。因此,我们提出LS-DFN,以减轻不可共享的下降方向的问题,利用动态位置特定的内核,并扩大有限的ERF的动态采样卷积。如图1,使用ResNet-50作为预训练模型,添加单个LS-DFN层可以显着扩大ERF,从而进一步提高表示能力。对另一方面,由于我们在每个位置处的内核是动态生成的,所以LS-DFN也受益于局部梯度。我们评估我们的LS-DFN通过3请参见补充材料中的示例和详细分析LS-DFN3VOC基准[8]上的对象检测和语义分割任务以及FlyingChairs数据集上的光流估计[6]。结果表明,LS-DFNs是通用的,有利于稀疏和密集的预测任务。我们观察到在这两个任务中的强基线模型的改进,而没有沉重的负担,在使用GPU的运行时间。2相关工作动态过滤网络。动态滤波器网络[5]最初由Brabandere等人提出。为不同的输入数据提供自定义参数这种架构是强大的,更灵活的,因为内核是动态的输入条件。最近,几个面向任务的目标和扩展已经开发。可变形卷积[4]可以被视为DFN的扩展,它发现了几何不变的特征。分割感知卷积[10]明确地利用先前的分割信息来通过注意掩模细化特征边界。与上述模型不同,我们的LS-DFNs旨在构建大的感受野并接收局部梯度,以产生更清晰和更语义化的特征图。接受场文杰等提出了有效感受野的概念和利用偏导数的数学度量。实验结果证实,ERF通常只占理论感受野[20]的一小部分,理论感受野是输出单元依赖的输入区域。因此,这吸引了大量的研究,特别是在基于深度学习的计算机视觉方面。例如,Chenet al.[1]提出了带孔洞的扩张卷积算法,并在语义分割上取得了较好的效果Dai等人[4]建议动态学习每个位置处的内核的空间偏移,然而,一些应用,如大的运动估计和大的目标检测,甚至需要更大的ERF。剩余学习。一般而言,残差学习通过学习目标的恒等函数的残差偏差来降低直接学习目标ResNets [11]被提出来通过捷径连接学习身份映射的剩余特征,并有助于将CNN轻松地深化到100层以上已经有大量的工作采用残差学习来缓解发散问题并生成更丰富的特征。Kim等人[14]采用残差学习对视觉QA中的多模态数据进行建模。Long等人[19]学习用于域自适应的残差传递网络。此外,Fei Wanget al. [29]应用残差学习来缓解注意力模型中的重复特征问题。我们应用残差学习策略来学习相同卷积核的残差差异。通过这样,我们可以基于有效的梯度算法,使得LS-DFN可以容易地4Wu等人X=注意力机制。为了在无监督的情况下识别深度学习中的重要特征,注意力机制已被应用于许多视觉任务,包括图像分类[29],语义分割[10],动作识别[24,31]等。在软注意力机制[24,32,29]中,使用先验信息生成权重以从不同特征中识别重要部分。Sharma等人[24]使用LSTM中的先前状态作为先验信息,使网络专注于下一帧中更有意义的内容,并获得更好的动作识别结果Fei Wang等.[29]受益于较低级别的特征,并以残差方式学习对较高级别特征图的注意力。相比之下,我们的注意力机制旨在组合来自多个样本的特征,这些样本是针对在一个样本处的一个关键问题的可见的。3大采样动态滤波首先,我们提出了我们的LS-DFN的整体结构在第二节。3.1,然后在第二节中主要介绍抽样策略3.2. 这种设计允许每个位置的内核此外,注意力机制被用来增强LS-DFN的性能,如在Sec.三点三最后,第3.4解释了我们的LS-DFN的实现细节,即参数减少和残差学习技术。3.1网络概述我们在F i g中将LS-DFN的虚拟存档进行复制。二、 我们的LS-DFNsc位于三个分支上:(1)特征分支首先产生C(例如,128)通道中间特征;(2)实现为具有C’(C +k2)个通道的卷积层的内核分支,其中k是内核大小,生成位置特定的内核以对特征分支中的多个相邻区域进行采样,并产生C’(e. G. 32 )输出信道的采样率;(3)将分组实现为具有C ′(s2 + k2)个信道的卷积层,其中s是采样大小,输出分组用于分组的采样率和采样率区域。LS-DFN输出具有C’通道的特征图,并保留原始空间维度H和W。3.2大采样动态滤波本小节演示了所提出的大采样动态滤波,其具有大的感受野和局部梯度。特别地,LS-DFN首先通过核分支生成位置特定的核。之后,LS-DFN进一步将这些生成的核与来自特征分支中的多个相邻区域的特征进行卷积,以获得大的感受野。将Xl表示为来自具有形状(C,H,W)的第l层的特征图(或来自特征分支的中间特征),具有空间共享内核W的正常卷积层可以被公式化为l+1,vy,xΣCkΣ−1kΣ−1l,uy+j,x+iv,u,y,x,j,i(一)u=1j =0i =0XWLS-DFN5′图二. LS-DFN模块概述。我们的模型由三个分支组成:(1)核分支生成位置特定的核;(2)特征分支生成待位置特定卷积的特征;(3)注意力分支生成注意力权重。相同的颜色指示与相同的空间采样区域相关的特征其中u、v表示输入和输出通道的索引,x、y表示空间坐标,并且k表示核大小。相比之下,LS-DFN将空间相关的核分支中生成的特征处理为卷积核。该方案要求核分支从Xl生成核W(Xl),其可以将特征分支中的C通道特征映射到C′通道特征。详细的内核生成方法将在3.4和辅助材料。针对更大的感受野和更稳定的梯度,我们不仅将所生成的位置特定的核与特征分支中相同位置处的特征进行卷积,而且还将它们的s2个相邻区域作为附加特征进行采样,如等式(1)所示二、因此,我们有更多的学习样本,每一个位置特定的内核比DFN [5],导致更稳定的梯度。此外,由于我们获得了更多样化的内核(即位置特定的)比传统的CNN,我们可以鲁棒地丰富特征空间。图三. 我们的采样策略图示-埃吉红点表示采样点。相同的颜色指示与相同的空间采样区域相关的特征。如图3、每个位置(例如,红点)在核分支中输出其自己的核并使用所生成的核对相应的多个相邻区域(即,不同颜色的立方体)。假设我们有s2采样区域为每个位置与样本4W(Xl)是从Xl生成的内核,并且当不存在歧义时,我们省略(Xl)。内核分支(C+2)密集采样特征分支02′关注+分支关注嵌入′2′2s2样本步幅6Wu等人α,β,y,xA、(3)A、(4)˜˜步长γ,核大小k,采样策略输出形状为(s2,C′,H,W)的特征图,获得了约(sγ)2倍大的感受野。因此,大采样动态滤波可以公式化为l+1,vα,β,y,x=kΣ−1kΣ−1l,uy+j,x+iv,u,y,x,j,i、(二)u=1i =0j =0其中x=x+αγ和y=y+βγ不等于采样相邻区域中的采样点的坐标。W表示由核分支生成的位置特定核。并且(α,β)是具有采样步长γ的采样区域的索引。且当s= 1时,LS-DFN减少到原点DFN。3.3注意机制我们提出了我们的方法来融合功能从多个采样区域在每个positionXl+1,v. 一个直接的解决方案是将s2个采样特征叠加形成一个(s2C’,H,W)张量或对样本维度(i. e. X(l+1)的初始尺寸作为输出。然而,第一选择不具有平移不变性,并且第二选择不知道哪些样本更重要。为了解决这个问题,我们提出了一个注意力机制,以融合那些功能,通过对关键字的处理来实现。由于注意力权重也是位置特定的,因此可以潜在地保留输出特征图的分辨率。此外,我们的注意机制受益于剩余学习。考 虑 到 s2个 采 样 区 域 和 每 个 位 置 的 核 大 小 k , 我 们 应 该 有2×k2×C′attiontsforachposionorX(l+1),其中l+1,v ΣCXα,β,y,x =kΣ−1kΣ−1l,uy+j,x+iv,u,y,x,j,iv,α,βy,x,j,iu=1j =0i =0当X射线衍射不显示在您的屏幕上时。然而,Eq。 3需要s2k2C′HW注意权重,计算量大,容易导致过拟合.因此,我们将此任务分解为学习点,其中Apos∈Rk2×C′×H×W 对于在一个放大区域上的A s a m ∈ R s 2 × C ′ × H × W的kernelsa a p o i n i n g a和a l e arningaampin g a m i n g a amp i n g a m i nga。那么方程3变得l+1,vXα,β,y,xΣCsam,vα,β,y,xkΣ−1kΣ−1l,uy+j,x+iv,u,y,x,j,ipos,vy,x,j,iu=1j =0i =0其中y∈,x∈表示在Eq中的零。2.具体来说,我们使用两个CNN子分支来分别生成样本和位置的注意力抽样注意支行有XXWXW=AXWCˆLS-DFN7conv位置注意′2内核分支动态采样内核′2conv样本注意X=˜图4.第一章 在每个位置,我们分别学习每个内核和每个样本的注意力权重。然后,我们通过这些学习的注意力权重组合来自多个样本的特征。带有十字的框表示生成注意力权重的位置,并且红色的框表示采样位置,黑色的框表示采样位置。位置注意子分支有C′×k2个输出通道。样本注意力权重是从图4中带有十字的红框表示的采样位置生成的,以根据该位置粗略预测重要性位置注意力权重由每个采样区域产生,每个采样区域用带有十字的黑盒子表示,以基于采样的局部特征来建模细粒度的局部细节重要性此外,我们手动将每个注意力权重加1以利用剩余学习。因此,注意力权重的数量将从s2k2C′HW减少到(s2+k2)C′HW,如等式(1)所示。4.获得Eq. 4、最后通过注意力机制将不同的样本组合为l+1,vy,xΣs−1Σs−1α=0β=0l+1,vXα,β,y,x.(五)注意,来自先前的正常卷积层的特征图可能仍然是有噪声的,位置注意权重有助于在将大量采样的动态滤波应用于这样的特征图时过滤这样的噪声。样本注意力权重表示每个相邻区域的贡献。3.4动态内核实现详细信息减少参数。假定直接生成具有与常规CNN相同的形状的位置特定的核W将需要核的形状为(C′Ck2,H,W),如等式(1)所示二、由于C和C’可以相对较大(例如高达128或256),内核分支中所需的输出通道(即,C′Ck2)可以很容易地达到数十万,这在计算上是昂贵的。最近,一些工作集中在减少内核参数(例如,8Wu等人CMobileNet [12])通过将内核分解成不同的部分来使CNN在现代可实现的设备中有效。在此基础上,我们描述了并在补充材料中提供检查层中的激活输出特征图通常在通道上共享相似的几何特征,我们提出了一种新的内核结构,将原始最终内核分为两个独立的部分,降低参数的目的。如示于图5、上一个C×1×1部分U在每个位置该模型将被放置在每个k×k核的空间中心,用于模拟通道间的差异 。 另 一 方 面 , 每 个 位 置 处 的1×k×k部分V用于图五、我们的参数减少的图示ing方法 在第一部分中,C×1 ×1权重被放置在相应核的中心,并且在第二部分中,k2个权重被复制C次。对每个通道内的共享几何特征进行建模。将上述两部分结合在一起,我们的方法生成核,该核将C通道特征映射到核大小为k的C′通道特征映射,在每个位置处仅使用C′(C+k2)参数而不是C′Ck2。形式上,在Eq. 2 become.Uv,u+V vj=i= k−1v,u,y,x,j,iy,xv,uy,xy,x,j,i2否则.(六)剩余学习。当量6直接生成内核,这很容易导致在嘈杂的真实世界数据集的分歧。原因在于,只有当核分支中的卷积层被良好地训练时,我们才能在urebranchandviceversa处具有良好的梯度。因此,难以同时从划痕中取出两个此外,由于内核在空间上不共享,因此每个位置处的梯度更可能是有噪声的,这使得内核分支甚至更难训练,并且进一步阻碍了特征分支的训练过程我们采用残差学习来解决这个问题,它学习残差相同卷积核的差异特别地,我们添加1到每个核心的中心位置,.Uv,u+V v+1j=i=k−1v,u,y,x,j,iy,xv,uy,xy,x,j,iC2否则.(七)最初,由于内核分支的输出接近于零,所以LS-DFN应用程序对来自特征分支的特征进行平均它保证梯度111WUW=U=LS-DFN9这对于向特征分支的反向传播来说是足够且可靠的,这反过来有利于内核分支的训练过程。4实验我们通过对象检测、语义分割和光流估计任务来评估我们的LS-DFNs。我们的实验结果表明,首先,更大的感受野,LS-DFN是更强大的对象识别任务。其次,利用位置特定的动态内核和局部梯度,LS-DFN产生更清晰的光流。此外,LS-DFN和常规CNN的ERF之间的比较也在第二节中给出4.1. 这也验证了我们前面提到的设计目标,即LS-DFN具有更大的ERF。在下面的小节中,我们使用w/表示有,w/o表示没有,A表示注意力机制,R表示剩余学习,C′表示动态特征的数量。由于我们的LS-DFN中的C’相对于所有CNN的集合的卷积而言相对较小(例如24),因此我们都选择应用4.1对象检测我们使用PASCAL VOC数据集[8]进行对象检测任务。根据[9]中的协议,我们在VOC 2007 trainval和VOC 2012 trainval的联合上训练我们的LS-DFN,并在VOC 2007和2012测试集上进行测试为了进行评估,我们使用标准平均精度(mAP)得分,IoU阈值为0.5。当应用我们的LS-DFN时,我们将其插入到对象检测网络中,如R-FCN和CoupleNet。特别地,它正好插入特征提取器和检测头之间,产生C’动态特征。应注意,这些动态特征仅用作补充特征,其在馈送到检测头中之前与原始特征对于R-FCN,我们采用ResNet作为特征提取器,采用7 x7 bin R-FCN [7]和OHEM [32]作为检测头。在训练过程中,按照[4],我们调整图像的大小,使其具有600像素的短边,并采用SGD优化器。在[17]之后,我们使用预训练和固定的RPN建议。具体地,RPN网络被单独训练,如在[22]中的过程的第一阶段我们在单个GPU上训练了110k次迭代,前80k的学习率为10−3,后30k的学习率为10−4如表1所示,LS-DFNim仅用C’= 24个动态特征将R-FCNb作为线性模型的这意味着特定于位置的动态特征是对原始特征空间的良好补充尽管CoupleNets [33]已经明确考虑了具有大感受野的全局信息,但实验结果表明,添加我们的LS-DFN阻断仍然是有益的。有效感受野的评价在这一小节中,我们对有效接收场(ERF)进行了如示于图6,使用ResNet-50作为10Wu等人s= 1S=3S= 5C′=16,w/A72.178.278.1C′=24,w/A72.578.678.6C′=32,w/A72.978.678.5表1.在VOC 2007和2012检测数据集上评估 LS-DFN 模 型 。 Weuses=3 , C′=24 ,γ=1,C1=256使用ResNet-101作为预先训练的网络在添加LS-DFN层时进行实验。†http://host.robots.ox.ac.uk:8080/anony-mous/BBHLEL.html.γ= 1γ= 2W/Aw/o一个W/Aw/o一个C′=1677.877.478.277.4C′=2478.177.478.677.3C′=3278.677.678.077.3表3. 不同样本步幅和动态特征个数对注意机制的评价不应用后卷积层实验使用R-FCN基线,采用ResNet-50作为预训练网络.表2.评估数量样品s.列出的结果使用残差学习进行训练,并且不应用后卷积层。实验使用R-FCN基线,并采用ResNet-50作为预训练网络。W/Aw/o一个C′=24W/R不含R78.6868.177.4FC′=32W/R不含R78.668.777.6F表4. LS-DFN中剩余学习策略的评价F表示模型无法转换,并且不应用转换后层。实验使用R-FCN基线,采用ResNet-50作为预训练网络。在骨干网络中,单个附加LS-DFN层由于大采样策略而提供比普通模型随着ERF的增大,网络可以有效地观察每个位置上更大的区域,从而可以更容易地收集信息和识别对象此外,桌子。1的实验验证了我们提出的LS- DFNs提供的识别能力的改善样本量消融研究。我们进行实验,以验证应用更多的采样区域在LS-DFN的优势。表2评估了相邻区域中的采样效果。在简单DFN模型[5]中,其中s=1,尽 管 采 用 了 注 意 力 和 剩 余 学 习 策 略 , 但 准 确 率 仍 低 于 R-FCN 基 线(77.0%)。我们认为原因是简单的DFN模型具有有限的感受野。此外,每个位置处的核仅接收相同位置上的梯度,这容易导致过度拟合随着采样区域的增加,我们不仅在前馈步骤中扩大了感受野,而且在反向传播过程中稳定了梯度。如表2所示,当我们取3× 3个样本时,mAP得分比原始R-FCN [3]盈余1.6%,并且当注意力集中时,相对于s变得饱和。VOC12的mAP(%)VOC 07的mAP(%)R-FCN [3]77.679.5R-FCN+ LS-DFN79.281.2变形。Conv. [4]美国-80.6CoupleNet [33]80.481.7CoupleNet+LS-DFN81.7†82.3LS-DFN11见图6。有效感受野的可视化。黄色圆圈表示对象上第一行呈现输入图像。第二行包含来自vanilla ResNet-50模型的ERF图。第三行包含具有LS-DFN的ERF的最好的颜色。机制应用。注意机制的消融研究。我们用不同的样本步长γ和动态特征通道数C’验证了表3中的注意机制的有效性。在无注意机制的实验中,采用了信道维的最大池化 我们观察到,在几乎所有的情况下,注意力机制有助于提高mAP超过0.5%的VOC 2007检测任务。 特别是随着动态特征通道C’的数量增加(即,32),注意力机制提供了更多的益处,使mAP增加了1%,这表明注意力机制可以进一步加强我们的LS-DFN。剩余学习的消融研究。我们进行了实验,以验证不同数量的动态特征通道,残差学习贡献了很多我们的LS-DFNs的收敛如表4所示,在不利用残差学习的情况下,动态卷积模型很难在真实世界的数据集中收敛。即使它们收敛,mAP也低于预期。然而,当我们的LS-DFN以残差方式学习时,mAP平均增加约10%运行时分析。由于每个位置和采样区域处的计算可以以并行方式完成,所以LS-DFN模型的运行时间可能仅略慢于具有内核大小S2的两个正常卷积层。12Wu等人Ground Truth FlowNetsLS-DFNFlowNetSLS-DFNFlowNetC LS-DFN见图7。FlyingChairs数据集上的流量估计示例。具有LS-DFN的列表示添加到左列的LS-DFN的结果。利用LS-DFN,可以估计更清晰和更详细的光流方法BGAero 自行车鸟船形瓶公交汽车猫椅子 牛DeepLabV2 + CRF-92.660.491.6 63.476.395.0 88.492.6 32.7 88.5...不含atrous +LS-DFN95.392.357.291.168.895.0 88.892.1 35.0 88.5... + SegAware [10]95.392.458.591.365.676.895.0 88.792.1 34.7 88.5... + LS-DFN†95.594.058.591.369.278.295.489.692.9 38.4 89.9方法表狗一种马机车人植羊沙发火车电视所有DeepLabV2 + CRF67.689.692.187.087.4 63.388.3 60.086.8 74.5 79.7...不含atrous + LS-DFN68.789.092.2 87.187.188.4 64.188.0 74.8 80.4... + SegAware [10]68.789.092.287.0 87.1 63.4 88.460.986.3 74.9 79.8... + LS-DFN†70.290.893.187.087.463.4 89.564.988.9 75.8 81.1表5. PASCAL VOC 2012语义分割测试集的性能比较。报告每个类别的平均IoU(%)和总体IoU†http://host.robots.ox.ac.uk:8080/anonymous/5SYVME.html4.2语义分割我们采用带有CRF的DeepLabV2作为基线模型。添加的LS-DFN层从ResNet-101中的res 5 b层接收输入特征,其输出特征被连接到res 5c层。对于超参数,我们采用C′=24,s=5,γ=3,k=3和1× 1256通道后卷积层,在所有三个输入尺度上共享权重。在SegAware [10]之后,我们使用ImageNet模型初始化网络,然后在COCO训练集上进行训练,并进行微调增强的PASCAL图像。我们在表中报告了分割结果。5.我们的模型实现了81.2%的整体IoU准确性,比SegAware DeepLab-V2高出1.4%此外,对像船和沙发5这样的大型物体的结果显著改善(即,船中为3.6%,沙发中为4.2%)。原因在于LS-DFN层能够显著扩大有效感受野(ERF),使得对象内部的像素可以利用更广泛的上下文,这是重要的5在PASCAL VOC测试集中,我们观察到大多数船和沙发实例在图像中占据大面积。LS-DFN13因为确定像素的正确类别的视觉线索可能远离像素本身。由于减少了假阳性分类(其中,时间的许多像素是或初始地被视为“时间”),因此也显著地改进了分类的性能。我们使用w/o atrous+LS-DFN来表示DeepLabV 2模型,其中所有扩张卷积都被表中的LS-DFN块替换。5.特别地,不同的扩张率6、12、18、24由样本步幅γ = γ来代替。2、 4、 6、 8中。所有分支被 实 现 为 单 个 卷 积 层 , k=3 , s=5 , C′=21 用 于 分 类 。 与 原 始DeepLabV2模 型 相 比 , 我 们 观 察 到 相 当 大 的改 进 ( 即 从 79.7% 到80.4%),这表明由于动态采样内核,LS-DFN层能够更好地对大感受野内的上下文信息进行建模。4.3光流估计我们使用FlyingChairs数据集[6]进行光流估计实验。该数据集是具有光流地面真实的合成数据集,广泛用于深度学习方法来学习运动信息。它由22872图像对和相应的流场。在实验中,我们使用FlowNets(S)和FlowNetC [13]作为我们的基线模型,尽管其他复杂的模型也适用。所有的基线模型都是全卷积网络,首先对输入图像对进行下采样以学习语义特征,然后进行上采样估计光流的特征。在实验中,我们的LS-DFN模型被插入到一个相对较浅的层,以产生更清晰的光流图像。具体来说,我们采用第三个conv层,其中图像对合并到FlowNetC模型中的单个分支体积我们还使用skip-connection将LS-DFN输出连接到相应的上采样层。为了捕捉大位移,我们在LS-DFN层中应用了更多的具体地,我们在实验中使用7× 7或9× 9样本,我们遵循[7]中类似的训练过程进行公平比较6。如图7,我们的LS-DFN模型能够输出更清晰,更准确的光流。我们认为这是由于大的感受野和动态位置特定的内核。由于每个位置都用自己的内核估计光流,因此我们的LS-DFN可以更好地识别移动对象的轮廓如 图 8 , LS-DFN 模 型 成 功 地 放 松 了 空 间 共 享 核 的 约 束 , 并 在FlowNets和FlowNetC模型中收敛到较低的训练损失。这进一步表明了局部梯度在执行密集预测任务时的优势。我们使用平均端点误差(aEPE)来定量地测量光流估计的如表6中所示,在添加单个LS-DFN层的情况下,所有基线模型中的aEPE大幅度降低。6我们使用300k迭代,双批量14Wu等人12010080604020训练损失比较电话:+86-0512 - 8888888传真:+86-0512-88888888迭代105图8. 流量估计的训练损失。当绘制损失曲线时,我们使用窗口大小为2k次迭代的移动平均。表6. 光流估计的aEPE和运行时间评估。在FlowNets模型中,aEPE降低了0.79,这表明我们的LS-DFN模型的学习能力和鲁棒性增加。即使SegAware注意力模型[10]明确地利用了需要额外训练数据的边界信息,我们的LS-DFN仍然可以使用FlowNetS作为基线模型稍微优于它们。当s=9和γ=2时,我们有大约40倍大的感受野,这使得FlowNet模型可以在FlyingChairs数据集中轻松捕获流量估计任务中的大位移5结论该工作引入了大采样域动态滤波(LS-DFN)来学习动态位置特定的内核,并利用非常大的接收域和局部梯度。由于单层中的大ERF,LS-DFN在大多数一般任务中具有更好的性能。利用局部梯度和动态内核,LS-DFN能够产生清晰得多的输出特征,这在诸如光流估计的密集预测任务中尤其有益鸣谢。国家重点研发项目2017YFB1002202资助,国家自然科学基金国际合作与交流项目2017YFB1002202资助。61620106005,国家杰出青年 科 学 基 金 项 目 编 号 : 61325003 、 北 京 市 科 学 技 术 委 员 会Z181100008918014和清华大学自主科研项目。训练损失模型aEPE 时间[21]第二十一话2.63-EpicFlow [23]2.94-DeepFlow [30]3.53-PWC-Net [27]2.26-FlowNets [13]3.676msFlowNets+LS-DFN,s= 7 2.88 23MsFlowNetS [13]2.78 16msFlowNetS+SegAware [9]2.36-FlowNetS+LS-DFN,s= 7 2.34 34msFlowNetC [13]2.19 25msFlowNetC+LS-DFN,s= 7 2.11 43msFlowNetC+LS-DFN,s= 9 2.06 51msLS-DFN15引用1. Chen,L.C.,帕潘德里欧,G.,科基诺斯岛墨菲K Yuille,A.L.:Deeplab:使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。arXiv预印本arXiv:1606.00915(2016)2. Dai,J.,他,K.,李,Y.,Ren,S.,孙杰:实例敏感的全卷积网络。欧洲计算机视觉会议。pp. 534-549. Springer(2016)3. Dai,J.,李,Y.,他,K.,孙杰:R-fcn:通过基于区域的全卷积网络的目标检测。在:神经信息处理系统的进展。pp. 3794. Dai,J.,Qi,H.,Xiong,Y.,李,Y.,张,G.,Hu,H.,魏云:可变形对流网络。arXiv预印本arXiv:1703.06211(2017)5. De Brabandere,B.,Jia,X.,Tuytelaars,T.,Van Gool,L.:动态过滤网络。在:神经信息处理系统(NIPS)(2016)6. 做得很好A Fische r,P., I Ig,E.,Hsse r,P., Hazırbas,C., Golkov,V.,v. D. Smagt,P.,Cremers,D. Brox,T.:Flownet:使用卷积网络学习光流。In : IEEE International Conference on Computer Vision ( ICCV ) ( 2015 ) ,http://lmb.informatik.uni-freiburg.de//Publications/2015/DFIB157. Dosovitskiy,A.,Fischer,P.,Ilg,E.,Hausser,P.,Hazirbas角戈尔科夫vander Smagt,P.,Cremers,D. Brox,T.:Flownet:使用卷积网络学习光流。在:IEEE计算机视觉国际会议论文集。pp. 27588. Everingham,M.凡古尔湖威廉姆斯,C.K.I.,Winn,J.,齐瑟曼,A.:pascal视觉对象类(voc)的挑战。International Journal of Computer Vision88(2),3039. Girshick,R.: 快速R-CNN。 IEEE国际计算机会议(IEEE International Conference onComputer)愿景(ICCV)(2015年12月)10. A.W.哈利Derpanis,K.G.,科基诺斯岛:分割感知卷积网络使用局部注意力掩码。arXiv预印本arXiv:1708.04607(2017)11. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。IEEE计算机视觉与模式识别会议(CVPR)(2016年6月)12. Howard,A.G.,Zhu,M.,陈伯,Kalenichenko,D.王伟,Weyand,T.,安德里托,M.,Adam,H.:Mobilenets:用于移动视觉应用的高效卷积神经网络。CoRRabs/1704.04861(2017)13. Ilg,E.,Mayer,N.Saikia,T.,Keuper,M.,Dosovitskiy,A.,Brox,T.:Flownet2.0:深度网络的光流估计的演变。arXiv预印本arXiv:1612.01925(2016)14. Kim,J.H.,Lee,S.W.,Kwak,D.,许,作案手法,金,J.,J.W. Zhang,B.T.:多模态残差学习在视觉品质分析中的应用。在:神经信息处理系统的进展。pp. 36115. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:使用深度卷积神经网络的图像网分类。在:Pereira,F.,Burges,C.J.C.博图湖温伯格K.Q. ( 编 辑 ) 神 经 信 息 处 理 系 统 的 进 展 25 , pp 。 1097- 1105 柯 兰 联 营 公 司(2012),http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf16. 李,Y.,Qi,H.,Dai,J.,吉,X.,魏云:完全卷积的实例感知语义分割。arXiv预印本arXiv:1611.07709(2016)16Wu等人17. Lin,T. 是的, 做吧,P Gir shic k,R., 他,K., Hariharan,B., Belon g ie,S. :用于对象检测的Fetur金字塔网络arXiv预印本arXiv:1612.03144(2016)18. 朗J Shelhamer,E.,达雷尔,T.:用于语义分割的全卷积网络。IEEE计算机视觉与模式识别会议(CVPR)(2015年6月)19. Long,M.,Zhu,H.,王杰,Jordan,M.I.:无监督域自适应残差传输网络。在:神经信息处理系统的进展pp. 13620. 罗,W.,李,Y.,Urtasun河Zemel,R.S.:了解深度卷积神经网络中在:NIPS(2016)21. Ranjan,A.,布莱克,M.J.:使用空间金字塔网络的光流估计。arXiv预印本arXiv:1611.00850(2016)22. Ren,S.,他,K.,格尔希克河孙杰:更快的r-cnn:利用区域建议网络实现实时目标检测。在:神经信息处理系统的进展。pp. 9123. Revaud,J.,Weinzaepfel,P.,Harchaoui,Z. Schmid,C.:Epicflow:光流对应的边缘保持插值。在:IEEE计算机视觉和模式识别会议pp. 116424. Sharma,S.,基罗斯河Salakhutdinov,R.:使用视觉注意的动作识别。arXiv预印本arXiv:1511.04119(2015)25. 西蒙尼扬,K.,齐瑟曼,A.:用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv:1409.1556(2014)26. Srivastava,N.,Mansimov,E.,Salakhudinov,R.:使用lstms的视频表示的无监督学习。国际机器学习会议(International Conference on Machine Learn
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功