没有合适的资源?快使用搜索试试~ 我知道了~
3283多级上下文超聚合立体匹配聂广宇1程明明2刘云2梁 正发3范登平2刘跃1,4王永田1,41北京理工大学2南开大学3盲信号处理4北京电影学院http://mmcheng.net/mcua/摘要利用多层次的上下文信息来降低体积,可以提高基于学习的立体匹配方法的性能近年来,三维卷积神经网络(3-D CNN)在规则化代价体积方面显示出优势,但在匹配代价计算方面受到一元特征学习的限制然而,现有方法仅使用来自普通卷积层的特征或多级特征的简单聚合来计算成本体积,这是不够的,因为立体匹配需要区别性特征来识别经校正的立体图像对中的对应像素。在本文中,我们提出了一个一元特征描述符使用多级上下文超聚合(MCUA),它封装所有的卷积特征到一个更有区别的表示内和层间特征组合。具体来说,将低分辨率图像作为输入的子模块捕获更大的上下文信息;来自每一层的较大上下文信息密集地连接到网络的主要分支。MCUA很好地利用了具有更丰富上下文的多层次特征,并整体地执行图像到图像的预测。我们介绍了我们的MCUA计划的成本量计 算 和 测 试 PSM-Net 。 我 们 还 在 场 景 流 和 KITTI2012/2015立体数据集上评估了我们的方法。实验结果表明,该方法明显优于现有方法,有效地提高了立体匹配的精度1. 介绍立体匹配,也称为视差估计,旨在找到一对矫正立体图像中的对应点它是计算机视觉的一个基本子类[26,28]。成本量对于基于卷积神经网络(CNN)的立体匹配方法起着至关重要的作用,刘悦(liuyue@bit.edu.cn)为通讯作者。”[28]这是一个很好的例子。传统的沿视差线的1-D投影能够生成3-D立体成本体积[14,15],但由于其对体积的乘法近似,它丢失了大量信息。作为改进,实现简单的级联而不是1-D相关,以组合来自每个视差水平上的左输入和右输入的一元特征,以生成4-D成本量,然后将3-D CNN并入上下文以正则化该4-D成本量[9]。基于4-D成本体积的方法[9,2]通常优于基于3-D成本体积的方法[14,11],因为4-D成本体积可以保留特征尺寸。CNN中的跳过连接[7,17]鼓励分层表示的整合,并且还可以有助于立体匹配以改善成本量[29,4]。立体匹配是一个回归问题,旨在实现像素级的密集预测,但它通常会在遮挡区域产生不连续性,并且在天空或其他平坦区域等无纹理区域中存在孔径问题[9],因此它更关注多级上下文信息的合并在DenseNets[8] 和DLA [25]中,在网络的深层实现了大的感受野,但它们仅涉及特征的层内组合,并且不能在浅层获得大的感受野因此,在立体匹配任务中使用密集连接或DLA方案计算匹配成本时,缺乏足够的全局这个问题使得这两种体系结构在学习上下文信息时受到限制为了解决这个问题,我们通过引入多级上下文超聚集(MCUA)方案来提高一元特征的区分能力,以用于匹配成本计算,该方案仅使用“浅”跳过连接来组合最浅、最小尺度和更深、更大尺度除了受DenseNets [8]和DLA [25]启发的层内组合外,MCUA包含一个独立的子模块,该子模块引入了层间组合。3284Q(一)K)rk(k)k1Q(一)Kk 2 )qk(q)1FFFqk(q)0h0z-1z-1z-1不t=0t展开折叠在(a) 具有共享权重的密集网络(b)具有共享权重的深层聚合(c)高阶RNN形式的图1. DenseNets和DLA属于高阶RNN家族。(a)密集连接方案;(b)相邻组之间的DLA方案(红框),由HDA(组中的组合级)和IDA(组合组)组成;(c)高阶RNN框架。橙色实线表示每两个阶段之间的跳过连接。组合方案本文的主要贡献包括:i)提出了一种用于层内和层间特征聚合的MCUA算法,并将其表示为一种高阶RNN; ii)实验结果表明,MCUA算法显著提高了匹配代价的计算。2. 相关工作立体匹配可以使用多级技术[1]来实现,该多级技术通常包括四个主要步骤,即,匹配成本计算、成本聚合、视差计算和优化以及视差细化[20]。早期基于学习的方法采用神经网络来取代传统立体声管道中的一个或多个阶段[27,26,19,14,21]。一些方法通过将所有步骤集成到一个整体网络中进行联合优化来获得Mayer等人[15]引入了一个一维相关层来整合视差线上的一元特征,这可以为端到端训练提供三维成本量。Pand等人。[18]提出了一种级联CNN架构,首先获得初始视差图,然后采用残差学习进行细化。Liang等人[11]提出了特征恒定性来测量两个输入图像之间的对应性,然后将其用于细化视差。EdgeStereo,由Song等人开发。[23]介绍了一种多任务体系结构,以通过集成一级立体网络和所提出的边缘检测网络来生成最终视差图。SegStereo在[24]中提出,引入了两种语义线索的合并策略,包括语义信息嵌入和添加到softmaxloss的语义损失正则化。由于1-D相关是立体声代价体积的乘法近似,它将丢失一些有用的信息,因此对上下文学习是有害的。GC-Net [9]引入了4-D成本量,以将上下文纳入成本量正则化。该方法在生成立体成本体积时不折叠特征尺寸。最近,PSM-Net [2]通过将SPP模块[6]应用于成本体积计算并利用三个堆叠的3-D沙漏网络来正则化该4-D成本体积,从而利用上下文信息进行立体匹配StereoNet[10]是一种用于立体匹配的实时端到端网络,其中首先使用具有微薄分辨率但编码所有信息的成本量来获得初始视差图,然后使用学习的上采样函数进行细化。在我们的工作中,我们采用了一种新的聚合模式,MCUA,以产生更好的上下文支持的一元功能。实验结果证明了MCUA在立体匹配中的有效性。3. 查看要素聚合方案在本节中,我们首先回顾了DenseNets [8]和DLA[25],并使用高阶RNN [22,12,3]制定了这两个聚合方案。然后,我们讨论了特征聚合的限制时,将这些计划应用到立体匹配。3.1. DenseNetsDenseNets [8]在组上应用密集连接方案,其中所有阶段生成的特征图具有相同的分辨率和比例。如图 1(a),信号“h k“指示该块的第k级,其接收来自所有先前级的特征图,h0,.,h k−1,并与所有后续阶段共享其特征图。它可以公式如下:hk=rk[f k−1qk(ht)](1)其中,Qk(h,t)是特征ext作用函数,rk(·)是将所收集的信息变换为在该信息流入第k级之前,f表示用于数据融合的级联操作。图1(c)示出了高阶RNN的框架,其中信号在出来H8小时0小时 1小时 2小时 3时间4小时 5小时 6小时 7出来FH3FH2FH1在h0HK输出3285r[qr[q不阿勒特左112 4Output1114111共享权重+输出3权Output21立体图像匹配成本计算成本量成本量规范化视差图11124规模信息流2-D特征3-D特征逐元素求和级联输出残余扭曲地图初始地图图2.我们提出的网络(EMCUA)的示意图它是在PSM-Net [2]的基础上,将MCUA应用于匹配代价计算的体系结构中,并在最后增加了一个残差模块。一对立体图像(即,左,右)通过网络进行视差预测(即,输出3)。图3示出了匹配成本计算的更新架构的细节。第k步的RNN,rk(·)表示变换函数,当量(1)描述DLA如下:符号求和,级联,捷克 斯洛伐克-1k[t=0qk(ht)],k= 4n等)。在高阶RNN中,所有函数共享相同的权重,即,t,k,qk(·)hk=克尔克k−1rk[qk(hk−1)],k= 4n+ 1(hk−2)+qk(hk−1)],k= 4n+ 2不r(·)。当信号共享参数[3]时,密集网络可以表示为高阶RNN,这表明克-2Kkk−1k−1(hk−1)],k=4n + 3(二)DenseNets属于高阶RNN家族DenseNets不能跨尺度和分辨率合并特征,这会丢失大量低级别信息。在本文中,我们开发了一个通用的功能聚合计划来解决这个问题。3.2. DLA如图1(b),设计了一个九级网络作为骨干网,并在其上采用DLA方案。由于输出特征的尺度不同,这个 主 干 的 阶 段 可 以 分 为 三 组 ( 用 红 框 表 示 ) :h0,. . . ,h3,h4,. . . 第二组为H7,第三组为H8。DLA由 两 种 聚 合 方 案 组 成 [25] : ( i ) 迭 代 深 度 聚 合(IDA)跨尺度和分辨率合并特征,其中聚合节点的输出在与其他特征合并之前进行(ii)分层深度聚合(HDA)将聚合节点的输出合并到骨干中,作为下一个子树的输入。这使得每个阶段只选择性地使用来自所有先前阶段的输出的子集,如图所示。1(b)、删除灰色虚线的短连接行,取qk(·)=0。我们跟随DenseNets在其中n = 0,1,2,. . . 表示组的索引。类似地,DLA方案也可以表示为高阶RNN的形式。然而,DLA中的融合仅指节段内的融合。为了克服这一缺点,我们引入了一个独立的子模块融合功能与层间组合,其中大的感受野可以在浅阶段获得。4. 网络架构在本节中,我们将介绍从PSM-Net [2]开发的拟议网络的每个部分。总体图示如图所示。二、4.1. MCUA方案我们应用所提出的MCUA方案(图1)。3)到PSM-Net [2]进行匹配代价计算。分支(一)MCUA可视为骨干。它是一个2D-CNN,与PSM-Net中的匹配成本计算网络相同。我们根据[ 2 ]中的 层 定 义 将 主 干 分 为 九 个 阶 段 : 前 七 个 阶 段 ,F0,. . .、F6分别对应于conv 0 1、conv 0 2、conv 0 3、conv 1 x、conv 2 x、conv 3 x和conv 4 x;第八级F 7包含SPP模块。+3286244不142121 感受野AvgPool均p0F42d特征0F1F2F3连接(b)第(1)款1共享参数(一)出来F012F1F2F3F4F5F6F7F8在14图3.MCUA方案示意图分支(a)是主干,而分支(b)是独立的子模块。每个彩色方块代表一个阶段生成的特征图,而每个绿色方块表示下一个阶段具有的感受野。层内组合由灰色虚线描述,而层间组合由纯色线描绘。F8生成的一元特征是该架构的最终输出。选项卡. 图1显示了MCUA的逐层定义。采用3×3卷积运算;第九阶段F8是一个1×1卷积运算,旨在融合组合特征。我们使用最后一层的输出每个阶段作为用于其它操作的特征信息。这种设计是自然的,因为每个阶段的最深层应该具有最可靠的特征。根据特征图的大小,主干可以分为两组:阶段F0,. . .,F3属于第一类,其输出特征图的大小为1× scale,阶段F4,. . .,F8属于第二类,其输出特征图的大小为1× scale。图3和Tab。1说明了MCUA的细节MCUA允许每一级接收来自所有先前级的特征并使其输出能够 通 过 所 有 后 续 级 。 详 细 地 , 特 征 ( 即 , h1 ,h2,. . . )首先通过逐元素求和来聚集,然后在通过下一级之前被预激活我们将MCUA公式化如下:k−11×输入大小的特征图。α(α >1)是控制增加面积比例的扩大因子,使一个较大的感受野比一个较大的感受野捕获更多的信息小一点的。4.1.1层内合并层内组合融合每组中的特征图,其中密集连接,如图中虚线所示。3,应用于两个阶段中的每一个。详细地,特征通过线性函数qk(x)=βx进行变换,其中β被定义为线性系数。这转换是通过1×1卷积运算实现的[13]使特征图彼此匹配在尺寸上。来自前一阶段的变换后的特征通过逐元素求和进行集成并被预激活,然后流到下一阶段。例如,由阶段F4生成的特征图的通道数是64,而由阶段F5、6、 7生成的特征图的通道数是128。在合并并流到阶段F8之前,阶段F8的特征图hk=rk[qk(ht)](0≤k≤m),(3)F 需要线性转换成直接映射hk=rk[1mΣ−1t1t=0qk(αht)+qm+1(hm)](k=m+1),(4)4128频道4.1.2级间合并2吨1米1t=0mΣ−1hk=rk[qk(αht)+qm+1(hm)+k−1qk(ht)]如图3、使用一个独立的子模块来引入层间聚合,用实线表示。首先是独立子模块2t1t=0m1t2t=m+1采用平均池化操作P0,以减小大小(m+2≤k≤n),(五)其中m=4,n=8,“h k“表示级F k的输出特征图的比例为1×输入大小,“输入的一半,然后使用四个阶段(即, F0,. . . ,F3)学习一元特征。这四个阶段中的每一个与第一组骨干共享相同的内部架构,并且对应层的参数是绑定的。一般而言,22注意到阶段Fk的输出,比例为1×输入大小。在所有n+1个阶段中,Fm是一个特殊的阶段,它接收1×输入大小的特征图,并输出大的感受野通常在网络的深层获得。通过使用独立的子模块,它可以在浅阶段获得大的感受野3287H1W1(a)(b)HWW表1.MCUA架构H图4.CNN中固定大小的感受野(蓝色块)使当减小输入的尺度(b的尺度是a的尺度的一半)时,过滤更大的区域H和W表示特征图中区域的高度和宽度,H1和W1分别表示感受野的高度和宽度由图解释。4:具有H1×W1大小的感受野使得能够从下采样的输入中捕获更多的视觉信息(即,图4(b))比原始输入(即,图(见第4(a)段)。由于子模块共享参数-在具有主链的情况下,我们在等式中有ht=αht(5)其中,2 1α(α >1)表示空间信息量增加,将固定大小的感受野置于不同的FEA区域真地图此外,线性变换也适用于稠密路径。通过设置参数β,采用与特征层内组合相同的策略,使特征适应后续阶段的维数。对于立体匹配,独立的子模块可以为特征提供更多的上下文信息来计算成本量,这通常发生在浅层阶段。节中6.2,我们将展示独立子模块对于学习上下文信息和提高立体匹配性能的重要性4.2. 差异回归软argmin是一种有效的操作,可以在由3-D CNN正则化的概率体积上回归值[9],因为它是完全可微的,并且可以进行反向传播训练。通过所有模式的加权平均值计算每个像素的回归值,其可以被示为:DΣmaxK、S、P、D、N、R:卷积层的内核大小、步长、填充、膨胀、数目和接收域;Dim. :输入/输出特征图的维度; I/O:输入/输出特征图的比例;符号“+ / -“:逐元素求和/减法运算;ConC:串联操作。在网络的末端添加剩余模块。它首先生成残差图,然后与初始Dh,w=d=0d×σ(−cd,h,w)(6)视差图使用逐元素求和来获得最终输出,即,输出3. 如图2、残差其中cd、h、w、σd、h、w和d分别对应于成本值、每个像素的softmax操作和视差值。4.3. 输出如图2、MCUA包含三个沙漏网络,每个沙漏网络生成一个视差图.这三个输出用于在训练网络时计算损失,最后一个第三个沙漏网络的输出被认为是一个初始的dispar- ity地图。为了细化初始预测的前景,模块包含三个卷积层,内核大小为5,步幅为2。剩余模 块 的 层 定 义 见 补 充 资 料 。 整 个 网 络 被 命 名 为EMCUA,它与最后一个输出中的MCUA略有不同4.4. 损失函数我们通过采用平滑L1损失(Smooth L1 Loss)来训练整个网络,如果绝对元素误差低于1,则使用平方项,否则使用L1项这种损失是H1W1阶段 类型K SP D N 输出Dim. I/O输入在输入3-/1在骨干F0Conv.311 1 1 3C013/321/2输入F1Conv.311 1 1 5C0232/32 2/2C01F2Conv.311 1 1 7C0332/32 2/2C01 + C02F3Conv.311 1 3 13C1x32/32 2/2C01 + C02 +C03独立子模块(即,(b)处)均p0 AvgP220 0 1 2P203/31/2在F0Conv.311 1 1 6C2013/322/4P20F1Conv.311 1 1 11 C20232/32 4/4C201F2Conv.311 1 1 16 C20332/32 4/4 C201 + C202F3Conv.311 1 3 31 C21x32/32 4/4 C201 + C202 +C203骨干F4Conv.311 1 16 45C2x32/64 2/4C01 + C02 +C03 + C1xF5Conv.311 1 3 51C3x64/128 4/4C201 + C202 +C203 + C21x +C2xF6Conv.311 1 3 57C4x128/128 4/4C201 + C202 +C203 + C21x +C2x + C3xAvgP64 642019 - 01 - 2000:00:0016168 811111--– – –B1C201 + C202 +–B2B3128/32 4/4 C203 + C21x +C2x + C3x +Conv.B4C4xUps.–ConC--– – –M1128/128 4/4B1,B2,B3,B4,C2x、C4xF7Conv.311 1 1 59 FSPP 320/128 4/4M1F8Conv.110 1 1 59 融合128/32 4/4C201 + C202+C203+C21x + C2x +3288表2. KITTI2015结果Mod.D1-bg全部(%)D1-fgD1-所有D1-bgNOC(%)D1-fgD1-所有SegStereo1.884.072.251.763.702.08iResNet2.253.402.442.072.762.19CRL2.483.592.672.323.122.45GC-Net [9]2.216.162.872.025.582.61PSM-Net1.864.622.321.714.312.14MCUA1.694.382.141.553.901.93EMCUA1.664.272.091.503.881.90““比L1损失对异常值不敏感,并且在某些情况下防止梯度爆炸。损失定义为:1Σ(a)我们的(b)电力供应管理网损失(x,y)=n.2中文(简体)我图5.我们的模型和PSM-Net在KITTI 2015数据集中的结果MCUA方案应用于匹配器的体系结构zi=0的情况。5(x i− y i),如果|x i− y i|<1|x i− y i|-0。5、其他(八)PSM-Net中的代价计算。在输入到网络之前,每幅原始图像首先被彩色非线性处理其中xi和yi分别表示每个像素i的基础真值和预测差异三个中间监督的损失权重分别为0.5、0.7和1.0,与PSM-Net [2]相同5. 实验我们在三个数据集上测试了我们提出的模型,并将其与最先进的架构进行了比较。5.1. 实现细节我们使用PyTorch实现了我们提出的模型,并在四个NVIDIA TITAN Xp GPU上进行了实验。数据集我们采用了三个公开可用的数据集进行训练和测试:Scene Flow数据集[15]包含960 × 540像素分辨率的立体图像,其中35454用于训练,4370用于测试,所有图像对都是由各种合成序列呈现,即,FlyingTh-ings3D、Driving和Monkaa。KITTI 2015/2012数据集包括KITTI 2015数据集[16](1242×375像素分辨率的200个训练场景和200个测试场景)和KITTI 2012数据集[5](1242 ×375像素分辨率)。这些图像是通过驾驶在农村和高速公路上。对于两个KITTI训练集,我们使用160个图像对进行训练,其余的用于验证。培训EMCUA的培训过程包括两个步骤。第一步是训练更新后的模型,然后随机裁剪成256×512分辨率的补丁。网络使用Adam(自适应矩估计)进行端到端优化,β1为0.9β2为0.999。批量大小和最大视差(D)分别设置为8和192像素。我们首先在Scene Flow数据集上训练MCUA,固定学习率为0.001,持续20个epoch,然后在KITTI 2015/2012数据集上微调网络,步进学习率为0.01对于600个时期,0.0001对于另外400个时期。此外,对于场景流数据集,我们将训练扩展到70个epoch以获得最终结果。第二步是训练EMCUA,其中在MCUA的末尾添加残差模块。我们首先使用KITTI2015/2012数据集上MCUA的训练参数在Scene Flow数据 集 上 训 练EMCUA 1 个 epoch , 然 后 继 续 在 KITTI2015/2012数据集上微调EMCUA,重新编译。EMCUA培训中的参数设置与MCUA培训中的参数设置相同。验证/测试如图所示。2、选择三个输出中的最后一个输出作为整个网络的最终结果,并在场景流测试和KITTI 2015/2012验证集上评估MCUA和EMCUA的性能。为了实现估计,基于地面实况,我们分别计算场景流测试集和KITTI 2015/2012验证集的每个历元结果的终点误差和3个像素误差完成估计后,我们使用误差最小的训练参数来预测结果误差输入误差结果输入3289表3. KITTI2012结果>2像素Mod全部Noc>3像素全部Noc>4像素全部Noc>5像素全部NocME(px)的AASegStereo 2.66 3.191.68 2.03 1.25 1.52 1.00 1.210.5 0.6iResNet2.69 3.34 1.71 2.16 1.30 1.63 1.06 1.320.5 0.6GC-Net2.71 3.46 1.77 2.30 1.36 1.77 1.12 1.460.6 0.7PSM网络 2.44 3.01 1.49 1.89 1.12 1.42 0.90 1.150.5 0.6MCUA2.07 2.64 1.30 1.70 0.98 1.29 0.80 1.040.5 0.5EMCUA2.02 2.56 1.26 1.64 0.95 1.24 0.76 0.990.4 0.5“““我 们 在 KITTI 2015/2012 测 试 集 上 将 EMCUA 和MCUA与PSM- Net和其他最近发表的方法进行了比较。评估结果(由KITTI服务器报告)见表1。2、Tab 。 3 、 再 循 环 。 在 KITTI 2015/2012 数 据 集 上 ,EMCUA的总体三像素误差为2.09%/1.64%,与PSM-Net相比降低了9.9%/13.2%,而MCUA的总体三像素误差 为 2.14%/1.70% , 与 PSM-Net 相 比 降 低 了7.8%/10.1%。结果表明,EMCUA和MCUA都优于最先进 的 方 法 ( 即 ,SegStereo ) , 性 能 增 益 主 要 来 自MCUA方案。此外,如Tab. 2、在KITTI 2015数据集上 , EMCUA 的 前 地 / 背 景 的 整 体 三 像 素 误 差 为4.27%/1.66%结果表明,残差模块主要用于提高前景的准确性更进一步,Fig。图5和图6分别说明了EMCUA在KITTI 2015/2012数据集上生成的最终结果的一些示例。(a) 我们(b) PSM-Net5.3.场景流数据集我们知道,EMCUA是在MCUA的末尾增加残差模块的更新模型,其目的是提高MCUA的性能。为了说明MCUA方案的应用效果,我们只在场景流测试集上将MCUA与PSM-Net等四种现有方法进行了如Tab.所示4、MCUA的终点误差为0.56像素,比PSM-Net提高了50%,性能优于最先进的方法。两个测试示例如图所示7,如蓝色框所示图6.KITTI 2012数据集中我们的模型和PSM-Net的结果场景流测试集Mod.EPEMod.EPEMod.EPEMCUA0.56PSM-Net [2]1.09StereoNet [10]1.10CRL. [18个国家]1.32iResNet [11]1.40[24]第二十四话1.45Mod. :模型;EPE:终点误差;KITTI 2015/2012测试集的视差图,并将结果提交给KITTI评估服务器进行竞争。在确认和测试MCUA和EMCUA的性能时,批量设置为45.2. KITTI 2015/2012数据集上的性能与仅由合成场景组成的Scene Flow数据集[15]相比,KITTI 2015/2012数据集[16,5]包含从城市,农村和高速公路等场景中收集的真实世界图像数据,这对算法评 估 具 有 更 高 的 可 信 度 。 因 此 , 我 们 选 择 KITTI2015/2012数据集来评估应用MCUA方案和附加残差模块对性能改善的贡献应用超聚集方案有助于模型学习鲁棒的上下文信息,并准确地预测视差,特别是对于重叠的对象。6. 模型设计分析在本节中,我们定性地评估MCUA方案。我们首先在Scene Flow训练数据集上用20个epoch训练模型,然后在KITTI 2015训练集上用1000个epoch进行微调我们在Scene Flow验证集和KITTI2015验证集上评估生成的6.1. 聚合方案第一个实验在Tab。5比较了MCUA与DenseNets [8]和DLA [25]的立体匹配,通过用三个聚集方案替换PSM-Net的2-D CNN分支。从Tab。5,我们可以看到MCUA的性能明显优于DenseNets和DLA。我们还观察到,MCUA能够有效地学习上下文信息,并提高视差图的清晰度和准确性(图11)。(七).此外,MCUA超越-误差结果输入误差结果输入3290输入地面实况MCUAPSM-Net图7. MCUA在场景流数据集上产生最先进的性能。左列示出立体图像的左图像。第二个显示了地面真实差异。第三个是我们的方法的预测。第四个显示了PSM-Net产生的差异[2]。表5.消融研究Mod.场景流KITTI2015 Para.>1px >3px >5pxEPE VE(%)聚合模式PSM-Net–––1.1191.835.22MDenseNets8.5263.3292.2860.7941.6985.27MDLA8.5863.3372.2800.8061.6855.32MMCUA7.8853.1082.1480.7581.5795.31M架构组件内原8.1853.1532.1470.7551.6355.39M迟8.1333.2422.2260.7771.6425.29MDenPool8.1873.1872.1790.7611.6285.31MMCUA7.8853.1082.1480.7581.5795.31M> t px:EPE; VE:三像素误差;段参数的数量。通过聚合更丰富的上下文而不显著增加计算负担来形成普通模型。6.2. MCUA的影响选项卡. 5显示了几个控制实验的结果,这些实验用于评估MCUA方案的每个部分。在第一个消融研究中,我们解开了MCUA中子模块和分支(a)之间的关系,这意味着分支(a)不与子模块共享参数。这个新模型被称为UChi。如Tab.所示。5、解绑后Uchi的参数数虽然增加了0.08M,但性能与原MCUA相比没有明显第二个消融模型Chi仅通过移除图1中的虚线但保留彩色线来将网络上的层内组合应用于PSM-网络中的匹配成本计算。3.第三章。如Tab.所示。5、Chi算法的性能较原MCUA算法有所下降,说明通过子模块进行的层间组合对整个模型的性能有重要贡献。第三个消融模型密集地连接主干本身的所有阶段。我们使用池操作来匹配不同尺度的特征由此产生的架构表示为DenPool。从Tab上看清楚。5,使用独立的子模块(即,MCUA)比不使用它(即,DenPool)。因此,层内特征聚集不足以捕获足够的上下文信息。然而,我们的独立子模块引入了层间特征聚合,扩大了感受野,捕获了更多的上下文信息,改善了成本体积,从而获得了更好的立体匹配结果。7. 结论在本文中,我们提出了一个通用的功能聚合方案,MCUA,它包含内部和层间的功能聚合,而DenseNets和DLA只包含层内聚合。我们将这些模型公式化为高阶RNN,以清楚地显示这种差异。我们使用一个独立的子模块来引入层间聚集,这扩大了感受野并捕获更多的上下文信息。实验结果证明了MCUA方案在上下文学习中的有效性。我们的方法在场景流数据集和KITTI 2015/2012基准测试中的表现优于最先进的方法。在未来的工作中,我们计划对软argmin操作的改进进行探索,这是立体匹配的另一个限制。鸣谢。 这项研究是支持国家自然科学基金项目(No.61731003,No.61572264)、国家青年人才支持计划项目、天津市自然科学基金项目(17 JCJQJC43700,18 ZXZNGX 00110)和基础-中央高校科研经费(南开大学,NO. 63191501)。3291引用[1] S. T. Barnard和M.A. 菲施勒 计算立体声。ACM Computing Surveys ( CSUR ) , 14 ( 4 ) : 553-572,1982. 2[2] J. - R. Chang和Y. S.尘金字塔立体匹配网络。在IEEEConf. Comput.目视模式识别,第5410-5418页,2018年。一二三六七八[3] Y. Chen,J. Li,H. Xiao,X. Jin,S. Yan和J. Feng.双路径网络。在高级神经信息。过程系统,第4467-4475页,2017年。二、三[4] J. Fu,J.Liu,Y.Wang,J.Zhou C.,中国青冈C.Wang和H. 陆 用 于 语 义 分 割 的 堆 叠 去 卷 积 网 络 。 IEEETransactions on Image Processing,2019。1[5] A. Geiger,P. Lenz,和R.盖革,等.乌塔松我们准备好了吗?Kitti Vision基准套件。在IEEE Conf. Comput.目视模式识别,2012年。六、七[6] K. 他,X。Zhang,S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔IEEE传输模式分析马赫内特尔,37(9):1904-1916,2015. 2[7] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE Conf. Comput.目视模式识别,第770-778页,2016年。1[8] G. Huang,Z.柳湖,加-地Van Der Maaten和K.Q. 温伯格密集连接的卷积网络。在IEEE会议Comput. 目视模式识别,第1卷,第3页,2017年。一、二、七[9] A.肯德尔H.Martirosyan,S.达斯古普塔P.亨利,R. Kennedy,A. Bachrach,和A.小布深度立体回归的几何和上下文的端到端学习。在国际会议计算中目视,第66-75页,2017年。一、二、五、六[10] S. Khamis,S.法内洛角Rhemann、A.Kowdle,J.Valentin和S.伊扎迪Stereonet:实时边缘感知深度预测的引导分层细化。以Eur.会议软件。目视,第573-590页,2018年。二、七[11] Z. Liang,Y.冯,Y. G. H. L. W. Chen和L. Q. L. Z.张杰。通过特征恒定性学习视差估计。 在IEEE会议Comput. 目视模式识别,第2811-2820页一、二、七[12] Q. Liao和T.波焦弥合残余学习、递归神经网络和视觉皮层之间的差距。arXiv预印本arXiv:1604.03640,2016年。2[13] M. 林角,澳-地Chen和S.燕. 网络中的网络 在Int.会议学习。代表。,第1-10页,2014年。4[14] W. Luo,中国茶条A.G. Schwing和R.乌塔松用于立体匹配的高效深度学习 在IEEE会议Comput. 目视模式识别第5695-5703页,2016年。一、二[15] N. 迈尔E. Ilg,P.豪塞尔,P. Fischer,D. 克雷默斯A. Dosovitskiy和T.布洛克斯一个大型数据集,用于训练视差、光流和场景流估计的卷积网络在IEEE Conf.Comput.目视模式识别,第4040-4048页,2016年。一、二、六、七[16] M. Menze和A.盖革自动驾驶车辆的对象场景流在IEEEConf. Comput.目视模式识别,第3061-3070页,2015年。六、七[17] A. E. Orhan和X.皮特科跳跃连接消除奇异性。 在Int.Conf. 学习. 代表。,第113292[18] J. Pang,W. Sun,J.S.伦角,澳-地Yang和Q.燕.级联剩余学习:用于立体匹配的两级卷积神经网络。在IEEEConf. Comput.目视模式识别,第7卷,2017年。二、七[19] H. Park和K. M.李你用卷积神经网络来匹配图像补丁。IEEE Signal Processing Letters , 24 ( 12 ) : 1788-1792,2017。2[20] D. Scharstein和R.塞利斯基密集两帧立体对应算法的分类与评估 Int. J.Comput.目视,47(1-3):7-42,2002. 2[21] A. Shaked和L.狼改进的立体匹配与恒定的高速公路网络和反射的信心学习。在IEEE Conf. Comput.目视模式识别,第4641- 4650页,2017年。2[22] R. Soltani和H. 蒋高阶递归神经网络。arXiv预印本arXiv:1605.00064,2016。2[23] X.宋,X。Zhao,H. Hu和L.房.边缘立体:一种用于立体匹配的上下文集成残差金字塔网络ACCV,2018年。2[24] G. Yang,H. Zhao,J. Shi,Z. Deng和J.贾Segstereo:利用语义信息进行视差估计。以Eur.确认补偿目视,第1-16页,2018年。二、七[25] F. Yu,D. Wang,中国山核桃E. Shelhamer和T.达雷尔。深层聚合。在IEEE Conf. Comput.目视模式识别,第2403-2412页,2018年。一、二、三、七[26] S. Zagoruyko和N.小木通过卷积神经网络学习比较图像块。在IEEE Conf. Comput.目视模式识别,第4353-4361页一、二[27] Zbontar和Y.乐存。用卷积神经网络计算立体匹配代价在IEEE会议Comput. 目视模式识别第1592-1599页,2015年2[28] J. Zbontar和Y.乐存。通过训练卷积神经网络来比较图像 块 的 立 体 匹 配 Journal of Machine LearningResearch,17(1-32):2,2016. 1[29] Y. Zhang, Y.田氏Y.孔湾,澳-地Zhong和Y. Fu.用于图像超分辨率的残差稠密网络。在IEEE Conf. Comput.目视模式识别,第2472-2481页,2018年。1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功