没有合适的资源?快使用搜索试试~ 我知道了~
3273分组相关立体网络郭晓阳1杨凯2杨武奎2王晓刚1李洪生11香港中文大学2商汤科技{xyguo,xgwang,hsli}@ ee.cuhk.edu.hk{yangkai,yangwukui}@ sensetime.com摘要立体匹配是对一对矫正后的图像进行视差估计,对于深度感知、自动驾驶等相关任务具有重要意义先前的工作通过跨所有视差水平的左特征和右特征的互相关或连接来构建成本量在本文中,我们提出了构建成本量的组明智的相关性。沿通道维度将左特征和右特征划分为组,并且计算每组之间的相关映射以获得多个匹配成本建议,然后将其打包成成本卷。分组相关提供了有效的表示方法来测量特征相似性,并且不会像完全相关那样丢失太多信息。与以前的方法相比,它在减少参数时也保持了更好的性能。本文对前人提出的3D堆叠沙漏网络进行了改进,提高了网络的性能,降低了推理计算量。实验结果表明,我们的方法优于以前的方法场景流,KITTI 2012,和KITTI 2015数据集。该代码可从https://github.com/xy-guo/GwcNet1. 介绍准确的深度感测在许多计算机视觉应用中起着重要作用,如里程计,机器人导航,姿态估计和物体检测[10,28,6,16]。与单目深度估计[3,5]或主动深度感测[24]不同,立体匹配通过匹配来自由两个相机捕获的校正图像对的像素来估计深度。传统的立体管道通常由以下四个步骤中的全部或部分组成:匹配成本计算、成本聚合、视差优化和后处理[23]。匹配代价计算为左图像块和可能对应的右图像块提供初始相似性度量,是立体匹配的关键步骤。常见的匹配成本包括绝对值差分(SAD)、平方差和(SSD)和归一化互相关(NCC)。成本聚合和优化步骤结合上下文匹配成本和先验以获得更鲁棒的视差预测。基于学习的方法探索不同的特征表示和匹配成本的聚合算法。DispNetC [19]根据左右图像特征计算相关体积GC-Net [9]和PSMNet [2]构建基于级联的特征体积,并结合3D CNN来聚合上下文特征。也有作品[1,25]试图从多个手工制作的匹配成本提案中汇总证据。然而,上述方法具有若干缺点。全相关[19]提供了一种有效的方法来测量特征相似性,但它丢失了很多信息,因为它只为每个视差水平产生单通道相关图级联卷[9,2]需要以下聚合网络中的更多参数[1,25]仍然使用传统的匹配成本,无法进行端到端优化。在本文中,我们提出了一种简单而有效的操作,称为组相关来解决上述缺点。多层次的一元特征提取形成对于左-左-右-右右图像对。 然后,将要素拆分为多个沿着通道维度将第i个左特征组与对应的第i个最后,将所有相关图打包以形成4D成本体。一元特征可以被视为结构化向量组[32],因此特定组的相关性图可以被视为匹配成本建议。通过这种方式,与[9,2]相比,我们可以利用传统相关匹配成本的力量,并为以下3D聚合网络提供更好的相似性多个匹配成本建议还避免了像完全相关[19]那样的信息损失。对PSMNet [2]中提出的3D堆叠沙漏聚合网络进行了改进,以进一步提高性能并降低推理计算成本。3274在每个沙漏模块内的捷径连接中使用了1×1×1三维卷积,而没有增加太多的计算量。我们的主要贡献可归纳如下。1)我们提出了分组相关性来构建成本卷,以提供更好的相似性度量。2)改进了堆叠的3D沙漏精化网络,以在不增加推理时间的情况下提高3)我们的方法在场景流,KITTI 2012和KITTI 2015数据集上实现了比以前的方法更好的性能4)实验结果表明,当限制计算量时,SGM-Nets [26]为SGM提供学习惩罚Kno- Belreiter等。[14]建议结合CNN预测的相关匹配成本和CRF整合远程交互。在DispNetC(Mayeret al. [19]),有很多工作直接从视差成本量回归视差图[22,17,29,33]。鉴于左和右特征映射fl和fr,相关成本体积为对于每个视差等级D计算,1C (d,x,y)=<$f(x,y),f(x-d,y)<$,(1)3D聚合网络的成本、性能我们提出的网络的减少比CorrNcL r以前的PSMNet,这使得分组相关成为在实时立体声网络中实现的有价值的方式。2. 相关工作2.1. 传统方法通常,传统的立体匹配由以下四个步骤中的全部或部分组成:匹配成本计算、成本聚合、视差优化和一些后处理步骤[23]。在第一步中,所有像素的匹配成本计算所有可能的差异。常见的匹配代价包括绝对差和 ( SAD ) 、 平 方 差 和 ( SSD ) 、 归 一 化 互 相 关(NCC)等。局部方法[37,34,20]探索不同的策略来聚合与相邻像素的匹配成本,并且通常利用赢家通吃(WTA)策略来选择具有最小匹配成本的视差。相比之下,全局方法最小化目标函数以求解最佳视差图,其通常考虑匹配成本和平滑度先验,例如置信度传播[30,13]和图切割[15]。半全局匹配(SGM)[7]用动态规划近似全局优化。局部和全局方法可以组合以获得更好的性能和鲁棒性。2.2. 学习方法除了手工制作的方法,研究人员还提出了许多学习匹 配成 本 [36, 18 ,27]和 成本 聚 合算 法[1 , 25]。Zbontar和Lecun [36]首先提出使用神经网络计算匹配成本预测的匹配成本,然后处理与传统的基于交叉的成本聚合和半全局匹配,以预测视差图。在[18]中,通过关联一元特征加速了匹配成本计算。Batsos等人提出了CBMV [1],以结合来自多个基本匹配成本的证据。Schonberger等人[25]提出用随机森林分类器对扫描线匹配代价候选进行分类。Seki等人提出其中,是两个特征向量的内积,Nc表 示 通 道 的 数 量 。CRL [22]和iRes-Net [17]遵 循DispNetC的思想,使用堆栈细化子网络进一步提高性能。还有一些作品集成了额外的信息,如边缘特征[29]和语义特征[33]。最近的工作采用了基于级联的特征体积和3D聚合网络,以实现更好的上下文聚合[9,2,35]。Kendall等人提出了GC-Net [9],并且是第一个使用3D卷积网络来聚合成本量上下文的人。 而不是直接给出一个成本体积,左和右特征fl,fr被连接为了形成4D特征体积,Cconcat(d,x,y,·)= Concat {fl(x,y),fr(x-d,y)}. ( 二)利用3D卷积网络从相邻像素和视差聚集上下文特征以预测视差概率量。继GC-Net之后,Changet al. [2]提出了金字塔立体匹配网络(PSMNet)的空间金字塔池模块和堆叠的3D沙漏网络的成本体积细化。Yu等人[35]建议生成和选择多个成本汇总建议。Zhong等[38]提出了一种自适应递归立体模型来处理开放世界数据。LRCR [8]利用左右一致性检查和递归模型来汇总[27]预测的成本量,并改进不可靠的差异预测。还有其他作品专注于实时立体匹配[11]和应用友好立体[31]。3. 分组相关网络我们提出了分组相关立体网络(GwcNet),它扩展了PSMNet [2],具有分组相关成本体积和改进的3D堆叠沙漏网络。3.1. 网络架构所提出的分组相关网络的结构如图1所示该网络由四个3275ConcatLEURRConcat图1:建议的分组相关网络的管道。整个网络由四个部分组成,一元特征提取,成本体积构建,3D卷积聚合和视差预测。成本量被分为两部分,级联量(Cat)和分组相关量(Gwc)。串联体积是通过串联压缩的左和右特征来构建的。分组相关体积在第3.2节中描述。3D转换3D转换,步幅23D解转换输出模块33D转换器,内核1输出模块0输出模块1输出模块2图2:我们提出的3D聚合网络的结构。该网络由一个前沙漏模块(开始时有四个卷积)和三个堆叠的3D沙漏网络组成。与PSMNet [2]相比,我们去掉了不同沙漏模块与输出模块之间的快捷连接,从而在推理过程中可以去掉输出模块0,1,2,以节省时间。1×1×13D卷积被添加到沙漏模块内的快捷连接。部件、一元特征提取、成本体积构建、3D聚合和视差预测(详见表1)。对 于 特 征 提 取 , 我 们 采 用 PSMNet [2] 中 使 用 的ResNet类网络,具有半膨胀设置,并且没有空间金字塔池化模块。conv2、conv3和conv4的最后一个特征图被连接以形成320通道一元特征图。成本量由关联量和分组关联量两部分组成。级联体积与PSMNet [2]相同,但通道较少,在此之前,一元特征被压缩为12个通道,具有两个卷积。将在第3.2节中详细描述提议的分组相关体积。然后,这两个体积被合并为3D聚合网络的输入。3D聚合网络用于聚合来自相邻视差和像素的特征,其由前沙漏模块和三个堆叠的3D沙漏网络组成。如图2所示,前沙漏模块由四个3D卷积组成,具有批处理规范化和ReLU。三个堆叠的3D沙漏网络之后,通过编码器-解码器结构来细化低纹理模糊性和遮挡部分较[2]的3D聚合网络,我们有几个重要的修改,以提高性能和提高推理速度,细节在第3.3节中描述。前沙漏和三个堆叠的3D沙漏网络连接到输出模块。每个输出模块预测视差图。输出模块的结构和损失函数在第3.4节中描述。3.2. 分组相关体积左一元特征和右一元特征用fl和fr表示,具有Nc个通道,尺寸为原始图像的1/4在以前的作品[19,9,2],左并且右特征在不同的视差水平处被相关或连接以形成成本量。然而,相关卷和级联卷都有缺点。全相关法提供了一种有效的特征相似性度量方法,但由于它只为每个视差级产生一个单通道相关图,因此损失了大量的信息。连接卷不包含关于特征相似性的信息,因此在以下聚合网络中需要更多的参数来从头开始学习相似性度量函数。为了解决上述问题,我们提出了分组相关Concat体积共享权重组合体积3D聚合网络组-校正体积3276R通过结合级联体积和相关体积的优点。分组相关背后的基本思想是将特征分成组并逐组计算相关图。我们将一元特征的通道表示为Nc。所有通道沿通道维度均匀划分为Ng个组,每个特征组-G成本量沙漏前FRE具有Nc/Ng通道。第g个特征群fl,fgcongNc,gNc+1,. . . ,g Nc+(Nc− 1)th通道沙漏模块1、2、3NgNgNgNg原始特征fl,fr. 组间相关性为然后计算为Cgwc(d,x,y,g)=1<$fg(x,y),fg(x-d,y)<$,(3)Nc/Ngl r其中,π·,·π是内积。注意,针对所有特征组g并且在所有视差水平D. 然后,将所有相关图打包成形状为[Dmax/4,H/4,W/4,Ng]的匹配成本体积,其中Dmax表示最大视差,Dmax/4对应于特征的最大视差。当Ng=1时,组相关性变为全相关性。输出模块0、1、2、3分组相关体积Cgwc可以被处理为:Ng 成本量提案, 每一项提案都是从相应的功能组中提取。以下3D聚合网络聚合多个候选以回归视差图。分组关联成功地充分利用了传统关联匹配成本的优势,并为3D聚合网络提供了丰富的相似性度量特征,满足了参数需求。我们将在第4.5节中展示,我们探索减少3D聚合网络的通道,并且我们提出的网络的性能降低比[2]小得多。我们提出的分组相关体积需要更少的3D聚合参数,以实现favorable结果。为了进一步提高性能,可以将组级联成本量与级联量组合。实验结果表明,所得到的分组相关体积和级联体积是完全相同的。3.3. 改进的3D聚合模块在PSMNet [2]中,提出了一种堆叠的沙漏架构来学习更好的基于网络工作,我们应用了几个重要的修改,使其适合于我们提出的组明智的相关性,提高推理速度。所提出的3D聚合的结构在图2和表1中示出。1) 首先,我们在前沙漏模块之后再添加一个辅助输出模块(参见图2中的输出模块0)。额外的辅助损失使网络在较低层学习更好的特征,这有利于最终的预测。(2)不同外部环境之间的残余联系表1:模块的结构细节。H,W表示输入图像的高度和宽度。S1/2表示卷积步长。如果未指定,则每个3D卷积都具有批归一化和ReLU。* 表示不包括ReLU。**仅表示卷积。通过去除put模块,可以在推理过程中去除辅助输出模块(输出模块0,1,2),节省计算成本。 3)在每个沙漏模块内的快捷连接中添加了1×1×13D卷积(见图2中的虚线),以提高性能,而不会增加太多计算成本。由于1×1×1三维卷积的乘法运算量仅为3×3×3卷积的1/27,因此运算速度非常快,时间可以忽略不计。3.4. 输出模块和损失函数对于每个输出模块,采用两个3D卷积来生成1通道4D体积,然后对体积进行上采样并沿着视差维度使用softmax函数转换为概率体积。详细结构示于表1中。对于每个像素,我们有一个D最大长度向量,其中包含概率p用于所有视差L值。然后,给出了误差估计的方法,名称图层属性输出大小conv1【32×32、3×3×3、S1】×2D/4×H/4 ×W/4 ×32conv2【32×32、3×3×3、S1】×2D/4×H/4 ×W/4 ×32输出conv1、conv2:添加D/4×H/4 ×W/4 ×32一元信用证不适用,S2高/4×宽/4 ×320体积g分组成本量D/4×H/4 ×W/4 ×40体积c串联成本量D/4×H/4 ×W/4 ×24体积体积g,体积c:ConcatD/4×H/4 ×W/4 ×64输入N/AD/4×H/4 ×W/4 ×32Conv1a32×64、3×3×3、S2D/8×H/8 ×W/8 ×64conv1b64×64、3×3×3、S1D/8×H/8 ×W/8 ×64conv2a64×128,3×3×3,S2D/16×H/16 ×W/16×128Conv2b128×128,3×3×3,S1D/16×H/16 ×W/16×128deconv1*128×64,3×3×3,S2,去卷积D/8×H/8 ×W/8 ×64快捷方式1 *conv1b:64×64,1×1×1,S1D/8×H/8 ×W/8 ×64加1deconv1,shortcut1:添加ReLUD/8×H/8 ×W/8 ×64输入N/AD/4×H/4 ×W/4 ×32conv132×32、3×3×3、S1D/4×H/4 ×W/4 ×32conv2**32×1、3×3×3、S1D/4×H/4 ×W/4 ×1评分上采样长×高×宽×1probSoftmax(视差维度)长×高×宽×1视差Soft Argmin(Equ. 四、高×宽×13277i L1i模型Concat体积组校正体积堆叠沙漏组×渠道Init容积通道>1px(%)>2px(%)>3px(%)EPE(px)时间(毫秒)Cat64-基础C-6412.788.056.331.308117.1Gwc 1-基础C1×320113.328.376.621.369104.0Gwc 10-基础C10×321011.827.315.701.230112.8Gwc 20-基础C20×162011.847.295.671.216116.3Gwc 40-基础C40×84011.687.185.581.212122.2Gwc 80-基础C80×48011.697.175.571.214133.3Gwc 160-底座C160×216011.587.085.491.188157.3Gwc 40-Cat 24-底座CC40×8四十+二十四11.266.875.311.127135.1PSMNet [2]C[二]《中国日报》-649.465.193.800.887246.1Cat64-original-hgC[二]《中国日报》-649.475.133.740.876241.0Cat64C我们-648.414.633.410.808198.3Gwc40(GwcNet-g)C我们40×8408.184.573.390.792200.3Gwc40-Cat24(GwcNet-gc)CC我们40×8四十+二十四8.034.473.300.765210.7表2:在最终通过场景流量数据集上拟定网络的消融研究结果[19]。Cat、Gwc、Gwc-Cat仅表示级联体积、仅表示分组相关体积或两者。Base表示没有堆叠沙漏网络的网络变体。时间是在单个Nvidia TITAN Xp GPU上480×640输入的推断时间。PSMNet [2]的结果是用已发布的代码进行训练的,其中包含我们的批量大小和评估设置,以进行公平比较。4. 实验表3:我们的网络在KITTI 2012确认和KITTI 2015确认集上的消融研究结果。由软argmin函数给出[9],Dmax−1d=k·pk,(4)k=0其中k和pk表示可能的视差水平和相应的概率。预测的视差图来自这四个输出模块被表示为D10、D11、D12、D13。最终损失由下式给出,i=3L=λ·平滑 (d−d),(5)i=0时其中λi表示用于第i视差预测的系数,并且λi表示地面实况视差图。平滑L1损失计算如下,模型KITTI 12EPE(px)KITTI 12D1-所有(%)KITTI 15EPE(px)KITTI 15D1-所有(%)PSMNet [2]0.7132.530.6391.50Cat64-original-hg0.7402.720.6521.76Cat640.6912.410.6151.55公司简介0.6622.300.6021.413278在本节中,我们在场景流数据集[19]和KITTI数据集[4,21]上评估我们提出的立体模型。数据集和实施细节见第4.1节和第4.2节。第4.3节探讨了分组相关性的有效性和最佳新的堆叠式沙漏模块的性能改进在第4.4节中讨论。在4.5节中,我们还探讨了计算成本受限时组相关性的表现4.1. 数据集和评价指标场景流数据集是合成立体数据集的数据集集合,包括Flyingthings3D、Driving和Monkaa。这些数据集提供了35,454张训练图像和4,370张测试图像,大小为960×540,具有准确的地面真实视差图。我们使用场景流数据集的Finalpass,因为它包含更多的运动模糊和散焦,并且比Cleanpass更像真实世界的图像。KITTI2012和KITTI 2015是驾驶场景数据集。KITTI 2012提供194个训练图像对和195个测试图像对,KITTI 2015提供200个训练图像对和200个测试图像对。这两个数据集都为训练图像提供了稀疏的LIDAR地面真实视差。对于场景流数据集,评估度量通常是端点误差(EPE),其是以像素为单位的平均视差误差。2012年KITTI,平滑L1(x)=.0的情况。5x2,如果|X|<1|-0。| − 0. 5、否则(六)报告未被遮挡(Noc)和所有(All)像素的错误像素和平均端点误差对于KITTI 2015,评估了视差异常值D1的百分比3279用于背景、前景和所有像素。离群值被定义为视差误差大于max(3 px,0. 05d),其中d表示地面实况视差。4.2. 实现细节我们的网络是用PyTorch实现的。我们使用Adam[12]优化器,β1=0。9,β2=0。999批量大小固定为16,我们使用8个Nvidia TITAN Xp GPU训练所有网络,每个GPU上有2个训练样本四个输出的系数被设置为λ0= 0。5,λ1=0。5,λ2=0。7,λ3= 1。0的情况。对于场景流数据集,我们训练立体网络1.81.61.41.21.00.8Cat(Concat体积)Gwc-Cat(Groupwise-corr Concat)32(奥里)16 8 4 23D网络16个时期。学习率被设置为0.001,并且在时期10、12和14之后按比例缩小2。为了在Scene Flow数据集上进行测试,将大小为960×540的完整图像输入到网络中进行视差预测。我们将最大视差值设置为Dmax=192,遵循场景流数据集的PSMNet [2]。为了评估我们的网络,我们删除了测试集中有效像素小于10%(0≤d Dmax)的所有图像对于每个有效图像,仅利用有效像素来计算评估对于KITTI 2015和KITTI 2012,我们对在场景流数据集上预训练的网络进行了另外300个时期的微调。初始学习率为0.001,并且在时期200之后按比例缩小10。为了在KITTI数据集上进行测试,我们首先在图像的顶部和右侧填充零,以使输入大小为1248×384。4.3. 分组相关的有效性在本节中,我们将探讨组相关性的有效性和最佳设置为了证明所提出的分组相关性卷的有效性,我们在Base模型上进行了几次实验,该模型去除了堆叠的沙漏网络,仅保留了前沙漏模块和输出模块0. Cat-Base、Gwc-Base和Gwc-Cat-Base是仅具有级联体积、仅具有逐组相关体积或具有这两种体积的基本模型。表2中的实验结果表明,Gwc-Base网络的性能随着组数的增加而增加当组数大于40时,每像素的改善变得很小,并且终点误差保持在1.2px左右。考虑到内存使用和计算成本,我们选择40个组,每组具有8个通道作为我们的网络结构,其对应于表2中的Gwc 40-Base除Gwc1-Base模型外,所有Gwc-Base模型的性能均优于使用级联体积的Cat-BaseGwc 40模型使端点误差降低了0.1px,3像素误差率降低了0.75%,而时间消耗几乎相同。表演可以是皮毛-图3:我们的模型Gwc-Cat实现了更好的每-当通道数减少时,比Cat更快具有32个基本通道的模型对应于Cat64模型(级联体积)和Gwc 40-Cat 24模型(分组相关性和级联体积)。成本体积和所有3D卷积的通道以与基础通道相同的因子减少。通过将组间相关体积与连接体积相结合,可以改进其他方法(参见表2中的Gwc 40-Cat 24-Base分组相关可以提供准确的匹配特征,并且连接体积提供补充的语义信息。4.4. 一种改进的叠式沙漏在本文中,我们对[2]中提出的堆叠沙漏网络进行了一些修改,以提高成本体积聚合的性能。从表2和表3中,我们可以看到,与Cat64-original-hg模型(具有[2]中 的 沙 漏 模 块 ) 相 比 , 具 有 所 提 出 的 沙 漏 网 络(Cat64)的模型在Scene Flow数据集上增加了7.8%的EPE , 在 KITTI 2015 上 增 加 了 5.8% 在 单 个 NvidiaTITAN Xp GPU上进行640×480输入的推理时间也减少了42.7ms,因为在推理过程中可以删除辅助输出模块以节省时间。4.5. 限制3D网络的计算成本我们探索通过减少3D聚合网络中的通道来限制计算成本,以验证所提出的分组相关性的有效性。结果如图3所示。通道的基数从原来的32个修改为2个,成本体积和所有3D卷积的通道以相同的因子减少。随着通道数量的减少,我们的模型与组的相关体积(Gwc-Cat)比只有级联体积(Cat)的模型表现得更好。性能增益随着通道减少而扩大。这是因为,群体智慧EPE/px3280(a) 场景流数据集上的可视化结果(b) KITTI 2012数据集的可视化结果。(c) KITTI 2015数据集的可视化结果。图4:场景流[19],KITTI 2012 [4]和KITTI 2015 [21]数据集测试集的深度可视化结果从左到右,输入左图像、预测视差图和误差图。3281全部(%)NOC(%)时间(s)D1-bgD1-fgD1-所有D1-bgD1-fgD1-所有DispNetC [19]4.324.414.344.113.724.050.06GC-Net [9]2.216.162.872.025.582.610.9[22]第二十二话2.483.592.672.323.122.450.47iResNet-i2e2 [17]2.143.452.361.943.202.150.22PSMNet [9]1.864.622.321.714.312.140.41SegStereo [33]1.884.072.251.763.702.080.6GwcNet-g(Gwc40)1.743.932.111.613.491.920.32表4:KITTI 2015测试集结果。数据集包含200张图像用于训练,200张图像用于测试。>2px(%)>3px(%)>5px(%)平均误差(px)时间(s)NOC所有NOC所有NOC所有NOC所有DispNetC [19]7.388.114.114.652.052.390.91.00.06[36]第三十六话3.905.452.433.631.642.390.70.967GC-Net [9]2.713.461.772.301.121.460.60.70.9iResNet-i2 [17]2.693.341.712.161.061.320.50.60.12SegStereo [33]2.663.191.682.031.001.210.50.60.6PSMNet [9]2.443.011.491.890.901.150.50.60.41GwcNet-gc(Gwc40-Cat24)2.162.711.321.700.801.030.50.50.32表5:KITTI 2012测试集结果。该数据集包含194张图像用于训练,195张图像用于测试。相关性为3D聚合网络提供了良好的匹配成本表示,而仅具有级联体积作为输入的聚合网络需要从头开始学习匹配相似性函数,这通常需要更多的参数和计算成本。因此,所提出的逐组相关可以是在计算成本有限的实时立体声网络中实现的有价值的方法4.6. KITTI 2012和KITTI 2015对于KITTI stereo 2015 [21],我们将训练集分为180个训练图像对和20个验证图像对。由于验证集上的结果并不稳定,我们对预训练的模型进行了3次微调,选择验证性能最好的模型从表3中可以看出,Gwc 40-Cat24和Gwc 40的性能均优于无组相关性的模型(Cat64,Cat64- original-hg)。我们将验证误差最小的Gwc40模型(无级联体)提交给评估服务器,测试集上的结果如表4所示。我们的模型在D1-all上超过PSMNet [2]0.21%,SegStereo [33] 0.14%。对于KITTI 2012 [4],我们将训练集分为180张训练图像和14张验证图像对。验证集的结果见表3。我们将验证集上的最佳Gwc 40-Cat 24模型提交给评估服务器。给出了测试集上的评估结果在表5中。我们的方法在3像素误差上超过PSMNet [2]0.19%,在平均视差误差上超过0.1px。5. 结论在本文中,我们提出了GwcNet估计disparity地图立体匹配,它结合了组相关建立成本卷。逐组相关体为3D聚合网络提供了良好的匹配特征,这提高了性能并降低了聚合网络的参数要求。我们表明,当计算成本是有限的,我们的模型实现了更大的增益比以前的级联体积为基础的立体声网络。我们还改进了堆叠沙漏网络,以进一步提高性能,减少推理时间。在场景流数据集和KITTI数据集上的实验证明了该方法的有效性。确认这项工作得到商汤科技集团有限公司的部分支持,部分由香港研究资助局的一般研究基金资助,资助额为CUHK14202217,CUHK14203118,CUHK14205615,CUHK14207814,CUHK14213616,CUHK14208417,香港中文大学14239816,部分由香港中文大学直接拨3282款。3283引用[1] 康 斯 坦 丁 诺 斯 · 巴 索 斯 , 蔡 长 江 , 菲 利 普 · 莫 多海.Cbmv:用于视差估计的合并的双向匹配体积。在IEEE计算机视觉和模式识别会议论文集,第2060- 2069页[2] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集,第5410- 5418页[3] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展,第2366-2374页,2014年[4] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。在计算机视觉和模式识别会议中,2012年。[5] Xiaoyang Guo,Hongsheng Li,Shuai Yi,Jimmy Ren,and Xiaogang Wang.通过提取跨域立体网络学习单眼深度。在欧洲计算机视觉会议(ECCV)的会议记录中,第484- 500页[6] SaurabhGupta,RossGirshick,PabloArbela' ez,andJiten-dra Malik.从rgb-d图像中学习丰富的特征用于目标检测和分割。欧洲计算机视觉会议,第345-360页Springer,2014.[7] 海科·赫希穆勒通过半全局匹配和互信息进行精确和高效的立体计算机视觉和模式识别,2005年。CVPR2005。IEEE计算机学会会议,第2卷,第807-814页。IEEE,2005年。[8] Zecqun Jie,Pengfei Wang,Yongen Ling,Bo Zhao,Yunchao Wei,Jiashi Feng,and Wei Liu.用于立体匹配的左右比较回流模型。在IEEE计算机视觉和模式识别会议集,第3838-3846页[9] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在IEEE计算机视觉国际会议论文集,第66-75页[10] ChristianKerl,JürgenSturm,andDanielCremers. rgb-d摄像机的反拍测距估计。在2013年IEEE机器人和自动化国际会议上,第3748-3754页。IEEE,2013。[11] Sameh Khamis , Sean Fanello , Christoph Rhemann ,Adarsh Kowdle , Julien Valentin , and Shahram Izadi.Stereonet:实时边缘感知深度预测的引导分层细化。在欧洲计算机视觉会议论文集(ECCV)中,第573-590页[12] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[13] 安德烈亚斯·克劳斯,马里奥·索尔曼,康拉德·卡纳。基于片段的立体匹配使用置信度传播和自适应相异性度量。第18届国际模 式 识 别 会 议 (ICPR'06 ) , 第 3 卷 , 第 15-18 页 。IEEE,2006年。[14] Patrick Knobelreiter 、 Christian Reinbacher 、 AlexanderShekhovtsov和Thomas Pock。用于立体声的cnn-crf混合模型的端到端训练。在IEEE计算机视觉和模式识别会议论文集,第2339-2348页[15] Kolmogorov和R.扎比使用图割计算具有遮挡的视觉对应。第八届IEEE计算机视觉国际会议论文集。ICCV2001,第2卷,第508-515页,2001年7月。[16] Hongyang Li,Bo Dai,Shaoshuai Shi,Wanli Ouyang,and Xiaogang Wang.用于目标检测的特征缠绕器。2019年,在ICLR[17] Zhengfa Liang,Yiliu Feng,Yulan Guo Hengzhu Liu WeiChen,and Linbo Qiao Li Zhou Jianfeng Zhang.通过特征恒定性学习视差估计。在IEEE计算机视觉和模式识别会议的论文集,第2811-2820页[18] Wenjie Luo,Alexander G Schwing,and Raquel Urtasun.用于立体匹配的高效深度学习。在IEEE计算机视觉和模式识别会议论文集,第5695-5703页[19] Nikolaus Mayer , Eddy Ilg , Philip Hausser , PhilippFischer , Daniel Cremers , Alexey Dosovitskiy , andThomas Brox.用于训练卷积网络的大型数据集,用于视差,光流和场景流估计。在IEEE计算机视觉和模式识别会议论文集,第4040-4048页[20] Xing Mei,Xun Sun,Weiming Dong,Haitao Wang,and Xiaopeng Zhang.基于分割树的立体匹配代价聚合。IEEE计算机视觉和模式识别会议论文集,第313-320页,2013年。[21] Moritz Menze和Andreas Geiger。自动驾驶车辆的目标场景流IEEE计算机视觉和模式识别会议论文集,第3061-3070页,2015年[22] Jiahao Pang , Wenxiu Sun , Jimmy SJ Ren , ChengxiYang,and Qiong Yan.级联剩余学习:用于立体匹配的两级卷积神经网络。在ICCV工作-商店,第7卷,2017年。[23] Daniel Scharstein和Richard Szeliski。密集两帧立体对应算法的分类和评价。国际计算机视觉杂志,47(1-3):7[24] Daniel Scharstein和Richard Szeliski。使用结构光的高精度立体深度图2003年IEEE计算机协会计算机视觉与模式识别会议,2003年。诉讼,第1卷,第I-I页IEEE,2003年。[25] Johannes L Schonberger , Sudipta N Sinha , and MarcPolle- feys. 学习在半全局匹配中融合来自多个扫描线优化的建议在欧洲计算机视觉会议(ECCV)的会议记录中,第739-755页[26] Akihito Seki和Marc Pollefeys。SGM-nets:Semi-globalmatching with neural networks.在Proceedings of the IEEE3284计算机视觉和模式识别会议,第231-240页[27] Amit Shaked和Lior Wolf改进的立体匹配与恒定的高速公路网络和反射的信心学习。在IEEE计算机视觉和模式识别会议论文集,第4641-4650页[28] Jamie Shotton , Ross Girshick , Andrew Fitzgibbon ,Toby Sharp , Mat Cook , Mark Finocchio , RichardMoore , Push-meet Kohli , Antonio Criminisi , AlexKipman,et al.从单个深度图像进行有效的人体姿态估计 。 IEEE transactions on pattern analysis and machineintelligence,35(12):2821[29] 萧嵩、赵旭、胡汉文、方良吉。Edgestereo:用于立体匹配的上下文集成残差金字塔网络。2018年亚洲计算机视觉会议(ACCV)[30] Jian Sun,Nan-Ning Zheng,and Heung-Yeung Shum.使用 置 信 度 传 播 的 立 体 匹 配 。 IEEE Transactions onPattern Analysis and Machine Intelligence,25(7 ):787-800,2003。[31] Stepan Tulyakov,Anton Ivanov,和Francois Fleuret.实用深度立体声(PDS):面向应用友好的深度立体匹配。神经信息处理系统的进展,第5875-5885页,2018年[32] Yuxin Wu和Kaiming He。组归一化。在欧洲计算机视觉会议(ECCV)的会议
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功