没有合适的资源?快使用搜索试试~ 我知道了~
128850WaveletStereo:学习立体匹配中视差图的小波系数0中国四川成都,四川大学航空航天学院,杨梦龙,吴方瑞,李伟0mlyang@scu.edu.cn,wufangrui@stu.scu.edu.cn,li.wei@scu.edu.cn0摘要0自从一些公开的大规模数据集上线以来,基于深度学习的一些立体匹配算法已经被提出并取得了最先进的性能。然而,平滑区域和详细区域的视差仍然难以同时准确估计。本文提出了一种名为WaveletStereo的新型立体匹配方法,该方法学习视差的小波系数而不是视差本身。WaveletStereo由几个子模块组成,其中低频子模块生成低频小波系数,旨在学习全局上下文信息并有效处理低频区域,如无纹理表面,其他子模块则专注于细节。此外,引入了一个密集连接的空洞空间金字塔块,以更好地学习多尺度图像特征。实验结果表明了该方法的有效性,在大规模测试数据集SceneFlow上取得了最先进的性能。01. 引言0作为一种方便且廉价的获取物体深度的方法,立体视觉在计算机视觉中扮演着越来越重要的角色,随着虚拟(增强)现实、3D物体检测和识别、动作感应游戏和无人机等应用的增加。学者们对立体匹配进行了许多关注,这是立体视觉的关键步骤。近年来,由于一些公开数据集的在线发布,如Middlebury [39]和KITTI立体基准[10,12],立体匹配的研究取得了令人满意的成果,这方便了研究人员将其算法与最先进的算法进行比较。然而,对于包括大量不适定区域(如无纹理或详细区域)在内的复杂环境的立体匹配仍然是一个具有挑战性的课题[32]。0正如Scharstein和Szeliski[39]总结的那样,典型传统立体匹配算法通常包括四个步骤,即匹配代价计算、代价聚合、优化和视差细化。传统立体匹配算法主要可以分为两类,即局部方法和全局(半全局)方法。大多数局部立体匹配方法更关注前两个步骤[16,53],通常能够准确估计具有高频细节的区域的视差,但在无纹理和饱和区域等低频区域经常失败。为了提高低频区域的性能,许多全局(半全局)方法,如图割[24, 36,33],置信传播(BP)[23, 52, 51, 60,49]和半全局匹配(SGM)算法[15],更加关注后两个步骤的研究。全局(半全局)算法通常构建了一个条件随机场(CRF)模型,其中包含了光度一致性和平滑性的假设。光度一致性要求匹配像素具有相似的外观特征,平滑性则约束了相邻像素的标签差异,除了一些视差跳跃的地方,这衡量了为相邻像素分配标签的代价,如成对的平滑性[23, 52, 51,60]或高阶平滑性[49, 47,25]。与局部方法相比,这些方法提高了低频区域的性能,但解决CRF模型通常耗时,并且它们仍然可能错误地预测高频区域像素的视差,如薄表面、遮挡区域和重复图案等。基于深度学习的最新工作使用卷积神经网络学习相似度计算和上下文信息,并大大提高了视差估计的准确性和鲁棒性[55,20]。然而,在不适定区域,特别是高频区域,如薄表面、遮挡区域和重复图案等,存在许多不匹配之处,尽管这些区域只占很小比例且其中的错误预测较多。128860对总体准确性评估影响较小。直观地说,低频区域的视差估计更依赖于全局上下文信息,而高频区域的估计更依赖于图像细节。因此,很难训练一个网络同时准确地预测这些区域。为了解决这个问题,本文提出了一种基于学习视差图小波系数的新型立体匹配算法,主要贡献总结如下。首先,我们提出了一种端到端的立体匹配架构,称为WaveletStereo,它包含了多分辨率小波重建的机制。WaveletStereo包含了几个小波系数的预测器,它们使用不同分辨率的视差图估计小波系数,并通过多分辨率小波重建计算视差图,其中低频小波预测器专注于学习视差图的全局上下文信息,而高频小波预测器专注于生成视差图的细节。其次,我们提出了一种密集连接的空洞空间金字塔块,它可以有效地捕捉多尺度的上下文信息,并且参数相对较少。具有非常深和复杂结构的特征表示可以提高立体算法的最终性能,但也会增加计算时间和训练的复杂性。基于提出的块,本文在不增加计算负担的情况下获得了良好的准确性。最后,我们采用了提出的WaveletStereo算法,在大规模立体基准测试SceneFlow上取得了最先进的性能。02. 相关工作0近年来,公共立体数据集已经孵化出许多基于学习的立体算法。早期的基于学习的立体算法将学习机制引入传统的立体匹配框架中。例如,一些工作训练了一个模型来自动估计计算匹配代价的置信度。作为在立体中使用卷积神经网络(CNN)的先驱,J. Zbontar和Y.LeCun使用CNN学习图像块对的相似度计算,以提高对图像噪声和光照变化的鲁棒性,并使用传统的半全局匹配算法来改进视差。它在KITTI基准测试中表现优异,尽管在不适定区域经常出现不匹配的情况。[30,48]通过使用嵌入特征的余弦相似度或欧氏距离来计算匹配代价,而不是前向传播几个全连接层,大大加快了匹配代价的计算。0除了学习匹配代价,一些方法还添加了一个模型来训练平滑代价,以减少在使用SGM算法来改进视差时的粗糙度和过度平滑。此外,还有一些其他方法解决了改进匹配代价或学习优化模型参数的问题。0自从SceneFlow(一个大规模合成立体数据集)的出现以来,许多端到端学习方法已经相继取得了最先进的性能。Kendall等人使用深度特征表示形成了一个代价体积,并通过一系列的3D卷积采用代价滤波来学习上下文信息。它通过可微的软argmin操作实现了亚像素精度。从那时起,许多类似的方法被提出。Yu等人使用多个代价聚合提案的机制来改进代价体积。提出了金字塔立体匹配网络(PSMNet),其中空间金字塔池化模块在不同尺度和位置上聚合上下文以形成代价体积,并且堆叠的多重沙漏网络学习规范化代价体积。Guo等人提出了一种称为分组相关性的方法来改进用于测量特征相似性的表示。左右一致性检查的思想被采用在LRCR和[4]中来改进视差估计。Song等人通过与边缘检测任务结合使用多任务学习来改进视差图中的细节。[35]中采用了两阶段级联CNN架构,其中第一阶段将上卷积模块添加到DispNet中以改进视差图中的细节,第二阶段学习多尺度残差以进一步改进视差。类似地,Khamis等人采用了一个学习的边缘感知上采样函数来改进从非常低分辨率代价体积预测的视差。低分辨率代价体积使其具有速度优势,而上采样操作改进了细节,但是如果低分辨率代价体积中完全缺少详细信号,则不太可能恢复细节。此外,还有一些其他工作专注于自监督方法,从开放世界无标签数据中学习。0本工作通过学习视差图的小波系数来解决立体视觉问题,而不是直接学习视差。多年来,谱方法已经广泛应用于图像处理任务[29, 43, 3,44]。最近,一些工作探索了通过深度学习学习小波域中的滤波器的可能优势,或将谱方法融入到CNN中[46]。特别是,Huang等人通过学习高分辨率图像的小波系数,证明了在图像超分辨率应用中解决过度平滑问题和改善纹理细节的可行性。据我们所知,我们是第一个研究用于立体视觉的小波学习算法的人。128870匹配。03.小波立体视觉0本文描述了用于预测矫正的立体图像对的视差的提出算法。该架构主要分为三个模块,包括深度表示、多分辨率代价体积和多分辨率重建,如图1所示。下面的章节分别描述了这些主要模块,详细的网络配置在补充材料中详细说明。03.1.深度表示0深度表示旨在学习编码局部和全局上下文信息,它使用共享权重的Siamese网络从一对立体图像中提取一元特征,形成一个代价体积。我们通过使用两个下采样模块将分辨率降低到四分之一,并在每个模块之后使用一个密集连接的空洞空间金字塔块来更高效地编码上下文信息。下采样仅通过使用具有3×3×32个过滤器和步长为2的卷积来执行。深度表示的最后一层是一个具有3×3×32个过滤器的卷积操作,输出为1。0左右图像分别具有4W×32个特征。每个卷积层后面都跟着批量归一化和ReLU激活,除了输出层。受DenseNet [6,17]的启发,我们提出了密集连接的空洞空间金字塔(DCASPP)块,其结构如图2所示。为了学习不同尺度的上下文信息,我们使用具有不同扩张率的多个空洞卷积,并将它们的结果连接起来形成一个Inception层,类似于[6]中的空洞空间金字塔池化(ASPP)的操作。此外,我们采用密集连接结构来利用[17]中提出的优点,例如鼓励特征重用和大幅减少参数数量,并进一步扩大学习到的上下文信息的规模,而不会过度扩展扩张率。在第一个下采样步骤中,我们使用两个Inception层,每个层包括四个具有3×3×4个过滤器和扩张率分别为1、2、4和8的空洞卷积。对于第二个下采样步骤,我们使用四个Inception层,每个层包括两个具有3×3×8个过滤器和扩张率分别为1和2的空洞卷积。03.2.多分辨率代价体积0多分辨率代价体积模块相对简单,它从一元特征中形成了几个具有不同分辨率的代价体积,并为多分辨率小波重建奠定了基础。0在本工作中,我们首先通过将左右一元特征与位移的视差连接起来构建了一个具有四分辨率的代价体积,类似于[20],然后进行了两次连续的下采样操作。最终,我们得到了三个分辨率分别为四分之一、八分之一和十六分之一的体积。下采样仅通过使用3×3×3×32个过滤器和步长为2的3D卷积来执行,这也具有一定的代价滤波效果。03.3. 多分辨率小波重建0第三个模块从多分辨率代价体到具有不同分辨率的小波系数进行回归学习,通过逆小波变换逐层进行小波重建,最终获得视差图。多分辨率重建迭代地重复类似的过程,即将代价体映射到小波系数,这是由由代价滤波和小波回归组成的CNN完成的,如图3所示。需要注意的是,除了最低分辨率外,它不计算低频小波近似(黄色区域)。低频小波近似融合了更宽的上下文,而高频小波系数描述了视差图的细节。在这项工作中,我们使用CNN学习视差图的Haar小波系数,它们足以描述不同频率的场景信息。每个级别有四个具有相同分辨率的小波系数,即低频近似、水平高频小波、垂直高频系数和对角线高频信息。通过逆小波变换,这四个小波系数一起用于重建更高分辨率的低频近似。类似的步骤逐层迭代执行,直到获得具有完整分辨率的视差图。在这里,代价滤波包括一系列的3D卷积和转置卷积,网络配置可以在补充材料中详细了解。下面描述一个重要问题,即如何从滤波后的代价体回归出视差图的小波系数。最近,在代价估计后广泛使用了一种回归操作,即软argmin,它被广泛应用于视差估计中。Deep RepresentationMulti-resolution Wavelets ReconstructionInput Stereo Images......Multi-resolution Cost VolumesDisparity......…… …… …… �Dmax�d=0d × P(d)�=Dmax�d=0d × f (P(d)) (4)ψ =Dmax�d=0d × ψ(d)(5)¯ψli =Dmax�d=02ld ×−yi(d)˜ψli =Dmaxd=02l−1d×�e−ǫi(d)Dmaxd′=0 e−ǫi(d′) −e−ηi(d)Dmaxd′=0 e−ηi(d′)�,128880图1. WaveletStereo网络架构流程。0上一层0卷积(DR=2)0卷积(DR=1)0下一层0卷积(DR=4)0卷积(DR=2)0卷积(DR=1)0卷积(DR=4)0连接0连接0连接0图2.密集连接空洞空间金字塔模块的结构,其中“DR”表示膨胀率。0对于每个像素i,视差d_i被回归为加权softmax函数:0d_i =0d = 0 d × e^(-y_i(d))0最大视差d' = 0 e^(-y_i(d'))(1)0其中y_i是像素i处的滤波代价,D_max是预定义的最大视差。对像素i处的滤波代价进行softmax操作,即0p_i(d) = e^(-y_i(d))0最大视差d' = 0 e^(-y_i(d')) (2)0可以看作是d_i = d的概率。公式(1)可以简写为0D =0最大0d = 0 d × P(d) (3)0其中D是估计的视差图,P(d)是对滤波代价进行softmax操作。对视差图进行小波变换,得到0f(D) = f0其中f(∙)是小波变换。如果位移图的小波系数表示为ψ,则可以计算为:0位移图D可以通过逆小波变换与小波系数重建,因此位移的估计可以转化为小波系数的预测。事实上,(5)中的ψ(d)可以被视为P(d)的小波系数。这种小波变换可以进行迭代,即多分辨率小波分解,如图4所示。如果位移图的最大值为Dmax ,则其第一级分解的低频近似的值范围为[0 , 2 D max],第一级分解的高频系数的值范围为[ − D max , D max],经过Haar分解。依此类推,第l级分解的低频和高频小波系数的值范围分别为[0 , 2 l D max ]和[ − 2 l − 1 D max ,2 l − 1 D max]。因此,小波系数可以计算为加权softmax函数,即像素i的第l级的低频系数为:0� D max d ′ =0 e − y i ( d ′ ),(6)0像素i的第l级的高频系数为:0(7)其中y i ,� i和ηi是像素i处的滤波代价。请注意,我们使用两个变量� i和ηi,它们的softmax值都在[0 , 2 l − 1 D max]范围内,以确保高频系数的正确值范围。03.4. 损失0我们使用带有地面真实位移数据的监督学习来训练我们的模型,其中损失函数包含两个项。...Multi-resolution Wavelet DecompositionMulti-resolution Wavelet ReconstructionL1 = 1NL�l=1N128890逆小波变换0代价体积0小波回归代价滤波0softmax0softmax0softmax0softmax0减法0减法0减法0加权求和0加权求和0加权求和0加权求和0图3. 从代价体积到小波系数的流程。0图4.位移图的小波系数的预测等同于位移本身的估计,从小波变换的角度来看。左列是参考图像,中列是最终估计的位移图,最后一列是预测的小波系数。0第一项旨在训练小波系数的预测器。与[41]类似,我们使用预测的小波系数ψ li(包括低频和高频系数)与真实的小波系数ˆ ψ li之间的平滑L1损失来进行训练,因为它对异常值的敏感性较低,定义如下:0i =1 平滑 L 1 � ψ l i − ˆ ψ l i � ,(8)0其中0平滑 L 1 ( � ) = � 0 . 5 � 2 ,如果 | � | < 1 | � | − 0 . ,否则,(9)0其中N是像素的数量。地面真值小波系数是通过2D快速小波变换[34,28]对地面真值视差图进行分解获得的。我们采用第二项来监督最终的视差图。损失函数定义为0L2 = 10i = 1 平滑L1 ˆd i - d i (10)0其中d i和ˆdi分别是像素i的预测视差和地面真值视差值。最后,我们使用端到端的监督学习机制训练模型,使用以下损失函数。0L = L1 + L2 (11)04. 实验0本节介绍了实验设置和结果。我们不仅在公共立体基准上评估了所提出方法的性能,并将其与一些最先进的立体方法进行了比较,还通过消融研究分析了每个提出模块的有效性。04.1. 实现细节0数据集。我们在本工作中在Scene Flow [12]、KITTI 2012[10]和KITTI 2015 [32]数据集上评估我们的方法。0(i)Scene Flow[31]是一个包含35,454对用于训练和4,370对用于测试的大规模合成数据集。SceneFlow具有大规模的训练数据,这对于基于深度学习的方法的训练是有益的。128900与其他真实数据集的地面真值不同,SceneFlow的地面真值没有测量误差,因为它完全是合成的。结合大规模的测试数据,它可以更全面、更准确地测试算法的准确性。0(ii)KITTI是一个真实世界的数据集,具有从驾驶汽车的视角拍摄的动态街景,其中用于训练和评估的地面真值深度图是从激光雷达数据中稀疏获取的。它包括KITTI2012和KITTI 2015,其中KITTI2012通过在线排行榜提供了194对用于训练和195对用于评估的立体图像对,而KITTI2015提供了200对用于训练和200对用于评估的立体图像对。0训练。我们采用TensorFlow[1]来训练卷积神经网络,使用Adam[22]的随机优化算法,其中β1 = 0.9,β2 = 0.999,� =10^-8。对于SceneFlow数据集,我们使用初始学习率为0.001,前10个epoch保持不变,然后设置为0.0001直到结束(大约25个epoch)。对于KITTI数据集,我们使用在SceneFlow上预训练的模型进行了进一步的200个epoch的微调,学习率保持为0.0001。网络的参数从随机初始化开始,并在Nvidia GeForce Titan RTXGPU上以批量大小为2进行训练。每个图像的像素强度被归一化到[-1, 1]。最大视差设置为Dmax = 192。04.2. 消融研究0在本节中,我们在SceneFlow数据集上进行了几个实验,比较了一些不同的模型变体,并验证了我们设计选择的有效性,我们使用了两个广泛使用的评估指标进行测试:0(i)端点误差(EPE):估计视差和地面真值之间的平均欧氏距离。0(ii)三像素误差(>3个像素):端点误差大于3的像素的百分比。0我们首先通过将提出的密集连接的空洞空间金字塔(DCASPP)块与VortexPooling[4]和空洞空间金字塔池化(ASPP)[6]进行比较,来研究深度表示模块的有效性。实验结果如表1的前半部分所示,我们可以看到DCASPP的有效性。ASPP和DCASPP之间的计算时间差异很小,但是DCASPP的性能明显优于ASPP。0然后,我们通过几个消融实验研究了小波学习的有效性。首先,我们使用CNN仅学习低频系数,这基本上等同于多尺度上采样细化机制,类似于StereoNet[21]。接下来,我们逐步采用CNN学习第一层、第二层和第三层的高频系数。实验结果显示在表1的后半部分,我们可以看到小波学习的有效性。这里我们将低频称为'LF',高频称为'HF'。0表1.场景流数据集上的结果。我们比较了不同的架构变体,以证明我们的设计选择的0模型 > 3 像素 ( % ) EPE 时间0Vortex Pooling[4] 5.68 1.20 0.41秒0ASPP[6] 5.48 1.07 0.26秒0DCASPP 4.13 0.84 0.27秒0仅低频 13.54 1.855 0.1秒0LF + HF的第3层 4.47 0.89 0.13秒0LF + HF的第2层 + 第3层 4.42 0.856 0.18秒0完整模型 4.13 0.84 0.27秒0图5显示了在场景流测试数据上的一些示例的预测视差图。由于对低频系数的准确预测,纹理较少的区域(如纹理较少的表面)被准确估计。一些尖锐的区域,如薄表面,也可以被正确估计,这要归功于高频预测器。04.3. 与最先进方法的比较0在本节中,我们将提出的算法与最先进的方法进行比较。首先,我们在SceneFlow数据集上将我们的方法与最先进的算法进行比较,包括PSMNet [5],DispFulNet [35],CRL[35],GC-Net [20],DRR [11],Edge Stereo[41],StereoNet [21],DeepPruner [8]和Stereo-DRNet[4],如表2所示。我们的方法在两个评估指标上优于以前的方法。结果与我们最接近的方法是Stereo-DRNet[4]和DeepPruner [8]。Stereo-DRNet[4]专注于视差的细化。它同时预测左视图和右视图的视差,并利用左右图像的一致性和视差的一致性进一步细化视差。然而,我们的方法在没有左右一致性检查机制的情况下优于该架构。DeepPruner[8]采用可微分模块来丢弃大部分视差,而不需要完整的代价体积评估,以加速视差的估计。它在SceneFlow上取得了与Stereo-DRNet[4]相当的结果,略弱于提出的算法。然后我们在KITTI上评估我们的模型。表3和表4比较了一些已发表的最先进方法的错误率。EPE1.091.751.32--EPE1.121.100.860.860.84PSMNet [5]1.49 %1.89 %0.5 px0.6 px0.41 sStereo-DRNet [4]1.42 %1.83 %0.5 px0.5 px0.23 sEdgeStereo [41]1.73 %2.18 %0.5 px0.6 px0.48 sGC-NET [20]1.77 %2.30 %0.6 px0.7 px0.9 sPDSNet [45]1.92 %2.53 %0.9 px1.0 px0.5 sSGM-Net [2]2.29 %3.50 %0.7 px0.9 px67 sSsSMnet [58]2.30 %3.00 %0.7 px0.8 px0.8 sPBCP [40]2.36 %3.45 %0.7 px0.9 px68 sDisplets v2 [12]2.37 %3.09 %0.7 px0.8 px265 s128910表2. 在场景流测试集上的立体匹配算法比较。0度量 PSMNet [5] DispFulNet [31] CRL [35] GC-Net [20] DRR [11]0> 3 像素 ( % ) - 8.61 6.20 7.20 7.210度量 EdgeStereo [41] StereoNet [21] Stereo-DRNet [4] DeepPruner [8] 我们的0> 3 像素 ( % ) 4.99 - - - 4.130表3. KITTI 2012测试集结果[10]。该基准包含194对训练图像和195对测试图像。0方法 Out-Noc Out-All 平均-Noc 平均-All 运行时间0我们的方法 1.66% 2.18% 0.5像素 0.6像素 0.27秒0表4. KITTI2015测试集结果[32]。该基准包含200对训练和测试彩色图像。限定词“bg”表示包含静态元素的背景像素,“fg”表示动态物体像素,而“all”表示所有像素(fg+bg)。结果显示了在所有200个测试图像中,像素误差大于三个像素或5%视差误差的百分比。0方法 D1-bg D1-fg D1-all 时间0PSMNet [5] 1.86% 4.62% 2.32% 0.41秒 Stereo-DRNet[4] 1.72% 4.95% 2.26% 0.23秒 EdgeStereo [41] 2.27%4.18% 2.59% 0.27秒 CRL [35] 2.48% 3.59% 2.67%0.47秒 GC-NET [20] 2.21% 6.16% 2.87% 0.9秒 LRCR[19] 2.55% 5.42% 3.03% 49.2秒 DRR [11] 2.58%6.04% 3.16% 0.4秒 SsSMnet [58] 2.70% 6.92% 3.40%0.8秒 Displets v2 [40] 3.00% 5.56% 3.43% 265秒PBCP [40] 2.58% 8.74% 3.61% 68秒 SGM-Net [2]2.66% 8.64% 3.66% 67秒0我们的方法 2.12% 5.34% 2.65% 0.27秒0与KITTI2012和2015数据集上的所提方法相比,我们的算法具有可比性。为了简洁起见,这里不显示视觉结果。我们建议读者访问KITTI网站[10]了解更多细节。所提方法在KITTI2012和KITTI2015(三像素误差)中的错误率分别为2.18%和2.65%,与EdgeStereo [41]相当,但低于Stereo-DRNet[4]和PSMNet [5]。然而,Wavelet-Stereo在SceneFlow测试集上明显优于这些方法。我们认为这种差异主要归因于KITTI训练集的稀疏标记,以及计算高频的困难。0在太多的区域中,高频小波系数的训练需要大规模的训练数据和大量的细节,因此高频预测器的训练并不全面。换句话说,损失函数(8)在KITTI数据集上几乎不起作用。此外,KITTI的稀疏标记数据,特别是高频区域中经常没有标记的数据,也可能影响所提方法的评估排名。SceneFlow数据集包含超过30,000个训练图像,因此经过良好训练的WaveletStereo在该数据集上达到了最先进的性能。05. 结论0本文提出了一种新颖的端到端深度学习架构,具有多分辨率小波重建机制,用于立体视觉,其中包括小波系数的多尺度预测器。低频预测器利用全局上下文信息,并且能够很好地处理低频区域,如无纹理表面,而高频预测器则生成细节。此外,提出了一种密集连接的空洞空间金字塔模块,用于深度表示,以更好地学习不同尺度的上下文信息。实验结果证明了所提方法的有效性。这项工作是将传统的图像处理技术与深度学习相结合的尝试,用于立体匹配。对小波的理解将有助于更灵活地应用立体算法。在某些应用中,可以去除高频预测器以获得更好的实时性,如果不需要细节的话。128920图5. Scene Flow测试集的定性结果。从左到右:左侧立体输入图像,预测的视差和误差。最后一行是误差图的颜色条。0根据应用需求,我们可以在准确性和速度之间做出合理的权衡。0致谢0该工作得到了中国国家自然科学基金(批准号U1933134、U19A2071和61860206007)、四川省科技计划(批准号18YYJC1287)以及四川省的资助。0大学(资助号2018SCUH0042)。0参考文献0[1] M. Abadi,A. Agarwal,P. Barham,E. Brevdo,Z.Chen,C. Citro,G. S. Corrado,A. Davis,J. Dean,M.Devin等. Tensorflow: 异构分布式系统上的大规模机器学习.arXiv: 分布式,并行和集群计算,2015年。128930[2] S. Akihito和P. Marc. Sgm-nets: 带有神经网络的半全局匹配.在计算机视觉和模式识别(CVPR)IEEE会议上,2017年6月,第231-240页。[3] E. J. Candes. 用于图像去噪的曲线变换. 1:7, 2001.[4] R. Chabra,J. Straub,C. Sweeney,R. A. Newcombe和H.Fuchs. Stereodrnet: 膨胀残差立体网络. arXiv:计算机视觉和模式识别,2019年。[5] J.-R. Chang和Y.-S. Chen.金字塔立体匹配网络.在计算机视觉和模式识别(CVPR)IEEE会议上,2018年,第5410-5418页。[6] L. Chen,G. Papandreou,F. Schroff和H. Adam.重新思考空洞卷积用于语义图像分割. arXiv:计算机视觉和模式识别,2017年。[7] F. Cotter和N. G. Kingsbury.波变换域的深度学习. arXiv: 计算机视觉和模式识别,2018年。[8]S. Duggal,S. Wang,R. H. Wei-Chiu Ma和R. Urtasun.Deeppruner: 通过可微分的patchmatch学习高效的立体匹配.在国际计算机视觉会议上,2019年,第4384-4393页。[9] A.Geiger,P. Lenz,C. Stiller和R. Urtasun.视觉与机器人相遇:kitti数据集.机器人研究国际期刊(IJRR),2013年。[10] A. Geiger,P.Lenz和R. Urtasun. 我们准备好自动驾驶了吗?kitti视觉基准套件.在计算机视觉和模式识别(CVPR)会议上,2012年。[11] S.Gidaris和N. Komodakis.检测,替换,细化:像素级标签的深度结构化预测.计算机视觉和模式识别,2017年,第7187-7196页。[12] F.Guney和A. Geiger. Displets: 使用对象知识解决立体模糊.2015年。[13] X. Guo,K. Yang,W. Yang,X. Wang和H. Li.分组相关立体网络. arXiv: 计算机视觉和模式识别,2019年。[14]R. Haeusler,R. Nair和D. Kondermann.集成学习用于立体视觉的置信度度量.第305-312页,2014年。[15] H. Hirschmuller.通过半全局匹配和互信息进行立体处理.IEEE模式分析与机器智能交易,30(2):328-341,2008年。[16] A. Hosni,M. Bleyer,M. Gelautz和C. Rhemann.使用测地线支持权重的局部立体匹配.在国际图像处理会议上,第2093-2096页,2009年。[17] G.Huang,Z. Liu,L. V. Der Maaten和K. Q. Weinberger.密集连接卷积网络.在IEEE计算机视觉和模式识别会议上,第2261-2269页,2017年。[18] Z. Jie,P. Wang,Y. Ling,B. Zhao,Y. Wei,J. Feng和W.Liu. 左右比较循环模型用于立体匹配.在IEEE计算机视觉和模式识别会议上,第3838-3846页,2018年。[19] Z. Jie,P. Wang,Y. Ling,B. Zhao,Y. Wei,J. Feng和W.Liu. 左右比较循环模型用于立体匹配.在IEEE计算机视觉和模式识别会议上,第3838-3846页,2018年。0匹配.在计算机视觉和模式识别(CVPR)IEEE会议上,2018年,第3838-3846页。[20] A. Kendall,H. Martirosyan,S. Dasgupta,P.Henry,R. Kennedy,A. Bachrach和A. Bry.几何和上下文的端到端学习用于深度立体回归. CoRR,vol.abs/1703.04309,2017年。[21] S. Khamis,S. Fanello,C.Rhemann,A. Kowdle,J. Valentin和S. Izadi. Stereonet:用于实时边缘感知深度预测的引导分层细化.arXiv预印本arXiv:1807.08865,2018年。[22] D. P. Kingma和J.Ba. Adam: 一种用于随机优化的方法.国际学习表示会议,2015年。[23] A. Klaus,M. Sormann和K.Karner.基于分割的立体匹配使用置信传播和自适应的不相似度度量.在IEEE国际模式识别会议上,第3卷,第15-18页,2006年。[24]V. Kolmogorov和R. Zabih.使用图割计算具有遮挡的视觉对应关系.在IEEE国际计算机视觉会议上,第2卷,第508-515页,2001年。[25] N. Komodakis和N. Paragios.超过成对能量:高阶MRF的高效优化.在IEEE计算机视觉和模式识别会议上,第2985-2992页,2009年。[26] D. Kong和H. Tao. 一种用于学习立体计算匹配误差的方法.在英国机器视觉会议论文集上,第11.1-11.10页。BMVAPress,2004年。doi:10.5244/C.18.11. [27] D. Kong和H. Tao.H.:通过学习多个专家行为进行立体匹配.在:BMVC,第97-106页,2006年。[28] G. R. Lee,R.Gommers,F. Wasilewski,K. Wohlfahrt和A. O'Leary.Pywavelets: 用于小波分析的Python软件包.开源软件杂志,4(36):1237,2019年。[29] H. Li,B. S.Manjunath和S. K. Mitra. 使用小波变换的多传感器图像融合.图形模型和图像处理,57(3):235-245,1995年。[30] W.Luo,A. G. Schwing和R. Urtasun. 立体匹配的高效深度学习.在计算机视觉和模式识别(CVPR)IEEE会议上,2016年6月。[31]N. Mayer,E. Ilg,P. Hausser,P. Fischer,D. Cremers,A.Dosovitskiy和T. Brox.用于视差,光流和场景流估计的大型数据集的卷积网络训练.在计算机视觉和模式识别(CVPR)IEEE会议上,2016年6月。[32]M. Menze和A. Geiger. 用于自动驾驶车辆的对象场景流.在计算机视觉和模式识别(CVPR)会议上,2015年。[33] D.Miyazaki,Y. Matsushita和K. Ikeuchi.使用分层图割的单幅图像交互式去除阴影.亚洲计算机视觉会议,第234-245页,2010年。[34] S. Naik和N.Patel. 空间和小波域中的单幅图像超分辨率.多媒体及其应用国际期刊,5(4):23-32,2013年。[35] J. Pang, W. Sun, J. S. Ren, C. Yang, and Q. Yan. Cascaderesidual learning: A two-stage convolutional neural networkfor stereo matching. In ICCV Workshops, volume 7, 2017.[36] N. Papadakis and V. Caselles. Multi-label depth estimationfor graph cuts stereo problems.Journal of MathematicalImaging and Vision, 38(1):70–82, 2010.[37] M. Peris, S. Martull, A. Maki, Y. Ohkawa, and K. Fukui. To-wards a simulation driven stereo vision system. In Proceed-ings of the 21st International Conference on Pattern Recog-nition, pages 1038–1042, 2012.[38] D. Scharstein and C. Pal. Learning conditional random fieldsfor stereo. In Conference on Computer Vision and PatternRecognition (CVPR), pages 1–8, 2007.[39] D. Scharstein and R. Szeliski. A taxonomy and evaluation ofdense two-frame stereo correspondence algorithms. Interna-tional Journal of Computer Vision, 47((1/2/3)):7–42, 2002.[40] A. Seki and M. Pollefeys. Patch based confidence predictionfor dense disparity map. British Machine Vision Conference(BMVC), 2016.[41] X. Song, X. Zhao, H. Hu, and L. Fang. Edgestereo: A con-text integrated residual pyramid network for stereo matching.arXiv preprint arXiv:1803.05196, 2018.[42] A
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功