膨胀残差的立体深度估计网络：StereoDRNet

133 浏览量更新于2023-10-19 收藏 13.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

timation has various applications in autonomous driving,dense reconstruction and 3D objects and human tracking.Virtual Reality and Augmented Reality systems requiredepth estimations to build dense spatial maps of the environ-ment for interaction and scene understanding. For properrendering and interaction between virtual and real objectsin an augmented 3D world, the depth is expected to be bothdense and correct around object boundaries. Depth sensorssuch as structured light and time of ﬂight sensors are of-ten used to build such spatial maps of indoor environments.These sensors often use illumination sources which requirepower and space that exceeds the expected budget of an en-visioned AR system. Since these sensors use infrared vi-sion, they do not work well in bright sun light environmentor in presence of other infrared sources.On the other hand, the depth from stereo vision systemshave a strong advantage of working in both indoors andin sunlight environments. Since these systems use passiveimage data, they do not interfere with each other or withthe environment materials. Moreover, the resolution of pas-sive stereo systems is typically greater than the sparse pat-terns used in structured light depth sensors, so these meth-ods have capabilities to produce depth with accurate ob-1117860StereoDRNet：膨胀残差StereoNet0Rohan Chabra 1 † Julian Straub 2 Chris Sweeney 2 Richard Newcombe 2 Henry Fuchs 101. 北卡罗来纳大学教堂山分校 2. Facebook Reality Labs01 { rohanc, fuchs } @cs.unc.edu 2 julian.straub@oculus.com, { sweenychris, richard.newcombe } @fb.com0图1：StereoDRNet能够估计高质量的深度图，为被动立体视频的高质量重建打开了大门。在这个图中，我们比较了由StereoDRNet、PSMNet和结构光系统（称为GroundTruth）生成的深度图构建的密集重建[15]的输出。我们报告并可视化了重建网格相对于GroundTruth的点到平面距离RMS误差，展示了与最先进技术相比的重建改进。0摘要：我们提出了一个系统，该系统使用卷积神经网络（CNN）从立体图像对中估计深度，然后通过预测的深度图的体积融合来产生场景的三维重建。我们提出的深度细化架构预测了视图一致的视差和遮挡图，有助于融合系统产生几何一致的重建。我们在提出的代价滤波网络中使用了3D膨胀卷积，这样可以在几乎减少一半的计算成本的同时获得更好的滤波效果，相比于最先进的代价滤波架构。对于特征提取，我们使用了涡旋池化架构[24]。该方法在KITTI 2012、KITTI2015和ETH3D立体基准测试中取得了最先进的结果。最后，我们证明了我们的系统能够产生高保真度的三维场景重建，优于最先进的立体系统。01. 引言0† 在Facebook Reality Labs实习期间完成的工作。117870由于相机和移动技术的最新进展，图像传感器的尺寸已经大大减小，分辨率和图像质量也显著提高。所有这些特点使得被动立体系统更适合作为AR或VR系统的深度估计器。然而，立体系统也有其自身的缺点，比如在无纹理或重复/混淆纹理表面上的模糊预测。为了处理这些均匀区域，传统方法利用手工制作的函数，并在整个图像上全局优化参数。最近的方法使用机器学习从训练数据中推导函数和参数。由于这些函数往往是高度非线性的，它们在均匀和反射表面上也能产生合理的近似。我们的主要贡献如下：•新颖的视差细化网络：我们工作的主要动机是为立体输入预测几何一致的视差图，这些视差图可以直接被类似KinectFusion[15]的TSDF融合系统用于同时跟踪和建图。在类似KinectFusion的系统中，表面法线是融合权重计算的重要因素，我们观察到，目前最先进的立体系统（如PSMNet）产生的视差图在几何上不一致，这对TSDF融合产生了负面影响。为了解决这个问题，我们提出了一种新颖的细化网络，它以几何误差Eg、光度误差Ep和未细化的视差作为输入，并产生细化的视差（通过残差学习）和遮挡图。•三维膨胀卷积在代价滤波中的应用：目前最先进的立体系统（如PSMNet[2]和GC-Net[7]）使用三维代价滤波方法，在其系统的滤波模块中使用了大部分计算资源。我们观察到，在三个维度（宽度、高度和视差通道）上使用三维膨胀卷积的结构（如图4所示）可以在更少的计算资源下获得更好的结果（参见表1）。•其他贡献：我们观察到，与PSMNet使用的空间金字塔池化相比，涡旋池化提供了更好的结果（参见消融研究2）。我们发现，用于过滤非自信区域的排除掩码在细调模型时非常有用，可以获得视差预测中的清晰边缘和细节。我们使用[23]中提出的结构光系统准备的三个场景的三维重建的RMSE为1.3-2.1厘米。02. 相关工作0从立体图像中获取深度已经在文献中得到广泛研究，我们将感兴趣的读者参考调查和方法-0在[20]中描述的方法中，广义上可以将立体匹配分为计算代价度量、代价聚合、全局或半全局优化[4]和细化或过滤过程。传统的全局代价过滤方法使用离散标记方法，如图割[11]，或使用在[10]和[1]中描述的置信传播技术。总变差去噪[19]已经被用于在[26]、[16]和[14]中描述的方法中的代价过滤。视差估计技术的最新进展使用了CNN。MC-CNN[27]引入了一个连体网络来比较两个图像块。匹配得分与半全局匹配过程[4]一起用于预测一致的视差估计。DispNet[13]演示了一个端到端的视差估计神经网络，其中包含一个相关层（特征的点积）用于立体体积构建。梁等人[12]通过引入新颖的迭代滤波过程改进了DispNet。GC-Net[7]引入了一种使用三维代价过滤方法和软argmax过程来滤波4D代价的方法，并回归深度。PSMNet[2]通过使用金字塔空间池化过程，丰富特征以获得更好的全局上下文。他们还展示了在代价过滤过程中有效使用堆叠的残差网络。谢等人[24]引入了涡旋池化，这是Deep lab[3]中使用的空洞空间池化方法的改进。空洞池化使用具有不同膨胀步骤的卷积来增加CNN滤波器的感受野。涡旋池化技术在膨胀卷积之前使用不同尺寸的网格上的平均池化，以利用未在更大膨胀步骤中使用的像素的信息。平均池化网格的大小随着膨胀尺寸的增加而增长。我们使用Vortex池化中描述的特征提取，并改进了PSMNet中描述的代价过滤方法。我们提出的细化网络以几何误差Eg、光度误差Ep和未经细化的视差作为输入，产生细化的视差（通过残差学习）和遮挡图。CRL [17]、iResNet [12]、StereoNet[8]和FlowNet2[5]中提出的细化过程仅使用光度误差（在图像或特征域中）作为输入的一部分。据我们所知，我们是第一个探索几何误差和遮挡训练对视差细化的重要性的人。03. 算法0在本节中，我们描述了用于输入立体图像对预测视差的架构。我们将算法分为特征提取、代价体积过滤和细化过程，而不是使用通用的编码器-解码器CNN。N�d=1dLk =M31178803.1. 特征提取0特征提取从一个小的共享权重连体网络开始，该网络以图像作为输入，并将输入编码为一组特征。由于这些特征将用于立体匹配，我们希望它们具有局部和全局的上下文信息。为了在我们的特征图中编码局部空间信息，我们通过使用步长为2的卷积对输入进行下采样。我们使用三个3×3的滤波器而不是一个大的5×5卷积，其中第一个卷积的步长为2。我们通过两个这样的块将分辨率提高到四分之一。为了编码更多的上下文信息，我们选择了Vortex Pooling[24]在学习到的局部特征图上。我们的每个卷积后面都跟着批量归一化和ReLU激活，除了在空间池化输出上的最后一个3x3卷积。为了保持特征信息的紧凑性，我们在整个特征提取过程中保持特征维度大小为32。03.2. 成本体积滤波0我们使用在前一步中提取的特征来生成立体成本体积。虽然文献中有几种方法（[7]，[13]）使用立体特征的串联或点积来获得成本体积，但我们发现简单的算术差异同样有效。虽然在成本上的简单argmin原则上应该导致正确的局部最小解，但在文献中已经多次显示（[16]，[4]，[20]），解决方案通常有多个局部最小值。具有均匀或重复纹理的表面特别容易出现这个问题。通过将成本滤波作为一个具有多个卷积和非线性激活的深度学习过程来解决这些模糊性并找到正确的局部最小值。我们首先通过宽度、高度和深度维度上的3×3×3卷积处理成本体积。然后，通过步幅为2的卷积降低成本的分辨率，然后并行进行膨胀率为1、2、4的卷积。在膨胀卷积滤波器的串联上进行卷积，以合并从不同感受野中获取的信息。已经证明，在视差细化过程中，残差学习非常有效，因此我们提出了一系列这样的块来迭代地改善我们的视差预测质量。我们将整个成本滤波过程表示为图4中的膨胀残差成本滤波。在这个图中，注意我们的网络被设计为生成标记为d k 的k =3个视差图。我们的支持细化的网络架构在视差预测中将左视图和右视图的视差分别作为不同的通道。请注意，在滤波之前，我们构建了左视图和右视图的成本，并将它们连接在一起；这确保了成本滤波方法0为两个视图提供了成本信息。请参考补充文本中的表3以获取详细的架构细节。03.3. 视差回归0为了具有可微分的argmax，我们使用了GC-Net提出的软argmax。对于每个像素i，回归的视差估计d i被定义为加权softmax函数：0d i =0d' = 1 e - Ci(d'), (1)0其中Ci是像素i处的成本，N是最大视差。每个提出的视差图dk（如图4所示）在我们的膨胀残差成本滤波架构中的损失Lk 依赖于Huber损失ρ，定义为：0i ρ (d k i, ˆ d i), (2)0其中d k i和ˆdi分别是像素i处的估计视差和真实视差，M是像素的总数。总数据损失L d 定义为：0L d =0k = 1 w k L k, (3)0其中w k是每个视差图d k 的权重。03.4. 视差细化0为了使视差估计对遮挡和视图一致性具有鲁棒性，我们进一步优化了估计。为简洁起见，我们将第三个视差预测d 3（k= 3）标记为D l（左视图）和Dr（右视图）。在我们的细化网络中，我们通过变换W将右图像I r 变换到左视图，并评估左图像I l 的图像重建误差图Ep 为：0E p = | I l - W(I r, D r) |. (4)0通过将D r 变换到左视图并使用左视差Dl，我们可以评估几何一致性误差图E g 为：E g = | D l -W(D r, D l) |. (5)0虽然我们可以直接将这些误差项减少到损失函数中，但我们观察到通过使用光度和几何一致性误差图作为细化网络的输入可以显著改善，因为这些误差项仅对非遮挡像素有意义（只有可以减少一致性误差的像素）。我们的细化网络以左图像I l、左视差图D l、图像重建误差图E p 作为输入。117890图2：StereoDRNet网络架构流程。0图3：从[24]派生的StereoDRNet Vortex Pooling架构。0几何误差图Eg。我们首先通过使用一层卷积和批归一化分别过滤左图像和重建误差以及左视差和几何误差图Eg。然后将这两个结果连接起来，并使用空洞卷积[18]从更大的上下文中进行采样，而不增加网络大小。我们分别使用1、2、4、8、1和1的扩张率进行扩张。最后，使用没有ReLU或批归一化的单个3×3卷积来输出遮挡图O和视差残差图R。我们的最终改进视差图标记为Dref。我们在图5中展示了我们的改进网络，并在我们的补充文本的表2中提供了详细的架构细节。我们计算遮挡图O的交叉熵损失，如Lο =H(O,ˆO)，(6)所示。0其中ˆO是真实遮挡图。改进损失Lr定义为0Lr =0iρ(dri,ˆdi)，(7)0其中dri是像素i在我们的改进视差图Dref中的值，M是像素的总数。0我们的总损失函数L定义为0L = Ld + λ1Lr + λ2Lo，(8)0其中λ1和λ2是标量权重。03.5. 训练0我们使用PyTorch实现了神经网络代码。为了便于比较，我们尽量使神经网络的训练与PSMNet[2]中描述的训练相似。我们使用Adam优化器[9]，β1 =0.9，β2 =0.999，并在将图像数据传递给网络之前对其进行了归一化。为了优化训练过程，我们将图像裁剪为512x256分辨率。训练时，我们在2个Nvidia Titan-XpGPU上使用了8个mini-batch大小。我们在我们提出的损失函数Eq.3和Eq.8中使用了w1 = 0.2，w2 = 0.4，w3 =0.6，λ1 = 1.2和λ2 = 0.3的权重。04. 实验0我们在经过校正的立体数据集（如SceneFlow、KITTI2012、KITTI2015和ETH3D）上测试了我们的架构。我们还展示了我们的系统在室内场景的三维重建中的实用性。请参阅补充材料以获取额外的视觉比较。04.1. SceneFlow数据集0SceneFlow[13]是一个合成数据集，包含超过30,000对用于训练的立体图像和约4000对用于评估的立体图像。我们使用左右两个真实视差图来训练我们的网络。我们通过定义任何视差不一致大于1像素的像素为遮挡像素来计算真实遮挡图。由于存在遮挡、细小结构和大视差，该数据集具有挑战性。在图6中，我们将我们的结果与PSMNet[2]进行了视觉比较。我们的系统在视差图中推断出更好的结构细节，并且在均匀区域中产生了一致的深度图，误差显著较少。我们在补充部分中进一步可视化了我们的改进网络的效果。CRL[17]1.32--2.1GC-Net[7]2.518789 GMac8749 GMac1.1PSMNet[2] 1.092594 GMac2362 GMac2.3117900图4：提出的带有残差连接的扩张代价滤波方法。0图5：StereoDRNet改进架构。0图6：我们的网络（Stereo-DRNet）与PSMNet[2]在SceneFlow数据集上的视差预测比较。顶部行显示视差，底部行显示EPE图。请注意，我们的网络能够恢复细小结构，并且在均匀区域中显示更低的误差。0表1显示了我们的架构在有无改进网络的情况下的定量分析。Stereo-DRNet在减少计算时间的同时实现了显著较低的端点误差。我们提出的代价滤波方法在准确性上取得了更好的效果，并且计算量显著较少，证明了提出的扩张残差代价滤波方法的有效性。消融研究：在表2中，我们展示了SceneFlow数据集上我们网络不同部分的完整EPE分解。旋涡池化和改进过程都带来了微小的性能提升。将遮挡图与残差视差同时训练可以将最终视差的平均端点误差从0.93像素降低到0.86像素。仅将光度误差传递到改进网络中实际上会降低性能。0方法 EPE 总计算量 3D-Conv计算量 FPS0我们的 0.98 1410 GMac 1119 GMac 4.30我们的-优化 0.86 1711 GMacs 1356 GMacs 3.60表1：在SceneFlow数据集上，将提出的Stereo-DRNet与现有方法进行定量比较。EPE表示视差的平均端点误差。FPS和FLOPS（卷积层所需）是在完整的960×540分辨率立体图对上测量的。请注意，即使是我们未优化的视差架构也优于现有方法PSMNet[2]，同时需要更少的计算量。04.2. KITTI数据集0我们在KITTI 2015和KITTI2012数据集上评估了我们的方法。这些数据集包含使用LIDAR传感器获取的半稠密深度图像的立体图对，可用于训练。KITTI2012数据集包含来自静态室外场景的194个训练和193个测试立体图对。KITTI2015数据集包含来自静态和动态室外场景的200个训练和200个测试立体图对。Vortex✓1.132.14Vortex✓✓0.991.88Vortex✓✓✓0.981.74Vortex✓✓✓✓1.03-Vortex✓✓✓✓0.95-Vortex✓✓✓✓✓0.93-Vortex✓✓✓✓✓✓0.86-GC-NET[7]2.71 3.46 1.77 2.300.60.70.90EdgeStereo[21] 2.79 3.43 1.73 2.180.50.60.48PDSNet[22]3.82 4.65 1.92 2.530.91.00.50SegStereo[25]2.66 3.19 1.68 2.030.50.60.60PSMNet[2]2.44 3.01 1.49 1.890.50.60.41DN-CSS[6]2.395.712.942.234.962.680.07GC-NET[7]2.216.162.872.025.582.610.90CRL[17]2.483.592.672.323.122.450.47EdgeStereo[21]2.274.182.592.123.852.400.27PDSNet[22]2.294.052.582.093.692.360.50PSMNet[2]1.864.622.321.714.312.140.41SegStereo[25]1.884.072.251.763.702.080.60xRMSEPSMNet[2]5.41 1.31 0.540.755.02 1.09 0.410.66117910网络架构 SceneFlow KITTI-20150池化成本过滤优化 EPE 验证误差(%) d 1 d 2 d 3 E p E g L o0金字塔 � 1.17 2.280金字塔 � � � 1.00 1.810金字塔 � � � � � � 0.96 -0表2：在SceneFlow和KITTI-2015评估数据集上，对网络架构设置进行消融研究。0方法 2px 3px 平均误差时间(s) 无遮挡全部无遮挡全部无遮挡全部0我们的 2.29 2.87 1.42 1.83 0.5 0.5 0.230表3：将Stereo-DRNet的视差估计与KITTI2012数据集上的现有方法进行比较。0方法全部(%) 无遮挡(%) 时间(s) D1-bg D1-fg D1-all D1-bg D1-fgD1-all0我们的 1.72 4.95 2.26 1.57 4.58 2.06 0.230表4：将Stereo-DRNet的视差估计与KITTI2015数据集上的现有方法进行比较。0动态室外场景。训练和消融研究：由于KITTI数据集只包含有限数量的训练数据，我们在SceneFlow数据集上对我们的模型进行了微调。在我们的训练中，我们使用了80%的立体图对进行训练，20%的立体图对进行评估。我们在KITTI2015数据集上展示了我们提出的方法的消融研究表2。请注意，我们提出的扩张残差架构和使用Vortex池化进行特征提取的方法在改进结果方面是一致的。0方法全部无遮挡0iResNet[12] 4.04 1.20 0.34 0.59 3.68 1.00 0.25 0.510DN-CSS[6] 3.00 0.96 0.34 0.56 2.69 0.77 0.26 0.480我们的方法 4.84 0.96 0.30 0.55 4.46 0.83 0.24 0.500表5：与ETH3D数据集上最先进的已发表方法相比，使用StereoDRNet进行视差估计的比较。0结果：我们在这两个数据集上评估了我们的Dilated残差网络，没有进行滤波，并在KITTI2012（表3）上取得了最先进的结果，在KITTI2015（表4）上与最佳发布方法取得了可比较的结果。在KITTI2015数据集上，D1-bg、D1-fg和D1-all这三列分别表示背景、前景和所有区域中的像素被考虑在误差估计中。我们在D1-bg中始终表现良好，意味着背景区域，我们在所有像素中取得了与最先进方法可比较的结果，并在非遮挡区域取得了更好的结果。在KITTI2012数据集中，“Noc”表示非遮挡区域，“All”表示所有区域。请注意，我们在KITTI2015上与SegStereo[25]相比表现可比，但在KITTI2012数据集中表现更好。04.3. ETH3D数据集0我们再次使用了在Scene-flow数据集上训练的预训练网络，并在数据集中提供的训练集上进行了微调。ETH数据集包含室内和室外环境的具有挑战性的场景。根据我们的表5，我们在几乎一半的评估指标上表现最好，我们在这个评估中的主要竞争对手是DN-CSS[6]。尽管如此，我们观察到这种方法在KITTI2015数据集上表现不佳（表4）。请注意，由于这个数据集包含了两个立体视图的密集训练视差图，我们能够在这个数据集上训练和评估我们的细化网络。04.4. 室内场景重建0我们使用最近的工作[23]中使用的扫描装置为监督学习深度准备了真实数据集，并在该装置上添加了一个RGB相机以获得立体图像对。我们保持了立体图像对的基线约为10cm。我们在我们的StereoDRNet网络上进行了训练。117920如第4.1节所述，我们使用SceneFlow进行预训练，并在室内区域通过我们的扫描装置收集的250个立体图像对上进行微调。我们观察到网络在最小量的微调下迅速适应了我们的立体装置。为了准备真实深度，我们发现从完整场景重建中渲染的深度比实时传感器深度更好，后者通常受到遮挡和深度不确定性的影响。我们使用截断有符号距离函数（TSDF）将实时深度图融合到场景中，如[15]所述。0图7：我们展示了一个训练示例，包括左图像、真实深度和排除掩码。请注意，玻璃、镜子和桌子的尖角在训练中被排除，如遮挡掩码中的黄色像素所示。请注意，这个示例不是我们实际的训练集的一部分。0图8：这个图示了我们的StereoDRNet网络在椅子的细小反射腿和玻璃的一些部分上产生了更好的预测。我们使用网络预测的遮挡掩码来裁剪遮挡区域。地面真实深度中的黄色区域是属于我们提出的排除掩码的区域。0红外结构光深度传感器对于暗色和高反射表面的响应不敏感。此外，TSDF融合的质量受到分辨率的限制。0图9：这个图展示了通过我们系统的预测深度图的TSDF融合对一个公寓客厅的3D重建。我们分别可视化了纹理网格的两个视图和顶部和底部行的表面法线。0由于体素大小的演化，我们预计重建结果在一些区域会过于平滑，例如桌角或植物叶片的锐利边缘。为了避免将错误的深度估计污染到我们的训练数据中，我们使用简单的光度误差阈值来屏蔽训练中纹理模型投影颜色与真实图像不一致的像素。我们在图7中展示了一个这样的例子，其中玻璃、镜子和桌子的锐利角落被排除在训练之外。尽管Whelan等人的系统可以获得镜子和玻璃的地面真实平面，但我们在这项工作中避免对它们进行深度监督，因为通过立体匹配过程获得反射器的深度超出了范围。我们在图8中展示了立体图对深度预测的可视化。请注意，由于训练中使用的过滤过程，我们的预测能够恢复桌子的锐利角、椅子的细小反射腿和厨房数据集中的几个细小结构。有趣的是，我们能够正确恢复玻璃的上部，但不能恢复受到反射影响的玻璃的下部。立体匹配模型在存在反射的情况下将反射器简单地视为窗户。结果和评估：我们在图9中展示了通过我们系统的预测深度图的TSDF融合对一个公寓客厅的完整3D重建的可视化。为了进行评估研究，我们准备了三个小的数据集，分别称为“沙发和靠垫”（图1中展示）、“植物和沙发”和“厨房和自行车”（图10中展示）。我们报告了从PSMNet[2]和我们的改进网络获得的深度图融合的重建3D网格的点对平面均方根误差（RMSE）。在更简单的“沙发和靠垫”数据集上，我们获得了1.3厘米的RMSE。请注意，我们的方法捕捉到了高频结构细节。117930图10：使用我们的StereoDRNet网络（中间）、PSMNet [2]（右侧）和结构光系统（左侧）[23]（称为GroundTruth）的深度图融合的3D重建的比较。我们报告并可视化了重建网格与地面真实网格之间的点对平面距离RMS误差。深黄色框表示我们的重建结果捕捉到了结构光传感器或PSMNet无法捕捉到的细节。浅黄色框表示StereoDRNet在某些区域优于PSMNet。0在由PSMNet或结构光传感器未捕获的靠垫上。“植物和沙发”代表了一个更困难的场景，因为它包含了一个投射阴影的定向光源。对于这个数据集，StereoDRNet的RMSE为2.1厘米，而PSMNet的RMSE为2.5厘米。请注意，我们的重建不仅更清晰，而且在阴影区域（书架和左侧植物投射的阴影）产生最小的错误。“厨房和自行车”数据集杂乱且包含反射物体，使其成为最困难的数据集。虽然我们的系统仍然达到了2.1厘米的RMSE，但PSMNet的性能降至2.8厘米的RMSE。请注意，与结构光传感器和PSMNet的重建相比，我们的重建包含了水龙头（黄色框标出）。对于所有的评估，我们使用完全相同的训练数据集来微调我们的StereoDRNet和PSMNet。05.结论从被动立体图像中估计深度是一项具有挑战性的任务。相关工作中的系统在具有均匀纹理或有阴影和镜面反射的表面的区域中存在问题。我们提出的网络架构使用全局空间池化和扩张残差成本过滤技术来近似基础几何，即使在上述具有挑战性的场景中也能做到。此外，我们的改进网络通过遮挡和视角一致性线索产生几何一致的视差图。通过使用完美的合成数据和对真实训练数据的精心过滤，我们能够恢复细小结构和锐利物体边界。最后，我们证明了当用于在具有挑战性的室内场景中构建3D场景重建时，我们的被动立体系统接近于最先进的结构光系统的质量。117940参考文献0[1] Michael Bleyer, Christoph Rhemann, and Carsten Rother.Patchmatch立体匹配与倾斜支持窗口。在Bmvc，卷11，页码1-11，2011年。 20[2] Jia-Ren Chang and Yong-Sheng Chen.金字塔立体匹配网络。在计算机视觉和模式识别的IEEE会议论文集中，页码5410-5418，2018年。 1, 2, 4, 5, 6, 7, 80[3] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, and Alan L Yuille. Deeplab:带有深度卷积网络、空洞卷积和全连接CRF的语义图像分割。IEEE模式分析与机器智能交易，40(4):834-848，2018年。 20[4] Heiko Hirschmuller.半全局匹配和互信息的立体处理。IEEE模式分析与机器智能交易，30(2):328-341，2008年。 2, 30[5] Eddy Ilg, Nikolaus Mayer, Tonmoy Saikia, MargretKeuper, Alexey Dosovitskiy, and Thomas Brox. Flownet 2.0:使用深度网络的光流估计演变。在IEEE计算机视觉和模式识别(CVPR)会议上，卷2，页码6，2017年。 20[6] Eddy Ilg, Tonmoy Saikia, Margret Keuper, and ThomasBrox.遮挡、运动和深度边界的通用网络用于视差、光流或场景流估计。在欧洲计算机视觉会议(ECCV)上，2018年。 60[7] Alex Kendall, Hayk Martirosyan, Saumitro Dasgupta,Peter Henry, Ryan Kennedy, Abraham Bachrach, and AdamBry. 几何和上下文的端到端学习用于深度立体回归。CoRR，vol.abs/1703.04309，2017年。 2, 3, 5, 60[8] Sameh Khamis, Sean Fanello, Christoph Rhemann, AdarshKowdle, Julien Valentin, and Shahram Izadi. Stereonet:引导的分层细化用于实时边缘感知深度预测。arXiv预印本arXiv:1807.08865，2018年。 20[9] Diederik P Kingma and Jimmy Ba. Adam:随机优化方法。arXiv预印本arXiv:1412.6980，2014年。 40[10] Andreas Klaus, Mario Sormann, and Konrad Karner.基于分割的立体匹配，使用置信传播和自适应差异度量。在模式识别，2006年ICPR2006第18届国际会议上，卷3，页码15-18。IEEE，2006年。 20[11] Vladimir Kolmogorov and Ramin Zabih.使用图割计算具有遮挡的视觉对应关系。在计算机视觉，2001年ICCV2001第八届IEEE国际会议上，卷2，页码508-515。IEEE，2001年。 20[12] Zhengfa Liang, Yiliu Feng, YGHLW Chen, and LQLZJZhang.通过特征恒定性学习视差估计。在计算机视觉和模式识别的IEEE会议论文集中，页码2811-2820，2018年。 2, 60[13] Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer,Daniel Cremers, Alexey Dosovitskiy, and Thomas Brox.用于视差的卷积网络的大型数据集，0光流和场景流估计。在计算机视觉和模式识别的IEEE会议论文集中，页码4040-4048，2016年。 2, 3, 40[14] Richard Newcombe.密集视觉SLAM。博士论文，伦敦帝国学院，英国，2012年。 20[15] Richard A Newcombe, Shahram Izadi, Otmar Hilliges,David Molyneaux, David Kim, Andrew J Davison, PushmeetKohi, Jamie Shotton, Steve Hodges, and Andrew Fitzgibbon.Kinectfusion:实时密集表面映射和跟踪。在混合和增强现实(ISMAR)，2011年第10届IEEE国际研讨会上，页码127-136。IEEE，2011年。 1, 2, 70[16] Richard A Newcombe, Steven J Lovegrove, and Andrew JDavison. DTAM:实时的密集跟踪和建图。在计算机视觉(ICCV)，2011年IEEE国际会议上，页码2320-2327。IEEE，2011年。 2, 30[17] Jiahao Pang, Wenxiu Sun, Jimmy SJ Ren, ChengxiYang和Qiong Yan. 级联残差学习:用于立体匹配的两阶段卷积神经网络. 在ICCV Workshops中, 卷7,2017. 2 , 5 , 60[18] George Papandreou, Iasonas Kokkinos和Pierre-AndréSavalle. 在深度学习中建模局部和全局变形:基于Epitomic卷积、多实例学习和滑动窗口检测.在IEEE计算机视觉和模式识别会议论文集中, 页码390–399, 2015.40[19] Leonid I Rudin, Stanley Osher和Emad Fatemi.基于非线性总变差的噪声去除算法. 物理学D: 非线性现象,60(1-4):259–268, 1992. 20[20] Daniel Scharstein和Richard Szeliski.密集两帧立体对应算法的分类和评估. 计算机视觉国际期刊,47(1-3):7–42, 2002. 2 , 30[21] Xiao Song, Xu Zhao, Hanwen Hu和Liangji Fang.Edgestereo: 用于立体匹配的上下文集成残差金字塔网络.arXiv预印本arXiv:1803.05196, 2018. 60[22] Stepan Tulyakov, Anton Ivanov和Francois Fleuret.实用的深度立体匹配(pds): 朝着应用友好的深度立体匹配.arXiv预印本arXiv:1806.01677, 2018. 60[23] Thomas Whelan, Michael Goesele, Steven J Lovegrove,Julian Straub, Simon Green, Richard Szeliski, StevenButterfield, Shobhit Verma和Richard Newcombe.用于镜面和玻璃表面重建场景. 图形学ACM交易, 37(4):102, 2018.1 , 2 , 6 , 7 , 80[24] Chen-Wei Xie, Hong-Yu Zhou和Jianxin Wu. 漩涡池化:改进语义分割中的上下文表示. arXiv预印本arXiv:1804.06242,2018. 1 , 2 , 3 , 40[25] Guorun Yang, Hengshuang Zhao, Jianping Shi, ZhidongDeng和Jiaya Jia. Segstereo: 利用语义信息进行视差估计.arXiv预印本arXiv:1807.11699, 2018. 60[26] Christopher Zach, Thomas Pock和Horst Bischof.一种全局最优的鲁棒TV-L1范围图像融合算法. 在计算机视觉, 2007.ICCV 2007. IEEE第11届国际会议上, 页码1–8. IEEE, 2007. 2117950[27] Jure Zbontar和Yann LeCun.通过训练卷积神经网络来比较图像块进行立体匹配.机器学习研究杂志, 17(1-32):2, 2016. 2

下载后可阅读完整内容，剩余1页未读，立即下载