可微分PatchMatch算法用于实时立体声算法的加速

9 浏览量更新于2023-10-12 收藏 6.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43214384DeepPruner：通过可微分PatchMatchShivam Duggal1，Shenlong Wang1，2，Wei-Chiu Ma1，3，Rui Hu1 and RaquelUrtasun1，21 Uber ATG，2多伦多大学，3麻省理工摘要我们的目标是显着加快运行时的电流- rent国家的最先进的立体声算法，使实时推理。为了实现这一目标，我们开发了一个可区分的PatchMatch模块，该模块允许我们在不需要进行全部成本量评估的情况下丢弃大多数错误。然后，我们利用这种表示来学习为每个像素修剪哪个范围。通过逐步减少搜索空间和有效地传播这样的信息，我们能够有效地计算高似然假设的成本量，并实现节省内存和计算。最后，利用图像引导的细化模块，以进一步提高性能。由于我们的所有组件都是可区分的，因此可以端到端地训练整个网络。实验结果表明，该方法在KITTI和Scene-Flow数据集上取得了较好的效果，实时运行时间为62 ms。1. 介绍立体估计是从具有重叠视场的一对图像估计深度（或视差）的过程。它是许多应用的基本构建块，如机器人和计算摄影。尽管经过几十年的研究，真实场景的立体声估计仍然是一个悬而未决的问题.现有技术的方法仍然难以处理重复结构、无纹理区域、遮挡和薄对象。此外，运行时间也是一个挑战.虽然许多应用都需要实时推断，但在不对准确性做出重大妥协的情况下很难实现。经典的立体方法通常从计算鲁棒的特征表示开始[38，36，31，20，41]。然后为每个像素计算成本体积，对该像素的表示与沿另一图像上的对应核线的所有像素后处理技术[14，30]通常用于平滑和噪声去除。然后为每个像素挑选最低成本视差值作为最终预测。然而，由于解决方案空间的大小和复杂的后处理程序。为了实现实时性能，已经提出了大量的加速方法其中，PatchMatch[3]是用于实现具有实时推理的竞争性性能的最流行的技术之一[5，6]。最近，随着深度学习的蓬勃发展，设计了受传统立体匹配管道启发的网络。他们通过学习深度表示[22，23]和构建深度成本卷[15，8，16]来实现最先进的结果。虽然这些方法可以用GPU来加速，但存储器消耗和计算要求仍然是大多数架构的关注点。另一种方法是设计一个回归网络，该网络将立体声对作为输入，并直接回归视差，而无需显式匹配或成本体积构造。不幸的是，实时方法和最佳性能算法之间通常存在很大的性能差距我们的目标是显着加快运行时的电流- rent国家的最先进的深度立体声算法，使实时推理。我们基于两个关键观察结果构建模型：第一，立体匹配的搜索空间很大，但是可以确信地丢弃许多候选，而不需要完全评估;第二，由于世界的相干性，相邻像素通常具有相似的差异。这表明，一旦我们知道一个像素的视差，我们就可以有效地将这些信息传播到它的邻居。考虑到这些直觉，我们提出了DeepPruner，一个实时立体匹配模型。具体来说，我们首先利用一种新的可微PatchMatch算法来获得成本量的稀疏表示。然后，我们利用这种表示来学习为每个像素修剪哪个范围。最后，利用图像引导的细化模块，以进一步提高性能。由于所有组件都是可区分的，因此可以以端到端的方式训练整个网络。通过逐步减少搜索空间和有效地传播这样的信息，我们能够有效地计算成本量的高似然假设，并显着降低内存消耗和计算成本。43214385最小位移最大位移匹配传播匹配传播SPP特征提取可微置信区间补丁匹配预测补丁匹配细化3D成本聚集图1：概述：给定一对立体图像，我们首先提取深度多尺度特征。然后，我们利用可微PatchMatch来估计每个像素的一个小的视差子集，并利用置信范围预测器来进一步修剪解决方案空间。与在整个视差搜索范围上操作的其他方法[8，15]不同，我们仅在减小的搜索范围内聚合成本最后，我们利用一个轻量级的网络来完善立体声输出。我们在具有挑战性的SceneFlow [23]和KITTI上[11] 数据集。我们的模型在SceneFlow上排名第二，比最好的方法快8倍[9]。与KITTI上以前的方法相比，DeepPruner实现了与最先进方法[8，33]的竞争性能，并在所有实时模型中排名第一[23，32]。为了进一步展示Deep-Pruner的鲁棒性和通用性，我们在RobustVision Stereo Chal- lenge [1]上对其进行了评估。我们的模型在多个数据集上实现了最先进的结果[11，28，26]，并在总体排名中获得第一名。2. 相关工作经典立体匹配：估计来自立体图像的视差（深度）已经研究了几十年[2]。立体声算法通常包括以下三个步骤[27]：计算逐像素特征表示、构造成本体积以及最终的后处理。由于像素表示在该过程中起着关键作用，研究人员已经利用了各种表示，从周围像素的最简单RGB值到更具鉴别力的局部描述符，如CENSUS[39]，SIFT [19]和BRIEF [7]。再加上精心设计的后处理技术，如。成本聚合、半全局匹配[14]和马尔可夫随机场[30，34]，它们能够在相对简单的场景中实现良好的性能。深度立体匹配：为了进一步处理更复杂的现实世界场景，特别是无纹理区域或反射表面，现代方法利用CNN来提取鲁棒特征[22]并进行匹配[40，41]。虽然这些技术已经在基准测试[11]中表现出很好的性能，但仍然需要耗时的后处理。考虑到这一点，研究人员建议直接从给定的立体图像中回归子像素视差[35，9，29]。通过将完整的传统立体管道实现为神经网络层，这些模型可以以端到端的方式进行训练，并且能够完全在GPU上进行推理，从而大大提高了效率。不幸的是，由于成本体积和聚合的大在本文中，我们的工作建立在[15，8]。而不是搜索完整的视差空间，我们利用一种新的可微版本的PatchMatch学习修剪出不太可能的匹配，并降低搜索空间的复杂性我们的模型能够实时运行，同时保持可比的性能。PatchMatch：PatchMatch（PM）的开创性工作由Barnes等人提出。2009年[3]。它最初被引入作为一种有效的方法来找到结构编辑图像之间的密集对应。它背后的关键思想是，大量的随机样本往往会导致很好的猜测。另外，相邻像素通常具有相干匹配。因此，一旦找到一个好的匹配，我们43214386图2：可微分补丁匹配操作的图示。可以有效地将信息传播到邻居。由于其在修剪搜索空间方面的有效性，PatchMatch在社区中引起了广泛的关注[17，12，4，5]，并已在多个领域得到扩展和应用例如，Korman和Avidan [17]将图像一致性的概念引入局部敏感性散列，并显着提高了速度。他和孙[12] 将KD树与PatchMatch相结合，以执行更有效的邻居匹配。PatchMatch也已应用于立体声设置中，用于快速对应估计[21]和倾斜平面拟合[6]。为了提高子像素精度，Besse等人。[5]进一步将PatchMatch与粒子置信度传播相结合，并将其扩展为连续MRF推理算法。具体地说，[5]利用补丁匹配来克服在连续输出空间上搜索的不可行性.注意，如果MRF只有一元项，则它简化为k粒子广义PatchMatch [4]。我们的修剪模块主要受到[5]的启发。我们首先将粒子PatchMatch操作实现为神经网络层，并以循环方式展开它们然后，我们预测的视差置信度范围，以近似每个像素的边缘分布。通过有效的采样和传播，我们能够有效地修剪出的重要的是，我们所有的操作都是可微的，因此，方法可以端到端地学习。实时立体声：除了我们的工作之外，还有几个并行的努力推动基于实时深度学习的立体声估计[16，37]。我们的工作是不同的，从他们的，因为我们自适应地修剪出每个区域的搜索空间。相比之下，它们采用固定的、从粗到细的过程来迭代地找到匹配。3. 学习修剪立体匹配我们的目标是设计一个有效的立体声算法，不仅产生可靠和准确的估计，而且图3：传播层内的一个热滤波器组。图4：SceneFlow数据集上的定性结果。实时运行为了实现这一目标，我们提出了一个简单而有效的解决方案，将深度学习与补丁匹配相结合，以修剪掉潜在的大搜索空间，并显着加快推理速度。我们开始我们的讨论，通过描述的功能提取-灰骨干。然后，我们简要回顾了PatchMatch算法，并表明它可以自然地融入神经网络，以修剪搜索空间并加快成本量的构建。最后，我们描述了如何聚集成本，细化估计，并执行端到端学习。我们请读者参看图1。1为说明我们的方法。3.1. 特征提取特征提取网络的目标是从输入图像产生可靠的逐像素特征表示。更正式地说，给定一对立体图像{x 0，x 1}，我们试图学习一组对匹配有用的深度特征f 0，f 1。为了实现这个目标，在[15，8]之后，我们利用一个2D卷积神经网络，其中空间金字塔池化模块[13，42]作为我们的骨干。具体来说，我们采用四个残留块，并使用×2扩张卷积的最后一块，以扩大感受野。然后，我们应用空间金字塔池来构建4级金字塔特征。通过多尺度信息，该模型能够在保持高空间分辨率的同时捕获大的上下文最终特征图的大小是原始输入图像大小的1/4我们共享左右特征网络的参数现在我们有了可靠的特征我们最好的GTRGB43214387在每个像素的表示之后，下一步是构造成本体积。3.2. 基于可微补丁匹配的现代立体方法通常在整个视差空间上生成成本体积[8，15，9，29]。大的搜索空间不仅增加了内存消耗，而且加剧了计算负担。例如，考虑到PSM-Net[8]，3D成本体积构建和聚合需要超过250 ms。这两个操作本身使得实时应用程序不可行。在本文中，我们通过设计一个高效的基于PatchMatch的修剪模块来解决这个问题，该模块能够预测每个像素的置信范围，并构建一个稀疏的成本体积，需要显着减少操作。这使得模型只关注高似然区域，节省了大量的计算和内存。与标准PatchMatch不同，我们的模块是可区分的，使端到端学习成为可能。重要的是，如我们的1. 粒子采样层：对于每个像素i，我们从预测/预定义搜索空间上的均匀分布随机生成k个2. 传播层：来自相邻像素的粒子通过与预定义的一热过滤器图案的卷积一起传播（参见图1B）。3），它编码了这样一个事实，即我们允许每个像素将粒子传播到它的4个邻居。3. 评估层：对于每个像素i，通过取左特征和右特征之间的内积来计算匹配分数：对于所有候选者j，si，j=f0（i），f1（i+di，j）n。每个像素的最佳k视差值被携带到下一次迭代。我们的体系结构设计在底部有一个粒子采样层，然后循环迭代传播和评估层。由于计算过程中的arg max算子是不可微的，我们用一个软ver-实验，这样的置信度范围也是有希望的-不确定性的指示者和潜在预测的预见者[15]：Σjsi，j·di，j错误. 当深度估计用于di=Σjsi，j.（一）下游任务。PatchMatch重新访问：我们的修剪器模块的动机是优雅和经典的PatchMatch算法[3]。补丁匹配方法[6，5，3，4]通常包括以下三个步骤1：1. 粒子采样：生成k个随机候选;2. 传播：将粒子传播到邻居;3. 评估：通过评估当前和传播的粒子来更新最佳k一旦完成初始化（步骤1），贪婪方法在步骤2和步骤3之间迭代，直到达到收敛或在实践中，这通常会导致良好的结果，而无需枚举所有可能性。最初，k被设置为1 [3]。但后来，广义的Patch- Match [4]将连接绘制到粒子采样方法，并扩展PatchMatch以利用top-k。这不仅增加了表达能力，而且使更快的收敛。可区分的PatchMatch：在这项工作中，我们将一般化的PatchMatch展开为递归神经网络，其中每个展开步骤相当于al-tax m的每次迭代。这很重要，因为它允许我们端到端地训练我们的完整模型。具体来说，我们设计了以下层：1为了简单起见，我们省略了应用于当前粒子的局部随机响应。图2描绘了一个递归步骤的计算图，其组合了传播和评估。在实践中，我们不是让每个粒子驻留在整个视差空间中，而是将搜索空间划分为k个区间，并强制第i个粒子位于第i个区间中。这保证了粒子的多样性，并有助于提高后续计算的准确性，我们在实验中显示了这一点。由于所有操作都是可微的，我们可以直接反向传播所有展开步骤，并以端到端的方式训练模型。置信范围预测：所有像素的原始搜索空间是相同的。然而，在实践中，对于每个像素，高度可能的视差位于窄区域中。使用从PatchMatch阶段估计的视差的小子集，我们有足够的信息来预测真实视差所在的范围。因此，我们exploit的置信范围预测网络调整每个像素的搜索空间。该网络具有卷积编码器-解码器结构。它将来自可微分PatchMatch的稀疏视差估计、左图像和变形的右图像（根据稀疏视差估计变形）作为输入，并输出每个像素i的置信度范围Ri=[li，ui]。置信度范围修剪掉不太可能匹配的空间，允许昂贵的成本-体积构建和聚合仅在几个差异值处发生。3.3. 成本汇总和细化成本合计：基于修剪模块中的预测范围，我们构建3D成本体积估计器并432143880 200 400 600 800100012000 200 400 600 800100012000 200 400 600 800100012000 200 400 600 80010001200图5：置信范围预测值的可视化。在底部行，我们显示了沿着顶部行所示的验证图像上的水平绿线蓝色和橙色线分别表示搜索范围的上限和对于大多数像素，DeepPruner预测非常小的搜索范围，从而允许有效的成本聚合。较高的搜索范围通常发生在边界像素处，或者在一个视图中被遮挡的像素处。进行空间聚合。按照惯例[8，15]，我们将左图像、变形的右图像和相应的视差作为输入，并输出阶段分别。因此，我们定义：.0的情况。5 x2 如果|X|<1尺寸为B×R×H×W的视差范围，其中R是每个像素的视差数相比于现有s（x）=|-0。|− 0. 5其他工作[8，15]，我们的R小了10倍以上，使这个模块非常有效。Soft-arg_max定义在等式1再次用于预测视差值ycost，因此我们的方法是端到端可训练的。精炼：我们利用一个轻量级的全卷积这种损失的优点是每一次都是可微其中类似于102损失，但对101损失等离群值更稳健此外，在范围的上界和下界上的损失被定义为回飞棒形状的不平衡平滑-1损失：. （1 −λ）（x） ifx >0优化网络以进一步提高性能。该网络从特征网络的第二残差块和当前残差块中获取左图像卷积特征。lower（x）=Sλs（x）否则.λ（x）ifx >0租金差距估计成本作为输入。然后输出最大值（x）=S（1−λ）s（x）否则微调视差预测和细化。低级特征信息作为指导，以减少噪音和IM，证明最终视差图的质量，特别是在尖锐边界上。3.4. 端到端学习我们的网络是端到端差异化的。我们使用反向传播来学习参数。给定GT视差y，总损失函数定义如下：s（ycost−y gt）++γ{lower（l−ygt）+upper（u−ygt）}其中，在成本聚集阶段和最终细化阶段中，标准平滑-平滑10< λ<0。五、 γ是平衡标量。注意，上界预测更接近但优选地大于GT视差;而更低的则将下限预测推至更接近但优选地小于GT视差。4. 实验我们将我们的方法与性能最好的出租车[41，15，9，25，29，8]和实时模型[32，23]进行比较。具体来说，我们评估了我们的方法的两个变体，即DeepPruner-Best和DeepPruner-Fast。DeepPruner-Best 将成本量下采样 4 倍，而DeepPruner-Fast将其下采样8倍。其余两种型号保持不变。7080上较低预测值范围差上较低预测值范围差4060上较低预测值范围差40605030上较低预测值范围差30404020203020201010100000信心视差我们最好的GTRGB视差视差视差43214389GC-Net [15]SegStereo [35]CRL [25]PDS-Net [33]PSM-Net [8]CSPN [9]我们最好的DispNetC [23]Our-FastEPE2.511.451.321.121.090.780.861.680.97运行时900 Ms600 Ms470 Ms500 ms410 Ms500 ms182毫秒60 Ms62毫秒表1：SceneFlow数据集的定量结果。我们的方法在所有竞争算法中排名第2 我们的快速模型比现有技术快8倍，并将以前的实时模型的性能提高了40%。图6：KITTI 2015测试集的定性结果。橙色代表错误的预测。方法推理运行时BGNOC（%）FG所有BG全部（%）FG所有[22]第二十二话1000 Ms3.327.444.003.738.584.54MC-CNN [41]67000毫秒2.487.643.332.898.883.89GC-Net [15]900 Ms2.023.122.452.216.162.87CRL [25]470 Ms2.323.682.362.483.592.67PDS-Net [33]500 ms2.093.682.362.294.052.58PSM-Net [8]410 Ms1.714.312.141.864.622.32SegStereo [35]600 Ms1.763.702.081.884.072.25[29]第二十九话700 Ms1.723.412.001.873.612.16CSPN [9]500 ms1.402.671.611.512.881.74DeepPruner-最佳182 ms1.713.181.951.873.56 2.15MAD-Net [32]20毫秒3.458.414.273.759.24.66[23]第二十三话60 Ms4.113.724.054.324.414.34DeepPruner-Fast61毫秒2.133.432.352.323.912.59表2：KITTI 2015测试集的定量结果。顶部：我们的模型实现了与最先进模型相当的性能，同时速度明显更快。底部：与其他实时方法（例如，DispNet），我们的立体声估计要精确得多。在本节中，我们首先描述我们的实验装置。接下来，我们评估我们在挑战公共基准方面的做法。最后对模型的特点进行了全面的研究。4.1. 数据集场景流：如[23]中所提出的，这是由用于35454个训练和4370个测试立体对的密集地面实况视差图组成的合成数据集，其尺寸为（H=540，W=960）。我们使用端点误差（EPE）作为SceneFlow数据集的评估指标。KITTI 2015：这是一个真实世界的数据集，200个训练立体声对和200个测试立体声对，尺寸（H=376，W=1240）。地面真实视差是由Velodyne HDL-64 E激光扫描仪采集的激光雷达点获得的。与之前的版本KITTI 2012不同，动态场景中存在密集的地面视差使用的评估指标与基准提供的指标相同，即离群值百分比。4.2. 实现细节使用Adam（β1=0.9，β2=0.999）作为优化器，在大小为（ H=256 ， W=512 ）的随机裁剪图像块使用ImageNet统计数据（平均值和标准值）对输入图像进行颜色归一化，所有模型都在4个Nvidia-TitanXp GPU上训练。对于所有数据集，我们使用超参数λ=0。315，γ=2。4、损失函数我们DispNet我们最好的我们快速PSM-Net CSPNRGB43214390模块特征提取补丁匹配-1置信范围PatchMatch-2成本聚合RefineNetDeepPruner-Best54毫秒20毫秒61毫秒13毫秒32 Ms3 msDeepPruner-Fast28毫秒5 ms16 Ms3 ms8 ms4 ms表3：运行时细分：由于PatchMatch和Confidence Range Predictor显著减少了搜索空间，我们只对一小部分差异进行成本聚合，从而更快。网络组件推断KITTI 2015（%）SceneFlowCCCCC172毫秒1.653.271.900.868CCCCC178毫秒2.043.862.321.283CCCCCC182毫秒1.612.901.80.858表4：每个网络组成部分的贡献：置信区间预测器（CRP）和PatchMatch（PM）显著地修剪了解空间，从而实现更好的成本聚合（CA）。RefineNet通过引入更多的视觉指导进一步改进了估计。（*：PM-2仅在SceneFlow预训练期间使用。）在训练期间，仅在具有0和192之间的地面真实差异的像素上计算损失对所有像素进行评估，而不管它们的视差值。对于sceneflow数据集，我们从头开始训练模型初始学习率被设置为0.001，并且在每20个epoch之后衰减0.0003对于KITTI数据集，我们组合了KITTI 2012和KITTI2015图像对，总共产生了394个训练图像对。我们从总共394张图像中保留了40张图像用于验证。然后，我们使用预先训练的场景流模型，并对它进行了另外1040个epoch的微调。在800个时期之后，所有批次范数层被切换到eval模式，即运行平均值和std统计量保持固定以用于进一步训练。DeepPruner-Best模型的批量大小为16，而DeepPruner-Fast模型的批量大小为64。我们使用初始lr为0.0001，并在500个epoch后将其降低到0.00005。为了提交到KITTI测试基准，我们在所有394个训练图像上重新训练了1040个epoch的模型4.3. 实验结果SceneFlow：如Tab. 1，我们的方法优于大多数方法的一个很大的保证金，并取得第二个最好的结果。与现有技术[9]相比，我们的最佳模型快2.5倍，我们的快速模型快8倍以上。与实时方法[23]相比，我们的方法在几乎相同的运行时间内将端点误差降低了40%图4描绘了定性结果。Deep-Pruner捕获大的差异和小的对象，并且能够对图像边界产生尖锐的估计。标签。2展示了KITTI立体声实验台上所有竞争算法mark. DeepPruner-Best实现了与最先进方法相当的性能，同时速度明显更快。与实时立体模型相比，DeepPruner-Fast将离群值比率降低了40%以上。图6显示了测试集上的一些立体结果。DeepPruner在各种场景中产生有竞争力的估计。4.4. 分析消融研究：为了了解DeepPruner中每个组件的有效性，我们使用不同的配置来评估我们的模型。如Tab.所示4、置信区间预测是模型的关键。在细化网络的帮助下，我们可以进一步捕获尖锐的边缘以及细粒度的细节，并提高整体的立体声估计。可视化置信范围预测值：置信范围预测器的目标是修剪掉不可能匹配的空间，并确保昂贵的成本体积操作仅发生在少数视差值处。为了理解预测器的功效，我们可视化预测的搜索范围以及沿着水平线的像素的GT视差。如图5、在大多数情况下，我们的置信区间相当小，这大大减少了成本量预测的计算和存储负担。不确定性：范围预测也可以被认为是置信度/不确定性水平的测量-范围越大，模型越不确定。为了验证这一假设，我们比较了预测的置信范围（即，最大范围减去最小范围）相对于若干验证图像上的显示误差图。如图7、不确定度（预测范围）图及误差壮举. Extr.PM-1 CRP运行时BGFG所有EPEC C C120 Ms2.053.572.280.98243214391RGB视差误差不确定度图7：不确定性与误差。可以看出，不确定性与误差高度相关，从而是潜在误差的良好指标。地图是高度相关的，这表明它可能是一个很好的指标的潜在错误。为了进一步验证这一点，我们通过从最不确定的像素开始逐渐去除不确定的像素来跟踪度量的变化通过去除6%的不确定像素，我们将离群值比率提高了38%。这清楚地表明，我们的高置信度区域具有非常低的误差，而大多数误差发生在低置信度区域。方法试剂盒秩TI2015D1-全部（3px）MiddleburyV3等级4xETH3秩D4x罗布整体排名PSMNet ROB [8]22.311129.260.545DN-CSS ROB [1]82.94319.620.383[18]第十八话32.71622.130.402DeepPruner ROB12.23721.910.341表5：与Ro-bust Vision Challenge上的前3种方法的比较。我们提出的方法实现了最高的整体排名。稳健性和可推广性：为了证实我们的模型在不同场景中的泛化能力，我们在Robust Vision Challenge [1]上评估了我们的模型。具体来说，我们在KITTI [24]，ETH3D[28]和MiddleburyV3 [26]上联合微调了我们的场景流预训练模型，并报告了所有三个数据集的结果。如Tab.所示。5，DeepPruner在两个数据集上获得最高排名，并在总体排名中排名第一。它还能够捕捉各种场景的细粒度几何形状（见图1）。（八）。运行时和内存分析：我们在Tab中的推理过程中对模型中每个组件的运行时进行基准测试. 3.由于PatchMatch和置信度范围预测器逐渐减少了可能的解决方案空间，我们只需要在一小部分差异中执行成本聚合。因此，该模型明显更快。为了进一步证明我们模型的有效性，我们比较了我们的内存消耗与以前的全成本卷方法[8]。对于一对全尺寸KITTI立体图像，PSM-Net [8]在推理过程中占用高达 4351 MB 的内存。相比之下，我们的DeepPruner-Best和DeepPruner-Fast仅分别消耗1161 MB和805 MB内存。存储需求不到[8]的四分之一，这显示了在移动计算平台中集成的潜力[18]第十八届中国国际汽车工业展览会图8：ROB挑战的定性结果：我们的方法捕获的场景的细粒度的几何形状。看到楼梯扶手和雕塑的手臂。5. 结论在本文中，我们将展示如何利用这样一个事实，即我们可以快速修剪每个像素的成本体积的一部分，而不需要充分评估其匹配分数。为了实现这一目标，我们开发了一个端到端的可训练网络，该网络利用了一种新颖的可微分PatchMatch作为其内部结构的一部分。我们的实验表明，我们的模型在实时方法中实现了最佳性能，在未来，我们计划将我们的方法应用于光流和场景流任务。ETH3D米德尔伯里43214392引用[1] http://www.robustvision.net/的网站。[2] Stephen T Barnard和Martin A Fischler。计算立体声。技术报告，SRI国际Menlo Park CA人工智能中心，1982年。[3] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing. 在TOG。ACM，2009年。[4] Connelly Barnes ， Eli Shechtman ， Dan B Goldman ，Adam Finkelstein.广义PatchMatch对应算法。在ECCV，9月。2010年。[5] Frederic Besse ， Carsten Rother ， Andrew Fitzgibbon ，and Jan Kautz.Pmbp：用于对应场估计的补丁匹配置信度传播。IJCV，2014年。[6] Michael Bleyer Christoph Rhemann 和 Carsten Rother 。Patchmatch立体匹配与倾斜的支持窗口。[7] Michael Calonder、Vincent Lepetit、Christoph Strecha和Pascal Fua。简介：二进制鲁棒独立基本特征。ECCV，2010年。[8] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR，2018年。[9] Xinjing Cheng，Peng Wang，and Ruigang Yang.使用卷积空间传播网络学习深度arXiv，2018年。[10] David Ferstl 、 Christian Reinbacher 、 Rene Ranftl 、Matthias Ruüther和HorstBischof。使用各向异性总广义变分的图像引导深度上采样在ICCV，第993-1000页[11] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。[12] 何开明和孙健。利用传播辅助kd树计算最近邻场。CVPR，2012。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。2014年，在ECCV[14] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理TPAMI，2008年。[15] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习2017年。[16] Sameh Khamis ， Sean Fanello ， Christoph Rhemann ，Adarsh Kowdle ， Julien Valentin ， and Shahram Izadi.Stereonet：实时边缘感知深度预测的引导分层细化。在ECCV，2018。[17] 西蒙·科曼和沙伊·阿维丹一致性敏感散列。TPAMI，2016.[18] Zhengfa Liang，Yiliu Feng，Yulan Guo，Hengzhu Liu，Wei Chen，Linbo Qiao，Li Zhou，and Jianfeng Zhang.通过特征恒定性学习视差估计。2018年。[19] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。IJCV，2004年。43214393[20] David G Lowe等.基于局部尺度不变特征的目标识别。ICCV，第99卷，第1150-1157页，1999年。[21] Jiangbo Lu，Hongsheng Yang，Dongbo Min，and MinhN Do.补丁匹配过滤器：高效的边缘感知滤波满足快速对应字段估计的随机搜索。CVPR，2013。[22] Wenjie Luo，Alexander G Schwing，and Raquel Urtasun.用于立体匹配的高效深度学习。在CVPR，2016年。[23] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在CVPR，2016年。[24] Moritz Menze和Andreas Geiger。自动驾驶车辆的对象场景流。CVPR，2015。[25] Jiahao Pang ， Wenxiu Sun ， Jimmy SJ Ren ， ChengxiYang，and Qiong Yan.级联剩余学习：用于立体匹配的两级卷积神经网络。在ICCV Work-shop on GeometryMeets Deep Learning，2017年10月。[26] Danie lScharstein，Heik oHirsch müller，YorkKitajima，Greg Krathwohl ， Nera Nesic ， Xi Wang ， and PorterWest- ling.高分辨率立体数据集，具有亚像素精确的地面实况。载于2014年全球政策审查[27] Daniel Scharstein和Richard Szeliski。密集两帧立体对应算法的分类和评价。IJCV，2002年。[28] ThomasScho¨ps ， JohannesL. Schoünber ger ， SilvanoGalliani，Torsten Sattler，Konrad Schindler，MarcPollefeys，and An- dreas Geiger.具有高分辨率图像和多相机视频的多视图立体基准。在CVPR，2017年。[29] 萧嵩、赵旭、胡汉文、方良吉。Edgestereo：用于立体匹配的上下文集成残差金字塔网络。arXiv，2018年。[30] Richard Szeliski ， Ramin Zabih ， Daniel Scharstein ，OlgaVeksler ， VladimirKolmogorov ， AseemAgarwala，Marshall Tappen，and Carsten Rother.基于光滑性先验的马尔可夫随机场能量最小化方法的比较研究。TPAMI，2008年。[31] Engin Tola，Vincent Lepetit，and Pascal Fua.Daisy：一种适用于宽基线立体声的有效密集描述符。IEEETPAMI，32（5）：815[32] Alessio Tonioni， Fabio Tosi ， Matteo Poggi ， StefanoMattoccia，and Luigi Di Stefano.实时自适应深度立体声。在CVPR，2019年。[33] 斯捷潘·图利亚·科沃，安东·伊沃·奥沃，还有弗朗索瓦·弗勒雷。实用深度立体声（PDS）：面向应用友好的深度立体匹配。在NEURIPS。2018年。[34] 山口幸一郎，大卫·麦卡利斯特，拉奎尔·乌尔塔-孙。高效的联合分割、遮挡标记、立体和流估计。2014年，在ECCV[35] Guorun Yang ， Hengshuang Zhao ， Jianping Shi ，Zhidong Deng ， and Jiaya Jia. Segstereo ： Exploitingsemantic information for disparity estimation.在ECCV，2018。[36] 杨庆雄，王良，杨瑞刚，亨利克·斯特·埃尼乌斯和德·维德·尼斯特。立体匹配与颜色加权相关，分层信念传播，和遮挡处理.IEEE TPAMI，2009年。43214394[37] Zhichao Yin，Trevor Darrell，and Fisher Yu.用于匹配密度估计的分层离散分布分解。2019年。[38] 刘载辰和韩泰熙快速归一化互相关。CSSP，2009年。[39] 拉明·扎比和约翰·伍德菲尔用于计算视觉对应的非参数局部变换在ECCV，1994年。[40] Sergey Zagoruyko和Nikos Komodakis通过卷积神经网络学习CVPR，2015。[41] Jure Zbontar和Yann LeCun。通过训练卷积神经网络来比较图像块来进行立体匹配。JMLR，2016.[42] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。在CVPR，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载