Bi3D：基于二进制分类的深度估计方法

146 浏览量更新于2023-10-24 收藏 2.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1Bi3D：通过二进制分类的Abhishek Badki1，2 Alejandro Troccoli1 Kihwan Kim1 Jan Kautz1 Pradeep Sen2 Orazio Gallo11 NVIDIA2加州大学圣巴巴拉分校πD(a)（b）（c）（d）（e）图1：我们的立体声算法，称为Bi3D，提供了深度精度和延迟之间的权衡给定左侧俯视图中深度为D的平面，并覆盖在（a）中的场景上，我们的算法可以在几毫秒内将物体分类为比D更近（白色）或更远（黑色）Bi3D可以用任意量化来估计深度，并且复杂度与量化级别的数量成线性关系。它还可以通过仅聚焦特定范围（（d）的顶视图中的青色区域）来在相同的计算包络内产生连续的深度最后，它可以估计完整的深度图，（e）。摘要基于立体的深度估计是计算机视觉的基石，具有实时提供准确结果的最先进方法。然而，对于诸如自主导航之类的若干应用，用准确性换取较低的延迟可能是有用的。我们提出了Bi3D，一种通过一系列二进制分类来估计深度的方法它不是像现有的立体方法那样测试物体是否在特定的深度D，而是将它们分类为比D更近或更远。此属性提供了一种强大的机制来平衡准确性和延迟。给定严格的时间bud- get，Bi 3D可以在几毫秒内检测到比给定距离更近的物体，或者用任意粗量化来估计深度，复杂度与量化级别的数量成线性关系。Bi3D还可以使用分配的量化级别来获得连续的深度，但在特定的深度范围内。对于标准立体声（即，在整个范围上的连续深度），我们的方法接近于或等同于最先进的、精细调谐的立体声方法。1. 介绍基于立体的深度估计是计算机视觉中的核心任务[21]。最先进的立体算法以良好的精度估计深度，同时保持实时执行[4，12]。然而，诸如自主导航之类的应用并不总是需要厘米精度的深度：检测在本车辆的制动距离内的障碍物这项工作是在A.Badki在NVIDIA实习即使障碍物的深度并不确切知道，也可以触发适当的响应此外，所需的精度和感兴趣的范围随任务而变化。例如，高速公路驾驶需要更长的距离，但可以处理比平行停车更粗略的给定用于计算深度信息的时间预算，那么，可以利用这种权衡。不幸的是，现有方法不提供适应深度量化级别的灵活性，以确定对象是否在特定距离内，或者简单地仅聚焦于场景的特定范围，而不首先估计完整深度。这是因为，在其核心，大多数现有算法通过测试许多候选视差来计算深度，并在某些成本函数下选择最可能的视差。这导致对现有方法的候选视差的选择的两个要求：1. 它们需要跨越覆盖场景中所有对象的范围，2. 它们不能任意粗糙。如果对象在候选视差所跨越的范围之外，则现有方法仍然将其映射到具有较低成本的候选视差，如图8所示。如果视差候选太粗糙，即，它们被太多的视差水平分开，可能永远不会对正确的视差我们提出了一种立体声方法，使我们能够利用深度量化和计算预算之间的权衡我们的方法通过估计相对于给定平面π的视差方向来工作，而不是像现有方法那样16001601π∞πDL R(a)（b）L /R（Animated）（c）R（d）L / Warped R（Animated）（e）Warped R图2：视差，两个摄像机成像的物体的明显位移，与物体的深度成反比。然后，可以通过对视差矢量的幅度进行回归来估计深度。这是现有算法的工作原理。然而，视差向量的方向对于场景中的所有对象是相同的在将两个图像扭曲到空间πD中的平面之后，平面的相对侧上的对象的视差指向相反的方向。我们建议使用这个线索来估计高质量的深度，通过分类在多个平面的视差的方向。图(b) 和（d）是动画的。请在Adobe Reader中查看并点击它们以查看动画。做换句话说，我们学习将空间中的点分类为平面π可以被视为立体相机前面的地理围栏，其可以用于检测比安全距离更近的物体。通过测试多个这样的平面，我们可以估计像素从“前面”切换到“后面”的深度注意，因为我们的方法不需要在像素的实际深度处或附近测试平面，所以测试的平面可以彼此任意远离，从而允许控制深度出于同样的原因，我们的方法提供了有价值的信息，即使是在测试范围之外的对象，无论他们是在前面或超出范围。为了说明我们的方法的核心直觉，我们考虑相机对的情况，如图2（a）所示图2（b）和2（c）示出了视差矢量的幅度携带关于深度的信息，其中较大的视差指示更靠近相机的对象。然而，视差向量方向不改变：所有对象看起来都向左“移动”。图2（c）和2（d）显示了当我们通过πD（距离D处的平面）诱导的单应性来扭曲右图像时会发生什么。我们注意到，现在物体似乎在不同的方向上“移动”：在前平面π D处或在前平面π D中的对象的视差矢量方向与之前相同，而对于平面π D之外的对象，视差矢量方向翻转：现在朝向右侧。我们利用这一观察结果并对视差向量的方向进行分类，而不是准确地回归其幅度。如果我们对逐渐靠近相机的几个平面重复此任务，则与3D点相关联的视差向量的方向翻转的平面的深度产生该点的深度。从不翻转的视差向量指示在所有测试平面之前或之外的3D点-它在搜索范围之外。但是，请注意，方向确实告诉我们该点是否在搜索范围之外，这是有价值的信息。相比之下，标准方法通常会在搜索范围内为每个像素分配一个深度，即使真实深度在这个范围之外。在本文中，我们展示了Bi3D，我们的立体声深度估计框架，提供了对延迟和深度量化之间的权衡的灵活控制• Bi3D可以在几毫秒内将物体分类为比给定距离更近或更远我们称之为二进制深度估计，图 1（b）。• 当一个更大的时间预算是可用的，Bi3D可以计算深度与不同的量化和执行时间增长的线性数量的水平。我们将其称为量化深度，见图1（c）。• 或者，它可以估计范围[πD1， πD2]中的连续深度，同时将该范围之外的对象识别为比该范围范围我们称之为选择性深度估计，图1（d）。• 最后，Bi3D可以估计完整的深度，其质量与最先进的技术相当。2. 相关工作立体匹配一直是计算机视觉领域的研究热点之一。Scharstein和Szeliski提出了一个很好的调查，并提供了一个分类，使立体匹配算法和它们的设计比较[21]。在他们的工作中，他们根据如何计算匹配成本，在一个区域内聚合成本，并优化视差，对立体方法进行分类和比较。匹配代价度量图像块的相似性。某些度量建立在亮度恒定性假设上，平方差或绝对差之和[9]。其他人通过比较局部描述符来建立相似性[6，26]。匹配成本可以在本地进行比较，选择最小化成本的视差，而不考虑上下文;或者更全局地，使用图切割[14]，置信传播[13]或半全局匹配[8]。大多数立体声算法的一个共同限制是需要枚举视差。该查询可以采用扫描线动画[201]动画[201]1602在一对校正的立体图像上，或者使用平面扫描算法在3D空间中枚举所有可能的视差匹配[3]。在平面扫描体积上计算匹配成本的结果是成本体积，其中体积中的每个单元具有匹配成本。成本体积由于其离散性而易于过滤和正则化，这使其成为立体匹配的强大工具。用于感知任务的神经网络的进步可以训练深度神经网络来计算两个不同补丁的匹配成本，如Zbontar和LeCun [27]所做的那样。此外，可以训练神经网络来进行视差回归，如Mayer等人所示。[16 ]第10段。但是深度学习方法可以做的不仅仅是匹配和直接差异回归。最近在大型数据集上训练立体匹配的工作，例如SceneFlow [16]和图3 ：给定一个立体对和πdi（对应于视差 di的平面），我们的方法可以估计物体是否比πdi更近或更远。对于左侧所示的场景和不同的深度，这将导致此处所示的置信度图（白色表示“在前面”）。被计算为KITTI [5]数据集可以计算特征，它们的相似性成本，并可以在单个端到端内正则化成本量PSV（x，y，di）=W（S（x，y），Hπd），（1）最终训练模型。例如，GC-Net正则化成本，其中W（·，H）是基于单应性的扭曲算子体积使用3D卷积，并进行视差回归H和Hπ我是平面在使用可微分软argmin操作[11]。DPSNet通过使用平面诱导单应性将特征扭曲成成本体积来利用几何约束，与用于构建平面扫描体积的操作相同[10]。上下文信息的聚合对于处理对应于视差d1的深度。(With轻微滥用在下文中，我们将πdi称为视差di处的平面。）给定匹配成本C，则现有算法找到像素的视差为平滑区域和重复模式; PSMNet [1]可以通过空间金字塔池化利用更大的上下文GANet [28]通过提供半d<$（x，y）= argminC（NRDi（x，y），NPSV（x，y，di）），（2）全局和本地成本聚合层。大型架构的缺点是它们的计算成本，这使得这些方法的成本不适合实时性能。为了克服这一点，DeepPruner [4]等架构通过使用可区分的PatchMatch层修剪搜索空间来降低体积匹配的成本。其中N是像素的邻域。的选择成本C随算法而变化。它可以是以（x，y）为中心的灰度补丁的简单归一化互相关，或者它可以是神经网络的输出，因此，可以根据学习的特征进行计算[11]。再-没有选择，总之，大多数现有的工作在立体声核心-d<$（x，y）∈[d，d]中。（三）响应基于离散成本0N体积或固定视差搜索范围。例外是DispNet [16]，但它在KITTI立体声基准中的表现我们的主要贡献是将深度估计作为二元分类任务的集合。这些任务中的每一个都通过估计每个像素处的视差值的上界或下界来提供关于场景的有用深度信息因此，我们提出的方法可以根据任务和场景更具选择性或自适应性我们还可以通过在多个平面上重复二元分类来进行精确的视差回归。3. 方法给定立体对R和S，我们可以通过选择视差范围{di}i=0：N来构建平面扫描体积（PSV）。参考左图像的PSV的每个平面可以等式3意味着其视差在范围D=[d0，dN]之外的对象仍然被映射到间隔D。我们认为这是一个主要的限制，并显示如何可以解除。3.1. 通过二进制分类的我们观察到视差向量本身的方向携带有价值的信息，而不是直接估计d<$（x，y）。实际上，在用等式1扭曲图像S视差方向根据对象是在π di的前面还是在它的后面而翻转。图2中的动画显示了扭曲图像S之前和之后的立体对。这表明我们可以训练一个二元分类器来获取两个图像，R（x，y）和PSV（x，y，d）。|d=di，并预测场景中位于π di之后（或之前）的部分。为了做到这一点，我们训练了一个相对标准的神经网络，我D1603DCB一二进制交叉熵损失（有关架构的详细信息在第4节中提供）。在收敛时，分类器可以重新映射到[0，1]，生成Cdi（x，y）=σ（o（x，y）），⑷其中o是网络的输出，σ（·）是S形函数。 cdi可以解释为分类器信心的度量。当Cdi接近1或0时，网络确信物体在平面的前面或后面，，而值接近0。5表示网络BdDNC（一）0的情况。5dC（b）第（1）款不太自信。然后，我们可以通过将C的阈值设置为0来对像素进行分类。五、更多详情请参见第4图3显示了这种方法为KITTI数据集[5]中的一些图像生成的分割掩模我们称之操作作为二进制深度估计。二进制深度虽然基于单个视差，但已经提供了关于场景的有用信息：对象是否在距相机的特定距离内-立体相机周围的地理围栏的形式。现有方法在不首先计算完整深度的情况下这是因为图4：我们的网络预测的实际置信度值对于相对于感兴趣的深度范围的不同位置中的对象，[d0，dN]。对于范围内的对象，置信度将超过0。5在对象的真实视差处的置信水平。对于在范围之前或之外的对象，置信度不超过0。5并保持在1或0左右，重新开始。最大像素（x0，y0）：（他们必须测试一组差异来选择最有可能的C（x，y，d）=1 为dd、（6）我们可以针对视差平面的集合{di}i=0：N重复该分类，并且在单个视差C（x，y，d）中连接不同视差的结果。|d=di =Cdi（x，y），000（d≥d）公式5中的曲线下面积预测了正确值d<$（x，y）=d。如图4所示，C大致为直线-我们称之为置信体积。图4（b）显示00C（x，y，d）|（x，y）=（x0，y0）（特定像素的所有视差平面上的置信度）关于范围。假设对象位于视差范围[d0，dN]内，如对象B。对于在对象后面很远的视差平面，分类器可能确信预测对象B在前面（即，C=1）。类似地，对于比物体近得多的视差平面，我们期望它有信心预测物体的位置。相反（即，C=0）。然而，对于更接近对象的视差平面，预测的置信度较低这是可以理解的：平面越接近对象的深度，视差向量的幅度越小，使得方向难以分类。原则上，在正确的视差处，分类器应该被混淆并预测0。五、然而，由于不可避免的分类噪声，简单地取曲线穿过0的第一视差。5会导致很大的估计误差。为了找到所需的视差，我们可以鲁棒地拟合函数并解析地解决视差，甚至训练零交叉网络。然而，我们发现曲线下面积Xd<$（x，y）=C（x，y，di）·（di− di−1）。（五）Di为了理解公式5背后的直觉，考虑网络对特定的网络非常自信的情况耳朵周围的区域正确的差距。我们展示在在这种情况下，即使对于在较大数量的视差上延伸的过渡，等式5也等式5具有期望的性质。首先，它对错误的置信度值表现出考虑的情况下，其中的置信体积的几个连续的平面像素被可靠地但不正确地分类（即，0而不是1，反之亦然）。一种寻找0的交叉点的方法。5值，可能会将过渡解释为所需的视差，可能会产生完全错误的结果。等式5中的预测将仅被移位几个视差水平。第二，这个操作的估计不需要是测试的差异之一：它可以是连续值。图9示出了利用该方法和其他最先进的立体声估计方法获得的深度估计结果的比较。请注意，我们结果的视觉质量与GwcNet [7]和GA-Net [28]相当。3.2. 粗量化深度估计对于某些用例，二进制深度可能不够，但完整的连续深度可能是不必要的。以高速公路为例：尽可能快地知道障碍物在例如制动距离的1米之内可能比以更高的等待时间知道其确切距离更好。现有方法通过查看所有候选深度来估计深度，并使用函数一1604GT OursGT Ours然而，先验地，现有方法采用192个视差等级，每个视差等级为1个像素宽，并且d0=0。现在考虑图4（a）中范围之外的对象，例如C。在这种情况下，因为它们寻找最小成本，现有方法被迫将对象映射到范围内的（错误的）深度，参见图8。即使他们有一个检测范围外物体的策略，在成本的门槛上，他们能做的最好的事情就是以确认关于物体深度的信息是未知的。图5：我们的方法可以通过任意粗量化来估计深度。图1至图3分别显示4、8和16个水平的请注意，即使在4个级别，也可以对场景进行基本了解，但延迟要低得多，参见表2。例如Softargmax，以实现子像素视差。因此，我们不能在推理时改变粗糙度，也不能用任意量化来估计深度。给定一个锋平行平面πdi，它将范围分成2个部分，Bi3D置信度Cdi（x，y）与累积分布有关函数，CDF：p（di≤d（x，y））=1−p（di>d（x，y））=1−Cdi（x，y），（七）其中d（x，y）是像素的视差注意，这是适当的CDF，因为CDi=0=1（每个都在零视差平面的前面，即，平面在无穷远处）和Cdi=∞=0（在深度为零的平面前面没有任何东西给一个更远的平面πdj，其中dj180fps）用于二进制深度，或9. 8ms（>100fps），四个量化级别（在配备TensorRT的NVIDIA Tesla V100上测量）。运行时间取决于具体的实现和硬件，因此直接比较并不完全公平，然而，作为参考，DeepPrunerFast报告62ms。2图5显示了4、8和16级量化的量化深度结果。请注意，4和8级通常足以形成场景的粗略概念。我们还比较了我们的算法，充分，连续的深度估计对国家的最先进的方法。表3和表1分别显示了KITTI2015和场景流的结果。虽然我们的方法的力量和真正的动机是2GA-Net的作者只提供了他们的快速版本的执行时间（对于大约是我们一半大小的图像，为50-66ms），但没有提供相应的训练模型。由于其对深度范围选择的灵活性，我们的数字令人惊讶地接近专门针对这些基准的现有技术方法在场景流数据集中，我们的EPE是第二好的，表1。此外，与最近的GA-Net [28]和GwcNet [7]的视觉比较显示出相当的质量，见图9。6. 结论在本文中，我们介绍了一种新的框架，立体声为基础的深度估计。我们表明，我们可以学习class-sify场景的哪些区域是在前面或超越虚拟的前平行平面。通过执行许多这样的测试并找到每个像素的分类在哪个平面上切换标签，我们可以估计准确的深度。然而，更重要的是，它允许有效地聚焦于特定深度范围。这可以在可以测试的视差数量的预算下减少计算负载或提高深度质量。虽然我们的重点是定义一个灵活的深度范围的能力，我们也表明，我们的方法接近或等同于最近，高度专业化的方法。致谢于治鼎为之不断议论。Shoaib Ahmed Siddiqui为分布式培训提供帮助。UCSB获得了NSF授予的IIS 16-19376的部分支持和NVIDIA的A. 巴德基1607[28]第28话我的世界[28]第28话我的世界图9：KITTI和Flying Things数据集的标准立体声结果虽然我们的目标是一种算法，允许灵活选择的范围，即使在传统的立体声（即，在整个范围内寻找对应性），我们的方法产生了视觉上与现有技术相当的结果事实上，在KITTI结果中的电力线等区域，我们的结果在视觉上优于KITTI基准测试中排名第一的GA-Net方法。GC-Net [11][16]第十六话[19]第十九话[24]第二十四话PSM-Net [1]DeepPruner [4]GANet-15 [28]CSPN [2]MCUA [18]美国[7]2.51 1.68 1.32 1.12 1.09 0.86 0.84 0.78 0.56 0.760.73表1：几种最先进方法的场景流数据集上的EPE值我们的方法是第二好的。表2：不同深度量化级别的平均IOU（越对于GA-Net和DeepPruner，我们使用完整的深度，请参阅文本。请注意，我们的方法在质量方面是相当的，但提供了以深度精度换取延迟的能力作为参考，DeepPrunerFast比GA-Net更快，运行时间为62ms。引用[1] 张嘉仁和陈永生。金字塔立体声匹配网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。三六八[2] Xinjing Cheng，Peng Wang，and Ruigang Yang.通过卷积空间传播网络学习的亲和力进行深度估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第103-119页，2018年。8NOC（%）全部（%）方法bg fg all bg fg all[23]第二十三话8.41 4.273.759.24.66[15]第十五话7.444.003.738.58 4.54[16]第十六话3.724.054.324.41四点三四分美国有线电视新闻网[27]7.643.332.898.88三点八九GC-Net[11]2.023.122.452.216.16 2.87[19]第十九话3.682.362.483.59 2.67[24]第二十四话3.682.362.294.05 2.58PSM-Net[1]1.714.312.141.864.62二点三二[25]第二十五话3.702.081.884.07 2.25[20]第二十话1.802.982.001.943.37 2.18[22]第二十二话3.412.001.873.61 2.16[4]第四季第10集3.181.951.873.56 2.15[7]第七届全国人大代表3.491.921.743.93 2.11欧洲货币联盟[18]1.503.881.901.664.27 2.09GANet-15[28]1.403.371.731.553.82一点九三CSPN[2]1.402.671.611.512.88一点七四我们的1.793.112.011.953.482.21表3：KITTI数据集的数值结果我们的方法优于几种权威方法，如PDS- Net [24]和GC-Net [11]。[3] 罗伯特·T·柯林斯一种真正的多图像匹配的空间扫描方法。IEEE计算机视觉与模式识别会议（CVPR），1996年。3GA-Net DeepPrunerFast我们的（时间）20.9654 0.9677 0.9702（5.3ms）0.9302 0.9350 0.9372（9.8ms）8 0.8774 0.8826 0.8909（18.5ms）16 0.8061 0.8066 0.8307（36ms）水平1608[4] Shivam Duggal ， Shenlong Wang ， Wei-Chiu Ma ， RuiHu，and Raquel Urtasun.DeepPruner：学习有效的立体声匹配，通过可微patchmatch。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年。一、三、七、八[5] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。 The InternationalJournal of Robotics Research ， 32（11）：1231-1237，2013. 三、四[6] Andreas Geiger，Martin Roser，and Raquel Urtasun.高效的大规模立体匹配。2010 年亚洲计算机视觉会议（ACCV）论文集。2[7] Xiaoyang Guo ， Kai Yang ， Wukui Yang ， XiaogangWang，and Hongsheng Li.分组相关立体网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2019年6月。四、七、八[8] 海科·赫希穆勒通过半全局匹配和互信息进行精确和高效的立体IEEE计算机视觉和模式识别会议，2005年。2[9] 海科·赫施穆勒和丹尼尔·沙尔斯坦。立体匹配代价函数的评估。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2007年。2[10] Sunghoon Im，Hae-Gon Jeon，Stephen Lin，and In SoKweon.DPSNet：端到端深度平面扫描立体声。arXiv预印本arXiv：1905.00538，2019。3[11] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。三六八[12] Sameh Khamis ， Sean Fanello ， Christoph Rhemann ，Adarsh Kowdle ， Julien Valentin ， and Shahram Izadi.StereoNet：用于实时边缘感知深度预测的引导分层细化。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年。1、6[13] 安德烈亚斯·克劳斯，马里奥·索尔曼，康拉德·卡纳。基于片段的立体匹配使用置信度传播和自适应相异性度量。IEEEInternational Conference on Pattern Recognition（ICPR2[14] Vladimir Kolmogorov和Ramin Zabih通过图切割计算与遮挡的视觉对应。2001. 2[15] W. Luo，中国茶条A.G. Schwing和R.乌塔松用于立体匹配的高效深度在IEEE计算机视觉和模式识别会议论文集（CVPR），第5695-5703页，2016年6月。8[16] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年。三、八[17] Moritz Menze和Andreas Geiger。自动驾驶车辆的对象场景流。在IEEE计算机视觉和模式识别会议（CVPR）上，2015年。7[18] Guang-Yu Nie，Ming-Ming Cheng，Yun Liu，ZhengfaLiang，Deng-Ping Fan，Yue Liu，and Yongtian Wang.用于立体匹配的多级上下文超聚合在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第3283-3291页8[19] J. Pang，W. Sun，J.S.伦角，澳-地Yang和Q.燕.级联剩余学习：用于立体匹配的两级卷积神经网络。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第8788[20] Tonmoy Saikia，Yassine Marrakchi，Arber Zela，FrankHutter，and Thomas Brox.AutoDispNet：使用自动化改进视差在IEEE计算机视觉国际会议（ICCV）的会议记录中，2019年。8[21] Daniel Scharstein和Richard Szeliski。密集两帧立体对应算法的分类和评估国际计算机视觉杂志（IJCV），2002年。一、二[22] 萧嵩、赵旭、胡汉文、方良吉。EdgeStereo：一个用于立体匹配的上下文集成残差金字塔网络。arXiv，2018年。8[23] Alessio Tonioni ， Fabio Tosi ， Matteo Poggi ， StefanoMattoccia和Luigi Di Stefano。实时自适应深度立体声。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2019年。8[24] Stepan Tulyakov、Anton Ivanov和Franc ois Fleuret。实用深立体声（PDS）：面向应用友好的深度立体匹配。在神经信息处理系统（NIPS）的进展，2018年。8[25] Guorun Yang，Hengshuang Zhao，Jianping Shi，ZhidongDeng，and Jiaya Jia.SegStereo：利用语义信息进行视差估计。在欧洲计算机视觉会议（ECCV）的论文集，2018。8[26] 拉明·扎比和约翰·伍德菲尔用于计算视觉对应的非参数局部1994年欧洲计算机视觉会议（ECCV）论文集。2[27] Jure Zbontar和Yann LeCun。用卷积神经网络计算立体匹配代价在IEEE计算机视觉和模式识别会议（CVPR）上，2015年。三、八[28] Feihu Zhang ， Victor Prisacariu ， Ruigang Yang ， andPhilip HS Torr.GA-Net：用于端到端立体匹配的引导聚合网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年。三四五六七八

下载后可阅读完整内容，剩余1页未读，立即下载