StereoNet：实时边缘感知深度预测的高质量立体匹配架构

94 浏览量更新于2023-10-13 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

StereoNet：用于实时边缘感知深度预测的Sameh Khamis，Sean Fanello，ChristophRhemann，Adarsh Kowdle，Julien Valentin，Shahram Izadi谷歌公司抽象。本文介绍了StereoNet，这是第一个用于实时立体匹配的端到端深度架构，在NVidiaTitan X上以60fps运行，产生高质量，边缘保留，无量化的视差图。本文的一个关键的见解是，该网络实现了亚像素匹配精度比是一个数量级高于传统的立体匹配方法。这允许我们通过使用非常低的分辨率成本体积来实现实时性能，该体积对实现高视差精度所需的所有信息进行编码。通过采用学习的边缘感知上采样函数来实现空间精度。我们的模型使用一个连体网络来提取特征的左，右图像。在非常低的分辨率成本体积中计算视差的第一估计，然后分层地，模型通过使用紧凑的像素到像素细化网络的学习的上采样函数重新引入高频细节。利用颜色输入作为指导，该函数能够产生高质量的边缘感知输出。我们在多个基准测试中取得了令人信服的结果，显示了所提出的方法如何在可接受的计算预算下提供了极大的灵活性关键词：立体匹配，深度估计，边缘感知细化，代价体滤波，深度学习1介绍立体匹配是一个经典的计算机视觉问题，它涉及从两个轻微位移的图像估计深度。随着对虚拟现实和增强现实的兴趣不断增加，深度估计最近已被投射到中心舞台[41]。它是从3D重建到定位和跟踪的许多任务的核心[28]。它的应用涵盖了其他不同的研究和产品领域，包括室内地图和建筑，自动驾驶汽车以及人体和面部跟踪。像Microsoft Kinect这样的有源深度传感器提供高质量的深度图，并且不仅彻底改变了计算机视觉研究[12，11，41，16，55]，而且在消费级应用中发挥重要作用这些有源深度传感器近年来随着许多其他消费类设备的发布而变得非常流行，例如英特尔实感系列、结构化2Khamis等人iPhone X上的光线传感器，以及Kinect V2等飞行时间相机。随着增强现实（AR）应用在移动设备上的兴起，有对能够在紧张的计算预算下预测精确深度的算法的需求不断增长。除了iPhone X之外，所有智能手机市场只能依赖于单或双RGB流。ARKit和ARCore等稀疏跟踪和映射工具的发布令人印象深刻地展示了移动设备上的粗略和稀疏几何估计。然而，它们缺乏密集的深度估计，因此无法实现令人兴奋的AR应用，例如遮挡处理或虚拟对象与现实世界的精确交互。使用单个移动相机的深度估计，类似于[46]，或双摄像头自然成为行业将AR扩展到数百万用户的要求。被动深度的现有技术依赖于两个（经矫正的）RGB图像之间的立体三角测量。这在历史上一直由基于CRF的方法主导这些技术获得非常好的结果，但计算速度慢。这些模型中的推理相当于解决一般的NP难题，在许多情况下迫使从业者使用其运行时间在秒范围内的求解器[33]或诉诸近似解[14，15，56，54]。另外，这些技术通常在存在无纹理区域、遮挡、重复图案、薄结构和反射表面的情况下受到影响该领域正在缓慢过渡，并且自[61]以来，它开始使用深特征，主要作为一元势，以进一步推进最新技术水平。最近，深度架构在从被动立体数据预测深度方面表现出高水平的准确性[37，26，29，42]。尽管有这些显著的进步，但所提出的方法需要大量的处理能力和存储器。例如，[29]有3个。500万个参数，并达到约0. 在960× 540图像上每秒95个图像，以及[42]取0。5秒，以在高端GPU上产生单个视差。在本文中，我们提出了StereoNet，一种新的深度架构，在高端GPU上以60Hz的频率生成最先进的720p深度图。基于我们的洞察，深架构是非常好的推断匹配在极高的亚像素精度，我们证明了一个非常低的分辨率成本体积是足以实现的深度精度，相当于一个传统的立体匹配系统，在全分辨率操作为了实现空间精度，我们以多尺度方式应用边缘感知滤波阶段以提供高质量的输出。总之，这项工作的主要贡献如下：1. 我们表明，深结构的亚像素匹配精度是一个或更高的“traditional”的时间表应用程序的选择的一个重要的决定因素。2. 我们证明，高亚像素精度的网络允许实现传统的立体匹配的深度精度与一个非常低的分辨率成本体积导致一个非常有效的算法。3. 我们表明，以前的工作，介绍了成本-体积在深architec-tures的任务是过度参数化，这如何显着帮助减少运行时间和内存占用的系统在精度成本很小。StereoNet34. 新的分层深度细化层能够执行保留边缘的高质量上采样。5. 最后，我们证明了该系统达到令人信服的结果，同时在高端GPU架构上的实时性的几个基准2相关工作立体声的深度已经研究了很长一段时间，我们请感兴趣的读者参考[49，22]进行调查。立体对应搜索是一个具有挑战性的问题，传统上分为全球和本地的方法。全局方法在图像上制定成本函数，该成本函数传统上使用置信传播或图切割等方法进行优化[3，17，30，31]。相反，局部立体匹配方法（例如，[4]）在参考帧中的像素上居中支撑窗口，然后在第二图像中移位该窗口，直到找到最高相关性的点。局部立体匹配的主要挑战是定义支持窗口的最佳大小一方面，窗口需要大以捕获足够量的纹理，但同时需要小以避免聚集错误的视差值，这可能导致视差不连续处的众所周知的边缘增厚效应为了避免这种权衡，自适应支持方法基于例如以下各项来对支持区域内的每个像素的影响进行加权：其颜色与中心像素的相似性。有趣的是，自适应支持权重方法在[25]中被视为成本体积过滤：通过计算所有可能视差水平下的每像素匹配成本来构建三维成本体积然后用加权平均滤波器对该成本量进行该滤波在空间和深度域中传播局部信息，从而产生保留跨对象不连续性的边缘的深度图。对于基于三角测量的立体匹配系统，深度的精度直接与另一图像中的对应像素可以被定位到的精度相关联。因此，以前的工作力求做到亚像素精度的匹配。大多数算法的复杂度随着所评估的视差的数量线性地缩放，因此虽然一种方法是利用非常细粒度的视差步骤来构建大成本体积，但这在计算上是不可行的。因此，许多算法以离散匹配开始，然后通过将局部曲线（诸如抛物线拟合）拟合到离散视差候选之间的成本函数来细化这些匹配（参见例如，图10）。[59，39]）。其他工作基于连续优化策略[47]或相位相关[48]。在[45]中显示，在现实条件下，亚像素精度的界限是像素的1/10我们证明，这种传统的智慧并不适用于基于学习的方法，我们可以实现1/ 30像素的亚像素精度。最近的工作已经进展到使用端到端学习进行立体匹配。各种方法结合了学习的补丁嵌入或匹配成本4Khamis等人使用全局优化方法，如半全局匹配（SGM）进行细化[60]。[9]学习多尺度嵌入模型，然后学习MRF。[62，61]学习匹配图像块，然后是SGM。[35]学习使用Siamese特征网络匹配[52]使用多阶段的方法，其中高速公路网络架构首先用于计算匹配成本，然后在后处理中使用另一个网络来聚合和池成本。其他作品试图解决立体匹配问题端到端没有后处理。[37，26]训练端到端的编码器-解码器网络以用于视差和流估计，从而在现有的和新的基准上实现最先进的结果。其他端到端方法使用收敛到正确视差假设的多个细化阶段。[21]提出了一个通用的架构标记的问题，包括深度估计，这是训练端到端的预测和完善的输出。[42]提出了一种级联方法来迭代地细化预测深度迭代细化方法，虽然在各种基准测试中表现出良好的性能，但往往需要大量的计算资源。与我们的工作更密切相关的是[29]，他使用了成本体积过滤的概念，但训练了端到端的特征和过滤器，从而获得了令人印象深刻的结果。DeepStereo [18]使用平面扫描体积从多视图立体输入合成与之前的工作相反，我们对可以实时运行的端到端学习立体声管道感兴趣，因此我们从非常低的分辨率成本体积开始，然后使用学习的边缘感知滤波器进行上采样。3StereoNet算法3.1预赛给定输入图像对，我们的目标是训练端到端视差预测流水线。训练这种流水线的一种方法是利用通用编码器-解码器网络。编码器通过一系列收缩层将输入提取到瓶颈，该瓶颈捕获与训练中的任务最相关的细节，并且解码器通过一系列扩展层从瓶颈层虽然这种方法在各种问题上都取得了广泛的成功，包括深度预测[37，26，42]，但它们缺乏我们在立体声算法中关心的几个质量。首先，这种方法没有捕获关于立体匹配问题的任何几何直觉。立体预测首先是一个对应匹配问题，因此我们的目标是设计一种算法，该算法可以在不重新训练的情况下适应具有不同分辨率和基线的不同立体相机。其次，我们注意到，对于预测是不涉及输入的任何扭曲的像素到像素映射的问题，类似的方法显然是过度参数化的，因此可能过拟合。我们的立体匹配方法采用了一种设计，该设计利用了问题结构和经典方法来解决它，类似于[29]，而亲StereoNet5Fig. 1.模型架构。建议采用两阶段方法：首先，我们使用Siamese网络在较低分辨率下提取图像特征。然后，我们通过匹配沿扫描线的特征，以该分辨率构建成本体积，从而为我们提供粗略的视差估计。最后，我们改进的结果分层恢复小细节和薄结构。使用紧凑的上下文感知像素到像素细化网络来产生边缘保持输出。我们的模型架构的概述如图1所示，并在下面的部分中进行详细说明。3.2粗预测：成本量过滤立体声系统一般都是解决一个对应问题。该问题经典地归结为通过沿着其扫描线找到两个校正图像之间的像素到像素匹配来形成视差图。对平滑和边缘保留解决方案的期望导致了像成本体积滤波[25]这样的方法，其通过形成和处理3D体积来明确地对匹配问题进行建模，该3D体积在每个像素处的所有候选视差上联合求解。虽然[25]直接使用颜色值进行匹配，但我们计算用于匹配的每个像素的特征表示。特征网络管道的第一步是找到一个有意义的图像块的表示，可以在后面的阶段准确匹配。我们记得，立体遭受无纹理区域和传统的方法解决了这个问题，通过使用大窗口聚合的成本我们在网络中复制相同的行为，确保特征是从一个大的感受野中提取的特别是，我们使用两个输入图像之间具有共享权重的特征网络（也称为Siamese网络）。我们首先使用步长为2的K 5× 5卷积对输入图像进行渐进式下采样，在整个下采样过程中保持通道数为32在我们的实验中，我们将K设置为3或4。然后，我们应用6个残差块[23]，这些残差块采用3 × 3卷积，批量归一化[27]和泄漏ReLu激活（α =0）。2）[36]。最后，使用具有3× 3卷积的最终层来处理输出是下采样图像中每个像素处的32维特征向量这种低分辨率表示是重要的，原因有两个：1）它具有大的感受野，对无纹理区域有用2）保持特征向量紧凑。6Khamis等人在这一点上，我们通过取像素的特征向量与匹配候选者的特征向量之间的差来我们注意到，非对称表示一般表现良好，并且在我们的实验中连接两个向量获得了在这个阶段，传统的立体方法将使用赢家通吃（WTA）方法，该方法挑选具有两个特征向量之间的最低欧几里得距离的视差。相反，在这里，我们让网络通过运行多个卷积和非线性来学习正确的特别是，为了在空间域和视差域上聚合上下文，我们使用四个3D卷积过滤成本体积，过滤器大小为3× 3× 3，批量归一化和泄漏ReLu激活。然后应用不使用批量归一化或激活的最终3× 3× 3卷积层，并且过滤层在每个像素和候选视差处产生一维输出。对于大小为WXH的输入图像并且评估D个候选视差的最大值，对于K个下采样层，我们的成本体积的大小为W/2KXH/2KX（D+1）/2K在我们的StereoNet设计中，我们的目标是一个紧凑的方法，具有小的内存占用，可以潜在地部署到移动平台。与以四分之一分辨率形成特征表示并在多个级别上聚合成本量的[29]不同，我们注意到大部分时间和计算都花在了更高分辨率的匹配上，而大部分性能增益来自于更低分辨率的匹配我们在实验中验证了这一说法，并表明，在光的速度增益的性能损失是不显着的其原因在于，该网络实现了比传统立体匹配方法更高的亚像素精度因此，不需要以更高分辨率进行匹配我们通常将使用arg_min在经滤波的成本体积中的每个像素处选择具有最小成本的视差。对于像素i和视差值C（d）上的成本函数，所选择的视差值di被定义为：di= arg min Ci（d）。（一）D然而，这无法学习，因为arg_min是不可微函数。在我们的方法中，我们考虑了两个可微变量。其中第一个是soft arg min，最初在[6]中提出并在[29]中使用实际上，所选择的视差是所有视差值的软最大加权组合ΣDexp（−C（d））di=d=1d·ΣD我′exp（−Ci（d′）.（二）第二个可微变量是从softmax分布中对成本进行采样的概率选择：StereoNet7我exp（−Ci（d））di=d，其中dΣd′ exp（−C（d′）.（三）通过采样过程进行区分使用梯度估计技术来通过最小化随机过程的预期损失来学习差异的分布。虽然这种技术起源于强化学习中的策略梯度方法[57]，但它最近在[50]中被公式化为随机计算图，并在[5]中应用于基于RANSAC的相机定位。此外，我们讨论的两个可区分变体之间的相似性类似于软注意力网络和硬注意力网络之间的相似性[58]。不幸的是，概率方法在我们的实验中表现明显我们认为这是因为它保留了硬选择。这种特性在许多应用中可以说是至关重要的，但在我们的模型中，它被软参数min回归亚像素精确值的能力所取代。这一结论得到了关于强化学习中连续动作空间的文献的支持因此，软arg min选择收敛更快，更容易优化，这就是我们在实验中选择使用的。3.3分层细化：边缘感知上采样依赖于粗略匹配的缺点是所得到的近视输出缺乏精细细节。为了保持我们的紧凑设计，我们通过一个简单的方法来解决这个问题。在这个阶段，我们的工作不是扩大或侵蚀视差值，以使用颜色输入作为指导来融入高频细节，因此学习像素到像素映射的紧凑网络（类似于最近的计算摄影工作中采用的网络[8，7，20]）是一种合适的具体来说，我们的任务细化网络只找到一个残差（或增量视差）添加或从粗略预测减去。我们的细化网络将双线性上采样到输出大小的视差以及调整到相同尺寸的颜色作为输入。最近，反卷积被证明会产生棋盘状伪影，因此我们选择使用双线性上采样和卷积来代替[40]。连接的颜色和视差首先通过一个3× 3卷积层，输出32维表示。然后通过6个残差块，这些残差块再次采用3 × 3卷积，批量归一化和泄漏ReLu激活（α =0）。2）的情况。我们在这些块中使用atrous卷积来从更大的上下文中进行采样，而不会增加网络大小[43]。我们将残差块的膨胀因子分别设置为1、2、4、8、1和1然后使用不使用批量归一化或激活的3×3卷积层处理该输出该网络的输出是1维视差残差，然后将其添加到先前的预测。我们将ReLu应用于总和以将差异限制为正。在我们的实验中，我们使用所描述的网络的级联，以及应用单个细化，8Khamis等人我我图二.分层细化结果。每个阶段的结果（顶行）从左上角的成本量输出开始，用对应的细化网络（底行）。细化网络输出使用颜色输入作为指导，在边缘周围扩展和侵蚀。地面实况显示在右下角。对于该实施例，每个阶段的平均终点误差分别为：3.27、2.34、1.80和1.26放大查看详细信息。将粗略输出上采样到一次采样的全分辨率图2显示了层次结构中每一级细化层的输出，以及在每一级添加的残差，以恢复高频细节。这个网络的行为让人想起联合双边上采样[32]，事实上，我们认为这个网络是一个利用引导图像的学习边缘感知上采样函数3.4损失函数我们使用地面实况标记的立体数据以完全监督的方式训练StereoNet。我们最小化分层损失函数：ΣL=ρ（dk−di），（4）K其中dk是在第k个细化级别的像素i处的预测视差，其中k=0dk不是在输出细化级别处，并且dk是在相同像素处的粗预测视差。预测的视差图总是双线性上采样以匹配地面实况分辨率。最后，ρ（. ）是[2]中的双参数鲁棒函数，其参数设置为α= 1和c= 2，近似于平滑的L1损失。3.5实现细节我们使用Tensorflow [1]实现和训练StereoNet我们所有的实验都使用RMSProp [24]进行了优化，具有指数衰减的学习率StereoNet9BF初始设置为1 e-3。输入数据首先归一化到范围[-1，1]。与[29]不同，我们使用批量大小为1，并且由于模型大小较小，因此不进行裁剪我们的网络需要大约150k次迭代才能达到收敛。我们发现，直观地说，同时使用图像对的左右视差图进行训练在较小的数据集上，从头开始训练将是徒劳的，我们微调了预训练模型用于另外的50k次迭代。4实验在这里，我们评估了我们的系统在几个数据集，并证明，我们实现了高质量的结果在一小部分的计算成本所需的最先进的技术。4.1数据集和设置我们在三个数据集上定量和定性地评估了StereoNet： Scene Flow[37]，KITTI 2012 [19]和KITTI 2015 [38]。Scene Flow是一个适合深度学习模型的大型然而，其他两个KITTI数据集虽然更接近真实世界的设置，但对于完整的端到端训练来说太小了。我们遵循之前的端到端方法，首先在场景流上进行训练，然后在KITTI数据集上单独微调生成的模型[29，42]。最后，我们比较突出的国家的最先进的方法在准确性和运行时间方面，以显示我们的方法在实时场景中的可行性。此外，我们使用我们模型的四个变体对场景流数据集进行了消融研究我们评估了将下采样卷积的数量K（在3.2节中详细描述）设置为3和4。这控制形成成本体积的分辨率成本体积过滤在更积极的下采样下以指数方式更细化层可以引入许多精细细节，但如果信号完全从成本卷中丢失，则不太可能恢复它们。此外，我们评估了使用K个细化层来分层地恢复不同尺度下的细节，而不是使用单个细化层来将成本体积输出直接上采样到所需的最终分辨率。4.2亚像素精度深度系统的精度通常是为给定应用选择正确技术时的关键变量。具有基线b、焦距f和亚像素精度δ的三角测量系统具有误差δ，其增加2与距离Z的二次方：= δZ[53]。竞争性技术，如飞行时间不受这个问题的影响，这使得它们对于诸如房间扫描和重建的长距离应用具有吸引力尽管如此，它10Khamis等人图三.立体匹配中的亚像素精度。我们证明，StereoNet实现了0的亚像素精度。03，这比传统的立体声方法低一个数量级。传统方法的下限在现实条件下被发现是1/ 10（参见[45]），我们用黑线表示。此外，我们的方法可以在720p图像上实时运行。已经证明ToF系统中的多径效应甚至在诸如物体扫描的近距离任务中也会使几何失真[13]。远距离精度仍然是反对立体声系统和支持ToF的主要论点之一。在这里，我们表明，深架构是一个突破，在亚像素精度，因此，他们可以与其他技术竞争，不仅在短距离，但以及在长距离。传统的立体匹配方法先进行离散搜索，然后进行抛物线插值来获得精确的视差。这种方法通常导致子像素精度0。25个像素，大致相当于4。对于基线为55 cm的系统（如Intel RealsenseD415），在3 m距离处的误差为5 cm为了评估我们的方法的精度，我们使用了场景流的评估集，并且我们仅计算了在整数位置处正确匹配的那些像素的平均误差结果对应于超过一亿个像素的平均值从该图中，重要的是要注意：（1）所提出的方法实现了0的子像素精度。03，这比传统的立体匹配方法（例如[4，14，15]）低一个数量级;（2）细化层非常类似地执行，而不管成本体积的分辨率如何;（3）在没有任何细化的情况下，下采样的成本体积仍然可以实现0的子像素精度。03在低分辨率输出。然而，误差随着下采样因子几乎线性地增加。注意，子像素精度为0。03表示在距摄像头（Intel RealsenseD415）3米处的预期误差小于5毫米该结果使得三角测量系统非常有吸引力并且与ToF技术相当，而不遭受多径效应。StereoNet11见图4。FlyingThings3D测试集的定性结果。建议的两阶段架构是能够恢复非常精细的细节，尽管我们形成的成本量的低分辨率4.3定量结果现在，我们评估的标准基准模型证明所提出的方法的有效性和不同的权衡之间的分辨率的成本体积和精度获得。场景流。尽管该数据是合成生成的，但是由于存在遮挡、薄结构和大差异，评估序列是非常具有挑战性的我们评估了我们的模型，在表1中报告了终点误差（EPE）。一个单一的，未完善的模型，即仅使用1/8的成本量输出的分辨率，达到EPE为2。48这比[29]中提出的完整模型更好，其达到EPE为2。51. 请注意，我们的未细化模型由360k个参数组成，在960× 540输入分辨率下运行12毫秒，而[29]使用350万个参数，在相同分辨率下运行时间为950毫秒。我们最好的多尺度架构实现了最先进的误差1。1，这也低于最近的方法，如[42]。定性示例见图4。注意该方法如何恢复非常具有挑战性的精细细节。最后一个考虑因素是成本数量的解决方案一方面，我们证明了一个粗略的成本体积已经携带了检索非常高的亚像素精度所需的所有信息，即。高视差分辨率。另一方面，对图像进行下采样可能导致空间分辨率的损失，因此如果成本体积的输出非常粗糙，则不能重建薄结构。在这里，我们证明，在1/16的分辨率体积是强大的，足以恢复非常具有挑战性的小物体。实际上，在图5中，我们比较了在1/4、1/8、1/16分辨率下的三个成本体积的输出，其中我们还应用了细化层。我们可以观察到，在1/16分辨率视差图中丢失的精细结构被正确地恢复12Khamis等人图五.成本量比较。1/16分辨率的成本体积已经具有产生高质量视差图所需的信息。这是显而易见的，因为后细化我们恢复了具有挑战性的薄结构，并且总体端点误差（EPE）低于一个像素。EPE全部EPE noccEPE all，unrefEPE noc，unref8x，多个1 .一、1010.7682.5121.7958x，单个1.5321.0582.4861.78416x，多个1.5251.1403.7642.91216x，单个1.9741.4763.5582.773[29]第二十九话7.27---[29]第二十九话2.51---CRL [42]1.32---表1. SceneFlow的定量评价。与最近的深度学习方法相比，我们实现了最先进的结果。我们比较了我们模型的四种变体，它们在形成成本体积的分辨率（8x vs 16x）和细化层的数量（多个vs单个）方面有所不同。通过我们提出的上采样策略。1/4的成本量对于实现令人信服的结果是不必要的，这是移动应用的重要发现。如前一小节所示，即使在低分辨率下，网络也能达到1/ 30像素的亚像素精度然而，我们还想强调的是，为了在多个基准上实现最先进的精度，成本体积分辨率成为一个重要因素，如表1所示凯蒂Kitti是一个突出的立体基准，通过驾驶配备摄像机和激光扫描仪的汽车来捕获[19]。由于巨大的可变性，反射，过度曝光区域以及更重要的是缺乏大的训练集，数据集非常具有尽管如此，我们在表2中提供了Kitti 2012的结果。我们的模型使用8的下采样因子的成本量和3个细化步骤。在表现最好的方法中，我们比较了三个重要的方法。现有技术[29]的当前状态实现了0的EPE。6，但它的运行时间为0。每个图像9秒，并且使用多尺度成本体积和若干3D去卷积。[62]的早期基于深度学习的立体匹配方法每张图像需要67秒，并且具有更高的误差（0.9）与运行在0的方法相比。015秒每对立体SGM-net [51]有错误StereoNet13见图6。Kitti 2012和Kitti 2015的定性结果。请注意，与快速方法相比，我们的方法如何保留边缘并恢复细节[51]。现有技术的方法比所提出的方法慢一个数量级。外Noc所有产品平均-Noc平均所有运行时StereoNet4.916.020.80.90.015sCG-Net [29]2.713.460.60.70.9sMC-CNN [62]3.95.450.70.967sSGM-Net [51]3.65.150.70.967s表2. Kitti 2012的定量评价。对于StereoNet，我们使用了下采样因子为8和3个细化级别的模型。我们报告误差大于2的像素的百分比，以及非遮挡（Noc）和所有像素（All）中的总体EPE。与我们的相比虽然我们没有达到现有技术的结果，但我们相信所产生的视差图是非常引人注目的，如图6底部所示。我们分析了模型中的错误来源，发现大多数错误估计都是在反射周围，这会导致错误的视差预测，以及在其他视图中没有对应关系的遮挡区域。这些区域不能用数据来解释，然后可以将问题制定为修复任务，我们的模型没有为此进行训练最新技术[42]在其细化步骤中使用沙漏状架构，这已被证明对于修复目的非常有效[44]。这当然是处理那些无效区域的有效解决方案，然而它需要显著的额外计算资源。我们相信，所提出的架构的简单性显示了重要的见解，它可以导致有趣的方向，以克服目前的限制。同样，我们在Kitti 2015上评估了我们的算法，并在Tab中报告了结果。3、可以进行类似的考虑。在图6顶部，我们展示了测试数据中的一些示例。14Khamis等人D1-bgD1-fgD1-所有运行时StereoNet4.307.454.830.015sCRL [42]2.483.592.670.5s[29]第二十九话2.216.162.870.9sMC-CNN [62]2.898.883.8967sSGM-Net [51]2.668.643.6667s表3. Kitti 2015的定量评价。对于StereoNet，我们使用了一个模型，8的下采样因子和3个细化级别。我们报告了背景区域（bg）、前景区域（fg）和所有区域中误差大于1的见图7。StereoNet的运行时分析。运行时间的分解。请注意，大部分时间是如何花在最后一级细化上的。4.4运行时间分析我们以算法运行时间的分解来结束本节对实时应用程序感兴趣的读者会发现了解瓶颈在哪里很有用。目前的算法在NVidia Titan X上以60fps运行，如图所示。整个运行时间的7。请注意，特征提取、体积形成和过滤所需的时间不到整个计算的一半（41%），而最耗时的步骤是细化阶段：在全分辨率下完成的最后一级细化使用38%的计算。5讨论我们提出了StereoNet，第一个实时，高品质的端到端的架构，用于被动立体匹配。我们从低分辨率成本体积包含大部分信息以生成高精度视差图并在给定足够训练数据的情况下恢复薄结构的洞察开始。我们证明了1/ 30像素的亚像素精度，超过了文献中公布的限制。我们的细化方法分层恢复高频细节使用的颜色输入作为指导，绘制平行的数据驱动的联合双边上采样算子。我们的方法的主要限制是由于缺乏监督训练数据：事实上，我们表明，当有足够的为了减轻这种影响，我们未来的工作涉及监督学习和自我监督学习的组合[63]来增强训练集。StereoNet15引用1. Abadi，M.，Agarwal，A.，Barham，P.，Brevdo，E.，陈志，西特罗角科罗拉多州科拉多戴维斯，A.，迪恩J Devin，M.，等：Tensorflow：异构分布式系统上的大规模机器学习。arXiv预印本arXiv：1603.04467（2016）2. Barron，J.T.：更一般的鲁棒损失函数。arXiv预印本arXiv：1701.03077（2017）3. Besse，F.，Rother，C.，Fitzgibbon，A.，Kautz，J.：Pmbp：用于对应场估计的补丁匹配置信度传播。 International Journal of Computer Vision110（1），24. Bleyer，M.，Rhemann，C.，Rother，C.：Patchmatch立体-立体匹配与SLANTED SPOR TWINDWS。In：Bmvc.vol. 第11页。第一5. Brachmann ， E. ， Krull ， A. ，诺沃津， S. ， Shotton ， J. ， Michel ， F. ，Gumhold ， S. ， Rother ， C. ：用于摄像机定位的可微分变换。 IEEEConference on Computer Vision and Pattern Recognition（CVPR）.卷3（2017）6. 夏佩尔岛吴先生：平滑信息检索的梯度下降优化。Informat1nretrieval13（3），2167. 陈昆， Koltun ， V. ：使用级联细化网络的摄影图像合成。 IEEEInternational Conference on Computer Vision（ICCV）第1卷（2017）8. 陈昆，徐，J，Koltun，V.：使用全卷积网络进行快速图像处理。IEEEInternational Conference on Computer Vision卷9（2017）9. 陈志，太阳，X.，Wang，L.，美国，Yu，Y.，Huang，C.：立体匹配代价的深度视觉对应嵌入模型。 In ： Proceedings of the IEEE InternationalConferenceonComputerVision. pp. 97 210. De lon，J.， Roug'e，B. ：Smallbaselnestevison。 J. MATH。我是一个女同性恋。（2007年）11. Dou ， M. ， Davidson ， P. ， Fanello ， S.R. ， Khamis ， S. ， Kowdle ， A. ，Rhemann，C.，Tankovich，V. Izadi，S.：Motion2fusion：实时容积性能捕获。SIGGRAPH Asia（2017）12. Dou，M.，Khamis，S.，Degtyarev，Y.，Davidson，P.，Fanello，S.R.，Kowdle，A.，埃斯科拉诺，S.O.，Rhemann，C.，Kim，D.，Taylor，J.Kohli，P.，Tankovich，V.伊扎迪S.：Fusion4d：实时性能捕捉具有挑战性的场景。02 The Dog（2016）13. Fanello ， S.R. ， Rhemann ， C. ， Tankovich ， V.Kowdle ， A. ， OrtsEscolano，S.，Kim，D.，Izadi，S.：Hyperdepth：无需匹配即可从结构光中学习深度见：CVPR（2016）14. Fanello，S.R.，Valentin，J. Kowdle，A.，Rhemann，C.，Tankovich，V.西里贝托C.的方法，Davidson，P.，Izadi，S.：低计算和完全并行的计算机视觉与hashmatch（2017）15. Fanello，S.R.，Valentin，J. Rhemann，C.，Kowdle，A.，Tankovich，V.Davidson，P.，Izadi，S.：超立体：有效的基于学习的主动立体声系统匹配。在：计算机视觉和模式识别（CVPR），2017年IEEE会议上。pp.6535 -6544 IEEE（2017）16. Fanello，S.，哥里岛Metta，G.，Odone，F.：用于实时动作识别的一次性学习。03 The Dog（2013）17. Felzenszwalb ， P.F. ， Huttenlocher ， D.P. ：早期视觉的有效信念传播Internaljournalofcomp utervision70（1），4118. Flynn，J.，纽兰德岛，Philbin，J.，Snavely，N.：Deepstereo：学习从文字图像中预测新的视觉。 I：在ComuterVis io和Pater nRecognitio上执行I E E EC o n Fe e的D i n g。pp. 551516Khamis等人19. Geiger，A.，Lenz，P.乌尔塔松河：我们准备好自动驾驶了吗？Kitti Vision基准套件。In：Computer Vision and Pattern Recognition（CVPR），2012IE EEConferenceon. pp. 3354 - 336 IEEE（201 2）20. Gharbi，M.，陈杰，巴伦J.T. Hasinoff，S.W.，Durand，F.：用于实时图像增强的深度双边学习ACM Transactions on Graphics（TOG）36（4），118（2017）21. Gidaris，S.，Komodakis，N.：检测、替换、改进：用于逐像素标记的深度结构化预测。在：IEEE计算机视觉和图形学会议的论文集中。pp. 524822. Hamzah，R.A.，Ibrahim，H.：立体视觉视差图算法的文献综述。传感器杂志2016（2016）23. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：IEEE计算机视觉和模式识别会议论文集。pp. 77024. Hinton，G. Srivastava，N.，Swersky，K.：机器学习的神经网络-讲座6a-小批量梯度下降概述（2012）25. Hosni，A.，Rhemann，C.，Bleyer，M.，Rother，C.，Gelautz，M.：快速的成本 - 体积过滤视觉通信和超越。 IEEE Transactions on PatternAnal-ysisandMachineIntelligence35（2），50426. Ilg，E.，Mayer，N. Saikia，T.，Keuper，M.，Dosovitskiy，A.，Brox，T.：流动网络2.0：利用深度网络的光流估计的演进。IEEE计算机视觉与模式识别会议（CVPR）卷2017年第227. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议。pp. 44828. Izadi，S.，Kim，D.，Hilliges，O.，Molyneaux，D.，纽科姆河Kohli，P.，Shotton，J.，Hodges，S.，Freeman，D.，Davison，A.，Fitzgibbon，A.：Kinectfusion：使用移动深度相机进行实时3D重建和交互在：UIST（2011）29. Kendall ， A. ， Martirosyan ， H. ， Dasgupta ， S. ， Henry ， P. 肯尼迪河Bachrach，A.，Bry，A.：深度立体回归的几何和上下文的端到端学习CoRR，vol. abs/1703.04309（2017）30. Klaus，A.，Sormann，M.，Karner，K.：基于片段的立体匹配使用置信度传播和自适应相异性度量。In：Pattern Recognition，2006. I CPR2006. 18第三个字母是字母C。 vol. 第3页。 15-18 02The Dog（2006）31. Kolmogorov，V.Zabih，R.：使用图形切割计算与遮挡的视觉对应In：Computer Vision ， 2001. ICCV 2001 年。诉讼第八届 IEEE InternationalConferenceon。 vol. 第2页。 508-515 02TheDog（2001）32. Kopf，J.，Cohen，M.F.，Lischinski，D.，Uyttendaele，M.：联合双边上采样。ACM Transactions on Graphics（ToG）26（3），96（2007）33. K r¨ahenb u¨hl，P.， K oltun，V. ：在边缘电势具有高的边缘电势的完全连接的RF中的效率。NIPS（2

下载后可阅读完整内容，剩余1页未读，立即下载