自适应相关级联递归网络用于实用立体匹配

73 浏览量更新于2023-10-25 收藏 3.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

16263实用的自适应相关级联递归网络立体匹配李建坤1王培森1*熊鹏飞2* 蔡涛1闫紫薇1杨磊1刘江宇1范浩强1刘帅成3，1†1旷视研究2腾讯3电子科技大学https://github.com/megvii-research/CREStereo图1.我们对Holopix50K [16]数据集图像的预测示例。我们示出了立体对的左图像及其对应的预测差异。我们的结果实现了高精度，并表现出高质量的细节，精细结构的对象。摘要随着卷积神经网络的出现，立体匹配算法最近获得了巨大的进步。然而，由于诸如薄结构、非理想校正、相机模块不一致和各种硬场景的实际复杂因素，从由消费级设备（如智能手机）拍摄的真实世界图像对中准确地提取视差仍然是一个巨大的在本文中，我们提出了一组创新设计来解决实际立体匹配的问题：1）为了更好地恢复精细的深度细节，我们设计了一个具有循环细化的分层网络，以粗到细的方式更新视差，以及用于推理的堆叠级联架构;2）我们提出了一个自适应的组相关层，以减轻错误校正的影响; 3）我们引入了一个新的合成数据集，特别关注困难的情况，以更好地推广到现实世界的场景。我们的结果不仅在Middlebury和ETH3D基准测试中排名第一，明显优于现有的最先进的方法，而且还展示了真实照片的高质量细节，这清楚地表明了我们贡献的有效性。*同等贡献。†通讯作者。1. 介绍立体匹配是计算机视觉的经典研究课题，给定一对校正图像，其目标是计算两个对应像素之间的位移，即它在许多应用中起着重要的作用，包括自动驾驶、增强现实、模拟散景渲染等。最近，在大型合成数据集[5，27，46]的支持下，基于卷积神经网络（CNN）的立体匹配方法已将视差估计的准确性提高到新的高度[8，23，44]。然而，要使算法在日常消费者摄影的场景中真正实用，我们仍然面临三个主要障碍。首先，它仍然是一个复杂的问题，大多数现有的算法，以精确恢复的差距，精细的图像细节，或薄结构，如网络和线框。事实上，消费者的照片正在生产在更高的分辨率只会恶化的问题。例如，在计算散景中，精细细节周围的视差误差将导致对人类感知不利的降级渲染结果[32]。其次，对于真实世界的立体图像对，很难获得完美的校正[24，56]，因为它们通常由具有16264不同的特征例如，大多数当前的智能手机利用广角和长焦镜头来捕获立体对，其具有不同的特性，如焦距和畸变参数，不可避免地导致非理想的矫正。因此，假设立体声对被完美地纠正的现有方法可能在这种对抗性条件下失败。此外，由不一致的相机模块产生的图像对使得估计任务更加困难。最后，尽管已经表明，从足够大的合成数据集训练的模型可以很好地推广到现实世界的场景[10，27]，但在典型的困难情况下，如非纹理或重复纹理区域，视差估计仍然很困难，这需要特别注意在训练数据集中覆盖相关场景。在本文中，我们提出了 CREStereo ，即级联REcurrent立体匹配网络，其中包括一组新颖的设计，以解决实际的立体匹配问题。为了更好地恢复复杂的图像细节，我们设计了一个分层网络，以粗到细的方式循环更新视差;此外，我们采用了堆叠级联架构进行高分辨率推理。为了减轻校正误差的负面影响，我们设计了一种自适应的分组局部相关层进行特征匹配。此外，我们引入了一个新的合成数据集，在照明，纹理和形状更丰富的变化，以便更好地推广到现实世界的场景。到目前为止，CREStereo在ETH 3D双视图立体[36]和Middlebury [35]基准测试中均排名第一，并在KITTI2012/2015 [11]上取得了具有竞争力的性能。此外，我们的网络在任意现实场景中表现出卓越的性能，很好地证明了我们设计的有效性。因此，我们的主要贡献可以总结如下：1）我们提出了一个级联的递归网络用于实际的立体匹配和堆叠级联架构的高分辨率推理; 2）我们设计了一个自适应组相关层来处理非理想的整流; 3）我们创建了一个新的合成数据集，以更好地推广到现实世界的场景; 4）我们的方法优于现有的方法在公共基准，如米德尔伯里和ETH 3D的显着保证金，并大大提高了恢复的差距为现实世界的立体图像的准确性。2. 相关工作传统算法。立体匹配是一个复杂的问题，已经被研究了很长时间.传统的算法可以分为局部方法和全局方法。局部方法[2，15，47]使用沿epipo- lar线以像素为中心的支持窗口计算匹配成本。全局方法将立体匹配视为优化问题，其中显式成本函数用于通过置信传播[20，42，52]或图切割[4]算法进行仿真和优化后来提出了一种半全局匹配（SGM）方法[14]，该方法使用互信息代替基于动态规划的强度。基于学习的算法深度神经网络首先被引入立体匹配任务中，仅用于匹配成本计算。Zbontar和LeCun [54]提出训练CNN以初始化补丁之间的匹配成本，其通过交叉聚合和半全局优化进行细化，如SGM [14]中所述。近年来，端到端网络已成为立体声匹配的主流。一行网络[12，21，22，27，29，44，49]仅使用2D卷积。Mayer等人[27]介绍了第一个名为DispNet的端到端网络及其用于视差估计的相关版本DispNetC。Pang等人[29]提出了一个两阶段的框架，称为CRL，具有多尺度残差学习。 Guo 等 [12] 提出了具有组相关性的GwcNet来改进相似性度量。AANet [49]介绍了一种使用稀疏点和多尺度交互的新型聚合方法。一种非常典型的方法RAFT-Stereo [23]利用光流网络RAFT [45]中的迭代细化来设计适用于立体匹配的网络。另一种网络[7，17，18，51，55]使用3D卷积来执行传统方法中的成本体积构建和聚合。GCNet [17]和PSMNet [7]提出用3D沙漏聚合网络构建4D成本体积。对于高分辨率图像，Yang等人[51]提出了一种由粗到细的分层网络来解决内存和速度问题。最近，神经架构搜索也被引入到深度立体网络中[8]。实用的立体声匹配。面向真实世界图像的立体匹配是一个较少探索的问题。Pang等人[30]提出了一种自适应方法，用于将CNN推广到目标域，而没有地面真实差异。Luo等人[25]提出了一种小波合成网络，为智能手机上的散景应用程序提供更好的结果。Song等人[39]为网络引入了一个域适应管道，以缩小合成域和真实域之间的差距合成数据集。足够的训练数据对于深度立体模型是必不可少的，但在现实世界中很难获得精确的视差合成数据集[5，26，27，46]提供高精度和密集的地面实况。最近，Heet al.[13]使用Blender [3]构建了一个用于立体匹配的数据生成管道，其中纹理来自常见数据集的真实图像。Autoflow [40]介绍了一种简单的方法来渲染具有运动的随机多边形，用于光流训练。尽管这些数据集的有效性，但它们仍然具有有限的对象形状变化，以及有限的视差/光流值分布，这削弱了从合成到真实世界的概括能力。16265××C∈−∈C∈ −12推理单级两级三级图2.我们建议的网络的概述。左图：一对立体图像I1和I2被送入两个共享权重特征提取网络，以产生一个3级特征金字塔，用于计算级联递归网络3级中不同尺度的相关性。I1的特征金字塔还为后面的更新块和偏移计算提供上下文信息。在级联的每个阶段中，使用循环更新模块（RUM，Sec. 3.2），并且前一级的最终输出视差被馈送到下一级作为初始化。对于RUM中的每次迭代，我们应用自适应组相关层（AGCL，Sec. 3.1）计算相关性。右：我们提出的堆叠级联架构在推理阶段，它采用图像金字塔作为输入，利用多级上下文，如第二节所述。三点三3. 方法在本节中，我们将介绍所提出的级联REcurrent立体匹配网络（CREStereo）的关键组件和我们新的合成数据集。3.1. 自适应组相关层我们观察到，这是很难实现完美的校准现实世界的立体相机。例如，两个摄像机可能没有严格地放置在水平epipo- lar线上，导致3D空间中的轻微旋转;或者来自摄像机镜头的图像通常具有残余失真，即使在它们被校正之后。因此，对于立体图像对，对应点可能不位于同一扫描线上。因此，我们提出了一个自适应组相关层（AGCL），以减少在这种情况下的匹配模糊性，实现更好的性能相比，所有对匹配。ing [23，45]，而仅计算局部相关性我们只在局部搜索窗口中计算相关性，该窗口输出小得多的HWD拯救内存和计算成本。H和W表示特征图的高度和宽度，D是比W小得多的相关对的数量。我们的相关性计算也不同于基于成本体积的立体声网络，如[7，18，49，51]，其中搜索范围与前景对象的最大位移相关。这个固定范围比我们使用的局部相关对的数量大得多，这导致更多的噪声干扰。此外，当模型推广到具有不同基线的立体声对时，我们给定两个重采样和关注的特征图F1和F2，F2，位置（x，y）处的局部相关性可以表示为Corr（x，y，d）=1<$F（i，x，y）F（i，x′，y′），（1）i=1地方特色注意。该算法不需要对每对像素点进行全局相关性计算，而是只在局部窗口中进行匹配，以避免大量的内存消耗和计算开销。鉴于LoFTR [41]用于稀疏特征匹配，我们在级联的第一阶段中的相关性计算之前添加了注意模块，以便在单个或交叉特征图中聚集全局上下文信息在[41]之后，我们将位置编码添加到主干输出中，这增强了特征图的位置依赖性交替计算自身和交叉注意力，其中使用线性注意力层来降低计算复杂度。2D-1D交替局部搜索。不同于流量估计网络RAFT[45]及其立体版本[23]其中，所有对相关性通过两个C×H×W特征图的矩阵乘法来计算，其中，其中x′=x+f（d），y′=y+g（d），Corr（x，y，d）RH× W × D是第d（d[0，D1]）个相关对的匹配代价，C是特征通道数，f（d）和g（d）表示当前像素在水平和垂直方向上的固定偏移量.在传统的立体匹配中，两幅校正图像之间的搜索方向针对非理想立体校正情况，采用二维-一维交替局部搜索策略提高匹配精度。在1D搜索模式中，我们设置g（d）=0， f（d）[r，r]，其中r=4。 f（d）的正位移值被保留以在每次迭代采样后调整不准确的结果计算结果由Eq.1堆叠并在通道尺寸上连接以形成最终的放大体积。在2D搜索模式中，具有伸缩的k×k网格l类似于[53]中的扩张的CONvoluti用于相关性放置4DH×W×H×W或3DH×W×W成本体积，计算我们设置k =2r+1，以确保输出-火车偏移偏移偏移1份额权重朗姆朗姆朗姆2初始化116181最终差距4位置自我注意编码1161814朗姆酒朗姆酒13211618朗姆酒朗姆酒1 1 164朗姆32朗姆16朗姆16266C--× × G ××GG向左偏移特征右特征AgClAgClAgCl左特征最终相关Concat0GRU∆��11GRU∆��2GRU2中国$$右特征交叉-关注采样器分组特征$自适应局部相关抽样分组特征相关偏移图3.建议模块的架构。左：循环更新模块（RUM）。右：自适应组相关层（AGCL）。详细信息见第二节。3.2和第二节3.1分别。放置特征具有相同数量的通道，使得它们可以被馈送到共享权重更新块。与迭代重采样合作，交替局部搜索还充当循环细化的传播模块，其中网络学习用其更准确的邻居替换对当前位置的有偏预测。可变形的搜索窗口。立体匹配经常在遮挡或无纹理区域中遭受模糊。在固定形状的局部搜索窗口中计算的核心关系往往容易受到这些情况的影响。将可变形卷积[57]扩展到相关计算，我们使用内容自适应搜索窗口来生成相关对，这与AANet [ 49 ]不同，AANet[49]仅在成本聚合中采用类似的策略。利用学习到的附加偏移dx和dy，新的相关性可以被计算为Corr（x，y，d）=1<$F（i，x，y）F（i，x′′，y′′）（2）2D偏移一维偏移图4.自适应局部相关的图示顶部和底部分别是2D和1D情况，其共享相同数量的搜索邻居以产生相同形状的相关图。[45]在特征金字塔在单个相关层中构造，输出被合并到一个卷中的情况下，我们分别在不同的级联级别中计算每个特征图的相关性，并独立地细化几次迭代的差异。如图所示3.f1，...，f n是n次迭代的中间预测，初始化其中“C1i=1、"2. 图4f0. 当前相关体积是用学习的偏移量o∈R2×（2r+1）×h ×w. GRU块更新当前-x=x+f（d）+dx y=y+g（d）+dy显示了偏移是如何改变传统的搜索窗口组间相关性。受[12]的启发，其中引入了分组式4D成本体积，我们将特征图分成组以单独计算局部相关性。最后，我们在通道维上连接D H W的相关体积，W输出音量。该过程如图所示。3 .第三章。3.2. 级联递归网络对于非纹理或重复纹理区域，由于大的感受野和足够的语义信息，使用低分辨率和高级别的特征图匹配是更强大的。然而，精细结构的细节可能在这样的特征图中丢失。为了在保持鲁棒性的同时保留高分辨率输入中的细节，我们提出了cas-caded的相关计算和视差更新的递归细化。定期更新模块。我们基于GRU块和自适应组相关层（AGCL）构建了一个递归更新模块（RUM）.与RAFT不同，出租预测并在下一次迭代中将其馈送到AGCL。级联精炼。除了级联的第一级（其以输入分辨率的1/16开始，其中视差被初始化为全零）之外，其他级采用来自前一级的预测的上采样版本作为初始化。虽然处理不同级别的细化，但所有RUM共享相同的权重。在最后一个细化级别之后，进行凸上采样[45]以获得输入分辨率的最终预测。3.3. 堆叠级联推理如前所述，在训练过程中，我们使用固定分辨率的三级特征金字塔来进行分层细化。然而，对于作为输入的较高分辨率的图像，应该进行更多的下采样，以便扩大用于提取特征和相关计算的感受野。但是对于高分辨率图像中具有大位移的小对象，这些区域中的特征可能遭受直接下采样的劣化。为了解决这个问题，我们设计了一个堆叠级联结构，并提供了快捷方式进行推理。具体16267L=γ||D−µ（f）||（3）gts11684我n联系我们联系我们图5.我们的合成数据的示例图像视差对具有各种形状和纹理（重复纹理，反射非纹理表面等）。最后，我们预先对图像对进行下采样，构建图像金字塔，并将它们馈送到相同的训练过的特征提取网络中，以利用多级上下文。图2的右侧示出了堆叠级联架构的概述，其中为了简洁起见，未显示同一级中的跳过连接。对于堆叠级联的特定级（在图2中表示为行），该级中的所有RUM将与较高分辨率级中的最后一个RUM在训练过程中，层叠级联的所有级共享相同的权重，因此不需要微调。3.4. 损失函数对于每个阶段，一，一，一在我们的特征金字塔中，我们使用上采样运算符µs将输出fs，fs的序列调整为完全预测分辨率，并使用类似于RAFT的指数加权l1距离[45]作为损失函数（γ设置为0.9）。给定地面实况差异dgt，总损失被定义为：nnis我si=13.5. 综合训练数据与以前的合成数据集相比，我们的数据生成管道特别关注现实世界场景中具有挑战性的情况我们使用Blender [3]来生成我们的合成训练数据。每个场景由左右图像对和对应的像素精确的密集视差图组成，用双虚拟相机和通常定位的物体捕获。我们的主要设计考虑被描述为低，与图中所示的一些例子。五、形状我们通过多个来源使用作主要场景内容的模型的形状多样化：1）ShapeNet[6]数据集包含超过40，000个不同形状的常见物体的3D模型2)Blender的树苗生成插件，提供精细详细和混乱的视差图。3)我们使用blender灯光和纹理。我们将不同类型的灯与随机颜色和亮度在随机位置-侧场景，造成复杂的照明环境。真实世界的图像被用作对象和场景背景的纹理此外，我们还利用Blender的Cycles渲染器的光线追踪功能差异分布。为了覆盖不同的基线设置，我们努力确保生成数据的差异在大范围内平滑分布。我们把物体放在一个由摄像机的视野和最大距离形成的平截头体形状的空间内。每个对象的确切位置是从概率分布中随机选择的，然后根据对象的距离缩放对象以防止阻挡视图。这种做法导致随机但可控的视差分布。4. 实验4.1. 数据集和评估指标我们在三个流行的公共基准上评估我们的方法。Middlebury 2014 [33]提供了不同光照环境下的23个高分辨率图像对。采用大基线立体摄像机拍摄，米德尔伯里的最大ETH3D [36]由27个单色立体图像对组成，由激光扫描仪采样，覆盖室内和室外场景。KITTI2012/2015 [28]由200个广角立体街景图像对组成，具有激光雷达采样的稀疏视差地面实况。除了我们的渲染数据集外，我们还收集了主要的公共数据集用于训练，包括Sceneflow [27]，Sintel [5]和Falling Things [46]。Sceneflow包含多个合成场景设置的落物中包含大量来自家居物件模型场景的图像。Sintel提供了来自各种合成序列的1.2k立体对。我们使用的其他数据源是InStereo2K [1]，Carla [9]和AirSim[37]。为了进行评估，我们遵循流行的度量，包括AvgErr（平均误差）、Bad2.0（视差误差大于2个像素的像素百分比）[35，36]、D1-all（左图像中视差离群像素的百分比）[11]等。4.2. 实现细节训练我们的网络是用Pytorch[31]框架。该模型在8个NVIDIA GTX 2080Ti GPU上训练，批量大小为16。整个训练过程被设置为30万次迭代。我们使用 Adam [19] 优化器，标准学习率为0.0004。我们在训练开始时执行6，000次迭代的预热过程，其中学习率从标准值的5%线性增加到100%在18万吨之后-16268×方法Middlebury ETH3D坏2.0平均错误坏1.0平均错误方法输入大小MiddleburyBad 2.0平均错误单级768×10246.46 1.05单级1024×15366.00 1.612叠级联 1024×15365.30 0.942叠级联 1536×20484.530.933叠级联 1536×20484.580.92表2.堆叠式级联架构在推理期间的消融研究。训练损失02000040000ETH3D不良2.020002000040000Middlebury Bad 2.060402002000040000表1. RUM的消融研究。上半部分是对不同形式的相关层和不同级别的casade的比较，这些casade是在除了Middlebury和ETH3D之外的公共数据集上训练的。下半部分是AGCL中关键组件的评估，在完整的数据集上进行训练。在训练过程结束时，学习率线性下降到标准值的5%该模型使用384 512的输入大小进行训练。所有训练样本在被输入模型之前都要经历一系列增强操作。增强。为了模拟相机模块的不一致性和非理想校正，我们采用多种数据增强技术进行训练。首先，我们对两个输入分别进行了不对称的色彩增强，包括亮度、对比度和伽玛的变化为了进一步增强对真实世界图像中的校正误差的鲁棒性，我们仅对右侧图像进行空间增强：略微随机的同态变换和非常小范围（2像素）的垂直移位。<为了避免不适定区域中的不匹配，我们使用高度和宽度在50到100像素之间的随机矩形遮挡补丁最后，为了将来自各种来源的输入数据拟合到网络4.3. 消融研究在本节中，我们将在不同的设置上评估我们的模型，以证明网络组件的有效性除叠栅的烧蚀研究外，所有的计算分辨率均为768 ×1024。相关类型。为了比较不同类型的相关性的效果，我们用其他形式替换我们的相关层。如Tab.所示。1，在[45]和[23]中使用的2D和1D全对相关与它们的局部形式相比导致精度的实质性下降图6.使用Sceneflow和我们的合成数据集训练的模型的训练损失和ETH 3D/ Middlebury验证错误。当我们用单个2D或1D相关性替换交替的局部相关性时，它损害了最终精度，当网络包含多于1级级联时，这一点更加明显，因为校正误差随着分辨率增加而增加AGCL中的组件。如Tab的下半部分所示。1，使用没有学习偏移的固定相关窗口用单一形式代替组相关性和去除局部特征关注模块都降低了准确性。级联RUM。我们比较了不同数目的级联级的性能。如Tab所示。1，使用没有级联的单个RUM会导致精度大幅下降。当改变级联数时，在保持相关类型不变的情况下，级联层数越多，预测误差越小。这证明了我们的级联架构的重要性。层叠的瀑布。在推理过程中，我们使用不同级别的图像金字塔作为输入，同时共享相同的训练参数。比较了Middlebury上不同解的叶栅各级如Tab.所示2.当只使用单个级联时，多级输入有助于大大减少误差，这表明我们的堆叠级联方案享有视差精度的显着改善。新的合成数据。为了分析我们提出的合成数据的有效性，我们从我们的训练数据集中抽取了35，000对图像，并与类似大小的Sceneflow进行比较。这两个数据集都被用来训练我们的模型，使用相同的增强方法进行50，000次迭代。如图6、我们的合成数据导致更低的训练损失，场景流我们的35kK我们的35嗷斯切内夫尔场景流我们的35k不含定义组。&注意。6.861.111.260.1920无变形搜索6.841.081.220.19无组相关6.821.081.200.1810无注意6.491.071.220.18完整方法6.461.051.030.1702D全对[45]47.385.626.170.38[23]第二十三话44.414.936.030.38一维局部19.873.033.130.28二维局部20.702.993.330.291D+2D局部19.233.013.050.281D局部，2个水平13.842.242.350.232D局部，2个水平14.072.152.090.231D+2D局部，2个节段12.481.992.200.221D+2D局部，3个节段12.671.802.010.2116269×××(a) 左图（b）HITNet（c）RAFT-Stereo（d）Ours图7. Middelbury和ETH 3D与HITNet [44]和RAFT-Stereo [23]的视觉比较。(a) 左图像（b）LEASereo [8](c)AANet [49]（d）Ours图8.在KITTI 2015测试集的一个案例上与其他方法进行视觉比较。我们的方法保留了更多的细节。ETH3D和Middlebury验证数据的性能更好这表明我们的数据集在领域泛化方面更有优势。4.4. 与最新技术水平的米德尔伯里我们在Middlebury 2014数据集的23对图像（包括13对额外的地面真实图像）上训练我们的网络，以及我们的完整训练集，无需微调。Middlebury训练集的比例增加到全训练集的2%。我们评估了测试集在1536 2048使用调整大小的全分辨率图像，其中采用2阶段的推理，并将结果提交到在线排行榜。在其他120多种方法中，我们在大多数指标上都取得了第一与其他方法的定量比较结果见表10。3 .第三章。ETH3D。我们在整个训练集上训练我们的网络，其中2%的增强训练数据来自ETH3D低分辨率双视图立体数据集。在不进行微调的情况下，我们采用两阶段推理，在768 ~ 1024的规模下对测试集进行评估.在撰写本文时，我们在所有指标的在线基准测试中实现了最先进的方法我们的方法在坏的1.0度量上超过了59.84%。定量比较见表。4.第一章凯蒂与Mid-dlebury和ETH 3D的训练过程不同，我们对在完整训练集上预训练的模型进行了初始学习率设置为0.0001。我们增加KITTI的比例方法错误2.0错误1.0平均错误RMSA95CREStereo（Ours）3.7118.2511.1517.7011.581[23]第二十三话4.7429.3721.2728.4132.292简体中文[CN]5.43513.9102.241313.4234.8117HITNet [44]6.461413.341.7149.9754.269LEASeroes [8]7.151820.8401.4338.1122.653特别提款权[50]7.692418.8322.943215.4437.1330[54]第五十四话8.082717.1233.825821.38614.155CFNet [38]10.13719.6333.494615.44416.458HSMNet [48]10.23824.6482.07510.384.3210AdaStereo [39]13.75929.5612.221010.275.6725AANet++[49]15.46625.5516.3794 23.5103 48.8112表3.Middlebury基准的定量结果方法坏1.0差0.5AvgErr RMSECREStereo（Ours）0.9813.5810.1310.281[23]第二十三话2.4457.0440.1830.363HITNet [44]2.7997.8360.2060.4610AdaStereo [39]3.091210.22180.24140.447CFNet [38]3.31179.87150.24140.5119GwcNet [12]3.662512.04370.29400.6752[22]第二十二话3.682610.26190.24140.5119HSMNet [48]四点三十六分11.33280.28360.6243AANet [49]5.015213.16450.31450.6857GANet [55]6.566725.411080.43830.7573表4. ETH3D基准测试的定量结果。数据集的75%，其余部分从整个训练集中随机抽样。在评估过程中，我们填充输入到384 1248之前，馈送到网络和单级推理。我们在两个数据集上都实现了有竞争力的性能，在2像素误差阈值下，在Out-Noc上超过KITTI 2012中的LEASereo [8我们在图中显示了KITTI2015的视觉比较。8.4.5. 实用性能与标准立体数据集上的真实世界图像相比，消费级设备上拍摄的图像在数量和场景上都有很大的限制，这给立体匹配带来了更大的挑战。为了公平比较，我们使用作者发布的代码和我们完整训练集上的推荐设置训练了所有其他立体声网络Holopix50K 。图图 9 显示了我们的网络与Holopix50K [16]数据集在不同场景中的几个已发表的立体匹配的定性比较进行预校正以消除可能的负差异。可视化结果表明，我们的方法在猫须和丝网等薄物体上具有显著的优势我们还在墙壁和窗户等无纹理区域实现了更好的性能。被ETH3D干扰我们在ETH3D数据集上模拟了实际场景中常见的干扰，以测试我们提出的方法的鲁棒性，并将定量结果列在16270[49]第48话：我的世界，我的世界，我的世界图9.在Holopix50K数据集上比较不同方法的结果[16]放大以获得最佳视图。0.70.60.50.40.30.2基线模糊颜色噪波旋转y偏移失真(a) 左图（b）掩模（c）RAFT-立体声（d）我们的扰动式图10.在ETH3D训练数据集上使用不同类型干扰的方法之间的比较。方法mxIoUmxIoUbd我们97.50%72.61%[23]第二十三话94.58%69.26%HSMNet [48]91.70%60.17%AANet [49]91.02%63.70%GwcNet [12]90.77%64.26%STTR [21]90.82%62.12%LEASeroes [8]92.38%58.06%表5. 400个智能手机拍摄场景的定量结果。我们为每种方法选择具有最佳性能的分辨率见图10。这里的干扰包括图像模糊、颜色变换、色噪声、图像透视变换、垂直位移和空间失真。结果表明，我们的方法是不容易受到这些干扰。智能手机照片。由于难以获得真实场景中的地面真实视差，因此经验方法是手动标记前景掩模Mf以评估视差质量[25]。IoU（intersection over union）度量通常用于分割任务。对于视差图，我们可以设置阈值t以获得前景掩模 Mt ，其中前景的视差值大于 t 。 The“mxIoU” means the类似地，定量和定性比较结果见表1。5和图11.智能手机照片中重复纹理和非纹理情况的预测差异与RAFT-Stereo的比较[23]。图中标记了mxIoU分数图11分别。5. 结论尽管深度立体声网络取得了前所未有的成功，但在真实世界场景中准确恢复差异仍然存在障碍。在本文中，我们介绍了CREStereo，一种新颖的立体匹配网络，在公共基准测试和真实场景中都获得了最先进的结果。我们在这里要传达的关键信息是，网络架构和训练数据都需要经过严格的思考，才能使算法真正在现实世界中发挥作用。通过自适应相关的级联递归网络，我们能够比现有方法更好地恢复精细的深度细节;我们通过精心设计合成数据集，设法更好地处理非纹理或重复纹理区域等硬场景。我们的方法的一个局限性是，该模型还不够有效，在当前的移动应用程序中运行未来的改进可以使我们的网络适应各种便携式设备，最好是实时的。确认我们感谢所有评论者的宝贵意见。本工作得到了国家自然科学基金项目（61872067）的资助。我们RAFT-StereoAANetGwcNetHSMNetLEAS StereoSTTR平均误差/px16271引用[1] Wei Bao ， Wei Wang ，Yuhua Xu， Yulan Guo ， SiyuHong，and Xiaohu Zhang.Instereo2k：一个大型真实数据集，用于室内场景中的立体匹配。Science ChinaInformation Sciences，63（11）：1-11，2020. 5[2] 斯坦·伯奇菲尔德和卡洛·托马西。像素到像素立体的深度不连续性。国际计算机视觉杂志，35（3）：269-293，1999. 2[3] Blender在线社区。Blender -3D建模和渲染软件包。Blender基金会、Blender研究所、阿姆斯特丹，2021年二、五[4] Yuri Boykov Olga Veksler和Ramin Zabih基于图割的快速近似能量最小化算法. IEEE Trans. on Pattern Analysisand Machine Intelligence，23（11）：12222[5] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影在Proc. ECCV，第611-625页，2012中。一、二、五[6] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Manolis Savva，Shuran Song，Hao Su，et al.Shapenet：An information-rich 3d model repository. arXiv预印本arXiv：1512.03012，2015。5[7] 张嘉仁和陈永生。金字塔立体匹配网络。在 Proc.CVPR，第5410-5418页二、三[8] Xuelian Cheng ， Yiran Zhong ， Mehrtash Harandi ，Yuchao Dai ， Xiaojun Chang ， Tom Drummond ，Hongdong Li，and Zongyuan Ge.用于深度立体匹配的分层神经架构搜索。arXiv预印本arXiv：2010.13501，2020。一、二、七、八[9] 让-伊曼纽尔·德肖 Kitti-carla：a 由Carla Simulator生成的类似Kitti的数据集。arXiv预印本arXiv：2109.00892，2021。5[10] Alexey Dosovitskiy，Philipp Fischer，Eddy Ilg，PhilipH¨usser ， CanerHazirbas ， VladimirGolkov ， PatrickvanderSmagt，Daniel Cremers，and Thomas Brox.Flownet：使用卷积网络学习光流。2015年IEEE国际计算机视觉会议（ICCV），第2758-2766页2[11] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在Proc.CVPR，第3354-3361页，2012中。二、五[12] Xiaoyang Guo ， Kai Yang ， Wukui Yang ， XiaogangWang，and Hongsheng Li.分组相关立体网络。在Proc.CVPR，第3273-3282页，2019年。二、四、七、八[13] Ju He，Enyu Zhou，Liusheng Sun，Fei Lei，ChenyangLiu，and Wenxiu Sun.半合成：为立体匹配生成有效数据集在proc CVPR，第2884-2893页，2021年。2[14] 海科·赫希穆勒通过半全局匹配和互信息进行精确和高效的立体在procCVPR，第2卷，第807-814页，2005年。2[15] Hei k oHirsch müller，PeterRInnocent，andJonGaribaldi. 基于实时相关性的立体视觉与减少边界误差。InternationalJournal of Computer Vision，47（1）：229-246，2002。2[16] Yiwen Hua ， Puneet Kohli ， Pritish Uplavikar ， AnandRavi，Saravana Gunaseelan，Jason Orozco，and EdwardLi. Holopix50k：一个大规模的野外立体图像数据集。在Proc. CVPRW，2020年6月。一、七、八[17] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在Proc. CVPR，第66-75页，2017年。2[18] Sameh Khamis ， Sean Fanello ， Christoph Rhemann ，Adarsh Kowdle ， Julien Valentin ， and Shahram Izadi.Stereonet：实时边缘感知深度预测的引导分层细化。在Proc. ECCV，第573-590页，2018年。二、三[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[20] 安德烈亚斯·克劳斯，马里奥·索尔曼，康拉德·卡纳。基于片段的立体匹配使用置信度传播和自适应相异性度量。在Proc. ICPR，第3卷，第15-18页，2006中。2[21] 李兆硕，刘兴通，丁志坚，弗朗西斯，泰勒，马蒂亚斯.从序列到序列的角度重新审视立体声深度估计。arXiv预印本arXiv：2011.02910，2020。二、八[22] Zhengfa Liang，Yiliu Feng，Yulan Guo，Hengzhu Liu，Wei Chen，Linbo Qiao，Li Zhou，and Jianfeng Zhang.通过特征恒定性学习视差估计。在procCVPR，第2811-2820页，2018年。二、七[23] Lahav Lipson ， Zachary Teed ， and Jia Deng. Raft-stereo：用于立体匹配的多级递归场变换。arXiv预印本arXiv：2109.07547，2021。一二三六七八[24] Charles

下载后可阅读完整内容，剩余1页未读，立即下载