自适应聚合网络用于高效立体匹配

138 浏览量更新于2023-10-24 收藏 15.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

form a four-step pipeline: matching cost computation, costaggregation, disparity computation and reﬁnement, andthey can be broadly classiﬁed into global and local methods[29]. Global methods usually solve an optimization prob-lem by minimizing a global objective function that containsdata and smoothness terms [31, 17], while local methodsonly consider neighbor information [40, 12], making them-selves much faster than global methods [23, 29]. Althoughsigniﬁcant progress has been made by traditional methods,they still suffer in challenging situations like textureless re-gions, repetitive patterns and thin structures.Learning based methods make use of deep neural net-works to learn strong representations from data, achiev-ing promising results even in those challenging situations.DispNetC [20] builds the ﬁrst end-to-end trainable frame-work for disparity estimation, where a correlation layer isused to measure the similarity of left and right image fea-tures. GC-Net [14] takes a different approach by directlyconcatenating left and right features, and thus 3D convo-lutions are required to aggregate the resulting 4D cost vol-ume. PSMNet [4] further improves GC-Net by introduc-ing more 3D convolutions for cost aggregation and accord-ingly obtains better accuracy. Although state-of-the-art per-formance can be achieved with 3D convolutions, the high19590AANet：自适应聚合网络用于高效立体匹配0Haofei Xu Juyong Zhang �0中国科学技术大学0xhf@mail.ustc.edu.cn, juyong@ustc.edu.cn0摘要0尽管基于学习的立体匹配算法取得了显著进展，但仍存在一个关键挑战尚未解决。当前最先进的立体模型大多基于昂贵的3D卷积，立方体计算复杂度和高内存消耗使其在实际应用中非常昂贵。在本文中，我们旨在完全替代常用的3D卷积，以实现快速推理速度，同时保持可比较的准确性。为此，我们首先提出了一种基于稀疏点的尺度内代价聚合方法，以缓解视差不连续性处的边缘膨胀问题。此外，我们使用神经网络层来近似传统的跨尺度代价聚合算法，以处理大面积无纹理区域。这两个模块都简单、轻量且互补，构成了一种有效且高效的代价聚合架构。借助这两个模块，我们不仅可以显著加速现有的性能最佳模型（例如，比GC-Net快41倍，比PSMNet快4倍，比GA-Net快38倍），还可以提高快速立体模型的性能（例如，StereoNet）。我们还在SceneFlow和KITTI数据集上取得了有竞争力的结果，运行时间为62ms，展示了所提方法的多功能性和高效性。我们的完整框架可在https://github.com/haofeixu/aanet上获得。01. 引言0从立体图像对中估计深度是计算机视觉中最基本的问题之一[29]。关键任务是找到空间像素对应关系，即立体匹配，然后通过三角测量恢复深度。高效准确的立体匹配算法对于许多需要快速可靠响应的实际应用非常重要，例如机器人导航、增强现实和自动驾驶。传统的立体匹配算法通常执行四个步骤的流程：匹配代价计算、代价聚合、视差计算和细化，它们可以广泛分为全局方法和局部方法[29]。全局方法通常通过最小化包含数据项和平滑项的全局目标函数来解决优化问题[31,17]，而局部方法只考虑邻域信息[40, 12]，因此比全局方法快得多[23,29]。尽管传统方法取得了显著进展，但在无纹理区域、重复模式和细小结构等挑战性情况下仍存在问题。基于学习的方法利用深度神经网络从数据中学习强大的表示，即使在这些具有挑战性的情况下也能取得有希望的结果。DispNetC[20]构建了第一个端到端可训练的视差估计框架，其中使用相关层来衡量左右图像特征的相似性。GC-Net[14]采用了一种不同的方法，直接连接左右特征，因此需要3D卷积来聚合得到的4D代价体积。PSMNet[4]通过引入更多的3D卷积来改进GC-Net，并相应地获得更好的准确性。尽管使用3D卷积可以实现最先进的性能，但高计算复杂度和内存消耗使其在实际应用中非常昂贵。0� 通讯作者0(a)0(b)0(c)0图1：常规卷积方法和我们提出的方法中采样位置的示意图，黄色和红色点表示聚合位置。(a)一对立体图像的左图。(b)常规卷积中的固定采样位置，聚合权重在空间上是共享的。(c)我们方法中的自适应采样位置和位置特定的聚合权重。图(b)和图(c)的背景是真实的视差图。19600计算成本和内存消耗使得在实践中部署变得非常昂贵（例如，即使在高端GPU上，PSMNet也需要约4G内存和410ms来预测一对KITTI立体图像）。最近的工作GA-Net[43]也注意到了3D卷积的缺点，并尝试用两个引导聚合层来替代它们。然而，他们的最终模型仍然使用了15个3D卷积。因此，一个激发人们思考的问题出现了：如何在没有任何3D卷积的情况下实现最先进的结果，并且速度显著提高？由于3D卷积提供了强大的正则化能力，回答这个问题尤为具有挑战性。在本文中，我们展示了通过设计两个有效且高效的成本聚合模块，可以在SceneFlow和KITTI数据集上获得有竞争力的性能，即使只使用简单的特征相关性[20]而不是拼接[14]。具体来说，我们首先提出了一种基于稀疏点的新的内尺度成本聚合表示。如图1所示，一组稀疏点被自适应地采样，以定位在具有相似视差的区域，从而减轻了在视差不连续处众所周知的边界膨胀问题[29]。此外，这种表示方法可以从大范围的上下文中采样，而比从大窗口中采样要高效得多，这是传统局部方法获得高质量结果的重要要求[23]。我们还学习了内容自适应权重，以实现位置特定的成本聚合加权，旨在克服常规卷积中空间共享性质的固有缺点。我们使用可变形卷积[45]来实现上述思想。我们还通过在并行构建多尺度成本体积并允许自适应的多尺度交互的方式来近似传统的跨尺度成本聚合算法[44]，通过神经网络层来实现，从而在低纹理或无纹理区域产生准确的视差预测。这两个模块简单、轻量且互补，为成本聚合提供了一种高效的架构。我们还在特征提取阶段广泛使用了关键思想，从而实现了高效且准确的自适应聚合网络（AANet）。例如，我们可以在SceneFlow数据集上胜过现有的最佳模型，同时速度显著提高，例如比GC-Net[14]快41倍，比PSMNet[4]快4倍，比GA-Net[43]快38倍。我们的方法还可以有效提高快速立体模型（例如Stere-oNet[15]）的性能，这些模型通常基于非常低分辨率的成本体积以实现快速速度，但以牺牲准确性为代价。我们在KITTI数据集上也取得了有竞争力的性能，运行时间为62ms，展示了所提方法的多功能性和高效性。02. 相关工作0本节回顾了与我们的工作最相关的研究。0局部成本聚合。局部立体方法（无论是传统方法[40,12]还是基于2D/3D卷积的方法[20,14]）通常执行基于窗口的成本聚合：0˜ C(d, p) =0q ∈ N(p) w(p, q) C(d, q)，(1)0其中，C(d,p)表示像素p处的聚合成本，用于表示候选视差d，像素q属于p的邻居N(p)，w(p, q)是聚合权重，C(d,q)是视差d在q处的原始匹配成本。尽管局部方法已经被广泛应用并取得了成功，但它们仍然存在一些重要的局限性。首先，局部方法所做的基本假设是匹配窗口中的所有像素具有相似的视差。然而，在视差不连续处，这个假设不成立，导致了众所周知的边界和细小结构上的边缘膨胀问题。因此，加权函数w需要被精心设计以消除违反平滑性假设的像素的影响。虽然基于学习的方法可以从数据中自动学习聚合权重，但它们仍然受到常规卷积的固有缺点的影响：权重在空间上是共享的，因此它们自身是内容不可知的。此外，通常需要较大的窗口尺寸才能获得高质量的结果，这导致了较高的计算成本。已经提出了一些方法来解决固定矩形窗口的局限性，例如使用不同的窗口尺寸，多个窗口或无约束形状。与现有方法不同，我们提出了一种基于稀疏点的新的成本聚合表示。这种表示与[23]中的表示也不同，在[23]中，匹配窗口内的稀疏点被定期采样以减少计算复杂性。相反，我们提出的采样机制完全没有约束和自适应性，比[23]中的定期采样提供了更大的灵活性。我们还学习了额外的内容自适应权重，以实现位置特定的加权，与常规卷积的空间共享性质相对立。跨尺度成本聚合。传统的跨尺度成本聚合算法[44]从统一的优化角度重新定义了局部成本聚合，并表明通过在不同尺度上执行的成本聚合的结果的自适应组合，可以得到最终的成本体积。具体细节请参见补充材料。我们通过端到端的方式用神经网络层来近似这个结论。与现有的由粗到细的方法不同，我们并行构建多尺度成本体积，并允许自适应的多尺度交互。我们的跨尺度聚合架构也与最近的工作[35]不同，在该工作中，��Cs(d, h, w) = 1N ⟨F sl (h, w), F sr (h, w − d)⟩,(2)19610图2：我们提出的自适应聚合网络（AANet）概述。给定一对立体图像，我们首先使用共享的特征提取器提取下采样的特征金字塔，分别在1/3、1/6和1/12的分辨率下提取。然后在相应的尺度上通过相关左右特征构建多尺度代价体积。原始的代价体积由六个堆叠的自适应聚合模块（AAModules）聚合，其中一个AAModule包含三个内尺度聚合（ISA，第3.1节）模块和一个跨尺度聚合（CSA，第3.2节）模块，用于三个金字塔层级。接下来，多尺度视差预测被回归。请注意，虚线箭头仅在训练时需要，推理时可以去除。最后，将1/3分辨率的视差预测层次上采样/细化到原始分辨率。为了清晰起见，本图中省略了细化模块，详见第3.3节。0同时还构建了多尺度代价体积。然而，[35]根据[44]的分析，从最低层级到更高层级逐层融合代价体积，而我们的方法则同时基于所有尺度的代价体积进行聚合。0立体匹配网络。现有的端到端立体匹配网络可以广泛分为两类：基于2D和3D卷积的方法。它们主要在构建代价体积的方式上有所不同。2D方法[20, 18,33]通常采用相关层[20]，而3D方法[14, 4, 25, 43,3]主要使用直接特征拼接[14]。基于拼接的3D方法的一个例外是[8]，其中提出了分组相关来减少全相关[20]的信息损失。在性能方面，3D方法通常在流行的基准测试中（如SceneFlow [20]和KITTI[22]）上表现出较大的优势，但运行速度较慢。在本文中，我们的目标是在保持可比较性能的同时显著加快现有的性能最佳的方法。最近的工作DeepPruner[6]与我们有类似的目标，即构建高效的立体模型。他们提出通过可微分的PatchMatch[1]模块来减少视差搜索范围，从而构建紧凑的代价体积。相反，我们的目标是减少采样复杂性并改善代价聚合中的采样灵活性，这在不同方面起作用，两种方法都可以0互补的。可变形卷积。可变形卷积[5,45]最初设计用于增强标准卷积对几何变换的建模能力，并常用于目标检测和语义/实例分割任务的骨干网络。我们则从传统立体方法的新视角出发，提出了一种自适应采样方案，用于高效和灵活的代价聚合。由于得到的公式与可变形卷积类似，我们在实现中采用了它。03. 方法0给定矫正后的图像对Il和Ir，我们首先使用共享的特征提取器提取下采样的特征金字塔{Fsl}Ss=1和{Fsr}Ss=1，其中S表示尺度的数量，s是尺度索引，s=1表示最高尺度。然后通过在相应尺度上相关左右图像特征构建多尺度3D代价体积{Cs}Ss=1，类似于DispNetC [20]：0其中 �∙ , ∙� 表示两个特征向量的内积，N是提取特征的通道数。C s ( d, h, w ) 是位置 ( h, w )处的视差候选点 d 的匹配代价。原始代价体积 { C s } S s=1 是˜C(d, p) =K2�k=1wk · C(d, p + pk + ∆pk),(3)˜C(d, p) =K2�k=1wk · C(d, p + pk + ∆pk) · mk.(4)19620然后通过多个堆叠的自适应聚合模块（AAModules）进行聚合，其中一个AAModule由 S 个自适应Intra-ScaleAggregation (ISA)模块和一个自适应Cross-ScaleAggregation (CSA)模块组成，用于 S个金字塔层级。最后，预测的低分辨率视差通过细化模块进行分层上采样到原始分辨率。在训练时，所有视差预测都使用地面真值进行监督，而在推理时，只需要最后一个视差预测。图 2提供了我们提出的自适应聚合网络（AANet）的概述。接下来，我们详细介绍ISA和CSA模块。03.1. 自适应Intra-Scale Aggregation0为了缓解已知的视差不连续性边缘膨胀问题，我们提出了一种基于稀疏点的有效和灵活的代价聚合表示。由于得到的公式与可变形卷积类似，我们在实现中采用了它。具体来说，对于某个尺度上的代价体积 C ∈ R D × H × W，其中D、H、W分别表示最大视差、高度和宽度，所提出的代价聚合策略定义为0其中 ˜ C ( d, p ) 表示像素 p 处的聚合代价，d表示视差候选点，K 2 是采样点的数量（本文中 K =3），w k 是第 k 个点的聚合权重，p k是基于窗口的代价聚合方法中相对于 p的固定偏移量。我们与以前的立体匹配方法的主要区别在于，我们学习额外的偏移量 ∆ p k 来调整采样位置 p + pk，从而实现自适应采样的有效和灵活的代价聚合，从而在物体边界和细小结构上获得高质量的结果。然而，在学习的背景下，正则卷积权重 { w k } K 2 k =1的空间共享特性使它们与内容无关。我们进一步学习位置特定的权重 { m k } K 2 k =1（即 [ 45 ]中的调制，它们还具有控制采样点相对影响的效果）以实现内容自适应的代价聚合：0我们使用可变形卷积 [ 45 ] 实现公式 ( 4 )，∆ p k 和 m k都是通过应用于输入代价体积 C的单独卷积层获得的。可变形卷积的原始公式假设偏移量 ∆p k 和权重 m k 被每个通道（即本文中的视差候选点d）共享，我们进一步均匀地划分所有0将不同视差候选点分为 G 组，并在每个组内共享 ∆ p k 和m k 。本文中，我们将 G 设置为 2 ，并将扩张率设置为 2。我们使用一系列的 3 层和一个残差连接 [ 9 ]构建了一个Intra-Scale Aggregation(ISA)模块。这三层分别是 1 × 1、3 × 3 和 1 × 1卷积，其中 3 × 3 卷积是可变形卷积。这个设计与 [ 9 ]中的瓶颈类似，但我们始终保持通道数不变（等于视差候选点的数量）。也就是说，我们一直在推理视差候选点，类似于传统的代价聚合方法。03.2. 自适应跨尺度聚合0在低纹理或无纹理区域，通过在粗尺度上搜索对应关系可能是有益的[21]，因为在图像降采样时，纹理信息在相同的块大小下会更具有区分度。[36]中也做出了类似的观察。因此，传统的跨尺度代价聚合算法[44]引入了多尺度交互。[44]中的分析表明，通过在不同尺度上进行代价聚合的结果的自适应组合，可以得到最终的代价体积（详细信息请参见补充材料）。因此，我们用以下算法近似表示：0ˆCs =0k =1 fk(˜Ck), s = 1, 2, ..., S,0其中ˆC是跨尺度代价聚合后的结果代价体积，˜Ck是尺度k上的内尺度聚合代价体积，例如，使用第3.1节中的算法，fk是一个通用函数，用于在每个尺度上实现代价体积的自适应组合。我们采用HRNet[32]中的fk定义，HRNet是最近用于人体姿态估计的一项工作，它依赖于˜Ck和ˆCs的分辨率。具体而言，对于代价体积ˆCs，0fk =0� 0� 0I, k = s, (s - k) stride - 2 3 × 3 convs, k < s,upsampling × 1 × 1 conv, k > s,0其中I表示恒等函数，s - k stride- 2 3 × 3卷积用于2s -k次下采样以保持分辨率一致，�表示双线性上采样到相同分辨率，然后经过1 ×1卷积对齐通道数。我们将这个架构称为跨尺度聚合（CSA）模块。尽管我们的CSA模块与HRNet[32]相似，但它们有两个主要区别。首先，我们受到传统的跨尺度代价聚合算法[44]的启发，旨在用神经网络层来近似几何结论，而HRNet则设计用于学习。19630丰富的特征表示。此外，由于较粗尺度上的搜索范围较小，我们的方法中较低尺度代价体积的通道数（对应视差维度）减半，而HRNet则增加一倍，这表明我们的架构比HRNet更高效。03.3. 自适应聚合网络0所提出的ISA和CSA模块是互补的，可以集成在一起，形成我们最终的自适应聚合模块（AAModule，见图2）。我们堆叠了六个AAModule进行代价聚合，而对于前三个AAModule，我们简单地使用常规的2D卷积进行内尺度聚合，因此本文中总共使用了九个可变形卷积进行代价聚合。我们的特征提取器采用类似ResNet的架构（总共40层），其中有六个常规的2D卷积被其可变形对应物所替代。我们使用特征金字塔网络[19]在1/3、1/6和1/12的分辨率上构建特征金字塔。我们使用StereoDRNet[3]中提出的两个细化模块将1/3的视差预测逐层上采样到原始分辨率（即先上采样到1/2分辨率，然后再上采样到原始分辨率）。将所有这些组件结合起来，就得到了我们最终的自适应聚合网络（AANet）。03.4. 视差回归0对于每个像素，我们采用软argmin机制[14]来获得视差预测˜d：0˜d =0D max- 0d = 0 d × σ(cd), (7)0其中，D max是最大视差范围，σ是软最大函数，cd是视差候选d的聚合匹配代价。σ(cd)可以看作是视差为d的概率。这种基于回归的公式可以产生亚像素精度，因此在本文中使用。03.5. 损失函数0我们的AANet使用地面真值视差进行端到端训练。然而，对于KITTI数据集，地面真值视差的高稀疏性可能对我们的学习过程不太有效。受[10]中的知识蒸馏启发，我们提出利用预训练立体模型的预测结果作为伪地面真值监督。具体而言，我们使用一个预训练模型在训练集上预测视差图，并将预测结果作为伪标签，用于没有地面真值视差的像素。我们以预训练的GA-Net[43]模型为例验证了这种策略的有效性。对于视差预测Dipred，i = 1, 2, ...,N，首先将其双线性上采样到原始分辨率。0相应的损失函数定义为0Li = �0p V(p) ∙ L(Di pred(p), Dgt(p))0+ (1 - V(p)) ∙ L(Di pred(p), Dpseudo(p)), (8)0其中V(p)是一个二进制掩码，用于表示像素p的地面真值视差是否可用，L是平滑的L1损失[4]，Dgt是地面真值视差，Dpseudo是伪地面真值。最终的损失函数是对所有视差预测的损失的组合。0L =0N �0i = 1 λi ∙ Li, (9)0其中λi是用于平衡不同项的标量。04. 实验04.1. 数据集和评估指标0我们在三个流行的立体数据集上进行了大量实验：SceneFlow、KITTI 2012和KITTI 2015。SceneFlow数据集[20]是一个大规模的合成数据集，提供了密集的地面真值视差图。在该数据集上报告了端点误差（EPE）和1像素误差，其中EPE是像素的平均视差误差，1像素误差是EPE大于1像素的像素的平均百分比。KITTI 2012 [7]和KITTI2015[22]是室外场景的真实数据集，只提供了稀疏的地面真值。在在线排行榜上报告了官方指标（如D1-all）。04.2. 实现细节0我们在PyTorch [27]中实现了我们的方法，并使用Adam[16]（β1 = 0.9，β2 = 0.999）作为优化器。对于SceneFlow数据集，我们使用所有的训练集（35454对立体图像）进行训练，并在标准测试集（4370对立体图像）上进行评估。原始图像被随机裁剪为288×576作为输入。我们使用4个NVIDIA V100GPU进行64个epoch的模型训练，批量大小为64。学习率从0.001开始，在第20个epoch之后的每10个epoch减半。对于KITTI数据集，我们使用336×960的裁剪尺寸，并在KITTI 2012和2015的混合训练集上对预训练的SceneFlow模型进行1000个epoch的微调。初始学习率为0.001，在第400、600、800和900个epoch时减半。然后在单独的KITTI2012/2015训练集上进行另外1000个epoch的训练，初始学习率为0.0001，与之前相同的调度。但是只有最后一个视差预测使用地面真值进行监督，遵循[13]中类似的策略。对于所有数据集，输入图像使用ImageNet的均值和标准差进行归一化。Imagew/o ISA & CSAAANetGTImagew/o pseudo gtw/ pseudo gtrithm, we visualize the sampling locations in two challeng-ing regions.As illustrated in Fig. 4, for pixel in objectboundary (Fig. 4a), the sampling points tend to focus onsimilar disparity regions.While for large textureless re-gion (Fig. 4b), a large context is usually required to ob-tain reliable matching due to lots of local ambiguities. Ourmethod can successfully adapt the sampling locations tothese regions, validating that the proposed adaptive aggre-gation method can not only dynamically adjust the samplinglocations, but also enables sampling from a large context.Pseudo Ground Truth Supervision. Fig. 5 shows thevisual results on KITTI 2015 validation set. We empiri-cally ﬁnd that leveraging the prediction results from a pre-trained GA-Net [43] model helps reduce the artifacts in re-gions where ground truth disparities are not available, e.g.,the sky region. Quantitatively, the D1-all error metric de-creases from 2.29 to 2.15, while the EPE increases from0.68 to 0.69. The possible reason might be that the valida-tion set is too small to make the results unstable. Similarphenomenon has also been noticed in [8]. However, thequalitative results indicate that our proposed strategy can be19640方法 Scene Flow KITTI 20150EPE > 1像素 EPE D1-all0无ISA和CSA 1.10 10.9 0.75 2.63 无ISA 0.9710.1 0.70 2.22 无CSA 0.99 10.1 0.69 2.31AANet 0.87 9.3 0.68 2.290表1：ISA和CSA模块的消融研究。通过集成这两个模块获得最佳性能。0图3：在SceneFlow测试集上进行消融研究的视觉比较。我们的AANet在细小结构上产生更锐利的结果，并在无纹理区域中进行更好的预测。0统计。我们使用随机颜色增强和垂直翻转，并将最大视差设置为192像素。从最高尺度到最低尺度，方程8中的损失权重设置为λ 1 = λ 2 = λ 3 = 1 . 0 , λ 4 = 2 / 3 , λ 5 = 1 / 3 .04.3. 分析0为了验证本文提出的每个组件的有效性，我们在SceneFlow测试集和KITTI 2015验证集上进行了对照实验（KITTI2015训练集被分为160对用于训练和40对用于验证）。消融研究。如表1所示，去除所提出的ISA或CSA模块会导致明显的性能下降。最佳性能是通过集成这两个模块来实现的，这两个模块在原则上是互补的。图3进一步显示了视觉比较结果。我们的完整模型在细小结构和无纹理区域中产生更好的视差预测，证明了所提出方法的有效性。采样点可视化。为了更好地理解我们提出的自适应内尺度代价聚合算法-0(a) 物体边界0(b) 无纹理区域0图4：在两个具有挑战性的区域（绿色点）中可视化采样点（红色点）。在物体边界（a）中，采样点倾向于聚焦于相似的视差区域。而对于大的无纹理区域（b），通常需要大的上下文来获得可靠的匹配，因为存在许多局部模糊。我们的方法可以成功地使采样位置适应这些区域，验证了所提出的自适应聚合方法不仅可以动态调整采样位置，还可以从大的上下文中进行采样。伪地面真值监督。图5显示了在KITTI 2015验证集上的视觉结果。我们经验性地发现，利用预训练的GA-Net [ 43]模型的预测结果有助于减少在没有真实视差可用的区域（如天空区域）的伪影。定量上，D1-all误差度量从2.29降低到2.15，而EPE从0.68增加到0.69。可能的原因是验证集太小，导致结果不稳定。在[ 8 ]中也注意到了类似的现象。然而，定性结果表明我们提出的策略可以0图5：在KITTI2015验证集上显示视差预测结果。利用伪地面真值作为额外的监督有助于减少在没有真实视差可用的区域（如天空区域）的伪影。StereoNet [15]4001.10-0.62M106.89G1.41G23StereoNet-AA0401.0812.90.53M88.17G1.38G17GC-Net [14]19002.5116.92.85M1754.10G21.52G3731GC-Net-AA0960.9810.82.15M212.59G1.97G91PSMNet [4]25001.0912.15.22M613.90G4.08G317PSMNet-AA0960.9710.24.15M208.73G1.58G77GA-Net [43]15000.849.94.60M1439.57G6.23G2211GA-Net-AA01460.879.23.68M119.64G1.63G5719650方法 #3D卷积 #D卷积 #CSA EPE > 1 px 参数 FLOPs 内存时间 (ms)0表2：与四个代表性立体模型（StereoNet、GC-Net、PSMNet和GA-Net）的比较。我们将代价聚合阶段中的3D卷积替换为我们提出的架构，并用AA后缀表示得到的模型。我们的方法不仅获得了明显的性能改进（除了GA-Net具有较低的EPE），而且显示出更少的参数、更少的计算成本和内存消耗，同时比最佳模型快得多（比GC-Net快41倍，比PSMNet快4倍，比GA-Net快38倍）。与StereoNet的比较表明，我们的方法也可以是改进现有快速立体模型性能的有价值途径。“DConvs”是可变形卷积的缩写。0图像 PSMNet AANet0图6：在Middlebury2014数据集上的泛化能力。我们的AANet产生了更清晰的物体边界，并更好地保留了整体结构，而不是PSMNet。0处理高度稀疏的地面真实数据的有效方法。泛化能力。我们进一步在Middlebury 2014数据集[ 28]上测试了我们方法的泛化能力。具体来说，我们直接使用我们在KITTI上微调的模型来预测视差图，不需要在Middlebury上进行额外的训练。图6显示了结果。与流行的PSMNet [4]模型相比，我们的AANet产生了更清晰的物体边界，并更好地保留了整体结构。04.4. 与3D卷积的比较0为了证明我们提出的代价聚合方法优于常用的3D卷积，我们在大规模的SceneFlow数据集上进行了广泛的实验。设置。我们主要与四个代表性的立体模型进行比较：第一个基于3D卷积的模型GC-Net [ 14 ]，实时模型StereoNet [ 15]，以及先前和当前的最先进模型PSMNet [ 4 ]和GA-Net [43 ]。0为了公平比较，我们与它们使用类似的特征提取器。具体来说，StereoNet使用8×下采样以实现快速速度，而我们使用4×；GA-Net中的五个常规2D卷积被它们的可变形对应物所替代；对于GC-Net和PSMNet，特征提取器完全相同。我们用我们提出的AAModules替换了代价聚合阶段中的3D卷积，并将得到的模型表示为AA后缀。我们将所有这些模型集成到同一框架中，并在单个NVIDIA V100GPU上以576×960的分辨率测量推理时间。0结果。表2显示了全面的比较指标/统计数据。为了实现快速速度，StereoNet [ 15]使用8×下采样来构建非常低分辨率的代价体积，但以牺牲准确性为代价。但是由于我们高效的自适应聚合架构，我们能够直接聚合1/4的代价体积，计算量更小，更准确和更快，表明我们的方法可以是改进现有快速立体模型性能的有价值途径。与最佳立体模型GC-Net [ 14 ]，PSMNet [ 4]和GA-Net [ 43]相比，我们不仅获得了明显的性能改进（除了GA-Net的EPE比我们低），而且显示出更少的参数，更少的计算成本和内存消耗，同时速度显著提高（比GC-Net快41倍，比PSMNet快4倍，比GA-Net快38倍），证明了与常用的3D卷积相比，我们的方法具有高效性。0复杂度分析。2D立体方法使用简单的特征相关性来构建3D代价体积（D×H×W），而3D方法使用连接操作来构建4D代价体积（C×D×H×W），其中C、D、H、W分别表示特征连接后的通道数、最大视差、高度和宽度。C通常等于64。MC-CNN [42]2.433.632.893.8967GC-Net [14]1.772.302.212.870.9PSMNet [4]1.491.891.862.320.41DeepPruner-Best [6]--1.872.150.182iResNet-i2 [18]1.712.162.252.440.12HD3 [39]1.401.801.702.020.14GwcNet [8]1.321.701.742.110.32GA-Net [43]1.361.801.551.931.5AANet⋆1.712.211.782.240.142StereoNet [15]4.916.024.304.830.015MADNet [33]--3.754.660.02DispNetC [20]4.114.654.324.340.06DeepPruner-Fast [6]--2.322.590.061AANet1.912.421.992.550.062ImageDispNetCPSMNetAANet19660方法 GC-Net [ 14 ] PSMNet [ 4 ] GA-Net [ 43 ] DeepPruner-Best [ 6 ] DispNetC [ 20 ] StereoNet [ 15 ] AANet AANet �0EPE 2.51 1.09 0.84 0.86 1.68 1.10 0.87 0.83 时间（秒） 0.9 0.41 1.5 0.182 0.06 0.015 0.068 0.1600表3：在Scene Flow测试集上的评估结果。我们的方法不仅达到了最先进的性能，而且比现有的最佳方法运行速度更快。0方法 KITTI 2012 KITTI 2015 时间（秒） Out-Noc Out-All D1-bgD1-all0表4：在KITTI 2012和KITTI2015测试集上的基准结果。我们更深的模型AANet�在现有的最佳方法中取得了竞争性的结果，同时保持了快速推理速度。请注意，HD3的参数比我们的多6倍以上。与其他快速模型相比，我们的AANet更准确。0基于3D卷积的方法和1/3分辨率代价体积的D =64。假设输出的代价体积与输入具有相同的大小，卷积层的卷积核大小为K（通常为3），则3D卷积层的计算复杂度为O(K^3C^2DHW)。相比之下，可变形卷积层的复杂度为O(K^2D^2HW + 3K^4DHW +3K^2DHW)。因此，可变形卷积层的计算复杂度小于3D卷积层的1/130。04.5. 基准结果0为了进行基准测试，我们构建了另一个模型变体AANet�，它使用更高分辨率（1/2）的代价体积和更深（61层）的特征提取器。表3显示了在SceneFlow测试集上的评估结果。我们的方法不仅取得了最先进的结果，而且比现有的最佳方法运行速度更快。在KITTI2012和KITTI2015基准测试上的评估结果显示在表4中。与其他快速模型相比，我们的AANet更准确。更深的版本模型AANet�在保持快速推理速度的同时取得了竞争性的结果。我们还注意到HD 3 [ 39 ]的参数比我们的多6倍以上。0图7：在KITTI2015测试集上的视差预测误差可视化（红色和黄色表示较大的误差）。我们的方法在物体边界上产生更好的结果。最好放大查看。0我们的AANet�的参数比iResNet-i2 [ 18 ]多6倍（39.1M vs.5.9M），而我们的AANet�在更具挑战性的KITTI2015

下载后可阅读完整内容，剩余1页未读，立即下载