立体匹配中的注意力级联体方法及其在高效匹配中的应用

101 浏览量更新于2023-10-25 收藏 945KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12981运行时间用于精确高效立体匹配的注意力级联体徐刚伟1，*，程俊达1，*，郭鹏1，杨欣1，2，<$1华中科技大学三电学院2武汉光电子{gwxu，cjd，guopeng，xinyang2014} @ hust.edu.cn摘要立体匹配是许多视觉和机器人应用的基本构建块。信息量和简洁的代价体积表示是实现高精度和高效率立体匹配的关键。本文提出了一种新的代价卷构造方法，该方法从相关线索中产生注意力权重，以抑制级联卷中的冗余信息，增强级联卷中的匹配相关信息。为了产生重新-21.81.61.41.210.80.60.40.20LEASStereoAcfNetCFNetGANetHITNetEdgeStereoPSMNetAANet+GwcNetACVNet（我们的）1.1 1.2 1.3 1.4 1.51.6KITTI 2012出口-Noc（%）21.81.61.41.210.80.60.40.20LEASStereoAcfNetCFNetGANetHITNetEdgeStereoPSMNetAANet+GwcNetACVNet（我们的）1.6 1.8 2 2.2 2.4KITTI 2015 D1-所有（%）可靠的注意力权重，我们提出了多层次的自适应补丁匹配，以提高在不同的差异，即使是无纹理区域的匹配成本的独特性提出的代价体积被命名为注意级联体积（ACV），其可以无缝地嵌入到大多数立体匹配网络中，所得到的网络可以使用更轻量级的聚合网络，同时实现更高的精度，例如，仅使用汇聚网络的1/25参数就可以获得更高的GwcNet精度。此外，我们设计了一个高度准确的网络（ACVNet）的基础上，我们的ACV，它实现了国家的最先进的性能在几个基准。该代码可在https://github.com/gangweiX/ACVNet上获得。1. 介绍立体匹配在一对校正立体图像中的像素之间建立密集的对应关系，是用于许多应用（诸如机器人、增强现实和自动驾驶）的关键使能技术。尽管在这一领域的广泛研究，如何同时实现高的推理精度和效率是至关重要的实际应用仍然是具有挑战性的。最近，卷积神经网络在这一领域显示出了巨大的潜力[2，7，12，20]。现有技术的CNN立体模型通常由四个步骤组成，即特征提取，成本量构造，成本聚合*作者贡献相同。†通讯作者。图1. Out-Noc误差与KITTI 2012 Leader上的运行时间-板和D1-所有错误与在KITTI 2015排行榜上的运行时间。我们的ACVNet（由红星表示）与其他最先进的立体声模型相比，具有竞争力的性能。差异回归。代价体是立体匹配的关键步骤，它为左图像像素和可能对应的右图像像素提供初始相似性度量。从这一步开始，一个信息丰富和简洁的成本量表示对于最终的准确性和计算复杂性至关重要。基于学习的方法解释不同的成本量表示。DispNetC [12]计算左和右特征图之间这样的全相关量提供了一种用于度量相似性的有效方法，但是它丢失了很多内容信息。GC-Net [9]通过沿着所有视差水平连接左和右特征图来构建4D连接体积，以提供丰富的内容信息。然而，级联卷完全忽略了相似性测量，因此需要大量的3D卷积来进行成本聚合，以从头开始学习相似性测量。为了解决上述缺点，GwcNet [7]将逐组相关体积与紧凑级联体积级联，以在最终4D成本体积中编码匹配和内容信息。然而，相关体积和级联体积的数据分布和特征是完全不同的，即，前者表示通过点积得到的相似性度量，后者是一元特征的级联。简单地连接两个体积并通过3D卷积将它们运行时间12982这两卷书的优点很难充分发挥因此，GwcNet仍然需要28个3D卷积用于成本聚合。本研究旨在探索一种更有效的成本量计算方法，既能显著减轻成本汇总的负担，又能达到最高的准确性。我们基于两个关键观察建立模型：首先，连接卷包含丰富但冗余的内容信息;第二，测量左右图像之间特征相似性的相关体积可以隐含地反映图像中相邻像素之间的关系，即，属于同一类的附近像素往往具有紧密的相似性。这表明利用编码像素关系先验的相关性卷可以促进级联卷以显著地抑制其冗余信息并且同时保持足够的信息用于级联卷中的匹配。考虑到这些直觉，我们提出了一个注意力级联体积（ACV），它利用相关体积来生成注意力权重，以过滤级联体积（见图2）。为了获得可靠的相关性，提出了一种新的多层次自适应块匹配方法，该方法采用多尺度块和自适应权值对不同特征层次的像素进行匹配，从而获得更精确的相似性度量。ACV可以达到更高的精度，同时大大减轻了成本汇总的负担。实验结果表明，在用ACV替换GwcNet的组合体积后，仅用4个3D卷积进行成本聚合就可以达到比GwcNet使用28个3D卷积进行成本聚合更好的精度。我们的ACV是一种通用的成本体积表示，可以无缝集成到各种3D CNN立体模型中，以提高性能。实验结果表明，应用该方法后，PSMNet和GwcNet的准确率分别提高了42%和39%。基于所提出的ACV的优点，我们设计了一个精确的立体匹配网络ACVNet，在所有已发表的方法中，该网络在KITTI 2012 [5]和KITTI 2015 [13]基准测试中排名第二，在场景流[12]中排名第二，在ETH3D [15]基准测试中排名第三（见图1）。值得注意的是，我们的ACVNet是唯一一种在上述所有四个数据集上同时排名前三的方法，证明了其对各种场景的良好泛化能力。在推理速度方面，我们的ACVNet是KITTI基准中排名前10位的方法中最快的。同时，我们还设计了一个实时版本的ACVNet，名为ACVNet-Fast，它优于最先进的实时方法[4，10，20，22]。2. 相关工作最近，基于CNN的立体声模型[7，9，12，14，21，23]在大多数标准基准测试中取得了令人印象深刻的性能这些方法大多致力于提高立体匹配的两个关键步骤--成本量构建和成本汇总的准确性和效率成本量构造。现有的成本量表示法可大致分为三种类型：相关卷、连接卷和通过连接这两个卷的组合卷。Disp-NetC [12]利用相关层直接测量左右图像特征的相似性，以形成每个视差水平的单通道成本体积。然后，应用2D卷积来聚合上下文信息。这种全相关量需要低存储器和计算复杂度，但编码信息太有限（即，信道维度中的大的内容信息损失）以实现令人满意的精度。GC-Net [9]使用级联体积，其将左和右CNN特征级联以形成所有视差的4D成本体积。这样的4D级联体积保留来自所有特征通道的丰富内容信息，并且因此在更好的准确性方面优于相关体积。然而，由于级联卷没有显式地编码相似性度量，因此它需要3D卷积的深度堆栈来从头开始聚合所有差异的成本。为了克服上述缺点，GwcNet [7]提出了分组相关体积，并将其与紧凑的级联体积连接以形成组合体积，其旨在结合两个体积的优点。然而，直接连接两种类型的卷而不考虑它们各自的特性会导致对两个卷中的互补强度的低效使用。因此，沙漏架构中的深度堆叠3D卷积仍然是要求在GwcNet中进行成本汇总[7]。在4D组合成本体积之后，级联成本体积[6，16，19]通过以从粗到细的方式构建成本体积金字塔以逐步缩小目标视差范围并细化深度图来进一步降低成本体积构造的存储器和计算复杂性然而，这种从粗到细的策略不可避免地涉及累积误差，即。前一级中的误差几乎不能在后一级中补偿，并且在某些情况下又产生大的误差。而我们的ACV只调整了不同差距的权重因此，虽然注意力权重是不完美的，包含丰富上下文的级联卷，可以帮助修正错误经由后续聚合网络。成本合计。该步骤的目标是在初始成本量中聚集上下文信息以获得准确的相似性度量。许多现有的方法[1，2，14]利用深度3D CNN来学习效果。12983×××× ××Concat图2.我们提出的ACVNet的结构。ACV的建造过程包括三个步骤：初始级联体积构建、注意权重生成和注意过滤。利用生成的注意力权重对初始拼接量进行过滤，可以抑制冗余信息，增强匹配相关信息，得到注意力拼接量。从成本量的有效相似性函数。然而，计算和存储器消耗太高的时间受限的应用程序。为了降低复杂度，AANet [20]提出了一种尺度内和跨尺度成本聚集算法来取代传统的3D卷积，该算法可以实现非常快的推理速度，牺牲了非平凡的准确性降低。GANet [24]还尝试用两个引导聚合层代替3D卷积，这使用空间相关的3D聚合实现了更高的准确性，但代价是更高的由于两个引导聚合层的聚合时间。甚至，他们的最终模型仍然使用15个3D卷积。成本体积构建和聚合是两个紧密耦合的模块，它们共同决定了立体匹配网络的准确性和效率。在这项工作中，我们提出了一个高效而信息量大的成本卷表示，命名为注意力级联卷，通过使用编码在相关卷中的相似性信息来正则化级联卷，使得只需要一个轻量级的聚合网络来实现整体的高效率和准确性。3. 方法3.1. 注意串联量注意力连接卷（ACV）的构建过程包括三个步骤：初始连接体积构造、注意力权重生成和注意力过滤。初始串联卷构造。给定一个大小为H W 3的输入立体图像对，对于每个图像，我们分别从CNN特征提取中获得左图像和右图像的一元特征映射fl和fr。fl（fr）的特征图的大小为Nc×H/4×W/4（Nc=(a)(b)（c）第（1）款图3.多级自适应贴片匹配。Atrous补丁的核大小为3 3和不同的速率可以自适应地学习不同级别的权重。(a)（b）和（c）分别用于三级特征图L1、L2和L3。利用大尺寸补丁来包括更多的上下文信息，以更好地区分高级特征图的不同差异的匹配成本。32）。然后通过将每个视差水平的fl和fr级联来形成初始级联体积，Cconcat（·，d，x，y）=Concat{fl（x，y），fr（x-d，y）}，（1）相应地，Cconcat大小为2NcD/4H/4W/4，D表示视差的最大值。注意权重生成。注意力权重的目的是对初始连接量进行过滤，以突出有用信息，抑制无关信息。为此，我们通过从一对立体图像之间的相关性中提取几何信息来生成注意力权重。传统的相关体积是通过计算像素间的相似度来获得的，但由于缺乏足够的匹配线索，这种方法对于无纹理区域是不可靠的为了解决这个问题，我们提出了一个更强大的相关体构建方法通过注意力权重生成3D转换3D转换，步幅2Concat3D解卷积多级面片匹配体多级自适应面片匹配注意力权重共享权重滤波器康卡特体积注意浓度输出0输出1输出2注意Concat卷施工成本聚合MAPMMAPM补丁内核：3×3价格：2补丁内核：3×3评分：3补丁内核：3×3价格：112984⊙贴片∈ −⟨··⟩IJ贴片贴片∈∈Lrnω·C（d，x，y）∈多级自适应块匹配（MAPM）。图3展示了我们的MAPM的关键思想我们从特征提取模块中获得l1、l2和l3三个不同层次的特征图，l1、l2和l3的通道数分别为64、128和128。对于特定级别的每个像素，我们利用具有预定义大小和自适应学习权重的atrous补丁来计算匹配成本。通过控制膨胀率，保证了图像块然后，两个对应像素的相似性是补丁内的对应像素之间的相关性的加权和（在图3中由红色和橙色表示）。我们采用GwcNet [7]的分组思想将特征分成组并逐组计算相关性映射将l1、l2和l3三层特征图连接起来，形成Nf通道一元特征图（Nf=320）.我们将Nf个通道平均分成Ng组（Ng =40），因此前8组来自l1，中间16组来自l2，最后16组来自l3。不同层次的特征图不会相互干扰我们将第g个特征组表示为fg，fg，以及多个水平块匹配体积C块被计算为，相同的软argmin函数（在等式中）5）作为GC-Net[9]，以从A获得视差估计数据att。我们计算数据att和视差地面真实值之间的平滑L1损失，以指导网络学习过程，从而获得准确的注意力权重A。注意力过滤。在获得注意权值A后，我们利用它消除初始连接体中的冗余信息，从而增强其表示能力。信道i处的注意力级联量CACV被计算为：CACV（i）=ACconcat（i），（4）其中表示逐元素乘积，并且注意力权重A被应用于初始级联体积的所有通道。3.2. ACVNet架构在ACV的基础上，我们设计了一个精确、高效的端到端立体匹配网络ACVNet。图2显示了ACVNet的体系结构，它由四个模块组成：一元特征提取，注意力连接量构建，成本聚合和差异预测。在下文中，我们将详细介绍每个模块。lk补片1（g，d，x，y）=Nf/Ngk、g、gij ij（i，j）∈k特征提取。我们采用了[7]中的三层ResNet架构。对于前三层，使用步长为2、1和1的3×3核的三个卷积来Cg（d，x，y）=<$fg（x−i，y−j），fg（x−i−d，y−j）<$，下采样输入图像。然后，16个剩余层[8]伊季勒河（二）随后以1/4分辨率产生一元特征，即，l1，6具有更多通道的剩余层被跟随到ob。其中Clk（k（1，2，3））表示不同特征水平k的匹配成本。是内积，（x，y）表示像素的位置，而d表示不同的不透明度级别。k =（i，j）（i，j（k，0，k））是一个九点坐标集，定义了k级特征图上补丁的范围（在图3中由红色和橙色像素表示（k∈（1，2，3））。ωk表示中的像素（i，j）的权重，保留了大的感受野和语义信息，即l2和l3。最后，将1/4分辨率的所有特征图（l1，l2，l3）连接起来，形成320通道特征图，用于生成注意力权重。然后应用两个卷积将320通道特征图压缩为32通道特征图，用于构造初始级联体积，其被表示为fl和fr。在k级特征图上的补丁，并且是自适应学习的，在培训过程中。然后通过级联所有级别的匹配成本Clk（k∈（1，2，3））来注意串联卷的建设。该模块采用320通道特征图来生成注意力权重，并采用fl和fr来构建初始级联体积。注意力权重用于填充-将初始拼接卷命名为4D成本C补丁=Concat，C11l2补丁l3补丁（三）所有差异的体积，如第3.1节所述。成本合计。我们用预处理过的-我们将导出的多级补丁匹配体积表示为C补丁RNg×D/4×H/4×W/4，然后应用两个3D卷积和一个3D沙漏网络[7]来正则化C补丁，然后使用另一个卷积层将通道压缩为1并导出注意力权重，即AR1×D/4×H/4×W/4。为了获得不同视差的精确注意力权重以过滤初始级联体积，我们使用地面真实视差来监督A。具体来说，我们采用沙漏模块，由四个具有批量归一化和ReLU的3D卷积和两个堆叠的3D沙漏网络组成，每个网络主要由编码器-解码器架构中堆叠的四个3D卷积和两个3D解卷积组成，参见图2。视差预测在成本汇总中获得三个输出，见图2。对于每个输出，遵循GwcNet [7]，采用两个3D卷积来输出1通道4D体积，然后我们上采样并将其转换为得双曲余切值.得双曲余切值.C129851λ·平滑（d−d），iLiL=λgtf−Σ∈att×attACV ∈cACV1ACV∈att−MAPM左右特征图1/8分辨率U多级贴片匹配体积注意力权重S差异假说U上采样S样品W翘曲逐元素乘积3.4.损失函数对于ACVNet，最终损失由下式给出L=λatt·SmoothL（datt−dgt）+I=2GT1（六）W左右特征图1/2分辨率滤波器Concat volume注意concat volume图4. ACVNet-Fast的结构i=0时其中datt由第节中的注意力权重A获得第3.1条λatt表示用于预测的datt的系数，λi表示用于第i个预测的视差的系数，并且dgt表示地面实况视差图。对于ACVNet- Fast，最终损耗由下式给出，沿着disparity维度通过softmax函数的概率体积。最后，预测值计算如下：软argmin函数[9]，ffatt·平滑L1法阿特−d）+λ·SmoothL1 （dfdgt），（七）Dmax−1D=k=0k·pk，（5）其中df是ACVNet-Fast的最终输出。SmoothL是L1的损失。4. 实验其中k表示视差级别，pk表示对应概率。三个预测视差图被去标记为d0、d1、d2。3.3. ACVNet-Fast我们还构建了一个实时版本的 ACVNet ，名为ACVNet-Fast。ACVNet-Fast采用与ACVNet相同的特征提取，但具有更少的层和视差预测模块。图4显示了ACVNet-Fast的架构，ACVNet-Fast和ACVNet之间的主要区别在于ACV构建和聚合。特别地，我们基于1/8分辨率的特征图构造了多层次的块匹配体，然后使用两个3D卷积和一个3D沙漏网络对其进行正则化，以获得1/8分辨率的注意力权重即AfR1×D/8×H/8×W/8。为了实现实时-在不牺牲太多精度的情况下，我们通过在预测视差df附近采样h（h=6）个假设来RH/2×W/2，由1/2分辨率的上采样注意力权重获得。这些假设Dhypp∈Rh×H/2×W/2是均匀采样的F在本节中，我们介绍了消融研究，以探索ACV的不同设计，分析计算复杂性并证明ACV的通用性最后，我们在多个数据集上评估了所提出的模型，例如SceneFlow [12]，KITTI [5，13]和ETH3D [15]。4.1. 数据集和评价指标场景流是一个合成的立体数据集，它提供了35454训练图像对和4370测试图像对的分辨率为960 540。该数据集提供密集视差图作为地面实况。对于场景流数据集，我们使用了广泛使用的评估指标终点误差（EPE）和视差异常值D1的百分比。异常值被定义为视差误差大于max（3 px，0. 05d），其中d表示地面实况差异。KITTI包括KITTI 2012 [5]和KITTI 2015 [13]。KITTI 2012和2015是真实驾驶场景的数据集。KITTI2012包含194个训练立体图像对和195个测试图像对，KITTI 2015包含200个训练立体图像对和200个测试图像对。两个数据集都提供了用LIDAR获得的KITTI 2015的分辨率为 1242×375 ， KITTI 2012 的分辨率为1226×370。在（df）的范围内h/2，d+h/2）。根据针对这些假设，我们构造稀疏连接向量，并对注意力权重进行采样，得到稀疏注意力权重。然后我们构造稀疏注意连接ETH3D是一个灰度立体对的集合，门和户外场景。它包含27个训练和20个测试- ING图像对稀疏标记的地面真理。其视差范围仅在0-64之间。的百分比体积CsR2N f×6×H/2×W/2，由方程 4.第一章误差大于2个像素（坏2.0）和1个像素的对于成本聚合，我们只使用两个3D卷积（bad 1.0）。和一个3D沙漏网络来正则化Cs。为4.2. 实现细节匹配包含在Cs中的信息是非常有效的，只需要非常轻量级的聚合网络。通过这种方式，我们实现了准确性和速度的良好平衡我们使用PyTorch实现了我们的方法，并使用NVIDIARTX 3090 GPU执行了我们的实验。为所有（d12986×模型贴片匹配多层次自适应关注权重沙漏用于attendant监督用于attendant>1px（%）>2px（%）>3px（%）D1（%）EPE（px）GwcNet [7]Gwc-pGwc-mp✓✓✓8.037.617.034.474.253.853.303.142.782.712.552.310.760.720.64Gwc-mp-attGwc-mp-att-hg✓✓✓✓✓✓✓✓✓✓✓✓6.145.674.893.393.092.692.492.231.982.031.871.550.570.520.46表1.ACV现场流的烧蚀研究[12]。p表示具有相同速率（速率=1）和相等权重的普通片mp表示多级自适应补丁（图3），其对于三级特征图具有不同的速率和自适应权重模型EPE（px）场景D1（%）流参数。（男）KITTID1-bg（%）2015D1-所有（%）GwcNet [7]0.762.716.911.742.11Gwc-CAS [6]0.622.5510.771.592.00ACVNet0.481.596.221.371.65表2.场景流的计算复杂度和精度分析[12]模型D1（%）EPE（px）PSMNet [2]PSMNet-ACV3.892.171.090.63GwcNet [7]公司简介2.711.550.760.46CFNet [16]CFNet-ACV4.514.020.970.83表3.ACV在场景流上的普适性研究[12]。在实验中，我们使用Adam [11]优化器，β1= 0。9，β2= 0。999对于ACVNet，四个输出的系数被设置为λatt=0.5 ， λ0=0.5 ， λ1=0.7 ， λ2=1.0 。对于 ACVNet-Fast，两个输出的系数设置为表4.ACV和级联体积法的比较一个基线，并取代原来的点匹配为基础的相关性建设方法与普通补丁匹配和我们的多级自适应补丁匹配，以获得三个比较方法，即，表1中的GwcNet [7]、GwcNet-p和GwcNet-mp。普通补丁匹配利用固定大小的补丁（3 - 3）和补丁中的所有像素的相等权重实验结果表明，GwcNet-p与原GwcNet [7]相比，性能只有很小的提高，而本文提出的多层次补丁匹配算法有很大的提高。注意连接音量。我们评估了用于构建场景流上的ACV的不同策略[12]。我们仍然将GwcNet [7]作为我们的基线，用我们的ACV替换其组合体积，并保持后续的聚合和视差预测模块相同。图5示出了构建ACV的三种不同方式图-法阿特=0.5，λ f=1.0。对于场景流，我们首先训练注意力图5（a）直接平均多级片匹配沿通道尺寸的体积，并将其乘以权值生成网络64个历元，然后训练剩余的网络再进行64个时期。最后，我们训练了64个epoch的完整网络。初始学习率被设置为0.001，在时期20、32、40、48和56之后衰减2倍。对于KITTI，我们在混合的KITTI 2012和KITTI 2015训练集上对预训练的场景流模型进行了500个时期的微调。然后在单独的KITTI 2012/2015训练集上训练另外500个初始学习率为0.001，在第300个历元时下降一半。4.3. 消融研究多级自适应贴片匹配。所提出的多级自适应块匹配是一种通用的方法，可以应用于大多数现有的立体模型的基础上的相关体积。在本研究中，我们将GwcNet[7]作为模型ACV沙漏numberD1（%）EPE（px）参数。（男）GwcNet [7]Gwc-acv-3Gwc-acv-1✓✓✓33102.711.551.792.080.760.460.530.596.917.405.043.86ACVNet（Gwc-acv-✓21.590.486.22λ12987级联卷，表示为GwcNet-mp-att。如表1所示，仅这种简单的方法就可以显著提高准确性。显然，当使用多级补丁匹配体积来过滤级联体积时，多级补丁匹配体积的准确性至关重要，并且在很大程度上影响网络的最终性能，因此我们使用3D卷积的沙漏架构对其进行聚合，如图5（b）所示，表示为GwcNet-mp-att-hg表1中的结果表明，与GwcNet-mp-att相比，GwcNet-mp- att-hg使D1和EPE分别提高了7.9%和8.7%。为了在训练期间进一步明确地约束多级补丁匹配量，我们使用softmax和soft argmin函数进行回归以获得预测的视差，并使用地面实况来监督视差，表示为图5（c）中所示的GwcNet-mp-att-hg-s与GwcNet相比12988监督康卡特体积注意浓度Concat volume注意concat volumeConcat volume注意concat volume(a)(b)（c）第（1）款图5.注意力连接容量（Attention Concatenation Volume，ACV）的不同构建方式mp-att-hg、GwcNet-mp-att-hg-s在推理阶段不增加计算量的情况下，D1和EPE分别提高了17.1%和11.5%。总的来说，通过用我们的ACV替换GwcNet [7]中的合并体积，与GwcNet [7]相比，我们的GwcNet-mp-att-hg-s模型实现了D1和EPE的42.8%和39.5%的改善，证明了ACV的有效性。4.4. 计算复杂性分析理想的成本体积应该需要用于后续聚合网络的较少参数，并且同时实现令人满意的视差预测精度。在这一小节中，我们分析了ACV的复杂性，在随后的聚集网络和相应的精度所需的参数的数量。我们使用GwcNet [7]作为基线。在最初的GwcNet [7]中，它使用三个堆叠的沙漏网络进行成本聚合。我们首先用我们的ACV替换原始GwcNet [7]中的组合卷，其他部分保持不变。相应的模型在表1中表示为Gwc-acv-3。二、结果表明，与GwcNet [7]相比，Gwc-acv-3的D1和EPE分别提高了42.8%和39.5%。我们进一步将沙漏网络的数量从3减少到2，1和0，相应的衍生模型表示为Gwc-acv-2，Gwc-acv-1和Gwc-acv-0。表2中的结果表明，随着聚合网络中参数数量的减少，预测误差模型场景流EPE（px）坏ETH3D1.0（%）差2.0（%）PSMNet [2]1.095.021.09GANet [24]0.846.561.10CFNet [16]0.973.310.77LEASeroes [3]0.78--HITNet [18]0.432.790.80ACVNet（我们的）0.482.580.57表5.场景流[12]和ETH3D [15]的定量评价。粗体：最好，下划线：第二好。模型场景流EPE（px）KITTI 123-NOC（%）KITTI 15D1-所有（%）时间（毫秒）StereoNet [10]1.10-4.8315DeepPrunerFast [4]0.97-2.5961AANet [20]0.871.912.5562DecNet [22]0.84-2.3750HITNet [18]-1.411.9820ACVNet-Fast（我们的）0.771.822.3448表6.ACVNet-Fast在Scene Flow和KITTI上的性能GwcNet减少39.5%[7]，PSMNet减少 42.2%[2]CFNet为14.4%[16]。我们实验比较我们的ACV与级联的approaches。我们将[6]提出的两级级联方法应用于GwcNet，相应的模型称为Gwc-CAS。如表4所示，我们的ACV输出-略有增加。更重要的是，在使用我们的ACV之后，没有任何沙漏网络的立体模型，即，Gwc- acv-0，甚至比GwcNet还要好。为了实现高精度和高效率，我们选择Gwc-acv-2作为我们的最终模型，我们将其表示为ACVNet。4.5. 阿昔洛韦的普遍性和优越性为了证明我们的ACV的通用性，我们将我们的ACV集成到三个最先进的模型中，即： Gwc-Net [7]、PSMNet [2]和CFNet [16]的性能进行了比较。具体地，我们将应用我们的方法后的模型分别表示为GwcNet-ACV，PSMNet-ACV和CFNet-ACV以进行比较。如表3所示，EPE多级面片匹配体多级面片匹配体多级面片匹配体12989执行级联方法。我们认为ACV优于级联方法的原因是后者可能会遭受不可逆的累积误差，因为它直接丢弃超出预测范围的差异。然而，我们的ACV仅调整不同差异的权重。因此，虽然注意力权重是不完美的，但包含丰富上下文的级联卷可以通过子聚集网络在一定程度上帮助修正错误。4.6. ACVNet性能场景流。如表5所示，我们的方法实现了最先进的性能。我们可以观察到，我们的ACVNet 提高了38.4%的EPE精度，同时12990KITTI 2012 [5]Kitt I 2015 [13个国家]方法2-noc2-所有3-noc3-所有EPENOCEPE所有D1-bgD1-fgD1-所有运行时（s）GC-Net [9]2.713.461.772.300.60.72.216.162.870.9PSMNet [2]2.443.011.491.890.50.61.864.622.320.41[17]第十七话2.322.881.461.830.40.51.843.302.080.32GwcNet [7]2.162.711.321.700.50.51.743.932.110.32GANet-deep [24]1.892.501.191.600.40.51.483.461.811.8[25]第二十五话1.832.351.171.540.50.51.513.801.890.48HITNet [18]2.002.651.411.890.40.51.743.201.980.02CFNet [16]1.902.431.231.580.40.51.543.561.880.18LEASeroes [3]1.902.391.131.450.50.51.402.911.650.3ACVNet（我们的）1.832.351.131.470.40.51.373.071.650.2表7. KITTI 2012 [5]和KITTI 2015 [13]的定量评价。对于KITTI 2012，我们报告了非遮挡（x-noc）和所有区域（x-all）中误差大于x对于KITTI 2015，我们报告了背景区域（bg），前景区域（fg）和所有区域的D1度量。粗体：最好，下划线：第二好。图6.场景流[12]和KITTI [5，13]的定性结果。前两列显示场景流的结果，中间两列显示KITTI 2012的结果，最后两列显示KITTI2015的结果。具有更快的推理速度相比，国家的最先进的方法LEASereo [3]，即0.2s比。0.3s.凯蒂如表7和图1所示，我们的ACVNet优于大多数现有的公开方法，在KITTI 2012和KITTI 2015排行榜中排名第2 。值得一提的是，我们的ACVNet 也是KITTI基准排行榜前10名方法中最快的ETH3D。如表5所示，我们的ACVNet优于最先进的方法HITNet [18]和CFNet [16]。综上所述，我们的ACVNet在上述四个数据集上表现出了出色的性能，值得一提的是，我们的ACVNet也是唯一一个在所有四个数据集上同时排名前五的方法，这代表了我们的方法对各种场景的良好泛化能力。目前的SOTA方法在某些特定的场景下性能较差，例如. LEASereo [3]在场景流上的准确性较差; HITNet[18]在现实世界场景中的性能（KITTI和ETH 3D）远远不如我们的ACVNet。4.7. ACVNet-快速性能为了证明我们的ACVNet-Fast的出色性能，我们将其与当前经典的实时网络在场景流[12]和KITTI [5，13]基准上进行了比较。如表6所示，我们的方法在推理时间和准确性之间实现了非常好的平衡。5. 结论在本文中，我们提出了一种新的成本体积，命名为注意力连接体积（ACV），它产生的注意力权重的基础上的相似性措施，以过滤连接体积。我们还提出了一种新的多级自适应补丁匹配方法，即使对于无纹理区域也能产生精确的相似性度量基于ACV，我们设计了一个高精度网络（ACVNet），它在四个公共基准测试中表现出优异的性能，即，KITTI 2012 2015，场景流和ETH3D。鸣谢。本工作得到了国家自然科学基金（62122029）、WNLOK开放项目（2018WNLOKF025）的资助。ACVNet GwcNet左12991引用[1] Rohan Chabra ， Julian Straub ， Christopher Sweeney ，Richard Newcombe，and Henry Fuchs.Stereodrnet：扩张的残余立体网。在IEEE/CVF计算机视觉和模式识别集，第117862[2] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410- 5418页一二六七八[3] Xuelian Cheng ， Yiran Zhong ， Mehrtash Harandi ，Yuchao Dai ， Xiaojun Chang ， Tom Drummond ，Hongdong Li，and Zongyuan Ge.用于深度立体匹配的分层神经架构搜索。arXiv预印本arXiv：2010.13501，2020。七、八[4] Shivam Duggal ， Shenlong Wang ， Wei-Chiu Ma ， RuiHu，and Raquel Urtasun. Deeppruner：通过可区分的patchmatch学习有效的立体匹配。在IEEE计算机视觉国际会议论文集，第4384-4393页，2019年。二、七[5] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在2012年IEEE计算机视觉和模式识别上，第 3354-3361 页。IEEE，2012。二、五、八[6] Xiaodong Gu，Zhiwen Fan，Siyu Zhu，Zuozhuo Dai，Feitong Tan，and Ping Tan.级联成本体积高分辨率多视图立体和立体匹配。在IEEE/CVF计算机视觉和模式识别会议论文集，第2495-2504页，2020年。二六七[7] Xiaoyang Guo ， Kai Yang ， Wukui Yang ， XiaogangWang ， and Hongsheng Li. 分组相关立体网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第3273-3282页，2019年。一、二、四、六、七、八[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。IEEE/CVF计算机视觉和模式识别会议论文集，第770-778页，2016年。4[9] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在IEEE计算机视觉国际会议论文集，第66-75页，2017年。一、二、四、五、八[10] Sameh Khamis ， Sean Fanello ， Christoph Rhemann ，Adarsh Kowdle ， Julien Valentin ， and Shahram Izadi.Stereonet：用于边缘感知深度预测的引导分层细化2018年欧洲计算机视觉会议。二、七[11] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[12] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。InProceedings of theIEEE计算机视觉和模式识别会议，第4040-4048页，2016年。一、二、五、六、七、八[13] Moritz Menze，Christian Heipke，and Andreas Geiger.车辆与场景流的联合三维估计。 ISPRS Annals of thePhotogrammetry，Remote Sensing and Spatial InformationSciences，2：427，2015. 二、五、八[14] Guang-Yu Nie，Ming-Ming Cheng，Yun Li

下载后可阅读完整内容，剩余1页未读，立即下载