没有合适的资源?快使用搜索试试~ 我知道了~
特征一致性对立体匹配网络的域泛化的影响
130010从特征一致性的角度重新审视域泛化立体匹配网络0Jiawei Zhang 1,Xiang Wang 1,Xiao Bai 1*,Chen Wang 1,Lei Huang 2,Yimin Chen 1,Lin Gu 3,4,JunZhou 5,Tatsuya Harada 3,4,Edwin R. Hancock 6,101.计算机科学与工程学院,软件发展环境国家重点实验室,江西研究院,北京航空航天大学,中国,2. 人工智能研究所,北京航空航天大学,中国,3. RIKEN AIP,日本东京,4.东京大学,5. 格里菲斯大学,6. 约克大学0摘要0尽管最近的立体匹配网络在有足够的训练数据的情况下取得了令人印象深刻的性能,但它们在领域转移方面表现不佳,很难泛化到未见过的领域。我们认为在匹配像素之间保持特征一致性是促进立体匹配网络泛化能力的一个重要因素,但这一点尚未得到充分考虑。在这里,我们通过提出一种简单的像素级对比学习方法来解决这个问题。立体对比特征损失函数明确约束了匹配像素对的学习特征之间的一致性,这些像素对是同一3D点的观测。进一步引入了立体选择性白化损失,以更好地保持跨领域的立体特征一致性,从而消除了立体视点特定的样式信息。直观地说,同一场景中两个视点之间的特征一致性的泛化转化为立体匹配性能对未见过的领域的泛化。我们的方法在性质上是通用的,因为它可以轻松嵌入到现有的立体网络中,并且不需要访问目标领域中的样本。当在合成数据上训练并推广到四个真实世界的测试集时,我们的方法在几个最先进的网络上实现了更好的性能。代码可在网上找到[1]。01. 引言0从图像中估计深度是许多计算机视觉应用中的一个基本问题,例如自动驾驶[42]和机器人导航[1]。立体匹配是解决这个任务的一种方法,它找到匹配的对应点。0* 通讯作者:Xiao Bai (baixiao@buaa.edu.cn)。1https://github.com/jiaw-z/FCStereo0左图 PSMNet 我们的方法0(a)0(b)0(c)0图1.PSMNet在KITTI、Middlebury和ETH3D训练集样本上的域泛化性能,与我们的方法相比,所有模型都是在合成的SceneFlow数据集上训练的。0立体图像对之间的匹配通常通过匹配成本计算过程来解决,该过程通常包括四个步骤[38]:匹配成本计算、成本聚合、视差回归和视差细化。最近,基于传统方法的成本计算过程开发了端到端的立体匹配网络[4, 15, 21, 30,57],并取得了最先进的准确性。然而,它们在未见过的领域上的泛化性能差是它们在实际应用中面临的主要挑战(见图1的示例)。实现泛化能力的常见方法是学习域不变表示[23, 24, 26, 32]。一些立体匹配网络[3, 40,58]尝试通过进行特征级对齐来解决这个问题,以获得域不变特征。这些方法将输入投影到域不变特征空间中,减少对域特定外观属性的依赖,并显示出对领域转移的更强鲁棒性。在这里,我们提出了一个较弱的约束,即立体特征一致性。02130020对于立体匹配网络来说,每个左图中的点都在右视图中寻找与之匹配的点,这自然需要对视点变化具有鲁棒性。期望一个具有领域泛化能力的立体匹配网络能够将这种匹配能力推广到未知领域,这意味着,简而言之,是“对视点变化的鲁棒性”的泛化。从这个角度来看,我们认为立体网络需要泛化的是匹配关系,表现为配对点的特征一致性。例如,传统方法在很大程度上是与领域无关的[36,43],直接在RGB图像上计算匹配代价[17]。尽管不同领域的图像内容差异很大,但是匹配像素在大多数情况下在立体视点之间具有一致的表达,保证了稳定的匹配代价计算以产生可靠的视差图。我们进一步验证了这种直觉,通过一个简单的流程,将直接从RGB图像构建的代价体积与常见的PSMNet代价聚合模块相结合(见附录A)。这样一个简单的流程,具有一致的立体表示,也显示出了在领域泛化性能上的显著改进。0通常,立体图像对中的外观不一致性在一定范围内,因此匹配点非常相似。例如,对应点应该具有相同的入射光以及反射率,并在左右相机中显示不同的阴影。然而,当学习到的特征用于构建代价体积时,特征一致性不被保留,如图2a所示。令人惊讶的是,即使在训练集中,特征也是不一致的,这与共享权重的孪生特征提取器已经处理了立体视点变化并提取了一致特征的常见直觉相反。0本文通过开发特征一致性立体网络(FCStereo)来解决立体匹配方法的领域泛化问题。这里有两个挑战:(a)在训练集上获得高特征一致性和(b)将这种一致性推广到不同领域。我们认为(a)的困难是由于特征上缺乏明确的一致性约束导致的过拟合。我们提出了立体对比特征(SCF)损失,以鼓励匹配点在表示空间中靠近。为了解决一致性泛化问题(b),我们使用适当的归一化操作并约束特征统计。进一步引入了立体选择性白化(SSW)损失,以抑制对立体视点变化敏感的信息。图2b以通道方式说明了特征差异,并展示了两个提出的损失项的作用。SCF损失鼓励特征在训练集上保持一致性。然而,在未知领域中,我们看到一致性的降低。SSW损失产生了相对较低的一致性。0(a)0绝对差异0基础+C+C+W0立体图像对0通道通道0+W0训练集未知测试集0(b)0图2.匹配点特征一致性分析。(a)在四个未知领域上评估流行的立体匹配主干网络。(b)通道特征不一致性的可视化。左至右:PSMNet基线,加入我们的对比损失(C),加入我们的白化损失(W),以及两者同时加入。有关学习到的特征的更多细节请参见附录C。0与对比损失相比,特征一致性更加稳定,而一致性对领域变化更加鲁棒。同时使用这两个损失项可以在不同领域中实现高特征一致性。我们将所提出的方法应用于不同的立体匹配主干网络,并在泛化性能上显示出显著的改进。这表明,在相同场景中两个视点之间的特征一致性的泛化可以转化为立体匹配性能在未知领域中的泛化,尽管这似乎与直觉相反。图1展示了定性的说明。本文的主要贡献如下:0•我们观察到最近的立体方法学习到了不一致的匹配点对表示,并证明了保持高立体特征一致性可以提升立体网络的泛化性能。0•我们提出了两个损失函数,即立体对比特征损失和立体选择性白化损失,以鼓励跨领域的立体特征一致性。这两个损失可以很容易地嵌入到现有的立体网络中。0•我们的方法应用于几种立体网络架构,并在领域泛化性能上取得了显著的改进。1300302. 相关工作0基于深度学习的立体匹配。自从MC-CNN[56]将卷积神经网络(CNN)引入到匹配代价计算中以来,许多基于深度学习的方法已被提出用于立体匹配。早期的工作仅仅用学习到的特征替换RGB输入以提高准确性,而将后续的传统步骤用于代价计算保持不变。对于这些方法,学习到的特征的一个关键属性是匹配像素之间的一致性[9,59]。最近,许多方法以端到端的方式解决这个任务[4, 22,30, 46,60]。这些方法通常遵循两种类型的解决方案:基于相关代价体积的二维代价聚合的深度神经网络和基于串联代价体积的三维代价聚合的立体网络。相关方法通常更高效,但会导致信息丢失。DispNetC[30]是第一个引入端到端回归进行立体匹配并以相关方式构建代价体积的方法。许多工作采用了基于相关的匹配策略[28, 44, 52,55],并取得了令人印象深刻且高效的性能。第二类方法是将立体特征串联起来,充分利用信息。例如,GCNet[21]将两个视图特征堆叠起来构建一个四维代价体积,并首次利用三维卷积进行匹配代价聚合。这一类方法[4, 48, 57,60]利用了更完整的特征信息,在各种立体基准上取得了更高的准确性。我们的方法可以无缝地集成到现有的端到端立体网络中,并提高它们的泛化性能。领域泛化的立体匹配。开发对未知领域具有鲁棒性的立体匹配网络非常重要。DSMNet[58]使用域归一化层来减少图像级风格的偏移和局部对比度变化,然后使用可训练的非局部基于图的滤波器来平滑局部敏感的细节。CFNet[40]产生了一个融合的代价体积表示,以捕捉全局和结构信息,构建了一个对领域变化具有鲁棒性的立体匹配网络。蔡等人[3]指出立体网络的泛化性差是由网络对图像外观的强依赖性引起的,并提出使用匹配函数的组合进行特征提取。实例区分和对比学习。实例级别的区分,将每个实例视为独立的类别,在表示学习中起着重要的作用。这个范式被形式化为一个度量学习问题,其中正样本对的特征被鼓励接近,负样本对的特征被迫分开[50]。后续的工作[41]将这个思想应用于特定的下游任务,并表明学到的表示的质量受到很大影响。0通过负对选择策略[41],最近,遵循实例区分的思想,对比学习在自监督特征表示学习方面取得了显著的成功。MoCo及其变体[5,16]将对比学习视为一个字典查找过程,并维护一个动量更新的队列编码器。一些尝试将这种基于动量的对比学习框架扩展到像素级特征学习[35, 47,51]。与这些密集对比学习方法不同,我们使用由地面实况视差给出的对应关系定义正样本,这直接适应了主要任务。特征协方差。以前的研究表明,特征通道之间的相关性捕捉到图像的风格信息[11, 12]。这个理论在风格转换[12,25]、图像到图像的转换[6]和其他方面[29,33]得到了进一步的探索。最近,[7]提出了一种选择性白化方法,用于去除对于领域转移敏感的风格信息,以实现鲁棒的分割,其中风格信息的选择取决于手动设计的光度变换。我们的方法受到选择性白化[7]的启发,但是我们选择对立视角变化敏感的信息,而不依赖于光度变换。03. 方法0在本节中,我们介绍了我们方法的细节,包括对中间特征的立体选择性白化损失和对最终特征的立体对比特征损失。图3描述了我们方法的整个框架,其中立体对比特征损失和立体选择性白化损失应用于立体匹配网络,以鼓励跨域的立体特征一致性。03.1. 立体对比特征损失0深度立体网络中最重要的内部表示是从最后的特征提取层提取的立体特征,用于构建代价体积。在这个阶段,我们对立体视图的特征施加一致性约束。受到最近对通过优化成对(不)相似性进行无监督特征学习的对比学习的成功的启发,我们引入了一种立体特征的对比学习机制,即立体对比特征(SCF)损失。所提出的对比学习机制包括应用于立体特征的像素级对比损失,以及具有动量更新的关键编码器的字典队列,该字典队列引入了来自不同对的丰富的负样本集,并进一步改善了特征的一致性。正样本对。如果立体视图中的像素向量的像素坐标是同一个3D点的投影位置,则将其视为正样本对。可以使用左侧的地面实况视差d收集这些正样本对。left imageright imagegradstopmoving averageConvINReLU×Iquery encoderConvBNReLU×I’ConvINReLU×Ikey encoderConvBNReLU×I’positive negativequeue111110000000 1 1 1 10 0 1 1 10 0 0 1 10 0 0 0 10 0 0 0000CHW··Xsl(Xsl)T·XsrsCHW∑s(Xl)∑s(Xr)occlusion maskleft featureright featurevariance matrix·zerocost volumepredictionground truthcost aggregation 130040方差 ∙0立体选择性白化损失 立体对比特征损失0图3.方法的结构。顶部显示了网络从输入对中提取特征并在基于特征的代价体积上回归视差的前向传递。底部是用于维持特征一致性的两个提出的损失。作为特征对比损失的一部分,右图像的关键编码器被实现为查询编码器的移动平均值,以减轻负样本选择的影响。在推理过程中,我们使用查询编码器提取左右图像的特征,这与标准流程严格相同。0即,左视图中的查询特征ϕlu,v与右视图中的关键特征ϕru−d,v配对。因此,保持立体特征一致性就变得简单,只需促进正样本对的特征一致性。负样本对。虽然ϕl中的每个像素在ϕr中有HW-1个潜在的负样本对,但是将所有潜在的负样本对都包含在对比损失中会导致巨大的计算成本。为了解决这个问题,我们使用一种简单的方法,即从大小为50×50的局部窗口中随机采样N个不匹配点,从右侧特征ϕr中形成N个负样本对。动量编码器。负样本的选择策略特别重要,因为它严重影响了学习表示的属性。在我们的实验中,当负样本限制为同一立体对时,特征一致性还不够高。使用来自其他图像的像素作为负样本可能更自然,并且与用于负样本的字典队列非常匹配。我们遵循[16]的方法,维护一个动态字典队列,存储先前的负样本,并将权重共享特征提取器的架构设计为一个不对称的查询和关键编码器对(具有权重θ和η)。队列的容量固定为K,并且在每次迭代后逐渐替换最旧的样本。关键编码器被建模为查询编码器的基于动量的移动平均值:0ηt = mηt-1 + (1 - m)θt, (1)0其中,t是迭代次数,m∈[0,1]是一个动量值。这样的设计可以为负样本提供来自不同图像的内容,减少特征过于关注当前图像内容的机会。作为动量值m在使用队列方面起到核心作用[16],我们在实验中评估了特征一致性。实验结果表明,相对较大的动量值(例如m=0.9999,我们的默认值)在提取立体一致表示方面起到了核心作用。像素级对比损失。我们用点积来衡量特征对的相似性,并采用像素级的InfoNCE[34]来解决我们的问题:0Lf(u,v) = -log exp(ϕ0ϕn∈F(u,v)exp(ϕlu,v ∙ ϕn/τ), (2)0其中,F(u,v)表示样本ϕlu,v的负样本集,由右特征ϕr的N个样本和字典队列的K个样本组成,τ是一个温度超参数[50]。我们设置N=60,K=6000,τ=0.07。非匹配区域去除。我们利用地面实况视差收集像素特征对作为对比框架中的正样本对。然而,以这种方式收集的一些对不来自同一点的(7)130050由于遮挡等因素,这些非匹配对不应该被检测和从正样本集中删除。可以利用广泛使用的左右几何一致性检查匹配置信度准则来检测和删除这些非匹配样本对。重投影误差R计算为立体图像中配对像素位置处的地面实况视差值之差,可以作为匹配有效性检查的准则。然后,表示剩余匹配区域的掩码M定义为:0Mu,v = � 1, Ru,v < δ 0, 否则(3)0其中,δ设为3作为阈值。我们的SCF损失定义为在像素坐标空间C上Lf的加权平均:0Lscf = 1 �0(u,v)∈CMu,v0(u,v)∈CLf(u,v)⊙Mu,v. (4)03.2. 立体选择性白化损失0通过对比损失,立体网络在训练集上提取一致的表示。然而,特征一致性在不同领域之间的退化已成为进一步提高泛化性能的主要障碍。我们基于[7]构建了立体选择性白化(SSW)损失来解决这个问题。一般来说,立体网络使用批归一化(BN)[20]作为默认的特征归一化操作。在训练过程中,BN使用小批量统计量对特征进行正则化,并在推理过程中使用训练集的总体统计量[19],使得网络的统计量依赖于数据[58],并对领域的变化敏感。为了将特征一致性推广到不同的领域,我们将一些默认的BN层改为实例归一化(IN)[45]层,它对每个样本进行独立的正则化,因此与训练集统计量无关。对于每个样本X∈RC×HW,IN将其转化为ˆX∈RC×HW:0ˆXi = 0σi(Xi - µi), (5)0其中,µi和σi分别是ˆX在通道索引i上的均值和标准差。我们进一步考虑特征协方差中存储的信息,这是IN未处理的。提出的SSW通过抑制对立体视图变化敏感的特征协方差分量,寻求学习视点不变表示。特别地,我们首先计算IN正则化表示ˆX的方差矩阵Σ(ˆX)∈RC×C:0Σ(ˆX) = 10HW(ˆX)(ˆX)T. (6)0然后我们计算左视图特征协方差Σ(ˆXl)与其对应的右视图特征Σ(ˆXr)之间的协方差矩阵V ∈ RC×C,其中n索引样本:0µΣn = 102(Σn(ˆXl) + Σn(ˆXr))0V =1/2N0n = 1 ((Σn(ˆXl) - µΣn)2 + (Σn(ˆXr) - µΣn)2),0方差矩阵中的元素Vi,j衡量了第i个通道和第j个通道对立体视角变化的敏感性。具有高方差的左右特征之间的协方差元素被认为是对立体视角变化敏感的组成部分,应该在白化损失中考虑。实际上,所有协方差元素根据方差的大小分为3个簇[7],我们选择具有最高方差值的簇,称为Gp。然后计算选择性掩码˜M ∈ RC×C:0˜Mi,j = 1, Vi,j ∈ Gp 0, otherwise (8)0SSW损失施加在左侧正则化特征上:0Lssw = 10γ = 1 ||Σγ(ˆXl) ⊙ ˜M ⊙ ˆM||1, (9)0其中,ˆM是一个严格的上三角矩阵,因为协方差矩阵是对称的;Γ是应用SSW损失的层数;γ索引相应的层(即PSMNet中的conv1、conv2x)。通过SSW损失,立体网络学习减少对立体不相关信息的依赖,形成其特征表示。立体图像对之间的差异主要限制在特定的物理特征上,例如光的漫反射,这使得立体模型有可能从有限的训练数据中学习一些通用知识。03.3. 训练目标0我们最终的训练损失是视差损失和上述损失的加权和:0L = Ldisp + λscfLscf + λsswLssw, (10)0其中,Ldisp是一种常用的逐像素平滑L1损失,用于视差回归。λscf和λssw是平衡权重。在反向传播过程中,除了右侧特征提取器实现为左侧提取器的移动平均值之外,所有其他模块都是通过经典的梯度下降方法进行更新的。✗✗✗26.527.926.920.023.8✓✗✗18.419.024.115.417.6✓✓✗10.512.722.215.017.1✗✗✓13.215.520.513.814.1✓✓✓7.07.518.312.112.8✗✗✗20.222.734.218.130.1✓✗✗12.316.525.815.513.3✓✓✗11.212.124.815.212.8✗✗✓12.013.524.614.912.5✓✓✓7.48.021.011.811.7✗✗✗10.111.720.311.214.1✓✗✗9.19.518.110.512.1✓✓✗7.27.516.310.111.3✗✗✓8.49.016.810.210.5✓✓✓5.76.416.09.89.2130060主干对比动量立体 KITTI Middlebury ETH3D 损失 编码器 白化 2012 2015 一半 四分之一0PSMNet [4]0GWCNet [15]0GANet [57]0表1. 在KITTI、Middlebury和ETH3D训练集上使用不同主干网络进行的每个关键组件消融研究。采用阈值误差率(%)进行评估。04. 实验0在本节中,我们对一些常用的立体方法进行了详细分析,以说明现有框架在特征上缺乏明确的约束。我们还对不同数据集进行了消融研究,包括KITTI [13, 31],Middlebury[37],ETH3D [39],DrivingStereo[54],以验证不同组件的作用。我们将我们的方法与现有的领域通用立体网络进行比较,以展示我们方法的有效性。04.1.数据集0SceneFlow[30]是一个包含三个子集(Driving,Monkaa和FlyingThings3D)的大型合成数据集。训练集包括35k对合成立体图像和密集的地面真实视差,分辨率为960×540,用于我们的实验中从头训练网络。KITTI2012 [13]和KITTI2015[31]都收集了全分辨率为1242×375的室外驾驶场景。它们提供了394对用于训练的稀疏地面真实视差和395对用于测试。我们使用训练集来评估网络的泛化性能。Middlebury2014[37]是一个室内数据集,提供28个训练(包括13个额外的立体对)和15个测试立体对,分别具有全分辨率、半分辨率和四分之一分辨率。我们使用半分辨率和四分之一分辨率的训练集来评估网络的泛化能力。ETH3D[39]包含27对灰度图像用于训练和20对用于测试。它包括室内和室外场景。我们使用训练集来评估泛化性能。0DrivingStereo[54]是一个大规模真实数据集。其中的一个子集包含了在不同天气条件下(晴天、多云、雾天和雨天)收集的2000对立体图像。我们在这些具有挑战性的场景上评估泛化性能。04.2.实现细节0我们使用PyTorch实现我们的方法,并使用Adam优化器(β1 = 0.9,β2 =0.999)进行训练。批量大小设置为12在GPU上进行训练。我们使用学习率为0.001进行15个epoch的训练,然后使用学习率为0.0001进行额外的5个epoch的训练。我们将原始图像随机裁剪为512×256作为输入。对于所有数据集,使用ImageNet[8]的均值([0.485,0.456,0.406])和方差([0.229,0.224,0.225])进行颜色归一化进行数据预处理。我们将最大视差设置为D =192,并且所有大于D的地面真实视差都不计入损失计算。在训练过程中,我们使用非对称的查询和键编码器分别从左右图像提取特征。在测试阶段,查询编码器被用作左右图像的特征提取器,这是与标准立体流水线严格相同的对称设计。04.3.消融研究0在本节中,我们提供了详细的消融研究来评估和分析我们方法的有效性。关键组件:我们评估了我们流程的每个关键组件的有效性。在这里,选择了三个网络作为基线模型。PSMNet[4]是一个广泛采用的骨干网络。它构建了一个基于串联的成本体积,并希望成本聚合网络可以从头学习相似度测量函数。GWC-MethodsKITTIMiddleburyAANet [52]0.7612.30.7728.1Cas-PSMNet [14]0.5816.50.6327.8AcfNet [60]0.5827.40.6127.1CDN-PSMNet [10]0.5740.00.6135.0PSMNet [4]0.6527.90.7126.9GWCNet [15]0.6022.70.6734.2GANet [57]0.7311.70.7620.3DSMNet [58]0.836.50.8513.8FC-PSMNet (ours)0.987.50.9518.3FC-GWCNet (ours)0.978.00.9521.0FC-GANet (ours)0.986.40.9716.0FC-DSMNet (ours)0.996.20.9812.0130070m - 0.9 0.99 0.999 0.9999 0.999990SceneFlow 0.86 0.88 0.92 0.96 0.97 0.98 KITTI 0.78 0.82 0.850.91 0.92 0.920表2.不同动量值在已见(SceneFlow)和未见(KITTI)领域中的特征一致性。余弦相似度被采用作为向量间的相似性度量进行评估。'-'表示没有队列和动量编码器的对比学习设置。我们选择PSMNet作为基线模型。0方法 KITTI Middlebury0PSMNet基线12.7 22.2 +实例归一化[45] 8.5 19.1+领域归一化[58] 8.1 18.8 +实例白化[7] 8.0 18.6+我们的立体选择白化 7.5 18.30表3.与现有归一化层在KITTI2015和半分辨率Middlebury训练集上的比较。采用阈值错误率(%)。我们选择PSMNet作为基线模型。0选择Net[15]作为构建成本体积的方法,它通过组间相关性提供了比从头学习更好的相似性度量。GANet[57]是表现最好的网络之一,它通过低级特征引导成本聚合。如表1所示,在训练过程中对最终特征应用对比损失显著提高了域泛化性能。由于来自不同立体对的负样本和动量编码器的影响,它在各种领域中具有更好的泛化性能,例如在KITTI上为15.2%,在Middlebury上为4.7%,在ETH3D上为6.7%。此外,白化损失减少了在未见领域上的错误率。这表明在不同领域中保持特征一致性可以有效提高泛化性能。此外,通过这些关键组件的组合,模型在未见领域中明显优于其对应的基线模型。动量值:表2显示了具有不同动量值(方程(1)中的m)的学习立体特征的一致性。与没有字典队列的标准Siamese编码器相比,我们的动量编码器对正样本的特征一致性有益,这种行为对于已见和未见领域都成立。我们还采用了不同的动量值m,并显示相对较大的m对于实现更高的立体特征一致性至关重要。归一化层:我们评估了我们提出的立体白化与批归一化[20]、实例归一化[45]、领域归一化[58]和实例白化[7]的有效性。实验中除了归一化方法外,所有其他设置都保持不变。与一般方法相比,我们的白化损失专门设计用于立体匹配,并有助于模型更好地泛化到未见领域,如上所示。0余弦 > 3像素 余弦 > 2像素0表4. 在KITTI2015和半分辨率Middlebury训练集上评估特征一致性和泛化性能。采用余弦相似度和阈值错误率(%)。0表3.不同架构的特征一致性:我们展示了各种网络的特征一致性和泛化性能。我们使用余弦相似度作为向量级度量来评估匹配特征之间的一致性。在这个实验中,我们包括了前面提到的基线方法PSMNet [4]、GWCNet [15]、GANet[57]。AANet[52]被选为基于完全相关成本体积的方法的代表[30,52]。我们还评估了CasPSMNet[14]作为粗到精方法的代表。DSMNet[58]是为领域泛化而设计的,并提取非局部特征。除了常见的视差回归损失外,AcfNet[60]还对从滤波后的成本体积得出的概率分布施加了额外的约束。CDN[10]用基于Wasserstein距离的损失替代了常用的基于softargmin的回归损失。如表4所示,这些流行的方法都缺乏对特征的明确约束,并提取不一致的表示。04.4. 跨领域评估0我们将我们的方法与其他几种立体匹配方法进行比较,包括传统方法、经过深入研究的端到端方法以及通过在合成SceneFlow训练集上训练并在四个真实世界数据集上评估的领域泛化方法。我们使用不对称增强[49,53]来防止模型过拟合。表5总结了比较结果。我们的方法在泛化性能上表现优于其他方法。04.5. 在挑战性天气条件下的评估0在本节中,我们评估了我们的方法在一些具有挑战性的领域中的泛化性能。我们在不对称增强下训练了基线模型和我们的模型。MethodsKITTIMiddleburyETH3D20122015halfquarterCostFilter [18]21.718.940.517.631.1PatchMatch [2]20.117.238.616.124.1SGM [17]7.17.625.210.712.9PSMNet [4]26.527.926.920.023.8GWCNet [15]20.222.734.218.130.1GANet [57]10.111.720.311.214.1MS-PSMNet [3]13.97.819.910.816.8MS-GCNet [3]5.56.218.510.38.8DSMNet [58]6.26.513.88.16.2FC-PSMNet (ours)7.07.518.312.112.8FC-GWCNet (ours)7.48.021.011.811.7FC-GANet (ours)5.76.416.09.89.2FC-DSMNet (ours)5.56.212.07.86.0PSMNet [4]6.06.315.89.810.2GANet [57]5.56.013.58.56.5STTR [27]8.76.715.59.717.2CFNet [40]4.75.815.39.85.8FC-PSMNet (ours)5.35.815.19.39.5FC-GANet (ours)4.65.310.27.85.8MethodsKITTICloudyFoggyRainySunnyPSMNet [4]6.37.910.812.27.4FC-PSMNet (ours)5.84.36.27.24.9GANet [57]6.05.78.210.05.4FC-GANet (ours)5.33.34.07.03.3130080训练集 SceneFlow0训练数据 SceneFlow + 不对称增强0表5.在KITTI、Middlebury、ETH3D训练集上进行跨领域泛化评估。采用阈值错误率(%)。0表6.在不同天气条件下的KITTI和半分辨率DrivingStereo数据集上进行泛化评估。采用阈值错误率(%)。0度量增强。训练好的模型在DrivingStereo提供的四种具有挑战性的天气条件下的立体图像对上进行测试。还对KITTI2015训练集进行评估,因为它收集了类似的理想天气条件下的户外驾驶场景。结果总结在表6中。与基准模型相比,我们的模型在理想天气条件下的图像上具有更好的泛化能力,并且在具有挑战性的天气条件下改进更为明显。图4显示了定性结果。04.6. 在KITTI上进行微调0我们在KITTI基准上评估了微调后的准确性。模型首先在SceneFlow数据上进行训练,并在KITTI2015训练集上进行进一步的1000个epoch的微调。在微调过程中,我们使用查询编码器提取两个视图特征,这是与标准流程相同的对称特征提取。我们将学习率设置为0.001的前600个epoch,并将其降低到剩余的400个epoch的0.0001。表7显示了基准测试结果。我们发现我们的模型可以获得与对应模型相当的性能。此外,我们还探索了我们的方法在更有限的微调数据上的性能。0基准模型 我们的模型 左图0雨天多云雾天晴天0图4.DrivingStereo不同天气条件下的定性结果。我们选择PSMNet作为基准模型。0方法 All-D1(%) Noc-D1(%)0背景 前景 总体 背景 前景 总体0微调集KITTI(完整)0PSMNet [4] 1.86 4.62 2.32 1.71 4.31 2.14FC-PSMNet(我们的模型)1.86 4.61 2.32 1.73 4.19 2.130微调集KITTI(40)0PSMNet [4] 4.15 7.03 4.63 3.92 6.36 4.32FC-PSMNet(我们的模型)3.10 6.94 3.74 2.88 6.27 3.440微调集KITTI(1)0PSMNet [4] 4.83 14.26 6.40 4.57 13.38 6.02FC-PSMNet(我们的模型)3.34 12.56 4.87 3.05 11.56 4.450表7. 在KITTI 2015基准上进行微调评估。微调使用不同的子集。0微调集,适用于实际应用,因为许多真实场景的可用数据非常有限。KITTI(40)是一个流行的验证集[4],收集了来自KITTI2015训练集的40个代表性场景的图像。而KITTI(1)只包含第一张训练图像。如表7所示,我们的模型在有限的微调数据上的性能优于对应模型。05. 结论0我们引入了特征一致性思想来提高端到端立体网络的域泛化性能。我们建议在训练过程中对学习到的特征明确施加对比损失,以保持立体视图之间的一致性。然后,我们使用选择性白化损失限制中间特征表示,这有助于在未见领域上保持特征一致性。实验结果表明,我们的方法显著提高了端到端立体匹配网络的泛化性能。0致谢0本工作得到了中国国家自然科学基金(编号61772057和62106012)、北京市自然科学基金(编号4202039)的支持。[27] Zhaoshuo Li, Xingtong Liu, Nathan Drenkow, Andy Ding,Francis X Creighton, Russell H Taylor, and Mathias Un-130090参考文献0[1] Joydeep Biswas和ManuelaVeloso。基于深度相机的室内移动机器人定位和导航。在RSS的RGB-D研讨会上,2011年,第2011卷,第1页。10[2] Michael Bleyer, Christoph Rhemann, and Carsten Rother.Patchmatch立体匹配与倾斜支持窗口.在Bmvc中,第11卷,第1-11页,2011年。80[3] Changjiang Cai,Matteo Poggi,StefanoMattoccia和PhilipposMordohai。匹配空间立体网络用于跨域泛化。在2020年国际三维视觉会议(3DV)上,第364-373页。IEEE,2020年。1,3,80[4] Jia-Ren Chang和Yong-Sheng Chen. 金字塔立体匹配网络.在IEEE计算机视觉和模式识别会议论文集中,页码5410-5418,2018年. 1 , 3 , 6 , 7 , 8 , 12 , 130[5] Xinlei Chen,Haoqi Fan,Ross Girshick和Kaiming He.基于动量对比学习的改进基线.arXiv预印本arXiv:2003.04297,2020年. 30[6] Wonwoong Cho,Sungha Choi,David KeetaePark,Inkyu Shin和Jaegul Choo.通过群体深度白化和上色变换进行图像到图像的转换.在IEEE/CVF计算机视觉和模式识别会议论文集中,页码10639-10647,2019年. 30[7] Sungha Choi,Sanghun Jung,Huiwon Yun,Joanne TKim,Seungryong Kim和Jaegul Choo.RobustNet:通过实例选择性白化改进城市场景分割中的域泛化.在IEEE/CVF计算机视觉和模式识别会议论文集中,页码11580-11590,2021年. 3 , 5 , 70[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi和Li Fei-Fei. ImageNet:一个大规模的分层图像数据库.在2009年IEEE计算机视觉和模式识别会议上,页码248-255.Ieee,2009年. 60[9] Mohammed E Fathy,Quoc-Huy Tran,M ZeeshanZia,Paul Vernaza和Manmohan Chandraker.用于2D和3D几何对应的分层度量学习和匹配.在欧洲计算机视觉会议(ECCV)论文集中,页码803-819,2018年.30[10] Divyansh Garg,Yan Wang,Bharath Hariharan,MarkCampbell,Kilian Q Weinberger和Wei-Lun Chao.用于立体视差估计的Wasserstein距离.arXiv预印本arXiv:2007.03085,2020年. 70[11] Leon Gatys,Alexander S Ecker和Matthias Bethge.使用卷积神经网络的纹理合成.神经信息处理系统的进展,28:262-270,2015年. 30[12] Leon A Gatys,Alexander S Ecker和Matthias Bethge.使用卷积神经网络的图像风格转换.在IEEE计算机视觉和模式识别会议论文集中,页码2414-2423,2016年. 30[13] Andreas Geiger,Philip Lenz和Raquel Urtasun.我们准备好自动驾驶了吗?kitti视觉基准套件.在2012年IEEE计算机视觉和模式识别会议上,页码3354-3361.IEEE,2012年. 60[14] Xiaodong Gu,Zhiwen Fan,Siyu Zhu,ZuozhuoDai,Feitong Tan和Ping Tan. 用于高分辨率的级联成本体积.0多视角立体和立体匹配.在IEEE/CVF计算机视觉和模式识别会议论文集中,页码2495-2504,2020年. 70[15] Xiaoyang Guo,Kai Yang,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功