立体匹配网络中的鲁棒性方法及其在真实数据场景中的推广

34 浏览量更新于2023-10-26 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13022ITSA：立体匹配网络WeiQin Chuah*Ruwan Tennakoon* Reza Hoseinnezhad*Alireza Bab-Hadiashar*DavidSuter<$ RMIT University，Australia*Edith Cowan University（ECU），Australia<${wei.qin.chuah，ruwan.tennakoon，rezah，abh}@ rmit.edu.au，d. ecu.edu.au摘要仅在合成数据上训练的最先进的立体匹配网络通常无法推广到更复杂的真实数据域。在本文中，我们试图揭示一个重要的因素，阻碍了网络的一般化跨域：通过捷径学习的镜头我们证明了立体匹配网络中特征表示的学习受到合成数据伪影（快捷属性）的为了缓解这个问题，我们提出了一个信息理论的避免（ITSA）的方法来自动限制快捷方式相关的信息被编码到功能表示。因此，我们提出的方法通过最小化潜在特征对输入变化的敏感性来学习鲁棒和捷径不变特征。为了避免直接输入灵敏度优化的计算成本过高，我们提出了一种有效而可行的算法来实现鲁棒性。我们表明，使用这种方法，纯粹在合成数据上训练的最先进的立体匹配网络可以有效地推广到具有挑战性的和以前看不见的真实数据场景。重要的是，所提出的方法增强了合成训练网络的鲁棒性，使得它们在挑战域外立体数据集时优于其1. 介绍立体匹配是计算机视觉中的基本任务，并且被广泛用于诸如增强现实（AR）、机器人和自动驾驶的各种应用中的深度感测。近年来，端到端训练的卷积神经网络（CNN）已经在该任务中取得了令人印象深刻的结果，如通过几个公开可用的立体匹配基准的性能所量化的[6，16，18，45，52]。通常，端到端立体匹配网络需要大量的标记数据用于训练。克服(a) KITTI-15（b）驾驶立体声（c）牛津（d）米德尔伯里图1.PSMNet [6]在不同设置下和跨多个域进行训练时估计的视差图的比较每列显示了一个现实领域的结果，即：KITTI2015 [26] ， DrivingStereo [47] ， Oxford Robot- car [24] 和Middlebury [35]。图中从上到下分别显示了一个样本图像（I），场景流预测预训练模型（II），KITTI-15微调模型（III），以及ITSA优化方法（IV）。比较这些数字表明，仅在合成数据上训练的PSMNet在真实数据上表现不佳，微调仅改善了KITTI数据集的结果（仍然无法推广到其他场景）。所提出的方法在所有方面都表现良好（最好用彩色显示）。为了应对这一挑战，许多最先进的网络最初是在标记的合成数据上训练的，这些数据通常是使用游戏引擎生成的。然而，使用合成数据训练的模型不能很好地推广到看不见的现实领域。例如，在场景流数据集[25]上预训练的PSMNet [6]在对不可见的真实域进行测试时表现不佳，如图1所示。因此，在实践中，用合成数据训练的网络使用来自相关目标域的标记数据然而，即使在现实世界中收集相对少量的密集地面实况数据，对于立体匹配等任务也可能具有挑战性[22，41]。此外，为了在许多应用中实际有用，立体匹配模型应该能够毫不费力地推广到不同的区域。（三（四（一（二13023−∈如白天和夜晚时间，变化的天气条件等。收集数据进行微调，涵盖所有可能的情况是困难和昂贵的。因此，非常希望消除微调要求。众所周知，神经网络，包括立体匹配网络，可以学习表面的快捷特征（或与目标标签的虚假相关性），这会阻止它们在不同的域中泛化[2，12]。我们发现，在合成数据上训练的立体匹配网络容易利用合成数据中的快捷方式，详细的分析和讨论包括在第二节。四点二。依赖于这些快捷方式提示，而不是期望的语义和结构表示，意味着当快捷方式和标签之间的虚假相关性不存在于新的（看不见的）域中时，这些网络将彻底失败[33]。虽然之前已经提出了几种捷径去除方法[4，17，38]，但这些方法中的大多数都是手动设计的（例如，仔细选择的数据增强[4，17]），并且依赖于可以提前识别捷径的假设。然而，快捷方式可能是非直观的，特定于任务的，并且难以识别[9，27]。我们的目标是在合成数据上训练一个立体匹配网络，它可以推广到现实场景，而不需要微调。为了实现这一点，我们提出了一个信息理论的方法来自动限制快捷相关的信息被编码从输入到特征表示。该方法基于众所周知的信息瓶颈（IB）原理，该原理提出优化以下目标[1，40]：argmaxI（Y，Z;θ）βI（X，Z;θ）（1）θ其中Z是输入X的编码，Y是目标，I是互信息，β[0，1]是控制信息瓶颈大小的超参数。虽然优化IB目标会导致压缩特征表示，但我们的经验实验表明，这些压缩特征既不稳健，也不具有捷径不变性（详细信息见第12节）。3.3.1）。因此，IB优化的网络可能仍然包含捷径，并且在看不见的域中测试时仍然很脆弱。最近引入的鲁棒IB标准[31]通过用统计Fisher信息替换IB中的互信息来鼓励鲁棒和压缩特征鲁棒IB是在学习对对抗性攻击具有鲁棒性的特征的背景下提出的，并且据我们所知，它还没有用于域泛化。在我们的方法中，我们将任务损失（例如平滑L1损失）与Fisher信息相结合，以学习可推广的立体匹配模型。虽然这样的目标在理论上可以工作，但是通过梯度下降对Fisher信息的直接优化需要计算二阶导数，并且因此对于具有高维输入的任务（诸如立体匹配和语义分割）来说是计算昂贵的。为了克服这个缺点，我们提出ITSA，它包括一个新的损失项和扰动技术来近似Fisher信息损失的优化。所提出的ITSA是计算效率高的，并且通过大量的实验表明，它可以促进捷径不变特征的学习。与现有的域不变立体匹配网络[37，53]不同，所提出的ITSA不涉及显著的网络改变并且是模型不可知的。因此，如实验部分所示，它可以很容易地与不同的立体匹配网络集成。实证结果表明，立体匹配网络训练的合成数据，建议ITSA，可以概括为现实的数据，而无需微调。在具有挑战性的域外立体数据集（例如，不同的不利天气和夜景）上的广告实验表明，我们的方法还提高了立体匹配网络的整体鲁棒性，并且重要的是，当在这些具有挑战性的数据集上进行测试时，甚至超过了在现实域上微调的网络本文的主要贡献包括：• 我们表明，学习对输入变化不太敏感的特征表示可以显着增强合成到现实域的泛化能力，以及立体匹配网络的鲁棒性。• 我们引入了一种新的损失函数，使我们能够最小化的Fisher信息，而无需计算二阶导数。• 我们还表明，所提出的框架的应用并不限于立体匹配任务，并可以用于训练模型的非几何基础的视觉问题，如语义分割。本文的其余部分组织如下。秒2.介绍了基于学习的立体匹配网络、领域泛化和捷径学习等方面的相关工作秒3提出了自动避免捷径和领域综合的方法实验结果和讨论在第二节。4、Sec。6、总结论文。2. 相关工作基于学习的立体匹配网络近年来，端到端学习深度立体匹配-13024得双曲余、synING网络在大多数数据集和基准上都表现出色[6，18，45，52]。这些网络通常具有三个子模块：（1）特征提取子网络，（2）成本-体积生成器，以及（3）成本聚合和细化子网络。基于成本体积如何生成，存在两种主要类型的立体匹配网络。基于相关性的立体匹配网络通过将从两个视图中提取的特征进行相关来构建成本体积。先前提出的基于相关性的方法包括DispNetC [25]、iResNet [21]、CRL[30]、Seg- Stereo [48]和AANet [45]。虽然这些方法通常计算效率高，但由于相关操作，特征表示中的语义和结构信息丢失[16]。因此，基于相关的立体匹配方法通常具有比基于级联的方法差基于级联的方法使用成本体积，其是从两个视图提取的特征的简单集合现有技术的基于级联的立体匹配网络的示例包括PSMNet [6]、GANet [52]、GC-Net[18]、StereoDrNet [5]和EMCUA [28]。虽然这些网络可以在立体声匹配中实现卓越的性能如果不进行微调，这些网络就无法推广到看不见的测试数据。为了克服这个问题， Zhanget al. [53] 提出了DSMNet，它采用Domain Normalization和基于非局部图的过滤层来强制学习域不变的结构特征。类似地，Shenet al. [37]介绍了CFNet，一种具有多尺度成本体积融合和细化的高效网络架构，以加强立体匹配的鲁棒结构表示的学习。相比之下，我们已经确定捷径学习[13]是阻碍立体匹配网络跨领域推广的主要因素。在这项工作中，我们表明，避免捷径学习可以有效地提高立体匹配网络的鲁棒性，并使模型能够跨域推广。这一点可以通过在没有微调的情况下显示网络在具有挑战性的现实数据上的卓越性能来证明单域泛化训练以类似的方式，Qiaoet al. [32]提出了一种新的框架，采用ADA和元学习来加强域不变特征的学习。虽然这些工作的重点是最大限度地减少域的差异，我们有兴趣学习强大的和捷径不变的功能，可转移到不同的领域。为此，我们提出了ITSA，这是一种防止捷径学习的信息理论方法（见下一节），特别是在立体匹配网络中。捷径学习Geirhos等人[12]创造了“捷径学习”一词，作为DNN通过依赖表面特征（捷径）学习琐碎解决方案这些特征与目标标签虚假地相关，而不会有助于跨上下文的可转移性。例如，图像分类网络倾向于依赖于背景[2，12]和纹理[14，43]等快捷方式来提高其性能。然而，这些网络未能推广到看不见的领域，在这些领域中，捷径和标签之间的虚假相关性被破坏[33]。同样，我们观察到，在合成数据上训练的立体匹配网络也倾向于利用捷径在合成域中产生准确的深度结果。因此，当在看不见的现实环境中测试时，这些网络会严重失败已经进行了几次尝试来限制识别出的快捷方式的学习，并在域上推广DNN [4，7，17，38，43]。这些方法回复了一些与捷径相关的先验知识，并且通常包括数据扩充[4，17]，白化变换[7]或基于丢弃的正则化[38]作为其解决方案的一部分。然而，捷径是不平凡的，特定于任务的，并且很难被先验地识别[9，27]。相比之下，我们提出的方法自动避免捷径学习，而不需要捷径相关的知识提前。3. 方法3.1. 问题定义在这项工作中，我们专注于立体匹配的合成到现实的给定由立体图像对组成的合成立体数据集Dsyn，域泛化通常涉及强制DNN（一）辛（一）辛河ni=1 与之对应的地面真实数据学习域不变特征，使用从多个源域[20，32]。另一方面，单身parity，y（i），n，其目标是设计一个强大的，i=1领域综合是一个更具挑战性的问题因为只有一个源域可用于训练。为了解决这个问题，Volpiet al.[42]提出了对抗性数据增强（ADA），旨在扩大和多样化训练数据的分布。具体来说，ADA创建了快捷不变的立体匹配网络，可以准确，对于看不见的现实环境D real，速率地预测视差图ym（i）。我们的方法来实现合成到现实的域概括是使用信息理论的措施，自动限制快捷相关的信息被包括在功能表示。得双曲余切值.13025向前反向传播传播SCP快捷摄动···L|输入图像地面实况SCP图2.概述了所提出的捷径避免策略，以实现立体匹配网络中的域泛化。这些参数在两个特征提取器网络fθ之间共享（最佳颜色）。3.2. 模型典型的立体匹配网络可以由以下等式表示y（i）=mCfθ。x（i）θ，fθ.x（i），（2）方法MNIST [19] MNIST-M [10]ERM 97.9± 0.14 40.9± 2.95IB [1]99.0± 0.47 21.8± 0.21肋骨[31] 98.3± 0.13 52.8± 1.04ITSA 98.1±0.3856.9±1.23表1.数字识别网络的性能比较l r通过经验风险最小化（ERM）优化，信息瓶颈（IB）[1]，其鲁棒变体（RIB）[31]和我们提出的其中fθ（）是特征提取子网络，C（）是cost volume和m（）是成本聚合和细化子网络。通过软平均最小化[18]操作将细化的成本量转换为视差图。我们提出的方法（ITSA）可以应用于任何具有上述结构的立体匹配网络。在实验部分，我们展示了将所提出的算法应用于具有级联成本的不同立体匹配网络的结果（我们使用基于相关性的方法观察到类似的结果）卷[6，16，37]。图1显示了包含所提出的捷径回避策略的网络的高级结构二、3.3. 损失函数我们的主要贡献是损失函数设计自动限制快捷相关的信息被编码在学习过程中。如前所述，信息瓶颈（IB）原则[1，40]通常用于压缩特征，并且是实现此目标的自然选择。标准IB损失定义在Eq.（1），它使用互信息来量化信息内容，被设计为提取既简洁又与预测相关的特征。然而，通过这种损失训练的模型对于可以产生捷径的伪影的存在并不鲁棒（类似于[31]中提到的对抗性失真）。为了证明上述观点，我们进行了一个玩具实验。在这个实验中，我们研究了方法（ITSA）。虽然IB在域内测试中表现良好，但在域外测试中表现不佳。（目标）数据集。前者包含黑色背景的手写数字图像，后者是通过将MNIST数字与随机提取的色块组合作为其背景而创建的。所有网络仅在MNIST训练集上训练，并采用前1准确度（%）进行评估。实验的细节如Tab.所示。1、标准IB可以有效地减少过拟合，并在源代码域达到最佳性能。然而，它未能将其性能推广到看不见的领域。重要的是，它甚至比看不见的目标域中的基线网络表现更差。3.3.1鲁棒信息瓶颈与Fisher信息由于我们的目标是开发一个基于IB的成本函数，该函数不受源数据中存在捷径的影响，因此我们从稳健的IB原则中获得灵感[31]。鲁棒IB利用由输入X参数化的前向特征Z的统计Fisher信息Φ（Z X）作为更精确的信息。鲁棒信息度量（代替I（Z，X））。Fisher信息Φ（Z|X）定义为：使用IB损失帮助数字识别网络（DRN）从MNIST（源）[19]推广到MNIST-M [10]Φ（Z|X）=XΦ（Z|X= x）pX（x）dx，（3）∫130262|·|||V·.Σ∥−∥|Ln∥ ∥2∥∇z(i)x∥xLx=x+x¨¨∇L2LLRRz（i）−zxz（i）XEzi=12通过添加一个正则化项，如Φ到52、53]。哪里Φ（Z|X =X）=∫Z¨ xlog p Z|X（z|x）2p Z|X（z|X）dz。（四）分布之间流行的发散度量，如Kullback-Leibler发散，Jensen-Shannon发散，全变差，Wasserstein距离等。在这项工作中，我们选择Wasserstein距离：作为分布术语Φ（Z|X = x）在等式（3，4）可以被认为是潜在分布p Z的灵敏度|X（x），相对于输入x处的变化。因此，优化Fisher信息Φ（Z X）将使潜在分布相对于输入X变化的平均灵敏度最小。由于快捷方式是由本质上是瞬态的数据伪影1生成的，因此它们对输入数据的扰动很敏感[12]。因此，最小化Fisher信息是促进学习捷径的一个步骤p Z|X=x和p Z|X=x+u可能没有公共支撑，这导致了一个更简单的损失函数。在立体匹配网络中常见的确定性特征提取器的情况下，分布p ZX=x和p ZX=x可以被视为两个退化分布（即，狄拉克δ分布）位于点z=f θ（x）和z∈=f θ（x∈）。而且[ ]在Eq.（5）为零。在这种情况下，沃瑟斯坦-p显示-可以简化为：不变特征我们的猜想得到了Tab中玩具实验结果的支持。1.一、 drn系列约束的Fisher信息（RIB）取得了更好的Wp（pZ|X=x，pZ|X=X）=.我的天-z？p？1/p .（六）性能优于目标域中的IB网络。为了最小化在等式中表达的Fisher信息，（4）计算二阶导数使用上述见解，我们可以看到，最小化z<$z2是朝着最小化Φ Z迈出的一步X=x（对于p = 1）。因此，我们建议促进鲁棒学习例如，logPZ|X （z|X），这在计算上是以及立体匹配网络中的捷径不变特征通过优化下面定义的总损失函数对于具有大尺寸输入的任务，如立体匹配、语义分割等[39]。到为了克服这个问题，我们提出了ITSA，一个简单而复杂的，L=L（y=，y）+.LFILFI（7）λ。z，z是零。z，z假定可行的方法来促进捷径不变特征的学习。其中，y和y是估计的差异和地面实况差异地图，FI是我们提出的Fisher信息损失函数定义为：Σ¨ ¨优化Fisher信息Φ。Z|X. 措施de-LsmoothL1是smooth-L1损失函数在Eq。（3）与最小化Φ有关.Z|X=x。用于优化立体匹配网络[6，16，损失函数，我们可以惩罚瞬态特征，阻止网络学习捷径。计算-在这个学期后期，我们采用了一阶近似，下面写的引理3.1. 如果u>0，u是单位向量（即u=1，我们称之为捷径扰动），并且x=x+u，那么，服从一阶近似：3.3.3最短路径扰动为了计算FI，我们需要定义u（参考作为捷径扰动，并在引理3.1中引入）：u=xz（i）其中z（i）是提取的梯度z相对于输入。然后可以将捷径扰动图像表示为：Σ。.Σ2（一）塞兹2.Z-Z|X=x （z）−pZ|X=x（z）（i）（i）（九）+VxlogpZ|X=x（z）2其中，Ez[]和V[]是是u和x p Z之间的夹角|X=X。补充材料中提供了证明。等式的RHS中的第一项。当两个分布之间的发散（距离）p Z|X=x和p Z|X=x+u，则x = x + u。有很多1我们使用瞬态来描述跨域不一致的图像属性，并且与真实标签虚假相关。这些特征可以包括背景、纹理、图像风格等。上述扰动将对像素施加更多权重，对输入的变化很敏感直觉上，具有大的xz绝对值的像素将在改变编码的潜在分布的统计和提取的潜在特征表示方面具有显著的影响。此外，这些像素也可能包括快捷方式，因为快捷方式对输入的扰动高度敏感[12]。为了检验上述近似的准确性，我们用提出的SCP和FI（ITSA）训练了我们的玩具实验员的数字识别网络。由于所提出的方法是专门为领域泛化而设计的，因此我们的方法可以有效地泛化网络2光滑L13.3.2 近似Fisher信息LFI=（八）Z|X= xΦ Z|X= x=2000年2月，（五）¨13027输入PSMNet [6]GwcNet [16]CFNet [37]无垫块（x）1.380.851.00ACJ13.983.131.34灰度（L）37.688.411.32灰度（R）9.822.251.09SCP5.842.902.55图3.立体匹配网络中的快捷方式示例左输入图像和右输入图像被包括在顶部两行中。由基线PSMNet [6]估计的视差图包括在第三行中，ITSA-PSMNet包括在底行中。当快捷方式属性被扭曲或从输入立体图像中删除时，基线PSMNet的性能会大幅恶化相应的EPE显示在估计的视差图上。最好在彩色和放大查看细节。到看不见的域，并实现比强大的信息瓶颈更好的性能（4%），如表1所示1.一、4. 实验4.1. 实验设置数据集和数据流：场景流[25]是具有密集视差地面实况的合成立体图像的大型集合。它包含FlyingThings3D，驾驶和Monkaa子集，并提供35，454个培训和4，370个测试图像。在我们的实验中，所有的立体匹配网络都只在Scene Flow数据集上训练。我们实验中使用的真实数据集包括KITTI2012[11]和KITTI2015[26]包含193和200个室外驾驶场景的立体图像，Middle- bury[35]包含15个高分辨率室内场景图像，ETH 3D[36]包含27个室内和室外场景的低分辨率灰度立体图像。此外，还包括DrivingStereo[47]数据集提供的覆盖不同天气条件的数据集，以及Oxford Robotcar[24所有上述数据集都带有稀疏地面实况。我们使用D1错误率（%）评估视差估计的性能，具有不同的像素阈值。D1度量计算左帧中坏像素（视差端点误差大于阈值）的百分比。根据数据发起人的建议，为KITTI和DrivingStereo选择3像素的阈值，为Middlebury选择2像素，为ETH3D选择1像素。基线实现细节：我们选择了三个流行的和性能最好的立体匹配网络，即PSMNet [6]，GwcNet [16]和CFNet[37]作为表2.数据增强对立体匹配网络性能的影响分析所有网络仅在场景流训练集上进行训练，并采用EPE度量进行评估。结果表明，消除捷径相关的伪影（通过数据增强）对这些网络的性能产生负面特别是，我们提出的增强甚至可以CFNet）。我们实验的基线网络。我们之所以选择这些网络，主要是因为PSMNet和GwcNet经过了充分的研究，并且通常在许多先前的作品中用作基线[44，50，54];CFNet是最近提出的最先进的立体声匹配网络之一。该网络使用Py- Torch框架实现，并使用Adam（β1=0）进行端到端训练。9，β2=0。999）优化器。与所选网络的原始实现类似，我们的数据处理包括颜色归一化和随机裁剪输入图像，大小为H=256和W=512。在CFNet的原始实现之后，CFNet中的数据增强也采用了非对称色度增强和非对称遮挡[46]PSMNet和GwcNet的最大视差设置为192，CFNet的最大视差设置为256。所有模型都是从头开始训练20个epoch，前10个epoch的学习率设置为0.001，然后在另外10个epoch中减少一半。在2个NVIDIA RTX 8000 Quadro GPU上进行训练时，批量大小设置为12。模型仅使用合成数据进行训练，并使用来自不同现实数据集的数据进行直接测试。对于以下部分中包括的所有实验，超参数λ和λ被设定为0。1和0。5的比例。超参数调谐实验详见补充文档。我们实现的代码可以在https://github.com/waychin-weiqin/ITSA上找到4.2. 立体匹配网络我们的假设是，基线立体匹配网络仅在合成数据上进行天真训练，学会利用合成立体图像的常见伪影作为快捷特征。这些伪像包括（1）左和右立体图像之间的一致的局部统计（RGB颜色特征）和（2）对参考立体视点的局部色度特征的过度依赖。为了从经验上验证上述内容，我们使用增强立体输入图像测试了仅用合成数据（即场景流）训练的三个基线网络。增强的立体图像来自场景流1.452.344.9873.997.8364.071.571.651.591.671.711.5113028L−LSCPLFIPSMNetKITTI-2012PSMNetKITTI-2015✗ ✗27.411.729.312.8✓✗8.15.38.65.9✓ ✓5.24.95.85.4表3. PSMNet [6]和GwcNet [16]上的消融结果。SCP是建议的捷径扰动，FI是公式中建议的损失函数。（七）、使用D1度量进行评价。测试集使用以下策略：（1）色度增强（例如，不对称颜色抖动（ACJ）[46]和灰度缩放）和（2）捷径扰动（SCP，在第2节中解释）。3.3.3）。如果一个网络已经学会了利用瞬时属性（与捷径相关），那么扭曲输入空间中的瞬时属性将对其性能产生负面影响。实验结果见表1. 2，表明使用这些增强图像作为输入大大恶化了立体匹配网络的性能。有趣的是，SCP图像还恶化了性能最好的鲁棒立体匹配网络（如CFNet）的性能[37]。节中4.5和4.5，我们表明，我们的方法可以增强CFNet的鲁棒性，并显着提高其性能，在看不见的现实环境和异常情况。定性结果，如图所示3.证明了当立体视点之间的颜色特征一致性被破坏时，基线网络（第三行）的性能显著下降。此外，如图4的第四列3、从参考图像中去除色度特征将导致基线网络中的相比之下，我们提出的方法减少了对捷径特征的利用，并且在不使用这些捷径相关知识的情况下，对不利的数据增强场景显示出更好的鲁棒性（参见图3的最后一行）。（3）第三章。4.3. 消融研究本节介绍了我们对所提出的方法的每个组成部分的效率的研究结果。我们首先只使用建议的捷径扰动增强（SCP）来训练基线网络。接下来，我们用捷径扰动立体声和图像和建议的损失函数LFI方程。（七）、如Tab.所示。3、仅用合成数据训练的基线网络在KITTI数据上测试时表现不佳。当在训练阶段使用捷径扰动（SCP）对输入图像进行增强时，性能得到改善.当使用所提出的方法时，可以看到两个基线网络即，具有所提出的损失函数的SCP。我们在消融研究中没有包括CFNet，因为它是专门设计用于合成到真实域的泛化。表4.使用KITTI，Middlebury和ETH3D训练集进行合成到现实的领域综合评估。所有方法都在Scene Flow数据集上进行训练，并直接在三个真实数据集上进行测试。采用不同阈值的像素错误率：KITTI 3像素，Middlebury 2像素和ETH3D 1像素。4.4. 综合到现实的领域综合评价在选项卡中。4，我们在四个现实数据集上比较了我们的方法与最先进的立体匹配网络[6，15，16，37，49，52，53]的合成到现实域泛化性能所有网络仅在合成场景流训练集上训练。我们发现，所提出的ITSA大大提高了域泛化性能（6。8% 23. 5%）的选定立体网络（PSMNet [6]和GwcNet [16]），在现实数据集中优于最先进的立体匹配网络改进后的网络在KITTI2012 [11] 和 KITTI 2015 [26] 上的表现也优于 DSM-Net[53]数据集，并在Middlebury [35]数据集上实现与CFNet相当的性能此外，我们还证明了ITSA甚至能够进一步增强CFNet的鲁棒性和跨域性能[37]，CFNet是2020年Robust Vision Challenge中表现最好的立体匹配网络。微调CFNet（CFNet RVC）的结果也包含在表1中。4来显示CFNet的上限性能。基线和ITSA的定性结果比较包括在图中。4.第一章4.5. 对异常场景在这里，我们分析的鲁棒性异常条件下的网络训练的合成数据与建议的ITSA。异常条件包括夜间、多雾和多雨天气条件。在这个比较中，我们对同一个网络进行了两次训练：（1）使用合成数据进行预训练，然后在现实的KITTI 2015数据集上进行微调（常见策略），（2）使用建议的SCP和FI（ITSA）仅使用合成数据进行训练。我们还包括CFNet [37]的预训练对应部分，以说明我们的方法在进一步增强网络鲁棒性方面的有效性。在选项卡中。5，我们表明，微调（FT）网络生成-方法KITTI20122015米德尔伯里半个季度ETH3DHD3 [49]23.626.550.3 37.920.354.2PSMNet [6]27.429.360.4 29.119.616.1GwcNet [16]11.712.845.5 18.110.99.0[第15话]11.811.940.6--7.8GANet [52]10.111.732.2 20.311.214.1MS-PSMNet [3]14.07.8- 十九点八-16.8DSMNet [53]6.26.521.8 13.88.16.2MS-GCNet [3]5.56.2- 十八点五-8.8CFNet [37]4.75.828.2 13.59.45.8ITSA-PSMNet5.25.828.4 12.79.69.8ITSA-GwcNet4.95.426.8 11.49.37.1ITSA-CFNet4.24.720.7 10.48.55.1CFNet RVC [37]（1.6）（2.0）（16.1）（10.1）-（3.7）13029→[29]第二十九话ISW [7]DRPC [51]ITSA22.177.47↑28.957.63↑32.454.97↑28.716.65↑29.1736.5837.4235.36(a) 输入（b）PSMNet [6](c)（d）CFNet [37]图4. KITTI 2015立体声数据的定性结果。对于每个示例，基线网络的结果显示在顶行，我们的方法的结果包含在底行。相应的左图像和地面实况包括在列（a）中。即使在光照条件较差的情况下，我们的方法也可以显着提高立体匹配性能。最好在彩色和放大查看细节。模型FTITSA孙云雨雾晚上AvgPSMNet [6]✓✗✗✓3.944.782.823.2411.519.436.506.3116.668.568.286.46GwcNet [16]✓✗✗✓3.104.352.463.3112.349.785.985.8825.339.419.846.55CFNet [37]✗✓✗✗✗✓4.891.793.424.641.652.8710.745.205.325.431.594.3216.1911.568.958.384.364.98表5.异常场景下的稳健性评估。我们的方法（ITSA）始终增强了选定的立体匹配网络的鲁棒性，并优于微调（FT）模型在现实世界中的异常情况下，包括雨雾天气和夜间。使用D1度量评估性能。在类似于KITTI训练数据（晴天和多云）的数据上测试时，通常具有更好的性能相比之下，我们的方法（ITSA）可以大大提高PSMNet [6]和Gwc-Net [16]的鲁棒性和整体性能，而无需使用真实世界的数据。经过微调的CFNet的整体性能略好于ITSA。然而，如前所述，当仅使用合成数据进行训练时，所提出的ITSA提高了CFNet的性能结果表明，该方法可以有效地提高现有立体匹配网络的鲁棒性和性能，并将其扩展到实际应用中，而无需使用真实数据进行微调。4.6. 语义分割与立体匹配网络类似，在合成数据上训练的语义分割网络也无法生成现实数据[32，51]。在这里，我们表明，所提出的ITSA可以很容易地扩展到语义分割任务，以促进学习的捷径不变的功能和增强域的泛化。我们选择了常用的FCN [23]与ResNet-50配对作为基线网络。该网络仅在合成GTAV [34]数据集上进行训练，并在真实的Cityscapes [8]数据集上进行评估。平均交点表6.语义分割任务上的合成到现实领域泛化所有网络仅在GTAV [34]合成数据集上进行训练，并在Cityscapes [8]验证集（G C）上进行评估采用平均交并（mIoU）度量进行评估。联合（mIoU）度量用于性能评估。如Tab.所示。6，所提出的方法（ITSA）还可以提高语义分割网络的合成到现实的领域泛化性能，并实现与现有领域泛化方法（IBN-Net [29]，ISW [7]和DRPC [51]）相当的性能。这进一步证明了我们所提出的方法在促进捷径不变特征和提高领域泛化性能方面的有效性。我们的方法的实施细节和定性结果包括在补充文件中。5. 限制虽然所提出的方法可以在没有微调的情况下显著地这反映在Tab中报告的大错误中。五、通过查看具有较大误差的样本，我们注意到这些不准确性主要是由于光源不足，镜头眩光/耀斑和镜面反射（潮湿地面）。6. 结论在这项工作中，我们提出了ITSA：一种新的信息理论为基础的立体匹配网络的域泛化方法。为了解决捷径学习的挑战，我们建议最大限度地减少所提取的特征表示输入扰动的敏感性，通过Fisher信息测量。我们进一步提出了一个有效的算法来优化Fisher信息目标。实验结果表明，该方法能有效地提高立体匹配网络的鲁棒性和快捷不变特征学习能力，显著提高了现有立体匹配网络的跨域泛化性能，在复杂场景下的泛化性能甚至超过了微调后的网络我们还表明，所提出的方法可以很容易地扩展为非基于几何的视觉问题，如语义分割。致谢 D. 苏特承认澳大利亚研究理事会拨款DP200103448下的资金。13030引用[1] 亚历克斯·阿莱米伊恩·费舍尔乔什·狄龙和凯文·墨菲深层次的变信息瓶颈。在ICLR，2017。二、四[2] 莎拉·比瑞格兰特·范·霍恩和皮特罗·佩罗纳在未知领域的认知。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年9月。二、三[3] 蔡长江，马特奥·波吉，斯特凡诺·马托西亚，菲利普·莫多海。用于跨域推广的匹配空间立体网络。在2020年国际3D视觉会议（3DV），第364-373页，2020年。7[4] 法比奥·M·卡卢奇、安东尼奥·德诺森特、西尔维亚·布奇、巴尔巴拉·卡普托和塔蒂亚娜·托马西。解决拼图游戏的领域泛化。在IEEE计算机视觉和模式识别会议集，第2229-2238页二、三[5] Rohan Chabra ， Julian Straub ， Christopher Sweeney ，Richard Newcombe，and Henry Fuchs.Stereodrnet：扩张的残留立体网。在IEEE计算机视觉和模式识别会议论文集，第11786-11795页，2019年。3[6] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410- 5418页，2018年。一、三、四、五、六、七、八[7] Sungha Choi，Sanghun Jung，Huiwon Yun，Joanne TKim，Seungryong Kim，and Jaegul Choo. Robustnet：Improvingdomaingeneralizationinurban-scenesegmentation via instance selective whitening.在IEEE/CVF计算机视觉和模式识别会议论文集，第11580-11590页三、八[8] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。 IEEE计算机视觉与模式识别会议（CVPR），2016年。8[9] Nikolay Dagaev，Brett D Roads，Xiaoliang Luo，DanielN Barry，Kaujiah R Patil，and Bradley C Love.一个好得令人难以置信的前提，以减少捷径依赖。arXiv预印本arXiv：2102.06406，2021。二、三[10] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志，17（1）：2096-2030，2016。4[11] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议中，2012年。六、七[12] RobertGeirhos，J？rn-HenrikJacobsen，ClaudioMichaelis ， Richard Zemel ， Wieland Brendel ，Matthias Bethge，and Fe- lix A Wichmann.深度神经网络中的快捷学习arXiv预印本arXiv：2004.07780，2020。二三五[13] RobertGeirhos，Joürn-HenrikJacobsen，ClaudioMichaelis ， Richard Zemel ， Wieland Brendel ，Matthias Bethge，and Fe-lix A Wichmann。深度神经网络中的快捷学习。Nature Machine Intelligence，2（11）：665-673，2020。3[14] Robert Geirhos，Patricia Rubisch，Claudio Michaelis，Matthias Bethge ， Felix A Wichmann ， and WielandBrendel. imagenet训练的cnn偏向于纹理;增加形

下载后可阅读完整内容，剩余1页未读，立即下载