立体声合成：域平移与立体匹配的挑战与解决

159 浏览量更新于2023-10-20 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1StereoGAN：弥合合成域与实域之间的鸿沟通过域平移和立体匹配的刘瑞1杨成喜2孙文秀2王晓刚1李洪生11香港中文大学-商汤科技联合实验室2商汤科技研究ruiliu@link.cuhk.edu.hk{yangchengxi，sunwenxiu} @ sensetime.com{xgwang，hsli}@ ee.cuhk.edu.hk摘要大规模的合成数据集有利于立体匹配，但通常会引入已知的域偏差。虽然以CycleGAN为代表的无监督图像到图像的翻译网络在处理域间隙方面表现出很大的潜力，但由于翻译后的像素失真和立体匹配问题，将该方法推广到立体匹配在本文中，我们提出了一个端到端的训练框架，域翻译和立体匹配网络来应对这一挑战。首先，在我们的端到端框架中，域翻译和立体匹配网络之间的联合优化使前者最大限度地促进后者。其次，该框架引入了两种新的损耗，即，双向多尺度特征重投影损失和投影一致性损失，以帮助将所有合成立体图像转换为真实图像以及保持对极约束。这两种方法的有效结合，使得立体声一致性翻译和视差估计精度得到了显著提高。此外，增加了模式搜索正则化项，以赋予合成到真实的翻译结果更高的细粒度多样性。实验结果表明，该框架能够有效地弥补立体匹配中合成域与真实域之间的差距。1. 介绍随着深度神经网络[23，12]和大规模基准测试[31，13，7]的快速发展，基于深度学习的立体匹配方法在过去十年中取得了很大进展[29，19]。然而，这些方法依赖于大量高质量的左右视差训练数据。虽然立体匹配网络的输入图像（即，左图像和右图像）在现实世界中使用立体装备相对容易收集，它们对应的地面实况差异非常困难。左图像右图像图1.域翻译结果。顶行：来自合成域的立体图像中间一行：CycleGAN的合成到真实的转换结果。底行：我们提出的模型的合成到真实的转换结果收藏收藏相反，研究人员倾向于创建具有完美差异的合成训练数据集[29，31，13]。通过这种方式，减轻了对大量训练数据的需求。然而，当推广到实域时，必须考虑合成域和实域之间不可忽略的域间隙。为了减轻域差距，一些以前的工作[1，40]在两个阶段训练他们的模型首先，该模型在合成数据集上进行训练，然后以监督[30，1，11]或无监督方式[38，39]在特定的真实数据集上进行微调。在本文中，我们专注于后者，一个更具有挑战性的任务，没有真实的目标域数据的地面真相。现有的无监督在线适应方法推进了研究进展，然而，在处理源域和目标域之间的域间隙方面仍然存在困难[38，39]。此外，这些方法引入额外的12757提出CycleGAN合成12758与前馈神经网络相比，它们的计算量很小，尽管它们已经努力降低更新网络参数的计算复杂性[40]。最近，无监督图像到图像转换模型取得了巨大成功[47，25，24]，因此被采用在域自适应方法中，以解决许多应用，例如语义分割，人员重新识别和对象检测[15，41，32，3]。然而，将这一系列方法推广到立体匹配是不平凡的图1的中间行揭示了立体匹配中的平移的两个主要挑战。1)一般的图像到图像转换没有考虑极线约束，这导致不一致的纹理，从而导致视差的模糊性，如红色圆圈所强调2)它只试图转移域样式，而忽略了它的目的应该是服务于立体匹配网络的事实。例如，由于我们的合成图像的大多数背景是棕色山脉，而训练集中的真实图像的背景是蓝天，因此vanil- la CycleGAN [47]将其视为域风格，并试图从棕色山脉转换为蓝天，如图1的前两行所示。这会让立体匹配网络感到困惑，因为天空中用于立体匹配的有用纹理肯定比山上的少得多在本文中，我们成功地解决了这两个挑战，通过适当设计的立体声约束和联合训练计划。中间图像平移结果在图1的底行中示出。特别是，我们提出了一个端到端的深度学习框架，由域转换和立体匹配网络组成，以估计目标域上的立体视差，仅使用具有地面真实视差的源域合成立体图像对和没有任何注释的目标域立体图像的平移受到一种新的双向多尺度特征重投影损失和相关一致性损失的约束前一种方法通过多尺度特征重投影模块实现。对于域转换网络的每一层的特征图，根据给定视差的右特征图的逆扭曲[17]应该与其对应的左特征图一样接近合成数据的地面真实差异和真实数据的估计差异都有助于以双向方式进行联合训练。我们还引入了相关一致性损失，以确保重建的立体图像应保持一致的相关特征图，这是从立体匹配网络中提取的，与那些原始图像。此外，我们观察到，由于不同的相机配置和设置，真实的立体声对通常为此，受使用噪声来操纵图像的成功应用的启发[18，28]，我们提出了一个模式寻求正则化项以确保图2.模搜索正则项的影响最左边的图像来自合成域，中间的图像和最右边的图像是由最左边的图像用不同的随机映射变换而来的。红色圆圈强调中间图像和最右侧图像之间的细粒度差异。请放大以观察更多细节。合成到真实转换中的细粒度多样性，如图2所示。正如我们可以观察到的，如红色圈出的，左图像和右图像之间的局部强度变化，这模拟了真实数据。在这种增强下，域平移使得实域中的立体匹配更加鲁棒和有效。我们的贡献概括如下：• 我们第一次将无监督域翻译与视差估计结合在端到端框架中，以解决具有挑战性的立体声在没有真实地面实况的情况下进行匹配。• 我们提出了新的立体约束，包括双向多尺度特征重投影损失和相关性一致性损失，这更好地规则化了该联合框架以实现立体一致的翻译和精确的立体匹配。额外的模式寻求正则化赋予合成到真实的翻译更高的细粒度的多样性。• 大量的实验表明，我们提出的模型优于国家的最先进的无监督自适应立体匹配方法。2. 相关工作立体匹配通常遵循四步流水线，包括匹配成本计算、成本聚集、视差优化和后处理[33]。通常采用局部描述符如绝对差（AD）、平方差和（SAD）等来度量左右不一致性，从而计算所有可能视差的匹配代价。成本聚合和差异优化通常被视为2D图划分问题，可以通过图切割[22]或置信度传播[37，21]进行优化。半全局匹配（SGM）[14]用动态规划近似全局优化。由于深度神经网络的兴起[23，12]和最近的大规模基准测试[8，7]，基于深度学习的立体匹配方法取得了很大的进展。12759i=1LRLRj=1十年其中，Zbontar和LeCun [45]首次提出了立体匹配代价的计算，是由一个深暹罗网络。Luo等人[27]通过关联一元特征加速了匹配成本的计算最近，许多端到端神经网络被开发用于直接从立体图像对预测整个视差图[29，30，34，43，19，1，44，11]。其中，DispNet [29]是首次使用端到端深度学习框架直接回归视差图的先驱工作。后续工作GCNet [19]引入了3D卷积网络来聚合上下文信息，以获得更好的成本量。领域自适应方法在填补合成领域与真实领域之间的空白方面显示出巨大的潜力。以前的工作试图解决这个问题，学习域不变表示[4，5]或推动两个域分布接近[9，42，35，36]。例如，源域和目标域之间的间隙可以通过匹配深度特征的分布[10，26]或统计量[35，36]来填充。框架，其目的是将合成风格的立体图像转换成具有新颖立体约束的现实图像，从而以端到端的方式更好地与立体匹配网络合作，如图3所示。3.1. 立体匹配循环一致性域转换丢失。为了帮助合成到真实的转换网络Gx2y捕获真实数据集的全局域风格，我们采用了一个真实域转换网络G x2 y，其目标是区分合成到真实的生成图像和真实域图像。相反，Gx2y学习生成看起来与实域图像相似的图像，以欺骗实域图像。这两个子网构成了一个极大极小博弈，以对抗的方式进行优化，并在Dy无法判断是否生成图像时达到最优。合成到真实发电的最近，无监督的图像到图像翻译模型-Ladv（Gx2y，Dy，X，Y）=Ey{Y，YR}[logDy（y）]（一）ELS在非配对设置下取得了巨大成功[47，25，[24]因此被应用为域适应方法，+Ex{X、XR}[log（1−Dy（Gx2y（x））]，许多应用，包括语义分割，人员重新识别和对象检测[15，41，32，3]。在立体匹配领域，无监督的在线自适应技术取得了很大的进展。这些方法首先在合成数据上训练视差估计网络，然后使用无监督损失（例如，当连续访问来自其他域的新立体对时的重新投影损失）在线微调视差估计网络[38，40]。这种无监督适应策略然后被纳入元学习框架[39]。3. 方法给定一组N个合成左右视差图，其中，y={YL，YR}表示从非配对实域集合{YL，YR}采样单个实图像y。我们还介绍了一个类似的对抗性损失苏-贯穿真实到合成的生成过程，Ladv（Gy2x，Dx，Y，X）.对抗损失只能监督Gx2y和Gy2x以产生不能被域鉴别器区分的图像，但是输出的任何随机排列可以在没有任何其他约束的情况下发生。为了使Gx2y和Gy2x正则化为一一映射，还采用了圈一致性损失，L循环（Gx2y，Gy 2x）普莱斯在源域X中的{（xl，xr，xd）i}N，其中=Ey{Y，Y}[客户端][<$Gx2y（Gy2x（y））−y <$1]（二）（xl，xr，xd）∈（XL，XR，XD）=X，以及目标域Y中的M个真实立体图像的集合{（yl，yr）}M，其中+Ex{X，X}<$G y2x（G x2y（x））−x<$1 .任何地面真实差异，其中（yl，yr）∈（YL，YR），我们的目标是学习准确的视差估计网络F为了估计目标上的视差y_d=F（yl，yr）综上所述，循环一致性域翻译损失CycleGAN [47]可以定义为域为了清晰的表述，我们定义了一个配对集，（XL，XR）={（x l1，x r1），（x l2，xr2），.，（x lN，x rN）}，其中Lcdt（Gx2y，Gy2x，Dx，Dy）=Ladv（Gx2y，Dy，X，Y）+Ladv（G y2x，Dx，Y，X）+ λ cycLcyc（Gx2y，G y2x）.（三）（xli，xri）代表配对的立体图像，即左IM-年龄 xli 和其相应的右图像 xri （见 E-qs.（ 4-7））。我们还定义了一个不成对的集合{XL，XR}={xl1，xr1，xl2，xr2，...，x lN，x rN}这里我们只能将单个左或右图像合并（参见等式（1-2））。与以前直接用合成数据训练立体匹配网络F的工作不同[29，19，40]，我们提出了一种联合域平移和立体匹配的方法。立体匹配损失。既然我们的目标是学习地图-从实域立体图像ping到视差图，仅注释的合成立体图像和未标记的真实图像，直接利用合成到真实转换的结果。给定一个成对的合成元组（ xl， xr， xd），我们证明了平移后的立体对（ Gx2y（xl），Gx2y（xr））可以看作是实域图像，并且这种平移后的立体对应该匹配LL12760领域翻译立体匹配ℒ鎚G-1000ℒ鳥ℒ鳥ℒ頂追追G 2真空泵ℒ槻房立体声Real2SynStereoSyn2Real立体声合成立体声特征重新投影预测实际差异预测的同步差特征重新投影地面实况视差ℒ掴输入数据中间/输出数据测试阶段培训阶段立体匹配网络领域翻译网络鉴别器图3.我们提出的方法的联合框架。蓝色背景块显示了我们的域转换组件，橙色背景块显示了我们的立体匹配组件。不同的块、线和网被标记在该图的最右边。F表示立体匹配网络。注意，由于空间有限，我们忽略了循环一致性损失。其地面真实差异xd。因此，我们将立体匹配损失公式化为：[客户端]可以是用于合成立体的地面实况（ground-truth）图像，也可以是用于真实立体的估计图像，其分别计算用于合成或真实立体图像的的Lsm（F）=E（xl，xr，xd）<$X<$F（Gx2y（xl），Gx2y（xr））−xd<$1，（四）前者赋予域平移网络强的极线约束，而后者提供额外的监督。其中F（·，·）是用于估计的立体匹配网络。从实域立体图像的差异。这两个损失构成了一个简单的框架，优化立体匹配网络的辅助下，主翻译网络。然而，它可能在平移期间引入像素失真和立体不匹配的问题。3.2. 联合域平移和立体匹配为了解决上述问题，我们需要保证域转换网络只传递全局域风格，同时保持极线一致性，这有助于提高立体匹配的性能。为了实现这一点，我们提出了一个联合优化方案，用于训练立体匹配网络。合成图像的特征重投影损失。我们认为，用于生成域转换的左图像和右图像的中间特征图在3D物理位置处应该相同。为了对该约束进行建模，我们利用合成地面实况视差来沿着合成-真实-合成循环平移来扭曲Gx2y和Gy2x两者如果立体图像对被很好地翻译，则反向扭曲的右特征映射应该与左特征精确地匹配。合成图像的特征重投影损失被公式化为Lfx（Gx2y，Gy 2x）1∑T1[？=E<$W（G（i）（x），x）−G（i）（x）<$新的跨域变换和立体匹配约束（xl，xr，xd）XT¨（i）¨1i=1x2年研发（一）x2yl？1]¨在深入研究新的约束之前，我们将首先介绍我们新提出的多尺度特征重新定义。+<$W（Gy2x（Gx2y（xr）），xd）−Gy2x（Gx2y（xl））<$1、（五）投影模块，其通过左右一致性检查在域平移组件和立体匹配组件之间建立双向连接，如图4所示。对于域转换网络的每个中间层，反向扭曲的右特征图应当与其对应的左特征图相同。使用可微分双线性采样技术[17]，利用适当下采样的视差图来完成该逆扭曲操作。注意，给定的差异可以其中，T1是平移网络的总层数，G（i）（x）表示图像x在平移网络G的第i层处的特征，逆扭曲函数W（G（i）（xr），xd）利用地面实况视差xd来扭曲右特征图G（i）（xr）。真实图像的特征重投影损失。对于DispNet [29]等通用立体匹配网络，它自然输出多尺度视差，这些视差可以由不同神经网络层的相关特征12761R勒¨lR¨用来沿着实循环-合成循环-实循环平移来监督Gy2x和Gx2y为了便于表示，我们用y′=Gx2y（Gy2x（y））这样的循环平移来表示重建的实像. 给定一对真实的立体像（ yl， yr），我们可以得到它们的重建像对（y′，y′）。本文讨论了（y′，y′）的相关特征，L Rl R多尺度特征映射图4.特征重投影模块的详细结构。这立体匹配网络的每一层都应该匹配那些（yl，yr）。此外，我们还构造了一个交叉对来构造一个更紧密的损失，该损失是通过将（y′，yr）和（yl，y′）的相关特征推到接近图中显示了特征重投影的计算过程合成数据与地面实况差异的损失注意立体匹配网络通常输出多尺度视差，因此在处理真实数据时，我们去除了下采样函数。（yl，yr）. 因此，我们将这个约束公式化为实数-域图像之间的相关性一致性损失多层关联特征：这些多尺度视差图可以用于沿着图1中所示的方向扭曲Gx2y和Gy2x两者的中间特征图。Lcorr（Gx2y，Gy2x）1∑T2[实-合成-实循环转换。那么L1距离=E<$F（i）（y′，y）−F（i）（y，y）<$在左特征和反向扭曲的右特征之间，（yl，yr）（YL，YR）T¨¨lR2i=1？Lrú1Ture为更新视差估计网络F的参数提供了额外的监督。这种损失可能是¨+-F¨（一）（yl，y′）−F（一）（y，y）<$[1]配制为Lfy（F）+<$F（i）（y′，y′）−F（i）（yl，yr）“，1（七）1∑T1[<$其中T2是相关聚合层的总数在单个图像特征编码之后的=E<$W（G（i）（y），y<$）−G（i）（y）<$（yl，yr）（YL，YR）T¨（i）¨1i=1y2xR（一）dy2x]¨l-1层，F（i）（yl，yr）表示相关聚合在立体声的第i层处的立体声对（yl，yr）的特征+<$W（Gx2y（Gy2x（yr）），y<$d）−Gx2y（Gy2x（yl））<$，1（六）匹配网络F.模式寻求损失。上述损失可能主要是-其中，是真实立体图像对的估计视差F（yl，yr）。与以前直接在原始尺度上扭曲图像的工作不同[6，46]，我们的扭曲操作基于多尺度特征图。由于不同层次的特征代表了不同尺度的图像结构，该约束有助于从多个尺度（从全局到局部）监督立体匹配网络的训练，从而显著提高了立体匹配估计的精度。此外，它为像素级的细粒度噪声建模留出了一些空间（见图2），这将在本节稍后描述的模式搜索正则化项中引入相关性一致性损失。特征重投影损失可能还不能完全解决立体不匹配问题由于对于实域立体图像不存在地面实况视差举例来说，某个左右视差元组的Lfy的值可为0，但它仍然对立体匹配的效果有限，即使保持域转换图像的立体一致性然而，在实践中，由于传感器噪声、不同的相机配置等，立体图像还示出左图像和右图像之间的轻微变化。为了对这种左右图像变化进行建模，我们提出了一个模式搜索正则化项[28]，以使生成器在生成的左右图像之间创建小但真实的变化，如图2所示。将高斯随机映射z引入到合成到真实的平移网络Gx2y（x，z）中，以对所生成的图像的变化进行建模。当训练域翻译网络时，我们试图最大化L1距离，从具有两个不同随机映射z1和z2的相同原始图像x生成的两个输出，其中p（z）表示具有零均值和单位方差的先验高斯分布。由于这项没有最佳点，我们在训练过程中将其权重线性衰减为零。这种损失是配制为会产生负面影响这是因为域平移期间的像素失真和立体匹配期间的不准确估计的现象同时发生。Lms（Gx2y）[=Ex<${X，X }，z1，z2<$p（z）B.G.z1−z2（x，z）−G].（x，z）为了减少这种影响，立体匹配网络是使用，x2y1X2y21（八特征重新投影DD功能重新-投影损失视差图1W1W1WD下采样W翘曲左侧特征右特征LR12762）12763数据集方法D1-所有（%）EPE>2px（%）>4px（%）>5px（%）时间（s）NOC所有NOC所有NOC所有NOC所有NOC所有推理10个。7511个国家。141 .一、8171 .一、96120块5220块868. 408. 85五、68六、060的情况。06Synthia[40]第四十话10个。0210个。581 .一、5961 .一、72419号。8620块167 .第一次会议。988. 42五、53五、820的情况。19到L2A+Wad [39]9 .第九条。8810个。481 .一、5691 .一、697十七岁32十七岁70六、787 .第一次会议。12五、01五、540的情况。23KITTI2015CycleGAN10个。2010个。691 .一、6531 .一、890十七岁83十八岁15六、837 .第一次会议。39五、10五、650的情况。06提出8.789.261.4881.63115.7416.095.736.174.555.080的情况。06推理52岁65五十三079 .第九条。3519 .第九条。51363岁95六十四30四十五07四十五5239岁3339岁790的情况。06驱动[40]第四十话39岁1639岁494.第一章6984.第一章775五十三33五十三61三十22三十56二十四岁18二十四岁520的情况。19到L2A+Wad [39]二十六岁33二十六岁90二、8783 .第三章。017四十5941岁57十七岁31十八岁0112个。55十三岁270的情况。23KITTI2015CycleGAN31岁2331岁743 .第三章。2723 .第三章。44444.34四十五2919号。7620块34十五岁08十五岁680的情况。06提出25.1825.712.5842.75239.1640.2415.8316.5511.0411.600的情况。06表1.在Synthia-to-KITTI 2015和Driving-to-KITTI 2015上，将所提出的方法与不同方法进行了比较。更低的价值意味着更好的性能。3.3. 完整目标和优化把上面介绍的所有损失放入一个总体目标函数中，我们得到L（F，Gx2y，Gy2x，Dx，Dy）=Lcdt（Gx2y，Gy2x，Dx，Dy）+λsmLsm（F）（九）+λfxLfx（Gx2y，Gy2x）+λfyLfy（F）+λcorrLcorr（Gx2y，Gy 2x）+λmsLms（Gx2y），其中λs，s∈ {sm，fx，fy，corr，ms}衡量不同目标之间我们将在第4节中通过消融讨论每个目标的有效性study.我们的最终目标是解决以下优化问题：12764maxminL（F，G x2y，G y2x，Dx，Dy）.Dx，DyF，Gx2y，Gy 2x4. 实验4.1. 实施细节网络和培训。我们采用CycleGAN [47]中的生成器和判别器网络的架构，并使用补丁搜索[16]，并将DispNet[29]作为我们的立体匹配网络。我们在Pytorch上实现了这个方法。为了训练我们提出的联合域平移和立体匹配框架，我们将训练分为两个阶段。在热身阶段，我们首先训练使用Adam优化器[20]，动量β1=0，仅具有10个epoch的L cdt和L fx的域平移网络。5，β2=0。999，学习率α=0。0002.然后，我们使用动量β 1 = 0的Adam优化器，仅用L sm训练立体匹配网络50个epoch。9，β2=0。999，学习率α = 0。0001 在第二阶段，我们以端到端的方式一起训练这两个组件，并保持超参数不变。我们交替优化域翻译网和全物镜立体匹配网我们经验地设置折衷因子为λ cyc=10，λ sm=1，λ fx=5，λ fy=5，λ corr=1和λ ms=0。1 .一、数据集。我们用三个数据集来验证我们提出的方法的有效性。其中两个是合成的最后一个是真实的数据集。第一个是驾驶，这是一个大型合成数据集Sceneflow的子集[29]，它描述了虚拟世界的汽车驾驶场景。它包含快速序列和慢速序列，既有向前行驶的场景，也有向后行驶的场景，图像总数达4400幅。此数据集中的图像大小为540×960，视差值范围为0-300。的第二个是Synthia-SF [31]，它包含6个序列，具有不同的场景和业务条件。有2，224张图像和相关的地面真实视差图。图像大小为1080×1920，其视差范围与Driving数据集相似最后一个真实的数据集是KIT-TI2015 [7]，包含在真实场景中收集的200张训练图像它的图像大小约为385×1242，显示范围从0到180左右。由于Synthia-SF和KITTI 2015之间的对象大小不一致，我们重新-将Synthia-SF中的所有图像的大小设置为一半，并将相应的视差值除以2。评估指标。我们证明了我们的有效性建议的方法通过以下评估指标。结束-点误差（EPE）是像素中的平均视差误差D1-all表示绝对视差误差大于3个像素或地面实况视差值的5%的像素的百分比。报告大于2、4、5的错误像素的数目所有这些评估度量都是针对非遮挡（Noc）和所有（All）像素计算的。同时记录了在单个TITAN-X GPU上的推理时间。4.2. 与其他方法我们首先研究所提出的方法是否优于其他相关方法，其结果总结在表1中。我们取两个合成数据-合成-（十）12765数据集消融目的D1-所有（%）EPE>2px（%）>4px（%）>5px（%）NOC所有NOC所有NOC所有NOC所有NOC所有无L校正8. 959 .第九条。451 .一、5321 .一、675十六岁00十六岁36五、88六、324.第一章65五、20Synthia不带Lfx9 .第九条。4610个。021 .一、5701 .一、706十六岁89十七岁13六、34六、794.第一章98五、43到不含Lfy9 .第九条。329 .第九条。891 .一、5521 .一、690十六岁73十六岁95六、20六、624.第一章84五、31KITTI2015不含Lms9 .第九条。049 .第九条。531 .一、5381 .一、668十六岁13十六岁48五、94六、434.第一章72五、26完整对象8.789.261.4881.63115.7416.095.736.174.555.08无L校正二十五64二十六岁16二、633二、80439岁88四十96十六岁46十七岁1211个国家。5712个。11驱动不带Lfx二十六岁38二十六岁95二、8833 .第三章。029四十6141岁64十七岁28十七岁9612个。64十三岁28到不含Lfy二十六岁22二十六岁79二、843二、998四十4241岁28十七岁06十七岁8512个。0912个。66KITTI2015不含Lms二十五45二十五98二、601二、78239岁76四十85十六岁30十六岁9511个国家。3411个国家。93完整对象25.1825.712.5842.75239.1640.2415.8316.5511.0411.60表2.通过消融研究对不同目标的所提出方法的评价结果更低的价值意味着更好的性能。thia和Driving作为我们的源域数据集，一个真实的数据集-KITTI 2015作为我们的目标域数据集。一种不需要域变换的方法，称为推理，是在合成数据上训练立体匹配网络，然后直接在真实数据上预测视差图。两个国家的最先进的无监督适应方法的立体匹配进行了比较。特别地，我们使用S-L +Ad表示[40]中描述的无监督在线自适应方法，并使用L2 A +Wad表示[39]中描述的通过Meta学习框架的无监督自适应。此外，由于没有开发立体声匹配特定的域自适应技术，我们选择CycleGAN [47]作为比较的基线为了公平比较，我们将所有方法的立体匹配网络设置为DispNet [29]。从表1中可以看出，所有方法在Synthia-to-KITTI2015 上的表现都优于 Driving-to-KITTI 2015 ，因为Driving和KITTI 2015之间存在较大的差距。在这些方法中，由于合成域和实域之间存在着天然的鸿沟，使得推理效果最差. SL+Ad通过计算在访问新的立体图像时反向变形的左图像与真实左图像之间的误差来o图像。L2A+Wad提出了一种新的权重置信度引导自适应技术，并以元学习的方式更新网络。这两种方法在一定程度上缓解了域间的间隙，但同时也给推理过程带来了额外的计算负担。它们的推理时间从0. 06秒0. 19比0 分别是23秒。CycleGAN的翻译结果存在像素失真的问题，如第1节所述，因此它的表现不够好。本文提出的联合- t域平移和立体匹配框架，具有新颖的立体约束，通过大大减少错误像素的数量，击败了所有上述方法。所有评价指标的显着改进证明了我们的方法的优越性。此外，该方法的推理时间与原DispNet方法相同12766因为所有额外的域转换和辅助训练都是在离线训练过程中完成的。4.3. 消融研究然后，我们研究了如何每个客观条件的影响无监督立体匹配的性能定量消融研究。除了循环域平移损失和立体匹配损失外，我们还提出了四个新的目标来正则化基本问题公式，包括真实立体和合成立体的相关一致性损失，模式搜索损失，特征重投影损失。我们将通过移除其中一个来训练我们的联合框架，然后记录对应的D1-all、EPE和具有阈值2、4和5的坏像素百分比，如表2中总结的。对Synthia和Driving source数据集的消融研究结果显示出相似的趋势。一般来说，合成立体声和真实立体声的特征重投影损失比相关一致性损失和模式搜索损失更有效。我们试着从以下几个方面来分析原因。首先，在所有四个提出的目标中，合成立体Lfx的特征重投影损失在我们的联合框架上是最有效的。原因如下：1）确保翻译输出与输入立体一致，放置，这对于存在大量精确视差的立体匹配损失至关重要;（2）通过学习好的平移网络，有利于在特征重投影损失的情况下训练立体匹配网络。对于真实立体Lfy，特征重投影损失的影响是次要的，因为它实际上为训练立体匹配网络提供了额外的训练信号。然而，这样的监督信号是从域转换网络中的特征的扭曲中获得的，因此其性能在很大程度上高度依赖于领域翻译网络被Lfx第三，相关一致性损失可─在存在特征重投影损失的情况下，轻微地归功于该框架。它作为L fx的补充。127672015年合成氨到KITTI模型推理提出时间（s）D1-所有EPED1-所有EPEDispNet11个国家。141 .一、9619 .第九条。261 .一、6310的情况。06GwcNet [11]7 .第一次会议。461 .一、576五、741 .一、4240的情况。32驾车到KITTI 2015模型推理提出时间（s）D1-所有EPED1-所有EPEDispNet五十三079 .第九条。513二十五71二、7520的情况。06GwcNet [11]28岁213 .第三章。27512个。171 .一、9800的情况。32表3.不同立体匹配网络的效果。更低的价值意味着更好的性能。如上所述，真实立体图像的特征重投影损失通常受益于L fx的良好训练的平移网络。然而，对于真实的立体图像，特征重投影损失的值有时可能很低，但相反，立体匹配中的估计同时发生。这种相关性一致性的损失只有在这个时候才能有所帮助。最后，D1-all结果将下降一点，而没有模式搜索损失。因为模式搜索损失实际上为翻译结果提供了细粒度的多样性，并且本质上帮助立体匹配网络学习更鲁棒的换句话说，立体声匹配网络将在训练期间学习减少各种噪声和照明条件的影响由于等式9中描述的所有上述四个目标的集成，我们在填补立体匹配中的合成到真实差距4.4. 立体匹配网络的作用在这一部分中，我们展示了立体匹配网络的结构如何影响我们提出的联合域平移和立体匹配框架的性能。我们将DispNet与最近提出的最先进的立体匹配模型GwcNet [11]进行比较。他们的D1-all和EPE评分和推断时间报告见表3。可以看出，GwcNet [11]在数据集和评估指标上的表现都比DispNet好得多。当使用Synthia作为我们的合成训练数据时，我们提出的模型可以帮助DispNet将D1-all和EPE减少约16。百分之八它还使GwcNet将D1-all减少了23%，将EPE减少了9。百分之六。对于与KITTI2015领域差距较大的驾驶训练数据，我们的方法也可以帮助立体匹配网络获得非常有竞争力的性能。在使用我们提出的框架进行训练后，D1- all减少了51。5%和EPE分别为DispNet 71%和D1-all 减少了56。8%，EPE为39。GwcNet分别为6%12768D1-所有最后一次火车站KITTI2012城市景观推理提出推理提出Synthia十三岁3411个国家。5631岁69二十二岁93驱动五十六31二十五57六十岁。50三十二14EPE最后一次火车站KITTI2012城市景观推理提出推理提出Synthia二、1211 .一、93611个国家。805六、701驱动11个国家。669二、832十五岁4688. 506表4.我们提出的方法的推广能力。我们在另外两个真实数据集上测试我们的性能：KITTI2012和城市景观。模型仅使用合成数据集和KITTI2015数据集进行训练。4.5. 推广到其他真实数据集为了证明在我们的联合优化框架中训练的立体匹配网络的泛化能力，我们在另外两个真实数据集-KITTI 2012 [8]和Cityscapes [2]上测试了它们的性能，其结果总结在表4中。KITTI2012中的图像与KITTI2015中的图像具有非常相似的领域风格，因为它们具有相似的相机设置。因此，在KITTI2012上借助域转换获得的性能增益与KITTI2015上的性能增益相似。对于Cityscapes真实数据集，D1-all和EPE分数几乎减少了一半。这些显着的改进证明了我们提出的联合框架的泛化能力。5. 结论和未来工作在本文中，我们提出了一种新的端到端的框架，训练域翻译网络和立体匹配网络联合。新引入的立体约束包括相关一致性损失、双向多尺度特征重投影损失和模式搜索损失，使该联合框架规则化，以在没有地面实况的情况下实现更好的立体匹配实验结果证明了我们提出的框架在弥合合成到真实域的差距的有效性。我们提出的框架成功地缓解了合成域和实域之间的差距，但通常存在其他差距的内在和视差分布之间的实域立体图像和简化的真实立体图像，这是不明确的，在我们的实验数据集。还需要进一步的研究，以促进我们的框架的泛化能力时，满足这样的数据集。谢谢。这项工作部分由商汤科技集团有限公司支持，部分由通用研究基金通过再搜寻香港教育资助局拨款CUHK14202217，CUHK14203118，CUHK14205615，CUHK14207814，CUHK14213616，CUHK 14207319，CUHK 14208619，部分由研究影响基金R5001-18。12769引用[1] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410- 5418页，2018年。第1、3条[2] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Tim-oBuckfeld ， MarkusEnzweiler ， RodrigoBenenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。 IEEE计算机视觉与模式识别会议（CVPR），2016年。8[3] 邓伟建，郑良，叶启祥，康国梁，杨毅，焦庆.具有保留的自相似性和域不相似性的图像-图像域自适应用于人重新识别。在 IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月二、三[4] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督主适应。第32届机器学习国际会议论文集，第1180-1189页，2015年3[5] 雅罗斯拉夫·甘宁、叶夫根尼娅·乌斯季诺娃、哈娜·阿亚坎、帕斯卡尔·热尔曼、雨果·拉罗谢尔、弗朗索瓦·拉维奥莱特、马里奥·马奇和维克托·列皮茨基。神经网络的领域对抗训练。Journal of Machine Learning Research，第1-35页，2016年。3[6] Ravi Garg，BG Vijay Kumar，Gustavo Mesiro和Ian Rei-D.用于单视图深度估计的无监督CNN：几何学来救场了。欧洲计算机视觉会议，第740-756页，2016年。5[7] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231-1237，2013. 一、二、六[8] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？ Kitti Vision 基准套件。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition ，pages 3354-3361， 2012中。二、八[9] Arthur Gretton，Karsten M. Borgwardt，Malte J. Rasch，BernhardSchoülk opf，andAl e xanderSmola. 一个核心的双样本测试。Journal of Machine Learning Research ，第723-773页，2012年。3[10] Arthur Gretton，Karsten M. Borgwardt，Malte J. Rasch，BernhardSchoülk opf，andAl e xanderSmola. 一个核心的双样本测试。Journal of Machine Learning Research ，第723-773页，2012年。3[11] Xiaoyang Guo ， Kai Yang ， Wukui Yang ， XiaogangWang，and Hongsheng Li.分组相关立体网络。在IEEE计算机视觉和模式识别会议论文集，第3273-3282页一、三、八[12] Kaiming He，Xiangyu

下载后可阅读完整内容，剩余1页未读，立即下载