基于任务的广谱领域广义立体匹配算法

16 浏览量更新于2023-10-26 收藏 3.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13012GraftNet：面向任务的广谱领域广义立体匹配算法刘碧阳1、2，余惠民1、2、3、4，齐国栋1、21浙江大学2浙江大学联盟研究开发中心3浙江大学CAD/CG国家重点实验室4信息处理、通信与网络浙江省重点实验室{biyangliu，yhm2005，guodong qi}@ zju.edu.cn摘要尽管有监督深度立体匹配网络取得了令人瞩目的成就，但领域鸿沟导致的泛化能力差阻碍了其应用于现实场景。在本文中，我们提出利用在大规模数据集上训练的模型的特征来处理域偏移，因为它已经看到了各种风格的图像。以基于余弦相似度的成本量为桥梁，将该特征嫁接到普通的成本聚合模块中。尽管是广谱表示，但这种低级特征包含许多不针对立体匹配的一般信息。为了恢复更多的任务特定信息，移植的特征被进一步输入到浅网络中以在计算成本之前进行变换。大量实验表明，该方法具有广谱性和面向任务的特点，可以显著提高模型的泛化能力具体来说，基于两个著名的架构PSMNet和GANet，我们的方法是优于其他强大的算法时，从场景流转移到KITTI 2015年， KITTI 2012 年，和 Middlebury 。代码可在www.example.com上获得https://github.com/SpadeLiu/Graft-PSMNet。1. 介绍立体匹配作为一种低成本的获取深度信息的方法，几十年来一直是视觉界研究的一个基本问题给定校正图像对，目标是搜索对应的点并计算它们的视差。立体匹配算法通常涉及四个步骤[27]：匹配成本计算，成本聚合，视差优化和视差细化。虽然基于卷积神经网络（CNN）的监督立体匹配方法取得了令人满意的性能，但需要大量的标注数据来训练模型，这在实际应用中是繁琐(a) 左图（b）地面实况错误率= 12.0%错误率= 41.9%(c)具有BS特征的基线Concat错误率= 10.2%错误率= 3.1%(e)基线余弦（f）e，具有BS特征图1.验证嫁接操作的玩具实验。在SceneFlow上训练了两个模型，其代价体积由特征连接（Subfigurec ）和余弦相似（Subfiguree）组成，然后将其特征提取模块替换为B路-S谱特征（Subfigured和f）。对于四个模型，标记KITTI样本上的3像素错误率。生活应用合成数据[20]是足够的，而源图像和目标图像之间的域间隙阻止了模型的良好推广。这个问题有三种解决方案：无监督图像反射损失[34，35]，域自适应技术[18，31]和域广义方法[2，45]。在本文中，我们专注于第三种情况，这是更具挑战性的，因为目标图像在训练过程中不可用。在域广义立体匹配中，特征表示起着至关重要的作用[45]，因为特征提取模块直接面对来自不同域的图像。然后提出了一个问题：用一个宽谱特征（即，用一个宽谱特征代替一个普通的立体匹配网络的特征提取模块（通常是用合成数据训练的）是否就能达到这个目的？在大规模数据集上训练的模型的特征）？因为这个功能已经看到了各种风格的图像和学习一般化好。在传统算法中，可以使用各种特征描述符[13]和成本聚合方法[12，42]13013相互结合使用。然而，在深度框架中，参数化模块通过端到端训练纠缠在一起，这种嫁接操作（即，结合两个培训模块没有微调）实用？为了回答这个问题，我们首先进行一个玩具实验。以 PSMNet [3] 为基本架构，我们在合成数据集SceneFlow [20]上训练模型，然后将其特征提取模块替换为VGG[30]在ImageNet上训练[7]。最后，在KITTI 2015 [21]上评估跨域性能如图1的子图（c）和（d）所示，简单地将广谱特征移植到普通成本聚合模块导致差异结果的崩溃。我们分析这是由于基于特征拼接的代价量，迫使代价聚合模块学习基于特征的相似性当该特征被替换时，学习的度量将无效。为了解开特征提取模块和成本聚合模块，有必要构造广义成本空间[2]。一方面，成本量应包含纯相似信息。以这种方式，注入关于相似性度量的先验知识，防止成本聚合模块过拟合到所使用的特征。此外，丢弃了由于不同域的不同语义类而可能干扰成本聚合的语义信息[10]另一方面，集成成本值的归一化有利于泛化能力[31]。为此，我们利用优雅的余弦相似度来构建成本体积。除了满足上述要求外，余弦相似性将具有任意通道的特征投影到标量，使得成本可用于各种特征。由于广义成本空间，当用合成数据训练的特征提取模块被替换为广谱特征时，跨域性能显著提高，如图1的子图（e）和（f）所示。这也实验性地验证了可以采用广谱特征来处理域移位。然而，嫁接这样一个低层次的特征的分类模型仍然是次优的，因为它包含了许多服务于各种任务的一般信息。这是必要的，以适应我们的立体匹配任务的嫁接特征受多任务学习[15]和迁移学习[24]研究的启发，我们构建了一个浅层网络，并迫使它从嫁接的特征中恢复更多的任务特定信息。虽然这个训练过程是在源域上进行的，但特征适配器自输入以来是鲁棒的此外，少量的参数将降低过拟合的风险[38]。总之，在我们的领域广义立体匹配网络GraftNet中有两个基本步骤。首先，嫁接广谱特征（即，特征在大规模数据集上训练的模型）到普通立体匹配网络的成本聚集模块。其次，利用浅层网络对特征进行变换，以恢复特定于任务的信息。在实践中，我们发现，重新训练成本聚合模块与此转换的功能，可以进一步提高性能。它值得注意的是，我们的方法可以建立在任意的立体匹配网络上，唯一的修改是构造具有余弦相似性的成本体积。在没有铃铛和哨子的情况下，我们基于PSMNet [3]和GANet [44]的模型在从合成数据集SceneFlow [20]转移到一些现实数据集（如KITTI 2015 [21]，KITTI 2012 [8]和Middlebury [26]）时优于其他鲁棒和域生成算法2. 相关工作2.1. 深度立体匹配网络MC-CNN [43]首先将CNN引入立体匹配，其中构建了一个连体网络来计算两个补丁的匹配成本。随后的研究涉及多尺度特征表示[5]和相似性计算的加速[19]。虽然深度嵌入是强大的，但这些工作受到交易成本聚合和视差细化步骤的限制。DispNetC [20]是第一个端到端立体匹配网络，其中视差通过2D卷积从相关图回归。自那时以来，这条管道已被广泛采用。SegStereo [41]和EdgeStereo [32]设计了多任务框架来利用语义线索和边缘信息。AANet [40]集成了可变形卷积以自适应地聚合成本。尽管复杂度低，基于2D-CNN的立体匹配网络的性能并不优越。另一种常见的方式是通过连接左和右特征来构建成本量，并将成本与3D卷积聚合，这最初在GCNet [14]中提出。PSMNet [3]进一步引入了空间金字塔池模块来处理无纹理区域。为了更有效的成本聚合，在GANet中设计了图像内容引导层[44]。目前，由深度网络搜索的架构LEASereo[6]在KITTI基准测试中排名第一虽然基于3D-CNN的立体匹配网络在几个数据集上表现良好，但泛化能力差阻碍了它们在现实生活场景中的应用。在这项工作中，我们将展示如何缓解这个问题的域不变和面向任务的功能。2.2. 域广义立体匹配在域广义立体匹配中，该模型对目标域的图像风格是不可知的，因此它比域自适应更具挑战性[18，31，34，35]。为了实现这一目标，DSMNet [45]提出了域正常-13014(a)立体匹配网络余弦相似度视差图立体图像成本量特征提取成本聚合替代跳过连接分类标签图像(b)在ImageNet上训练的经典模型(c)功能适配器传奇二维转换3D转换图2.GraftNet的整体架构，包括一个广谱特性、一个特性适配器和一个成本聚合模块。为了构建GraftNet，我们首先将在大规模数据集ImageNet上训练的经典模型的特征移植到普通立体匹配网络的成本聚合模块然后将特征输入到一个浅U型网络中进行变换，以恢复更多的任务相关信息。注意，成本体积是由余弦相似性而不是特征连接形成的，以获得广义成本空间。化和基于图的结构保持过滤器。CFNet[29]自适应地调整搜索空间以处理跨不同域的不平衡视差分布。STTR [16]和RAFT-Stereo [17]引入了新的架构，表现出强大的鲁棒性。我们的方法与MS-Net [2]最相似，其中使用传统的描述符来构造成本。然而，在我们的工作中，广义匹配空间实现了一个更有区别的深层特征。此外，还有研究人员致力于从其他角度解决这个问题。Poggi等人[23]用从某些设备获得的稀疏深度测量值对成本分布进行了调制。Watson等人[39]提出了一种从单个图像生成标记数据的方法，并表明在其MfS上训练的模型比在SceneFlow上训练的模型传输得更好[20]。2.3. 广谱特性古典建筑的特点（如在ImageNet [7]上训练的ResNet[11]，VGG [30]）已被广泛用于在几个任务中初始化模型参数[4，9]。这些预训练的经典模型可以很容易地从库中加载，例如。PyTorch [22].在我们的工作中，由于ImageNet覆盖了各个领域，因此利用该特征来获得鲁棒的表示为了保持特征的属性，我们保持参数固定，并建立一个网络来变换特征[15，24]。3. 方法在本节中，我们将描述如何构建我们的域广义立体匹配模型GraftNet，其关键组件是一个广谱和面向任务的功能。总体架构如图2所示。具体来说，我们首先用余弦相似度形成的成本体积训练立体匹配网络（第3.1节）。然后，我们将来自ImageNet上训练的经典模型的特征移植到这个立体匹配网络的成本聚合模块中，并进一步用浅层网络对其进行转换，以重新覆盖任务相关信息（第3.2节）。最后，我们根据经验用转换后的特征重新训练成本聚合模块（第3.3节）。3.1. 立体匹配网络在典型的深度立体匹配网络[3，6，14，44]中，左图像和右图像首先通过特征提取模块，然后通过在不同位移处连接左特征和右特征来构建成本体积之后，通过几个3D卷积聚合成本，然后通过softmax和加权平均来计算最终的视差。如[45]所示，特征表示在模型的泛化能力中起着至关重要的作用。为此，我们打算实现域广义立体匹配的广谱功能。同时，立体匹配网络的另一个参数化部分，成本聚合模块，只能用合成数据来训练。因此，有必要构建一个广义的成本空间[2]来解开特征提取模块和成本聚合模块。在我们的模型中，优雅的余弦相似性被用来建立成本量。与特征拼接相比，它有三个优点：1）消除了易受域转移影响的语义信息[10]，从而产生了在-13015（一）ΣSMNL1我我1Σ Σ阵2)归一化确保了成本值的数值稳定性，这有利于跨域评估性能[31，45]。3)可以将具有任意通道的特征作为输入，因为所有这些特征都将被投影到标量。形式上，余弦相似成本量表示为：<$Fl（：，x，y），Fr（：，x−d，y）<$见过各种风格的图像，并已学会很好地概括。同时，这种特征易于获得，例如：在ImageNet上训练的经典模型[11，30[7]可以直接从PyTorch库中加载[22]。而不是利用预训练的参数来初始化模型骨干[4，9]，我们保持模块固定以保留特征的固有属性。具体来说，将嫁接CVcos（：，d，x，y）= ||F l（：，x，y）||·||F r（：，x −d，y）||2第二节中经过培训的普通费用汇总模块第3.1条为了保持一致性，我们采用了具有其中d是视差索引，并且（x，y）表示像素坐标。Fl和Fr是左特征和右特征，两者都具有C通道。计算的成本是仅具有一个通道的4D张量，因此第一3D的输入通道成本聚合模块的卷积层应该被修改为1。在没有其他调整的情况下，该基本立体匹配网络在具有交叉熵损失[36]和平滑L1损失[3]的源域上训练，以分别监督视差概率分布和最终视差值：N dmaxL（P（d），P（d））=−P（d）·logP（d）（二）与原始立体匹配网络中使用的分辨率相同例如，如果基本架构是PSM-Net [3]并且嫁接特征来自VGG [30]，则将采用具有图像的四分之一分辨率的第三池化层之前的特征。虽然域移位的影响已被削弱的广谱功能，一个简单的嫁接操作是欠考虑的。原因是该功能相对较低，包含许多服务于各种下游任务的一般信息。这是必要的提取更多的信息具体到我们的立体匹配任务。为此，我们在计算成本之前构建了一个功能适配器，所示浅U形网络[25铈氮我我i=1d =0N在图2（c）中。特征适配器作为立体匹配网络的一部分进行训练，在该网络中处理宽谱特征的参数和代价聚合。L（D，D）=1smooth（D，D）（3）其中P（d）是来自softmax的预测分布，P（d）是地面实况分布，以视差地面实况D为中心的归一化拉普拉斯分布。D是通过加权平均计算的预测视差。年龄N表示图像中的像素的数量。通常，在训练阶段中，存在从成本聚合模块输出的多个视差结果[3、10、44]。在我们的模型中，每个结果都用上述两个损失函数进行监督，那么总损失为：ML=λm（Lce+µLsm）（4）m=1其中M是视差输出的数量。对于平衡权重，λm被设置为与所采用的基本架构中相同，并且μ被启发式地设置为0.1。在训练之后，特征提取模块被丢弃，因为它易受域移位的影响，而成本聚合模块被保留用于嫁接其他特征。由于广义成本空间，成本聚合模块受域间隙的影响较小。3.2. 广谱和面向任务的特性在这项工作中，我们采用了在大规模数据集上训练的模型的特征来抵抗域转移，因为它具有特征匹配器在目标域上是有效的，原因有两个：1）它的输入是一个广谱的表示，这将削弱图像风格的影响。2)少量的参数将降低过拟合的风险[38]。3.3. GraftNet通过特征适配器输出的宽谱、面向任务的特征，我们发现对代价聚集模块进行再训练可以进一步提高性能。在这一步中，我们的方法类似于[2]，即。构造广义匹配空间，并用合成数据训练成本聚合模块。然而，第4.5节中的实验结果表明，适当的深度特征比传统描述符更具代表性[2]。从模型架构的角度来看，GraftNet由三个组件组成：广谱功能，功能适配器和成本聚合模块。虽然我们受到图1中的玩具嫁接实验的启发，但是特征适配器和成本聚合模块可以一起训练吗？在实践中，我们发现联合培训不如单独培训有效（请参阅补充材料）。我们推测，当这两个模块单独优化，一个训练有素的模块可以提供一个有益的初始化的其他。2i=1梯度模块是固定的，仅用作传播梯度的中间体。虽然这个训练过程13016Model StepKITTI 2015 KITTI 2012 Middlebury ETH3D表1.烧蚀实验的定量结果。PSMNet和GANet-11是使用的两种基本架构。模型在SceneFlow上进行训练，并在四个真实的数据集上进行评估CV表示成本量，CA表示成本汇总模块。由于嫁接是整个管道中的第一个和基本的步骤，我们的域广义立体匹配网络被称为GraftNet。此外，我们希望移植操作可以提供一个新的观点：两个经过训练的CNN的部分可以在不进行微调的情况下集成以获得新模型吗？这个问题值得探讨，特别是对于训练数据不可用的场景。4. 实验4.1. 数据集评估源域。在实验中，所有的立体匹配网络都在SceneFlow[20]上训练，这是一个包含35454个训练对和4370个测试对的合成数据集，两者都具有密集的视差地面实况。由于在领域一般化问题中只考虑推广能力，测试集将不被使用。目标域。在SceneFlow上训练的模型在以下真实数据集上进行评估：KITTI数据集由KITTI 2015 [21]和KITTI 2012 [8]组成KITTI 2015上有200个训练对和200个测试对。在KITTI 2012上，有194个训练对和195个测试对。Middlebury 2014[26]提供了15个训练对和15个测试对，其中一些样本处于不一致的照明或颜色条件下。所有的图像都有三种不同的分辨率，我们选择半分辨率的。ETH3D[28]是一个具有27个训练对和20个测试对的灰度数据集。对于所有现实数据集，我们使用它们的训练集来评估跨域性能。所用的方法是EPE（终点误差，平均误差）和成本正常。P. 西米EPE（px）>3pxConcat’’3.24百分之十九点五N Concat✓’3.1418.3%L2距离’✓2.86百分之十六点二余弦函数✓✓2.9815.4%表2.建立成本量的方式的影响。诺-马尔。：在构建成本之前是否规范化特征P. Simi ：成本是否包含纯相似性信息。N Concat意味着成本是通过连接归一化特征形成的。结果在KITTI 2015上进行评价。τ-像素误差率（绝对误差大于τ像素的点的百分比）。4.2. 实现细节该框架在PyTorch上实现[22]，Adam（β1=0. 9，β2=0。999.第999章作为最佳人选对于基本的立体匹配架构，我们以0.001的学习率然后，一个广谱功能嫁接到成本聚合模块，在这个过程中没有训练在移植之后，特征适配器以0.001的学习率被训练1个时期最后，成本聚合模块被重新训练10个时期，前5个时期的学习率被设置为0.001，其余时期的学习率被设置为0.0001。对于所有实验，PSMNet [3]被采用作为基本架构。在消融研究（第4.3节）和与其他鲁棒算法的比较实验（第4.5节）中，还利用GANet-11 [44]来证明我们方法的有效性和通用性。嫁接的特征来自VGG16 [30]，它在ImageNet [7]上训练，在第4.4节中探索了更多的特征··EPE（px）>3pxEPE（px）>3pxEPE（px）>2pxEPE（px）>1px基线3.24百分之十九点五2.5918.6%6.69百分之二十二点六2.2012.1%余弦相似CV2.9815.4%2.30百分之十四点三6.8322.3%1.17百分之十点六PSMNetGraft VGG1.866.39%1.285.90%5.67百分之十八点九1.81百分之十一点九+ 功能适配器1.475.60%1.165.20%2.9612.0%1.66百分之十二点六·13017图3.调整后功能的图示对于每个图像，顶行显示了自适应之前的四个通道的特征（即，VGG的特征），并且底行示出了适应之后的特征的四个通道。图片来自KITTI 2015。4.3. 消融研究在本节中，我们研究了GraftNet中组件的影响，评价结果见表1。首先，虽然特征拼接通常用于在监督框架中构建成本，但余弦相似性更适合于域广义立体匹配。这有两个原因：1）归一化保持了值的稳定性; 2）丢弃了对域移位敏感为了深入研究这两个方面的影响，我们比较了表2中的几种建立成本的方式。结果表明，包含纯相似性信息的成本卷（例如，用余弦相似度或L2距离计算）在考虑泛化能力时更好。我们还强调，余弦相似性允许我们从其他模型移植功能。如果成本体积是通过特征连接构造的，则组装模型的视差结果将被折叠。从表1中两个子表的第2行和第3行来看，移植在ImageNet上训练的VGG的特征对KITTI数据集是有益的。这表明目前的立体匹配网络确实存在过拟合问题，而广谱特征可以提高泛化能力。但是，此功能不适用于Middlebury（配备GANet时）和ETH3D。我们分析了虽然得到了一个领域广义表示，但它并不适合任务，分类模型的低层特征包含很少的详细信息。巧合的是，在KITTI上，地面真值是稀疏的，特别是在视差不连续处，因此具有更多全局上下文信息的特征也是有效的。为了恢复特定于任务的信息，我们建立了一个浅网络转换的广谱功能。从表1的第4行和第9行可以看出，使用功能适配器后，Middlebury和ETH3D的评价性能显著提高。该结果表明，特征的广谱属性和面向任务的属性都在图3中，我们进一步建筑EPE（px）>3px’线性1.50 6.06%非线性1.466.20%优网1.475.60%表3.特性适配器架构的影响。第一行表示未使用适配器。线性适配器是单个卷积层，非线性适配器由两个卷积层和一个激活层组成。U-Net是图2（c）所示的结果在KITTI 2015上进行评价。表现出适应前后的特征。可以看出，丰富的纹理信息，这是必不可少的立体匹配与适配器恢复。在表3中，我们比较了不同架构的功能适配器。虽然在[15]中线性层就足够了，但在我们的工作中需要更复杂的网络，因为不仅要考虑任务间隙，还要考虑特征水平同时，适配器的参数数目不能太大，以防止对源数据的过拟合。因此，采用浅U形网络[25]。最后，在表1中，用适应的特征重新训练成本聚合模块可以进一步提高评估性能。原因可能是与在源域上训练的原始特征相比，广谱且面向任务的特征提供了更鲁棒的代价体积，从而引导代价聚合模块的优化朝向域广义立体匹配的目标。我们的最终模型在四个现实数据集上的一些定性结果如图4所示。4.4. 移植各种功能在本节中，我们尝试移植各种功能，以进一步研究功能的影响。采用了六个特性： VGG16 [30] ，ResNet18 [11]和ResNet50[11]在ImageNet上训练分类（C），ResNet18训练单目深度估计（MDE）[9]13018要素任务数据集EPE（px）>3pxVGG16CImageNet1.866.39%ResNet18CImageNet1.906.62%ResNet18MDEKITTI1.736.54%ResNet50CImageNet2.066.19%ResNet50DCLImageNet2.209.17%ResBlocksOFEKITTI1.596.22%表4.从各种模型嫁接特征的实验结果。C：分类，MDE：单眼深度估计，DCL：密集对比学习，OFE：光流估计。结果在KITTI 2015上进行评估，最好的以粗体显示，第二个以下划线显示。KITTI，在ImageNet上通过密集对比学习（DCL）[37]训练的ResNet50，在KITTI上为光流估计（OFE）[33]训练的堆叠ResBlocks。在KITTI 2015上评价的定性结果见表4。比较第二行和第三行，广谱特征表现得接近于特定于域的特征，这意味着域移位可以用在大规模数据集上训练的模型的特征来处理。从第3行和第5行开始，虽然MDE和DCL是密集的预测任务，但它们的特征不能满足立体匹配的需要。为更接近的任务OFE训练的特征可能更有帮助，但它与我们模型中使用的特征之间仍然存在性能差距（6.22%vs5.60%）。这些结论再次强调了特征的任务导向属性的重要性。此外，考虑到图像分类模型和立体匹配模型通常采用不同的输入分辨率来训练，而输入分辨率对于像素级任务立体匹配至关重要，我们研究了输入分辨率在训练广谱特征时的影响。更多结果请参阅补充材料。4.5. 与鲁棒算法的在本节中，我们将我们的模型与其他鲁棒和域广义方法进行比较。如[16，39]所述，使用随机颜色和亮度变换增强图像可以提高模型的泛化能力。因此，为了公平比较，根据是否涉及包括颜色抖动的数据增强策略，如表5所示，在不使用随机颜色变换策略的方法中，我们的Graft-PSMNet和Graft-GANet是优越的，特别是在KITTI和Middlebury上。当集成更多的数据增强方法时，模型性能可以进一步提高。在ETH3D上，我们的模型不是最好的，我们分析原因是ImageNet包含的灰度图像很少，使得嫁接的特征在ETH3D上难以很好地表达。这给我们的启示是，更多的图像风格应该被合并。型号KT-15 KT-12 MB ET表5.鲁棒和域广义立体匹配方法的比较，我们的列在两个子表的底部。* 表示颜色抖动数据增强策略在训练期间被KT-15：KITTI 2015，KT-12：KITTI 2012，MB：Middlebury，ET：ETH3D。最佳结果以粗体显示，第二个结果以下划线显示。选择绝对域不变表示。5. 限制未来工作我们的工作有两个主要的局限性：1）如第4.5节所讨论的，移植的特征不是完全域不变的。2)通过加载在ImageNet上训练的模型的参数，隐式地使用图像分类的注释，这意味着需要额外的标记数据（但不限于立体匹配）针对这些局限性，我们打算在未来将自监督表示学习与我们的GraftNet深入通过这种方式，只需要图像，并且可以利用来自互联网的大量数据来提高学习特征的鲁棒性。6. 结论本文试图从数据的角度实现领域广义立体匹配，其关键是具有广谱性和面向任务的特征。前一个属性来自于训练过程中看到的各种风格的图像，后一个属性是通过从广谱特征中恢复与任务相关的信息来实现的。通过构造一个具有余弦相似性的广义代价空间，将该特征与一个普通的代价聚集模块相结合。在多个数据集上的实验结果表明，我们的Graft-PSMNet和Graft-GANet优于其他鲁棒性和领域广义算法。我们希望我们的方法可以启发后续的研究，包括多任务学习和领域广义方法。>3px>3px>2px>1pxGwcNet [10]22.7%百分之二十点二百分之三十七点九百分之五十四点二PSMNet [3]百分之十六点三百分之十五点一34.2%23.8%GANet [44]百分之十一点七百分之十点一百分之二十点三百分之十四点一MS-PSMNet [2]百分之七点八14.0%百分之十九点八百分之十六点八MS-GCNet [2]6.2%百分之五点五百分之十八点五百分之八点八13019(a) 左图（b）地面实况（c）Graft-PSMNet（d）Graft-GANet图4.从SceneFlow转移到KITTI 2015、KITTI 2012、Middle- bury和ETH 3D时，Graft-PSMNet和Graft-GANet的定性结果（从上到下）。最好用彩色观看。社会影响我们工作的根本目的是提高立体系统获得的深度质量，这在机器人导航和自动驾驶等许多行业中起着至关重要的作用一方面，发展-这些产业的发展给人类的活动带来了巨大的便利。另一方面，在安全、情感等方面仍有许多问题需要回答，要解决这些潜在问题，我们不仅要仔细评估人工智能系统的安全性，还要建立和完善相关法律。13020引用[1] Filippo Aleotti，Fabio Tosi，Pierluigi Zama Ramirez，Matteo Poggi，Samuele Salti，Stefano Mattoccia， andLuigi Di Ste- fano.任意分辨率立体的神经视差细化。arXiv预印本arXiv：2110.15367，2021。7[2] 蔡长江，马特奥·波吉，斯特凡诺·马托西亚，菲利普·莫多海。用于跨域推广的匹配空间立体网络。2020年国际3D视觉会议（3DV），第364-373页。IEEE，2020年。一二三四七[3] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410- 5418页，2018年。二三四五七[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。三、四[5] Zhuoyuan Chen，Xun Sun，Liang Wang，Yinan Yu，and Chang Huang.立体匹配代价的深度视觉对应嵌入模型在IEEE计算机视觉国际会议论文集，第972- 980页2[6] Xuelian Cheng ， Yiran Zhong ， Mehrtash Harandi ，Yuchao Dai ， Xiaojun Chang ， Tom Drummond ，Hongdong Li，and Zongyuan Ge.用于深度立体匹配的分层神经架构搜索。arXiv预印本arXiv：2010.13501，2020。二、三[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。二三四五[8] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议，第3354-3361页。IEEE，2012。二、五[9] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J Brostow.深入研究自我监督的单目深度估计。在IEEE/CVF国际计算机视觉会议集，第3828三、四、六[10] Xiaoyang Guo ， Kai Yang ， Wukui Yang ， XiaogangWang ， and Hongsheng Li. 分组相关立体网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第3273-3282页，2019年。二、三、四、七[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。三、四、六[12] 海科·赫希穆勒通过半全局匹配和互信息进行精确和高效的立体在2005年IEEE计算机协会计算机视觉和模式识别会议IEEE，2005年。1[13] 海科·赫施穆勒和丹尼尔·沙尔斯坦。立体匹配代价函数的评估。在2007年IEEE Conference on Computer Visionand Pattern Recognition，第1IEEE，2007年。1[14] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在IEEE计算机视觉国际会议论文集，第66-75页，2017年。二、三[15] Wei-Hong Li和Hakan Bilen。多任务学习的知识提炼。欧洲计算机视觉会议，第163-176页。Springer，2020年。二、三、六[16] 李兆硕，刘兴通，丁志坚，弗朗西斯，泰勒，马蒂亚斯.从序列到序列的角度重新审视立体声深度估计。在IEEE/CVF计算机视觉国际会议论文集，第6197-6206页，2021年。三、七[17] Lahav Lipson ， Zachary Teed ， and Jia Deng. Raft-stereo：用于立体匹配的多级递归场变换。arXiv预印本arXiv：2109.07547，2021。三、七[18] Rui Liu ， Chengxi Yang ， Wenxiu Sun ， XiaogangWang，and Hongsheng Li.立体匹配：通过域平移和立体匹配的联合优化，弥合合成域与真实域之间的差距。在IEEE/CVF计算机视觉和模式识别会议论文集，第12757-12766页，2020年。一、二[19] Wenjie Luo，Alexander G Schwing，and Raquel Urtasun.用于立体匹配的高效深度学习。在IEEE计算机视觉和模式识别会议论文集，第5695-5703页，2016年。2[20] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 4040-4048，2016中。一、二、三、五[21] Moritz Menze和Andreas Geiger。自动驾驶车辆的目标场景流在IEEE计算机视觉和模式识别会议论文集，第3061- 3070页，2015年。二、五[22] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017. 三、四、五[23] 马泰奥·波吉、大卫·帕洛蒂、法比奥·托西和斯特凡诺·马托西亚。引导立体匹配。In Proceedings ofIEEE/CVF计算机视觉和模式识别会议，第979-988页，2019年。3[24] Pierluigi Zama Ramirez ， Alessio Tonioni ， SamueleSalti ， and Luigi Di Stefano. 跨任务和领域学习。在IEEE/CVF计算机视觉国际会议论文集，第8110-8119页，2019年。二、三[25] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。四、六13021[26] DanielScharstein ， Heik oHirschmüller， YorkKitajima ，GregKrathwohl ， NeraNesouzic' ， XiWang ，andPorterWest-ling.高分辨率立体数据集，具有亚像素精确的地面实况。德国模式识别会议，第31-42页。Springer，2014. 二、五[27] Daniel Scharstein和Richard Szeliski。密集两帧立体对应算法的分类和评价。国际计算机视觉杂志，47（1）：7- 42，2002。1[28] ThomasScho¨ps ， JohannesL.Schoünberger ， SilvanoGalliani，Torsten Sattler，Konrad Schindler，MarcPollefeys，and An- dreas Geiger.具有高分辨率图像和多相机视频的多视图立体基准。在计算机视觉和模式识别会议（CVPR），2017年。5[29] 沈哲伦，戴玉超，饶志波。Cfnet：级联和融合成本体积的强大立体匹配。在IEEE/CVF计算机视觉和模式识别会议上，第13906-13915页，2021年。三、七[30] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。二三四五六[31] Xiao Song，Guorun Yang，Xinge Zhu，Hui Zhou，ZheWang，and Jianping Shi.Adastereo：一种简单有效的自适应立体匹配方法。 In Proceedings ofIEEE/CVF计算机视觉和模式识别会议，第10328-10337页，2021年。一、二、四[32] 萧嵩、徐昭、方良吉、胡汉文、益州余。Edgestereo：一个用于立体匹配和边缘检测的有效多任务学习网络International Journal of Computer Vision，128（4）：910-930，2020。2[33] Zachary Te

下载后可阅读完整内容，剩余1页未读，立即下载