没有合适的资源?快使用搜索试试~ 我知道了~
12962̸↑来自分辨率非对称立体的喜浩陈家勇彭熊志伟*张跃义查振成中国科学技术大学摘要本文研究了两幅不同分辨率的图像的立体匹配问题。用远距摄像机系统获得的那些。由于在不同的现实世界系统中获得地面实况差异标签的困难,我们从无监督学习的角度出发。然而,由两个视图之间的未知退化引起的分辨率不对称阻碍了通常假设的光度一致性的有效性。为了克服这一挑战,我们建议在特征空间而不是图像空间中施加两个视图之间的一致性,称为特征度量一致性。有趣的是,我们发现,虽然用光度损失训练的立体匹配网络不是最佳的,但其特征提取器可以产生退化不可知的和匹配特定的特征。然后,可以利用这些特征来计算特征度量损失,以避免光度计不一致。此外,我们引入了一个自提升策略,逐步优化的特征提取器,这进一步加强了特征度量的一致性。在具有各种退化的模拟数据集和自我收集的真实世界数据集上的实验验证了所提出的方法优于现有解决方案的性能。1. 介绍如今,由具有不同焦距的两个(或更多个)镜头组成的远距相机系统被广泛部署在智能手机中。这种系统通常一次拍摄生成一对(或一组)具有不同分辨率的图像,这使得许多理想的应用成为可能,例如连续光学变焦[29]和图像质量增强[37,41,43]。对于这些应用,从分辨率不对称的立体图像进行对应估计是关键步骤,其通常由传统的对称立体匹配算法(例如,,SGM [13])与图像上采样[29]结合在一起。不过,这直-*通讯作者:zwxiong@ustc.edu.cn我的天PIL������������↑公司简介IRI↑���[↑]������������IL[L]FEFEILR公司简介IR[美国]F������↑IL[美国]FLFL[瑞士L]F↑���[↑]������������(a) 对称立体(b)分辨率-非对称立体图1.光度一致性的常见假设(即,,IL[pL]= IR[pR])在分辨率-非对称立体(由密集和稀疏网格表示)中被违反。为了避免这种光度不一致(即,,IL[pL]=Ir↑[pr]),我们建立了特征度量的一致性,这确保了像素(例如,,pL和pr↑),记录从同一场景点(例如,,P)具有相同的特征表示(即,,FL[pL]=Fr↑[pr↑])。前向解易受上采样引入的伪像的影响,尤其是当上采样尺度较大时。非对称立体匹配已经在文献中在几个特定的上下文中被研究,例如。、辐射变异[15]和模态差异[49]。在本文中,我们专注于分辨率非对称设置,这是实用的,卡尔还很少被明确调查。作为最近的相关工作,Liu等人提出了一种用于视觉不平衡立体匹配的统一网络,该网络解决了单眼模糊和噪声[25]。尽管这种完全监督的方法具有鼓舞人心的想法,但它不仅需要地面真实差异和退化视图的高质量版本作为标签,而且还需要显式退化[3,7,17,42,44]形式来学习网络的参数,这使得它难以适用于监督信息很少可用的各种现实世界系统因此,我们转向无监督学习的方向。对于无监督立体匹配, 最广泛12963↑↑↑采用的假设是光度一致性[50]。在此假设下,两个视图中的对应像素(例如,,pL和pR),其记录从同一场景点(例如,,P),应该具有相同的强度或颜色(即,,IL[pL]=IR[pR])。不幸的是,对于分辨率不对称立体对违反了该假设,其中与高分辨率(HR)视图相比,低分辨率(LR)视图被未知的下采样内核降级。换句话说,不对称立体对中的对应像素(例如 , , pL 和 pr1 ) 可 以 不 具 有 相 同 的 强 度 或 颜 色(即,,IL[pL]Ir↑[pr])。这种光度的不一致性将导致函授学习的困难。一种可能的补救方案是通过超分辨率(SR)技术将LR视图恢复为HR视图[10,26,48]。然而,现有的SR方法大多是退化特定的,并且如果实际退化不同于假设的退化(对于非盲SR)或不在假设的范围内(对于盲SR),则遭受性能下降[4,6,23,47]。因此,在实际应用中,SR方法弥补光度不一致性的有效性将受到限制.为了克服上述问题,本文提出从一个新的角度来解决分辨率不对称的立体匹配问题,即在特征空间而不是图像空间中赋予两个视图的一致性,即特征度量一致性。有趣的是,我们发现,虽然用光度损失训练的立体匹配网络不是最佳的,但其特征提取器可以产生退化不可知的(即,,对I L和I r ↑之间的劣化的鲁棒性)和对应的非对称像素的匹配特定特征(即,,FL[pL]=Fr↑[pr])。然后可以利用这些特征来制定特征-度量损失,以避免光度不一致。此外,通过使用特征度量损失来微调立体匹配网络,我们可以优化特征提取器以从立体对中捕获更一致的属性,从而加强特征度量一致性。为此,我们引入了一种自提升策略来逐步优化特征提取器。具体来说,我们使用从前一阶段学习的特征提取器来形成当前阶段的新特征度量损失。通过这种方式,我们的方法即使对于大的退化仍然有效。为了定量评估我们的方法的性能,我们模拟了四个分辨率不对称的立体数据集,两个来自广泛使用的立体数据集Middle- bury [14]和KITTI 2015 [28],两个来自光场数据集Inria SLFD [32]和HCI [16],两个视图之间的基线较窄,更接近智能手机上的配置。LR视图是在其原始HR版本的各种降级下生成的。为了评估我们的方法在现实世界的情况下,我们收集了分辨率不对称的立体数据集与远程宽相机系统1↑表示上采样。华为P30智能手机。模拟和真实世界数据集上的实验结果表明,我们的方法优于现有的以及潜在的解决方案的大幅度提高。本文的贡献概括如下:• 第一种无监督学习方法,用于分辨率非对称立体声的对应估计。• 一个有效的和高效的实现特征度量的一致性,以避免光度不一致所造成的未知退化。• 一种通过渐进丢失更新来增强特征度量一致性的自增强策略• 在模拟和真实世界数据集上,与比较方法相比,性能有明显的提高。2. 相关工作立体匹配。默认情况下对称的立体匹配作为经典的计算机视觉任务已经被广泛研究了几十年[13,31]。最近,基于深度学习的立体匹配方法已经明显超过了传统算法。根据是否需要地面实况视差图作为标签,这些方法可以分为监督[5,8,18,20,27]和无监督[2,39,50,51]类。在许多现实世界的系统中,标签并不容易获得,无监督方法可以在没有地面实况信息的情况下进行学习,其中大多数方法都利用光度一致性的假设来制定光度损失[9,30,36,39,50,52]。然而,当立体图像变得不对称时,这一假设将被违反。非对称立体匹配。在立体匹配的文献中考虑了几种不对称性,包括辐射变化[15]、模态差异[49]和视觉质量不平衡[25]。为了估计具有辐射变化的立体图像的对应性,提出了不同的鲁棒匹配成本,例如互信息度量[11]和自适应归一化互相关[12]。对于交叉模态立体[40,45,49],来自两种不同模态的图像被归一化为单个图像以弥补光度不一致性,例如,,通过深度转换网络[21,49]。最近,通过集成视图合成网络和立体重建网络来解决具有视觉不平衡(单眼模糊和噪声)的立体匹配,这需要地面实况视差、降级视图的高质量版本以及用于监督的显式降级形式[25]。分辨率不对称可以看作是一种视觉不平衡,但这种监督解决方案很难适用于各种现实世界的系统。度量学习。对于几何任务,有几项开创性的工作将深度特征用作无监督学习的度量。具体而言,Zhang等人通过以下方法改进了单目深度估计的性能:12964Φ(�;θ)Φ(�;θ)Φ(�;θ)Φ(�;θ)×R俄.西S 作为LR视图,其中s是基于预先训练的特征将光度损失和特征度量损失进行整合[46]。与[46]不同IL 我的天ILL������IL 我的天ILL������等。学习自定义功能与自动编码器和我的天阿罗夫拉河两个正则化损失[34],而Spencer等人使用对比损失[35]学习特征。对于域自适应,Liu等人提出惩罚立体声网络在域转换网络的特征空间中(a) Asy_Input_Asy_Loss(S1)IL IRILL������(b) Sym_Input_Asy_Loss(S2)IL IRILL������工作[24]。 受上述作品的启发,我的天阿罗夫拉河我们引入特征度量一致性的概念,(c) Asy_Input_Sym_Loss(S3)(d) Sym_Input_Sym_Loss(S4)分辨率非对称立体匹配的新任务。3. 初步一对分辨率不对称的立体图像由HR视图和LR视图组成。如果没有损失的话-我们取左视图IL∈RH×W作为HR视图,HW图2.使用光度一致性训练的四个无监督立体匹配设置的插图表1.Inria SLFD数据集上不同无监督立体匹配设置的3PE(%)结果设置不对称因子% s2 4 6 8右视图I∈分析输入分析损失(S1)7.28 12.56 22.72 27.93Sym Input Asy Loss(S2)7.22 10.01 16.31 21.93不对称因子为了使他们的决议一致,我就...使用经典插值算法(例如,,双三次),记作Ir↑∈RH×W。尽管被上采样,但Ir↑中的高频信息不存在,因此立体声对IL和Ir↑仍然是不对称的。3.1. 学习光度一致性给定一个立体对IL和Ir↑作为输入,一个无监督的立体匹配网络Φ(·;θ)旨在预测IL的一个视差图,表示为dL=Φ(IL,Ir↑;θ),在相关性之间的光度一致性的假设下,两个视图中的响应像素(表示为pL和pr↑),即、I L[pL]=I r↑[pr↑]。(一)如果精确地估计pL和pr↑之间的视差dL[pL],则可以通过利用该视差扭曲右视图中的Ir↑[pr↑]来很好地重建左视图中的IL[pL],如Asy输入Sym Loss(S3)6.38 6.39 6.58 7.52Sym Input Sym Loss(S4)6.32(Sym)或不对称性(Asy),以烧蚀因子(i),并控制用于计算烧蚀因子(ii)的光计量损失的图像的对称性或不对称性如图 2、总共评估了四种无监督立体匹配设置,其中只有第一种设置(S1)在实践中可以实现,其余设置(S2、S3和S4)可以被视为“理想情况”,因为使用了HR右视图。 我们从Inria SLFD数据集[32]中选择每个场景的两个视图作为HR左右视图,即、IL和IR。 LR右视图Ir是在四个不对称因子(s = 2、4、6、8)下利用双三次下采样从IR模拟的。我们采用流行的PSMNet [5]Ir↑→L[pL]=Ir↑ [pL -dL [pL]]。(二)作为主干网络Φ(·;θ)和光度损失Lpm根据等式计算(3)α=3。标准因此,光度损失被公式化为I L与其重构版本I r↑→L之间的重 构误 差,通常以L 1和SSIM距离的加权组合的形式,即、Lpm=<$IL−Ir↑→L<$1+α ( 1−SSIM ( IL ,Ir↑→L)),(3)其中α是加权因子。3.2. 挑战与动力直观地说,分辨率不对称性在两方面挑战了无监督立体匹配:(i)网络的特征提取器从不对称输入中提取对称特征可能更困难,以及(ii)由于等式(1),(1)不适用于不对称立体声。我们进行了一系列的实验来验证这两个因素的影响在实验中,假设右视图的地面实况HR版本IR可用因此,我们可以控制对称性12965立体匹配度量,3-Pixel-Error(3 PE)[28],用于评估不同设置的性能(参见第12节中的更多实现细节)。(五)。从表1可以看出,当输入到特征提取器的图像从不对称变为对称(S1到S2)时,性能改进相当有限(例如,当s= 4时,为2.55%相比之下,当用于计算光度损失的图像从不对称变为对称(S1到S3)时,结果会有很大的改善(例如,s= 4时为6.24%),甚至接近上界(S4)。值得强调的是,对于S1和S3,用于扭曲右视图的视差图来自相同的输入和相同的网络。这种现象在所有非对称因素下都可以观察到这清楚地表明,对于分辨率不对称的立体匹配,损失计算期间的不对称性而不是输入的不对称性具有主导性影响。一种可能的解决方案,以弥补光度不一致-12966×·目的是通过SR技术恢复LR右视图I r↑,使其接近IR。然而,对于不同的现实世界系统,无论是现实的对(I r↑,I R)还是从I R到I r↑的显式退化都不能容易地用于训练SR模型。因此,这种解决方案可以在适当模拟的数据上表现得很好,但在实践中失去了效力。鉴于表1中的结果,我们提出从一个新的角度来克服“不对称损失”的挑战 一方面,退化不可知空间可以建立另一种一致性(即,特征度量一致性)以避免光度不一致。另一方面,匹配特定空间可以为属于不同场景点的像素分配不同的值,因此适合于惩罚不正确的匹配。现在剩下的问题是:如何学习所需的特征空间?4. 分辨率非对称立体匹配4.1. 特征空间研究回顾表1中的结果,其揭示了在S3的设置下训练的立体匹配网络的特征提取器在从非对称输入中提取对称特征方面表现良好虽然S3在实践中并不成熟,但它表明了一种潜在的替代品,即。S1的特征提取器采用相同的输入,用于获得期望的特征空间。为了验证这一假设,我们进行了另一系列的实验。除了S1之外,我们还研究了用于几何任务的其他两个代表性特征空间:1)如[35]中使用对比损失(表示为CL)训练的特征网络,以及2)如[34]中的自动编码器网络的编码器(表示为AE)。这两个网络的详情载于补编。所有上述网络都是在s= 4的Inria SLFD数据集上进行预训练的。此外,我们还包括原始图像空间进行比较。我们通过计算由相应网络从IR及其退化版本Ir↑中提取的特征映射之间的PSNR度量来评估不同空间的退化不可知性基于像素强度计算图像空间中的PSNR。请注意,不同空间中的值被归一化为[0,1],以使PSNR结果的比较有意义。另一方面,对于匹配特定的属性,我们直接在不同的空间中执行从IL和Ir↑具体来说,我们制定了一个匹配成本计算的欧氏距离的两个特征向量在一个给定的差距。然后采用Winner-Takes-All策略在每个位置选择最小匹配代价得到视差图。对于图像空间,我们进行匹配的5 - 5补丁的基础上。然后使用3PE度量来评估所获得的视差图。表2.评价Inria SLFD数据集上不同空间的PSNR(dB)和3PE(%)中的退化不可知属性图像CL AE S1 PSNR↑ 24.65 44.18 23.23 28.003PE↓ 55.3 68.90 39.22 20.91表2给出了不同空间的PSNR和3PE结果。虽然CL呈现最高的PSNR值,但它在3PE方面表现最差换句话说,CL是最退化不可知的但最不匹配特定的,这可以归因于由特征网络提取的模糊特征图。由于正则化损失,AE可以学习用于匹配的相对有区别的特征,但是它不强加IR和Ir↑的特征图之间的一致性,从而导致最低的PSNR值。与光度一致性被降级破坏的图像空间相同,S1的特征空间可以为IR和Ir↑分配更一致的特征(具有显著更高的PSNR值)。同时,该特征空间对于执行IL和Ir↑之间的匹配比其他特征空间更具区分性(具有最佳的3PE结果)。最后,我们验证了一个立体匹配网络的特征提取器可以接近理想的特征空间,即使训练的“非对称损失”。在补充部分中提供了对这一部分的更多分析和不同特征图的可视化。4.2. 度量一致性学习图3示出了我们提出的用于分辨率不对称立体匹配的方法,其遵循如第2节所述的无监督学习的典型管道。第3.1条注意,这项工作的重点不是设计一个特定的立体匹配网络,而是实现特征度量的一致性,以避免光度不一致。因此,我们采用流行的PSMNet [5]作为立体匹配网络的骨干,其可以容易地被其他实施例替 换 ( 参 见 第 12 节 ) 。 5.3 对 于 iResNet 的 实 施 例[22])。如图3(a)所示,立体匹配网络Φ(·;θF,θM)包括特征提取器ΦF(·;θF)和匹配模块ΦM(·;θM)。在一个立体像对IL和Ir↑ 中,ΦF(·;θF)提取了与梯度无关的匹配特征F L=ΦF(I L;θ F)和F r↑=ΦF(I r↑;θF),它们在相应的非对称像素(pL和pr↑)处应该是一致的,即. 、F L[pL]= F r↑[pr↑]。(四)然后,将特征FL和Fr↑连接成由ΦM(θM)正则化的成本体积,以回归视差图dL。根据SEC的调查。4.1,我们提出使用立体匹配网络12967LFL·L·L··LLFMLFFMFMLΦFMFMLFFMMFMFLL·ℒ������−1Φ������ Φ������FΦ������−1F(b)第(1)款图3.提出了分辨率非对称立体匹配方法。(a)利用立体匹配网络Φ的特征提取器ΦF来建立特征度量一致性并制定特征度量损失fm。(b)引入自提升策略以逐步加强特征度量一致性并不断提升网络Φ。具体地说,在前面的计算中得到的Φk−1stage公式化Lk−1以在当前阶段训练Φk,并且初始Φ0用光度损失Lpm训练。FM其自身产生用于计算特征度量损失的期望特征空间。具体地说,在获得具有d L的扭曲左视图Ir↑→L之后,使用特征提取器ΦF(·;θF)将I L和I r↑→L投影到特征空间,产生F L和F r↑→L=ΦF(I r↑→L;θ F)。因为FL应该F表3.在Inria SLFD数据集上验证自增强策略评估3PE(%)度量。不对称级数k因子s0 1 2 3由Fr↑→L 如果dL据估计,我们可以用公式表示特征度量损失与重建误差,类似于等式中的光度损失pm。(3)表示为Lfm=<$FL−Fr↑→L<$1+α ( 1−SSIM ( FL , Fr↑→L))。(五)4.3. 自我提升策略如SEC所示。4.1,即使用光学损失pm训练的立体匹配网络Φ(; θ F,θ M),其特征提取器ΦF(;θ F)也能逼近期望的特征空间。尽管如此,当网络由更准确的损失(例如,,fm),相应的ΦF(; θF)提取更多的退化不可知的和匹配特定的特征,其可以用于增强特征度量一致性并制定更好的fm。作为回报,fm可以进一步提高Φ(; θ F,θ M)。为此,我们提出了一种自提升策略,以逐步优化特征提取器并不断提升网络。图3(b)说明了我们方法的训练过程。给定一个分辨率不对称的立体数据集,我们首先使用pm来 训 练 立 体 匹 配 网 络 Φ ( θ0 , θ0 ) ( 简 称 为Φ0),其特征提取器Φ0用公式表示特征度量损失L0。然后,利用L0来微调新的立体匹配网络Φ1,其被初始化为Φ0。在Φ1的微调过程中,用于计算的特征提取器0是固定的. 经过微调,一个增强的特征提取器1表示更好的特征度量损失1,其用于下一个训练阶段。 按照这种方式,我们迭代地微调Φk,逐步提升k−1(k= 1,...,K)。请注意,我们只制定一个新的培训k-1,因为频繁地改变损失空间会使训练过程不稳定。通过这种自增强策略,我们可以获得不断优化的网络,并逐步加强特征度量的一致性。详细算法见附录。为了验证所提出的策略,我们评估了立体匹配网络在不同阶段的性能,在Inria SLFD数据集上,s=4。从表3中可以看出,网络随着阶段的增加而逐步改进它反映了所使用的特征提取器在下一个阶段中,增强了特征度量的一致性。此外,有了这样的策略,我们的方法仍然有效的大退化。我们用两个较大的非对称因子(s= 6,8)验证了这一主张。如表3所示,当不对称因子增加时,由于更严重的光度不一致性,初始网络(k=0)的性能显著恶化然而,由于自我提升策略,该网络最终达到了不错的5. 模拟数据集5.1. 数据集和评估指标为了定量评估我们的方法的性能,我们模拟了四个分辨率不对称的立体数据集,两个来自广泛使用的立体数据集Middle- bury [14]和KITTI 2015 [28],两个来自光场数据集Inria SLFD [32]和HCI [16],两个视图之间的基线较窄,更接近配置。损失Lk当网络Φk相对于在智能手机上为了模拟不同的退化Φ������−1FΦ������F公司简介FLIL共享Φ������ℒ������������共享度量一致性ℒ������−1Φ������匹配模块I↑���→LF↑→L���F我的天我的天���特征提取器立体匹配网络������经纱Φ������−1F(一)成本量Φ0Φ0ℒ������������Fℒ0Φ1Φ1FΦ0F. . -是412.569.227.807.70621.4713.9210.549.88827.9318.4714.3013.3012968L表4.在四个分辨率不对称的立体数据集上比较不同的方法,模拟的不对称因子为4,并在各种退化情况下。评价3 PE(%)/EPE指标。对于SR解决方案,标记为灰色的结果表示其假设的退化与实际退化不一致。最好的结果用粗体字突出显示。方法Inria SLFD米德尔伯里BICIGAGIG JPEGAG JPEGBICIGAGIG JPEGAG JPEGSGM12.41/1.849 16.88/2.316 14.85/2.127 16.93/2.318 14.94/2.1348.87/1.53511.70/1.822 10.35/1.696 11.94/1.84410.60/1.713BaseNet12.56/1.680 16.75/2.158 15.27/1.996 16.42/2.029 13.40/1.8448.72/1.3639.50/1.4828.89/1.41610.27/1.6138.61/1.414RCAN+BaseNet8.89/1.28714.40/1.842 12.34/1.604 13.94/1.796 12.01/1.6126.76/1.1899.14/1.4257.86/1.2879.46/1.4428.72/1.381DAN+BaseNet9.91/1.37410.99/1.464 10.51/1.464 12.97/1.785 11.56/1.5836.90/1.1876.70/1.2047.18/1.2318.95/1.4508.35/1.344BaseNet+CL12.97/1.700 16.74/2.186 17.36/2.089 17.46/2.236 18.08/2.2638.13/1.43011.25/1.649 11.62/1.679 12.45/1.81710.06/1.631BaseNet+AE10.47/1.478 15.17/1.984 13.63/1.840 15.14/1.947 14.29/1.9276.95/1.2448.47/1.3847.80/1.3569.47/1.4598.06/1.358我们7.70/1.1489.01/1.3378.44/1.2499.65/1.4188.47/1.2885.78/1.0886.52/1.1786.38/1.1727.04/1.2047.05/1.203HCIKITTI2015SGM7.04/1.0939.85/1.4268.50/1.27310.02/1.4258.62/1.27830.71/4.001 38.90/5.043 36.01/4.659 39.04/5.040 36.14/4.660BaseNet5.95/0.8919.91/1.2138.03/1.0689.82/1.1897.88/1.08311.32/2.014 17.37/2.531 13.85/2.243 15.31/2.311 14.66/2.314RCAN+BaseNet5.34/0.7177.23/0.9946.62/0.8938.18/1.0547.70/1.0529.94/1.84613.30/2.141 10.98/1.937 13.31/2.162 11.95/2.052DAN+BaseNet5.48/0.7155.32/0.7816.23/0.8307.86/0.9886.56/0.98410.06/1.938 10.31/1.856 10.31/1.892 12.71/2.089 11.39/1.973BaseNet+CL7.80/0.9908.68/1.1248.74/1.1449.35/1.2238.29/1.13717.04/2.472 31.03/3.388 20.00/2.676 21.12/2.733 22.30/2.902BaseNet+AE5.13/0.8186.30/1.0185.51/0.9227.15/1.0795.56/0.97310.53/1.911 15.25/2.316 13.25/2.102 15.05/2.219 13.42/2.122我们4.08/0.6374.56/0.7014.21/0.6704.58/0.7194.35/0.7098.66/1.80110.08/1.9019.70/1.84810.62/1.9489.82/1.874在现实世界的系统中,我们执行五种不同的降级操作来合成LR视图,包括双立方下采样(BIC)、各向同性/各向异性高斯核下采样(IG/AG)和具有JPEG压缩的各向同性/各向异性高斯核下采样(IG JPEG/AGJPEG)。每个数据集的训练/测试划分和不同高斯内核的生成的细节对于性能评估,我们采用两个标准度量进行立体匹配,3像素误差(3PE)[28]和端点误差(EPE)[27]。3PE是误差超过3个像素的预测视差的百分比和它们的地面实况视差的5%,而EPE是估计的和地面实况视差之间的平均绝对差5.2. 比较方法为了进行比较,我们采用了经典的立体匹配方法半全局匹配(SGM)[13]和几种可分为两类的无监督方法第一类包括三种使用光度损失的解决方案。除了在S1设置下训练的基线无监督网络(表示为BaseNet)之外,如第2节所述。3.2,我们进一步使用最先进的非盲SR方法RCAN [48]和盲SR方法DAN[26]将LR 视图作为 预处理进行超 解析,分别称为RCAN+BaseNet和DAN+BaseNetRCAN模型是在大规模数据集DIV2K [1]上针对SR在BIC降级下训练的,而DAN模型是在DIV2K上的一组降级下训练的,包括BIC,IG第二类包括两种特征度量学习方法[34,35],它们也采用基线网络,但在相应的特征空间中施加特征度 量一致 性, 如第 2节所 述。 4.1,分 别表示 为BaseNet+CL和BaseNet+AE。请注意,除非使用SR模型,否则将应用对LR视图进行上采样。所有基于学习的解决方案的骨干网络是流行的PSMNet [5]。该网络使用ADAM求解器进行优化(β1= 0. 9,β1 = 0。999)。我们将学习率设置为0.001。对视差的平滑度约束由加权平滑度损失[ 19 ]强制执行,即、Lsm= |2000年4月|e−|阿克斯IL|+的|埃克塞特湖|e−|阿吉岛|.(六)因此,所有基于学习的解决方案的总体损失函数可以写为L=Lpm/fm+λLsm,(7)其中λ是加权因子,pm/fm或者是第一类方法的光度损失,或者是第二类方法和我们的方法的相应特征度量损失。自增强策略中的级数K被设置为3。在补充中提供了骨干网络的详细架构和不同方法的超参数。5.3. 结果定量结果。表4显示了不同方法在四个模拟数据集上的比较结果,其中不对称因子为4。与没有假设特定退化的 方 法 ( SGM 、 BaseNet 、 BaseNet+CL 和BaseNet+AE)相比,我们的方法在所有数据集上和所有退化下都具有明显的优势。虽然BaseNet+CL/AE也采用了特征度量损失,但性能仅与BaseNet相当甚至不如BaseNet。它告诉找到一个退化不可知的和匹配特定的特征空间是不平凡的。与特定于降级的SR解决方案RCAN+BaseNet和DAN+BaseNet的比较应该从两个方面进行解释。一方面,当实际降级与他们假设的一致时(RCAN的BIC和12969左图像SGMBaseNet RCAN+BaseNet DAN+BaseNetBaseNet+CLBaseNet+AE我们地面实况图4.来自Middlebury和HCI数据集的两个示例场景的视差图第一个场景(驯鹿)是在IG JPEG降级下模拟的,而第二个场景(枕头)是在AG JPEG降级下模拟的。表5.在不对称因子为8的模拟数据集和BIC退化下比较不同方法。方法Inria SLFDHCIMiddleburyKITTI2015SGM34.00/3.97927.57/3.06324.72/2.609 57.56/8.83 BaseNet27.93/2.96323.21/2.16415.33/2.04938.88/4.673RCAN+BaseNet21.17/2.44211.54/1.33111.28/1.72925.92/3.159BaseNet+CL32.49/3.33715.16/1.58916.51/2.12953.28/5.571BIC/IG/AG用于DAN),我们的方法在大多数情况下具有更好的性能,但改进并不大。另一方面,当实际退化与其假设不一致时(表4中标记为灰色),我们的方法明显优于这些SR解决方案。也就是说,SR解决方案将失去效力时,退化是未知的,在现实世界的情况下。目视检查结果。 我们在图4中提供了来自HCI和Middlebury数据集的两个示例场景的可视化结果。可以看出,我们的方法获得了更稳健的结果,特别是在深度不连续的区域。在这些区域中,对应性估计是基于光度一致性的解决方案的挑战,因为匹配模糊度即使借助于SR技术也不能解决相比之下,在退化不可知和匹配特定特征空间中施加的特征度量一致性下,我们的方法比BaseNet+CL/AE更好地揭示了测试场景的3D几何形状。大不对称因子。为了评估不同方法2在大退化情况下的性能,我们在非对称因子为8和BIC退化情况下模拟的不同数据集上进行实验。从表5中可以看出,我们的方法大大超过了所有的比较方法,与表4中的结果相比,改进甚至更大。对于使用光度损失的方法,由于更严重的光度不一致,其性能进一步2DAN [26]没有正式提供尺度8的模型表6.在Middlebury和KITTI2015数据集上与监督学习进行比较,模拟的非对称因子为4,并且在IG降级下。培训测试BaseNet-suBaseNetOursMiddlebury 米 德 尔 伯里4.05/0.9069.50/1.4826.52/1.178米德尔伯里KITTI201519.46/3.96516.98/2.54113.14/2.280表7.对骨干网的调查* 表示PSM- Net [5]被iResNet [22]取代。在BIC降级下,用不对称因子4模拟数据集。方法Inria SLFDHCI米德尔伯里KITTI2015基本网络18.80/2.41118.58/1.96410.92/1.76917.82/2.549我们的9.83/1.4075.83/0.8668.39/1.38210.86/1.960tency.相比之下,由于自提升策略,我们的方法逐步加强特征度量一致性,从而保持卓越的性能。与监督学习的比较这项工作的重点是无监督学习,它在训练期间不需要地面实况差异标签,并且在不同的现实世界系统中部署时更加强大。为了验证这一点,我们还实现了一种监督方法,该方法使用与我们相同的骨干网络,但利用地面真实差异来计算平滑的L1损失 [5] ( 表 示 为 BaseNet-su ) 。 我 们 在 Middlebury 和KITTI 2015数据集上进行实验,其中IG退化下的不对称因子为4对于这两个数据集,网络都是在Middlebury上 训 练 的 。 由 于 KITTI2015 由 街 道 场 景 组 成 , 而Middlebury由室内场景组成,这两个数据集具有很大的域差距。如表6所示,当在Middlebury上训练并在相同数据集上测试时,BaseNet-su具有最佳性能,这是合理的。然而,当在Middlebury上训练并在KITTI 2015上测试时,监督方法失去了效力,并且我们的方法实现了明显更好的泛化,证明了我们的方法在现实世界场景中的鲁棒性,其中视差标签不可用于训练。主干网的研究。除了PSM-HCI米德尔伯BaseNet+AE27.11/2.84712.13/1.45014.30/2.02030.81/3.299我们13.30/1.7636.17/1.0089.90/1.58419.10/2.545129701416182022242628左图像SGM1820222426283032BaseNet RCAN+BaseNet DAN+BaseNet BaseNet+CL BaseNet+AE Ours图5.来自自我收集的真实世界数据集的两个示例场景的视差图颜色条显示视差的值Net采用3D卷积层,我们还研究了iResNet [22]作为我们方法的骨干网络的另一个实施例,它纯粹基于2D卷积层。实验是在BIC降解条件下进行的,不对称因子为4。如表7所示,我们的方法的iResNet版本在所有数据集上都显示出比使用摄影损失训练的基线网络有显著的增益。它表明,iResNet的特征提取器还学习退化不可知和匹配特定的特征,这些特征可用于建立特征度量的一致性。换句话说,我们的方法的有效性与所使用的骨干网络无关6. 真实世界数据集数据集准备。为了验证我们的方法在现实世界的系统中的性能,我们收集了一个分辨率不对称的立体数据集与真正的退化。非对称立体声对是用华为P30智能手机捕获的。这款智能手机配备了一个远距相机系统,包括一个27毫米等效的主镜头和一个80毫米等效的远摄镜头。不对称因子约等于3。经过摄像机标定和立体校正,我们捕获了30个室内和室外场景的不对称立体对。我们随机分成5对作为测试集,其他的作为训练集。结果如图5所示,与竞争对手相比,我们的方法实现了最佳的视觉质量。与模拟数据集上的结果类似,我们的方法估计更清晰的边缘,并更好地分离属于不同深度级别的对象这一优势对于下游应用至关重要,例如散景[38]和3D摄影[33]。相比之下,使用光度损失的方法将来自输入图像的一些不期望的纹理复制到估计的视差图(例如,这个表面上,Brella),这主要是由在立体匹配期间的光度学不一致引起的。这两种SR解决方案都显示出与基线网络相比可以忽略不计的改进,因为它们的退化假设偏离了真实的退化假设。此外,其他两种方法使用的特征度量损失产生不令人满意的结果,由于其不称职的特征空间。更多的结果在补充中提供7. 局限性和结论限制. 除了分辨率之外,还可能存在其他类型的不对称性(例如,颜色和亮度)。当收集真实世界的数据集时,我们手动调整ISO、曝光时间和两个镜头的白平衡以缓解这些问题。虽然它们可以通过全局配准后的显式颜色和亮度校正来进一步缓解,但通过扩展所提出的方法是否可以直接解决其他类型的不对称性仍然是一个悬而未决的问题。我们将把它作为今后的工作。结论在本文中,我们揭示了分辨率不对称立体图像的无监督对应估计的主要挑战,即。违反了摄影测量的一致性。为了克服这一挑战,我们实现了特征度量的一致性,在一个有效的和高效的方式,并引入了一个自我提升的策略,以加强这种一致性。通过综合实验验证,我们的方法在处理两个视图之间的各种退化在实践中表现出优越的性能。确认我们感谢国家重点研发计划(2017YFA0700800)和 国 家 自 然 科 学 基 金 ( 62131003 、 62021001 、61901435和U19B2038)的资助。12971引用[1] Eirikur Agustsson和Radu Timofte。Ntire 2017单图像超分辨率挑战:数据集和研究。在CVPR研讨会,2017。6[2] 菲利波·阿莱奥蒂,法比奥·托西,张莉,马特奥·波吉和圣法诺·马托西亚.逆转循环:通过增强的单眼蒸馏实现自我监督的深度立体声。在ECCV,2020年。2[3] Adrian Bulat,Jing Yang,and Georgios Tzimiropoulos.要学习图像超分辨率,请首先使用gan学习如何进行图像降级。在ECCV,2018。1[4] Jianrui Cai,Hui Zeng,Hongwei Yong,Zisheng Cao,and Lei Zhang.迈向真实世界的单图像超分辨率:一个新的基准和一个新的模型。在CVPR,2019年。2[5] 张嘉仁和陈永生。金字塔立
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功