立体视差注意力的图像超分辨率

184 浏览量更新于2023-10-20 收藏 698KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1学习视差注意力的立体图像超分辨率王龙光1，王颖倩1，梁正发2，林再平1，杨俊刚1，魏安1，郭玉兰1国防科技大学电子科学技术学院2盲信号处理科学与技术国家重点实验室{wanglongguang15，yulan. guo}@ nudt.edu.cn摘要立体图像对可用于提高超分辨率（SR）的性能，因为从第二视点提供附加信息。然而，由于立体图像之间的差异显著地变化，因此将该信息并入SR是具有挑战性的。在本文中，我们提出了一个松弛注意立体超分辨率网络（PASSRnet）集成的信息，从立体图像对SR。具体来说，我们引入了一个全局的接收场沿极线的视差注意机制，以处理不同的立体图像与大的视差变化。我们还提出了一个新的和最大的数据集立体图像SR（即，Flickr1024）。大量的实验表明，视差注意机制可以捕捉立体图像之间的对应关系，以提高SR的性能与一个小的计算和内存成本。比较结果表明，我们的PASSRnet在Middlebury，KITTI 2012和KITTI 2015数据集上达到了最先进的性能。1. 介绍超分辨率（SR）旨在从低分辨率（LR）图像重建高分辨率（HR）图像。从单个镜头恢复HR图像是一个长期存在的问题[1，2，3]。最近，双摄像头在手机和自动驾驶汽车中变得越来越流行。已经证明，LR立体图像中包含的子像素移位可以用于改善SR性能[4]。然而，由于立体图像之间的差异对于不同的基线、焦距、深度和分辨率可能显著变化，因此将立体对应性并入SR是高度具有挑战性的。传统的多图像SR方法[7，8]使用图像之间的补丁重现来获得对应性。然而，这些方法不能利用亚像素对应，并且它们的计算成本是高的。最近的基于CNN的框架[9，10，11]结合了光流估计和SR双三次SRCNN LapSRNStereoSR我们的Groundtruth图1：通过双三次插值，SRCNN [1]，LapSRN [5]，StereoSR [6]和我们的2×SR网络以解决视频SR问题。然而，这些方法不能直接应用于立体图像SR，因为视差可能比它们的感受野大得多。研究了立体匹配以获得立体图像对之间的对应性[12，13，14]。最近基于CNN的方法[15，16，17，18]在其网络中使用3D或4D成本量来模拟立体图像对之间的长距离依赖性。直观地，这些基于CNN的立体匹配方法可以与SR集成以提供准确的对应。然而，基于4D成本体积的方法[15，16]遭受高计算和存储器负担，这对于立体图像SR是不可承受的。尽管基于3D成本体积的方法[17，18]的效率得到了提高，但是这些方法不能处理具有大的视差变化的立体图像，因为固定的最大视差被用于构建成本体积。最近， Jeon 等人提出了一种立体 SR 网络（StereoSR）[6]，使用图像堆栈为SR提供对应线索具体地，通过将左图像和通过以不同间隔移位右图像而生成的图像连结来获得图像堆栈然后获得视差偏移和HR图像之间的直接映射。然而，该方法对于不同传感器和场景的灵活性是有限的，因为最大允许视差是固定的（即，，64 in [6]）。1225012251在本文中，我们提出了一个视差注意立体SR网络（PASSRnet），将立体声对应的SR任务。给定立体图像对，首先使用残差空间金字塔池（ASPP）模块来生成多尺度特征。然后，这些特征被馈送到视差注意模块（PAM）以捕获立体声对应。对于左图像中的每个像素，计算其与右图像中所有可能的视差的特征相似性以生成注意力图。因此，我们的PAM可以捕捉全球的对应关系，同时保持高度的灵活性。然后，执行注意力驱动的特征聚合以更新左图像的特征最后，这些特征用于生成SR结果。在KITTI 2015数据集上进行消融研究，以测试我们的PASSRnet。在Middlebury，KITTI 2012和KITTI 2015数据集上进行了进一步的比较实验，以证明我们的网络的优越性能1）。我们的主要贡献可概括如下：1）提出了一种结合立体声对应的超分辨率PASSRnet网络; 2）我们引入了一种通用的视差注意机制，该机制具有沿极线的全局感受野，以处理具有大视差变化的不同立体图像。结果表明，放松注意机制可以有效地产生可靠的对应关系，以提高SR性能; 3）提出了一个新的数据集Flickr1024，用于训练立体图像SR网络。Flickr1024数据集由1024个高质量立体图像对组成，覆盖了多样化的场景;4）与目前的单图像SR和立体图像SR方法相比，我们的PASSRnet达到了最先进的性能。2. 相关工作在本节中，我们简要回顾了SR和远程依赖学习的几个主要工作2.1. 超分辨率自超分辨率卷积神经网络（SRCNN）的开创性工作以来，基于学习的方法主导了单图像SR的研究。Kim等人。[19]提出了一种具有20个卷积层的非常深的超分辨率网络（VDSR）。Tai等人 [20]开发了一种深度递归残差网络（DRRN）来控制模型参数。最近，Zhang等人。 [21]提出了一种残差密集网络（RDN），通过连续记忆机制促进有效的特征学习Video SR Liao等人[22]介绍了第一个用于视频SR的CNN。他们进行运动补偿，吃SR草案的系综，然后采用CNN从系综重建HR帧。Caballero等人[9]Incor提出了一个端到端的视频SR框架用SR模块来移植运动补偿模块。Tao等人。 [10]将编码器-解码器网络与LSTM集成，以充分使用时间对应。这种体系结构进一步促进了时间上下文的提取。由于相邻帧之间的对应关系主要存在于局部区域内，因此视频SR方法专注于利用局部依赖性。因此，由于立体图像中的非局部和长程依赖性，它们不能直接应用于立体图像SR光场成像SR光场成像可以以空间分辨率为代价来捕获光的任意角度信息。为了提高空间分辨率，Yoon等人[23]引入了第一个光场卷积神经网络（LFCNN）。Yuan等人。 [24]提出了一种具有单个图像SR模块和对极平面图像增强模块的CNN框架。为了对相邻子孔径的图像之间的对应关系进行建模，Wang等人。[25]开发了一种双向递归CNN。他们的网络使用隐式多尺度特征融合方案来累积SR的上下文信息。注意，这些方法是专门针对具有短基线的光场成像提出的。由于立体成像通常具有比光场成像大得多的基线，因此这些方法不适合于立体图像SR。立体图像SRBhavsar等人。 [26]认为图像SR和HR深度估计在立体设置下交织在一起。因此，他们提出了一种集成的方法来联合估计SR图像和HR视差从LR立体图像。最近，Jeon等人 [6]提出了一种采用视差先验的Stere-oSR。给定立体图像对，右图像以不同的间隔移位并与左图像协调以生成立体张量。然后将张量馈送到普通CNN，以通过检测视差通道内的相似块来生成SR结果。然而，StereoSR不能处理具有大视差变化的不同立体图像，因为移位的右图像的数量是固定的。2.2. 远程依赖学习为了处理具有用于SR的不同分辨率的不同立体图像，应当捕获立体图像中的长程依赖性在本节中，我们将回顾两种类型的远程依赖学习方法。成本体积成本体积广泛应用于立体匹配[15，16，17]和光流估计[27，28]。对于立体匹配，几种方法[15，16]使用朴素级联来构建4D成本体积。这些方法跨所有视差将左特征图与其对应的右特征图连接以获得4D成本体积（即，高度×宽度×视差×通道）。然后，3D CNN通常用于匹配成本学习。怎么-然而，从4D成本量中学习匹配成本会遭受高计算和存储负担。到12252B图2：PASSRnet的概述。实现更高的效率，点积用于减少特征尺寸[17，18]，导致3D成本体积（即，高度×宽度×视差）。然而，由于3D成本量的固定最大差异，这些方法是不合理的。能够处理具有大的视差变化的不同立体图像对自我注意机制注意机制已被广泛用于捕获长期依赖性[29，30]。对于自我注意机制[31，32，33]，空间和/或时间域中所有位置的加权和被计算为位置处的响应。通过矩阵乘法，自我注意机制可以捕获任何两个位置之间因此，长距离相关性可以建模，而计算和存储成本只会有很小的增加。自注意机制已成功地应用于图像建模[32]和语义分割[33]。最近的非局部网络[34，35]也有类似的想法，可以被认为是自我注意机制的推广。注意，由于自注意机制对整个图像上的依赖性进行建模，因此将这些机制直接应用于立体图像SR涉及不必要的计算。受自我注意机制的启发，我们开发了一种视差注意机制来模拟立体图像中的全局依赖。与成本相比，我们的视差-注意机制更加灵活和高效.与自注意机制相比，该机制充分利用了极线约束，减少了搜索空间，提高了搜索效率。此外，视差注意机制迫使我们的网络专注于最相似的特征，而不是收集所有相似的特征来生成对应关系。研究表明，视差-注意机制可以产生可靠的改善SR性能的通信（第4.3.1节）。3. 方法我们的PASSRnet以立体图像对作为输入，并超分辨率的左图像。我们的PASS-Rnet的架构如图所示. 2和表1所示。3.1. 残差Atrous空间金字塔池（ASPP）模块具有丰富上下文信息的特征表示对于对应性估计是重要的[16]。因此，需要大的接收场和多尺度特征学习来获得有区别的表示。为此，我们提出了一个残余的ASPP模块，以扩大感受野和提取层次特征与密集的像素采样率和规模。如图在图2（a）中，我们的残差ASPP模块通过将残差ASPP块与残差块交替地级联来构造。首先将输入特征馈送到残差ASPP块以生成多尺度特征。然后将这些结果特征发送到残差块进行特征融合。该结构重复两次以产生最终特征。在每个剩余ASPP块内（如图2（b）所示），我们首先组合三个扩张卷积（扩张率为1，4，8）以形成ASPP组，然后以剩余方式级联三个ASPP组。我们的残余ASPP块不仅扩大了感受野，而且丰富了卷积的多样性，导致具有不同感受区域和扩张率的卷积的由我们的残余ASPP模块学习的高度区分性特征有益于整体SR性能，如第2节所示。4.3.1.B一分辨率转换Qblock2 2_a共享权重MA→BresB2锁conv2_bcon2_cOSRMB→A一B（c）平行注意模块4个残余块左图像共享权重共享权重...超分辨率左图像右图像（a）总体框架剩余ASPP模块（b）剩余ASPP区块元素加法矩阵乘法扩张卷积softmax有效的掩码一代融合1x1转换resASPP1_bresblock1_aresASPP1_aconv0PamresASPP1_bresblock1_aresASPP1_aresblock0Convd=8conv0Convd=4Convd=11x1转换Convd=8Convd=4Convd=11x1转换resblock0Convd=8Convd=4Convd=1resblock1_bresblock1_b重新块3_areblock3_d子像素conv3_b12253左权表1：PASSRnet的详细架构。LReLU表示泄漏因子为0.1的泄漏ReLU，dila表示膨胀率，表示分批矩阵乘法，并且s是放大因子。我们的地面真相图 3 ：我们的 PAM 生成的注意力地图 Mright→left 和groundtruth之间的视觉比较。这些注意力地图（100×100）对应于左图中蓝色和粉色笔画标记的区域（1×100其对应的局部特征A.由于PAM可以使用特征相似性逐渐聚焦于精确视差处的特征，因此可以捕获对应性注意一旦MB→A准备好了，A和B就被交换为亲，3.2. 视差注意模块（PAM）受自我注意机制[32，33]的启发，我们开发了PAM以捕获立体图像中的全局对应。我们的PAM有效地整合了立体图像对的信息。并行注意机制我们的PAM的架构如图所示。第2段（c）分段。给定两个特征图A，B∈RH×W×C，将其输入到过渡残差块中，生成A0和B0. 然后将A0送入1× 1卷积层，生成查询特征图Q∈RH×W×C. 同时，B0被馈送到另一个1×1卷积层生成S∈RH×W×C，然后将其整形为对于有效掩码生成，将MA→B减去（如下所述）。最后，堆叠的特征和有效的掩模被馈送到1×1卷积层进行特征融合。与自我注意机制[32，33]不同，我们的注意力分散机制迫使我们的网络沿着极线聚焦于最相似的特征，而不是收集所有相似的特征，从而产生稀疏的注意力图。我们的PAM和地面实况生成的视差注意力地图之间的比较如图所示3. 注意，Mright→left（i，j，k）表示右图像中的位置（i，k）对左图像中的位置（i，j）因此，注意力地图中的模式可以反映立体对之间的对应关系，并且还对视差信息进行编码。有关更多详细信息，请参阅补充材料。可以观察到，我们的PAM产生类似于地面实况的模式，这表明我们的PAM可以捕获可靠的立体对应。应该指出的是，我们的PASSRnet可以被认为是一个多任务网络，学习立体声对应和SR。然而，将共享特征用于不同的任务通常会遇到训练冲突[36]。因此，在我们的PAM中引入了过渡块来缓解这个问题。过渡块的有效性在第2节中说明。4.3.1.&给定从LR立体图像对（IL）RH×C×W。批量矩阵乘法，然后每-L权），两放松注意地图（M左→右，在Q和S之间形成，并应用softmax层，从而产生视差注意力图MB→A∈RH×W×W。更多详情，请参阅补充材料-M右→左）可以由PAM生成。理想情况下，如果我们的PAM捕获了准确对应：.里亚尔. 接下来，B被馈送到1×1卷积以生成R∈RH×W×C，再乘以MB→A，L左L=M右→左ILL、（1）产生特征O∈RH×W×C。作为所有可能差异处的特征的加权和，然后将0与Iright=Mleft→rightIleft其中表示分批矩阵乘法。基于我我名称设置输入输出输入高×宽×3高×宽×3conv03×3LReLU高×宽×3高×宽×64resblock0Σ3×3Σ3×3高×宽×64高×宽×64剩余ASPP模块resASPP1 aΣ3×33×33×3ΣLReLU，LReLU，LReLU×3dila=1dila=4 dila=81×1高×宽×64高×宽×64再阻塞1 aΣ3×3Σ3×3高×宽×64高×宽×64resASPP1 bΣ3×33×33×3ΣLReLU，LReLU，LReLU×3dila=1dila=4 dila=81×1高×宽×64高×宽×64再阻塞1 BΣ3×3Σ3×3高×宽×64高×宽×64平行注意模块resblock2Σ3×3Σ3×3高×宽×64高×宽×64Conv2 a1×1高×宽×64高×宽×64conv2 b1×1，整形高×宽×64高×64×宽Conv2 c1×1高×宽×64高×宽×64ATT映射conv2a conv2 b高×宽×64高×64×宽高×宽 ×宽multatt map高×宽 ×宽高×宽×64高×宽×64融合1×1高×宽×129高×宽×64CNNresblock3×4Σ3×3Σ3×3高×宽×64高×宽×64子像素1×1，像素重排高×宽×64sH×sW×64Conv3 b3×3sH×sW×64sH×sW×312254左左权LL图4：有效掩码的可视化两个左侧图像及其被遮挡区域（即，黄色区域）。包括光度损失、平滑损失和周期损失，以帮助网络充分利用立体图像之间的对应性。总损失函数用公式表示为：L=LSR+λ（L光度+L平滑+L周期），（5）其中λ根据经验设定为0.005。我们的网络在不同损耗下的性能将在第2节中进行分析第4.3.2条。SR损失均方误差（MSE）损失用作SR损失：¨ ¨2LSR=<$ISR−IH<$ 、（6）左左2在Eq. (1)，我们可以进一步推导出循环一致性：.在那里我H左代表SR结果和HRL左L权=M左→右→左L=M右→左→右IL、（二）左图像的地面实况。由于收集具有密集标记的地面实况差异的大型立体数据集是高度挑战性的，哪里的周期注意地图M左→右→左，M右→左→右可以计算为：.M左→右→左=M右→左左→右.（三）M右→左→右=M左→右右→左在这里，我们引入左右一致性和循环一致性来正则化我们的PAM的训练，以生成可靠和一致的对应关系。因此，我们以无监督的方式训练PAM请注意，如果地面实况差异可用，我们可以相应地生成地面实况注意力地图（更多细节请参见补充材料），并以监督的方式训练我们的PAM。在[37]之后，我们使用平均绝对误差（MAE）损失引入光度损失注意，由于在等式（1）中定义的左右一致性（1）仅在非遮挡区域成立，我们引入一张照片-由于左右一致性和循环一致性不适用于遮挡区域，因此我们使用遮挡度量损失为：L光度=Σ¨¨I（p）−（M右→左）I¨）（p）检测方法来生成有效的掩码。我们只在有效区域上强制一致性。在这张地图p∈V左→右Σ左¨L右1莱由我们的PAM生成（例如，，M左→右），观察到遮挡区域中的像素通常被分配有小的权重。因此，可以通过下式获得有效掩码V左→右∈RH×W+<$Iright（p）−（Mleft→right<$Ileft）（p）<$1，p∈V右→左（七）其中p表示具有有效掩码值的像素平滑度损失为了在-.Σ1，如果M（i，k，j）> τ，无纹理区域中的张力，定义Vleft→ right（i，j）=k∈[1，W]左→右在注意力地图上和M：0，否则，左→右右→左（四）其中τ是阈值（根据经验设置为0.1），W是立体图像的宽度图中示出了有效掩模的两个示例4.第一章根据放松注意机制，M左→右（i，k，j）表示PO的贡献L光滑Σ Σ=（<$M（i，j，k）−M（i+1，j，k）<$1+Mi，j，k<$M（i，j，k）−M（i，j+1，k+1）<$1），（八）将左图像中的位置（i，j）移动到右图像中的位置（i，k）。由于左图像中的被遮挡像素在右图像中不能找到它们的对应关系，因此它们的值（即，e. 、k∈[1，W]M左→右（i，k，j））通常较低。因此，我们将这些像素视为被遮挡的像素。在实践中，我们使用了几个形态操作来处理有效掩模中的孤立像素和孔洞。请注意，左侧其中M∈ {M左→右，M右→左}。第一和第二在Eq. (8)是用来实现垂直和水平注意力的一致性。除了光度损失和平滑损失之外，我们还引入了周期损失以实现周期一致性。由于M左→右→左和M右→左→右在方程。(2)可以被认为是单位矩阵，我们设计了一个cy-图像无法从右侧获得附加信息形象因此，进一步使用有效掩码V左→右来指导特征融合，如图2所示。第2段（c）分段。3.3. 损失我我我12255我们设计了四个损失的训练我们的PASSRnet。cle loss：L循环=Σp∈V左→右Σp∈V右→左<$M左→右→左（p）−I（p）<$1+<$Mright→ left→ right（p）−I（p）<$1，（九）除了SR损失之外，我们引入三个附加损失，其中I∈RH×W×W是H个单位矩阵的堆叠。12256表2：PASSRnet在KITTI 2015数据集上获得的4×SR不同设置的比较结果模型输入PSNRSSIM参数。时间单输入具有复制输入的左左右25.2725.290.7700.7711.32M1.42M114毫秒176毫秒PASSRnet无残留方式无无环卷积PASSRnet左右左右25.4025.380.7740.7731.42M1.42M176毫秒176毫秒无PAM的PASSRnet无过渡残差块的左右左右25.2825.360.7710.7731.32M1.34M135ms160MsPASSRnet左右25.430.7761.42M176毫秒4. 实验结果在本节中，我们首先介绍数据集和实现细节，然后进行消融实验来测试我们的网络。我们进一步比较我们的网络，最近的单图像SR和立体图像SR方法。4.1. 数据集对于训练，我们遵循[6]并将60个Mid-dlebury [38]图像降采样2倍以生成HR图像。我们进一步从Flickr上收集了1024张立体图像，构建了一个新的Flickr 1024数据集。该数据集被用作PASSRnet的增强训练数据。有关Flickr1024数据集的更多详细信息，请参阅补充材料为了进行测试，我们使用了来自Middlebury数据集的5张图像，来自KITTI 2012数据集的20张图像[39]和来自KITTI 2015数据集的20张图像[40]作为基准数据集。我们进一步从Flickr收集了10张近景立体图像（视差大于200），以测试我们的网络对大视差变化的灵活性为了验证，我们从KITTI 2012数据集中选择了另外20张图像4.2. 实现细节在训练阶段，我们首先使用双三次插值对HR图像进行下采样以生成LR图像，然后从这些LR图像中以20的步幅裁剪30 × 90块。同时，还裁剪了HR图像中的它们对应的块。水平补丁大小增加到90，以覆盖我们训练数据集中的大多数差异（约96%）。这些补丁随机翻转水平和垂直的数据增强。请注意，不执行旋转以维持对极线约束。我们使用峰值信噪比（PSNR）和结构相似性指数（SSIM）来测试SR性能。与[6]类似，我们裁剪边界以实现公平比较。我们的PASSRnet是在Pytorch中实现的，在一台配有Nvidia GTX 1080Ti GPU的PC上。使用Adam方法[41]优化所有模型，β1=0。9，β2=0的情况。999，批量为32 。初始学习率设定为2×10−4，每30个epoch后降低一半训练在80个epoch后停止，因为更多的epoch不提供进一步的一致改进。4.3. 消融研究在这一节中，我们提出了烧蚀实验，以证明我们的设计选择，包括网络架构和损失。4.3.1网络架构单输入与立体输入与单幅图像相比，立体图像对提供了从不同视点观察到的附加信息。为了证明立体信息对SR性能改善的有效性，我们从PASSRnet中删除了PAM，并使用单个图像（即，（左图）。为了进行比较，我们还使用复制的左图像对作为原始PASSRnet的输入表2列出了KITTI 2015数据集的结果与原始PASSRnet相比，用单个图像训练的网络此外，如果成对的复制左图像被馈送到原始PASSRnet，则PSNR值降低到25.29 dB。在没有立体图像引入额外信息的情况下，我们使用复制图像的PASSRnet实现了与使用单个图像训练的网络相当的性能。这清楚地表明，立体图像可以用来提高PASSR- net的性能残差ASPP模块残差ASPP模块在我们的网络中用于提取多尺度特征。为了证明残余ASPP的有效性，引入了两种变体首先，为了测试残余连接的有效性，我们将它们移除以获得级联ASPP模块。然后，为了测试atrous卷积的有效性，我们用普通卷积代替它们。从表2所示的比较结果中，我们可以看到SR性能受益于剩余连接和无环卷积。如果去除残余连接，则PSNR值从25.43 dB降低到25.40分贝。这是因为，残差连接使我们的残差ASPP模块能够在更多尺度上提取特征12257从而导致更鲁棒的特征表示。此外，如果用普通卷积代替原始卷积，则PSNR值从25.43dB降低到25.38dB.这是因为，atrous卷积的大接收场因此，可以获得更准确的对应以改善SR性能。引入了视差注意模块PAM来整合立体图像的信息。为了证明其有效性，我们引入了一个变体，通过移除PAM并直接堆叠剩余ASPP模块的输出特征。从表2可以观察到，如果去除PAM，则PSNR值从25.43dB降低到25.28dB。这是因为，左图像中的局部特征之间的长空间距离PAM中的Transition Block是为了缓解共享层中的训练冲突而引入的。为了证明转换块的有效性，我们将其从PAM中删除并重新训练网络。从表2可以观察到，如果转移块被移除，则PSNR值这是因为，过渡块增强了PAM中特定于任务的特征学习，并消除了共享层中的训练冲突因此，可以在共享层中学习更多PAM vs.成本体积成本体积和3D卷积通常用于获得立体对应关系[15，16]。为了证明我们的PAM在立体对应生成中的效率，我们用4D成本体积和两个3D卷积层（3×3×3）代替PAM。从表3可以观察到，我们的PAM具有小于成本量形成中的参数的一半。此外，我们的PAM实现了卓越的计算效率，FLOPs减少了150倍以上。使用PAM，我们的PASSRnet实现了更好的SR性能（即，PSNR值从25.23 dB提高到25.43 dB）和效率（即，运行时间减少了1.5倍）。这是因为，两个3D卷积层不足以捕获成本体积内的长程对应关系。然而，增加更多的层将导致计算成本的显著增加。4.3.2损失为了测试损失的有效性，我们使用不同的损失重新训练从表4中可以观察到，如果PASS-Rnet仅在SR损失的情况下训练，则我们的PASSRnet的PSNR值从25.43降低到25.35。这是因为，只有这种损失，我们的PAM学会了收集沿极线的所有相似特征，而不能专注于最表3：我们的PAM与4×SR的成本体积形成之间的比较FLOP 是在 128×128×64 输入特征上计算的，而时间/PSNR/SSIM值是在KITTI 2015数据集上获得的。模型参数。 FLOPs 时间 PSNR SSIMPam94K1×1×25.430.776成本量221K151×1 .一、5×25.230.768表4：我们的PASSRnet在KITTI 2015上获得的比较结果，使用4×SR的不同损失进行训练。模型LSRL测光L光滑L循环 PSNR SSIMPASSRnetC25.35 0.771PASSRnetCC25.38 0.773PASSRnetCCC25.40 0.774PASSRnetCCCC25.43 0.776类似特征以提供准确对应。此外，若加入光计量损失、平滑损失和循环损失，则性能逐渐改善.这是因为，这些损失鼓励我们的PAM生成可靠和一致的对应关系。总体而言，我们的PASSRnet实现了最佳性能（即，，PSNR=25.43 dB和SSIM=0.776）。4.4. 与最新技术我们将我们的PASSRnet与三个基准数据集上的一些基于CNN的SR方法进行了最近比较的单图像SR方法包括SRCNN [1]，VDSR [19]，DRCN [42]，LapSRN [5]和DRRN [20]。我们还将我们的 PASSRnet 与最新的立体图像 SR 方法StereoSR [6]进行了比较。这些方法的作者提供的代码被用来进行实验。注意，与[6，43]，EDSR [44]，RDN [21]和D-DBPN类似，[45]不包括在我们的比较中，因为它们的型号尺寸比我们的PASSRnet大至少8倍。定量结果在表5中示出定量结果。可以看出，我们的PASSRnet实现了在Middlebury、KITTI 2012和KITTI 2015数据集上的最佳性能。具体而言，与单一图像SR方法相比，我们的PASSRnet优于第二种方法最佳方法（即，，DRRN）在2×SR的Middlebury数据集此外，我们的网络实现的这是因为，我们的注意力分散机制可以捕捉到定性结果图5说明了两种情况下取得的定性结果。从放大区域可以观察到，单图像SR方法不能重新生成图像。12258表5：在Middlebury、KITTI 2012和KITTI 2015数据集上实现的比较PSNR/SSIM值。标有 * 的结果直接从相应的论文中复制请注意，KITTI 2012和KITTI 2015数据集上仅显示StereoSR的2×SR结果，因为4×SR模型不可用。数据集规模SRCNN [1]VDSR [19]单图像SRDRCN [42][5]第五章DRRN [20]立体图像SR美国[6]米德尔伯里（5张图片）×2×432.05/0.93527.46/0.84332.66/0.94127.89/0.85332.82/0.9413 2 . 7 5 /0.94027.93/0.8562 7 . 9 8 /0.86132.91/0.94527.93/0.85533.05/0.955*26.80/0.850*34.05/0.96028.63/0.871KITTI 2012(20图像）×2×429.75/0.90125.53/0.76430.17/0.90625.93/0.77830.19/0.9063 0 . 1 0 /0.90525.92/0.7772 5 . 9 6 /0.77930.16/0.90825.94/0.77330.13/0.908-30.65/0.91626.26/0.790KITTI 2015(20图像）×2×428.77/0.90124.68/0.74428.99/0.90425.01/0.76029.04/0.9042 8 . 9 7 /0.90325.04/0.7592 5 . 0 3 /0.76029.00/0.90625.05/0.75629.09/0.909-29.78/0.91925.43/0.776GroundTruthGroundTruth图5：2×SR的视觉比较。这些结果是在KITTI 2012数据集的“测试图像013”和KITTI 2015数据集的“测试图像019”上实现的表6：PASSRnet和StereoSR之间的比较[6]对2× SR的不同分辨率的立体图像。决议StereoSR [6]峰值信噪比触发器我们峰值信噪比触发器高（500×500）39.27 1×41.45（↑2. 十八）0.57×中（100×100）34.21 1×35.04（↑0. （83）0.58×低（20×20）29.48 1×29.88（↑0. 第四十章） 0.36×包括可靠的细节。相比之下，我们的PASSRnet使用立体对应来产生更精细的细节，具有更少的伪影，例如图中的栏杆和条纹五、与Stere-oSR相比，我们的PASSRnet明确捕获SR的立体声对应。因此，实现了优异的视觉性能。灵活性我们进一步测试了我们的 PASSR 网络和StereoSR [6]在大视差变化方面的灵活性。在具有不同分辨率的图像上实现的结果补充资料中提供了不同基线和深度下的更多结果。可以看出，我们的PASSRnet明显更好-在效率方面优于StereoSR（即，，FLOP）在低分辨率图像上。同时，我们的PASSRnet在高分辨率图像上的PSNR方面大大优于StereoSR这是因为，StereoSR需要对水平分辨率低于64像素的图像执行填充，这涉及不必要的计算。对于高分辨率图像，固定的最大视差阻碍StereoSR捕获较长范围的对应关系。因此，StereoSR的SR性能有限。5. 结论在本文中，我们提出了一个视差注意立体声超分辨率网络（PASSRnet），将立体声对应的SR任务。我们的PASSRnet引入了一个具有全局感受野的注意力松弛机制来处理具有大视差变化的不同立体图像。我们还介绍了一个新的和最大的数据集立体图像SR。实验结果表明，PASSRnet能够有效地捕获立体声对应，提高了SR的性能.与最近的单图像SR和立体图像SR方法的比较表明，我们的网络达到了最先进的性能。双三SRCNNVDSRDRCNLapSRNStereoSR我们29.07/0.90430.46/0.92131.00/0.92731.04/0.92730.91/0.92631.22/0.92931.71/0.936双三SRCNNVDSRDRCNLapSRNStereoSR我们28.28/0.87529.28/0.89429.54/0.89829.66/0.89829.52/0.89729.73/0.90530.50/0.91312259引用[1] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。在ECCV，第184-199页[2] 放大图片作者：Wenzhe Shi，Jose Caballero，FerencHuszar ， Johannes Totz ， Andrew P.Aitken ， RobBishop，Daniel Rueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在CVPR，第1874-1883页[3] Zheng Hui，Xiumei Wang，and Xinbo Gao.基于信息提取网络的单幅图像快速、准确超分辨。在CVPR，2018年。[4] 朴成哲朴敏圭文基康超分辨率图像重建：技术概述。IEEE信号处理杂志，20（3）：21[5] 赖伟胜，黄家斌，纳伦德拉·阿胡贾，杨明轩。深拉普拉斯金字塔网络实现快速和精确的超分辨率。在CVPR中，第5835[6] Daniel S. Jeon、Seung-Hwan Baek、Inchang Choi和MinH. Kim.利用视差先验增强立体图像的空间分辨率。在CVPR，2018年。[7] 马坦·普罗特，迈克尔·埃拉德，武田博之，和佩曼·米兰法.将非局部均值方法推广到超分辨率重建。IEEE Trans.Image Processing，18（1）：36[8] Hiroyuki Takeda 、 Peyman Milanfar 、 Matan Protter 和Michael Elad。无显式亚像素运动估计的超分辨率。IEEE Trans. Image Processing，18（9）：1958[9] 放大图片创作者：Andrew P.作者简介：王泽涵，施文哲，陈文斌，陈文斌.采用时空网络和运动补偿的实时视频超分辨率。在CVPR中，第2848- 2857页[10] Xin Tao，Hongyun Gao，Renjie Liao，Jue Wang，andJiaya Jia.细节揭示深度视频超分辨率。在ICCV，第4482-4490页[11] Longguang Wang ， Yulan Guo ， Zaiping Lin ， XinpuDeng，and Wei An.通过HR光流估计学习视频超分辨率。在ACCV，2018年。[12] Stephen T. Barnard和Martin A.菲施勒计算立体声。ACM计算监视器，14（4）：553[13] Dan. Scharstein和R.塞利斯基密集两帧立体对应算法的分类和评价。国际计算机视觉杂志，47（1-3），2002年。[14] 作者：Jiangsu G.Schwing和Raquel Urtasun。用于立体匹配的高效深度学习。在CVPR，第5695-5703页[15] Alex Kendall，Hayk Martirosyan，Saumitro Dasgupta，and Peter Henry.深度立体回归的几何和上下文的端到端学习。在ICCV，第66-75页[16] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR，2018年。[17] Zhengfa Liang，Yiliu Feng，Yulan Guo，Hengzhu Liu，Linbo Qiao，Wei Chen，Li Zhou，and Jianfeng Zhang.通过特征恒定性学习视差估计在CVPR，2018年。[18] Zecqun Jie，Pengfei Wang，Yongen Ling，Bo Zhao，Yunchao Wei，Jiashi Feng，and Wei Liu.用于立体匹配的左右比较在CVPR，2018年。[19] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.使用非常深的卷积网络实现精确的图像超分辨率。CVPR，第1646-1654页，2016年[20] Ying Tai，Jian Yang，and Xiaoming Liu.基于深度递归残差网络的图像超分辨率。在CVPR中，第2790-2798页[21] Yulun Zhang，Yapeng Tian，Yu Kong，Bineng Zhong，and Yun Fu. 用于图像超分辨率的残差稠密网络在CVPR，2018年。[22] Renjie Liao，Xin Tao，Ruiyu Li，Ziyang Ma，and JiayaJia.通过深度草稿集成学习实现视频超分辨率。在ICCV，第531-539页[23] Youngjin Yoon、

下载后可阅读完整内容，剩余1页未读，立即下载