跨设备真实世界图像超分辨率的双重对抗自适应

120 浏览量更新于2023-10-25 收藏 20.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

56670用于跨设备真实世界图像超分辨率的双重对抗自适应0徐晓倩1魏鹏旭*1陈伟凯2刘洋1毛明智1林亮1李冠斌101中山大学2腾讯美国0摘要0由于复杂的成像过程，不同相机拍摄的相同场景可能呈现出不同的成像模式，这为在不同设备上训练的超分辨率（SR）模型之间引入了不同的能力。本文研究了一项新颖而实用的任务，即跨设备SR，旨在将在一个相机拍摄的成对图像上训练的真实世界SR模型适应由任意目标设备拍摄的低分辨率（LR）图像。由于缺乏来自各种成像设备的配对数据，这个任务具有很高的挑战性。为了解决这个问题，我们提出了一种适用于真实世界SR的无监督领域自适应机制，名为DualADversarialAdaptation（DADA），它只需要目标域中的LR图像，并且有来自源相机的真实配对数据。DADA使用Domain-InvariantAttention（DIA）模块建立目标模型训练的基础，即使没有HR监督。此外，DADA的双重框架在一个分支中为来自两个域的两个LR输入图像进行Inter-domain AdversarialAdaptation（InterAA），并在两个分支中为一个LR输入图像进行Intra-domain AdversarialAdaptation（IntraAA）。InterAA和IntraAA共同提高了从源域到目标域的模型可迁移性。我们在三个不同相机之间进行了六个Real →Real的适应设置的实证实验，并与现有的最先进方法相比取得了优越的性能。我们还评估了所提出的DADA来解决对视频相机的适应性，这是一个有前途的研究课题，可以促进真实世界超分辨率的广泛应用。我们的源代码公开可用于https://github.com/lonelyhope/DADA。01.引言0单图像超分辨率（SISR）是低分辨率图像（LRs）的超分辨率和重建的过程。0*通讯作者：weipx3@mail.sysu.edu.cn0差异图0差异图0）LR0（由索尼拍摄）0（索尼型号）0（由松下拍摄）（Panasonnic）0图1.DRealSR数据集[18]中不同训练模型的真实SR结果比较。差异图表示地面真实HR和SR图像之间的绝对差异（图中的亮度反映了差异的大小）。0（d）奥林巴斯（c）索尼（b）松下（a）双三次插值0图2.DRealSR[18]中双三次插值下采样和三个不同相机的退化核。使用USRNet[22]通过最小化∥（HR�k）↓s−LR∥来估计这些核，其中�表示卷积，↓s表示按比例s下采样，通过选择每个s�s网格的左上角项。核大小设置为25�25，缩放因子s为4。0高分辨率对应图像（HRs）是低级计算机视觉中的一项基本任务。深度学习的出现对SR的进展做出了重要贡献，SISR通常被视为一项有配对的LR-HR的监督学习任务。32.3930.6530.4231.3632.7230.4930.4930.5531.7729.5030.0030.5031.0031.5032.0032.5033.00PSNR56680松下型号索尼型号奥林巴斯型号0松下索尼奥林巴斯0图3.使用由不同相机收集的数据训练的真实SR模型进行跨设备评估。我们使用在不同相机拍摄的图像上训练的模型来测试特定相机拍摄的图像。0DRN-Adapt（PSNR：23.28）0DADA0DRN-Adapt（PSNR：24.59）0DADA0自适应：合成→真实自适应：真实→真实0图4. 合成到真实自适应和真实到真实自适应（Sony →Panasonic）的SR结果比较。0图像[3, 7, 8, 16,24]。然而，由于收集低分辨率-高分辨率图像对的困难，典型的基于学习的方法学习将合成的低分辨率图像映射到原始对应图像以实现超分辨率重建，但在实际场景中，这种方法的模型泛化能力较差，经常受到批评。因此，真实SR应运而生，探索真实图像的退化，并通过光学变焦捕获成对的低分辨率-高分辨率数据来收集几个真实世界SR数据集，例如RealSR [1]和DRealSR[18]。考虑到深度网络对准感知噪声的脆弱性，进一步研究了鲁棒的真实世界SR以防御实际应用中的对抗攻击[21]。与合成图像退化相比，真实世界SR面临着一个关键挑战，即不同设备之间的多样化退化过程，由于不同设备之间的不同成像过程，特别是不同相机类型之间的差异。如图1所示，跨设备领域差距是明显的。观察到在跨设备真实SR模型评估（Sony → Panasonic或Panasonic →Sony）中，存在明显的设备特定退化差距：与在Panasonic（Sony）图像上训练的模型相比，仅在Sony（Panasonic）图像上训练的SR模型（即Sony（Panasonic）模型）将由Panasonic（Sony）相机拍摄的低分辨率图像超分辨率重建为具有更模糊细节甚至失真伪影和更大差异的SR图像。0从真实高分辨率图像中学习到的模型在处理其他相机拍摄的低分辨率图像时，性能会明显下降。为了解释这一现象，我们在图2中分析了不同（相机）降级的退化核。真实图像的退化核在不同相机之间是不同的。我们将设备特定的退化差距称为本文中的领域差距，并在图3中经验性地证明了它对跨设备/领域设置中性能下降的影响。然而，这种领域差距在许多现实应用中是普遍存在的，例如，各种手机或GoPro相机的图像/视频增强以及经典老电影的修复。通常，为每个相机收集成对数据非常耗时且困难，甚至有时是不可能的，例如，经典老电影。为了缓解这个问题，我们是第一个探索跨设备的无监督领域自适应（UDA）用于真实世界图像超分辨率的研究。在这种设置下，给定由一个相机（源相机/领域）拍摄的成对真实低分辨率-高分辨率图像，目标是将模型适应到只有由另一个相机（目标相机/领域）拍摄的低分辨率图像（真实→真实自适应）。这比传统的从源领域到目标领域的UDASR更加合理，后者使用合成的低分辨率-高分辨率图像对。如图2所示，合成降级（例如，广泛使用的双三次下采样）使用简单的核函数；真实降级是异质且更复杂的。真实核函数的复杂性给真实→真实自适应任务带来了挑战。由于合成和真实降级之间的显著差异，将合成降级的源模型协调到具有真实数据的目标领域是困难的，并且在目标领域中的性能较差。这在图4中有所证明。总的来说，我们的跨设备UDASR，即真实→真实自适应，对于现实应用更加实用。在本文中，我们提出了一种双对抗自适应模型（DADA），用于探索跨设备的无监督领域自适应。DADA基于组件分解与征服模型（CDC）[18]，具有对称结构的源分支和目标分支，每个分支本质上都是一个循环图像重建，包含上采样模块和下采样模块。DADA使用域不变注意力（DIA）模块为两个分支的上采样模块提供组件引导掩码。此外，DADA的双重框架在一个分支中实现了跨领域对抗自适应（InterAA），用于两个领域的两个低分辨率输入图像，以及在两个分支中实现了领域内对抗自适应（IntraAA），用于一个低分辨率输入图像。InterAA和IntraAA共同提高了模型从源领域到目标领域的迁移能力。总之，我们的主要贡献有三个方面：0• 我们致力于早期尝试探索56690真实世界图像超分辨率中存在跨设备域间差距。为了缓解这个问题，提出了一种双对抗自适应模型（DADA），用于从具有配对真实数据的源域自适应到只有真实LR图像的目标域的无监督域自适应。0•我们提出了域间对抗自适应（InterAA）和域内对抗自适应（IntraAA）的方法，以在双重架构中训练无监督的真实到真实的SR自适应模型。0•在三个不同相机域之间进行了六个真实到真实的自适应设置的大量实验，证明了我们的DADA在将模型从不同相机适应到真实世界图像超分辨率方面的优越性，相比传统的SR方法。02. 相关工作02.1. 图像超分辨率0基于卷积神经网络（CNN）的方法具有显著的特征学习能力，与传统方法相比，在单幅图像超分辨率领域取得了相当大的改进。SRCNN[3]是第一个在SR任务中使用CNN网络的方法，它是一个端到端的三层CNN网络，用于学习从输入LR图像到HR图像的特征映射。随后，提出了更深、更复杂的网络，例如ESPCN[12]、SRResNet [7]、EDSR [8]、SRDenseNet[14]、RCAN [24]和ESRGAN[16]，引入了密集连接、注意力模块和非局部模块等结构，SR性能不断提高。然而，由于收集真实的LR-HR图像对的困难，这些基于深度学习的方法将HR图像合成降采样为其LR对应物。使用合成的LR-HR对，它本质上将SISR视为一个监督学习问题。然而，简单的降采样方法无法模拟真实的退化，导致在实际应用中直接应用训练好的模型时性能下降。02.2. 真实世界图像超分辨率0为了打破合成退化的数据瓶颈，真实世界图像超分辨率引起了越来越多的关注。一个精心准备的真实世界SR数据集是RealSR[1]，它包含由DSLR相机的变焦镜头拍摄的配对的LR-HR图像。随后，建立了一个更具挑战性的大规模真实世界SR数据集DRealSR，其中包含五个DSLR相机。由于深度神经网络的脆弱性，研究了对抗扰动对SR模型的影响，以实现低级视觉中的鲁棒真实世界超分辨率[21]。然而，现有的真实SR研究将来自不同相机的图像平等对待，没有区分不同相机带来的跨设备域间差距。0现有的研究中忽视了来自不同相机的不同现实退化，更不用说传统的具有合成图像退化的SR方法了（它仅限于统一和简单的降采样退化核，例如双三次降采样，无论图像是由哪个相机拍摄的）。02.3. SR中的无监督域自适应0大多数UDA研究都集中在高级视觉任务上，例如图像分类、目标检测和语义分割[2, 4, 6, 9, 11, 15,26]。很少有研究致力于低级视觉，这对于UDA来说更具挑战性，因为它更加关注像素级的自适应，不像高级视觉中的UDA那样仅仅通过简单的特征对齐或样本分布对齐就能轻松实现。传统的UDASR通常旨在利用丰富的配对合成LR-HR图像（源域）将模型转移到超分辨率真实图像（目标域）。受CycleGAN[25]的启发，Yuan等人[20]提出了CinCGAN模型，将真实的LR图像转换为合成的LR图像。Guo等人[5]提出了一种方法，将合成的配对数据和非配对的真实数据一起训练，并加入循环约束。Wei等人[19]提出了一个名为DASR的模型，它使用非配对的真实图像来处理真实世界的SR问题。他们使用域间差距感知训练和域距离加权监督策略来缩小源数据和目标数据之间的域间差距。然而，这些方法并没有意识到不同相机之间的现实图像退化的差异。我们将这种差异称为跨设备域间差距，并提出了一个名为DADA的模型来解决这个真实到真实的无监督域自适应问题。03. 方法论0我们考虑跨设备的无监督域自适应的真实SR问题，其中源域提供来自相机的真实LR-HR图像对，而目标域只能访问来自另一台相机的真实LR图像。需要注意的是，这里提到的设备域差异源于同一场景的两台不同型号相机的成像差异1。通过源LR-HR真实图像对和目标真实LR图像，我们旨在为目标域的真实SR训练一个UDA模型。在本节中，我们将详细介绍提出的DADA，以探索跨设备的真实图像超分辨率的无监督域自适应问题。01不同相机可能具有不同的图像信号处理器（ISP）进行图像退化。现有的真实SR数据集是由不同型号/品牌的相机收集的，并不包括具有相同型号的不同相机。在这项工作中，不同相机/设备特指不同的相机品牌，即不同的域。56700!� !"0CDC掩码0!� !"0!� #"0!� #$0下采样0下采样0!� !"0!� #"0� %&'0� %&'0� '() �0� '() �0� ,-- �0沙漏网络0元素乘积0沙漏网络0� $ � "0元素乘积0U !0U0DIA模块0上采样0上采样0分支0分支0InterAA0InterAA0IntraAA IntraAA0图5.我们DADA的提出框架。它包括一个源分支和一个目标分支，两者都具有LR-HR-LR重构结构。在它们的上采样网络中，一个域不变的注意力（DIA）模块通过预训练的CDC模型提供组件注意力掩码。对于InterAA，来自不同域的两个LR图像被送入上采样网络进行对抗自适应。对于IntraAA，一个LR图像分别被送入源分支和目标分支的上采样网络进行对抗自适应。在测试中，目标分支中训练好的上采样网络用于推断。03.1.概述（闭集）高级视觉中的UDA具有一个基本前提，即源域和目标域共享相同的语义类别。这有助于学习域不变的语义特征作为模型自适应的基础。然而，在真实的SR中进行UDA，很难确定适应的基础是什么。为了解决这个问题，我们的DADA一方面利用从低级图像像素中提取中级图像组件的稳定性，构建了一个域不变的注意力模块，而不是学习域不变的特征。另一方面，提出的DADA模型继承了目标域的循环一致重构结构（LR → HR →LR）。考虑到目标域中HR图像的无法访问性，DADA采用了一种双重架构的域间和域内对抗自适应训练策略。在图5中，我们的DADA由两个对称分支组成。每个分支都是一个LR → HR →LR重构网络，包括一个上采样模块和一个下采样模块。一个分支由带有配对的LR-HR监督的源数据主导，称为源分支；另一个主要负责目标域，称为目标分支。将源LR图像xs和目标LR图像xt作为输入发送到这两个分支的上采样模块中，得到四个SR输出。我们使用域间对抗自适应（InterAA）方案来处理来自同一分支不同输入的SR输出。相反，域内对抗自适应（IntraAA）方案用于处理源分支和目标分支中的上采样网络的SR输出。0掩码03.2. 双对抗适应模型对于源域，可以访问成对的数据{x si，y s i} i = 1，...，M，其中x s i是LR图像，y si是相应的HR图像。对于目标域，只能访问LR图像{x t j} j =1，...，N，其HR对应物{y tj}是未知的。DADA将源LR图像x s i和目标LR图像x tj作为输入。两个LR图像分别进入源分支和目标分支。在一个分支中，除了LR→HR→LR的重建过程外，x s i和x tj还通过相同的上采样模块（生成器）被解决为SR图像，然后进一步发送到鉴别器进行源/目标域的判别。我们将这个过程称为域间对抗适应（InterAA）。在两个分支之间，目标（源）LR图像在每个分支中经过LR→HR→LR的重建，由两个分支的上采样模块生成的SR图像将进一步发送到分支鉴别器以区分它们的分支来源。我们将这个过程称为分支内对抗适应（IntraAA）。正如CDC[18]中所述，图像组成部分（即平坦区域、边缘和角点）是与内容相关的，因此它们是域不变的，并且受不同相机的影响较小。这激励我们基于预训练的CDC建立一个域不变的注意力模块。两个分支通过域间和域内对抗适应进行协同训练。𝑥$𝑥%&𝑦($&𝑦)%LS,Dinter = Extj[log(1 − Dinters(Us(xtj)))]+Exsi [log(inters(s(xsi)))].(2)LT ,Dinter = Exsi [log(1 − Dintert(Ut(xsi)))]+Extj[log(Dintert(Ut(xtj)))].(4)56710掩码0SR SR SR0HG块0求和0SR SR SR0掩码0掩码0掩码0掩码0掩码0CDC（预训练）0图6.域不变的注意力模块。为了简单起见，我们展示了它在源分支和目标分支中以两个LR图像作为输入的详细网络结构。0过程中的分支内对抗适应（IntraAA）。域不变的注意力模块。我们将源分支的上采样模块命名为Us，将目标分支的上采样模块命名为U t。它们遵循与CDC[18]相同的神经网络架构。CDC以沙漏网络为骨干，构建了三个组件注意力块来解决模型对简单图像区域或内容的过拟合问题。这三个图像组成部分分别是平坦区域、边缘和角点。考虑到这些组成部分相对于相机硬件是相对不变的，人们认为它们对于跨设备SR是不变的。这被视为实际到实际适应的根源。因此，DADA利用在源对上预训练的CDC模型为LR输入图像提供域不变的注意力掩码（即CDC中的组件掩码）。换句话说，每个分支中的两个上采样模块共享相同的参数权重来生成组件掩码，如图6所示。与CDC一样，这些掩码分别加权三个中间SR结果，然后将加权结果求和以生成最终的SR结果。域间对抗适应。在每个分支中，源域和目标域的LR图像由相同的上采样模块处理。对于源输入，存在GTHR图像，因此我们可以对源SR图像施加内容监督。InterAA过程是将目标域与源域对齐。0在源分支中，上采样模块U s 分别对源LR图像x si和目标LR图像x t j进行处理，并生成相应的超分辨率结果ˆy Ss i和ˆ y Stj。对于这两个SR图像，即源分支中的源SR结果和目标SR结果，我们使用鉴别器D inters来区分它们来自哪个域。通过在ˆ y Ss i和ˆ y Stj之间施加对抗损失，我们迫使网络产生接近源域的结果，以此实现域对齐。这样，通过对抗的方式实现了域对齐，从而提高了模型的能力。0处理目标数据。值得注意的是，由于两个域的两个LR输入非常不同，例如，内容和颜色，这增加了它们之间对抗性训练的难度，我们让判别器在Y通道上区分它们的SR图像。这可以避免对图像内容或风格的偏见。对称地，在目标分支中，源LR图像和目标LR图像都通过U_t进行上采样，生成两个SR结果ˆy_Ts和ˆy_Tt，然后由判别器D_inter_t进行判别。这里与源分支有两个不同之处：1）为了避免源域对目标分支中的U_t的强大和主导性监督，对于源SRˆy_Ts_i没有监督。2）由于目标分支中不使用源监督，为了稳定U_t的训练，我们对目标SR图像进行监督。由于缺乏目标HR图像，我们对目标SRˆy_Tt_j使用伪标签。具体而言，我们使用源分支中目标输入的SR结果ˆy_St_j作为ˆy_Tt_j的标签。因此，在源分支中，生成器U_s和判别器D_inter_s的InterAA的对抗损失分别定义如下，L S , G inter = E x s i [ log (1 − D inter s (U s ( x s i )))] , (1)0对称地，在目标分支中，生成器U_t和判别器D_inter_t的InterAA的对抗损失分别定义如下，L T , G inter = E x t j [log (1 − D inter t ( U t ( x t j )))] , (3)0域内对抗适应。InterAA使用两个域的不同LR图像作为输入来调整源分支或目标分支的模型。相反，DADA通过使用相同的LR图像作为输入，在源分支和目标分支之间进行域内对抗适应。具体而言，将源LR图像x_s_i作为两个分支的输入，即两个分支分别使用U_s和U_t将其超分辨为SR图像ˆy_Ss_i和ˆy_Ts_i。判别器D_intra_s用于识别ˆy_Ss_i和ˆy_Ts_i是由哪个分支生成的。类似地，目标LR图像将被发送到两个分支中的两个上采样模块，以获得两个SR对应物，然后由判别器D_intra_t进行区分。也就是说，两个上采样模块U_s和U_t共同欺骗D_intra_t。通过采用IntraAA，我们迫使两个分支中的两个上采样模块产生接近的结果，即使它们在不同的监督下，即源GT HR监督和目标LS,Gintra = Exsi [log(1 − Dintras(Us(xsi)))],(5)LS,Dintra = Exsi [log(1 − Dintras(Ut(xsi)))]+Exsi [log(Dintras(Us(xsi)))].(6)LT ,Gintra = Extj[log(1 − Dintrat(Ut(xtj)))],(7)LT ,Dintra = Extj[log(1 − Dintrat(Us(xtj)))]+Extj[log(Dintrat(Ut(xtj)))].(8)4.1. Experimental SettingsDataset.Our experiments have been conducted onDRealSR dataset [18] for UDA of real-world SR acrosscameras. DRealSR is the only real-world SR dataset thatinvolves multiple cameras and has distinct indications aboutwhich camera each image was captured by. It is collectedby five DSLR cameras, i.e., Panasonic, Sony, Olympus,Nikon and Canon. In our experiments, image pairs from56720伪SR监督。通过这种方式，我们对目标分支施加了间接和对抗性的监督。因此，对于源LR图像，生成器U_s和判别器D_intra_s的IntraAA的对抗损失分别定义为0类似地，对于目标LR图像，生成器U_t和判别器D_intra_t的IntraAA的对抗损失分别定义为03.3.训练目标我们的训练目标损失函数L包括重建损失L_rec，源内容损失L_S_con，目标内容损失L_T_con，目标VGG损失L_T_vgg和前述的InterAA和IntraAA的对抗损失。0L = Lλ_1L_0λ_2 L_T，G_inter + λ_3 L_S，G_intra + λ_4L_T，G_intra，(9)0其中超参数α，β和λ_1�λ_4是权重标量。重建损失L_rec：每个分支都遵循一个循环重建框架（LR→HR→LR）。对于每个输入，在每个分支中计算L_1重建损失。内容损失L_con：使用梯度加权（GW）损失[18]计算像素级内容损失。在源分支中，L_S_con = L_GW(ˆy_Ssi,y_si)。在目标分支中，L_T_con = L_GW(ˆy_Ttj,ˆy_Stj)。VGG损失L_T_vgg：在目标分支中，为了减轻伪HR带来的负面影响，使用VGG损失约束目标上采样模块U_t。VGG-19[13]是特征提取器ϕ，其conv5_3特征被使用。L_T_vgg = Ext_j[∥ϕ(ˆy_Ttj)−ϕ(¯y_tj)∥1]，其中¯y_tj =U_s0(x_tj)，其中U_s0是在源数据上预训练的CDC模型。04. 实验0选择了三个相机（Panasonic、Sony和Olympus）进行训练和测试。对于每个相机，它们分别被分成训练集和测试集。训练集中有197对Panasonic图像，145对Sony图像和190对Olympus图像，测试集中有20、17和19对相应的图像对。与[18]类似，在训练阶段，将LR图像裁剪成大小为48 *48的补丁。我们的实验是针对4倍缩放因子进行的。实施细节。我们应用Adam优化器来训练我们的模型。学习率为1e-4。DADA将一对源图像和目标图像作为输入，其中源图像和目标图像是随机选择的。在训练过程的每个迭代步骤中，随机选择四对作为一个批次。数据增强包括随机裁剪、随机旋转和翻转。所有的判别器都是PatchGAN[25]。下采样模块包括八个残差块和两个步幅卷积层[19]。对于推理，采用U_t网络生成SR结果。λ_1�λ_4都设置为0.005，α=0.1，β=0.01。采用了三个常用的评估指标，即峰值信噪比（PSNR）、结构相似性指数（SSIM）[17]和LIPIS[23]。按照与CDC[18]类似的设置，PSNR在Y通道上计算，SSIM在RGB图像上计算。4.2.与现有方法的比较我们是第一个探索不同设备之间的无监督领域适应问题，针对超分辨率任务。我们将我们的方法与现有的用于SR的合成到真实UDA方法进行比较，包括Cycle-in-Cycle生成对抗网络（CinCGAN）[20]、域距离感知超分辨率（DASR）[19]和双重回归适应网络（DRN-Adapt）[5]。为了进行公平的实验比较，我们在“真实”到“真实”适应设置下实现它们，将双三次插值图像替换为源域中的真实LR图像。CinCGAN的超分辨率网络也是CDC模型[18]。它们的比较结果在表1中提供。在这个表中，“仅源域”是在没有模型适应的情况下使用配对的源数据训练的模型。“仅目标域”表示在目标域中使用真实配对数据训练的模型。真实→真实适应。我们在三个相机之间进行了六个“真实”到“真实”的适应设置的实验比较。与基线“仅源域”模型相比，我们的DADA取得了显著的性能提升。例如，在“Panasonic→Sony”任务中，它将“仅源域”模型的PSNR从31.36dB提高到32.13dB。与最先进的UDA方法相比，我们的方法在大多数六个适应任务中表现出更好的性能，并且在大多数任务中实现了最佳的PSNR和SSIM。例如，在“Sony→Olympus”适应任务中，我们的方法分别比CinCGAN高出0.91dB（PSNR），比DASR高出1.22dB，比DRN-Adapt高出0.42dB。值得注意的是，就LPIPS指标而言，DASR实现了“DRN-AdaptCinCGANDASRDADA✓✓30.760.8120.472✓✓30.970.8150.438✓✓31.030.8160.445✓✓✓31.080.8170.43856730方法 Panasonic → Sony Sony → Panasonic Olympus → Panasonic 方法 PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓PSNR ↑ SSIM ↑ LPIPS ↓0真实 → 真实0仅目标 32.72 0.854 0.302 32.39 0.846 0.316 32.39 0.846 0.3160仅源 31.36 0.838 0.319 30.65 0.820 0.383 30.42 0.818 0.372 CinCGAN [ 20 ] 27.76 0.821 0.391 28.33 0.792 0.410 29.37 0.7990.381 DASR [ 19 ] 30.08 0.777 0.269 30.45 0.772 0.316 30.06 0.785 0.272 DRN-Adapt [ 5 ] 31.85 0.845 0.321 30.96 0.821 0.38030.80 0.822 0.356 DADA（我们的） 32.13 0.849 0.327 31.25 0.825 0.363 31.27 0.824 0.3480合成 → 真实0仅源 31.39 0.829 0.369 30.43 0.807 0.433 30.42 0.808 0.437 CinCGAN [ 20 ] 27.59 0.788 0.405 27.19 0.743 0.414 28.38 0.7390.422 DASR [ 19 ] 29.95 0.764 0.298 29.79 0.749 0.339 30.02 0.777 0.293 DRN-Adapt [ 5 ] 31.42 0.829 0.359 30.47 0.808 0.42930.45 0.808 0.433 DADA（我们的） 31.50 0.830 0.369 30.72 0.809 0.376 30.74 0.808 0.3620方法 Panasonic → Olympus Sony → Olympus Olympus → Sony 方法 PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓PSNR ↑ SSIM ↑ LPIPS ↓0真实 → 真实0仅目标 31.77 0.833 0.375 31.77 0.833 0.375 32.72 0.854 0.3020仅源 30.49 0.816 0.439 30.55 0.810 0.457 30.49 0.814 0.330 CinCGAN [ 20 ] 28.85 0.791 0.461 30.17 0.814 0.443 30.05 0.8230.365 DASR [ 19 ] 29.32 0.768 0.306 29.86 0.762 0.372 30.29 0.787 0.270 DRN-Adapt [ 5 ] 30.73 0.816 0.431 30.66 0.810 0.45931.47 0.833 0.312 DADA（我们的） 31.08 0.820 0.433 31.08 0.817 0.438 32.05 0.843 0.3430合成 → 真实0仅源 30.08 0.799 0.479 30.08 0.799 0.472 31.41 0.828 0.371 CinCGAN [ 20 ] 28.43 0.766 0.407 29.34 0.767 0.451 29.50 0.7920.392 DASR [ 19 ] 28.30 0.752 0.375 29.51 0.755 0.402 29.40 0.737 0.327 DRN-Adapt [ 5 ] 30.11 0.799 0.475 30.11 0.799 0.47331.45 0.829 0.362 DADA（我们的） 30.40 0.800 0.403 30.62 0.803 0.411 31.52 0.829 0.3550表1. 跨设备UDA真实SR性能评估。（仅目标模型使用GT进行训练。除了仅目标，UDA SR方法中最高性能以粗体突出显示。）0仅目标0仅源0HR（GT）0双三次插值0DADA（我们的）0LR（由Panasonic拍摄）0图7. UDA真实SR结果与最先进方法的比较，用于Real（Sony）到Real（Panasonic）的适应。0方法 InterAA IntraAA DIA PSNR SSIM LIPIS0表2. 切割研究。0在所有方法中，包括我们的DADA，其性能相对较高，但在PSNR和SSIM方面与DRN-Adapt和我们的DADA相比较差。尽管它确实产生了感知清晰的SR图像，但明显存在噪声和伪影。特别是，我们的DADA在PSNR方面明显优于DASR0增益为0.80 dB（最少）和2.05dB（最多），以及SSIM增益为0.04（最少）和0.07（最多）。从本质上讲，解释这种现象的主要原因是DASR采用对抗训练的方式，将预测的SR图像与真实的HR图像进行对抗，而DADA则利用两个预测的SR图像之间的对抗训练。因此，前者强制DASR尽可能地产生与HR图像相似的SR图像，但不可避免地会引入明显的噪声和伪影。此外，从定性上看，图7显示了Sony →Panasonic任务中不同方法的视觉比较。观察到我们的DADA比其他比较方法产生了更好的SR图像。例如，56740LR DRN-Adapt CinCG0DADA（我们的）0DASR0CinCGAN0图8.REDS数据集上视频图像的SR结果。对于跨设备的真实→真实适应，只提供SR结果的定性可视化。因为只有HR视频图像是真实数据，我们将这些HR视频图像作为目标LR图像来验证所提出的模型。0（a）合成→真实（c）真实→真实（b）真实（目标领域）0图9.不同从Panasonic到Sony的适应中生成的SR图像的退化核的比较。0由于设备差距，SourceOnly预测的SR图像模糊。CinCGAN的结果很锐利，但颜色与真实HR图像明显不同。相反，我们的DADA产生了更接近TargetOnly的清晰结果。合成→真实适应。我们还在表1中提供了合成到真实适应的评估结果。我们使用源数据集中的合成对，其中LR图像是通过双三次降采样HR图像获得的。观察到我们的DADA在六个适应设置下仍然实现了更好的性能。此外，总体上，所有模型在真实到真实的适应下的性能明显高于合成到真实的适应。这表明从真实到真实的适应可以实现比从合成到真实的适应更高的图像质量。04.3.模型评估和分析消融研究。我们在Sony →Olympus任务中进行了模型消融研究，如表2所示。(1)DIA：在DIA模块中，对于输入图像，我们在源分支和目标分支上共享注意力掩码。没有DIA，我们在每个分支中单独训练掩码生成器，结果从31.08dB下降到31.03dB（PSNR）。(2)InterAA：InterAA将SR模型作为源LR图像和目标LR图像的生成器。它将模型从30.76dB提高到31.08dB（PSNR）。(3)IntraAA：IntraAA带来了0.11dB的改进。适应核分析。在图9中，我们使用USR-Net显示不同适应下生成的SR图像的退化核。图9（b）是目标领域的真实核。结果表明，合成到真实适应（图9（a））受到源领域中简单图像退化的限制，无法填补跨设备的大领域差距。相反，真实到真实适应（图9（c））呈现了有利的转移。对视频相机的评估。为了充分验证我们的方法，我们还对视频进行了适应实验0REDS上的相机[10]。REDS是一个用于视频去模糊和超分辨率任务的视频数据集，其中每个视频都是由GoPro HERO6Black相机拍摄的。考虑到其LR帧是合成的，我们只使用其原始视频帧作为训练的LR图像。我们随机选择了22个视频进行训练，其余的用于测试。在我们的工作中，不考虑视频的时间关系，DRealSR中的Sony被认为是源领域。在图8中，我们提供了Sony →REDS的定性比较结果。观察到CinCGAN倾向于产生颜色错误和严重伪影的SR结果，而DASR也存在色差和畸变问题。我们的DADA具有清晰自然的SR结果。这是一个有前景的研究兴趣，将促进真实世界SR在广泛场景中的实际应用，例如手持设备的视频增强。05.结论0在本文中，我们提出了在真实世界超分辨率中探索跨设备领域差距的方法，从具有配对真实LR-HR数据的源领域适应到只有LR图像的目标领域。为了缓解这个问题，我们提出了一个双对抗适应（DADA）模型。它利用从图像中提取中层图像组件的稳定性来构建一个领域不变的注意力模块，而不是学习领域不变的特征。此外，考虑到目标领域中HR图像的不可访问性，我们的DADA采用了一种具有双重架构的域间和域内对抗适应的训练策略。在DRealSR数据集中的三个不同相机之间进行了六个真实→真实的适应设置下进行了大量实验，结果表明所提出的DADA相比现有的最先进方法具有更好的性能。此外，我们还评估了所提出的DADA来解决对视频相机的适应，这是一个有前景的研究课题，可以促进真实世界超分辨率的广泛应用。更广泛的影响和限制。所有实验都是在DRealSR上进行的，这是唯一一个包含多个相机和详细设备信息的数据集，用于跨设备的真实SR。考虑到更多不同设备的图像退化时可能存在某些未知问题，这个任务可能更加复杂。这个任务和所提出的方法可能需要更多的分析和评估。56750参考文献0[1] Jianrui Cai, Hui Zeng, Hongwei Yong, Zisheng Cao, andLei Zhang.迈向真实世界的单图像超分辨率：一个新的基准和一个新的模型。在IEEE/CVF国际计算机视觉会议论文集中，第3086-3095页，2019年。 2，30[2] Yuhua Chen, Wen Li, Christos Sakaridis, Dengxin Dai, andLuc Van Gool.野外目标检测的领域自适应更快的R-CNN。在IEEE计算机视觉和模式识别会议论文集中，第3339-3348页，2018年。 30[3] Chao Dong, Chen Change Loy, Kaiming He, and XiaoouTang.学习用于图像超分辨率的深度卷积网络。在欧洲计算机视觉会议上，第184-199页。Springer，2014年。 2，30[4] Yaroslav Ganin, Evgeniya Ustinova, Hana Ajakan, Pas- calGermain, Hugo Larochelle, François Laviolette, MarioMarchand, and Vi

下载后可阅读完整内容，剩余1页未读，立即下载