闭环问题：用对偶回归网络进行单图像超分辨率

53 浏览量更新于2023-10-25 收藏 848KB PDF 举报

图像超分辨率

深度神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5407闭环问题：用于单图像超分辨率的对偶回归网络Yong Guo*，Jian Chen*，Jingdong Wang*，Qi Chen，Jiezhang Cao，ZeshuaiDeng，Yanwu Xu†，Mingkui Tan†华南理工大学广州实验室、微软亚洲研究院、百度公司{guo.yong，sechenqi，secaojiezhang，sedengzeshuai} @mail.scut.edu.cn，{mingkuitan，ellachen} @ scut.edu.cn，jingdw@microsoft.com，ywxu@ieee.org摘要深度神经网络通过学习从低分辨率（LR）图像到高分辨率（HR）图像的非线性映射函数，在图像超分辨率（SR）方面表现出有前途的性能。然而，现有的SR方法存在两个潜在的局限性。首先，学习从LR到HR图像的映射函数通常是不适定问题，因为存在可以被下采样为相同LR图像的无限HR图像。因此，可能的函数的空间可能非常大，这使得很难找到一个好的解决方案。其次，成对的LR-HR数据在现实世界的应用中可能不可用，并且潜在的退化方法通常是未知的。对于这样一个更一般的情况下，现有的SR模型往往招致适应问题，并产生差的性能。为了解决上述问题，我们提出了一个双重回归方案，通过引入一个额外的约束LR数据，以减少空间的可能的功能。具体来说，除了从LR到HR图像的映射之外，我们还学习了一个额外的对偶回归映射，估计下采样内核并重建LR图像，这形成了一个闭环以提供额外的监督。更关键的是，由于二元回归过程不依赖于HR图像，我们可以直接从LR图像中学习。从这个意义上说，我们可以很容易地使SR模型适应真实世界的数据，例如，YouTube上的原始视频帧大量的实验与配对的训练数据和未配对的现实世界的数据证明了我们的优越性，比现有的方法。1. 介绍深度神经网络（DNN）一直是许多现实世界应用的主力，包括图像分类[18，14，9，15，27，13]，视频理解[46，45，*作者贡献均等。†通讯作者。图1.最先进的8×SR方法产生的图像的性能比较。我们的二元回归方案能够产生比基线方法更清晰的图像。44，6]和许多其他应用[7，50，52，11，20]。近年来，图像超分辨率（SR）已成为一个重要的研究课题，其目的是学习一种非线性映射，从低分辨率（LR）图像重建高分辨率（HR）图像。基于DNN，已经提出了许多方法来提高SR性能[51，26，10，12，49]。然而，这些方法可能受到两个限制。首先，学习从LR到HR图像的映射通常是一个不适定问题，因为存在无限多的HR图像，可以缩小以获得相同的LR图像[36]。因此，将LR映射到HR图像的可能函数的空间变得非常大。结果，学习性能可能受到限制，因为在这样大的空间中学习好的解是非常困难的。为了提高SR性能，可以通过增加模型容量来设计有效的模型，例如，EDSR [26]、DBPN [16]和RCAN [51]。然而，这些方法仍然受到可能的映射函数的大空间问题的影响，导致性能有限而不会产生尖锐的纹理[24]（见图1）。因此，如何减少映射函数的可能空间，以提高SR模型的训练成为一个重要的问题。5408其次，当配对数据不可用时，很难获得有希望的SR模型[43，54]。注意，大多数SR方法依赖于成对的训练数据，即，HR图像及其双三次退化LR对应物。然而，配对的数据可能是不可用的，并且未配对的数据通常主导现实世界的应用。此外，真实世界数据不一定具有与通过特定降级方法获得的LR图像相同的分布（例如，双三次）。因此，学习一个好的SR模型用于现实世界的应用可能是非常具有挑战性的。更关键的是，如果我们直接将现有的SR模型应用于现实世界的数据，它们通常会导致严重的适应问题，并产生较差的性能[43，54]。因此，如何有效地利用非配对数据，使SR模型适应实际应用成为一个迫切而重要的问题。在本文中，我们提出了一种新的双回归计划，形成一个闭环，以提高SR性能。为了解决第一个限制，我们引入了一个额外的约束来减少可能的空间，使得超解析的图像可以重建输入LR图像。理想地，如果从LR→ HR的映射是最优的，则可以对超分辨率图像进行下采样以获得相同的输入LR图像。有了这样的限制，我们就可以-估计潜在的下采样内核，从而减少可能函数的空间，以找到从LR到HR的良好映射（参见备注1中的理论分析）。因此，获得有前景的SR模型变得更容易（参见图1中的比较）。为了解决第二个限制，由于LR图像的回归不依赖于HR图像，因此我们的方法可以直接从LR图像学习。通过这种方式，我们可以很容易地使SR模型适应真实世界的LR数据，例如，来自Youtube的原始视频帧。在配对训练数据和非配对真实数据的SR任务上进行的大量实验表明，该方法优于现有方法。我们的贡献总结如下：• 我们通过引入一个额外的约束条件，使得映射可以形成一个闭环，LR图像可以重建，以提高SR模型的性能。此外，我们还从理论上分析了该方案的推广能力，这进一步证实了它的优越性，现有的方法。• 我们研究了一个更一般的超分辨率的情况下，没有相应的HR数据w.r.t.真实世界LR数据。利用所提出的二元回归方案，深度模型可以容易地适应真实世界的数据，例如，YouTube上的原始视频帧• 在配对训练数据和非配对真实世界数据的证明了所提出的双回归方案在图像超分辨率中的有效性。HR图像LPy^yLR图像原始回归任务LDx闭环X^双重回归任务图2.双回归训练方案，其包含用于超分辨率的主回归任务和用于将超分辨率图像投影回LR图像的双回归原始和二元回归任务形成闭环。2. 相关工作监督超分辨率。了很多努力为了提高SR的性能，包括基于插值的方法[19]和基于重建的方法[16，25，51]。Haris等人 [16]提出了一种反投影网络（DBPN），该网络由几个上采样和下采样层组成，以迭代地产生LR和HR图像。Zhang等人。[51]提出了通道注意机制，以构建一个称为RCAN的深度模型，以进一步提高SR的性能。然而，这些方法仍然具有非常大的可能映射空间，这使得很难学习到好的解决方案。无监督超分辨率在无监督设置中学习没有配对数据的超分辨率模型的兴趣越来越大[43，54]。基于Cycle-GAN[56]，Yuan等人 [43]提出了一种CinCGAN模型，用于生成没有配对数据的HR图像。最近，提出了一些盲SR方法[2，55]来学习未知的退化方法。然而，这些方法通常完全丢弃成对的合成数据，这些数据可以非常容易地获得并用于增强训练。相反，我们的二元回归方案试图通过利用真实世界的LR数据和成对的合成数据来使SR模型适应新的LR数据。双重学习。对偶学习方法[17，40，41，53]包含一个原始模型和一个对偶模型，用于同时学习两个相反的映射，以提高语言翻译的性能。最近，该方案也被用于在没有成对训练数据的情况下执行图像翻译，例如，CycleGAN [56]和DualGAN [42]。具体而言，提出了循环一致性损失，以避免GAN方法的模式崩溃问题[56，4，5]，并有助于最大限度地减少分布发散。然而，这些方法不能直接应用于标准SR问题。与此相反，我们使用闭环来减少SR的可能函数的空间。此外，我们还考虑了非对称映射的学习问题，从理论上保证了使用循环的合理性和必要性。5409Mi=m+13. 该方法我们提出了一个双回归方案来处理配对和非配对的训练数据的超分辨率（SR）。总体训练方案如图2所示。3.1. 配对数据的对偶回归方案现有的方法仅集中于学习从LR到HR图像的映射。然而，可能的映射函数的空间可能非常大，使得训练非常困难。为了解决这个问题，我们提出了一个双重回归计划，通过引入一个额外的控制，算法一：不成对数据的自适应算法。输入：未配对的真实世界数据：SU;配对的合成数据：SP;SU和SP的批量大小：m和n;指示函数：1SP（·）。1加载预训练模型P和D。2 而不收敛3从SU采样未标记数据{xi}i=1;4从SP中采样标记数据{（xi，yi）}m+n5//更新原始模型6通过最小化目标来更新P对LR数据的限制特别是，除了学习地图-7ping LR→ HR，我们还可以从m+ni=1 1SP（xi）LP.P（xi），yiΣ+λLD.ΣD（P（xi）），xi将超分辨率图像还原为LR图像。设x∈ X是LR图像，y∈ Y是HR图像。8//更新双模型9通过最小化目标来更新D我们同时学习原始映射P以重建HR图像和对偶映射D以重建LR图像。注意，对偶映射可以被认为是底层下采样内核的估计。我们将SR问题转化为对偶回归问题，1011端部m+ni=1 λLD.ΣD（P（xi）），xi该方案涉及两个回归任务。定义1（原始回归任务）我们试图找到一个函数P：X →Y，使得预测P（x）与其对应的HR图像y相似。定义2 （对偶回归任务）我们寻求找到函数 D ：Y→X，使得D（y）的预测与原始输入LR图像x相似。原始学习任务和对偶学习任务可以形成一个闭环，并为训练模型P和D提供信息监督。如果P（x）是正确的HR图像，则下采样图像D（P（x））应该非常接近输入LR图像x。有了这个约束，我们可以减少可能的映射的函数空间，并使其更容易学习一个更好的映射来重建HR图像。为了验证这一点，我们在4.2节中提供了理论分析。通过联合学习这两个学习任务，我们建议如下训练超分辨率模型给定一组N的N个配对样本SP={（xi，yi）}i=1，其中xi和yi表示第i对低分辨率和高分辨率图像，配对数据的集合训练损失可以写为HR图像。然而，它大大增加了计算成本（约为原始SR模型的2倍），性能改进非常有限（见补充结果）。在实践中，我们只添加双重回归-LR数据的损失，这显著提高了性能，同时保持了与原始SR模型大致相同的成本（见第4.1节中的讨论）。3.2. 非配对数据我们考虑更一般的SR情况，其中没有相应的HR数据w.r.t.真实世界的LR数据。更关键的是，LR图像的退化方法是- 十个未知数，使得这个问题非常具有挑战性。在这种情况下，现有的SR模型通常会引发严重的适应问题[43，54]。为了缓解这个问题，我们提出了一个有效的算法来适应SR模型的新LR数据。训练算法如算法1所示。Note that the dual regression mapping learns the under-lying degradation methods and does not necessarily dependon HR images.因此，我们可以使用它直接从未配对的真实世界LR数据中学习，以执行模型自适应。为了保证HR图像的重建性能，我们ΣNLPΣP（xi），yi+ λLD.D（P（xi）），xiΣ、（1）还结合来自可以非常容易地获得的成对合成数据的信息（例如，使用Bicubic ker-i=1联系我们原始回归损失联系我们对偶回归损失nel）。给定M个未配对LR样本和N个配对合成样本，目标函数可以写为：其中LP和LD分别表示原始和二元回归任务的损失函数（1在这里，λ控制着二元回归损失的权重（见表1）。M+Ni=11SP（xi）LP.ΣP（xi），yi+λLD.ΣD（P（xi）），xi，第6.2节中λ的电阻率分析）。其实我们也可以在HR域上加一个约束，即，缩小和放大以重建原始图像（二）其中，1SP（xi）是指示函数，当xi∈ SP，否则函数等于0。5410输入4x图像…快捷2x图像下采样模块…上采样模块的特点1x图像图3.4×SR的DRN体系结构DRN包含原始网络和对偶网络（标记为红线）。绿色框表示下采样模块的特征图（左半部分），而黄色框表示上采样模块的特征图（右半部分）。在U-Net之后，我们通过快捷连接将相应的浅层和深层特征图3.3. 训练方法配对数据的训练方法。给定配对训练数据，我们遵循监督SR方法的学习方案[16，26]并通过最小化Eqn来训练模型。（二）、更多详情见第5节和补充资料。非配对数据的训练方法。如算法1所示，对于每次迭代，我们首先分别从SU和SP中采样m个未配对的真实世界数据和n个配对的合成数据。然后，我们通过迷你-使Eqn.（二）、为了方便起见，我们将未配对数据的数据比率定义为ρ= m/（m + n）。（三）由于可以非常容易地获得成对的合成数据（例如，执行双三次核以产生LR-HR对），我们可以通过改变成对合成样本的数量n来调整ρ。在实践中，我们设置ρ=30%以获得最佳结果（参见6.3节中的讨论）。使用提出的二元回归方案，我们可以使SR模型适应各种未配对数据，同时保持良好的重建性能（见第 5.3节中的结果）。3.4. 与基于CycleGAN的 SR方法的差异与基于CycleGAN的SR方法相比，DRN有几个差异和优点。首先，基于循环GAN的方法[43，56]使用循环一致性损失来避免可能的模式崩溃问题[？]解决欠约束图像平移问题时[56]。与这些方法不同的是，我们试图通过添加额外的约束来提高SR模型的性能，该约束通过将SR图像映射回来来对应的LR图像。第二，基于CycleGAN的方法完全丢弃配对的合成数据，然而，这可以非常容易地获得。相反，我们的DRN同时利用配对的合成数据和真实世界的未配对数据来增强训练。4. 更多细节在本节中，我们首先描述我们的二元回归网络（DRN）的架构。然后，我们进行了理论分析，以证明所提出的二元回归方案。4.1. DRN的体系结构设计我们在U-Net的超分辨率设计基础上构建DRN [22，31]（见图3）。我们的DRN模型由两部分组成：原始网络和对偶网络。我们将每个网络的详细信息呈现如下。原始网络遵循U-Net的下采样-上采样设计。下采样（图3的左半部分）和上采样（图3的右半部分）模块都包含log2（s）基本块，其中s表示比例因子。这意味着该网络将具有2个模块用于4倍放大（见图3），3个模块用于8倍放大。与基准U-Net不同，每个基本块使用B个剩余信道关注块（RCAB）[51]以提高模型容量。在[39，23]之后，我们添加额外的输出以产生相应比例的图像（即，1×、2×和4×图像），并将提出的损失应用于它们来训练模型。请注意，我们使用双三次内核来放大LR图像，然后将其送入原始网络。请参阅请参阅补充质询。Conv /2LeakyReLUConvConv /2LeakyReLUConvRCABConvRCABPixelShuffleRCABConvRCABPixelShuffleConvLeakyReLUConv /2ConvConvLeakyReLUConv /25411ZZ我们设计了一个双网络来从超分辨率图像中产生下采样的LR图像（见图3中的红线）。注意，双重任务旨在学习下采样操作，这比用于学习上尺度映射的主要任务简单得多。因此，我们设计了只有两个卷积层的对偶模型，一个LeakyReLU激活层[28]，它的计算成本比原始模型低得多，但在实践中运行良好（参见第5节中的结果）。4.2. 理论分析33.032.532.031.531.030.530.005 101520 25 30 35参数数量（M）40 45我们从理论上分析了推广界的提出了配对数据的二元回归方案。由于非配对数据的情况比较复杂，我们将在以后的研究中探讨理论分析方法。由于篇幅限制，所有的定义、证明和引理都放在补充部分。对偶回归格式的推广误差是衡量算法在原始任务和双重任务中预测未知测试数据设E（P，D）=27.527.026.526.0(a) 性能与4× SR的型号尺寸。E[LP（P（x），y）+λLD（D（P（x）），x）]和E（P，D）是它的25.5经验损失，我们得到的亲，使用Rademacher复杂度的设定模型[30]。定理1设LP（P（x），y）+λLD（D（P（x）），x）是a25.005 10 15 20 25 30 35 40 45参数数量（M）(b) 性能与型号尺寸为8×SR。从X ×Y到[0，C]的映射，上界为C，以及函数空间H对偶是无限的。然后，对于任何误差δ>0，概率至少为1-δ，泛化误差E（P，D）（即，期望损失）对于所有（P，D）∈H对偶满足： ..Σ图4. Set5数据集上不同4×注1根据Rademacher复形的定义，给出了函数空间H对偶∈P×D的容量为公司简介1 1小于函数空间H∈P或H∈D的容量E（P，D）≤E（P，D）+2RZ（Hdual）+3C日志在实时监督学习中，即 RDL≤RSL，其中2NδSLZ Z其中，r eN是样本的数量，并且RDL是对偶学习的经验Rademacher复杂度。设B（P，D）为广义上界。f.对偶环SR，i. e.B（P，D）=2R<$DL（H）+3C1个日志。1分，我们有RZ是Radema c hercompl exity定义在监督学习换句话说，双回归方案具有比原始前馈方案更小的泛化界，并且所提出的双回归方案有助于原始模型实现更准确的SR预测。Z对偶2N δ5. 实验B（P，D） ≤ B（P），其中B（P），P ∈H是监督学习w的推广界. r. t. Rademac她的复杂性R∈SL（H）.该定理表明对偶回归格式的推广界依赖于函数空间H对偶的Rademacher复杂度。由定理1可知，对偶回归SR格式比传统的SR格式具有更小的推广界。因此，它有助于实现更准确的SR预测。更多讨论可参考备注1 .一、我们强调，导出的推广界的对偶回归方案，其中损失函数是有界的[0，C]，是更一般的比[40]。此外，当训练数据足够时，这种泛化边界是紧的，并且原始模型和对偶模型足够强大。我们广泛地评估了所提出的方法在图像超分辨率任务下的场景与配对的双三次数据和非配对的现实世界的数据。所有实现都基于PyTorch。15.1. 监督图像超分辨率的研究结果在本节中，我们首先在图4中展示了4×和8×SR在性能和模型大小方面的比较。在实验中，我们提出了两种模型，即小模型DRN-S和大模型DRN-L。我们从他们的预训练模型，发布的代码或他们的原始论文中获得所有比较方法的结果1源代码可从https://github.com/guoyongcs/DRN获得。EDSRSRCNN（57k参数）FSRCNN（12k参数）VDSRLapSRNSRResNetDBPNSanRCANDRN-LDRN-S峰值信噪比（dB）峰值信噪比（dB）DRN-SDRN-LRRDBRCANSanDBPNEDSrSRResNetLapSRNVDSrFSRCNN（12k参数）SRCNN（57k参数）5412表1.与最先进的4倍和8倍图像超分辨率算法的性能比较粗体数字表示最佳结果，蓝色数字表示次佳结果。算法规模参数数（M）Set5PSNR /SSIM产品14PSNR /SSIMBSDS100PSNR /SSIMUrban100PSNR /SSIMManga109PSNR /SSIM双三-28.42 /0.81026.10 /0.70225.96 /0.66723.15 /0.65724.92 /0.789ESPCN [33]-29.21 /0.85126.40 /0.74425.50 /0.69624.02 /0.72623.55 /0.795[24]第二十四话1.632.05 /0.89128.49 /0.78227.61 /0.73626.09 /0.78330.70 /0.908SRGAN [24]1.629.46 /0.83826.60 /0.71825.74 /0.66624.50 /0.73627.79 /0.856[23]第二十三话0.931.54 /0.88528.09 /0.77027.31 /0.72725.21 / 0.75629.09 /0.890SRDenseNet [35]2.032.02 /0.89328.50 /0.77827.53 /0.73326.05 /0.78129.49 /0.899EDSR [26]443.132.48 /0.89828.81 /0.78727.72 /0.74226.64 /0.80331.03 /0.915DBPN [16]10.432.42 /0.89728.75 /0.78627.67 /0.73926.38 /0.79430.90 /0.913RCAN [51]15.632.63 /0.90028.85 /0.78827.74 /0.74326.74 /0.80631.19 /0.917SAN [8]15.932.64 /0.90028.92 /0.78827.79 /0.74326.79 /0.80631.18 /0.916RRDB [37]16.732.73/0.90128.97/0.79027.83/0.74527.02/0.81531.64/0.919DRN-S4.832.68 /0.90128.93 /0.79027.78 /0.74426.84 /0.80731.52 /0.919DRN-L9.832.74/0.90228.98/0.79227.83/0.74527.03/0.81331.73/0.922双三-24.39 /0.65723.19 /0.56823.67 /0.54720.74 /0.51521.47 /0.649ESPCN [33]-25.02 /0.69723.45 /0.59823.92 /0.57421.20 /0.55422.04 /0.683[24]第二十四话1.726.62 /0.75624.55 /0.62424.65 /0.58722.05 /0.58923.88 /0.748SRGAN [24]1.723.04 /0.62621.57 /0.49521.78 /0.44219.64 /0.46820.42 /0.625[23]第二十三话1.326.14 /0.73724.35 /0.62024.54 /0.58521.81 /0.58023.39 /0.734SRDenseNet [35]EDSR [26]82.345.525.99 /0.70427.03 /0.77424.23 /0.58125.05 /0.64124.45 /0.53024.80 /0.59521.67 /0.56222.55 /0.61823.09 /0.71224.54 /0.775DBPN [16]23.227.25 /0.78625.14 /0.64924.90 /0.60222.72 /0.63125.14 /0.798RCAN [51]15.727.31 /0.78725.23 /0.65124.96 /0.60522.97/0.64325.23 /0.802SAN [8]16.027.22 /0.78225.14 /0.64724.88 /0.60122.70 /0.63124.85 /0.790DRN-S5.427.41/0.79025.25/0.65224.98/0.60522.96 /0.64125.30/0.805DRN-L10.027.43/0.79225.28/0.65325.00/0.60622.99/0.64425.33/0.806(a)4×超分辨率的视觉比较（b）8倍超分辨率的视觉比较。图5.（a）4×和（b）8×图像超分辨率不同方法的视觉比较5.2. 数据集和实施详细信息我们在五个基准数据集上比较了不同的方法，包括SET5 [3]，SET14 [47]，BSDS100 [1]，URBAN100 [21]和MANGA109 [29]。采用两种常用的图像质量度量作为度量，例如PSNR和SSIM[38]。在[37]之后，我们在DIV2K [34]和Flickr2K [26]数据集上训练我们的模型。5.2.1与最先进方法的我们比较我们的方法与国家的最先进的SR方法的定量结果和视觉结果。为定量比较，比较了4倍和8倍超分辨率下不同方法的PSNR和SSIM值。从表1中可以看出，我们的DRN-S具有大约5 M的参数，有前途的业绩。我们的DRN-L具有约10 M的参数，其性能与所考虑的4×SR方法相当，并且具有最佳性能对于8×SR。为了进行质量比较，我们提供了视觉COM-我们的方法和所考虑的方法的型坯（见图5）。对于4×和8×SR，我们的模型始终产生更清晰的边缘和形状，而其他基线可能会产生更模糊的图像。结果表明，所提出的二元回归方案在遗传算法中是有效的。5413表2.超分辨率模型对8×SR不同退化方法图像的自适应性能算法降解Set5PSNR /SSIM产品14PSNR /SSIMBSDS100PSNR /SSIMUrban100PSNR /SSIMManga109PSNR /SSIM最近21.22 /0.56020.11 /0.48520.64 /0.47117.76 /0.45418.51 /0.594EDSR [26]19.56 /0.58018.24 /0.49818.53 /0.47915.68 /0.43517.22 /0.598DBPN [16]RCAN [51]最近18.80 /0.54118.33 /0.53417.36 /0.46117.11 /0.43617.94 /0.45617.67 /0.44415.07 /0.40014.73 /0.38016.67 /0.55016.25 /0.525CinCGAN [43]21.76 /0.64820.64 /0.55220.89 /0.52818.21 /0.50518.86 /0.638DRN适配器23.00/0.71521.52/0.56121.98/0.53919.07/0.51819.83/0.613EDSR [26]23.54 /0.70222.13 /0.59422.71 /0.56719.70 /0.55120.64 /0.700DBPN [16]23.05 /0.69321.65 /0.58622.50 /0.56519.28 /0.53820.16 /0.689RCAN [51]BD22.23 /0.67821.01 /0.56721.85 /0.55218.36 /0.50919.34 /0.659CinCGAN [43]23.39 /0.68222.14 /0.58122.73 /0.55420.36 /0.53820.29 /0.670DRN适配器24.62/0.71923.07/0.61223.59/0.58320.57/0.59121.52/0.714生成更准确和视觉上有希望的HR图像。更多的结果放在补充资料中。本文还比较了4×和8×SR两种模型的参数个数，由于篇幅限制，本文只给出了4×SR的结果，而将8×SR作为补充。从图4中，我们的DRN-S获得了有前途的用少量的参数就可以实现性能。当我们增加通道和层数时，更大的模型DRN-L进一步提高了性能，并获得了最佳结果。实验结果和定理1中的理论分析都表明了所提出的图像超分辨率对偶回归方法的有效性。5.3. 非配对数据的适应结果在这个实验中，我们将所提出的方法应用到各种现实世界的未配对数据。与超监督设置不同，我们首先考虑一个玩具案例，在该案例中，我们使用不同的退化方法（例如，最近和BD [48]）。在训练期间，我们只能访问LR图像，但不能访问其对应的HR图像。然后，我们还将我们的方法应用于来自YouTube的LR原始视频帧。5.3.1数据集和实施详细信息在该实验中，我们通过对现有图像进行下采样来获得成对的合成数据。考虑到现实世界的SR应用，所有配对数据属于与未配对数据不同的域（参见补充中的更多讨论）。根据[32]，我们从ImageNet（称为ImageNet 3K）中随机选择3k张图像，并使用不同的退化方法（包括Nearest 和 BD ）获得 LR 图像。我们采用 DIV2K（Bicubic）作为配对合成数据2，采用不同退化程度的ImageNet3K LR图像作为非配对数据。请注意，我们的实验中未使用ImageNet3K HR图像。对于SR任务（2）我们也可以用其他的退化方法来获得成对的合成数据。我们把降解方法的影响放在补充的位置。图6. 8×SR的模型自适应与真实世界视频帧（来自YouTube）的视觉比较在视频上，我们收集3k个原始视频帧作为未配对的数据来训练模型。在本节中，我们使用DRN-S模型来评估所提出的自适应算法，并调用生成的模型DRN-Adapt。更多详情请参见补充资料。5.3.2非配对合成数据为了评估非配对数据的适应性能，我们比较了我们的DRN-Adapt和基线方法的合成数据。我们在表2中报告了8×超分辨率的不同方法的PSRN和SSIM值。从表2中可以看出，DRN-Adapt始终优于所有数据集上的监督方法。对于基于CycleGAN的方法，CinCGAN实现了比监督学习方法更好的性能，但由于前面提到的固有限制，仍然不能超过我们的方法。请注意，对于最近的LR数据，我们还报告了最近的内核的恢复结果，这与降级方法相同。我们的方法也产生了很大的性能改善，超过这个基线。这些结果证明了所提出的自适应算法的有效性。5.3.3非配对真实世界数据我们将我们的方法应用于YouTube原始视频帧，由于现实世界场景中的复杂和未知的退化，既然有5414表3.所提出的二元回归方案对超分辨率性能的影响，在4 × SR的五个benchmark数据集上的PSNR得分方面。模型双Set5产品14BSDS100Urban100Manga109DRN-S✗C32.5332.6828.7628.9327.6827.7826.5426.8431.2131.52DRN-L✗C32.6132.7428.8428.9827.7227.8326.7727.0331.3931.73表4.方程中超参数λ的影响（1）DRN-S的性能（在Set 5上测试），用于4 ×SR。电话：+86-021 - 8888888传真：+86-021 -8888888设置5上的PSNR32.5732.6132.6732.5132.37没有地面真实的HR图像，我们只提供视觉比较。从图6中可以看出，从三个监督基线（即，EDSR、DBPN和RCAN）包含许多马赛克。对于CinCGAN，由于对未配对LR和HR图像之间的数据差异的敏感性，SR结果失真并包含大量噪声。相比之下，我们的DRN-Adapt产生的图像具有更清晰、更清晰的纹理。由于页数限制，我们在补充资料中添加了更多的可视化结果。6. 进一步的实验6.1. 对偶回归格式的消融研究我们对双回归方案进行了消融研究，并在表3中报告了4×SR的结果。与基线相比，配备双重回归方案的模型在所有方面都有更好的表现数据集。这些结果表明，双回归方案可以通过引入额外的约束来减少映射函数的空间来改善HR图像的重建。我们还评估了我们的双元回归方案对其他模型的影响，基于SRResNet [24]的网络（详见补充资料）。6.2. λ对DRN的影响我们进行实验来研究方程中的超参数λ的影响。（一）.从表4中可以看出，当我们将λ从0.001增加到0.1时，二元回归损失逐渐变得更加重要，并提供了强大的监督。如果我们进一步将λ增加到1或10，则对偶回归损失项将压倒原始回归损失并妨碍最终性能。获得为了在原始回归和二元回归之间取得一个很好的折衷，我们设置λ=0。1在实践中6.3. ρ对自适应算法的影响我们研究ρ对所提出的自适应算法的影响。我们比较了当我们改变未配对数据ρ的数据比率时的性能，并在图7中显示了相应的训练曲线。从图7中，当我们设置23.022.522.021.521.00 10 20 30 40 50103次迭代图7. 4 × SR的非配对数据与最接近退化（在第5组进行测试）的性能比较。ρ∈ {30%，50%，70%}时，得到的模型比基线模型获得更好的性能，即p=0%。在实践中，我们设置ρ=30%以获得最佳性能。我们还比较了有和没有预训练的模型参数从图7中可以看出，从头开始训练的模型产生的结果稍差，但仍然优于没有自适应的基线模型。这些结果证明了所提出的自适应算法的有效性。7. 结论在本文中，我们提出了一种新的对偶回归方案的配对和非配对数据。在配对数据上，我们通过重建LR图像来引入额外的约束以减少可能函数的空间。因此，我们可以显著提高SR模型的性能。此外，我们还关注非配对数据，并将二元回归方案应用于实际数据。例如，YouTube上的原始视频帧配对和未配对的数据上的大量实验表明，我们的方法比所考虑的基线方法的优越性。致谢本工作得到国家自然科学基金广东省科技基金2018B010107001、2019B010155002的部分资助（国家自然科学基金委）61836003（重点项目），中央大学基础研究基金D2191240，2017ZT07X183广东省创新创业团队引进项目，JR 201902腾讯人工智能实验室犀牛鸟孵化研究项目，广东省科技特派员基金2016TQ03X445计划青年科技创新人才项目，广州市科技计划项目201904010197 ，广东省自然科学基金资助项目2016A030313437。20ρ=0%ρ=30%18ρ=50%ρ=70%161430405010200ρ =100%ρ=30%划痕峰值信噪比（dB）5415引用[1] 巴勃罗·阿贝莱斯，迈克尔·梅尔，查利斯·福克斯，还有吉坦德拉·马利克.轮廓检测和分层图像分割。IEEETransactionsonPatternAnalysisandMachineIntelligence，33（5）：898-916，2011. 6[2] Se fi Bell-Kligler，Assaf Shocher，and Michal Irani.使用内部增益的盲超分辨率核估计在神经信息处理系统的进展，第284-293页2[3] MarcoBevilacqua，AlineRoumy，ChristineGuillemot，Marie-Line Alberi-Morel.基于非负邻域嵌入的低复杂度单幅图像超分辨率在BMVC，2012年。6[4] 曹杰章，郭勇，吴庆耀，沈春华，黄俊洲，谭明奎.使用局部坐标编码的对抗学习。在2018年机器学习国际会议2[5] Jiezhang Cao，Langyuan Mo，Yifan Zhang，Kui Jia，Chunhua Shen，and Mingkui Tan.多边缘沃瑟斯坦干神经信息处理系统的进展，第1774-1784页，2019年2[6] Peihao Chen，Chuang Gan，Guangyao Shen，WenbingHuang，Runhao Zeng，and Mingkui Tan.时间动作定位的关系IEEE Transactions on Multimedia，2019。1[7] 齐晨、齐武、唐锐、王玉涵、王帅、谭明奎。智能家居3D：仅从语言描述自动3D房屋在IEEE计算机视觉和模式识别上，2020。1[8] Tao Dai，Jianrui Cai，Yongbing Zhang，Shu-Tao Xia，and Lei Zhang.单幅图像超分辨率的二阶注意力网络在IEEE计算机视觉和模式识别会议，2019。6[9] 郭勇，陈剑，杜青，安东，石勤峰，谭明奎.用于训练紧凑型深度神经网络的多路反向传播神经网络，2020年。1[10] 郭勇，陈奇，陈剑，黄俊洲，徐炎武具有梯度敏感损失的图像超分辨率的双重重构网络arXiv预印本arXiv：1809.07099，2018。1[11] 郭勇，齐尘，剑尘，武青瑶，石清风，谭明奎。用于高分辨率图像合成的自动嵌入生成对抗网络。IEEETrans- actions on Multimedia，2019。1[12] 郭勇，罗永生，何振豪，金煌，剑尘。分层神经结构搜索单图像超分辨率。 arXiv 预印本 arXiv ：2003.04619，2020。1[13] Yong Guo，Mingquui Tan，Qingyao Wu，Jian Chen，Anton Van Den Hengel，and Qinfeng Shi.浅端：EM-通过辅助输出为较浅的深度卷积网络供电。arXiv预印本arXiv：1

下载后可阅读完整内容，剩余1页未读，立即下载