面向双向任意图像重缩放的联合优化和循环幂等性

173 浏览量更新于2023-10-25 收藏 30.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

173890面向双向任意图像重缩放：联合优化和循环幂等性0Zhihong Pan 1 , Baopu Li 1 , Dongliang He 20Mingde Yao 2,3 , Wenhao Wu 2 , Tianwei Lin 2 , Xin Li 2 , Errui Ding 201 Baidu Research (USA), Sunnyvale, CA 94089, USA 2 Department ofComputer Vision Technology (VIS), Baidu Inc., Beijing, China 3 Universityof Science and Technology of China0摘要0基于深度学习的单图像超分辨率模型已经得到广泛研究，并在固定比例因子和降低尺度退化核的情况下放大低分辨率图像方面取得了出色的结果。为了提高这些模型在实际应用中的适用性，越来越多的研究兴趣集中在针对任意放大因子进行优化的模型上。我们提出的方法是第一个将任意重缩放（包括放大和降低尺度）视为一个统一过程的方法。通过同时优化两个方向，所提出的模型能够同时学习放大和降低尺度，并实现双向任意图像重缩放。它通过较大的边际改善了当前任意放大模型的性能，同时学会在降低尺度的图像中保持视觉感知质量。所提出的模型在循环幂等性测试中表现出了鲁棒性，在重复应用降低尺度到放大尺度的循环时，重建准确性没有严重的退化。这种鲁棒性对于在野外进行图像重缩放非常有益，因为这种循环可以多次应用于同一图像。即使模型没有经过这样的任务训练，它在任意大尺度和非对称尺度的测试中也表现良好。我们进行了大量实验来证明我们模型的优越性能。01. 引言0在实际应用中，常常需要对图像进行任意比例的缩放，无论是放大还是缩小，用于各种目的，如显示、存储或传输。虽然最近基于深度学习的图像超分辨率（SR）方法在提高图像放大性能方面取得了显著进展，但它们大多数是针对固定比例因子和已知的降低尺度退化核进行优化的。最近，越来越多的研究兴趣集中在针对任意放大因子进行优化的SR模型上。我们提出的方法是第一个将任意重缩放（包括放大和降低尺度）视为一个统一过程的方法。通过同时优化两个方向，所提出的模型能够同时学习放大和降低尺度，并实现双向任意图像重缩放。它通过较大的边际改善了当前任意放大模型的性能，同时学会在降低尺度的图像中保持视觉感知质量。所提出的模型在循环幂等性测试中表现出了鲁棒性，在重复应用降低尺度到放大尺度的循环时，重建准确性没有严重的退化。这种鲁棒性对于在野外进行图像重缩放非常有益，因为这种循环可以多次应用于同一图像。即使模型没有经过这样的任务训练，它在任意大尺度和非对称尺度的测试中也表现良好。我们进行了大量实验来证明我们模型的优越性能。0GT0IRN-C10IRN-C20Ours-C10Ours-C50图1. 多次降低尺度到放大尺度循环中质量退化的视觉示例：IRN[29] 和我们的方法。0端口任意比例因子和巨大的成功已经取得，包括在某个范围内的任意放大比例[11]，或者学习连续的图像表示来调整到任意更大的分辨率[6]，或者垂直和水平放大比例可以不同的非对称任意放大[26]。像标准的SR模型一样，这些方法都是针对单向放大过程进行优化的。相比之下，另一类图像重缩放模型[14, 25,29]是为了优化降低尺度的过程以及逆向放大，并且能够显著提高与相同放大比例的单向SR模型相比的准确性。据我们所知，目前这些双向重缩放模型仅限于特定的整数比例。在这里，我们提出了一种能够同时学习任意降低尺度和任意放大尺度的联合优化过程。通过将降低尺度和放大尺度都建模为等效的子像素分割和合并过程，并通过降低尺度到放大尺度的循环学习，所提出的方法能够在保持降低尺度输出的高感知质量的同时实现最佳的任意放大准确性。引入了类似于LIIF[6]的子像素权重函数（SVF）和一种新颖的子像素权重函数（SWF）用于子像素分割和合并。通过使用高分辨率（HR）重建的真实图像（GT）作为监督以及低分辨率（LR）的弱监督，所提出的模型在同时优化放大和降低尺度的情况下能够173900在任意图像重缩放方面取得了巨大的进展，包括非常大或非对称的尺度。此外，据我们所知，当前的模型仅针对一次降采样到升采样循环的单个应用进行评估，多个循环的效果从未被研究过。理想情况下，应用额外的循环不应引入任何超出初始循环的进一步变化。这种理想的降采样到升采样过程，根据定义，是一个幂等操作。换句话说，对于变量x的函数f，如果对于所有x，f(f(x)) =f(x)，则f是幂等的。虽然理想的幂等重缩放循环可能不可行，但在应用多个降采样到升采样循环时，希望附加的降级最小化。在这里，研究了一个代理目标，用于优化重建精度和幂等性，并引入了一个循环幂等性测试，以评估多个循环的输出质量与原始GT的比较。如图1所示，IRN[29]在第一个循环（C1）中具有高质量的结果，但当将C1的输出用作C2的输入时，严重的伪影普遍出现。相比之下，我们的结果在C1具有类似的高质量，在C5甚至没有明显的伪影。总之，我们的工作的主要贡献包括：0•首个将双向任意图像降采样和升采样视为联合过程并在任意图像重缩放中设定SOTA性能的模型。0•新提出的循环幂等性测试，展示了我们的方法在重复降采样到升采样循环后的模型鲁棒性方面的优越性能。0• 在任意非对称尺度和大尺度超出分布的测试中达到SOTA水平。02. 相关工作0任意尺度超分辨率。深度学习的图像超分辨率已经在过去几年中得到了广泛研究[8, 15, 20, 31,32]，这些方法通常为每个固定的尺度因子训练一个模型。Lim等人首先提出了一个多尺度SR模型，该模型共享一个特征学习骨干用于不同尺度，但仍需要尺度特定的处理模块来处理多个尺度的最后一步[20]。随后，Li等人提出了一个多尺度残差网络，使用具有不同卷积核大小的卷积层学习多尺度空间特征[19]。然而，这些方法仍然局限于一组固定的整数尺度因子。受元学习中权重预测技术的启发[18]，Hu等人提出了一个单一的元-SR模型，通过预测卷积层在任意尺度因子上的权重来解决任意尺度因子的SR问题，而不仅限于一组固定的整数尺度因子。最新的ArbSR[26]提出了一个插件模块0进一步优化现有的任意非对称SR模型，其中水平和垂直方向的尺度因子可能不同。这些任意SR方法通常限于一个固定的最大尺度因子以保持高性能。最近，Chen等人提出了使用学习的局部隐式图像函数（LIIF）替代先前方法中的像素值特征来预测任意大尺度上的像素值的模型。我们的工作将LIIF的思想扩展到同时适用于任意降采样和升采样。0双向图像重缩放。如上所述，大多数超分辨率模型依赖于LR-HR对，其中每个LR图像是使用基于频率的核（如Bicubic[22]）从相应的HR图像进行降采样得到的。这些模型仅针对升采样重建进行训练，而没有考虑图像降采样方法的联合考虑。为了利用降采样和逆向升采样之间的潜在互惠增强作用，Kim等人提出了一个自动编码器框架，共同训练图像降采样和升采样[14]。类似地，Sun等人提出了一种基于内容自适应采样器的图像降采样方法，可以与任何现有的可微分升采样（SR）模型一起进行联合训练[25]。最近，Xiao等人提出了一种可逆重缩放网络（IRN），在基于可逆神经网络（INN）[2]的基础上，IRN学习将HR输入转换为LR输出和辅助潜变量z。通过在训练过程中将z映射到与案例无关的正态分布，可以通过从正态分布中随机采样z来实现逆向图像升采样，而无需特定于案例的ˆz。当前的双向图像重缩放方法仅限于固定的整数尺度因子，如×4。相比之下，我们在本文中提出了一种双向任意重缩放方法。0幂等图像处理。对于图像处理，存在许多幂等滤波器的示例，如中值滤波器[23]、级联中值滤波器[9]和基本形态学运算，如开运算和闭运算[10]。对于许多图像处理应用，拥有幂等滤波器或过程是有益的，原因有很多。在图像JPEG压缩的情况下，一个图像可能被多次压缩，因为不确定野外的图像是否已经被压缩。为了反映重复图像压缩的重要性，在JPEGXS的标准化过程中有一个特定的多代鲁棒性关键特性[7]。最近，发现连续深度图像压缩存在模型不稳定性问题，导致严重的视觉伪影[16]。在这里，我们将具体研究图像超分辨率和缩放模型在重复应用下采样到上采样过程后的循环幂等性。!𝜔𝑧𝜙𝑠̃𝑠̃𝑧$𝜙𝜓$𝑥&𝑥$𝑥𝑥𝑖𝑗𝑗𝑗!𝑗"𝑗#𝑗$𝑖! 𝑖"𝑖# 𝑖$𝑖! 𝑖"𝑖# 𝑖$𝑗! 𝑗"𝑗# 𝑗$(ℎ%",𝑣%")(ℎ%&,𝑣%&)(ℎ%!,𝑣%!)𝑠̃$𝑥&𝑥˜x=fm(s,ω)=fm(f Ds (z,φ),ω)=fm(f Ds (fe(x),φ),ω)ˆx=fm(˜s,˜ω)=fm(f Us (˜z,˜φ),˜ω)=fm(f Us (fe(˜x),˜φ),˜ω)(1)sk = fs(zi, φik)(2)rj = �k∈Rj ωjksk/ �k∈Rj ωjk(3)173910!�0特征编码器0下采样0SVF0上采样0SVF0D-SWF0子像素合并0子像素分割0特征编码0下采样0上采样0子像素合并0子像素分割0子像素0重新映射0图2. 提出的双向任意图像缩放网络（BAIRNet）框架，以及子像素分割和合并过程的放大示意图。0低层次视觉中的弱监督。弱监督是一种监督学习的分支，其中监督信号（如图像分类的标签）来自不精确或嘈杂的来源。虽然在高层次任务（如目标检测[4]和语义分割[13]）中已经广泛研究，但在图像恢复和重建等低层次视觉任务中尚未得到充分解决。在图像超分辨率中，需要LR-HR对，LR图像通常是使用双三次插值从HR图像合成的，与真实世界的LR图像相比可能不准确。已经有努力共同收集真实的LR和HR图像，构建真实世界的SR数据集，如RealSR [5]和DRealSR[28]。然而，这些对可能存在注册不准确和/或局部运动模糊，因为LR和HR是使用不同的镜头连续拍摄的。对于最新的双向缩放模型[14, 25,29]，尽管逆向上采样的准确性是主要目标，但仍需要弱监督学习进行下采样。虽然双三次插值的LR图像以前被用作下采样参考，但我们的研究中探索了新形式的弱监督。03. 提出的方法03.1. 双向任意图像缩放0提出的双向任意图像缩放网络（BAIRNet）框架如图2所示。它是一个双向过程，包括下采样将GT图像x转换为LR图像˜x，以及上采样从˜x恢复HR图像ˆx。如左侧所示，每个方向都包括相同的三个步骤：特征编码、子像素分割和子像素合并。这些步骤被表示为0其中 f s 是亚像素值函数，z i 是像素 i的特征向量。这个过程对于下采样和上采样是相同的，但是在公式1中为了区分，使用了不同的亚像素值函数的符号。在亚像素合并时，像素 j 的值计算为0k ∈ R j ω j k s k / �3.2. Idempotent Image Rescaling173920其中 ω j k 是像素 j 合并时亚像素 k的权重。对于上采样中的亚像素合并权重，˜ ω j k简单地定义为亚像素 k 的面积。由于大多数上采样像素 j仅由一个亚像素 k组成，而其他像素则有2个或4个亚像素，基于面积的权重足以表示每个亚像素的重要性。而在下采样的情况下，每个像素 j可能包含大量的亚像素，每个亚像素的影响应该依赖于其大小和位置。因此，我们提出了一个亚像素权重函数（SWF）模块，在端到端训练过程中学习亚像素合并的权重，表示为ω j k = f w ( ψ j k )。类似于 φ i k，ψ j k 被定义为 ( h 1 k− h c j , v 1 k − v c j , h 2 k − h c j , v 2 k − v c j)。尽管这个框架与两个先前的工作 IRN [29] 和 LIIF [6]有一些相似之处，但我们提出的方法与之前的方法有一些实质性的区别。首先，IRN只限于每个训练模型的一个固定整数尺度。虽然它也被训练用于优化下采样和上采样，但它是基于可逆网络的，使用前向和反向推理分别进行下采样和上采样。相反，我们对于两个方向都使用相同的三步过程，并且只需要一个模型来处理任意尺度。IRN在反向上采样过程中随机采样辅助潜变量，这会带来不确定性并导致循环等价性测试中的严重伪影。与 LIIF相比，我们的模型将下采样和上采样过程合并起来，利用类似的隐式函数来进行任意下采样和上采样。因此，它可以训练用于双向任意重缩放，并且在性能上有很大的改进。最后，LIIF 没有研究非对称尺度。0在不考虑LR中的约束条件的情况下，将公式1中定义的缩放周期简化为ˆx =f(x)。优化这个周期的主要目标是最小化其重建损失，但也希望学习一个幂等的周期。这两个目标可以分别定义为：0f = arg min f_η L(f_η(x), f_η(f_η(x))) (4)0f = arg min f_ζ L(x, f_ζ(x))0f = arg min f_θ L(x, f_nθ(x)), n ∈ [1, N] (5)0其中f_nθ表示f_θ应用n次。当N设置为1时，该代理目标等同于1周期重建的主要任务。在我们的实验中，我们调查了不同N值之间的权衡：重建准确性和周期幂等性。由于这两个目标可能存在冲突，我们提出了一种经验性的代理目标，以学习两者之间的折衷。在实践中，模型被训练以最小化经过n个周期后的重建误差，如下所述：03.3. 弱监督的LR0考虑到与公式5中的多周期优化以及生成视觉上连贯的LR图像的需要，我们模型的整体损失被定义为0L = λ_1L_rec(x, ˆx_n) + λ_2L_ref(x, ˜x_n)(6)其中L_rec是HR的重建损失，L_ref是LR的参考损失，˜x_n和ˆx_n分别是经过n个周期后的LR和HR输出。虽然可以通过将λ_2设置为0来完全自监督地训练它，但这会导致由于随机初始化而产生视觉上无意义的˜x。与之前的方法[14, 25,29]不同，我们的研究探索了各种策略，如在训练的后期将λ_2减小到0，或者从每个颜色通道的均值而不是每个像素计算L_ref，以展示弱监督在LR中的优势。04. 实验04.1. 数据和设置0为了与之前的工作（如LIIF和IRN）进行公平比较，我们使用了来自DIV2K[1]的相同的800个高分辨率图像进行训练。为了定量评估，我们使用了五个常用基准数据集的高分辨率图像，包括Set5[3]、Set14[30]、BSD100[21]、Urban100[12]和Manga109[12]，以及来自DIV2K验证集的100个高分辨率图像。按照类似于LIIF的先前做法，我们对5个基准集合的亮度通道使用峰值信噪比（PSNR）和结构相似性指数（SSIM）进行评估，但对DIV2K验证集使用RGB颜色空间中的相同指标。对于一个训练批次中的200×200输入高分辨率补丁，每个补丁都被分配一个从均匀分布U(1,4)中随机采样的随机降采样比例。对于各个模块，我们使用RDN[32]减去其上采样模块作为特征编码器，它生成与输入图像相同大小的特征图。对于降采样和上采样的SVF，我们使用具有ReLU激活和256个隐藏维度的5层MLP。对于降采样的SWF，我们使用具有16个隐藏维度的5层MLP。使用批量大小为8，所有模型都使用Adam[17]优化器进行训练。为了高效地进行消融研究，我们在初始学习率为10^-4的情况下，在每个500个时期、每个300个迭代之后生成一个预训练模型。学习率在每个100个时期后减半。对于这个阶段，L_rec被设置为像素级的L1损失，L_ref被设置为L2损失，并且不包括SWF模块。预训练模型进一步训练500个时期，得到基础模型BAIRNet，其中包括降采样的SWF，并且L_ref被设置为每个颜色通道的均值像素值的L2损失。除非另有说明，λ_1和λ_2都被设置为1。BAIRNet进一步进行200个时期的微调，使用所定义的代理目标。GT†Bicubic†RCAN [31]†Meta-SR [11]†LIIF [6]†ArbSR [26]†CAR [25]†IRN [29]†BAIRNet†173930表1. SOTA SR和缩放方法的定量比较，最佳两个结果分别用红色和蓝色突出显示（粗体方法需要多个模型和额外的插值来实现任意尺度）。0方法尺度参数 Set5 Set14 BSD100 Urban100 Manga109 DIV2K0Bicubic ×1.5 - 36.75/0.9611 32.86/0.9268 32.16/0.9133 29.49/0.9095 34.79/0.9707 33.95/0.9416 RCAN [31] ×1.5 15.4M40.97/0.9767 37.05/0.9578 35.59/0.9516 35.93/0.9660 42.33/0.9889 38.47/0.9701 Meta-SR [11] ×1.5 15.5M 41.47/0.978537.52/0.9601 35.86/0.9543 36.91/0.9696 43.17/0.9904 38.88/0.9718 LIIF [6] ×1.5 22.3M 41.23/0.9774 37.37/0.959135.76/0.9536 36.70/0.9684 42.84/0.9894 38.82/0.9717 ArbSR [26] ×1.5 16.6M 41.47/0.9786 37.51/0.9603 35.86/0.954736.92/0.9697 43.12/0.9904 38.84/0.97190CAR [25] ×1.5 51.1M 40.50/0.9763 37.08/0.9596 35.72/0.9535 34.70/0.9635 40.90/0.9881 37.93/0.9683 IRN [29] ×1.5 1.66M43.55/0.9891 39.52/0.9795 39.28/0.9833 36.52/0.9811 42.64/0.9936 40.18/0.98380BAIRNet † ×1.5 22.4M 47.13/0.9849 43.12/0.9760 46.63/0.9959 44.01/0.9946 45.49/0.9948 44.99/0.99200Bicubic ×2.5 - 31.76/0.8983 28.52/0.8196 28.13/0.7853 25.43/0.7837 28.56/0.8954 29.40/0.8505 RCAN [31] ×2.5 15.6M36.05/0.9436 31.69/0.8815 30.47/0.8508 30.42/0.8990 36.59/0.9634 32.72/0.9079 Meta-SR [11] ×2.5 15.5M 36.18/0.944131.90/0.8814 30.47/0.8508 30.57/0.9003 36.55/0.9639 32.77/0.9086 LIIF [6] ×2.5 22.3M 35.98/0.9434 31.64/0.881330.45/0.8510 30.42/0.8992 36.39/0.9630 32.78/0.9091 ArbSR [26] ×2.5 16.6M 36.21/0.9448 31.99/0.8830 30.51/0.853630.68/0.9027 36.67/0.9646 32.77/0.90930CAR [25] ×2.5 52.8M 37.33/0.9548 33.78/0.9169 32.53/0.9020 32.19/0.9301 37.63/0.9717 34.32/0.9310 IRN [29] ×2.5 4.35M39.78/0.9742 36.39/0.9553 35.56/0.9542 33.99/0.9589 39.33/0.9836 36.60/0.96070BAIRNet † ×2.5 22.4M 40.11/0.9664 36.62/0.9469 36.29/0.9563 36.62/0.9679 40.26/0.9830 37.46/0.96270Bicubic ×3.5 - 29.30/0.8374 26.52/0.7362 26.50/0.7003 23.70/0.6935 25.83/0.8203 27.38/0.7802 RCAN [31] ×3.5 15.6M33.47/0.9138 29.24/0.8141 28.42/0.7731 27.61/0.8348 32.74/0.9328 30.13/0.8511 Meta-SR [11] ×3.5 15.5M 33.59/0.914629.60/0.8140 28.42/0.7728 27.71/0.8356 32.75/0.9337 30.18/0.8524 LIIF [6] ×3.5 22.3M 33.41/0.9133 29.20/0.813128.39/0.7714 27.60/0.8334 32.60/0.9324 30.16/0.8517 ArbSR [26] ×3.5 16.6M 33.63/0.9149 29.58/0.8147 28.41/0.774427.69/0.8360 32.84/0.9339 30.14/0.85180CAR [25] ×3.5 52.8M 34.98/0.9303 31.38/0.8643 30.14/0.8326 29.97/0.8871 35.00/0.9507 31.88/0.8865 IRN [29] ×3.5 4.35M37.12/0.9546 33.65/0.9196 32.54/0.9047 31.84/0.9277 36.86/0.9690 33.84/0.92810BAIRNet † ×3.5 22.4M 36.85/0.9472 32.97/0.9074 32.36/0.8986 32.71/0.9338 36.98/0.9671 33.87/0.92660×2.50×3.50×2.50×3.50图3. Urban100和DIV2K的任意缩放的视觉示例，两个尺度为×2.5和×3.5（最佳在线版本查看）。0在公式5中，N被设置为3，最终模型被标记为BAIRNet†，†用于区分。04.2. 任意缩放性能0为了评估我们提出的任意缩放方法的性能，我们比较了使用一组任意尺度进行缩放的HR图像。对于每个固定尺度，为了公平比较，LR图像的分辨率对于所有方法都保持相同。对于仅训练整数尺度的模型，如RCAN和IRN，对任意尺度的评估是通过使用最接近的过采样进行LR图像的上采样实现的。0在使用双三次插值进行重采样之前，整数尺度（对于2和3之间的任何尺度使用×3）的HR输入也会相应地进行预上采样。如表1所示，我们将三个尺度（×1.5/2.5/3.5）的PSNR和SSIM结果进行了比较。结果显示，我们的BAIRNet在×1.5和×2.5的测试中表现优于其他方法，并且在6个测试集中的3个大型测试集中的×3.5测试中表现最佳，而在另外3个测试集中略逊于IRN。从视觉上看，如图3所示，IRN和我们的双向方法总体上表现最佳。在这两者之间，IRN的模糊程度更高。262728293031323334353637383940414243444546474811.522.533.541218243010.09 0.09 0.09 0.08 0.10 0.13 0.05 0.08 0.1320.14 0.16 0.21 0.16 0.21 0.33 0.15 0.21 0.3430.21 0.24 0.32 0.27 0.36 0.56 0.28 0.39 0.6040.29 0.34 0.42 0.40 0.54 0.78 0.44 0.60 0.8650.38 0.43 0.49 0.54 0.73 1.00 0.61 0.82 1.11To study the effectiveness of various N in Eq. 5, the baseBAIRNet model is trained for another 200 epochs usingN = 1, 3, 5 respectively. As shown in Table 2, the improve-ments in PSNR for three ﬁne-tuned models are comparedfor 1-5 cycles at 3 different scales. There are consistent im-provements across scales and cycles even when N = 1, in-dicating the base BAIRNet is not fully trained. For N = 3,it is shown to improve PSNR more signiﬁcantly after multi-cycles, especially for smaller scales, while only trailing by0.01 at 1-cycle for ×4. For N = 5, the corresponding gainat multi-cycles is larger, but there is trade-off of accuracy at1-cycle. Overall, it is demonstrated that the proposed proxyobjective is effective at increasing model robustness in cy-cle idempotence while maintaining high performance at theprimary goal of 1-cycle reconstruction accuracy.173940尺度0双三次插值 RCAN Meta-SR0LIIF ArbSR CAR0IRN BAIRNet†0图4.DIV2K验证集上任意缩放测试（×1.1-×4）的跨尺度性能比较。0在×2.5倍尺度上，第二个示例的颜色为×3.5倍尺度。图4还展示了在×1.1和×4之间的连续尺度结果（每0.1采样一次），以与其他模型进行比较。对于像Meta-SR、LIIF和ArbSR这样的任意上采样模型，它们在×2倍尺度以上与RCAN和彼此本质上是等效的。双向模型CAR和IRN在较大尺度上大大提高了性能，但在小的任意尺度上性能下降。BAIRNet†在整体上明显是最好的，在除了×3.5倍尺度稍微落后于IRN之外的所有尺度上都是最好的，此外在×2倍尺度上也不需要额外的插值。04.3. 周期幂等性0周期幂等性测试被定义为对不同周期数的L(x, f_n(x))进行评估，其中f_n0表示重缩放周期f被应用n次。在这里，我们使用PSNR值代替L进行测试评估。对于第一组测试，即封闭测试，将下采样函数固定为与其上采样函数最匹配的函数。因此，对于RCAN、Meta-SR、ArbSR和LIIF，使用Matlab的imresize[24]进行等效性测试。对于其他双向训练模型，分别应用它们自己对应的下采样过程。对于开放测试，即下采样设置自由，选择INTERAREA插值的cv2.resize进行广泛应用，并用于所有方法进行公平比较。为了避免RCAN和IRN的额外插值，选择×4倍尺度进行DIV2K验证集上的测试，并在图5中进行比较。对于封闭测试，包括BIL-NN（下采样使用双线性插值，上采样使用最近邻插值）作为完全幂等性参考。IRN在第1个周期具有最佳性能，具有双向学习和可逆网络结构。然而，从第2个周期开始，性能急剧下降，可能是由于上采样过程中随机潜变量采样的影响。对于我们的方法，同时包括BAIRNet和BAIRNet†，以展示BAIRNet†在幂等性上的改进，它是通过使用多周期损失的代理目标从BAIRNet微调而来。在周期0BIL-NN0RC0Meta-SR0LIIF0ArbSR0CAR0IR0BAIRt0BAIRNet†0RC0Meta-SR0LIIF0ArbSR0CAR0IR0BAIRt0BAIRNet†0周期1 周期2 周期3 周期4 周期50封闭测试开放测试0图5.DIV2K验证集上1-5个周期的封闭和开放幂等性测试的峰值信噪比结果（×4）。01，两者都紧随IRN之后，并且它们从多个周期的附加质量损失逐渐改善。经过5个周期，两者仍然明显优于仅上采样模型的第1个周期，并且BAIRNet†明显优于BAIRNet。这显示了我们的方法在封闭环境中对重复缩放周期的鲁棒性的优势，以及多周期损失的有效性。对于右侧的开放测试，虽然所有模型在第1个周期与封闭测试相比都会有明显的性能损失，但我们的模型在多个周期下的退化速度要慢得多。由于页面限制，更多周期幂等性测试的视觉示例作为补充材料包含在内。0表 2. 在 N-循环损失（公式 5）下，通过微调对基础 BAIRNet进行的 PSNR 改进，每个尺度测试 5 个循环。0‡ N = 5 × 4 × 3 × 2 × 4 × 3 × 2 × 4 × 3 × 2LR‡Bicubic‡ArbSR‡IRN‡BAIRNet‡BAIRNet‡GT‡While our model is trained with symmetric scale factorsrandomly distributed between ×1 − ×4 and mainly testedusing such in-distribution settings, there is no such limita-tion in the capacity of the proposed method. For assess-ment, as shown in Table 3 and 4 respectively, our model iscompared with ArbSR for asymmetric scales and with LIIFfor large scales. In both cases, BAIRNet is used as is for up-scaling by simply changing the output resolution and usingcorresponding ˜φ as in Eq. 1. These out-of-distribution testsfurther demonstrate robustness of our proposed method.173950表 3. 对称和非对称尺度因子下的 PSNR 结果（粗体方法需要额外插值）。0‡ Manga109 × 2 × 3 × 1 . 6 × 3 . 2 × 3 . 6 × 1 . 2 × 2 . 5 × 2 × 3 × 1 . 6 × 3 . 2 × 3 . 6 × 1 . 2 × 2 . 5 × 2 × 3 × 1 . 6 × 3 . 2 × 3 . 6× 1 . 2 × 2 . 5 × 2 × 3 × 1 . 6 × 3 . 2 × 3 . 6 × 1 . 2 × 2 . 5 × 2 × 3 × 1 . 6 × 3 . 2 × 3 . 6 × 1 . 2 × 2 . 50ArbSR 35.90 35.90 35.85 36.21 31.89 31.96 31.59 31.99 30.58 30.87 30.24 30.51 30.59 30.60 29.74 30.68 36.17 35.88 35.30 36.67 IRN 38.6638.55 38.80 39.78 35.49 35.31 35.02 36.39 34.87 34.69 34.19 35.56 32.75 32.44 32.09 33.99 37.42 37.08 37.12 39.33 BAIRNet 39.40 39.05 38.340BAIRNet ‡ 40.06 40.42 40.11 40.16 36.66 37.00 36.33 36.68 36.28 36.96 36.64 36.17 36.32 36.74 35.82 36.43 40.01 40.27 39.42 40.140图 6. Urban100 测试集中任意非对称缩放的视觉示例（在线版本查看效果最佳）。0表 4. 大尺度外部分布的 PSNR 结果。0× 6 × 12 × 18 × 24 × 300Bicubic 24.82 22.27 21.00 20.19 19.59 LIIF27.02 23.95 22.40 21.40 20.710ArbSR 26.61 23.07 21.45 20.49 19.81BAIRNet 29.29 25.55 23.84 22.75 21.9704.4. 外部分布评估0s h 表示水平尺度，s v 表示垂直尺度，在表 3 中展示了 5个基准测试集的比较结果。ArbSR的结果作为仅学习上采样的单向模型的 SOTA基线。对于双向 IRN，由于只有 × 2 和 × 4模型可用，因此需要额外的插值来进行下采样和上采样，但其性能远远优于 ArbSR 基线。对于我们的基础BAIRNet，只需要在下采样阶段进行预插值，其中输入的GT 图像使用双三次插值重新采样，垂直尺度为 s m /sv，水平尺度为 s m /s h。这里 s m = √ s h sv，将非对称尺度转换为下采样的对称尺度 sm，同时保持输入像素数量与 GT大致相同，以进行公平比较。0Bicubic0LIIF0ArbSR0BAIRNet0GT0图 7. 大尺度因子（ × 30 ）的示例，↑ 指向相应的 LR输入（放大查看效果最佳）。0对比表 3 可以看出，BAIRNet 在除了 × 3 . 6 之外的情况下都比 IRN 更好。0× 1 . 2 ，与图4观察到的IRN在大于× 3 .5的尺度上略优的情况类似。与仅限于对称尺度训练数据的IRN不同，BAIRNet可以进一步使用具有非对称尺度的数据进行训练，微调后的模型称为BAIRNet‡。它不再需要初始的对称转换步骤，并在非对称测试中显示出进一步显著的改进，而在对称测试中仅有5个测试集中的2个略有退化。图6中的可视化示例清楚地显示了BAIRNet‡能够在随机的非对称尺度上重现更多的细节。对于表4中显示的大尺度测试，尽管所有模型都是从尺度高达×4的图像训练的，但与ArbSR相比，LIIF在大尺度（高达×30）上更加稳健。对于在尺度s下测试BAIRNet，GT图像通过使用双三次插值将其预降采样s/4，因此BAIRNet中的降采样步骤被限制在×4。这是一个合理的选择，因为这减少了用于耗时的特征编码降采样步骤的像素数量。从定量上来看，BAIRNet始终比LIIF好得多。对于图7中的可视化示例，BAIRNet明显能够恢复比其他模型更锐利的细节。图7中包含的所有LR输入，无论是像LIIF和ArbSR中的双三次调整大小还是通过BAIRNet进行降采样，都具有相同的低分辨率，仅供参考。BicubiccIRNcBAIRNetcBAIRNetc‡D-SWFLrefL2L2Lc2Lm2Lm2LrecLsLsLsLsLsL1DIV2K×431.1931.4231.7832.1232.1332.14×334.2434.4234.6635.1335.1235.10×238.8939.4239.3240.1140.1539.93173960图8. 放大视图中带有伪彩色伪影的下采样LR图像的可视化示例。04.5. 割舍研究0为了评估SWF和不同LR监督策略等模块的有效性，预训练模型使用不同的设置进行额外的200个epoch的训练，如表5所示。对于L ref的设置，L 2表示像素级别的L 2损失，L c2仅表示C b和C r通道的L 2，而L m2是指每个颜色通道使用均值像素值。注意，对于L c 2，λ2被设置为2。从表5可以清楚地看

下载后可阅读完整内容，剩余1页未读，立即下载