可逆任意图像缩放算法在图像超分辨率中的应用

199 浏览量更新于2023-10-15 收藏 1.4MB PDF 举报

图像超分辨率

固定尺度

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5416HH一种有效的可逆任意图像缩放算法潘志宏1李宝璞2*何栋梁3吴文浩3丁二瑞31百度研究（美国）2甲骨文健康与AI3百度VISzhihongpan@baidu.com，baopu.li @ oracle.com，{hedongliang01，wuwenhao01，dingerrui}@wwwbaidu.com摘要使用深度学习技术实现固定尺度的图像超分辨率（SR）已经取得了巨大的成功。为了增加其在现实世界中的适用性，许多模型也被提出来恢复具有任意比例因子的SR图像，包括不对称的模型，其中图像沿着水平和垂直方向被调整到不同的尺度。虽然大多数模型仅针对单向放大任务进行优化，同时假设针对低分辨率（LR）输入的预定义缩小内核，但是基于可逆神经网络（INN）的最近模型能够通过联合优化缩小和放大循环来显著增加放大精度。然而，受INN体系结构的限制，它被限制为固定的整数比例因子，并且每个比例需要一个模型。在不增加模型复杂度的前提下，提出了一种简单有效的可逆任意尺度变换网络（IARN），通过训练一个模型实现任意图像尺度变换。使用创新组件，如位置感知尺度编码和抢占式通道分割，网络被优化，以将不可逆的重新缩放循环转换为有效的可逆过程。它示出，以实现一个国家的最先进的（SOTA）的perfor-曼斯在双向任意重新缩放，而不compro- mising LR输出的感知质量。它也被证明，证明在使用相同的网络架构的非对称规模的测试中表现良好。1. 介绍最近基于深度学习的图像超分辨率（SR）方法显著提高了图像放大的性能，但它们通常限于固定的整数缩放因子和预定的降尺度退化核。要在现实世界的应用程序中工作，其中图像通常被重新缩放为任意大小，额外的图像在最近的工作中取得了巨大的成功[5，7，21]。然而，它们仅针对单向放大过程进行优化，其中LR输入从预定义的缩小内核或以其固有分辨率进行合成。考虑到降尺度和逆升尺度之间的潜在互惠互利，开发了一些图像重新缩放模型[9，19，24]来联合优化这两个过程，并且与相同比例因子的单向SR模型相比，升尺度精度得到了显著提高。这种双向图像重新缩放的最新技术（SOTA）性能由Xiao等人提出的可逆重新缩放网络（IRN）设置。[24]第10段。如图1，它能够实现迄今为止的最佳性能，因为Haar变换和可逆神经网络（INN）[2]骨干都是可逆过程，并且其向前和可逆向后操作可以自然地模拟降尺度和逆升尺度循环。将前向降尺度过程表示为（yL，zL）=f（xH），如果保留潜变量 zL ，则 HR 图像可以完全恢复为 xH=f−1（yL，zL）当网络被优化以存储yL中允许的尽可能多的信息并将zL转换为独立于输入的随机变量时，最佳HR输出xH可以恢复为f −1（yL，zL），其中zL是随机采样的，恢复精度损失最小然而，受INN架构的性质限制，即当考虑分辨率差异时像素数量必须相等（LR特征具有更多通道），适用的比例因子限于整数。为了克服上述问题，我们提出了一个新的倒置-IARN是一个简单的任意重标度网络，它能够使用类似的INN主干实现双向任意重标度，并且能够为一系列任意标度（包括非对称标度）训练一个模型。如图1，它用表示为xlf=s（xH）经常需要老化，这导致性能和效率的降低。最近，Hxhf=xH−xlf（一）对支持任意比例因子的SR模型的兴趣*工作完成于百度研究院（美国）。其中下标H用于指定以原始高分辨率保存所有图像请注意，这一步是在-5417LXfLXfK缩减高档·H··×××Haar变换XKx$f可逆神经网络频道合并（LXKyL可逆神经网络K（KyKyLy）K重缩放可逆图1：IRN [24]和拟议的IARN之间的比较xH，yL和zH，L表示输入HR图像、输出LR图像和潜变量。注意，下标H、L分别表示高分辨率和低分辨率，上标hf、lf分别表示高频通道和低频IARN中的主要差异包括代替Haar变换的高分辨率的通道分裂，yH和yL之间的额外的近乎可逆的重新缩放，以及INN主干内部的变换块的增强。三重可逆的xH=xlf+xhf的逆di-图像，是先进的，使学习可逆的H H勃起使用相似的INN主干（也是可逆的）的特征变换步骤表示为（yH，zH）=f（xlf，xhf）（2）任意缩放更有效。一种位置感知的尺度编码，它与输入图像大小无关，并与非对称编码H H 重标度，提出了进一步提高模型性能，降尺度和逆升尺度被包括在最后一步中，它由两个独立的过程组成，在一个大范围的任意尺度上进行。2. 相关作品yL=d（yH）yH=u（yL）（三）任意尺度超分辨率。单图像超分辨率，作为一种形式的图像重新缩放与一个固定的inte，为了优化网络以实现可逆的任意重新缩放，除了最大化保存在yH中的信息并使zH信号独立的类似目标之外，一个关键挑战是使最后一步可逆。如果满足y∈H=yH，则整个网络是不可预测的。虽然这方程3中的双向过程在一般情况下是不可逆的。通常，对于给定的比例因子和特定的缩小函数d（）和放大函数u（），如最近邻（NN）或双三次插值，我们可以找到一组图像，其对于该重新缩放过程是可逆的，并且我们的目标是将yH变换为这些重新缩放可逆图像之一，因此整个过程实际上是可逆的。为了帮助yH的变换，使其更快地接近可逆性，本文提出了一种新的抢占式通道分裂步骤s（），它预先将xlf转换为重标度可逆的，并且证明是非常有效的。最后，如前所述，针对尺度可逆特征是尺度相关的，提出了一种新颖的位置感知尺度编码作为网络的附加输入，使网络能够处理任意尺度因子的大变化，包括非对称尺度因子.该部件未在图中示出1，但稍后将详细讨论。概括而言，我们工作的主要贡献包括：第一个使用可逆神经网络进行双向任意图像重新缩放，并在生成的LR和恢复的HR中设置新的SOTA一个抢先通道分裂步骤，它从输入HR中已经广泛地研究了像2和4这样的GER比例因子。在过去的几年里，基于深度学习的方法，如[6，10，15，28，27]，在这个领域，但这些方法通常为每个比例因子训练一个模型。 Limet al. [15]和Liet al. [12]能够针对多个缩放因子训练一个模型，但仅限于整数。受元学习[11]中权重预测技术的启发，Hu等人提出了一个单一的元SR模型。[7]通过在一定范围内预测任意比例因子的卷积层的权重来解决任意比例因子的图像重新缩放。或者，Behjatiet al. [3]提出了OverNet来生成过度放大的地图，从中可以使用最佳下采样来恢复任意尺度的HR图像。在最新的ArbSR中，Wanget al.[21]提出了一个插件模块，可以优化现有的SR模型，用于任意非对称重新缩放，其中水平和垂直方向的缩放因子可能不同。虽然这些方法通常限于像4这样的最大比例因子以保持高性能，但Chen等人（2005）在2006年10月10日发表的论文中指出，[5]最近提出使用学习的像素表示特征来代替先前方法中的像素值特征。使用创新的局部隐式图像函数（LIIF），该模型可以很好地外推到训练中看不到的分布外的大尺度。与上述模型仅针对上尺度重建进行优化不同，本文将上下尺度的双向任意重标度处理视为一个过程。IARNIRNX···5418···×···HHHH HHHHHHHHH−双向图像缩放。为了利用尺度缩小和逆尺度放大之间的潜在互惠互利，Kim等人。[9]提出了一个自动编码器框架，以联合训练图像缩小和放大。类似地，Sunetal. [19]提出了一种新的图像降尺度方法，使用内容自适应重采样器，它可以与任何现有的可微升尺度（SR）模型联合训练最近，Xiaoet al. [24]提出了一个可逆的重新缩放网络（IRN），实现了基于学习的双向图像重新缩放的SOTA性能。基于可逆神经网络（INN）[2]，IRN学习将HR输入转换为LR输出和辅助潜在变量z。通过在训练期间将z映射到与情况无关的正态分布，逆图像向上缩放。其中s（）是下面详述的抢先信道分离函数，f（）是INN骨干的前向函数，d（）是像最近邻插值或双三次插值的缩减函数。对于变量，x是前向方向的输入，y是输出，并且p和p′分别是输入和输出侧的位置感知尺度编码。关于这种位置感知标度编码的细节将在后面的小节中介绍。对于下标和上标，H和L表示高分辨率和低分辨率，而hf和lf分别表示高频分量和低频分量。类似地，逆升尺度过程由以下三个步骤组成：yH=u（yL）通过从正态分布中随机采样z，而不需要情况特定的z，来实现ING。虽然上述双向图像重新缩放方法是有限的，xlf，xhf，plf，phf=f −1（yH，zH，p<$lf，p<$hf）xH=xLF+xHF（五）限制为固定的整数比例因子，如4，Panet al. [18]提出了BAIRNet作为第一个解决双向任意重新缩放的方法，通过利用局部隐式图像函数进行缩放和放大，具有比IRN更好的整体跨尺度性能。最近，邢其中u（）是一个上尺度函数，f−1（）是f（）的反函数。等式5中呈现的过程是理想的逆过程。过程，其中yH在缩小和放大c之后完全恢复，并且zH、plf、phf都保持不变。等人[25]提出了一种编码器-解码器网络（AIDN）H H通过对IRN和BAIRNet的持续改进来应对同样的挑战。而不是使用单独的编码器和解码器来分别模拟图像的缩小和虽然非常相似，但他们在升级任务中的表现一直低于我们，在某些尺度上只有极少数例外。此外，在盲或非盲图像质量评估中，与AIDN相比，IARN的LR输出具有更好的感知质量。如[13]所示，在生成的LR和这种理想情况在实际应用中是不存在的，在实际应用中，只有yL是sved，而yH是yH. 与前面的研究类似，使用生成的zH代替zH。F或比例编码，因为它们用于携带位置和比例每个像素的前向和后向方向的因子信息，并且它们独立于低频和高频分支，在forward过程期间，一个通用p用于p_lf和p_hf，并且对于p_lf和p_hfdur也是相同反向放大。因此，恢复的HR输出xH计算如下：yH=u（yL）恢复HR后，我们的IARN在降级和升级任务时明显优于AIDNx<$lf，x<$hf=f −1（y<$H，z<$H，pH）xH=xlf+xhf（六）考虑了H H3. 该方法3.1. 网络架构从图1所示的通用流水线阐述1，详细架构的建议IARN图中所示。二、对于从HR输入XH生成LR输出yL的前向降尺度过程，整个过程被概括为以下四个步骤：xlf=s（xH）xHF=x xLF中文（简体）yH，zH，p<$lf，p<$hf=f（xlf，xhf，plf，phf）虽然主要目标是最小化xH和xH之间的恢复误差，但用于训练网络的总体损失包括针对不同目标的多个损失，如下所示L=λ1LR+λ2LG+ λ3LD+ λ4LI。（七）这里，Lr是用于放大的HR输出xL的L1 重建损失，并且Lg是使用双三次插值参考下采样的LR参考y L的用于缩小的LR输出y L的L2引导损失。对于Ld，它类似于IRN [24]中潜变量z的分布调节损失。然而，利用新引入的位置感知尺度编码，代替zH和z0之间的L2损失，在（z，plf，phf）和refe r之间计算L2损失。哈哈哈哈HH Hy =d（y）ence（z0，pH，pH）. 这里z是零张量，L H H H5419d（）7KK···HyHH········H··HHH$h$KKl$KXK4（）78小时$78l$4zK&K9K（1）（高频通道低频通道PE通道图2：所提出的IARN的网络架构，包括抢占式通道分裂s（）的全过程，特征变换INN主干和由降尺度d（）和升尺度u（）组成的重新缩放可逆模块，以及用于变换块的增强型密集atrous块。给出了替代分布匹配损失L ′ dist r在IRN中的应用。最后一项Li是一个非非线性重新标度的非可变损失，其目的是使整个过程有效地可逆。如前所述，拟议的程序只是部分-因为缩小和放大循环不是不可逆的。在一般情况下，y=u（d（yH））yH. 然而，给定特定的d（·）和u（·）对，存在感受野不改变模型参数的数量和模型的复杂性。3.2. 抢占式信道分割如图所示2，HR输出yH位于INN主干的较低分支中，并且在通道顺序中匹配低频HR输入xlf。当trans-重新缩放的可逆图像y i的某个子集满足i=u（d（yi））。例如，如稍后在第3.2节中所解释的，对于NN重新缩放，我们可以生成重新缩放-HINN骨架中的形成功能可以转移fea，为了非常有效地在较低分支和较高分支之间建立连接，对输入进行预处理可能是有益的，使得可逆xlf从任何输入图像xH. 重新缩放-接近yHH甚至在馈入INN主链之前，这里引入可逆损失Li作为yH和yH 之间的 L2 损失。当损失为零时，则yH是重标度可逆的。请注意，虽然我们的INN主干中的可逆块（In-vBlock）层与IRN [22]中的层相似，但存在一些关键差异。首先，将位置感知尺度编码引入到低频（LF）和高频（HF）分支，以使网络能够适应任意尺度。其次，对于上分支和下分支之间的变换函数，包括k（）、ρ（）和η（），IRN中的原始密集连接卷积块用膨胀卷积增强，其中膨胀从1变化到1，这是每个块中的层数。l在图中简化为2二、这个增强的致密阿托斯块是在-使得变换函数的学习任务更加高效。如上所述，对于给定的一对重缩放操作d（）和u（），yH是重缩放可逆的是理想的。这里，提出抢先信道分裂函数为s（）=u（d（））。如BAIR-Net [18]中所指出的，在整数比例因子的情况下，当使用双线性下尺度和最近邻上尺度时，s（）将是幂等运算。也就是说，对于任何图像x，s（s（x））=s（x）。换句话说，s（x）是重标度可逆的。对于这里的任意尺度，s（x）只有在使用最近邻进行尺度缩小和尺度放大时才是重新尺度化可逆的。因此，这里提出了将输入图像分割为两个分支的抢先通道分割，LF引入混合扩张以增加网络的有效感受野，混合扩张大于或等于1。作为过程中，xH=uN（dN（xH））xhf=xH−xlf（八）INN主干应用于原始高分辨率IM，年龄，我们的IARN的感受野与IRN的像素单位相同使用扩张卷积的混合代替原始卷积，它可以增加其中，N是指最近邻重传。请注意，对于前面的通道分割和结尾的重新缩放，d（）和u（）对必须相同。最后，通过实验验证了最近邻算法优于其它的递归选择算法.⊖2（xl$K上分支）⊙⊕*+⊕下分支Inv. 块致密型心房阻滞扩张卷积Leaky ReLU扩张卷积Leaky ReLUConvX7Inv.块Inv.块上分支Inv.块#1#2下分支#n5420×××U××××× ××3.3. 位置感知尺度编码抢占式信道分裂和重新缩放不可逆损失都有助于网络变换yH，以在降尺度和重新缩放步骤期间引起最小损失，并因此导致xH的最佳恢复。由于这种变换对尺度因子敏感，为了使模型对大范围的任意尺度具有鲁棒性，在下分支和上分支之间的变换期间尺度信息是必要的。此外，取决于比例因子和重新缩放方法，还需要图像内的像素的位置来确定应用于像素本身的操作使用最近邻作为示例，一些像素从位于左上方向的相邻像素重新采样，而其他像素从不同方向重新采样使用绝对像素位置的天真选项将导致在有限的图像大小中进行训练，而在更大的分布外图像大小中进行测试。为了考虑这些因素，位置感知和图像大小无关的尺度编码p被定义为（sh，sv，dh，dv）。这里，sh和sv分别是沿水平和垂直方向的比例因子，以适应不对称比例。对于dh和dv，它们是从输入像素到其右下方向最近的重新采样像素的相对水平和垂直距离，可以计算如下INN骨干，少于IRN2和IRN4中使用的24个。对于密集心房块，包括4层扩张卷积，扩张设置连续为1到最初使用16144 144个小批量贴片，每个贴片具有从均匀分布（1，4）中采样的随机尺度。当使用DIV2K和Flickr2K进行训练时，它将升级到24192 192个补丁以用于最终模型最终模型的训练有两个阶段，每个阶段有250k次迭代，每50k次迭代后学习率降低一半。两个阶段的设置相同，除了开始学习率，其对于第一阶段为2 10-4，并且改变为110−4恢复第二阶段的训练。损失的权重根据经验分别设定为Lr、Lg和Li的1、16和2。正如我们在实验中发现的，与Li等人的发现相似。[13]中，将z采样设置为零以用于训练和推断，与随机采样的z采样相比，实现了等同或更好的性能。因此，对于我们的实验，Ld4.2.任意重缩放性能为了评估我们提出的方法在对称尺度中任意重新缩放的性能，我们比较了一组任意尺度中重新缩放的HR图像的分辨率质量。dh（i，j）= mini′，i′s′h−ish≥0dv（i，j）= mini′s′h−ishj′s′v−jsv（九）量表和结果包括在表1中。与BAIRNet类似，为固定整数尺度训练的模型使用额外的双三次插值对任意尺度进行评估。j′，j′s′v−jsv≥0其中（i，j）和（i′，j′）分别是输入像素和重采样像素的索引，s h和s v是输入图像沿水平和垂直轴的像素大小，并且s ′ h和s ′ v是重采样图像的像素大小。进行的实验稍后还证明了位置感知比例编码对网络性能非常有益，并且最好将其包括在较低和较高分支中。4. 实验4.1. 数据和设置为了与最近的相关作品（如IRN和BAIRNet）进行公平的比较，DIV2K [1]训练集用于基线训练。另一个数据集，Flickr2K [20]，也包括用于训练最终模型。对于定量评估，我们使用六个常用数据集的HR图像进行综合比较，包括Set5 [4]，Set14 [26]，BSD 100 [16]，Urban100 [8]，Manga 109 [8]和DIV2K验证集。按照之前的做法，我们在所有测试集的亮度通道上获取峰值信噪比（ PSNR ）和 SSIM[23]，但使用RGB通道平均值的DIV2K除外为了适应大范围的任意尺度因素，总共包括20层可逆块，保持LR图像的分辨率在不同的方法中输入到对于可自行进行任意缩放的模型，大多数模型仅针对放大进行了优化，因此仅针对HR输出进行评估除了我们的IARN之外，BAIRNet是唯一一个被训练用于双向任意图像缩放的网络。如表1所示，我们的IARN的结果对于所有测试用例来说都是最好的，除了AIDN稍微好一点的几个用例。以具有挑战性的Manga 109测试集为例，它在PSNR方面领先于BAIRNet，+3。04，+1。16 + 0 89对1 五二5和35、分别。如图中的视觉示例所示3、双向IRN、BAIRNet、AIDN和我们的IARN等方法明显优于其他方法。在这四个中，IARN能够更准确地还原细节，使其更容易识别数字00等细节。这里用于比较的IARN模型在第一阶段使用非对称预训练。对于模型内比较，表1中还包括另外两个变量IARN†和IARN3 .第三章。5个例子。IARN†采用相同的预训练策略，但仅使用具有基线批处理和补丁的DIV2K尺寸，导致IARN的性能稍差IARN训练在数据设置上与IARN†它一直比IARN更糟糕，证明了预先训练5421××××表1：SOTA SR和重标度方法的定量比较，其中最好的两个结果分别以红色和蓝色突出显示（IARN†和IARN仅用于模型内比较，不进行排名，粗体表示方法需要多个模型和额外的插值来进行任意尺度的检验）。[25]1.550.61/0.996146.70/0.992049.82/0.998347.01/0.9953[25]2.540.77/0.975037.62/0.958836.65/0.959337.88/0.9659[25]第25话第25话33.87/0.919732.73/0.903234.19/0.9292GTRCANLIIF ArbSRIRNBARNet AIDN IARN图3：在两个尺度下任意重新缩放的可视化示例：二、5和35（放大以查看与AIDN相比，IARN结果的清晰度有所提高，包括红色箭头标记的区域）。使用非对称尺度可以帮助最终模型在对称尺度的测试中表现得更好。结果之间的连续尺度1。1和4（在每个采样点增加0.1）也示出在图。5、更全面的评估。解释的在BAIRNet中，1由于缺乏模型或数据，AIDN结果不完整。针对缩小和放大两者联合训练模型在这一组中，BAIRNet在整个范围内明显优于CAR和IRN，除了在有限的尺度选择上略微落后于IRN。AIDN和我们的IARN模型都能够在任意尺度范围内优于其他模型，甚至在×2和×4等固定尺度下也超过了IRN。两者之间×3。5×2。5方法a规模Set5产品14BSD100Urban100Manga109DIV2KRCANa[27]1.540.97/0.976737.05/0.957835.59/0.951635.93/0.966042.33/0.988938.47/0.9701Meta-SR [7]1.541.47/0.978537.52/0.960135.86/0.954336.91/0.969643.17/0.990438.88/0.9718LIF [5]1.541.23/0.977437.37/0.959135.76/0.953636.70/0.968442.84/0.989438.82/0.9717ArbSR [21]1.541.47/0.978637.51/0.960335.86/0.954736.92/0.969743.12/0.990438.84/0.9719中非共和国[19]a1.540.50/0.976337.08/0.959635.72/0.953534.70/0.963540.90/0.988137.93/0.9683[第24话]1.543.55/0.989139.52/0.979539.28/0.983336.52/0.981142.64/0.993640.18/0.9838BARNet [18]1.547.13/0.984943.12/0.976046.63/0.995944.01/0.994645.49/0.994844.99/0.9920IARN1.551.02/0.996847.25/0.993850.91/0.998647.58/0.997548.58/0.997546.74/0.9949RCAN[27]2.536.05/0.943631.69/0.881530.47/0.850830.42/0.899036.59/0.963432.72/0.9079Meta-SR [7]2.536.18/0.944131.90/0.881430.47/0.850830.57/0.900336.55/0.963932.77/0.9086LIF [5]2.535.98/0.943431.64/0.881330.45/0.851030.42/0.899236.39/0.963032.78/0.9091ArbSR [21]2.536.21/0.944831.99/0.883030.51/0.853630.68/0.902736.67/0.964632.77/0.9093中非共和国[19]a2.537.33/0.954833.78/0.916932.53/0.902032.19/0.930137.63/0.971734.32/0.9310[第24话]2.539.78/0.974236.39/0.955335.56/0.954033.99/0.958939.33/0.983636.60/0.9607BARNet [18]2.540.11/0.966436.62/0.946936.29/0.956336.62/0.967940.26/0.983037.46/0.9627IARN2.540.93/0.975637.78/0.959836.81/0.960736.95/0.970341.38/0.986237.92/0.9662RCAN[27]3.533.47/0.913829.24/0.814128.42/0.773127.61/0.834832.74/0.932830.13/0.8511Meta-SR [7]3.533.59/0.914629.60/0.814028.42/0.772827.71/0.835632.75/0.933730.18/0.8524LIF [5]3.533.41/0.913329.20/0.813128.39/0.771427.60/0.833432.60/0.932430.16/0.8517ArbSR [21]3.533.63/0.914929.58/0.814728.41/0.774427.69/0.836032.84/0.933930.14/0.8518中非共和国[19]a3.534.98/0.930331.38/0.864330.14/0.832629.97/0.887135.00/0.950731.88/0.8865[第24话]3.537.12/0.954633.65/0.919632.54/0.904731.84/0.927736.86/0.969033.84/0.9281BARNet [18]3.536.85/0.947232.97/0.907432.36/0.898632.71/0.933836.98/0.967133.87/0.9266IARN3.537.44/0.954734.04/0.921832.90/0.905833.27/0.937137.91/0.970534.33/0.9308IARN†A3.536.82/0.953833.66/0.919432.69/0.903233.02/0.935037.72/0.969734.19/0.9292IARN3.537.27/0.953733.74/0.917532.68/0.901932.81/0.932637.59/0.969034.09/0.92825422××××−×↓↑×BicubicCAR IRN HCFlowBARNet AIDN IARN图4：生成的LR图像的视觉示例，带有最差情况视觉伪影的放大视图535149474543413937353331291 1.5 2 2.5 3 3.5 4规模图5：跨尺度（1. 1 4）DIV2K验证集的任意重标度测试性能。我们的IARN在大多数尺度上都有更好的性能，特别是在接近× 1的小尺度上。1左右的大尺度。表 2 ：生成的 LR 输出的定量质量评估（ NIQE/SSIM）。a a a输入使用传统的双三次插值。如表2所示，使用与LR参考相关的SSIM为了适应CAR和IRN中的本地整数标度，2和四是用于评估。它清楚地表明，我们的IARN是最好的整体，略高于IRN的损失第二好，而AIDN是落后于第三好。一个例子，4LR图像与最明显的伪影包括在图。4来组合不同的模型。虽然它们在整体上与双三次参考没有太大区别，但CAR的亮度明显更高。从第一行的放大视图来看虽然其余三个在视觉上是相似的，但在AIDN中伪影稍微更明显，特别是在左放大窗口中由红色箭头标记。表3：不同模块的消融研究（一列中颜色突出显示的组表示它们在所有其他列中共享相同的信道缩放Atrous重新缩放#PSNRaInvBlock Urban100×4方法S Urban100 Manga109 DIV2K双AIDN [25]2-1-13.516/0.9920IARN 25.783/0.99634.120/0.99713.359/0.9963CAR[19]a422.731/0.91966.886/0.9529 5.549/0.9460 IRN [24] 4 18.035/0.99165.884/0.9932 4.094/0.9933HCFlow [14] 4 18.475/0.9651 6.457/0.9738 4.744/0.9785BARNet [18] 4 19.401/0.9716 7.632/0.9824 4.896/0.9841AIDN [25] 4-1-14.165/0.9909IARN418.020/0.99285.961/0.9932 4.088/0.99444.3. LR图像质量对于六种双向重标度方法的组，LR输出也分别从基于学习的模型生成。在没有已知地面实况参考的情况下，目标是生成视觉上令人愉快的图像，这些图像看起来与从HR下采样的LR参考相似✓无双线性16 26. 70✓双线性双线性 16 27. 41Dual Dual Dual DualNN1627.50Dual Dual Dual Dual NN2427.794.4. 消融研究为了显示这里提出的不同模块的效果，我们使用Urban1004作为测试基准对不同组合进行了全面的消融研究。为了说明的目的，所有模型都针对100k次迭代进行了训练，并且性能的差异在表3中清楚地为了便于交叉引用，使用彩色突出显示来关联小型组以进行比较。两RCAN Meta-SR LIIFArbSR CAR IRNBAIRNet AIDN IARNPSNR中非共和国[19]a22019 - 06 - 25 00：00：00✓双✗双线性1627.22土耳其[24] 1999年12月31日✓HF✗双线性1626.93BARNet [18] 2 2017年12月31日星期四✓LF✗双线性1627.04✓双✓双三1627.11✓双✓NN2027.765423H·×LR Bicubic ArbSRIRNBARNet IARNBARGT图6：任意非对称尺度的可视化示例。提高性能的最关键模块是抢占式信道分离和位置感知比例编码。如红色突出显示的，当激活通道分割同时保持其他配置相同时，平均PSNR增加+0。四十三注意，当没有应用通道分割时，原始RGB通道被馈送到LF分支，而HR的输入为零。对于以蓝色突出显示的比例编码选项，最好将其包括在两个分支中，将PSNR提高+0。52岁当应用atrous卷积时，另一个+0。PSNR中增加了19。对于重新缩放，NN是最好的选择，而双三次远远落后于其他两个。这证实了之前讨论的方法，即当使用NN重新缩放时，通道分离函数s（）使xlf虽然当InvBlock层数增加时，最终的PSNR总是更好，但在其他实验中将其设置为20，以获得更好的效率和最小的性能损失。表4：对称和非对称比例因子的PSNR在表5中，包括了三个最相关的模型，它们被联合优化用于缩小和扩大，因此推理时间包括缩小和扩大，并被单独列出。请注意，对于CAR和IRN，它们具有不同大小的模型，具体取决于尺度因子，而对于BARNet和我们的IARN，两个测试只需要一个模型。结果表明，我们的IARN是可比的IRN4的参数数量，比CAR和BAIRNet小对于推理速度，它比CAR和IRN慢但对于仅有的两个能够双向任意重新缩放的模型（AIDN尚未用于评估），我们的模型能够始终优于之前的SOTABAIRNet，同时使用不到20%的参数，并分别将×2和×4表5：模型大小和推断时间比较。方法a标度参数降尺度升尺度CAR [19]×251. 1M 0. 004s0. 005sBSD 100城市100a×452.8M 0.004s0.005s×2×1。6×3。6×2。5×2×1。6×3。6×2。5[第24话]×21.66M 0.018s0.021s×3×3。2×1。2×3×3。2×1。2×44.35M 0.025s0.026sArbSR [21] 30.58 30.87 30.24 30.51 30.59 30.60 29.74 30.68伊朗[24] 34.87 34.69 34.19 35.56 32.75 32.44 32.09 33.99BAIRNet [18]×2 22.4M0.506s 0.129s×40.459s0.061sBARNet [18]36.28 36.96 36.64 36.17 36.32 36.74 35.82 36.43IARN36.96 38.04 39.17 36.65 37.06 37.92 38.56 36.83一IARN×2×44.32M0.058秒0.154秒0.058秒0.154秒4.5. 非对称任意缩放如前所述，我们的IARN模型可以使用完全相同的网络架构针对非对称规模进行优化。为了与ArbSR和BAIRNet进行公平的比较，在两个阶段中使用非对称尺度训练另一个表示为IARN的模型。如表4所示，两个挑战性大型基准测试集用于三个不对称和一个对称量表的评估来自ArbSR、IRN和BAIRNet的结果用于比较，使用与BAIRNet相同的评估方案。据证明，无论是在定量指标和视觉示例中，如图所示。6，我们的IARN网络在恢复更准确的细节方面比其他同行具有明显的优势。4.6. 模型复杂性和效率为了评估我们提出的IARN的效率，它是与其他人在BSD 100测试集的模型大小和平均推理时间每幅图像作为插图-5. 结论基于深度学习的图像任意缩放由于其复杂性，在低层图像处理领域是一个相对较新的研究课题在本文中，我们提出了第一个可逆的任意图像缩放工作。基于INN骨干增强了一个新的抢占式信道分裂模块和一个新的位置感知尺度编码方法，新提出的IARN网络是能够处理双向图像任意缩放在大范围内的尺度使用一个训练模型。在一组全面的基准数据集上进行的广泛实验验证了在HR和LR输出中，与当前相关的SOTA方法相比，任意图像重新缩放的性能要好得多，与BAIRNet相比，模型大小更小，推理速度更快。此外，还实现了更好的性能，为非对称的任意重标度测试。5424引用[1] Eirikur Agustsson和Radu Timofte。NTIRE 2017挑战单幅图像超分辨率：数据集和研究。在IEEE计算机视觉和模式识别研讨会会议论文集，第126[2] Lynton Ardizzone 、 Jakob Kruse 、 Sebastian Wirkert 、Daniel Rahner、Eric W Pellegrini、Ralf S Klessence 、Lena Maier-Hein、CarstenRothe r和UllrichK？the。用可逆神经网络分析 arXiv 预印本 arXiv ： 1808.04730 ，2018。[3] Parichehr Behjati ， Pau Rodriguez ， Armin Mehri ，Isabelle Hupont ， Carles Fernandez Tena ， and JordiGonzalez. Over-net：轻量级多尺度超分辨率与超大规模网络。在IEEE/CVF计算机视觉应用冬季会议论文集，第2694- 2703页[4] Marco Bevilacqua、Aline Roumy、Christine Guillemot和Marie line Alberi Morel。基于非负邻域嵌入的低复杂度单幅图像超分辨率英国机器视觉会议论文集，第135.1-135.10页。BMVA Press，2012.[5] Yinbo Chen，Sifei Liu，and Xiaolong Wang.用局部隐式图像函数学习连续图像表示在IEEE/CVF计算机视觉和模式识别会议论文集，第8628-8638页，2021年。[6] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。在欧洲计算机视觉会议上，第184-199页。Springer，2014.[7] Xuecai Hu ， Haoyuan Mu ， Xiangyu Zhang ， ZileiWang，Tieniu Tan，and Jian Sun. Meta-SR：一种用于超分辨率的放大任意网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第1575-1584页[8] Jia-Bin Huang，Abhishek Singh，and Narendra Ahuja.从变换的自我样本的单个图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第5197-5206页[9] Heewon Kim，Myungsub Choi，Bee Lim，and KyoungMu Lee.任务感知图像缩小。

下载后可阅读完整内容，剩余1页未读，立即下载