没有合适的资源?快使用搜索试试~ 我知道了~
18375重新思考图像超分辨率的数据增强:综合分析与新战略刘载俊EPFL.gmail.com安南赫大学aa0dfg@ajou.ac.krKyung-AhSohn<$Ajou大学kasohn@ajou.ac.kr摘要数据增强是提高深度网络性能的有效方法。不幸的是,目前的方法大多是针对高级视觉任务(例如,分类)并且很少研究低级视觉任务(例如,图像恢复)。在本文中,我们提供了一个全面的分析,现有的增强方法应用于超分辨率任务。我们发现,丢弃或操纵的像素或特征太多的方法阻碍了图像恢复,其中的空间关系是非常重要的。基于我们的分析,我们提出了CutBlur,它可以剪切低分辨率的补丁并将其粘贴到相应的高分辨率图像区域,反之亦然。CutBlur的关键直觉是使模型不仅能够学习“如何”而且能够学习“在通过这样做,模型可以理解我们的方法在各种sce-narios上一致我们还表明,我们的方法改善了其他低级视觉任务,如去噪和压缩伪影去除。1. 介绍数据增强是在测试阶段不增加计算量的情况下提高模型性能的最实用的方法之一。虽然已经在几个高级视觉任务中提出了各种DA方法[7,29,30,13],但低级视觉中的DA几乎没有研究。相反,许多图像恢复研究,如超分辨率(SR),依赖于合成数据集[22],我们可以通过模拟系统退化函数(例如,对SR使用双三次内核)。由于模拟数据和真实数据之间的差距,*表示同等贡献。大部分工作是在NAVER公司完成的†表示通讯作者。然而,在模拟数据集上训练的模型在真实环境中没有表现出最佳性能[4]。最近的几项研究提出通过收集真实世界的数据集来解决这个问题[1,4,32]。然而,在许多情况下,获取大量此类数据往往非常耗时且昂贵。虽然这是DA可以发挥重要作用的地方,但只有少数研究已经进行[9,24]。Radu等人[24]是第一个研究各种技术,以提高基于示例的单图像超分辨率(SISR)的性能使用旋转和翻转,他们报告了跨模型和数据集的一致性改进。尽管如此,他们只研究了传统SR模型[12,23]和非常浅的基于学习的模型SRCNN [8]的简单几何操作。据我们所知,Fenget al. [9]是唯一的工作,分析了最近的DA方法(Mixup [30])在基于示例的SISR问题。然而,作者只提供了一个有限的观察使用一个单一的U-Net-like架构,并测试了一个单一的数据集的方法(RealSR[4])。为了更好地理解低级视觉中的DA方法,我们对最初为高级视觉任务开发的各种DA方法的效果进行了全面分析(第2节)。我们首先将现有的增强技术分为两组,这取决于该方法的应用;像素域[7,29,30]和特征域[11,10,26,27]。当直接应用于SISR时,我们发现有些方法损害了图像恢复结果,甚至阻碍了训练,特别是当一种方法在很大程度上导致邻近像素之间的空间信息丢失或混淆时(例如,[7]和特征域方法)。有趣的是,不引起严重空间失真的基本操作如RGB置换提供了比引起不切实际的图案或结构的急剧转变的基本操作更好的改进(例如,Mixup[30] 和CutMix [29])。基于我们的分析,我们提出了CutBlur,一种新的增强方法,是专门为低层次的视觉任务。剪切和粘贴低分辨率18376(a) 高分辨率(b)低分辨率(c)CutBlur(d)CutBlur操作(e)Blend(f)RGB置换(g)Cutout(25%)[7](h)Mixup [30](i)CutMix [29](j)CutMixup图1.数据扩充方法。(顶部)我们提出的方法的一个说明性例子,CutBlur。CutBlur通过将低分辨率(LR)输入图像剪切并粘贴到地面实况高分辨率(HR)图像区域上来生成增强图像,反之亦然(第3节)。(下)现有增强技术的说明性示例以及CutMix和Mixup的新变体CutMixup。(LR)图像补丁到其相应的地面实况高分辨率(HR)图像补丁(图1)。通过在单个图像中具有随机比例的部分LR和部分HR像素分布这样做的一个很好的副作用是,模型还可以学习当试图找到一个映射,可以同时保持输入HR区域和超分辨率的其他LR区域,该模型自适应学习超分辨率的图像。由于这种独特的属性,CutBlur可以防止SR模型的过度锐化,这在现实世界的应用中很常见(第4.3节)。此外,我们还表明,在训练阶段将几种策划的DA方法一起应用,可以进一步提高性能,这我们呼叫增强混合(第3节)。我们的实验表明,建议该策略显著且一致地提高了各种模型和数据集的模型性能。我们的贡献概述如下:1. 据我们所知,我们是第一个提供全面分析最近的数据扩充方法时,直接应用于SISR任务。2. 我们提出了一种新的DA方法CutBlur,它可以通过正则化模型来减少不切实际的失真,不仅可以学习3. 我们的混合策略在SR任务中显示出一致和显著的改进,在RealSR中实现了最先进的(SOTA)性能[4]。2. 数据扩充分析在本节中,我们分析了现有的增强方法,并比较了它们应用于EDSR [15]时的性能,EDSR是我们的基线超分辨率模型。我们使用DIV2K [2]数据集或RealSR [4]数据集从头开始训练EDSR。我们使用了作者2.1. 现有技术像素空间中的DA。已经有许多研究在高级视觉任务中增强图像[7,29,30](图1)。Mixup [30]混合两个图像以生成一个不可见的训练样本。Cutout及其变体[7,34]删除图像的随机选择区域。为了解决Cutout无法完全利用训练数据的问题,CutMix [29]用另一张图像替换了随机区域最近,AutoAug- ment及其变体[6,16]被提出来学习给定任务和数据集的最佳增强策略。特征空间中的DA。已经提出了操纵CNN特征的DA方法[5,10,11,19,26,27],并且可以分为三组:1)特征混合,2)摇动和3)丢弃。像Mixup一样,Manifold Mixup [26]混合了输入图像和潜在特征。Shake-shake [10]和ShakeDrop [27]对特征执行随机仿射变换。最后,遵循Dropout [19]的精神,已经提出了许多特征丢弃策略[5,11,25]来提高模型的泛化能力超分辨率的DA 简单的几何操作,如旋转和翻转,已广泛用于SR模型[24]。最近,Fenget al. [9]表明Mixup可以缓解SR模型的过拟合问题[4]。18377LRLRLRLR2.2. 现有DA方法许多增强方法的核心思想是部分阻塞或混淆训练信号,以便模型获得更大的泛化能力。然而,与高级任务不同,例如分类,其中模型应该学习抽象图像,像素之间的局部和全局关系在低级视觉任务中尤其重要,例如去噪和超分辨率。考虑到这一特性,DA方法丢失了空间信息,限制了模型恢复图像的能力也就不足为奇了事实上,我们观察到丢弃信息的方法[5,11,25]对SR性能有害,并且在具有较大感受野的特征空间每一种特征增强方法都会显著降低性能。在这里,我们推迟了每一个DA方法的结果,降低了补充材料的性能。另一方面,当仔细应用时,像素空间中的DA方法会带来一些改进(表1)1。例如,默认设置的Cutout [7](下降25%矩形形状的像素)使原始性能显著降低0.1dB。但我们发觉表1.超分辨率下不同数据增强方法的PSNR(dB)比较我们报告了基线模型(EDSR[15])在DIV2K(×4)[2]和RealSR(×4)[4]上训练的性能。模型是从头开始训练的。δ表示有增强和无增强之间的每千次差距。方法DIV2K(δ)RealSR(δ)EDSR29.21(+0.00)28.89(+0.00)[7]第一届全国人大代表29.22(+0.01)28.95(+0.06)[29]第二十九话29.22(+0.01)28.89(+0.00)[30]第三十话29.26(+0.05)28.98(+0.09)切割混合29.27(+0.06)29.03(+0.14)RGB烫发。29.30(+0.09)29.02(+0.13)共混29.23(+0.02)29.03(+0.14)剪切模糊29.26(+0.05)29.12(+0.23)所有DA29.30(+0.09)29.16(+0.27)3. 剪切模糊在本节中,我们将介绍CutBlur,这是一种专为超分辨率任务设计的新增强方法3.1. 算法开孔给出了一个积极的影响(DIV2K:+0。01dB和Re-alSR:+0. 06dB),当以0.1%的比率施加并擦除时设xLR∈RW× H × C xHR∈RsW× sH × C 是LR随机像素而不是矩形区域。请注意,当使用48×48输入面片时,这只会降低2 × 3像素。CutMix [29]显示了边际改进(表1),我们假设这是因为CutMix生成了图像上下文的急剧过渡,从而形成边界。Mixup提高了性能,但它混淆了两个不同图像的上下文,这可能会混淆模型。为了缓解这些问题,我们创建了一个变量-和HR图像块中的比例因子,并且如图1所示,由于CutBlur需要匹配xLR和xHR的分辨率,因此我们首先使用双三次内核xs对xLR进行s次上采样。CutBlur的目标是通过将x HR的随机区域剪切并粘贴到相应的x s中来生成一对新的训练样本(xHR→LR,xLR→HR),反之亦然:xHR→LR=MxHR+(1−M)xs我们称之为CutMix和Mixup(图1中虚线下方)。有趣的是,xLR→HR =Mxs+(1−M)xHR(一)在我们的基线上进行改进。通过充分利用这两种方法,CutMixUp受益于最小化绑定效应以及混合上下文的比例。基于这些观察,我们进一步测试了一组基本操作,如RGB置换和混合(添加一个常量值),不会引起图像中的任何结构变化。(For更多详情,请参阅我们的资料。)这些简单的方法在合成DIV2K数据集上显示出有希望的结果,在RealSR数据集上显示出很大的改进,这是更困难的。这些结果从经验上证明了我们的假设,这自然会导致我们提出一种新的增强方法CutBlur。应用时,CutBlur不仅提高了性能(表1),而且提供了一些其他DA方法无法获得的良好特性和协同作用(第3.2节)。1对于每个实验,我们只使用几何DA方法,翻转和旋转,这是EDSR的默认设置。在这里,为了单独分析DA方法的效果,我们没有使用×2预训练模型。18378其中M∈ {0,1}sW×sH表示指示替换位置的二进制掩码,1是填充有1的二进制掩码,并且1是逐元素乘法。用于对掩模进行采样,它的坐标,我们遵循原来的CutMix [29]。3.2. 讨论为什么CutBlur适用于SR?在前面的分析(第2.2节)中,我们发现图像块内的急剧过渡或混合图像内容,或丢失像素的关系会降低SR性能。因此,一个好的SR的DA方法不应该使不切实际的模式或信息丢失,但它必须作为一个很好的正则化SR模型。CutBlur满足这些条件,因为它在相同内容的LR和HR图像块之间将LR(分别)HR)图像区域到对应的HR(resp. LR)图像区域,它可以最小化边界效应,这主要来自18379EDSR w/o CutBlur(Δ)EDSR w/o CutBlur(Δ)HR(输入)EDSR w/CutBlur(Δ)HR(输入)EDSR,带切割模糊(Δ)图2.当网络在推理时间内将HR图像作为输入时,对具有和不具有CutBlur的基线进行定性比较。是网络输出和地面真实HR图像之间的绝对残差强度图。CutBlur成功地保留了整个结构,而基线生成不真实的伪影(左)或不正确的输出(右)。图像内容之间的失配(例如,Cutout和CutMix)。与Cutout不同,CutBlur可以利用整个图像信息,同时由于随机HR比率和位置的不同样本,它享有正则化效果模型通过CutBlur学习什么? 类似于防止分类模型过度自信地做出决定的其他DA方法(例如,标签平滑[21]),CutBlur防止SR模型过度锐化图像,并帮助其仅超分辨率必要的区域。这可以通过使用一些人工设置执行实验来证明,其中我们提供了具有HR图像(图2)或CutBlurred LR图像(图3)作为输入的CutBlur训练的SR模型当SR模型在测试阶段获取HR图像时,它通常会输出过度锐化的预测,特别是HRLRHRLR(剪切模糊)EDSR,不带切割模糊(Δ)EDSR,带切割模糊(Δ)边缘在哪里(图2)。CutBlur可以通过在训练阶段直接向模型提供这样的示例来解决这个问题CutBlur不仅缓解了过度锐化问题,而且由于正则化效应,它还增强了其他LR区域上的SR性能(图3)。请注意,在CutBlur模型中,残余强度已显著降低。我们假设这种增强来自于约束SR模型以区分地将超分辨率应用于图像。现在,模型必须同时学习“如何”和“在哪里”对图像进行超分辨率,这导致模型学习它应该应用“多少”超分辨率,这为训练提供了有益的当然,比较使用和不使用这些图像训练的模型是不公平的。然而,我们认为这些场景不仅仅是人工的实验设置,而是确实存在于现实世界中(例如,失焦图像)。我们将在4.3节中用几个真实的例子更详细地讨论这一点。CutBlur vs.在培训期间提供HR输入。为了使模型学习身份映射,而不是使用CutBlur,人们可以很容易地想到在训练阶段提供HR图像作为网络的输入。对于EDSR模型,CutBlur训练模型(29.04 dB)显示出更好的图3.基线和切割的定性比较当输入通过CutBlur增强时,模糊模型输出。是网络输出和地面真实HR图像之间的绝对残差强度图。与基线(右上角)不同,CutBlur模型不仅可以解析HR区域,还可以减少其他LR输入区域的重叠(右下)。PSNR的性能比单纯地向网络提供HR图像(28.87 dB)更好。(The详细的设置可以在补充材料中找到。这是因为剪切-模糊更一般,因为HR输入是其特殊情况(M=0或1)。另一方面,给出HR输入永远无法模拟LR和HR像素的混合分布,因此网络只能学习混合扩增(MoA)。为了推动性能增益的限制,我们将各种DA方法集成到一个框架中。对于每次训练迭代,模型首先以概率p决定是否对输入应用DA。如果是,它会在DA池中随机选择一个方法基于我们的分析,我们使用表1中讨论的所有像素域DA方法,同时排除所有特征域DA方法。在这里,我们设置p=1。0作为默认值。从现在开始,除非它是指定的,我们报告所有的实验结果,使用这种MoA策略。1838029.429.329.229.129.028.928.828.728.628.529.929.829.729.629.529.429.329.229.129.028.90100200300400500600700历元(a) SRCNN(0.07M)0100200300400500600700历元(b) CARN(1.14M)表2.通过改变模型和训练数据集的大小,在DIV2K(×4)验证集上进行PSNR(dB)比较请注意,更难收集的RealSR数据集的数量为约占DIV2K数据集的15%。模型参数。训练数据大小百分百百分之五十百分之二十五百分之十五百分之十SRCNN0.07M27.9527.9527.9527.9327.91+提议-0.02-0.01-0.02-0.02-0.01Carn1.14M28.8028.7728.7228.6728.60+提议+0.00+0.01+0.02+0.03+0.04RCAN15.6M29.2229.0629.0128.9028.82+提议+0.08+0.16+0.11+0.13+0.14EDSR43.2M29.2129.1028.9728.8728.77+提议+0.08+0.08+0.10+0.10+0.110100200300400500600700历元(c) RCAN(15.6M)0100200300400500600700历元(d) EDSR(43.2M)p=1. 0用于大型模型(RCAN和EDSR)。与图4.在不同数据大小(%)的训练过程中,10张DIV2K(×4)验证图像的PSNR(dB)比较。我们的用三角形标记。将显示缩放的曲线(进水口)。4. 实验在本节中,我们描述了我们的实验设置,并比较了应用和不应用我们的方法的模型性能。我们比较了各种模型大小、数据集大小(第4.1节)和基准数据集(第4.2节)下的超分辨率(SR)最后,我们将我们的方法应用于其他低级视觉任务,如高斯去噪和JPEG伪影去除,以显示我们的方法的潜在可扩展性(第4.4节)。23基线。 我们使用四种SR模型:SRCNN [8],CARN[3],RCAN [33]和EDSR [15]。这些模型具有不同数量的参数,从0.07M到43.2M(百万)。为了公平比较,除非另有说明,否则每个模型都是使用作者的官方代码从头开始训练的数据集和评价。我们使用DIV2K [2]数据集或最近提出的真实世界SR数据集RealSR [4]用于训练。为了进行 评 估 , 我 们 使 用 Set14 [28] , Urban100 [14] ,Manga109 [17]和RealSR数据集的测试图像。这里,除了彩色图像去噪任务之外,仅在Y通道上计算PSNR和SSIM4.1. 不同模型和数据集的研究各种型号尺寸。众所周知,大型模型比小型模型从增强中受益更多为了看看这是否在SR中是真的,我们研究了模型大小如何影响使用我们的策略的最大性能增益。在这里,我们根据模型大小p = 0设置不同的应用增强的概率。2个用于小模型(SRCNN和CARN),2整体实验在NSML [20]平台上进行。3我们的代码可在clovaai/cutblur对于小模型,我们提出的方法没有提供任何好处,适合或略微提高性能(表2)。这证明了小模型的严重欠拟合,其中由于缺乏容量,DA的影响最小另一方面,它不断提高RCAN和EDSR的性能,它们有足够的能力利用增强的信息。各种数据集大小。我们进一步研究了模型的性能,同时减少了训练的数据大小(表2)。在这里,我们使用100%,50%, 25%,15%和 10%的DIV2K数据集。SRCNN和CARN显示我们的方法没有或有这也可以从训练时的验证曲线中看出(图4a和4b)。另一方面,我们的方法在所有设置中为RCAN和EDSR带来了巨大的好处。随着数据集大小的减小,基线和我们的方法之间的性能差距变得越来越大。在一半数据集上训练的RCAN显示出与应用我们的方法时100%基线相同的性能(29. 06 + 0。十六等于二十九。22dB)。当数据集大小小于50%时,我们的方法给出了高达0.16 dB的改进。在EDSR中也观察到这种趋势这一点很重要,因为DIV2K数据集的15%与RealSR数据集的大小相似,而RealSR数据集在真实环境下的成本更高。我们的方法还显著改善了过拟合问题(图4c和4d)。例如,如果我们使用25%的训练数据,大型模型很容易过拟合,这可以通过使用我们的方法(用相同颜色的三角形标记的曲线表示)显着减少。4.2. 不同基准数据集的比较我们在各种基准数据集上测试我们的方法。对于合成数据集,我们使用DIV2K数据集训练模型,并在Set14、Urban100和Manga109上进行测试。在这里,我们首先用×2尺度数据集预训练网络,然后在×4尺度图像上进行微调对于实际情况,我们使用RealSR数据集的训练集来训练模型100%我们的100%碱基50%我们的我们的25%25%基础10%我们的PSNRPSNR18381HR(PSNR/SSIM)CARN(Δ)(21.97/0.8127)EDSR(Δ)(23.04/0.8492)城市100:004城市100:073manga109:RisingGirlRealSR:Canon010RealSR:Nikon011LR(19.81/0.6517)HR(PSNR/SSIM)LR(18.20/0.4204)HR(PSNR/SSIM)LR(22.99/0.7440)HR(PSNR/SSIM)LR(23.21/0.7865)HR(PSNR/SSIM)LR(29.12/0.7916)CARN+拟定(Δ)(22.04/0.8148)CARN(Δ)(18.71/0.5343)CARN+拟定(Δ)(18.83/0.5347)CARN(Δ)(27.29/0.8404)CARN+拟定(Δ)(27.29/0.8402)CARN(Δ)(24.69/0.8486)CARN+拟定(Δ)(25.13/0.8578)CARN(Δ)(29.46/0.8072)CARN+拟定(Δ)(29.61/0.8136)EDSR+拟定(Δ)(24.13/0.8687)EDSR(Δ)(19.08/0.5869)EDSR+拟定(Δ)(19.86/0.6074)EDSR(Δ)(27.98/0.8546)EDSR+拟定(Δ)(28.12/0.8579)EDSR(Δ)(25.19/0.8575)EDSR+拟定(Δ)(25.54/0.8673)EDSR(Δ)(29.68/0.8154)EDSR+拟定(Δ)(29.95/0.8216)RCAN(Δ)(23.64/0.8658)RCAN+拟定(Δ)18382(24.07/0.8704)(20.02/0.6085)(28.10/0.8572)(25.78/0.8693)(30.08/0.8208)图5.在不同的数据集和任务上使用我们提出的方法的定性比较。是网络输出和地面真实HR图像之间的绝对残差强度图。RCAN(Δ)(27.77/0.8533)RCAN+拟定(Δ)RCAN+拟定(Δ)RCAN(Δ)(25.53/0.8669)RCAN+拟定(Δ)RCAN(Δ)(29.41/0.8092)RCAN+拟定(Δ)18383表3.在合成和真实环境中对SR(规模×4)任务进行定量比较(PSNR/SSIM) δ表示有增强和无增强之间的性能差距。对于合成情况,我们执行×2尺度预训练。模型#参数。合成(DIV2K数据集)真实(RealSR数据集)Set14(δ)城市100(δ)锰109(δ)RealSR(δ)Carn1.14M28.48(+0.00)/0.778725.85(+0.00)/0.77790.9034(+0.00)28.78(+0.00)/0.8134+提议28.48(+0.00)/0.778825.85(+0.00)/0.778030.16(-0.01)/0.903229.00(+0.22)/0.8204RCAN15.6M28.86(+0.00)/0.787926.76(+0.00)/0.80622019年12月24日星期一29.22(+0.00)/0.8254+提议28.92(+0.06)/0.789526.93(+0.17)/0.81062019年12月19日星期一29.49(+0.27)/0.8307EDSR43.2M28.81(+0.00)/0.787126.66(+0.00)/0.80380.06(+0.00)/0.915128.89(+0.00)/0.8204+提议28.88(+0.07)/0.788626.80(+0.14)/0.80722019年10月19日星期一29.16(+0.27)/0.8258HR LR(输入)HR LR(输入)EDSR,不带切割模糊(Δ)EDSR w/ CutBlur(Δ)EDSR w/ CutBlur(Δ)图6.基线和CutBlur模型输出的定性比较。输入是真实世界的失焦摄影(×2双三次下采样),这些照片来自网络(左)并由iPhone 11 Pro(右)捕获。是网络输出和地面真实HR图像之间的绝对残差强度图。基线模型过度锐化聚焦区域,导致令人不快的CutBlur模型可以有效地对图像进行超分辨率处理,而不会出现这种问题。(×4比例)并在其看不见的测试图像上测试它们。我们提出的方法始终如一地提供了巨大的性能增益,特别是当模型具有大容量时(表3)。在RealSR数据集中,这是一个更现实的情况下,我们的方法的性能增益变得更大,增加至少0.22 dB的PSNR的所有模型。我们实现了与之前SOTA模型(LP-KPN[4]:28.92 dB)一致的SOTA性能(RCAN [33])/ 0.8340)。请注意,我们的模型将PSNR提高了0.57dB,SSIM 得分相当令人惊讶的是,最轻的模型(CARN [3]:1.14 M)已经可以在PSNR中击败LP-KPN(5.13 M),只有22%的参数。图5显示了应用和不应用我们的DA方法的模型之间的定性比较。在Urban100示例中(图5中的第1行和第2行),RCAN和EDSR受益于性能的提高,并可快速完全解决混叠模式。这可以在模型预测和地面实况HR图像之间的残差中更清楚地看到。这样的趋势是不可避免的--EDSR,不带切割模糊(Δ)18384在不同的基准图像上观察到的相似性。在RealSR数据集图像中,即使是小模型的性能也得到了提升,特别是当存在精细结构时(图5中的第4行)。4.3. CutBlur在野外随着iPhone 11 Pro等设备的最新发展,它们提供了各种功能,例如肖像图像。由于图像的聚焦前景和散焦背景的分辨率不同,基线SR模型显示出性能下降,而CutBlur模型则没有(图6)。这些都是非常真实的例子,是由CutBlur模拟基线模型在草地上添加了不真实的纹理(左图,图6),并在字符和硬币图案周围生成了幽灵伪像(右图,图6)。相比之下,剪切-模糊模型不会增加任何不切实际的失真,同时它充分地超分辨率图像的前景和背景。18385表4.在Kodak24数据集上评估的彩色高斯去噪任务的性能比较我们用轻度(σ= 30)和重度(σ= 70)噪声训练模型,并在轻度设置上进行测试。LPIPS [31](越低越好)表示网络输出与地面实况之间的感知距离。高质量(PSNR/ SSIM/LPIPS)低质量(σ=30)(18.88 / 0.4716 / 0.446)表5.在LIVE1 [18]数据集上评估的彩色JPEG伪影去除任务的性能比较。我们用轻度(q= 30)和重度压缩(q= 10)训练模型,并在轻度设置上进行测试。基线(23.38/ 0.5375 /0.598)提出(23.14/ 0.7630 /0.191)模型列车q测试(q=30)PSNR↑SSIM↑LPIPS↓EDSR3033.950.92270.118+提议-0.01-0.0002+0.001EDSR1032.450.89920.154+提议+0.97+0.0187-0.0234.4. 其他低水平视力任务有趣的是,我们发现我们的方法在应用于其他低级视觉任务时也有类似的好处。我们通过将其应用于高斯去噪和JPEG伪影去除任务来展示我们的方法的潜在优势。对于每个任务,我们使用EDSR作为基线,并使用具有相应退化函数的合成DIV2K数据集从头开始训练模型。我们使用PSNR(dB)、SSIM和LPIPS [31]评估了Ko-dak 24和LIVE 1 [18]数据集上的模型性能。更多详情请参见附录。高斯去噪(彩色)。我们使用不同信噪比的高斯噪声生成一个合成数据集;σ= 30和70(σ越高,噪声越强)。与SR中的过度锐化问题类似,我们模拟了过度平滑问题(底行,表4)。所提出的模型具有比基线更低的PSNR(dB),但其显示出更高的SSIM和更低的LPIPS [31],已知LPIPS用于测量两个图像之间的感知距离(更低的LPIPS意味着更小的感知差异)。事实上,基线模型的较高PSNR是由于过度平滑(图7)。因为基线模型已经学会了去除较强的噪声,所以它提供了过度平滑的输出,丢失了图像的细节。由于这种过度平滑,其SSIM分数显著较低,而LPIPS显著较高。相比之下,用我们的策略训练的模型成功地去除了图像的噪声,同时保留了精细结构,这表明我们的方法具有良好的正则化效果。图7.去噪任务中泛化能力的比较基线和所提出的方法都使用σ= 70(严重)进行训练,并使用σ= 30(轻度)进行测试。我们提出的方法有效地恢复细节,而基线过平滑的输入,导致模糊的图像。JPEG伪影消除(彩色)。我们在彩色图像上使用不同的压缩质量生成合成数据集,q=10和30(较低的q与去噪任务相似,我们模拟了过度去除问题。与基线模型相比,我们提出的方法在我们使用的所有指标中显示出显著更好的性能(底行,表5)。该模型具有更好的泛化能力,在PSNR方面获得了0.97 dB的性能增益。5. 结论我们介绍了CutBlur和增强混合(MoA),一种新的DA方法和训练更强SR模型的策略。通过学习如何以及在何处对图像进行超分辨率处理,CutBlur鼓励模型了解应该在多大程度上对图像区域应用超分辨率。我们还分析了哪些DA方法会损害SR性能,以及如何修改这些方法以防止这种退化。我们表明,我们提出的MoA策略在各种场景中一致且显著地提高了性能,特别是当模型大小很大并且数据集是从真实环境中收集的最后但并非最不重要的是,我们的方法在去噪和JPEG伪影去除方面表现出了很好的效果,这意味着它可以扩展到其他低级视觉任务。谢谢。我们要感谢Clova AI研究团队,特别是YunjeyChoi,Seong Joon Oh,Youngjung Uh,Sangdoo Yun,Dongyoon Han,Youngjoon Yoo和Jung-Woo Ha的宝贵意见和反馈。这项工作得到了NAVER Corp和韩国政府资助的韩国国家研究基金会(MSIT)(编号NRF-2019 R1 A2 C1006608)的支持。模型列车σ试验(σ=30)PSNR↑ SSIM↑ LPIPS↓EDSR+提议3031.92+0.020.8716+0.00060.136-0.004EDSR+提议7027.38- 两点五一0.7295+0.06960.375-0.19318386引用[1] Abdelrahman Abdelhamed,Stephen Lin,and Michael SBrown.智能手机摄像头的高质量去噪数据集。在IEEE计算机视觉和模式识别会议论文集,第1692-1700页,2018年。1[2] Eirikur Agustsson和Radu Timofte。Ntire 2017挑战单幅图像超分辨率:数据集和研究。在IEEE计算机视觉和模式识别会议上,2017年7月。二三五[3] Namhyuk Ahn、Byungkon Kang和Kyung-Ah Sohn。使用级联残差网络实现快速、准确、轻量的超分辨率。在欧洲计算机视觉会议论文集(ECCV),第252-268页,2018年。五、七[4] Jianrui Cai,Hui Zeng,Hongwei Yong,Zisheng Cao,and Lei Zhang.迈向真实世界的单幅图像超分辨率:新标 杆 、 新 模 式 。 arXiv 预 印 本 arXiv : 1904.00523 ,2019。一二三五七[5] 崔俊锡和沈贤贞用于弱监督对象定位的基于注意力的丢弃层。在IEEE计算机视觉和模式识别会议论文集,第2219-2228页,2019年。二、三[6] Ekin D Cubuk, Barret Zoph ,Dandelion Mane ,VijayVasude-van,and Quoc V Le.自动扩增:从数据中学习增强策略。arXiv预印本arXiv:1805.09501,2018。2[7] Terrance DeVries和Graham W Taylor。改进的卷积神经网 络 的 正 则 化 。 arXiv 预 印 本 arXiv : 1708.04552 ,2017。一、二、三[8] Chao Dong , Chen Change Loy , Kaiming He , andXiaoou Tang.使用深度卷积网络的图像超分辨率。IEEETransactionsonPatternAnalysisandMachineIntelligence,38(2):295-307,2015。一、五[9] 冯瑞成,顾金金,乔玉,朝东。图像超分辨率网络的超压模型过拟合。在IEEE计算机视觉和模式识别研讨会会议论文集,第0一、二[10] 泽维 尔· 加斯 塔尔 迪Shake-shake 正则 化arXiv预印 本arXiv:1705.07485,2017。一、二[11] Golnaz Ghiasi , Tsung-Yi Lin , and Quoc V Le.Dropblock:卷积网络的正则化方法。神经信息处理系统的进展,第10727-10737页,2018年。一、二、三[12] 古书航、左望梦、谢启、孟德宇、冯湘楚、张磊.图像超分辨率卷积稀疏编码IEEE国际计算机视觉会议论文集,第1823-1831页,2015年1[13] Dan Hendrycks和Thomas Dietterich基准神经网络的鲁棒性 常 见 的 腐 败 和 扰 动 。 arXiv 预 印 本 arXiv :1903.12261,2019。1[14] Jia-Bin Huang,Abhishek Singh,and Narendra Ahuja.单图像超分辨率从变换的自我范例。IEEE计算机视觉和模式识别会议论文集,第5197-5206页,2015年5[15] Bee Lim , Sanghyun Son , Heewon Kim , SeungjunNah,and Kyoung Mu Lee.用于单图像超分辨率的增强深度残差网络在IEEE计算机视觉和模式识别研讨会集,第136-144页,2017年。二三五[16] Sungbin Lim、Ildoo Kim、Taesup Kim、Chiheon Kim和Sungwoong Kim。快速自动扩增。arXiv预印本arXiv:1905.00397,2019。2[17] Yusuke Matsui 、 Kota Ito 、 Yuji Aramaki 、 AzumaFujimoto、Toru Ogawa、Toshihiko Yamasaki和KiyoharuAizawa。使用manga109数据集进行基于草图的漫画检索 。 Multimedia Tools and Applications , 76 ( 20 ) :218115[18] HR酋长 实时图像质量评估数据库发布2. http ://live. 是 的。 utexas edu/research/quality , 2005年。8[19] Nitish Srivastava,Geoffrey Hinton,Alex Krizhevsky,Ilya Sutskever,and Ruslan Salakhutdinov.Dropout:防止神经网络过拟合的简单机器学习研究杂志,15(1):1929-1958,2014。2[20] NakoSung , Minkyu Kim , Hyunwoo Jo , YoungilYang,Jing-woong Kim,Leonard Lausen,YoungkwanKim , Gayyoung Lee , Donghyun Kwak , Jung-WooHa,et al. NSML:一个机器学习平台,使您能够专注于您的模型. arXiv预印本arXiv:1712.05902,2017。5[21] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构在Proceedings of the IEEE conference on computervision and pattern recognition,pages 28184[22] 杨明轩,张磊. Ntire 2017挑战单幅图像超分辨率:方法和结果。在IEEE计算机视觉和模式识别研讨会会议上,第114-125页,2017年。1[23] Radu Timofte , Vincent De Smet , and Luc Van Gool.A+:调整锚定邻域回归快速超分辨率.在亚洲计算机视觉会议上,第111-126页。Springer,2014. 1[24] Radu Timofte,Rasmus Rothe,Luc Van Gool.七种方法来提高基于
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功