没有合适的资源?快使用搜索试试~ 我知道了~
3086迈向真实世界的单一图像超分辨率:新标杆新模式蔡建瑞1,张伟,曾辉1,洪伟勇1,3,曹子生2,张磊1,3,§1香港理工大学,2大疆创新科技有限公司,阿里巴巴集团第三代达摩院{csjcai,cshzeng,cshyong,cslzhang}@ comp.polyu.edu.hk,zisheng. dji.com摘要大多数现有的基于学习的单图像超分辨率(SISR)方法都是在模拟数据集上训练和评估的,其中低分辨率(LR)图像是通过应用简单且均匀的退化(即,双三次下采样)到它们的高分辨率(HR)对应物。然而,在现实世界的LR图像的退化要复杂得多。因此,在模拟数据上训练的SISR模型在应用于实际场景时效果较差。在本文中,我们建立了一个真实世界的超分辨率(Re-alSR)数据集,其中通过调整数字相机的焦距来捕获同一场景上的成对LR-HR图像。提出了一种图像配准算法,用于逐步对准不同分辨率的图像对。考虑到退化核在我们的数据集中是自然不均匀的,我们提出了一种基于拉普拉斯金字塔的核预测网络(LP-KPN),它有效地学习每像素的核来恢复HR图像。我们的大量实验表明,SISR模型(a) 图像来源:Sony A7II(b) 双三(c) RCAN + BD在我们的RealSR数据集上训练的图像在真实场景中提供更好的视觉质量,比在模拟数据集上训练的图像具有更清晰的边缘和更精细的纹理。虽然我们的Re-alSR数 据 集 是 通 过 仅 使 用 两 台 相 机 ( 佳 能 5D3 和 尼 康D810)构建的,但经过训练的模型可以很好地推广到其他相机设备,如索尼a7 II和手机。1. 介绍单图像超分辨率(SISR)[16]旨在从其低分辨率(LR)观察中重新覆盖高分辨率(HR)图像几十年来,SISR一直是一个活跃的研究课题[39,59,46,48,4,6],因为它在增强图像细节和纹理方面具有很高的实用价值。由于SISR是一个严重不适定的反问题,学习imp。*前两位作者对本书的贡献相当§ 通 讯 作 者 。 本 研 究 得 到 了 国 家 自 然 科 学 基 金 项 目 ( No.61672446)及香港研究资助局一般拨款额(理大152216/18 E)。(d) RCAN + MD(e)RCAN + RealSR(f)LP-KPN + RealSR图1.(a)由Sony a7 II相机拍摄的真实世界图像的SISR结果(× 4)。SISR结果由(b)使用图像对(DIV2K [46]中)训练的双三次RCAN模型[64]生成,其中(c)双三次退化(BD),(d)多个模拟退化(MD)[62]和(e)RealSR数据集中的真实失真(f)通过在我们的数据集上训练的所提出的LP-KPN模型的SISR结果。请注意,我们的RealSR数据集由Canon 5D3和Nikon D810相机收集。来自HR和/或LR样本图像的年龄先验信息[16,14,57,20,15,8,25,58,12,21,47,42]起着重要作用。从LR图像中恢复细节的关键。受益于深度卷积神经网络(CNN)[29]的快速发展,近年来已经见证了训练CNN模型以执行SISR的爆炸性传播,并且通过设计新的CNN架构[10,51,43,24,45,31,65,64]和损失函数[23,30,41]。3087虽然已经取得了重大进展,但大多数现有的SISR方法都是在模拟数据集上训练和评估的,这些数据集假设简单和均匀的退化(即,双三次降解)。不幸的是,在这种模拟数据集上训练的SISR模型很难推广到实际应用中,因为真实世界LR图像中的真实退化要复杂得多[56,27]。图1示出了由Sony a7 II相机捕获的真实世界图像的SISR结果。我们利用最先进的RCAN方法[64]使用具有双三次退化的模拟图像对(DIV2K [46]中)、多个模拟退化[62]和本文构建的数据集中具有真实失真的图像对来训练三个 结果清楚地表明,与简单的双三次插值器相比(图2)。1(b)),在模拟数据集上训练的RCAN模型(图1A和图1B)。1(c)1(d))在真实世界的图像上没有因此,非常希望我们可以有一个由真实世界而不是模拟的LR和HR图像对组成的训练数据集。然而,构建这样的真实世界超分辨率(RealSR)数据集是一项重要的工作,因为地面实况HR图像非常难以获得。在这项工作中,我们的目标是构建一个通用的和实用的RealSR数据集使用灵活的和易于重现的方法。具体来说,我们使用不同焦距的固定数码单反相机(DSLR)捕捉同一场景的图像。通过增加焦距,可以将场景的更精细细节自然地记录到相机传感器中。以这种方式,可以收集不同尺度上的HR和LR图像对然而,除了视场(FoV)的变化外,焦距的调整还可能导致成像过程中的许多其他变化,如光学中心的偏移、缩放因子的变化、不同的曝光时间和镜头畸变。因此,我们开发了一个有效的图像配准算法,逐步对齐的图像对,这样的端到端的训练SISR模型- els可以执行。所构建的RealSR数据集包含两台DSLR相机(Canon 5D3和Nikon D810)拍摄的各种室内和室外场景,为实际应用中训练和评估SISR算法提供了良好的基准。与以前的模拟数据集相比,我们的RealSR数据集中的图像退化过程要复杂得多特别地,由于模糊核随着场景中内容的深度而变化,因此降级是空间变化的。这促使我们为真实世界的SISR任务训练一个内核预测网络(KPN)。核预测的思想是明确地学习每个像素的恢复核,并且它已被用于诸如去噪[1,35,49],动态去模糊[44,17]和视频插值[36,37]等应用中。尽管KPN是有效的,但其存储和计算成本是随着核大小的平方增加的。为了获得具有竞争力的SISR,由于使用大的内核大小,同时实现高的计算效率,我们提出了一个拉普拉斯金字塔的KPN(LP-KPN),学习每像素的内核分解图像金字塔。我们的LP-KPN可以利用丰富的信息,使用一个小的内核大小,导致有效和高效的现实世界的SISR性能。图1(e)和1(f)分别显示了在我们的RealSR数据集上训练的RCAN [64]和可以看到,它们都比在模拟数据上训练的RCAN模型提供了更好的结果,而我们的LP-KPN(46个conv层)可以使用更少的层输出比RCAN(超过400个conv层)更清晰的结果。这项工作的贡献是双重的:• 我们构建了一个RealSR数据集,该数据集由具有不同缩放因子的精确对齐的HR和LR图像对组成,为真实世界的SISR模型训练和评估提供了通用基准• 我们提出了一个LP-KPN模型,并验证了它的效率和有效性在现实世界的SISR。大量的实验进行定量和定性分析我们的RealSR数据集在训练SISR模型的性能。尽管当前版本的数据集仅使用两个相机构建,但经过训练的SISR模型对由其他类型的相机设备捕获的图像表现出良好的泛化能力。2. 相关工作SISR数据集。有几个流行的数据集,包括Set5 [3],Set14 [61],BSD 300 [33],Urban100 [20],Manga 109 [34]和DIV2K [46]已被广泛用于培训和评估SISR方法。在所有这些数据集中,LR图像通常通过简单且均匀的退化过程合成,例如双三次下采样或高斯模糊,然后直接下采样[11]。在这些模拟数据上训练的SISR模型在应用于真实LR图像时可能表现出较差的性能,其中降级偏离模拟图像[13]。为了提高泛化能力,Zhanget al. [62]使用多个模拟退化训练他们的模型,Bulat等人。[5]使用GAN [18]生成降解过程。虽然这些更先进的方法可以模拟更复杂的退化,但不能保证这种模拟退化可以近似实际场景中的真实退化,实际场景通常非常复杂[27]。最近已经进行了几次尝试来捕获用于SISR的真实世界图像对。Qu等人[40]将两台相机与分束器放在一起,以收集具有成对面图像的数据集。 科勒等[27]在传感器上使用硬件分箱来捕获LR图像,并使用多个后处理步骤来生成LR图像的不同版本。然而,这两个数据集都是在3088图2.薄透镜的插图。u、v、f分别表示物距、像距和焦距。h1和h2表示对象和图像的大小。表1.每个摄像机在每个缩放因子下的图像对数量。相机佳能5D3Nikon D810规模×2×3×4×2×3×4#图像对86117869711792薄透镜的过程如图所示二、我们用u、v、f表示物距、像距和焦距,用h1和h2分别表示物像的大小透镜方程定义如下[54]:室内实验室环境和数量非常有限的包括场景([40]中的31张人脸图像和[27]中的14张场景)。 最近,两个当代数据集1 11=+fuv.(一)是用和我们类似的策略建造的Chen等人[7]一次捕获100对印刷明信片的图像放大系数M被定义为图像尺寸与物体尺寸的比率:缩放因子,但在此数据集上训练的模型可能无法很好地推广到真实世界的自然场景。Zhang等人[63]使用多个焦距拍摄了500个场景M=h2H1v=.(二)u然而,图像对在此不精确地对准数据集,这使得在这个数据集上评估训练模型的性能变得不方便与他们不同的是,在我们的数据集中,我们从多个场景中捕获图像,在我们的情况下,静态图像是在一定距离处拍摄的(即,(2)大于3.0米。h1和u都是固定的,u比f大得多(最大的f是105 mm )。合并等式(1)和方程(2),并考虑到事实,u f,我们有:三倍焦距,并制定了系统的图像reg.Fh=hF好吧(三)该算法可以精确对齐图像对,为真实世界的单图像超分辨率提供了通用且易于使用的基准。核预测网络考虑到我们的RealSR数据集中的退化核是空间变化的,我们提出为真实世界的SISR训练核预测网络(KPN)KPN的概念首先在[1]中提出,去噪蒙特卡洛渲染,它已被证明比直接预测具有更快的收敛性和更好的稳定性[49]。Mildenhall等人[35]训练KPN模型进行突发去噪,并在合成和真实数据上获得最先进的性能类似的想法已经被用于估计动态去模糊中的模糊核[44,17]或视频插值中的卷积核[36,37]。我们是最早为SISR训练KPN的人之一,我们提出了LP-KPN来高效地在尺度空间中执行核预测3. 真实世界SISR数据集为了构建一个用于学习和评估真实世界SISR模型的数据集,我们建议通过调整DSLR相机的镜头然后执行复杂的图像配准操作以生成相同内容的HR和LR对。本节介绍了详细的数据集构建过程。3.1. 薄透镜成像DSLR相机成像系统可以近似为薄透镜[54]。图像形成的图示2u−f1u1因此,h2与f近似线性。通过增加焦距f,具有更精细细节的更大图像将被记录在相机传感器中。比例因子也可以通过选择f的特定值来控制(理论上)。3.2. 数据收集我们使用了两台全画幅数码单反相机(佳能5D3和尼康D810)来捕捉图像以进行数据收集。佳能5D3的分 辨 率 为 5760×3840 , 尼 康 D810 的 分 辨 率 为7360×4912。为了覆盖共同的缩放因子(例如,×2,×3,×4),两台相机都配备了一个24 mm × 105 mm,f/4.0变焦镜头。对于每个场景,我们使用四种焦距拍摄照片:105毫米、50毫米、35毫米和28毫米。由最大焦距拍摄的图像用于生成地面实况HR图像,并且由其他三个焦距拍摄的图像用于生成LR版本。我们选择28mm而不是24mm,因为24mm处的镜头畸变在后处理中更难校正,这会导致图像对配准的质量不太令人满意。相 机 被 设 置 为 光 圈 优 先 模 式 , 光 圈 根 据 景 深(DoF)进行调整[53]。基本上,所选的光圈值应使DoF足够大以覆盖场景并避免严重的衍射。最好使用较小的ISO以减轻噪声。对焦、白平衡和曝光均设置为自动模式。由于仅使用捕获图像的中心区域,3089LL105mm拍摄的照片28mm拍摄的照片畸变校正中 心 区 域裁剪畸变校正中 心 区 域裁剪作为参考地面实况HR图像LR图像对齐LR图像焦距由于在不同焦距下拍摄的图像之间的分辨率差异较大且亮度变化较小,因此基于稀疏关键点的图像配准算法(如SURF [2]和SIFT [32])无法始终实现像素配准,这对于我们的数据集是必要的。为了获得精确的图像对配准,我们开发了一种逐像素配准算法,图3.我们的图像对注册过程的插图。在我们最终的数据集中。为了稳定,相机被固定在三脚架上,蓝牙遥控器被用来考虑亮度调整。用IH和IL表示要配准的HR图像和LR图像,我们的算法最小化以下目标函数:min||αC(τ IL)+ β − IH||p,(4)控制快门。此外,透镜稳定性也由τ p变为τp在拍照时,反射器是预先升起为了保证数据集的通用性,我们在室内和室外环境下拍摄了照片。考虑到超分辨率的主要目的是恢复或增强图像细节,具有丰富纹理的场景是优选的对于每个场景,我们首先在105mm焦距下拍摄图像,然后手动减小焦距,以拍摄三个缩小版本。拍摄了234个场景,其中τ是仿射变换矩阵,C是使变换后的IL具有与IH相同大小的裁剪操作,α和β是亮度调整参数,||p是鲁棒Lp范数(p ≤ 1),例如,||pis a robust Lp-norm (p ≤ 1), e.g., L1-范数。上述目标函数以迭代方式求解。 首先,根据Eq。(3)、τ被初始化为具有缩放面的缩放变换以两个焦距之比计算。 让I′=两个摄像机之间没有重叠的场景C(τIL )的情况。与I'我LH固定,用于LUMI的参数在丢弃具有移动对象的图像之后,在适当的情况下,可以通过α=std(IH)/ std(I′)来′ ′L通过使用预曝光和模糊,我们总共有595个HR和LR图像对。表1中列出了每个摄像机在每个缩放因子下的图像对数量。3.3. 图像对配准虽然通过变焦DSLR相机的镜头很容易收集不同尺度的图像,但很难和β=mean(IH)-α mean(IL),这可以确保IL在亮度调整之后具有与IH相同的像素均值和方差。 然后我们求解α和β固定的仿射变换矩阵τ。根据[38,60],目标函数w.r.t.τ是非线性的,可以通过局部线性近似迭代求解min||αC(τ IL)+β+αJτ− IH||p,(5)获得逐像素对准的图像对,因为缩放的镜头的变化带来了许多无法控制的变化。具体地,在不同焦距处拍摄的图像遭受不同的镜头失真,并且通常具有不同的曝光。此外,由于透镜的固有缺陷,在变焦焦距时光学中心也会发生偏移[55]。甚至缩放因子也略微变化,因为透镜方程(Eq.(1))在实际调焦过程中不能精确满足。由于上述因素,现有的图像配准算法都不能直接用于获得不同焦距下捕获的因此,我们开发了一个图像配准算法,逐步对齐这样的图像对,以建立我们的RealSR数据集。注册过程如图所示。3.第三章。我们首先导入图像与Meta信息到PhotoShop中,以纠正镜头失真。然而,该步骤不能完美地校正透镜畸变,特别是对于远离光学中心的区域。因此,我们进一步裁剪图像中心周围的感兴趣区域,其中畸变不严重,可以很好地校正。在105 mm焦距处拍摄的图像的裁剪区域用作地面实况HR图像,其LR对应物将从在50 mm、35 mm或28 mm处拍摄的图像中配准其中J是C(τ∈L)的雅可比矩阵w.r.t. τ,并且该目标函数可以通过迭代重新加权最小二乘问题(IRLS)来求解,如下[9]:min||w(Aτ− b)||第二条第六款∆τ2其中A=αJ,b=IH−(αC(τIL)+β),w是权重矩阵,τ表示逐元素乘法。然后我们可以得到:Δτ=(A′ diag(w)2A)−1A′ diag(w)2b,(七)并且τ可以通过以下公式更新:τ= τ + πτ。我们迭代地估计亮度调整参数和仿射变换矩阵。优化过程在5次迭代内收敛,因为我们的缩放因子的先前信息提供了τ的良好初始化。在收敛之后,我们可以获得对准的LR图像为IA=αC(τ <$IL)+ β。4. 基于Laplacian金字塔的核预测网络在第3节中,我们构建了一个新的真实世界超分辨率(RealSR)数据集,该数据集由像素组成,ge迭代配准3090LLL4222L(k×k)××拉普拉斯金字塔分解⁄4LR输入图像H*h×4wk×k拉普拉斯金字塔重建KKwHR输出图像×2卷积块Shuffle下采样Shuffle上采样×2k×k1/2客房设施1/21/2×2一个k × k核一个k × k补丁1/41/4将每像素内核应用于相应的补丁/4k×k不同级别/4不同层次图4.基于拉普拉斯金字塔的核预测网络框架。通过将图像分解为拉普拉斯金字塔,使用小内核可以利用丰富的邻域信息实现超分辨率。大小为h×w的明智对齐的HR和LR图像对{IH,IA}。现在问题转向如何学习一个有效的网络来增强IA到IH。对于我们的RealSR数据集中的LR图像,模糊核随着场景中的深度而变化[52],DoF [53]随着焦距而变化。训练直接将LR图像转换为HR图像的SISR模型,如在大多数先前的基于CNN的SISR方法中所做的那样,可能不是具有成本效益的方式。因此,我们建议训练一个内核预测网络(KPN),它为每个像素显式学习一个单独的内核。与这些直接像素合成网络相比,KPN具有在实际应用中的计算和存储成本。为了训练一个既有效又高效的KPN,我们提出了一种基于拉普拉斯金字塔的KPN(LP-KPN)。我们的LP-KPN的框架如图所示4.第一章 与许多SR方法[31,48]一样,我们的模型适用于YCbCr空间的Y通道。 拉普拉斯金字塔将图像分解为具有下采样分辨率的几个层次的子图像,分解后的图像可以精确地重建原始图像。利用这一性质,LR输入图像IA的Y通道被分解为三级图像金字塔{S0,S1,S2},其中S0∈Rh×w,S1∈被证明在效率、可解释性和Rh×w高×宽22,且S2∈R44.第一章 我们的LP-KPN采用LR IM-去噪、动态去噪、模糊等,[1、35、49、44、17、28]。年龄作为输入,并预测三个核张量{T0,T1,T2}对于图像金字塔,其中T0∈R(k×k)×h ×w,T1∈KPN将IA作为输入,并输出核10-排序T ∈R(k×k)×h ×wR(k× k)×h×w,TE ∈RHW44.第一章 博学的科-,其中通道di-M∈R(k×k)可以被整形为k×k核K(i,j).将整形的每像素核K(i,j)应用于输入LR图像IA(i,j)中的每个像素的k×k邻域以再现HR输出。预测使用等式2中的操作,将nel张量{T0,T1,T2}应用于对应的图像金字塔{S0,S1,S2}(8)对HR图像的各层Laplacian分解进行恢复最后,拉普拉斯金字塔重建是一致的。LP导管以获得HR图像。受益于拉普拉-由IH表示的HR图像通过以下获得:IP(i,j)= IK(i,j),V(IA(i,j))I,(8)cian金字塔,学习三个k×k核同样可以在原始分辨率产生大小为4k×4kH L其中V(IA(i,j))表示像素的k×k邻域解决方案,这大大降低了计算成本与直接学习一个4k×4k内核相比IL(i,j)和I·I表示内积运算。当量(8)示出了输出像素是加权线性,输入图像中相邻像素的耳组合。为了获得良好的性能,需要大的核尺寸来利用更丰富的邻域信息,特别是当仅使用单帧图像上我们的LP-KPN的主干由17个残差块组成,每个残差块包含2个卷积层和一个ReLU函数(类似于[31]的结构)。为了提高效率,我们用因子1对输入LR图像进行混洗[43](即,将h×w图像混洗为16另一方面,预测的核张量T以平方增长,高×宽图像)并将混洗的图像输入到网络。4 4这与内核大小k有关,这可能导致高COM工作。大多数卷积块由三个共享**3091H23 4表2.通过不同方法(在不同数据集上训练)在RealSR测试集上的平均PSNR(dB)和SSIM指数度量规模双三VDSR [24]SRResNet [30]RCAN [64]BDMD我们BDMD我们BDMD我们PSNR×2三十二6129岁34二十七岁99三十二6329岁4028岁03三十二6529岁4328岁06三十三岁。64三十二6629岁4628岁09三十二6929岁4728岁12三十三岁。69三十二9129岁6628岁28三十二9229岁6928岁31三十三岁。87×3三十14三十18三十40×428岁6328岁6728岁88SSIM×20的情况。9070的情况。8410的情况。8060的情况。9070的情况。8420的情况。8060的情况。9080的情况。8450的情况。8070的情况。9170的情况。9080的情况。8440的情况。8060的情况。9090的情况。8460的情况。8080的情况。9190的情况。9100的情况。8470的情况。8110的情况。9120的情况。8510的情况。8130的情况。922×30的情况。8560的情况。8590的情况。862×40的情况。8210的情况。8240的情况。826除了最后几层之外的内核层。执行一个×4和一个×2混洗操作以在两个较低级别上对潜像表示的空间分辨率进行上采样,然后是各个卷积块。我们的LP-KPN总共有46个卷积层,这比以前最先进的SISR模型要少得多[31,65,64]。详细的网络架构可在补充 材 料 中 找 到 。 L2 范 数 损 失 函 数 L ( IH , IP )=||IH−IP||二是以小见大,在模拟数据集和RealSR数据集上训练的SISR模型的分辨率性能。考虑到大多数最先进的SISR模型是在DIV2K [46]数据集上训练的,我们采用DIV2K生成具有双三次退化(BD)和多重退化(MD)的模拟图像对[62]。我们选择了三个具有代表性和最先进的SISR网络,即,[24]第二十四话[30]和RCAN [64],并在BD,MD和三个缩放因子中的每一个的RealSR训练数据集H H2放大模型预测IP和地面实况HR图像IH。5. 实验实验装置。RealSR数据集中的图像对数量见表1。我们在每个相机的每个缩放因子下随机选择15个图像对来形成测试集,同时使用剩余的图像对作为训练集。除了跨相机测试,来自佳能和尼康相机的图像被组合用于训练和测试。根据先前的工作[31,64,48],使用YCbCr空间中Y通道上的PSNR和SSIM [50]指数评估SISR 结果图像的高度和宽度分别位于[700,3100]和[600,3500]的范围内我们将训练图像裁剪成192×192块来训练所有的模型。通过随机旋转90°、180°、270°和水平翻转输入进行数据扩充所有实验中的小批量均设定为16。使用[19]中的方法初始化所有SISR模型。亚当求解器[26]与默认参数(β1= 0. 9,β2= 0。999和λ= 10−8)来优化网络参数。学习率固定为10-4,所有网络都训练了1000K次。所有比较模型都使用Caffe [22]工具箱进行训练,并使用Caffe MATLAB接口进行测试所有的实验都是在配备有Intel Core i7- 7820 X CPU、128 GRAM和单个Nvidia Quadro GV 100 GPU(32 G)的PC上进行的我们的数据集和源代码可以在https://github上下载。com/csjcai/RealSR.5.1. 模拟SISR数据集与RealSR数据集为了证明我们的RealSR数据集的优势,我们进行了实验,以比较真实世界的超级,tors(×2,×3,×4),得到27个SISR模型。到在保持SRResNet和RCAN网络结构不变的情况下,对输入图像分别采用因子1、1、1对3个尺度因子×2、×3、×4进行置乱。我们将27个经过训练的SISR模型应用于RealSR测试集,平均PSNR和SSIM指数列于表2中。还包括基线双三次曲线以进行比较。可以看到,在我们的RealSR测试集上,在模拟BD数据集上训练的VDSR和SRResNet模型只能达到与简单双三次多项式相当的性能。在MD数据集上的训练带来了比BD的边际改进,这表明现实世界图像中的真实退化难以模拟。采用更深层次的体系结构,RCAN(>400层)可以在所有情况下提高VDSR和SRResNet的性能(0.2dB至0.3dB)。使用相同的网络架构,在我们的RealSR数据集上训练的SISR模型在所有三个缩放因子上都比在BD和MD数据集上训练的模型获得了更好的性能。具体来说,对于缩放因子×2,在我们的RealSR数据集上训练的模型约为1。所有三种网络架构的平均改善为0 dB。对于缩放因子× 3和× 4,优势也很明显。在图5中,我们可视化了由不同模型获得的超分辨率图像可以看出,由在模拟BD和MD数据集上训练的模型生成的SISR结果倾向于具有带有明显伪影的模糊边缘。相反,在我们的RealSR数据集上训练的模型可以恢复更清晰,更自然的图像细节。更多的视觉例子可以在补充文件中找到。5.2. 在RealSR数据集上训练的SISR模型为了证明所提出的LP-KPN的效率和有效性,我们将其与8个SISR模型进行了比较3092图像来源:Canon 5D3图像来源:Nikon D810HR Bicubic SRResNet + BD SRResNet + MD SRResNet + RealSRVDSR + MD VDSR + RealSR RCAN + BD RCAN + MD RCAN + RealSRHR Bicubic SRResNet + BD SRResNet + MD SRResNet + RealSRVDSR + MD VDSR + RealSR RCAN + BD RCAN + MD RCAN + RealSR图5.通过不同方法(在不同数据集上训练)在RealSR测试集上的SR结果(×4)表3.RealSR测试集上不同模型(在我们的RealSR训练集上训练)的平均PSNR(dB)和SSIM指数方法PSNRSSIM×2×3×4×2×3×4双三三十二6129岁34二十七岁990的情况。9070的情况。8410的情况。806VDSR三十三岁。64三十1428岁630的情况。9170的情况。8560的情况。821SRResNet三十三岁。69三十1828岁670的情况。9190的情况。8590的情况。824RCAN三十三岁。87三十4028岁880的情况。9220的情况。8620的情况。826DPS三十三岁。71三十2028岁690的情况。9190的情况。8590的情况。824KPN,k=5三十三岁。75三十2628岁740的情况。9200的情况。8600的情况。826KPN,k=7三十三岁。78三十2928岁780的情况。9210的情况。8610的情况。827KPN,k=13三十三岁。83三十3528岁850的情况。9230的情况。8620的情况。828KPN,k=19三十三岁。86三十3928岁900的情况。9240的情况。8640的情况。830我们,k=5三十三岁。90三十4228岁920的情况。9270的情况。8680的情况。834eels,包括VDSR,SRResNet,RCAN,基线直接像素合成(DPS)网络和四个KPN模型,核大小k= 5,7,13,19。DPS和四个KPN模型与我们的LP-KPN共享相同的主干。所有模型都在我们的RealSR数据集上进行了训练和测试表3列出了所有竞争模型以及双三次基线的PSNR和SSIM指数。可以注意到在四个直接像素合成网络(即,VDSR、SRResNet、RCAN和DPS),RCAN由于其非常深的体系结构(超过400层)而获得最佳性能使用少于50层的相同骨干,具有5×5内核大小的KPN已经优于DPS。对于KPN架构,使用更大的内核大小始终会带来更好的结果,并且当内核大小3093上升到19。得益于拉普拉斯金字塔分解策略,我们的LP-KPN使用三个不同的5 × 5核实现了比19 × 19核的KPN更好的结果。所提出的LP-KPN获得了最好的性能,但具有最低的计算成本的所有三个缩放因子。在补充文件中可以找到竞争模型的SISR结果的详细复杂性分析和可视化示例。5.3. 交叉摄像机测试为了评估在我们的RealSR数据集上训练的SISR模型的泛化能力由两个相机拍摄的图像被分别分成训练集和测试集,每个相机在每个缩放因子下具有15个将三个尺度的图像组合起来进行训练,并在两个相机的测试集上测试在一个相机上训练的模型。在该评估中比较了LP-KPN和RCAN模型,并且在表4中报告了PSNR指数。可以看出,对于RCAN和LP-KPN两者,交叉相机测试结果与相机内设置相当,仅约0. 32 dB和0. 30dB的差距,分别,而两者都远远优于双三次插值。这表明在一个相机上训练的SISR模型可以很好地推广到另一个相机。这可能是因为我们的RealSR数据集包含由相机镜头和图像形成产生的3094图片来自iPhone X图像来源:Google Pixel 2双三次RCAN + BD RCAN + MDRCAN + RealSR KPN(k= 19)+RealSR LP-KPN + RealSR双三次RCAN + BD RCAN + MDRCAN + RealSR KPN(k= 19)+RealSR LP-KPN + RealSR图6.我们数据集之外的真实世界图像的SISR结果(× 4)。图像由iPhone X和Google Pixel 2拍摄。表4.用于跨相机评估的平均PSNR(dB)指标测试规模双三RCAN(培训)LP-KPN(培训)佳能尼康佳能尼康佳能×2三十三岁。0529岁6728岁31三十四34三十6529岁46三十四11三十2829岁04三十四38三十6929岁48三十四18三十3329岁10×3×4尼康×231岁6628岁63二十七岁28三十二0129岁30二十七岁98三十二3029岁7528岁12三十二0529岁3428岁01三十二3329岁7828岁13×3×4进程,它们在相机之间共享类似的属性在RCAN和LP-KPN模型之间,前者具有更多的参数,因此更容易过拟合到训练集,比LP-KPN提供略差的泛化能力类似的观察在[1,49,35]中也有发现。5.4. 对数据集之外的图像进行测试为了进一步验证我们的RealSR数据集和LP-KPN模型的泛化能力,我们评估了我们的训练模型以及我们数据集之外的几个竞争对手的图像,包括一个索尼a7II DSLR相机和两个移动相机拍摄的图像(即,iPhoneX与GoogleRealSR数据集获得了比竞争对手更好的视觉质量,恢复更自然,更清晰的细节。更多的例子可以在补充文件中找到。6. 结论在SISR研究中,一个长期存在的问题是在模拟数据集上训练的模型很难推广到真实世界的图像。我们试图解决这个问题,并构建了一个真实世界的超级解决方案(RealSR)数据集与真实的退化。使用一台佳能和一台尼康相机收集595个HR和LR图像对,并开发了有效的图像配准算法以确保图像对之间的精确像素对齐。提出了一种基于拉普拉斯金字塔的核预测网络,以执行高效和有效的真实世界SISR。我们的大量实验证实,在我们的RealSR数据集上训练的模型可以产生比在以前的模拟数据集上训练的模型更好的真实世界SISR结果,显示出对其他相机的良好泛化能力。今后,我们将扩大像素2)。由于这些图像没有地面真实的HR版本,我们在图1和图6中可视化了超分辨率结果。在所有这些情况下,LP-KPN在我们的3095RealSR数据集,通过收集更多的图像对与更多类型的相机,并探讨新的SISR模型的训练策略。3096引用[1] 史蒂夫·巴科、蒂伊斯·沃格尔斯、布赖恩·麦克威廉姆斯、马克·迈耶、扬·诺·va` k、艾尔·x·哈维尔、普拉迪普·森、托尼·迪罗斯和法布里斯·德塞勒。核预测卷积网络用于去噪蒙特卡罗渲染。ACM事务处理图表,36(4):97-1,2017. 二、三、五、八[2] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf:加速健壮的功能。见ECCV,第4044[3] Marco Bevilacqua、Aline Roumy、Christine Guillemot和Marie Line Alberi-Morel。基于非负邻域嵌入的低复杂度单幅图像超分辨率2012. 2[4] Yochai Blau 、 Roey Mechrez 、 Radu Timofte 、 TomerMichaeli和Lihi Zelnik-Manor。2018年PIRM感知图像超分辨率挑战赛。在ECCV,2018。1[5] Adrian Bulat,Jing Yang,and Georgios Tzimiropoulos.要学习图像超分辨率,请首先使用gan学习如何进行图像降级。在ECCV,2018。2[6] 蔡建瑞、古书航、拉杜·巴夫特、张磊。Ntire 2019挑战真实图像超分辨率:方法和结果。在CVPRW,2019年。1[7] 陈畅,熊志伟,田新梅,查正军,吴。峰相机镜头超分辨率。在CVPR,2019年。3[8] Hong Chang,Dit-Yan Yeung,and Yimin Xiong.通过邻域嵌入实现超分辨率。载于CVPR,2004年。1[9] Rick Chartrand和Wotao Yin用于压缩感测的迭代重加权载于ICASSP,2008年。4[10] Chao Dong , Chen Change Loy , Kaiming He , andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。2014年,在ECCV。1[11] Weisheng Dong,Lei Zhang,Guangming Shi,and XinLi.图像恢复的非局部中心稀疏表示。IEEE Transactionson Image Processing,22(4):1620-1630,2013。2[12] Weisheng Dong , Lei Zhang , Guangming Shi , andXiaolin Wu.自适应稀疏域选择和自适应正则化的图像去模 糊 和 超 分 辨 率 。 IEEE Transactions on ImageProcessing,20(7):18381[13] Netalee Efrat , Daniel Glasner , Alexander Apartsin ,Boaz Nadler,and Anat Levin.精确的模糊模型与在单个图像超分辨率中的图像先验。InICCV,2013. 2[14] 吉拉德·弗里德曼和拉南·法塔勒图像和视频从本地自我的 例 子 升 级 。 ACM Transactions on Graph-ics(TOG),30(2):12,2011. 1[15] William T Freeman , Egon C Pasztor , and Owen TCarmichael.学习低层次视觉。国际计算机视觉杂志,40(1):25-47,2000. 1[16] Daniel Glasner、Shai Bagon和Michal Irani。从一个单一的图像超分辨率。在ICCV,第349-356页,2009中。1[17] Dong Gong,Jie Yang,Lingqiao Liu,Yanning Zhang,Ian Reid,Chunhua Shen,Anton Van Den Hengel,andQinfeng石从运动模糊到运动流:用于去除异质运动模糊的深度学习解决方案。在CVPR,2017年。二三五[18] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。国家实施计划,2014年。2[19] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平。在ICCV,2015年。6[20] Jia-Bin Huang,Abhishek Singh,and Narendra Ahuja.从变换的自我样本的单个图像超分辨率。在CVPR中。一、二[21] Kui Jia,Xiaogang Wang,and Xiaoou Tang.基于跨图像空 间 的 学 习 词 典 的 图 像 变 换 。IEEE t
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功