深度拉普拉斯金字塔网络用于超分辨率

75 浏览量更新于2023-10-15 收藏 1.5MB PDF 举报

超分辨率

卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1×深度拉普拉斯金字塔网络用于快速准确的超分辨率赖伟胜1黄家斌2纳伦德拉·阿胡贾3杨铭轩11University of California，Merced2 Virginia Tech3 University of Illinois，Urbana-Champaignhttp://vllab1.ucmerced.edu/http：//www.example.com摘要卷积神经网络最近已经证明了高质量的单图像超分辨率重建。在本文中，我们提出了拉普拉斯金字塔超分辨率网络（LapSRN）逐步重建高分辨率图像的子带残差在每个金字塔级别，我们的模型将粗分辨率特征图作为输入，预测高频残差，并使用转置卷积进行上采样到更精细的级别。我们的方法不需要双三次插值作为预处理步骤，从而大大降低了计算复杂度。我们使用强大的Charbonnier损失函数对提出的此外，我们的网络在一个前馈传递中通过渐进式recruitment生成多尺度预测，从而促进资源感知应用。在基准数据集上的大量定量和定性评价表明，该算法在速度和精度方面优于现有方法。1. 介绍单幅图像超分辨率（SR）的目标是从单幅低分辨率（LR）输入图像重建高分辨率（HR）图像。近年来，基于示例的SR方法已经通过使用大型图像数据库学习从LR到HR图像块的映射来展示了最先进的性能。许多学习算法已经被应用于学习这样的映射，包括字典学习[37，38]，局部线性回归[30，36]和随机线性回归[37，38]。dom森林[26]。最近，董等。[7]提出了一种超分辨率卷积神经网络（SRCNN）来学习非线性LR到HR映射。该网络被扩展为嵌入基于稀疏编码的网络[33]或使用更深的结构[17]。虽然这些模型展示了有希望的结果，但存在三个主要问题。首先，现有方法使用预定义的上采样算子，例如，双三次间插值，在应用网络进行预测之前将输入图像放大到所需的空间分辨率该预处理步骤增加了不必要的计算成本，并且经常导致可见的重建伪影。几种算法通过在LR图像上执行卷积并使用子像素卷积[28]或转置卷积[8]（在一些文献中也称为反卷积）替换预定义的上采样运算器来加速SRCNN。然而，这些方法使用相对较小的网络，并且由于有限的网络容量而不能很好地学习复杂的映射。其次，现有的方法优化网络的损失为102，因此不可避免地产生模糊的预测。由于102损失未能捕获HR斑块的潜在多模态分布（即，相同的LR块可以具有许多对应的HR块），重建的HR图像通常过于平滑，并且不接近人类对自然图像的视觉感知。第三，大多数方法在一个上采样步骤中重建HR图像，这增加了训练大缩放因子（例如，（八）。此外，经验方法不能在多个分辨率下生成中间SR预测。因此，需要针对具有不同的期望上采样尺度和计算负载的各种应用训练各种各样的模型为了解决这些缺点，我们提出了基于卷积神经网络（ CNN ）级联的拉普拉斯金字塔超分辨率网络（LapSRN）。我们的网络以LR图像作为输入，并以从粗到精的方式逐步在每个级别上，我们首先应用卷积层的级联来提取特征图。然后，我们使用转置卷积层将特征图上采样到更精细的水平。最后，我们使用卷积层来预测子带残差（上采样图像与相应级别的地面真实HR图像之间的差异）。在每个级别的预测残差被用来有效地重建通过上采样和加法操作的HR图像。虽然所提出的LapSRN由一组级联的子网络组成，但是我们以端到端的方式（即，而没有逐阶段优化）。如图所示，624625...+×××双三次插值(a) SRCNN [7]双三次插值（c）VDSR [17]...(b)FSRCNN [8](d) DRCN [18](e) LapSRN（我们的）图1：SRCNN [7]、FSRCNN [8]、VDSR [17]、DRCN [18]和提议的LapSRN的网络架构。红色箭头表示卷积层。蓝色箭头表示转置卷积（上采样）。绿色箭头表示逐元素加法运算符，橙色箭头表示递归层。在图1（e）中，我们的网络体系结构自然地适应深度监督（即，可以在金字塔的每一级同时施加监控信号）。我们的算法在以下三个方面不同于现有的基于CNN的(1) 精度所提出的LapSRN直接从LR图像中提取特征图，并与深度卷积层联合优化上采样滤波器以预测子带残差。由于能够更好地处理离群值，具有Charbonnier损失的深度监督提高了性能因此，我们的模型具有很大的能力来学习复杂的映射，并有效地减少了不需要的视觉伪影。(2) 速度我们的LapSRN拥有快速的处理速度和深度网络的高容量。实验结果表明，我们的方法比几种基于CNN的超分辨率模型更快，例如，[7]，SCN [33]，VDSR [17]和DRCN [18]。类似于FSR-CNN [8]，我们的LapSRN在大多数评估的数据集上实现了实时速度。此外，我们的方法提供了显着更好的重建精度。(3) 逐步重建。我们的模型生成多个中间SR预测在一个前馈通过渐进重建使用拉普拉斯金字塔。这一特点使我们的技术适用于广泛的应用程序，需要资源感知的适应性。例如，相同的网络可以用于增强视频的空间分辨率，这取决于可用的计算资源。对于计算资源有限的场景，我们的8模型仍然可以通过简单地绕过在更精细的水平上计算残差来执行2或4个SR。然而，现有的基于CNN的方法不提供这种灵活性。2. 相关工作和问题背景在文献中已经提出了许多单图像超分辨率方法。在这里，我们集中讨论最近的基于实例的方法。基于内部数据库的SR。几种方法[9，12]利用自然图像中的自相似性，并基于低分辨率输入图像的尺度空间金字塔构建LR-HR补丁对虽然内部数据库包含比外部图像数据库更相关的训练块，但是LR-HR块对的数量可能不足以覆盖图像中的大的纹理变化Singh等人[29]将补片分解成定向频率子带，并独立地确定每个子带金字塔中的更好匹配。Huang等人[15]扩展块搜索空间以适应仿射变换和透视变形。基于内部数据库的SR方法的主要缺点是，由于在尺度空间金字塔中的补丁搜索的计算成本很高，因此它们通常很慢。基于外部数据库的SR。许多SR方法使用监督学习算法（例如最近邻[10]、流形嵌入[2，5]、核岭回归[19]和稀疏表示[37，38，39]）使用从外部数据库收集的图像对学习LR-HR映射。不是直接在整个数据库上对复杂的补丁空间进行建模，而是通过K均值[36]，稀疏字典[30]或随机森林[26]对图像数据库进行分区，并为每个聚类学习局部线性回归。基于SR的卷积神经网络与在补丁空间中对LR-HR映射进行建模相比，SR-CNN [7]联合优化了所有步骤并学习了图像空间中的非线性映射。VDSR网络[17]通过将网络深度从3个卷积层增加到20个卷积层，证明了SRCNN [7为了便于使用快速的双三次插值特征提取分支.........+++图像重建分支626表1：基于CNN的SR算法的比较：SRCNN [7]，FSRCNN [8]，SCN [33]，ESPCN [28]，VDSR [17]和提出的LapSRN。层数包括卷积和转置卷积。具有直接重建的方法执行从LR到HR图像的一步上采样（利用双三次插值或转置卷积），而渐进式重建在多个步骤中预测HR图像。方法网络输入层数残差学习重建损失函数SRCNN [7]LR +双三次3没有直接L2FSRCNN [8]LR8没有直接L2SCN [33]LR +双三次5没有进步L2ESPCN [28]LR3没有直接L2VDSR [17]LR +双三次20是的直接L2DRCN [18]LR +双三次5（递归）没有直接L2LapSRN（我们的）LR27是的进步沙博尼耶为了提高收敛速度，VDSR训练网络以预测残差而不是实际像素值。Wang等人。[33]将稀疏编码的领域知识与深度CNN相结合，并训练级联网络（SCN）以逐步将图像上采样到所需的比例因子。Kim等人。[18]提出了一种具有深度递归层（DRCN）的浅层网络，以减少参数的数量为了实现实时性能，ESPCN网络[28]在LR空间中提取特征图，并用有效的子像素卷积替换双三次上采样操作。FSRCNN网络[8]采用了类似的思想，并使用沙漏形CNN，其层数比ESPCN更多，但参数更少。所有上述基于CNN的SR方法都使用102损失函数优化网络，这通常会导致过度平滑的结果，与人类感知不太相关。在SR的上下文中，我们证明了，102损失是不太有效的，用于学习和预测稀疏残差。我们比较了图1中SRCNN、FSR-CNN、VDSR、DRCN和我们的LapSRN的网络结构，在表1中列出了现有的基于CNN的方法和建议的框架之间的主要差异。我们的方法建立在现有的基于CNN的SR算法有三个主要区别。首先，我们联合学习残差和卷积和转置卷积层的上采样滤波器。使用学习的上采样滤波器不仅有效地抑制了由双三次插值引起的重建伪影，而且显著地降低了计算复杂度。第二，我们使用鲁棒的Charbonnier损失函数而不是R2损失来优化深度网络，以处理离群值并提高重建精度。第三，由于所提出的LapSRN渐进地重建HR图像，通过将网络截断到一定水平，相同的模型可以用于需要不同比例因子的应用。拉普拉斯金字塔。拉普拉斯金字塔已被广泛应用于图像混合[4]、纹理合成[14]、边缘感知滤波[24]和语义分割[11，25]。Denton等人提出一个通用-在 [6] 中提出了一种基于拉普拉斯金字塔框架（Laplacian pyramid framework，简称E-GAN）的虚拟模型来生成逼真的图像，这与我们的工作最相关然而，所提出的LapSRN在三个方面不同于LAPGAN。首先，LAPGAN是一个生成模型，旨在从随机噪声和样本输入中合成各种自然图像相反，我们的LapSRN是一个超分辨率模型，它根据给定的LR图像预测特定的HR图像。LAPGAN使用交叉熵损失函数来鼓励输出图像尊重训练数据集的数据分布。相比之下，我们使用Charbonnier罚函数来惩罚预测与真实子带残差的偏差。其次，LAPGAN的子网络是独立的（即，没有重量分担）。因此，网络容量受到每个子网络的深度的限制。与D-GAN不同，LapSRN中每个级别的卷积层通过多通道转置卷积层连接因此，较高级别的残差图像由具有较低级别的共享特征表示的更深网络较低级别的特征共享增加了更精细卷积层的非线性，以学习复杂映射。此外，在EST-GAN中的子网络是独立训练的。另一方面，LapSRN中用于特征提取、上采样和残差预测层的所有卷积滤波器都以端到端、深度监督的方式进行联合训练第三，LAPGAN在上采样图像上应用卷积，因此速度取决于HR图像的大小相反，我们设计的LapSRN有效地增加了感受野的大小，并通过从LR空间中提取特征来我们在补充材料中提供了对抗训练。SRGAN方法[20]使用感知损失[16]和照片级真实感SR的对抗损失来优化网络我们注意到，我们的LapSRN可以很容易地扩展到对抗训练框架。由于这不是我们的贡献，我们在补充材料中提供了对抗性损失的实验627−×××× × ×××3. SR的深拉普拉斯金字塔网络在本节中，我们将描述所提出的拉普拉斯金字塔网络的设计方法，使用具有深度监督的鲁棒损失函数进行优化，以及网络训练的细节。ys=xs+rs。我们使用双三次下采样来在每个级别将地面实况HR图像y调整为ys不是最小化ys和ys之间的均方误差，我们建议使用鲁棒的损失函数来处理离群值。总损失函数定义为：L（yθ，y;θ）=1.（一）Σ（一）3.1. 网络架构∑ ∑ρi=1s= 1ys−ys我们建议建立我们的网络的基础上，拉普拉斯-cian pyramid框架，如图1（e）所示我们1NL=N.Σρ（y<$（i）−x（i））−r（i）、（1）模型将LR图像作为输入（而不是放大的LR图像的版本），并以log2S水平逐步预测残差图像，其中S是比例因子。例如，该网络由3个子网络组成，用于以比例因子8超分辨LR图像我们的模型有两个分支：（1）特征提取;（2）图像重建。特征提取。在级别s，特征提取分支由d个卷积层和一个转置卷积层组成，以对提取的fea进行上采样以2为单位进行评分。每个转置卷积层的输出连接到两个不同的层：（1）卷积层，用于在等级s处重构残差图像，以及（2）卷积层，用于提取特征在更精细的水平S+1处。请注意，我们在粗分辨率下执行特征提取并生成特征图在仅具有一个转置卷积层的更精细与现有的网络，执行所有的特征提取和重建在精细分辨率，我们的网络设计显着降低了计算复杂性。注意，较低级别处的特征表示与较高级别共享，并且因此可以增加网络的非线性以学习较精细级别处的复杂图像重建。在层级s处，输入图像利用转置卷积（上采样）层以2的尺度上采样。我们初始化这一层的双-线性内核，并允许它与所有其他层联合优化。然后将上采样图像与来自特征提取分支的预测残差图像组合（使用逐元素求和）以产生高分辨率输出图像。然后，将等级s处的输出HR图像馈送到等级s的图像重建分支s+1。整个网络是CNN的级联，每一级都有类似的结构。3.2. 损失函数设x为输入LR图像，θ为待优化的网络参数集。我们的目标是学习映射函数f，用于生成接近地面真实HR图像的高分辨率图像y=f（x;θy. 我们用rs来表示s级的残差图像，将LR图像缩放xs，将相应的HR图像缩放ys。对级别s的期望输出HR图像进行建模∑ ∑s s si=1s= 1其中ρ（x）=εx2+ε2是Charbonnier罚函数（1范数的可微变体）[3]，N是每个批次中的训练样本，L是我们金字塔中的级别数我们根据经验将ε设为1e 3。在所提出的LapSRN中，每个级别s具有其损失函数和对应的地面真实HR图像ys。这种多损失结构类似于用于分类[21]和边缘检测[34]的深度监督网络。然而，[21，34]中用于监督中间层的标签在网络中是相同的在我们的模型中，我们使用不同尺度的HR图像在相应的水平作为监督。深度监督引导网络训练以预测不同级别的子带残差图像并产生多尺度输出图像。比如我们8模型在一次前馈过程中可以产生2、4和8个超分辨结果。该属性对于资源感知应用特别有用，移动设备或网络应用。3.3. 实施和培训详情在所提出的LapSRN中，每个卷积层由64个大小为3- 3的滤波器组成。我们使用He等人的方法初始化卷积滤波器[13 ]第10段。转置卷积滤波器的大小为4 4，权重从双线性滤波器初始化。所有卷积层和转置卷积层（除了重构层）之后是具有0.2的负斜率的泄漏整流在应用卷积之前，我们在边界周围填充零，以保持所有特征映射的大小与每个级别的输入相同。卷积滤波器具有小的空间支持（3 - 3）。然而，我们可以实现高非线性，并增加具有深结构的感受野的大小。我们使用91图像从杨等人。[38]和来自BerkeleySegmentation Dataset [1]训练集的200张使用相同的训练数据集[17，26]也是。在每个训练批次中，我们随机抽取64个大小为128 128的补丁。一个epoch有1000次反向传播迭代。我们增加了训练数据有三种方式：（1）缩放：随机向下缩放-在[0. 五一0]。(2)旋转：将图像随机旋转90度、180度或270度。(3) 翻转：以0的概率水平或垂直翻转图像。5. 以下NNL628−−××××28.227.827.42726.6050时代100 150（a）（b）（c）（d）（e）（f）图3：拟议网络中不同组件的贡献。（a）人力资源形象。（b）无金字塔结构(c)w/o剩余学习（d）w/o鲁棒损失（e）完整模型(f)地面真相图2：金字塔结构、损失函数和残差学习的收敛性分析。我们的LapSRN con-表3：在所提出的网络的每个级别上的深度上的性能和速度之间的权衡。速度更快，性能更好表2：金字塔结构、损失函数和剩余学习的消融研究。我们用现有方法中使用的组件替换每个组件，并在SET 5和SET14上观察性能（PSNR）下降。现有方法[7，17]的协议，我们使用双三次下采样生成我们使用MatConvNet工具箱训练我们的模型[31]。我们将动量参数设置为0。9，权重衰减到1e 4。所有层的学习率初始化为1e5，每50个epoch减少2倍。4. 实验结果我们首先分析了拟议的网络的不同组件的贡献。然后，我们比较我们的Lap- SRN与最先进的算法在五个基准数据集上，并展示了我们的方法在超分辨率现实世界的照片和视频中的应用。4.1. 模型分析剩余学习。为了证明残差学习的效果，我们去除了图像重建分支，并直接预测每个级别的HR图像图2显示了4 SR在SET 14上的PSNR收敛曲线。“非残差”网络（蓝色曲线）的性能收敛缓慢，波动明显。另一方面，所提出的LapSRN（红色曲线）在10个时期内表现优于SRCNN。损失函数为了验证Charbonnier损失函数的效果，我们用102损失函数训练了所提出的网络。我们使用更大的学习率（1e− 4），因为损失的梯度幅度较小。作为插图-如图2所示，网络优化后的损耗为1002（绿色曲线）需要更多的迭代来实现与SRCNN相当的性能。在图3（d）中，我们显示了使用102损失训练的网络生成了具有更多振铃伪影的SR结果。相比之下，由所提出的算法重建的SR图像（图3（e））包含相对干净和清晰的细节。金字塔结构。通过去除金字塔结构，我们的模型回落到一个类似于FSRCNN的网络，但具有剩余学习。为了使用与LapSRN相同数量的卷积层，我们训练一个具有10个卷积层和一个转置卷积层的网络。表2中的定量结果表明，金字塔结构导致适度的性能改善（例如，SET 5上为0.7 dB，S ET 14上为0.4 dB）。网络深度。我们在每个级别上用不同的深度（d=3，5， 10， 15）训练所提出的模型，并在表3中显示了性能和速度之间的权衡。总的来说深网络以增加的计算成本为代价执行更好的浅网络。我们选择d=10，2 和4 SR模型，以达到性能之间的平衡速度和速度。我们表明，我们的LapSRN在d=10的速度比大多数现有的基于CNN的SR算法更快（见图6）。了8模型，我们选择d=5，因为我们没有观察到使用更多卷积层的显著性能增益。4.2. 与最新技术水平的比较我们将所提出的LapSRN与8种最先进的SR算法进行比较：A+[30]，SRCNN [7]，FSRCNN [8]，[15]第二十六话： [33]第17话，DRCN [18].我们进行了大量的实验，5个数据集：SET 5 [2]、SET 14 [39]、BSDS 100 [1]、UR-[15]第 109话：你是谁？[16] 在这些数据集中，SRCNNFSRCNNW/O金字塔结构w/o残差学习w/o鲁棒损失LapSRN（完整模型）峰值信噪深度SEPSNRT5二SEPSNRT14二331.150.03627.980.036531.280.04428.040.0421031.370.05028.110.0511531.450.07728.160.071残余金字塔损失SET 5SET 14C鲁棒30.5827.61C鲁棒31.1027.94CCℓ230.9327.86CC鲁棒31.2828.04629−× ×××Ground-truth HRGround-truth HRGround-truth HRHR（PSNR，SSIM）双三次（24.76，0.6633）A+ [30]（25.59，0.7139）SelfExSR [15]（25.45，0.7087）FSRCNN [8]（25.81，0.7248）VDSR [17]（25.94，0.7353）DRCN [18]（25.98，0.7357）我们的（26.09，0.7403）HR（PSNR，SSIM）双三次（22.43，0.5926）A+ [30]（23.19，0.6545）SelfExSR [15]（23.88，0.6961）FSRCNN [8]（23.61，0.6708）VDSR [17]（24.25，0.7030）DRCN [18]（23.95，0.6947）我们的（24.36，0.7200）HR（PSNR，SSIM）双三次（23.53，0.8073）A+ [30]（26.10，0.8793）SelfExSR [15]（26.75，0.8960）FSRCNN [8]（27.19，0.8896）VDSR [17]（27.99，0.9202）DRCN [18]（28.18，0.9218）我们的（28.25，0.9224）图4：4× SR在BSD 100、URBAN 100和MANGA 109上的目视比较。Ground-truth HRHR FSRCNN [8](PSNR，SSIM）（19.57，0.5133）VDSR [17] LapSRN（我们的）（19.58，0.5147）（19.75，0.5246）Ground-truth HRHR FSRCNN [8](PSNR，SSIM）（15.61，0.3494）VDSR [17] LapSRN（我们的）（15.66，0.3644）（15.72，0.3865）图5：BSDS 100和URBAN 100上8×S ET 5、S ET 14和BSDS 100由自然景物组成; U R-BAN100包含具有挑战性的城市场景图像，具有不同频带的细节 ;MANGA 109是日本漫画的数据集。我们训练LapSRN，直到学习率降低到1e 6，并且在Titan X GPU上的训练时间大约为三天。我们用三个常用的图像质量指标评估SR图像：PSNR、SSIM [32]和IFC [27]。表4显示了2、4和8 SR的定量比较。我们的LapSRN在大多数数据集上对现有方法表现良好特别是，我们的算法实现了更高的IFC值，这已被证明与人类对图像超分辨率的感知良好相关[35]。我们注意到，通过培训可以取得最佳效果具有特定的比例因子（我们的2 ×和我们的4×）。为训练中间卷积层以最小化相应级别和更高级别的预测误差，即我们的8×模型的中间预测略逊于我们的2×和4×模型。绝不-小于，我们的8×模型提供了一个有竞争力的性能的国家的最先进的方法在2×和4× SR。在图4中，我们显示了URBAN 100、BSDS 100和MANGA109的视觉比较，其中a比例因子为4 .第一章我们的方法准确地重建平行直线和网格图案，如窗口和老虎的条纹。我们观察到，使用双三次上采样进行预处理的方法生成具有明显伪影的结果[7，17，26，30，33]。相比之下，我们的方法有效地抑制这种文物，通过渐进式重建和强大的损失函数。630×××××表4：最新SR算法的定量评价：比例因子为2×、4 ×和8×时的平均PSNR/SSIM/IFC。红色文本表示最佳性能，蓝色文本表示次佳性能。算法规模SET 5 SET 14 BSDS 100 URBAN 100MANGA 109LapSRN（我们的8×）LapSRN（我们的8×）对于8 SR，我们使用公开可用的代码1重新训练A+，SRCNN，FS- RCNN，RFL和VDSR的模型。SelfExSR和SCN方法两者都可以使用渐进重建来处理不同的我们在图5中显示了BSDS 100和URBAN100上的8个SR结果。对于8 SR，从双三次上采样图像[7，17，30]或使用一步上采样[8]预测HR图像具有挑战性。现有技术的方法不能很好地超分辨精细结构。相比之下，LapSRN以相对较快的速度重建高质量的HR图像。我们在补充材料中提供了由所有评估方法生成的SR图像28.22827.827.627.427.2102101慢10010-110-2执行时间（秒）更快4.3. 执行时间我们使用最先进的方法的原始代码来评估运行时间在同一台机器上与 3.4 GHz 的英特尔i7 CPU （ 64GRAM）和NVIDIA Titan X GPU（12G内存）。由于用于测试的SRCNN和FSRCNN的代码是基于CPU实现的，因此我们使用相同的网络1我们不重新训练DRCN，因为训练代码不可用。图6：速度和精度的权衡。结果在SET 14上用比例因子4评估。LapSRN高效准确地生成SR图像。权重来衡量GPU上的运行时间图6显示了4SR在SET 14上的运行时间和性能（PSNR方面）之间的权衡。所提出的LapSRN的速度比除FS-RCNN之外的所有现有方法都快。我们在补充材料中对所有评估数据集的运行时间进行了详细评估。FSRCNSrLRFA+SCNlfExSeNSrRN圈VDCN博士峰值信噪双三2PSNR / SSIM /IFC33.65 / 0.930 /6.166PSNR / SSIM /IFC30.34 / 0.870 /6.126PSNR / SSIM /IFC29.56 / 0.844 /5.695PSNR / SSIM /IFC26.88 / 0.841 /6.319PSNR / SSIM /IFC30.84 / 0.935 /6.214A+[30]236.54 / 0.954 /8.71532.40 / 0.906 /8.20131.22 / 0.887 /7.46429.23 / 0.894 /8.44035.33 / 0.967 /8.906SRCNN [7]236.65 / 0.954 /8.16532.29 / 0.903 /7.82931.36 / 0.888 /7.24229.52 / 0.895 /8.09235.72 / 0.968 /8.471FSRCNN [8]236.99 / 0.955 /8.20032.73 / 0.909 /7.84331.51 / 0.891 /7.18029.87 / 0.901 /8.13136.62 / 0.971 /8.587SelfExSR [15]236.49 / 0.954 /8.39132.44 / 0.906 /8.01431.18 / 0.886 /7.23929.54 / 0.897 /8.41435.78 / 0.968 /8.721RFL [26]236.55 / 0.954 /8.00632.36 / 0.905 /7.68431.16 / 0.885 /6.93029.13 / 0.891 /7.84035.08 / 0.966 /8.921SCN [33]236.52 / 0.953 /7.35832.42 / 0.904 /7.08531.24 / 0.884 /6.50029.50 / 0.896 /7.32435.47 / 0.966 /7.601VDSR [17]237.53/ 0.958 /8.19032.97 /0.913/7.87831.90/0.896/7.16930.77/0.914/8.27037.16 /0.974/9.120DRCN [18]237.63/0.959/8.32632.98/ 0.913 /8.02531.85/ 0.894 /7.22030.76/0.913/8.52737.57/ 0.973 /9.541LapSRN（我们的2×）2237.52 /0.959/9.01037.25 / 0.957 /8.52733.08/0.913/8.50532.96 / 0.910 /8.14031.80 /0.895/7.71531.68 / 0.892 /7.43030.41 / 0.910 /8.90730.25 / 0.907 /8.56437.27/0.974/9.48136.73 / 0.972 /8.933[30]第三十话SRCNN [7]44428.42 / 0.810 /2.33730.30 / 0.859 /3.26030.49 / 0.862 /2.99726.10 / 0.704 /2.24627.43 / 0.752 /2.96127.61 / 0.754 /2.76725.96 / 0.669 /1.99326.82 / 0.710 /2.56426.91 / 0.712 /2.41223.15 / 0.659 /2.38624.34 / 0.720 /3.21824.53 / 0.724 /2.99224.92 / 0.789 /2.28927.02 / 0.850 /3.17727.66 / 0.858 /3.045FSRCNN [8]430.71 / 0.865 /2.99427.70 / 0.756 /2.72326.97 / 0.714 /2.37024.61 / 0.727 /2.91627.89 / 0.859 /2.950SelfExSR [15]430.33 / 0.861 /3.24927.54 / 0.756 /2.95226.84 / 0.712 /2.51224.82 / 0.740 /3.38127.82 / 0.865 /3.358RFL [26]430.15 / 0.853 /3.13527.33 / 0.748 /2.85326.75 / 0.707 /2.45524.20 / 0.711 /3.00026.80 / 0.840 /3.055SCN [33]430.39 / 0.862 /2.91127.48 / 0.751 /2.65126.87 / 0.710 /2.30924.52 / 0.725 /2.86127.39 / 0.856 /2.889VDSR [17]431.35 / 0.882 /3.49628.03 /0.770/3.07127.29/0.726/2.62725.18/0.753/3.40528.82 / 0.886 /3.664DRCN [18]431.53/0.884/3.50228.04 / 0.770 /3.06627.24 / 0.724 /2.58725.14 / 0.752 /3.41228.97/0.886/3.674LapSRN（我们的4×）4431.54/0.885/3.55931.33 / 0.881 /3.49128.19/0.772/3.14728.06/ 0.768 /3.10027.32/0.728/2.67727.22 / 0.724 /2.66025.21/0.756/3.53025.02 / 0.747 /3.42629.09/0.890/3.72928.68 / 0.882 /3.595[30]第三十话SRCNN [7]88824.39 / 0.657 /0.83625.52 / 0.692 /1.07725.33 / 0.689 /0.93823.19 / 0.568 /0.78423.98 / 0.597 /0.98323.85 / 0.593 /0.86523.67 / 0.547 /0.64624.20 / 0.568 /0.79724.13 / 0.565 /0.70520.74 / 0.515 /0.85821.37 / 0.545 /1.09221.29 / 0.543 /0.94721.47 / 0.649 /0.81022.39 / 0.680 /1.05622.37 / 0.682 /0.940FSRCNN [8]825.41 / 0.682 /0.98923.93 / 0.592 /0.92824.21 / 0.567 /0.77221.32 / 0.537 /0.98622.39 / 0.672 /0.977SelfExSR [15]825.52 / 0.704 /1.13124.02 / 0.603 /1.00124.18 / 0.568 /0.77421.81/0.576/1.28322.99/0.718/1.244RFL [26]825.36 / 0.677 /0.98523.88 / 0.588 /0.9124.13 / 0.562 /0.74121.27 / 0.535 /0.97822.27 / 0.668 /0.968SCN [33]825.59 / 0.705 /1.06324.11 / 0.605 /0.96724.30 / 0.573 /0.77721.52 / 0.559 /1.07422.68 / 0.700 /1.073VDSR [17]825.72/0.711/1.12324.21/0.609/1.01624.37/0.576/0.81621.54 / 0.560 /1.11922.83 / 0.707 /1.138LapSRN（我们的8×）826.14/0.738/1.30224.44/0.623/1.13424.54/0.586/0.89321.81/0.581/1.28823.39/0.735/1.352631×××××× ××××Bicubic FSRCNN [8] Bicubic FSRCNNGround-truth HR[17]第17话我的世界[17]第17话图7：4 SR的真实照片比较。我们注意到，地面真实HR图像和模糊核在这些情况下是不可用的。在左侧图像上，我们的方法精确地超解析字母在右图中，我们的方法重建了没有振铃伪影的轨道Ground-truth HRHR SRCNN [7][17]第17话Ground-truth HR[15]第十五话[17]第17话图8：8 SR空间分辨率为1200 800的视频帧的视觉比较。我们的方法提供了更干净，更清晰的结果比现有的方法。4.4. 超分辨率真实世界照片我们展示了一个应用程序的超分辨率历史照片与JPEG压缩文物。在这些情况下，地面实况图像和下采样内核都不可用。如图7所示，我们的方法可以重建比最先进的方法更清晰和更准确的图像。4.5. 超分辨率视频序列我们对来自[22]的两个视频序列进行基于帧的SR实验，空间分辨率为1200 800像素。2我们对每帧进行8次下采样，然后分别对2、4和8帧逐帧应用超分辨率。计算成本取决于输入图像的大小相反，SRCNN和VDSR的速度受到输出图像大小的限制FSRCNN和我们的方法都实现了实时性能（即，超过每秒30帧）。相比之下，FPS在8×SR上，SRCNN为 8.43，VDSR为1.98图8显示了一个代表性帧上的8× SR结果。4.6. 限制虽然我们的模型能够在大比例因子上生成干净和8、它不如图9所示，在8倍缩小的LR2.由于没有考虑时间相干性和运动模糊，我们的方法不是图9：8 SR的失效案例。我们的方法是不能幻觉的细节，如果LR输入图像不包括足够的结构量。形象所有SR算法都无法恢复精细结构，除了SelfExSR[15]，SelfExSR显式检测3D场景几何形状并使用自相似性来幻觉规则结构。这是参数SR方法共有的共同限制[7，8，17，18]。所提出的网络的另一个限制是相对大的模型尺寸。为了减少参数的数量，可以用递归层替换每个级别的深度卷积层。5. 结论在这项工作中，我们提出了一个拉普拉斯金字塔框架内的深度卷积网络，用于快速和准确的单图像超分辨率。我们的模型以从粗到细的方式逐步预测高频残差。通过用学习的转置卷积层替换预定义的双三次插值，并用鲁棒的损失函数优化网络，所提出的LapSRN消除了不期望的伪影的问题，并降低了计算复杂度。在基准数据集上的广泛评估表明，该模型在视觉质量和运行时间方面优于最先进的SR致谢这项工作得到了NSF CAREER Grant #1149783的部分支持，该基金来自Adobe和Nvidia。J. - B. Huang和N.Ahuja部分由海军研究办公室在拨款N 00014 -16-1-2314下支持。632引用[1] P. Arbelaez，M.迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。TPAMI，33（5）：898-916，2011. 四、五[2] M. Bevilacqua、A.鲁米角Guillemot和M. L.阿尔贝里-莫雷尔。基于非负邻域嵌入的低复杂度单幅图像超分辨率在BMVC，2012年。二、五[3] A. Bruhn，J. Weickert和C. Sch norérr. Lucas/Kanade遇到Horn/Schunck：结合局部和全局光流方法。IJCV，61（3）：211-231，2005. 4[4] P.J.Burt和E. H.阿德尔森拉普拉斯金字塔

下载后可阅读完整内容，剩余1页未读，立即下载