任务感知图像缩小：一个基于自动编码器的新技术，通过联合学习降尺度网络和升尺度网络，提高恢复性能

43 浏览量更新于2023-10-13 收藏 2.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

任务感知图像缩小Heewon Kim、Myungsub Choi、Bee Lim和Kyoung Mu Lee韩国首尔国立大学，ASRI，ECE系{ghimhw，cms6539，biya999，kyoungmu} @https://cv.snu.ac.krsnu.ac.kr抽象。图像降尺度是计算机视觉中最经典的问题之一，其目的是当原始图像被调整大小到更小的尺度时保持原始图像的视觉外观。将小图像放大回其原始大小是困难且不适定的问题，这是由于在缩小过程中出现的信息损失。在本文中，我们提出了一种新的技术，称为任务感知的图像缩小，以支持一个放大的任务。我们提出了一个基于自动编码器的框架，使降尺度网络和升尺度网络的联合学习，以最大限度地提高恢复性能。我们的框架是有效的，它可以推广到处理任意的图像大小调整操作。实验结果表明，我们的任务感知的降尺度图像大大提高了现有的国家的最先进的超分辨率方法的性能。此外，逼真的图像可以通过递归地应用我们的缩放模型到一个极端的缩放因子x128恢复。我们都通过一个简单的程序来帮助我们的模型完成图像彩色化的任务。关键词：图像降尺度，图像超分辨率，深度学习1介绍缩放或调整大小是处理数字图像时最常用的操作之一在通过互联网分享图像时，由于显示屏分辨率较低，我们很少使用原始的高分辨率（HR）图像;大多数图像被缩小以节省数据传输成本，同时保持足够的图像质量。然而，从降尺度过程中的信息的损失使得超分辨率（SR）的逆问题高度不适定，并且放大到降尺度图像的一部分通常显示模糊的恢复。以前的作品通常认为缩小和超分辨率（upscale-ing）作为单独的问题。关于图像降尺度的研究[16，23，24，34]仅关注获得视觉上令人愉悦的低分辨率（LR）图像。类似地，最近对SR[5，7，13，18，20，22，31，36，37]的研究倾向于固定降尺度内核（例如双三次降尺度）并优化具有给定训练LR-HR图像对的HR图像的恢复性能然而，预定的缩小内核对于SR任务可能不是最佳的。图1示出了选择适当的缩小方法的重要性的示例，其中缩小的蓝色和红色的LR图像看起来相似，但是恢复的HR图像2H. 金，M。崔湾，巴西-地Lim和K.M.李2SCSC图1：我们的任务感知缩小（TAD）图像（红框）与最先进的方法相比，生成了更真实和准确的HR图像。使用双三次缩小的LR图像（蓝框）。TAD图像显示出良好的LR图像质量，并且当用我们的联合训练的放大方法TAU放大时，以相当快的运行时间大幅优于EDSR+。比例因子1为×4。从红色LR图像中提取的图像显示出更准确的结果，其中形状和细节与原始地面实况图像一致。在本文中，我们解决的问题，任务感知的图像降尺度和学习的最佳图像降尺度方法的目标任务的重要性。对于SR任务，目标是找到最佳的LR图像，最大限度地提高恢复性能的HR图像。为了实现这个目标，我们使用深度卷积自动编码器模型，其中编码器是缩小网络，解码器是放大网络。自动编码器是端到端训练的，并且编码器的输出（降尺度网络的输出）将是我们最终的任务感知降尺度（TAD）图像。我们还通过引入引导图像来保证自动编码器的潜在表示类似于其原始输入图像的缩小版本。在SR中，引导图像是通过预定义的降尺度算法（例如，双三次、Lanczos）制作的LR图像，并且其可以用于控制HR图像重建性能与LR图像质量之间的权衡。我们的整个框架只有20个卷积层，可以实时运行。1我们使用结构化数据库（未指定数据库）作为“向上结构化”数据库来运行其他数据人所提及然后，将图像从H×W降尺度到H×W注意到具有2 2SC的比例因子=1。当在关节模型中指示时，图像被缩小1，并再次放大到sc= 1。到任务感知图像缩小3我们的框架也可以推广到其他调整大小的任务，除了SR。请注意，重新缩放不仅可以在空间维度，但也可以在图像的通道维度因此，我们可以将我们提出的框架应用于灰度-颜色转换问题。在此设置中，缩小任务变为RGB到灰度转换，而放大任务变为图像着色。我们最终的灰度图像在重新着色时获得了视觉上更令人愉悦的结果。总体而言，我们的贡献如下：• 据我们所知，我们提出的方法是第一个基于深度学习的图像降尺度方法，该方法被联合学习以提高升尺度任务的准确性。应用我们的TAD图像来训练SR模型，大大提高了以前最先进的（SotA）的重建性能。• 我们的降级和升级网络高效运行，覆盖多个国家和地区。三个缩放因子。特别是，我们的方法实现了最好的SR perfor-曼斯极端缩放因子高达×128。• 我们的框架可以推广到各种计算机视觉任务在任何维度上缩放变化。2相关工作在本节中，我们回顾了超分辨率和图像降尺度的研究2.1图像超分辨率单幅图像超分辨率是计算机视觉中的一个标准逆问题，有着悠久的历史。大多数以前的作品讨论的方法是用来从LR图像获得HR图像，但我们分类SR方法根据固有的假设，他们使用的过程中，首先获取LR图像。首先，根本不存在任何诸如此类的假设的方法。这些方法包括使用内插[2，12，19，39]的早期方法，其相对于缩放因子从局部像素/补丁到HR图像像素值估计滤波器内核基于插值的方法通常很快，但产生模糊的结果。许多方法使用来自自然图像统计的先验来获得更逼真的纹理[14，28，29]。Ulyanov等人 [32]的一个例外案例表明，不同的结构图像先验是深度CNN架构所固有的。第二，一系列工作尝试经由自相似性来估计LR图像采集过程。这些研究假设图像中固有的分形结构，这意味着相当大的内部路径冗余存在于一个单一的图像。Reynner等人。 [7]提出了一种新的SR框架，该框架利用图像尺度内和跨图像尺度的递归补丁。Michaeli和Irani [22]通过联合估计未知的降尺度模糊核与HR图像改进了这种方法，Huang等人[10]将这种方法扩展到合并转换的自我样本以增加表达能力。Shocher等人 [27日]4H. 金，M。崔湾，巴西-地Lim和K.M.李在一些实施例中，可以使用预处理来生成 “zero-s_hot”SNR（Z_SSR），其中生成具有从测试图像本身提取的HR-LR块对的图像特定CNN。ZSSR分享了我们在训练深度模型时处理生成HR-LR对的固定降尺度过程问题的动机。然而，主要目标是不同的，因为我们的模型侧重于从先前缩小的图像恢复HR图像。第三和最后类别包括大多数SR方法，其中获得LR图像的过程是预定的（在大多数情况下，MATLAB双三次）。当创建大型HR-LR配对图像数据集时，修复降尺度方法是不可避免的，特别是当训练模型需要大量数据时。使用邻居嵌入[3，4，6，25，31，37]、空间编码[31，35- 37 ]和空间编码[ 5，13，17，18，20，30]的许多高级作品都属于这一类别，其中需要许多HR-LR配对补丁来学习它们之间的映射函数。关于最近的基于深度学习的方法，Dong等人。 [5]提出SRCNN作为使用CNN解决SR问题的第一次尝试。因此，基于CNN的SR架构扩展，并且它们极大地提高了性能。Kim等人。（VDSR）[13]提出了残差学习的概念，以减轻优化的困难，这后来由Ledig等人改进。（SRResNet）[18]使用中间残余连接[8]。在这一系列工作之后，Lim等人。 [20]提出了一种称为EDSR的增强模型，该模型在最近的NTIRE挑战中实现了SotA性能[30]。Ledig等人提出了另一种独特的方法，称为SRGAN，它引入了对抗性损失和感知损失[11]，并提出了我们用于评估SR方法的当前指标的问题：峰值信噪比（PSNR）。尽管这些方法生成的图像在视觉上比以前的作品更逼真，无论其PSNR值如何，但生成的纹理可能与原始HR图像有很大差异（如图1所示）。2.2图像缩小图像降尺度旨在保留LR图像中HR图像的外观传统方法使用平滑滤波器和重采样进行抗混叠[23]。虽然这些经典方法在实际使用中仍然占主导地位，但更近的方法也试图提高LR图像的锐度Kopf等人[16]提出了一种内容自适应方法，其中，滤波器内核系数自适应于图像分辨率。 Oüztireli和Gros[24]提出了一种优化框架，以最小化最近邻上采样LR图像和HR图像之间的SSIM [ 33 ]。 Weber等人[34]第三十四话lutional滤波器来保留重要的视觉细节，Hou等人 [9]最近提出了使用深度学习的基于感知损失的方法。然而，当图像被恢复到高分辨率时，高相似性值并不意味着好的结果Zhang等人 [40]提出了内插相关图像下采样（IDID），其中给定内插方法，获得使原始输入HR图像与内插到输入尺度的所获得LR图像之间的平方误差之和最小化的下采样图像。我们的方法与IDID非常相似，但是我们减轻了它的局限性任务感知图像缩小5nGθθ因为升级过程只考虑简单的插值方法，并充分利用基于深度学习的SR的最新进展。3任务感知缩减（Task-Aware Downscaling，简写为3.1制剂我们的目标是研究一个任务感知的降尺度（TAD）的图像，可以有效地重建到其原始的人力资源输入。让I T AD表示我们的原始图像，而IHR表示原始HR图像。我们的最终目标是研究相对于上尺度函数f的最优下尺度函数g：IHR→ITAD，这表示我们感兴趣的任务获得输入IHR的过程在以下等式中示出I HR= f（I TAD）= f（g（I HR））。缩小和放大函数g和f都是图像到图像映射，并且g的输入和f的输出是相同的HR图像IHR。因此，f和g自然地用深度卷积自动编码器建模，每个都成为网络的解码器和编码器部分Letθf和dθg分别是卷积神经网络的参数，并且dθf和g是卷积神经网络的参数。利用N个图像IHR的训练数据集，n = 1，…N和L任务作为可以逐个任务区分的损失函数，我们的学习目标变为：θ，θ=arg min1L任务。F. G .IHRΣΣ，IHRΣ.（一）FGθf，θgNn=1fgn n可以相应地计算用于缩小的期望的ITAD和重建图像ITAUITAD =gθ* . IHR 、（二）ITAU =f*F.ITADΣ .（三）3.2网络架构与培训在本节中，我们将描述网络架构和训练细节。在这项工作中，我们主要集中在SR的任务，并提出SR的具体操作和configurations。总体架构如图2所示。更好地缩小比例的指导图像。在我们的框架中，获得TAD图像作为深度卷积自动编码器的潜在表示然而，在没有适当约束的情况下，潜在表示可能是任意的，并且看起来不像原始HR图像。因此，我们提出引导图像Iguide，其基本上是从IHR获得的双三次下采样LR图像，以确保我们学习的TAD图像ITAD与IHR的视觉相似性。的Nθ6H. 金，M。崔湾，巴西-地Lim和K.M.李图2：我们的卷积自动编码器架构，具有三个部分：降尺度网络（gθg，编码器）、压缩模块和升尺度网络（f θf，解码器）。两个输出ITAD和ITAU从等式（1）获得。2和3，并用于计算方程中的两个损失项。4.第一章引导图像被用作地面实况图像以利用预测的ITAD来计算L1损失。结合I引导和新的损失项L引导，改变了等式2的原始目标中的损失函数。1至：L任务。f（g（IHR）），I引导，IHRΣ = LSR。f（ITAD），IHRΣ + λL引导。ITAD，IguideΣ，n n nnn nn（四）其中，LSR是S Rt的存储器和备用L1逻辑功能。为了简化符号，省略了θ f和θ d。引入超参数λ来控制制导图像w.r.t.原始SR丢失。我们可以通过改变λ的值来设置重建的HR图像质量和LR重建图像质量之间的折衷量。λ的影响可以在图4中看到，并且这将在实验部分中更广泛地分析作为基础网络的简单残差块。我们最终的深度卷积自动编码器模型由三部分组成：降尺度网络（编码器）、压缩模块和升尺度网络（解码器）。我们以端到端的方式联合优化所有器件，缩放因子为×2。编码器（gθg）由缩减层、三个残差块和残差连接组成降尺度层是子像素卷积的反向版本（也称为像素混洗层）[26]，因此特征通道正确对齐，通道数量减少了4倍。我们使用了两个卷积层，每个残差块都有一个ReLU激活，没有批量归一化和瓶颈，这与EDSR中使用的相同[20]。注意，在我们的降尺度网络g中，通过将最后一个conv的输出相加来获得最终输出ITAD。层和I引导以逐像素的方式。任务感知图像缩小7128解码器具有与编码器几乎相同的简单架构，除了降尺度层改变为升尺度层。子像素卷积层[26]用于将输出特征图放大×2倍。请注意，每个缩放层位于网络的开始（缩放层）和结束（缩放层），以降低我们模型的整体计算所有网络的每个编码层都具有64个固定的通道大小，例如用于放大/缩小层，其中我们将输出激活图设置为具有64个通道。也就是说，对于缩放因子为×2的子像素卷积，我们首先应用3 × 3卷积层将通道数增加到256，然后对齐像素将其再次减少到64。压缩模块。大多数深度网络的特征激活和权重都是浮点值。我们从降尺度网络输出的TAD图像也用默认浮点值表示然而，当在屏幕上显示时，大多数图像以真彩色表示（每个R、G和B颜色通道8位）。考虑到这项工作的目的我们提出了一个压缩模块来实现这一目标。压缩模块是用于将图像转换成比特流并存储它的结构我们使用一个简单的可微分量化层，将浮点值转换为该模块的8位无符号int（uint8）然而，在训练不稳定的早期迭代中，添加量化层可能导致训练失败。因此，我们忽略它的层，直到几乎在训练阶段结束后，再次插入压缩模块，对网络进行微调，再进行几百次迭代。然后，微调的输出TAD图像变成可以通过无损图像压缩方法（例如PNG）存储的真彩色RGB图像虽然我们对压缩模块使用了单个量化层，并将图像保存为PNG格式，但这个过程可以推广到使用更复杂的图像压缩模型，只要它是可区分的;因此，我们称这部分为压缩模块。具有极端缩放因子的多尺度SR。为了处理多个缩放因素，我们简单地将原始HR图像递归地放置在我们的降尺度模型中，在我们的架构中进行微小的更改。因此，我们的模型可以将HR图像（向下）缩放到2的负幂的缩放因子我们甚至用极端的比例因子1来并证明我们的该方法可以从微小的LR图像中恢复出合理的×128HR图像到据我们所知，这项工作是第一次提出这样一个极端水平（超过16）的缩放因子的SR结果定性结果和讨论可参见图5。我们对多尺度SR的架构更改如下：1. 我们在降尺度网络的递归执行期间省略压缩模块，并且将最终降尺度网络的压缩模块替换为简单的舍入操作，因为更有益的替代方案是：8H. 金，M。崔湾，巴西-地Lim和K.M.李目的是保留浮点值中的全部信息，直到最后必须保存最终图像的地方。2. 降尺度网络的输出被修改为通过去除引导图像的像素相加来直接预测引导图像本身3. 在递归过程中，网络会被微调几百次迭代，每次缩放因子为×4。再次放大TAD图像需要相同的递归过程，这次使用放大网络。虽然我们模型的精确缩放和放大，包括递归执行，仅适用于2的幂的缩放因子，但将我们的模型与简单的双三次插值处理的小规模变化相如实验所示，可以通过将诸如VDSR [13]的尺度不变模型应用于所获得的TAD图像来解决该问题。3.3扩展到一般张量大小调整操作请注意，SR任务的目标是根据其重建HR图像IHR对应的LR图像ILR。假设ILR（输入低分辨率图像）具有空间大小H×W和通道C，升频函数变为f：RH×W×C→RsH×sW×C，其中s表示缩放因子。在本节中，我们制定了一个广义的大小调整操作，使所提出的模型可以处理任意大小的图像张量。具体来说，我们考虑f的一般放大任务：RH×W×C›→RsH×rW×tC，其中s、r和t分别是图像高度、宽度和通道的缩放因子。IHR∈RsH×rW×tC再次表示为高分辨率2图像t_s或，dθf和dθg分别不作为我们新模型fθf和dθg的训练这些模型与相同的目标函数方程。1完成了我们的广义公式。注意，如果我们将缩放因子约束为s=t=l，则任务是图像颜色空间转换。例如，如果我们考虑着色任务，则降尺度网络gθg执行RGB到灰度转换，其中空间分辨率是固定的，并且仅特征通道维度被缩小。放大网络f θf执行着色任务。我们使用深度卷积自动编码器的类似模型来获得可重构图像ITAD，其变成对于原始RGB彩色图像的重构是最佳的灰度图像。对于着色任务，网络架构中的一个主要变化是去除编码器中的降尺度层（g θg）和解码器中的升尺度层（f θf），因为在颜色空间转换中不发生空间维度变化并且不需要子卷积层。因此，所得到的网络各自具有九个卷积层。模型配置的其他变化自然随之而来：引导图像I引导2我们继续使用术语“高分辨率”来表示原始尺度的输入张量，以便与第2节中的公式保持一致。3.1，虽然张量在一般情况下不使用新的方法来解决独立的问题。因此，HR和LR图像张量表示高维和低维张量。任务感知图像缩小9变成使用常规RGB到灰度级转换方法获得的灰度级图像，并且任务感知的放大图像ITAU变成彩色输出图像。对于压缩模块，使用简单的舍入方案代替可微分量化层。4实验在本节中，我们报告了SR的TAD模型的结果（Sec. 4.1），分析我们的模型的结果彻底（节。4.2），并应用我们的广义模型，如图2所3.3至着色任务（第4.3）。4.1用于超分辨率的数据集和评估指标。我们评估了五个广泛使用的基准数据集的性能：Set5 [3]，Set14 [38]，B100 [21]，Urban100 [10]和DIV2K的验证集[1]。在LR和HR图像之间使用×2和×4的缩放因子对所有基准数据集进行评估对于由2K分辨率图像组成的DIV 2K验证集，我们还使用×8-×128的极端缩放因子进行实验。我们在本节中介绍的所有模型都是在来自DIV2K训练集[1]的800张图像上训练的在我们的图像训练集和我们用于评估的数据之间不存在图像对于评估度量，我们使用PSNR来比较（1）双三次缩小的LR图像和我们预测的ITAD（等式2）。2）;以及（2）地面真实HR图像和我们预测的ITAU（等式2）。（3）第三章。为了确保与先前作品的公平比较，通过MATLA B的defal t imresize操作来对再现的SotAnetworks[13，20]的输入LR图像进行缩放，其被实现为执行具有抗混叠的双三次下采样。我们将网络应用于单通道（来自YCbCr的Y）和RGB颜色通道图像。为了获得单通道图像，首先将RGB彩色图像转换到YCbCr颜色空间，并且丢弃色度通道（Cb，Cr）与SotA的比较。我们将我们的缩小方法TAD和放大方法（TAU）与最近的SotA模型进行比较，用于单通道（VDSR [13]）和彩色（EDSR [20]）通道图像。由于在参考文献中没有提供EDSR+的单通道性能和VDSR的颜色通道性能，因此我们复制它们以进行比较。对于 *VDSR和*EDSR+下作为降尺度方法，我们使用TAD-HR图像对重新训练再生网络，而不是双三次下采样LR图像的传统LR-HR对。定量评价总结见表1。结果表明，我们的联合训练的TAD-TAU的彩色图像SR优于所有以前的方法在所有数据集。此外，使用TAD-HR图像训练的EDSR+（未作为自动编码器联合训练的缩小和放大）大大提高了重建性能，在一些基准测试中获得了超过5dB的额外PSNR。对于单通道设置，情况相同。TAU网络架构效率更高（包括10个10H. 金，M。崔湾，巴西-地Lim和K.M.李表1：基准数据集上的定量PSNR（dB）结果：Set5、Set14、B100、Urban100和DIV2K。红色表示最佳性能，蓝色表示次佳性能。（ * ：复制性能）单通道结果/彩色通道结果降尺度双三TAD（我们的）UpscalingTAU（基线）VDSR [13] EDSR+[20]TAU*VDSR*EDSR+Set5×2×435.84/36.0431.20/29.5237.53/35.0831.35/29.3937.95/36.0932.17/30.7137.69/38.4631.59/31.8137.68/38.7631.60/31.9637.98/39.4432.36/32.49产品14×2×432.89/30.9927.92/26.2833.03/30.9328.01/26.2633.65/31.9728.50/27.1433.90/35.5228.36/28.6333.88/35.9228.38/28.7634.07/36.5828.82/29.24B100×2×431.74/30.4027.20/25.8831.90/30.4227.29/25.8732.22/31.4027.54/26.4532.62/36.6827.57/28.5132.65/36.8727.57/28.5332.83/37.5927.86/28.97Urban100×2×430.64/29.1325.08/23.6630.76/29.1925.18/23.6832.51/31.4726.25/25.3431.96/35.0325.56/26.6332.16/35.5025.66/26.9832.86/35.5526.50/27.76DIV2K×2×435.17/33.9129.73/28.4035.29/33.7929.63/28.3135.91/35.1230.29/29.3836.13/39.0130.25/31.1636.18/39.4230.25/31.3436.52/40.2130.73/31.88相比于比较的网络， VDSR（ 20个卷积层）和 EDSR+（ 68个卷积层），EDSR+（20个卷积层）具有更高的性能。图3中的定性结果示出了仅针对彩色图像的TAU有效地实现了“预处理”。用于该单个电子汉字图像的TAU还提供比先前的SotA方法更清晰的字符。培训详情。我们使用GeForce GTX 1080 Ti GPU，使用来自DIV2K训练数据的800张图像训练了所有模型[1]。对于训练和测试，我们首先从上侧和左侧裁剪输入HR图像，以便图像的高度和宽度可以被缩放因子整除。然后，我们通过使用MATLABimresize命令获得引导图像（关于实验设置的单通道或彩色通道LR图像）我们随机裁剪16个96×96 HR子图像的补丁，每个补丁来自不同的我们的缩小和放大网络是完全卷积的，可以处理任意大小的图像。我们将输入像素值的范围归一化为[-0.5，0.5]并且将输出像素值归一化为[0，1]，并且L1损失被计算为在[0，1]的范围内。为了优化我们的网络，我们使用ADAM [15]优化器，β1= 0.9。网络参数以10−4的学习速率更新3× 105次迭代。4.2分析在本节中，我们执行两个实验以提高对TAD模型的理解并讨论结果。研究LR-HR图像质量权衡。训练我们模型的目标在第二节中给出3.1，等式4.第一章超参数λ控制权重任务感知图像缩小11F ig. 3：“p p t 3”的Qua litivSRr esults（S et 14）。从上面和下面分别示出了单（Y）和彩色（RGB）通道图像的结果。在灰度和彩色图像中，与双三次相比，TAD产生更好的LR图像，并且在使用TAU升级时保证更好的HR重建。此图最好以彩色显示，并放大到电子副本。比例因子为×2。两个损失项之间：HR图像重建的LSR和LR图像引导的Lguide如果λ=0，则我们的框架变成用于SR任务的简单深度卷积自动编码器模型，在产生高质量缩小图像方面没有任何约束。相反地，如果λ=∞，则LSR被忽略，那么我们的框架变成具有作为双三次下采样的地面真值下尺度方法的下尺度CNN在这项研究中，我们探索了引导图像I引导的影响的效果，并且发现改变权重λ允许我们控制生成的HR（ITAU）和LR（ITAD）图像的质量该效果在图4中可视化。我们训练TAD模型的缩放因子为×2，首先λ= 0，然后逐渐增加其值到102。对于每个λ，我们测量DIV2K[1]的10个验证图像的平均PSNR并绘制值，如图4的左上角所示。我们选择λ= 10−1，其中HR图像（39.81 dB）和LR图像（40.69 dB）的PSNR相似，作为我们模型的默认值，并在所有SR实验中使用它本实验不使用压缩模块由于空间限制，不同λ值的确切PSNR精度将在补充材料中报告12H. 金，M。崔湾，巴西-地Lim和K.M.李图4：TAD-TAU重建性能权衡。λ的较小值给出了具有噪声的TAD图像的高放大性能。我们从曲线的交叉点选择λ，其中TAD/TAU图像都给出令人满意的结果。LR图像的PSNR是用双三次下采样图像测量的，而HR图像是用原始GT测量的。多尺度极端SR。递归多尺度SR操作的结果与极端缩放因子描述在第二节。3.2如图5所示。在这个实验中，最后一个Conv。我们的降尺度网络直接预测了100个由于不需要每个缩放因子的引导图像来产生TAD/TAU图像，因此它提高了我们的模型的实用性由于篇幅所限，定量分析和更多定性结果将在补充材料中提供。运行时分析。我们的模型有效地实现了近实时的性能，同时仍然保持SotA SR的准确性。我们的每个缩放网络都由10个卷积层和一个子卷积（像素混洗）层组成，一张全高清图像（1920 ×1080）可以在0.14秒内通过一个GeForce GTX 1080 GPU Ti进行放大。我们的模型显然比最近的EDSR+（70.88s）有很大的优势，EDSR+是一个有68个卷积层的重型模型。4.3扩展：TAD用于着色我们遵循第2节中描述的精确公式3.3，并相应地执行颜色所有实验都使用DIV2K训练图像数据集[1]进行训练，并使用B100和Urban100数据集进行评估。我们使用来自YCbCr颜色空间的单个Y通道图像作为I引导，并且我们选择我们的超参数λ= 5以对我们的TAD图像施加强约束。为了证明我们提出的框架的有效性，我们训练了另一个图像着色网络，该网络具有与我们的升级网络相同的架构任务感知图像缩小3图5：最大为×128的极端比例因子的结果。我们的TAD图像在所有尺度上都具有良好的双三次↓视觉质量，我们的TAU图像比双三次↑更清晰和清晰。所有调整大小的结果都是由TAU和TAD的单个联合网络产生的（图2），缩放因子为×2。考虑到×64和×128缩小图像分别只有31× 24和15× 12像素，我们将这些极端缩放因子的完整图像生成的ITAU再次缩小-使用双三次↓- 为了视觉化请注意图中河豚棘的详细复原×8和一个令人惊讶的现实的全球结构重建×64。14H. 金，M。崔湾，巴西-地Lim和K.M.李图6：定性图像着色结果。最左边的图像用作I向导为我们的模型和输入灰度为基线。通道比例因子×3。使用常规灰度-HR图像对。图6中的结果示出了以标准方式训练的着色网络显然不能解决颜色模糊性，而我们的TAD灰度图像包含用于恢复原始令人愉悦的颜色的必要信息，如重建的TAD颜色中所示。从定量上讲，虽然基线模型实现了24.21 dB（B100）和23.29 dB（Urban100）的平均PSNR，但我们的模型输出的性能值要高得多，分别为36.14 dB（B100）和33.68 dB（Urban100）。结果清楚地表明，TAD-TAU框架对于颜色到灰度转换和灰度到颜色转换（着色）任务也是实际上非常有用的5结论在这项工作中，我们提出了一种新的任务感知图像降尺度方法，使用深度卷积自动编码器。通过联合训练缩小和放大过程，我们的任务感知的缩小框架大大减轻了解决高度不适定的尺寸调整问题，如图像SR的困难。我们已经表明，我们的放大方法优于以前的作品在SR的一个很大的保证金，我们的缩小图像也有助于现有的方法，以达到更高的精度。此外，有效的缩放结果与极端的缩放因子提供了第一次。我们已经证明了我们的方法如何能够实现和改进我们的框架w或k在最小图像颜色或空间转换中的能力除了在这项研究中检查的任务，我们相信，我们的ap-proach提供了一个有用的框架，处理各种大小的图像未来的工作可能包括基于深度学习的图像压缩。6确认这项工作得到了韩国国家研究基金会（NRF）的部分支持，该基金由韩国政府（MSIT）资助。NRF-2017R1A2B2011862）任务感知图像缩小5引用1. Agustsson，E.，Timofte，R.：Ntire 2017挑战单幅图像超分辨率：数据集和研究。在：CVPRW（2017）2. Allebach，J.，Wong，P.W.：边缘定向插值。In：ICIP（1996）3. Bevilacqua，M.，Roumy，A.，Guillemot角Alberi-Morel，M.L.：基于非负邻域嵌入的低复杂度单幅图像超分辨率。03 The Dog（2012）4. 张，H.，杨D.Y.熊Y：通过邻居嵌入实现超分辨率。在：CVPR（2004年）5. 董，C.，Loy，C.C.，他，K.，唐X：学习用于图像超分辨率的深度卷积网络。In：ECCV（2014）6. 高，X.，张，K.，Tao，D.，李X：基于稀疏邻域元素的图像超分辨率。IEEETransacti onsonImageProcessing21（7），31947. Glasner，D.，Bagon，S.，Irani，M.：从单一图像中获得超分辨率。In：ICCV（2009）8. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）9. 侯，X.，Duan，J.，Qiu，G.：深度特征一致的深度图像变换：缩小、脱色和HDR色调映射。1707.09482（2017）10. 黄，J.，Singh，A.，Ahuja，N.：从变换的自我样本的单个图像超分辨率。参见：CVPR（2015）11. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和超分辨率的感知损失。In：ECCV（2016）12. 钥匙，R.G.：用于数字图像处理的三次卷积插值。IEEETransactionsonAcoustics，Speech，andSIGNAPr ocessingpp. 115313. 金，J.，李，J.，Lee，K.M.：使用非常深的卷积网络实现精确的图像超分辨率。见：CVPR（2016）14. Kim，K.I. Kwon，Y.：基于稀疏回归和naturalimageprior的单幅图像超分辨率。TPAMI32（6），112715. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法ICLR（2015年）16. Kopf，J.，Shamir，A.，Peers，P.：内容自适应图像降尺度。ACMTrans- actions on Graphics 32（6），173（2013）17. Lai W.S.Huang，J.B.，Ahuja，N.，Yang，M.H.：深拉普拉斯金字塔网络实现快速和精确的超分辨率。在：CVPR（2017）18. 莱迪格角泰斯湖胡萨尔，F.卡瓦列罗，J.，Cunningham，A.Acosta，A.Aitken，A.，Tejani，A.，托茨，J.，王志，Shi，W.：使用生成对抗网络的照片级真实感单幅图像超分辨率。在：CVPR（2017）19. Li ， X. ， Orchard ， M.T. ：新的边缘定向插值。 IEEE TransactionsonImageProcessing10（10），152120. 林湾儿子S Kim，H.不S Lee，K.M.：用于单图像超分辨率的增强深度残差网络。在：CVPRW（2017）21. 马丁，D.R.，C.C.福克斯Tal，D.，Malik，J.：人类分割的自然图像数据库及其在评价分割算法和测量生态统计中的应用In：ICCV（2001）22. Michaeli，T.，Irani，M.：非参数盲超分辨率。In：ICCV（2013）23. 米切尔副检察官Netravali，A.N.：计算机图形学中的重建滤波器。In：SIGGRAPH. pp. 22124. O¨z t i re li，A. C.的方法， Gross，M. ：Perceptul l ybddowns c ali ma g es的扫描。ACMTrans-Acti onsonGrhi cs34（4），77：116H. 金，M。崔湾，巴西-地Lim和K.M.李25. Roweis S.T.扫罗，L.K.：局部线性EM- B降维方法。Science290（5500），232326. Shi，W.， Caballero，J.， Husza'r，F.， Totz，J.， Aitken，A. P. 比什霍普，R.， Rueeckert，D.，Wang，Z.：使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。见：CVPR（2016）27. Shocher，A.， C 〇 hen，N.，我是M ：“Zero-S hot”支持学习。来源：CVPR（2018）28. 孙，J.，徐志，沈希尧：基于梯度轮廓先验的图像超分辨率。载于：CVPR（2008年）29. Tai Y.W. Liu，S.，Brown，M.S.，Lin，S.：利用边缘先验和单幅图像细节合成的超分辨率。在：CVPR（2010）30. Timofte河，Agustsson，E.，凡古尔湖Yang，M.H.，张，L.，林湾儿子SKim，H.不S Lee，K.M.，等：Ntire 2017挑战单幅图像超分辨率：方法和结果。在：CVPRW（2017）31. Timofte河，Smet，V.D.，古尔，L.J.V.：A+：用于快速超分辨率的调整的锚定邻域回归。在：ACCV（2014）32. Ulyanov ， D. ， Vedaldi ， A. ， Lempitsky ， V. ：深度图像先验。来源： CVPR（2018）33. 王志，Bovik，A.C.，Sheikh，H. R.，Simoncelli，E.P.：图像质量评估：从误差测量到结构相似性。IEEE Transactions on ImageProcess ing13，60034. Weber，N. Waechter，M.，南卡罗来纳州修正Guthe，S.，Goesele，M.：快速、详细地再现图像。ACMTransacti onsonGraphics35（6），205：135. 杨杰，王志，林芝，Cohen，S.，黄T：用于图像更新的耦合字典训练。IEEETransacti onsonImageProcessing21（8），346736. 杨杰，赖特，J.，Huang，T.S.，Ma，Y.：通过稀疏表示实现图像超分辨率。IEEETransacti onsonImageProcessing19（11），286137. Zeyde河Elad，M.，Protter，M.：使用稀疏表示的单个图像放大。国际曲线与曲面会议论文集（2010）38. Zeyde河Elad，M.，Protter，M.：使用稀疏表示的单个图像放大。国际曲线与曲面会议论文集（2010）39. 张，L.，吴X：提出了一种基于方向滤波和数据融合的边缘引导图像插值算法。ImagegeProcessing15（8），222640. 张玉，Zhao，D.，张杰，Xiong，R.，Gao，W.：插值相关的图像降维算法。ImagegeProcessing20（11），3291

下载后可阅读完整内容，剩余1页未读，立即下载