OBB标签用于目标感知损失的单图像超分辨率方法

182 浏览量更新于2023-10-16 收藏 2.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2710（中级功能）LR图像SR图像边界损耗（低层次特征）Sr发生器OBB标签生成器SROBB：单图像超分辨率的目标感知损失Mohammad Saeed Rad1Behzad Bozorgtabar1Urs-Viktor Marti2Max Basler2Hazım Kemal Ekenel1，3Jean-Philippe Thiran11LTS5，EPFL，瑞士2AI Lab，Swisscom AG，瑞士3SiMiT Lab，ITU，土耳其{saeed.rad，firstname.lastname}@ epfl.ch{firstname.lastname}@ swisscom.com摘要通过受益于感知损失，最近的研究已经显著提高了超分辨率任务的性能，其中高分辨率图像从其低分辨率对应物中分辨出来。尽管这样的客观函数产生接近照片真实感的结果，但是它们的能力是有限的，因为它们以相同的方式估计整个图像的重建误差，而不考虑任何语义信息。在本文中，我们提出了一种新的方法，以更客观的方式从感知损失中获益。我们优化了一个基于深度网络的解码器，该解码器具有有针对性的目标函数，该目标函数使用相应的术语在不同的语义级别上惩罚图像。特别地，所提出的方法利用了我们提出的OBB（对象、背景和边界）标签，分段标签原始图像OBB标签像素损失感知损失纹理损失目标感知损失（我们的）从分割标签生成，以估计边界的适当感知损失，同时考虑背景的我们表明，我们提出的ap-proach结果更逼真的纹理和更清晰的边缘，并优于其他国家的最先进的算法在标准基准和广泛的用户研究的结果的定性结果。1. 介绍单图像超分辨率（SISR）的目的是解决从低分辨率（LR）图像中恢复高分辨率（HR）图像的问题。SISR是一个经典的不适定问题，自1984年Tsai和Huang[33]的工作以来一直是最活跃的研究领域之一近年来，卷积神经网络（CNN）的重大进展彻底改变了这个问题，并且导致了比经典方法更好的高分辨率图像重建[6，5，17]。最近，通过采用感知损失函数来训练前馈网络，而不是使用每像素损失函数，在SISR中取得了另一个突破，例如，均方误差（MSE）[15，27，20]。它解决了由于MSE优化而导致的纹理模糊图1.我们提出了一种方法，利用分割la-在训练过程中，考虑到高分辨率图像的特征，在不同的语义级别上解析高分辨率图像;我们通过最小化分别对应于对象边界处的边缘和背景区域上的纹理的感知误差来优化我们的SISR模型。结果从左到右：原始图像、分别使用仅像素损失函数、像素损失+感知损失函数和像素损失+目标感知损失函数（我们的）的超分辨图像。除了对抗性损失[11]，它还导致了在感知图像质量方面接近照片真实感的重建。[27]和[20]受益于使用感知相似性作为损失函数的想法;他们通过使用预先训练的分类网络将HR和SR图像映射到特征空间中，通过在深特征域中比较地面实况和预测的超分辨图像（SR）来优化他们的模型。虽然这种在特征空间中的相似性度量，即感知损失，在SISR中已经显示出巨大的成功，但将其应用于整个图像，而不考虑语义信息，限制了其能力。为了更好地理解这一限制，让我们简要地无知觉丧失2711感知损失的概述，看看预训练的分类网络优化了什么;考虑到在早期卷积层中预先训练的CNN，每个神经元具有感受域，该感受域具有影响其输出的输入的大小和形状。通常由最先进的方法使用的小内核也具有小的感受野。因此，它们只能提取低级空间信息。直觉上，每个神经元捕捉附近的输入之间的关系，考虑他们的局部空间关系。这些局部关系主要呈现关于边缘和斑点的信息。随着我们在网络中深入，每个神经元相对于前几层的感受野变得更大。因此，深层开始学习具有全局语义含义和抽象对象信息以及较少细粒度空间细节的特征，同时仍然使用小内核。[40，23]也证明了这一事实，他们使用了一些可视化技术，并通过可视化每个CNN层中保存的信息来研究VGG网络的内部工作机制[29]。在感知功能方面，现有的方法采用不同层次的特征来恢复原始图像;该选择确定它们是否集中于诸如边缘的局部信息、诸如纹理的中级特征或对应于语义信息的高级特征。在这些作品中，感知损失已经以相同的方式计算了整个图像，这意味着在边缘、前地或图像背景上例如，最小化随机纹理（例如树的纹理）内部边缘细节的损失将迫使网络考虑不必要的惩罚并学习信息量较少的特征;树的纹理在SR图像中仍然可以是真实的，另一方面，通过在边缘周围使用中级特征（更适合于纹理）来最小化损失不会直观地创建更尖锐的边缘，并且只会引入为了解决上述问题，我们提出了一种新的方法，以更客观的方式从感知损失中受益图1显示了我们提出的方法的概述。特别地，我们使用逐像素分割注释来构建我们提出的OBB标签，以便能够找到可用于最小化不同图像区域的适当损失的目标感知特征：例如，在一个实施例中，在训练期间，边缘的边缘损失和图像纹理的纹理损失。我们表明，我们的方法使用有针对性的感知损失-执行其他国家的最先进的算法方面的定性结果和用户研究实验，并导致更逼真的纹理和更清晰的边缘。2. 相关工作在本节中，我们回顾了相关的基于CNN的SISR方法。这个领域见证了各种端到端深度网络架构：[17]制定了一个递归CNN，并展示了更深的网络架构如何提高SISR的性能。[20，27，45]使用残差块[12]和跳过连接[13，17]的概念来促进基于CNN的解码器的训练。[21]通过扩大模型尺寸来改进模型。[36]在传统的残差网络中删除了批处理归一化，并使用了几个跳跃连接来改进[20]的开创性工作的结果。已经提出了拉普拉斯金字塔结构[19]来逐步重建高分辨率图像的子带残差。[31]提出了一种密集连接的网络，该网络使用由递归单元和门单元组成的存储块，通过自适应学习过程来解释持久存储。[44]提出了一种通道注意机制，通过考虑通道之间的相互依赖性除了监督学习之外，还引入了其他方法，如无监督学习[41]和强化学习[39]来解决SR问题。尽管为SISR任务提出了不同的架构，但基于优化的方法的行为主要由目标函数的选择这些作品所使用的目标函数大多包含一个损失项，其中包含超分辨率图像和地面真实HR图像之间的像素距离然而，单独使用该函数会导致模糊和过度平滑的超分辨率图像，这是由于所有合理解决方案的像素平均值感知驱动的方法在视觉质量方面显著改善了图像超分辨率。基于感知相似性[3]的思想，提出了感知损失[15]，以使用预训练特征提取器的特定层（例如VGG [29]）来最小化特征空间中的错误。最近的一些论文已经使用这种优化来根据高级提取特征生成图像[9，8，38，28，34]。在类似的工作中，提出了上下文丢失[24]来生成具有自然图像统计的图像，其关注特征分布，而不仅仅是比较外观。[20]提出除了感知损失之外，还使用对抗损失来支持驻留在自然图像流形上的输出。[27]中的SR方法开发了一种类似的方法，并进一步探索了基于块的纹理损失。虽然这些作品产生了接近照片级的结果，但它们以相同的方式估计了整个图像的重建误差，而没有从任何语义信息中获益。可以改善视觉质量的信息。许多研究，如[7，30，32]也受益于SISR的最近，[35]使用了一个额外的分割网络来估计概率图作为先验2712并将其用于现有的超分辨率网络。他们的分割网络在COCO数据集上进行预训练[22]，然后在ADE数据集上进行微调[46]。他们的方法恢复更真实的纹理忠实于分类先验;然而，它在测试时需要分段图。[26]针对这一问题，提出了一种基于多任务学习的方法，同时用于SR和语义分割任务。在这项工作中，我们研究了一种新的方法来利用图像中的语义信息，产生具有精细结构的照片般逼真的超分辨率图像。3. 方法根据最近的图像和视频超分辨率方法[20，35，25]，我们受益于具有残差块的深度网络来构建我们的解码器。如前所述，在本文中，我们重点讨论了用于训练网络的目标函数的定义;我们引入包含三项的损失函数：1-像素损失（MSE），2-对抗性损失，3-我们的新目标感知损失函数。MSE和对抗性损失术语定义如下：• Pixel-wise loss它是迄今为止SR中最常用的损失函数。它计算原始图像和图像域中的超分辨率图像之间的像素均方误差（MSE）[27，5，16]。使用它作为一个独立的目标函数的主要缺点主要是解决过平滑重建。用MSE损失训练的网络试图找到合理解决方案的逐像素平均值，这导致感知质量差并且在边缘和纹理中缺乏高频细节• 受[20]的启发，我们在对抗环境中制定了SR模型，这提供了一个可行的解决方案。特别是，我们使用了一个额外的网络（ONS），它被交替训练以与我们的SR解码器竞争。生成器（SR解码器）试图生成假图像以欺骗鉴别器，而鉴别器旨在将生成的结果与真实HR图像区分开。该设置导致感知上优于通过最小化逐像素MSE和经典感知损失获得的解决方案。本工作中使用的术语在第3.3节中有更详细的定义。我们提出的有针对性的感知损失在下面的小节中描述3.1. 目标性知觉丧失最先进的方法，如[27]和[20]，通过比较地面实况来人力资源（a）（b）图2.选择不同的CNN层来估计图像不同区域的感知损失的效果，例如，边缘和纹理：（a）使用更深的卷积层（中级特征），VGG-16的ReLU 4-1 [29]，以及（b）使用早期卷积层（低级特征），VGG-16网络的ReLU 1-2。以及通过使用预先训练的分类网络将HR和SR图像映射到特征空间中来在深特征域中预测超分辨图像，例如，VGG [29].特定卷积层的输出被用作特征图。这些方法通常最小化特征图的l2为了理解为什么最小化这个损失项与对抗性和MSE损失相结合是有效的，并导致更逼真的图像，我们研究了用于感知损失的CNN层的性质然后，我们提出了一种新的方法，以有针对性的方式利用感知相似性，重建更吸引人的边缘和纹理。如前所述，CNN的早期层返回关于局部关系的低级空间信息，例如关于边缘和斑点的信息。当我们继续向更深的层前进时，我们开始学习具有更多语义意义和抽象对象信息的更高级别的特征，以及来自图像的更少细粒度的空间细节。以这种方式，中级特征主要表示纹理，而高级特征相当于全局语义意义。图2显示了特征提取器（在我们的情况下为VGG-16）的浅层和深层之间的差异;使用两个不同的层ReLU 1-2和ReLU4-1来计算感知损失并重建图像。我们比较每种情况下的边缘和纹理区域。在这张图中，我们可以看到使用低级特征对重建边缘更有效，而中级特征可以解析更接近原始图像的纹理。目标损失函数试图支持区域周围的更真实的纹理，其中纹理的类型似乎很重要，例如，一棵树，同时试图解决边界区域周围的为此，我们首先在图像中定义三种类型的区域：1-背景，2-边界和3-对象，然后，我们使用不同的函数计算每个区域的目标感知损失。纹理边缘2713OBBOBBOBB• 背景（Gb）我们考虑四类作为背景：“天”、“地”、“水”。我们之所以选择这些类别，是因为它们的具体应用;具有这些标签的区域中的整体纹理比局部空间关系和边缘更重要。我们计算中级CNN特征来估计SR和HR图像之间的感知相似性在这里，我们使用VGG-16的ReLU 4-3层掩蔽的HR和超分辨率图像之间的空间对应于该图像的可见区域的内容：通过使用用于边界的掩模（M个边界）对应于边缘，并且通过使用用于背景的掩模（M个背景）对应于纹理。总体目标感知损失函数如下：L=α· G（ISRM边界，I HRM边界）为了这个目的。perc.eOBBOBB+ β· Gb（ISR背景，IHR背景）• 边界（G）所有边缘分离对象和OBBOBBe背景被认为是边界。通过一些预处理（在第3.2节中有更详细的解释），我们加宽了这些边缘，使条带穿过所有边界。我们估计SR和HR图像之间的早期CNN层的特征距离，该特征距离更多地关注低级空间信息，主要是边缘和斑点。特别是，我们最大限度地减少了VGG-16的ReLU 2-2层的感知损失。• 对象（Go）由于现实世界中的对象在形状和纹理方面种类繁多，因此决定使用早期或更深层的特征用于感知损失函数是否更合适是一个挑战;例如，在一个z- 1图像+γ·Go（1）其中，α、β和γ是用于边界、背景和物体反射的损失项的相应权重。Ge（·）、Gb（·）和Go（·）分别是计算任意两幅给定图像之间的边界、背景和物体的特征空间距离的函数。在这个等式中，表示逐元素乘法。如前所述，我们不考虑对象区域的任何感知损失，因此，我们将γ直接设置为零。其他权重的值将在第4.1节中详细讨论。在下面的小节中，我们将描述如何为训练图像构建指示对象、背景和边界的标签。这种标记方法有助于我们为每个感兴趣的类别（M对象，M背景和M边界），并指导我们提出的胸罩，锐利的边缘比整体OBBOBB质地话虽如此，强迫网络估计树中的精确边可能会误导优化过程。因此，我们不考虑通过将它们加权为零而定义为对象的区域上的任何类型的感知损失，而是依赖于MSE和对抗性损失。然而，直观地，通过“背景”和“边界”感知损失项解析更现实的纹理和更尖锐的边缘为了计算特定图像区域的感知损失，我们制作语义类的二进制分割掩码（感兴趣的类的像素值为1，其他地方为0每个掩模分类地表示图像的不同区域，并且分别与HR图像和估计的超分辨图像SR逐元素相乘换句话说，对于给定的类别，在通过CNN特征提取器之前，图像被转换为上面只有一个可见区域的黑色图像以这种方式掩蔽图像还在黑色区域和可见类别之间创建了新的因此，提取的特征包含关于不存在于真实图像中的人工边缘的信息由于相同的掩模应用于HR和重构图像两者我们可以得出结论，所有非零距离的特征感知损失集中在IM内的感兴趣区域，年龄边缘检测器边界扩张类分配图3.创建OBB标签。我们根据每个区域的初始像素标签将其分配给“对象”，“背景”或“边界”类之一3.2. OBB：对象、背景和边界标签为了充分利用基于感知损失的图像超分辨率，我们通过我们提出的有针对性的损失函数来加强语义细节此外，分割任务的现有注释，例如，[4]只提供了关于对象和背景的空间信息，它们没有使用表示边缘区域的类，即本文中的边界。因此，受[26]的启发，我们提出了我们的标记方法（图3），以提供对图像语义信息的更好空间控制。271416个残留块k3n64s1 k3n64s1k9n64s1k3n64s1k3n256s1k3n3s1LR图像SR图像…+跳过连接图4. SR解码器的原理图。我们使用目标感知损失以及MSE和对抗损失来训练SR解码器。在该模式中，k、n和s分别对应于内核大小、特征映射的数量和步幅大小为了创建这样的标签（OBB标签），首先，我们计算分割标签在颜色空间中的导数，以估计分割标签中对象类之间的边缘以及对象与图像背景之间的边缘。为了有一个更厚的带周围的所有边缘分离不同的类，我们计算的扩张与大小为d1的磁盘。我们标记结果区域作为特别地，我们将所有剩余的对象类都被认为是3.3. 架构为了与SRGAN方法[20]进行公平比较并对所提出的目标感知损失进行消融研究，我们使用与SRGAN相同的SR解码器。生成器网络是前馈CNN。输入图像ILR通过卷积块，然后通过ReLU激活层。输出随后通过具有跳过连接的16个残差块。每个块有两个卷积层，带有3×3滤波器和64通道特征图，每个卷积层后面都有一个批量归一化和ReLU激活。最终残差块的输出与第一卷积层的特征级联，然后通过两个上采样块，其中每个上采样块将特征图的大小加倍最后，通过最后一个卷积层对结果进行滤波以获得超分辨率图像ISR。在本文中，我们使用比例因子4;取决于期望的缩放因子，可以修改上采样块的数量。该架构的概述如图4所示。该卷积网络由多个卷积层组成，特征图的通道数量增加了 2 倍，从 64 到 512 。我们使用 Leaky-ReLU 和Strided卷积来降低图像维度，同时将特征数量增加一倍。再-通过两个密集层来传送选择512特征图。最后，神经网络通过最终的sigmoid激活函数将图像分类为真实或虚假。4. 实验结果在本节中，首先，我们详细描述了训练参数和数据集，然后我们从定性，定量和运行成本分析方面评估我们提出的方法。4.1. 数据集和参数为了创建OBB标签，我们使用来自COCO-Stuff数据集[4]的50 K图像的随机集合，其包含用于分割任务的91个类的语义标签。在本文中，我们考虑了一个或多个“天空”，“植物”，“地面”和“水”类的景观。我们将这些类分组为一个“背景”类。我们使用我们在3.2节中提出的技术将逐像素分割注释转换为了获得LR图像，我们使用MATLAB imresize函数与双三次内核和抗混叠滤波器。所有实验都是在下采样因子为4的情况下进行的。培训过程分两步进行;首先，SR解码器被预先训练25个时期，仅使用逐像素均方误差作为损失函数。然后添加所提出的目标感知损失函数以及对抗损失，并且训练继续55个时期。新的目标感知损失中每个项的权重α和β分别设为2×10−6和1。5 ×10−6，分别对抗和MSE损失函数的权重如[20]中的[1]。0和1×10−3。我们将用于生成OBB标签的磁盘直径d 1设置为2。0的情况。亚当优化器[18]在这两个步骤中使用。学习率设定为1×10−3，然后每20个epoch衰减10倍。我们还使用与[20]提出的参数相似的参数对该方法进行了优化。ConvReLUConvBNReLUConvBN+ConvPixelShufflex2ReLUConv目标性知觉丧失MSE损失对抗性损失2715双三SRCNNSelfExSRLapSRNRCANSRGANSROBBHR图像图5.分别来自Set5 [1]和Set14 5数据集的“婴儿”（顶部）和“狒狒”（底部）图像的样本结果。从左到右：分别为双三次、SRCNN [5]、SelfExSR [14]、LapSRN [19]、RCAN [44]、SRGAN [20]和SROBB（我们的）、HR图像。4.2. 定性结果4.2.1Set5和Set14我们的方法侧重于优化解码器的感知损失的条款，通过利用分割标签的目标边界和背景。虽然我们没有将感知损失专门应用于对象区域，但我们的实验表明，与其他方法相比，训练的模型以重建更真实的对象的方式进行了推广我们通过在两个广泛使用的基准数据集上进行定性实验来评估对象再现的质量：Set5 [1]和Set14 [42]，与我们的训练集不同，在大多数图像中，不存在室外背景场景。图5比较了我们的SR模型在“婴儿”和“狒狒”图像上的结果以及最近的最先进方法，包括：双三次，SR-CNN [5]，SelfExSR [14]，LapSRN[19]，RCAN [44]和SRGAN [20].在“狒狒”图像中他们的结果是通过使用他们的在线补充材料123。补充材料中提供了Set5和Set14图像的更多4.2.2COCO-Stuff数据集上的结果我们从COCO-Stuff数据集中随机选择了一组测试图像[4]。为了进行公平的比较，我们重新训练了SFT-GAN[35]，ESRGAN [36]和SRGAN1https://github.com/jbhuang0604/SelfExSR2https://github.com/phoenix104104/LapSRN3https://twitter.app.box.com/s/lcue6vlrd01ljkdtdkhmfvk7vtjhetog[20]在同一数据集上使用与我们相同的参数的方法对于EnhanceNet和RCAN，我们分别使用[27]和[44]的预训练模型。MAT-LAB的imresize函数与一个双三次内核是用来产生双三次图像。如图6所示，我们的方法通过受益于我们提出的有针对性的感知损失来生成更逼真和自然的纹理。尽管ESRGAN产生了非常有竞争力的结果，但他们的方法似乎偏向于过度锐化的边缘，这有时会导致不切实际的重建和与地面实况的不一致。4.3. 定量结果4.3.1SSIM、PSNR和LPIPS如[20，27，35，2]所示，失真度量，如结构相似性指数（ SSIM ） [37] 或用作定量测量的峰值信噪比（PSNR），与感知质量不直接相关;他们证明，基于GAN的超分辨率图像在PSNR和SSIM指标方面可能具有更高的误差，但仍然生成更吸引人的图像。此外，我们使用了地面实况和超分辨率图像之间的感知相似距离。学习感知图像块相似性（LPIPS）度量[43]是最近引入的基于参考的图像质量评估度量，其旨在估计两个图像之间的感知相似性。该指标使用在非常大的 Berkeley-Adobe Perceptual Patch Similarity（BAPPS）数据集[43]上训练的线性校准的现成深度分类然而，正如[10]也强调的那样，LPIPS具有与基于失真的度量相似的趋势，例如，SSIM，并不一定意味着真实感图像。2716原始双三次RCAN 增强网络SRGANSFT-GAN ESRGANSROBBHRcrop图6. COCO-Stuff数据集[4]图像子集的定性结果。裁剪区域将以2到5的系数放大，以便进行更好的比较。结果从左到右：双三次，RCAN [44]，EnhanceNet [27]，SRGAN [20]，SFT-GAN [35]，ESRGAN [36]，SROBB（我们的）和高分辨率图像。放大以获得最佳视图。图像度量双三LapSRNSRGANSROBBSSIM0.9360.9510.8990.905婴儿PSNR30.41932.01928.41328.869LPIPS0.3050.2370.1120.104SSIM0.6450.6770.6150.607狒狒PSNR20.27720.62219.14718.660LPIPS0.6320.5370.2200.245表1.来自Set 5和Set 14测试集的“婴儿”和“狒狒”图像的双三次插值、LapSRN [19]、SR-GAN [20]和SROBB（我们的）最佳测量（SSIM、PSNR [dB]、LPIPS）以粗体突出显示。视觉比较如图5所示。表1显示了使用双三次插值、LapSRN [19]、SRGAN[20]和我们的方法，在“婴儿”和“狒狒”及其HR对应物的超分辨率图像之间估计的SSIM、PSNR和LPIPS值。考虑到该表和图5中这些图像的视觉比较，我们可以推断这些指标不会反映出更好的重建质量。因此，在接下来的章节中，我们将重点放在用户研究作为定量评估。4.3.2用户研究我们进行了一项用户研究，比较不同方法的重建质量，看看哪些图像更吸引用户。五种方法被用于图像2717百分之五点七百分之四十二点九31.4% 11.4%5.7%2.9%百分之三十八点三百分之四点七27.1% 13.9%12.5%8.3%67.9%百分之二十三点四研究：1- RCAN [44]、2- SRGAN [20]、3- SFT-GAN[35]，4-ESRGAN [36]和5- SROBBB（我们的）。在实验过程中，高分辨率图像以及通过上述方法获得的五个重建的对应物用户被要求投票选出比地面实况图像更吸引人的图像为了避免在相似质量的情况下的随机猜测，还设计了“无法决定”的选择。由于SFT-GAN使用在户外类别上训练的分割网络，为了与[35]进行公平比较，我们还使用了来自COCO-Stuff [4]的35张图像，专门用于户外场景。所有图像都以随机方式呈现给每个人。为了最大限度地增加参与者的数量，我们为此创建了在线评估工具。共有46人参加了调查。图7示出了通过我们的方法重建的图像对用户更有吸引力。就每种方法的票数而言，SROBB的重建获得617票，ESRGAN、SFT-GAN、SRGAN和RCAN方法分别获得436、223、此外，调查中提供的“无法确定”选项被选择了100次。在大多数投票的最佳图像方面，在35张图像中，SROBB在15张图像中占主导地位。这些结果证实，我们的方法重建视觉上更令人信服的图像相比，上述方法的用户。此外，与SFT-GAN不同，所提出的方法在测试期间不需要分割图，同时它利用语义信息并产生有竞争力的结果。（一）（b）第（1）款图7.用户研究的结果，比较SROBB（我们的）与RCAN[44]，SRGAN [20]，ESRGAN [36]和SFT-GAN [35]方法。我们的方法产生的视觉结果是用户的首选，在很大程度上：（a）投票的百分比，（b）获胜图像的百分比，大多数选票。4.3.3消融研究为了更好地研究所提出的目标感知损失的有效性，我们进行了第二次用户研究，其条件和程序与前一节中的用户研究类似。具体来说，我们研究了我们提出的有针对性的知觉损失的影响;我们用三个不同的目标函数训练我们的解码器：仅1像素MSE; 2像素损失和标准感知损失，类似于[20];和3- Pixel-wise损失和我们提出的目标感知损失（SROBB）。对抗性损失项也用于2和3。总共有51人参与了我们的消融研究调查。图8显示了当使用目标感知损失而不是常用的感知损失时，用户更确信。它获得了1212票，而目标函数1和2分别获得了49票和417票。此外，“无法决定”选项被选了107次。在大多数投票的最佳图像方面，在35幅图像中，第三目标函数在30幅图像中占主导地位，而1和2仅在5幅图像中获胜仅通过像素级损失重建的图像具有较小的投票数，然而，对于其中“天空”是主要类别的图像，它们获得了相当这可以通过云的过度平滑性质来解释，这适合基于失真的度量。二点七厘（一）6.0%（b）第（1）款图8.消融研究的结果显示了目标感知损失的效果;在以下方面，以较大的优势取得了更令人信服的结果：（a）得票率，(b)以多数票获胜的图像的百分比。4.4. 推理时间与现有的内容感知SR方法不同，我们的方法不需要任何语义信息的输入。因此，在测试时不需要额外的计算。我们在单颗GeForce GTX 1080 Ti上实现了每秒31.2 帧的推理时间，并采用标准 XGA 输出分辨率（1024×768像素）。5. 结论本文提出了一种新的目标视觉损失函数，用于基于CNN的单幅图像超分辨率。提出的目标函数用相关的损失项惩罚图像的不同区域，这意味着在训练过程中使用边缘损失用于边缘，使用纹理损失用于纹理。此外，我们引入了我们的OBB标签，从逐像素分割标签创建，以提供对图像的语义信息的更好的空间控制这使得我们有针对性的感知损失集中在图像的语义区域。实验结果验证了提出的有针对性的感知损失的训练产生感知上更令人愉快的结果，并优于最先进的SR方法。百分之八十五点七百分之十四点三2718引用[1] Marco Bevilacqua，Aline Roumy，Christine Guillemot，and Marie-Line Alberi Morel.基于非负邻域嵌入的低复杂度单图像超分辨率。在英国机器视觉会议（BMVC），吉尔福德，萨里，英国，9月。2012年。[2] Yochai Blau 、 Roey Mechrez 、 Radu Timofte 、 TomerMichaeli和Lihi Zelnik-Manor。2018年感知图像超分辨率挑战赛CoRR，abs/1809.07517，2018。[3] Joan Bruna，Pablo Sprechmann，and Yann LeCun.超分辨率与深度卷积足够的统计。arXiv预印本arXiv：1511.05666，2015年。[4] 作者：Holger Caesar，Jasper R R.乌伊林斯和维托里奥·费拉里。Coco-stuff：上下文中的事物和东西类。2018 IEEE/CVF计算机视觉和模式识别会议，第1209-1218页[5] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.使用深度卷积网络的图像超分辨率。IEEETransactionsonPatternAnalysisandMachineIntelligence，38：295[6] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.学习深度卷积网络以实现图像超分辨率。在 David Fleet 、 Tomas Pajdla 、 Bernt Schiele 和 TinneTuytelaars 编辑的《计算机视觉 Springer InternationalPublishing.[7] W.东湖，澳-地Zhang，G. Shi和X。吴自适应稀疏域选择和自适应正则化的图像去模糊和超分辨率IEEE图像处理学报，20（7）：1838[8] 利昂·A Gatys，Alexander S. Ecker，and Matthias Bethge.艺术风格的神经算法。CoRR，abs/1508.06576，2015年。[9] 利昂·A Gatys，Alexander S. Ecker，and Matthias Bethge.纹理合成与自然纹理的控制生成使用卷积神经网络的真实刺激。CoRR，abs/1505.07376，2015年。[10] 穆哈·米德·瓦利德·贡达尔、伯恩哈德·斯科尔·科普夫和迈克尔·赫希。单幅图像超分辨率中纹理转移的不合理效果。在ECCV工作-商店，2018年。[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在Z. Ghahra-mani ， M. 威灵角 Cortes ， N. D. Lawrence 和 K. Q.Weinberger ，编辑， Advances in Neural InformationProcessing Systems 27 ，第 2672-2680 页。 CurranAssociates，Inc. 2014年[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），第770-778页[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。ECCV，2016。[14] Jia-Bin Huang，Abhishek Singh，and Narendra Ahuja.单图像超分辨率从变换的自我范例。在IEEE计算机视觉和模式识别会议上，2015年。[15] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。[16] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.使用非常深的卷积网络的精确图像超分辨率。2016年IEEE计算机视觉和模式识别会议（CVPR），第1646-1654页[17] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.用于图像超分辨率的深度递归卷积网络。2016年IEEE计算机视觉和模式识别会议（CVPR），第1637-1645页[18] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。2014年学习表征国际会议[19] 赖伟胜，黄家斌，纳伦德拉·阿胡贾，杨明轩。深拉普拉斯金字塔网络实现快速和精确的超分辨率。2017年IEEE计算机视觉和模式识别会议（CVPR），第5835-5843页[20] ChristianLedig ， LucasTheis ， FerencHusza'r ， JoseCaballero ， Andrew P. Aitken ， Alykhan Tejani ，Johannes Totz，Zehan Wang，and Wenzhe Shi.使用生成对抗网络的照片级真实感单幅图像超分辨率。2017年IEEE计算机视觉和模式识别会议（CVPR），第105-114页[21] Bee Lim ， Sanghyun Son ， Heewon Kim ， SeungjunNah，and Kyoung Mu Lee.用于单图像超分辨率的增强深度残差网络2017年IEEE计算机视觉和模式识别研讨会（CVPRW），第1132-1140页[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[23] Aravindh Mahendran和Andrea Vedaldi。使用自然前图像可视化国际计算机视觉杂志，120（3）：233255，2016年5月。[24] Roey Mechrez ， Itamar Talmi ， Firas Shama ， and LihiZelnik- Manor.学习维护自然图像统计。arXiv预印本arXiv：1803.04626，2018。[25] EduardoPe'rez-Pellitero，MehdiS.M.Sajjadi，MichaelHirsch，andBernhardSc ho？l k opf. 逼真的视频超分辨率。在 2018 年第 15 届欧洲计算机视觉会议（ECCV）上的感知图像恢复和操纵（PPETS）研讨会和挑战[26] Mohammad Saeed Rad 、 Behzad Bozorgtabar 、 ClaudiuMusat 、 Urs-Viktor Marti、 Max Basler 、 Hazim KemalEkenel和Jean-Philippe Thiran。受益于多任务学习以提高单个图像的超分辨率。接受神经计算（图像超分辨率深度学习特刊，2019年。[27] MehdiS.M.Sajjadi ， BernhardSchoélkopf ，andMichaelHirsch.Enhancenet：通过增强2719自动纹理合成。 2017 年 IEEE计算机视觉国际会议（ICCV），第4501-4510页，2016年。[28] Karen Simonyan Andrea Vedaldi和Andrew Zisserman深入卷积网络：可视化图像分类模型和显着图。CoRR，abs/1312.6034，2013年。[29] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 CoRR ， abs/1409.1556 ，2014。[30] J. 孙，J.Zhu和M.F. 塔彭用于图像超分辨率的上下文约束晕映2010年IEEE计算机协会计算机视觉和模式识别会议，第231-238页[31] Ying Tai ， Jian Yang ， Xiaoming Liu ， and ChunyanXu.Mem- net：一种用于图像恢复的持久存储网络。在IEEE计算机视觉和模式识别会议论文集，第4539-4547页[32] Radu Timofte，Vincent De Smet，and Luc Van Gool.语义超分辨率：何时何地有用？计算机视觉和图像理解，2015年9月。[33] R. Tsai和T.煌多帧图像复原与配准。计算机视觉与图像处理进展，1：317339，1984.[34] Subeesh Vasu、Thekke Madam Nimisha和A. N.拉-贾戈帕兰。使用增强型知觉超解析网路分析知觉失真折衷。在ECCV研讨会，2018年。[35] Xintao Wang，Ke Yu，Chao Dong，and Chen ChangeLoy.基于深度空间特征变换的图像超分辨率真实感纹理恢复。2018 IEEE/CVF计算机视觉和模式识别会议，第606- 615页[36] Xintao Wang，Ke Yu，Shixiang Wu，Jinjin Gu，YihaoLiu ， Chao Dong ， Yu Qiao ，

下载后可阅读完整内容，剩余1页未读，立即下载