没有合适的资源?快使用搜索试试~ 我知道了~
5791基于纹理学习的Transformer网络图像超分辨率杨福志1人,杨欢2人,付建龙2人,卢洪涛1人,郭柏宁2人1计算机科学与工程系,上海交通大学人工智能研究所MoE人工智能重点实验室2中国北京微软研究院中国、{yfzcopy0702,htlu} @ sjtu.edu.cn,{huayan,jianf,bainguo} @ microsoft.com摘要我们研究了图像超分辨率(SR),其目的是恢复真实的纹理从低分辨率(LR)图像。最近的进展已经取得了高分辨率图像作为参考(Ref),使相关的纹理可以转移到LR图像。然而,现有的SR方法忽略了使用注意力机制来从Ref图像转移高分辨率(HR)纹理,这限制了这些方法在具有挑战性的情况下。本文提出了一种新的图像超分辨率测试转换网络(TTSR),其中LR 和 Ref 图 像 分 别 表 示 为 Transformer 中 的 查 询 和键.TTSR由四个密切相关的模块组成,这些模块针对图像生成任务进行了优化,包括DNN的可学习纹理提取器、相关嵌入模块、用于纹理传输的硬注意模块和用于纹理合成的软注意模块。这种设计鼓励LR和Ref图像之间的联合特征学习,其中可以通过注意力发现深度特 征 对 应 , 从 而 可 以 传 递 准 确 的 所 提 出 的 纹 理Transformer可以进一步以跨尺度的方式堆叠,这使得纹理恢复成为可能。来自不同级别的每一个(例如,从1×到4×放大-段)。 大量的实验表明,TTSR实现了信号,在定量和定性评价方面,与最先进的方法相比有了重大改进。1. 介绍图像超分辨率旨在从其退化的低分辨率对应物中恢复高分辨率图像的自然和真实纹理[12]。最近成功的图像SR可以大大提高媒体内容的质量,以获得更好的用户体验。例如,数码变焦这项工作是在第一作者作为研究实习生访问微软研究院时完成的图1.所提出的TTSR和最先进的RefSR方法之间的4×SR结果的比较[43]。TTSR(我们的)学习从参考图像(indi-由绿色表示),这避免了不正确的纹理转移(由红色表示)。用于移动相机的算法和用于数字电视的图像增强此外,这项基础技术可以使广泛的计算机视觉任务受益,如医学成像[21]和卫星成像[35]。图像超分辨率的研究通常有两种范式,即单幅图像超分辨率(SISR)和基于参考的图像超分辨率(RefSR)。传统的SISR算法由于在退化过程中高分辨率纹理被过度破坏而无法恢复,导致图像模糊尽管提出了基于生成对抗网络(GANs)[7]的图像SR方法来缓解上述问题,但GANs引起的幻觉和伪影进一步对图像SR任务提出了巨大挑战。GTGT贴片参考SOTA结果参考我们的成果5792基于参考的图像超分辨率(RefSR)取得了最新进展,它从给定的参考图像中转移HR纹理,以产生视觉上令人愉悦的结果[5,6,26,29,36]。然而,最先进的(SOTA)方法通常采用一种直接的方式来转移纹理,这可能会导致不满意的SR图像(如图所示)。1)。例如,Zheng等人[43]采用基于流的方法,当LR和Ref图像之间的视点变化较大时,该方法通常会搜索和传输不准确的纹理(用红色表示)。Zhang等人[41]采用由预先训练的分类模型定义的特征空间来在LR和Ref图像之间搜索和传递纹理。然而,这样的高级语义特征不能有效地表示HR纹理,其仍然产生不可信的结果。为了解决这些问题,我们提出了一种新的用于图像超分辨率解决的训练变换网络(TTSR).具体而言,四个密切相关的模块优化的图像生成任务提出。首先,我们提出了一个可学习的纹理提取器,其中参数将在端到端训练期间更新。 这样的设计使得LR和Ref图像的联合特征嵌入为在SR任务中应用注意力机制[19,34,31]奠定了坚实的基础。其次,我们提出了一个相关嵌入模块来计算LR和Ref图像之间的相关性更具体地说,我们将从LR和Ref图像中提取的特征公式化为Transformer [31]中的查询和键,以获得硬注意力图和软注意力图。最后,我们提出了一个硬注意模块和一个软注意模块,通过注意图将Ref图像的HR特征转换TTSR的设计鼓励一种更准确的方式来搜索并将相关纹理从Ref图像传输到LR图像。此外,我们提出了一个跨尺度特征集成模块来堆叠纹理Transformer,其中特征是跨不同尺度(例如,从1×到4×)来实现更强大的特征表示。作为如图1所示,总体设计使我们的TTSR从Ref图像(由绿色指示)中搜索并传输相关纹理,与SOTA方法相比,该方法实现了更好的视觉效果。本文的主要贡献是:• 据我们所知,我们是最早将Transformer架构引入图像生成任务的公司之一更具体地说,我们提出了一种纹理Transformer具有四个紧密相关的图像SR模块,与SOTA方法相比,实现了显著改进。• 我们提出了一种新的跨尺度特征集成模块的图像生成任务,使我们的一种通过堆叠多个纹理变换器来学习更强大的特征表示的方法。2. 相关工作在本节中,我们回顾了与我们的工作最相关的单图像超分辨率(SISR)和基于参考的图像超分辨率(RefSR)的先前工作2.1. 单幅图像超分辨率近年来,基于深度学习的SISR方法相对于传统的基于非学习的方法已经取得了显著的改进。SISR中基于深度学习的方法将此问题视为密集图像回归任务,该任务学习由LR和HR图像之间的CNN表示的端到端图像映射函数。Dong等人。[3]提出了SRCNN,首先通过使用三层CNN来表示映射函数,将深度学习引入SISRDong等人[4]通过用原始LR图像替换插值LR图像并在最后一层使用反卷积来放大特征图,进一步加快了SR过程不久之后,Kim et al.提出了VDSR [14]和DRCN [15],具有更深的残差学习网络。Shi等人。[23]用子像素卷积层取代去卷积,以减少棋盘伪影。残差块[9]被引入SRResNet [16]中的SISR中,并在EDSR [17]中得到改进。在残差块的帮助下,许多工作都集中在设计更深或更宽的网络[2,27,28]。Zhang等人[40]和Tong etal.[30]采用密集块[10]来组合不同级别的特征。Zhang等人[39]通过增加信道注意来改进残余块。Liu等人[18]提出了一种用于图像恢复的非局部递归网络Dai等人[2]引入了二阶统计量,用于更有区别的特征表示。上述方法使用均方误差(MSE)或平均绝对误差(MAE)作为它们的目标函数,其忽略了人类感知。近年来,越来越多的作品旨在提高感知质量。John-son等[13]在SR任务中引入了感知损失,而SRGAN [16]采用了生成对抗网络(GAN)[7],并显示了视觉上令人满意的结果。Sajjadi等人[22]使用基于Gram矩阵的纹理匹配损失来增强局部相似纹理,而ESRGAN [32]通 过 引 入 具 有 相 对 论 对 抗 损 失 的 RRDB 来 增 强SRGAN。最近提出的RSRGAN [38]训练了一个排名器,并使用排名内容损失来优化感知质量,从而实现了最先进的视觉效果。2.2. 基于参考的图像超分辨率与SISR不同,RefSR可以从Ref图像中获取更准确的细节。这可以通过几种方法来完成,如图像对准或补丁匹配。一些现有的RefSR方法[33,36,43]选择对齐LR和Ref图像。Landmark [36]通过全局配准将Ref图像与LR图像对齐,以解决5793F软关注硬注意力相关性嵌入可学习的纹理提取器骨干能量最小化问题Wang等人。[33]通过在特征合成之前循环应用非均匀扭曲来增强Ref图像。CrossNet [43]采用光流以不同比例对齐LR和Ref图像,并将它们连接到解码器的相应层中。然而,这些方法的性能很大程度上取决于LR和Ref图像之间的比对质量。此外,光流法等对准方法耗时较长,不利于实际应用。其他RefSR方法[1,41,42]采用“补丁匹配”方法来搜索适当的参考信息。Boominathan等人[1]匹配LR和下采样Ref图像的梯度特征之间的补丁。郑等人[42]用卷积神经网络中的特征替换简单的梯度特征,以应用语义匹配,并使用SISR方法进行特征合成。最近的工作SRNTT [41]应用了LR和Ref图像的VGG [24]特征之间的块匹配,以交换相似的纹理特征。然而,SRNTT忽略了原始特征和交换特征之间的相关性,并将所有交换特征均等地馈送到主网络中。为了解决这些问题,我们提出了一个纹理trans-former网络,使我们的方法,搜索和转移相关的纹理从参考LR图像。此外,我们的方法的性能可以进一步提高,通过堆叠多个纹理变换器与建议的跨尺度特征集成模块。3. 方法在这一节中,我们介绍了提出的用于图像超分辨率解 决 方 案 的 测 试 传 输 网 络 ( TTSR ) 。 在 纹 理Transformer的基础上,我们提出了一个跨尺度特征集成模块(CSFI),以进一步提高模型的性能。纹理Transformer和CSFI将分别在3.1节和3.2节中讨论。一组用于优化所建议网络的损失函数将在第3.3节中解释。3.1. 纹理Transformer纹理Transformer的结构如图2所示。LR、LR↑和Ref表示输入图像、4×双三次上采样的输入图像和参考图像re-ref。我们顺序地应用双三次下采样和上采样,其中Ref上的相同因子为4×,与LR↑域一致的tain Ref ↓↑。 该tex-真正的Transformer将Ref、Ref↓↑、LR↑和骨干产生的LR特征作为输入,并输出一个合成的大小的特征图,其将进一步用于生成HR预测。纹理变换器由四个部分组成:可学习纹理提取器(LTE)、相关嵌入模块(RE)、用于特征转移的硬注意模块(HA)和用于特征合成的软注意模块(SA)。下面将讨论细节输出纹理Transformer0.4…0.1...0.9...3…5...2…LR Ref Ref↓↑LR↑图2.建议的纹理Transformer。Q、K和V分别是从上采样的LR图像、顺序下/上采样的Ref图像和原始Ref图像提取的纹理特征。H和S指示从相关性嵌入计算的硬/软注意力图。F是从DNN骨干中提取的LR特征,并且进一步与转移的纹理特征T融合以用于生成SR输出。可学习的纹理提取器。在RefSR任务中,参考图像的纹理提取是必不可少的,因为准确和适当的纹理信息将有助于SR图像的生成。我们设计了一个可学习的纹理提取器,其参数将在端到端训练期间更新,而不是使用由VGG [24]等预训练分类模型这样的设计鼓励跨LR和Ref图像的联合特征学习,其中可以捕获更准确的纹理特征。纹理提取的过程可以表示为:Q=LTE(LR↑),(1)K=LTE(参考↓↑),(2)V=LTE(参考),(3)其中LTE(·)表示我们的可学习提取器的输出所提取的纹理特征Q(查询)、K(key)和V(值)表示Transformer内部注意机制的三个基本元素,并将进一步用于我们的相关性嵌入模块。相关性嵌入。相关嵌入的目的是通过估计Q和K之间的相似度来嵌入LR和Ref图像之间的相关性。我们将Q和K展开为面片,记为qi(i∈[1,HLR×WLR]),kj(j∈[1,HRef×WRef]). 则对于每个补丁qi,5794和K中的kj,我们通过归一化内积计算这两个补丁之间的相关性ri,j堆叠式变压器输出ri,j=. qi,格岛Σ王空军克·杰·.(四)进一步使用相关性来获得硬注意力图和软注意力图。注意力很强我们提出了一个硬注意力模块来转移HR纹理特征V从参考图像。事务注意机制对于每个查询qi取V的加权和。然而,这样的操作可能导致模糊效果,其缺乏传递HR纹理特征的能力因此,在我们的硬注意力模块中,我们只为每个查询qi从V中最相关的位置转移特征。更具体地说,我们首先计算硬注意图H,其中第i个元素hi(i∈[1,HLR×WLR])是从相关性ri,j计算的:h i= arg max r i,j.(五)Jhi的值可以被认为是硬索引,其表示Ref图像中与LR图像中的第i个为了从Ref图像获得转移的HR纹理特征T,我们使用硬注意力图作为索引对V的ti=vhi,(6)其中ti表示T在第i个位置的值,其选自V的第h个位置。因此,我们获得了LR图像的HR特征表示T,其将进一步用于我们的软注意力模块。软注意力我们提出了一个软注意模块来合成来自DNN骨干的LR图像的传输的HR纹理特征T和LR特征F的特征。在合成过程中,应加强相关的纹理为了实现这一点,从ri,j计算软注意力图S,以表示T中每个位置的转移纹理特征的置信度:si= maxri,j,(7)J其中si表示软注意力图的第i个位置,S.代替直接将注意力图S应用于T,我们首先将HR纹理特征T与LR特征F融合以利用来自LR图像的更多信息。这样的融合特征被进一步逐元素地乘以软注意力图S并且被加回到F以得到软注意力图S。图3.架构堆叠多个纹理变换器在一个跨尺度的方式与建议的跨尺度特征集成模块(CSFI)。RB指示一组残余块。纹理Transformer的最终输出。该操作可以表示为:其中F_out指示合成的输出特征。ConvConcate和Concat分别表示卷积层和卷积运算。运算符⊙表示特征图之间的逐元素乘法。总之,纹理Transformer可以有效地将Ref图像的相关HR纹理特征转换为LR特征,这促进了更准确的纹理生成过程。3.2. 跨尺度特征集成我们的纹理Transformer可以通过跨尺度特征集成模块以跨尺度的方式进一步堆叠架构如图3所示。堆叠纹理变换器输出三个分辨率的合成特征分辨率为1×、2×和4×的图像,使得不同尺度的纹理特征可以融合到LR图像中为了在不同尺度上学习更好的表示,受[25,37]的启发,我们提出了一个跨尺度特征集成模块(CSFI),用于在不同尺度的特征之间交换信息。每当LR特征被上采样到下一尺度时,应用CSFI模块。对于CSFI模块内的每个尺度,它通过上/下采样接收来自其他尺度的交换特征,然后在通道维度上进行级联操作。然后卷积层将特征映射到原始数量的通道中。在这样的设计中,从堆叠的纹理变换器传输的纹理特征在每个尺度上交换,这实现了更强大的特征表示。这种跨尺度特征集成模块进一步提高了我们的方法的性能。3.3. 损失函数在我们的方法中有3个损失函数。总损失可解释为:L总体=λrecLrec+λadvLadv+ λper Lper。(九)纹理Transformer4x4x...4x纹理Transformer2x2x...2x2倍纹理Transformer1x …RBs CSFI1x…1x1x…1xPixel shuffleUpsampleFeed-forward下采样RBs CSFIRBS5795我C H WJLTE Sr重建损失。第一个损失是重建损失:训练时,我们通过随机水平和垂直翻转,然后随机旋转,分别为90度、180度和270度。每个小批次包含9个LRL记录1= CHW我的HR−ISR?1、(10)尺寸为40×40的贴片以及9个尺寸为160×160的HR和Ref贴片。Lrec、Ladv的权重系数其中(C,H,W)是HR的大小 我们利用L1损失已被证明是尖锐的性能和更容易收敛相比,L2损失。对抗性损失。生成对抗网络[7]被证明在生成清晰和视觉上有利的图像方面是有效的。在这里,我们采用WGAN-GP [8],它提出了一个用梯度范数惩罚代替权值裁剪,训练更稳定,性能更好这种损失可以解释为:和Lper分别为1、1 e-3和1 e-2。 亚当·奥蒂β1= 0时,9,β2= 0。999,并且在学习率为1 e-4的情况下使用k=我们首先将网络预热2个epoch,其中仅应用Lrec在那之后,所有的损失都涉及到训练另外50个epoch。4. 实验4.1. 数据集和指标L D=Ex~PgΣΣD(x)Σ- -E级xPrΣ ΣD( x)+2Σ为了评估我们的方法,我们在最近提出的RefSR数据 集 CUFED5 [41] 上 训 练 和 测 试 了 我 们 的 模 型 。CUFED 5中的训练集包含11,871对,每对λExPx (xD(x)2−1)、(11)由输入图像和参考图像组成。那里LG=−Ex~PgΣ ΣD(x)。(十二)在CUFED 5测试集中,共126幅测试图像,每幅测试图像包含4幅不同相似度的参考图像。为了评价感知损失。已经证明了知觉丧失有助于改善视觉质量,并已被用于在[13,16,22,41]中。感知损失的核心思想是增强预测图像和目标图像在特征空间上的相似性。这里我们的感知损失包含两部分:TTSR 在 CUFED 5 上 训 练 , 我 们 还 在 Sun80 [26] ,Urban100 [11]和Manga109 [20]上测试TTSR。Sun80包含80幅自然图像,每幅图像都与几幅参考图像配对。对于Urban100,我们使用相同的设置作为[41],将其LR图像视为参考图像。这样的设计使得自相似的显式过程成为1-vggSrVGGHR?2由于Urban100都在建设中,Lper=i我我1C H W<$i(I )−<$i(I)<$2+¨ ¨2j (I)− T2,(13)具有强自相似性的图像对于Manga109,也缺少参考图像,我们随机抽取该数据集中的HR图像作为参考图像。由于这jJ J其中第一部分是传统的感知损失,其中φvgg(·)表示VGG19的第i层特征图,(Ci,Hi,Wi)表示该层特征图的形状。ISR是预测的SR图像。第二部分在我们的感知损失是传递感知损失,其中表示来自所提出的LTE的第j层的纹理特征映射e,并且(C j,H j,W j)表示该层的形状。T是传递的HR纹理特征在图2中这种转移感知损失约束预测的SR图像具有与转移的纹理特征T相似的纹理特征,这使得我们的方法更有效地转移Ref纹理。3.4.实现细节可学习的纹理提取器包含5个卷积层和2个池化层,其输出三种不同尺度的纹理特征。为了减少时间和GPU内存的消耗,相关嵌入仅应用于最小尺度,并进一步传播到其他尺度。对于鉴别器,我们采用SRNTT[41]中使用的相同网络,并移除所有BN层。期间数据集由直线、曲线和平坦的彩色区域构成,这些都是常见的模式。即使是随机选取的HR Ref图像,我们的方法仍然可以利用这些常见的模式,并取得良好的效果。在YCbCr空间的Y通道上的PSNR和SSIM上评估SR结果。4.2. 评价为了评估TTSR的有效性,我们将我们的模型与其他最先进的SISR和RefSR方法进行了比较。SISR方法包括SRCNN [3],MDSR [17],RDN [40],RCAN [39],SRGAN [16],ENet [22],ES-RGAN [32] , RSRGAN [38] , 其 中 RCAN 近 年 来 在PSNR和SSIM方面都取得了最先进的性能。RSRGAN被认为达到了最先进的视觉质量。对于RefSR方法,CrossNet [43]和SRNTT [41]是最近的两种最先进的方法,其显著优于先前的RefSR方法。所有的实验都是在一个规模-5796LR和HR图像之间的缩放因子为4×。定量评价。 为了公平比较,我们遵循SRNTT [41]中的设置来训练所有方法5797表1.四种不同数据集上不同SR方法之间的PSNR/SSIM比较方法按SISR方法(上)和RefSR方法(下)分组。红色数字表示最高分数,而蓝色数字表示第二高分数。百分之九十六百分之九十四百分之九十二百分之九十百分之八十八百分之八十六RCANRSRGANCrossNetSRNTT图4.用户研究结果。Y轴上的值指示相比于其他方法更喜欢TTSR的用户的年龄百分比。表2.织构Transformer的烧蚀研究在CUFED5训练集、Sun80、Urban100和Manga109数据集上进行测试。对于SR方法,有一个事实,即具有对抗性损失的训练通常会获得更好的视觉质量,但会减少PSNR和SSIM的数量。因此,我们训练了另一个版本的模型,该模型仅在重建损失上进行了优化,名为TTSR-rec,以便在PSNR和SSIM上进行公平比较。表1示出了定量评价结果。红色数字表示最高分,而蓝色数字表示第二高分。如比较结果所示,TTSR-rec在所有四个测试数据集上的性能均显著优于最先进的SISR方法和最先进的RefSR方法。 在旨在实现更好的视觉质量和对抗损失的方法中,我们的模型在Sun80和Manga109数据集上仍然具有最好的性能。在另外两个数据集CUFED5和Urban100上,我们的模型实现了与最先进模型相当的性能。定量的比较结果表明,我们提出的TTSR国家的最先进的SR方法的优越性定性评价。 我们的模型也达到了最好表3. CSFI消融研究方法中体未来numCparam参数PSNR/SSIM基础+TT碱+TT+CSFIC64644.42M6.42M26.92 /.79727.09 /.804碱+TT(C80)806.53M26.93 /.797碱+TT(C96)969.10M26.98 /.799用户研究,其中Y轴上的值表示与其他方法相比更喜欢TTSR的用户的年龄百分比正如我们所看到的,所提出的TTSR显着优于其他方法,超过90%的用户投票给我们,这验证了良好的视觉质量的TTSR。4.3. 消融研究在本节中,我们验证了我们方法中不同模块的有效性,包括纹理Transformer,跨尺度特征集成,对抗损失和视觉质量表现如图5所示。TTSR可以从参考图像中传输更精确的HR纹理,以生成有利的结果,如图5中的前三个示例所示。 即使参考图像并不是全局相关的输入图像,我们的TTSR仍然可以从局部区域提取更精细的纹理,并将有效的纹理转移到预测的SR结果中,如图5中的最后三个示例所示。为了进一步验证我们的方法的卓越视觉质量,我们进行了一项用户研究,其中将TTSR与四种SOTA方法进 行 了 比 较 , 包 括 RCAN [39] , RSR-GAN [38] ,CrossNet [43]和SRNTT [41]。本用户研究涉及10名受试者,在CUFED 5测试集上收集了2,520张投票对于每个比较过程,我们为用户提供两个图像,其中包括一个TTSR图像。要求用户选择具有更高视觉质量的一个。图4显示了我们的转移性知觉丧失此外,我们还讨论了不同参考相似性对TTSR的影响。纹理Transformer。我们的纹理Transformer主要包含四个部分:可学习纹理提取器(LTE),相关嵌入模块、用于特征传递的硬注意模块(HA)和用于特征合成的软注意模块(SA)。消融结果如表2所示。我们通过仅移除所有BN层和Ref部分来重新实现SRNTT [41]作为我们的“基础”模型。在基线模型之上,我们逐步添加HA、SA和LTE。没有LTE的型号使用VGG19功能来进行相关嵌入。正如我们所看到的,当加入HA时,PSNR性能可以从26. 34比2659,验证了硬注意模型对特征迁移的有效性。当SA参与时,在特征合成过程中,相关的纹理特征将被增强,而不相关的纹理特征将被释放这毛皮-93.6± 0.9%92.6 ±1.1%90.8± 0.5%(百分比)90.7 ±0.6%百分比方法CUFED5Sun80Urban100Manga109SRCNN [3]25.33 / .74528.26 / .78124.41 / .73827.12 / .850MDSR [17]25.93 / .77728.52 / .79225.51/ .78328.93 / .891RDN [40]25.95 / .76929.63 / .80625.38 / .76829.24 / .894RCAN [39]26.06 / .76929.86/.81025.42 / .76829.38/.895SRGAN [16]24.40 / .70226.76 / .72524.07 / .72925.12 / .802ENet [22]24.24 / .69526.24 / .70223.63 / .71125.25 / .802ESRGAN [32]21.90 / .63324.18 / .65120.91 / .62023.53 / .797RSRGAN [38]22.31 / .63525.60 / .66721.47 / .62425.04 / .803CrossNet [43]25.48 / .76428.52 / .79325.11 / .76423.36 / .741[41]第四十一话26.24/.78428.54 / .79325.50 /.78328.95 / .885SRNTT [41]25.61 / .76427.59 / .75625.09 / .77427.54 / .862TTSR-记录27.09/.80430.02/.81425.87/.78430.09/.907TTSR25.53 / .76528.59 / .77424.62 / .74728.70 / .886方法HASALTEPSNR/SSIM基地基础+HAC26.34 /.78026.59 /.786基础+HA+SACC26.81 /.795基础+HA+SA+LTECCC26.92 /.7975798地面实况RDN [40]RCAN [39]RSRGAN [38]参考CrossNet [43]SRNTT [41]TTSR(我们的)图5. CUFED5测试集(前三个示例)、Sun80 [26](第四个示例)、Urban100 [11](第五个示例)和Manga109 [20](最后一个示例)上的不同SR方法之间的视觉比较。这使性能提高到26。81. 当用所提出的LTE替换VGG时,PSNR最终增加到26。92,证明了联合特征嵌入在LTE中的优越性。为了进一步验证我们的LTE的有效性,我们使用硬注意力图转移原始图像。期望更好的特征表示能够更准确地从原始图像中提取图6显示了SRNTT中VGG19传输的原始图像,TTSR中的LTE。在该图中,TTSR可以传输更准确的参考纹理,并生成全局有利的结果,这进一步证明了我们的LTE的有效性。跨尺度特征集成。在纹理之上Transformer,CSFI可以进一步实现纹理恢复,different resolution scales (1×, 2× and 4×).我们在表3中进行了消融研究。第一行显示了我们的模型的性能,只有TT,而第二行证明了 CSFI 的有效性,它带来了0。175799GT参考Base-rec基地TTSR-recTTSRGTGT GT SRNTT TTSR(我们的)图6. SRNTT和TTSR之间传输的原始图像的比较。图7.“碱基(- rec)”和TTSR(- rec)的定性比较增加PSNR度量。为了验证性能的提高不是由参数的增加带来的,我们将“Base+TT”模型的通道数如我们所看到的,具有与“Base +TT+CSFI”几乎相同的参数的“Base+TT(C80)”几乎没有生长。即使我们将参数数增加到9。10M获得“Base+TT(C96)”机型,仍有性能差距。这表明CSFI可以有效地利用参考纹理信息与一个相对较小的参数大小。对抗性损失。为了确保感知质量的改善受益于模型设计,而不是对抗性损失。我们在“基地”之间进行消融-rec图7显示,即使没有感知和对抗性损失,TTSR-rec仍然可以利用Ref图像并恢复比“Base-rec“更多的细节启用所有损耗后,TTSR可实现最佳视觉效果。转移性知觉丧失。传递感知损失将预测的SR图像和传递的图像T之间的LTE 如图8所示,使用该损失能够以更有效的方式转移纹理,从而实现视觉上令人愉悦的结果。此外,这种损失还将TTSR的定量指标PSNR和SSIM从25. 20/. 757到2553/. 七六五不同参考相似度的影响。为了研究LR和Ref图像之间的相关性对TTSR结果的影响,我们在CUFED 5测试集上进行了实验,该测试集包含不同相关性的参考图像图8.在没有(顶部)和具有(底部)转移感知损失的情况下训练的TTSR之间的比较。表4.不同相似度参考图像的消融研究水平CrossNetSRNTT-记录TTSR-记录L125.48 /.76426.15 /.78126.99 /.800L225.48 /.76426.04 /.77626.74 /.791L325.47 /.76325.98 /.77526.64 /.788L425.46 /.76325.95 /.77426.58 /.787LR25.46 /.76325.91 /.77626.43 / .782程度.表4显示了五个相关性水平的结果,其中“LR”表示使用输入图像本身作为参考图像。如表4所示,使用L1作为参考图像的TTSR实现了最佳性能。当使用LR作为参考图像时,TTSR仍然比先前的最先进的RefSR方法执行得更好。5. 结论本文提出了一种新的用于图像超分辨率的纹理转换网络(TTSR),它将高分辨率图像的纹理从参考图像转换到低分辨率图像。所提出的纹理Transformer包括一个可学习的纹理提取器,它学习一个联合特征嵌入,用于进一步的注意力计算和两个基于注意力的模块,从Ref图像传输HR纹理。此外,所提出的纹理Transformer可以以跨尺度的方式与所提出的CFI模块堆叠大量的实验证明了我们的TTSR在定量和定性评估方面优于最先进的方法在未来,我们将进一步扩展所提出的纹理Transformer到一般的图像生成任务。鸣谢本论文部分得到国家自然科学基金资助(No.61772330、61533012、61876109),研究项目(不。61403120201)、上海市犯罪现场证据重点实验室(2017XCWZK01)和上海交通大学跨学科项目(YG2019QNA09)。5800引用[1] 维韦克·布米纳坦,考希克·米特拉,阿肖克·维拉伽·凡.使用混合成像系统改进光场相机的分辨率和景深。在ICCP,第1- 10页[2] Tao Dai,Jianrui Cai,Yongbing Zhang,Shu-Tao Xia,and Lei Zhang.单幅图像超分辨率的二阶注意力网络。在CVPR中,第11065-11074页[3] Chao Dong , Chen Change Loy , Kaiming He , andXiaoou Tang. 使用 深度卷积 网络的图 像超分 辨率。TPAMI,38(2):295[4] Chao Dong,Chen Change Loy,and Xiaoou Tang.加速超分辨率卷积神经网络。ECCV,第391-407页,2016年[5] 吉拉德·弗里德曼和拉南·法塔勒图像和视频从本地自我的 例 子 升 级 。 ACM Transactions on Graph-ics(TOG),30(2):1[6] William T Freeman,Ellis R Jones和Egon C Pasztor。基于 示 例 的 超 分 辨 率 。 IEEE Computer Graphics andApplications,22(2):56[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS,第2672-2680页[8] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。NeurIPS,第5767-5777页,2017年[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[10] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger. 密集连接的卷积网络。在CVPR中,第4700-4708页[11] Jia-Bin Huang,Abhishek Singh,and Narendra Ahuja.从变换的自我样本的单个图像超分辨率。在CVPR中,第5197-5206页[12] Michal Irani和Shmuel Peleg。通过图像配准提高分辨率。CVGIP,53(3):231[13] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。ECCV,第694-711页,2016年[14] Jiwon Kim,Jung Kwon Lee,and Kyoung Mu Lee.使用非常深的卷积网络实现精确的图像超分辨率。CVPR,第1646-1654页,2016年[15] Jiwon Kim,Jung Kwon Lee,and Kyoung Mu Lee.用于图像超分辨率的深度递归卷积网络。在CVPR,第1637-1645页[16] Chri s tianLedig , LucasTheis , FerencHus za'r , Jo seCaballero , Andrew Cunningham , Alejandro Acosta ,Andrew Aitken,Alykhan Tejani,Johannes Totz,ZehanWang,et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在CVPR中,第4681-4690页[17] Bee Lim , Sanghyun Son , Heewon Kim , SeungjunNah,and Kyoung Mu Lee.用于单图像超分辨率的增强深度残差网络在CVPR研讨会,第136- 144页5801[18] Ding Liu , Bihan Wen , Yuchen Fan , Chen ChangeLoy,and Thomas S Huang.用于图像复原的非局部递归网络。在NeurIPS,第1673-1682页[19] Shuang Ma,Jianlong Fu,Chang Wen Chen,and TaoMei. Da-gan:深度注意力生成对抗网络的实例级图像翻译。在CVPR中,第5657- 5666页[20] Yusuke Matsui 、 Kota Ito 、 Yuji Aramaki 、 AzumaFujimoto 、 Toru Ogawa 、 Toshihiko Yamasaki 和Kiyoharu Aizawa。使用manga109数据集进行基于草图的漫画检索。Multimedia Tools and Applications,76(20):21811[21] Ozan Oktay , Wenjia Bai , Matthew Lee , RicardoGuerrero , Konstantinos Kamnitsas , Jose Caballero ,Antonio de Mar- vao,Stuart Cook,Declan O'Regan,and Daniel Rueckert.使用卷积神经网络的多输入心脏图像超分辨率。在MICCAI,第246-254页[22] Mehdi SM Sajjadi,Bernhard Scholkopf,and MichaelHirsch. Enhancenet:通过自动纹理合成实现单幅图像超分辨率。在ICCV,第4491-4500页,2017年。[23] WenzheShi,JoseCaballero,FerencHusza'r,JohannesTotz,Andrew P Aitken,Rob Bishop,DanielRueckert,and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在CVPR,第1874-1883页[24] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。[25] Ke Sun,Yang Zhao,Borui Jiang,Tianheng Cheng,Bin Xiao,Don
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功