深度注意残差组图像修复算法及其应用

66 浏览量更新于2024-01-18 收藏 1.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报DARGS：基于深度注意残差组和语义的图像修复算法陈远涛a，刘伟，夏润龙b，杨凯c，邹克da湖南信息工程大学计算机科学与工程学院，湖南长沙410151b岳麓山养殖创新中心有限公司，湖南长沙410000，中国c湖南中联智能科技股份有限公司，湖南长沙410005d湖南五洲高新材料股份有限公司，中国湖南娄底417000阿提奇莱因福奥文章历史记录：2023年1月17日收到2023年3月22日修订2023年4月19日接受2023年4月25日在线发布保留字：图像修复深度学习深度注意力残差组语义网络A B S T R A C T针对现有图像修复方法缺乏真实性、不能灵活处理缺失区域和非缺失区域信息、不能有效处理图像不同阶段的特征信息等问题，提出一种结合语义先验和深度注意残差组的图像修复方法。图像恢复方法主要包括语义先验网络、深度注意残差组和全尺度跳跃连接。语义先验网络学习缺失区域中视觉元素的完整语义先验信息，并使用学习到的语义信息来完成缺失区域。深度注意残差集允许生成器不仅更多地关注图像的缺失区域，而且还可以自适应地学习每个通道的特征。全尺度跳跃连接可以将包含图像边界的低级特征图与包含图像纹理和细节的高级特征图相结合，以修复丢失的区域。在CelebA-HQ和Paris StreetView数据集上进行了充分的对比实验，实验结果表明，该方法优于目前具有代表性的图像恢复方法。版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍图像修复是指利用图像中未受损区域的已知信息，通过一定的推理，在受损区域合成替代内容。这些替代内容需要语义正确，符合人类视觉需求，图像修复技术具有很大的应用价值。近年来，基于深度学习的图像修复方法在某些场景下取得了良好的效果（例如，照片编辑、文物修复、去模糊和电影特效制作）。然而，当存在大面积的缺失图像时，这些方法仍然存在问题*通讯作者。电子邮件地址：chenyt@hnuit.edu.cn（Y. 陈）。沙特国王大学负责同行审查制作和主办：Elsevier如图像修复后的内容模糊、语义缺失等。为了解决上述问题，早期的图像修复工作集中在纹理合成技术。这些方法使用最近邻搜索来复制相关图像块，并使用来自现有区域的图像块来填充缺失区域。然而，由于无法从图像中获得高级别的语义，当在未损坏的区域中没有可用的重复纹理时，它们的表现很差近年来，深度卷积网络已被应用于解决图像修复问题。大多数现有的基于深度学习的修复方法依赖于编码器-解码器来推断缺失图像区域的上下文，然后基于非缺失区域的图像特征来推断缺失区域的纹理这些图像修复方法通常使用局部区域中像素的相关性来修复受损区域，但只有在缺失区域较小时才能达到良好的效果（Dolhansky和Ferrer，2018）。例如，Nazeri等人（Portenier等人，2018）提出了EdgeConnect网络，该网络首先使用边缘生成器来生成缺失图像的边缘，然后使用边缘作为先验来完成图像的缺失区域。Xiong等https://doi.org/10.1016/j.jksuci.2023.1015671319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comY. 陈河，巴西-地Xia，K.Yang等人沙特国王大学学报2（Jo和Park，2019）将模型分为两部分，首先预测前景轮廓，然后基于预测的前景轮廓执行区域Li等人（Dong等人， 2021）在第一阶段中基于视觉几何组网络模型用轻量级双向级联边缘检测网络（BDCN）提取图像边缘，然后基于U-Net恢复丢失的边缘（Han等人，2019年）。Hu等人（Bescos例如，2019）使用边缘结构生成器学习输入图像的边缘特征和颜色平滑信息，生成缺失区域的结构内容，指导精细网络重构高质量的语义图像。然而，两阶段修复方法的性能严重依赖于第一阶段重建的结构，导致边缘或轮廓的不可靠性增加，这对第二阶段的图像生成是不利的。为了解决这个缺点，Li等人（Uittenbogaard等人，2019）提出了一种单阶段的视觉结构渐进重建（Progressive Reconstruction of VisualStructure，PRVS）网络，在编码器-解码器中分别部署两个视觉结构重建层，以生成不同尺度的结构信息，并通过将结构信息逐渐融合到特征中，使用GAN输出基于GAN的合理结构。然而，PRVS倾向于生成镶嵌纹理，并且图像修复结果具有不真实的纹理。Song等人（Pathak等人，2016）提出了一种分割预测和引导修复网络（SPG-Net），其使用语义分割信息来修补图像的缺失区域，其首先提取和重建。该算法首先提取并重构图像分割图，然后利用图像分割图对图像进行引导。由于分割图中包含了有用的语义信息，SPG-Net与没有分割图的方法相比，能有效地提高嵌入性能。然而，不同的语义具有不同的先验分布，不同的语义区域会导致区域像素的缺失，因此以SPG-Net为代表的基于上下文的方法对不同的语义进行统一映射往往会导致不真实的语义内容。针对这一问题，本文引入了多尺度语义先验，首先提取图像的多尺度底层特征，并分别利用编码器和语义先验网络学习高层语义先验获得全局上下文表示，然后将学习到的语义先验空间注入到图像特征中，利用语义指导缺失区域的生成。此外，引入多尺度交叉熵损失来约束像素在各尺度上的预测类分布与目标类分布之间的距离，以帮助图像修复。许多现有的图像修复网络都是用复杂的网络结构来提高图像修复性能（Yuan等人，2022），诸如作为骨干网络的两级U-Net（Yu等人，2018），并提出了一个连贯的语义注意力层来建模缺失部分特征之间的关联，以预测图像的缺失部分。 Liu等人（Yi等人，2020）提出了通过深度编码器-解码器来在空白区域上生成结构和纹理的Deflocnet。Zhang等人（Liu等人，2019）提出了用于高质量图像恢复的残差通道注意力网络和残差非局部注意力网络。本文在此基础上，为了加深网络，使其更集中于图像的缺失区域，提出利用剩余注意力和剩余块构造双残差，形成深度注意力残差集，不仅可以构造更深层次的网络，而且可以利用注意力自适应地提取信道信息.图像修复任务中的经典编码器-解码器结构在编码和压缩过程期间丢失了大量详细信息（Yu等人， 2019年）。要获得更多信息，Mao等人（Sagong等人， 2019）在一组对称编码器-解码器组中引入了密集跳跃连接以最大化语义提取。 Yang等人（Ren等人， 2019）提出了一种端到端的图像修复模型，该模型基于具有密集连接块的U-Net结构，以实现具有任意模板的语义人脸图像。这些方法（Nayak和Ansari，2021; Nayak等人，2020; Abu-Srhan等人，2022）通过添加跳跃连接将编码器的每一层的特征连接到解码器的对应层，但跳跃连接结构缺乏从全尺度探索足够信息的能力（ Agarwal 等人， 2019 年 ; Yuan 等人， 2022; Aminuddin 和Ernawan，2022）。因此，本文提出了一种全尺度跳跃连接，将全尺度特征的低级语义信息与高级语义信息相结合，从而有效地将低级特征图与高级特征图相结合，用于缺失图像的修复。本文的主要贡献如下。(1) 语义先验网络是一种兼顾多尺度下局部纹理一致性和全局语义一致性的上下文图像修复模型，通过语义先验指导图像特征，并利用交叉熵损失约束像素的预测类分布与目标类分布之间的距离，从而提高图像修复性能。(2) 提出的深度注意力残差集使网络能够自适应地学习更深网络中不同通道中的特征，不仅具有跨通道学习能力，而且能够适应更深的网络结构。(3) 采用全尺度跳跃连接，将不同尺度下特征图的低层细节与高层语义相结合，从而提供多层次、多尺度的语义信息。2. 建议网络2.1. 网络结构所提出的结合语义先验和深度注意力残差的图像修复网络的总体结构如图1所示，其由生成器和搜索器组成，其中生成器由五个模块组成：编码器、语义先验网络（SPN）、深度注意力残差组（DARG）、解码器和全尺度跳过连接（FSSC）。本文中图像修复网络的工作流程如下：首先输入缺失图像，编码器提取多尺度图像特征，语义先验网络提取多尺度图像语义先验，将多尺度图像特征然后将获得的图像特征发送到深度注意力残差组，以进一步增强缺失区域和每个通道的特征，然后将增强的图像特征发送到解码器用于图像生成，最后将生成的图像馈送到频谱归一化（Li等人，2019）和马尔可夫判别器（Liao et al.，2018），用于生成器对抗训练，以确定对训练器的输入是由生成器生成的真实样本还是假样本。本文重点研究了影响生成器整体性能的语义先验网络、深度注意力剩余集、满尺度跳跃连接和约束语义先验网络的多尺度交叉熵损失，并详细介绍了这四个模块的组成和工作原理。Y. 陈河，巴西-地Xia，K.Yang等人沙特国王大学学报3c×H×WMFig. 1.建议网络。2.2. 语义先验网络为了使图像修复结果更加真实，并充分利用缺失区域的信息量，提出了一种语义先验网络，该网络可以在预先训练好的深度神经网络的监督下学习缺失区域视觉元素的完整语义先验信息，更好地提取图像特征，并从图像的缺失区域中学习语义信息学习语义信息并使用所学习的语义信息来填充缺失区域。由于不同语义的先验分布不同，不同语义区域对缺失区域像素的贡献也不同，因此采用多尺度语义先验来获得不同语义的先验分布以及不同语义区域对缺失区域像素的贡献首先，通过语义先验网络获得多尺度语义先验，编码器获得多尺度然后，将得到的多尺度语义先验和多尺度图像特征与同一尺度对应的语义先验和图像特征进行融合。最后，将各尺度下的融合特征进行融合，并发送到深度注意残差集进行图像恢复。编码器的输入是有缺失区域的图像Im，其作用是学习没有缺失区域的图像的图像特征Fm。在语义先验网络阶段，为了保留更多的局部结构，首先对具有缺失区域的图像Im和缺失图像的对应掩码M进行上采样，得到Ime和Me，并将Ime和Me通道合并后的图像特征Fim作为语义先验网络的输入。因此，多尺度图像特征Fms和Fml可以由编码器学习，并且多尺度语义先验Fss和Fsl可以由语义先验网络学习。具体计算方法如下。在语义先验网络阶段，为了保留更多的局部结构，首先对具有缺失区域的图像Im和缺失图像的对应掩码M进行上采样，并且将上采样图像和掩码的通道合并之后的图像特征Fim用作语义先验网络的输入，并且语义先验网络学习输入特征Fim的语义先验Fs。Fms;Fml¼EmFss;Fsl¼S其中，Im2R3×H×W，M2Rl×H×W，Ups表示上采样，Concat表示信道合并，Ime2R3×2H×2W，Me2Rl×2H×2W，Fim2R4×2H× 2W，Em·h表示网络编码阶段，Sm·h表示网络语义先验阶段，则Fms，Fss2R2c×H=4×W=4 ，Fml，Fsl2R，共同地，学习的语义先验是Fs，图像特征是Fm。理论上，学习到的语义先验Fs可以帮助图像特征Fm进行图像恢复，但编码阶段得到的图像特征Fm和语义先验Fs针对图像内容的不同方面，直接将图像特征Fm与语义先验Fs进行特征融合会影响编码器的学习过程，干扰非缺失区域纹理的定位.空间自适应归一化（Spade）（Xiong等人，2019）可以基于输入图像和语义图来指导具有语义信息的图像的合成，因此，在本文中，空间自适应归一化模块Spade用于基于针对图像特征F m的学习的语义先验来指导具有语义信息的图像的合成。生成图像的缺失区域以帮助恢复全局和局部内容。具体地，Spade首先使用非参数实例归一化IN（Nazeri等人，2021），然后从语义先验Fs中学习两个不同的参数集以对图像特征Fm执行空间像素仿射变换，其计算如下：½c;b]¼SpadeFs30 1/4c·INFm b4其中，Spade是空间自适应归一化模块，c和b是从语义先验Fs中学习的两组参数，IN代表实例归一化。利用Eqs融合多尺度图像特征 Fms、 Fml和多尺度语义先验Fss、Fsl。（3）和（4）得到多尺度语义信息下的图像特征F0ms、F0mlFY. 陈河，巴西-地Xia，K.Yang等人沙特国王大学学报4.Σ2.ΣF0m¼F0ms，含F0ml，含5ml其中， F0ms2R2c×H=4×W=4 ， F0ml2Rc×H×W ，通过 Conv 改变特征图的通道、高度和宽度，使得F0ms和F0ml可以以相同的比例求和。最终融合到多个尺度的信息F0m被输入到深度注意残差集以用于图像生成。为了在多尺度语义先验阶段约束像素在各尺度上的预测类分布与目标类分布之间的距离，并通过对各损耗项的不同加权得到网络的总损耗。语义先验网络工作流在下面的表12.3. 深度注意剩余群对于图像修复网络，深度残差网络可以更好地利用通道特征，灵活地处理丢失和非丢失区域中的信息注意力机制可以通过告诉模型需要更多注意什么和哪里来增强模型的性能，其中通道注意力可以通过考虑通道之间的相互依赖性来自适应地重新调整特征协调注意力（Iizuka等人，2017），一种新型的通道注意力，不仅捕获通道间信息，而且捕获方向感知和位置感知信息，帮助模型更精确地定位和识别感兴趣为此，本文引入了深度注意力残差集，使生成器网络不仅能够更加关注图像的缺失区域，而且能够自适应地学习各个通道的特征，关注更有用的通道特征，构建更深层次的网络。所提出的深度注意力残差块如图所示。二、在图2中，F0m是语义先验网络和编码器的多尺度融合的输出，Xm是通过深化网络通过由Conv、Relu、Conv和输入组成的残差块（RB），然后Xm被输入到DilaConv Resnet块（DCRB），随后是协调注意残差其中，RB为残差块，H DCRB为膨胀卷积残差块，H CA为协调注意块，H CARB为注意残差块，HCONV为3 × 3卷积，H DARG为深度注意残差组。研究发现，在深度注意残差组中引入过多的残差块会导致网络训练不稳定，因此本文在残差块求和之前引入一个卷积，使网络训练更加稳定。使用注意力残差块和深度注意力残差组来形成残差内的残差，使网络能够适应更深的结构。深层注意力残差组内的长连接和注意力残差块内的短连接都可以通过常数映射将丰富的信息反向传播，保证了网络中信息的流动。2.4. 满刻度跳跃连接为了使网络能够更好地利用网络空间不同阶段的图像特征信息，减少编码部分下采样过程造成的部分信息损失，并结合未缺失区域进一步提取缺失部分的信息，本文在编解码器部分增加了全尺度跳跃连接，将来自全尺度特征的低层语义信息与高层语义信息相结合，从而结合低层特征映射（其包含图像的边界）和高级特征图（其包含图像的纹理和细节）被组合以修复图像的丢失区域。全尺度意味着解码器的每一层合并来自编码器的较小且相同尺度的特征图和来自解码器的较大尺度的特征图将卷积后的编码器各尺度图像特征分别设为Fel、Fem和Fes，解码器各尺度图像特征分别设为Fdl、Fdm和Fds，经满尺度级联后可计算出解码器各尺度图像特征F0dl、F0dm和F0ds使用以下公式。块（CRB）。然后将Xm输入到DilaConv Resnet Block（DCRB），然后通过协调注意力获得Ym，最后F0ds ¼FdsFesConv1第八节由构成注意力残差块（CARB）的残差块输出所获得的Ym。深度注意力残余F0dm ¼Fdm FemÞ ð9Þ组（DARG）由输入F0m、八个CARB和一个卷积组成。F0dl ¼Fdl 萨夫埃尔DeConv.ds2010年10月HCARB¼R B.HC A.HDCR B.RB.F 0m6HDARG¼HCONV8×HCARBF0m7式中，Fds，Fes2R2c×H=4×W=4，Fdm，Fdm，Fem2Rc×H=2×W=2，Fdl，Fdl，FelRc=2×H×W;Conv 1是一个二维卷积，具有128个输入通道，256个输出通道，卷积核为1，步长为2。 Conv2是一个二维卷积，表1Al出租m 1.输入：损坏的图像Im和掩码M输出：特征融合F0m步骤1：上采样：Ime2; 3; 512; 512，Me2;1; 512; 512←resizeIm;512; 512，resizeM;512; 512，Me2; 3; 256 ; 256，Me2; 1; 256; 256;步骤2：通道合并：Fim2; 4; 512; 512←concatIme;Me;步骤3：特征提取Fml：Fml2; 128; 256; 256←convrelubnconvIm，Fml2; 64; 256; 256。步骤4：特征提取Fms：Fms2; 256; 64; 64←relubnconvrelubnconvFml，Fml2; 64; 256; 256.步骤5：特征提取Fsl：Fsl2;128; 256; 256←lreluconvlreluconvFsl，Fim2; 4; 512; 512.步骤6：特征提取Fss：Fss2; 256; 64; 64←lreluconvlreluconvFsl，Fsl2; 128; 256; 256.步骤7：通道编号Fml：Fml2; 128; 256; 256，convFml，Fml2; 64; 256; 256。步骤8：F0ms和F0ml：F0ms2; 256; 64; 64，F0ml2; 128; 256; 256 ←spadeF sl; F ml，spadeF ss; F ms。第9步：更改通道编号F0ml：Fm l2;25 6;64;64←co nvF0ml，Fm0l2;12 8;25 6;25 6。第10步：图像特征F0m <$2; 256; 64; 64 <$<$← F0ms<$F0ml。步骤11：返回F0m.Y. 陈河，巴西-地Xia，K.Yang等人沙特国王大学学报5.ΣPP.- 是的Σ¼¼图二. 深度关注残余集团。64个输入通道，256个输出Conv 2是一个2维卷积，输入通道为64，输出通道为256，卷积核为1，步长为4。卷积v3是一个2维卷积，输入通道为64，输出通道为128，卷积核为1，步长为2。DeConV是一个二维解卷积器，输入通道为256，输出通道为64，卷积核为4，步长为4。全尺度跳跃连接的引入使网络能够以全尺度捕获细粒度细节和粗粒度语义，从而允许获得更多的上下文信息以用于图像缺失区域的修复。2.5. 损失函数损失函数包括图像丢失区域和语义先验的损失项本文采用重构和对抗性损失对整个网络模型进行训练，并采用多尺度交叉熵损失对语义先验进行约束。输入的丢失图像由修复网络恢复为Imer。Imer¼IpreMIgt1-M11其中，Ipre是生成器之后获得的预测图像，Igt是真实图像，M是二值掩模，并且m表示Hadamard乘积。Imer是将图像修复网络后的预测图像与真实图像相结合而生成的图像。重建损失：对于重建损失Limg，本文对重建图像使用L1损失，以更关注缺失区域的内容。类分布，用于惩罚每个尺度上每个位置处每个像素的偏差。Ls s。Ss;Ss ss-Xln.向上。苏苏苏i2sSLS L。S l;Ss l1/4-Xln.向上。SSL15i2lS式中，Lss S s;Sss为在Sss和Ss2R2c×H=4×W=4 下上采样得到的交叉熵损失。 LS L。是十字架-在Ssl，Sl2Rc×H=2×W=2下通过上采样获得的熵损失，Ups表示上采样，并且i表示语义中的每个像素tic先验图，Sl.语义先验的总损失是多个尺度上的交叉熵损失的加权和。LsS;Ss¼a1LssSs;Sssa2Ls l。Sl;Ssl16其中，一名10：5和20：5。总损失：所提出的网络的总损失被定义为上述多尺度重建损失、对抗损失和多尺度交叉熵损失的加权和。Ltotal¼k1Limgk 2Ladvk 3Ls17其中，k1、k2和k3分别为重构损失、对抗损失和多尺度交叉熵损失的权重。通过实验确定了k1 1/41： 0、k2 1/40： 1和k3 1/40：Limg<$kIgt-Imerk12Þ1 =n我jMij其中，n^256，i^256，j^256。对抗性损失：使用对抗性损失Ladv来训练网络，以生成更合理的局部细节。3. 实验结果及分析3.1. 实验数据集和设置LadvEIgt ln D.IggthurryI预在这里。1-DIpre13我们使用Pytorch来实现所提出的网络结构，通过水平翻转来增加数据，占总训练的1/2。其中，D为多尺度交叉熵损失：对于语义先验，我们使用多尺度交叉熵损失来约束所有尺度上像素的预测类分布与目标设置。我们用10个epoch训练网络，batchsize等于2，并使用Adam优化器，动量参数为0.9，初始学习率为0.001。实验是在AMD R5CPU和RTX 3060 GPU的计算机上完成的。Y. 陈河，巴西-地Xia，K.Yang等人沙特国王大学学报6××~~~××~~~--~3.2. 训练和测试本文选用CelebA-HQ数据集和巴黎街景数据集对模型进行评价，数据集信息如下。CelebA-HQ数据集（Goodfellow等人，2014年）：CelebA-HQ总共包含30，000张图像，每张图像包含人脸特征点（每张图像的分辨率为1024 × 1024，我们使用27，000张图像进行网络训练，3000张图像进行网络测试。巴黎街景数据集（Hui等人，2021年）：巴黎街景数据集包含足够的结构信息，如窗户，门和一些巴黎风格的建筑，图像分辨率为936537。巴黎街景数据集由15，000张图像组成，其中14，900张用于网络训练，100张用于测试。对于来自CelebA-HQ数据集和巴黎街景数据集的图像，我们将其分辨率调整为统一的256256.掩模是中心区域为128的白色掩模128和白色随机掩模，掩模比率为10% 20%、20% 30%和三成四成。为了验证本文算法的有效性，我们对Paris Street View数据集使用中心掩码，对CelebA-HQ数据集使用中心掩码和随机掩码，并选择以峰值信噪比（PSNR）、结构相似度（SSIM）和L1损失作为评价指标进行定量比较。PSNR基于对应像素点之间的误差，即，误差敏感的图像质量评价。SSIM是一种全参考图像质量评价指标，它分别从亮度、对比度和结构方面衡量图像的相似性。L1损失是为了保证像素级的重建精度，可以保持颜色和亮度。PSNR和SSIM值越高表示网络性能越好，L1损耗值越低表示网络性能越好3.3. 实验结果与比较在本文中，该方法将CelebA-HQ 数据集与 Paris街景数据集在PSNR、SSIM和L1 Loss值的中心掩模上进行比较，并将CelebA-HQ数据集在PSNR、SSIM和L1 Loss值的不同尺度掩模上进行比较，并且我们将所提出的方法与先进的PRVS、DSNet（Li等人， 2020）、RFR[23]和RN（Zeng等人，2019）算法，用于比较客观指标与主观修复结果，其中PRVS，DSNet和RN都是基于GAN的恢复方法，RFR是基于CNN的恢复方法。不同恢复方法在CelebA-HQ和Paris街景数据集上的客观度量实验结果如表2和表3所示，不同方法在CelebA-HQ和Paris街景数据集上的主观恢复结果如图3、图4和图5所示。五、(1) 客观实验结果和对比分析表2中的结果表明，PRVS、DSNet、RFR和RN具有其中PSNR和SSIM最高，L1损失最小CelebA-HQ数据集中的方法PRVS、DSNet、RFR和RN四种方法在Paris Street View数据集上的PSNR和SSIM与在巴黎街景数据集上，与RN相比，PSNR和SSIM分别提高了0.545和0.8%，L1损失降低了0.1%在表3中，10% 20%、20% 30%和30% 40%分别代表随机掩蔽比。如表3所示，当掩模比为10%~ 20%时，不同方法的实验结果差异很大，随着掩模比的增加，不同方法的实验结果之间的差异逐渐减小。在随机掩码实验中，PRVS、DSNet、RFR和RN四种方法中，RN的PSNR和SSIM最高，L1损失最小与RN相比，当随机掩码为10%-20%时，CelebA-HQ数据集的PSNR和SSIM分别提高了0.889和0.8%，L1损失降低了0.07%。当随机掩模为20%~ 30%时，PSNR和SSIM分别提高了0.742和1.0%，L1损失降低了0.1%。当随机掩码为30%~ 40%时，PSNR和SSIM分别提高了0.742和1.0%，L1损失降低了0.1%。当随机掩码为30%~ 40%时，PSNR和SSIM分别提高了0.797和1.6%，L1损失降低了0.18%。(2) 主观实验结果与对比分析主观视觉对比不同的实验结果使用中心掩码的CelebA-HQ数据集上的方法是如图3所示。其中，（A）gt是真实图像，（B）输入是丢失图像，（C）PRVS，（D）DSNet，（E）RFR和（F）RN分别代表不同方法的结果，（G）我们的是本文的结果。我们可以看到PRVS、RFR和RN的结果都有不同程度的模糊，而本文的结果比这些方法的结果更清晰。DSNet的结果与本文的结果在视觉上的差异较小，我们将在图中局部放大后进行深入的对比分析。六、图4显示了使用中心掩模对巴黎街景数据集进行的不同方法结果的主观视觉比较。可以看出，本文算法的结果相比于其他算法在屏蔽窗口部分可以清晰地看到窗口的轮廓，而其他方法的结果窗口轮廓相对不清晰。在CelebA-HQ数据集上使用随机掩码的不同方法的结果的主观视觉比较如图所示。 5，从上到下三行的掩模比率分别为10%至20%、20%至30%和30%至40%。在掩模比例为10%~ 20%时，所有方法都能较好地填充缺失区域。在20%~ 30%的掩模比例下，其他方法在人脸右下角区域都有一些缺失和模糊的区域，而本方法可以完成人脸的右下在30%~ 40%的掩模比例下，PRVS、RFR和RN均能清晰地看到未完成区域，与DSNet结果无显著表2不同数据集上中心掩模修复结果的比较。网络CelebA-HQ巴黎街景PSNR“SSIM“L1损失;PSNR“SSIM“L1损失;PRVS（Uittenbogaard等人， 2019年度）26.5130.8920.015925.0140.8510.0210DSNet（Li等人， 2020年）26.3470.8860.016124.8290.8450.0213RFR（Liu等人， 2018年）26.0770.8820.017324.7120.8400.0215RN（Zeng等人， 2019年度）26.2510.8910.016525.3120.8610.0204提出27.0060.9040.015025.8570.8690.0194Y. 陈河，巴西-地Xia，K.Yang等人沙特国王大学学报7表3不同数据集上随机掩模修复结果的比较。网络10%~20%20%~30%30%~40%PSNR“SSIM“L1损失;PSNR“SSIM“L1损失;PSNR“SSIM“L1损失;PRVS（Uittenbogaard等人， 2019年度）31.1730.9390.007128.1250.8950.012426.2790.8620.0176DSNet（Li等人， 2020年）31.7390.9460.006428.4570.9020.011926.3210.8610.0177RFR（Liu等人， 2018年）31.4250.9410.006828.3040.8990.015126.2960.8610.0176RN（Zeng等人， 2019年度）32.3030.9550.006029.1570.9210.010826.7120.8770.0168提出33.1920.9630.005329.8990.9310.009827.5090.8930.0150图3.第三章。在CelebA-HQ数据集上修复中心掩码的结果图四、巴黎街景数据集上中心蒙版的修复结果图五、在CelebA-HQ数据集上修复随机掩码的结果(3) 主观实验结果的局部对比分析从图3-图5的主观实验结果和对比分析可以看出，本文方法的主观结果与PRVS、RFR和RN相比有更明显的改善和增强，但与DSNet结果的视觉差异较小，因此我们将DSNet和本文方法的实验结果进行了局部缩放比较，如图所示. 六、图6可以分别示出整体真实图像、局部真实图像、局部真实图像的DSNet修改结果以及本文方法的结果。绿色框表示真实图像的缺失部分，蓝色框表示真实图像与DSNet和本文结果之间的差异。在第一排实验结果中，该方法的结果整体上比较模糊，而DSNet整体上比较清晰。但与原始图像相比，该方法对关键细节的恢复更接近原始图像，如鼻子、鼻孔和右侧的恢复Y. 陈河，巴西-地Xia，K.Yang等人沙特国王大学学报8~~~--见图6。 DSNet和建议的网络之间的本地主观版本比较。咬肌的位置在第二行中，DSNet恢复结果仍然比该方法更清晰，但是DSNet显示了原始图像中不存在的线条和纹理。在第三行中，两种方法之间的主观视觉没有显著差异。在第四行中，人物右脸颊的纹理优于DSNet，两种方法的修复结果没有显著差异。在第五行中，两种方法的主观视觉没有显著差异。总体而言，本文的修复效果优于DSNet。3.4. 培训过程分析1) 训练过程损失曲线训练过程中的G_L1_Loss和G_Loss曲线如图所示。 7和图8 .第八条。巴黎中心，CelebA-HQ-CelebA-HQ-30 40、CelebA-HQ-20 30、CelebA-HQ-10 20和CelebA-HQ- center表示使用中心掩码训练网络的巴黎街景数据集，CelebA-HQ数据集使用30% 40%、20% 30%、10% 20%随机掩码比率和CelebA-HQ数据集的中心掩码。在本文中，网络训练了10个epoch，每个时期的平均损耗被视为当前时期的损耗值。从图7和图8中可以看出，随着网络训练epoch数的增加，网络的G_L1_Loss和G_Loss逐渐减小并收敛。2) 相关技术指标的迭代曲线本文使用CelebA-HQ数据集的3000张图像对每个历元保存的模型进行验证，得到每个历元的PSNR、SSIM和L1 Loss迭代曲线，如图9所示，图 10和图 11，这表明PSNR和SSIM随着epoch数的增加而逐渐增加并收敛，并且L1 Loss逐渐减小并收敛。3.5. 消融实验1. 每个模块本文以编码器/解码器构成的生成器为基础网络（Baseline），在CelebA-HQ和Paris街景数据集上使用中心掩码进行消融实验，并在基础上添加不同的Y. 陈河，巴西-地Xia，K.Yang等人沙特国王大学学报9×见图7。训练过程G_L1_损失曲线。见图8。训练过程G_Loss曲线。网络，分别验证各个模块的有效性，p表示使用该模块，p表示未使用该模块。实验结果如表4所示，实验结果的增加如表5所示，其中SPN代表语义先验，Muloss代表多尺度交叉熵损失，DARG代表深度注意力残差组，FSSC代表全尺度跳跃连接。从表5可以看出，PSNR和SSIM增加，见图9。 PSNR迭代曲线。见图10。 SSIM迭代曲线CelebA-HQ数据集使用中心掩码，在编码器/解码器组成的生成器中加入深度注意力残差组（DARG）和全尺度跳跃连接（FSSC）作为底层网络，并对语义先验和编码器融合后的两尺度图像特征F0ms2R2c×H=4×W=4和F0ml2Rc×H×W分为三种情况，在基础网中加入每个模块后，L1损耗降低工作，证明将每个模块添加到基础网络烧蚀实验，即F0ms2R2c×H=4×W= 4，F0ml2Rc×H×W，对网络进行了改进，验证了各模块的有效性2. 语义先验和编码器的多尺度融合消融实验为了验证语义先验和编码器多尺度融合的有效性，在F 0ms=F 0ml2R2c×H=4×W=4，F 0ms=F 0ml 表示将不同尺度的两个图像特征融合到同一尺度。实验结果示于表6中。从表 6 中的实验结果可以看出，加入的图像特征F0ms2R2c×H=4×W= 4，语义先验和编码器融合到基础网络减少0.014，SSIM增加0.3%，L1Y. 陈河，巴西-地Xia，K.Yang等人沙特国王大学学报10p×表6语义先验和编码器的多尺度融合的实验结果。模块CelebA-HQF0msF0mlF0msPSNR“SSIM“L1 Loss;电话：+86-21 - 6555555传真：+86-21 - 6555555526.940 0.904 0.0151电话：+86-21 - 8888888传真：+86-21 - 88888888××p27.0060.9040.0150见图11。 L1损失迭代曲线。损失不会改变。添加图像采用语义先验和编码器融合的特征F0ml2Rc×H×W降低了0.064，网络的PSNR和SSIM分别提高了0.052和0.3%，L1 Loss提高了在将语义先验与编码器在多个尺度上融合到基础网络后，添加图像特征F0msF0ml2R2c×H=4×W= 4实验结果表明，语义先验和编码器多尺度融合是一种有效的图像修复方法，修复后的图像效果更好。3. 全尺寸跳跃连接和跳跃连接的烧蚀实验为了验证全尺寸跳跃连接的有效性，在CelebA-HQ数据上进行了烧蚀实验使用满量程跳转连接（FSSC）和跳转连接（SC）的中央掩码设置，指的是编码器解码器相应刻度的直接连接以编码器/解码器组成的生成器为基础网络，在基础网络中加入全尺度跳跃连接和跳跃连接进行消融实验，在基础网络中加入语义先验、多尺度交叉熵损失和深度注意力残差组组成的DSM分别进行全尺度跳跃连接和跳跃连接消融实验，实验结果如表7所示。从表7中的实验结果可以看出，在基础网络中添加满量程跳转连接后，PSNR和SSIM分别提高了0.134和0.3%，L1 Loss降低了0.03%。与基础网络相比，在基础网络中加入跳连接后，PSNR和SSIM分别下降了0.053和0.1%加入语义先验、多尺度交叉熵损失、深度注意残差组和跳连接到基础网络后，PSNR和SSIM分别提高了0.404和0.8%，L1损失降低了0.07%。加入语义先验、多尺度交叉熵损失、深度注意残差组和全尺度跳跃连接后，PSNR和SSIM分别提高了0.471和0.9%，L1损失降低了0.1%。L1损失降低0.1%。从实验结果可以看出，全跳连接比跳连接的PSNR和SSIM更高，L1损失更低，证明了在图像修复网络中加入全跳连接比跳连接更有效。表4每个模块在两个数据集上的实验结果。p×pp×p p×表5每个模块在两个数据集上的实验结果的增加p×p×p×pp×模块CelebA-HQ巴黎街景SPN穆洛斯达戈FSSCPSNR“SSIM“L1损失;PSNR“SSIM“L1损失;×p×××××26.53526.6880.8950.8980.01600.015625.31425.5110.8790.8530.02040.0196p×××p×××p××p26.83326.80926.6690.9000.9000.8980.01530.01530.015725.56125.51825.4620.8530.8540.8520.01960.01960.020126.9540.9010.015125.6640.8560.0197p p×p26.88726.8670.9010.9010.01520.015325.58325.6080.8540.8560.01960.0195模块CelebA-HQ巴黎街景SPN穆洛斯达戈FSSCPSNR“SSIM“L1损失;PSNR“SSIM

下载后可阅读完整内容，剩余1页未读，立即下载