没有合适的资源?快使用搜索试试~ 我知道了~
1869MISF:用于高保真图像修复李晓光1*,郭庆2 *,李迪3*,李平4 *,冯伟3 *,王松1 *1美国南卡罗来纳大学,2新加坡南洋理工大学,3中国天津大学智能与计算学院,4香港理工大学摘要虽然取得了显著的进展,现有的深度生成修复方法仍然显示出跨不同场景的低因此,生成的图像通常包含伪影或填充的像素与地面实况有很大差异,使它们远离真实世界的应用。图像级预测滤波是一种广泛应用的图像复原技术,它根据不同的输入场景自适应地预测合适的核函数。受这种固有优势的启发,我们探索了解决图像修复作为过滤任务的可能性为此,我们首先研究了图像级预测滤波修复的优点和挑战:该方法可以保留局部结构并避免伪影,但无法填充大的缺失区域。然后,我们提出了语义过滤,进行深层特征过滤,它填补了丢失的语义信息,但无法恢复细节。为了解决这一问题,同时采用各自的优点,我们提出了一 种 新 的滤 波 技 术 , 即 , 多 级 交 互 式 连 体 滤 波(MISF)包含两个分支:核预测分支(KPB)和语义图像滤波分支(SIFB)。这两个分支是交互链接的:SIFB为KPB提供多级特征,而KPB为SIFB预测动态内核。因此,最终的方法利用有效的语义图像级填充的高保真修复。此外,我们讨论了MISF和朴素的基于编码器-解码器的修复之间的关系,推断MISF提供了新的动态卷积操作,以增强跨场景的高泛化能力。我们在三个具有挑战性的数据集上验证了我们的方法,敦煌、Places2和CelebA。我们的方法在四个指标上优于最先进的基线,即,L1、PSNR、SSIM和LPIPS。*Xiaoguang Li和Qing Guo是共同第一作者,贡献相等。[2]冯伟(wfeng@ieee.org)和王松(songwang@cec.sc.edu)为通讯作者。请尝试在https://github.com/tsingqguo/misf发布的代码和模型。1. 介绍图像修复是计算机视觉和人工智能应用中的一个基本问题。主要目标是填充图像中缺失的像素,使其与干净的图像相同。最近的工作主要通过将其建模为生成任务来解决该任务[17,19,24,30]。因此,他们可以采用尖端的深度生成技术(例如,生成对抗网络[10,22]),以实现对具有挑战性的数据集的高质量恢复。然而,基于生成网络的修复将输入图像编码这样的过程忽略了显式的先验,即,相邻像素或特征之间的平滑度,以及修复的保真度完全依赖于数据和训练策略。注意,与生成任务不同,图像修补具有其特定的挑战:首先,图像修补要求完成的图像尊重干净的图像(即,以产生高保真度图像)和自然。这些要求使得图像修复不同于主要关注自然性的纯图像生成任务。第二,缺失区域的形状可能不同,背景场景也多种多样。这些事实要求修复方法在缺失区域和场景中具有较高的泛化尽管深度生成网络在图像修复方面取得了重大进展,但它们远未解决上述挑战。例如,最近的工作RFRNet [17]在编码器-解码器网络上进行特征推理然而,给定具有不同缺失区域的不同面部,难以产生高保真修复结果。此外,伪影出现在结果中。如图1所示,对于具有小缺失区域的左上角示例,RFRNet可以生成自然人脸。然而,当与地面实况比较时,我们看到箭头周围的局部结构被扭曲了。对于左下角缺失区域较大的示例,RFRNet甚至无法生成自然的人脸。当处理其他自然场景(例如,两个关于1870输入RFRNet JPGNetMISF输入RFRNet JPGNetMISF图1. 使用最新技术方法的四个例子(即,RFRNet [17]和JPGNet [12])和所提出的图像修复方法我们的方法是能够完成丢失的像素,并产生逼真和高保真的图像。我们通过绿色箭头突出显示主要差异右),RFRNet也引入了小工件。Guo等[12]已经注意到基于生成的修复方法[12,17,23,25]的上述问题,并提出了使用图像级预测滤波来减轻人为因素的JPGNet图像级预测滤波经由像素的相邻像素重建滤波核根据输入自适应估计因此,JPGNet可以恢复局部结构,同时避免工件,从而帮助RFRNet实现显着的质量改进。然而,许多细节被平滑,而真实的结构未能恢复(见图1)。1)。受预测滤波在自适应和恢复方面的固有优势的启发,我们提出了一个新的框架来处理这两个挑战。具体而言,本文主要做了三个方面的工作:第一,研究了采用现有预测滤波方法进行图像修复的优势和挑战,即图像级预测滤波可以恢复局部结构,避免伪影,但不能填充大的缺失区域.其次,我们将图像级滤波扩展到深层特征级,提出了语义滤波,它可以完成大的缺失区域,但失去了细节。第三,针对这些问题,我们提出了一种新的滤波技术,多级交互式连体滤 波 ( Multi-level Interactive Siamese Filtering ,MISF),包括两个分支:核预测分支(KPB)和语义图像滤波分支(SIFB)。这两个分支在语义像素级别上交互链接。SIFB为KPB提供多级特征,而KPB为SIFB预测动态核MISF可以利用相邻像素间的平滑度先验,通过线性组合相邻像素来重建干净的像素或特征。因此,最终的方法利用有效的语义像素级填充的高保真修复。如图1所示,我们的方法可以在具有不同缺失区域的不同场景下生成自然和高保真的图像此外,我们对我们的方法和朴素生成网络之间的关系进行了深入的讨论,推断我们的方法对应于多级动态卷积运算,根据不同的输入调整卷积参数并带来泛化。电影我们在三个具有挑战性的数据集上的广泛实验(即,Place2,CelebA和Dunhuang),并在四个质量指标方面取得了比公开数据集上的竞争方法更好的分数。2. 相关工作用于图像修复的深度生成网络。传统的图像修复方法[2,3,5,7,8,18,27]集中于寻找有用的补丁来恢复受损的图像区域。然而,这些方法没有考虑图像区域的语义信息,在复杂场景中效果不理想。最近的方法使用深度生成对抗网络[10]来从数据中学习语义信息,以更好地修复。Pathak等人。[24]和Iizuka等人。[15]使用条件GAN [22]以及强大的信息编码器,以更好地抛光修复结果中的图像细节。此外,Iizuka et al.[15]加强恢复区域的局部和全局一致性。Li等人。[17]提出了基于图像卷积特征的受损图像的递归重建。此外,Yan等人。[28]和Yu等人。[31]提出了用于捕获长距离区域之间相关性的上下文模型。Liu等人[19]和Yu et al.[32]通过捕获受损区域的空间变形,专注于修复图像损坏的不规则形状除了语义信息之外,一些作品还采用了图像区域的边缘和轮廓等几何信息来进行有效的图像修复[23,25]。然而,上述方法通常将修复任务公式化为生成。虽然生成的图像看起来自然逼真,但它们与地面真实情况不太相同。基于预测滤波的图像复原。预测滤波已广泛应用于图像恢复任务中,[1],[2],[3],[4 ],[5],[6],[7],[8],[9],[10],[11],[12],[13],[14],[15],[16],[17],[19]。预测滤波允许更集中地学习每个像素的周围信息。然而,图像级过滤很难解决依赖于场景的语义理解的任务。与以往的方法不同,对于第一1871ΣN∈N···∈(一)Conv()核预测分支机构(KPB)Conv.池ReLUConvT。上采样Inst.Norm.语义图像过滤支路(b)第GT图2. 三种基于滤波的图像修复方法。(a)表示在第2节中介绍的预测图像级滤波第3.1条(b)示出了在图12中提出的基于语义过滤的修补。4.1. (c)是多级交互式连体滤波(MISF)。四点二。方程为[p]=q∈NpKp[q − p]I[q]。(二)图3.三种遮罩尺寸下使用预测滤波进行图像修补。图像(a)、(b)和(c)被馈送到预测滤波,我们分别得到(d)、(e)和(f)我们还尝试通过预测滤波递归地完成图像(c)并获得(h)。尝试,我们提出了一种新的过滤方法,通过扩展的图像级过滤到深特征级别。这样,就可以进行语义过滤,实现有效的内嵌绘画.此外,为了兼顾图像级和深层特征级滤波的优点,本文提出了多层次语义图像滤波,在实现语义信息的同时,也实现了细节信息的丰富。3. 讨论和动机3.1. 图像修复预测滤波是一种广泛使用的图像恢复技术,可以解决图像去噪[21]和去噪[13]任务。在这里,我们将图像修复公式化为逐像素预测过滤任务这里,p和q是图像中像素的坐标,而集合p包含p的N2个相邻像素。矩阵KpRN×N是K的第p个整形向量,并确定p中所有像素的权重,也称为像素p的内核。直观地说,滤波是通过线性组合像素p的相邻像素来重建像素p。对于图像修复,在丢失区域的边界处的像素由其相邻像素推理原理是丢失的像素不破坏局部结构。同时,相关像素可用于重建缺失像素。然而,缺失像素周围的局部结构是多样的,并且可以将它们彼此区分开。为了适应上下文的变化,我们可以训练一个预测网络,根据输入图像和丢失区域来K=φ(I,M),(3)其中φ()是预测网络,M是指示缺失区域的二进制掩码。我们将φ()设置为一个编码器-解码器网络(见图1)。2(a))并通过图像质量损失(即,[13][14][15] [16][17][18][我们将在第二节详细介绍这些损失函数4.4 管道如图所示第2段(a)分段。3.2. 挑战和动力I=I上述用于修复的预测滤波是不平凡的,需要仔细研究。我们可以训练函数其中I∈RH×W是受损图像,并且RH×Wφ()与CelebA数据集等图像修复数据集[20]。然后,我们在一系列图像上使用是完整的副本。张量KRH×W×N2包含用于过滤所有像素的HW核。 操作“滤波”表示逐像素滤波。我们可以展开上面的缺失区域变得更大更厚。我们在图3中示出了一个示例,并观察到:对于薄且小的缺失区域,预测滤波可以完成(一)(b)第(1)款(g)地面实况(d)其他事项(e)(f)第(1)款(h)迭代滤波1872···ΣN······输入编解码器Sem-Filter MISFGround Truth图4. 编码器-解码器网络(En-Decoder)、语义过滤(Sem-Filter)和多级交互式连体过滤(MISF)的两个示例。我们通过绿色箭头突出显示主要差异。丢失的像素有效,并导致高保真度的结果(见图。3(a)和(d))。然而,当缺失区域变得更大和更厚时,远离缺失区域的边界的像素这是因为大的缺失区域破坏了局部结构。因此,图像级滤波不能实现重建目标(c)即使女孩面部的大面积区域被遗漏,人类也可以根据对面部的理解来为了实现语义过滤,我们首先采用编码器-解码器网络,其中编码器从损坏的图像中提取特征(即,解码器将特征映射到完整的图像。对于编码器,FL=(I,M)=L(. - 是的- 是的阿普尔(. - 是的-是的第2条(第1条(I,M)(4)其中,f(·)是编码器,F1是从第l层xf的深度特征e,即, Fl= l(Fl−1)。例如,FL是最后一层的输出(即,)。解码器可以被公式化为:I=其中,-1()是解码器。然后,我们对提取的特征进行语义过滤,如图像级过滤anymore. shame不同的场景需要预测的内核来适应语义变化。然而,图像级滤波仅能够根据像素的Fl[p]=q∈NpKl,p[q-p]Fl[q],(6)不能理解全局,不能理解全局。例如,当缺失区域非常大时(见图1)。3(c)),图像级滤波不能猜测应该填充什么像素以使面部具有高保真度的逼真针对这些挑战的简单解决方案是循环地进行过滤。具体来说,我们可以对修复结果进行一次又一次的滤波,也就是说,我们使用估计的缺失像素来重建缺失区域内的像素。我们在图中显示了这种策略的结果3(h)用于图像修复(c)。完成的像素在缺失区域的中心周围变得模糊。这主要是因为大量的缺失区域破坏了局部结构。因此,仅重建边界附近的像素,但具有低保真度。重构误差在递归滤波过程期间累积。最近,Guoet al. [12]结合预测过滤和生成网络来解决这个问题。然而,这样的解决方案可以公平地引入一些工件的最先进的基于生成网络的方法。因此,需要一种新的技术来应对这些挑战。4. 方法4.1. 图像修复正如SEC所解释的那样。3.2,基于图像滤波的修复不是那么有效,因为大的缺失区域破坏了奠定基于滤波的恢复的基础的局部结构信息。为了解决这个问题,我们建议将过滤从图像级别扩展到包含语义信息的深层特征级别。直观的想法是,即使图像的大面积丢失,语义信息也可以被保留。如图中所示。3其中K1,p是用于经由相邻元素对F1的第p个元素进行滤波的核,即,p. 我们使用矩阵K1来包括所有的逐元素核(即,Kl,p)。在此之后,我们在等式中用F l替换Fl。(4)并进行后续操作。为了让内核适应不同的场景,我们还采用了预测网络来预测内核,如图像级预测滤波(即,当量(三))K1=φ1(I,M),(7)其中φl()是产生Kl的预测网络。我们可以对任何深层特征进行语义过滤。在下文中,我们对φl()使用了一个3层卷积网络,并且为了直观的讨论,只在φ l()我们在图中展示了基于语义过滤的图像修复2(b)并训练网络(即,通过L1,GAN,Style和感知损失函数(如预测滤波)来计算L1(),L1-1()和φl()我们在图1中给出了这些例子。2和图4.与图像级预测滤波相比,语义滤波能够有效地填充所有缺失像素,恢复语义信息。如图中的情况4.恢复遗漏的左眼和面部结构。因此,修复结果更真实,具有更高的保真度。shame虽然恢复了主要结构,但结果丢失了细节。在图4的第一种情况下,女孩的前额和左眼仍然包含伪影,并且她的嘴是模糊的。我们对其他案件也有类似的看法。4.2. 多级交互式连体过滤语义过滤在具有低空间分辨率的深特征级别1873·{F}Case1Case2Case3案例4输入Str.FlowEdgeConRFRNetJPGNet我们地面实况图5. Str.Flow的四个可视化结果[25],EdgeCon。[23],RFRNet [17],JPGNet [12]和我们的方法。案例1和案例2来自CelebA数据集,案例3和案例4来自Places2数据集。我们通过绿色箭头突出显示主要差异。不能利用其他层的特征为了解决这个问题,我们提出了多级交互式连体过滤(MISF),它由两个具有相似结构的分支组成,核预测分支(KPB)和语义图像过滤分支(SIFB),它们输入GTRFRNetDiff. 地图包含几个卷积块的编码器-解码器网络这两个分支是交互链接的:KPB(即,图2(c)中的φ())将原始图像、二进制掩码和SIFB的多个特征作为输入,并预测SIFB的多级k内核。 SIFB(即,Fig. 中 的 “”( ·)(2)使用这些EdgeConnectStructFlowDiff. 地图Diff. 地图JPGNet我们Diff. 地图Diff. 地图内核来过滤不同级别的特征。 因此,在本发明中,SIFB根据输入动态变化。我们在图2(c)中展示了整个框架。具体地,给定损坏的图像I和相应的二进制掩码M,我们将它们馈送到SIFB,SIFB在图像级和语义级进行过滤(即,图6. 一个来自敦煌数据集的例子。除了五种方法的修复结果外,我们还展示了预测结果与地面真实值(GT)之间的差异图和L1范数。因此,它不可避免地丢失了详细信息。一个直-在第L层特征处进行滤波)。因此,我们可以生成完成的图像,I=-是的-是的1+1(Fl最好的解决方案是对多级特征进行过滤。例如,对于从编码器提取的所有特征(即,其中Fl=l(. - 是的- 是的(I,M))。深度特征的内核Ll=1),我们可以通过一个排他性的预测来过滤它们中的每个和图像(即,K1和K0)由KPB预测网络如SEC。4.1,然而,这将导致额外的内存和时间成本。此外,第l个预测核(即,K1)仅取决于第L个特征(即,F1)和Kl=Co n v(φl(. -是的-是的φj+1([Ej,Fj]),(9)K0=φL(. -是的-是的φj+1([Ej,Fj])),邮编:150032L1 170918L1 140544L1 195310邮编:1201161874(10)1875·- -−其中Fj=Fj(. -是的-是的 Ej = φj(I,M))是来自SIFB的第j层的特征,并且Ej= φj(. - 是的- 是的 φ1(I,M))来自KPB的第j层。 我们添加卷积层(Conv())来调整φl(. -是的-是的φj+1([Ej,Fj])),以满足核函数的要求我们在图中显示了整个框架第2段(c)分段。核K1和K0分别用于特征级和图像级滤波直觉,与Eq。 (8)在单一框架下进行语义&图像滤波,以填充大的缺失区域并增强细节。此外,Eq。(9)和Eq。在公式(10)中,用于语义&图像滤波的所有预测内核由输入图像I和深度特征Fj驱动,其包含所有可用的空间细节和对整个场景的理解。因此,语义信息和细节像素都可以被正确地重建。新的设计,我们的方法实现了高保真图像修复。如图 4、MISF生成细节丰富的语义人脸结构。4.3. 与编码器-解码器网络的在本节中,我们的目标是从编码器-解码器网络的角度来解释我们的方法的有效性我们可以使用朴素的编码器-解码器网络来直接执行图像修复。例如,我们将损坏的图像馈送到编码器中,并使用解码器来重建图像。这个过程可以用Eq.(4)和等式(五)、我们可以通过与滤波相同的损失函数来训练编码器-解码器网络。从编码器-解码器网络的角度来看,我们的语义过滤是一种改进的编码器-解码器网络,它包含一个额外的MISF进一步使动态过程在多层次特征上保持一致。因此,动态卷积的参数是逐元素的,并且通过预测网络根据不同的图像及其语义进行动态调整。动态卷积的优点已经在许多作品中得到证明[6,11]。然而,这些工作主要集中在图像分类任务。它们根据输入特征动态预测相比之下,我们的工作提出了动态卷积对图像修复的重要性,并以元素方式联合基于原始输入和深度特征预测动态结果表明,在相同的条件下,两种方法的计算结果基本一致。4,我们看到所提出的动态操作对于高质量的修复结果是至关重要的使用相同的培训设置(参见第4.4),朴素的编码器-解码器网络在缺失区域上产生伪像填充后的像素会导致明显的结构失配,而语义过滤可以适应不同的场景,填充像素具有合理的结构。此外,完整的MISF模型,它考虑了语义图像滤波,取得了更好的效果,语义和细节恢复。4.4. 实现细节网络架构。从理论上讲,我们可以对所有深层特征进行MISF然而,这将导致显著的内存和时间成本。这里,我们使用15层的编码器-解码器,并且只在第3层执 行 语 义 过 滤 ( 即 , F3 ) 。 我 们 在github.com/tsingqguo/misf 中 详 细 介 绍 了 架构,并在实验部分讨论了其他功能的语义过滤。损失函数。 为了在图像质量和语义级别上获得高保真图像,我们遵循工作[23]并使用四个损失函数训练网络,即,L1损失,GAN损失、风格损失和感知损失。具体地,给定损坏的图像I、预测的完成图像I和我们有损失函数,L(λI,Iλ)=λ1L1+λ2Lgan+λ3Lperc+λ4Lstyle.(十一)我们固定λ1= 1,λ2= λ3= 0。1,λ4=250。损失函数的定义见[23]。培训详情。对于我们方法的所有变体,我们使用相同的训练设置:我们使用Adam作为优化器,学习率为0.0001。我们训练网络约350,000次迭代,批量大小为16。实验是在同一平台上用两个NVIDIA Tesla V100GPU实现的。5. 实验5.1. 设置数据集。 我们在三个数据集上评估了我们的方法,Places2挑战数据集[35],CelebA数据集[20]和敦煌挑战[33]。Places2数据集包含在超过365个场景下捕获的超过800万张图像。CelebA数据集包含超过18万张人脸图像。这些数据集允许我们的方法在自然和面部场景上进行评估。敦煌挑战赛为图像修复提供了实际数据在CelebA和Dunhuang Challenge数据集的标准测试集上对该方法进行了对于Places2数据集,我们遵循惯例,选择30,000张随机图像进行测试。指标. 我们遵循图像修复中的常见设置。我们使用峰值信噪比(PSNR)、结构相似性指数(SSIM)、L1和感知相似性(LPIPS [34])来衡量图像的质量。PSNR、SSIM和L1测量恢复图像的质量。LPIPS测量恢复的图像和地面实况之间的感知一致性。面罩设置。对于Places2和CelebA数据集,我们使用不规则掩码数据集[19],该数据集已在许多作品中使用[25],以生成损坏的图像。掩模图像被分为三类(即,0% 20%,20% 40%和40% 60%),基于孔占据的图像的比例。对于敦煌数据集,我们遵循其官方设置。1876−−- -表1.Places2,CelebA和敦煌数据集的比较结果。对于PConv,报告的结果来自[19]。数据集掩码比地点20%-20%20%-40%40% -60%CelebA0%-20%20%-40%40% -60%敦煌违约地点20%-20%20%-40%40% -60%CelebA0%-20%20%-40%40% -60%敦煌违约PConv [19][25]第二十五话[23]第二十三话[第17话]JPGNet [12]CTSDG [14]MISFPSNR↑L1↓31.030 23.673 19.74329.047 23.09229.899 23.378 19.52229.281 22.58930.673 23.937 19.88430.658 23.701 19.75131.335 24.239 20.044- -31.618 25.28332.781 25.34733.573 25.63534.401 26.54332.677 24.94534.494 26.635-35.19936.41936.48537.646-38.3830.808 2.495 5.0982.811 5.4440.848 2.606 5.3021.009 3.218 6.7190.830 2.581 5.2941.568 4.987 10.290.726 2.340 4.965- -0.737 2.171 4.5330.579 1.922 4.4850.521 1 811 4.3460.477 1.651 4.0421.161 3.972 9.2310.474 1.616 3.826-0.4750.4410.4010.353-0.341PConv [19][25]第二十五话[23]第二十三话[第17话]JPGNet [12]CTSDG [14]MISFSSIM↑LPIPS↓0.9070 0.7310 0.53252009年12月31日2009年12月31日2017年12月31日2009年12月31日2019年12月31日2006年12月31日- -2017年12月31日0.9586 0.8689 0.73620.9626 0.8746 0.74000.9674 0.8908 0.76972019年12月31日0.9680 0.8911 0.7698-0.95590.96350.96480.9724-0.9735- -2016年12月31日2017年12月31日2016年12月31日2017年12月31日2015年12月31日2019年12月31日- -2016年12月31日2016年12月31日2019年12月31日2016年12月31日2017年12月31日2015年12月31日-0.05890.04800.04630.0469-0.0330基线。 我们比较了五种最先进的inpainting方法,包括PConv [19],StructFlow [25],Edge- Connect [23],RFR-Net [17],JPGNet [12]和CTSDG [14]。5.2. 比较结果定量比较。我们将我们的方法与三个公共数据集上的五种最先进的修复方法进行了如表1所示,我们有以下观察结果:与其他竞争方法相比,我们的方法在所有数据集和掩模比率上实现了更好的PSNR,SSIM和L1得分与RFRNet相比,我们在Places2数据集上的0% 20%掩码比率下实现了7.01%的相对较高的PNSR。而且,相对间隙变大,即, 7.3%和7.9%,分别低于20%40%和40%60%的口罩比例。实验结果表明,该方法在高保真恢复方面具有明显的优势就LPIPS而言,我们有类似的观察结果。在Place2数据集上,我们的方法在0%20%的掩码比率下获得了比JPGNet相对低47.12%这个结果证明了我们的方法在感知恢复方面取得的令人印象深刻的进展。在不同数据集和掩码比下的一致性表明,该方法具有很高的泛化能力。定性比较。我们提供了来自三个数据集的五个案例的可视化结果(即,CelebA,Place2,and Dunhuang)in Fig.5和图六、我们发现:我们的方法生成更自然和高保真的图像,这些图像非常接近地面真实,即使有很大的缺失区域(见图5case1)。另一方面,其他方法引入了许多伪像,如结构失真和大缺失区域的模糊尽管所有方法在小的缺失区域(例如,图6),我们的方法提供了细粒度结构并恢复了更好的细节。例如,对于 情 况 3 中 绿 色 箭 头 周 围 的 局 部 结 构 , RFRNet ,EdgeCon. JPGNet和Str.Flow无法恢复详细结构。相反,我们的方法正确地完成了所有的细节。5.3. 消融研究定量结果。 验证有效性MISF,我们考虑三个变体:图像过滤器(第二节)。3.1),Sem-过滤器(第4.1)和MISF(第4.2)。在表2(左)中,我们观察到:通过结合图像级和语义过滤,MISF在三个数据集和三个缺失大小的所有指标上都比其他方法得到更好的分数Imshameg-Filter在Places 2和CelebA数据集上的得分很低,但在敦煌数据集上有很好的结果。请注意,敦煌网上的Img-Filter的结果甚至比RFRNet更好。这主要是因为Img过滤器擅长完成小的缺失孔,但无法解决大的缺失区域,如第2节中所分析的。第3.1条定性结果。 我们在图3中可视化了Img过滤器的结果。实验结果表明,Img滤波器能够有效地完成小的缺失区域。然而,图像过滤器是不太有效的处理大的缺失区域。我们还在图4中比较了Sem-Filter和MISF。它提出了Sem-Filter失去了很多细节,而MISF产生了丰富的细节与自然的结构。5.4. 讨论过滤与预过滤功能。给定一个损坏的图像及其地面实况(GT),我们将它们馈送到MISF,并分别在过滤之前和之后获得它们的深层特征。然后,我们通过互相关计算相似度,在受损图像的滤波(或预滤波)特征和GT之间(参见图7)。我们分别从不同的掩码比率和整个数据集随机抽取1000个示例,并计算每个示例的相似度。滤波后的图像特征更接近于GT的特征随着掩码比例的增大,相似性裕度也增大,这就意味着不同掩码大小的语义过滤的有效性。不同深度特征的语义过滤。如表2(右)中报告的结果,当语义过滤的特征更深时,完成度通常变得更好。我们对四个指标和三个缺失的大小有一致的这是因为更深的特征具有更好的语义表示。但是,随着网络的深入,这种增长是否会持续下去,还需要进一步研究。动态卷积运算的重要性1877表2.左图:Places2、CelebA和敦煌数据集的消融研究结果。右图:在CelebA数据集上使用不同深度特征的Sem-Filter数据集掩码比0%-20%职位220%-40%40%-60%0%-20%CelebA20%-40%40%-60%敦煌违约CelebA潜层0%-20%20%-40%40%-60%Img过滤器25.48917.66313.77327.31419.02014.83737.021Sem-Filter(F1)33.98126.36421.360Sem-Filter31.01024.11719.94434.25326.51821.48637.897Sem-Filter(F2)34.12826.42921.353PSNR↑MISF编码解码器-滤波器编码解码器31.33531.18730.82424.23924.10723.98020.04419.89819.87134.49434.33033.74526.63526.48426.12221.55321.42821.07738.38338.19537.766Sem-Filter(F3)34.25326.51821.486Img过滤器0.91800.75710.59110.92980.78300.63010.9692Sem-Filter(F1)0.96510.88560.7612Sem-Filter0.94870.84090.69100.96570.88710.76310.9696Sem-Filter(F2)0.96510.88520.7589SSIM↑MISF编码解码器-滤波器编码解码器0.95060.94990.94660.84350.84200.83580.69310.69070.68410.96730.96610.96320.89090.88710.88050.76930.76140.75100.97350.97340.9711Sem-Filter(F3)0.96570.88710.7631Img过滤器1.5355.47711.421.2644.75010.440.386Sem-Filter(F1)0.5031.6923.977Sem-Filter0.7502.3704.9950.4881.6513.8950.383Sem-Filter(F2)0.4971.6733.952L1↓MISF编码解码器-滤波器编码解码器0.7260.7320.7692.3402.3602.4324.9655.0225.1040.4740.4870.5181.6161.6571.7403.8263.9094.1170.3410.3450.362Sem-Filter(F3)0.4881.6513.895Img过滤器0.11540.31290.51680.10840.29100.46310.0508Sem-Filter(F1)0.03590.10380.2043Sem-Filter0.04650.13330.25270.03430.10080.20090.0379Sem-Filter(F2)0.03550.10210.2028LPIPS↓MISF编码解码器-滤波器编码解码器0.04320.04440.04970.12980.13280.14160.24990.25400.26370.03150.03460.03700.09490.10160.10660.19110.20150.21040.03300.03320.0373Sem-Filter(F3)0.03430.10080.20090.90.80.80.70.60.60.50.40.90.80.70.60.70.60 150300450600750 9000.50.40.30.20 150300450600750 9000.50.40.30.2相似性(预过滤,GT)相似性(过滤,GT)0 150300450600750 900样本索引(掩模比率0-20%)样本索引(掩模比率20-40%)样本索引(掩模比率40-60%)样本索引(所有掩模比率)图7. 过滤和预过滤特征与地面实况特征的相似性。编码器-解码器网络。 我们的方法可以被看作是一个先进的编码器-解码器网络,其中包含动态卷积运算。为了验证这一点,我们从编码器-解码器网络的角度进行了消融研究。具体来说,我们比较了四种变体,即,En-decoder、En-decoder-Filter、Sem-Filter和MISF。第一个是没有动态卷积运算的朴素编码器-解码器网络。第二种变体是通过将图像级预测滤波添加到编码解码器的输出来构建的因此,En-decoder-Filter和Sem-Filter可以被视为包含单个动态卷积操作的编码器-解码器网络。MISF有两个动态卷积运算。比较所有变体,我们看到具有更多动态卷积运算的网络在所有数据集和缺失区域的四个指标下产生更好的修复结果6. 结论提出了一种基于多级交互式连体滤波的图像修复方法。我们使用单个预测网络同时在图像级别和深层特征级别进行预测过滤。图像级滤波是为了恢复细节,而深层特征级滤波是为了完整语义信息,这导致高保真的修复结果。此外,动态预测的核函数使我们的方法具有很高的泛化能力能力。我们的方法在三个公共数据集上的性能优于最先进的方法。此外,大量的实验证明了我们的方法的不同组件的有效性这项工作的一个潜在限制是,我们在广泛使用的公共数据集上验证和训练我们的模型,这些数据集可能只覆盖了现实世界场景的一部分。在未来,我们可以开发我们的模型,以看到更多的场景,即,遥感图像的云去除[29],并进一步增强其泛化能力。鸣 谢 : 本 工 作 得 到 了 国 家 自 然 科 学 基 金 项 目U1803264 、 62072334 和 天 津 市 重 大 专 项 项 目(No.18JCYBJC 15200)的资助。它还得到了新加坡国家研究基金会在其AI新加坡计划(AISG Award No:AISG 2-RP-2020- 019),新加坡国家网络安全研发计划NRF 2018 NCR-NCR 005 -0001,可信赖软件系统国家 卫 星 NRF 2018 NCR-NSOE 003 -0001 和 NRFInvestigatorship No. NRFI 06 - 2020-0022-0001下的部分支持。我们衷心感谢NVIDIA AI技术中心(NVAITC)和AWS Cloud Credits for Research Award的支持相似性(预过滤,GT)相似性(过滤,GT)相似性(预过滤,GT)相似性(过滤,GT)0 150300450600750 900相似性(预过滤,GT)相似性(过滤,GT)相关性相关性相关性相关性1878引用[1] Steve Bako , Thijs Vogels , Brian McWilliams , MarkMeyer,Jan Novák,Alex Harvill,Pradeep Sen,TonyDeRose,and Fabrice Reverselle.核预测卷积网络用于去噪蒙特卡罗渲染。ACM Transactions on Graphics,36(4):97:1[2] Connelly Barnes , Eli Shechtman , Adam Finkelstein ,andDanBGoldman.Patchmatch : Arandomizedcorrespondence algorithm for structure image editing.ACMTransactions on Graphics,28(3):24,2009.[3] Marcelo Bertalmio,Luminita Vese,Guillermo Sapiro,and Stanley Osher.同时结构和纹理图像在绘画. IEEETransactions on Image Processing,12(8):882[4] T. Brooks和J.T. 巴伦学习合成运动模糊。在IEEE/CVF计算机视觉和模式识别会议(CVPR),第6833-6841页[5] 托尼·F Chan和Jianhong Shen。基于曲率驱动扩散的非纹 理 修 补 。 Journal of Visual Communicationand ImageRepresentation,12(4):436 -449,2001.[6] Yinpeng Chen,Xiyang Dai,Mengchen Liu,DongdongChen,Lu Yuan,and Zicheng Liu.动态卷积:对卷积核的注意力。在IEEE/CVF计算机视觉和模式识别会议(CVPR),第11030-11039页[7] 丁丁,Sundaresh Ram和Jeffrey J Rodríguez。基于非局部纹理匹配和非线性滤波的图像修复。IEEE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功