深度学习方法修复旧照片的研究

135 浏览量更新于2023-10-24 收藏 13.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

127470让旧照片重现生机0万子瑜1�，张波2，陈东东3，张攀4，陈东2，廖静1†，温芳201香港城市大学2微软亚洲研究院3微软云+AI4中国科学技术大学0图1：我们方法产生的旧图像修复结果。我们的方法可以处理真实旧照片中由非结构性和结构性缺陷混合而成的复杂退化。0摘要0我们提出通过深度学习方法修复严重退化的旧照片。与可以通过监督学习解决的传统修复任务不同，真实照片中的退化是复杂的，并且合成图像与真实旧照片之间的域差使得网络无法泛化。因此，我们提出了一种新颖的三元域转换网络，通过利用真实照片和大量合成图像对进行训练。具体而言，我们训练两个变分自编码器（VAE）分别将旧照片和干净照片转换为两个潜在空间。然后，使用合成配对数据学习这两个潜在空间之间的转换。这种转换在紧凑的潜在空间中很好地泛化到真实照片，因为域差在其中被消除。此外，为了解决一个旧照片中混合的多种退化问题，我们设计了一个全局分支，其中包含一个针对结构性缺陷（如划痕和灰尘）的部分非局部块，以及一个针对非结构性缺陷（如噪声和模糊）的局部分支。这两个分支在潜在空间中融合，提高了修复多种缺陷的旧照片的能力。所提出的方法在旧照片修复的视觉质量方面优于现有方法。0�在微软亚洲研究院实习期间完成的工作†通讯作者01.引言0照片是为了凝固那些本来已经过去的快乐时刻。尽管时间过去了，但通过观看照片，人们仍然可以唤起过去的回忆。然而，当照片保存在恶劣的环境条件下时，旧照片的印刷品会退化，导致宝贵的照片内容永久受损。幸运的是，随着移动相机和扫描仪的普及，人们现在可以将照片数字化，并邀请熟练的专家进行修复。然而，手动修复通常是费时费力的，导致大量旧照片无法修复。因此，设计能够即时修复旧照片的自动算法对于那些希望将旧照片重现生机的人来说是有吸引力的。在深度学习时代之前，已经有一些尝试通过自动检测局部缺陷（如划痕和瑕疵）并使用修复技术填补损坏区域来修复照片[1，0[2,3,4]尝试通过自动检测局部缺陷（如划痕和瑕疵）并使用修补技术填补损坏区域来修复照片。然而，这些方法侧重于完成缺失内容，无法修复空间均匀的缺陷，如胶片颗粒、褐色效果、色彩褪色等，因此修复后的照片与现代摄影图像相比仍然显得过时。随着深度学习的出现，人们可以通过利用卷积神经网络的强大表示能力来解决各种低级图像修复问题[5,6,7,8,9,10]，即从大规模数据中学习特定任务的映射。27480合成图像的数量。然而，这个框架并不适用于旧照片的修复。首先，旧照片的退化过程相当复杂，不存在能够真实地呈现旧照片瑕疵的退化模型。因此，从这些合成数据中学到的模型在真实照片上的泛化能力较差。其次，旧照片受到多种退化的困扰，因此修复需要不同的策略：空间均匀的非结构性缺陷（例如胶片颗粒和色彩褪色）应该通过利用邻域像素来恢复，而结构性缺陷（例如划痕、灰尘等）应该通过全局图像上下文来修复。为了解决这些问题，我们将旧照片修复问题定义为三元域转换问题。与之前的图像转换方法不同，我们利用来自三个域（即真实旧照片、合成图像和相应的真实图像）的数据，并在潜在空间中进行转换。首先，将合成图像和真实照片通过共享的变分自编码器（VAE）转换到相同的潜在空间中。同时，训练另一个VAE将真实干净图像投影到相应的潜在空间中。然后，通过合成图像对之间的映射来学习两个潜在空间之间的映射，从而将损坏的图像恢复为干净的图像。潜在恢复的优势在于，由于第一个VAE中的域对齐，学到的潜在恢复可以很好地泛化到真实照片。此外，我们区分了混合退化，并提出了一个部分非局部块，考虑到潜在特征的长程依赖性，以特别解决潜在转换过程中的结构性缺陷。与几种领先的修复方法相比，我们证明了我们的方法在修复真实照片的多种退化方面的有效性。02. 相关工作0单一退化图像修复。现有的图像退化可以大致分为两类：非结构化退化，如噪声、模糊、色彩褪色和低分辨率，以及结构化退化，如孔洞、划痕和斑点。对于前者的非结构化退化，传统方法通常采用不同的图像先验，包括非局部自相似性[13, 14, 15]、稀疏性[16, 17, 18, 19]和局部平滑性[20, 21,22]。最近，也提出了许多基于深度学习的方法来处理不同的图像退化，如图像去噪[5, 6, 23, 24, 25, 26,27]、超分辨率[7, 28, 29, 30, 31]和去模糊[8, 32, 33,34]。与非结构化退化相比，结构化退化更具挑战性，通常被建模为“图像修补”问题。由于强大的语义建模能力，大多数现有的最佳修补方法都是基于学习的。0例如，Liu等人[35]在卷积运算符中遮盖了孔洞区域，并只让网络关注非孔洞特征，以获得更好的修补结果。为了获得更好的修补结果，许多其他方法同时考虑了局部块统计和全局结构。具体而言，Yu等人[36]和Liu等人[37]提出使用注意力层来利用远程上下文。Ren等人[38]明确估计外观流，以便可以根据相应的块直接合成孔洞区域的纹理。0无论是非结构化还是结构化退化，尽管上述基于学习的方法可以取得显著的结果，但它们都是在合成数据上进行训练的。因此，它们在真实数据集上的性能高度依赖于合成数据的质量。对于真实的旧照片，由于它们经常受到未知退化的混合影响，底层退化过程更难以准确描述。换句话说，仅在合成数据上训练的网络将面临域差异问题，并且在真实的旧照片上表现不佳。在本文中，我们将真实的旧照片修复建模为一个新的三元组域转换问题，并采用一些新技术来最小化域差异。0混合退化图像修复。在现实世界中，受损的图像可能受到划痕、分辨率丧失、色彩褪色和胶片噪声等复杂缺陷的影响。然而，解决混合退化的研究还远未深入探索。先驱性工作[39]提出了一个工具箱，其中包含多个轻量级网络，每个网络负责处理特定的退化。然后，他们学习一个控制器，动态选择工具箱中的操作符。受[39]的启发，[40]并行执行不同的卷积操作，并使用注意机制选择最合适的操作组合。然而，这些方法仍然依赖于合成数据的监督学习，因此无法推广到真实的照片。此外，它们只关注非结构化缺陷，不支持像图像修补这样的结构化缺陷。另一方面，Ulyanov等人[41]发现深度神经网络与低级图像统计特征内在共振，因此可以作为盲目图像修复的图像先验，而无需外部训练数据。虽然[41]中没有明确提到，但这种方法有潜力恢复受多种因素影响的野外图像。相比之下，我们的方法在修复性能和效率方面都表现出色。0旧照片修复。旧照片修复是一个经典的混合退化问题，但大多数现有方法[1, 2, 3,4]只关注修补。它们遵循相似的范式，即首先根据低级特征识别出划痕和斑点等缺陷，然后通过从周围区域借用纹理进行修补。然而，对于真实的旧照片，由于它们经常受到未知退化的严重影响，底层退化过程更难以准确描述。换句话说，仅在合成数据上训练的网络将面临域差异问题，并且在真实的旧照片上表现不佳。在本文中，我们将真实的旧照片修复建模为一个新的三元组域转换问题，并采用一些新技术来最小化域差异。��LVAE1(r) = KL(ER,X (zr|r)||N(0, I))+ αEzr∼ER,X (zr|r)�∥GR,X (rR→R|zr) − r∥1�+ LVAE1,GAN(r)(2)27490然而，手工制作的模型和他们使用的低级特征很难检测和修复这些缺陷。此外，这些方法中没有一个考虑到同时恢复一些非结构性缺陷，如褪色或低分辨率。因此，修复后的照片仍然显得老旧。在这项工作中，我们通过数据驱动的方法重新研究了这个问题，可以同时从多个缺陷中恢复图像，并将严重损坏的旧照片转换为现代风格。03. 方法0与传统的图像恢复任务相比，旧照片的恢复更具挑战性。首先，旧照片包含更复杂的退化，很难以逼真的方式进行建模，并且合成照片和真实照片之间总是存在领域差异。因此，网络通常无法通过纯粹从合成数据中学习来很好地推广到真实照片。其次，旧照片的缺陷是多种退化的复合体，因此本质上需要不同的恢复策略。非结构性缺陷，如胶片噪点、模糊和褪色等，可以通过利用局部块内周围像素的空间均匀滤波器进行恢复；另一方面，结构性缺陷，如划痕和斑点，应通过考虑全局上下文进行修复，以确保结构的一致性。接下来，我们提出解决上述泛化问题和混合退化问题的解决方案。03.1. 通过潜在空间转换进行恢复0为了减小领域差异，我们将旧照片恢复问题形式化为图像转换问题，将干净图像和旧照片视为来自不同领域的图像，并希望学习它们之间的映射关系。然而，与一般的图像转换方法不同，它只是连接两个不同领域的图像 [11,42]，我们要在三个领域之间进行图像转换：真实照片领域R，合成领域X（图像受到人为退化的影响），以及对应的无退化图像领域Y。这种三元领域转换在我们的任务中至关重要，因为它利用了无标签的真实照片以及与地面真实图像相关的大量合成数据。我们分别用 r ∈ R，x ∈ X 和 y ∈ Y表示来自三个领域的图像，其中 x 和 y是通过数据合成配对的，即 x 是由 y退化而来。直接学习从真实照片 { r } N i =1 到干净图像 { y} N i =1的映射很困难，因为它们没有配对，因此不适合监督学习。因此，我们提出将转换分解为两个阶段，如图 2所示。首先，我们提出通过 E R: R → Z R，E X: X → Z X 和E Y: Y → Z Y 将 R、X、Y映射到相应的潜在空间，分别。特别是，因为合成数据与地面真实图像相关联，所以可以通过学习潜在空间的转换将 ZR、Z X 和 Z Y 分别映射到 R、X 和 Y。0x0r0y z x0z r0z y0X0R0Z R0Z Y Y E X0G R0G X0E R0T Z G Y0E Y0图2：我们的三个领域转换方法的示意图。0合成图像和真实旧照片都存在损坏，具有相似的外观，我们通过施加一些约束将它们的潜在空间对齐到共享领域中。因此，我们有 Z R ≈ ZX。这个对齐的潜在空间对所有损坏的图像进行特征编码，无论是合成的还是真实的图像。然后，我们提出在潜在空间中学习图像恢复。具体来说，通过利用合成数据对 { x, y } Ni =1 进行配对，我们通过映射 T Z : Z X → ZY，从损坏图像的潜在空间 Z X 到真实图像的潜在空间 Z Y进行学习，其中 Z Y 可以通过生成器 G Y : Z Y → Y进一步反转为Y。通过学习潜在空间的转换，可以通过依次执行映射 rR→Y = G Y ◦ T Z ◦ E R ( r ) 来恢复真实旧照片。 (1)0VAE潜在空间中的领域对齐我们方法的一个关键是满足R和X编码到相同的潜在空间的假设。为此，我们提出利用变分自编码器[12]（VAE）对图像进行编码，以获得紧凑的表示，其领域差距由对抗鉴别器[43]进一步检查。我们使用图3中显示的网络架构来实现这个概念。在第一阶段，学习两个VAE的潜在表示。旧照片{ r }和合成图像{ x}共享第一个称为VAE1的VAE，具有编码器ER，X和生成器GR，X，而真实图像{y }被输入到第二个VAE，具有编码器-生成器对{ E Y，G Y}。VAE1在r和x中共享，目的是将来自两个损坏域的图像映射到共享的潜在空间。VAEs假设潜在代码的分布具有高斯先验，因此可以通过从潜在空间中进行采样来重构图像。我们使用重参数化技巧来实现可微分的随机采样[44]，并分别使用数据{ r }和{ x }优化VAE 1。具有{ r }的目标定义为：ResBlockResBlockResBlockResBlockPartial nonlocalPartial nonlocalResBlockResBlockResBlockResBlockResBlockResBlockMappingrxyrR→RxX→XrR→YxX→YyY→YER,XEYGR,XGYzR, zXzYzR→Y, zX→YN(0, I)N(0, I)adv.I.I.II.TLlatentVAE1,GAN(r, x) = Ex∼X [DR,X (ER,X (x))2]+ Er∼R[(1 − DR,X (ER,X (r)))2].(3)minER,X ,GR,X maxDR,X LVAE1(r) + LVAE1(x) + LlatentVAE1,GAN(r, x).LT (x, y) = λ1LT ,ℓ1 + LT ,GAN + λ2LFM(5)LFM = E� �i1niDT∥φiDT (xX→Y) − φiDT (yY→Y)∥1+�i1niVGG∥φiVGG(xX→Y) − φiVGG(yY→Y)∥1�,(6)27500图3：我们恢复网络的架构。(I.)我们首先训练两个VAE：VAE 1用于真实照片r ∈R和合成图像x ∈X，通过联合训练对抗鉴别器来关闭它们之间的领域差距；VAE 2用于干净图像y ∈Y。通过VAEs，图像被转换为紧凑的潜在空间。(II.)然后，我们在潜在空间中学习将损坏的图像恢复为干净图像的映射。0其中，z r ∈ Z R是r的潜在代码，rR→R是生成的输出。方程中的第一项是KL散度，惩罚潜在分布与高斯先验的偏离。第二个ℓ1项使VAE重构输入，隐含地强制潜在代码捕捉图像的主要信息。此外，我们引入最小二乘损失（LSGAN）[45]，在公式中表示为L VAE1，GAN，以解决VAE中已知的过度平滑问题，进一步鼓励VAE以高逼真度重构图像。具有{x}的目标，表示为L VAE1（x），类似地定义。域Y的VAE2也使用类似的损失进行训练，以便得到相应的潜在表示z y∈ Y。0我们使用VAE而不是普通的自编码器，因为由于KL正则化，VAE具有更密集的潜在表示，这将在消融研究中得到证明，并且这有助于在VAE 1中为{ r }和{ x}生成更接近的潜在空间，从而导致更小的领域差距。为了进一步缩小这个降维空间中的领域差距，我们提出使用对抗网络来检查残差潜在差距。具体而言，我们训练另一个鉴别器D R，X，它0区分Z R和Z X的鉴别器，其损失定义为：0同时，VAE 1 的编码器 E R , X试图通过相反的损失欺骗判别器，以确保 R 和 X被映射到相同的空间。结合潜在对抗损失，VAE 1的总目标函数变为，0(4) 通过潜在映射进行恢复通过 VAEs捕获的潜在编码，在第二阶段，我们利用合成图像对 { x, y }并提出通过映射它们的潜在空间（图 3 中的映射网络 M）来学习图像恢复。潜在恢复的好处有三个。首先，由于 R和 X 被对齐到相同的潜在空间中，从 Z X 到 Z Y的映射也将很好地推广到对 R中图像的恢复。其次，在紧凑的低维潜在空间中进行映射原则上比在高维图像空间中更容易学习。此外，由于两个VAEs是独立训练的，并且两个流的重建不会相互干扰。生成器 GY可以始终获得绝对干净的图像，而不会有退化，因为它给定了从 Z X 映射到 Z Y 的潜在编码 z Y，而如果我们在像素级别学习翻译，退化可能仍然存在。让r R→Y ， x X→Y 和 y Y→Y 分别是 r ， x 和 y的最终翻译输出。在这个阶段，我们仅训练潜在映射网络 T的参数，并固定两个 VAEs。损失函数 L T在潜在空间和生成器 G Y 的末端都被施加，由三个项组成，0其中，潜在空间损失 L T ，ℓ 1 = E ∥T ( z x ) − z y ) ∥ 1，惩罚相应潜在编码的 ℓ 1 距离。我们引入对抗损失 L T，GAN ，仍然采用 LSGAN [ 45 ]的形式，以鼓励最终翻译的合成图像 x X→Y看起来真实。此外，我们引入特征匹配损失 L FM 来稳定GAN 训练。具体来说，L FM 匹配对抗网络 D M和预训练的 VGG 网络（在 [ 11 , 46 ]中也称为感知损失）的多级激活，即Oi = ν�∀jsi,jµ(Fj) ,(9)0.00.20.40.60.81.0Pure synthetic data (AUC = 0.750)Pure labeled data (AUC = 0.807)Finetune (AUC = 0.912)Ffuse = (1 − m) ⊙ ρlocal(F) + m ⊙ ρglobal(O),(10)where operator ⊙ denotes Hadamard product, and ρlocaland ρglobal denote the nonlinear transformation of residualblocks in two branches. In this way, the two branches con-stitute the latent restoration network, which is capable todeal with multiple degradation in old photos. We will detailthe derivation of the defect mask in Section 4.1.27510其中，φ i D T ( φ i VGG ) 表示判别器（VGG 网络）的第 i层特征图，n i D T ( n i VGG ) 表示该层中的激活数。03.2. 多重退化恢复0使用残差块进行潜在恢复，如前所述，由于每层的感受野有限，只集中在局部特征上。然而，结构缺陷的恢复需要考虑到长程依赖性，以确保全局结构的一致性。由于传统照片通常包含混合的退化，我们必须设计一个同时支持这两种机制的恢复网络。为了实现这个目标，我们提出通过在 Figure 3中展示的全局分支来增强潜在恢复网络，该分支由一个考虑全局上下文的非局部块 [ 47 ]和随后的几个残差块组成。虽然 [ 47 ]中提出的原始块不知道损坏区域，但我们的非局部块明确利用了掩码输入，以便不会采用损坏区域的像素来完成这些区域。由于考虑的上下文是特征图的一部分，我们将专门为潜在修复设计的模块称为部分非局部块。形式上，设 F ∈ R C× HW 为 M 中的中间特征图（其中 C ， H 和 W分别表示通道数、高度和宽度），m ∈ { 0 , 1 } HW表示缩小到相同大小的二进制掩码，其中 1表示要修复的缺陷区域，0 表示完好的区域。F 中第 i个位置和第 j 个位置之间的亲和性，用 F i 和 F j的相关性通过掩码 (1 − m j ) 调制计算，即 s i,j = (1 − m j) f i,j / �0其中，f i,j = exp( θ ( F i ) T ∙ φ ( F j )) (8)0给出了嵌入高斯的成对亲和力。θ和φ将F投影到高斯空间进行亲和力计算。根据考虑掩码中的孔洞的亲和力si,j，部分非局部最终输出0这是每个位置相关特征的加权平均值。我们使用1×1卷积实现嵌入函数θ、φ、µ和ν。我们专门为修复设计了全局分支，希望非孔洞区域保持不变，因此我们在指导下将全局分支与局部分支融合00.0 0.2 0.4 0.6 0.8 1.0 假阳性率0真阳性率0图4：不同数据设置下的划痕检测的ROC曲线。04. 实验04.1. 实现0训练数据集我们使用Pascal VOC数据集[ 48]中的图像合成旧照片。为了呈现逼真的瑕疵，我们还收集了划痕和纸张纹理，并通过弹性扭曲进行进一步增强。我们使用图层相加、仅亮化和屏幕模式以随机的不透明度水平将划痕纹理与数据集中的真实图像混合。为了模拟大面积的照片损坏，我们生成具有羽化和随机形状的孔洞，从而揭示出底部的纸张纹理。最后，引入了随机数量的胶片颗粒噪声和模糊来模拟非结构化的瑕疵。此外，我们收集了5718张旧照片来形成旧照片数据集。划痕检测为了检测部分非局部块的结构区域，我们使用Unet架构[ 49]训练了另一个网络。检测网络首先仅使用合成图像进行训练。我们采用焦点损失[ 50]来解决正负检测不平衡的问题。为了进一步提高在真实旧照片上的检测性能，我们用划痕标注了783张收集的旧照片，其中我们使用400张图像来微调检测网络。图4中的验证集上的ROC曲线显示了微调的有效性。微调后的曲线下面积（AUC）达到0.91。训练细节我们采用Adam求解器[ 51]，其中 β 1 = 0 . 5 且 β 2 = 0 . 999。学习率设置为0.0002，前100个epoch，之后线性衰减为零。27520方法 PSNR ↑ SSIM ↑ LPIPS ↓ FID ↓0输入 12.92 0.49 0.59 306.80 注意力 [ 40 ] 24.12 0.700.33 208.11 DIP [ 41 ] 22.59 0.57 0.54 194.55 Pix2pix [53 ] 22.18 0.62 0.23 135.14 Sequential [ 54 , 55 ] 22.710.60 0.49 191.980我们的（无PN） 23.14 0.68 0.26 143.62 我们的（有PN）23.33 0.69 0.25 134.350表1：DIV2K数据集上的定量结果。向上箭头表示较高的分数表示良好的图像质量。我们突出显示每个度量的最佳两个分数。在表中，PN代表部分非局部块。0在训练过程中，我们随机裁剪图像为256×256。在所有实验中，我们根据方程（2）和（5）经验性地设置参数，其中α= 10，λ1 = 60，λ2 = 10。04.2. 比较0基准我们将我们的方法与最先进的方法进行比较。为了公平比较，我们使用相同的训练数据集（PascalVOC）对所有方法进行训练，并在从DIV2K数据集[52]合成的损坏图像和我们的旧照片数据集的测试集上进行测试。以下方法用于比较。0•操作上的注意力[40]并行执行多个操作，并使用注意机制选择适当的分支进行混合退化修复。它通过监督学习从合成图像对中学习。0•深度图像先验[41]学习给定单个退化图像的图像修复，已被证明在去噪、超分辨率和盲修复方面非常强大。0• Pix2Pix[53]是一种监督的图像转换方法，利用合成图像对学习图像级别的转换。0• CycleGAN[42]是一种著名的无监督图像转换方法，它使用不配对的来自不同领域的图像进行转换。0• 最后一个基准是依次执行BM3D[54]，一种经典的降噪方法，和EdgeConnect[55]，一种最先进的修复方法，分别恢复非结构化和结构化的缺陷。0定量比较我们在DIV2K数据集的合成图像上测试了不同的模型，并采用了四个指标进行比较。表1给出了定量结果。峰值信噪比（PSNR）和结构相似性指数（SSIM）用于比较修复输出与实际图像之间的低级差异。0操作上的注意力方法毫不意外地在PSNR/SSIM得分上表现最好，因为该方法直接优化像素级的ℓ1损失。我们的方法在PSNR/SSIM方面排名第二。然而，这两个衡量低级差异的指标通常与人类判断不一致，特别是对于复杂的未知失真[56]。因此，我们还采用了最近学习到的感知图像补丁相似性（LPIPS）[56]度量，该度量计算预训练网络的多级激活之间的距离，并被认为与人类感知更相关。这次，Pix2pix和我们的方法得分最高，差异可以忽略不计。然而，操作上的注意力方法在这个度量下表现较差，表明它不能产生良好的感知质量。此外，我们采用了广泛用于评估生成模型质量的Fr´echet InceptionDistance（FID）[57]。具体而言，FID分数计算最终输出和真实图像的特征分布之间的距离。仍然，我们的方法和Pix2pix排名最好，而我们的方法显示出轻微的定量优势。总的来说，我们的方法在合成数据上与领先的方法相当。0定性比较为了证明对真实旧照片的泛化能力，我们在真实照片数据集上进行了实验。为了公平比较，我们重新训练CycleGAN将真实照片转换为清晰图像。由于我们缺乏真实照片的修复真值，我们无法应用基于参考的度量进行评估。因此，我们进行了定性比较，如图5所示。DIP方法可以在一定程度上恢复混合退化。然而，缺陷修复和结构保护之间存在权衡：长时间的训练会导致更多的缺陷暴露，而较少的迭代会导致细节结构的丢失。CycleGAN从不配对的图像中学习，倾向于专注于恢复非结构化的缺陷，并忽略恢复所有划痕区域。操作上的注意力方法和顺序操作都具有可比较的视觉质量。然而，它们不能修复合成数据中未涵盖的缺陷，如褐色问题和颜色褪色。此外，结构性缺陷仍然存在问题，可能是因为它们无法处理与合成数据集微妙不同的旧照片纹理。Pix2pix在合成图像上与我们的方法相当，但在视觉上不如我们的方法。一些胶片噪声和结构性缺陷仍然存在于最终输出中。这是由于合成图像和真实照片之间的领域差距，使得该方法无法泛化。相比之下，我们的方法给出了干净、清晰的图像，划痕区域被填充得几乎看不出任何伪影。除了成功处理数据合成中考虑的伪影外，我们的方法还可以适当增强照片的颜色。总的来说，27530图5：与最先进方法的定性比较。它显示了我们的方法可以恢复无结构和有结构的退化，并且我们的恢复结果明显优于其他方法。0我们的方法提供了最令人愉悦的视觉效果，修复后的照片看起来像现代摄影图像。0用户研究为了更好地说明主观质量，我们进行了用户研究以与其他方法进行比较。我们从测试集中随机选择了25张老照片，并让用户根据修复质量对结果进行排序。我们收集了来自22位用户的主观意见，结果如表2所示。结果显示，我们的方法被选择为第一名的可能性高出64.86％，这显示了我们方法的明显优势。0方法第一名第二名第三名第四名第五名0DIP [ 41 ] 2.75 6.99 12.92 32.63 69.70 CycleGAN [ 42 ] 3.398.26 15.68 24.79 52.12 Sequential [ 54 , 55 ] 3.60 20.9751.48 83.47 93.64 Attention [ 40 ] 11.22 28.18 56.99 75.8589.19 Pix2Pix [ 53 ] 14.19 54.24 72.25 86.86 96.61 我们的方法64.83 81.35 90.68 96.40 98.720表2：用户研究结果。显示用户选择的百分比（％）。Wasserstein ↓1.8371.0480.7650.581BRISQUE ↓25.54923.94923.39623.01627540图6：两阶段VAE翻译的消融研究。0方法 Pix2Pix VAEs VAEs-TS 完整模型0表3：使用VAEs进行潜在翻译的消融研究。04.3. 消融研究0为了证明各个技术贡献的有效性，我们进行了以下消融研究。VAEs的潜在翻译考虑以下变体，逐步添加提出的组件：1）Pix2Pix，学习图像级别的翻译；2）两个VAEs，附加KL损失以惩罚潜在空间；3）两阶段训练的VAEs（VAEs-TS）：先分别训练两个VAEs，然后学习两个VAEs之间的潜在映射（非固定）；4）我们的完整模型，还采用了潜在对抗损失。我们首先计算老照片和合成图像的潜在空间之间的Wasserstein距离[58]。表3显示，添加每个组件后，分布距离逐渐减小。这是因为VAEs产生了更紧凑的潜在空间，两阶段训练隔离了两个VAEs，并且潜在对抗损失进一步缩小了域差距。较小的域差距将提高模型对真实照片修复的泛化能力。为了验证这一点，我们采用了盲目图像质量评估指标BRISQUE[59]来衡量修复后的照片质量。表3中的BRISQUE分数逐渐提高，应用这些技术也与图6中的视觉结果一致。部分非局部块部分非局部块的效果如图7和8所示。由于利用了大量图像上下文，划痕可以更少地产生视觉伪影，并且可以实现更好的全局一致修复。此外，表1中的定量结果也显示，部分非局部块在所有指标上都能持续改善修复性能。0图7：部分非局部块的消融研究。部分非局部块更好地修复了结构缺陷。0图8：部分非局部块的消融研究。部分非局部块不会触及非孔洞区域。0图9：限制。我们的方法无法处理复杂的阴影伪影。05. 讨论和结论0我们提出了一种新颖的三元组域翻译网络，用于恢复老照片中的混合退化。我们减小了老照片和合成图像之间的域差距，并在潜在空间中学习将其翻译为清晰图像。与之前的方法相比，我们的方法在泛化问题上表现更好。此外，我们提出了一种部分非局部块，通过利用全局上下文来恢复潜在特征，从而可以更好地填补划痕并保持结构一致性。我们的方法在恢复严重退化的老照片方面表现出良好的性能。然而，我们的方法无法处理如图9所示的复杂阴影。这是因为我们的数据集中包含很少带有此类缺陷的老照片。可以通过在合成过程中明确考虑阴影效果或添加更多此类照片作为训练数据来解决这个限制。0致谢：我们要感谢XiaokunXie的帮助和匿名审稿人的建设性意见。这项工作得到了香港ECS基金No.21209119和香港UGC的部分支持。27550参考文献0[1] F. Stanco，G. Ramponi和A. DePolo，“关于旧照片印刷品自动修复的调查”，《IEEE区域8EUROCON2003.计算机作为工具。》第2卷。IEEE，2003年，第370-374页。1,20[2] V. Bruni和D.Vitulano，“划痕检测的广义模型”，《IEEE图像处理杂志》，第13卷，第1期，第44-50页，2004年。1,20[3] R.-C. Chang，Y.-L. Sie，S.-M. Chou和T. K.Shih，“图像修复的照片缺陷检测”，第七届IEEE多媒体国际研讨会（ISM'05）。IEEE，2005年，第5-pp.1,20[4] I. Giakoumis，N. Nikolaidis和I.Pitas，“数字化绘画中裂纹检测和去除的数字图像处理技术”，《IEEE图像处理杂志》，第15卷，第1期，第178-188页，2005年。1,20[5] K. Zhang，W. Zuo，S. Gu和L.Zhang，“学习深度CNN去噪器先验用于图像恢复”，2017年IEEE计算机视觉和模式识别会议论文集，第3929-3938页。1,20[6] K. Zhang，W. Zuo，Y. Chen，D. Meng和L.Zhang，“超越高斯去噪器：深度卷积神经网络的残差学习用于图像去噪”，《IEEE图像处理杂志》，第26卷，第7期，第3142-3155页，2017年。1,20[7] C. Dong，C. C. Loy，K. He和X.Tang，“学习用于图像超分辨率的深度卷积网络”，《欧洲计算机视觉会议》，2014年，第184-199页。1,20[8] L. Xu，J. S. Ren，C. Liu和J.Jia，“用于图像去卷积的深度卷积神经网络”，《神经信息处理系统进展》，2014年，第1790-1798页。1,20[9] W. Ren，S. Liu，H. Zhang，J. Pan，X. Cao和M.-H.Yang，“通过多尺度卷积神经网络进行单幅图像去雾”，《欧洲计算机视觉会议》，2016年，第154-169页。10[10] B. Zhang，M. He，J. Liao，P. V. Sander，L. Yuan，A.Bermak和D.Chen，“基于深度示例的视频上色”，2019年IEEE计算机视觉和模式识别会议论文集，第8052-8061页。10[11] P. Isola，J.-Y. Zhu，T. Zhou和A. A.Efros，“条件对抗网络的图像到图像转换”，《计算机视觉和模式识别（CVPR）》2017年IEEE会议。2,3,40[12] D. P. Kingma和M.Welling，“自动编码变分贝叶斯”，arXiv预印本arXiv:1312.6114，2013年。2,30[13] A. Buades，B. Coll和J.-M.Morel，“一种非局部算法用于图像去噪”，《2005年IEEE计算机学会计算机视觉和模式识别会议（CVPR'05）》，第2卷。IEEE，2005年，第60-65页。20[14] J. Mairal，F. Bach，J. Ponce，G. Sapiro和A.Zisserman，“用于图像恢复的非局部稀疏模型”，2009年IEEE第12届国际计算机视觉会议。IEEE，第2272-2279页。20[15] K. Dabov，A. Foi，V. Katkovnik和K.Egiazarian，“通过稀疏3D变换域协作滤波进行图像去噪”，《IEEE图像处理杂志》，第16卷，第8期，第2080-2095页，2007年。20[16] M. Elad和M.Aharon，“通过学习字典的稀疏和冗余表示进行图像去噪”，《IEEE图像处理杂志》，第15卷，第12期，第3736-3745页，2006年。20[17] J. Mairal，M. Elad和G.Sapiro，“用于彩色图像恢复的稀疏表示”，《IEEE图像处理杂志》，第17卷，第1期，第53-69页，2007年。20[18] J. Yang, J. Wright, T. S. Huang, and Y. Ma,“通过稀疏表示进行图像超分辨率,” IEEE图像处理交易 , vol. 19,no. 11, pp. 2861–2873, 2010. 20[19] J. Xie, L. Xu, and E. Chen,“使用深度神经网络进行图像去噪和修复,” in2012年神经信息处理系统进展 , 2012, pp. 341–349. 20[20] Y. Weiss and W. T. Freeman,“什么样的自然图像模型是好的？” in2007年IEEE计算机视觉和模式识别会议 , IEEE, 2007, pp. 1–8. 20[21] S. D. Babacan, R. Molina, and A. K. Katsaggelos,“使用变分方法的全变差超分辨率,” in2008年第15届IEEE国际图像处理会议 , IEEE, 2008, pp. 641–644.20[22] S. Z. Li, 图像分析中的马尔可夫随机场建模 . SpringerScience & Business Media, 2009. 20[23] K. Zhang, W. Zuo, and L. Zhang, “Ffdnet:用于基于CNN的图像去噪的快速和灵活解决方案,”IEEE图像处理交易 , vol. 27, no. 9, pp. 4608– 4622, 2018. 20[24] X. Mao, C. Shen, and Y.-B. Yang,“使用具有对称跳跃连接的非常深的卷积编码器-解码器网络进行图像恢复,” in 2016年神经信息处理系统进展 , 2016, pp.2802–2810. 20[25] S. Lefkimmiatis, “通用去噪网络:一种新的CNN架构用于图像去噪,” in2018年IEEE计算机视觉和模式识别会议论文集 , 2018, pp.3204–3213. 20[26] D. Liu, B. Wen, Y. Fan, C. C. Loy, and T. S. Huang,“非局部循环网络用于图像恢复,” in2018年神经信息处理系统进展 , 2018, pp. 1673– 1682. 20[27] Y. Zhang, K. Li, K. Li, B. Zhong, and Y. Fu,“用于图像恢复的残差非局部注意力网络,” arXiv预印本arXiv:1903.10082 , 2019. 227560[28] J. Kim, J. Kwon Lee, and K. Mu Lee,“使用非常深的卷积网络进行准确的图像超分辨率,” in2016年IEEE计算机视觉和模式识别会议论文集 , 2016, pp.1646–1654. 20[29] C. Ledig, L. Theis, F. Husz´ar, J. Caballero, A. Cunningham,A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang et al. ,“使用生成对抗网络进行逼真的单图像超分辨率,” arXiv预印本 ,2017. 20[30] X. Wang, K. Yu, S. Wu, J. Gu, Y. Liu, C. Dong, Y. Qiao, andC. C

下载后可阅读完整内容，剩余1页未读，立即下载