没有合适的资源?快使用搜索试试~ 我知道了~
DeflurGAN-v2:更快速高效的单图像运动去模糊网络
1DeflurGAN-v2:更快更好地去模糊(数量级)Orest Kupyn1,3,Tetiana Martyniuk1,Junru Wu2,Zhangyang Wang21乌克兰天主教大学,利沃夫,乌克兰;3 SoftServe,利沃夫,乌克兰{kupyn,t.martynyuk}@ ucu.edu.ua2德州农工大学计算机科学与工程系{sandboxmaster,atlaswang}@ tamu.edu摘要我 们 提 出 了 一 个 新 的 端 到 端 生 成 对 抗 网 络(GAN),用于单图像运动去模糊,名为DeflurGAN-v2,它大大提高了最先进的去模糊效率,质量和灵活性。DeflurGAN-v2是基于一个相对论性的条件GAN与双尺度的卷积。我们首次将特征金字塔网络引入到去模糊中,作为DeblurGAN-v2生成器中的核心构建块。它可以灵活地与各种主干一起工作,以在性能和效率之间实现平衡。 复杂主干的插入(例如,Inception-ResNet-v2)0.9400.9350.9300.9250.9200.9150.910DeflurGAN-V2(初始)DeflurGANDeflurGAN-V2(MobileNet)DeflurGAN-V2(MobileNetDSC)SRN0.9400.9350.9300.9250.920DeepDeflur0.9150.910可以实现最先进的去模糊效果同时,对于轻质主链(例如,MobileNet及其变体),DeflurGAN-v2比最接近的竞争对手快10-100倍,同时保持接近最先进的结果,这意味着可以选择实时视频去模糊。我们证明,在 去 模 糊 质 量 ( 客 观 和 主 观 ) 以 及 效 率 方 面 ,DeburGAN-v2在几个流行的基准测试中获得了非常有竞争力的性能。此外,我们的架构是有效的一般图像恢复任务。我们的代码、模型和数据可从以下网址获取:https://github.com/KupynOrest/DeblurGANv2网站。1. 介绍针对单帧图像盲运动模糊去模糊这一具有挑战性的问题进行了研究.运动模糊通常从由手持相机拍摄的照片或包含移动对象的低帧速率视频中发现。模糊降低了人类的感知质量,并对随后的计算机视觉分析提出了挑战。真实世界的模糊通常具有未知的和空间变化的模糊核,并且由于噪声和其他伪影而进一步复杂化。最近深度学习的繁荣导致了信号-0 250 500 75010001250150017502000FLOPs(G)图1:GoPro数据集的SSIM-FLOPs权衡图。 对比三个最 先 进 的 竞 争 对 手 ( 蓝 色 ) : DeburGAN [21] 、DeepDeflur [33] 和 Scale-Recurrent Network ( SRN )[45],DeburGAN-v2模型(具有不同的主干,红色)被证明可以实现卓越或相当的质量,并且效率更高。通常产生比经典前馈编码器更清晰和更合理的纹理,并见证了图像超分辨率[23]和图像内绘制[53]的成功。最近,[21]通过将其视为特殊的图像到图像转换任务[13], 将 GAN 引 入 去 模 糊 。 所 提 出 的 模 型 , 称 为DeflurGAN,被证明可以从合成和真实世界的模糊图像中恢复感知愉悦和清晰的图像。DeflurGAN也比当时最接近的竞争对手快5倍[33]。基于DeburGAN的成功,本文旨在对基于GAN的运动去模糊进行另一次实质性的推动。我们引入了一个新的框架来改进DeflurGAN,称为DeflurGAN-v2,在去模糊性能和推理效率方面,以及在质量效率频谱上实现高灵活性我们的创新总结如下1:图像恢复领域的重大进展[48,28]。具体来说,生成对抗网络(GANs)[9]1非正式说明:我们非常喜欢[38]中的幽默感,引用8878SSIM8879(D(x)−1)• 框架级别:我们构建了一个新的条件GAN框架去模糊。对于生成器,我们引入了特征金字塔网络(FPN),最初是为目标检测而开发的[27],首次用于图像恢复任务对于判别器,我们采用了一个相对论性矩阵[16],其中包含最小二乘损失[30],并且有两列分别评估全局(图像)和局部(补丁)尺度。• 骨干等级:虽然上述框架对于生成器主干是不可知的,但是选择影响去模糊质量和效率。为了追求最先进的去模糊质量,我们插入了复杂的Inception-ResNet-v2主干。为了提高效率,我们采用了MobileNet,并进一 步 创 建 了 它 的 变 体 - 深 度 可 分 离 卷 积(MobileNet-DSC)。后两种方法在尺寸上非常紧凑,推理速度也非常快。• 实验水平:我们提出了非常广泛的实验上三个流行的基准,以显示国家的最先进的(或接近)的性能(PSNR,SSIM,和感知质量)由DeflurGAN实现以直接从模糊输入中恢复干净的图像,例如,[33,35]。陶等的最新工作。[45]将多尺度CNN从[33]扩展到用于盲图像去模糊的尺度递归CNN,结果令人印象深刻。自Ramakrish- nan等人以来,GAN在图像恢复方面的成功也影响了单图像去模糊。[37]首先通过参考图像平移思想解决了图像去模糊问题[13]。最近,Kupyn等 人 [21] 引 入 了 DeburGAN , 利 用 Wasserstein GAN[2],具有梯度惩罚[10]和感知损失[15]。2.2. 生成对抗网络GAN [9]由两个模型组成:鉴别器D和生成器G,它们形成了两人极大极小博弈。生成器学习产生人工样本,并被训练欺骗鉴别器,以捕获真实的特别是,作为一种流行的GAN变体,条件GAN [31]已被广泛应用于图像到图像的翻译问题,图像恢复和增强是特殊情况。它们将标签或观察到的图像以及潜码作为输入。具有价值函数V(D,G)的极大极小博弈公式如下[9](假-真标签设置为0−1):v2. 在效率方面,具有最小值最大值V(D,G)=EΣ ΣlogD(x)MobileNet-DSC比DeflurGANG D快11倍[21],比[33,45]快100倍以上,模型大小仅为4MB,这意味着xp数据(x)Σ Σ+ Ezpz(z)log(1 −D(G(z)实时视频去模糊。 我们还提出了一个主题-对真实模糊图像的去模糊质量进行了初步研究。最后,我们展示了我们的模型在一般图像恢复中的潜力,作为额外的灵活性。2. 相关工作2.1. 图像去模糊单图像运动去模糊传统上被视为去卷积问题,并且可以以盲或非盲的方式来处理。前者假设给定或预先估计的模糊核[39,52]。后者更现实,但高度不适定。早期模型依赖于自然图像先验来正则化去模糊[20,36,25,5]。然而,大多数手工制作的先验不能很好地捕捉众所周知,这样的目标函数难以优化,并且需要处理许多挑战,例如,模式塌陷和梯度消失/爆炸。为了修复消失的梯度并稳定训练,最小二乘GANs [30]试图引入一个损失函数,提供更平滑和非饱和的梯度。作者观察到[9]中的对数型损失很快饱和,因为它忽略了x到决策边界之间的距离。相比之下,L2损失提供与该距离成比例的梯度,使得离边界更远的所提出的损失函数还使Pearsonχ2发散最小化,从而导致更好的训练稳定性。LSGAN目标函数写为:复杂的模糊变化。新兴的深度学习技术推动了图像恢复任务的突破。Sun等人[43]利用卷积神经网络(CNN)进行模糊核估计。Gong等[8]使用完全卷积最小值V(D)=1ED2+1E2最小V(G)=1EΣ2Σxp数据(x)G(z)(1)(D(G(z))−1)2网络来估计运动流。除了那些核心-的方法,端到端的无核CNN方法,zpz(z)G2他说:“我们对YOLO进行了一些更新。我们做了一些设计上的小改动让它更好。我们还训练了这个新的网络,它非常强大。“- 这也很好地描述了我们对DeburGAN所做的事情;尽管我们认为DeburGAN-v2是DeburGAN的非增量升级,具有显著的性能&效率改进。GAN的另一个相关改进是相对-tic GAN [16].它使用相对论鉴别器来估计给定的真实数据比随机采样的假数据更真实的概率正如作者主张的,这将占先验知识的一半zp(z)z88804图2:DeflurGAN-v2流水线架构。小批量中的数据是假的。相对论判别器显示出与其他GAN类型相比更稳定和计算效率更高的训练,包括DeblurGAN-v1中使用的WGAN-GP3. DeflurGAN-v2架构DeflurGAN-v2体系结构概述如图2所示。它经由经训练的生成器从单个模糊图像IB恢复清晰图像IS3.1. 特征金字塔去模糊用 于 图 像 去 模 糊 ( 和 其 他 恢 复 问 题 ) 的 现 有CNN[23,33]通常指ResNet类结构。大多数最先进的方法[33,45]处理不同级别的模糊,利用具有不同尺度的输入图像金字塔的多流CNN。然而,处理多尺度图像是耗时且需要存储器的。我们将特征金字塔网络的思想[27]引入图像去模糊(更一般地说,图像恢复和增强领域),这是我们第一次尽。我们把这种新的方法作为一个轻量级的替代方案,将多尺度功能。FPN模块最初设计用于目标检测[27]。它生成多个特征映射层,编码不同的语义,并包含更好的质量信息。FPN包括自下而上和自上而下路径。自底向上路径是用于特征提取的通常的卷积通过自上而下的路径,FPN从语义丰富的层重建更高的空间分辨率。自下而上和自上而下路径之间的横向连接补充了高分辨率的细节并帮助定位对象。我们的架构包括一个FPN骨干,我们采取五个不同规模的最终特征图作为输出。这些要素稍后被上采样为相同的1输入大小,并连接到一个张量,其中包含不同级别的语义信息我们还在网络的末端添加了两个上采样和卷积层,以恢复原始图像大小并减少伪影。类似于[21,29],我们引入了从输入到输出的直接跳过连接,以便学习集中在残差上。输入图像被归一化为[-11]。我们还使用双曲正切激活层来保持输出在相同的范围内。除了多尺度特征聚合功能外,FPN还在精度和速度之间取得了平衡:请参见实验部分。3.2. 主干的选择:性能和效率之间的权衡新的FPN嵌入架构是不可知的特征提取器主干的选择。有了这个即插即用的属性,我们有权灵活地导航,通过准确性和效率的频谱门。默认情况下,我们选择ImageNet预训练的主干来传递更多语义相关的特征。作为一种选择,我们使用Inception-ResNet-v2[44]来追求强大的去模糊性能,尽管我们发现其他主干(如SE-ResNeXt [12])也同样有效。由于移动设备上图像增强的普遍需要,对高效恢复模 型 的 需 求 为 了 探 索 这 个 方 向 , 我 们 选 择 了MobileNetV2主干网[40]作为一种选择。为了进一步降低复杂度,我们在DeburGAN- v2之上,使用MobileNet V2尝试另一个更积极的选项,将整个网络中的所有正常卷积(包括不 在 主 干 中 的 卷 积 ) 替 换 为 Dependency SeparableConvolutions [6]。所得到的模型被表示为MobileNet-DSC,并且可以提供非常轻量级和高效的图像去模糊。为了向从业者释放这种重要的灵活性,在我们的代码中,我们将主干的切换实现为一个简单的单行命令:它可以与8881D许多最先进的预先训练的网络。3.3. 双尺度RaGAN LS鉴别器我们建议在DeblurGAN [21]中使用WGAN-GP鉴别器,而不是DeblurGAN [21]中的WGAN-GP鉴别器。我们首先在LSGAN上采用相对论[30]成本函数,创建新的RaGAN-LS损失:LRaLSGAN=Exp数据(x)(D(x)−Ezpz(z)D(G(z))−1)2次方+Ezpz(z)(D(G(z))−Exp数据(x)D(x)+1)2Σ(二)(a)(b)(c)(d)据观察,与使用WGAN-GP目标相比,它使训练显着更快和更稳定。我们还根据经验得出结论,所产生的结果具有更高的感知质量和整体更清晰的输出。相应地,DeflurGAN-v2生成器的对抗性损失LadvG.扩展到全局和局部规模。 Isola等人[13]我建议使用一个PatchGAN鉴别器,它对大小为70× 70的图像块进行操作,这被证明比标准的“全局”识别器产生更清晰的结果犯罪分子在完整的图像上操作。PatchGAN的想法在DeburGAN中被采用[21]。然而,我们观察到,对于高度不均匀的模糊图像,特别是当涉及复杂的对象移动时,“全局”尺度对于鉴别器结合完整的空间背景仍然是必不可少的为了利用全局和局部特征,我们提出使用双尺度鉴别器,由一个局部分支组成,该局部分支在补丁级别上操作,如[13]所做的那样,另一个全局分支提供完整的输入图像。我们观察到,为了允许DeblurGAN-v2更好地处理更大和更异构的真实模糊。总体损失函数对于训练图像恢复GAN,需要在某些度量下比较训练阶段的重建图像和原始图像。一个常见的选项是像素空间损失LP,例如,最简单的L1或L2距离。如[23]所述,使用LP倾向于产生过度平滑的像素空间输出。[21]提出使用感知距离[15],作为“内容”损失L X的形式与L2相反,它计算VGG 19 [41]conv3 3特征图上的欧几里得损失。我们结合这些先前的智慧,并使用混合三项损失来训练DeburGAN-v2:L G= 0。5μ L p+0。006微升X+0。01LadvL_adv项包含全局和局部鉴别器损失。此外,我们选择均方误差(MSE)损失为Lp:虽然DeburGAN不包括Lp项,我们发现它有助于纠正颜色和纹理失真。3.4. 训练数据集GoPro数据集[33]使用GoPro Hero 4摄像头捕捉240帧每秒(fps)的视频序列,图3:合成的模糊图像的视觉比较,无插值(a,c)和有插值(b,d)。并通过对连续的短曝光帧进行平均来产生模糊图像它是图像运动模糊的常见基准,包含3,214个模糊/清晰图像对。我们遵循相同的分割[33],使用2,103对进行训练,剩余的1,111对进行评估。DVD数据集[42]收集了71个由各种设备(如iPhone6s,GoPro Hero 4和Nexus 5x)以240 fps拍摄的真实世界视频然后,作者通过平均连续短曝光帧以近似较长曝光来生成6708个合成模糊和清晰对[46]。该数据集最初用于视频去模糊,但后来也被带到图像去模糊领域。NFS数据集[17]最初被提出用于基准视觉对象跟踪。它由75个使用iPhone 6和iPad Pro的高帧率摄像头拍摄的视频组成。另外,从YouTube收集25个序列,这些序列从各种不同的设备以240fps捕获它涵盖了各种场景,包括运动,跳伞,水下,野生动物,路边和室内场景。培训数据准备:常规地,模糊帧是从连续的干净帧平均的。然而,我们注意到不切实际的鬼效应时,观察直接平均帧,如图3(a)(c)。为了缓解这种情况,我们首先使用视频帧插值模型[34]将原始的240 fps视频增加到3840 fps,然后在相同的时间窗口(但现在有更多的帧)上执行平均池化它导致更平滑和更连续的模糊,如图3(b)(d)所示。实验上,这种数据准备没有明显影响PSNR/SSIM,但观察到改善了视觉质量结果。4. 实验评价4.1. 实现细节我们使用PyTorch [1]实现了所有模型。我们通过从GoPro和DVD数据集中选择第二帧,以及从NFS数据集中选择第十帧来组成我们的训练集 然后,我们在大约10,000张图像8882表1:GoPro测试数据集上的性能和效率比较,所有模型都在线性图像子集上进行了测试孙 等人 [四十三]徐 等人[五十一]DeepDeflur [33个]SRN [45] [21]第二十一话 inception-ResNet-v2 MobileNet MobileNet-DSCPSNR24.6425.1029.2330.1028.7029.5528.1728.03SSIM0.8420.8900.9160.9320.9270.9340.9250.922时间20分钟13.41s4.33s1.6s0.85s0.35s0.06s0.04sFLOPSN/AN/A1760.04G1434.82G678.29G411.34G43.75G14.83G表2:Kohler数据集上的PSNR和SSIM比较。方法[43]DeepDeflur [33个]SRN [45][21]第二十一话inception-ResNet-v2MobileNetMobileNet-DSCPSNR25.2226.4826.7526.1026.7226.3626.35SSIM0.7730.8070.8370.8160.8360.8200.819对.评估三种主链:Inception-ResNet- v2、MobileNet和MobileNet-DSC。前者的目标是高性能去模糊,而后两者更适合资源受限的边缘应用。特别是,极其轻量级的DeflurGAN-表3:DVD数据集PSNR SSIM推断时间分辨率WFA 28.35不适用不适用不适用DVD(单)28.37 0.913 1.0s 960 x 540去模糊GAN-v2v2(MobileNet-DSC)比DeflurGAN-v2(Inception-ResNet-v2)少96%的参数。(MobileNet)28.54 0.929 0.06s1280 x 720所有模型都在一个Tesla-P100 GPU上训练,使用Adam [18]优化器,学习率为10−4,持续150个epoch,然后再进行150个epoch线性衰减到10−7。我们将预先训练的骨干权重冻结3个epoch,然后解冻所有权重并继续训练使用随机高斯初始化未预训练的部分。训练需要5天的时间来收敛。该模型是完全卷积的,因此可以应用于任意大小的图像。4.2. GoPro数据集的定量评估我们将我们的模型与一些最先进的模型进行比较:一种是Xu等的传统方法。[51],而其余的都是基于深度学习的:[43]由孙等人,[33]第33话:“你是我的朋友,我也是你的朋友。我们比较了标准性能指标(PSNR,SSIM)和推理效率(在单个GPU上测量的每个图像的平均运行时间结果总结见表1。在PSNR/SSIM方面,DeflurGAN-v2(Inception- ResNet-v2)和SRN排名前2:DeflurGAN-v2(Inception-ResNet-v2)具有略低的PSNR,这并不奇怪,因为它不是在纯MSE损失下训练的;但它在SSIM中优于SRN。然而,我们非常鼓舞地观察到,DeburGAN-v2(Inception- ResNet-v2) 需要 推理减少78% 时间比SRN。此外,我们的两个轻量级模型,DeflurGAN-v2(MobileNet)和DeblurGAN-v2(MobileNet-DSC)显示的SSIM(0.925和0.922)与其他两种最新的深度去模糊方法DeblurGAN(0.927)和Deep-Deflur(0.916)相当,同时快达100倍。特别是,MobileNet-DSC每分钟仅花费0.04秒,AGE,其甚至能够实现接近实时的视频帧去模糊,25fps视频据我们所知8883DeflurGAN-v2(MobileNet-DSC)是迄今为止唯一一种可以同时实现(合理)高性能和高推理效率的去模糊方法。4.3. Kohler数据集的定量评价Kohler数据集[19]由4幅图像组成,每个图像都用12个不同的内核模糊。它是评估盲去模糊算法的标准数据集通过记录和分析真实相机运动生成,然后在机器人平台上回放,使得对6D相机运动轨迹进行采样记录一系列清晰图像。比较结果报告于表2中与GoPro类似,SRN和DeflurGAN-v2 ( Inception-ResNet- v2 ) 仍 然 是PSNR/SSIM性能最好的两个,但这次SRN在两者中都略胜一筹。然而,请注意,与GoPro的情况类似,这种“几乎平局”的结果是在DeburGAN-v2(Inception-ResNet-v2)仅花费SRN推理复杂度的1/5 时 实 现 的 。 此 外 , DeburGAN-v2( MobileNet ) 和 DeburGAN-v2 ( MobileNet-DSC)在SSIM和PSNR方面都优于Kohler数据集上的DeburGAN:考虑到前两者的重量要轻得多,这令人印象深刻图 4 显 示 了 Kohler 数 据 集 上 的 可 视 化 示 例DeflurGAN-v2可以有效地恢复边缘和纹理,而不会出现明显的伪影。此特定示例的SRN在放大时显示一些颜色伪影。4.4. DVD数据集的定量评价我们接下来在[42]中使用的DVD测试集上测试DeburGAN-v2,但使用单帧设置(将所有帧视为单独的图像),而不使用多帧。我们比较了两个强大的视频去模糊方法-8884表4:Lai数据集上去模糊结果的平均主观评分[22]。模糊Krishnan等人[20个]Whyte等人[49个]Xu等[五十一]Sun等人[四十三]Pan等人[36个]11.080.570.770.640.91[33]第三十三话SRN [45][21]第二十一话去模糊GAN-v2(Inception-ResNet-v2)去模糊GAN-v2(MobileNet)去模糊GAN-v2(MobileNet-DSC)1.081.681.291.741.441.32(a) [33]第三十三话:(c)SRN [45](d)DeflurGAN [21](e)DeflurGAN-v2(f)DeflurGAN-v2(Inception-ResNet-v2)(MobileNet)图4:Kohler数据集上的视觉比较。ods:WFA [7]和DVD [42]。对于后者,我们采用作者在使用单个帧作为模型输入(表示为“单个”)时的自我 报 告 结 果 , 以 进 行 公 平 比 较 。 如 表 6 所 示 ,DeflurGAN-v2(MobileNet)的性能优于WFA和DVD(单),同时至少快17倍(DVD在降低的分辨率下进行测试960 ×540,而DeflurGAN-v2为1280 × 720)。虽然没有专门针对视频去模糊进行优化DeflurGAN-v2显示了良好的潜力,我们将把它扩展到视频去模糊作为未来的工作。4.5. Lai数据集的主观评价Lai数据集[22]具有在各种类型的场景中收集的不同质量和分辨率的真实世界模糊图像这些真实图像没有干净/清晰的对应物,使得完全参考定量评价是不可能的。在[22]之后,我们进行了一项主观调查,以比较这些真实图像的去模糊性能。我们拟合Bradley-Terry模型[3]来估计每种方法的主观评分,以便可以对它们进行排名,其中相同的例程遵循先前的基准工作[24,26]。每个模糊图像都使用以下算法中的每一种进行处理:Krishnan等人[20],Whyteet al. [49],Xuet al. [51]、Sun等人。[43],Pan等人. [36],DeepDeflur [33],SRN [45],DeflurGAN [21];以及三个去模糊GAN-v2变体(Inception-ResNet-v2、MobileNet、MobileNet-DSC)。十一个去模糊结果与原始模糊图像一起被发送用于成对比较以构造获胜矩阵。我们收集了22位人类评分员的配对比较结果。我们观察到良好的共识和较小的人与人之间的差异,这使得分数可靠。主观评分见表4。由于缺乏基础事实,我们没有将分数标准化:因此,在这里重要的是分数等级而不是绝对的分数值。可以观察到,基于深度学习的去模糊算法通常比传统方法具有更有利的视觉结果(一些甚至使视觉质量比模糊输入更差)。[21] DeepDeflur [33]优 于 DeepDeflur [21] , 但 落 后 于 SRN [45] 。随 着Inception-ResNet-V2主干,DeflurGAN-v2明显表现出优于SRN的感知质量,使其在主观质量方面表现最佳 。 与 Inception-ResNet-v2 相 比 , 具 有 Mo-bileNet 和MobileNet-DSC主干的DeflurGAN-v2的性能下降较小8885(a) 模糊的照片(b)Whyteet al.[49](c)Krishnanet al. [20](d)Sunet al. [四十三](e)Xu等[51](f)Panet al. [36](g)DeepDeflur [33](h)SRN [45](i)[21]第21话(Inception-ResNet-v2)[最佳视觉效果](k) DeflurGAN-v2(MobileNet)[高效率](l) DeflurGAN-v2(MobileNet-DSC)[最高效率]图5:Lai数据集的“face2”测试图像的定性比较[22]。DeblurGAN-v2模型是无伪影的,与其他神经和非CNN算法相比,产生更平滑,视觉上更令人满意的结果。版本.然而,与DeepDeflur和DeflurGAN相比,两者仍然是主观评分者的首选,同时快2-3个数量级。图5显示了对“face2”图像去模糊的视觉比较示例DeflurGAN-v2(Inception-ResNet-v2)(5j)和SRN(5h)是前2个最受欢迎的结果,两者都在边缘清晰度和整体平滑度之间取得了很好的平衡。通过放大,发现SRN在该示例中仍然生成一些重影伪影,例如,从衣领到右下面部区域的白色在8886(a)照片降级(b)DeflurGAN(c)DeflurGAN-v2(Inception-ResNet-v2)图6:Restore Dataset上的视觉比较示例(d)干净照片比较,DeburGAN-v2(Inception-ResNet-v2)显示表6:Restore数据集上的PSNR/SSIM比较。4.6. 消融研究和分析我们对DeflurGAN-v2管道的特定组件的影响进行了消融研究。从原始的DeflurGAN(ResNet G,局部尺度补丁D,WGAN-GP +感知损失)开始,我们逐渐将我们的修改注入生成器(添加FPN),鉴别器(添加全局尺度)和损失(用RaGAN-LS替换WGAN-GP损失,并添加MSE项)。结果总结于表6中。我们可以看到,我们提出的所有组件稳步提高PSNR和SSIM。尤其是FPN模块的贡献最为显著。此外,添加MSE或感知损失有利于训练稳定性和最终结果。表5:基于DeburGAN-v2(Inception-ResNet-v2)的GoPro数据集消融研究。PSNR SSIMDeflurGAN(起点)28.700.927+ FPN29.260.931+ FPN +全球D29.290.932+ FPN +全局D + RaGAN-LS29.370.933去模糊GAN-v2(FPN+全局D +RaGAN-LS + MSE损失)29.550.934消除感知损失(将LG中的0.5替换为0)28.810.924作为FPN效率的额外基线,我们试图创建一个我们在每个EBlock/DBlock中将ResBlock的数量减少了2/3,同时保持其3尺度递归结构。然后,我们与GoPro上的DeflurGAN-v2(Inception-ResNet-v2)进行比较,其中“ 紧 凑 型 ”SRN 仅 实 现 了 PSNR = 28.92 dB 和 SSIM =0.9324 。 我 们 还 尝 试 了 通 道 修 剪 [11] 来 减 少 SRNFLOPs,结果并没有更好。4.7. 一般恢复的扩展真实世界的自然图像通常会经历多种退化(噪声、模糊、压缩等)。在一次,和一些最近的作品致力于这 样 的 连 接 增 强 任 务 [32 , 55] 我 们 研 究 的 效 果DeflurGAN-v2的一般图像恢复的任务。虽然不是本文的主要焦点,但我们打算展示DeburGAN-v2的总体架构优势去模糊。我们合成一个新的具有挑战性的还原数据集。我们从GoPro拍摄了600张图像,从DVD拍摄了600张图像,两者都已经有了运动模糊(同上)。然后,我们使用蛋白库[4]进一步向这些图像添加高斯和斑点噪声、JPEG压缩和放大伪影。最后,我们将8000张图像用于训练,1200张用于测试。我们训练并比较了DeburGAN-v2(Inception-ResNet-v2)、DeburGAN-v2(MobileNet-DSC)和DeburGAN。如表6和图6所示。6、去模糊GAN-v2(Inception-ResNet-v2)实现了最佳的PSNR、SSIM和视觉质量。5. 结论本文介绍了DeblurGAN-v2,一个强大而高效的图像去模糊框架,有前景的定量和定性结果。DeblurGAN-v2允许在不同的主干之间切换,以便在性能和效率之间进行灵活的权衡。我们计划扩展DeflurGAN-v2以实现实时视频增强,并更好地处理混合降级。鸣谢:O. Kupyn得到了Soft- Serve,T. Martyniuk -让我们增强和Eleks。J. Wu和Z.Wang获得了NSF AwardRI-1755701的支持作 者 感 谢 Arseny Kravchenko 、 Andrey Luzan 和 IvanJiang 的 建 设 性 讨 论 , 感 谢 Igor Krashenyi 和 OlesDobosevych的计算资源。无伪影去模糊。此外,我们认为, DeflurGAN-v2(Mo-PSNRSSIMbileNet)和DeflurGAN-v2(MobileNet-DSC)的结果如下退化22.0560.873也比DeflurGAN更平滑,视觉效果更好,DeblurGAN26.4350.892比DeflurGAN-v2(Inception-ResNet-v2)更清晰。DeflurGAN-v2(Inception-ResNet-v2)26.9160.8948887引用[1] PyTorch http://pytorch.org。[2] 马 丁 ·阿 乔 对 ky , 苏 米 特 ·钦 塔 拉 和 Le'onBottou 。Wasserstein gan arXiv预印本arXiv:1701.07875,2017。[3] Ralph Allan Bradley和Milton E Terry。不完全区组设计的 秩 分 析 : I. 成 对 比 较 的 方 法 。 Biometrika , 39(3/4):324[4] AlexanderBuslaev,AlexParinov,EugeneKhvedchenya , Vladimir I Iglovikov , and Alexandr AKalinin. Albumenta- tions:快速灵活的图像增强。arXiv预印本arXiv:1809.06839,2018。[5] 张嘉凤和吴俊林。基于超拉普拉斯先验的单幅图像去模糊新算法。在ICS,第1015-1022页[6] 弗朗索瓦·肖莱。Xception:使用深度可分离卷积的深度学习 在Proceedings of the IEEE conference on computervision and pattern recognition,第1251-1258页[7] Mauricio Delbracio和Guillermo Sapiro。猝发去模糊:通过傅立叶猝发累积来消除相机抖动在IEEE计算机视觉和模式识别会议论文集,第2385-2393页[8] Dong Gong,Jie Yang,Lingqiao Liu,Yanning Zhang,Ian Reid,Chunhua Shen,Anton Van Den Hengel,andQinfeng Shi.从运动模糊到运动流:一种用于消除异构运动模糊的深度学习解决方案2016年。[9] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成对抗网络。2014年6月。[10] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展,第5767-5777页,2017年[11] Yihui He,Xiangyu Zhang,and Jian Sun.用于加速深度神经网络的通道修剪。在IEEE计算机视觉国际会议论文集,第1389-1397页[12] 杰虎,李申,孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集,第7132-7141页[13] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。arxiv,2016.[14] Yifan Jiang,Xinyu Gong,Ding Liu,Yu Cheng,ChenFang,Xiaohui Shen,Jianchao Yang,Pan Zhou,andZhangyang Wang.启迪:无需配对监督的深度光增强。arXiv预印本arXiv:1906.06972,2019。[15] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。2016年欧洲计算机视觉会议[16] 阿莱克西亚·乔利库-马蒂诺。相对论鉴别器:标准GAN中缺少的关键元素。arXiv预印本arXiv:1807.00734,2018.[17] Hamed Kiani Galoogahi,Ashton Fagg,Chen Huang,Deva Ramanan,and Simon Lucey.速度需求:基准用于更高帧速率的对象跟踪。在IEEE计算机视觉国际会议论文集,第1125-1134页[18] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。CoRR,abs/1412.6980,2014。[19] 罗尔夫·科勒,迈克尔·赫希,贝蒂·莫勒,伯恩哈德·肖尔·科普夫和斯特·弗·安·哈梅林。相机抖动的记录和回放:用真实世界的数据库对盲反卷积进行基准测试。在Proceedings of the 12 th Euro- pean Conference onComputer Vision - Volume Part VII,ECCV施普林格出版社。[20] Dilip Krishnan、Terence Tay和Rob Fergus。使用归一化稀疏性度量的盲去卷积。见CVPR 2011,第233-240页。IEEE,2011年。[21] OrestKupyn、VolodymyrBudzan、MykolaMykhailych 、 DmytroMishkin 和 Jiˇr´ıMatas 。Deblurgan:使用条件对抗网络进行盲运动去模糊。在IEEE计算机视觉和模式识别会议的论文集,第8183-8192页[22] Wei-Sheng Lai , Jia-Bin Huang , Zhe Hu , NarendraAhuja,Ming-Hsuan Yang.单幅图像盲去模糊的比较研究。在IEEE计算机视觉和模式识别会议论文集,第1701- 1709页[23] Chri s tianLedig , LucasTheis , FerencHus za'r , Jo seCaballero , Andrew Cunningham , Alejandro Acosta ,Andrew Aitken,Alykhan Tejani,Johannes Totz,ZehanWang,et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集,第4681-4690页[24] Boyi Li,Wenqi Ren,Dengpan Fu,Dache
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功