没有合适的资源?快使用搜索试试~ 我知道了~
10225基于非纠缠表示的Boyu Lu Jun-Cheng Chen Rama Chellappa UMIACS,马里兰大学帕克分校bylu@umiacs.umd.edupullpull@cs.umd.edurama@umiacs.umd.edu摘要图像去模糊的目的是从模糊图像中恢复出潜在的清晰图像。在本文中,我们提出了一种无监督的方法,特定领域的,单图像去模糊的基础上解开表示。通过使用内容编码器和模糊编码器分离模糊图像中的内容和模糊特征来实现解纠缠。我们强制执行KL发散损失,以正则化提取的模糊属性的分布范围,使得包含的内容信息很少。同时,为了处理不成对的训练数据,增加了模糊分支和循环一致性损失,以保证去模糊结果的内容结构与原始图像相匹配。我们还在去模糊结果上添加对抗性损失我们使用合成数据集和真实图像对人脸和文本去模糊任务进行了广泛的实验,并与最近最先进的去模糊方法相比取得了改善的结果。1. 介绍图像模糊是对图像质量产生不利影响的重要因素,因此会显着降低许多计算机视觉应用的性能,例如对象检测[15]和人脸识别[22,21]。为了解决这个问题,盲图像去模糊方法旨在从模糊图像中恢复潜在的清晰图像传统的方法通常将图像去模糊任务表述为模糊核估计问题。由于这个问题是高度不适定的,因此已经提出了许多先验来对图像和内核进行建模[29,41,13]。然而,这些先验中的大多数仅在一般自然图像上表现良好,但不能推广到特定的图像域,如面部[36],文本[9]和低照度图像[10]。因此,一些先验(例如,L0正则化强度和梯度先验[28],人脸样本[27])已被开发用于处理这些特定于域的图像去模糊问题。但这些方法仍然只能处理某些类型的模糊,(a) (b)Madamet al. [25](c)我们的(d) [44]第44话我的世界图1.真实世界的模糊人脸和文字的结果与其他国家的最先进的非成对去模糊方法的比较。(b)的去模糊图像来自[25]。对于(e),我们使用[44]的公开代码应用我们的训练模型。通常需要较长的推理时间。最近,已经提出了一些基于学习的方法用于盲图像去模糊[15,26,36]。基于CNN的模型可以处理更复杂的模糊类型,由于GPU加速,推理速度很快。与此同时,生成式对抗网络(GAN)在生成更真实的图像方面也被证明是有效的. 然而,这些方法中的大多数需要成对的训练数据,这在实践中收集起来是昂贵的。尽管已经开发了许多模糊生成方法此外,强监督可能导致算法过度拟合训练数据,从而不能很好地推广到真实图像。最近,Nimishaet al. [25]提出了一种基于GANs的非监督图像去模糊方法,在模型上增加了再模糊损失和多尺度梯度损失。虽然它们在合成数据集上取得了良好的性能,但它们在一些真实模糊图像上的结果并不令人满意(图1)。(b)款。另一种解决方案可能是10226BS���b���图2.去模糊框架概述。顶部模糊分支(底部去模糊分支)的数据流由蓝色(橙色)箭头表示。Ec和Ec是模糊和清晰图像的内容编码器;Eb是模糊编码器;GB和GS是模糊图像和锐利图像发生器。增加两个GAN损失以区分模糊图像和清晰图像。将KL衍射损耗添加到Eb的输出。周期一致的c y损耗被添加到s和s,b和b。 感知损失加在b和sb 上。直接使用一些现有的无监督方法(Cycle-GAN [44],DualGAN [42])来学习清晰和模糊图像域之间的映射。然而,这些通用方法经常对其他因素进行编码(例如,颜色,纹理),而不是模糊信息到发电机,因此不产生良好的去模糊图像(图。第1段(e)分段)。本文提出了一种基于解纠缠表示的无监督特定领域图像去模糊方法.更具体地说,我们从模糊图像中分离出内容和模糊特征,以准确地将模糊信息编码到去模糊框架中。如图在图2中,内容编码器从未配对的清晰和模糊图像中提取内容特征,并且模糊编码器捕获模糊信息。我们共享这两个内容编码器的最后一层的权重,以便内容编码器可以将两个域的内容特征投影到公共空间上。然而,这种结构本身并不能保证模糊编码器捕获模糊特征-它也可以编码内容或其他特征。受[2]的启发,我们添加KL发散损失来正则化模糊特征的分布,以抑制包含的内容信息。然后,去模糊生成器GS和模糊生成器GB采用以模糊属性为条件的对应内容特征,以生成去模糊和模糊图像。与CycleGAN [44]类似,我们还使用对抗性损失和循环一致性损失作为正则化器,以帮助生成器网络生成更逼真的图像,并保留原始图像的内容。为了进一步去除由去模糊生成器GS引入的令人不快的伪影,我们将视觉损失添加到所提出的方法中。一些样本去模糊图像如图所示。1.一、我们进行了大量的实验,对人脸和文本的去-模糊,并实现与其他现有技术的去模糊方法相比具有竞争力的性能。我们还评估了人脸验证和光学字符识别(OCR)的任务,证明我们的算法恢复语义信息的有效性所提出的方法。2. 相关作品2.1.单幅图像盲去模糊单图像盲去模糊是一个高度不适定的问题。在过去的十年中,已经开发了各种自然图像和核先验来调节潜在清晰图像的解空间,包括重尾梯度先验[35]、稀疏核先验[7]、l0梯度先验[41]、归一化稀疏先验[14]和暗通道[29]。然而,这些先验是从有限的观察估计的,并且不够准确。因此,去模糊图像通常是去模糊不足(图像仍然模糊)或去模糊过度(图像包含许多伪影)。另一方面,由于最近深度网络和GAN的巨大成功,已经提出了几种基于CNN的图像去模糊方法。Sun等人[38]和Schmidtet al. [33]使用CNN来预测运动模糊内核。查克拉巴蒂等[4]用神经网络预测反卷积滤波器的傅里叶系数,并在频域进行去模糊。这些方法结合了CNN和传统的最大后验概率(MAP)算法的优点不同的是,Nah等人[26]以端到端的方式训练多尺度CNN,以直接去模糊图像,而无需显式估计模糊核。类似地,Kupynet al. [15]使用10227SBSBSBSWGAN和感知损失,并实现国家的最先进的性能,自然图像去模糊。领域特定的方法虽然上述方法对于自然图像去模糊表现良好,但是难以将它们推广到某些特定的图像领域,例如人脸和文本图像。Pan等人[28]提出了图像强度和梯度的L0正则化先验3.1.内容和模糊由于地面实况清晰图像在未配对设置中不可用,因此从模糊图像中解开内容信息并非微不足道。然而,由于清晰图像仅包含内容分量而没有任何模糊信息,因此内容编码器Ec应该是良好的内容提取器。我们强制最后一层Ec和Ec,B S用于文本图像去模糊。 Hradis等人[9]训练一个端到端-分担权重,以引导Ec学习如何有效end CNN专用于文本图像去模糊。Pan等人[27日]利用参考集合中的样本面部来指导模糊核估计。Shen等人[36]利用人脸解析标记作为全局语义先验和局部结构正则化来提高人脸去模糊性能。2.2. 解纠缠表示最近有许多关于学习分解表示的努力。Tran等人[40]提出了DR-GAN来分离姿态和身份分量,用于姿态不变的人脸识别。Bao等人[2]显式地分离身份特征和属性,以学习开集人脸合成模型。Liu等[19]构建一个从模糊图像中提取内容信息。另一方面,模糊编码器Eb应当仅对模糊信息进行编码。为了实现这一目标,我们提出了两种方法来帮助Eb抑制尽可能多的内容信息。首先,我们将Eb(b)与Ec(s)一起送入GB以生成bs。由于bs是s的模糊版本,并且它将不包含b的内容信息,因此该结构不鼓励Eb(b)对b的内容信息进行编码。其次,我们添加KL发散损失来正则化分布模糊特征zb=Eb(b)接近正态分布p(z)<$N(0,1)。如[2]所示,这将进一步抑制包含在zb中的内容信息。的KL发散损失定义如下:身份提取和身份消解自动编码器,将身份与其他属性分离。BicycleGAN [45]结合cVAE-GAN和cLR-GAN来模拟∫KL(q(z b)||p(z))= −q(z)logp(z)dz(1)bq(zb)图像到图像转换中的可能输出。最近,一些无监督方法将图像解耦为领域不变的内容特征和领域特定的属性向量。不同的图像之间的转换,如[13]中所证明的,最小化KL发散等价于最小化以下损失:1 ΣNLKL=(µ2+σ2−log(σ2)−1) (2)放[17,1,11]。3. 该方法该方法包括四个部分:1)模糊和清晰图像域的内容编码器Ec和Ec2ii i=1其中,µ和σ是zb的平均值和标准差,N是zb的维数。与[13]类似,zb被采样为zb=µ+z<$σ,其中p(z)<$N(0,1)和<$表示逐元素乘法。2)模糊编码器Eb; 3)模糊和清晰图像发生器GB和GS;4)模糊和清晰图像鉴别器DB和DS。 给定一个训练样本b∈B在模糊的im-年龄域和s∈S在清晰图像域中,帐篷编码器E c 并且Ec从以下内容中提取内容信息:3.2. 对抗性损失为了使生成的图像看起来更真实,我们在两个域上应用对抗性损失。对于清晰图像域,我们将对抗损失定义为:相应的样本和Eb估计模糊信息从b。GS然后取Ec(b)和Eb(b)来生成LDS=[logDS]Bc b+E[log(1−D(G(Ec(b),z))](3)a sharp imagesb whileGB takesES(s) andE(b) togen-使图像模糊。 鉴别器DB和DS(b)SS B b区分真实的和生成的例子。端到端架构如图所示。二、在下面的小节中,我们首先介绍在第3.1节中解开内容和模糊分量的方法。然后,我们讨论了我们的方法中使用的损失函数。在第3.5节中,我们描述了拟议框架的测试程序最后,在第3.6节中讨论了实现其中DS试图最大化目标函数以区分在去模糊图像和真实清晰图像之间进行猜测。相比之下,GS的目标是最小化损失,使去模糊图像看起来类似于域S中的真实样本。类似地,我们将模糊图像域中的对抗性损失定义为LDB:LDB=Ebp(b)[logDB(b)]+E[log(1−D(G(Ec(s),z)]10228(4)sp(s)B BSb10229BtB23.3. 循环一致性损失GS在极大极小博弈中与BHDS竞争后,应该能够生成视觉上逼真的锐利图像。然而,由于没有提供成对监督,因此去模糊图像可能不会保留原始模糊图像中的内容信息。受Cy- cleGAN [44]的启发,我们将循环一致性损失引入到帮助,但有时会损害性能,我们不包括它的这项任务。一个可能的原因是文本图像的像素强度分布与自然图像非常不同,这导致在ImageNet上预先训练的模型对文本图像无效。完整的目标函数是从(2)到(8)的所有损失的加权和:保证去模糊图像SB可以被重新模糊以重构原始模糊样本,并且SB可以被平移回原始清晰图像域。循环-L=λ AdvLadv +λKL LKL +λcc LCC+λp(九)一致性损失进一步限制了所生成的样本的空间并保留了原始图像的内容。更具体地说,我们执行正向转换为:sb=GS(Ec(b),Eb(b)),bs=GB(Ec(s),Eb(b))(5)其中Ladv= LDS +LDB。我们根据经验设定权重以平衡其重要性。3.5. 测试B S在测试时,模糊分支被移除。给予而反向翻译为:测试模糊图像bt,Ec和Eb提取内容,b=GB(Ec(sb),Eb(bs)),(六)模糊特征 然后GS获取输出并生成S B去模糊图像sbt:我们将两个域上的循环一致性损失定义为:Lcc=Esp(s)[s−sp1]+Ebp(b)[||b−b||(7)3.4. 感知损失从初步实验中我们发现,产生的去模糊样本往往含有许多令人不快的伪影.受[39,5]中观察到的从预训练的深度网络中提取的特征包含丰富的语义信息,并且它们的距离可以作为视觉相似性判断的启发,我们在去模糊图像和相应的原始模糊图像之间添加了感知损失。SB =GS(Ec(bt),Eb(bt))(10)3.6.实现细节架构和培训细节。对于网络架构,我们遵循与[17]中使用的结构类似的结构内容编码器由三个跨越卷积层和四个残差块组成。模糊编码器包含四个跨步卷积层和一个全连接层。对于生成器,该架构与内容编码器是对称的,具有四个残差块,图片:Lp=<$φl(sb)−φl(b)<$2(8)由三个转置卷积层降低Discrim- inator应用多尺度结构,其中特征映射在其中φl(x)是预训练CNN的第l在我们的实验中,我们使用在ImageNet [6]上预训练的VGG-19网络[37]的conv3,3在感知损失中,我们使用模糊图像b而不是清晰图像s作为参考图像,主要有两个原因。首先,我们假设b的内容信息可以通过预训练的CNN提取如第4.2节所示,实验结果证实了这一点。第二,由于s和b是不成对的,因此在s和sb之间应用感知损失将迫使sb对来自s的不相关内容信息进行编码。然而,我们也注意到感知损失对模糊敏感,如[43]所示。因此,我们小心地平衡感知损失和其他损失的权重,以防止sb与b过于接近。在补充材料中显示了改变该权重的灵敏度评估值得一提的是,感知损失并没有加到bs和s上。这是因为我们在训练过程中没有发现明显的伪影。此外,对于文本图像去模糊,由于我们观察到感知损失不每个尺度经过五个卷积层,然后被馈送到S形输出。端到端设计在PyTorch中实现[31]。在训练过程中,我们使用Adam solver [12]对鉴别器执行两步更新,然后对编码器和生成器执行一步更新。在前40个epoch中,学习率最初设置为0.0002在在所有的实验中,我们随机裁剪了128×128个补丁,批量大小为16。对于超参数,我们实验设置:λ adv=1,λ KL=0。01,λcc=10,λ p= 0。1.一、运动模糊生成。我们遵循DeburGAN [15]中的过程来生成运动模糊内核以模糊面部图像。如[3]中所述生成随机轨迹。然后,通过对轨迹矢量应用子像素插值来生成核对于参数,我们使用与[15]中相同的值,除了我们将脉冲振动的概率设置为0.005,高斯振动的概率均匀分布在(0. 五一0),移动的最大长度为10。10230(a)(b)(c)(d)(e)(f)(g)图3.消融研究。(a)示出了模糊图像,并且(g)是清晰图像。(b)仅包含去模糊分支(图1的底部分支)。2),(c)增加模糊分支(图的底部分支)。2),(d)增加了解纠缠(Eb),(e)增加了KL发散损失,(f)增加了感知损失。(a)(b)[28](c)[29](d)[36](e)[27](f)[41](g)[14](h)[15](i)[26](j)[44](k)我们的(l)清晰图4.与CelebA数据集上最先进方法的视觉性能比较最佳观看颜色和放大。方法PSNRSSIMdV GG仅去模糊分支18.830.5682.9添加模糊分支19.840.5965.5添加解缠19.580.5769.8增加KL发散损失20.290.6160.6增加感知损失20.810.6557.6表1.不同组件有效性的消融研究。dV GG表示特征与VGG-Face的距离,越小越好。4. 实验结果我们在三个数据集上评估所提出的方法:CelebA数据集[20],BMVC文本数据集[9]和CFP数据集[34]。4.1. 数据集和指标CelebA数据集:该数据集包含超过202,000张人脸图像。大多数的脸是良好的质量和近正面的姿态。我们将整个数据集随机分为三个相互排斥的子集:清晰训练集(10万张图像),模糊训练集(10万张图像)和测试集(2137张图像)。对于模糊的训练集,我们使用第3.6节中的方法来模糊图像。使用[32]中提出的方法检测和对齐面部。文本图像,我们直接使用它们,而不是生成新的。CFP数据集:该数据集由来自500名受试者的7,000张静态图像组成,对于每个受试者,它具有10张正面姿势图像和4张侧面姿势图像。数据集分为十个部分和两个协议:额-额(FF)和额-侧面(FP)。我们使用与上述相同的方法来模糊图像。人脸的检测和对齐与CelebA数据集类似。对于CelebA和BMVC文本数据集,我们使用标准的去模糊指标(PSNR,SSIM)进行评估。我们还使用特征距离(即,来自某些深度网络的输出的L2对于CelebA数据集,我们使用VGG-Face [30]的pool 5层的输出,对于文本数据集,我们使用 VGG-19网络的pool 5层的输出。对于文本去模糊,另一个有意义的度量是去模糊文本的OCR识别率我们遵循与[9]相同的协议来报告OCR评估的字符错误率(CER)。为了研究运动模糊对人脸识别的影响,并测试不同去模糊算法的性能两BMVC文本数据集:该数据集由66,000张大小为300×300的文本图像和94张大小为512×512的OCR测试图像组成。与CelebA类似,我们将训练集均匀地划分为尖锐的,模糊集由于数据集已包含模糊的正面到正面和正面到侧面协议是评估的,过时了前端到轮廓协议可以进一步用于检查去模糊方法对姿态的鲁棒性。为了测试所提出的方法的泛化能力,我们也尝试我们的方法对自然图像。10231(a)(b)[28](c)[29](d)[36](e)[27](f)[41](g)[14](h)[15](i)[26](j)[44](k)图5.在真实的模糊人脸图像上与最先进的方法进行视觉比较最佳观看颜色和放大。方法PSNRSSIMdV GGPan等人[28日]17.340.5296.6Pan等人[29日]17.590.5485.6Shen等人[36个]21.500.6957.9Pan等人[27日]15.160.38166.6Xu等[41个]16.840.47102.0Krishnan等人[14个]18.510.5689.4Kupyn等人[第十五条]18.860.54116.5Nah等人[26日]18.260.5775.6Zhu等[第四十四届]19.400.56103.2我们20.810.6557.6表2.与CelebA数据集上最先进方法的定量性能比较。dV GG表示特征与VGG-Face的距离,越小越好。更多细节见补充材料。4.2. 消融研究在本节中,我们进行了消融研究,以分析拟议框架中每个组件或损失的有效性CelebA数据集上的定量和定性结果都报告了我们方法的以下五种变体,其中每个组分都是逐渐添加的:1)仅包括去模糊分支(即,去除图中的顶部循环。2)添加模糊环分支(添加图2的顶部循环);(2)增加内容和模糊解纠缠,(4)增加KL发散损失,(5)增加KL发散损失,(6)增加KL发散损失。5)增加感知损失。我们在表1中给出了每个变体的PSNR、SSIM和VGG-Face距离(d VGG),并且在图1中示出了视觉比较。3.从表1中,我们可以看出,添加模糊分支显著提高了去模糊性能,特别是对于感知距离。如图3(c)与(b)相比,从面部去除了许多伪像,并且很好地保留了颜色。这证实了CycleGAN [44]中的发现,表3. CFP数据集上的人脸验证结果。F2F、F2P代表额对额和额对轮廓协议。方向循环一致性损失不足以恢复好的图像。然而,我们发现,添加解缠组件无助于提高性能,反而会损害性能(图1)。3(d))。这表明,如果不强制KL发散损失,则模糊编码器Eb将引起一些噪声并混淆生成器GS。相比之下,当KL发散损失被添加到Eb(图3(e))时,内容和模糊信息可以更好地解开,并且我们观察到PSNR和视觉相似性的一些改善最后,感知损失可以显着提高人脸的感知真实性。通过比较图3(e) 以及(f),我们发现脸颊和前额上的伪影被进一步去除。此外,(f)的嘴部区域比(e)更真实。4.3. Face结果比较方法:我们将所提出的方法与一些最先进的去模糊方法进行比较[28,29,36,27、41、14、26、44、15]。我们直接使用作者提供的预训练模型,除了CycleGAN [44],其中方法F2F精度F2P精度模糊0.920±0.0140.848±0.013尖锐0.988±0.0050.949±0.014Pan等人[28日]0.930±0.0130.853±0.010Pan等人[29日]0.935±0.0150.872±0.015Shen等人[36个]0.959±0.0080.821±0.022Pan等人[27日]0.916±0.0110.825±0.016Xu等[41个]0.944±0.0120.865±0.013Krishnan等人[14个]0.941±0.0120.857±0.014Kupyn等人[第十五条]0.948±0.0120.872±0.007Nah等人[26日]0.960±0.0070.885±0.016Zhu等[第四十四届]0.941±0.0120.864±0.015我们0.948±0.0060.872±0.01510232(a)(b)[28](c)[29](d)[26](e)[44](f)[9](g)我们的(h)清晰图6.与BMVC文本数据集上最先进的方法相比,视觉结果最好放大观看。(a)(b)[28](c)[29](d)[26](e)[44](f)[9](g)我们的图7.与最先进的方法在真实模糊文本图像上的视觉效果比较最好放大观看。我们通过使用与我们的方法相同的训练集来重新训练模型。基于CNN的模型[36,26,44,15]和包括常规的基于MAP的方法[28,29,27,41,14]。在这些方法中,有两种方法专门用于面部去模糊[27,36],而其他方法是通用的去模糊算法。 [28,29]的内核大小设置为9。 我们发现人脸去模糊方法[36]对人脸对齐非常敏感,我们在运行他们的算法之前遵循作者提供的样本图像来对齐人脸。同时,CycleGAN是我们比较的唯一CelebA数据集结果。CelebA数据集的定量结果如表2所示,视觉比较如图2所示。4.我们的方法在传统的度量和VGG-Face距离上表现出优于其他无监督算法的性能此外,我们使用最先进的监督面部去模糊方法获得了相当的结果[36]。从图4中我们可以看出,常规方法通常对模糊图像进行过度去模糊或欠模糊其中,Krishnanet al. [14]在PSNR和SSIM方面表现最好,Pan等。[29]在感知距离上表现对于基于CNN的方法,Shenet al. [36]包括一个面部解析分支,性能比较的方法。DeflurGAN [15]的结果包含一些振铃伪影,并且Cycle- GAN [44]无法很好地恢复两个图像的嘴部Nah等人[26]显示出比其他基于CNN的通用方法更好的视觉效果,但在局部结构中仍然包含一些模糊。人脸验证结果。 CFP数据集的面部验证结果报告在表3中。 我们在管理的MS-Celeb 1 M数据集[8,18]上训练27层ResNet [22],其中包含370万张人脸图像,并为每种方法提取测试对的余弦相似性被用作人脸验证的相似性分数我们遵循[23,24]中使用的协议,并报告了额-额和额-轮廓协议的验证准确度如表3所示,所提出的方法改进了模糊图像的基线结果,并且在两个原型上都优于CycleGAN [44]。此外,我们实现了与其他国家的最先进的监督去模糊方法的性能可比性。Shen等人[36]对于frontal-to-frontal协议表现非常好,但是对于frontal-to- profile协议提供最差的性能,这表明他们的方法中的面部解析网络对姿势敏感相比之下,亲10233方法PSNRSSIMdV GGCERPan等人[28日]21.180.9219.742.3Pan等人[29日]21.840.9315.735.3Nah等人[26日]22.270.9231.950.6Hradis等人[9]第一章30.60.981.67.2Zhu等[第四十四届]19.570.8918.853.0我们22.560.952.210.1表4.在BMVC文本数据集上与最先进的方法进行定量性能比较。dV GG表示特征与VGG网的距离,越小越好。CER是OCR字符错误率,越低越好。姿势方法适用于正面和侧面面部图像,即使我们没有明确地训练具有极端姿势的面部。真实模糊图像的结果我们还评估了拟议的方法对一些现实世界的图像从数据集赖等。[16]结果见图1。5.与我们观察到的CelebA相似,我们的方法与其他最先进的方法相比显示出具有竞争力的性能传统方法[28,29,27,41,14]仍然倾向于对图像进行去模糊或过度去模糊,特别是在眼睛和嘴巴等局部区域。另一方面,基于CNN的通用方法[15]在面部去模糊方面表现不佳。CycleGAN [44]无法恢复尖锐的面部,而只是改变图像的背景颜色(例如,图的第三行5(j))。Nah等人[26]在前两个面部上产生良好的结果,但是在第三个图像中产生一些伪像。深度语义人脸去模糊[36]比其他比较方法产生更好的结果。尽管如此,由于面部解析的存在,它们倾向于锐化某些面部部分(眼睛,鼻子和嘴巴),但过度平滑耳朵和背景。相比之下,我们的方法不仅可以恢复清晰的人脸,还可以重新 存 储 背 景 中 的 清 晰 纹 理 ( 例 如 , 图 的 第 三 行 5(k))。4.4. 文本结果BMVC文本数据集结果。与人脸实验类似,我们使用与我们的方法相同的训练集训练CycleGAN模型[28,29]的内核大小设置为12。BMVC文本数据集的定量结果如表4所示,一些样本图像如图4所示。六、我们可以看到,传统方法[28,29]和通用去模糊方法[26]在文本去模糊方面表现不佳。视觉质量差,OCR错误率非常高。CycleGAN [44]的结果包含一些无法解释的蓝色背景。虽然它消除了图像中的模糊,但它无法恢复可识别的文本。相反,我们的方法实现了良好的视觉质量,并且其性能与最先进的监督文本去模糊方法[9]在语义度量上相当(即,每感知距离和OCR错误率)。有趣的是,我们发现我们的方法的PNSR性能比方法[9]差很多。我们仔细检查了我们的视觉结果,发现所提出的方法有时会改变文本的字体,同时去模糊。例如,如图1的第一行所示。6(g),与原始清晰文本图像相比,我们的去模糊文本的字体变得更轻,更薄(图6)。6(h))。造成这种现象的主要原因是我们的方法没有利用成对的训练数据,使得去模糊生成器不能保留文本图像的一些局部细节。真实模糊文本图像的结果我们还评估了我们的去模糊方法对Hradis等人提供的真实模糊文本图像。[9]的文件。由于空间限制,随机裁剪200×200个斑块,示于图7.与BMVC文本数据集的结果类似,我们发现传统方法[28,29]无法对给定的文本图像进行去模糊。Nah等人[26]相反,对于第一图像生成合理的去模糊结果,但不能处理第二图像。CycleGAN [44]再次产生蓝色伪影,并且无法恢复有意义的文本信息。Hradis等人[9]和我们的方法都产生了令人满意的结果。虽然我们错误地识别了一些字符(例如,在第二图像中,“冰”被重新覆盖为“乐”。,BING5. 结论本文提出了一种针对特定领域的单幅图像去模糊的无监督方法。我们将模糊图像中的内容和模糊特征分开,并添加KL发散损失以阻止模糊特征对内容信息进行编码。为了保持原始图像的内容结构,我们在框架中添加了模糊分支和循环一致性损失。视觉损失有助于模糊图像去除不真实的伪影。对每个组件的烧蚀研究显示了不同模块的有效性。我们进行了大量的实验,面部和文字去模糊。定量和可视化的结果表明,有前途的性能相比,其他国家的最先进的方法。确认这项研究是基于由国家情报总监办公室(ODNI),情报高级研究项目活动(IARPA),通过IARPA研发合同号支持的工作&。2014- 14071600012。本文中包含的观点和结论是作者的观点和结论,不应被解释为必然代表ODNI、IARPA或美国政府的政策或认可(无论是明示还是暗示)。政府的美国政府被授权复制和分发再版政府的目的noý standing- ing任何版权注释。10234引用[1] Amjad Almahairi、Sai Rajeswar、Alessandro Sordoni、Philip Bachman和Aaron Courville。增强的循环根:从非配 对 数 据 学 习 多 对 多 映 射 。 arXiv 预 印 本 arXiv :1802.10151,2018。[2] Jianmin Bao,Dong Chen,Fang Wen,Houqiang Li,and Gang Hua.面向开集身份保持的人脸合成。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第6713-6722页[3] G Boracchi和A Foi。运动模糊图像复原的性能建模。IEEE Transactions on Image Processing,21(8):3502[4] 艾扬·查克拉巴蒂盲运动去模糊的神经方法在欧洲计算机视觉会议(ECCV)的会议记录中,第221-235页。施普林格,2016年。[5] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成在国际计算机视觉会议(ICCV)的会议记录中,第1520-1529页IEEE,2017年。[6] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。ImageNet:一个大规模的分层图像数据库。IEEE计算机视觉与模式识别会议论文集,2009年。[7] Rob Fergus 、Barun Singh 、Aaron Hertzmann 、 Sam TRoweis和William T Freeman。从单张照片中消除相机抖动。在ACM图形交易(TOG),第25卷,第787-794页中ACM,2006年。[8] Yandong Guo,Lei Zhang,Yuxiao Hu,Jongdong He,and Jianfeng Gao. MS-Celeb-1M:大规模人脸识别的数据集和基准。在欧洲计算机视觉会议(ECCV)上。施普林格,2016年。[9] Michal Hradi , Jan Kotera , Pavel Zemk , and Filiproubek.用于直接文本去模糊的卷积神经网络。在MarkW.谢祥华和Gary K. L. Tam,编辑,英国机器视觉会议( BMVC ) 论 文 集 , 第 6.1-6.13 页 。 BMVA Press ,September 2015.[10] Zhe Hu,Sunghyun Cho,Jue Wang,and Ming-HsuanYang.使用光线条纹消除低亮度图像的模糊。在IEEE计算机视觉和模式识别会议(CVPR)的论文集,第3382-3389页,2014年[11] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。欧洲计算机视觉会议(ECCV),2018年。[12] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[13] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。[14] Dilip Krishnan、Terence Tay和Rob Fergus。使用归一化稀疏性测度的盲反卷积。在IEEE计算机视觉和模式识别会议(CVPR)的论文集中,第233-240页。IEEE,2011年。[15] OrestKupyn,VolodymyrBudzan,MykolaMykhailych,Dmytro Mishkin和Jiri Matas。Deblurgan:使用条件对抗网络进行盲运动去模糊。在Pro-IEEE计算机视觉与模式识别会议(CVPR),2018年。[16] Wei-Sheng Lai , Jia-Bin Huang , Zhe Hu , NarendraAhuja,Ming-Hsuan Yang.单幅图像盲去模糊的比较研究。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第1701-1709页[17] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译。欧洲计算机视觉会议(ECCV)论文集,第36-52页Springer,2018.[18] Wei-An Lin,Jun-Cheng Chen,and Rama Chellappa.一种邻近感知的人脸分层聚类。在IEEE自动面部和手势识别国际会议(FG)的会议论文集,第294-301页。IEEE,2017年。[19] Yu Liu ,Fangyin Wei ,Jing Shao ,Lu Sheng ,JunjieYan,and Xiaogang Wang.探索面部识别之外的在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。[20] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。在2015年国际计算机视觉会议(ICCV)上[21] Boyu Lu,Rama Chellappa,and Nasser M.Nasrabadi 用于无监督域自适应的增量字典学习。在英国机器视觉会议(BMVC)上,2015年。[22] Boyu Lu , Jun-Cheng Chen , Carlos D Castillo , andRama Chellappa.协变量对无约束人脸验证影响的实验评估 。IEEE Transactions on Biometrics , Behavior , andIdentity Science,2019。[23] Boyu Lu,Jun-Cheng Chen,and Rama Chellappa.用于无约束人脸验证的正则化度量自适应2016年第23届国际模式识别会议(ICPR),第4112-4117页。IEEE,2016.[24] Boyu Lu,Jingxiao Zheng,Jun-Cheng Chen,and RamaChel-lappa.利用竞争任务进行姿态鲁棒的人脸验证2017年 IEEE 计 算 机 视 觉 应 用 冬 季 会 议 ( WACV ) , 第1124IEEE,2017年。[25] 尼米莎夫人,库马尔·苏尼尔,还有拉贾戈帕兰.无监督的类特定去模糊。在欧洲计算机视觉会议(ECCV)的Proceedings中,第353-369页[26] Seungjun Nah,Tae Hyun Kim,and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。在计算机视觉和模式识别(CVPR)IEEE会议论文集,第3883- 3891页[27] Jinshan Pan,Zhe Hu,Zhixun Su,Ming-Hsuan Yang.用样 本 去 模 糊 人 脸 图 像 。 在 欧 洲 计 算 机 视 觉 会 议(ECCV)的会议记录中,第47-62页。Springer,2014.[28] Jinshan Pan,Zhe Hu,Zhixun Su,Ming-Hsuan Yang.通过l0正则化强度和梯度先验对文本图像进行IEEE计算机10235视觉和模式识别(CVPR),第2901-2908页,2014年。[29] 潘金山,孙德清,汉斯佩特·菲斯特,杨明轩.使用暗通道先验的盲图像去模糊。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第1628-1636页,2016年。[30] O. M. Parkhi、黑腹拟步行虫A. Vedaldi和A.齐瑟曼。深度人脸识别。英国机器视觉会议(BMVC),2015年。[31] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017年。[32] Rajeev Ranjan , Swami Sankaranarayanan , Carlos DCastillo,and Rama Chellappa.用于面部分析的一体化卷积神经在IEEE自动面部和手势识别国际会议(FG)中,第17-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功