无监督图像去模糊方法

13 浏览量更新于2023-10-13 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

无监督类特定去模糊Nimisha Thekke Madam[0000−0003−1945−1189]、SunilKumar[0000−0001−7476−0537]和Rajagopalan A.N[0000−0002−0006−6961]印度马德拉斯印度理工学院http://www.ee.iitm.ac.in/ipcvlab/ee13d037@ee.iitm.ac.in抽象。在本文中，我们提出了一个端到端的去模糊网络，专为一类数据。与广泛依赖于大量配对数据集的现有监督深度学习工作不同，这对获得具有很高的要求和挑战性，我们提出了一种使用未配对数据的无监督训练方案来实现相同的目标。我们的模型const- sists的生成对抗网络（GAN），学习一个强大的前在干净的图像域使用对抗损失和映射模糊的图像到其干净的等价物。为了提高GAN的稳定性并保持图像对应性，我们引入了一个额外的CNN模块，该模块重新模糊生成的GAN输出以与模糊输入匹配。除了这两个模块，我们还利用模糊图像本身来自我引导网络，以约束生成的干净图像的解空间。这种自我指导是通过施加一个额外的梯度模块的尺度空间梯度误差。我们在不同的类上训练我们的模型，并观察到添加reblur和gradient模块有助于更好的收敛。广泛的实验表明，我们的方法表现良好，对国家的最先进的监督方法对合成和现实世界的图像，即使在没有任何监督。关键词：运动模糊·去模糊·再模糊·无监督学习·GAN·CNN。1介绍盲图像去模糊是一个经典的图像恢复问题，在过去的几十年里一直随着手持成像设备（尤其是移动电话）的使用增加，运动模糊已经成为要面对的主要问题在场景中存在的光线较低的情况下，传感器的曝光时间必须增加以捕获光线充足的场景。结果，相机抖动变得不可避免，导致图像模糊。当场景被快速移动的车辆（如汽车和飞机）成像时，即使在低曝光设置下也会发生运动模糊该问题在仅包括单个模糊帧的数据匮乏的情况下进一步升级盲去模糊可以被视为图像到图像的转换，其中给定模糊域中的模糊图像y，我们需要学习非线性映射M：y2Nimisha T M，Sunil K和Rajagopalan A Ni=1-X，其将模糊图像映射到干净域中的其等效干净图像X。许多最近的基于深度学习的去模糊网络[27，28，18]估计，当提供{yi，xi}N的大集合时，匹配此映射配对训练数据尽管这些网络已经显示出有希望的结果，但基本的配对数据的可用性的假设过于苛刻。在许多情况下，收集成对的训练数据可能是困难的、耗时的和昂贵的。例如，在像从白天到夜晚的场景转换和图像去雾这样的应用中，配对数据的可用性是稀缺的甚至不存在。监督式深度网络的这种削弱性限制需要来自未配对数据集的无监督学习方法[42，41，21]。在无监督设置中，用户从两个域中的两个边缘分布中收集两组图像，但没有成对的对应关系。就是利用这些图像来推断联合分布在本文中，我们的目标是开发一个无监督的学习框架，从一个单一的模糊帧盲去模糊，而不需要相应的地面真实干净的数据。相反，我们的网络依赖于来自模糊和干净域的未标记图像数据来执行特定于域的去模糊。相关作品：有大量关于运动去模糊的文献，涵盖了传统和深度学习技术。类似地，最近，由于缺乏配对数据的可用性，无监督图像翻译的工作越来越受欢迎。我们在下面简要介绍这两个主题运动去模糊是成像领域长期研究的课题。为了避免在低光场景中由于可用光子量低而产生的散粒噪声，增加了曝光时间因此，即使是很小的相机运动也足以在记录的图像中产生运动模糊，这是由于来自同一场景的稍微不同版本的光能的平均。虽然存在涉及使用多个帧的若干去模糊工作[35，24]，但是在用户最终具有单个模糊帧的数据有限的情况下，问题变得非常不适定。这就需要单图像盲去模糊算法。为了克服单图像盲去模糊的不适定性，大多数现有算法[31，39，11]依赖于图像启发式和对模糊源的假设。最广泛使用的图像启发式算法是稀疏先验、非自然lO先验[39]和暗通道先验[31]。对摄像机运动的假设以核稀疏性和轨迹平滑性的形式施加。这些启发式算法被用作先验知识，并且迭代优化方案被部署以解决来自单个模糊输入的相机运动和潜在清洁帧。即使这些方法没有配对数据的任何要求，它们高度依赖于优化技术和先验选择。随着深度学习的发展，已经提出了几种深度网络[27，28，18]，它们可以执行从单个图像中盲去模糊的任务。这些方法端到端地工作，并且跳过对相机运动估计的需要，并且当馈送有模糊图像时直接提供干净帧，从而克服了但现有深度学习工作的主要缺点是，它们需要密切的监督，以保证大量的成对数据集用于训练。无监督去模糊3无监督学习：深度学习的最新趋势是使用未配对的数据来实现域转移。随着Goodfellow [10]的开创性工作，GAN已被用于图像到图像翻译的多个领域这种成功的关键是对抗性损失的想法，迫使生成的图像与真实图像无法区分，从而学习数据域。条件GAN（cGAN）[20，15，40]最近在监督设置中的跨域图像到图像转换方面取得了进展目标在无监督设置中也是相同的，即将两个域关联起来解决这个问题的一种方法是通过使用具有两个GAN的共享权重来强制跨域的公共表示，如[21，3，22]所示这里的基本目标是使用一对耦合的GAN，一个用于源域，一个用于目标域，其生成器共享其高层权重，并且其鉴别器共享其低层权重。以这种方式，它们能够生成可用于无监督域转移的不变表示。在此之后，[41，42]中的作品提出在图像空间本身上使用循环一致性损失，而不是要求不变特征空间。这里也使用GAN来学习每个单独的域，然后使用具有循环一致性损失的交叉模型项来在域之间进行映射。除了这些方法之外，还有神经风格转移网络[6，16，7]，也用于无监督数据的图像到图像转换。这里的想法是将一个图像的“内容”特征与另一个图像的“风格”（如名画）相结合。这些方法使用预先训练的深度特征的Gram矩阵统计的匹配来实现两个特定图像之间的图像平移。另一方面，我们的主要重点是通过尝试捕获更高级别的外观结构之间的对应关系来类特定的方法：最近，特定领域的图像恢复方法[5，33，40，1，2，36，37]由于处理真实世界数据的通用算法的不准确性而获得相关性并引起关注从自然图像中学习到的一般先验不一定适合所有类别，并且经常导致性能恶化。最近，类特定的信息已被用于进行去模糊，其优于基于毯Pan等人提出了一种基于样本的人脸去模糊算法[29]。Anwar等人[1]介绍了一种使用特定于类的训练示例在卷积期间恢复衰减图像频率的方法。深度学习网络也尝试了特定于类的去模糊任务。[12]中的文本去模糊网络和[5]中的深度面部去模糊网络是其中值得注意的几个。在这些工作之后，我们还在本文中提出了一个特定于域的去模糊环架构，主要集中在人脸，文本和棋盘类使用一个单一的GAN框架。人脸和文本被认为是重要的类别，许多恢复技术都明确地关注它们。我们还包括了棋盘类，以研究我们的网络性能并简化任务参数调整类似于[33]。在我们的网络中使用GAN来学习干净数据上的强类特定先验。因此，学习的鉴别器捕获类的语义域知识，但未能捕获类的内容、颜色和颜色。4Nimisha T M，Sunil K和Rajagopalan A N梯度模块发生器模糊输入鉴别器CNN图1.一、我们的网络具有GAN，reblur模块和尺度空间梯度模块。结构正确。这些通常是纠正监督损失函数在常规网络中，这在我们的无监督设置中是不实际的。因此，我们认为，我们使用模糊数据本身引入自引导。我们的网络使用来自干净和模糊域的未配对数据进行训练。综合图表我们的网络如图1所示我们工作的主要贡献是– 据我们所知，这是有史以来第一次在无监督学习中尝试数据驱动的去模糊任务。– 为了克服由于成对数据不可用而导致的监督缺点，并帮助网络收敛到正确的解，我们提出了带有两个新的附加模块的• 自监督再模糊模块，其引导所述生成器产生对应于所述输入模糊图像的去模糊输出。• 一个梯度模块，其关键概念是下采样减少梯度匹配误差并约束生成的干净图像的解空间。2无监督去模糊无监督去模糊的一种简单方法是采用为图像转换设计的现有网络（CoGAN [22]，DualGAN [41]，CycleGAN [42]）然而，这种方法的一个主要问题是，到目前为止讨论的大多数无监督网络都是为特定的域转换任务而设计的，例如面部到草图合成，白天到黑夜等，其中转换是明确定义的。在图像去模糊中，从模糊域到干净域的变换是多对一映射，而干净域到模糊域则是相反，这取决于模糊的程度和性质。因此，很难用这些现有的体系结构捕获领域知识（更多信息请参见实验部分）。此外，所有这些网络中的基本思想是使用一对GAN来学习域，但通常训练GAN是高度不稳定的[34，8]，因此使用两个GAN无监督去模糊5同时在网络中的稳定性问题上升级。我们使用CNN网络进行重新模糊，而不是使用第二个GAN来学习模糊域GAN的输出和梯度模块来约束解空间。下面提供了每个模块的详细描述Goodfellow [10]提出的GAN由两个网络（生成器和鉴别器）组成给定鉴别器D，生成器试图学习从噪声到真实数据分布的映射，以便欺骗D。类似地，给定生成器G，鉴别器工作为学习区分真实图像和生成图像的分类器。GAN的学习函数是一个具有代价函数的最小-最大问题E（D，G）= maxminE [logD（x）]+E[log（1-D（G（z）））]。（一）D GxP数据zPz其中z是随机噪声，并且x表示真实数据。这项工作之后是条件GAN（cGAN）[26]，它使用图像[15]，文本，类标签等形式的条件输入。目标在所有这些中保持相同，即，鉴别器被训练为对真实数据指定较高的概率并且对生成的数据指定较低的概率。因此，鉴别器充当学习干净数据域的数据先验，类似于在常规方法中使用的启发式。这促使我们使用GANs来学习从模糊到干净域的映射，使用鉴别器作为我们的数据先验。在我们的网络中，生成器 G 的输入是模糊图像 y ∈ Y ，生成器将其映射到一个cleanimagexuchthatthegeneratedimagex=G（y）isindistinguisablefranceandata（其中，a s tati s acleearnedfromx~ s ∈X）。通过重新模糊的自我监督（CNN模块）GAN在我们的去模糊框架的一个重要目的是达到P_clean和P_generated的平衡。近了交替梯度更新过程（AGD）用于实现这一点。然而，该过程是高度不稳定的，并且经常导致模式崩溃[9]。此外，从Y→X转换的最优G不保证单独的模糊输入y和其对应的干净输出x配对在一个有意义的方式，即有无穷多个映射G将导致所述amedd是在verx[42]上的tri bi t i on。最大限度地利用了恢复损失（||x−x||2）和pertul oss（||Φi（（x）−Φi（x）||2，其中Φi表示在第i层提取的V GG模块特征）以及许多监督学习工作中的对抗性损失[27，20，15，40，38]，以稳定解决方案和有助于更好的融合。但是，这些成本函数需要以地面实况干净参考图像（X）的形式的高水平的监督，其在我们的情况下不可用。这限制了这些监督成本函数在我们的网络中的使用为了说明配对数据集的不可用性，我们使用模糊图像y本身作为监督来指导去模糊。Ignatov等人[14]使用了一种类似的重新模糊方法，使用恒定的高斯内核来校正相机映射中的颜色。我们强制生成器产生re-sult（x）th，此时CNN模型将在输入中找到重新使用的结果。添加这样的模块确保去模糊结果具有与输入图像相当的相同颜色和纹理，从而将解决方案约束到捕获实际输入内容的图像6Nimisha T M，Sunil K和Rajagopalan A Ni=1j=1θGAN和CNN组合网络的梯度匹配模块2520个文本棋盘格面1510501 2 4 8 16图像缩放因子(a)（b）第（1）款图二. （a）尺度空间梯度误差。(b)相对于缩小的梯度误差的平均减小。模块，生成器学习映射到干净的域以及颜色保存。现在，为了加强生成图像的梯度以匹配其相应的干净图像，在我们的网络中使用梯度模块，如图所示。1.一、梯度匹配解决了结果中的过度锐化和振铃问题然而，由于我们无法访问参考图像，因此难以确定要匹配的期望梯度分布因此，我们从[25]中借用了一个启发式方法，该方法利用了这样一个事实，即将模糊图像y缩小α倍会导致图像y α比y清晰α倍。因此，我们使用不同尺度的模糊图像梯度来指导去模糊过程。在最高尺度下，模糊和生成的输出的梯度匹配最少，但在尺度空间中下降时得到改善一个直观的图表描绘了这种效果显示在图。2（a）提供了不同比例的模糊和清晰棋盘的梯度。观察到，在最高尺度下，梯度非常不同，随着我们在尺度上向下移动，梯度开始看起来相似，并且它们之间的L1误差减小。Fig. 2（b）是针对来自文本、棋盘和面部数据集中的每一个的200个图像的相对于比例的每像素L1误差的平均值在所有这些数据中，梯度误差随着规模而减小，因此形成了训练我们网络的良好指导输入3损失函数无监督训练的一种直接方法是使用GAN。给予大不成对数据{xi}M且{yj}N在这两个域中，训练参数（θ）生成器通过最小化成本从y→x映射1ΣLadv= minNlog（1−D（Gθ（yi）））（2）我单独使用对抗成本的训练可能会导致生成的图像中的颜色变化或丢失有限的细节（如面部的眼睛和鼻子或文本中的字母平均梯度误差无监督去模糊72(a)（b）（c）（d）（e）图3.第三章。不同成本函数的影响。（a）将模糊图像输入到生成器，（b）仅具有等式（1）中的GAN成本的无监督去模糊的结果（c）通过在等式（2）中添加重新模糊成本而获得的结果（3）与（b）、（d）一起使用等式（1）中的梯度成本获得的结果（4）与（c）和（e）目标产量。输出，但是鉴别器仍然可以最终将其分类为真实数据而不是生成的数据。这是因为辨别真假并不取决于这些小细节（见图1）。3（b），单独的GAN的输出，其中眼睛和颜色没有被正确地重建）。随着重新模糊模块的加入，生成器更受约束，以匹配所生成数据的颜色和纹理（见图1）。3（c））。公式x=G（y）的广义周期图像再次通过CNN模块以获得回模糊输入。因此，重新模糊成本被给出为L重新模糊为||y−CNN（x）||2（三）除了上述两个成本，我们还使用定义为ΣL梯度=s∈{1，2，4，8，16}λs|▽ys↓−▽xs↓|（四）0 1 0其中，R表示梯度算子。拉普拉斯算子1 −41用于0 1 0计算不同尺度下的图像梯度，并且对于s={ 1， 2， 4， 8， 16}，λs值分别设置为[0.0001，0.001，0.01，0.1，1]添加梯度成本可以消除图像边界处不需要的振铃伪影，并使结果平滑。从图中可以明显看出，包括支持成本函数对应于重新模糊和梯度，输出（图3（d））的网络变得与地面实况（GT）图像（图。3（e））。因此，发电机网络用由下式给出的组合成本函数来训练：LG=γadvL adv+γ reblurL reblur+γ gradL grad（5）4网络架构我们遵循了类似的架构，用于我们的生成器和[40]中提出的数字图像处理器，其对于盲超分辨率表现出良好的性能8Nimisha T M，Sunil K和Rajagopalan A N表1. （a）拟议的生成器和鉴别器网络架构。conv↓表示步长为2的卷积，实际上将输出维度减少了一半，d/o表示dropout。（b）重新模糊CNN模块架构模块发生器鉴别器FC--（一）模块CNN层conv conv conv conv conv tanh内核大小55555特征646464643（b）第（1）款在特征层中有轻微的修改在表1（a）中提供了具有过滤器大小和每个阶段的特征图的数量的GAN的网络架构生成器中的每个卷积（conv）层之后是使用整流线性单元（ReLU）的批归一化和非线性，除了最后一层。在最后一层使用超切向（Tanh）函数来连接将输出应变为[−1，1]。鉴别器是一个基本的6层模型，除了最后一个全连接（fc）层之外，每个卷积后面都是Leaky ReLU然后是S形。在大多数层中使用步长为2的卷积来降低维度，并且在表1（a）中提供了滤波器大小和特征图的细节。再模糊CNN架构是表1（b）中提供的简单5层卷积模块。梯度模块使用基于GPU的卷积与拉普拉斯算子对每批数据进行实时操作以及利用“nn”个模块根据缩放因子进行下采样我们使用 Torch 进行训练和测试，并使用以下选项： ADAMoptimizer，动量值β1= 0。9和β2= 0。99，学习率为0.0005，批量大小为32，并且网络是用等式中提供的总成本训练的（五）、不同成本的权重最初设置为γadv=1，γgrad=.001和γ adv =.001。γreblur=0.01，以确保鉴别器学习干净的数据域。在大约100K次迭代之后，对抗成本被加权，并且CNN增加了成本，使得产生的干净图像在颜色和纹理上对应于模糊输入。因此，将权重重新调整为γadv=0.01，γgrad=0.1和γreblur=1，并且学习率降低到0.0001以控制继续训练。除此之外，为了稳定GAN，在训练期间，我们在生成器的第四和第五卷积层使用了0.2的drop-out，并在[34]之后使用了真实和虚假标签的平滑标签5实验实验部分安排如下：（i）训练和测试数据集，(ii)比较方法，（iii）定量结果、使用的度量和比较，以及（iv）视觉结果和比较。层conv conv convconvconvconv conv conv conv conv Conv↓ Conv↓Conv↓Conv↓Conv↓内核大小555555555544444特征64128128256d/o256d/o1281286464364128256512512无监督去模糊9表2. 人脸、文本和棋盘数据集的定量比较。人脸数据集文本数据集棋盘格数据集方法PSNR SSIM KSM PSNR SSIM KSM CER PSNR SSIMKSM常规Pan等人[30个]---16.190.7298 0.8628 0.471611.110.37010.7200方法Pan等人[三十一]19.380.7764 0.743617.480.7713 0.8403 0.306613.910.56180.7027Xu等人[39]第三十九届20.280.7928 0.716614.220.5417 0.7991 0.29188.180.29200.6034Pan等人[29日]22.360.8523 0.7197-------深度学习方法Nah等人[27日]我知道了。[12]24.12-0.8755-0.6229-18.7224.280.75210.93870.74670.94350.26430.089118.0718.090.69320.67880.64970.6791无监督Zhu等人[第四十二届]8.930.4406 0.293213.190.5639 0.8363 0.230621.920.82640.6527技术我们22.800.8631 0.753623.220.8792 0.9376 0.12620.610.81090.78015.1数据集创建对于所有类，我们使用128× 128大小的图像进行训练和测试。下面解释用于训练和测试这些类中的每一个的数据集生成。请注意，我们的网络分别针对这些类中的每个类进行训练相机运动生成：在我们的实验中，为了生成合成训练集和测试集所需的模糊内核，我们使用了Chakrabarthi在[4]中描述的模糊核是通过在有限大小的网格（13× 13）中随机采样六个点来生成的，通过这些点，并将该样条上每个像素的核值设置为一个值从平均值为1且标准差为0.5的高斯分布中采样，然后将这些值裁剪为正值，并将内核归一化为具有单位和。总共使用了100K个内核来创建数据集。人脸数据集：我们使用对齐的CelebA人脸数据集[23]为我们的案例创建训练数据。CelebA是一个大规模的人脸属性数据集，大小为178× 218，拥有超过200K对齐的名人图像。我们从中选择了20万张图像，将每张图像的大小调整为128× 128，并将其分为两组，每组10万张图像然后，我们使用[4]生成的模糊内核来模糊一组单独的图像，另一组保持不变。这样，我们就产生了干净的以及模糊面部数据（没有任何对应关系）用于训练网络。TextDataset：对于Textimage s，我们使用Hradisetal的t e r a n g at et。[12]它由具有散焦模糊的图像和由反锯齿产生的盘和由随机游走产生的运动模糊。他们提供了大量的66K文本图像，大小为300×300。我们使用这些图像来创建训练数据集，并使用它们提供的测试数据来测试我们的网络。我们首先将整个数据集分成两组，每组33K，每组一个仅包含干净数据的组和包含模糊数据的其他组。我们注意避免生成的集合中的任何重叠对。然后，我们从这些集合中裁剪了128×128个补丁，以获得清晰和模糊集合中约300K图像的训练集。棋盘数据集：我们拍摄了一张大小为256 × 256的干净棋盘图像。256并对其施加随机旋转和平移并裁剪出128×128（避免边界像素）以生成一组100K干净图像。然后将干净的图像划分为两组50K图像，每组50K图像以确保在训练期间不存在可用的对应对。一套我们10Nimisha T M，Sunil K和Rajagopalan A N表3.真实握手运动上的面部和文本的定量比较[17]。类PSNR in（dB）SSIMKSM文本21.920.89680.8811脸21.400.85330.7794应用合成运动模糊以通过与线性滤波器卷积来创建模糊图像，并且另一组保持原样。我们使用相机运动的线性近似，并使用长度l和旋转角度θ对其进行参数化。对于数据集创建，考虑到输入图像的大小，我们将l的最大值选择在范围 [0 ， 15] 中，并从[0 ， 180]〇改变 θ 。我们使用MATLAB的rand函数来生成50K个这样的滤波器。按照类似的步骤，还创建了由5000个图像组成的测试集。5.2比较方法我们将我们的去模糊结果与三类方法进行比较，（a）使用基于先验的优化的现有技术的常规去模糊方法，(b)基于监督深度学习的端到端去模糊方法，以及（c）最新的无监督图像到图像转换方法。传统的单图像去模糊：我们比较与国家的最先进的传统去模糊潘等人的作品。[31]和Xu et al.[39]这是为自然图像提出的。除此之外，对于面部去模糊，我们使用了[29]中专门为面部设计的去模糊工作。类似地，对于文本，我们与[30]中使用文本先验进行去模糊的方法进行了比较。通过在我们的测试数据集上运行它们的代码来提供定量结果深度监督去模糊：在深度学习中，对于所有类的定量分析，我们与[27]的端到端去模糊工作进行了比较，此外，对于文本和棋盘，我们也与[12]进行了比较。[27]中的工作是一个通用的动态场景去模糊框架，[12]仅针对文本去模糊提出。请注意，所有这些方法都使用配对数据进行训练，因此是有监督的。除了这些用于面部去模糊的视觉比较之外，我们还在他们的图像上与[5]进行了比较，因为训练模型不可用。无监督图像到图像的翻译：我们训练cycleGAN [42]网络，该网络针对非配对域翻译提出，用于去模糊任务。该网络是从零开始训练的每一类分别和定量和视觉结果报告为每个类在下面的部分。5.3定量分析为了进行定量分析，我们创建了测试集，其中地面真实值可以报告下述指标。对于文本数据集，我们使用[12]本身提供的测试集。对于棋盘格，我们使用用{l，θ}参数化的合成运动。对于人脸，我们使用[4]生成的内核创建测试集。无监督去模糊11nˆˆτ定量分析：我们使用PSNR（dB），SSIM和核相似性度量（KSM）值比较所有类别上不同的最新去模糊算法的性能。对于文本，除了这些指标，我们还使用字符错误率（CER）来评估各种去模糊算法的性能CER[12]被定义为i+s+d，其中，n是图像中字符的总数，i是字符插入的最小数量，s是替换的数量，d是将参考文本转换成其正确的OCR输出所需的删除的数量。我们使用ABBYY FineReader 11识别文本，其输出构成了评价平均CER的基础。CER值越小，方法的性能越好。核相似性度量：在一般实践中，通过PSNR、SSIM度量或视觉比较来评估去模糊效率。这些常用的措施（MSE）是偏向于光滑的输出，由于2-范数形式。因此，Hu et al.[13]提出了KSM来根据相机运动估计效率评估去模糊KSM有效地将来自输出的数据块的估计的核（K）值与粗图（K）进行比较。它被计算为S（K，K（））=maxγp（K，K（，γ），其中ρ（. ）是规范化的数据丢失-K（τ）. K（τ+γ））相关函数由（ρ（K，K，γ）=）给出，并且γ是正相关函数。||K||. |K||在两个内核之间的可移位值越大，内核越好估计并且间接地越好去模糊性能。结果和比较：为了与其他方法进行公平比较，我们使用了各自作者在其网站上提供的代码。表2总结了各种竞争性方法的定量性能以及所有三类的网络结果。来自每个类别的一组30个测试图像用于评估表中报告的性能。从结果中可以非常清楚地看出，我们的无监督网络的性能与竞争性传统方法以及有监督的深度网络相当。常规方法受参数选择的影响很大我们使用默认设置来获得常规方法的结果。也许可以通过微调每个图像的参数来进一步改进结果，但是这是耗时的任务。尽管深度网络在特定类别的数据上表现良好，但它们的训练受到缺乏大量配对数据的限制从表2中可以看出，与特定于类的监督深度方法相比，我们的网络（没有数据配对）能够表现得同样好[12]用于文本去模糊。我们甚至优于动态去模糊网络的[27]在大多数情况下。cycleGAN [42]（尽管无监督）努力学习模糊和干净的数据域。可以注意到，对于棋盘格，循环GAN在PSNR和SSIM方面的表现优于我们。这是因为棋盘格具有简单的线性相机运动。由于文本和面部的模糊度不同（一般相机运动），cycleGAN 的性能也会恶化（请参阅报告的值）。真实握手运动：此外，为了测试我们训练的网络在真实相机运动上的能力，我们还使用[17]中的真实相机运动数据集为人脸和文本类创建了测试集。[17]中提供的摄像机运动12Nimisha T M，Sunil K和Rajagopalan A NI/o [39][31][30][27][12][42]我们的GT.[27]第27话：我的世界[12][42]第四十二话见图4。棋盘格去模糊的视觉比较。输入模糊图像，来自传统方法的去模糊结果[39]，[31]和[30]，来自[27]，[12]中的监督网络和无监督网络的结果[42]，我们的结果和GT干净图像以该顺序提供。包含40个由被要求以相对长的曝光时间拍摄照片的人的真实相机抖动的轨迹这些相机运动不限于平移，而是由源自真实相机轨迹的非均匀模糊组成表3中报告了我们提出的网络在消除受这些真实运动影响的图像模糊方面的效率由于长时间曝光会导致严重的运动模糊，这不在本工作的范围内，我们使用记录轨迹的短片段来引入小模糊。我们使用40个轨迹为文本和面部生成了40个图像，并使用我们训练的网络对它们进行去模糊处理。表3示出了干净图像与去模糊图像之间的PSNR、SSIM以及估计运动与原始运动之间的KSM的[17]中的握手运动在图像中产生空间变化的模糊，因此不能为整个图像估计单个核我们使用来自图像的补丁（32×这在多个片上重复，并且报告整个图像的平均KSMKSM、PSNR和SSIM分别为这两个类的所有值都很高，表明我们的网络处理真实相机运动的有效性。5.4视觉比较我们的网络和竞争性方法的视觉结果提供在图1和图2中。 4和5.图4包含文本和棋盘数据的视觉结果。比较提供有[39，31]和[30]。这些方法的性能差可以归因于参数设置（我们选择了其中最好的给出最高PSNR的一组参数）。大多数结果都有环-艺术品。现在，为了分析我们的网络在监督下的性能，无监督去模糊13I/o [39][31][29][27][42] Ours GT图五. 面部去模糊的视觉比较。网络，我们与[27]的动态去模糊网络和[12]的特定类别去模糊工作进行了比较。从视觉结果可以清楚地观察到，即使[27]中的方法在表2中给出了良好的PSNR，但其在视觉上是不理想的。不清晰，并且在输出中保留一些残余模糊。棋盘格的监督文本去模糊网络[12]结果很清晰，但正方形没有正确重建。为了完整起见，我们还为这些类别中的每个类别分别训练了无监督cycleGAN [42]网络，并且在图中也提供了这样获得的结果。cycleGAN同时捕获干净和模糊域的低效率反映在文本结果中。相反，我们的无监督网络在这两个类中都产生了清晰易读的结果（见文本补丁）。我们的网络优于现有的传统方法，同时与[12]的文本特定去模糊方法面部去模糊的视觉结果提供在图1中。5.在这里，我们也与之前的传统方法[39，31]和[29]的基于样本的面部特定去模糊方法进行了比较。虽然这些结果在视觉上与GT相似，但在默认参数设置下，振铃的效果很高。来自[27]的深度学习工作的结果没有任何振铃伪像，但高度过度平滑。同样，CycleGAN [42]未能正确学习域，结果与GT完全不同。另一方面，我们的结果是尖锐的和视觉上有吸引力的。虽然竞争性的方法未能重建图中女士的眼睛。5（第二行），我们的方法重建眼睛并产生与GT相当的锐利输出。我们还针对[5]的最新深度面部去模糊工作测试了我们的网络。由于他们的网络的训练模型不可用，我们在他们的论文中提供的图像上运行我们的网络这些是来自Lai等人的数据集的真实世界模糊图像。[19]和任意视频。所获得的结果示于图1中。6.可以清楚地看到，我们的方法虽然是无监督的，但可以与[5]的有监督方法相提并论，甚至在一些例子中优于它。通过我们的网络，结果更加清晰;可以清楚地注意到，当与[5]相比时，利用我们的网络（第一行和第二行最后一列）可以很好地重建眼睛和眉毛。人类感知排名：我们对50名用户进行了一项调查，以分析我们去模糊的视觉质量这分别针对面部和文本数据集完成。用户被提供了30组图像，从每个类分组14Nimisha T M，Sunil K和Rajagopalan A N[5]第五届全国人大代表图六、与[5]的最新人脸去模糊工作进行视觉比较。图7.第一次会议。调查总结：我们的网络结果的人工评分[29]和[5][30]和[12]的文本。根据参考图像的存在或不存在分为两个部分在由10组图像组成的第一组中，根据所述图像的真实性，向用户提供模糊图像、粗纹理、或从[29]/[5]或[30]/[12]中输出的模糊纹理。在20组图像中，排除了参考文献。从图7中提供的面部调查结果可以观察到，当提供GT时，81%的时间用户更喜欢我们的结果而不是竞争性方法[29]，并且当不提供GT时，86%的时间对于文本，用户在97%的时间内更喜欢我们的输出，而不是使用或不使用GT的传统方法[30]。此外，可以观察到我们的方法与[12]匹配良好。43%的用户选择了我们的方法，而57%的人投票支持[12]。更多结果（来自[32]的测试集和真实数据集），关于损失函数的讨论，调查的细节和网络的限制在补充材料中提供。6结论我们提出了一种深度无监督网络，用于对特定类别的数据进行去模糊。所提出的网络不需要以相应的数据对的形式进行任何监督。引入了重模糊代价和尺度空间梯度代价用于自我监督网络以获得稳定的结果。我们的网络在真实和合成数据集上的性能与现有的监督深度网络相当。我们的方法为无监督图像恢复铺平了道路，这是一个配对数据集稀缺的领域。无监督去模糊15引用1. Anwar，S.，Phuoc Huynh，C.，Porikli，F.：类特定的图像去模糊。在：IEEE计算机视觉国际会议的主持人。pp. 495-503（2015年）2. Anwar ， S. ， Porikli ， F. ， Huynh ， C.P. ：特定类别对象图像去噪。 IEEETransactions on Image Processing26（11），55063. Aytar，Y.卡斯特雷洪湖冯德里克角Pirsiavash，H.，Torralba，A.：交叉模态场景网络 IEEE Transactions on Pattern Analysis and Machine Intelligence（2017）4. Chakrabarti，A.：一种盲运动去模糊的神经方法。在：欧洲计算机视觉会议。pp.221-235 Springer（2016）5. Chrysos，G.，Zafeiriou，S.：深层面部去模糊。2017年IEEE计算机视觉和模式识别研讨会（CVPRW）（2017）6. 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.：使用卷积神经网络的图像风格转换。IEEE计算机视觉与模式识别会议（CVPR）pp. 24147. 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.，Hertzmann，A.， Shechtman，E.：神经风格迁移中知觉因素的控制。IEEE计算机视觉与模式识别会议（CVPR）（2017）8. 戈麦斯，A.N.，Huang，S.，（1996年），中国科学院，张岛Li，B.M.，Osama，M.，Kaiser，L.：使用离散gans的无监督密码破解arXiv预印本arXiv：1801.04883（2018）9. Goodfellow，I.：Nips 2016教程：生成对抗网络（2016）10. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.， Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。在：神经信息处理系统的进展。pp.267211. Gupta，A.，Joshi，N.，Zitnick，C.L.，Cohen，M.，Curless，B.：使用运动密度函数的单幅图像去模糊。欧洲计算机视觉会议。pp. 171-184. 03 The Sunday（2010）12. Hradiˇs，M.， Kotera，J.， Zemc'beck，P.， Sˇroubek，F. ：为以下操作创建一个新的神经网络直接文本去模糊。在：BMVC的程序卷10（2015）13. Hu，Z.，Yang，M.H.：去模糊的良好区域。欧洲计算机视觉会议。pp. 59-72. 03The Dog（2012）14. Ignatov，A.，Kobyshev，N. Vanhoey，K.，Timofte河，Van Gool，L.：使用深度卷积网络在移动设备上拍摄数码单反品质的照片上一篇：IEEE Int.计算机视觉会议（ICCV）（2017）15. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。2016年：Arxiv16. Johnson，J.，Alahi，A.，李菲菲：实时风格转换的感知损失和超分辨率。欧洲计算机视觉会议。pp. 694-711. Springer（2016）17. Küohle r，R.， Hir sch，M.， Mohle r，B.， Scho？lkop f，B.， Harmelin g，S. ：记录和回放相机抖动：用真实世界的数据库对盲反卷积进行基准测试。欧洲计算机视觉会议pp. 27比40 03 The Dog（2012）18. 库宾岛布赞Mykhailych，M.，米什金，D.， Matas，J.： Deblurgan：使用条件对抗网络进行盲运动去模糊。arXiv预印本arXiv：1711.07064（2017）19. Lai W.S. Huang，J.B.，Hu，Z.，Ahuja，N.，Yang，M.H.：单幅图像盲去模糊的比较研究。在：计算机视觉和模式识别IEEE会议论文集.pp. 170116Nimisha T M，Sunil K和Raja

下载后可阅读完整内容，剩余1页未读，立即下载