深度堆叠网络用于图像去模糊

117 浏览量更新于2023-10-19 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5978用于图像去模糊的深度堆叠分层多面片网络张宏光1，2，4，戴玉超3，李宏东1，4，Piotr Koniusz2，11澳大利亚国立大学，2Data 61/CSIRO3西北工业大学4澳大利亚机器人视觉中心firstname.lastname@{ anu.edu.au1，data61.csiro.au2}，daiyuchao@nwpu.edu.cn332摘要30尽管深度端到端学习方法在消除非均匀运动模糊方面表现出了优越性，但当前的多尺度和尺度递归模型仍然存在重大挑战：1）粗到细方案中的去卷积/上采样操作导致昂贵的运行时间; 2）简单地增加模型深度与更精细的尺度水平不能提高质量2928272625242311030102103104105运行时间（ms）106107去模糊针对上述问题，我们提出了一个受空间金字塔匹配启发的深层层次多补丁网络，通过从细到粗的层次表示来处理模糊图像处理性能饱和问题。深度，我们提出了我们的多补丁模型的堆叠我们提出的基本多补丁模型在Go上实现了最先进的性能Pro数据集，同时与当前的多尺度方法相比，运行速度快40倍。在30ms内处理1280× 720分辨率的图像，这是第一个以30fps处理720p图像的实时深度运动去模糊模型为堆叠网络，通过增加网络深度，在GoPro数据集上实现了显著的改进（超过1.2dB）。此外，通过改变堆叠模型的深度，可以针对不同的应用场景调整同一网络的性能和运行时间。1. 介绍非均匀盲图像去模糊的目标是重新移动由相机运动和场景动态引起的不期望的模糊[14，23，16]。在深度学习成功之前，传统的去模糊方法用于采用各种约束或正则化来近似运动模糊滤波器，涉及昂贵的非凸非线性优化。此外，通常使用的空间均匀模糊核的消除是过度限制性的，导致复杂模糊图案的不良去模糊。基于深度卷积神经网络（CNN）[9，20]的去模糊方法学习模糊输入图像与对应清晰图像之间的回归，图1. PSNR与最先进的深度学习运动去模糊方法的运行时和我们在GoPro数据集上的方法[14]。蓝色区域表示实时推理，而红色区域表示高性能运动去模糊（超过30dB）。显然，我们的方法在1280 ×720图像的30 fps下实现了最佳性能，比最近的方法快40倍[23]。我们的模型的堆叠版本进一步提高了性能，但代价是运行时间有所增加。端到端的方式[14，23]。为了利用不同处理级别的去模糊线索，在“由粗到精”的方案下Nah等人[14]证明了CNN模型从多尺度模糊图像中去除运动模糊的能力，其中设计了多尺度损失函数来模仿传统的粗到细方法。遵循类似的管道，陶等人。[23]跨尺度共享网络权重以提高训练和模型稳定性，从而实现与[14]相比的高效去模糊。然而，在深度去模糊方面仍然存在重大挑战：• 在粗到精的方案下，由于滤波器尺寸较大，大多数网络使用大量的训练参数。因此，多尺度和尺度递归方法，ODS会导致昂贵的运行时间（见图1）。1）并努力提高去模糊质量。• 在多尺度方法中增加极低分辨率输入的网络深度似乎不会提高去模糊性能[14]。31PSNRHig h-性能NCEKim ， ICCV13Sun，CVPR15Nah，CVPR 17Zhang ， CVPR18Tao，CVPR 18我们实时e5979图2.我们提出了深度多补丁层次网络（DMPHN）。由于补丁彼此不重叠，它们可能会导致边界伪影，这些伪影会被我们模型的连续上层移除符号+是类似于剩余网络的求和在本文中，我们解决了上述挑战与多尺度和尺度递归架构。我们研究了一种新的方案，利用去模糊线索在不同的尺度上通过层次多补丁模型。具体来说，我们提出了一个简单而有效的多层CNN模型，称为深度多补丁层次网络（DMPHN），它使用多补丁层次作为输入。以这种方式，来自去模糊局部区域的残差线索经由残差类链接传递到处理较粗糙区域的下一级网络。多个补丁上的特征聚合已用于图像分类[11，3，13，8]。例如，[11]提出了空间金字塔匹配（SPM），它将图像划分为由粗到细的网格，在网格中计算特征的直方图。在[8]中，二阶细粒度图像分类模型使用重叠补丁进行聚合。Sun等人[22]通过昂贵的能量优化，通过CNN学习了一个逐块运动模糊内核我们的网络的优点是双重的：1）由于不同层次的输入具有相同的空间分辨率，我们可以应用残差式学习，这需要小的过滤器尺寸，并导致快速推理; 2）我们使用一个类似SPM的模型，由于该级别有相对更多的补丁，因此该模型在最精细的级别上暴露于更多的训练数据。此外，我们还观察到叠加的局限性因此，通过引入附加的更粗或更细的网格来增加模型深度不能提高已知模型的整体去模糊性能。为了解决这个问题，我们提出了两个堆叠版本的DMPHN，其性能比当前最先进的去模糊方法更高我们的贡献概述如下：I. 我们提出了一个端到端的CNN分层模型，类似于空间金字塔匹配（SPM），它在从细到粗的网格中执行去模糊，从而利用多块局部化到粗的操作。每个较精细的级别通过将其残差图像贡献给较粗糙的级别来以残差方式起作用，从而允许每个级别的网络聚焦于不同的模糊尺度。II. 我们确定了当前深度去模糊模型的堆叠深度的限制，并引入了新的堆叠方法，克服了这一限制。III. 我们在公共测试平台（如果可能）中进行基线比较，以进行公平的比较。IV. 我们调查的影响之间的编码器-解码器对跨层次的权重共享，我们提出了一个内存友好的DMPHN的变体。我们的实验将证明我们的SPM类模型在运动去模糊中的明显优势。据我们所Conv. 层转换特征原始输入中间输出上采样连接器。斯基普控制室带有MSE约束的输出直接连接。循环连接器我们的CNN模型是第一个对盲运动去模糊进行多补丁处理的模型，DMPHN是第一个支持实时（30fps）对720p图像进行去模糊的模型2. 相关工作传统的图像去模糊方法[1，5，24，12，17，6，4，19]由于非均匀运动模糊而无法去除非均匀运动模糊。（a）（b）（c）图3.不同网络架构之间的比较（a）多尺度[14]，（b）尺度递归[23]和（c）我们的分层多补丁架构。我们没有使用任何跳过或循环连接，这简化了我们的模型。最好用彩色观看。使用空间不变的去模糊内核。此外，它们复杂的计算推理导致长的处理时间，这不能满足对实时去模糊的不断增长的需求5980深度去模糊。最近，CNN已被用于非均匀图像去模糊，以时间有效的方式处理复杂的运动模糊[25，22，14，18，15，21]。Xu等[25]提出了一种去卷积CNN，它通过在给定估计的模糊核的情况下恢复清晰图像来在非盲设置中去除模糊他们的网络使用可分离的内核，可以分解成一个小的过滤器集。Sun等人[22]通过学习以下之间30×30图像块及其相应的核。其次，传统的基于能量的优化是用于估计潜在的清晰图像。Su等人[21]提出了一个深度学习框架来处理模糊的视频序列并在帧间积累信息。该方法不需要空间对准的样品对。Nah等人[14]利用多尺度CNN以端到端的方式从由各种因素引起模糊的图像中恢复清晰图像采用多尺度损失函数来模拟传统去模糊方法中的粗到细流水线。递归神经网络（RNN）由于其在序列信息处理中的优势，是一种常用的去模糊工具。由[26]提出的由三个深度CNN和一个RNN组成的网络就是一个突出的例子。RNN被应用为由第一CNN模块提取的特征图上的解卷积解码器。另一个CNN模块学习RNN每层的权重。最后一个CNN模块从去模糊的特征图重建清晰的图像。Scale-Recurrent Network（SRN-DefurNet）[23]使用ConvLSTM细胞从粗到细的尺度聚合这显示了RNN单元在非均匀图像去模糊任务中的优势。生成对抗网络（GAN）也被用于去模糊，因为它们在保留纹理细节和生成逼真图像方面具有优势。Kupyn等人[10]提出了一种条件GAN，通过Wasserstein损失产生高质量的去毛刺图像。3. 我们的框架在本文中，我们提出了利用多补丁的高效率和有效的盲运动去模糊。我们提出的DMPHN网络的整体架构如图所示2从中我们使用（1-2-4-8）模型（解释在第2节。3.2）为例。我们的网络受到从粗到细的空间金字塔匹配的启发[11]，它已用于场景识别[8]，以聚合多个图像块以获得更好的性能。与多尺度和尺度递归网络模型中昂贵的推理相反，我们的方法使用类似残差的架构，因此需要小尺寸的过滤器，从而导致快速处理。[14，23]和我们的网络架构之间的差异如图所示。3.第三章。尽管我们的模型使用非常简单的架构（跳过和循环连接图4.我们的（a）解码器和（b）编码器的架构和层配置。已删除），非常有效。与使用反卷积/上采样链接的[14]相比，我们使用诸如特征图级联之类的操作，由于我们提出的多补丁设置，这是可能的。3.1. 编码器解码器架构我们的DMPHN网络的每一级由一个编码器和一个解码器组成，其架构如图所示。4.第一章我们的编码器由15个卷积层，6个残差链接和6个ReLU单元组成。解码器和编码器的层是相同的，除了两个卷积层被解卷积层取代以生成图像。我们的编码器和解码器的参数总计为3.6 MB由于我们的模型的残差性质，这对快速去模糊运行时间有很大相比之下，[14]中的多尺度去模糊网络具有303.6 Mb的参数，这导致昂贵的推断。3.2. 网络架构我们的DMPHN网络的整体架构如图所示。2，其中我们使用（1-2-4-8）模型进行说明。符号（1-2-4-8）表示从最粗层到最细层的图像块的数量即，在第二层垂直分割，在第三层2×2 = 4分割，在第四层2×4 = 8分割我们将初始模糊图像输入表示为B1，而Bij是第i层的第j个补丁此外，Fi和Gi是第i层的编码器和解码器，Cij是Gi对于Bij的输出，Sij表示来自Gi的输出补丁。我们的网络的每一层都由一个编码器-解码器组成汇率通过将原始模糊图像输入B1划分为多个非重叠块来生成每个级别的输入。来自较低级别（对应于更精细的网格）的编码器和解码器两者的输出将被添加到较高级别（上一个级别），使得最高级别包含在更精细级别中推断的所有信息。请注意，每个级别的输入和输出补丁的数量是不同的，因为我们工作的主要思想是使较低级别专注于局部信息（更精细的网格），以产生粗糙网格（通过连接卷积特征获得）的残差信息。59814，224，4，F3，3，子模型1子模型2子模型3最底层最顶层Stack-VMPHN（一）子模型1底层（c）第（1）款LV1去模糊MSELV2子模型2子模型3LV3（b）第（1）款图5.堆叠网络的体系结构（a）Stack-DMPHN。（b）Stack-VMPHN。（c）两种不同叠加方法的信息流注意，两个堆叠网络中的单元都具有（1-2-4）多片分层架构。VMPHN单元的模型尺寸是DMPHN单元的2倍以（1-2-4-8）变量为例。DMPHN的去模糊过程开始于底层4。 B1被切片为8个不重叠的片B4，j，j =1，...，8，在第2级，我们的网络将两个图像块B2，1和B2，2作为输入。我们更新B2，j，使得B2，j：=B2，j+S3，j并将其传递给F2：其被馈送到编码器F4以产生以下内容卷积特征表示：C2，j=F2（B2，j+S3，j∗3，j， j∈ {1，2}，（六）C4，j= F4（B4，j），j∈ {1... 8}。（一）Then, we concatenate adjacent features (in the spatialsense) to obtain a new feat. 表示C，它是C=C2，1<$C2，2.（七）第2级的残差图由下式给出：S2= G2（C）.（八）和Conv一样大壮举. 第3级代表∗4，j=C4，2 j−1<$C4，2 j，j∈ {1. 4}，（2）在级别1，最终去模糊输出S1由下式给出：C1=F1（B1+S2）+C1，S1= G1（C1）.（九）其中表示连接运算符。concate-2自动特征表示是通过编码器G4生产S4，j4，j=G4（C4，j）.不同于评估的方法[14，23]，接下来，我们将一个级别向上移动到级别3。F3的输入是通过将S4，j与切片补片B3，j相加而形成的。一旦生成了F3的输出，我们就把C加到它上面：在每个级别的均方误差（MSE）损失，我们评估仅在水平1的输出处的MSE损失（其类似于RES。网络）。DMPHN的损失函数如下：C3，j=F3（B3，j+S4，j）+C3，j， j ∈ {1. 4}。（三）L=1<$S1−G2，（10）2在第3层，我们将第3层的特征表示连接起来以获得C，并将其传递给G3以获得S3，j：其中G表示地面实况清晰图像。由于分层多补丁架构，我们的网络如下∗3，j=C3， 2j−1<$C3， 2j，j∈{1，2}，（4）剩余学习原理：不同级别Si处的中间输出在不同级别S i 处捕获图像统计S3，j=G3（C）），j∈ {1，2}. （五）LV1去模糊MSEMSEMSELV2LV3信息流顶层去模糊过程图像转发堆栈DMPHN）+CCC5982鳞片因此，我们只在水平1处评估损失函数。我们已经研究了多级MSE损失的使用，请注意，所有级别的要素都是串联在一起的空间维度：想象相邻的片被连接以形成更大的“图像”。迫使每个级别的输出接近地面实况图像。然而，正如预期的那样，通过使用多尺度损失没有实现可见的每千次增益。5983IF图6.去模糊结果。红色块包含模糊的主题，蓝色和绿色分别是[14]和[23]的结果，黄色块表示我们的结果。可以看出，我们的方法产生了最清晰和最逼真的面部细节。3.3. 堆叠多贴片网络正如Nahet al.[14]和Taoet al.[23]，添加更精细的网络级别不能改善多尺度和尺度递归架构的去模糊性能。对于我们的多补丁网络，我们还观察到，顶层被转发到下一个模型的底层。但是，VMPHN从顶层开始，到达底层，然后返回顶层。Stack-DMPHN和Stack-VMPHN的最小化目标简单地给出为：将模糊图像可视化为更小的网格并不能进一步提高去模糊性能。这主要是由于较粗的水平达到低的经验损失，1ΣNL= 2i=1第二章（十一）训练数据快速，从而排除最好的水平，从贡献他们的残差。在本节中，我们提出了一种新的堆栈去模糊范例我们不是让网络在垂直方向上更深（在网络模型中添加更精细的层次，这会增加单个工作者的难度），而是建议在水平方向上增加深度（堆叠多个网络模型），这会在水平方向上使用多个工作者（DMPHN）来执行去模糊。网络模型可以以多种方式级联。在图5中，我们提供了两个图表来演示所提出的模型。第一个模型称为Stack-DMPHN，它将多个“自底向上”的DMPHN堆叠在一起，如图2所示。5（顶部）。注意，子模型i-1的输出和子模型i的输入是相连的，这意味着为了优化子模型i，需要子模型i-1的输出子模型i-1的所有中间特征都传递给子模型i。MSE损失在以下条件下进行评估：每个子模型的输出i.此外，我们还研究了一种反向的信息流，并提出了一种堆叠的V形我们将在实验中证明Stack-VMPHN优于DMPHN。Stack-VMPHN的架构如图所示。5（底部）。我们评估了Stack-VMPHN每个子模型输出端的MSE损失。Stack-VMPHN是从我们的基本 DMPHN单元构建的，并且它可以被视为Stack（2）-DMPHN（2代表两个子模型的堆叠）的反向版本。在Stack-DMPHN中，处理从底层开始，在顶层结束，然后是其中，N是所使用的子模型的数量，Si是子模型i的输出，G是地面实况清晰图像。我们的实验将表明，这两个堆叠的网络提高去模糊的性能。虽然我们的堆叠架构使用DMPHN单元，但我们认为它们是通用框架-其他深度去模糊方法可以以类似的方式堆叠以提高其性能。然而，如果对基本单元采用昂贵的去模糊模型，则总处理时间可能是不可接受的。得益于快速高效的DMPHN单元，我们可以将堆叠网络的运行时间和大小控制在合理的范围内，以满足各种应用。3.4. 网络可视化我们在图中可视化DMPHN单元的输出。7分析其中间贡献。如前所述，DMPHN使用残差设计。因此，与较粗的级别相比，较细的级别包含较细但在视觉上不太重要的信息。在图7中，我们示出了DMPHN（1-2-4-8）的每个级别的输出SiS4中包含的信息是最精细和最稀疏的。当我们一级一级地向上移动时，输出变得不那么稀疏，更清晰，颜色更丰富。图7.不同DMHPN水平的输出Si图像从右到左可视化底部水平S4到顶部水平S1.5984对于堆叠模型，每个子模型的输出都是逐层优化的，即第一个输出的质量最差，最后一个输出的质量最好图8呈现了堆栈（3）-DMPHN（3个子模型堆叠在一起）的输出，以证明每个子模型逐渐提高去模糊的质量。图8.堆栈（3）-DMHPN的不同子模型的输出。从左到右是M1到M3的输出.结果的清晰度一级一级提高。我们观察到Stack-VMPHN的类似行为（为简洁起见未显示）。3.5. 实现细节我们所有的实验都在PyTorch中实现，并在单个NVIDIA Tesla P100 GPU 上进行评估。为了训练DMPHN，我们将图像随机裁剪为256×256像素大小。随后，我们从裁剪的图像中提取补丁，并将它们转发到每个级别的输入批量大小在训练期间设置为6。Adam求解器[7]用于训练我们的模型3000个epoch。初始学习率设置为0.0001，衰减率设置为0.1。我们将图像归一化到范围[0，1]并减去0.5。表1.我们的模型在GoPro数据集上的定量分析[14]。大小和带宽以MB和秒表示。报告的时间是CNN运行时（不考虑将生成的图像写入磁盘）。注意，我们对Stack-DMPHN和Stack-VMPHN两者采用（1-2-4）分层单元。由于GPU内存限制和较长的训练时间，我们没有研究更深的堆栈网络。模型PSNRSSIM大小运行时Sun等人[22日]24.640.842954.112000Nah等人[14个]29.230.9162303.64300Zhang等人[26日]29.190.930637.11400Tao等人[23日]30.100.932333.61600DMPHN（1）28.700.91317.25DMPHN（1-2）29.770.928614.59DMPHN（1-1-1）28.110.904121.712DMPHN（1-2-4）30.210.934521.717DMPHN（1-4-16）29.150.921721.792DMPHN（1-2-4-8）30.250.935129.030DMPHN（1-2-4-8-16）29.870.930536.2101DMPHN30.210.934521.717堆栈（2）-DMPHN30.710.940343.437堆栈（3）-DMPHN31.160,945165.1233堆栈（4）-DMPHN31.200.945386.8424VMPHN30.900.941943.4161堆栈（2）-VMPHN31.500.948386.8552表2.多尺度和多补丁方法在GoPro数据集上的基线性能[14]。注意DMSN（1）和DM-PHN（1）实际上是同一个模型.模型PSNRSSIM运行时Nah等人[14个]29.230.91624300DMSN（1）DMPHN（1）28.700.91314DMSN（2）DMPHN（1-2）28.8229.770.91560.9286219DMSN（3）DMPHN（1-2-4）28.9730.210.91780.934527174. 实验4.1. 数据集我们在几个版本的 GoPro 数据集 [14] 和VideoDeflurring数据集[21]上训练/评估我们的方法GoPro数据集[14]由3214对模糊和干净的图像组成，这些图像是从以720×1280分辨率捕获的33个序列中提取的。模糊图像是通过对不同数量（7 -13 ）的连续潜像进行平均而产生的。帧以产生不同的模糊。为了进行公平的比较，我们遵循[14]中的协议，该协议使用2103个图像对进行训练，剩余的1111个图像对进行测试。VideoDeflurring数据集[21]包含由各种设备捕获的视频，如iPhone，GoPro和Nexus。量化部分有71个视频。每个视频由720×1280分辨率的100帧组成在[21]中的设置我们使用61个视频进行培训，进行测试。此外，我们在VideoDeflurring数据集上评估了在GoPro数据集[14]上训练的模型，以评估我们方法的泛化能力。4.2. 评价设置和结果我们将原始的高分辨率720×1280像素图像输入DMPHN进行性能分析。PSNR，SSIM、模型大小和运行时间如表1所示，以便与竞争的最先进运动去模糊模型进行深入比较对于堆叠网络，考虑到训练的时间和难度，我们在每个模型单元中采用（1-2-4）多片层次结构性能如表1所示，根据PSNR和SSIM，我们提出的DM-PHN优于其他竞争方法，这证明了通过我们的模型使用的局部信息去除非均匀模糊由于GPU内存限制，我们训练和评估的最深DMPHN是（1-2-4-8-16）最好的性能是用（1-2-4-8）模型获得的，对于该模型，与所有当前最先进的模型相比，PSNR和SSIM更高。请注意，我们的模型比其他竞争方法更简单，我们不使用经常性单位。我们注意到，过小的补丁（小于1/16大小）对去除运动模糊没有帮助。5985表3. VideoDeflurring数据集[21]上的定量分析（PSNR），用于在GoPro数据集上训练的模型。PSDeblur是指使用Photoshop CC2015。我们选择方法[ 21 ]的方法#1#2#3#4#5#6#7#8#9#10平均输入24.1430.5228.3827.3122.6029.3127.7423.8630.5926.9827.14PS去模糊24.4228.7725.1527.7722.0225.7426.1119.7526.4824.6225.08WFA [2]25.8932.3328.9728.3623.9931.0928.5824.7831.3028.2028.35Su等人[21日]25.7531.1529.3028.3823.6330.7029.2325.6231.9228.0628.37DMPHN29.8933.3531.8231.3226.3532.4930.5127.1134.7730.0230.76堆栈（2）-DMPHN30.1933.9832.1631.8226.5732.9430.7327.4535.1130.4131.22堆栈（3）-DMPHN30.4834.3132.2432.0926.7733.0830.8427.5135.2430.5731.39堆栈（4）-DMPHN30.4834.4132.2532.1026.8733.1230.8627.5535.2530.6031.43表4.GoPro上重量分担的定量结果[14]。模型PSNRSSIM大小（MB）DMPHN（1-2）DMPHN（1-2）-WS29.7729.220.92860.921014.57.2DMPHN（1-2-4）DMPHN（1-2-4）-WS30.2129.560.93430.925721.77.2DMPHN（1-2-4-8）DMPHN（1-2-4-8）-WS30.2530.040.93510.931829.07.2此外，堆叠变体堆叠（4）-DMPHN比形成的较浅模型DMPHN表现出1%PSNR，VMPHN比DMPHN表现出0.7%PSNR，而堆叠变体堆叠（2）-VMPHN比形成的较浅模型DMPHN表现出0.7%PSNR。PSNR ≤ 1.3%。SSIM分数显示了同样的趋势。来自GoPro数据集的去模糊图像如图所示。6和9。在图6中，我们显示了不同模型对于包含严重运动模糊的图像的去模糊性能。为了清晰起见，我们放大了主要对象。在图9中，我们选择了不同场景的图像来展示我们模型的优点。可以看出，我们的DMPHN在所有情况下都能产生最清晰的细节。运行时间。除了我们模型的卓越PSNR和SSIM之外，据我们所知，DMPHN也是第一个可以实时工作的深度去模糊模型。例如， DMPHN （ 1-2-4-8 ）处理720×1280图像需要30 ms，这意味着它支持30 fps的实时720 p图像去模糊。然而，存在与I/O操作相关的运行时开销，因此实时去模糊应用程序需要从视频抓取器到GPU、更大的GPU存储器和/或SSD驱动器等的快速传输。以下因素有助于我们快速运行：i）具有小尺寸卷积滤波器的较浅编码器-解码器; ii）去除不必要的链路，跳过或重复连接; iii）减少了不同级别的卷积特征之间的上采样/去卷积的数量。基线比较。尽管我们的模型比多尺度模型[14]具有更好的性能，但这是一个不公平的比较，因为我们提出的模型和[14]的网络架构存在显著差异。与使用超过303.6MB参数的[14]相比，我们应用了更浅的CNN编码器和解码器，模型大小小10倍因此，我们创建了一个深度多尺度网络（DMSN），它使用我们的编码器-解码器按照[14]中的如表2所示，DMSN的PSNR比[14]差，这是由于我们简化的CNN架构而预期的。与我们的DMPHN相比，DMSN得到的最好结果比DMPHN（1-2）模型差由于共同的测试平台，我们认为我们报告的 DMSN 和DMHPN的性能是多补丁层次和多尺度模型的公平比较[14]。重量分担下面，我们研究了我们网络的所有级别的编码器-解码器对表4显示，权重共享导致性能略有下降，但显著减少了参数数量5. 结论在本文中，我们解决了具有挑战性的问题，非均匀运动去模糊，利用多补丁SPM和残差样模型，而不是广泛使用的基于oru命题，我们设计了一个端到端的深度多块层次去模糊网络。与现有的深度去模糊框架相比，我们的模型达到了最先进的性能（根据PSNR和SSIM），并且能够以30fps的速度运行720p图像。本文的工作为后续的深度去模糊工作提供了有效的去模糊方法。我们的堆叠变体Stack（4）- DMPHN和Stack（2）-VMPHN进一步改进了结果比较浅的DMPHN和竞争方法都快，同时比后者快1.4倍。我们的堆栈- ING架构似乎已经克服了其他竞争方法所表现出的堆栈深度的限制。鸣谢。本研究部分由澳大利亚研究委员会通过澳大利亚机器人视觉中心（CE140100016），澳大利亚研究委员会资助（ DE140100180 ），中国学校委员会（CSC学生ID 201603170283）支持。Y.戴还部分由中国自然科学基金（61871325，61420106007）资助。李宏东也得到了 ARC-DP （ 190102261 ）和 ARC-LE（190100080）的部分资助。我们还要感谢CSIRO科学计算和NVIDIA（GPU赠款）的支持。5986图9. GoPro和VideoDeflurring数据集中模糊图像的去模糊性能。第一列包含原始模糊图像，第二列是[14]的结果，第三列是[23]的结果。我们的结果在最后一栏中给出。可以看出，我们的模型在不同场景中实现了最佳性能。5987引用[1] 赵成贤和李承京。快速运动去模糊。ACM Transactions on Graphics，28（5）：145：1-145：8，2009。2[2] M. Delbracio和G.萨皮罗通过有效傅立叶聚合的手持视频去模糊IEEE Transactions on Computational Imaging，1（4）：270-283，2015年12月。7[3] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。欧洲药典配置文件可见第346-361页。Springer，2014. 2[4] Tae Hyun Kim和Kyoung Mu Lee。动态场景的广义视频去模糊在proc IEEE会议Comp. 目视帕特识别第5426-5434页，2015年。2[5] 佳雅佳。单帧图像运动模糊的反模糊方法。在procIEEE会议Comp. 目视帕特识别，第1-8页IEEE，2007年。2[6] 佳雅佳。统一运动去模糊的数学模型和实用解算器2014.2[7] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[8] Piotr Koniusz，Hongguang Zhang，and Fatih Porikli.更深入地了解功率标准化。正在进行IEEE会议对比可见光帕特识别，第5774-5783页，2018年。二、三[9] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在proc Adv. 神经信息过程系统第1097- 1105页1[10] OrestKupyn，VolodymyrBudzan，MykolaMykhailych，Dmytro Mishkin和Jiri Matas。Deflurgan：使用条件对抗网络进行盲运动去模糊arXiv预印本arXiv：1711.07064，2017。3[11] Svetlana Lazebnik ， Cordelia Schmid ， and Jean Ponce.Be-yond功能包：自然场景类别识别的空间金字塔匹配。正在进行IEEE会议Comp.目视帕特识别第2169-2178页。IEEE，2006年。二、三[12] Anat Levin利用图像统计量进行盲运动去模糊。在procAdv. 神经信息过程系统第841-848页2[13] Xin Lu，Zhe Lin，Xiaohui Shen，Radomir Mech，andJames Z Wang.用于图像风格、美学和质量评估的深度多补丁聚合网络。在proc IEEE会议对比可见光帕特识别第990-998页2[14] Seungjun Nah，Tae Hyun Kim，and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。正在进行IEEE会议对比可见光帕特识别，第257 - 265页，2017年。一二三四五六七八[15] Thekke Madam Nimisha、Akash Kumar Singh和A. N.拉贾哥普兰用于盲去模糊的模糊不变深度学习。在procIEEE国际Conf. Comp. 目视，第47623[16] Liyuan Pan ， Yuchao Dai ， Miaomiao Liu ， and FatihPorikli.同时立体视频去模糊和场景流估计。正在进行IEEE会议对比可见光帕特识别第6987-6996页。IEEE，2017年。1[17] A. N. 拉贾哥帕兰和拉玛·切拉帕。运动去模糊：算法与系统。剑桥大学出版社，2014年。2[18] ChristianSchleman，MichaelHirsch，StefanHarmeling，and Bernhard Scholkopf.学习解模糊。IEEETrans. Pattern Anal.马赫内特尔，（7）：1439-1451，2016. 3[19] 安妮塔·塞伦特卡斯滕·罗瑟斯特凡·罗斯立体视频去模糊。欧洲药典配置文件可见第558施普林格，2016年。2[20] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。1[21] Shuochen Su ， Mauricio Delbracio ， Jue Wang ，Guillermo Sapiro，Wolfgang Heidrich，and Oliver Wang.用于手持相机的深度视频去模糊。正在进行IEEE会议对比可见光帕特识别，第2卷，第237 - 246页三六七[22] Jian Sun，Wenfei Cao，Zongben Xu，and Jean Ponce. 学习用于非均匀运动模糊去除的卷积神经网络。在procIEEE会议Comp. 目视帕特识别，第769-777页，2015。二、三、六[23] 陶新，高红云，沈晓勇，王珏，贾继亚.用于深度图像去模糊的尺度递归网络。正在进行IEEE会议对比可见光帕特识别，第8174- 8182页，2018。一二三四五六八[24] 李旭和贾佳雅。用于鲁棒运动去模糊的两阶段核估计。欧洲药典配置文件可见第157-170页。施普林格，2010年。2[25] Li Xu，Jimmy SJ Ren，Ce Liu，and Jiaya Jia.用于图像去卷积的深度卷积神经网络在proc Adv.神经信息处理。系统第1790-1798页，2014年。3[26] Jiawei Zhang，Jinshan Pan，Jimmy Ren，Yibing Song，Lin- chao Bao，Rynson WH Lau，and Ming-Hsuan Yang.使用空间变化递归神经网络的动态场景去模糊在procIEEE会议Comp. 目视帕特识别第2521-2529页，2018年。三、六

下载后可阅读完整内容，剩余1页未读，立即下载