动态场景的像素自适应和全局-局部过滤模块的高效运动去模糊

77 浏览量更新于2023-10-25 收藏 2.15MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1用于自适应运动去模糊的MaitreyaSuinKuldeepPurohitN. RajagopalanIndian Institute of Technology印度马德拉斯网址：maitreyasuin21@gmail.com，kuldeeppurohit3@gmail.com，网址：www.example.com，raju@ee.iitm.ac.in摘要32本文研究了动态场景的运动去模糊问题。尽管端到端全卷积设计最近在非均匀运动去模糊方面已经发展了最先进的技术，但是它们的性能-复杂度权衡仍然是次优的。现有方法通过增加通用卷积层的数量和内核大小来实现大的感受野，但这是以模型大小和推理速度的增加为代价的。在这项工作中，我们提出了一个有效的像素自适应和31.53130.53029.52928.5十比一100高清图像的分辨率（秒）101具有用于处理跨不同空间位置的大模糊变化的关注设计，并自适应地处理每个测试图像。我们还提出了一个有效的内容感知的全局-局部过滤模块，显着提高性能，不仅考虑全局依赖性，但也通过动态利用相邻像素信息。我们使用由上述模块组成的分块分层注意架构，该模块隐式地发现输入图像中存在的模糊的空间变化，并且进而执行中间特征的局部和全局调制。广泛的定性和定量比较parisons与现有技术的去模糊基准证明，我们的设计提供了显着的改进，在国家的最先进的准确性以及速度。1. 介绍运动模糊图像由于传感器曝光期间的相对运动而形成，并且在许多情况下出于美学目的而受到摄影师和艺术家的青睐，但很少受到计算机视觉研究人员的青睐，因为许多标准视觉工具（包括检测器、跟踪器和特征提取器）都难以处理模糊。盲运动去模糊是一个不适定问题，其目的是从由于运动引起的纹理和高频细节的拖尾而退化的给定图像中恢复清晰图像。由于其在监视、遥感和摄像机安装*同等缴款。图1.比较不同方法的准确性和推理时间。我们的方法优于所有以前的方法。在过去二十年中，在手持和车载相机上，去模糊已经引起了计算机视觉和图像处理团体的极大关注传统的图像去模糊方法大多基于变分模型，其关键成分是正则化项。恢复质量取决于先验的选择、权重以及涉及高度非凸优化设置的其他参数的调整一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊来自各种来源，包括移动对象、相机抖动和深度变化，导致不同的像素捕获不同的运动轨迹。这种手工制作的先验在概括不同类型的真实世界示例时会遇到困难，其中模糊比建模复杂得多[3]。最近基于深度卷积神经网络（CNN）的工作已经研究了用参数模型替换图像形成模型的益处，该参数模型可以被训练以模拟模糊-清晰图像对之间的非线性关系。这些工作[13]直接回归到去模糊图像强度，并克服了变分方法在描述动态场景中的有限代表能力。这些方法可以处理相机运动和动态对象运动的组合效果，3606RsZhang CVPR 19ZPR18Kupyn CV17PRh CVNa8挂起CVPR1019V2ICC吡咯KYPR18Tao CV19o CVPRGa（a）我们（b）第（1）款欧峰值信噪比（dB）3607xNxNXPCAXMCAxNxNXP猫CAXMCAxNxN猫XPXMCA在单个图像去模糊任务上实现最先进的结果。他们已经达到了一个可观的减少模型的大小，但仍然缺乏准确性和实时性。现有的基于CNN的方法有两个主要限制：a）CNN的权重是固定的并且是空间不变的，这对于动态模糊场景中的不同像素可能不是最佳的（例如，天空与移动的汽车图片）。这个问题通常通过堆叠大量过滤器来学习高度非线性映射来解决。但这大大增加了计算成本和内存消耗。b）几何均匀的接收场对于去模糊的任务是次优的。即使模糊很小，也倾向于使用大的图像区域来增加感受这不可避免地导致网络具有大量的层和高计算能力，卷积内容感知处理模块Pixel-ShufShoe交叉注意站点占用空间，这会减慢网络的收敛速度。在推理速度、接收场和网络准确性之间达成平衡是一项重要的任务（见图11）。1）。我们的工作重点是设计有效的和可解释的过滤模块，提供了更好的精度-速度的权衡相比，简单的级联卷积层。我们研究了CNN中的运动相关由于运动模糊本质上是方向性的，并且对于每个图像实例是不同的，因此去模糊网络可以受益于适应每个输入测试图像中存在的模糊。我们部署内容感知模块，调整要应用的过滤器和每个像素的感受野。我们的分析表明，这些动态模块对于去模糊任务的好处是双重的：i）这种层的级联提供了大的和动态自适应的感受野。模糊的方向性需要一个方向性的感受野，这是普通CNN在少量层内无法实现的。ii）它有效地实现了空间变化的恢复，因为滤波器和特征的变化没有先前的工作已经调查了在端到端单个图像去模糊模型内并入模糊变化的感知。根据图像去模糊技术的发展现状，本文采用多块层次化设计，直接对恢复后的清晰图像进行估计。而不是沿着深度级联，我们引入内容感知功能和过滤器transformation能力，通过一个全局-局部关注模块和跨层的剩余注意力，以提高性能。这些模块学习利用图像内不同像素之间的运动的相似性，并且还对位置特定的局部上下文敏感。我们的架构的效率是通过两个基准和比较与国家的最先进的去模糊approaches的综合评价证明。我们的模型在实现卓越性能的同时图2.我们提出的网络的整体架构。CA块表示编码器-解码器的不同级别之间以及不同级别之间的交叉注意。所有resblock包含一个内容感知处理模块。符号'+'表示元素级求和。计算效率更高。这项工作的主要贡献是：我们提出了一种高效的去模糊设计，它建立在新的卷积模块上，使用全局注意力和自适应局部滤波器来学习特征的变换我们表明，这两个分支相辅相成，并导致优越的去模糊perfor-曼斯。此外，注意力模块的有效设计使我们能够在整个网络中使用它，而无需显式下采样。我们进一步证明了在我们的设计中学习编码器-解码器之间以及不同级别之间的交叉注意的有效性。我们对动态场景去模糊基准进行了广泛的分析和评估，证明我们的方法可以产生最先进的结果，同时比最接近的竞争对手快3倍[26]。2. 建议的体系结构迄今为止，去模糊性能改进背后的驱动力是使用大量的层和更大的滤波器，这有助于增加CNN的然而，这些技术提供了次优设计，因为网络性能并不总是随着网络深度而缩放，因为深度CNN的有效感受域远小于理论值（在[12]中研究）。我们认为，一个更好的选择是一个动态的框架，其中过滤和感受野的变化CA···3608∈∈∈∈跨越空间位置并且也跨越不同的输入图像。我们的实验表明，这种方法是一个considerably更好的选择，由于其特定于任务的效率和实用程序的计算有限的环境。它可以在不同程度的模糊中提供一致的性能。虽然以前的多尺度和尺度递归方法在去除非均匀模糊方面表现出良好的性能，但它们在简单地增加模型深度的同时遭受昂贵的推理时间和性能瓶颈。相反，受[26]的启发，我们采用多补丁层次结构作为我们的基础模型，与多尺度方法相比，它具有类似残差的架构的额外优势，从而实现有效的学习和更快的处理速度。我们提出的网络的整体架构如图所示。2.我们将网络分为3个级别，而不是[26]中描述的4个级别。我们发现，由于包含4级的相对性能增益是可以忽略不计的推理时间和参数数量的增加相比。在底层，输入被切成4个不重叠的小块以进行处理，并且随着我们逐渐向更高层移动，小块的数量减少，并且使用注意力模块自适应地融合较低级别的特征，如图所示。2.级别1的输出是最终的去模糊图像。请注意，与[26]不同，我们还避免了网络沿深度的级联，因为这会增加严重的计算负担。相反，我们提倡使用内容感知处理模块，即使是原始DMPHN的最深堆叠版本也能产生显著的性能改进[26]。主要的变化incorpo-额定在我们的设计描述如下。我们的网络的每一层都由一个编码器和一个解码器组成。编码器和解码器都是用标准的Proaches使用标准卷积层进行局部滤波，并将这些层堆叠在一起以增加接收场。[1]在并行分支上使用自注意和标准卷积，并且示出了当两个特征结合在一起而不是单独使用每个特征时获得最佳结果。受此启发，我们设计了一个内容感知的“全局”分支由注意模块组成。对于解码器，这包括自我注意和交叉编码器-解码器注意，而对于编码器，仅使用自我注意。对于局部分支，我们设计了一个依赖于像素的滤波模块，该模块确定权值和局部邻域，以自适应地应用滤波器。我们在下面的章节中详细描述了这两个分支及其自适应融合策略3.1. 关注继Transformer架构[21]在自然语言处理领域，它也被引入到图像处理任务中[15，11]。这种架构的主要构建块是自我关注，顾名思义，它通过关注同一序列中的所有位置来计算序列中某个位置处的响应。给定形状为（C，H，W）的输入张量它被展平为矩阵z∈RHW×C，并投影到使用嵌入矩阵的da和dcWa，WbRC× da和WcRC× dc。嵌入矩阵A，BRHW×da和CRHW× dc分别称为查询、键和值。单个头部的自注意机制的输出可以表示为标准卷积层和残差块，其中，这些残留块包含1个卷积层，随后是内容感知处理模块和另一个卷积层。内容感知处理模块COM-O=softmax.ABTaΣC（1）提出了全局和局部特征处理的两个分支，并在最后进行了动态融合。解码器和编码器的剩余块是相同的，除了在解码器中使用交叉注意我们还设计了跨级别的注意力，用于在整个网络中有效传播较低我们从描述内容感知处理模块开始，然后对这两个分支进行详细描述，最后这些分支是如何自适应融合的。3. 内容感知处理模块与分类和检测[22]等高级问题相比，可以通过使用池化或步幅卷积连续下采样特征图来获得大的感受野，像去模糊这样的恢复任务需要更精细的像素细节，而这些细节无法从高度下采样的特征中获得大多数以前的去模糊ap-这种方法的主要缺点是内存非常大由于矩阵乘法 ABT 需要存储用于图像域的维度（HW，HW）的高维矩阵，因此需要使用矩阵乘法ABT这需要在应用注意力之前进行大量的下采样操作[15]和[17]使用局部内存块而不是全局所有对所有，以使其实际可用。[1]仅使用空间维度最小的图层的注意力，直到它达到内存约束。此外，这些工作通常采用较小的批量大小，有时还将输入降采样到自我注意层。尽管在最近的视频超分辨率工作中实现了自该过程对于空间注意力是次优的，因为像素被转移到通道域以减小尺寸。与其他人不同的是，我们诉诸于一种轻量级和快速的注意机制。如果我们考虑Eq。（一）3609C x C2CONV Softmax（HW）C-dimC-dimC-dim普惠制（H面罩面具掩模CONVCONVC2不同属性地图（Q）CONVSoftmax（C2）C x C2间隙（C2）逐元素乘法高x宽xCC x 1 x 1融合样本像素C x 1 x 1偏移内核C 2-dim属性给定像素的Map（p j）×O∈O···联系我们MC×HW1K∈（C2不同的代表）MASK图3.内容感知处理模块的图示。上分支和下分支显示自我注意（第二节）。3.1.1）和PDF模块（第3.2）。融合模块描述于等式2中。12和13为了简单起见，在没有softmax和缩放因子的情况下，我们首先进行（HW，da）×（da，HW）矩阵乘法，乘法作为xm1 =xM1（3）然后另一个（HW，HW）（HW，dc）矩阵乘法其负责高存储器需求并且具有（da（HW）2）的复杂度。相反，如果我们以不同的方式来研究这个方程，首先计算BTC，它是一个（da，HW）×（HW，dc）矩阵乘法，然后其中xmRC×H ×W和M相应地沿着信道维度广播接下来，我们将这些信息特征自适应地分布到所有像素，这类似于标准的自注意操作。给定xm，我们生成三个注意力图P∈A（BTC）是一个（HW，da）×（da，dc）矩阵，RC2× HW ，Q∈RC2× HW 和m2∈RCusing convo-通过应用，整个过程变得轻量级，复杂度（dadcHW）。我们在两个地方适当地引入软最大操作，这使得该方法本质上不同于标准的自注意，但仍然有效地收集每个像素的全局信息。从经验上讲，我们表明，它比标准的自我注意更好地进行消融研究中讨论。此外，由于轻量性质，它不仅使我们能够在所有编码器和解码器块中跨级别使用它以用于自注意，而且还跨编码器-解码器的不同层和级别使用它以用于交叉注意，这导致准确性的显著增加。3.1.1自我注意（SA）函数运算fp（），fq（）和fM2（），其中全局平均池用于最后一种情况以得到C维表示。我们取第一簇注意力映射Q，并将其分成C2个不同的映射Q=q1，q2，.，qC2，qiRHW，它们表示C2个不同的空间注意力权重。一个单一的注意力反映了模糊图像的一个方面。然而，有多个相关的属性，如边缘，纹理等。一起帮助消除模糊。因此，我们部署了一组注意力地图来有效地收集C2不同的关键特征.每个注意力图与输入特征图xm1逐元素相乘，生成C2部件特征图，如下所示我们首先生成一个空间注意力掩模M1，描述强调或抑制哪些空间特征以更好地理解运动。给定输入特征图m1=qkxm1，与HWi=1qki= 1（k = 1，2，...，N）（四）x∈R C×H×W我们生成M1，M1=fm1（x;θm1）（2）其中xkR.我们进一步提取描述性全局通过沿着HW维度的全局和池化（GSP）特征，以获得第k个特征表示，其中M1∈RH×W，fm（·）是一个连续解，K =GSPHW（xkXx3610M1C211M1M1）（k = 1，2，.，（5）sigmoid操作来生成有效的注意力地图。我们哪里1x¯k2m∈RC.现在我们有x<$m1=生成增强的特征图关于Element-Wise{xm，xm，.，x′}，它们是从C2微分中得到的13611M1联系我们mm1 21∈2∈∈y=J212211C×C22×HW输入的注意力加权平均值xm。这些C2表示中的每一个由C维向量表示，该向量是C通道的特征描述符。类似于第一步（等式(3))，我们通过强调重要的特征嵌入来进一步增强这些C维向量，3.1.2交叉注意（CA）受[21]中交叉注意的启发，我们在模型中实现了交叉编码器-解码器和交叉级别注意对于跨编码器-解码器的注意，我们部署了相似的注意模块，其中要注意的信息来自不同的编码器层和所有的注意图千平方米=M2x<$k（六）由解码器产生。同样，对于跨水平，关注特征来自较低水平，注意力去其中M2可以表示为M2=fm（x<$m;θm）∈RC（7）通过来自更高级别的特征来进行划分。我们观察到这有助于信息的传播与简单地传递当量(3)和等式(6)可以直观地与[4]进行比较，其中类似的门控增强技术用于通过与有助于仅传播相关信息的衰减掩模的逐元素乘法来细化结果。接下来，我们取注意力地图的集合P=p1，p2，.，pHW其中piRC2 Is表示第i个像素的注意力图。直觉上，pi表示当前像素的C2不同注意力加权平均值（x<$m1m2）的相对重要性，它允许像素自适应地选择所有像素的加权平均值。对于每个输出像素j，我们将这些C2特征表示x<$k逐元素相乘与相应的注意力图pj，得到C2[26][27][28][29][3.2. 像素相关滤波模块（PDF）与文献[1]相比，对于局部分支，我们使用像素相关滤波模块来有效地处理空间变化的动态运动模糊以前的作品，如[6]，使用过滤器生成网络实时生成样本特定参数，用于图像分类。[10]使用输入文本来构造用于视频生成任务的运动生成滤波器权重[28]使用自适应卷积层，其中卷积滤波器权重是用于人群计数任务的单独滤波器流形网络的输出Our work is based on [19]as we use a meta-layer to gen- erate pixel dependentspatially varying kernel to implementyj=pj<$x<$mm与i=1pji=1，（j=1，2，...，HW）（八）空间变化卷积运算。与此同时，The当我们调整这些滤波器其中yjRC×C2.我们将沿着C2对yj应用全局平均池化，以获得每个像素的C维特征表示y<$j=GAPC（yj）（9）自适应地给定输入特征图xRC×H ×W，我们应用核生成函数来生成空间变化的核V，并对像素j进行卷积运算，如下所示：ΣK其中，y<$jRC表示第j个像素的累积全局特征。因此，每个像素灵活地选择特征Dynj，ck=1Vj，jkWc[jk]x[j+jk+jk]（11）与当前信息互补并积累全局信息。这整个操作序列可以通过有效的矩阵操作表示为其中ydyn∈RC，K是核大小，jk∈ {（-（K-1）/2，−（K − 1）/2），.，（（K − 1）/2，（K −1）/2）}定义了伸缩1的卷积核的位置，Vj，jk ∈RK2 ×H×W is the pixel dependent kernel generated,W ∈yatt=CΣΣ(A) softmax（B）Tsoftmax（D）（10）其中RC× C × K × K是固定权重，而k是可学习的偏移量。我们为偏移量设置一个最大阈值其中A、B、C、D由下式给出：C=σ（fM（xm））∈RC，A=σ（fM（x））∈RC×HWB=fQ（xm）∈RHW，D=fP（xm）∈RC以实施有效的局部处理，这对于像去模糊这样的低级任务是重要的。注意，内核（V）和偏移从一个像素到另一个像素变化，但是对于所有通道是恒定的，从而提高了效率。标准空间1 1卷积可以被看作是上述的一个特例，x23612这种高效且简单的矩阵乘法使得该注意力模块非常快，而操作顺序（首先计算[（A）softmax（B）T]）导致低内存占用。注意，C适当地沿着HW维度广播。我们在每个级别的编码器和解码器中都利用这个注意力块来进行自注意。自适应k内核是常数Vj，jk =1，且k=0。与[1]相比，[1]只是简单地连接这两个分支的输出，我们设计了这两个分支之间的精心融合，以便网络可以在运行时自适应地调整每个像素的每个分支的重要性经验上我们观察到它比简单的表现更好3613高×××××(a) 模糊图像（b）模糊补丁（c）MS-CNN（d）DelurGAN（e）SRN（f）DelurGAN-V2（g）堆栈（4）-DMPHN（h）我们的（a）图4. GoPro测试集图像去模糊结果的视觉比较[13]。（b）中示出了关键模糊块，而（c）-（h）中示出了来自去模糊结果的放大块。添加或连接。此外，如在可视化部分中所讨论的，它提供了对不同模糊级别的特定要求的洞察给定该内容感知模块的原始输入x，我们生成融合掩码为Mfus=sigmoid（ffus（x））（12）形式好。因此，我们仅与两种传统方法[23，24]进行比较（这两种方法被选为非均匀去模糊的代表性传统方法，具有公开可用的实现）。我们提供了与最先进的基于学习的方法的广泛比较，即MS-CNN[13]，DeburGAN [8]，DeburGAN-v2 [9]，其中MFUS∈R，fFUS是单个卷积层SRN[20]和Stack（4）-DMPHN[26]。我们使用作者的官方实现和默认参数。产生单通道输出。然后我们将两者支部的yGL=Mfusyatt+（1−Mfus）ydyn（13）融合输出yGL包含全局以及局部信息分布自适应沿像素，这有助于有效地处理空间变化的运动模糊。4. 实验4.1. 实现细节数据集：我们遵循[26，9，20，8，13]的配置，在GoPro数据集[13]的2103张图像上进行训练。为了测试，我们使用两个基准测试：GoPro [13]（1103张高清图像）和HIDE [18]（2025张高清图像）。培训设置和实施详情：我们提出的模块中的所有卷积层包含128个滤波器。我们的编码器-解码器骨干的超参数为N= 3，M= 2和P= 2，PDF模块中的过滤器大小为5 5。在[26]之后，我们使用batch- size为6，patch-size为256 256。亚当优化器[7]使用初始学习率为10-4，每次学习后减半。2 105迭代。我们使用PyTorch [16]库和Titan Xp GPU。4.2. 性能比较我们的工作的主要应用是一般动态场景的有效去模糊。由于这种图像中存在的模糊的复杂性，传统的基于图像形成模型的去模糊方法难以实现。定量评估我们在两个不同的基准数据集上显示了性能比较。GoPro测试集和HIDE数据集[18]的定量结果见表1和表2。我们评估了我们模型的两个变体，（b）和（a）可学习偏移量，如表1所示。表1中提供了在GoPro测试分割上获得的平均PSNR和SSIM测量。It can be observed from the quantitativemeasures that our method performs better compared toprevious state-of-the-art. The results shown in Figure 4.显示了我们的模型在保持清晰度的同时具有强大的动态模糊处理能力。我们进一步评估的运行时间的所有方法在一个单一的GPU上的图像分辨率为720 - 1280。GoPro测试集上的PSNR、SSIM和运行时分数的标准差分别为1.78、0.018和0.0379。如表1所示，与其他方法相比，我们的方法所需的时间明显更少我们还在最近的HIDE数据集上评估了我们的方法[18]。GoPro和HIDE数据集都包含占主导地位的前景对象运动以及相机运动。我们与GoPro训练集上训练的所有现有模型进行比较，以进行公平比较。如表2所示，我们的方法优于所有方法，包括[18]，不需要任何人类边界框监督。我们的模型的优越性是由于所提出的自适应模块的鲁棒性。定性评价：不同的动态和3D场景的视觉比较如图所示。4和5.图中给出了视觉比较。4. 我们观察到3614(a) 模糊图像（b）模糊补丁（c）DelurGAN（d）SRN（e）DelurGANv 2（f）堆栈（4）-DMPHN（g）我们的图5. HIDE测试集[18]图像去模糊结果的视觉比较。（b）中示出了关键模糊块，而（c）-（g）中示出了来自去模糊结果的放大块。表1.在去模糊基准GoPro的1103张图像上与现有算法进行性能比较[13]。方法[24日][23日][五]《中国日报》[3]第一章[13个国家][八]《中国日报》[20个][27日][二]《中国日报》[26日][9]第一章我们的（a）我国（b）峰值信噪比（dB）2124.623.6426.429.0828.730.2629.1930.9031.2029.5531.8532.02SSIM0.7410.8460.8240.8630.9140.8580.9340.9310.9350.9400.9340.9480.953时间（s）380070036001200611.211.00.980.480.340.774.3. 消融研究(a) 输入图像（b）融合Mfus（c）掩模M1图6. GoPro测试集图像上的中间结果可视化[18]。表2.与现有算法在去模糊基准HIDE [18]的2025张图像上的性能比较。方法[八]《中国日报》[9]第一章[20个][18]1[26日]我们PSNRSSIM24.510.87126.610.87528.360.91528.890.93029.090.92429.980.930表3.在GoPro测试集上对我们的网络进行不同消融的定量比较设计SACACLA内核偏移PSNRNet1✗✗✗✗✗30.25Net2✗✗✗C✗30.81Net3C✗✗✗✗30.76Net4CC✗✗✗30.93网络5C✗C✗✗31.12Net6CC✗C✗31.44Net7CCCC✗31.85Net8CCCCC32.02现有技术的结果遭受不完全的去模糊或伪像。相比之下，我们的网络能够更忠实地恢复场景细节，这些细节在包含文本，边缘等的区域中是显而易见的。与[5，23]相比，我们的模型的另一个优点是在测试阶段放弃了参数调整的要求。在这两个数据集上，所提出的方法实现了比DMPHN [26]更好的PSNR，SSIM和视觉结果，推理时间更短，参数数量相当。3615在表3中，我们使用GoPro数据集[13]中的1103张测试图像分析了各个模块对网络如图2所示，建议的resblock包含一个内容感知处理模块和两个标准卷积层。为了找到编码器和解码器中的最佳resblock数量，我们用不同数量的resblock训练了不同版本的网络。虽然训练效果和量化结果随着块数的增加而改善，但超过3块后，改善是微不足道的。这使我们选择在每个编码器和解码器中使用3个resblock，并在效率和性能之间保持良好的平衡。由于最近在图像识别任务中探索了局部卷积和全局注意力的使用[1]或用注意力代替局部卷积[17]，因此我们进一步分析了它用于图像恢复任务，如去模糊。如表3所示，我们观察到SA和PDF模块的优点为了在编码器-解码器的不同层之间以及不同级别之间实现更好的信息流，我们使用了CA，其中通过比较Net 4和Net 5与Net 3的性能，可以观察到这种专注的信息流而不是简单我们还分析了PDF模块的自适应权重和自适应局部邻域的作用。如在表3（Net7和Net8）中定量地示出并且在图7中可视化的，偏移的自适应性连同权重表现得更好，因为它满足了定向局部滤波器的需要我们还对这些模型的收敛图进行了比较。我们还尝试将[1]中使用的注意力机制纳入我们的模型中进行公平比较。由于3616∈图7.第二行显示了每个图像的一个空间注意力图。第三行显示过滤器水平偏移值的空间分布。第四行显示预测的内核值的方差。由于对存储器的要求很高，我们只能在每一级的解码器中使用一个注意模块。结果PSNR为30.52，而Net3为30.76。但是，由于它已经占用了全部GPU内存，我们无法引入更多的块或交叉注意。4.4. 可视化和分析图1的第一行图7包含来自测试数据集的图像，这些图像由于大相机和对象运动而遭受复杂模糊。在随后的行中，我们可视化了网络的不同模块的输出，并分析了在处理由于相机运动、深度变化、移动对象等引起的不同程度的模糊时的行为变化。图的第二行。图7示出了注意力图（qi，i1，2，. C2）对应于每个图像。我们可以观察到估计的注意力权重和图像中存在的主要运动模糊区域之间的高度相关性。网络聚焦于图像相关部分的这种自适应能力对于观察到的性能改善至关重要。图1的第三和第四行。图7示出了滤波器权重和偏移的空间变化性质。观察到在具有高水平模糊的区域中估计大的水平偏移，使得滤波器形状可以沿着运动方向扩展虽然估计的滤波器权重不是直接可解释的，但是可以看出滤波器的方差与模糊的幅度相关。我们进一步可视化的行为的融合掩模，自适应加权的两个分支的输出为每个像素位置。如图6、PDF模块输出在具有移动前景对象或模糊边缘的区域中更优选，其中大多数其他区域对两个分支给予几乎相等的权重。另一方面，同质区域其中模糊的影响是可忽略的，已经显示出对注意力分支的偏好。为了进一步研究这种行为，我们可视化了空间掩模（M1）。正如我们可以在图中观察到的。在图6（c）中，即使在计算每个像素的自注意力之前，掩模也会抑制这些均匀区域。这显示了我们的注意力模块在处理任何类型的模糊时的鲁棒性和可解释性PDF模块：我们使用4个不同方向（0°、45°、90°、135°）的合成线性PSF合成模糊25个清晰图像。对于这些图像，我们记录了由我们的PDF模块估计的滤波器偏移的主导方向。所获得的值（11°，50°，81°，126°）表明偏移方向与PSF角之间有5. 结论我们提出了一种新的内容自适应架构设计的挑战性任务，消除动态场景的图像中的空间变化的模糊。在所有的编码器-解码器中使用有效的自注意以获得更好的表示，而交叉注意有助于跨层和级别的有效特征传播。提出的动态过滤模块显示了本地过滤的内容感知。这两个分支的互补行为如表3和图4所示。6.与现有的基于深度学习的方法不同，该方法更具有可解释性，这是其关键优势之一。我们的实验结果表明，所提出的方法取得了更好的结果比国家的最先进的方法在两个基准定性和定量。我们表明，所提出的内容自适应方法实现了内存，时间和准确性的最佳平衡，并可应用于其他图像处理任务。3617引用[1] Irwan Bello ，Barret Zoph，Ashish Vaswani，JonathonShlens，and Quoc V Le.注意力增强卷积网络。arXiv预印本arXiv：1904.09925，2019.[2] Hongyun Gao，Xin Tao，Xiaoyong Shen，and Jiaya Jia.基于参数选择共享和嵌套跳跃连接的动态场景去模糊在IEEE计算机视觉和模式识别会议论文集，第3848-3856页[3] Dong Gong，Jie Yang，Lingqiao Liu，Yanning Zhang，Ian Reid ，Chunhua Shen， AVD Hengel ，and QinfengShi.从运动模糊到运动流：一个深度学习解决方案，用于消除异构运动模糊。在IEEE计算机视觉和模式识别会议（CVPR），2017年。[4] Lun Huang，Wenmin Wang，Jie Chen，and Xiao-YongWei.注意注意图像字幕。在IEEE计算机视觉国际会议论文集，第4634-4643页[5] Tae Hyun Kim，Byeongjoo Ahn和Kyoung Mu Lee。动态场景去模糊。在Proceedings of the IEEE InternationalConference on Computer Vision，第3160[6] Xu Jia，Bert De Brabandere，Tinne Tuytelaars，and LucV Gool.动态过滤网络。神经信息处理系统进展，第667-675页，2016年[7] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[8] OrestKupyn，VolodymyrBudzan，MykolaMykhailych，Dmytro Mishkin和Jiri Matas。Deflurgan：使用条件对抗网络进行盲运动去模糊arXiv预印本arXiv：1711.07064，2017。[9] Orest Kupyn ， Tetiana Martyniuk ， Junru Wu ， andZhangyang Wang.Deblurgan-v2：去模糊（数量级）更快更好。在IEEE计算机视觉国际会议论文集，第8878-8887页[10] 李一彤，闵仁强，沈鼎汉，大卫·卡尔森，劳伦斯·卡林.从文本生成视频。第三十二届AAAI人工智能会议，2018。[11] Ding Liu ， Bihan Wen ， Yuchen Fan ， Chen ChangeLoy，and Thomas S Huang.用于图像复原的非局部递归网络。神经信息处理系统进展，第1673-1682页，2018年[12] Wenjie Luo ， Yujia Li ， Raquel Urtasun ， and RichardZemel.理解深度卷积神经网络中的有效感受野。神经信息处理系统的进展，第4898-4906页，2016年[13] Seungjun Nah，Tae Hyun Kim，and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。CVPR，第1卷，第3页，2017。[14] TM Nimisha，Akash Kumar Singh，and AN Rajagopalan.用于盲去模糊的模糊不变深度学习。 IEEE EInternational Conference on Computer Vision（ICCV），2017年。[15] Niki Parmar，Ashish Vaswani，Jakob Uszkoreit，ŁukaszKaiser，Noam Shazeer，Alexander Ku，and Dustin Tran.图像 Transformer 。 arXiv 预印本 arXiv ： 1802.05751 ，2018。[16] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017年。[17] Prajit Ramachandran ，Niki Parmar ， Ashish Vaswani，Irwan Bello，Anselm Levskaya，and Jonathon Shlens.视觉模型中的独立自我注意。 arXiv 预印本 arXiv ：1906.05909，2019.[18] Ziyi Shen ， Wenguan Wang ， Xiankai Lu ， JianbingShen，Haibin Ling，Tingfa Xu，and Ling Shao.人类感知的运动去模糊。在IEEE计算机视觉国际会议论文集，第5572-5581页[19] Hang Su，Varun Jampani，Deqing Sun，Orazio Gallo，Erik Learned-Miller，and Jan Kautz.像素自适应卷积神经网络在IEEE计算机视觉和模式识别会议论文集，第11166[20] 陶新，高红云，沈晓勇，王珏，贾继亚.用于深度图像去模糊的尺度递归网络。在IEEE计算机视觉和模式识别会议论文集，第8174-8182页[21] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的神经信息处理系统进展，第5998-6008页，2017年[22] 王晓龙，Ross Girshick，Abhinav Gupta，和Kaiming He.非局部神经网络。在IEEE计算机视觉和模式识别会议集，第7794-7803页[23] Oliver Whyte，Josef Sivic，Andrew Zisserman，and JeanPonce.抖动图像的非均匀去模糊。国际计算机视觉杂志，98（2）：168[24] Li Xu，Shicheng Zheng，and Jiaya Jia.自然图像去模糊的非自然 l0 稀疏表示。在 Proceedings of the IEEEconference on computer vision and pattern recognition中，第1107-1114页[25] 彭毅，王中原，姜奎，姜军军，马继爱.利用非局部时空相关性的渐进式融合视频超分辨率网络在IEEE计算机视觉国际会议的Proceedings中，第3106-3115页[26] 张洪光，戴玉超，李洪东，和彼得·科纽兹.用于图像去模糊的深度堆叠层次多块网络。在IEEE计算机视觉和模式识别会议论文集，第5978- 5986页[27] Jiawei Zhang，Jinshan Pan，Jimmy Ren，Yibing Song，Lin- chao Bao，Rynson WH Lau，and Ming-Hsuan Yang.使用空间变化递归神经网络的动态场景去模糊在IEEE计算机视觉和模式识别会议论文集，第2521- 2529页[28] 张璐，施妙静，陈乔波。通过规模自适应卷积神经网络进行人群计数2018年3618IEEE Winter Conference on Applications of ComputerVision（WACV），第1113-1121页。IEEE，2018年。

下载后可阅读完整内容，剩余1页未读，立即下载