基于动态注意图学习的图像复原

105 浏览量更新于2023-10-13 收藏 3.11MB PDF 举报

图像复原

图像恢复

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4328×基于动态注意图学习的图像复原Chong Mou†，Jian Zhang†，‡，Zhuoyuan Wu††北京大学深圳研究生院，中国‡中国深圳市鹏程实验室eechongm@gmail.com; zhangjian.sz @ pku.edu.cnwuzhuoyuan@pku.edu.cn摘要自然图像的非局部自相似性已被证明是图像恢复的有效先验然而，大多数现有的深度非局部方法为每个查询项分配固定数量的邻居，忽略了非局部相关性的动态。此外，非局部相关性通常基于像素，由于图像退化而易于有偏。为了弥补这些不足，本文提出了一种动态注意图学习模型（DAGL），用于研究图像块级的动态非局部特性，并用于图像恢复。具体来说，我们提出了一个改进的图形模型来执行补丁明智的图形卷积，lution与动态和自适应数量的邻居为每个节点。以这种方式，图像内容可以通过其连接的邻居的数量自适应地平衡过平滑和过尖锐的伪影，并且分块式非局部相关性可以增强消息传递过程。各种图像恢复任务的实验结果：合成图像去噪，真实图像去噪，图像去马赛克，压缩伪影减少表明，我们的DAGL可以产生国家的最先进的结果具有优越的精度和视觉质量。源代码可在https://github.com/jianzhangcs/DAGL上获得。1. 介绍图像恢复（IR）通常是一个不适定的逆问题，旨在从其被各种退化因素破坏的退化测量（ILQ）恢复高质量图像（IHQ退化过程可以被定义为ILQ=HIHQ+n，其中H是线性退化矩阵，并且η表示加性噪声[48，55]。根据H，IR可以分为许多子任务，例如：去噪、压缩伪影减少、去马赛克、超分辨率、压缩感测[49，53，54，46]。深度学习的兴起极大地促进了去本工作得到国家自然科学基金（61902009）的部分资助（通讯作者：张剑。）图像复原的发展已经提出了许多基于深度学习的方法[49，50，51，33尽管取得了显著的成功，但大多数方法都集中在从大量外部训练数据中学习，而没有充分利用图像中的内部先验。相比之下，许多经典的基于模型的方法是基于各种先验来实现的，例如：、全变差[26]、稀疏表示[9，10，47]和自相似性[4，7]。自相似性假设相似的内容将在整个图像上重现，并且可以在来自其他地方的相似项的帮助下恢复本地内容。受[4]的启发，非局部神经网络[40]通过深度网络利用自相似性，随后引入许多图像恢复任务[20，52]。然而，这些逐像素的非局部方法容易受到损坏图像内的噪声信号的影响。[18，19]提出在斑块水平上建立长程相关性然而，补丁匹配步骤与训练过程隔离。在N3Net [29]中，提出了一种可微的K-最近邻（KNN）方法。然而，由于通道特征融合的高复杂性，N3Net只能在一个小的搜索区域（10 10）和少量的匹配块内执行非局部操作。一些最近的冰毒-ODS [24，23，5]提出了更有效的分片非局部方法。但他们遵循与现有非局部方法相同的范式来构建完全连接的相关性。通常，不同图像内容的可重复性是不同的，导致在恢复不同图像内容时对非局部相关性的不同要求。早期的工作[56]已经很好地研究了这个属性，发现平滑的图像内容比复杂的图像细节更频繁地重现，并且它们应该被区别对待。图卷积网络（GCN）是一种特殊的非局部方法，通过在非欧空间建立长程相关性来处理图数据。然而，较大的域间隙限制了这种灵活的非局部方法在计算机视觉领域的应用最近，很少有作品[36，35，21]提出将GCN应用于图像恢复任务。[36]和[35]都是用4329Σ∈∈∈∈∈ EVEG V EF›→∈N{|∈E}∈∈我K我 zi我 JΣJ基于边缘条件卷积（ECC）[32]进行图像去噪。然而，他们基于像素构建了长程相关性，并为每个图节点分配了固定数量在[21]中，提出了一种用于面部表情恢复的分块GCN方法。然而，邻接矩阵是基于面部结构预定义的，并且与训练过程隔离。除了ECC之外，图注意力网络（GAT）[38]是一种流行的图模型，结合了注意力机制来识别不同相邻节点的重要性。受GAT的启发，本文提出了一种新的动态注意图学习模型（DAGL）用于图像恢复。在我们提出的DAGL中，损坏的图像被恢复在一个图像特定的和自适应的图constructed基于局部特征补丁。2. 相关作品我们的模型是密切相关的图像恢复算法，非局部注意力的方法，和图卷积网络。因为在下文中，我们对这些方面和一些最相关的方法进行了简要的回顾。2.1. 图像恢复架构在深度学习成功的推动下，几乎所有最近表现最好的图像恢复方法都是基于深度网络实现的。堆叠卷积层是最知名的基于CNN的策略。Dong等人提出了ARCNN [8]用于具有几个堆叠卷积层的图像恢复随后，[49，51，50]利用更深的卷积架构和残差学习来进一步增强图像恢复性能。近年来，大量新颖的模型和功能单元不断涌现。其中Q是指搜索区域，并且zi表示通过zi=jQ（yi，yi）计算的归一化常数。函数计算查询项yi和关键项yj之间的成对亲和度。G是特征变换函数，生成yj的新表示。虽然上述操作为查询项聚合了足够的信息，但是特征聚合被限制为完全连接的，涉及搜索区域内的所有特征，无论它们与查询项多么相似。2.3.图卷积网络（GCN）通过将卷积神经网络（CNN）从网格数据（诸如图像和视频）扩展到图形结构数据，GCN由于其非局部特征聚合的鲁棒能力而吸引了计算机视觉社区越来越多的关注。在不失一般性的情况下，常用的非局部神经网络[40]可以被视为完全连接的图[12]。最近，[21]利用预定义的邻接矩阵来执行用于面部表情恢复的图卷积。[36，35]将边缘条件卷积（ECC）[32]（一种众所周知的GCN方法）应用于图像去噪任务。[27]进一步将ECC扩展到3D去噪任务。让我们考虑一个包含N个节点的图：=（，），其中是图节点的集合，并且是边的集合。设ViR11表示图节点，并且eij=（Vi，Vi）表示从Vi指向Vi的边。在椭圆曲线密码体制中，存在一个共享的滤波器生成网络：RsRl2×l1.给定边缘标签eijRs，它输出边缘特定嵌入矩阵ΘijR12×11。ECC的聚合过程是由边缘特定嵌入矩阵嵌入的平均运算，其可以形式化为：摆姿势。 MemNet [33]在con.net中使用了密集连接。1v=我ΣF（e1）v+b=Θ v+b，（2）用于图像去噪的卷积层为了扩大重新-感受野，沙漏形结构[14，43，3，44，|Ni| j∈Ni国际新闻报|Ni| j∈Ni国际新闻报17，30]，扩张卷积[50，39]和非常深的残差网络[53，52]经常使用。然而，大多数方法都是普通网络，忽略了使用非局部信息。2.2.图像复原非局部自相似性是一种有效的先验信息，在图像恢复中得到了广泛的应用。一些经典方法[7，4]利用自相似性进行图像去噪，并取得了有吸引力的性能。遵循自相似性的重要性，一些最近的方法[52，20]基于非局部神经网络[40]利用这种先验。此外，提出了一些分片非局部方法[18，19，29]或基于变换器的方法[5，24]这些其中，i=j（vi，vi）是vi的邻近节点的索引集合，并且bR12是可学习的偏置。除了ECC之外，图注意力网络（GAT）[38]也是一种流行的GCN方法，我们提出的DAGL受到了这种方法的启发。与ECC通过边标签生成嵌入矩阵以执行嵌入和平均聚合不同，GAT基于自注意机制为每个边开发了注意权重[37]。以这种方式，每个节点可以选择性地聚合来自其所有连接的邻居的信息。注意力权重的计算被定义为：exp（Lea kyReLU（aT[Wv]i||Wvj]））αij=Σexp（LeakyReLU（aT[Wv||Wv]）），x=1Σ（y，y）G（y），i，（1）j∈Q其中WRl2×l1和aR2l2×1是指共享线性变换的可学习权重矩阵，并且|| represents the concatenating operation.过程中以非本地方式执行匹配和聚合的方法通常可以定义为：k∈Ni（三）4330HΣi=1∈×× ×HQ}BE我2i=1我i=1BHQLQ联系我们2E V ×VV|V|G V E1Σ图1.提出了动态注意图学习模型（DAGL）。特征提取模块（FEM）采用残差块来提取深度特征。基于图的特征聚合模块（GFAM）构造具有动态连接的图并且执行逐块图卷积。多重头GFAM（M-GFAM）联合聚合来自不同表示子空间的信息在聚合中，源节点将通过由可学习注意力权重加权的其所有连接邻居的总和来更新：其中指的是我们提出的DAGL的功能，以及θ是指可学习的参数。vi =αijj∈Ni·Wvj。（四）3.2. 基于图的特征聚合模块如前所述，现有的深度非局部方法与大多数直接处理图形数据的GCN方法不同，将GCN应用于图像恢复社区的主要挑战是如何有效地构造图并对规则网格数据执行图卷积。在本文中，我们提出了一种改进的图atten- tion模型，执行块式图卷积与动态图连接的图像恢复。所提出的方法在各种图像恢复任务上实现了最先进的性能3. 该方法3.1. 框架我们提出的模型（DAGL）的概述如图所示。1、主要由两部分组成：特征提取模块（FEM）和具有多个头的基于图的特征聚合模块（ GFAM ）（ M-GFAM）。与许多图像恢复网络相似，我们添加了一个从输入到最终输出的全局路径，这鼓励网络绕过低频信息。特征提取模块包括几个残差块（RB），并且我们遵循[52]中的策略来从残差块中移除批归一化[16]层。图表-的特征聚合模块是我们的亲的核心ODS和基于图的图像恢复方法为每个查询/节点分配固定数量的邻居。主要区别在于深度非局部方法涉及搜索区域中的所有项以更新一个查询项，而基于图的方法为每个节点选择K在本小节中，我们将介绍我们提出的基于图的特征聚合模块（GFAM），这是一种打破这种模式的动态解决方案我们的GFAM构造基于3D特征补丁的我们提出的GFAM的详细说明如图所示 2，主要由三个阶段组成：初始化、动态图构造和特征聚合。初始化。在我们的GFAM中，我们首先需要初始化一些元素，用于在正则网格数据上构造图=（，），其中是具有=N的节点的集合，并且是边的集合。假设N个重叠fea-真实的块piN，块大小为C WpHp（默认为C7 7），整齐地排列在输入特征图F中，RC×W×H。我们应用两个11卷积层（f边缘和f节点）以将F变换为两个独立的表示，然后利用展开操作。将变换后的特征块提取为两组：G′={p′}N且G′′={p′′}N .中的功能修补提出的DAGL，其基于图注意网络（GAT）实现[38]。关于GFAM的更多细节将在以下小节中给出。我们提出的模型是优化的L2损失函数-G′和G′′具有以下特征表示：p′i=fedge（pi）p′i′ = f节点（pi）.（六）第给定一个训练集{IbB BLQ b=1 ，其中包含B训练对。培训的目标可以定义为：BL（θ）=¨Ib− H（I）¨，（5）b=1G′用于建立图连接（），G′′被指定为图节点。动态图构造。中的图形节点我们的方法直接由G′′中的特征块分配：.，我4331V∈× ××i=1∈1N我Mi，k+ψ2（p′i）=图2.所提出的基于图的特征聚合模块（GFAM）的详细说明子图（a）阐述了展开和折叠操作。子图（b）呈现了动态KNN模块的详细架构，其用于生成节点特定的阈值以过滤掉具有低重要性的图连接。=G′′。在建立图连接时，我们根据最近原则为每个节点选择动态数量的邻居为此，我们设计了一个动态KNN模块，为每个节点生成自适应阈值，以我们通过softmax 函数对所有连接节点的相似性（A1，：中的非零值）进行归一化以计算注意力权重：选择相似度高于阈值的邻居。exp（Aij）（九）具体地，给定特征块G’的集合，我们首先平坦地αij=Σk∈Ni exp（Aik），j ∈ Ni.将每个特征块十为特征向量。成对相似度可以通过点积有效地计算，产生相似度矩阵MRN×N。让我们考虑M的第i行，表示第i个节点与其他节点之间的相似性。Mi的平均值是不同节点对第i个特征聚合。在邻接矩阵A的指导下，特征聚合过程是所有连接的邻居的加权和，其表示为：pi=Σαij·p′j′=Σαij·fnod e（pj）.（十）node. 因此，这是阈值的适当选择j∈Nij∈Ni表示为Ti。如示于图为了提高适应性，我们进一步应用特定于节点的仿射变换来计算Ti：ψ（p′）ΣNγΣk=1N k=1然后，我们从图中提取所有特征块，并利用折叠操作将更新的局部块阵列组合成特征图，这可以被视为展开操作的逆。由于存在重叠在特征块之间，我们使用平均操作来处理重叠区域。这一战略也可...其中ψ1和ψ2是两个独立的卷积层，核大小为C1WPHp以将每个节点嵌入到特定仿射变换参数（β，在最后的输出中按下阻塞效果。一个全球的resid-在GFAM中采用双端连接以进一步提高输出。因此，GFAM的输出表示为：γ）。为了实现可微分阈值截断，我们使用-lize ReLU [25]函数来截断负部分，并且Fout=Fin+Fold（{p{i}N）的情况。（十一）保持积极的一面。该过程形式化为：Ai，：=ReLU（Mi，：-Ti），（8）其中ARN×N是邻接矩阵，其中如果p′j连接到p′i，则A ij被分配相似性权重，否则A ij等于零。接下来，根据等式中的定义3、NTi=Mi，k+β，（7）4332为了稳定图卷积的训练过程，我们将我们的方法扩展为采用多头图是有益的，在图中表示为M-GFAM。1.一、多头设计允许我们的方法联合聚合来自不同位置处的不同表示子空间的信息。具体地，K个独立头执行4333出来||×××查询修补程序相似度矩阵邻接矩阵图形连接查询修补程序相似度矩阵邻接矩阵图谱连接高品质标签的制高质量标签样品图3.图形连接构造的可视化。查询补丁的区域用红框标记。相似矩阵和邻接矩阵以热图的形式呈现。颜色越浅表示相似性/重要性越高。为了说明的目的，我们提出了一些高度相关的邻居（用绿色框标记）。可以看出，我们的方法可以捕获满意的长程相关性在高度退化的图像，和邻接矩阵准确地过滤掉低重要性的相关性。图4.不同位置的邻居数量的可视化结果被归一化并以热图的形式呈现。较浅的颜色指示较大数量的邻居。可以看出，邻居的数量随着图像内容的频率而变化，这表明我们的动态图方法可以根据需求分配相邻节点。基于图的特征聚合。它们的结果被合并在一起并且再次由11卷积层（f合并）投影。让我们将Fk表示为第k个头的输出。M-GFAM的最终输出可以计算为：K命名为MH k损坏，我们的分块图方法仍然可以捕获满意的长程相关性，邻接矩阵准确地过滤掉低重要性的相关性。动态图形连接。图4呈现了在不同位置处的每个查询块的邻居的归一化数量。可以看到，邻居的数量在图像内容的频率上遵循不同的分布，这表明我们的动态图方法可以自适应地选择信息区域来聚合每个查询补丁的最有用的信息。4. 实验为了证明我们提出的模型的优越性，我们将我们的方法应用到四个典型的图像恢复任务：合成图像去噪，真实图像去噪，图像去马赛克，图像压缩伪影减少。对于合成图像去噪，图像去马赛克和图像压缩伪影减少任务，我们在 DIV2K [34] 数据集上训练DAGL，该数据集包含800张高质量图像。对于真实图像去噪，我们应用常用的SIDD [1]数据集作为训练数据，其中包含160张被真实噪声和相应的高质量标签损坏的图像。在每个任务中，我们使用常用的Fout=fmerge（k=1F输出）。用于评估和报告PSNR和SSIM的测试集[41]3.3. 分析与讨论如前所述，我们改进的图模型可以基于特征块构建鲁棒的长程相关性，并且邻居的数量随不同节点而动态变化。在这一小节中，我们使用图1中的可视化结果。第三、四条，说明这些优点。强大的长程相关性。图3、给出了一些查询补丁的图连接的构造。每个查询补丁的位置都用红框标记。出于说明的目的，我们仅呈现具有最高注意力权重的有限数量的邻居（用绿色框标记）可以看出，即使是图像也是高度评估每种方法的性能。我们的模型在Nvidia TeslaV100 GPU上进行训练，初始学习率为lr=110−4，每200个epochs执行减半。在训练过程中，我们采用亚当优化器，每个小批量包含32个图像的大小为64 - 64随机裁剪的训练数据。培训过程可在两天内完成。4.1. 综合图像去噪我们将我们提出的模型与一些最先进的去噪方法进行比较，包括一些众所周知的去噪器，例如。，BM3D [7]，DnCNN [49]和FFDNet [51]，以及最近的竞争性非局部去噪器，如N3Net [29]4334联系我们表1.灰度图像去噪的定量结果（PSNR和SSIM）最佳和次佳结果被突出显示并加下划线。数据集σBM3D [7] DnCNN [49] FFDNet [51] N3Net [29] NLRN [20] GCDN [36] DAGL（Ours）1532.37/0.895232.86/0.903132.75/0.902733.03/0.905633.16/0.907033.14/0.907233.28/0.9100设置122529.96/0.850430.44/0.862230.43/0.863430.55/0.864830.80/0.868930.78/0.868730.93/0.87205026.70/0.767627.19/0.782927.31/0.790327.43/0.794827.64/0.798027.60/0.795727.81/0.80421531.07/0.871731.73/0.890731.63/0.890231.78/0.892731.88/0.893231.83/0.893331.93/0.8953BSD682528.57/0.801329.23/0.827829.19/0.828929.30/0.832129.41/0.833129.35/0.833229.46/0.83665025.62/0.686426.23/0.718926.29/0.734526.39/0.729326.47/0.729826.38/0.738926.51/0.73341532.35/0.922032.68/0.925532.43/0.927333.08/0.933333.45/0.935433.47/0.935833.79/0.9393城市1002529.71/0.877729.97/0.879729.92/0.888730.19/0.892530.94/0.901830.95/0.902031.39/0.90935025.95/0.779126.28/0.787426.52/0.805726.82/0.818427.49/0.827927.41/0.816027.97/0.8423参数↓-0.56 M 0.49 M 0.72 M 0.35 M 5.99 M 5.62 MUrban100：img006HQ（PSNR/SSIM）N3Net（27.40/0.8457）噪音（20.60/0.5748）NLRN（28.46/0.8688）DnCNN（26.38/0.8052）GCDN（28.70/0.8742）FFDNet（27.05/0.8359）DAGL（29.29/0.8960）图5.在噪声水平σ=25的Urban100的一个样本上对各种方法的灰度图像去噪进行视觉比较。”[20]“不”。此外，我们还比较了我们的方法表2.真实图像去噪DND的定量结果使用基于图的去噪器：GCDN [36]。标准测试集：Urban100 [15]、BSD68 [22]和Set12用于评价每种方法。将具有不同噪声水平（15、25、50）的加性高斯白噪声（AWGN）添加到干净图像。不同方法的定量结果（PSNR和SSIM）和参数的数量示于表1中。视觉比较如图所示。五、可以看出，我们的方法在所有噪声水平中具有最佳性能，并且在保持适度数量的参数的同时产生更高的视觉4.2. 真实图像去噪为了进一步证明我们所提出的方法的优点，我们将其应用到更具挑战性的任务的真实数据集[28]。算法参数↓模式sRGBPSNR↑SSIM↑图像去噪与合成图像去噪不同，在这种情况下，图像被具有未知分布和噪声水平的真实噪声破坏。我们将我们的方法与一些竞争性去噪器[7，49，51，42，14]和一些最近的方法[2，43，45，44，17，30]。常用的DND[28]数据集用于评估。请注意，DND的高质量标签不可用。我们从官方网站获得评估结果定量结果示于表2中，并且我们还在图2中提供了不同方法的视觉比较。六、相比之下，我们的算法恢复了实际的纹理和结构，而不影响噪声的去除，我们的方法具有良好的鲁棒性高强度和低强度噪声。即使与性能最好的方法[45，44，17，30]相比，我们提出的DAGL也可以通过有吸引力的模型参数实现更好的性能。4.3. 图像压缩压缩对于这个应用程序，我们比较了我们的DAGL与一些经典的方法（如。，SA-DCT [11]，ARCNN [8]，TNRD [6]）和最近的竞争性深度学习方法（例如，DnCNN [49]，RNAN [52]，DUN [13]）。敬恶魔-为了证明我们的DAGL的优越性，我们应用与DnCNN和DUN相同的设置，即。，使用单个模型来处理所有退化水平。压缩后的图像由Matlab标准JPEG编码器生成，质量良好因子q十二十三十四十我们评估了每种方法在常用Classic5 [11]和LIVE1 [31]测试集。定量结果见表3。可以看出，在PSNR和SSIM的评估下，我们提出的方法在所有测试集和质量因子上都实现了最佳性能，并且具有单个BM 3D [7]-非盲34.510.851CDnCNN [49] 0.67M盲32.430.790CFFDNet [51] 0.85M非盲37.610.914[42] 2016 - 04 - 220.940CBDNet [14] 4.36M盲盘38.060.942RIDNet [2] 1.50M盲板39.230.952VDNet [43] 7.82M盲板39.380.952CycleISP [45] 2.60M盲板39.560.956[44]第44话我的世界0.954AINDNet [17] 13.76M盲39.370.951DeamNet [30] 2.25M盲板39.700.953DAGL（Ours）5.62M盲注39.830.9574335嘈杂CBDNet [14]VDNet [43]CycleISP [45]GDANet [44]AINDNet [17]DeamNet [30]DAGL（我们的）嘈杂CBDNet [14]VDNet [43]CycleISP [45]GDANet [44]AINDNet [17]DeamNet [30]DAGL（我们的）图6.直观的比较了真实图像去噪的各种方法的应用这些噪声图像来自DND [28]数据集。表3.图像压缩伪影减少的定量结果最佳和次佳结果被突出显示并加下划线。数据集qJPEGSA-DCT [11]ARCNN [8]TNRD [6]DnCNN [49]RNAN [52]DUN [13]DAGL（我们的）1027.77/0.790528.86/0.809328.98/0.807629.15/0.811129.19/0.812329.63/0.823929.61/0.823229.70/0.8245现场12030.07/0.868330.81/0.878131.29/0.873331.46/0.876931.59/0.880232.03/0.887731.98/0.886932.12/0.88873031.41/0.900032.08/0.907832.69/0.904332.84/0.905932.98/0.909033.45/0.914933.38/0.914233.54/0.91564032.35/0.917332.99/0.924033.63/0.9198-/-33.96/0.924734.47/0.929934.32/0.928934.53/0.93051027.82/0.780028.88/0.807129.04/0.792929.28/0.799229.40/0.802629.96/0.817829.95/0.817130.08/0.8196经典52030.12/0.854130.92/0.866331.16/0.851731.47/0.857631.63/0.861032.11/0.869332.11/0.868932.35/0.87193031.48/0.884432.14/0.891432.52/0.880632.74/0.883732.91/0.886133.38/0.892433.33/0.891633.59/0.89424032.43/0.901133.00/0.905533.34/0.8953-/-33.77/0.900334.27/0.906134.10/0.904534.41/0.9069参数--0.12M-0.56M8.96M10.5M5.62M表4.图像去马赛克的定量比较测试集噪音级别设置为25。在表5中，我们方法参数麦克马斯特18PSNR/SSIM柯达24 Urban100削减我们提出的DAGL的变体的性能Mosaic-9.17/0.1674 8.56/0.0682 7.48/0.1195 IRCNN0.19M37.47/0.961540.41/0.980736.64/0.9743 RNAN8.96M39.71/0.972543.09/0.990239.75/0.9848DAGL5.62M39.84/0.973543.21/0.991040.20/0.9854模型此外，我们的DAGL的参数数量比性能最好的方法少得多[52，13]。视觉比较如图所示。7，提出了更好的恢复质量，我们建议的DAGL。4.4. 图像去马赛克在这项任务中，我们在McMaster 18 [50]，Kodak 24和Ur-ban 100测试集上将我们的方法与RNAN [52]和IRCNN [50]进行了定量结果示于表4中，并且视觉比较示于图3中。8.可以看出，退化图像在主观和客观评价上都具有非常低的质量IRCNN和RNAN可以恢复低质量的图像与良好的效果，但我们的方法仍然可以作出改进。4.5. 消融研究在本小节中，我们在表5和表6中显示了消融研究，以研究我们提出的DAGL中不同组分的影响在去噪任务上进行了消融研究实验，并在Urban100在表 6 中，我们探索了基于图的特征聚合模块（GFAM）的数量在深度（阶段的数量）和宽度（头部的数量）方面带来的收益。逐块非局部相关。DAGL中的非局部相关性是基于特征块而不是像素来构造的。为了研究这种设计的有效性，我们将我们的方法与常用的非局部神经网络[40]进行了比较。正确地，我们用具有一个头（NL）和多个头（MHNL）的非局部神经网络替换了DAGL中的图模块。结果如表5所示。可以看到我们的逐块非局部方法明显优于常用的逐像素非局部方法[40]。图形注意力机制。在本文中，我们扩展的图形注意力机制的图像恢复任务。为了证明该策略的有效性，我们用直接平均化代替了注意力加权聚合过程，在表5中表示为（w/o GAT）。性能的降低表明了在我们的DAGL中使用的图形注意力机制的积极影响。动态图形连接。不同于现有的非局部图像恢复方法，在我们的DAGL，每个查询补丁的邻居的数量是动态的和自适应的。为了证明这种设计的有效性，我们从GFAM中删除了动态KNN模块4336HQJPEG（q=10）TNRD [6]DnCNN [49]RNAN [52]DUN [13]DAGL（我们的）PSNR/SSIM25.07/0.763226.64/0.805526.75/0.806627.58/0.831427.67/0.832027.82/0.8379HQPSNR/SSIMJPEG（q=10）27.59/0.7747TNRD[6]28.94/0.81112019- 04-2800：00 ：00[52]29.49/0.8305DUN[13]29.50/0.8301DAGL（我们的）29.53/0.8316图7.图像压缩伪影减少的各种方法的应用与JPEG质量q = 10的视觉比较Urban100：img026HQPSNR/SSIM马赛克5.98/0.0395伊朗有线电视新闻网[50]33.53/0.9235[52]2019年01月归档DAGL36.35/0.9536图8.图像去马赛克的视觉比较在[50]之后，通过Matlab使用Bayer马赛克生成损坏的图像导致对于每个查询补丁具有固定数目的邻居的完全连接的非局部注意操作。该变体在表5中表示为（w/oTHD）。通过使用动态KNN模块，有0.11dB的增益，证明了在我们的图模型中动态的必要性。表6.在Urban100（σ=25）测试集上对不同数量的基于图的特征聚集模块（GFAM）的模型进行了评价。案例索引头级数Params峰值信噪比10-01.23M 30.43峰值信噪比（PSNR）30.73 30.92 31.28 30.77 31.39块号。在这一部分中，我们探索了基于图的特征聚合模块（GFAM）的数量在深度（阶段数量）和宽度（头部数量）方面带来的收益结果示于表6中。请注意，案例1是通过从DAGL中删除所有GFAM来构建的，从而得到一个简单的ResNet。实验结果表明，GFAM算法能够显著提高图像恢复性能，且性能随着头数和级数的增加而提高。通过在性能和计算复杂度之间进行权衡，我们在我们提出的DAGL中采用了四个头和三个阶段5. 结论在本文中，我们提出了一种改进的图注意力模型的图像恢复。与以前的非本地图像恢复方法不同，我们的模型可以为每个查询项分配自适应数量的邻居，并基于特征补丁构建长程相关性。此外，我们提出的动态注意图学习可以很容易地扩展到其他计算机视觉任务。大量的实验表明，我们提出的模型在广泛的图像恢复任务上实现了最先进的性能：合成图像去噪、真实图像去噪、图像去马赛克和压缩伪像减少。21-32.79M31.2132-33.77M31.29表5.关于DAGL变体在Urban10043-34.74M31.33测试集（σ=25）。 NL和MHNL代表替换我们的M-5（DAGL）4-35.62M31.39基于非局部神经网络和多头非局部的65-36.71M31.41神经网络，分别。（不带THD）和（不带GAT）参考74-47.22M31.42去除动态KNN模块和去除图形注意力84-24.12M31.28机制，分别。94-12.51M31.054337引用[1] Abdelrahman Abdelhamed，Stephen Lin，and Michael SBrown.智能手机摄像头的高质量去噪数据集。在IEEE计算机视觉和模式识别会议论文集，2018年。5[2] 赛义德·安瓦尔和尼克·巴恩斯。具有特征注意力的真实图像去噪。在 IEEE国际计算机视觉会议论文集，2019。6[3] Tim Brooks ， Ben Mildenhall ， Tianfan Xue ， JiawenChen，Dillon Sharlet，and Jonathan T Barron.不处理图像以进行学习的原始去噪。在IEEE计算机视觉和模式识别会议论文集，2019年。2[4] Antoni Buades，Bartomeu Coll，and J-M Morel.一种非局部图像去噪算法。IEEE计算机视觉与模式识别会议论文集，2005年。一、二[5] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。在IEEE计算机视觉和模式识别会议上，2021年。一、二[6] Yunjin Chen和Thomas Pock。可训练的非线性反应扩散：一个灵活的框架，快速有效的图像恢复。IEEETransactionsonPatternAnalysisandMachineIntelligence，39（6）：1256-1272，2016. 六七八[7] Kostadin Dabov、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。稀疏三维变换域协同滤波图像去噪IEEE Transactions on Image Processing ， 16 （ 8 ）：2080-2095，2007. 一、二、五、六[8] Chao Dong ， Yubin Deng ， Chen Change Loy ， andXiaoou Tang.通过深度卷积网络减少压缩伪影。IEEEInternational Conference on Computer Vision，2015。二六七[9] Weisheng Dong，Xin Li，Lei Zhang，and GuangmingShi.基于字典学习和结构聚类的图像去噪。IEEE计算机视觉与模式识别会议论文集，2011年。1[10] Michael Elad和Michal Aharon通过学习字典上的稀疏和冗余表示进行图像去噪。IEEE Transactions on ImageProcessing，15（12）：3736- 3745，2006. 1[11] Alessandro Foi ， VladimirKatkovnik ， and KarenEgiazarian.逐点形状自适应DCT，用于灰度和彩色图像的高质量去噪和去块。 IEEE Transactions on ImageProcessing，16（5）：1395六、七[12] 傅学阳、齐麒、查正军、丁兴浩、凤舞、约翰·佩斯利。用于图像去雨的连续图卷积网络。国际计算机视觉杂志，129（5）：1691-1711，2021。2[13] Xueyang Fu，Menglu Wang，Xiangyong Cao，XinghaoDing，and Zheng-Jun Zha.模型驱动的深度展开方法去除jpeg 伪影 IEEE Transactions on Neural Net-works andLearning Systems，2021。六七八[14] 史国，严子飞，张凯，左王梦，张磊。真实图像拓扑图在IEEE计算机视觉和模式识别会议论文集，2019年。二六七[15] Jia-Bin Huang，Abhishek Singh，and Narendra Ahuja.单图像超分辨率从变换的自我范例。IEEE计算机视觉与模式识别会议论文集，2015年。6[16] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。2015年国际机器学习会议论文集3[17] Yoonsik Kim ， Jae Woong Soh ， Gu Yong Park ， andNam Ik Cho. 通过自适应实例归一化将学习从合成噪声降噪转移到真实噪声在IEEE计算机视觉和模式识别会议集，2020年。二六七[18] Stamatios Lefkimmiatis.基于卷积神经网络的非局部彩色图像去噪。在IEEE计算机视觉和模式识别会议集，2017年。一、二[19] Stamatios Lefkimmiatis.通用去噪网络：一种用于图像去噪的新型CNN架构。在IEEE计算机视觉和模式识别会议上，2018年。一、二[20] Ding Liu ， Bihan Wen ， Yuchen Fan ， Chen ChangeLoy，and Thomas S Huang.用于图像复原的非局部递归网络。在神经信息处理系统，2018年。一、二、六[21] Zhilei Liu，Le Li，Yunpeng Wu，and Cuicui Zhang.基于改进图卷

下载后可阅读完整内容，剩余1页未读，立即下载