全局上下文细化的感知多样性运动去模糊方法

28 浏览量更新于2023-10-14 收藏 4.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4116Tao等人Kupyn等人Zhang等人Gao等人Ours基于全局上下文细化的感知多样性运动去模糊冀春李为民谭博艳*复旦大学计算机学院，上海市智能信息处理重点实验室，上海lijc19@fudan.edu.cnwmtan14@fudan.edu.cnbyan@fudan.edu.cnwww.example.com摘要320.950深度学习算法在动态场景去模糊方面取得了重大进展。然而，仍有几个挑战尚未解决：1）模糊图像的不同区域中的模糊程度和尺度可以在大范围内具有相当大的变化。然而，设计了传统的输入金字塔或缩小-放大313029281003005007009000.9450.9400.9350.93010三五七九具有有限的和不灵活的感知多样性运行时间（毫秒）（720p）型号尺寸（M）处理大的模糊尺度变化。2)非局部块在图像增强中被证明是有效的，但它需要较高的计算和存储成本。在本文中，我们是第一个提出了一个轻量级的全球分析模块到图像去模糊领域，命名为轻全球上下文细化（LGCR）模块。与指数较低的成本，它实现了更好的性能比非本地单元。此外，我们还提出了感知多样性块（PVB）和PVB堆叠策略。整个方法通过反复放置PVB，具有丰富的接收场频谱，可以感知不同程度、不同尺度的模糊。从不同的基准测试和评估标准的综合实验结果表明，我们的方法取得了优异的性能，设置一个新的国家的最先进的运动去模糊。一个1. 介绍从动态场景中的模糊输入中恢复潜在的清晰图像一直是一个重要的课题计算机视觉和图像处理。用于单个图像去模糊的深度学习方法，特别是卷积神经网络（CNN），已经取得了显著的成功[9，24，1，5，31，6，21]。Nah等人提出了一种方法[20]，以粗到细的方式在3个尺度上用输入金字塔恢复模糊图像陶et1 本工作得到国家自然科学基金（批准号： U2001209 、61902076、61772137）和上海市自然科学基金（21ZR1406600）。* 通讯作者：薄衍。图1：不同方法的准确性和成本比较。我们的方法比其他最先进的方法更好。等人深入研究了从粗到精的策略，并提出了一个尺度递归网络[25]。通过采用convLSTM[30]，多尺度和权重共享，SRN以较少的参数实现了高PSNR。最近，最先进的方法[16，4，34，17，22，33，35]进一步揭示了CNN在去模糊任务中的潜力。去模糊的最大挑战之一来自模糊模式的程度和规模变化很大的事实。传统上，网络内部的多尺度输入金字塔和下采样-上采样层是释放复杂模糊模式带来的困难的常见策略[20，16]。最近的方法集中在其他手工制作的策略，以处理大范围的模糊尺度变化。[25]以从粗到细的方式利用具有权重共享的递归网络。[34]提出了利用多尺度信息的多补丁方法。[22]甚至提出了一个多时间的想法，从难到易逐步模糊图像。不幸的是，他们采用的多尺度、多补丁和多时间策略仅在有限的时间内增加了他们的模型在他们设计的方法中只考虑了两个尺度或五个时间间隔换句话说，最后的接待Tao等人Kupyn等人Zhang等人Gao等人Ours峰值信噪比（dB）SSIM4117输入结果图例说明：香草ResBlockPVB模块可变形重新块LGCR模块正向Vanilla Conv层跳过Concat下采样上采样图2：SimpleNet的架构由于它在PVB和LGCR的帮助下掌握了去模糊的本质，因此它以自动编码器的方式设计，易于实现和遵循。vanilla ResBlock[8]有三个卷积层。“下采样”是卷积层，步幅=2;“上采样”是去卷积层，步幅=2。在信息流中获得的字段仅被增加有限的次数。然而，模糊的程度在相对宽的范围内具有相当大的变化。因此，这些离散的和手工制作的策略不能令人满意地使CNN具有足够的能力来感知其规模广泛分布的复杂模糊模式。此外，非局部化的神经操作，成本较低，是在良好的需求去模糊任务。CNN设计基于局部滤波操作，其一次处理一个局部邻域。是不利...接收场流中{0}{3}[2019 - 03 -29]【2019 - 12 - 1900：00：00】【2019 - 05- 25 01：01：00】...接收场流中{0}{3}【2019 - 09 - 1900：00：00】【2019 - 03 - 2500：00：00】（17）（19）（119，21，23，25}对于需要较宽参考范围甚至全图像自参考的任务，如图像分割、姿态香草ResBlockPVB模块估计和严重的运动模糊恢复。在[28]中提出的nonlocal是一个优秀的，经典的，但昂贵的解决方案的标题长程依赖。最近，Chen等人受张量正则-多元分解理论的启发，提出了一个语义分割中的张量生成模块和张量重构模块，称为“TGM+TRM”（T+T）[2]。它在解决高难度问题的同时计算全局信息。然而，T+T结构在高层语义推理方面表现出色，但在细节恢复方面表现较差，而细节恢复是去模糊任务中必不可少的。此外，它的非线性的1秩张量是不够的，它的全球范围内没有很好地学习和利用。在本文中，我们的工作上述不足之处，并提出了我们的去模糊方法，SimpleNet。我们提出了一个新的轻量级非本地化模块，命名为轻全球上下文精化（LGCR）。这是第一次，这样一个轻量级的非本地化模块提出的去模糊任务，以丰富的全球细节，而不是逐像素推理，具有更好的性能和成本比非本地模块低得多。此外，我们还提出了感知多样性块（PVB）和PVB-堆积图3：PVB极大地扩展了网络可以感知的PVB的架构如图5所示。“Vanilla ResBlock”是普通的三层。支撑统计量表示接收场谱。接收场频谱越大，网络的感知多样性和感知能力越强。战略PVB提供了丰富的自适应多尺度接收能力，具有较宽的接收频谱。与传统的“多”方法不同最后，我们用最先进的方法，在Go-Pro，RealBlur-J和RWBI基准测试中测试了我们的方法。综合实验表明，我们的方法达到了最好的性能，设置一个新的国家的最先进的。我们将我们的网络4118残差连接GAP_CConv1DPReLU...全局上下文优化权重GAP_C输入信号标量权重Sigmoid间隙_WConv1DPReLU×个ΣSoftmax振幅调整...原始残差输入信号间隙_W标量权重乙状×个...ΣSigmoidConv1DGAP_HPReLU......Conv3D，无激活标量权重乙状...输出信号GAP_H输出信号图4：LGCR模块的详细架构（第栏#1），与TGM+TRM（T+T）模块（第1栏）相比#2）。虽然这两个模块都采用了高阶到低阶的分解理论[15]，但它们的主要目的和详细设计完全不同。实验结果表明，LGCR算法在去模糊任务中的效果远优于T+T算法。总之，我们的贡献如下：• 我们是第一个提出一种新的轻量级非本地化模块的图像去模糊，命名为轻全球上下文细化（LGCR）。它优于形式非局部和T+T方法，在一个细节增强的方式，而不是像素明智的推理。• 我们提出了感知多样性块（PVB）和PVB堆叠策略。PVB提供了丰富的自适应多尺度接收能力。PVB-piling策略可以极大地丰富网络的接收频谱和感知能力的多样性• 我们提出了一个强大而有效的去模糊网络，名为SimpleNet。它具有简单的编解码器结构，易于实现和遵循。• 全面的实验进行，不仅在流行的GoPro基准，但也对新提出的RealBlur-J，RWBI基准，全面的评估指标。2. 相关工作2.1. 动态场景正如我们在第1节中所讨论的，动态场景中的运动模糊是由场景和相机之间的快速相对运动引入的，在快门曝光的短时间内。它不是由具有特定模糊内核的清晰静态图像生成的。因此，动态场景中的模糊图案是盲的且不均匀的。最近，基于CNN的算法在这项任务中取得了Gao等人[4]提出了一种具有新的参数选择共享策略和高阶嵌套跳跃连接的更复杂网络。Zhang等人[34]提出多补丁方法以获得精细到用于去模糊的粗略分层表示。Kupyn等人[17]提出了由具有全局和局部鉴别器的骨干FPN生成器组成的模型。方法[33，22]开始利用潜在的时间信息来恢复模糊图像，因为GoPro数据集在某些方面可以被视为视频剪辑。当处理具有高变化的模糊图案时，这些方法使用手工制作的和离散的多尺度、多补丁和多时间机制。这些机制是固定的、不灵活的，它们只在有限的时间内增加了模型的接收多样性和感知能力。由于模糊的程度和规模可能具有相当大的变化，因此需要一些有效的模块或策略来为CNN方法配备丰富的接收多样性或感知多样性。2.2. 评估用于动态场景去模糊的度量动态场景去模糊任务是图像增强的一种特殊情况因此，理论上，图像增强中的每种评价度量都可以在运动去模糊领域中采用峰值信噪比（PSNR）和结构相似性（SSIM）[29]是最常用的。后者与HVS的一致性好于前者。最近，学习感知图像块相似性（LPIPS）[37]已在许多作品中被采用为全参考度量[26，13，12，10，18]。它计算输入图像之间的逐像素感知相似性。它由建议的BAPPS数据集训练。实验证明，该方法比传统的全参考相似性度量方法有更好的性能。对于在野外获得的模糊图像，手头上没有像素对齐的清晰地面实况。只能使用无参考度量。 Li等人。[19]提出了一种基于CNN的非参考去模糊质量评估4119ΣΣΣ（Σ（∈∈×个∈ ∈∈联系我们联系我们×个× ×××个法据我们所知，它是第一个也是唯一一个专门为去模糊任务设计的基于CNN的IQA在没有潜在的清晰图像的情况下，它提供了符合人类视觉系统（HVS）的质量评估分数。在我们的工作中，我们将使用上述指标全面评估我们的方法3. 我们的方法（GCRW∈RC×H ×W）由下式计算：RGCRWraw=vcivhivwi，（2）i=1GCRW=softmax（GCRW原始）expGCRW原料=Cc=1Hh=1Ww=1、（exp（GCRWraw（c，h，w））SimpleNet的网络架构如图所示。二、LGCR模块基于长距离依赖关系丰富了特征细节，有助于去模糊，具有更好的性能和更低的成本。所提出的PVBs和PVB-piling策略使网络具有感知多样性以克服模糊变化。通过上述可变形ResBlock和跳过连接，SimpleNet以简单的自动编码器结构实现了最佳性能。3.1. 轻型全局上下文细化（LGCR）对于动态场景去模糊，当模糊图案严重或大规模时，长距离依赖性是至关重要的。[28]的非局部模是一种可能的解决方案，但它需要相当大的计算和存储开销。受[2，15]工作的启发，我们第一个在去模糊领域提出了一个轻量级的长程依赖关系丰富模块，命名为Light Global Context Refinement module（LGCR），如图4所示。请注意，LGCR是为细节丰富而设计的，而T+T是为语义像素推理而设计的。根据张量分解理论，张量可以表示为其低秩主成分的线性组合形式上，给定输入张量IRC× H × W和CP张量重构秩r，基于轴的池化向量vcRC×1×1，vhR1× H ×1，vwR1×1× W通过I的全局平均池化（GAP）获得，沿着通道轴、高度轴和宽度轴。然后，通过Conv-PReLU序列生成上下文片段：vci = PReLU(Conv1D(vc,W ci)),vci ∈ RC×1×1,vhi = PReLU(Conv1D(vh,W hi)),vhi ∈ R1×H×1,vwi = PReLU(Conv1D(vw,Wwi)),vwiR1×1×W .（一）其中i表示秩-1张量索引，0我r;Conv1D表示1D卷积算子; Wm i，m c，h，w表示相对于每个轴的学习权重，其中核大小为13;PReLU表示[7]中提出的激活函数。然后CP rank-r重构（三）接下来，Rr=Conv3D（I，WG），Rr∈RC×H ×W，（4）其中Conv3D表示3D卷积算子，WG是大小为3 3的核。 3 .第三章。最后，LGCR的输出是：Out=Rr⊙GCRW+I，Out∈RC×H ×W，（5）我们的方法和TGM+TRM（T+T）模块之间的详细比较如图4所示。它们的主要目的和详细设计是完全不同的。1)LGCR旨在丰富特征细节，提供细化的全局信息作为残差以“丰富”（添加细节）输入。同时，T+T被设计用于执行像素语义推理。它推导出全局幅度调整权重以乘以输入，调整正语义像素，并抑制负语义像素。2）在详细设计中，首先，LGCR利用“原始残差”补偿了GAP的信息损失，而T+T忽略了GAP的信息损失;其次，在激活函数之前，LGCR使用Conv 1D计算上下文片段，内核大小为1 - 3，而T+T使用3 r标量的简单乘法。LGCR上下文片段的非线性因此比T+T上下文片段的非线性更好，这对于重构的高秩张量的表示能力是必要的。实验还表明，我们的LGCR优于非本地模块，而T+T的性能下降。相关结果和讨论见第4.4节。3.2. 感知多样性块（PVB）去模糊的最大挑战之一是模糊模式的程度和尺度变化很大。然而，传统的多尺度机构都是固定的、非柔性的。因此，它们仅在有限的时间内增强了模型我们提出了PVB模块和相应的PVB堆叠策略，如图所示。2和5。PVB提供了丰富的自适应多尺度接收能力。PVB-堆叠策略是简单地将PVB应用于每个规模的4120Conv2D，扩张=1Conv2D，扩张=2Conv2D，扩张=3图例说明：可变形曲线∈联系我们10输入信号输出信号卷积层可变形褶积层图5：PVB模块从具有不同膨胀的3个尺度的接收场提取信息的真实示例。 “Info RF: n” indicates theinformation from the reception field sized 不同伸缩率的卷积层保证了PVB接收范围的多样性。可变形的conv为PVB提供了自适应接收范围，作为灵活的接收补充。SimpleNet，它可以显着丰富网络的接收规模和感知能力的多样性形式上，给定输入张量IRC×H ×W，PVB从具有不同接收尺度的3个conv层和1个可变形conv层提取综合特征。卷积层[32]的膨胀率为1、2、3。配方为：Featc=Concat （ ReLU （ Con v2D （ I ，Wd1 ））+ReLU（Conv2D（I ，Wd2 ））+ReLU（Conv2D（I，Wd3））+DeformConv（I，Wdf1）），（六）其中，Concat是沿着通道轴的特征级联，Wdi，i，1，2，3表示具有3个非零参数的权重，其中，扩张率为i。然后将综合特征通过另一个可变形卷积层进行融合，得到融合后的残差功能：Featfused=DeformConv （ Featc ，Wf），（7）最后，输出为：Out=I+F eatfused，（8）3个具有不同固定大小接收场的转换层确保了PVB可变形conv为PVB提供自适应（可学习）接收范围作为灵活的接收补充。因此，PVB的感知范围，从小到大，从固定到柔性，是相当足够的。因此，凭借其感知的多样性，PVB可以感知并适应具有大分布尺度的各种模糊模式。打桩PVB几次可以显著地拓宽网络的接收尺度和感知能力的多样性3.3. 可变形ResBlock（DR）如上所述，模糊图案的程度有相当大的变化。在许多情况下，用于恢复某个图案的有用像素不规则地位于稍微失真的空间分布中。幸运的是，可变形卷积[3，27，38]具有灵活的滤波器空间采样点，网络可以自己学习我们提出了可变形ResBlock（DR）。给定输入I∈RC×H ×W，DR的计算公式为Conv2D（ReLU（DeformConv（I，Wdf2）），Wl）+I，（九）它捕捉了不规则分布的模糊模式的形状，并丰富了我们的网络意识到的感知尺度。因此，我们在SimpleNet的解码器中的每个PVB之后放置一个DR3.4. SimpleNet我们的SimpleNet的架构是基于一个简单的自动编码器。如图2所示，它由六个Res块、六个PVB、三个DR和一个LGCR组成这些块都是基于剩余方法的，并且它们在SimpleNet中被精心设计和部署。它很容易实现和遵循，没有铃铛和哨子。3.5. 优化与实现我们选择的损失函数为L1损失，采用ADAM优化器[14]训练SimpleNet，β1=0.9，β2=0.999。批量大小为8。学习速率为1 e- 4，每630 k次迭代指数衰减，其中cay rate√10，共2, 200 k次迭代。 CP张量我们的LGCR中的分解秩r是64，遵循[2]。我们的SimpleNet 在Ubuntu 16.04桌面上的Pytorch[23]中实现。训练集是GoPro基准测试中提出的训练集。4. 实验4.1. 平台和基准我们所有的实验都是在Ubuntu 16.04台式机上进行的，配有Intel i7- 7700 k，32 GB RAM，GTX-1080Ti。所有的 PSNR 和 SSIM 结果都是通过运行 MATLABR2019b中的内置函数获得的我们采用的基准如下：GoPro最流行的数据集由3214对组成，其中2103对用于训练，1111对用于测试。地面实况图像是由GoPro高速摄像机获得的。帧速率为240，而模糊输入图像是通过相邻7到13帧的平均值获得的。信息RF：n信息RF：n+2、n+4、n+6信息RF：n+4、n+6、n+8信息RF：n、n+4、n+6、n+84121表1：与GoPro上现有算法的性能比较[20]。 SimpleNet实现了最佳性能。方法Tao等人[25日]Kupyn等人[17个]Zhang等人[34个]Gao等人[4]美国Yuan等人[33个]Park等人[22日]Zhang等人[35]第三十五届我们SimpleNet峰值信噪比（dB）30.2629.5531.2030.9229.8131.1530.4331.52SSIM0.93420.93440.94530.94210.93680.94540.93720.9495表2：所有当前竞争去模糊算法的综合分析。红色是指其物品的最佳性能，而蓝色是第二位。竞争很激烈。LPIPS和Deflur-IQA的介绍见第2.2节。GoPro[20]RealBlur-J[11]一个新提出的基准测试，有3758个训练对和980个测试对。图像对是通过分束器和具有不同曝光的两个相机以及后处理过程来获得的。RWBI[36]一个名为“真实世界模糊图像数据集”的全新基准。有3112个模糊图像是在现实世界中使用几种类型的设备拍摄的，没有清晰的地面实况。4.2. 基准的定量评价首先，我们在GoPro基准测试中评估SimpleNet，使用所有当前最先进的方法。从Tab。1，我们发现我们的方法达到了最佳性能。为了进一步全面揭示算法的优缺点，我们选取了目前最具竞争力、最具代表性、最实用的去模糊算法进行实验。图2和图6。所有涉及的方法都是由相关作者用GoPro的训练集训练的宣布SimpleNet是三个指标中的赢家是可靠和有说服力的。在图6中，SimpleNet在具有挑战性的情况下具有最佳性能，例如近距离物体的大模糊尺度（行#1）、快速运动的严重模糊（行#2）或结构化模式（其余行）。这表明LCGR很好地学习了长程依赖性，而PVB堆叠带来了感知变化以应对广泛的模糊模式。在RealBlur-J中，我们将这些方法直接用于运行测试集，以评估其去模糊精度和可移植性。我们可以观察到，这些方法即便如此，我们的方法仍然优于其他方法。在真实世界的数据集RWBI中，SimpleNet也取得了很好的效果。由于RWBI没有地面实况，因此很难评估算法，除了VI。表3：消融研究。所有提出的模块都有助于最终的SimpleNet。消融模块被传统的3层Resblock替代结果是PSNR（dB）和SSIM。PVBLGCR博士[20]第二十话基线1！！31.24 dB，0.9455基线2！！31.19 dB，0.9459基线3！！31.04 dB，0.9443我们！！！31.52 dB，0.9495表4：每个模块的时间消耗，720p输入，平均1000次运行。Convs/DeconvsResBlocksLGCRPVBDrs时间（ms）36.5546.5857.75137.0198.10比例9.72%百分之十二点三九百分之十五点三六36.44%百分之二十六点零九结果如图6所示。感谢[19]，我们使用deflur-IQA模型来测试无参考质量分数，如表8中的第八列所示2. 判别器训练法[17]优于SimpleNet，因为GAN机制可以通过引入细节来大大提高感知质量，但有时会出现不必要的伪影。我们的模型有一个相当小的模型尺寸，具有良好的执行效率。综合而言，SimpleNet是现有技术中最具竞争力的去模糊方法。4.3. 消融研究我们在SimpleNet中测试了每个模块的贡献和消耗，结果在Tab中。三四消融模块被传统的3层Resblock替代。我们提出的PVB，LGCR，甚至DR模块都对最终的RealBlur-J[11]RWBI[36]模型大小时间（ms）PSNR↑SSIM↑LPIPS[37]↓PSNR↑SSIM↑LPIPS[37]↓去模糊-IQA[19]↑Tao等人[25日]30.260.93420.1270626.580.86300.16042-8.458133.6M358Kupyn等人[17个]29.550.93440.1172826.680.86220.14295-7.735015.0M129Zhang等人[34个]31.200.94530.1280025.840.84590.17838-9.043329.0M588Gao等人[4]美国30.920.94210.1222026.350.85520.19132-8.178549.8M10334122SimpleNet 性能做出了不可忽视的贡献。 PVB 对SimpleNet最有帮助，4123Tao等人[25日]Gao等人[4]美国Zhang等人[34个]Kupyn等人[17个]我们GT（RWBI输入）31.79 dB/0.964632.12 dB/0.964731.78 dB/0.964330.04 dB/0.955532.83 dB/0.9685PSNR/SSIM↑27.40 dB/0.8514 27.05 dB/0.8545 27.69 dB/0.8402 27.30 dB/0.843829.50 dB/0.8858PSNR/SSIM↑25.61 dB/0.694225.76 dB/0.706625.38 dB/0.6580 25.50 dB/0.683027.32 dB/0.7443PSNR/SSIM↑22.78 dB/0.856022.75 dB/0.8397 22.47 dB/0.831922.52 dB/0.845424.13 dB/0.8827 PSNR/SSIM↑-6.859548-7.963613-7.701237-6.477898-5.829353去模糊-IQA评分↑-4.939282-5.775024-6.173844-5.980968-4.358769去模糊-IQA评分↑图6：目视结果。前3行来自GoPro，接下来的两行来自RealBlur-J，最后两行是真实世界的结果（来自RWBI）。在通过近距离对象（行#1）、快速移动对象（行#2）或结构化图案（行#3、4、5、6）的大模糊尺度的情况下，SimpleNet显示其强度。放大查看细节。更多结果在补充材料中给出如表3、4行所示。3. 此外，当在[25]中的每个标度中转移时，它也带来性能增益，如表的最后一行所示。5.然而，PVB的粘合和熔合需要时间。LGCR还有效地带来了性能增益，如在Baseline3和Ours的统计中所观察到的DR花费一些时间来扭曲采样的特征图。视觉结果见图1B。8. 由于空间有限，更多消融结果在补充文件中。4.4. LGCR有效性为了进一步证明LGCR模块的有效性和效率，实验在表1中示出。五、六。在选项卡中。5，可见LGCR比其他两种方法带来更大的性能改善。我们还发现：1）T+T4124×个模糊图像DR偏移幅度LGCR中的注意#1 LGCR锐化中的注意#2图7：DR的偏移幅度的可视化，以及来自LGCR中的GCRW的2个通道的空间注意力模糊基线2Bs2 +非本地Bs2+TGM+TRM基线3我们的GT20.58分贝29.42分贝28.74分贝27.73分贝30.05分贝30.53分贝PSNR图8：消融研究的可视化更多结果见补充材料。表5：LGCR和PVB的有效性。LGCR是有效的，它带来了更多的性能改善比非本地和T+T，其中T+T降低了性能。其他算法也可以受益于LGCR和PVB。方法非本地化模块[20]第二十话基线2W/O31.19 dB，0.9459基线2 +非本地非本地31.39 dB，0.9478基线2 +T+TT+T30.83 dB，0.9158我们LGCR31.52 dB，0.9495Tao等人[25日]W/O30.26 dB，0.9342[25]+ LGCRLGCR30.38 dB，0.9362[25]+ PVBW/O30.41 dB，0.9368表6：非本地化模块的简单内存成本和运行时间分析。输入面片大小180 180的3个通道，内存和时间成本进行了评估。结果是1000次运行的平均值。非本地化模块存储器成本运行时间（ms）非本地8018M68.16TGM+TRM30M0.302LGCR34M0.466严重地降低了性能，这主要是因为它是用于像素推理的，该像素推理调高/抑制输入，而不是使其丰富。其由GAP丢失的细节也不被补偿。这也是因为T+T在上下文片段中具有较少的非线性所带来的较少的表示能力。综上所述，这样的设计给锐。2)Tab中的第六条记录。5是通过insertion的LGCR到编码器的结束在陶等人。’s证明了LGCR的有效性和可移植性。然而，LGCR并没有提供比我们的主干更大的性能提升，因为Tao等人。’s选项卡. 6显示了这些非本地化模块的时间和内存成本。LGCR比nonlocal具有更好的性能，并且内存和时间消耗更少。4.5. SimpleNet的可视化为了说明SimpleNet的正确性和学习能力，我们在图7中示出了DR的偏移幅度以及来自LGCR中的GCRW的2个通道的空间注意力。DR倾向于学习移动轮廓，而LCGR倾向于潜在地关注模糊图案的全局分布。5. 结论面对去模糊任务中各种模糊尺度的挑战，我们在去模糊领域首次提出了一个轻量级的全局分析模块LGCR。与非局部单元和T+T单元相比，它具有更好的性能，且成本低。此外，我们提出了PVB和PVB-piling策略，丰富了网络的接收尺度和感知能力的多样性，这有助于恢复具有广泛模糊尺度的图像。在流行的和新的基准上进行的综合实验证明了我们的SimpleNet的卓越性。4125引用[1] 艾扬·查克拉巴蒂盲运动去模糊的神经方法。欧洲计算机视觉会议，第221施普林格，2016年。[2] Wanli Chen，Xinge Zhu，Ruoqi Sun，Junjun He，RuiyuLi，Xiaoyong Shen，and Bei Yu.用于语义分割的张量低秩在欧洲计算机视觉会议（ECCV）上。Springer，2020年。[3] 戴季风、齐浩之、宇文雄、李逸、魏一晨。可变形卷积网络。2017年IEEE国际计算机视觉会议（ICCV），2017年。[4] Hongyun Gao，Xin Tao，Xiaoyong Shen，and Jiaya Jia.基于参数选择共享和嵌套跳跃连接的动态场景去模糊在IEEE计算机视觉和模式识别会议论文集，第3848[5] Dong Gong，Jie Yang，Lingqiao Liu，Yanning Zhang，Ian Reid，Chunhua Shen，Anton Van Den Hengel，andQinfeng Shi.从运动模糊到运动流：用于去除异质运动模糊的深度学习解决方案。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，第2319-2328页[6] Dong Gong，Jie Yang，Lingqiao Liu，Yanning Zhang，Ian Reid，Chunhua Shen，Anton Van Den Hengel，andQinfeng Shi.从运动模糊到运动流：用于去除异质运动模糊的深度学习解决方案。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，第2319-2328页[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and SunJian. 深入研究整流器：超越人类对imagenet分类的水平。2015年国际计算机视觉会议论文[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[9] MichalHradisˇ，JanKotera，PavelZemcık，andFilipSˇroubek. 用于直接文本去模糊的卷积神经网络。在Proceedings of BMVC，第10卷，第2页，2015中。[10] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-189页[11] 周哲元成贤赵在成林海韵李用于学习和基准去模糊算法的真实世界模糊数据集。欧洲计算机视觉会议（ECCV）论文集，2020年。[12] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第4401-4410页[13] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进了扫描仪的图像质量。在IEEE/CVF计算机视觉和模式识别会议论文集，第8110-8119页[14] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。国际会议上学习-ING代表，12 2014年。[15] Tamara G Kolda和Brett W Bader。张量分解及其应用。SIAM review，51（3）：455[16] OrestKupyn、VolodymyrBudzan、MykolaMykhailych 、 DmytroMishkin 和 Jiˇr´ıMatas 。Deblurgan：使用条件对抗网络进行盲运动去模糊。在IEEE计算机视觉和模式识别会议的论文集，第8183-8192页[17] Orest Kupyn ， Tetiana Martyniuk ， Junru Wu ， andZhangyang Wang.Deblurgan-v2：去模糊（数量级）更快更好。在IEEE计算机视觉国际会议论文集，第8878-8887页[18] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第35-51页，2018年[19] Jichun Li，Bo Yan，Qing Lin，Ang Li，and Chenxi Ma.具有质量评估指导的运动模糊去除。IEEE Transactionson Multimedia，2021。[20] Seungjun Nah，Tae Hyun Kim，and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。在IEEE计算机视觉和模式识别会议论文集，第3883-3891页[21] Thekke Madam Nimisha，Akash Kumar Singh，and Am-basamudram N Rajagopalan.用于盲去模糊的模糊不变深度学习。在 Proceedings of the IEEE InternationalConference on Computer Vision，pages 4752[22] Dongwon Park ， Dong Un Kang ， Jisoo Kim ， and SeYoung Chun. 用于渐进式非均匀单图像去模糊的多时间递归神经网络在欧洲计算机视觉会议（ECCV）上发表。Springer，2020年。[23] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al. Pytorch：命令式的高性能深度学习库。神经信息处理系统的进展，第8026-8037页，2019年[24] Jian Sun，Wenfei Cao，Zongben Xu，and Jean Ponce. 学习用于非均匀运动模糊去除的卷积神经网络。2015年[25] 陶新，高红云，沈晓勇，王珏，贾继亚.用于深度图像去模糊的尺度递归网络。在IEEE计算机视觉和模式识别会议论文集，第8174-8182页[26] Jianyi Wang，Xin Deng，Mai Xu，Congyong Chen，andYuhang Song.用于压缩视频感知质量增强的基于多级小波的生成式对抗网络。欧洲计算机视觉会议（ECCV），2020年。[27] Xintao Wang，Kelvin CK Chan，Ke Yu，Chao Dong，and Chen Change Loy. Edvr：视频恢复与增强4126可变形卷积网络在IEEE计算机视觉和模式识别研讨会会议集，第0-0页[28] 王晓龙，Ross Girshick，Abhinav Gupta，和Kaiming He.非局部神经网络。在IEEE计算机视觉和模式识别会议集，第7794-7803页[29] Zhou Wang，Alan C Bovik，Hamid R Sheikh，and EeroP Si-moncelli.图像质量评估：从错误可见性到结构相似性。IEEE图像处理学报，13（4）：600[30] SHI Xianjian ， Zhourong Chen ， Hao Wang ， Dit-YanYeung，Wai-Kin Wong，and Wang-chun Woo.卷积lstm网络：降水临近预报的机器学习方法。神经信息处理系统的进展，第802-810页，2015年[31] Xiangyu Xu ， Jinshan Pan ， Yu-Jin Zhang ， and Ming-Hsuan Yang. 通过深度学习进行运动模糊核估计IEEETransactions on Image Processing，27（1）：194[32] Fisher Yu和Vladlen Koltun。通过扩张卷积的多尺度上下文聚合。arXiv预印本arXiv：1511.07122，2015。[33] 圆圆、苏伟、马丹丹。利用光流引导训练的空间变反卷积网络实现了有效的动态场景去模糊。在IEEE/CVF计算机视觉和模式识别会议论文集，第3555-3564页[34] 张洪光，戴玉超，李洪东，和彼得·科纽兹.用于图像去

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

全局上下文细化的感知多样性运动去模糊方法

最新资源