没有合适的资源?快使用搜索试试~ 我知道了~
5572人类感知运动去模糊沈子怡1、2名,王文冠1、2名,陆宪凯1、沈建兵1、2名,凌海滨3、徐廷发2、邵凌11阿联酋Inception人工智能研究所2中国北京理工大学3美国石溪大学https://github.com/joanshen0508/HA_deblur摘要本文提出了一种人类感知的去模糊模型,解开前景(FG)的人和背景(BG)之间的运动模糊所提出的模型是基于一个三分支的编码器-解码器架构。前两个分支分别用于锐化FG人物和BG细节;而第三种方法通过综合融合来自两个域的多尺度去模糊信息来产生全局的、和谐的结果。所提出的模型进一步赋予了一个监督,人类意识到的注意力机制,在端到端的方式。它学习编码FG人类信息的软掩码,并显式地驱动FG/BG解码器分支专注于其特定域。为了进一步促进人类感知图像去模糊的研究,我们引入了一个名为HIDE的大规模数据集,该数据集由8,422个模糊和清晰图像对组成,其中包含65,784个密集注释的FG人类边界框。HIDE是专门建立跨越广泛的场景,人类对象的大小,运动模式,和背景复杂- ities。在公共基准测试和我们的数据集上进行的大量实验表明,我们的模型对最先进的运动去模糊方法表现良好,特别是在捕捉语义细节方面。1. 介绍图像去模糊,即从单个退化图像恢复具有重要细节的清晰潜像长期以来一直是计算机视觉中的活跃研究领域。随着手持设备(诸如手机和机载相机)的使用越来越多,运动模糊已经成为要面对的在这项工作中,我们专注于动态场景去模糊问题,并提出了一个人类感知的去模糊模型,明确区分之间的模糊FG人和BG。基本上,由于相机和物体之间的相对运动,FG和BG通常会经历不同类型的图像退化[29,27]。*前两位作者对本书的贡献相当†通讯作者:沈建兵。(a) 图像模糊(b)Sunet al.[38个](c)Nah等人[27](d)Kupyn等人。[21日](e)Tao等人[40](f)我们的图1:一个具有挑战性的模糊图像经历了由相机运动和人体运动引起的异质模糊。此外,根据成像机制,由于对象和图像平面之间的特定距离,每个独立对象也经历变化的运动模糊。在各种各样的物体中,人是我们日常生活中最常见、最基本的。人类经常会遇到不可预测的扰动,这为深入研究动态去模糊问题提供了一个有代表性的例子。此外,在行人检测等任务中,恢复场景中的人具有广阔的应用前景.此外,随着现场表演和手持设备的流行程度的急剧增加,已经创建了大量以人为中心的照片和短视频(因为在这些10人设置中的人类吸引了观众的注意力[3])。一个专门设计的和人类感知的去模糊方法将是非常有益的处理和编辑人类关注的视觉数据。大多数现有的非均匀去模糊模型[27]试图同时对FG和BG进行去模糊。然而,由于忽略了多个运动模式,这导致较差的性能和潜在的伪影只有5573一些开创性的启发式方法[29,17]估计对象运动模糊内核。然而,它们不强调人类聚焦去模糊的重要性和特殊性,而是仅依赖于预先计算的FG掩模(例如,图①的人。虽然他们的有前途的结果确实解决了单独处理FG/BG模糊的价值,但上一代去模糊模型将FG/BG信息放在一边,有利于使用神经网络直接学习均匀的模糊核我们认为,这种激进选择的主要原因是缺乏(1)以端到端的方式将FG/BG信息整合到神经网络中的有效方法,以及(2)具有FB/BG注释的大规模,精心设计的去模糊数据集。为了解决第一个问题,我们提出了一种新颖的人类感知注意力引导的去模糊网络,该网络学习并利用FG人类和BG掩码以完全可区分和端到端可训练的方式显式地捕获异构FG/BG模糊更具体地说,我们的模型是建立在一个完全卷积的编码器-解码器方案。它配备了一个可区分的和监督的注意机制,这是专门设计用于学习软人类面具,可以训练端到端。基于这种注意力网络设计,我们进一步扩展了我们的模型与多头解码器结构包含三个分支。前两个解码器分支分别用于对FG人体和BG模糊进行显式建模,后一个解码器分支用于收集和融合FG和BG多尺度去模糊信息,并产生整个场景的最终和谐去模糊结果在这里,人类感知的注意力作为一种门机制,过滤掉不相关的编码器特征,并允许FG/BG解码器分支专注于其特定的域。该方法综合融合了不同领域的去模糊特征,能够重建出结构清晰、细节语义清晰的图像这样的设计导致了统一的、人类感知的和专注的去模糊网络。通过明确地和单独地对人类相关的和BG模糊建模,我们的方法可以更好地捕获人类的不同运动模式和丰富的语义,从而为FG人类和BG两者带来更好为了解决第二个问题,我们引入了一个大规模的数据集,HIDE,这是专门为人类感知的图像去模糊。该数据集包含8,422对真实模糊图像和相应的地面真实锐利图像,这些图像是使用高速相机获得的。每对图像进一步与密集和专业注释的FG人体边界框组合。此外,这些图像对是有意收集的,以涵盖广泛的日常场景,各种FG人体运动,大小和复杂的BG。上述组件表示完整的图像去模糊数据集,预计将推进该领域。总之,我们的贡献有四个方面:• 提出了一种人类感知的注意去模糊网络,通过明确地解开FG人和BG的模糊来探索运动去模糊的任务• 第一次集成了一个可区分的监督注意机制,使网络能够专门集中在FG人和BG区域。• 本文提出了一种新的多磁头解码器结构,用于对FG/BG运动模糊进行显式建模,并对不同域的信息进行快速融合,以实现全局和和谐的去模糊。• 一个大规模的数据集,HIDE,是精心构建的人类感知的图像去模糊,涵盖了广泛的场景,运动等,带有密集注释的FG人体边界框。2. 相关工作本节首先回顾了表1中所示的先前代表性图像去模糊数据集,随后是最近图像去模糊模型的调查和可区分神经注意力的简要概述。图像去模糊数据集:图像去模糊技术近年来取得了显著的进展。推动这一进展的关键因素之一是大规模数据集的可用性。一些早期的作品[19,38]直接将清晰的图像与一组预定义的运动内核进行卷积,以合成模糊的图像。例如,BM4CS数据集[19]包含48个模糊图像,这些模糊图像是通过以分块方式将四个自然图像与十二个6D轨迹(代表真实相机运动)进行卷积而生成的。类似地,Sunet al. [38]建立了一个更大的数据集,其中有1,000张来自PASCAL VOC 2010数据集的图像[6]。虽然被广泛使用,这种逐块生成的数据集产生离散近似的真实模糊图像与像素的异构模糊。后来,龚等人。[9]使用了200张清晰的图像和10,000个像素级的运动图来开发一个新的数据集,通过将每个像素与相应的运动矢量相关联。最近,为了构建更真实的模糊图像数据集,一些研究人员[27,28]已经通过对高帧率摄像机捕获的多个连续帧进行平均来生成动态模糊图像。更具体地说,GoPro数据集[27]包含2,103对720 p质量的模糊和清晰图像,这些图像是用Go-Pro 相 机 从 240 fps 视 频 中 拍 摄 的 。 在 构 建 MSCNN(WILD)数据集时采用了类似的策略[28]。尽管极大地促进了该领域的进步这严重限制了对运动模糊的潜在机制的更全面理解的研究进展。这项工作提出了一个新的数据集,5574数据集Pub.年图像数量决议合成运动描述内容Pub.艾娃前面是的BM4CS [19] ECCV 20124×12800×800卷积摄像机运动:6D轨迹自然图像CVOC采样[38] CVPR 20151,000∼500×300卷积摄像机运动:旋转&平移静态对象场景&CBSD采样[9] CVPR 2016 200×10k 300×460卷积摄像机运动:旋转&平移静态对象场景&CGoPro [27] CVPR 20173,2141280×720一体化动态场景室外场景C[28]第28届中国国际音乐节GCPR 2017-1280×720一体化动态场景室外场景隐藏(我们的)-20198,4221280×720一体化人体运动动态场景&户外行人CC表1:现有流行的非均匀去模糊数据集和我们提出的HIDE数据集的总结(见§2)。HIDE,其被精心构造用于人类感知的去模糊,并且期望激发对由对象运动引起的非均匀运动模糊的进一步探索盲像去模糊:对于均匀模糊问题,传统方法通常采用自然图像先验来估计潜像[8,20,34,26,52,5,39,51,33]。 此外,与其简单地假设整体图像与均匀模糊核相关联,一些方法估计全局模糊核描述符[45,10],或预测一组模糊核[13,11]。然而,他们是有限的,假设模糊的来源是相机运动。对于具有对象运动混合的更一般的动态场景,一些其他方法[16,36,29,30]估计逐块模糊核,假设具有相应均匀模糊的不同位置它们通过依赖于预生成的片段[29,16]或估计运动流来分别去模糊背景和对象区域,以促进无分割框架中的模糊核预测[17]。最近,随着神经网络的复兴,一些研究人员[38,9]已经转向使用深度学习来预测逐块模糊内核。这种方法取决于最终重建的中间体。许多基于CNN的方法也已经以端到端的方式应用于图像处理和生成问题,例如分割[24,42],超分辨率[53,22,14,15,44],去噪[25,49,59,47,48],去雾以及去抑制[32,55]、增强[31,56]等。本着类似的精神,已经设计了更先进的基于深度学习的去模糊模型[35,54,27,21,58,40],例如,粗到细框架[27],递归神经网络[40,58]和对抗学习[21]。这些基于CNN的模型的有希望的结果很好地证明了在这个问题中探索神经网络的好处。然而,一般来说,它们不考虑不同的FG人体运动模式或BG,也不解决人类感知的去模糊。一些启发式研究[16,36,29]已经解决了FG信息的使用。这些方法对大范围场景或散焦模糊图像都是有效的。然而,变音机制在很大程度上依赖于分割的方法,并未能学习到一个强大的解决方案,在真实的动态场景中的多运动叠加。此外,它们的显著特征工程、高计算成本、复杂流水线以及对分割预处理的依赖性限制了性能和性能。这些方法的适用性。在这项工作中,除了贡献人类感知的运动去模糊数据集外,我们还通过将可训练的注意力机制集成到完全卷积的编码器-解码器架构中来探索FG/BG信息通过将编码器与基于软注意力的FG和BG掩模相关联,开发了多头解码器,以实现显式FG和BG模糊建模,并同时提高性能。神经网络中的可区分注意力:近年来,可微分神经注意力的研究引起了人们极大的兴趣. 它们模仿人类的认知注意力该机制选择性地聚焦于场景中最具视觉信息的部分。它们首先在神经机器翻译中进行了探索[2],后来被证明在各种自然语言处理和计算机视觉任务中有效,例如图像字幕[50],问答[57],场景识别[4,41],时尚分析[43]等。在上述研究中,注意机制是以目标驱动的、端到端的方式学习的,允许网络集中在输入中最与任务相关的部分。我们提出了一个基本的注意机制,称为人类意识的注意,明确编码FG人类信息通过学习一个软的人类面具。它驱动我们的FG/BG解码器专注于其特定的域,并抑制不相关的信息。我们的注意力模块不是像上面提到的方法那样隐式地学习注意力,而是以监督的方式从人类注释中学习。此外,注意力机制使我们的模型完全可区分,使其能够进行端到端的训练。据我们所知,这是第一次利用注意力机制来进行图像去模糊。3. 拟定的HIDE数据集动态模糊是由成像设备和场景之间的相对运动引起的,主要包括相机抖动和物体运动。大多数代表性数据集[23,39]是基于简化的摄像机驱动假设构建的,即摄像机干扰主导模糊的原因[45]。为了模拟更真实的情况,GoPro数据集[27]进一步建议显示具有额外活动动作的动态场景然而,它主要关注的是大范围的场景,忽略了重要的FG移动对象,特别是在特写镜头。为了完全捕捉被动设备干扰和主动动作造成的动态模糊,我们的HIDE数据集是5575图2:来自HIDE数据集的示例图像,带有人类边界框注释,人类遮罩和属性(参见§3)。模糊的图像对,用65,784个人类边界框进行了广泛的注释。这些图像是从31个高fps视频中精心挑选出来的,覆盖了逼真的户外场景,其中包含了各种数量、姿势和不同距离的人类(见图11)。2)的情况。表2:申报HIDE数据集的统计数据(见§3)。精心收集以覆盖宽范围和近范围场景,并解决人类感知的运动去模糊。数据收集:在非均匀模糊生成之后,在[37,46]中提出的方法,我们在240fps的GoPro Hero相机。然后将这些高fps视频的帧更具体地说,由于我们的数据集是针对多模糊注意力问题设计的,因此我们专注于在特写视图中收集为了保证数据集的多样性,我们选择了具有不同数量人类的各种真实世界场景。然后,通过平均来自视频的11个连续帧来合成模糊图像以模拟退化过程,并且保持中心帧作为清晰图像。我们通过考虑两个方面来清理初始集合首先,考虑到硬件限制,过快的移动等同于跳过帧,从而导致模糊图像中的条纹伪影。第二,并非所有的图像都在特写镜头中包含明确的结构或人,特别是如果存在大量平坦区域或纯场景。因此,我们去除了具有这些缺点的候选者,最终总共达到8,422个清晰和模糊的图像对。图2显示了来自我们数据集的一些样本图像。数据注释:与传统的逐像素任务(例如,对于我们的运动去模糊数据集,FG人类通常会受到运动位移的影响,因此无法用精确的注释来注释。为了更深入地描述该数据集,我们在表2中呈现了基于人类数量的详细属性。“分散”子集由4,202个场景组成,其中包含少量FG人类。类似地,拥挤的集合包含4,220个具有大的人类集群的图像。我们随后将图像分为两类,包括长镜头(HIDE I)和常规行人(特写镜头,HIDE II),如表2所示。评估每个组可以捕获多运动模糊问题的不同方面对于HIDE II数据集,由于FG人类经历了更显著的运动,因此它更加强调FG动作引起的挑战。数据集拆分:出于评估目的,图像被分成单独的训练集和测试集(源视频中没有重叠)。在随机选择之后,我们得到了一个包含6,397个训练图像和2,025个测试图像的唯一分割。4. 该算法4.1. 注意运动去模糊模型基于Vanilla编码器-解码器的去模糊模型:我们的人类感知运动去模糊模型建立在卷积编码器-解码器网络架构上(参见图1B)。3(a)),其包含两个部分,编码器E和解码器D。编码器和解码器分别由卷积层和转置卷积层的堆栈组成,卷积层和转置卷积层分别与非线性逐点非线性(例如,S形)。编码器的目标是从输入的模糊图像B∈RW×H ×3中提取新的表示H∈RW× h × c,解码器使用该表示来预测对应的清晰图像S∈RW×H×3:H =E(B;WE),边界 因此,我们在我们的使用边界框的数据集为了提高注释效率,S=D(H;WD),(一)为了提高效率,我们首先将最先进的人体检测模型[7]应用于我们数据集中的每个清晰图像,这可以为大多数人体对象提供大致准确的人体边界框。然后,我们手动改进劣质结果并为未检测到的人类添加注释。为了适当地应用多运动混合模型,我们还去除了远处场景中BG人的边界框,以强调FG中的特写人物。数据集统计:我们的HIDE数据集有8,422个sharp和其中WE和WD分别是编码器和解码器的可学习卷积核的堆栈。为方便起见,省略了非线性激活层和偏置项.为了将FG人类信息显式编码到我们的模型中,我们进一步将监督的人类感知注意力机制引入编码器-解码器架构中(见图11)。第3(b)段)。在深入研究我们的模型的细节之前,我们首先阐述了建议的注意力模块。隐藏数量散射人拥挤物体的深度长镜头特写(HIDE I)(HIDE二)数据集拆分火车测试图像数量4,2024,2201,3047,1186,3972,0255576FG(D)FGBGPriBGl ll图3:(a)基于经典编码器-解码器的去模糊网络。(b)我们提出的运动去模糊模型,它配备了一个人类感知的注意力模块和一个多头解码器。详情见第4.1节。特征HBG∈Rw×h ×c:HBG = [(1−A)<$H1,(1−A)<$H2,. . .,(1−A)-Hc].( 六)通过这种方式,FG人和BG信息被编码到注意力增强特征HFG和HBG中,而整体图像信息被存储在H中。多头解码器:利用原始图像特征H和增强特征HFG和HBG,提出了一种多头解码器。如图3(b),它由三个分支:主要分支、FG分支和BG分支。每个分支将对应的编码器特征作为输入,并且在对应的区域上执行去模糊:人类感知注意力模型:在这里,我们首先提供一个可微分神经注意力的一般公式。让公司简介 =DFG (HFG),x∈Rk×C是输入张量,z∈Rk×c是从x得到的特征,a∈[0,1]k是软注意力向量,g∈Rk×c是注意力增强特征,A:Rk×C→Rk是atten-SBG=DBG(HBG),S= D Pr i(H)。(七)学习将x映射到重要向量y∈Rk。 神经注意力被实现为:a=σ( y)=σ(A( x)),(二)g=[a ∈ z1,a ∈ z2,. . . ,a [zc],其中,σ表示将重要性值映射到[0,1]的激活函数,zi∈Rk表示z的第i个通道中的特征,并且为了简洁起见,省略了相应的可学习权重。Ted.三个解码器分支具有类似的网络体系结构(但没有权重共享)。此多头解码器模块的关键作用是经由个别FG/BG解码器分支来保留域特定特征。为了进一步鼓励FG解码器DFG和BG解码器DBG聚焦于其对应区域,其去模糊损失函数被设计为:最流行的策略是应用softmax操作L在y上,以隐式方式学习(2)。DFG=GS−SFG2,L-2(八)在我们的方法中,当我们专注于图像重建时,我们将上述的内隐注意扩展到一个空间域。与(2)类 似 , 我 们 的 人 类 感 知 注 意 力 网 络 A : RW×H×3→Rw×h学会将输入的模糊图像B∈RW×H ×3映射到重要性映射Y=A(B)∈Rw×h。可以计算注意力映射A∈[0,1]w×hA=σ ( Y ) = sigmoid ( A ( B ) ) 。(3)由于我们有人类的注释,它为注意力提供了基础事实,我们放松了和对一的控制。softmax的约束,而不是使用sigmoid激活函数-作用,即,仅约束范围从0到1的注意力响应值:Ai,j= 1/(1 + exp(−Yi,j))。然后,我们添加来自人类注释的监督,注意图A,即,我们通过最小化以下逐像素的损失来显式地训练注意力网络A2LA= ΣG−Δ Σ2,(4)其中G∈{0,1}w× h是二进制FG人体掩模(见图1中的小图像)。2)的情况。这样,注意力A以完全可区分和监督的方式对FG人类信息进行编码,这可以被视为软FG掩码。注意力增强型编码器-特性:然后, 获得DBG=(1 − G)S− SBG2。以DFG为例。通过将平方误差λ·λ乘以二进制FG人体掩模G,BG区域中的误差不能传播回来。这使DFG能够 使 用 更 具 体 的 知 识 来 处 理 FG 模 糊 类 似 地 ,(1−G)的使用使DBG能够更专注于背景区域的去模糊DFG和DBG捕获域特定的去模糊信息,而主解码器DPri考虑全局信息。为了以集成方式利用来自不同解码器的不同去模糊信息,我们的想法是使用来自DFG和DBG分支的特定知识来支持DPri。 而不是简单地融合他们的德-模糊输出(即,例如,SFG、SBG和S)以一种简单的方式-这可能会很容易产生伪影和劣质的重新,结果,我们采用了深度知识融合策略,即,将DFG和DBG的多个中间特征注入DPri。更具体地,每个解码器具有总共L个转置卷积块。让我们将DFG(DBG)的第l个块的特征表示为DlL )∈Rw× h× c,其中l∈ {0,., L},D Pri的对应的第l层特征,可以递归地定义为:FG人类感知注意力增强特征Dl=Dl . Dl−1,Dl−1,Dl−1(九)Rw×h ×c,我们有:Pri初级FGBG初级 ,H FG = [AH1,AH2,. . .,A.(五)类似地,我们可以通过(1−A)∈25577其中,D0=HFG,D0=HBG,D0=H,并且·表示级联。对于DPri的最后第L层,我们有:w×h中国(10)[0,1] ,并进一步获得BG感知的注意力增强的S= D优先级55782图4:所提出的人类感知注意力去模糊网络(单尺度)概述。由于主解码器DPri全面嵌入域特定以及全局去模糊信息,因此其损失函数在整个图像域上设计:LDPri=S−SPri2。(十一)4.2. 详细的网络架构图4示出了所提出的模型的总体架构。补充资料中提供了有关网络架构的更多详细信息人类感知注意力模块:我们的人类感知注意力模块被创建为一个小网络(见图中的灰色块)。4). 首先,有三个卷积层,与×2max pooling和ReLU交织,它们被堆叠以实现有效的图像表示。然后,三个转置卷积层(每个具有×2的膨胀率和ReLU)被进一步适配以增强图像表示和空间分辨率。最后,使用(3)添加具有S形非线性的1×1卷积层,以产生与输入图像B大小相同的FG人体预测图A。编码器:编码器模块E由9个残差单元[12](图1中的黄色块)4). 一个5×5卷积层(图中的蓝色块(4)嵌入在每三个剩余层用于降维然后,我们获得特征H并使用注意力图A(采用必要的下采样操作)来分别使用(5)和(6)获得增强特征HFG和HBG。多头解码器:有了H,HFG和HBG,我们就可以-另外,采用了一种多头解码器,它有三个解码器分支D、DFG和DBG,以在其相应区域中重建输入模糊图像(参见图10中的红色块)。4).简言之,每个分支具有与编码器网络对称的结构,即,包括九个与降维卷积层交织的转置层。此外,编码器和每个解码器模块之间的快捷连接是嵌入式的以补偿泛化误差。在将增强的特征融合到主分支(参见(10))之前,我们首先使用1×1卷积层作为特征压缩层。然后,我们使用(9)连接增强的特征以补偿最终的去模糊任务。多尺度结构:采用经典的由粗到精的策略,即上述单尺度模型在三个尺度上聚合。这里,权重在尺度之间共享以减少可训练参数的数量。多尺度网络通过将退化的输入与先前的结果整合而经历连续机制。我们提取每个尺度的特征来丰富空间信息,然后扩展上尺度的表示重用以前的集合。对于第一尺度,重复输入模糊图像以保证前馈公式。我们使用步长为2的卷积层和4×4转置卷积层分别执行下采样和上采样操作。4.3. 实现细节培训设置:我们使用HIDE和GoPro数据集的训练集。总共有10,742张大小为1280×720的训练图像。GoPro数据集仅用于训练BG解码器,因为它包含很少的行人。我们为每张图像裁剪一个256×256的补丁,每次迭代使用10的批量大小。此外,由于BG在训练图像中占据很大比例,因此随机裁剪将导致BG和FG解码器的训练数据的不平衡为了缓解这个问题,每个小批次中的BG和行人补丁的分数被设置为和谐的。我们使用Adam [18]优化器,初始学习率为1e-4。注意力网络首先用70,000次迭代进行预训练以收敛。然后,整个去模糊网络被训练超过500个epoch。重现性:我们的模型是使用张量流[1]实现的.所有实验都是在Titan X GPU上完成的。5579方法GoPro [27]PSNR SSIM隐藏PSNRSSIMPSNRSSIM我们30.260.94029.600.94128.120.919无注意29.300.92928.400.92727.580.912FG分支29.590.93128.590.92827.550.909BG分公司29.780.93428.890.93127.680.911单尺度29.850.93428.470.93027.810.916表3:我们提出的人类感知去模糊模型的消融研究,使用PSNR和SSIM在GoPro [27]和HIDE数据集上进行评估。详见第5.1节。我们发布的源代码是为了提供培训/测试流程的全部细节,并确保可重复性。5. 实验在本节中,我们首先进行消融研究,以评估模型中每个基本组件的影响(§5.1)。然后,我们在GoPro[27](§5.2)和HIDE(§5.3)数据集上提供了几种最先进的去模糊方法评估指标:在定量评价方面,采用了峰值信噪比(PSNR)和结构相似性指数(SSIM)两个标准指标。比较方法:当我们专注于运动去模糊时,我们在实验中包括四个最先进的动态运动去模糊模型[38,40,27,21]。为了公平起见,这些模型也使用我们的HIDE和GoPro数据集的训练图像进行了重新训练。5.1. 消融研究人类感知注意力模块:我们首先评估人类感知注意力模块的影响。我们得到一个基线w/o注意力通过重新训练我们的模型没有注意力模块。如表3所示,基线w/o注意力明显表现较差。从图5中,我们还观察到,w/o注意力不能恢复准确的简档(参见(d)),而我们的完整模型获得更好的结果(参见(e))。这表明注意力模块使去模糊网络能够重建具有更多面部特征和精确形状的图像。多头解码器:接下来,为了评估我们的多头解码器的效果,我们提出了一个视觉比较之间的去模糊结果从不同的分支,见图6。如图如图6(b)和(c)所示,FG去模糊分支和BG分支可以处理它们各自区域中的模糊。 我们进一步将它们与图1中的最终混合结果进行比较。第6(d)段。我们发现,通过继承FG和BG分支的复杂功能,主分支可以成功地恢复完整图片中的内容。多尺度框架:如§ 4.2所述,所提出的人类感知去模糊模型以多尺度方式工作。为了调查这样一个设计的影响,我们构建了一个单尺度的基线,并提出了结果图5:用于去模糊的注意力模块演示。(a)图像模糊。(b)注意面具。(c)模糊的细节。(d)去模糊w/o注意。(e)注意力模糊。参见§5.1。图6:我们的多头结构的效果。 (a)图像模糊(b)FG解码器分支的去模糊结果(c)BG解码器分支的去模糊(d)混合去模糊结果。参见§5.1。方法GoPro [27]PSNR SSIM隐藏隐藏IPSNR SSIMHIDE IIPSNR SSIMSun等人[38个]24.640.84323.210.79722.260.796Nah等人[27日]28.490.90827.430.90226.180.878Tao等人[第四十届]30.260.93428.600.92827.350.907Kupyn等人[21日]26.930.88426.440.89025.370.867我们30.260.94029.600.94128.120.919表4:使用PSNR和SSIM对GoPro [27]和HIDE数据集进行的总体定量评价。参见§5.2和§5.3。表3所由于所提出的多尺度模型具有更好的收敛性,因此可以提取关于潜像的忠实重构特征,并且同时应用前馈机制来引导网络产生更好的恢复结果。我们在补充材料中提供了更多的视觉对比。5.2. GoPro数据集上的性能我们首先在GoPro数据集上评估所提出的模型[27],该数据集包含1,111张用于测试的模糊图像。表4显示了PSNR和SSIM方面的定量评估,其中我们的方法显示了有希望的结果。此外,我们在图中提供了定性比较。7.第一次会议。为了验证所提出的主动去模糊框架的有效性,我们首先提供了一个考试-5580(a) 图像模糊(b)Nahet al.[27](c)Kupynet al. [21](d)Taoet al. [40](e)我们的图7:GoPro [27]数据集上的视觉比较(见§5.2)。(a)图像模糊(b)Nahet al.[27](c)Kupynet al. [21](d)Taoet al. [40](e)我们的图8:我们的HIDE数据集上的视觉比较(见5.3节)。由具有独立运动的运动的人组成的模糊图像的一部分。我们的人类感知机制能够感知特定的运动,并帮助重建一个有希望的结果与准确的面部轮廓。此外,如图2第二行所示.7、由于采用了多头重建模块,引入了两个分支的增强策略,该方法可以改善全帧的去模糊效果,并在缩放场景中表现良好。总的来说,该方法应用了一个可扩展的神经注意机制的动态去模糊问题,并实现了国家的最先进的性能。5.3. 建议的HIDE数据集上的性能我们注意到,所提出的方法主要集中在移动的人去模糊问题,与多个模糊所造成的相机运动和/或人体运动。我们进一步评估我们的方法上的HIDE测试集。在图8中,我们示出了与特定的人类运动相关的视觉比较。由于复杂的运动因素导致的退化,FG人体经历了严重的模糊,因此可能无法准确地恢复,例如,具有精确的面部特征和明确的轮廓。相比之下,所提出的人类感知的注意去模糊方法利用多分支模型来解开FG人类和BG。通过将增强特征与主分支融合,网络可以更好地恢复具有多个模糊的图像。我们还在表4中提供了相关的定性比较。GoPro和HIDE I数据集主要由长镜头图像组成,因此仅涉及微弱的独立人体运动。相比之下,HIDE II专注于FG人类,并为移动人类去模糊问题提供了更全面的说明,我们的算法明显优于以前的最先进技术。更多的去模糊结果可在柔软的材料。6. 结论本文研究了人觉运动去模糊问题我们首先创建了一个新的大规模数据集,致力于这个问题,这是在我们的研究中使用,并期望促进相关主题的未来研究以及。此外,为了处理由摄像机运动和人体运动引起的多运动模糊,我们提出了一种人类感知的卷积神经网络用于动态场景去模糊。我们将多分支去模糊模型与监督注意机制相结合,有选择地增强前景人和背景。通过融合不同领域的信息,我们恢复的模糊图像具有更多的语义细节。实验结果表明,该方法的性能优于国家的最先进的去模糊算法。5581引用[1] Mart´ın Abadi, Paul Barham , Jianmin Chen , ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat,Geoffrey Irving,Michael Isard,etal. Tensorflow:一个大规模机器学习系统。在OSDI,2016。6[2] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年,国际会议。3[3] ZoyaBylinskii , Adria`Recasens , Ali Borji , AudeOliva,AntonioTorralba和Fr e´ doDurand。saliency的模特们下一步该往哪里在ECCV,2016年。1[4] Chunshui Cao,Xianming Liu,Yi Yang,Yinan Yu,Jiang Wang , Zilei Wang , Yongzhen Huang , LiangWang,Chang Huang,Wei Xu,et al.仔细看,三思而后行:用反馈卷积神经网络捕获自上而下的视觉注意力。在ICCV,2015年。3[5] 赵 成 贤 和 李 承 京 。 快 速 运 动 去 模 糊 。 ACM TOG(Proceedings of SIGGRAPH Asia),28(5):145:13[6] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉对象类(voc)的挑战。IJCV,88(2):303-338,2010. 2[7] 方浩树,谢淑琴,戴玉荣,陆策武。区域多人姿态估计。InICCV,2017. 4[8] 放大图片作者:Robert Fergus,Barun Singh,AaronHertzmann,Sam T. Roweis和William T.弗里曼。从单张照片中消除相机抖动。ACM TOG(Proceedings of SIG-GRAPH),第787-794页,2006年。3[9] Dong Gong,Jie Yang,Lingqiao Liu,Yanning Zhang,Ian D Reid,Chunhua Shen,Anton Van Den Hengel,and Qinfeng Shi.从运动模糊到运动流:一种用于消除异构运动模糊的深度学习解决方案。在CVPR,2017年。二、三[10] 安基特·古普塔,尼尔·乔希,C·劳伦斯·齐特尼克,迈克尔·科恩和布莱恩·库利斯。利用运动密度函数的单幅图像去模糊。ECCV,2010年。3[11] Ste f anHarmeling , HirschMichael , andBernhardSchoülk opf.用于消除相机抖动的空变单图像盲解卷积。在NIPS,2010年。3[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。6[13] MichaelHirsch , ChristianJSchleman , StefanHarmeling,and Bernhard Scholkopf.快速消除不均匀的相机抖动。见ICCV,2011年。3[14] Jiwon Kim,Jung Kwon Lee,and Kyoung Mu Lee.使用非常 深的 卷积 网络 实现 精确的 图像 超分 辨率 。在CVPR,2016年。3[15] Jiwon Kim,Jung Kwon Lee,and Kyoung Mu Lee.用于图像超分辨率的深度递归卷积网络。在CVPR,2016年。3[16] Tae Hyun Kim,Byeongjoo Ahn和Kyoung Mu Lee。动态场景去模糊。InICCV,2013. 3[17] Tae Hyun Kim和Kyoung Mu Lee。免分割动态场景去模糊。CVPR,2014。二、三5582[18] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[19] 罗尔夫·科勒,迈克尔·赫希,贝蒂·莫勒,伯恩哈德·肖尔·科普夫和斯特·弗·安·哈梅林。相机抖动的记录和回放:用真实世界的数据库对盲反卷积进行基准测试。ECCV,2012年。二、三[20] Dilip Krishnan、Terence Tay和Rob Fergus。使用归一化稀疏性度量的盲去卷积。CVPR,2011。3[21] OrestKupyn 、 VolodymyrBudzan 、 MykolaMykhailych 、 Dmytro Mishkin 和 Jiˇr´ı Matas 。Deblurgan:使用条件对抗网络进行盲运动去模糊在CVPR,2018年。一、三、七、八[22] 赖伟胜,黄家斌,纳伦德拉·阿胡贾,杨明轩。使用深度拉普拉斯金字塔网络实现快速准确的图像超分辨率。CVPR,2017年。3[23] Wei-Sheng Lai,Jia-Bin Huang,Zhe Hu,NarendraAhuja,Ming-Hsuan Yang.单幅图像盲去模糊的比较研究。在CVPR,第1701-1709页,2016年。3[24] Xiankai Lu , Wenguan Wang , Chao Ma , JianbingShen,Ling Shao,and Fatih Porikli.查看更多,了解更多:基于共同注意连体网络的无监督视频对象分割。在CVPR中,第3623-3632页,2019年。3[25] 毛晓娇,沈春华,杨玉斌。使用具有对称跳跃连接的非常深的卷积编码器-解码器网络的图像恢复。在NIPS,2016年。3[26] Tomer Michaeli和Michal Irani使用内部补片递归盲去模糊。2014年,在ECCV。3[27] Seungjun Nah,Tae Hyun Kim,and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。在CVPR,2017年。一、二、三、七、八[28] Mehdi Noroozi , Paramanand Chandramouli , andPaolo Favaro.运动去模糊在野外。在GCPR,2017年。二、三[29] 潘金山,胡哲,苏志勋,李新英,杨铭轩。软分割引导的对象运动去模糊。在CVPR,2016年。一、二、三[30] 任东伟,左旺猛,张大卫,徐军,张磊。具有不准
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功