没有合适的资源?快使用搜索试试~ 我知道了~
非连续模糊帧引入的视频去模糊方法
4531将事件引入具有非连续模糊帧的视频去模糊Wei Shang1,Dongwei Ren1 *,Dongqing Zou2,5,Jimmy S.任2、5、罗平3、王梦左1、41哈尔滨工业2商汤科技3香港大学4深圳鹏程实验室5上海交通大学清源研究院摘要最近,视频去模糊引起了相当大的研究关注,并且一些工作表明,高时间速率的事件可以有益于去模糊。现有的视频去模糊方法假设连续的模糊帧,而忽略了清晰帧通常出现在模糊帧附近的事实。在本文中,我们开发了一个原则性的框架D2Nets的视频去模糊,利用非连续模糊帧,并提出了一个灵活的事件融合模块(EFM)之间的桥梁事件驱动和视频去模糊。在D2网中,我们建议首先使用双向LST-M检测器检测最近的清晰帧(NSFs),然后执行由NSFs引导的去模糊模糊帧DMPHN [37]STFAN [39]对应事件[19]第十九话此外,所提出的EFM是灵活的,被incorpo-额定到D2网,其中事件可以利用显着提高去模糊性能。EFM还可以轻松地集成到现有的去模糊网络中,使事件驱动的去模糊任务受益于艺术去模糊方法。在合成和真实世界的模糊数据集上,我们的方法比竞争方法取得了更好的结果,EFM不仅有利于D2网络,而且显着改善了竞争的去模糊网络。1. 介绍视频在计算机视觉领域中扮演着至关重要的角色,而由于摄像机的运动或拍摄场景中运动物体的运动,模糊是不可避免的为了消除模糊的不利影响,视频去模糊在许多应用中引起了相当大的研究关注,SLAM[12]、3D重建[29]和跟踪[36]。近年来,事件相机[3,22],一种用于在微秒级记录捕获场景的强度变化的新型传感器,已经被开发出来,并且还建议具有高时间速率的事件以便于去模糊[8,25]。视频去模糊[7,9,19]和事件驱动的去模糊-*通讯作者:rendongweihit@gmail.com图1.我们的D2 Nets*、最先进的图像去模糊DMPHN [37]和视频去模糊STFAN [39]和CDVD-TSP [19]的去模糊结果。环[8,20,24,25,25,33]取得了前所未有的进步,但他们仍然有局限性。一方面,现有的视频去模糊网络通常基于视频中连续模糊帧的假设,并且设计基于CNN的[4,11,19,30,35,38]和基于RNN的[ 4,11,19,30,35,38]。[7,18,32]架构,其中编码器-解码器架构是充当基本骨干的最流行的选择。然而,常见的事实是模糊不会连续地出现在视频中,即,模糊视频中的一些帧是非常清晰和干净的[27]。这些清晰的帧实际上可以被利用来促进模糊帧的恢复,但是它们在现有的视频去模糊方法中被不可区分地处理,也不利地产生清晰的纹理丢失。另一方面,事件驱动的恢复方法严重依赖于事件的使用,其中设计了各种架构,例如BHA [20],CIE [28]和EDMD [8]在这些方法中,利用事件的模块不容易与现有的图像和视频去模糊方法相配合,从而制约了视频去模糊4532和事件驱动的去模糊。在本文中,我们首先开发了一个原则性框架(即,Detect Deflur Netwotks,D2Nets)来利用非连续模糊帧,然后提出一个事件融合模块(EFM)来弥补事件驱动和视频去模糊之间的差距首先,我们的D2 Nets由三 个 步 骤 组 成 : ( i ) 我 们 建 议 使 用 双 向 LSTM(BiLSTM)[6]来区分清晰帧和模糊帧,如图所示。2,基于其可以在前后方向上为模糊帧找到两个最近的清晰帧(NS-Fs)。BiLSTM可以将帧或其对应的事件作为输入。(ii)如图所示在图3中,然后可以使用编码器-解码器去模糊主干来恢复模糊帧以重构潜在清晰视频(iii)我们进一步建议通过后处理步骤来增强恢复视频的时间一致性,这也有利于由于BiLSTM的检测错误而可能幸存的模糊帧其次,所提出的EFM同时利用从事件和相邻帧的效益,并可以被incorpo-额定到编码器-解码器架构的潜在空间。EFM可以同时应用于D2Nets中的模糊帧恢复和时间一致性增强,弥补了事件驱动和视频驱动之间的差距去模糊,产生D2 Nets*。 此外,我们的EFM可以将其并入现有的最先进的去模糊网络中工作,例如,DMPHN [37]、STFAN [39]和CDVD-TSP[19],进行事件驱动的去模糊可以受益于这些最先进的图像和视频去模糊方法。如图1,现有的视频去模糊方法不能完全消除严重的模糊,而我们的D2 Nets* 能够恢复视觉上更合理的去模糊结果。实验已经在两个基准数据集上进行,包括GoPro数据集[17]和由DAVIS 240 C相机[3]捕获的Blur-DVS数据集[8]通过利用NSFs,来自NSFs的清晰纹理可以更好地促进重建潜在的干净帧,从而使我们的D2 Net在最先进的去模糊方法上获得显着的收益。所提出的EFM不仅有利于我们的D2网络,但也显着改善竞争的方法时,与事件合作,以解决视频去模糊。这项工作的贡献有三个方面:一个原则性的去模糊框架D2Nets的开发,利用最近的清晰帧时,恢复非连续模糊视频中的模糊帧。提出了事件融合模块EFM,以更好地利用来自事件的有益信息来促进去模糊。我们的EFM也被纳入现有的图像和视频去模糊处理事件驱动的视频去模糊方法。广泛的实验是图2.用于区分清晰帧和模糊帧的BiLSTM检测器的架构。BiLSTM检测器将5个相邻帧作为输入,这些帧可以是视频帧序列Bi−2、···、Bi、···、Bi+2或它们对应的事件Ei −2,···,Ei,···,Ei+2。进行了验证的有效性的D2网和EFM合成和现实世界的模糊视频。2. 相关工作在本节中,我们将对图像和视频去模糊以及事件驱动去模糊等相关工作进行综述。2.1. 图像和视频去模糊由于编码器-解码器架构在低级视觉领域的成功[14,21],编码器-解码器通常被采用为单幅图像[4,11,32]去模糊和视频去模糊[7,18,19,30,35,39]中最流行的基本骨干对于单个图像去模糊,Tao等人[32]提出了一种从“粗到精”的尺度递归网络,用于从模糊图像中提取多尺度特征。Aittala等[1]设计了一种编码器-编码器架构,以独立于顺序的方式处理突发中的所有帧。Zhang等人[37]提出了一种受空间金字塔匹配启发的深度分层多补丁最近,Renet al. [26]采用非对称自动编码器和全连接网络(FCN)以自监督方式解决图像去模糊。对于视频去模糊,Kim等人[7]开发了一个具有动态时间混合层的时空递归网络,为了更好地利用空间和时间信息,Kim等人[9]介绍了用于对准和聚集的光流估计步骤···4533FFi=1i=1F FF我我我我- -- -图3.用于恢复具有其NSF G-和G+的模糊帧Bi的FBRN的流程图。F BRN由两个步骤组成:翘曲NSFs我我使用f alig n与Bi对齐,并使用f re c重建潜在帧Ii。信息以恢复潜在干净帧。在[34]中,Wanget al.开发了金字塔方式的可变形卷积,以隐式地对齐相邻帧,以更好地利用时间信息。最近,Panet al. [19]提出在时间锐度先验的帮助下同时估计光流和潜在帧以用于视频去模糊来自中间潜在帧的估计光流作为运动模糊信息被反馈到重建网络以生成最终清晰帧。现有的视频去模糊方法假设连续模糊的帧,这通常与实际模糊视频不一致。Ren等人[27]发现具有运动模糊的视频中的一些帧是尖锐的,并提出将去模糊模型拟合到测试视频。在这项工作中,我们提出了一个原则性的框架,以更好地利用尖锐的帧与非连续模糊帧的视频去模糊。网络,使得不可能受益于最先进的视频去模糊方法。在这项工作中,我们提出了一个事件融合模型,它可以很容易地纳入现有的图像和视频去模糊网络的编码器-解码器架构,弥合事件驱动和视频去模糊之间的差距3. 该方法在本节中,我们首先介绍了我们的原则Detec- tDeflur(D2Nets)框架,用于处理具有非连续模糊帧的视频去模糊,然后详细说明D2 Nets的关键组件。3.1. D2网的原理框架对于模糊框架B1,D2网的原理框架可以形式上表示为三个步骤G−,G+=FDET(Bi−N,···Bi,···Bi+N),2.2.事件驱动的视频去模糊事件摄像机[3,22]是记录-我我Ii=FBRN(G−,Bi,G+),(一)场景的强度变化在微秒级,具有s光功率消耗,并且在各种计算机视觉任务中具有潜在的应用,例如,视觉跟踪[15]、立体视觉[2]和光流估计[13]。一种关系-Ii=FTC E(Ii−1,Ii,Ii+1).在D2网络中:(i)DET检测最近的清晰帧(NSF)G−和G+来自前面和后面的N个相邻帧我我ed的研究分支是探索纯事件还原高帧率图像序列[16,25]。最近,Pan等人[20]以事件驱动的运动去模糊为例,方向,分别。(ii)BRN恢复模糊帧由检测到的NSF引导,其由对准模块falign组成,用于将NSFG-和G+对准到我我ble积分模型然而,噪声硬采样机制事件摄像机的噪声通常引入强的累积噪声和场景细节的损失Jiang等[8]提出了一种基于事件的运动去模糊的序列公式,然后将其优化步骤展开为端到端的深度去模糊架构。事件的使用是复杂的,并且现有方法以不同的方式利用事件,如[5]中所提到的。此外,这些方法中的事件模块对于并入视频去模糊和编码器-解码器f_rec来重构潜在尖锐通过融合Bi,G−和G+的特征。(iii)FTCE具有相同的两个模块falign和frec。FTCE旨在进一步增强帧的时间一致性IiM并获得最终的去模糊视频 IiM,其中M是输入视频的总帧数。D2Nets的整个过程1.一、DET、BRN和TCE中网络架构的详细信息可在补充文件中找到。4534F······ FFF.n=fB,G,I=G(x+u)i←fl owi←我→←Ki=1gtgtFFFF我我II=我我i=1,其中oi我我分别如果找不到NSF,我们只需设置NSF-rec我我 我我我我我我我.Σ我我我我我我此外,我们提出了一个事件融合模块(EFM)之间的Bi和i的NSFG-和G+。因此,我们实施-我我将事件纳入D2网络。在DET中,直接将输入帧替换为其对应的事件Ei-N,,Ei,,Ei+N.在BRN和TCE,我们的EFM可以灵活地集成到编码解码器将BRNA分为两个步骤,如图所示。3,即,使用f_align将对齐到模糊帧B1的NSF扭曲,并使用f_rec融合它们的特征以重构潜在帧。对于falign(G-,Bi,G+),我们使用PWC-Net [31]作为我我架构。此外,我们的EFM也可以被纳入现有的图像和视频去模糊网络,使它们适用于处理事件驱动的去模糊。3.2.检测模糊帧和NSFBiLSTM检测器:我们把检测视频中的模糊帧作为一个二进制分类任务。考虑到视频中的时间信息,本文提出采用双向LSTM(BiLSTM)[6]来分类清晰帧和模糊帧,通过该方法利用相邻帧在前向和后向方向上的相关性。BiLSTM检测器的架构是可视化的-在图2中显示。对于视频帧序列,BiLSTM光流估计算法Fflow为了提供运动合成,u→i=f流Bi,G−,I−=G−(x+u→i)+++我其中u→i和ui←是关于i v el y的光学流G−iBi和BiG+。网络流被重新用于两个NSF。类似于[31],我们使用双线性插值来获得warped框架I+和I-。然后模糊的帧可以恢复. frec.I+,Bi,I−Σ, ifoi=0检测器首先使用ResNet-152提取特征,然后将特征转换 为 512维 向量 作 为 BiLSTM的 输入 。 最 后, 使 用Sigmoid函数在[0,1]范围内对BiLSTM的输出进行归一化,表示帧是模糊的还是清晰的。模糊视频中的连续帧表示为Bi,如果oi=1其中,f_rec是具有LSTM的编码器-解码器,以重构干净帧I^i。在训练f流和frec的参数时,我们通过最小化l1范数损失函数(B)Mo我. 然后,检测器的输出表示为B我Σ¨。Σ¨BRNBRN我我 我我 1{}Mi=1的概率是M成为一个L=¨FG−、B、G+-我很高兴、 (6)框架,{oi}=1=fbilstm. {Bi}M Σ,(2)i=1其中K是检测到的模糊帧的数量。其中fbilstm指示BiLSTM检测器。 使为了使训练更容易,我们将视频序列分割成片段,每个片段包含5帧。BiLSTM通过最小化二进制交叉熵损失函数Lbilstm=−(olog(oi)+(1−o)log(1−oi)),(3)3.4.时间一致性增强使用BRN,模糊帧通常被恢复而不考虑它们的相邻帧,并且可能干扰整个视频的时间一致性。为了解决这个问题,我们进一步提出了一个时间一致性en-增强网络FTCE。 总的来说,FTCE与其中OGT表示第i帧的真实标签,即,〇gt=1具有FBRN的两个步骤,包括帧对齐模块当i是清晰帧,否则o>= 0。我和重建模块。 唯一的区别在于Bii检测NSF:我们通过阈值ε = 0对BiLSTM的输出进行二值化。五、如果〇i=0,则帧Bi是模糊的。然后,对于giv en模糊帧Bi,我们可以检测两个NSFsG-iF_align和F_rec的输入,(I−,I+)=falign(Ii−1,Ii,Ii+1),和G+从其前后的N个相邻帧中,I=f。I−,I,I+Σ,(7)sG-和G+作为相邻帧Bi-1和Bi+1,其中,在潜在视频中的所有帧通过FBRN被执行。分别在这项工作中,我们凭经验设置的搜索范围N=7。 这是因为超出此范围的清晰帧可具有与B1中的场景内容的显著区别,且因此不适合充当NSF。3.3.基于NSFs的在检测到两个NSF之后,模糊帧B1然后可以是通过考虑它们的相邻帧来增强。TCE不仅可以增强恢复视频的时间一致性,而且还可能有利于由于BiLSTM的检测错误而幸存的模糊帧,进一步提高去模糊质量。至于学习的参数TCE,我们也采用l1-范数损失函数由BRN恢复。这是一个自然的战略,直接采取(G-,B,G+)作为重构网络的输M(四)(五)通常情况下,会有一个相当大的时间跨度--4535入。怎么-LTCE=Σ-TCE.Ii−1,Ii,Ii+1Σ-我很高兴.(八)i=114536i=1i=1j=1FFF.Σm=SoftMaxeWWz,(9)z±FFi=1我J我J j=1JJJJJJ我我我 我M--算法1D2Nets(和D2Nets*)用于视频去模糊编码器-解码器类似的架构,EFM也可以被包括在输入:具有M个帧{Bi}M的M(可选)穿孔到F流中以便于光流估计。当事件{Ei}i=1)输出:去模糊视频{Ii}i=11:初始化中间结果{Ii}Mi=1作为{Bi}M与EFM协作的D2 Nets用D2Nets* 表示。此外,考虑到现有技术的去模糊方法,DMPHN [37]用于图像去模糊,STFAN2://行3-4:FDET检测模糊帧和NSF3:使用BiLSTM检测模糊帧{Bj}K。[39]和CDVD-TSP [19]用于视频去模糊,采用编码器-解码器作为其基本骨干,EFM可以是容易的。4:查找NSF G-和G+ 为 Bj 导致集合J J{G-,Bj,G+}K.这些方法中,事件驱动最先进的图像和视频去模糊技术5://第6-9行:BRN恢复检测到的模糊帧第六章: 对于j= 1:Kdo(I−,I+)=falign(G−,Bj,G+)模糊方法4. 实验Ij=frec.I+,Bj,I−Σ2i=1第八章:替换IiM中的相应帧作为Ij9:结束10://第11-13行:TCE增强了时间一致性,并且对于超过范围[1,M]的索引,我们简单地重复B1或BM。11:对于i= l:M做(I−,I+)=falign(Ii−1,Ii,Ii+1)在本节中,我们在两个数据集上评估我们的D Nets-[17]和Blur-DVS [8]。 D2Nets是与现有技术的图像去模糊方法DMPHN [37]和视频去模糊方法STFAN [39]和CDVD-TSP [19]。为了评估它们对于事件驱动的去模糊的性能,我们将我们的EFM应用于DMPH-N、STFAN、CDVD-TSP和我们的D2网,记为DM-1。十二:我我I=f.I+,I,I−ΣPHN*、STFAN*、CDVD-TSP* 和D2Nets *。14:返回去模糊视频帧{Ii}M3.5.事件融合模块如DET中所讨论的,事件可以被视为BiLSTM检测器的输入,以更好地区分清晰帧和模糊帧。我们进一步利用BRN和TCE中的事件,因为事件编码更丰富的时间信息,这对于视频去模糊任务至关重要。对于事件相机,给定模糊帧Bi,其对应的事件流Ei是可用的。每个事件具有(t,x,y,p)的形式,其记录在时间t处坐标(x,y)的强度变化,并且极性p=1表示强度变化的增加或减少在这项工作中,我们将事件流转换为每个帧具有20个通道的张量我们建议EFM,以更好地利用丰富的边界,促进去模糊的事件。形式上,我们的EFM可以呈现为T Te其中,We和Wz是可学习的权重矩阵,z是来自编码器-解码器的潜在空间的帧的特征,并且与z具有相同维度的e是使用CNN连同下采样提取的事件E的特征在EFM中,m是重新加权映射,其可用于通过与帧的特征的矩阵乘法来促进EFM可以被视为一种注意力,其中重加权图可以引导解码器主要关注于有利于去模糊的特定特征EFM可以灵活地嵌入到编码器-解码器的潜在空间中,如FBRN和FTCE中的架构。由于PWCNet还采用去模糊,它是不可行的,公平地比较D2网 * 与他们定量,因为他们通常不释放训练码。因此,当处理真实世界的模糊帧时,我们将D2Nets* 与仅一种基于事件的 方 法 BHA [20] 进 行 定 性 我 们 的 源 代 码 可 在https://github.com/shangwei5/D2Net获得。4.1. 数据集和培训详细信息4.1.1数据集GoPro数据集:首先,我们评估了GoPro数据集[ 17 ]上的竞争方法,GoPro数据集[ 17]被广泛用于图像去模糊,最近也在[ 20 ]中用于基准基于事件的去模糊。我们遵循[17,20]来分割训练集和测试集。 为了合成事件,我们使用开源ESIM事件模拟器[23]来基于清晰帧生成事件。为了满足清晰帧存在于模糊视频中的假设,我们通过随机平均相邻清晰帧来生成视频中的非连续模糊帧,即,平均数从1到15中随机选择。并且我们假设如果平均帧的数目小于5,即,ogt=1,否则ogt=0。值得注意的是,我们在一个视频中随机生成50%的模糊帧,而其他50%的帧是清晰的,而不约束连续7帧中必须有2个清晰的。Blur-DVS数据集:为了评估处理真实世界事件时的竞争方法,我们使用由DAVIS 240 C相机捕获的Blur-DVS [8],该相机具有高速事件传感器和低帧率有源像素传感器,用于以180×240的分辨率记录强度帧。Blur-DVS包括第七章:13:结束rec至于专门为事件驱动4537××我FF×FF FFFFFFF表1. GoPro数据集上仅模糊帧的去模糊结果的定量比较。* 意味着该方法与我们的EFM合并以利用事件。方法DMPHN [37]STFAN [39]CDVD-TSP [19个]D2网DMPHN*STFANCDVD-TSP*D2网 *PSNR26.7026.0126.2927.6826.8627.1927.6527.39SSIM0.8650.8370.8700.9060.8710.8780.9030.907表2.在GoPro数据集上对整个视频的去模糊结果进行定量比较方法DMPHN [37]STFAN [39]CDVD-TSP [19个]D2网DMPHN*STFANCDVD-TSP*D2网 *PSNR31.5830.1230.3131.6031.9030.9032.2431.76SSIM0.9210.8920.9210.9400.9240.9140.9410.943表3. BiLSTM检测器的准确性,以帧和事件作为输入。输入框架事件GoPro [17]97.2%99.0%Blur-DVS [8]94.8%97.6%表4. GoPro数据集上的成分分析。FDETFBRNFTCEEFMPSNRSSIM’’✓’31.070.925✓✓’31.000.924✓✓✓’31.600.940✓✓✓ ✓31.760.943两个子集,即,慢动作子集和快动作子集。慢动作子集由相对静态场景的15,246帧组成。在采集时,相机运动缓慢而稳定,使得这些采集的帧中很少出现模糊。因此,我们可以基于慢动作子集合成具有非连续模糊帧的视频我们通过随机平均相邻帧来合成模糊视频,即平均数从1到9不等,以此为基础,我们可以在处理实际事件时对这些方法进行定量比较。最后,我们获得了2,029对模糊和清晰的帧,其中1,386对用于训练,而643对用于测试。类似地,假设如果平均帧的数量小于5,即,ogt=1,其他-在PWC-Netf 流 中,我们采用预训练模型[31]作为初始化。重建模块f_rec和光流估计f_flow的学习速率被初始化为110-4和110-6,并且通过在每100个时期之后乘以0.5来 减 小 。 训 练 在 250 个 epoch 之 后 结 束 。 对 于BiLSTM检测器,学习率设置为1 × 10−4,训练在100个epoch后结束。4.2. 消融研究4.2.1BiLSTM检测器表3通过将帧或事件作为输入,列出了BiLSTM检测器在两个数据集上的准确度。可以看出,以事件作为输入的BiLSTM检测器比以帧作为输入的BiLSTM检测器更精确,因为事件自然地编码了运动轨迹。然而,这些BiLSTM检测器的检测精度很高,足以找到大多数模糊帧及其对应的NSF。我们还尝试了LSTM作为检测器,并发现GoPro的准确性显著下降,即对于作为输入的帧减少2.98%此外,考虑到BiLSTM(每帧0.030s)与 LSTM ( 每 帧 0.028s ) 相 比 并 不 是 非 常 低 效 ,BiLSTM是检测器的更好选择。4.2.2组件的有效性我们在GOPRO数据集上评估了D2网如表4和图4所示4、wiseogt=0我. 快速运动子集由7个视频组成全D2Nets实现了最佳的去模糊性能。 我们702帧的序列。 拍摄时,摄像机运动是快速的,不稳定的,还有运动的物体。因此,快速运动子集可以充当真实世界的模糊测试集,而无需地面实况清晰帧。4.1.2培训详细信息在训练过程中,我们使用ADAM优化器[10],参数β1=0。9,β1=0。999,且对于DET、BRN和TCE中的所有网络,ε = 10 − 8。 批量大小被设置为12,并且补丁大小被设置为128。BRN和TCE中的网络训练共享相同的超参数。为了节省训练时间,我们使用FBRN中的frec参数来初始化FTCE中的参数。为注意,单个TCE直接取3个相邻帧作为输入。有趣的是发现单独的TCE比没有TCE的D2网络获得更高的PSNR。究其原因,可以从两个方面来归结:(i)不处理DET+ BRN中的幸存模糊帧,以及(ii)来自长距离的NSF可能具有与模糊帧的剧烈场景变化,从而产生时间不一致性。结果表明,TCE是提高时间一致性的关键,在D2网中包含所有的三个组件是必要的。此外,通过并入EFM,可以进一步提高去模糊性能。我们还通过将EFM替换为事件和帧的连接进行了实验,并且在GoPro数据集上获得了-0.42dB P-SNR降低这是因为4538图4.在GoPro数据集上进行组件分析的可视化比较。第一列为模糊帧,2- 5列对应表4中1-4行的结果。放大以获得更好的视图。模糊图像DMPHN [37] CDVD-TSP [19] D2 NetsSTFAN [39] DMPHN* CDVD-TSP* D2网络 *图5. GoPro数据集上去模糊结果的视觉比较。模糊图像DMPHN [37] CDVD-TSP [19] D2 NetsGround-truth STFAN [39] CDVD-TSP* D2 Nets*图6.在Blur-DVS数据集的慢动作子集上的去模糊结果的视觉比较包含丰富的空间和时间运动信息,这些信息不能被朴素级联充分利用。4.3. 与现有技术的我们将D2 Nets和D2Nets* 与GoPro和Blur-DVS数据集上的最先进方法进行了比较。4.3.1GoPro数据集在GoPro数据集上,我们评估了模糊帧(表1)和整个视频帧(表2)。我们在我们的训练数据集上重新训练所有这些竞争方法,以便进行公平的比较。从表1和表2的左侧可以看出,我们的D2网可以实现比计算方法更高的定量指标这是因为D2 Net可以从最近的清晰帧中受益,其清晰的纹理细节可以被转移以重建潜在的干净帧。从表1和2的右侧来看,D2Nets* 在SSIM方面仍然优于 DM-PHN * 、 STFAN* 和 CDVD-TSP* , SSIM 比PSNR更符合视觉质量。更重要的是,我们的EFM可以改善这些竞争视频去模糊-4539模糊图像DMPHN [37] CDVD-TSP [19] D2 NetsBHA [20] STFAN [39] CDVD-TSP* D2网 *图7.在Blur-DVS数据集的快速运动子集上的去模糊结果的视觉比较。更多真实世界模糊帧的结果可以在补充文件中找到。表5.在Blur-DVS数据集上对整个视频的去模糊结果进行定量比较* 表示该方法与我们的EFM合并以利用事件。方法DMPHN [37]STFAN [39]CDVD-TSP [19个]D2网DMPHN*STFANCDVD-TSP*D2网 *PSNR29.1032.1532.9533.9631.3632.2134.0734.24SSIM0.8080.8270.8110.8310.8120.8270.8110.833环方法从事件中受益特别是对于DMPH-N * 和CDVD-TSP*,它们的去模糊性能已经显著提高,验证了我们的EFM的有效性。在图1中的视觉质量比较方面。5、我们的D2网可以获得更清晰的纹理细节,并且与竞争方法的结果相比,板亮度数字更容易识别。4.3.2Blur-DVS数据集在Blur-DVS数据集上,我们仅报告整个视频序列的定量结果,如表5所示。我们注意到,与EFM竞争的方法及其版本在Blur-DVS的训练集上重新训练。在表5中,我们的D2 Nets和D2 Nets* 在PSNR和SSIM方面与其竞争方法相比实现了最佳性能。还有DMPHN*、STFAN* 和CDVD-使用EFM利用事件时,TSP* 比其原始版本获得了显著的收益图6显示了视觉质量比较,从中可以看出,由于NSF和事件的引导,我们的D2Nets* 可以恢复更清晰的纹理细节,而其他方法的结果仍然遭受轻微模糊或过度平滑纹理。最后,我们评估这些方法对现实世界的模糊帧的快速运动子集的模糊-DVS。除了DM-PHN、STFAN和CDVD-TSP之外,我们进一步比较了一种基于事件的去模糊方法BHA [20]。如图7,我们的D2Nets和D2Nets * 实现了最具视觉合理性的去模糊效果,具有更清晰的纹理而DMPHN、STFAN和CDVD-TSP不能完全消除严重的模糊。BHA将模糊帧恢复为事件引导的在BHA的去模糊结果在补充文件中,我们提供了真实世界模糊视频的更多去模糊结果。5. 结论在本文中,我们提出了一个原则性的框架--D2网来处理具有非连续模糊帧的视频去模糊问题.D2Nets可以更好地利用模糊视频中可能的清晰帧,从而可以更好地恢复模糊帧,并且可以鼓励去模糊视频的时间一致性。我们进一步提出了一个灵活的事件融合模块(EFM),它可以被纳入不仅是我们的D2网络,但也是现有的图像和视频去模糊网络。我们的EFM使事件驱动的去模糊任务受益于最先进的图像和视频去模糊网络,并将在未来的工作中扩展到事件驱动的超分辨率和插值任务。确认本 工 作 得 到 了 国 家 自 然 科 学 基 金 的 部 分 资 助61801326和U19A2073。这项工作也得到了感时青年学者研究基金的支持。4540×引用[1] MiikaAittala和Fre'doDurand。基于排列不变卷积神经网络的突发图像去模糊欧洲计算机视觉会议,第731- 747页,2018年。2[2] Alexander Andreopoulos , Hirak J Kashyap , Tapan KNayak,Arnon Amir,and Myron D Flickner.低功耗、高吞吐量、完全基于事件的立体声系统。在IEEE计算机视觉和模式识别会议上,第7532-7542页3[3] Christian Brandli,Raphael Berner,Minhao Yang,Shih-Chii Liu,and Tobi Delbruck.240 180 130 db 3µ s延迟全局快门时空视觉传感器。IEEE Journal of Solid-StateCircuits,49(10):2333-2341,2014. 一、二、三[4] Huajin Chen,Jinwei Gu,Orazio Gallo,Ming-Yu Liu,Ashok Veeraraghavan,and Jan Kautz.Reblur2deblur:通过自监督学习对视频进行去模糊。 在IEEE计算摄影国际会议上,第1-9页,2018年。一、二[5] Daniel Gehrig 、 Antonio Loquercio 、 Konstantinos GDerpanis和Davide Scaramuzza。异步基于事件的数据的表示的端到端学习在IEEE国际计算机视觉会议上,第56333[6] Sepp Hochreiter和Michael C Mozer。一个发现时间依赖关系的离散概率记忆模型国际人工神经网络会议,第661-668页,2001年。二、四[7] Tae Hyun Kim,Kyoung Mu Lee,Bernhard Scholkopf,and Michael Hirsch.基于动态时间混合网络的在线视频去模糊。在IEEE计算机视觉国际会议上,第4038-4047页,2017年。一、二[8] Zhang Yu,Zhang Zhang,Dongqing Zou,Jimmy Ren,Jiancheng Lv,and Yebin Liu.学习基于事件的运动去模糊。在IEEE计算机视觉和模式识别会议上,第3320-3329页一二三五六[9] Tae Hyun Kim,Mehdi SM Sajjadi,Michael Hirsch,andBernhard Scholkopf.用于视频恢复的时空Transformer网络。欧洲计算机视觉会议,第106-122页,2018年。一、二[10] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年学习表征国际会议。6[11] OrestKupyn、VolodymyrBudzan、MykolaMykhailych 、 D-mytroMishkin 和 Jiˇr´ıMatas 。Deblurgan:使用条件对抗网络进行盲运动去模糊。在IEEE计算机视觉和模式识别会议上,第8183-8192页,2018年。一、二[12] Hee Seok Lee,Junghyun Kwon,and Kyoung Mu Lee.同时定位、映射和去模糊。IEEEInternational Conferenceon Computer Vision,第1203- 1210页,2011年。1[13] 刘敏和托比·德尔布鲁克。动态视觉传感器的自适应时间片块匹配光流算法2018年英国机器视觉会议。3[14] Xiao-Jiao Mao,Chunhua Shen,Yu-Bin Yang.使用非常深卷积编码器-解码器的图像恢复对称跳跃连接的网络。第2802- 2810页,2016年。2[15] AntonMitrokhin , CorneliaFerm üller, ChethanParamesh-wara,and Yiannis Aloimonos.基于事件的运动目标检测与跟踪。在IEEE智能机器人和系统国际会议上,第1-9页3[16] Gottfried Munda , Christian Reinbacher , and ThomasPock.使用流形正则化的事件摄像机的实时强度图像重建 。 International Journal of Computer Vision , 126(12):1381-1393,2018。3[17] Seungjun Nah,Tae Hyun Kim,and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。在IEEE计算机视觉和模式识别会议上,第3883-3891页二、五、六[18] Seungjun Nah,Sanghyun Son,and Kyoung Mu Lee.用于视频去模糊的具有帧内迭代的回流神经网络。在IEEE计算机视觉和模式识别会议上,第8102-8111页,2019年。一、二[19] 潘金山,白浩然,唐金辉。使用时间锐度先验的级联深度视频去模糊。在IEEE计算机视觉和模式识别会议上,第3043-3051页,2020年。一二三五六七八[20] Liyuan Pan , Cedric Scheerlinck , Xin Yu , RichardHartley,Miaomiao Liu,and Yuchao Dai.使用事件摄像机以高帧率拍摄模糊帧。在IEEE计算机视觉和模式识别会议上,第6820-6829页一二三五八[21] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器:通过图像修复进行特征学习。在IEEE计算机视觉和模式识别会议上,第2536-2544页,2016年。2[22] Lichtsteiner Patrick,Christoph Posch,and Tobi Delbruck.128x 128 120 db 15µ s延迟异步时间对比视觉传感器。IEEE Journal of Solid-State Circuits , 43 : 566-576 ,2008。第1、3条[23] Henri Rebecq,Daniel Gehrig,and Davide Scaramuzza.Es- im:一个开放的事件摄像机模拟器。在机器人学习会议上,第969-982页5[24] Henri Rebecq、Rene 'Ranftl、Vladlen Koltun和Davide S-caramuzza。活动到视频:将现代计算机视觉引入活动摄像机。在IEEE计算机视觉和模式识别会议上,第3857-3866页,2019年。1[25] Henri Rebecq、Rene 'Ranftl、Vladlen Koltun和Davide S-caramuzza。高速和高动态范围视频与事件摄像机。IEEE Transactions on Pattern Analysis and MachineIntelligence,2019。第1、3条[26] Dongwei Ren , Kai Zhang , Qilong Wang , QinghuaHu,and Wangmeng Zuo.使用深度先验的神经盲反卷积在IEEE计算机视觉和模式识别会议上,第3341-3350页,2020年。2[27] Xuanchi Ren,Zianan Qian,and Qifeng Chen.通过拟合测试数据进行视频2020年欧洲计算机视觉会议。第1、3条[28] 塞德里克·舍林克尼克·巴恩斯和罗伯特·马奥尼。使用事件相机的连续时间强度估计。在亚洲计算机视觉会议上,第308-324页,2018年。14541[29] Hee Seok Lee和Kuoung Mu Lee。使用单个移动摄像机从严重模糊图像进行密集3d在IEEE计算机视觉和模式识别会议上,2013年。1[30] Shuochen Su , Mauricio Delbracio , Jue Wang ,Guillermo S-apiro,Wolfgang Heid
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功