没有合适的资源?快使用搜索试试~ 我知道了~
1基于学习事件的运动去模糊浙江省浙江省1商汤科技2四川大学3清华大学摘要从运动模糊图像中恢复清晰的视频序列是一个高度不适定的问题,因为在模糊过程中会丢失大量的运动信息。然而,对于基于事件的相机,快速运动可以被捕获为高时间速率的事件,从而为探索有效的解决方案提供了新的机会。在本文中,我们从基于事件的运动去模糊的顺序公式开始,然后展示如何使用新型端到端深度架构展开其优化。所提出的架构是一个卷积递归神经网络,集成了视觉和(c) Zhang等人(d) Pan等人(e) 我们的结果以原则性方式提供全球和局部尺度的时间知识。为了进一步提高重建,我们提出了一个可微的方向事件过滤模块,有效地提取丰富的边界前事件流。我们对合成的GoPro数据集和DAVIS240C相机捕获的大型新引入的数据集进行了广泛的实验。所提出的方法实现了国家的最先进的重建质量,并generalizes更好地处理现实世界的运动模糊。1. 介绍运动模糊通常是由于现代相机传感器所需的曝光时间而发生的,在此期间,场景在不同的时间戳被记录并累积成平均(模糊)信号。去模糊是一个逆问题,它从运动模糊图像中提取出潜在的场景动态信息,并生成一系列清晰的场景恢复序列,这在计算机视觉中仍然是一个挑战。虽然简单的运动模式(例如,相机抖动)已经被很好地建模[29,22,6,8,47,12,51,2],然而,在现实世界中模拟更复杂的运动模式要困难得多。为了对一般运动模糊进行建模,最近的深度学习方法提出通过观察大量清晰图像及其模糊版本来恢复模糊图像[42,11,52,25,15,43]。尽管他们在某些情况下取得了成功*同等缴款。这篇文章是姜哲在商汤科技实习期间完成的†信件应寄至:zhangyulb@gmail.com图1.我们方法的动机严重的运动模糊图像(a)很难通过观察其模糊的外观来消除模糊,即使使用最先进的深层架构[50](c)。尽管事件(b)提供了密集的时间线索,但由于事件(d)的噪声,物理反射方法[31]仍然存在未解决的模糊所提出的深度运动去模糊学习从不完美的图像和事件中恢复合理的细节(e)。对于严重的运动模糊(例如,图1),这是常见的手持,车载或无人机配备的相机。在这种情况下,由于时间顺序和视觉信息的显著损失,几乎不可能产生场景细节的幻觉。本文采用基于事件的摄像机来解决数据采集阶段的问题,而不是单纯依赖于计算架构。事件摄像机是生物启发的传感器,擅长以微秒级的精度和极低的功耗记录像素强度(称为事件)的变化。这种传感器的混合模型(例如,[5])允许用图像对事件进行时间校准。结果,这样的数据自然地编码可以促进运动去模糊的密集时间信息。如图在图1(a)和(b)中,虽然图像明显模糊,但伴随的事件是节奏密集的,并揭示了场景的清晰运动模式。尽管基于事件的运动去模糊的可能性很高,但关键问题是事件是有损耗的,并且只有当像素强度变化达到一定阈值时才触发噪声信号,该阈值可以随着场景条件的变化而变化[35]。这种离散和不一致的采样使得纹理和3320(a)模糊的图像(b)相关事件3321对比度难以恢复。如图1(d),最先进的物理去模糊方法[31]仍然难以合理地重建图像。我们的解决方案是将深入学习的先验知识插入到基于事件的去模糊过程中,从而超越数据的不确定性。详细地说,这项工作从基于事件的去模糊的顺序公式化开始。通过用深度网络重新解释其优化,我们提出了一种新的可训练的端到端递归架构。对于每个时间步长,从先前的重建以及局部时间事件获得粗重建。精细的细节,然后提供网络预测,在全球和局部尺度上的外观和时间线索的指导。为了进一步提高重建质量,我们提出了一个可区分的定向事件过滤(DEF)模块,该模块有效地聚合了由事件揭示的运动边界,并产生清晰的去模糊先验。为了评估所提出的方法,我们编译了一个使用DAVIS240C相机捕获的大型户外数据集[5]。对该数据集和合成GoPro数据集[25]的广泛实验表明,所提出的方法优于各种最先进的方法,无论是基于图像还是基于事件,以微秒级检测场景的强度变化,功耗很小。他们在各种视觉任务中找到了应用,例如视觉跟踪[34,23],立体视觉[54,1]和光学光流估计[20,48]。相关分支是探索损坏的事件信号以恢复高帧速率图像序列[38,24,40]。最近,Pan等人[31]使用双积分模型制定基于事件的运动模糊。然而,事件摄像机的噪声硬采样机制经常引入强的累积噪声和场景细节/对比度的损失。这项工作分享了最近关于事件到视频转换的工作[33,17,36]的见解,通过从数据中学习合理的细节,超越了不完善的事件采样。虽然[33]解决了未来帧预测,[17,36]根据局部运动线索,以流式方式将事件转换为合理的强度图像。相反,这项工作探索了长期的,局部的外观/运动线索,以及新的事件边界先验来解决运动去模糊。3.基于学习事件的运动去模糊给定运动模糊图像I,我们的目标是重新用T帧覆盖清晰的视频序列,I={I}T。可以更好地处理真实世界的运动模糊。我们假设一组事件Eii=1本文的主要贡献如下。1)我们提出了一种用于基于事件的运动去模糊的新的循环深度架构,该架构在两个大型基准上实现了最先进的结果。2)我们提出了方向性事件滤波,以生成清晰的边界之前,从事件的运动去模糊。3)我们编译了一个新的事件数据集与现实世界的运动模糊,以促进未来的研究。2.相关工作1000吨也被捕获,混合图像事件传感器,其中波浪号表示时间间隔。每个事件E ∈E1 <$T具有形式Ex,y,t,这意味着它在图像坐标(x,y)和时间点t∈[1,T]处被触发。注意,这里t不需要是整数,但是由于高的时间分辨率(即,微秒级)的事件摄像机。对于Ex,y,t记录极性px,y,t,指示局部强度的变化。它的定义是[19,5]。盲运动去模糊的目的是在不知道模糊核的情况下解决模糊图像。早期的工作已经设计了各种模糊感知指标,例如颜色通道统计[29,47],补丁复发[22]和px,y,t⎧+1,如果为log=−1,如果log.ΣIt(x,y). It−t(x,y)It(x,y)It−t(x,y)> τ,<-τ,(一)“Lier”图像信号[8],以定义潜像先验。几项工作提出从数据中学习运动内核[39,28],运动函数[45,11]和图像先验[55,42]更复杂的运动模式,等式(1)显示,事件被触发,如果即时即时IM-在时间点t的年龄,即It,在小的时间段It中像素强度改变到阈值±τ。没有G的损失。一般来说,我们假设px,y,t为零,他们也讨论了这些问题[16,37]。更丰富的先验知识-日志It(x,y)It−t(x,y)在[-τ,τ]中。 对于相邻的潜像边缘,如场景几何形状被证明是有用的[30,32]。Ii和Ii−1,可以推导出以下关系:最近的一个趋势是接近所有的复杂性,用深度神经网络去模糊。提出了各种有效的网络设计,包括扩大.Ii(x,y)<$Ii−1(x,y)·exp τ∫it=i−1Σpx,y,t<$(E x,y,t)dt,[52]第25话,我的第一个愿望,是什么?[26][27][28][29]还有关于将模糊图像的运动动态解码为清晰视频序列的研究[15]。尽管有这些优点,但在模糊图像中严重缺失的真实世界照明、纹理和运动的相当多的组合仍然很难被合理地恢复。事件摄像机[19,5]是一种特殊类型的传感器,(二)如果事件Ex,y,tex是,则指示器函数f(·)等于1,否则等于0。应该注意到,当τt,τ→0时,(2)的近似误差变得更低,这意味着根据(1)的事件更密集。然而,由于受各种噪声影响的不一致τ,近似大多是不充分的。3322在实践中,导致对比度和细节的损失到3323一期+1一期+1不不i=1一期+1我我为了解决这个问题,我们提出了一个联合框架,通过重新解释一个图像I′大致等于曝光过程中瞬时图像的平均值。将这个事实与(6)相结合,我们有顺序去模糊过程。深度连续去模糊。事件辅助去模糊可以在最大后验下公式化I1ΣT不.1ΣTIi=ITT1+t−1ΣT−iT−i+1、(8)Imax= argmax .Σ我|I¯,E1.(三)i=1.t=2i=1ΣI其中Bi= expii+1和sl在(6)中定义。为了解决组合问题(3),我们采用k.下面是一个例子,它提供了一个初始估计的IT,即IT,使用简化。 F或关节后PI|I¯,E1T,我们利用相邻潜在图像之间的时间关系(2),并假设马尔可夫链模型:模糊的图像和事件。因此,我们还将解决IT作为一个去噪问题,以IT为中心,并使用网络来近似它。然而,我们注意到,accu-.ΣPI|I¯,E1CUP.ΣIT|I¯,E1T×(8)中的模拟算子引入了更多的漂移,与模拟算子不同,顺序的去模糊步骤。因此,我们通过一个单独的,T−1 .P I|我、I、E中国(4)、率和更有效的网络工作:I=N0.Σ我是,我是,我是。.其中PI|我i=1、I、E我一期+1Σ。= PI|我1吨,I<$,E完整的去模糊过程在Alg.1.一、注意通过设计(7),潜像以来自图像和事件的局部和长期线索为条件。我一期+11吨我一期+1中国+1马尔可夫假设注意,这个简化的模型首先估计IT,然后以向后顺序执行顺序重建。根据贝叶斯规则,向后重建步骤的最大化者等于:算法1事件辅助深度运动去模糊Require:模糊图像I<$,eventsE1T1:获取初始估计值。解(8)I=argmaxP.ΣIi +1,I<$,Eii+1|我我P(Ii). (五)2:去模糊:I=N0IT,I,E1T我我我这里,先验项P(Ii)强加了潜像,例如, 1.1梯度[3]或流形平滑-3:初始化计数器:i=T-14:当i≥1时,5:得到初步估计Ii. 通过求解(2)∗ˆ¯[24]在最近的事件为基础的图像重建。为了对似然项进行建模,我们假设存在来自先前重建的初始估计,通过(2):6: 去模糊:Ii=N7:i←i−1第八章: end whileIi,Ii+1,Eii+1,I,E1TI Ii+1.Esclemp我Σ一期+1、(6)9:返回解模糊序列Ii={Ii}T其中,x,y,S是简体中文(x,y)=t=ipx,y,t中文(简体)x,y,t)dt,和4. 网络架构表示Hadamard积。 由于时间间隔很小,我们假设常数τ,其仅引入小的漂移并提供良好的初始化。 为了求解似然项,一般将几个分布作为以似然项为中心的简单分布来定义(5)中的似然项,例如:在[24]中,泊松分布是采用这样,Eqn。(5)可以看作是一个研究得很好的去噪问题。我们没有使用简单的图像先验,而是借鉴了最近关于学习深度去噪先验的研究[53,50]。在特别地,我们插入深度网络N作为学习的去噪器,B−τS−τS3324我图2示出了所提出的基于事件的运动去模糊架构,其包含:读取网络,其遍历事件并生成全局场景运动的单个表示;初始化网络,其耦合外观和运动以生成初始潜像;以及递归处理网络,其顺序地对所有潜像1进行去模糊。读取和初始化网络实例化N0,而过程网络在Alg中实现N1.一、读网络读取所有事件数据并生成一个I=N.ΣIi,Ii+1, ,I<$,Eii+1.(七)联合代表,占全球事件mo-第为了实现这一点,暴露期间的事件首先被分成等长的时间间隔(3个间隔,因此,潜像P(Ii)的先验没有明确定义,而是从训练数据中隐式学习。为了减少参数大小并防止过度拟合,我们使用相同的网-对于(5)的每个去模糊步骤,由相同的参数集控制的工作,导致递归架构。解决(4)的剩余问题是如何得到初始潜像,即IT我们利用这个事实,见图2)。在每个时间间隔中,事件用堆叠的事件帧表示[17],通过将间隔进一步划分为8个相等大小的块,对落入每个块的事件的极性求和,并沿通道维度堆叠结果。阅读网络是一个经常性的1由于篇幅有限,我们简要描述了组件设计,并将详细的层/参数配置参考我们的补充材料。3325通气Q.框架2(六)i=−k模糊等式(八)事件帧4→3事件帧3→2事件帧2→1事件帧+…Concat空间自适应滤波系数当量(六)当量(六)E.(六)结果£qProcessNetProcessNetProcessNet定向事件过滤(DEF)Conv. LSTM MC:运动补偿正/负事件运动特征图像特征定向事件过滤特征张量Conv. 解码器Conv. 编码器图2.基于事件的运动去模糊学习框架为了更好的可视化,我们只假设从模糊图像中恢复4个清晰帧详细的层和参数配置参见补充资料。注意,由于缺少空间,未示出运动补偿(MC)模块有关体系结构的详细描述,请参见正文编码器由卷积块和卷积LSTM [41]组成,用于随时间积累特征。初始化网络从模糊图像中解码出外观,并将其与全局运动耦合求解潜像我藏起来了。它把模糊的图像和模糊的图像作为输入对于事件已经在[10]中讨论 为了提高效率,我们采用FlowNetS架构[9],将事件E ii+1作为输入,并直接从i到i+ 1。变形是用一个可微的空间Transformer层[18,14]。直接事件过滤。初步估计,可以年龄I和初始估计IT(通过求解方程(8)和用卷积编码器处理它们,用从读取的网络中累积的全局运动特征进行编码,并将联合特征馈送到解码器中以获得结果。给定初始结果,处理网络然后顺序地对剩余的潜像进行去模糊。 在第i步中,它消耗图像和基于事件的观察。 的图像部分包括:1)如由等式11获得的初始估计I. (6)使用先前的重建Ii+1,2)通过用运动补偿变换先前的结果I i +1(图1B中的“MC”)来获得局部历史图像。2)module; 3)由定向事件Viltering给出的边界制导图(图2中的“DEF”)。2)模块化。这些稍后将进一步解释两个模块。输入图像由卷积层处理,并与经由潜在融合从读取网络提取的每步事件特征相关联。融合的特征被处理并馈送到另一个卷积LSTM,以沿着时间传播时间知识。最后,解码器采用联合特征并生成去模糊图像。运动补偿 我们使用运动补偿我由于朴素模糊模型(8)和事件的噪声而遭受未解决的模糊我们借助尖锐边界先验来缓解这个问题,这是一种广泛探索的盲去模糊图像先验[7,46],从事件Eii+1中提取。事件表明现场照明的局部变化和重新小牛肉的物理边界。然而,当场景边界移动时,在特定时间,它们仅与在其位置触发的最新事件在空间上对齐。作为一个玩具的例子,图。(3)示出了在成像之后,顶线和底线对应于两个不同时间点的事件。它给出了通过在适当的时空位置采样事件来生成场景边界先验。注意,由于场景深度的变化,不同的场景部分可能具有不同的运动,并且位置自适应采样是必要的。此外,由于事件是稀疏的,有噪声的,非均匀分布的信号,一个鲁棒的采样过程应该决定在哪里(即,中心)和有多少(即,比例尺)到样品。我们通过可微采样和过滤。 对于每个图像位置p,c(p)和一组2k+ 1个滤波系数{αi}k,其中k是滤波核的支持度,一个由事件组成的小网络,满足αi,αi≥0,模块,用于扭曲先前的去模糊结果Ii+1,并生成第i个时间步的初始化。虽然Eqn. (6)通过事件集成实现这一点,我们发现它更有效Σki=−k αk= 1。通过以下方式获得过滤结果:Σk来预测一个我们直接扭曲干净的结果Ii+1作为附加指导。运动补偿G(p)=i=−kαks(p+λkd(p,c(p)),c(p)+λk),(9)3326我我我我1Ti=1i损失函数。我们使用以下联合损失函数:Ltotal=Lcontent+λaLadv+Lflow+λtLtv,(12)在这里,L内容G是光度计损失1千吨ǁI∗ −其中,Ig是地面实况干净图像。提高图3.自适应事件采样的动机(a)一个玩具场景,上面的线首先向下移动,然后底线向上移动。具有正极性和负极性的事件分别显示为红点和绿点(二)投影图像结果的清晰度,我们还结合了一个对抗性的损失我们使用相同的PatchGAN模型[13],并严格遵循其原始损失定义。该网络引入了另外两个损失项。第一个L流是光度重建损失:成像过程后的场景。场景边界对应于最新触发的事件,其可针对不同位置而变化,如箭头所指示(c)事件累积图L流量=1T−1TΣ−1。ǁωi=1∗一期+1Σ,Fi→i+1 -Ig,(13)其中,ω(·,·)是用于Ward的后向WardWarping函数,其中λ定义采样步幅(我们使用k= 2,λ=埃克尔斯FL=1T−1 F它是-i→i+1tvT−1i=1i→i+11),s(·,·)表示时空中的采样函数domain. 事件的堆叠事件框架表示形式E i+1,可以将三线性核应用于连续采样[21]。注意,速度d应遵循时空点(p,c(p))处事件的局部运动方向,沿着事件的密度面而不是穿过密度面进行过滤。为了得到局部速度,我们重新使用运动补偿模块预测的运动矢量。我们假设物体速度保持不变,这在本文中大致是正确的,因为只有一小部分持续时间(即,仅1/(T−1)曝光)。 运动补偿给出了所有位置p0∈P在时刻i,d(p0,i).在时间c(p)处,像素p0将被移位到新的位置:n(p0)=p0+(c(p)− i)d(p0,i).(十)注意,在局部恒定性假设下,n(p0)继承p0的速度:d(n(p0),c(p))=d(p0,i)。然而,时间平面c (p )处的位置,即{n(p0)|p0∈P},并不能保证图像空间的完全采样。因此,我们使用Nadaraya-Watson估计器对给定目标p处的速度进行重新采样[4]:Σp0∈Pκ(n(p0)-p)d(n(p0),c(p))Tal Variation Loss for Ewow Field Smoothing.对于这些术语,我们遵循[14]的相同定义。将权重λa和λt设置为0。01和0。05,分别。5. 实验5.1. 实验设置数据集准备。我们使用两个数据集进行评估。首先,我们对GoPro [25]数据集进行评估,该数据集被广泛用于图像运动去模糊,最近被[31]用于基准基于事件的去模糊。为了可靠地合成事件,我们使用开放的ESIM事件模拟器[35]。我们遵循建议的培训和测试分割。模糊图像也通过对附近(数量从7到13变化)帧求平均来正式提供由于缺乏一个大规模的数据集,以评估在现实世界的场景中,基于事件的运动去模糊,我们捕获了一个新的数据集的城市环境,称为模糊DVS,与DAVIS240C相机。它混合了高速事件传感器采用低帧频有源像素传感器(APS)记录180×240的强度图像。因此,APS可能在快速移动中遭受运动模糊。我们收集两个子集进行评估。慢子集由捕获的15246个图像组成具有相对静止的缓慢且稳定的相机运动d( p,c( p))=Σp0∈Pκ(n(p0)-p)、(十一)场景,因此运动模糊很少发生。我们通过对附近的7帧进行平均来合成运动模糊,得到2178其中,内核κ简单地用标准高斯定义,sian这在精神上与计算机图形学中用于表面渲染的“聚集”方法相似等式(11)使用所有p0s来估计每个位置p,这是无效的。实际上,我们只使用位于以p为中心的局部L×L窗口。窗口大小yX(不((我3327L应该考虑到像素,我们发现L= 20足够了。所有建议的步骤都是可区分的,并且可以插入网络进行端到端培训。对模糊图像和清晰序列。通过这种方式,我们可以进行定量基准测试。我们选择了1782对用于训练,396对用于测试。快速子集由总共740帧的另外8个序列组成,在快速移动场景的快速相机移动下捕获,以研究所提出的方法如何一般化到真实运动模糊。然而,没有关于该子集的地面实况数据。方法比较。我们进行了广泛的比较,最近的运动去模糊方法,可用3328GT我们BHAMPN输入表1.GoPro数据集上的单图像运动去模糊性能模型DCP [29]MBR [42][第11话]EVS [15]SRN [43]SVR [52][25]第二十五话MPN [50][31]第三十一话我们PSNR23.5025.3026.0526.9830.2629.1829.0831.5029.0631.79SSIM0.8340.8510.8630.8920.9340.9310.9140.9480.9430.949图4.GoPro数据集上的视觉比较从左到右,我们分别展示了两个模糊图像的示例,MPN [50],BHA [31]和我们的方法的结果,以及地面实况清晰图像放大以获得更好的视图。表2. GoPro数据集上的视频重建性能。[31]第一届中国国际机床展览会[32]产生更清晰、更锐利的效果。请注意,GoPro数据集主要呈现小到中等的数据。* 采用CIE首先重建图像,然后SRN去模糊每个图像的混合详情请参见[31]结果和/或代码。它们包括基于图像的方法:[29],SRN [43]、SVR [52]和MPN [50],以及最先进的基于事件的运动去模糊方法BHA [31]。我们还比较了三种基于事件的视频重建方法,包括CIE [38],MRL [24]和最先进的基于学习的方法ETV [36]。采用PSNR和SSIM方法进行定量评价。实作详细数据。对于这两个数据集,我们的训练采用了2个训练对的批量大小和Adam优化器。该网络被训练了400个epoch,开始时学习率为10−4,从第200个epoch开始线性衰减到零网络的所有组件都是从头开始联合训练的。5.2. 与最新型号的在GoPro数据集上,我们报告了两个单图像去模糊(即,仅恢复中间帧)和视频重建(即,恢复所有清晰帧)。许多其他方法直接取自论文。我们的方法在这两项任务中都取得了最好的成绩,证明了事件辅助去模糊比单纯依赖图像的优势,以及所提出的框架比物理重建模型的优越性我们在图中展示了两个快速移动场景的视觉比较。4:虽然基于图像的方法MPN不能很好地解决这种模糊,但是BHA对事件的噪声敏感,特别是沿着对象边缘。我们的方法强大的架构SRN和MPN得到非常有希望的结果,尽管它们没有看到事件。出于这个原因,我们将我们的方法与建议的Blur-DVS数据集上的最先进的方法进行比较,其中严重的运动模糊更普遍。同样,我们报告了单个图像去模糊(表3)和视频重建(表4)任务的结果。请注意,为了进行公平的比较,基于学习的方法SRN,MPN和ETV在Blur-DVS的训练集上进行了微调。我们还将其与同时看到图像和事件的增强版本进行比较:对于基于图像的方法SRN和MPN,我们将输入模糊图像与每个时间间隔中的所有48(8)个装仓帧连接,(7-1)间隔)事件帧。对于基于事件的方法ETV,我们还将模糊图像与事件一起到它的每一个循环重建步骤。我们将这些变体分别表示为SRN+、MPN+和ETV+。在表3和表4中,所提出的方法实现了最佳结果。它的性能也优于所有增强的变体,证明了所提出的框架的有效性。图5示出了:1)在快速运动的情况下,仅基于图像的提示是不够的,限制了MPN的性能; 2)物理模型BHA容易受到噪声的影响,并且由于事件的有损采样机制而呈现未解决的模糊; 3)基于事件的重建方法CIE、MRL和ETV由于缺乏图像引导和/或简化的物理模型而不能正确地恢复场景对比度。我们的方法不会遇到上述问题,甚至比配备强大架构的增强型图像+事件变体更清晰。最后,我们分析了该算法对真实世界运动模糊的泛化行为.如图6、建议的AP-PSNR25.8426.3425.6228.4929.67估计运动模糊,因此模糊输入具有良好的质量,SSIM0.7900.8090.8560.9200.927从事件中得到的改善是微不足道的。因此最近3329GT输入CieMPNMRLMPN+BHAETV我们ETV+我们BHAMRLCieGTETV+ETVMPN+MPN输入表3.Blur-DVS数据集上的单图像去模糊性能模型[25]第二十五话SRN [43] 公司简介MPN [50]MPN+MPN国际照明委员会[38]MRL [24] ETV [36]ETV+电视[31]第三十一话我们PSNR20.4820.2124.9223.5226.0819.0210.5916.8924.8122.4326.48SSIM0.5720.5670.8210.7530.8310.4780.1950.5970.7900.7150.839*SRN+、MPN+和ETV+分别表示SRN、MPN、ETV的增强版本详情见正文图5.通过不同方法在Blur-DVS数据集的慢子集上生成的两个示例的代表性结果更多的结果可以在我们的补充材料中找到。放大以获得更好的视图。表4.Blur-DVS数据集上的视频重建性能[31]第24话:我的世界,我的世界[32]峰值信噪比18.9410.5716.6024.10 二十二点零六分25.33SSIM 0.4730.1940.5870.777 0.六九九0.827Proach实现了最佳的视觉质量。我们怀疑,运动去模糊的显式建模和强去模糊先验的引入可以减轻学习困难,并避免在更多黑盒架构中的潜在过拟合。在实践中,我们发现这种改进与真实数据一致,正如我们的补充材料中提供的快速5.3. 性能分析分析不同的成分。我们分离出重要的算法组件,以查看它们对最终性能的贡献,并在表5和图5中总结了结果。7.如图所示,每个分量都是提高结果的PSNR和SSIM 所 必 需 的 。 仅 使 用 图 像 外 观 而 不 使 用 事 件(App.)不能很好地消除图像的模糊。另一方面,只使用事件,恢复了大量的细节,但强度对比度没有很好地恢复(见图1)。7表5. Blur-DVS数据集上的成分分析。“应用程序”而“MC”and “DEF” refer to the motion compensation附录事件+MC+DEFPSNRSSIM✓✗✗✗16.500.418✗✓✓✗16.380.560✓✓✗✗23.390.760✓✓✓✗24.710.786✓✓✓✓25.330.827(b))。使用两个输入信号(App.+事件)获得了更好的 结 果 , 但 是 由 于 噪 声 ( 例 如 , 图 中 的 地 面 。 7(c))。进一步结合运动补偿(+MC)在这些方面有所帮助,因为它带来时间平滑性。最后,进一步引入方向事件过滤模块(+DEF),由于学习的边界指导,可以生成更清晰的结果和更丰富的细节。DEF模块的理由。在表6中,我们证明了所提出的定向事件过滤模块的必要性。这里,“w/o guid.”在整个管道中不包括边界指导相反,3330我们ETVMPNCieMRL事件BHAETV+MPN+输入图6.通过不同方法在Blur-DVS数据集的快速子集(真实世界运动模糊)上生成的代表性结果更多的结果可以在我们的补充材料中找到。放大以获得更好的视图。(a) 附录(d)+MC(b) 事件(e)+DEF(c) 附录+事件(f)GT(a) 累积事件(d)无指导的结果(b) 边界制导(e)结果和指导(c)时间中心(f)地面实况图7.可视化分析DVS-Blur数据集上不同组件的贡献详情见正文表6.分析DV S-Blur数据集上的定向事件滤波模块。详情见正文模型向导。只不带指南。充分+param.PSNR25.1624.7125.3324.64SSIM0.8160.7860.8270.788只有”。在每个顺序的去模糊步骤中丢弃事件特征,同时仅使用边界引导作为附加提示。我们进一步设计了一个变体“+param.",其不包括DEF,但是在过程网络的编码器中具有超过当前参数大小的附加卷积层。结果表明,学习的边界引导大大提高了估计(从0。786比0827在SSIM),本身没有其他线索已经可以导致有希望的结果。然而,简单地扩大网络规模并不能观察到有意义的改善.在图8中,我们可视化了学习的边界引导的影响。请注意网络如何根据场景的运动学习选择不同的时间中心(图1)。8(c))。边界引导显著提高了场景的清晰度,并恢复了丢失的细节(图1)。8(e)和(f))。低光摄影所提出的方法的潜在应用是低光摄影,如图9所示。短曝光(13ms)图像是光饥饿的。长曝光(104毫秒),但是,可能会遭受严重的运动模糊。利用事件线索,我们的方法生成自然的结果,而没有这种模糊。图8.视觉化学习的边界指导。注意如何在注意力图(c)中选择来自不同时间戳的运动边界(红色表示大值,蓝色表示小值)。(a)短期暴露(b)长期暴露(c)事件(d)我们的结果图9.使用我们的方法进行低光摄影利用DAVIS240C摄像机在室内场景中拍摄图像和事件6. 结论在这项工作中,我们提出了从一个严重的运动模糊的图像事件的协助下提取视频。为此,提出了一种新的深度学习架构,以在全局和局部粒度上有效地融合外观和运动线索。此外,尖锐的事件边界引导提取,以改善重建的细节与一个新的方向性事件滤波模块。广泛的评估表明,所提出的方法实现了优越的性能比各种现有的图像和基于事件的方法,在合成和真实世界的数据集。鸣谢。我们感谢评论者的宝贵反馈。 北京市博士后研究基金(批准号:)的资助. ZZ-2019-89),国家重点&研发项目合同编号:2017YFB1002201,国家自然科学基金杰出青年基金(批准号:61625204),国家自然科学基金重点项目(批准号:2017YFB1002201)资助61836006)。3331引用[1] A. Andreopoulos,H. J. Kashyap,T. K.纳亚克A. Amir和M. D.弗里克纳低功耗、高吞吐量、完全基于事件的立体声系统。在IEEE计算机视觉和模式识别会议(CVPR),第7532[2] Y. Bahat,N. Efrat和M.伊拉尼通过重模糊实现非均匀盲去模糊在IEEE国际计算机视觉会议,第3306-3314页[3] P. Bardow,A.J. Davison和S.罗伊特内格从事件照相机的同时光学流和强度估计在IEEE计算机视觉和模式识别会议,第884-892页[4] H. J. 比伦斯Nadaraya-Watson核回归函数估计。SerieResearch,(0058),1988.[5] C. 布兰德利河Berner,M.杨,S.-C. Liu和T. Delbruck。240 × 180 130 db 3 µ s延迟全局快门时空视觉传感器。IEEE Journal of Solid-State Circuits,49(10):2333[6] A.查克拉巴蒂盲运动去模糊的神经方法。在欧洲计算机视觉会议(ECCV),第221-235页[7] S. Cho和S.李你快速运动去模糊。ACM Transactions onGraphics,28(5):145,2009。[8] J. Dong,J.潘,智-地苏和MH. 杨盲图像去模糊与离群处理。在IEEE国际计算机视觉会议(ICCV),第2497[9] A. Doso vitski yP.Fischer,E. Ilg,P.Hausser,C.哈兹尔巴斯湾Golkov,P.van der Smagt,D.Cremers和T.布洛克斯 Flownet : 使 用 卷 积 网 络 学 习 光 流 在 IEEEInternationalConferenceonComputerVision(ICCV),第2758-2766页[10] G. 加列戈河Rebecq和D.斯卡拉穆扎一个统一的对比度最大化框架的事件相机,与应用程序的运动,深度和光学光流估计。在IEEE计算机视觉和模式识别会议上,第3867-3876页[11] D. 龚,J。扬湖,澳-地Liu,Y.张岛D. 里德角Shen,中国古猿A.Hengel和Q.石从运动模糊到运动流:用于去除异构运动模糊的深度学习解决方案。在IEEE计算机视觉和模式识别会议(CVPR),第3806-3815页[12] M. 赫希角 J. Schule r,S. Harmeling和B. Schoülkopf.快速消除不均匀的相机抖动。在IEEE计算机视觉国际会议(ICCV),第463-470页[13] P. Isola,J.- Y. Zhu,T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议中,第5967-5976页[14] H. Jiang , 中 国 粘 蝇 D. Sun , V. Jampani , M.- H.Yang,E. G. Learned- Miller,and J.考茨超级斯洛莫:用于视频内插的多个中间帧的高质量估计。在IEEE计算机视觉和模式识别会议中,第9000-9008页[15] M. Jin,G. Meishvili和P.法瓦罗 学习从单个运动模糊图像中提取视频序列。在IEEE计算机视觉和模式识别会议(CVPR),第6334-6342页,2018年。[16] T. H.金湾,澳-地Ahn和K. M.李你动态场景去模糊。IEEEInternationalConferenceonComputerVision(ICCV),第3160-3167页[17] Y.-- S. 何湖Wang,S.M. Mostafavi和K.-J. 尹使用条件生成对抗网络的基于事件的高动态范围图像和甚高帧率视频生成2019年。[18] W.- S. 赖 , J. -B. Huang 、 O.Wang , 中 国 山 核 桃E.Shechtman,E.Yumer和MH. 杨学习盲视频时间一致性。在欧洲计算机视觉会议上,第179- 195页[19] P.Lichtsteine r , C. Posch 和 T.Delbruck 。128×128120db 15 µ s延迟异步时间对比视觉传感器。Journal of Solid-State Circuits,43(2):566[20] M. Liu和T.德尔布鲁克。动态视觉传感器的时间片块匹配光流算法。在英国机器视觉会议(BMVC),第88页,2018年。[21] Z. 柳河,巴西-地A. 是的X唐,Y。Liu和A.阿加瓦拉使用深体素流的视频帧合成在IEEE国际计算机视觉会议(ICCV),第4473[22] T. Michaeli和M.伊拉尼使用内部补片递归盲去模糊。在欧洲计算机视觉会议,第783-798页[23] A. 米特罗欣角Fer müller,C.Paramesh wara和Y.再见-莫诺斯。基于事件的运动目标检测与跟踪。在IEEE/RSJ智能机器人和系统国际会议,第1-9页[24] G. 蒙达角Reinbacher和T.Pock 使用流形正则化的事件相 机 的 实 时 强 度 图 像 重 建 International Journal ofComputer Vision(IJCV),126(12):1381[25] S.不T H. Kim和K. M.李你用于动态场景去模糊的深度多尺度卷积神经网络。在IEEE计算机视觉和模式识别会议中,第257-265页[26] T. M. Nimisha ,A. K. Singh 和A. N.拉贾哥普兰Blur-Invariant Deep Learning for Blind-Deflurring. 在 IEEE国际计算机视觉会议(ICCV)中,第4762-4770页[27] M. 诺鲁齐山口Chandramouli和P.法瓦罗运动去模糊-环在野外。在德国模式识别会议中,第65-77页[28] J. Pan,J.董,Y-W. 泰岛苏和MH. 杨学习判别数据拟合函数用于盲图像去模糊。在IEEE国际计算机视觉会议,第1077-1085页[29] J. - S. Pan,D.孙,H. P,M.- H.杨使用暗通道先验的盲图像去模糊。在IEEE计算机视觉和模式识别会议(CVPR),第1628-1636页[30] L.潘湾,澳-地戴,M. Liu和F.波里克利同时进行立体视频去模糊和场景光流估计。在IEEE计算机视觉和模式识别会议(CVPR)中,第6987-6996页3332[31] L.潘角,澳-地Scheerlinck,X.于河,巴西-地哈特利,M。Liu和Y.戴. 使用事件摄像机以高帧率拍摄模糊帧在IEEE计算机视觉和模式识别会议,2019。[32] H. Park和K. M.李你从模糊图像序列联合估计相机姿态、深度、去模糊和超分辨率在IEEE国际计算机视觉会议(ICCV),第4623-4631页[33] S.皮尼湾,澳-地博尔吉河Vezzani和R.库奇亚拉学习通过事件观看:来自事件相机的RGB帧合成ArXiv预印本arXiv:1812
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 多传感器数据融合手册:国外原版技术指南
- MyEclipse快捷键大全,提升编程效率
- 从零开始的编程学习:Linux汇编语言入门
- EJB3.0实例教程:从入门到精通
- 深入理解jQuery源码:解析与分析
- MMC-1电机控制ASSP芯片用户手册
- HS1101相对湿度传感器技术规格与应用
- Shell基础入门:权限管理与常用命令详解
- 2003年全国大学生电子设计竞赛:电压控制LC振荡器与宽带放大器
- Android手机用户代理(User Agent)详解与示例
- Java代码规范:提升软件质量和团队协作的关键
- 浙江电信移动业务接入与ISAG接口实战指南
- 电子密码锁设计:安全便捷的新型锁具
- NavTech SDAL格式规范1.7版:车辆导航数据标准
- Surfer8中文入门手册:绘制等高线与克服语言障碍
- 排序算法全解析:冒泡、选择、插入、Shell、快速排序
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功