事件引导的多潜在帧重建与超分辨率

12 浏览量更新于2023-10-15 收藏 22.6MB PDF 举报

超分辨率

事件相机

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

48820EvIntSR-Net：事件引导的多潜在帧重建和超分辨率0Jin Han 1 Yixin Yang 2 Chu Zhou 1 Chao Xu 1 Boxin Shi 2, 3, 4 �01机器感知（MOE）重点实验室，北京大学机器智能系2计算机科学与技术系，NELVT，北京大学 3人工智能研究院，北京大学4北京人工智能研究院0摘要0事件相机检测场景辐射变化并发送一系列异步事件流，具有高动态范围、高时间分辨率和低延迟。然而，事件相机的空间分辨率受到限制，这是对这些出色特性的权衡。为了从事件数据中重建高分辨率强度图像，我们在本文中提出了EvIntSR-Net，它将事件数据转换为多个潜在强度帧，以实现强度图像的超分辨率。EvIntSR-Net弥合了事件流和强度帧之间的领域差距，并学习以递归更新的方式合并一系列潜在强度帧。实验结果表明，EvIntSR-Net能够通过将事件与强度帧融合来重建具有更高动态范围和更少模糊伪影的SR强度图像，适用于模拟和真实世界数据。此外，所提出的EvIntSR-Net能够生成具有超分辨率帧的高帧率视频。01. 引言0具有生物启发式硅视网膜传感器的事件相机与传统基于帧的相机工作方式完全不同。非传统的传感器设计使它们能够以异步方式测量场景辐射变化[12，31]，而不是以固定帧率捕获图像。事件相机以对数尺度检测场景中的亮度变化，并发送一系列事件数据，这些数据是亮度变化的二进制有符号记录（“+1”表示亮度增加，“-1”表示亮度减少）。事件传感器的特殊属性包括：非常高的动态范围（HDR，高达140dB），高时间分辨率（微秒级），低延迟和低功耗。最新的动态和主动像素视觉传感器（DAVIS[4]）将传统的主动像素传感器（APS）与0�通讯作者：shiboxin@pku.edu.cn0eSL-Net 4x SR我们的4x SR APS帧4x双三次插值0图1：eSL-Net[40]和我们在真实数据上的重建结果的4×超分辨率示例。它们都以APS和事件数据作为输入。0事件传感器可以与事件数据同时捕获强度帧。然而，大多数可用的事件相机的空间分辨率较低（例如DAVIS240为240×180，DAVIS346为346×260），部分原因是考虑到数据传输效率。事件数据包含可以用于重建高质量强度图像的视觉信息。以前的重建方法[32，35，41]只能实现受事件相机空间分辨率限制的低分辨率（LR）强度重建。然而，具有更高质量（更多结构细节，更高动态范围，更少模糊伪影）的高分辨率（HR）强度图像对许多其他基于事件的视觉任务（例如对象识别[6]，检测[3]，跟踪[2]等）有重要贡献。因此，通过事件引导的强度图像超分辨率（SR）具有实际意义。可以通过几种方式实现事件相机的强度图像超分辨率。一种方法是首先将事件数据E转换为强度图像I[32，35，48830[19，39，48]在相同的空间尺度上，然后使用现有的SR方法[19，39，48]获得SR结果S。这种方法可以表示为：0S = ↑ (Γ(E)), (1)0其中↑（）和Γ（）分别表示SR操作和从事件到强度图像的转换。另一种方法是直接对LR事件流进行超分辨率重建HR强度图像，无需强度帧的辅助[7，42]，其表达式如下所示：0S = ↑ (E). (2)0此外，可以将混合信号（例如APS图像ˆI和事件数据E）作为输入，实现强度图像的空间分辨率增强[40]：0S = Γ ↑ (ˆ I, E), (3)0其中Γ↑（）表示联合重建和超分辨率操作。然而，描述为方程（1）�方程（3）的三种基于事件的强度图像SR存在一些缺点。首先，方程（1）严重依赖于Γ（）的性能，因为事件上采样和独立的强度数据之间存在领域差距。其次，方程（2）不考虑强度信息。忽略APS帧中忠实记录场景辐射度的强度信息，会导致重建视频的细节较少和强度不稳定。第三，像方程（3）一样，[40]的方法同时实现图像去模糊、去噪和SR可能无法产生高质量的图像，因为不同的退化问题是由不同的原因引起的，如图1所示。在本文中，我们提出了将强度帧与事件数据融合以实现强度图像的高质量超分辨率的方法，利用混合类型的输入数据提供的信息。APS帧在每个像素处记录了场景的空间辐照度和丰富的语义信息，而事件数据则编码了物体边缘上的快速时间辐照度变化。静态强度值和动态事件彼此互补。我们将SR问题转化为更好的多图像版本，如方程（4）所述：0S = ↑ Σ � ˆΓ(ˆ I, E i) �, (4)0其中↑Σ（）表示多图像超分辨率（MISR）运算符。ˆΓ（）与Γ（）不同之处在于，从事件数据到多个潜在强度帧的转换是在APS的辅助下进行的，i是不同批次事件的索引。因此，我们提出了EvIntSR-Net，一个神经网络，学习将事件数据转换为多个潜在强度帧。0为了重建高分辨率强度图像，需要多帧来实现SR。如方程（4）所述，这样的合并过程可以分为两个步骤：1）事件表示低质量APS帧到高质量潜在帧的残差。给定APS帧及其前后事件流，我们可以重建具有更高动态范围和更清晰细节的多个潜在帧。2）然后，可以将重建的潜在帧视为视频帧序列，从而通过MISR增强目标APS帧的分辨率。EvIntSR-Net由两个子网络组成：潜在帧重建网络（LFR-Net），用于估计强度帧之间的残差并重建多个潜在帧；以及多图像融合网络（MIF-Net），首先解决潜在帧之间的不对齐问题，然后学习以递归更新的方式有效地合并它们。对合成数据以及真实世界数据（例如DAVIS346）进行了大量实验证明，与现有方法相比，EvIntSR-Net可以成功地重建2×和4×超分辨率的高保真度强度图像。图1显示了一个示例，与eSL-Net[40]相比，EvIntSR-Net（我们的方法）在由真实事件相机捕获的图像上的4×SR中恢复了更清晰的边缘和更丰富的结构细节。除了图像SR，EvIntSR-Net还可以生成具有SR帧的高帧率（HFR）视频。02. 相关工作02.1. 强度图像超分辨率0强度图像超分辨率算法可以分为两类：单图像超分辨率（SISR）和多图像超分辨率（MISR）方法。在本节中，我们专注于MISR方法，因为我们的方法属于这个类别。请参考[30,44]中的综述，了解SISR方法的概述。MISR方法旨在从一系列帧中提取时间信息和上下文特征，通常在恢复丢失细节方面更加成功。以前的方法[5, 13, 20, 25, 26,46]通常计算光流并执行基于图像配准的运动补偿，以获得对齐良好的帧，然后使用卷积神经网络（CNN）将它们融合以获得高分辨率结果。然而，这些基于光流的方法仍然具有有限的性能，因为它们依赖于准确的运动估计，而运动补偿会在图像结构周围引入不希望的伪影。此外，一些方法[23,38]利用3D卷积从连接的帧中提取特征，而无需任何显式对齐。然而，由于不正确对齐引入的噪声，特别是在边缘上，会影响重建结果。而且3D卷积需要巨大的计算资源。,(5)48840除此之外，一些MISR方法[39,43]通过使用可变形卷积滤波器[9]进行隐式运动补偿，改变滤波器的配置以处理几何变换。EDVR[43]在多个层次提取两个帧的特征，并计算可变形卷积滤波器的特征图之间的偏移量，然后使用可变形卷积将相邻帧变形到目标帧。02.2. 基于事件的超分辨率0由于事件相机受到其低空间分辨率的限制，一些研究专注于事件流在空间和时间域的超分辨率。Li等人[22]使用泊松点过程模拟事件序列，并根据非齐次泊松过程对事件进行采样。EventZoom[11]收集了一个多分辨率事件数据集，并使用噪声到噪声的方式学习事件信号的去噪和上采样映射。Wang等人[45]提出了引导事件滤波（GEF），它构建了一个混合相机，并利用高分辨率RGB信号指导事件的上采样。从事件数据中重建强度图像已经以多种方式进行了开发[1, 8, 18,32,41]。所有这些方法都以与事件数据相同的空间分辨率重建强度图像。为了实现更高分辨率的强度图像，Mohammad等人[7]使用递归神经网络为SR逐步添加细节到强度帧。Wang等人提出了一个名为EventSR[42]的三阶段重建网络，它使用无监督对抗学习来上采样增强的强度图像。为了恢复高质量的HR图像，Wang等人提出了eSL-Net[40]，一种事件增强稀疏学习网络，同时解决去模糊、去噪和超分辨率问题。03. 提出的方法0在第3.1节中，我们首先阐述了事件数据生成的物理模型以及强度帧和事件数据之间的关系。然后我们描述了事件引导的图像超分辨率模型，该模型可以看作是一个两阶段的过程：1）潜在帧重建，2）多图像融合。在第一阶段，我们利用当前APS帧及其相邻的事件数据重建多个潜在帧。然后我们合并潜在图像以实现高分辨率强度图像重建。为了实现高质量的事件引导图像超分辨率，我们在第3.2节中提出了EvIntSR-Net，该网络根据这两个阶段的过程进行设计。第3.3节和第3.4节分别描述了数据集生成和训练策略的细节。03.1.公式03.1.1事件数据和强度帧的物理模型0当对数强度变化超过分派的阈值θ时，触发事件数据e i（xi，y i，t i，pi），其中i表示流中事件的索引，x和y是事件的空间坐标，t表示触发时间戳，p∈{−1，+1}是指示强度变化的增加或减少的极性。事件传感器E t的输出可以用以下方式表示0E t（x，y）= Φ0�0对数0� I t（x，y）+ ϵ t0I t − 1（x，y）+ ϵt − 10�0，θ0�0其中It是捕获的强度值，ϵ是防止除以零的偏移值。Φ{α，θ}表示事件生成的条件。当α≥θ时，会生成正事件，而α≤−θ会触发负事件。给定两个连续捕获的强度值I t i和I tj，在时间段t i→tj期间它们之间的强度变化触发的事件表示为E t i→tj。根据事件生成的物理模型，I t i和I tj之间的关系可以表示为0I t j = I t i ∙ exp � θ � E t i → t jdt �0= I t i ∙ Res t i → t j，（6）0其中Res t i → tj是两个强度帧之间的残差，它是从时间段内的积分事件计算得出的。因此，给定当前强度帧及其相邻的事件流，可以使用Eq.（6）重建潜在帧。03.1.2由事件数据引导的图像超分辨率0我们的目标是通过邻近事件数据提供的信息对强度图像It进行超分辨率处理。事件流表示对数强度变化，它们是稀疏且具有不同类型的数据格式。因此，通过直接融合事件数据和强度图像来弥合领域差异是困难的。正如Eq.（4）所述，我们将该过程分为两个步骤。首先改善模糊且具有低动态范围（LDR）的APS帧质量。然后，通过估计潜在帧与当前It之间的残差，将邻近事件流转换为强度域中的潜在帧。潜在帧的数量取决于事件的数量和我们选择的时间段。使用重建的潜在帧，我们可以将此问题视为MISR过程。为了避免幽灵伪影，首先将潜在帧变形到改进的I t。然后我们融合)48850LFR-Net0事件流�"！事件流�＃！0�0#�和$0#�！%0#�和"0潜在帧0MIF-Net0SR结果0�！0�（�！/（/&0⊕0�＃0⊕0/（/&0#��！/（/&0可变形0SR结果�！0卷积块0MIF-Net0LFR-Net0块0级联反馈0重新排列0亚像素0#，�和#}0{�！#，0#{�！#，�（0�0{-�！#，�（0#，�和#}0{-�！#，0#，-�和#}0（LDR和模糊）0（HDR和锐化）0双线性0插值0图2：EvIntSR-Net的流程。左：我们提出的方法的MISR过程，由潜在帧重建和多图像融合组成。输入是中心APS帧It，它具有低质量（LDR和模糊），以及其相邻的事件流E t − / +。输出是增强的APS帧的SR结果St，它在空间分辨率、动态范围和清晰度方面得到改善。右：LFR-Net和MIF-Net的详细架构。0以迭代方式堆叠帧以获得超分辨率重建结果。03.2.网络架构0EvIntSR-Net的网络架构如图2所示。EvIntSR-Net以低分辨率强度帧I t及其相邻的事件流E t − /+作为输入，其中“-”和“+”表示强度帧的前面和后面的事件流。03.2.1潜在帧重建0使用从相邻事件数据估计的强度残差重建潜在帧。然而，直接堆叠事件数据并与It相乘会在边缘产生振铃伪影。因此，我们提出了通过潜在帧重建网络（LFR-Net）估计强度残差并重建潜在帧。由于事件流在空间域中的稀疏性，我们需要建立强度帧和事件数据之间的关系。因此，我们将流状事件转换为帧状表示，这样可以轻松地通过卷积滤波器进行处理。然而，简单地堆叠一系列事件以形成帧状张量并不是一个合理的表示。无论是[41]中提出的基于时间的（SBT）还是基于数量的（SBN）堆叠，它们都忽略了重要的时间戳信息，并且极性可能在像素中被抵消。为了保持时间信息并将其编码到事件张量中，我们选择使用时空体素网格[49]作为表示格式，其中B为10个时间分块。LFR-Net以一系列体素网格V（E t −/ 0 / +）和APS帧I t作为输入，其中V（E t0）表示APS帧周围的前后事件的组合。LFR-Net的基本架构是一个U-Net[33]，分别对 I t 和 V（E t − / 0 / +）进行不同的编码器。从 I t提取的特征图在不同尺度上与来自 V（E t − / 0 /+）的特征图连接，并通过SE块[14]进行激活以估计更准确的强度残差。跳跃连接帮助LFR-Net的解码器融合编码器的特征图，并输出每个体素网格V（E t − / 0 / +）的1通道强度残差Res t − / 0 /+。然后，通过元素逐个相乘 � I t 和 Res t − / 0 / + 可以重建潜在帧 L t− / 0 / +。最后，通过Sigmoid()函数激活产品，将强度值限制在[0,1]的范围内，如公式（7）所示：0体素网格[49]作为表示格式，具有10个时间分块B。LFR-Net以一系列体素网格V（E t − / 0 / +）和APS帧It作为输入，其中V（E t0）表示APS帧周围的前后事件的组合。LFR-Net的基本架构是一个U-Net[33]，分别对 I t 和 V（E t − / 0 /+）进行不同的编码器。从 I t提取的特征图在不同尺度上与来自 V（E t − / 0 /+）的特征图连接，并通过SE块[14]进行激活以估计更准确的强度残差。跳跃连接帮助LFR-Net的解码器融合编码器的特征图，并输出每个体素网格V（E t − / 0 /+）的1通道强度残差Res t − / 0 /+。然后，通过元素逐个相乘 � I t 和 Res t − / 0 / +可以重建潜在帧 L t − / 0 /+。最后，通过Sigmoid()函数激活产品，将强度值限制在[0, 1]的范围内，如公式（7）所示：0L t − / 0 / + = LFR × I t，V（E t− / 0 / 0= Sigmoid（I t � Res t − / 0 / +）。（7）0注意，L t 0是增强的APS帧It，由于HDR属性和高时间分辨率的事件数据，它是去模糊的并包含HDR信息。这里的强度残差Rest与公式（6）中的强度残差具有不同的数学意义，因为在网络训练的最后一层添加了Sigmoid()激活函数。488603.2.2多图像融合0在APS帧和事件数据中编码的结构信息被转换为潜在帧的强度值。给定一系列重建的潜在强度帧{L t −，L t 0，L t+}，超分辨率问题可以被视为MISR过程。因此，我们提出了多图像融合网络（MIF-Net）来合并潜在帧。首先，在通道轴上连接L t − / 0 /+。我们可以将连接的张量视为高帧率视频帧的序列。由于考虑了多个帧，时间对齐在避免融合的下一步中起着关键作用以避免模糊伪影。我们使用可变形卷积层[9]在帧之间进行对齐。我们遵循EDVR[43]网络，在多个金字塔级别中提取不同帧的特征图，并计算它们之间的偏移量以进行对齐。可变形卷积层可以轻松嵌入到我们的网络中，并在没有任何额外监督的情况下进行端到端的训练。对齐的潜在帧表示为：0ˆL t - / + = DC � L t - / +，L t � �，(8)0其中DC(x,y)表示可变形卷积块，它将图像x变形到目标图像y，并计算出偏移量。对齐的多帧{ˆL t -，L t 0，ˆL t+}被馈送到以下过程中的融合层，以通道方式合并它们并重建高分辨率图像。为了重建上采样结果的更细节，我们在这个阶段使用循环卷积网络。循环结构在每次迭代中通过输入特征图调节隐藏状态，以重建更细节的图像。我们应用具有密集连接的反馈块[24]，它在隐藏状态中保留了先前迭代的重建细节，并在下一次迭代中与特征图融合。反馈块输出SR结果S t 与LR增强的APS帧L t 0之间的残差。因此，最终的超分辨率强度图像S t是残差和插值增强帧L t 0 ↑的总和，可以表示为：S t = MIF� L t -，L t �，L t + �0= FB � ˆL t -，L t �，ˆL t + � ⊕ L t � ↑，(9)0其中FB()和⊕分别表示反馈块和逐元素相加。这里我们使用双线性插值从L t 0得到L t 0↑。FB()的残差特征图通过周期性洗牌运算符[36]重新排列，以匹配L t 0↑的大小。由于EvIntSR-Net以逐帧的方式重建SR强度图像，因此自然地扩展到视频重建。SR视频的帧率由0合并事件的数量。因此，我们可以通过插值更多的潜在帧来生成高分辨率的高帧率视频。03.3. 数据集准备0考虑到所提出网络的端到端训练，我们需要一个足够的数据集，其中包括LR强度图像I T ={I 0，...，I t}和相邻事件序列E T - / + = {E 0 -，E 0 +，...，E t -，E t+}的输入。真值是HR强度图像H T = {H 0，...，Ht}。然而，目前没有一个包含相应HR强度图像的LR事件数据的公共大规模数据集。而且，APS和事件数据在DAVIS传感器中的空间分辨率都很低。因此，如果我们使用真实事件传感器收集数据集，就无法获得HR强度图像作为真值。因此，我们使用合成数据集来训练我们的网络，就像之前的工作[7，32]中所做的那样。我们选择事件模拟器V2E[10]来生成任意空间分辨率的事件数据。V2E[10]使用准确的DVS模型从任何真实或合成的基于帧的视频中合成逼真的事件数据，它可以选择使用Super-SloMo[15]来提高标准相机视频的时间分辨率。由于从Super-SloMo[15]插值得到的合成帧严重依赖于预训练模型，我们使用高帧率（240FPS）和高分辨率（1280×720）的视频（例如Need forSpeed[17]和GoPro[29]数据集）作为输入源而不进行帧插值。因此，高分辨率强度图像HT0可随时获得。为了模拟真实的APS帧IT，我们将视频的帧大小降采样到128×128，使用V2E[10]生成LR事件流E T - /+。然后，我们通过乘以随机曝光并平均几个连续帧来给清晰帧引入LDR和模糊伪影。相应的清晰HR强度图像H T简单地降采样到256×256或512×512，根据训练的放大因子（2×或4×）。一个240FPS的源视频被视为每秒具有30个APS帧。其他帧被视为潜在帧的真值，如图3所示。合成数据集有3828个{I T，E T - / +，HT}数据元组，由132个视频序列生成。为了提高EvIntSR-Net对真实事件数据的泛化能力，我们在生成事件时随机设置正负对比度阈值θ，根据均值为0.15，标准差为0.03的正态分布进行采样。03.4. 训练策略03.4.1 损失函数0在训练过程中有三个基本的损失函数。ℓ1损失Lℓ1，ℓ2损失Lℓ2和感知损失[16]Lperc。Lℓ1和Lℓ2分别计算输出与真实值之间的平均绝对误差（MAE）和均方误差（MSE）。Lperc基于由在ImageNet[34]上预训练的VGG-16网络[37]提取的图像的特征图定义：......where φh denoteslayer of VGG-16, Gφh is the Gram matrix of feature maps φhof two input images. Both of the two parts are computed byℓ2 norm. The layers we use to compute Lperc are ‘relu4 3’and ‘relu5 3’ of VGG-16 network in our experiments.For LFR-Net, we aim to output intermediate latentframes with more additional details for multi-frame fusion.The loss function is a combination of Lℓ1 and Lperc:48870APS帧事件流事件流0潜在帧0图3：顶行：高帧率视频[17]的潜在帧。底行：由V2E[10]生成的事件流和通过降级（LDR和模糊）一些这些潜在帧的模拟APS帧。0h0Lperc = λ0||φh(S) - φh(H)||^2_20λ，(10)0L LFR = α1Lℓ1 + α2Lperc，(11)0其中α1和α2是不同损失的权重，分别设置为100.0和5.0。至于MIF-Net，使用ℓ2范数作为正则化器使得SR结果更加平滑。因此，我们选择Lℓ2和Lperc作为MIF-Net的损失函数：0L MIF = β1Lℓ2 + β2Lperc，(12)0其中β1和β2分别为200.0和3.0。03.4.2 实现细节0所提出的网络使用PyTorch实现，使用NVIDIA 2080 TiGPU。我们的框架是一种端到端的学习方法。我们不是同时训练整个网络，而是进行阶段性训练以提高学习效率。首先，使用潜在帧的监督对LFR-Net进行预训练。在第二阶段，固定LFR-Net的参数，并使用LFR-Net的输出来训练MIF-Net。每个子网络都训练了200个epoch。我们使用ADAM优化器0优化器[21]的初始学习率为10^-5。在前160个epoch之后，学习率在最后40个epoch线性衰减为0。04. 实验结果0我们将提出的方法与几种最先进的图像超分辨率方法进行比较。由于只有少数几项工作旨在为事件相机重建SR图像，因此我们还与一些基于图像的SR方法[13,24]进行比较。下面列出了比较的方法：01）eSL-Net[40]，它从APS和事件数据中重建HR强度图像。02）E2SRI[7]直接使用纯事件数据作为输入来重建HR强度图像。03）EV [32]+SISR [24]，它首先通过E2VID[32]从事件流中重建强度图像，然后使用经过训练的SISR网络[24]进行超分辨率处理。04）APS+MISR[13]是一种多图像超分辨率算法，输入是目标APS及其相邻的7个强度帧。我们可以将方法1）视为方程（3）的实现。方法2）直接从事件流中重建SR强度图像，与方程（2）的类别相同。方法3）将SR过程分为两个步骤，如方程（1）所述。由于基于事件到图像的非学习重建方法[1,28]在[32]中已经进行了比较并显示出较低质量的重建，因此被省略。04.1. 合成数据集上的评估0由于合成数据集中存在地面真实高分辨率图像，我们使用峰值信噪比（PSNR）、结构相似性（SSIM）和学习感知图像块相似性（LPIPS）[47]对合成测试数据集进行定量评估。总共的测试数据集包括841个强度图像和19个高帧率视频序列[17,29]中两个连续帧之间的事件流。表1显示了不同方法在评估指标上的比较。我们的模型在所有指标上都优于其他比较方法。与上述方法相比，定量评估表明，所提出的EvIntSR-Net能够在合成数据实验中以更高的质量重建2×和4×的高分辨率强度图像。图4显示了EvIntSR-Net和其他比较方法的2×和4×SR结果。视觉质量比较显示，强度图像和事件数据的融合可以实现更高质量的图像超分辨率，并具有更多的结构细节。APS帧丢失了HDR信息和清晰的细节，这些信息被编码在事件帧中，如图4的第二列所示。事件数据捕捉到了场景的更多细节，并对48880APS帧事件 GT 我们的方法 E2SRI EV+SISR APS+MISR0事件 GT 我们的方法 eSL-Net EV+SISR APS+MISR0APS帧0图4：EvIntSR-Net和其他最先进的超分辨率方法在合成数据集上进行2×SR（上部分）和4×SR（下部分）的视觉质量比较，包括基于事件的方法：eSL-Net [40]，E2SRI [7]（eSL-Net的2×SR模型权重和E2SRI的4×SR模型权重不可用）和EV[32]+SISR [24]，以及基于图像的MISR方法：APS+MISR[13]。为了参考，APS帧（第一列）和事件堆栈（第二列）使用双三次插值进行上采样到相应的比例。0APS帧 4x双三次插值我们的方法 4x SR eSL-Net 4x SR0图5：EvIntSR-Net（我们的方法）和eSL-Net[40]在由事件相机捕获的真实数据上进行的4×SR比较。为了参考，APS帧使用双三次插值进行上采样。0最终的SR结果。例如，图4中2×SR的字母“W”和4×SR的数字“5”可以通过EvIntSR-Net更好地恢复。然而，eSL-Net [40]没有利用多个潜在帧。E2SRI[7]会产生模糊的边缘。EV [32]+SISR[24]只使用纯事件数据作为输入，没有利用强度图像的辅助，因此超分辨结果是从在对象边缘密集分布的高频事件中估计得到的。重建的图像不稳定，且受到堆栈中收集的事件数量的影响。因为少量事件无法提供足够的重建信息，而在边缘堆叠过多事件会容易产生模糊伪影。MISR[13]方法将相邻的7个APS帧合并以重建0中心目标APS帧，而我们的EvIntSR-Net只利用相邻的2个APS帧之间生成的事件数据。我们使用中心APS帧作为基准图像，不需要来自其他APS帧的任何额外强度信息。与其他方法相比，EvIntSR-Net可以重建更多的结构细节和更清晰的物体边缘。在定性比较和定量评估中，我们的方法优于SISR和MISR方法。04.2. 真实数据集上的评估0在真实世界数据上的重建结果如图5所示。测试样本是使用真实事件相机DAVIS346在各种场景下捕获的。我们将我们的方法与其他方法进行比较。48890表1：在合成数据集上对我们的方法和其他比较方法进行2×和4×SR的定量评估（注意，eSL-Net的2×SR结果不可用，是通过双三次插值从4×结果进行下采样得到的。E2SRI模型的4×SR结果也不可用，因此没有提供其4×结果）。结果显示，我们的方法在所有指标上都优于其他比较方法。本文中↑（↓）表示结果越高（越低）越好。0尺度方法 PSNR ↑ SSIM ↑ LPIPS ↓02 ×0eSL-Net [40] 14.99 0.587 0.354 E2SRI [7] 15.350.547 0.320 EV [32]+SISR [24] 14.73 0.555 0.422APS+MISR [13] 15.69 0.673 0.303 我们的方法23.12 0.776 0.13004 ×0eSL-Net [40] 14.94 0.583 0.465 E2SRI [7] - - -EV [32]+SISR [24] 14.73 0.582 0.516 APS+MISR[13] 15.18 0.609 0.427 我们的方法 23.25 0.7450.2310eSL-Net240FPS030FPS0240FPS0图6：使用4×SR帧生成HFR视频（240FPS）。第一行是来自[27]的30FPSLR视频。底部两行是来自EvIntSR-Net（我们的方法）和eSL-Net [40]的插值SR帧。0与eSL-Net[40]的重建结果相比，SR结果表明了EvIntSR-Net重建更锐利的边缘和更多细节的能力，并且能够处理真实场景中具有挑战性的SR重建，例如HDR场景（我们在屋顶瓦片上的重建在曝光不足的区域恢复了更好的纹理细节）。我们的方法通过重建一系列SR潜在帧来支持HFR视频生成，如图6所示。潜在帧的数量取决于事件bin的数量。我们可以通过将两个连续帧之间的事件分成8个bin来从30FPS视频中重建一个240FPS视频。我们将目标潜在帧放置在一系列潜在帧的中央位置进行超分辨率重建。然后，通过可变卷积滤波器将其他潜在帧与目标帧合并，以实现SR。01 更多HFR视频和SR图像请参见补充材料。0表2：消融研究的定量评估。0PSNR ↑ SSIM ↑ LPIPS ↓0无LFR-Net 22.97 0.769 0.134 无DC对齐 23.08 0.7740.131 无FB块 23.08 0.766 0.151 完整模型 23.12 0.7760.1300与eSL-Net [40]和原始30FPS LR视频相比，240FPSSR视频看起来更流畅，恢复了更多逼真的细节。04.3. 消融研究0为了证明所提出的模型设计的有效性，我们从完整模型中消融不同的模块，并在表2中进行定量评估。首先，可以使用公式（6）直接从APS帧和事件堆栈计算潜在帧。为了证明LFR-Net的必要性，我们去除LFR-Net，并使用从公式（6）重建的潜在帧进行MISR（无LFR-Net）。此外，我们去除了可变卷积块（无DC对齐）和反馈块（无FB块），以验证MIF-Net中潜在帧对齐和循环方式的重要性。05. 结论0本文介绍了如何将事件相机的事件数据与多个潜在强度帧融合，实现SR强度图像的重建。SR过程分为两个步骤：潜在帧重建和多帧融合，它们弥合了事件流和强度图像之间的领域差距，并通过所提出的EvIntSR-Net实现了MISR融合方式的SR重建。对合成数据和真实数据进行了大量实验证明，所提出的方法可以处理HDR场景和模糊伪影，并且优于各种比较方法。0限制和未来工作。我们专注于使用事件数据重建SR强度图像。然而，当相机运动过快时，APS帧容易出现严重的模糊伪影。所提出的EvIntSR-Net在处理大模糊方面能力有限，这是我们未来的研究方向。06. 致谢0该工作得到了中国国家重点研发计划（2020AAA0105200）和国家自然科学基金（61872012、61876007、62088102）的支持。References48900[1] Patrick Bardow, Andrew J Davison, and Stefan Leuteneg-ger. Simultaneous optical flow and intensity estimation froman event camera. In Proc. of Computer Vision and PatternRecognition, 2016. 3, 60[2] Francisco Barranco, Cornelia Fermuller, and Eduardo Ros.Real-time clustering and multi-target tracking usingevent-based sensors. In International Conference onIntelligent Robots and Systems, 2018. 10[3] F. Barranco, C. L. Teo, C. Fermuller, and Y. Aloimonos.Contour detection and characterization for asynchronousevent sensors. In Proc. of Internatoinal Conference on Com-puter Vision, 2015. 10[4] Christian Brandli, Raphael Berner, Minhao Yang, Shih-ChiiLiu, and Tobi Delbruck. A 240 × 180 130 db 3 µ s latencyglobal shutter spatiotemporal vision sensor. Journal ofSolid-State Circuits, 2014. 10[5] Jose Caballero, Christian Ledig, Andrew Aitken, AlejandroAcosta, Johannes Totz, Zehan Wang, and Wenzhe Shi.Real-time video super-resolution with spatio-temporalnetworks and motion compensation. In Proc. of Computer0[6] Marco Cannici, Marco Ciccone, Andrea Romanoni, andMatteo Matteucci. Attention mechanisms for objectrecognition with event-based cameras. In Winter Conferenceon Applications of Computer Vision, 2019. 10[7] Jonghyun Choi, Kuk-Jin Yoon, et al. Learning to superresolve intensity images from events. In Proc. of ComputerVision and Pattern Recognition, 2020. 2, 3, 5, 6, 7, 80[8] Matthew Cook, Luca Gugelmann, Florian Jug, ChristophKrautz, and Angelika Steger. Interacting maps for fast visualinterpretation. In The International Joint Conference onNeural Networks, 2011. 30[9] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, GuodongZhang, Han Hu, and Yichen We. Deformable convolutionalnetworks. In Proc. of Internatoinal Conference on ComputerVision, 2017. 3, 50[10] Tobi Delbruck, Yuhuang Hu, and Zhe He. V2E:从视频帧到逼真的DVS事件相机流. arXiv preprintarXiv:2006.07722, 2020. 5, 60[11] Peiqi Duan, Zihao W Wang, Xinyu Zhou, Yi Ma, and BoxinShi. EventZoom: 学习去噪和超分辨率的神经形态事件. In Proc. ofComputer Vision and Pattern Recognition, 2021. 30[12] Guillermo Gallego, Tobi Delbruck, Garrick Orchard,Chiara Bartolozzi, Brian Taba, Andrea Censi, Stefan Leuteneg-ger, Andrew Davison, J¨org Conradt, Kostas Daniilidis, et al.Event-based vision: A survey. arXiv preprint arXiv:1904.08405,0[13] Muhammad Haris, Gregory Shakhnarovich, andNorimichi Ukita. Recurrent back-projection network f

下载后可阅读完整内容，剩余1页未读，立即下载