视频转事件：利用传统视频数据集合成事件数据来训练事件相机模型

134 浏览量更新于2023-10-25 收藏 17.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Daniel Gehrig∗Mathias Gehrig∗Javier Hidalgo-Carri´oDavide ScaramuzzaDept. Informatics, Univ. of Zurich andDept. of Neuroinformatics, Univ. of Zurich and ETH Zurich1https://youtu.be/0hDGFFJQfmA35860视频转事件：为事件相机回收视频数据集0摘要0事件相机是一种新型传感器，其输出亮度变化以异步的“事件”流的形式而不是强度帧。它们在与传统相机相比具有显著的优势：高动态范围（HDR）、高时间分辨率和无运动模糊。最近，在事件数据上运行的新型学习方法在标准相机无法处理的场景中取得了令人印象深刻的结果。然而，这些方法需要大量的事件数据进行训练，由于事件传感器的新颖性，这些数据很难获得。在本文中，我们提出了一种方法，通过将任何使用传统相机记录的现有视频数据集转换为合成事件数据，来解决这些需求。这样就可以利用几乎无限数量的现有视频数据集来训练为真实事件数据设计的网络。我们在两个相关的视觉任务上评估了我们的方法，即目标识别和语义分割，并展示了在合成事件上训练的模型具有几个优点：（i）它们对真实事件数据具有很好的泛化能力，即使在标准相机图像模糊或过曝的情况下，也能继承事件相机的优秀特性；（ii）它们可以用于在真实数据上进行微调，以改进分类和语义分割的最新技术。0多媒体材料0此项目的代码可在以下网址找到：0https://github.com/uzh-rpg/rpg_vid2e .此外，可以在以下视频中查看定性结果：https://youtu.be/uX6XknBGg0w01. 引言0� 平等贡献0图1.我们的方法将任何大规模、高质量的视频数据集转换为合成事件相机数据集。这使得现有的视频数据集能够为事件相机提供新的和令人兴奋的应用，并解决高质量事件相机数据集的短缺问题。在这些合成事件上训练的网络能够惊人地推广到真实事件上。通过利用事件相机的高动态范围和缺乏运动模糊的特点，这些网络可以推广到标准视频帧过曝或模糊的情况。最好以彩色查看。0它们测量强度的变化，而不是以固定速率捕捉图像，它们在发生变化的时间上异步地测量强度的变化。这导致了一系列的事件，这些事件编码了亮度变化的时间、位置和极性（符号）。与传统相机相比，事件相机具有非常高的动态范围（140 dB对比60dB），不会受到运动模糊的影响，并且提供的测量具有微秒级的延迟。因此，在高速和高动态范围（HDR）场景等标准相机难以处理的条件下，它们是一种可行的替代或补充传感器。然而，由于事件相机的输出是异步的，现有的为标准相机开发的计算机视觉算法不能直接应用于这些数据，而需要专门设计以利用事件数据（有关事件相机和事件视觉领域的调查，请参阅[12]）。最近，在事件数据上运行的新型学习方法在标准相机无法处理的场景中取得了令人印象深刻的结果[26, 41, 1,42, 33, 15,34]。值得注意的是，在[34]中，已经证明了一个网络，仅通过事件来重建灰度强度帧，可以合成高帧率（>5,000帧每秒）的高速现象（例如，子弹击中物体）的视频，并且可以在具有挑战性的光照条件（例如，从暗到亮的突然转变）下呈现HDR视频。还表明，对大规模标准相机数据集进行训练的现成深度学习算法可以应用于这些合成的HDR、高帧率视频，并且通过这样做，它们始终优于仅在事件数据上进行专门训练的算法。这些结果强调了事件数据包含了执行与标准相机相同任务所需的所有视觉信息，并且应该有可能设计出直接处理事件数据的高效学习算法，而不需要经过中间图像表示。不幸的是，设计高效的端到端学习方法需要大量的事件数据进行训练，由于事件传感器的新颖性，这些数据很难获得。缺乏大规模数据集的一个可行替代方案是事件相机模拟器[32]；然而，一个开放的研究问题是在合成事件上训练的神经网络将如何推广到真实事件相机。此外，模拟场景仍然缺乏真实性。为了解决这些问题，我们提出了一种方法，通过将使用传统相机记录的现有真实世界视频数据集转换为合成事件数据，来生成合成的大规模事件相机数据。一方面，我们的方法通过利用几乎无限数量的现有视频数据集来解决事件相机数据的短缺问题，并将这些数据民主化，为事件相机研究提供新的和令人兴奋的研究方向，并在事件相机之前无法进入的新领域中引发进一步的研究。另一方面，由于我们的方法直接依赖于在真实环境中记录的视频序列，我们展示了在合成事件上训练的模型对真实事件数据具有惊人的泛化能力，即使在具有挑战性的场景中，如HDR场景或快速运动中。总之，我们的贡献包括：refer the reader to [12]).Recently, novel learning approaches operating on eventdata have achieved impressive results in scenarios wherenetworks operating on standard cameras fail [26, 41, 1,42, 33, 15, 34]. Notably, in [34] it was shown that a net-work trained to reconstruct grayscale intensity frames solelyfrom events can synthesize high framerate videos (> 5, 000frames per second) of high-speed phenomena (e.g., a bul-let shot by gun hitting an object) and can as well renderHDR video in challenging lighting conditions (e.g., abrupttransition from dark to bright scene). It was also shownthat off-the-shelf deep learning algorithms trained on large-scale standard camera datasets can be applied to these syn-thesized HDR, high-framerate videos and that, by doing so,they consistently outperforms algorithms that were specif-ically trained only on event data.2 These results highlightthat the event data contain all the visual information that isneeded to carry out the same tasks that can be accomplishedwith standard cameras and that it should be possible to de-sign efﬁcient learning algorithms that process the event dataend to end without passing through intermediate image rep-resentations.Unfortunately, the design of efﬁcient, end-to-end learn-ing methods requires a large amount of event data for train-ing, which is hardly available because of the novelty ofevent sensors: event cameras were ﬁrst commercialized in2008 and research on event-based vision has made mostprogress only in the past ﬁve years.A viable alternative to the lack of large scale datasets areevent camera simulators [32]; however, an open researchquestion is how well neural networks trained on syntheticevents will generalize to real event cameras. Moreover, sim-ulated scenarios still suffer from lack of realism.To address these issues, we propose a method to gener-ate synthetic, large-scale event-camera data from existingreal-world, video datasets recorded with conventional cam-eras. On the one hand, our method addresses the shortage ofevent-camera data by leveraging the virtually unlimited sup-ply of existing video datasets and democratizing this datafor event camera research. The availability of these newdatasets can unlock new and exciting research directionsfor event cameras and spark further research in new ﬁelds,previously inaccessible for event cameras.On the otherhand, since our method directly relies on video sequencesrecorded in real-world environments, we show that modelstrained on synthetic events generated from video general-ize surprisingly well to real event data, even in challengingscenarios, such as HDR scenes or during fast motions. Toconclude, our contributions are:35870• 我们提出了一个将现有视频数据集转换为事件数据集的框架，从而实现了新的应用。02 https://youtu.be/eomALySSGVU0事件相机的应用0•我们展示了在这些合成事件数据集上训练的模型在真实数据上具有良好的泛化能力，即使在标准图像模糊或过曝的情况下，也能继承事件相机的优秀特性。0•我们在两个相关的视觉任务上评估了我们的方法，即目标识别和语义分割，并展示了在真实数据上对合成事件进行微调训练的模型相对于现有技术的改进。0我们的工作结构如下：首先，在第2节中回顾了事件相机研究和深度学习技术以及可用数据集的相关文献。然后，在第3节中介绍了将视频数据集转换为事件数据集的方法。第4.1节验证和表征了我们的方法在目标识别设置中生成的事件的逼真性。最后，在第4.2节中将我们的方法应用于具有挑战性的像素级语义分割任务。02. 相关工作02.1. 用于机器学习的事件相机数据集0针对机器学习算法评估的事件相机数据集数量有限。最早的这类数据集与分类有关，并且是对应图像数据集的对应物。Neuromorphic (N)-MNIST和N-Caltech101[31]是通过将事件相机安装在一个平移和倾斜单元上，放在显示器前以重现从静态图像生成事件的扫视来生成的。稍后，Sironi等人[38]引入了N-CARS，这是一个二分类数据集，但其中的事件来自动态场景而不是静态图像。最近的分类数据集[4]被称为美国手语（ASL）-DVS，包含24个美国手语分类的手势。与神经形态分类密切相关的是神经形态动作识别。DVS-Gesture数据集[2]就是针对这一任务的，其中包含由DVS128事件相机记录的11个不同手势。最近，[7]引入了第一个也是迄今为止唯一的神经形态人体姿势数据集，即DAVIS Human PoseDataset(DHP19)，它使用了四个事件相机，分辨率为260×346，同时从不同视角记录了33个不同的动作。DAVISDriving Dataset (DDD17) [5]和Multi-Vehicle StereoEvent Camera(MVSEC)数据集[40]是两个驾驶数据集。前者提供了有关车辆速度、位置、转向角、油门和刹车以及单个事件相机的数据。后者数据集包含多个车辆在不同环境中的数据，并提供了自我运动和激光雷达数据以及来自立体DAVIS设置的帧和事件。∆L(u, tk) = L(u, tk) − L(u, tk − ∆tk) ≥ pkC.(1)35880DDD17的一个子集[1]后来被扩展，加入了近似的语义标签，以研究事件相机的语义分割。02.2. 使用事件相机进行深度学习0首次探索了将深度学习应用于事件相机数据的可行性是在分类的背景下。Neil等人[28]设计了一种新颖的递归神经网络架构，应用于N-MNIST数据集的分类。稍后，Maqueda等人[26]提出了一种事件帧表示，并设计了一种用于DDD17数据集上的转向角回归的CNN架构。同一数据集已被Alonso等人[1]修改为执行语义分割。MVSEC的可用性推动了光流[41, 42, 15]和深度估计[42,39]的研究。与前述工作不同，[33,34]完全使用模拟事件训练了一个卷积循环神经网络来执行图像重建。02.3. 合成事件0本节回顾了用于事件相机事件的生成建模领域的工作。Kaiser等人[ 18]在该领域进行了早期的工作。他们通过对图像差异应用阈值来生成事件。根据像素的强度差异，会生成正向或负向的事件。Pix2NVS [ 3]从传统视频帧计算每个像素的亮度。该技术生成具有不准确时间戳的合成事件，这些时间戳聚集到帧时间戳上。据我们所知，前两个尝试准确生成事件的模拟器是[ 27 ]和[ 21]。这两个工作都以高帧率渲染图像，并线性插值强度信号以生成事件。Rebecq等人[ 32]还引入了一种基于帧之间最大位移的自适应采样方案。这样可以提高非常快速运动的准确性，并在慢动作情况下降低计算量。[ 27 , 32]中使用的生成模型已在先前的工作中进行了形式化[ 22 ,13 , 14 ]。03. 方法论0在本节中，我们描述了将视频转换为合成事件的方法。这个转换可以分为两个步骤：事件生成和帧上采样，分别在第3.1节和第3.2节中介绍。图2说明了这些单独的步骤。首先，我们利用最近的帧插值技术[ 17]使用自适应上采样技术将低帧率转换为高帧率视频。然后，使用最近的事件相机模拟器（ESIM）[ 32]使用生成模型生成事件。为了促进合成事件和真实事件之间的领域适应，我们还引入了两个领域0最后，我们使用[ 15]将稀疏和异步事件转换为类似张量的表示，从而使得可以使用传统的卷积神经网络（CNN）进行学习。03.1. 事件生成模型0事件相机具有独立的像素，并对连续的对数亮度信号 L ( u , t ) 的变化做出响应。当像素 u = ( x k , y k ) T 处的对数亮度的幅度超过阈值时，触发一个事件 e k = ( x k , y k , t k , pk ) 。0当像素的对数亮度自上次事件以来的时间 ∆ t k 超过阈值 C 时，事件 e k = ( x k , y k , t k , p k) 会被触发，其中 p k ∈ {− 1 , +1 } 是变化的符号，也称为事件的极性。方程（ 1）描述了理想传感器的生成事件模型[ 14 , 12 ]。0这里， ∆ t k 是自上次触发事件以来的时间， p k ∈ {− 1, +1 } 是变化的符号，也称为事件的极性。方程（ 1）描述了理想传感器的生成事件模型[ 14 , 12 ]。03.2. 帧上采样0虽然事件生成模型提供了一种为给定亮度信号生成事件的工具，但它要求该信号在高时间分辨率下已知。特别是对于事件相机，这个时间尺度在微秒级。事件相机模拟器（例如ESIM）可以通过自适应地以任意时间分辨率渲染虚拟场景来解决这个问题（参见[ 32]的第3.1节）。然而，视频序列通常只在固定和低时间分辨率（毫秒级）下提供强度测量。因此，我们希望根据在时间{ t i } N i =0 捕获的 N 帧 { I ( u , t i ) } N i =0的视频序列，恢复完整的强度曲线 I ( u , t )。在帧插值文献中，已经对仅使用两个连续帧的子问题进行了深入研究。因此，我们转向[ 17]，这是一种最近在智能手机上广泛使用的帧插值技术。与其他帧插值技术（如[ 23 , 24 , 29 , 30 ]）相比，[ 17]中的方法允许以任意时间分辨率重建帧，这对于所提出的任务是理想的。必须仔细选择中间帧的数量，因为太低的值会导致亮度信号的混叠（在[ 32]的图3中有说明），但太高的值会增加计算负担。以下自适应采样策略受[ 32 ]的启发，使用双向光流（由[ 17]内部估计）计算中间样本的数量。给定两个连续帧 I ( t i )和 I ( t i +1 ) ，在时间 t i 和 t i +1 捕获，我们生成 K i等间隔的中间帧。选择 K i使得所有像素之间的相对位移最多为1个像素：0Ki = max umax{∥Fi→i+1(u)∥, ∥Fi+1→i(u)∥}−1，(2)35890图2. 方法概述。首先使用[17]中提出的方法对低帧率视频进行自适应上采样。然后将这个上采样的视频输入到事件相机模拟器（ESIM）[32]中，ESIM会产生具有高时间分辨率的异步和稀疏事件。0其中Fi→j（u）是从帧i到j的光流，位于像素位置u。我们使用这种策略在视频帧之间自适应地进行上采样，从而得到自适应上采样的视频序列（图2中部）。03.3. 从高帧率视频生成事件0下一步是从第3.2节生成的高帧率视频序列中生成事件。我们使用[32]中描述的算法（第3.1节）来生成事件。对于每个像素，时间上的连续强度信号通过在线性插值视频帧之间进行近似。只要强度变化的幅度超过对比度阈值C（在（1）中定义），即ESIM的一个参数，就会在每个像素处生成事件。由于（1）中的对比度阈值通常对于真实传感器来说是未知的，并且可以在传感器之间和正负事件之间有所不同，因此我们建议在训练时对其进行随机化。在生成一系列事件之前，我们从均匀分布�U（Cmin，Cmax）中随机采样正负事件的对比度阈值Cp，Cn。在[33，34]中也使用了类似的过程，其中随机化被证明可以改善模拟和真实数据之间的领域适应性。在这项工作中，我们选择Cmin = 0.05和Cmax =0.5。03.4. 事件表示和学习0作为下一步，我们使用合成事件和原始标签来训练网络。为了做到这一点，我们考虑到时间戳的真实标签之前的一系列事件，并训练一个模型来预测它。需要注意的是，这适用于具有精确时间戳的图像和标签的通用数据集。我们利用现有的为标准图像设计的CNN架构，将异步和稀疏的事件流转换为类似张量的表示。我们选择了事件尖峰张量（EST）[15]，因为它在高级和低级任务上的性能优于现有的表示方法。EST通过将具有正极性和负极性的事件绘制到两个分别具有H×W×C维度的时空网格中，并沿着通道维度堆叠它们来生成。这里的H和W是传感器的0分辨率，C是一个超参数，用于控制用于聚合事件的时间区间的数量。在这项工作中，我们选择C = 15。04. 实验0在本节中，我们对第3节中描述的方法在两个任务上进行评估：对象分类（第4.1节）和语义分割（第4.2节）。在每种情况下，我们都展示了在合成事件上训练的模型具有以下优点：（i）它们能够很好地从合成事件推广到真实事件（ii），可以用于在真实事件数据上进行微调，从而加速学习并改进现有技术的性能，以及（iii）可以推广到标准帧模糊或曝光不足的场景。04.1. 目标识别0由于标准基于帧的相机具有动态范围低、延迟高和运动模糊等挑战，因此使用标准基于帧的相机进行目标识别仍然具有挑战性。最近，基于事件的目标识别因为事件相机解决了所有这些挑战而变得越来越受欢迎。在本节中，我们评估了第3节中提出的事件生成方法在这种情况下的效果。特别是，我们对方法的每个组成部分进行了分析，包括帧上采样和事件生成。在我们的评估中，我们使用了N-Caltech101（神经形态学-Caltech101）[31]，这是流行的Caltech101数据集[11]的基于事件的版本，它提出了多类别识别的任务。由于类别不平衡，该数据集仍然具有挑战性。该数据集包含了来自101个对象类的8,709个事件序列，每个序列持续时间为300毫秒。N-Caltech101的样本是通过将事件相机放置在屏幕前并投射Caltech101的各种示例来记录的，同时事件相机进行了三次扫视运动。04.1.1 实现0为了评估我们的方法，我们将Caltech101的样本转换为事件流，从而生成了N-Caltech101数据集的复制品（sim-N-Caltech101）。然后我们35900旨在量化在模拟数据集N-Caltech101上训练的网络对真实数据集N-Caltech101中的事件的泛化能力。为了将Caltech101的样本转换为事件流，我们采用了将静态图像转换为视频序列的策略，如[33,34]中所述。我们将静态图像映射到一个二维平面上，并模拟一个在这个平面前移动的事件相机的扫视运动，就像原始的N-Caltech101数据集[31]中所做的那样。请注意，由于相机是虚拟移动的，视频帧可以以任意的时间分辨率渲染，从而可以模拟具有不同帧率的视频相机。渲染高帧率视频后，我们使用该视频生成事件。在第一步中，我们将ESIM中的对比度阈值固定为0.06，但稍后随机化该值。图4显示了来自sim-Caltech101的一些示例，以及对应的N-Caltech101和Caltech101样本。0下一步，我们在sim-N-Caltech101的数据上训练一个分类器。我们选择了一个基于ResNet-34的现成分类器[16]，该分类器在ImageNet[37]的RGB图像上进行了预训练。我们选择了批量大小为4和学习率为10^-6，并将网络训练到收敛。然后我们计算该网络在真实数据集上的测试分数，该分数在表2的第一行中报告。作为基准，我们将其与在真实数据上训练并在相同的测试集上评估的网络进行比较。我们可以观察到，在合成事件上训练的网络得分（75.1%）低于在真实事件上训练的网络（86.3%），导致了11.2%的差距。为了解决这个差距，我们采用了一种域随机化的形式，即在训练过程中随机采样对比度阈值，如3.3中所述。这样做有两个原因：一方面，这一步骤有助于增加网络的鲁棒性，使其暴露于更多样的事件流，从而有利于泛化能力。另一方面，在训练过程中通常不知道真实的对比度阈值，因此随机化消除了手动调整该参数的需求。通过采用这种技术，我们实现了78.2%的改进结果，将差距降低到8.1%。0我们提出通过数据集扩展进一步提高泛化能力。众所周知，Caltech101数据集是不平衡的。例如，最常见的类别（飞机）有800个样本，最不常见的类别（内联滑板）只有31个样本。为了解决这个不平衡问题，我们利用我们的方法不需要真实事件的事实。我们从互联网（谷歌图片）下载了图像，为每个类别找到了额外的样本。我们使用在Caltech101图像上预训练的ResNet-34分类器[16]过滤错误的样本。通过使用这种策略，我们在不进行对比度阈值随机化的情况下实现了76.9%的测试分数，如果同时使用两种技术，我们可以达到80.7%的分数，有效地减小了与真实数据之间的差距到5.6%。虽然这个差距仍然存在，但这个结果表明我们的方法生成的合成事件有效地捕捉到了大部分真实事件流的视觉特征。0大部分真实事件流的视觉外观，从而实现了高度逼真的效果。0在本节中，我们展示了在前一节中描述的模拟数据上预训练的网络可以用于在真实数据上进行微调，从而大幅提高性能。我们使用在N-Caltech101上训练得到的最佳模型进行微调，学习率降低到10^-7，并训练直到收敛。在表2中报告了测试分数，我们可以看到微调对网络性能有很大影响。测试分数不仅超过了真实数据的基准线，还超过了现有的基于事件的最先进方法，如表3中总结的[38, 15,33]以及使用标准图像的最先进方法[25]，达到了94.7%。04.1.2 帧上采样的影响0在本节中，我们进行了一项消融研究，旨在描述帧上采样对生成的事件的影响。这是至关重要的，因为我们的方法依赖于通常只以低时间分辨率记录视觉信息的视频序列。特别是，我们表明自适应帧上采样在低帧率视频的事件中会带来改进。为了理解这种关系，我们提出了以下控制实验，如图3所示。我们首先通过以530Hz的帧率渲染Caltech101样本的视频帧（图3a），持续300毫秒，使得连续帧之间的最大位移小于1个像素（0.13像素）。我们通过将这些帧降采样（4倍、16倍和80倍）来模拟传统视频摄像机的低帧率，从而导致最大像素位移分别为0.55、2.11和9.4（图3c）。为了恢复高帧率视频，我们应用了[17]中描述的帧插值技术，其结果是与原始视频具有相同时间分辨率的帧。为了了解视频质量对事件的影响，我们为这三种情况生成了数据集，固定事件生成的设置，并改变降采样因子。通过这种方式，事件的变化反映在视频质量的变化中。为了评估这些差异，我们使用与前一节中描述的相同训练和网络参数训练了三个分类器，并比较它们在从原始高帧率视频生成的事件上的测试得分。不同降采样因子的测试得分报告在表1中。当在高帧率视频的事件上训练的网络（表1顶行）在这个测试集上达到88.6%的高分时，我们可以看到降低帧率（表1第二行）80倍，这个分数急剧下降到61.8%。事实上，这些低帧率引起的伪影在这些低帧率下变得明显。其中一种伪影称为幽灵影像，当连续帧之间存在较大位移时会引起。event generationevent generationevent generationframe interpolationdownsampletraintraintraintesttesttest8035910原始视频0(a) (b)0(d) (c)0(f) (e)0真实事件0图3.帧插值对事件质量的评估。我们通过在2D平面前滑动虚拟相机，按照[31]中描述的三次扫视运动生成的真实事件(b)来渲染Caltech101[11]图像(a)的高帧率视频。然后我们对视频进行降采样(c)，导致事件流的失真(d)。通过应用[17]中的插值技术，我们可以重建原始视频(e)，从而提高事件质量。为了量化这种质量，我们训练了三个分类器，分别对每个数据集进行训练，并比较在真实事件上的测试得分。0视频降采样因子0原始0.887 - 降采样0.887 0.882 0.867 0.618插值0.887 0.881 0.877 0.6870平均帧间位移[像素] 0.13 0.55 2.11 9.40表1.对降采样效果的消融研究。在不同视频流生成的事件上训练的网络的测试得分，并在高帧率视频上评估事件。0当连续帧之间存在较大位移时，线性插值会导致场景的部分出现和消失，从而以不真实的方式生成事件。通过使用帧插值，我们减少了这些效果，如增加的性能（68.7%）所示。04.2. 语义分割0语义分割是一项识别任务，旨在为图像中的每个像素分配语义标签。它具有许多应用，包括自动驾驶中的街道车道和行人检测。然而，使用标准图像进行语义分割仍然具有挑战性，特别是在边缘情况下，其质量由于运动模糊或过度曝光和欠曝光而大大降低。事件驱动的分割通过利用事件相机的高动态范围、缺乏运动模糊和低延迟来解决这些问题。0(a) 预览 (b) 真实事件 (c) 合成事件图4. Caltech101(a)、N-Caltech101 (b)和我们的合成示例 (c)的并排比较。真实事件是通过在投影仪前移动事件相机记录的，而合成事件是通过在虚拟相机前移动样本的2D投影使用ESIM生成的。0对比阈值随机化数据集扩展在真实测试分数上的微调00.751 � 0.769 � 0.782 � � 0.807 � 0.856 � � 0.852 � �0.904 � � � 0.9060真实数据0.863 图像[25]0.9470表2.随机化对测试准确率的影响。为了比较，我们报告了在真实事件上训练时的测试分数，以及原始Caltech101图像上的最先进方法[25]。0方法训练数据测试分数0HATS [38]真实0.642 HATS+ResNet-34[38]真实0.691 RG-CNN [4]真实0.657 EST[15]真实0.817 E2VID [33]真实0.8660我们的方法合成0.807 我们的方法合成+真实0.9060表3. N-Caltech101[31]上最先进的分类方法的分类准确率比较。我们的方法使用ResNet-34 [16]架构。0在本节中，我们通过从公开可用的DAVIS Driving Dataset(DDD17)[5]生成大规模合成事件数据集来评估我们的语义分割方法。它包含来自Dynamic and Activate Vision Sensor (DAVIS)[6]的灰度视频和[1]提供的一些序列的语义注释。在[1]中，使用在Cityscapes[9]上训练的网络为共计19840个灰度图像生成了标签。n=1δ(yn, ˆyn)(3)CN35920数据集包含15950个图像用于训练和3890个图像用于测试。灰度视频和事件的组合使我们能够生成合成事件，并与事件相机的真实事件进行评估。我们展示了仅使用我们的方法生成的合成事件进行训练，在性能上与基于真实事件训练的最先进方法相竞争。此外，我们通过在合成事件上进行微调，改进了最先进的方法[1]。04.2.1 实现0DDD17的注释版本[1]提供了与帧同步的分割标签，因此以10-30Hz的间隔出现。对于每个标签，我们使用在标签之前的50毫秒时间窗口内发生的事件进行预测，就像[1]中所做的那样。我们考虑两种基于事件的输入表示：EST，它已经在第4.1节中使用过，以及[1]提出的6通道表示。在[1]中，从事件中构建了一个六通道张量，其中三个通道用于正事件和负事件。第一个通道是事件的直方图，即在一定时间间隔内每个像素接收到的事件数量。第二个通道是事件的平均时间戳，而第三个通道是时间戳的标准差。我们使用[1]中提出的网络架构，它由U-Net架构[35]和Xception编码器[8]以及轻量级解码器架构组成。我们使用批量大小为8，并使用ADAM[20]和学习率为10^-3进行训练，直到收敛。04.2.2 定量结果0如同[1]中所做的那样，我们使用以下两个评估指标：准确率和平均交并比（MIoU）。给定预测的语义标签ˆy，真实标签y，像素数N和类别数C，准确率定义为0准确率 = 10N �0并且简单地测量了正确标记像素的整体比例。MIoU定义为0� N n =1 max(1 , δ ( y n,c , 1) + δ (ˆ y n,c , 1)) (4)是一种考虑图像中类别不平衡[10]的替代指标，通过归一化来提高鲁棒性，因此与准确性相比更可靠。0我们使用从视频生成的合成事件训练了两个神经网络，一个使用[1]中的事件表示，另一个使用EST[15]。我们在测试集上评估了这些网络。0我们在测试集上评估了这些网络，并在事件窗口大小为10、50和250毫秒之间进行了变化，这也是[1]中所做的。这个实验的结果总结在表4中。我们与[1]中的最先进方法进行了比较，最后一行表示。表4表明，对于两种表示，整体准确率（在50毫秒上）仍然在89.8%的正确分类像素的4%之内。MIoU指标的差异稍大，EST为45.5%，Alonso等人的表示为48.2%，而如果在真实事件上进行训练，则为54.8%。这些结果表明，仅在合成事件上进行训练可以很好地推广到真实事件，尽管略低于直接在真实事件数据上进行训练。在下一步中，我们想要量化在我们在真实数据上进行微调时的收益。在下一步中，我们使用较低的学习率10^-4对这些模型进行微调，经过仅两个训练时期，我们观察到显著的改进，达到了最先进的性能，如表4所示。实际上，我们的方法通过平均1.2%的优势始终优于现有方法。此外，我们发现我们的方法即使在事件窗口大小有很大变化的情况下仍然具有适度的鲁棒性。04.2.3 边缘情况0在前面的章节中，我们已经证明了使用我们的方法生成的事件数据集对真实数据具有很好的推广能力，并且在这些数据集上训练的网络可以在真实数据上进行微调，以提高性能，超过最先进的水平。在本节中，我们研究了仅在合成事件上训练的网络在传统帧由于运动模糊或过度曝光和欠曝光而失效的情况下的推广能力。在这个实验中，我们使用使用合成事件的EST输入训练的模型。图5说明了两种边缘情况，其中基于帧的分割失败，由于过度曝光（顶部行）和低对比度（底部行）。我们可以看到，在第一种情况下，分割网络只预测背景类（右上角），因为图像过曝。在第二种情况下，基于帧的分割错误地将一个人分类为植被，这是由于图像左下部分的低对比度。使用事件的网络通过事件相机的高对比度敏感性优雅地处理了这两种情况。重要的是要注意，网络在训练过程中从未见过真实事件，但能够推广到边缘情况。这表明，仅在合成事件上训练的网络可以超越它们训练时的数据，并且通过继承事件的出色特性来实现这一点。05. 已知限制0一个明显的缺点是视频数据集中出现模糊帧。由于模糊通常持续存在于插值帧中，因此在使用时会产生次优结果。35930(a) 事件 (b) 从事件预测 (c) DAVIS帧 (d) 从帧预测图5.语义分割的边缘情况（紫色：街道；绿色：植被；红色：人；蓝色：汽车；黄色：物体；灰色：背景）。第一行描述了传统相机过曝的情况。这导致了帧级别分割性能的恶化。相反，基于事件的分割网络能够准确预测道路标签。第二行展示了帧级别分割错误地将一个人分类为植被的情况。这是由于图像左下部分的低对比度。事件相机通过其卓越的对比度敏感性优雅地处理了这种情况。最好以彩色查看。0表示微调准确率[50 ms] MIoU[50 ms] 准确率[10 ms] MIoU[10 ms] 准确率[250 ms] MIoU[250 ms]0Alonso等人[1] 86.03 48.16 77.25 31.76 84.24 40.18 EST [15] 85.93 45.48 81.11 30.70 84.49 40.66 Alonso等人 � 89.36 55.17 86.0639.93 87.20 47.85 EST � 90.19 56.01 87.20 45.82 88.64 51.610Alonso等人在真实数据上训练 89.76 54.81 86.46 45.85 87.72 47.560表4.不同输入表示在[1]的测试集上的语义分割性能。准确率和MIoU（平均交并比）。模型是在50毫秒（ms）的事件表示上进行训练，并使用10毫秒和250毫秒的事件表示进行评估。最后一行报告的结果来自[1]。该模型直接在真实事件上进行训练。0图

下载后可阅读完整内容，剩余1页未读，立即下载