尖峰相机光流估计

182 浏览量更新于2023-10-25 收藏 4.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

178446\QWKHWic DDWDVHW6cHQH6SiNH）7UDiQ7KH6SiNiQJDPHUD$6SiNH6WHDP6SiNH-）5美6）ORZ（2XUSpiking相机的光流估计胡立文1，2*，赵瑞1*，丁子洛1，雷美a1，2，<$伯新施1，2，3，熊瑞勤1，黄铁俊1，2，31北京大学2北京人工智能3北京大学摘要作为一种具有高时间分辨率的仿生传感器，尖峰相机在实际应用中具有巨大的潜力，特别是在高速场景中的运动估计。然而，基于帧和基于事件的方法不太适合尖峰流从尖峰相机由于不同的数据模态。为此，我们提出了SCFlow，这是一个定制的深度学习管道，用于从尖峰流中估计高速场景中的光流。其次，提出了一种新的输入表示方法，该方法可以根据先验运动自适应地去除锋电位流中的运动模糊。此外，为了训练SCFlow，我们合成了用于尖峰相机的两组光流数据，SPIKELING地飞行的东西和照片般逼真的高速运动，分别表示为SPIFT和PHM，对应于随机的高速和精心设计的场景。实验结果表明，SCFlow可以从不同高速场景的尖峰流中预测光流。此外，SCFlow显示出有前途的推广真正的尖峰流。代码和数据集参考https：//github.com/Acnext/Optical-Flow-For-Spiking-Camera。1. 介绍光流估计一直是计算机视觉中的一个热门话题，并在广泛的应用中发挥着重要作用，例如对象分割[2]，视频增强[32]和动作识别[31]。然而，传统相机在低帧率下拍摄的图像模糊，阻碍了该领域在高速场景下的突破。神经形态相机的出现[5，6，10，13，24，30，41]为高速场景中的光流估计提供了新的视角。一些作品[17，38，40]引起了人们对事件相机[5，6，13，24，30]的兴趣，并显示高速场景中的光流可以直接从事件流中估计。然而，事件流*这些作者对这项工作的贡献是相同的。†通讯作者。图1.记录以100 km/h速度行驶的汽车的真实尖峰流的光流估计。我们将 SCFlow 与基于事件的方法（ Spike-FlowNet[17]）和基于帧的方法（RAFT [29]）进行比较。所有方法都使用尖峰流作为输入，并在建议的数据集（SPIFT）上进行训练。实验结果表明，该方法具有较好的性能，可以清晰地区分不同运动区域，并准确地预测每个区域中的光流在结果的右上角是光流的颜色编码的可视化仅对亮度强度的变化进行编码可能不足以用于场景的所有区域中的光流估计同样作为神经形态相机，尖峰相机[10，41]不仅具有高时间分辨率（40000 Hz），而且可以通过异步发射尖峰来报告每像素亮度强度。具体来说，尖峰相机中的每个像素都可以被...17845独立且持续地延迟入射光。在每个时间戳处，如果像素处的亮度强度累积超过预定义阈值，则发射尖峰并且针对该像素重置累积，否则在该位置处不存在因此，代替灰度图像，所有像素的输出形成表示尖峰存在的二进制矩阵，也称为尖峰帧，并且连续尖峰帧形成尖峰流。此外，可以从尖峰流重建采样的高速场景[36，37，41因此，可以记录物体细节的尖峰相机在高速场景中的光流估计中具有巨大的潜力目前还没有关于基于spike的光流估计的研究，其中一个挑战是spike流具有独特的数据形式，基于帧和事件的方法不能直接应用于spike流，从spike流估计光流的一个直观的解决方案是首先从spike流重建图像序列，然后使用基于帧的方法估计光流。然而，当将一段时间内的尖峰流此外，简单的重建方法[37，41，42]难以滤除尖峰流中的运动模糊，而高质量的重建方法[36，43]将花费大量额外的处理工作。因此，有必要设计一种量身定制的方法来直接从尖峰流估计光流。另一个挑战是没有用于尖峰相机的光流数据集来适当地评估基于尖峰的光流方法的性能事实上，很难为尖峰相机构建真实光流数据集，因为校准地面真实光流在高速场景中具有挑战性[8，23]。因此，合成尖峰光流数据集似乎是解决这一挑战的更可行的方法。在本文中，我们提出了SCFlow，一个神经网络tailed估计光流直接从穗流。与之前使用深度学习的工作不同[36，43]，其中使用具有固定方向的时间窗口中的尖峰流作为特征，我们提出了一种新的尖峰流输入表示，流引导自适应窗口（FAW）。通过基于先前运动自适应地为每个像素选择时间窗口，FAW可以避免由静态时间获胜引起的尖峰流中的运动模糊[41]此外，为了训练我们的网络和评估性能，我们合成了两个基于spike的光流数据集，SPIKING飞行的东西和照片般真实的高速运动，分别表示为SPIFT和PHM。我们表明，SCFlow可以估计光流准确地在高速场景中，并实现了最先进的性能相比，现有的基于帧和基于事件的方法在我们的数据集。重要的是，SCFlow显示了对真实尖峰流的有希望的推广，如图所示。1.一、总的来说，我们试图利用尖峰相机在高速运动估计中的潜力，我们的主要贡献总结如下：1) 我们提出了第一个工作，探索在高速场景中的光流估计与尖峰相机，并提出了一个定制的神经网络架构与一种新的输入表示，FAW，允许自适应时间窗口选择是用于处理运动模糊的尖峰流在时间窗口与固定方向。2) 我们合成了第一批基于尖峰的光流数据集（SPIFT和PHM），以基准光流估计的尖峰相机，其中包括精心设计的场景与各种运动，并在spire未来的研究尖峰为基础的视觉任务。3) 我们证明了SCFlow可以有效地从建议的数据集上的尖峰流重要的是，SCFlow可以很好地推广到真实高速场景中捕获的真实尖峰流。2. 相关工作2.1. 基于帧和基于事件的光流自Horn和Schunck首次引入以来，基于帧的相机的光流估计一直是经典的视觉任务 [14]。早期的方法通过光照一致性假设来描述流场的本质，并将其与光滑性约束相结合以避免不适定条件。许多有效的模块被引入到后续算法中，例如通过金字塔结构和扭曲[3]以及中值滤波[27]粗略到精细地估计流场。然而，这些变分方法遭受巨大的时间成本。在变分时代，评估光流算法的数据集主要是Middle- bury [1]，Sintel [4]和KITTI [12，21]。Middlebury数据集的流场地面真值是通过UV光照或人工合成获得的，只有几十个样本。Sintel数据集来自一个开源的3D动画短片。KITTI数据集通过LIDAR获得流场地面实况，这导致流场稀疏。然而，这些数据集在数量上不足以训练深度神经网络。从计算机图形模型合成数据在计算机视觉中已经显示出有效性[25]。Dosovit- skiy等人。[11]首先提出了一个大型数据集FlyingChairs，通过监督学习来训练端到端神经网络FlowNet。FlowNet 2.0 [15]通过堆叠网络来提高从经典方法中获得的知识，如金字塔，17846尖峰相机t600yi电压Cr阈值我t cee 400L De taLum200ucc一02.2 2.4 2.6 2.83.2时间/（ms）尖峰相机t600yi电压Cr阈值我t cee 400L De taLum200ucc一02.2 2.4 2.6 2.83.2时间/（ms）扣球摄像机的输入250ytiSne200不n i一个150LnGiSy100我不是CiC50Rte lE02.2 2.4 2.6 2.83.2时间/（ms）扣球摄像机的输入250ytiSne200不n i一个150LnGiSy100我不是CiC50Rte lE02.2 2.4 2.6 2.83.2时间/（ms）60040020002.52.552.62.6560040020002.52.552.62.6502.52.552.62.6502.52.552.62.6502.52.552.62.65尖峰没有任何提高02.52.552.62.65∈≤ ≤≤∈×i、j××b− a为了使最优流估计网络紧凑，引入了翘曲[3]和成本体积[26]。然而，光流场的真实值很难得到.提出了通过无监督方案训练的深度光流网络来处理这个问题[16]，与变分方法类似，它采用了光度损失和平滑损失。为了提高监督信号的可靠性，提出了双向流估计[20]来检测遮挡区域并停止其反向传播。最近，提出了自监督方法[18，19]来提高无监督网络的性能。事件相机的光流场估计因其高时间分辨率而受到越来越多的关注。MVSEC [38]数据集通过LIDAR获得流地面实况，并使用事件相机和灰色相机模拟记录自然场景。EV-FlowNet [39]可以被视为第一个基于事件的光流深度学习方法，它在灰度图像的帮助下通过光度损失和平滑损失进行训练。Zhu等人[40]使用旨在消除事件流中的运动模糊的损失函数来训练网络SpikeFlowNet [17] 提出了一种具有尖峰神经网络（SNN）编码器的混合网络，以更好地利用事件流中的时间信息STEFlow [9]使用递归神经网络作为其编码器进一步提高了性能。2.2. Spiking相机及其应用尖峰相机是一个生物启发的传感器，具有高图2.尖峰相机模型的插图。(a)像素处的输入电信号。(b)对应于像素的累积。(c)尖峰的轮询读出，其中尖峰相机以40000Hz的频率触发尖峰的生成。(d)在像素处产生了尖峰流。独立且持久地入射光。在时间t，对于像素（i，j），如果累积的亮度达到固定的阈值λ（如（1）），则发射尖峰，并且如图1所示重置对应的累加器。二、∫tA（i，j，t）=不preI（i，j，τ）dτ≥π，（时间分辨率与活动摄像机不同，它[10]，41]可以通过异步发射尖峰来报告每像素的亮度强度。从其独特的风格中受益其中i，jZ，i H，jW，k N，A（i，j，t）是在时间t的累积亮度，I（i，j，τ）是指在时间τ的像素（i，j）的亮度，并且t表示最后时间高速运动中物体的纹理细节理论上可以记录场景。因为它有巨大的潜力-当在像素处发射尖峰i、j（i，j）在时间t之前。如果t是在应用中，特别是对于高速场景，基于尖峰照相机的低水平视觉任务已经迅速发展。[41]首先通过计算时间间隔（TFI）和尖峰数量（TFP）来重建高速场景。[35]通过运动对准滤波提高了重建图像的平滑度。[37，42]和[36，43]分别使用SNN和卷积神经网络从尖峰流重建高速图像，这大大提高了重建质量。[34]首先提出了用于尖峰相机的超分辨率框架，并恢复具有高时间和第一次发送尖峰，则将tpre设置为0。实际上，由于电路技术的限制，尖峰读取时间是量化的。因此，异步尖峰被同步地读出具体地，所有像素在时间nδt，nZ周期性地检查尖峰标志，其中δt是微秒的短间隔。因此，所有像素的输出形成H/W二进制尖峰帧。随着时间的推移，相机将产生一系列尖峰帧，即，HW N二进制尖峰流，并且可以在数学上定义为，S（i，j，nδt）=高空间分辨率的尖峰流。3. 初步1如果εt∈（（n − 1）δt，nδt]，s.t. A（i，j，t）≥ 0，0ifn∈（（n−1）δt，nδt]，A（i，j，t）

下载后可阅读完整内容，剩余1页未读，立即下载