事件-强度立体：深度估计优于传统相机的新方法

180 浏览量更新于2023-10-14 收藏 20.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

42580事件-强度立体：通过两个世界的最佳方式估计深度0S. Mohammad Mostafavi I. §0韩国科学技术院，韩国0mostafavi@gist.ac.kr0韩国科学技术院，韩国0kjyoon@kaist.ac.kr0Jonghyun Choi †0韩国科学技术院，韩国0jhc@gist.ac.kr0摘要0事件相机可以将场景运动作为异步数据流报告，称为事件。与传统相机不同，事件相机具有非常低的延迟（微秒级对毫秒级），非常高的动态范围（140 dB对60dB）和低功耗，因为它们报告的是场景的变化而不是完整的帧。由于它们报告的是像素级的特征事件而不是整个强度帧，它们对运动模糊具有免疫力。然而，事件相机需要场景和相机之间的运动才能触发事件，即当场景相对静止时，它们没有输出。然而，传统相机在固定间隔内一次性报告所有像素的整个帧，但动态范围较低，在快速运动时容易出现运动模糊。我们充分利用两者的优点，在我们的补充设计中同时使用事件和强度图像，并从这种组合中估计密集视差。所提出的端到端设计以顺序方式将事件和图像进行关联，以估计密集深度值。我们在真实世界和模拟场景中的各种实验设置中利用了我们的方法在预测准确深度值和细节方面的优越性。我们进一步将我们的方法扩展到左侧或右侧事件或立体对丢失的极端情况，并研究了左右对的动态范围或事件阈值不一致的立体深度估计。01. 引言0立体深度估计受到人类双眼视觉的启发。从两个或多个视角估计深度是一个长期存在的问题，有许多方法来解决[24]。早期的立体深度估计方法考虑匹配一对立体图像中的所有像素，以估计场景的底层3D几何。相机参数和立体设置主要通过校准获得，任务是通过三角测量匹配的对来恢复视差或深度[33]。立体匹配仍然具有挑战性，因为它是不适定的。0§：现在在Lunit Inc.（lunit.io）。†：通讯作者。0图1.使用我们的事件-强度立体深度估计框架估计密集深度。我们的端到端网络可以从事件-强度立体（b）、仅强度立体（c）或仅事件立体（d）对中估计深度。使用事件-强度立体，我们可以获得比仅事件或仅强度输入更高质量的深度，因为它可以克服每个来源的缺点并从中获得最佳效果。0问题的本质，遮挡，不完美的成像设置，模糊或低动态范围图像，重复的模式和无纹理区域[24]。最近的方法使用基于学习的框架估计深度，而不依赖于手工参数，并且可以根据网络的先验知识估计度量深度[4,5,20,41]，这要归功于现代GPU、创造性的架构和公开可用的大规模数据集。尽管取得了显著进展，但光照条件差和复杂材料特性是研究较少的问题[24]。将新的传感器设备融入输入媒体以丰富其细节是值得研究的方向。为此，我们研究了事件-强度相机作为丰富从场景中捕获的细节的补充来源。事件相机是一种新的视觉传感器，它以像素为单位报告强度的变化，并且与其他像素异步，即在发生这种变化的时候。事件相机的输出，即事件，是根据运动速度和方向而变化的流。(a) Abs. movement(b) No movement(c) Motion blur(d) LDR42590相机和场景。事件相机在运动模糊方面具有固有的免疫性，因此是处理涉及快速运动的任务的理想选择，例如驾驶场景。与传统的强度相机相比，这些相机具有更高的动态范围（HDR），使其适用于极端光照条件。事件主要发生在物体边缘，因为强度变化通常发生在边缘上，使得事件相机成为在这些边界上估计清晰深度值的理想工具。然而，事件相机不直接报告强度值，因为它们只感知强度的变化。当场景静止时，例如当我们停在一个交通路口时，场景的某些部分对事件相机来说是不可见的，事件相机会保持沉默。图2展示了使用事件相机和强度相机的优缺点在不同场景下的对比。考虑到传统相机和事件相机的优缺点，我们致力于找到一种超越事件和图像之间的权衡的方法，同时利用这两种差异很大的传感器的优势。在我们的设置中，我们使用一对事件-强度传感器来估计不同运动和光照条件下的深度。我们提出了一个通过循环单元将事件和强度图像统一起来，并应用可变形聚合和多尺度细化来估计精确深度的网络。我们的系统可以与所有可用传感器的组合一起工作，因此对于任一模态的故障都具有鲁棒性。据我们所知，我们是第一个研究将事件和强度图像结合起来估计密集立体深度的人。我们通过在合成和真实数据集上与仅事件和仅图像的立体深度估计方法进行对比，展示了这种组合在估计深度方面的实际优势。02. 初步0事件相机将场景报告为一组元组：x和y位置、强度变化的时间戳（t）和变化的符号（σ），该符号指示感知到的强度是高于（正事件）还是低于（负事件）预定义的强度阈值（τ）。这种异步事件流可以达到接近微秒级的延迟，适用于快速运动场景。由于事件流的每个像素位置只保存时间戳和符号信息，因此在短时间内可视化事件流时会产生类似边缘的表示。与普通相机不同，事件相机报告的是场景的变化而不是整个帧，因此它们需要更低的存储、带宽和功耗。最近的事件传感器在单个设备上报告事件流和强度图像，即主动像素传感器（APS）。它们共享一个用于事件和强度图像的公共像素网格，因此在匹配事件到图像位置时无需进一步转换。0图2.在不同场景下表达强度相机（上）和事件相机（下）的优点（绿色）和缺点（红色）。与强度相机不同，事件相机无法捕捉绝对变化为零的场景，例如两辆以相同速度行驶的汽车（a）绝对运动，或者停在路口的汽车（b）无运动。与事件相机不同，当相机或物体移动时，强度相机会产生模糊的边缘（c）运动模糊，并且具有较低的动态范围（d）LDR。数据来自MVSEC数据集[49]，如第5.1节所述。03. 相关工作03.1. 图像上的立体深度估计0立体深度估计方法可以分为两类：传统的立体匹配技术和基于学习的方法。传统方法学习如何将输入图像中的像素对应起来，并估计每个像素的视差，通常包含特征提取、特征匹配、代价聚合和深度估计模块[33]。立体匹配方法可以考虑全局目标优化，如置信传播[37] 和图割[22]；或者考虑局部对应，如自适应支持加权方法 [42]和代价体积滤波 [16]。进一步的细化模块 [10]可以利用先前学习的知识或新的输入图像来改进估计的深度。基于学习的方法通过3D卷积 [25, 20, 4]在端到端的方式进行立体匹配、代价聚合、视差计算和细化，而不需要手工调整参数。虽然通过在金字塔设计中使用更多的3D卷积可以达到更高的准确性[5]，但最近的研究更注重在消耗更少内存的同时提高准确性。计算开销较小的方法使用可变形卷积 [19]作为引导或自适应聚合层 [43, 41]。03.2. 事件上的立体深度估计0立体深度估计是事件相机的早期应用之一，因为每个相机中的触发事件可以通过它们的时间戳在短时间内进行同步和匹配[35]。早期的尝试利用事件相机的低延迟和低功耗进行快速高效的立体匹配[21,32]，匹配的事件在3D中经过三角测量阶段来估计深度。然而，由于相机配对的时间戳不完全同步，现实世界的噪声和不同的阈值敏感性导致了模糊的匹配结果。01201242600左右0堆叠0堆叠0图像0堆叠0堆叠0堆叠0图像0堆叠0输入事件堆栈和图像帧0事件-强度0回收0特征0提取0堆叠2、1、0图像0预测成本0体积0多尺度细化0相关性0图3.架构概述。我们网络的输入来自左右立体事件-强度相机，它们根据时间戳进行同步。我们使用前三个最近的事件堆栈和强度图像作为事件-强度回收网络的输入，按顺序统一事件和图像。接下来，提取每个统一张量中的特征，使用多金字塔尺度对左右特征进行相关性计算，创建成本体积。将成本体积提供给聚合网络，该网络利用可变卷积在多个尺度上回归视差。最后，通过统一张量将中间预测逐渐细化到原始输入图像大小。0相机配对的实际噪声和不同的阈值敏感性导致了模糊的匹配结果。后来的方法通过引入方向敏感滤波器[3]、合作正则化[29, 11]和脉冲神经网络[28, 6,1]来提高准确性。在[48]中提出了一种基于相机速度的事件同步的半稠密深度估计方法。[46]中介绍了一种无需显式事件匹配的深度估计方法。[38]提出了一种基于时空聚合的新的序列嵌入方法，是第一个从立体事件估计密集深度的基于学习的方法。03.3. 事件-强度联合应用0最近的事件传感器报告了事件流和强度图像在同一设备中。我们利用这个已经可用的图像来源来填补事件相机无法覆盖的空白。注意，可以在适当的转换后还可以利用来自独立事件-强度立体相机（例如DSEC数据集[12]）的图像。事件-强度组合在视觉SLAM的特征检测和跟踪[39]、通过高通滤波进行事件到图像重建[34]、从一系列事件堆栈和强度图像进行超分辨率[27,17]以及通过将低动态范围图像与事件图进行统一来进行图像增强[14]方面已经进行了研究。04. 方法：事件-强度立体04.1. 事件准备0我们从事件-强度立体相机的一对矫正的强度元组Il，Ir和事件堆栈Sl，Sr开始0相机配对的尺寸为W×H。我们首先将事件流转换为一种机器可解释的表示形式，称为事件堆栈，遵循[40,27]。虽然存在许多其他事件表示技术[47,38]，但我们遵循这种简单的表示方法，以显示我们的方法即使使用较简单的堆叠方法也能产生良好的结果。我们将事件堆叠在强度帧之前，并使用“基于数量的堆叠”（SBN）[40]将事件张量制作成图3左上区域所示的样子。在这个图中，事件流也以正事件（红色）和负事件（蓝色）进行可视化，APS的强度位于该流的末尾。堆叠的事件张量的大小为W×H×C，并按照APS帧的时间戳创建一个序列。我们在每个堆栈中使用N=3000个事件，这个值可以线性调整到其他相机尺寸。对于C=3个通道，我们使用SBN进行堆叠，并将初始张量值设置为128。对于每个传入的事件，我们使用0（负事件）或256（正事件）更新其落地位置，而新事件会覆盖先前的事件。在这种类型的堆叠中，我们使用N/C个事件填充每个通道，因此明智地选择N和C以防止覆盖许多事件非常重要。04.2. 事件-强度循环0我们的事件-强度循环网络受到第3.3节中解释的互补强度重建方法的启发。我们在循环网络中统一事件堆栈和强度图像，以互补重建一个无模糊的类似图像的输出，该输出具有事件的高动态范围特性和感知强度值。(a) Event stack(b) Reconstruction [31](c) Event-intensity recycling42610图4.事件-强度循环网络。我们使用一张图像（APS帧）和其前面的一系列事件堆栈。在初始传递中，使用一个事件堆栈（EventIn）和一个强度图像（ImageIn）作为输入。之后，我们循环利用网络的内部状态（StateIn），并使用下一个堆栈（EventIn）以相同的方式继续。循环的次数取决于事件堆栈的数量（例如3个）。0当没有场景变化时，我们的事件-强度循环网络从普通相机中获取数据。我们在图4中详细展示了事件-强度循环网络，图3中的四个连续箭头也以抽象方式呈现，实际上展示了数据的提供方式以及隐藏状态如何传递到下一个阶段。这四个连续箭头分别是APS帧，然后是三个堆栈。在图4中，我们从APS帧（图像）开始，例如对于左侧相机，I l0，它进入图像输入ImageIn。同时，与APS帧同步的最近的堆栈S l 0（Stack0）进入事件输入Event In。这创建了第一个隐藏状态Statel 0在State Out。在下一步中，下一个堆栈（Stack 1）S l1进入事件输入EventIn。同时，不是任何其他图像，而是先前的状态State l0被循环利用，并进入State In（在上一步中称为ImageIn），并在State Out创建状态State l1。在最后一步中，最后一个堆栈（Stack 2）S l2进入事件输入Event In，同时先前的状态State l1被循环利用，并进入StateIn，并创建统一的事件-强度输出Reconstruction。序列顺序不重要，例如，我们可以先提供Stack2，然后是下一个堆栈，直到达到APS帧，但是在推理中应该使用与训练中相同的顺序，因为网络会自适应序列顺序。请注意，我们不旨在进行强度重建（第4.5节），而是以一种方式统一事件和APS帧，以保留每个相机的独特细节以进行立体匹配。我们将我们的循环网络的统一输出称为U l和Ur。我们用于统一事件堆栈和强度图像的顺序设计，即循环网络，是从e2sri [27,17]中采用的。我们统一事件-强度信息0（d）APS帧（e）重建[27]（f）互补[27] 图5.从事件相机、普通相机和从这些输入中进行重建的方法比较结构细节。我们的事件-强度循环方法（c）将事件和APS帧结合起来，并显示出比（a）事件（d）APS帧（b）仅事件重建[31]、调整大小的仅事件重建[27]（e）以及调整大小的互补重建[27]更多的结构细节，后者主要遵循APS帧。0左右两侧的事件相机分别独立工作，但同时在不同的线程中运行。然而，与e2sri不同，我们使用的可训练参数要少得多（几乎比e2sri小十倍），以实现更快的推理速度。此外，我们的事件-强度循环旨在直接进行同尺寸的重建，而无需任何超分辨率组件。我们不仅仅是为了事件图像重建，因为仅有事件图像（左上角）可能会丢失静态场景细节。此外，与e2sri的训练方案不同，我们直接利用清晰的强度帧进行训练，并进一步使用具有改变动态范围的模糊强度图像来动态统一事件和强度图像。我们这样做是为了使网络能够从事件和图像中重建结构细节，即使这些细节在其中一个输入中完全缺失、部分可用或不完美。我们在图5中通过视觉比较将我们的结果与e2sri进行了对比，并展示了事件-强度循环方法可以创建APS帧无法捕捉到的HDR细节。这个样本是汽车在交叉路口停车时的夜间驾驶场景。与事件相机不同，后方的制动灯没有被捕捉到，因为APS帧的动态范围有限。然而，事件相机也错过了一些部分，因为汽车停下来，整体场景-相机运动不可用来触发事件相机。我们与事件到图像重建方法e2vid [31]和e2sri[27]进行了视觉比较。这两种仅事件重建方法没有捕捉到汽车及其周围区域的部分，如黄色区域所示。e2sri中提出的互补方法也会在灯光周围产生白色区域，因为它遵循APS帧进行重建。然而，我们的事件-强度循环方法可以自适应地统一从事件相机和强度相机捕捉到的细节，并展示了进一步的场景细节。L=426204.3. 可变形聚合0特征提取和代价体积的创建采用了设计良好的深度估计网络。我们的特征提取器采用Res-Net架构[15]，并通过特征相关[7]而不是拼接，利用特征金字塔[5]创建我们的代价体积。一旦我们有了代价体积，我们可以使用内部尺度和跨尺度聚合模块来聚合它们，受到[41]的启发，适用于我们的三个金字塔层级。如第2节所述，事件相机主要感知边缘，而忽略其他细节，而强度相机感知场景的多个区域，但由于较低的动态范围、遮挡或运动模糊，可能会错过边缘细节。因此，我们利用可变形卷积，因为它们旨在超越普通卷积网络的固定几何结构，学习具有额外偏移的密集空间变换[19]。我们利用可变形卷积来自适应地聚合代价体积，使用局部和全局聚合[43]。我们还利用内部尺度聚合[41]，因为在对象边界和细小结构上可以获得更高质量的结果。鼓励我们采用这种设计的另一个事实是，事件相机不会同时感知到所有边缘，它取决于事件相机与场景之间的运动方向。因此，在边缘的位置上可能出现事件堆栈上的间隙。对事件堆栈进行降采样可以帮助连接这种边缘上的间隙。在立体深度估计中，跨尺度聚合旨在在降采样的图像中搜索对应点，因为低纹理或无纹理区域在粗糙尺度上更具有区分度[44]。04.4. 视差估计0我们的最后阶段利用立体深度细化模块[4]将较低尺度上采样到较高中间尺度，然后在我们的框架中将其上采样到最终输出尺度。我们使用左右统一的事件强度图像（U l和Ur），它们在图3中由事件强度回收阶段和细化阶段之间的虚线表示。我们利用软argmin视差估计[20]，从最终的代价体积中回归每个像素的视差。04.5. 学习目标0我们从随机初始化开始，对我们的全监督模型进行端到端训练。由于统一的事件强度重建质量会影响我们的深度结果，我们在最初的几个时期使用“图像重建损失”来鼓励网络创建高质量的类似图像的张量，如图5所示。然而，由于我们最终的目的是估计深度，实际上我们并不需要网络重建图像，因此我们在中途停止使用图像重建损失，只使用端点误差（EPE）作为主要损失。0端点误差。我们使用L1损失，也称为EPE[10]，即地面实况视差dv与我们模型估计的视差ˆdv之间的像素平均误差，对于深度的V个有效像素v。与L2相比，L1损失在视差不连续处更具鲁棒性，对异常值不敏感。0L EP E ( d v , ˆ d v) = 10V0v = 0 | dv - ˆdv | (1)0图像重建损失。对于中间图像重建（前几个起始时期），我们同时使用L1损失和学习的感知相似性损失（LPIPS）[45]。已经充分证明这两个损失函数的组合可以创建无伪影、具有清晰结构细节的重建图像[27,26]。对于LPIPS，我们使用AlexNet变体[23]，遵循[27, 36,17]。我们的最终损失（L）是通过组合所有损失创建的。其中E是我们停止使用图像重建损失并仅使用EPE继续训练的时期编号，λ1和λ2是权重因子。0L EP E + λ 1 L LP IP S + λ 2 L L 1 , epoch < E LEP E , epoch ≥ E (2)05. 实验和分析05.1. 数据集0我们使用两个主要的数据集，根据它们来自真实世界相机还是模拟相机的来源进行划分。我们的真实世界事件源是多车辆立体事件相机数据集或MVSEC[49]和用于驾驶场景的立体事件相机数据集（DSEC）[12]。对于模拟数据，我们生成了一个名为ECAR的新数据集。MVSEC有两个DAVIS[2]相机，它们放置在立体设置中，提供图像帧和事件流。传感器设备安装在多辆车辆上，处于不同的白天和夜间照明场景中，涵盖了汽车运动和停车场景。该数据集中的GT深度信息与许多其他激光雷达数据类似，不总是与图像或事件读数对齐，因为它不涵盖比特定高度更高或更低的深度。此外，先前移动车辆的某些深度值有时会保留在当前的GT帧中。DSEC是一个最近的大规模室外立体事件相机数据集，改变了准确像素对应的假设，并提供了一种新的组合，即事件和图像来自具有不同分辨率和基线（两个相机之间的距离）的两个不同相机对。事件相机本身也与强度相机有一个基线，但所有相机的高度相同。DSEC涵盖了更多种类的照明条件，其训练集划分是明确的，并且GT评估深度在其提交网站上被保留，报告了评估结果。由于提供了校准参数和矫正图像，我们将图像变形到事件位置。ECAR是利用两个开源模拟器生成的，即CARLA模拟器[8]，我们在其中模拟了许多不同的驾驶场景，并生成了立体强度和深度对作为视频，以及事件相机模拟器或ESIM[30]，通过提供一系列高度相关的视频生成事件序列。这样，我们可以生成立体事件和图像以及GT深度。命名是ESIM和CARLA的组合，即ECAR。我们在CARLA中使用了多种照明、天气、交通、道路和城镇设置，结合ESIM中的不同相机阈值设置，如图6所示。我们涵盖了模拟中真实世界相机的大部分变化，以尽量减小与真实世界场景的差异，如多个地方所建议的[31，27，36]。ECAR数据集涵盖了五个大型CARLA城镇，每个城镇几乎有7000对APS图像。我们逐渐改变天气和白天时间，以便每个城镇包含所有随机选择的变化。ECAR中的模拟车辆在接近其他车辆、行人和红绿灯时停下来，这样可以防止连续事件的生成。因此，我们编程设置交通灯在持有相机的汽车到达交叉口时变为绿色，并从模拟中移除所有其他车辆和行人。尽管我们分别使用了ESIM和CARLA，但最近的一个插件[18]包括了在CARLA中进行事件模拟。(a) Rainy country(b) Sunny city(c) Dark tunnel(d) Night cityWe initialize our network with random values, and trainfrom scratch end-to-end. We set λ1, λ2 in Eq. 2 all to 1,and train our network for 64 epochs using 8 batches, inwhich the image reconstruction loss is used for the ﬁrst 20epochs for simulated data. The event-only stereo method(ES) and intensity-only stereo method (IS) share the samedesign with event-intensity stereo method (EIS) explainedin Sec. 4. However, ES receives an extra event stack in-stead of the image frame of EIS, and IS receives extra inten-sity frames from a sequence of images instead of the eventstacks in EIS. The extra event stack or intensity image isnts-these-stPR.3.42630图6.ECAR数据集。在不同的白天、天气、城市结构和添加噪声的条件下生成的强度和事件。0我们用随机值初始化网络，并从头到尾进行训练。我们将Eq.2中的λ1和λ2都设置为1，并使用8个批次对网络进行64个时期的训练，其中在模拟数据的前20个时期使用图像重建损失。事件-强度立体方法（ES）和强度-仅立体方法（IS）与第4节中解释的事件-强度立体方法（EIS）共享相同的设计。然而，ES接收一个额外的事件堆栈，而不是EIS的图像帧，IS接收来自图像序列的额外强度帧，而不是EIS中的事件堆栈。额外的事件堆栈或强度图像是05.2. 实验设置0表1. 使用MVSEC[49]和ECAR数据集上的稠密地面真实值进行性能评估。我们的事件强度立体（EIS）方法在与仅事件立体（ES）和仅强度立体（IS）深度估计方法的比较中估计出更高质量的稠密深度，使用[38]中的数据分割和协议。0平均深度误差[cm] 一个像素误差[%]0分割 ES IS EIS ES IS EIS0MVSEC 分割 1 13.27 14.12 13.74 80.6 71.7 89.0 MVSEC 分割 225.18 23.24 18.43 73.0 67.3 85.2 MVSEC 分割 3 25.72 23.78 22.3668.3 53.8 88.10ECAR 22.3 18.7 11.8 67.7 79.5 81.70表2. 使用DSEC[12]数据集将我们的EIS和ES方法与仅事件的最新稠密深度估计方法[38]进行比较。我们的两种方法都优于基准线，而EIS显著改进了基准线，并在由CVPR2021视觉会议的工作坊举办的竞赛中排名第一，如第5.3节所述。0MAE 1PE 2PE RMSE0仅事件基准线[38] 0.576 10.915 2.905 1.386 事件立体ES 0.5299.958 2.645 1.2220事件强度立体EIS 0.396 5.814 1.055 0.9050从堆栈或图像序列的开头开始，因此所有方法都使用过去和现在的数据，即它们是因果的。05.3. 定量和定性分析0我们在第5.1节（MVSEC、DSEC和ECAR）中使用真实世界和模拟数据集进行定性和定量分析。在MVSEC数据集上，我们采用相同的训练和验证协议，包括最大视差和数据分割（MVSEC分割1-3），遵循最先进的稠密立体事件深度估计[38]，以对不同组合进行比较。我们使用平均深度误差和一个像素误差（1PE）进行定性比较，即地面真实像素中视差误差小于一个像素的百分比，两者都是在完整的稠密GT视差值上计算的。我们在表1中报告了在验证集上获得最低端点误差的结果。请注意，在这种设置下，我们的方法在使用NVIDIA RTX 2080 Ti GPU进行推理时达到接近10FPS的推理时间，可以通过变体来更快地进行，但会稍微降低性能。我们的EIS方法在大多数数据分割上在平均深度误差和1PE上优于ES和IS。ECAR数据集涵盖了各种照明条件，然而，MVSEC数据集的分割1-3[38]仅涵盖了具有可接受的场景照明的室内飞行场景。由于这些序列是在没有多样化动态范围效果的情况下捕获的，与ES相比，IS通常具有较小的误差。然而，在MVSEC分割1中，ES显示的MDE低于EIS。我们进行了视觉调查，发现与其测试集不同，分割1中的训练序列具有较低的飞行高度，并且其中的飞行运动是均匀的。(a) Intensity Image (APS)(b) Event stack(c) GT depth(d) Event-Intensity Stereo (EIS)(e) Intensity-only Stereo (IS)(f) Event-only Stereo (ES)(a) Intensity Image(b) Event Stack(c) Events-only [38](d) EIS (ours)42640图7.基于输入源的不同立体方法的定量比较。我们的事件强度立体（EIS）方法（d）利用强度（a）和事件堆栈（b）来估计比仅使用强度的立体（IS）（e）或仅使用事件的立体（ES）（f）方法更准确的详细深度。数据来自真实世界的MVSEC [49]和模拟的ECAR数据集（仅最后一行）。0图8. 与DSEC[12]数据集中的仅事件基准线[38]进行定性比较。虽然GT不公开可用，但通过参考强度图像和事件，我们可以观察到我们的EI-Stereo创建了更详细的深度值。0没有突然的变化。我们的网络在训练过程中没有探索这样的样本，无法很好地进行泛化。此外，由于分割1较小，错误无法在分割上进行归一化。在使用DSEC等大规模和多样化的数据集时，不存在这样的分歧，因此在DSEC上与现有技术的比较通常更加公平和可靠。0在表2中提供了DSEC数据集的两个像素误差、均方根误差（RMSE）和平均绝对误差（MAE）的报告。我们的EIS0与基于事件的密集立体深度估计方法[38]相比，我们的EIS方法在所有指标上都具有更小的误差，这是在DSEC挑战[12]中作为基线的。由于数据集规模庞大，评估是自动生成的，没有向公众展示GT，因此DSEC网站上的比较是公平可靠的。我们的EIS方法在所有序列上都以较大的差距超越了基线，并在CVPR2021年基于事件的视觉研讨会的DSEC挑战的所有指标中排名第一。如表2所示，我们的仅事件方法ES也优于基线。有关更多比较和详细评估，请参阅DSEC挑战网站[9]。我们定性地展示了我们的结果及其输入APS帧和事件堆栈供参考。对于MVSEC和ECAR数据集，我们还展示了参考的GT深度。在图7中，我们的EIS方法在与IS和ES的定量比较中显示出更多细节，这与表1中的结果相一致。在图8中，EIS在考虑事件和APS以推断GT时，显示出基线[38]错过的部分重建。请注意，图7中的MVSEC结果可能看起来稍微平滑。这种性能差距来自MVSEC数据集划分中分配的有限数据，这阻止了我们的网络泛化。然而，在图8中的DSEC结果中不存在这样的差距。对于MVSEC(a) Event stack(b) Intensity image (APS)(c) GT depth(f) Missing Events(e) Missing intensity frame(d) Missing none(a) Right intensity frame (APS)(b) Left intensity frame (APS)(c) GT depth(d) Event stereo(e) Intensity stereo(f) Event-Intensity stereo42650表3.缺失数据的立体深度。通过使用缺失的模态训练我们的方法，即使输入的事件堆栈或强度图像在立体对中缺失，我们也可以估计深度。0训练测试 MDE 1PE0正常完整模态 10.6 85.5 正常无左事件堆栈87.5 8.1 正常无左APS帧 91.7 11.3 缺失完整模态 16.8 84.9 缺失无左事件堆栈 17.982.2 缺失无左APS帧 20.3 76.50图9. 根据表3进行缺失数据的立体深度估计。0夜间序列和ECAR数据，我们遵循[38]中MVSEC飞行数据划分的趋势，并创建我们的数据划分。05.4. 消融研究0我们通过从完整网络（FN）设计中删除每个块并使用ECAR的子集进行评估，来消除不同的网络组件。如表4所示，每个子网络都能显著改善性能。0表4. 消除深度网络组件对深度的影响。0网络 MDE 1PE0完整网络（FN）8.3 78.6 FN - {特征金字塔网络} 37.864.1 FN - {可变形聚合网络} 23.4 70.3 FN -{多尺度细化} 13.8 67.205.5. 扩展0具有缺失数据的立体深度。尽管我们利用了四种互补的事件和强度资源，但在实际应用中，技术传感器故障或故障可能会阻止某个源报告输出，从而降低系统的可靠性。例如，在MVSEC的户外日间序列中，一对摄像机突然停止报告强度帧，使得仅使用强度的立体视觉成为不可能。作为扩展，我们利用事件-强度相机与缺失资源（单个事件或强度对）的组合，并展示了EIS在各种故障设置下恢复深度的结果，如图9和表3所示。0具有不一致的左右配对的立体深度。颜色一致性是立体匹配的基本假设。然而，并不能保证立体对共享相同的0在不一致的光照条件下的立体深度估计。与仅使用强度的立体视觉相比，事件-强度（EIS）深度估计在不一致的光照条件下具有较小的误差。0训练和测试MDE 1PE 训练和测试MDE 1PE0一致的IS 17.3 79.5 一致的EIS 10.6 85.5 不一致的IS 69.0 57.2不一致的EIS 32.0 65.70图10.不一致的左右立体对，见表5。0相同的事件阈值（事件）或完全相同的动态范围（强度）。我们将我们的方法扩展到不一致的左右强度对的极端情况，其中动态范围或事件阈值不同，并展示了我们的方法可以在图10和表5中估计出可接受准确的深度值。06. 结论0我们提出了一种能够在单一框架内从事件和强度相机的立体元组预测密集深度的端到端网络。我们将事件和图像统一用于立体匹配，并执行可变形聚合以利用我们的事件-强度立体框架的优势，并将其与仅事件和仅图像的解决方案进行基准测试。我们在真实数据和模拟数据上进行评估，并展示了事件-强度立体深度估计的优越性。我们进一步将我们的方法的可靠性和鲁棒性扩展到具有缺失数据的立体深度估计和具有不一致的左右配对的立体深度估计。使用脉冲神经网络实现更快速和完全异步的设计[13]，将作为我们未来的方向。0致谢。本工作部分得到了韩国国家研究基金会（NRF）资助，该基金会由韩国政府（MSIT）资助（编号：2019R1C1C1009283），韩国国家研究基金会（NRF）资助，该基金会由韩国政府（MSIT）资助（NRF-2018R1A2B3008640）和韩国政府（MSIT）资助的信息和通信技术规划与评估研究所（IITP）资助（编号：2019-0-01842，人工智能研究生院计划（GIST）），（编号：2019-0-01351，开发超低功耗移动深度学习半导体，压缩/解压缩激活/内核数据，20％）和（编号：2021-0-02068，人工智能创新中心）。作者感谢Yeong-woo Nam在DCSEC挑战中的帮助。42660参考文献0[1] Alexander Andreopoulos，Hirak J Kashyap，Tapan KNayak，Arnon Amir和Myron D Flickner。低功耗，高吞吐量，完全基于事件的立体系统。在IEEE计算机视觉和模式识别会议论文集中，第7532-7542页，2018年。 30[2] Christian Brandli，Raphael Berner，MinhaoYang，Shih-Chii Liu和Tobi Delbruck。 240×180 130 db3µs延迟全局快门时空视觉传感器。IEEE固态电路杂志，49（10）：2333-2341，2014年。 50[3] Luis Alejandro Camunas-Mesa，TeresaSerrano-Gotarredona，Sio Hoi Ieng，Ryad BenjaminBenosman和Bernabe Linares-Barranco。在事件驱动的立体视觉中使用方向滤波器进行3D重建。神经科学前沿，8：48，2014年。 30[4] Rohan Chabra，Julian Straub，ChristopherSweeney，Richard Newcombe和Henry Fuchs。Stereodrnet：扩张残差Stereonet。在IEEE计算机视觉和模式识别会议论文集中，第11786-11795页，2019年。 1，2，50[5] Jia-Ren Chang和Yong-Sheng Chen。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集中，第5410-5418页，2018年。 1，2，50[6] Georgi Dikov, Mohsen Firouzi, Florian Röhbein, JörgConradt, and Christoph Richter.使用神经形态硬件在2毫秒延迟下进行脉冲协作立体匹配。在仿生和生物混合系统会议上，第119-137页。Springer，2017年。 30[7] Alexey Dosovitskiy，Philipp Fischer，Eddy Ilg，PhilipHausser，Caner Hazirbas，Vladimir Golkov，Patrick Van DerSmagt，Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在IEEE国际计算机视觉会议论文集中，第2758-2766页，2015年。 50[8] Alexey Dosovitskiy, German Ros, Felipe Codevilla,Antonio Lopez和Vladlen Koltun. CARLA:一个开放的城市驾驶模拟器。《第一届机器人学习年会论文集》，页1-16，2017年。60[9] ”DSEC竞赛2021”https://dsec.ifi.uzh.ch/cvpr-2021-competition-results. 6, 70[10] David Eigen和Rob Fergus.使用共同的多尺度卷积架构预测深度、表面法线和语义标签。《IEEE国际计算机视觉会议论文集》，页2650-2658，2015年。2, 50[11] Mohsen Firouzi和J¨org Conradt.使用神经形态硅视网膜的异步事件协作立体匹配。《神经处理通讯》，43(2):311-326，2016年。30[12] Mathias Gehrig, Willem Aarents, Daniel Gehirg和DavideScaramuzza. Dsec:用于驾驶场景的立体事件相机数据集。《IEEE机器人与自动化通信》，2021年。3, 5, 6, 70[13] Wulfram Gerstner和Werner M Kistler. 脉冲神经元模型:单个神经元、群体、可塑性。剑桥大学出版社，2002年。80[14] Jin Han, Chu Zhou, Peiqi Duan, Yehui Tang, Chang Xu,Chao Xu, Tiejun Huang和Boxin Shi.神经形态相机引导的高动态范围成像。《IEEECVP

下载后可阅读完整内容，剩余1页未读，立即下载