活动摄像机的立体深度：未来的深度估计

194 浏览量更新于2023-10-25 收藏 2.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6114活动摄像机的立体深度：专注于未来Yeongwoo Nam1，2，*Mohammad Mostafavi3，*Kuk-Jin Yoon4Jonghyun Choi2，5，†1赛格研究2NAVER AI实验室。3Lunit4 KAIST5延世大学yw. saigeresearch.ai，mostafavi@lunit.io，kjyoon@kaist.ac.kr，jc@yonsei.ac.kr摘要神经形态相机或事件相机通过报告场景中的强度变化来模仿人类视觉，而不是如常规相机所执行的那样以图像帧事件是流数据，当场景变化或摄像机快速移动时，这些数据通常是密集的快速移动会导致在创建用于机器学习的张量时覆盖或错过事件。为了缓解事件立体事件的多密度浓缩液注意力集中网络集中左右事件对密集深度从未来事件中提炼知识参考强度图像遗漏或最重要的问题，我们建议学习集中在密集事件上，以产生具有用于深度估计的高细节的紧凑事件表示。具体来说，我们学习一个包含过去和未来事件的模型，但只使用预测未来的过去数据进行推断。缺少细节，事件用许多事件覆盖详细信息高细节我们最初在仅事件设置中估计深度，但也建议通过一个事件和强度组合网络进一步合并图像和事件，以获得更好的深度估计。通过在具有挑战性的现实场景中的实验代码可在 www.example.com 上获得https://github.com/yonseivnl/se-cff。1. 介绍应对设计挑战的一个常见做法是向自然学习。通过复制自然的形式，形状，过程甚至生态系统来模仿自然策略，用于特定应用，称为仿生学[2]。立体深度估计模仿人类从一对相机理解深度的视觉能力。计算机视觉社区对立体视觉表现出极大的兴趣，但它仍然是一项具有挑战性的任务。立体深度估计的不适定性质、来自RGB传感器的缺点（例如，低动态范围、运动模糊等），并且算法限制使得立体视觉非常具有挑战性。对场景的不完美感测的示例包括低动态范围、模糊或有噪声的图像。算法无法处理的特殊情况包括重复模式、*：同等贡献。†：通讯作者。这项工作是在YN和JC实习时完成的，他们是NAVER AI Lab的AI技术顾问分别图1. 概述我们的立体声深度估计从事件。我们通过“集中”事件表示张量来预测具有尖锐边缘的密集深度我们通过使用过去和未来事件进行训练来进一步传递未来事件的知识，同时保持我们的系统在推理时的因果关系。（即，光泽）的对象，和低纹理区域[23，27]。也被称为神经形态摄像机的事件摄像机遵循与它们模仿人类视觉相同的仿生概念。与人眼类似，事件相机仅捕获像素级强度差异，并将其报告为流，而不是将整个场景一次性报告为帧。虽然事件摄像机带来了新的和独特的规格，但它们需要使用这些设备的算法的范式转变。本文属于上述两种趋势，被称为神经形态立体视觉，并模仿人眼来估计来自事件相机的立体对的这一系列的研究已经在事件摄像机社区中引起了兴趣，并在许多方面取得了进展[23]，包括新颖的算法和尝试推广到现实世界的情况。事件流本质上是稀疏的，并且在时间或空间上不遵循事件密度方面的任何预定模式，并且纯粹依赖于场景和相机移动。我们使用这种不可预测的稀疏-密集流，并将其划分为一系列堆叠的事件，6115每个堆栈保存最近的事件位置及其时间信息。该序列是由多个事件的数量，每个堆栈，我们称之为堆栈的多密度系列。如图1所示，我们将这个事件堆栈集合与结束于GT时间tamp的事件切片一起馈送到事件集中网络。顾名思义，它将所有事件集中到一个清晰的边缘状张量中，没有任何模糊的伪影或省略任何细节。事件集中有助于创建更多的细节和锐利的边缘。它只依赖于先前的信息，事件，因此它是一个因果系统。然而，由于我们仅使用非正式的事件，因此某些细节也可能从场景中省略。作为补救措施，我们进一步考虑未来事件，但不直接作为输入。具体而言，我们通过在训练时提供过去和未来事件来教导我们的网络从未来事件中提取，这可能有助于网络理解场景内容并产生更好的预测。直观地说，我们隐含地教导网络从先前观察到的未来事件的知识中思考或提炼我们的实验支持这种直觉，因为与仅使用过去事件进行训练相比，使用过去和未来事件进行训练时，per-cycle显著增加。此外，与传统相机拍摄的图像帧不同，事件是稀疏的，这可能导致与来自图像帧的深度相比更大的深度估计误差我们通过集中事件和利用未来事件传递的知识相结合来补充稀疏信息。我们在来自DSEC [13]的公共基准数据集的具有挑战性的户外立体声事件上评估我们的方法，并使用它们的度量与最先进的事件立体声深度估计方法进行比较。我们提出了定性和定量的比较，以显示我们如何优于以前的艺术。2. 初步：活动摄像机与传统的摄像机不同，事件摄像机将场景报告为稀疏和不连接的事件流，即，每像素强度的变化大于预定阈值。每个事件在发生时都以非常低的延迟（微秒级）被触发。事件的异步性质带来了在快速场景变化和摄像机移动下受运动模糊影响较小的独特能力，但并非完全不受其影响[17]。事件摄像机具有更高的动态范围，可以显示普通摄像机可能错过的场景细节为了节省篇幅，我们在补充材料中讨论更多细节。3. 相关工作3.1. 图像的立体深度估计基于帧的深度估计被计算机视觉社区大量研究[36]。传统上，立体匹配[42]，使用图形切割的优化立体匹配[22]和成本体积滤波[16]。最近，基于学习的方法大大提高了准确性[4，19，26]，这也通过利用更多的3D卷积[5]，可变形卷积[18]和自适应聚合[45，46]得到了进一步提高。3.2. 基于事件的随着事件摄像机的兴起，基于事件的立体深度估计迅速出现，因为事件已经保持了时间-可以有效地用于同步和立体匹配的时间戳和位置细节[39]。然而，诸如真实世界噪声和立体声对之间的不同事件阈值的不完美性使得该问题不是微不足道的[21，34]。这些问题通过利用方向敏感滤波器[3]和合作正则化[10，33]来解决。尖峰神经网络也是解决基于事件的立体声深度的主要研究方向[1，8，31]。其他建议包括利用相机速度进行事件同步[49]，或在没有显式事件匹配的情况下估计深度[47]。深度学习解决方案考虑结合新的序列嵌入[43]，或融合深度和强度图像以覆盖两个世界的最佳效果[27]，以创建高度详细的深度估计。两能够从立体声事件估计密集深度。3.3. 事件对齐和最大化事件被报告为稀疏点，因此添加有关场景的附加外观信息可能有助于揭示底层结构。在变化的稀疏-密集流中，事件可能在小的时间段或事件数量的计数上不容易对齐。特别是在6个自由度的快速相机轨迹的存在下。早期的尝试，考虑估计事件的对比最大化[12]，沿着运动轨迹扭曲事件，其参数依赖于与参考时间相关它的用途包括运动，深度和光学光流估计应用。通过分析可能的回报[41]并显示如何创建对噪声和孔径不确定性的鲁棒回报，扩展了对比最大化。目标函数[11]也被研究为事件分割[40]利用迭代聚类算法来区分摄像机移动引发的事件和场景中移动对象产生的事件。这些方法到目前为止，需要一个良好的初始化，以防止不良的局部最小收敛.在[24]中提出了基于分支定界方法的事件流上的旋转运动估计，其目标是诸如视频稳定和姿态估计6116{|}没有完美的初始化。利用浅卷积序列[28]在来自事件的光学流的帮助下校正事件，以在事件堆栈中保留更多细节，并用于事件以重建超分辨率图像。由于时空配准进一步产生特征轨迹，因此可以用于视觉里程计。提出了一种使用基于图形的优化的简单但非常快速的视觉里程计[25]用于运动平均，并通过高精度机器人手臂的运动进行了验证与所有上述基于优化的方法，通常是有限的，由于其设置的假设，我们提出了一个事件集中的方法，产生一个尖锐的边缘状张量，保持场景细节具有高精度，无论场景或相机的速度，运动方向，或自由度，是针对现实世界的应用，如立体声深度估计。4. 方法4.1. 事件准备我们从左和右校正的事件序列EL和ER开始。每个事件序列E=（x i，y i，t i，p i）t i+1> t i，i=1.N由按时间排序的N个事件组成，其中x和y表示像素位置，而t和p分别表示时间戳和极性。给定左事件序列和右事件序列，我们的目标是预测时间tN处的视差图D。我们首先使用基于事件数（SBN）的简单堆叠方法表示事件流，即通过从深度时间戳开始对触发事件的数目进行计数直到预定义的数目，例如，5000个事件[27 虽然堆叠基于时间，即，包括短时间内所有事件，例如，也可以使用10毫秒，我们在本文中仅使用SBN。尽管存在更复杂的叠加方法[43，48]，但我们表明，由于我们模型的“浓度网络”对事件的关注，这种简单的表示足以高精度地估计深度在我们的实验中，除非另有说明，否则我们使用单通道SBN堆栈。在SBN之后，用强度值128初始化单通道张量。每个像素位置的新传入事件，更新以前的值。当存在正事件时，该值更新为256，当存在负事件时，该值设置为04.2. 混合密度事件堆叠事件摄像机根据摄像机或场景中对象的移动生成不同数量的事件。更快的运动会产生更多的事件，反之亦然。当基于时间或事件的数量堆叠事件时，如果包括事件序列或堆叠的事件或时间段的预定义数量小（短堆叠），则可以省略关于具有低移动的对象的信息。相反，如果包含在(a) 强度图像（b）长堆叠（c）短堆叠（d）集中堆叠图2. 常规同相轴叠加方法的若干叠加（SBN）的。通过预定义数量的事件或时间间隔来表示事件流，当事件数量大时覆盖先前的事件（（b）长栈），或者当事件数量小时省略场景细节（（c）短栈）。(d)我们的浓度网络产生有意义的堆栈（c），而不会覆盖或遗漏事件。强度图像（a）被呈现以供参考。长栈n=N短栈n=N/（2^（M-1））图3. 为“集中网络”创建事件序列。我们利用一系列堆栈，每个堆栈具有不同数量的事件。从地面实况（GT）深度时间戳向后移动，我们首先堆叠大量事件，包括长时间跨度的所有运动。对于下一个堆栈，我们使用事件流的前一个切片中使用的事件的一半，并使用连接到GT位置的块我们继续将事件切成两半，直到我们到达最终的堆栈M，我们根据我们想要包含在注意力网络中的堆栈数量来选择。事件序列较大（堆栈较大），来自快速移动对象的过多事件可能会覆盖先前的事件。这在图中被描绘。图2针对长和短堆叠情况两者，连同时间上邻近的强度图像以供参考。这个问题在现实世界中更频繁地发生，例如驾驶汽车或无人机，因为场景对象以不同的速度移动，而相机也可能移动。在这种情况下，事件流M栈GT时间戳时间n=Nn=N/2n=N/4n= 8n=N/16n=N/（2^（M-1））每个堆栈6117×−∈∈∈Σ输入事件堆叠浓度网络集中堆栈特征提取成本卷可变形聚集多尺度精化多尺度预测图4. 体系结构概述。我们创建了一系列多密度事件堆栈（Sec. 4.2）和使用浓度网络（第5.1）创建详细的基于事件的张量，称为集中堆栈。我们使用多尺度编码器来提取特征（具有共享权重），并将它们关联起来以创建成本卷（第二节）。5.2）。通过预测的“可变形聚合”和“多尺度细化”，我们创建了输出密集深度估计。在培训中利用过去和未来的事件（第5.3）我们可以通过KL-发散损失从未来事件中提取知识，并达到更高质量的深度估计。学习目标在第二节中描述。5.4难以确定在事件序列中应包括多少事件，这反过来严重地扭曲了下游应用的质量，即，深度估计作为补救措施，我们提出了一种事件如图3所示，我们首先在事件序列E 1中创建第一个堆栈，其中事件数量n=N，以包含立体匹配所需的所有可能的事件信息。我们的事件序列的长度有M=10个堆栈，我们为实验设置N为500万个事件，这线性取决于我们的事件相机的分辨率，例如，640 480为我们使用的数据集。我们继续用E2创建事件序列，它在相同的时间戳E1结束，但是，只有前一个事件堆栈中的一半事件。我们继续这样做，将前一个堆栈中的事件的一半以E 3 E M堆叠到下一个堆栈中，直到到达我们选择的最终堆栈M; I.E. EM有n=N/2（M−1）个事件。我们在创建后续堆栈时删除前半部分，因为第一个堆栈（E1）已经有N个事件，与已经移动的对象的相关信息较少，并且远离GT时间戳，这反过来可能会降低快速移动时的准确性。5. 网络设计在SEC的训练 5.3，从作为因果系统的仅过去事件的推理中获得高质量的深度估计。我们的学习目标在SEC中定义。5.4，我们进一步展示了如何将强度图像与事件结合在我们的设计中。五点五5.1. 事件集中网络我们的集中网络处理混合密度的事件堆栈，以创建事件的详细表示。混合密度事件堆栈包含大量详细信息，尽管将事件流传输到堆栈有缺点，如第2节所述。四点二。为了减少堆叠的负面影响，例如覆盖先前的事件以及丢失精细细节，我们设计了遵循U-Net架构的事件集中网络[35]，该架构可以仅关注来自M个混合密度事件堆栈E1......的重要信息。我在使用注意力机制。我们在通道维度中连接混合密度事件堆栈，并将其用作事件浓度网络的输入这个网络接收像张量E1...MRH× W × M作为输入，并输出注意力分数z RH× W ×M，其中H和W分别表示图像的高度和宽度。该网络的输出生成权重WRH×W ×M，该权重用于通过按像素的softmax运算为每个事件堆栈分配权重，该运算公式为：ez（y，x，m）对于深度估计，我们设计了一个端到端的神经网络模型，如图所示。4.第一章我们首先集中W（y，x，m）=Mi=1 ez（y，x，i）、（1）事件序列，并将其转换为高度详细的张量（ Sec.5.1）。在事件集中网络之后，我们介绍了我们的深度估计骨干设计（第二节）。5.2）。我们提出如何利用过去和未来的事件其中y和x表示像素位置，并且m是混合密度事件输入的层然后，我们对混合密度事件栈E1.. M来获得我们的集中事件堆栈张量KL Divergence过去和未来事件相关性权左共享6118Σ×.ΣVEcon∈RH×W为：M只.我们的经验验证通过表明我们可以更好地估计深度来Econ（y，x）=W（y，x，i）·Ei（y，x）。（二）i=1与预测的未来。具体来说，我们准备了两种不同的堆叠方案，如第2节所述5.1;一个事件堆栈只关注我们的实验通过比较来自集中事件堆栈的深度结果与来自随机分配的低事件数和每个堆栈的高事件数的深度估计来显示使用事件集中网络请参阅Sec。6.3，表2为定量分析，图6为定性比较，并为进一步实验提供了补充材料。5.2. 深度估计网络在性能良好的立体声深度估计网络[27]之后，我们使用它们的一些子网络来设计我们的模型。请注意，我们不使用它们的初始模块，例如[43]中的事件表示或[27]中用于合并事件和强度图像的部分，而是专注于立体匹配模块。我们的立体匹配网络由四个主要模块组成，如图所示4、这是表示为Econ，past的过去事件和表示为Econ，both的关注过去和未来事件的事件栈。我们引入了一个损失函数，其中网络潜在空间中的中间表示，即，虽然输入不同，但B过去和B两者都被强制为相似，即，使用仅过去的Econ，过去，和过去与未来的Econ，两者。对于Econ，我们使用2M混合密度事件堆栈，M从过去到GT时间戳，另一个M从GT时间戳到未来事件。Econ，两者相比多了2个事件到Econ，past，与Econ，past完全重叠。到为此，我们利用可变形聚合模块的输出对于相似性损失，我们使用两个潜在空间表示之间的KL-散度，如下所示：即（1）特征提取模块，（2）成本体积模块，（3）可变形聚合模块，以及Lsim（B），b过去）=1000b两logb两者。（三）b过去(4)多尺度细化模块。这些模块通常用于立体声深度估计网络，因此我们遵循[27]的立体声匹配设计，这反过来也是从以前的技术中得到启发的。具体来说，我们使用ResNet 作为特征提取模块[14]，因为它的功能和简单性得到了广泛的证明我们使用特征金字塔网络[5]在多个解决方案中以粗到细的方式从每一层恢复细节。使用特征相关性[9]而不是关联特征，因为内积将来自左对的数据与来自正确对的数据进行卷积，而我们在我们的成本卷上使用可变形卷积[6]进行聚合，因为它们具有非固定的接受域，有助于更好地匹配稀疏事件。为了估计边缘处的准确度深度，我们通过细化将预测的低分辨率视差分层上采样到更高的中间尺度[4]。更多的细节可以在[23，27，43]中找到5.3. 未来事件的知识转移即使我们创建了集中事件堆栈，如第二节所述。5.1，诸如场景的遮挡、重复图案和不完全感测的问题仍然可能由于来自过去的信息不足而阻止重建高保真度深度在这里，我们建议使用来自未来的事件信息来进一步增强由于我们的目标是强制bpast的中间潜在空间表示类似于bboth，因此，相似性损失的梯度仅通过过去事件堆栈路径反向传播。关于KL发散的选择，我们首先考虑直接比对（例如，L2，L1），但是它们可能会由于未来事件的位置可能由于未来场景中的对象的移动而不落在对应的GT深度边缘上而不起作用相反，我们选择将未来的信息到当前的5.4. 学习目标我们使用地面真实差异和预测差异之间的平滑L1平滑L1损失被广泛用于基于图像的立体匹配，因为与L2损失相比，其在视差不连续性方面的鲁棒性和对离群值或噪声的低敏感性[5，37，45，46]。损失函数定义为：L（D，D）=1smooth（d-d），深度估计的质量。但是，它并不可行，在-因为系统是因果的。作为补救措施，我们建议sl1V v=0L1v v（四）一个新的计划，以预测的潜在代表性的富-.x2，如果|X|<1、即使它接收到过去的事件，smoothL1（x）=|-0。|− 0. 5、否则，6119↓×××××其中，D是地面实况视差，D是模型预测的视差，V是具有用于训练的地面实况的有效像素的数量通过将仅使用过去事件信息的预测差异的损失与使用过去和未来事件信息两者的预测差异的损失与通过相似性预测的未来相表1.我们的方法与DSEC数据集上最先进的深度估计方法的比较。'E'：仅事件，'E+ I'：事件加上强度。在除FPS（每秒帧数）之外的所有指标中，较低的值都是首选（）。报告了两种输入分辨率“346 260 / 640”的FPS 四百八十。” 注：我们通过作者的公开代码获得[ 43 ]的FPS。最好的是粗体，第二好的是下划线。损失（等式3），我们将最终损失定义为：测试方法模态MAE（↓）1 PE（↓）2PE（↓）RMSE（↓）FPS（↑）L=Lsl1（D，D过去）+Lsl1（D，D两者）（五）基线[43] E 0.576 10.915 2.905 1.386 17.4 /7.4+Lsim（B），b过去）。虽然使用过去和未来两者的损失隐含地包括关于过去的信息，但是仅过去损失对于在推理时仅采用具有过去的输入是5.5.事件和强度图像融合在通过利用事件和强度图像来估计复杂环境中的立体深度的早期工作中[27]，他们将事件堆栈和强度图像统一在“回收网络”中当场景没有变化时，它们利用普通摄像机的强度值，因为事件在该条件下不会发生，并且与仅使用事件或强度摄像机的设置相比，它们显示出更好的性能根据直觉，我们还报告了使用图像和事件以及融合两个传感器的简单方法的性能。注意，我们的方法没有使用一个沉重的子网络来融合事件和图像。相反，我们使用集中的事件堆栈和强度图像作为两个独立的特征提取器模块的输入。具体来说，我们通过通道维度连接两个特征图，然后通过11卷积进一步融合两个传感器的特征。这种融合方法非常简单，但效果很好。如表1所示，融合在所有指标中表现更好。在图5中，我们定性-将我们的方法的输出深度预测与最先进的事件强度立体深度估计方法[27]进行有效比较。我们的深度预测与现有技术相当此外，我们的方法计算效率高，因为它不使用递归元素（见表1）。6. 实验我们使用PyTorch [32]实现我们的网络，并使用随机值初始化网络，并从头开始端到端训练。我们训练了100个epoch，批量大小为16。最大视差设置为192. 我们使用 Adam [20] ，优化器的 beta 为（ 0.9 ，0.999），权重衰减为1 e-4。学习率从5e-4开始，并随着余弦退火而衰减。我们使用DSEC数据集[13]进行实证验证。我们在补充材料中描述了数据集的细节。评估指标。为了定量评估预测视差图的质量，遵循DSEC视差基准的标准度量，我们使用平均绝对误差（MAE）、均方根视差误差（RMSE）以及1像素误差（1PE）和2像素误差（2PE），它们分别是视差误差大于1和2的地面实况像素的百分比6.1. 定量分析我们首先使用表1中的DSEC视差基准网站呈现我们的立体深度估计方法的性能。如表中所示，我们的方法仅利用事件（我们在E上），在所有指标中与DSEC仅事件基线[43]以及MAE（主要指标）、1PE和2PE中与最新技术水平[27当我们使用我们的融合方案使用事件和强度图像时，我们的（我们的E+I）明显优于最先进的方法[27]。另外，我们的方法在计算上比现有技术有效得多，因为我们不循环或遍历递归模块;我们的方法使用346260分辨率的事件传感器在仅事件状态下达到超过23帧每秒（FPS），而基线[43]达到17.4 FPS。当我们使用事件和图像作为输入时，我们的模型达到18.2FPS，而[27]仅在10 FPS下执行。我们在Tab中计算FPS。1使用单个NVIDIA 2080 Ti GPU，与[27]相同。EI-立体声[ 27 ]的管道可以说是在文学[45，46]中很受欢迎，但组件决定了质量;我们有一个集中的网络和（b）未来的知识转移。事件摄像机的好处（例如，高动态范围、可忽略的运动模糊和低等待时间）通过恢复丢失的细节被转换成更好的深度估计。当我们专注于质量深度估计时，操作延迟超出了我们的范围;具有特殊神经引擎硬件的模型压缩可能会有所帮助，并且是一个很好的未来研究途径。请注意，尽管计算成本，我们是超过2更快，更好的准确性比艺术，如表1所示。电子立体声[27]E0.5299.9582.6451.222- /-我们在EE0.5199.5832.6201.23123.2/11.3[27]第二十七话E+I0.3965.8141.0550.90510 /-关于E+IE+I0.3644.8440.8400.81818.2/9.36120(a) 强度图像（b）集中堆栈（c）仅事件[43]（d）仅事件（e）事件强度[27]（f）我们的事件强度图5. 稠密深度估计的定性比较。我们使用仅事件（d）和与强度图像融合的事件（f）以及（a）强度图像和（b）集中事件堆栈来呈现我们的密集深度估计以供参考。我们将它们分别与（c）仅事件[43]和（e）事件强度[27]方法进行在黄色框突出显示的区域中，我们的方法可以更好地构建精细的细节，例如，与现有技术相比，在仅事件模式和事件强度模式中，汽车（第一、第二和第四行）的清晰度和具有柱的路标（第三行）的细节都更好最好用突出显示的区域进行详细比较。（a）强度（b）短堆（c）长堆（d）集中堆（a）强度（b）短堆（c）长堆（d）集中堆图6. 事件数量对深度质量的影响。(a)强度图像，连同使用（b）短堆栈、（c）长堆栈以及（d）集中堆栈的深度预测。集中的堆栈创建了清晰的边界，并且比在堆栈中使用固定数量的事件更好地覆盖了场景细节，短或长的堆栈。6.2. 定性分析我们在图5中定性地比较了我们的方法与现有技术。与表1相同，我们比较了[43]和[27]的结果。我们随机选取多个场景来展示表演与仅事件方法[43] 与事件强度方法相比，我们的事件强度方法也预测了几乎相似的结果，但边界细节略清晰，伪影较少[27]。6121表2. 网络组件深度消融。添加混合密度事件堆叠、事件集中网络和从未来事件中提取知识都有助于减少不同的错误度量。网络MAE（↓）1 PE（↓）2PE（↓）RMSE（↓）只有立体匹配网络0.86420.1756.3301.939+ 混合密度事件堆叠（MES）0.85219.1826.0701.923+ MES +集中网络（CN）0.83118.8755.7571.880+ MES + CN +未来知识0.79718.0535.3691.799表3. 潜在的空间来传递未来的知识。我们实证性地研究了在训练中传递未来知识的不同潜在空间。未来的知识在可变形的聚集执行最好的论证在第二节。五点三。知识转移MAE（↓）1 PE（↓）2PE（↓）RMSE（↓）特征提取0.810 18.177 5.436 1.853变形聚集体0.79718.0535.3691.799多尺度细化0.83319.1435.8801.867(a) 强度（b）Trn/仅测试过去（c）Trn/测试两者（d）Trn两者/测试过去图7. 来自未来的KD定性结果。(both：过去+未来）6.3. 进一步分析消融研究。从第二节中介绍的基础深度网络开始。5，没有花里胡哨的，我们一个接一个地添加建议的模块。我们将结果呈现在表2中。如本表所示，我们提出的所有模块都可以提高性能。潜在的空间转移未来的知识。通过KL-发散损失在仅过去和过去-未来中间（潜在）表示之间强制一致性来描述未来事件，提高了我们的性能（第二节）。5.3）。我们认为，未来知识转移的位置将是可变形卷积之后。与传统卷积不同，可变形卷积通过学习扩展（变形）到“更大的接收场”而不是固定的偏移来学习具有额外偏移的密集空间变换未来事件很可能通过变形而落入过去事件的接收场中，在变形聚集体将是有益的之后进行转移。我们通过对不同候选位置的实验来经验性地验证这一点。如表3所示，在网络的早期阶段传递知识，即，特征提取后，误差最小。我们认为这是因为多尺度细化损害了表示空间来重建详细的深度。知识蒸馏（KD）的影响超出了准确性。在图7中，我们比较了两种情况：（1）仅使用过去事件（无KD）进行训练/测试，以及（2）使用过去和未来事件（两者）进行训练/测试（无因果关系）。我们的（Fig.7d）在边缘处正确地估计深度，具有较少的不想要的伪影，尽管我们不提供用于推断的未来事件。7. 结论我们提出了一种新的立体深度估计网络，以估计立体事件相机的密集深度。具体来说，我们建议通过基于注意力的集中网络来集中具有多密度事件集中事件通过忽略较少的细节而不覆盖事件来显示场景细节我们进一步建议在训练中使用未来事件来获得精细细节，而不需要在推理中使用未来，但是预测未来的潜在空间表示以保持我们的系统因果性。此外，我们展示了如何将强度图像与事件使用一个简单的融合方案，以达到更高质量的深度估计。我们的方法计算效率高，对于事件加图像和仅事件分别达到超过18和23FPS，优于现有技术（10和17 FPS）。我们评估我们的方法具有挑战性的现实世界的数据集，DSEC，并显示我们的方法在定量和定性分析的实用性。局限性。即使使用所提出的事件集中网络，我们仍然必须通过输入图像的大小来指定我们的最小和最大事件，尽管它不像事件数量那样粗糙或关键。虽然我们的方法在计算上比现有技术（10和17 FPS）更有效（18-23 FPS），但它仍然远离实用。一个有前途的研究途径包括开发我们方法的计算效率版本。潜在的负面社会影响。尽管事件照相机由于其在很大程度上忽略了纹理细节而比传统照相机相对较不隐私敏感，但是它仍然可以无意地从人类对象捕获不想要的隐私信息，路上的人类剪影虽然我们不打算允许这样的隐私漏洞，但它没有一个机制来系统地防止这样做任何在活动摄像机上保护隐私的计算机视觉都是另一个有前途的研究方向。谢谢。这项工作得到了韩国政府资助的韩国国家研究基金会（NRF）资助（编号2022 R1 A2 C4002300和2022 R1 A2 B5B 03002636）和韩国政府资助的信息通信技术促进研究所（IITP）资助（编号2020 -0-01361-003和2019- 0-01842，人工智能研究生院计划（延世大学，GIST）和编号2021 -0-02068人工智能创新中心）的部分支持。6122引用[1] Alexander Andreopoulos ， Hirak J Kashyap ， Tapan KNayak，Arnon Amir，and Myron D Flickner.低功耗、高吞吐量、完全基于事件的立体声系统。在IEEE计算机视觉和模式识别会议论文集，第7532-7542页，2018年。2[2] Janine M Benyus。仿生学：灵感来自自然的创新。莫罗纽约，1997年。1[3] LuisAlejandroCamunas-Mesa，TeresaSerrano-Gotarredona，Sio Hoi Ieng，Ryad Benjamin Benosman，and Bernabe Linares-Barranco.在事件驱动立体视觉中使用方向滤波器进行三维重建Frontiers in Neuroscience，8：48，2014. 2[4] Rohan Chabra ， Julian Straub ， Christopher Sweeney ，Richard Newcombe，and Henry Fuchs.Stereodrnet：扩张的残余立体网。在IEEE计算机视觉和模式识别会议论文集，第11786-11795页，2019年。二、五[5] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集（CVPR），2018年6月。二、五[6] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在IEEE国际计算机视觉会议（ICCV）中，2017年10月。5[7] Yongjian Deng，Hao Chen，Huiying Chen，and YoufuLi.从图像中学习：一个事件摄像机的蒸馏学习框架。IEEE Transactions on Image Processing ， 30 ： 4919-4931，2021。5[8] Geor giDikov，MohsenFirouzi，FlorianRoührbein ，JoürgConradt，and Christoph Richter.神经形态硬件在2ms延迟时的尖峰协作立体匹配。在仿生和生物混合系统会议上，第119-137页。Springer，2017. 2[9] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集，第2758-2766页，2015年。5[10] MohsenFirouz和J？gConradt。基于神经形态硅视网膜的异步事件Neural Processing Letters，43（2）：311-326，2016。2[11] 吉列尔莫·加列戈，马蒂亚斯·格里克，和戴维德·斯卡拉穆扎。专注是你所需要的：基于事件的视觉损失函数。在IEEE/CVF计算机视觉和模式识别集，第122802[12] GuillermoGallego ， HenriRebecq ， andDavideScaramuzza.一个统一的对比度最大化框架的事件摄像机，与应用程序的运动，深度，和光学光流估计。在IEEE计算机视觉和模式识别会议论文集，第3867-3876页，2018年。2[13] Mathias Gehrig，Willem Aarents ，Daniel Gehrig，andDavide Scaramuzza.Dsec：用于驾驶场景的立体事件相机数据集IEEE Robotics and Automation Letters，2021。二、六[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[15] Geoffrey Hinton，Oriol Vinyals，Jeff Dean，et al.提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2（7），2015。5[16] Asmaa Hosni ， Christoph Rhemann ， Michael Bleyer ，Carsten Rother，and Margrit Gelautz.快速的成本-体积过滤，用于视觉通信及其他。 IEEE Transactions onPattern Analysis and Machine Intelligence，35（2 ）：504-511，2012. 2[17] Yuhuang Hu，Shih-Chii Liu，and Tobi Delbruck. V2e：从视频帧到逼真的 dvs 事件。In Proceedings ofIEEE/CVF计算机视觉和模式识别会议，第1312-1321页，2021年。2[18] 戴继锋，李毅，何开明，孙剑。R-FCN：通过基于区域的全卷积网络进行对象检测。在神经信息处理系统会议论文集，2016年。二、八[19] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在IEEE计算机视觉国际会议论文集，第66-75页，2017年。2[20] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[21] Jurgen Kogler ， Martin Humenberger ， and ChristophSulzbachner.无帧地址事件立体数据的基于事件的立体匹配方法。在 International Symposium on VisualComputing，第674-685页Springer，2011. 2[22] Vladimir Kolmogorov和Ramin Zabih使用图割计算具有遮挡的视觉对应。第八届IEEE计算机视觉国际会议论文集。ICCV 2001，第2卷，第508-515页。IEEE，2001年。2[23] Hamid Laga，Laurent Valentin Jospin，Farid Boussaid，and Mohammed Bennamoun.基于立体的深度估计的深度学习技术的调查IEEE Transactions on Pattern Analysisand Machine Intelligence，2020。一、五[24] Daqi Liu，Alvaro Parra，and Tat-Jun Chin.基于事件的运动估计的全局最佳对比度最大化。在IEEE/CVF计算机视觉和模式识别会议论文集，第6349-6358页，2020年。2[25] Daqi Liu，Alvaro Parra，and Tat-Jun Chin.基于事件的视觉里程计的时空配准在IEEE/CVF计算机视觉和模式识别会议论文集，第4937-4946页3[26] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.一个大型数据集，用于训练卷积网络的视差，6123光流和场景流估计。在 Proceedings of the IEEEconference on computer vision and pattern recognition，pages 4040

下载后可阅读完整内容，剩余1页未读，立即下载