离散时间卷积用于基于事件的立体匹配

61 浏览量更新于2023-10-25 收藏 19.78MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

such as robotics, autonomous driving, augmented realityand medical imaging. Multi-view stereo matching solvesthis problem by reconstructing 3D scenes based on pixeldifferences of the same physical point from images takenfrom multiple views.Current deep learning models forstereo matching mainly work with static images producedby frame-based cameras. These sensors have drawbackssuch as high power consumption, low dynamical range andlow data rate, which limit their usage in edge computingplatforms or high-speed scenarios. Inspired by biologicalretina, the recently emerging dynamical vision sensor, orevent-based sensor, addresses these problems by transmit-ting events of instantaneous changes of pixel intensity, inmillisecond-level temporal resolution.When the changeof brightness at a pixel exceeds a certain threshold, thesensor will ﬁre an event, which is a four-dimensional vectorincluding spatial coordinates, polarity and timestamp.Since the event-based sensor transmits events rather thanframes, motion blur caused by high-speed movements ofobjects during exposure can be avoided.This propertymakes it perfectly suitable for high-speed vision tasks, suchas object detection, tracking and obstacle avoidance, etc.86760离散时间卷积用于快速基于事件的立体匹配0Kaixuan Zhang 1 , 3 � Kaiwei Che 2 , 3 Jianguo Zhang 1 , 40Jie Cheng 3 Ziyang Zhang 3 Qinghai Guo 3 Luziwei Leng 3 �†01 中国南方科技大学计算机科学与工程系 2 中国南方科技大学电气与电子工程系 3 华为技术有限公司ACS实验室4 深圳鹏城实验室0摘要0受生物视网膜的启发，动态视觉传感器传输瞬时像素强度变化的事件，使其相对于传统基于帧的相机具有高动态范围、高时间分辨率和低功耗等一系列优势。然而，从高度异步的事件数据中提取信息是一项具有挑战性的任务。受生物神经元模型的连续动力学启发，我们提出了一种用于稀疏事件的新型编码方法 -连续时间卷积（CTC），它学习使用内在动力学对数据的空间特征进行建模。采用通道参数化，模型的时间动态在相同的特征图上同步并在不同的特征图上发散，使其能够嵌入各种时间尺度的数据。从CTC中抽象出离散时间卷积（DTC），以较低的计算成本加速处理过程。我们将这些方法应用于基于事件的多视图立体匹配，它们在MVSEC数据集的基准标准上超越了现有方法。空间稀疏的事件数据经常导致边缘和局部轮廓的估计不准确。为了解决这个问题，我们提出了一种双通道架构，其中特征图通过与原始事件提取的空间自适应去归一化的边缘信息进行补充。我们在速度（高达110FPS）、准确性和鲁棒性方面展示了我们模型的优越性，显示出实时快速深度估计的巨大潜力。最后，我们在最近的DSEC数据集上进行实验证明了我们模型的通用用途。01. 引言0� 这些作者对本文贡献相同。†通讯作者。lengluziwei@huawei.com01.1. 基于事件的立体匹配0基于深度学习的立体匹配大部分工作都是建立在图像数据集上的[20, 32, 52, 56,59]。因此，为了利用这个领域中积累的知识，一个直接的方法是将高度异步的事件序列转换为基于帧的图像。根据这个想法，提出了各种方法。所谓的手工方法[25, 31, 35, 36,40, 53, 58,64]直接根据每个事件的四维信息将事件转换为事件帧。例如，在[36,53]中，基于时间的堆叠（SBT）将事件合并到预定义的时间邻近的bin中，并且如果它们共享相同的空间坐标，则对事件的极性值进行求和；基于事件数量的堆叠86770（SBN）通过累积历史上一定数量的事件来创建帧，并在它们重叠时保留最后一个事件的极性。[25,31]将不同极性的事件的直方图存储在不同的通道中，以避免由于极性抵消而导致的信息丢失。[64]在每个位置上保留最后一个正事件和负事件的时间戳。[65]根据事件的时间戳插值创建体素网格。[34,47]针对稀疏事件数据应用特殊设计的异步卷积。其他方法使用附加信息进行立体匹配。TSES[62]利用相机的速度来近似光流并构建时间同步的事件视差体积。Semi-Dense 3D[61]利用相机姿态信息，通过时间上的观测积分生成半密集深度图。还提出了一些端到端学习的事件编码方法来解决特定任务。[15]利用事件测量场将事件转换为基于网格的表示。[9]使用具有线性时间衰减的时间表面构建事件图像。然而，从稀疏事件预测密集视差仍然具有挑战性。[51]中提出的事件队列方法使用连续的全连接层来学习不同时间戳事件的权重列表。该方法采用了基于图像的立体匹配的先前架构[52]，并且是第一个基于事件预测密集视差图像的方法。然而，它在局部结构或边缘上的准确性仍然不足。最近的研究通过利用强度图像来解决这个问题。在[51]作为骨干的基础上，[2]通过训练一个带有语义注意力的图像重建子网络来增强局部结构上预测的视差质量，该子网络通过空间自适应去归一化（SPADE）[42,48]对事件特征进行补充。使用SBN进行事件编码，[37]以顺序方式组合事件和强度图像，并将它们相关联以估计密集深度值。尽管已经取得了最先进的性能，但高计算成本和内存消耗使得这些模型在实践中非常昂贵，特别是在强度图像容易模糊的高速场景中。01.2. 递归神经网络0一种替代事件编码方法是使用递归神经网络（RNN），因为它们具有编码时间序列的固有能力。然而，全连接的RNN对于图像信息提取并不高效。一种自然的想法是将RNN与卷积操作结合起来。递归卷积神经网络（RCNN）[29]从上一层接收输入，并将其与当前层的递归输入相结合。通过使用层内递归连接，RCNN可以整合上下文信息。RCNN的不同实现包括卷积长短期记忆（ConvLSTM）[55]和卷积门控循环单元（ConvGRU）[4]。0为了进行记忆调节，使用了额外的门控变量。[39]将修改版的LSTM[19]应用于基于事件的识别，但该模型并没有专门设计用于保留空间信息。与使用人工神经元构建的传统RNN不同，脉冲神经网络（SNN）[30]使用受生物启发的脉冲神经元模型，具有固有的自我递归。神经元根据自身的时间常数演变其膜电位，并在脉冲时重置为重置电位。在深度学习中，SNN的应用越来越多[5, 12, 21, 22, 28, 38, 45, 50, 54,60]，网络的异步性使其成为基于事件的任务的理想解决方案[7, 8, 23, 27, 41,57]。然而，由于不连续的脉冲，SNN的训练具有挑战性，这与基于梯度的反向传播算法不兼容[38]。液体时间常数网络（LTC）[18, 26]是连续时间RNN[13]的扩展，通过使用连续值激活函数为其神经元提供动力学，其动力学由输入相关的系统时间常数调制。然而，LTC仅应用于低维时间序列建模，并且缺乏编码高维空间特征的能力。01.3. 贡献0受卷积RNNs[4，29，55]和生物神经元模型的连续时间动力学[18，30]的启发，我们提出了一种结合两者优点的新型事件处理方法。受最近的研究[42，48]的启发，我们使用SPADE提高了预测视差的质量，并开发了一种高效的事件立体匹配框架。总之，本文的贡献有四个方面：01.我们开发了连续时间卷积（CTC），这是LTC的扩展，用于编码高维时空数据。该模型采用了逐通道参数化，通过端到端训练使特征图能够在各种时间尺度上嵌入数据。基于CTC，我们进一步提出了一个抽象模型，离散时间卷积（DTC），实现更快的演化和稳定的训练。2.我们在多车辆立体事件相机（MVSEC）[63]数据集上，通过一组事件匹配标准，展示了CTC和DTC相对于其他事件编码方法的优势。3.我们进一步开发了一个双路径架构，从原始事件帧中提取底层边缘信息，以改善估计视差的局部轮廓。通过流式实验，我们展示了我们模型在速度（高达110FPS）、准确性和鲁棒性方面的优越性。+ f(x(t(4)867804.最后，我们对最近的大规模室外事件立体数据集DSEC[16]进行了初步实验，展示了我们模型的通用用途。02. 方法0事件表示为一个四维向量（x，y，p，t），其中（x，y）表示事件的空间坐标，p表示像素强度的方向变化（以对数尺度表示），t表示事件发生的时间。如果像素的亮度变化超过阈值，则p = 1，否则p = -1。02.1. 事件表示0如何将事件转换为事件帧对于下游任务至关重要。在[2，51]中，使用SBN为每个像素创建了一个事件队列，并额外保留了每个事件的时间戳信息，用于训练连续全连接层。通过将一定数量的事件累积到一个平面中，事件队列方法确保了丰富的空间信息，但它丢失了超过队列容量的事件信息。SBT[36]通过固定时间间隔将事件合并到帧中。当事件数量足够时，它可以保持一定的时间信息，同时保持密集的空间信息。假设事件流的持续时间为∆t，并且所有事件被压缩成n帧。帧f中每个像素的值是事件的累积极性：0P（x，y）= sig0t ∈ T p（x，y，t））（1）0其中P是（x，y）处像素的值，t是时间戳，p是事件的极性，T∈[(f−1)∆t0n ] .符号运算符将累积的极性投影到（−1，0，1）范围内，这使得事件帧在左右相机在每个像素上生成的事件数量不同的情况下更加稳健。它还减少了潜在硬件应用的数据存储空间，类似的方法在[62]中也采用了。该方法的优点有两个。首先，它对环境引起的某些噪声具有鲁棒性。其次，因为它以固定速率触发帧，它在很大程度上保持稳定的时间信息。[36]提到，如果在时间间隔内发生的事件太少，SBT可能会产生非常稀疏的事件图像。我们提出的方法可以缓解这种固有的限制，如我们在后面的章节中所示。02.2. LTC网络0LTC网络[18]是连续时间RNN（CT-RNN）[13]的扩展，可以用一个常微分方程（ODE）来描述：0d0dt = − x (0τ + f ( x ( t ) , I ( t ) , t, θ ) (2)0其中τ表征动力系统的速度和耦合敏感性，x ( t )是隐藏状态，I ( t ) 是输入，t 表示时间，f是由θ参数化的神经网络。已经证明CT-RNN可以通过将系统嵌入到高维空间中来逼近n维动力系统的任何有限时间轨迹[13]。LTC通过将f整合到系统的时间常数中进一步增强了其能力：0d0dt = − � 10f ( x ( t ) , I ( t ) , t, θ ) A(3)0其中系统时间常数成为一个依赖于输入的项τ01+ τf ( x ( t ) ,I ( t ) ,t,θ)，A是一个比例参数。ODE实现了一个刚性方程组的系统[46]，可以通过融合显式和隐式欧拉方法来求解。当以以下形式书写时，该方程可以与小物种神经动力学的计算模型松散相关：0d0dt = − � 0τ m + Wg (t )0C m0� x ( t)0+ W0C m E rev + E leak0τ m0C m , x ( t ) 现在表示神经元在时间t的膜电位，τ m是膜时间常数，W 是输入突触强度，g ( t ) 是突触输入，Eleak 是静息电位，E rev是反向突触电位。该模型可以看作是漏电整流（LIF）神经元的非脉冲形式，具有导电突触[44]，而不具体定义其突触动力学。当忽略反向突触电位的影响时，方程4变为：0d0dt = E leak )0τ m + Wg ( 0C m (5)0其中系统时间常数与其输入解耦，模型变为传统的CT-RNN。LTC网络仅应用于低维时序建模。为了编码高维时空数据，我们将完全连接的Wg ( t )扩展为具有卷积结构。02.3. 连续时间卷积0在完全连接结构中，LTC神经元的突触输入包含来自所有其他神经元的输入。直接复制到卷积结构将生成大量与通道深度成比例的参数。此外，在编码高度稀疏的事件帧时，通常情况下相邻区域中几乎没有或没有信号，导致上下文信息很少。因此，我们仅保留来自上一层的连接。dxcij(t)dt= −� 1τm,c+ Icij(t)Cm,c�xcij(t)+ Icij(t)Cm,cErev,c + Eleak,cτm,c(6)dxcij(t)dt= Eleak,c − xcij(t)τm,c+ Icij(t)Cm,c(7)Icij(t) =�h�kwchkP th+i,k+j(8)xtcij = σ(τcxt−1cij + Icij(t))(9)86790图1。左侧是DTC模块，右侧是DTC-SPADE的整体结构。DTC模块以SBT准备的事件帧堆栈作为输入。在此过程中，通道被训练以在不同的时间尺度上累积信息，这些时间尺度由不同的τ值来表征。随后的嵌入模块从DTC模块中提取空间信息。同时，对最后一个事件堆栈应用1×1卷积和池化操作，以融合通道间的信息并缩小空间尺寸。然后，这些辅助特征图被用于在SPADE模块中调制嵌入模块的特征图。左侧和右侧路径的输出随后被送入匹配子网络以生成视差图。0并省略了层内的递归连接。此外，我们采用通道参数化而不是像素参数化，以使每个特征图具有同步的动态特性，从而进一步减少参数的总数。得到的卷积 LTC神经元及其简化版本可以表示为：0其中前一节中的 Wg ( t ) 由 I cij ( t ) 指定，表示经过 SBT预处理的事件帧上通道 c 位置 i，j 处的卷积输入，h 和 k是输入平面上的空间坐标。LTC 神经元的输出通过参数化sigmoid 函数 σ ( x cij ) = 1 / (1 + exp( γ c ( µ c − x cij))) 进行归一化，其中 γ c 和 µ c是可训练参数，用于缩放和平移 x cij 。我们将卷积 LTC(convLTC) 和没有反向电位的卷积 LTC (convLTCOR)称为连续时间卷积(CTC)。为了进行模拟，我们通过融合隐式和显式 Euler方法来数值求解动力学方程（详见补充材料中的推导）。02.4. 离散时间卷积0精确近似 CTC需要对多个小步骤进行数值积分[17，18]。在原始工作中，LTC神经元的进化频率比输入采样率高六倍，导致输出速率比输入的等时跨度慢六倍。然而，改变较大的数值步长以加速输出速率可能会导致不稳定的结果。最近的一项研究[49]证明，当满足一定的稳定条件时，连续时间循环神经网络可以通过离散时间循环神经网络来近似。convLTCOR模型的动力学主要由其膜时间常数 τ m特征化，从这个直觉中抽象出来，我们开发了离散时间卷积模型 (DTC)，其公式为：0其中 I cij ( t ) 的定义与公式 8 中相同，x t cij表示对应特征图位置 i，j 处通道 c 上的像素值。时间常数 τc被分配为通道相关的值，控制神经元先前状态的聚合强度，σ 是 sigmoid 函数。DTC 的概念图示如图 1 所示。02.5. 网络架构0成功的基于图像的立体匹配通常执行四个步骤的流程：特征嵌入、匹配体积、正则化和细化。最先进的基于事件的立体匹配方法[2，ˆhb,c,y,x = γc,y,x(s)hb,c,y,x − µcσc+ βc,y,x(s)(10)L(Θ) =1wh�y,x�jLaplace(d(j)|µ = DGTy,x , b)∗log(softminj(Cj,y,x))(11)�Dy,x =�jd(j)∗ softminj:|ˆj−j|≤δ(Cj,y,x)(12)In this subsection, we compare CTC and DTC with dif-ferent event encoding approaches, including event queuemethod [51], convLSTM, convGRU and the hand-craftedmethod [64] mentioned in sec 1.1. We perform dense dis-parity estimation where all locations on the ground truth are8680037，51] 遵循这个约定。我们的框架使用 [51]作为骨干，主要在特征嵌入子网络（图1）中进行了修改。事件序列首先通过 SBT转换为包含多个帧的事件堆栈。然后将它们输入到由 DTC或 CTC层构建的时空编码模块中。输出然后被送到空间嵌入模块，然后是匹配和正则化模块，与 [51]中的相同。我们将这个架构分别称为 CTC-PDS 或DTC-PDS，取决于时空编码模块中的神经元类型。然而，事件通常非常稀疏，直接在它们上面应用一系列卷积操作可能会导致语义信息的丢失，并且可能不足以重建视差图上的边缘或局部结构的细节。受到最近的研究[2，6，42，48]的启发，我们进一步开发了一个由 SPADE和多尺度扩张卷积融合的特征嵌入的双路径结构。如图 1所示，第一条路径通过 CTC 或 DTC对空时信息进行编码，然后是空间嵌入模块，与CTC/DTC-PDS网络相同。第二条路径从原始事件帧的最后一个堆栈中提取潜在的边缘信息（与时间上的地面真实视差对齐）。我们使用 1 × 1卷积层来融合通道间的信息，并使用平均池化来调整空间维度。在这个辅助特征图的条件下，SPADE模块提取调制参数，用于移动和缩放空间嵌入模块的特征图。其输出公式为：0其中 b, c, y, x 表示批次索引、通道索引和空间坐标， s 是最后一个SBT堆栈， γ c,y,x (s ) 和 β c,y,x ( s ) 是在 s 上训练的调制参数， h b,c,y,x 是空间嵌入模块的激活值， µc 和 σ c 是批次归一化的均值和标准差。我们使用与 [ 51 ]相同的匹配子网络和损失函数。从SPADE输出的左特征与相应的右特征进行拼接，并通过一系列卷积操作进行匹配。匹配操作之后，我们得到一个大小为 c 的4D匹配体积04 ，其中 d表示视差维度。然后，正则化模块使用一个沙漏结构来混合不同视差和通道的信息，并获得一个大小为 d 的代价体积02 � h � w。有关网络架构的更多细节可以在补充材料中找到。我们使用亚像素交叉熵损失来训练模型：0方法 MDE, [cm] ↓ 1PA, [%] ↑ 参数数量0手工设计 17.9 ± 0 . 6 88.1 ± 0 . 4 0 ConvGRU 55.9 ±28 . 5 45.9 ± 21 . 9 28800 ConvLSTM 20.6 ± 1 . 982.2 ± 4 . 5 38272 事件队列 16.9 ± 1 . 0 89.3 ± 1 . 412672 DTC 15.4 ± 0 . 1 91.2 ± 0 . 1 1632 CTC 15.1 ±0 . 3 91.2 ± 0 . 4 17600表1. 不同事件编码方法在第一次划分上的结果。0其中 w, h 表示视差图的宽度和高度， j表示代价体积的视差索引。我们设置多样性 b = 2，并将位置 ( x, y ) 上的地面真值视差作为均值，如 [ 51 ,52 ] 所做。因此， d ( j ) = 2 � j表示视差的数量。最后，我们使用亚像素估计器 [ 52 ]生成视差图：0其中 δ 表示窗口大小， ˆ j = arg min j ( C j,y,x )0C j,y,x 表示像素 ( j, y, x ) 上的代价。03. 实验0我们在MVSEC数据集上进行实验[ 63]，该数据集包含通过LI-DAR传感器收集的深度信息和从两个事件相机获取的相应20Hz强度图像（分辨率为346×260）的事件流。我们使用与[2 , 51 , 62]相同的设置对MVSEC中的室内飞行数据集进行划分和预处理。在第一次划分中，室内飞行2和3中的3110个样本用作训练集，而室内飞行1中的861个样本和200个样本用作测试集和验证集。在第三次划分中，室内飞行1和2中的2600个样本用作训练集，而室内飞行3中的1343个样本和200个样本用作测试集和验证集。我们使用平均深度误差（MDE）、一像素准确度（1PA）、中位深度误差和平均视差误差作为密集视差地面真值的评估指标。此外，我们还在最近的大规模室外事件立体数据集DSEC [ 16]上进行了初步实验，以进一步证明我们模型的通用性。我们的模型使用PyTorch构建。有关训练细节，请参阅补充材料。03.1. 事件编码方法的比较t = 1t = 3t = 6t = 925 = 0.0213 = 1.7812 = 3.943 = 4.180.00.20.40.60.81.0Figure 2. Feature maps of DTC. The upper row shows the evolution of a feature map at four different time steps (t = 1, 3, 6, 9). Thefeature map aggregates its past states and gradually forms a denser spatial representation. The bottom row shows four feature maps withdifferent time constants at the end of evolution. Channels with larger τ remember more history than those with smaller τ.used for evaluation, following [2,37,51]. For a fair compar-ison of all encoding methods, we use the same spatial em-bedding, matching and regularization module as [51]. Thenetwork was trained on split one for three times using differ-ent random seeds. For all methods except the event queueand hand-crafted methods, we use SBT to convert eventsinto event frames. Speciﬁcally, ∆t = 50ms of events arecompressed into a stack of n = 5 frames with each framemerging T = 10ms of events, following Eq. 1. The in-put channel numbers are set to 5 for convLSTM, convGRUand our methods and the output channel number is set to 32.The parameters of SBT actually corresponds to the temporalresolution of the network, which is deﬁned by T = ∆tn . Foreach training sample, the model reviews 15 preceding eventstacks to accumulate temporal information. For every trial,we chose the checkpoint with the best 1PA on the valida-tion set for testing. Tab. 1 shows the comparison on average1PA, MDE and number of parameters. The results demon-strate that CTC and DTC have similar precision, and bothoutperform all the other methods in 1PA and MDE, withsigniﬁcantly fewer amount of parameters. Our methods alsomaintain certain robustness to a range of different SBT pa-rameters (see supplement material). Note that for CTC, weuse simulation results from the convLTCOR model. Empir-ically we found that the training of the convLTC model wasunstable, during which gradients sometimes tended to van-ish. This could be due to the convolutional input term in thedenominator of the system time constant was not properlynormalized; more studies are needed for this model.Time constants of DTCDuring the evolution, feature maps of DTC update their in-puts meanwhile accumulating past states. After training,channels with larger τ remember more history than thosewith smaller τ, as shown in Fig. 2. Similar phenomenon isobserved on the feature map of CTC (see supplement mate-rial). In the event queue method, a stack of 3D-convolutionlayers are trained to generate a set of temporal weight ker-nels which are multiplied to polarities stored in the queueaccording to their timestamps. These weight kernels canbe understood as the importance of the network trained toassign over events at different moments. As shown in Fig.3, DTC is trained to capture spatial features in a range oftemporal scales, offering abundant causal and contextual in-formation for downstream modules of the network. In con-048121620Epochs01234 value(a) DTC0.40.20.0Time [sec]84048Weight value(b) CFCFigure 3. Time constants of DTC and kernel weights of eventqueue method. (a) shows the history of τ in the training process.We apply positive constraint on τ during training for a stable accu-mulation of past history. It can be seen that τ was trained to covera wide span of values, enabling DTC to encode the data in a rangeof temporal scales. (b) shows a set of weight kernels of the eventqueue method after training. Their value distributions indicate thatthe network was trained to concentrate on more recent events.8681(a) Events(b) DDES(c) DTC-PDS(d) DTC-SPADE14.219.45.910.40.550.7592.189.686820(e) 真实值0图4.在MVSEC的室内飞行数据集上进行定性比较。最左列是事件与相应灰度图像的重叠。DDES、DTC-PDS、DTC-SPADE和真实值的视差图在相同的帧上，分别来自序列1的第100帧，序列1的第340帧，序列3的第1700帧，序列1的第980帧。我们运行了DDES的发布代码进行密集视差估计，并生成了基准视差图。我们的模型能够检测到比基准更多的空间信息。有关绘图的更多详细信息，包括颜色映射设置，请参见补充材料。0方法 EO 平均深度误差[cm] ↓ 中位深度误差[cm] ↓ 平均视差误差[pix] ↓ 1PA [%] ↑0分割1 分割3 分割1 分割3 分割1 分割3 分割1 分割30EIS [37] � 13.7 22.4 - - - - 89.0 88.10EITNet [2] �0–0DDES [51] � 16.7 27.8 6.8 14.7 0.59 0.94 89.8 74.80DTC-PDS � 15.3 18.6 6.4 8.7 0.56 0.65 91.5 88.70CTC-PDS � 14.9 20.6 6.4 10.6 0.53 0.73 91.6 88.20DTC-SPADE � 13.5 17.1 5.2 7.9 0.46 0.60 93.0 89.70表2.密集视差估计的结果。空白条目表示相关论文中没有相应数值。在每个指标中，我们用粗体表示最佳结果，用下划线表示第二佳结果。DTC-SPADE在所有指标上都优于其他所有方法。EO表示训练和推断都使用仅事件输入。请注意，EITNet在训练时需要灰度图像，但在推断时不需要。0相比之下，事件队列方法主要利用最近的信息，对最近的事件比远处的事件赋予更大的权重。请注意，SBT每帧合并10ms的事件，这是非常稀疏的。然而，DTC通过训练学习聚合过去的信息，并形成密集的特征图，如图2所示。03.2. 实证结果0在本小节中，我们将DTC-PDS和DTC-SPADE与其他最先进的基于事件的立体匹配方法进行比较。结果在表2中呈现。其他模型的数值取自它们的论文。作为仅使用事件的方法，我们的两个模型都优于DDES [51]。1PA ↑91.2(91.5)88.7(88.7)92.9(93.0)89.6(89.8)MDE ↓15.1(15.3)18.6(18.6)13.5(13.5)17.1(17.1)FPS11064EIS-EI [37]5.8141.0550.3960.905EIS-ES [37]✓9.9582.6450.5291.222DDES [51]✓10.9152.9050.5761.386DTC-PDS✓9.5172.3560.5271.264DTC-SPADE✓9.272.4050.5261.28586830在所有指标上，DTC-SPADE甚至超过了使用额外强度图像训练的方法。请注意，除了1PA指标外，DTC-PDS在分割3上也优于EITNet。结果表明，SPADE可以提高网络性能，这得到了进一步的多个随机种子实验的支持（详见补充材料）。EIS[37]的训练利用了强度图像和使用SBN准备的事件帧，SBN将一定数量的事件堆叠在一起形成一帧。当事件的时间密度波动时，可能会导致事件与真实视差之间的潜在时间错位，这可能是其性能不佳的原因。EITNet[2]训练了一个图像重建子网络，并使用图像的结构信息来增强估计视差的质量。这种方法是一把双刃剑，因为如果重建质量不理想，网络的性能将受到损害。它还极大地增加了网络的训练时间和推断的计算成本，因此几乎不适用于高速场景。DTC-SPADE的计算成本相对较低。该网络从即时事件帧中提取潜在的边缘信息，使其能够呈现比DDES和DTC-PDS更细的局部结构，如图4所示。DTC的各种内在动态还使网络能够在时间上高度动态的事件流上进行良好的泛化。03.3. 流式实验0在实际应用中，事件被假设为由传感器连续生成，并具有可变的持续时间。对于算法来说，反复回顾固定长度的过去信息以产生准确的视差是多余的，这是我们的模型和我们比较的所有其他方法的标准训练设置。为了测试DTC-PDS和DTC-SPADE的鲁棒性和实时适用性，我们设计了一组流式实验。在这些实验中，整个测试集连续地输入模型，模型演化相同长度的步骤并估计相应的视差。结果总结在表3中。DTC-PDS（DTC-SPADE）在单个NVIDIA Tesla V100 32GGPU上达到110（64）FPS的推断速度，与基于固定长度的先前事件帧进行测试时的准确性水平相似。据我们所知，我们的模型是第一个在MVSEC数据集上进行密集视差估计的流式实验。有关实验的更多详细信息，包括FPS计算，请参见补充材料。03.4. DSEC数据集0为了展示我们方法的通用性和鲁棒性，我们进一步在最近提出的DSEC数据集[ 16 ]上训练了我们的模型. 初步实验 (表0方法 DTC-PDS DTC-SPADE0分割1 分割3 分割1 分割30表3. 流式实验结果. 标准测试设置中的值在括号中.0方法 EO 1PE ↓ 2PE ↓ MAE ↓ RMSE ↓0表4. DSEC数据集的比较. 结果也发布在DSEC视差基准网站上[ 1 ].04)表明DTC-SPADE在仅使用事件的方法中达到了最先进的性能. 实验的更多细节请参见补充材料.04. 结论0在本研究中，我们提出了一种新

下载后可阅读完整内容，剩余1页未读，立即下载