具有在线适应能力的自监督深度视觉里程计

38 浏览量更新于2023-10-25 收藏 12.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{lishunkai, xinwang cis, yingdianc, feixue, zike.yan}@pku.edu.cnzha@cis.pku.edu.cn432163390具有在线适应的自监督深度视觉里程计0李顺凯王鑫曹英典费雪薛飞闫子科赵洪斌机器感知（MOE）重点实验室，北京大学电子工程与计算机科学学院PKU-SenseTime机器视觉联合实验室0摘要0自监督VO方法在联合估计相机姿态和深度方面已经取得了巨大成功。然而，像大多数数据驱动的方法一样，现有的VO网络在面对与训练数据不同的场景时性能明显下降，这使它们不适用于实际应用。在本文中，我们提出了一种在线元学习算法，以使VO网络能够以自监督的方式持续适应新环境。所提出的方法利用卷积长短期记忆（convLSTM）来聚合过去的丰富时空信息。网络能够记忆和学习过去的经验，以更好地估计并快速适应当前帧。在开放世界中运行VO时，为了处理不断变化的环境，我们提出了一种在线特征对齐方法，通过对齐不同时间的特征分布。我们的VO网络能够无缝适应不同的环境。在未见过的室外场景、虚拟到真实世界和室外到室内环境上进行了大量实验，结果表明我们的方法在自监督VO基线上始终表现出色。01. 引言0同时定位与地图构建（SLAM）和视觉里程计（VO）在许多实际应用中起着重要作用，如自动驾驶、机器人和混合现实。经典的SLAM/VO [13, 14, 17,29]方法在常规场景中表现良好，但在具有挑战性的条件下（例如动态物体、遮挡、无纹理区域）失败，因为它们依赖于低级特征。由于深度学习能够提取高级特征并以端到端的方式进行推断，近年来提出了基于学习的VO [22, 40, 41,44]方法来缓解经典手工设计算法的局限性。然而，当面对与训练数据不同的场景时，基于学习的VO的准确性明显下降。0图1.我们展示了自监督VO的领域转移问题。先前的方法在测试数据与训练数据不同时无法泛化。相比之下，我们的方法在测试不断变化的环境时表现良好，展示了快速在线适应的优势0从训练数据集[8,37]（图1）中得出，当将预训练的VO网络应用于开放世界时，其无法自我泛化到新场景对其实际应用造成了严重问题。这要求VO网络不断适应新环境。与使用目标域上的地面实况数据对预训练网络进行微调[37]不同，当在开放世界中运行VO时，不太可能提前收集足够的数据。这要求网络能够实时适应不断变化的环境。在这种在线学习设置中，训练和测试阶段之间没有明确的区别 -我们边执行边学习。这与传统的学习方法有很大不同，在推理过程中预训练模型是固定的。在在线适应过程中，VO网络只能从当前数据中学习，而不是从整个训练数据集中进行批量训练和多个epoches[11]。学习目标是找到一个适应新环境的最优模型。pt−1 ∼ K ˆT t−1tˆDt(pt)K−1pt,(1)432263400当前数据。然而，由于有限的时间感知领域[26]，当前的最优模型可能不适用于后续帧。这使得最优参数随时间振荡，导致在线适应过程收敛缓慢[9, 11,20]。为了解决这些问题，我们提出了一种自监督VO的在线元学习方案，实现在线适应。所提出的方法通过将在线适应过程纳入学习目标，激励网络在不同时间点上始终表现良好。此外，过去的经验可以用于加速对新环境的适应。因此，我们不仅仅从当前数据中学习，还使用卷积长短期记忆（convLSTM）来聚合视频中的丰富时空信息，使网络能够利用过去的经验进行更好的估计，并快速适应当前帧。为了在不断变化的环境中实现快速适应，我们提出了一种特征对齐方法，以对齐不稳定的特征分布。所提出的网络能够在没有提前收集的地面实况数据的情况下自动适应不断变化的环境。我们的贡献可以总结如下：0•我们提出了一种在线元学习算法，以自监督的方式持续适应未知环境。0•VO网络利用convLSTM融合过去的经验，以实现更好的估计并快速适应当前帧。0•我们提出了一种特征对齐方法，以处理开放世界中不断变化的数据分布。0我们的VO网络在Geforce 1080Ti GPU上实现了32FPS的在线细化，使其能够实时适应实际应用。我们在不同领域进行了算法评估，包括室外、室内和合成环境，结果始终优于最先进的自监督VO基线。02. 相关工作0基于学习的VO在近年来得到了广泛研究，随着深度学习的出现，许多具有有希望结果的方法被提出。受经典SLAM/VO中并行跟踪和建图框架的启发，DeepTAM[43]同时利用两个网络进行姿态和深度估计。DeepVO[38]利用循环神经网络(RNN)利用时序相关性进行姿态的递归估计。然而，这些方法需要昂贵或不切实际的地面真实值。为了避免需要注释数据，最近发展了自监督VO。SfM-Learner[44]利用姿态的三维几何约束0并深度学习通过最小化光度损失。Yin等人[41]和Ranjan等人[32]将这个想法扩展到联合估计姿态、深度和光流，以处理非刚性情况，这与静态场景假设相违背。这些方法侧重于使用图像对模拟运动的局部结构(SfM)，但未能利用长序列上的时空相关性。SAVO[22]将VO形式化为一个序列生成任务，并利用RNN显著减少尺度漂移。在本文中，我们采用了与SfMLearner[44]和SAVO[22]相同的思路。在线适应大多数机器学习模型在测试数据与训练集不同时性能显著降低。缓解这种领域转移问题的有效解决方案是在线学习[35]，其中数据按顺序处理，数据分布不断变化。以前的方法使用在线梯度更新[12]和概率滤波[6]。最近，领域自适应在计算机视觉中得到了广泛研究。Long等人[23]提出了最大均值差异损失来减少领域转移。几篇论文[5,33]利用生成对抗网络(GAN)将目标域中的图像直接转移到源域(例如，从白天到夜晚或从冬天到夏天)。受到[5,7]的启发，我们提出了一种用于在线适应的特征对齐方法。元学习或学习如何学习是机器学习中持续关注的一个问题。它利用数据中的内在结构，为快速领域自适应学习更有效的学习规则[27,36]。一种流行的方法是训练一个元学习器，学习如何更新网络[4, 15]。Finn等人[15,16]提出了模型不可知元学习(MAML)，它约束了模型的学习规则，并使用随机梯度下降快速适应网络到新任务。这种简单而有效的公式已被广泛用于将深度网络适应到未知环境[1,2, 21, 30,39]。我们提出的方法与MAML最相关，它将其扩展到自监督的在线学习设置。03. 问题设置03.1. 自监督VO0我们的自监督VO遵循SfM-Learner[44]和SAVO[22]的类似思路(如图2所示)。Depth-Net预测当前帧I t 的深度ˆ D t。PoseNet使用堆叠的单目图像I t − 1，I t 和ˆ D t − 1，ˆD t 来回归相对姿态ˆ T t − 1 t。然后，应用视图合成通过可微分图像变形来重构ˆ I t ：0其中 p t − 1 ， p t 是像素在 I t − 1 和 I t中的齐次坐标。K 表示相机内参。MaskNet根据配准残差 ∥ˆ I t − I t ∥ 1 预测每个像素的掩码 ˆ M t [44]。θi+1 = θi − α∇θiL(θi, Di),(2)minθi L(θi − α∇θiL(θi, Di), Di+1).(3)432363410图2. 我们方法的框架。VO网络从图像序列 D i 中估计姿态 ˆ T t − 1 t ，深度 ˆ D t ， ˆ D t − 1 和掩码 ˆ M t 。在每次迭代 i 中，根据损失 L更新网络参数 θ i ，并对下一时刻的 D i +1 进行推理。网络学习找到一组权重 θ � i ，使其在 D i 和 D i +1上都表现良好。在在线学习过程中，空间-时间信息通过convLSTM进行聚合，并采用特征对齐来对齐不同时间的特征分布 ˆ F i ， ˆ F i +1，以实现快速适应03.2. 在线适应0如图1所示，当VO网络面对与训练数据不同的场景时，其性能受到其泛化能力的根本限制。原因是它们是在“封闭世界”的假设下设计的：训练数据 D train 和测试数据 D test是从一个固定分布的公共数据集中独立同分布地采样得到的。然而，在开放世界中运行预训练的VO网络时，图像会在不断变化的场景中连续采集。从这个意义上说，训练和测试数据不再具有相似的视觉外观，当前视图的数据可能与之前的视图不同。这要求网络能够在线适应不断变化的环境。给定在 D train 上预训练的模型 θ，在线学习的一种朴素方法是通过计算当前数据 D i上的损失 L 来更新参数 θ ：0其中 θ 0 = θ ，α是学习率。尽管这种方法很简单，但它有几个缺点。学习目标 L ( θ i , D i ) 的时间感知域为1，这意味着它仅考虑当前输入 D i，与先前数据没有相关性。对于当前的 D i，最优解可能不适用于后续的输入。因此，不同迭代中的梯度 � θ i L ( θ i , D i ) 是随机的，没有一致性[9, 26]。这0导致收敛速度慢，并可能在学习过程中引入负偏差。04. 方法0为了解决这些问题，我们提出利用不同时间的相关性来实现快速在线适应。我们的框架如图2所示。VO网络 θ i以滑动窗口 D i 中的 N个连续帧自监督地估计姿态和深度（第3.1节）。然后根据损失 L 进行更新，并在下一时刻对帧 D i +1进行推理。网络学习找到一组权重 θ � i ，使其在 D i 和 D i+1上都表现良好（第4.1节）。在在线学习过程中，空间-时间信息通过convLSTM（第4.2节）进行整合，并采用特征对齐（第4.3节）进行快速适应。04.1. 自监督在线元学习0与 L ( θ i , D i ) 不同，我们将在线学习目标扩展到 L ( θ i+1 , D i +1 ) ，可以写成：0与朴素的在线学习不同，方程3的时间感知域变为2。它在适应 D i 的任务后优化了在 D i +1上的性能。关键在于最小化训练误差 L ( θ i , D i ) 对于432463420当前迭代 i，我们试图在下一次迭代中最小化测试误差。我们的公式直接将在线适应性纳入学习目标，这激励网络在 i 时学习 θ i，以在下一次 i + 1时表现更好。我们学习适应的目标与模型无关的元学习（MAML）[15]的目标类似：0min θ0τ ∈T L(θ - α �θ L(θ, Dtrainτ), Dvalτ), (4)0它旨在最小化验证集上的评估（适应）误差，而不是最小化训练集上的训练误差。τ表示从任务集T中采样的任务。有关MAML的更多细节，请参阅[15]。作为一个嵌套优化问题，我们的目标函数通过两阶段梯度下降进行优化。在每次迭代i中，我们将滑动窗口中的N个连续帧作为一个小数据集Di（如图2中的蓝色区域所示）：0Di = {It, It-1, It-2, ..., It-N+1}. (5)0在公式3的内循环中，我们通过自监督损失L评估Di中VO的性能，并根据公式2更新参数θi。然后，在外循环中，我们评估更新后的模型θi+1在后续帧Di+1上的性能。我们在训练和在线测试阶段都模拟这个连续的适应过程。在训练过程中，我们通过公式3在训练数据集中的所有序列上最小化损失之和，从而激励网络学习使得基础权重θ能够实现快速在线适应。为了更好地理解它学到了什么以及快速适应的原因，我们对我们的训练目标进行了泰勒展开：0min θi L(θi - α �θi L(θi, Di), Di+1)0≈ min θi L(θi, Di+1) - α �θi L(θi, Di) ∙ �θi L(θi, Di+1)0+ Hθi ∙ [α�θi L(θi, Di)]2 + ...0≈ min θi L(θi, Di+1) - α ��θi L(θi, Di), �θi L(θi, Di+1)�,0(6)其中Hθi表示Hessian矩阵，�∙ ,∙�表示内积。由于大多数神经网络使用ReLU激活函数，网络在大多数情况下是局部线性的，因此二阶导数等于0[28]。因此，Hθt ≈0，并且高阶项也被省略。如公式6所示，网络学习通过θi最小化预测误差L(θi,Di+1)，同时最大化Di和Di+1处梯度的相似性。由于相机不断移动，场景Di，Di+1可能来自不同时刻。朴素的在线学习将不同场景独立处理，仅适应当前场景，但忽略了在不同场景中执行VO的方式是相似的。由于梯度指示了更新网络的方向，这导致i、i+1处的梯度不一致，以及0收敛速度慢。相反，第二项通过将Di+1的梯度与先前信息对齐来强制一致的梯度方向，表明我们在i和i+1处训练网络θi以保持一致的良好性能。这种元学习方案缓解了在线学习中的随机梯度问题。公式6描述了非平稳场景中的顺序学习动态。网络通过L(θi,Di)在当前状态下调整学习，以在下一个时间点更好地执行。因此，学到的θ对于顺序输入的非平稳数据分布不太敏感，能够快速适应未知环境。04.2.时空聚合0正如第1节所述，由于时间感知场的固有限制，在线学习收敛速度较慢。为了使在线更新更加有效，我们让网络基于先前的信息进行当前估计。此外，仅从图像对中预测姿态容易积累误差。这种轨迹漂移问题可以通过利用长序列上的时空相关性来减轻[22,40]。在本文中，我们使用卷积LSTM（convLSTM）实现快速适应和减少累积误差。如图3所示，我们将循环单元嵌入到DepthNet和PoseNet的编码器中，使卷积网络能够利用空间和时间信息进行深度和姿态估计。convLSTM的长度N是Di中的帧数。ConvLSTM充当网络的记忆。随着新帧的处理，网络能够记住并从过去的经验中学习，以便更新参数以快速适应未知环境。这种方法不仅强化了不同时间步之间的相关性，还从视频输入中学习了移动相机的时间动态特性。0图3.DepthNet、PoseNet和MaskNet在自监督VO框架中的网络架构。每个块的高度表示其特征图的大小Fs = (µs, σ2s),µs = 1nn�j=1fj,σ2s = 1nn�j=1(fj − µs)2,n =H × W × C,(7)F0 = Fs.(8)µi = (1 − β)µi−1 + βˆµi,σ2i = (1 − β)σ2i−1 + βˆσ2i ,(9)ˆfj = γ fj − µi�σ2i + ǫ+ δ,(10)La = λmLm( ˆM) + (1 − αs) 1N� ˆM∥ˆI − I∥1+ 1N�x,yαs1 − SSIM(ˆI(x, y), I(x, y))2.(11)Lr = 1N(12)4325634304.3. 特征对齐0传统机器学习的一个基本假设是训练和测试数据是独立且从相同分布中独立地绘制出来的。然而，在开放世界中运行VO时，这个假设不成立，因为测试数据（目标域）通常与训练数据（源域）不同。此外，由于相机在不断变化的环境中持续移动，捕捉到的场景 D i 也会随时间变化。正如[7,25]中所强调的，对齐两个域的特征分布将提高域适应性能。受[7]的启发，我们通过在不同时间对齐特征分布，将这种域自适应方法扩展到在线学习设置中。在源域上进行训练时，我们通过层归一化（LN）[3]在特征图张量中收集特征 f j ∈ { f 1 , ..., f n } 的统计信息:0其中 H, W, C是每个特征图的高度、宽度和通道数。当适应目标域时，我们在 i = 0 时初始化特征统计:0然后在每次迭代 i 时，通过公式 7 计算特征统计量 ˆ F i =( ˆ µ i , ˆ σ 2 i )。给定先前的统计量 F i − 1 = ( µ i − 1 , σ2 i − 1 )，在 i 时的特征分布通过以下方式对齐:0其中 β 是一个超参数。特征对齐后，特征 f j ∈ { f 1 , ...,f n } 被归一化为 [3]:0其中 � 是一个用于数值稳定性的小常数。 γ 和 δ是归一化层中可学习的缩放和平移参数[3]。这种方法的见解是在不断变化的环境中强制非平稳特征分布的相关性。当测试数据的特征分布与训练数据相同时，学习算法表现良好。当切换到新环境时，尽管提取的特征不同，我们认为两个域的特征分布应该是相同的（公式8）。尽管在开放世界中运行VO时视角在变化，但 D i 和 Di +1会持续观察到，因此它们的特征分布应该是相似的（公式9）。这种特征归一化和对齐方法作为正则化，简化了学习过程，使得学习到的权重 θ 在非平稳环境中保持一致。04.4. 损失函数0我们的自监督损失 L 与大多数先前的方法相同。它包括:外观损失我们通过光度损失和结构相似度度量（SSIM）来衡量重建图像 ˆ I:0正则化项 L m ( ˆ M ) 防止学习到的掩膜 ˆ M收敛到一个平凡的解决方案[44]。SSIM的滤波器大小设置为5×5，α s 设置为0.85。深度正则化我们引入了一种边缘感知损失来强制深度的不连续性和局部平滑性:0x，y ∥� x ˆ D ( x, y ) ∥ e −∥� x I( x,y ) ∥ +0∥� y ˆ D ( x, y ) ∥ e −∥� y I ( x,y ) ∥ .0因此，自监督损失L为：0L = λaLa + λrLr. (13)05. 实验05.1. 实现细节0我们网络的架构如图3所示。DepthNet使用类似于[44]的U型架构。PoseNet分为两部分，后面跟随全连接层来回归6自由度姿态的欧拉角和平移。卷积LSTM的长度N设置为9。除了输出层外，每层都采用层归一化和ReLU。详细的网络架构可以在补充材料中找到。我们的模型使用PyTorch[31]在一块NVIDIA GTX 1080TiGPU上实现。所有子网络都以自监督的方式进行联合训练。图像在训练和在线适应过程中被调整为128×416。使用Adam[19]优化器，β1=0.9，β2=0.99，权重衰减设置为4×10−4。权重因子λm，λa，λr分别设置为0.01，1和0.5。特征对齐参数β设置为0.5。训练时的批量大小为4，在线适应时为1。学习目标（公式3）用于训练和在线适应。我们预先训练网络20,000次迭代。内循环和外循环的学习率α都初始化为10−4，并在每5,000次迭代后减半。05.2. 室外KITTI0首先，我们在KITTI里程计[18]数据集上测试我们的方法。它包含11个带有地面真实位置的驾驶场景。我们按照[22, 41,44]的相同训练/测试划分，使用序列00-08进行训练，序列09-10进行在线测试。432663440图4. KITTI数据集上不同方法的轨迹。由于在线更新，我们的方法显示出更好的里程计估计0方法 Seq. 09 Seq. 10 t err r err t err r err0SfMLearner [44] 11.15 3.72 5.98 3.40 Vid2Depth[24] 44.52 12.11 21.45 12.50 Zhan et al. [42] 11.893.62 12.82 3.40 GeoNet [41] 23.94 9.81 20.73 9.10SAVO [22] 9.52 3.64 6.45 2.41 Ours 5.89 3.34 4.790.830表1. KITTI数据集上视觉里程计结果的定量比较。terr：平均平移均方根误差（RMSE）漂移（%）；rerr：平均旋转RMSE漂移（◦/100m）0与先前方法在图像对上计算绝对轨迹误差（ATE）不同，我们恢复完整的轨迹，并通过KITTI评估工具包计算平移误差terr和旋转误差rerr。我们将我们的方法与几种最先进的自监督VO基线进行比较：SfM-Learner [44]，GeoNet [41]，Zhan et al.[42]，Vid2Depth [24]和SAVO[22]。如[24]所述，使用缩放因子将轨迹与地面真实位置对齐，以解决单目VO中的尺度模糊问题。序列09-10的估计轨迹绘制在图4中，定量评估结果显示在表1中。我们的方法在累积误差方面优于所有其他基线，通过在线适应减小了误差。与其他VO方法的运行速度比较可以在表2中找到。由于我们研究的是在线学习问题，运行时间包括前向传播、损失计算、反向传播和网络更新。我们的方法实现了实时的在线适应，并且在性能上明显优于最先进的基线。0方法 SfMLearner GeoNet Vid2Depth SAVO 我们的 FPS24 21 37 17 320表2. 不同VO方法的运行速度。05.3. 从合成到真实0合成数据集（例如虚拟KITTI、Synthia和Carla）在研究中被广泛使用，因为它们提供了地面真实标签和可控的环境设置。然而，合成数据与真实世界数据之间存在很大差距。为了测试域适应能力，我们使用Carla模拟器[10]在虚拟城市中收集不同天气条件下的合成图像进行训练，并使用KITTI00-10进行在线测试。从图1、5和表3可以看出，以前的方法在转移到真实环境时都失败了。这可能是因为虚拟场景的特征与真实世界的特征差异很大，尽管它们都是在驾驶场景中收集的。相比之下，我们的方法明显优于以前的方法，能够弥合领域差距并快速适应真实世界数据。05.4. 室外KITTI到室内TUM0为了进一步评估我们方法的适应性，我们在TUM-RGBD[34]数据集上测试了各种基线方法。KITTI是由行驶的汽车拍摄的，具有平面运动、高质量图像和足够的视差。相反，TUM数据集是由手持相机在室内场景中采集的，具有更复杂的运动模式，与KITTI明显不同。它包括各种具有挑战性的条件（图6），如动态物体、非纹理场景、突然运动和大遮挡。我们在KITTI00-08上预训练这些方法，并在TUM数据集上进行测试。尽管有地面真实深度可用，但我们在测试过程中仅使用单目RGB图像。可以看出（表4和图6），我们的方法始终优于所有其他基线方法。尽管存在较大的领域转移和运动模式的显著差异（即大的平面运动与3个轴上的小运动），我们的方法仍然能够很好地恢复轨迹。相反，GeoNet[41]和Zhan等人 [42]往往失败。尽管SAVO[22]利用LSTM在一定程度上减轻了累积误差，但由于在线自适应，我们的方法表现更好。05.5. 消融研究0为了证明每个组件的有效性，我们在KITTI数据集上的各个版本的方法进行了消融研究（表5中显示）。首先，我们评估了我们方法的骨干（第一行），其中包括convLSTM和特征对齐，但在训练和在线测试过程中没有元学习过程。从表1和表5可以看出，即使没有元学习和在线自适应，我们的网络骨干仍然优于大多数先前的方法。结果表明，convLSTM能够减少累积误差，特征对齐在面对未知环境时改善了性能。00454161.5527.1361.6928.4163.3028.2444.0814.8960.1028.4314.215.9301110183.9110.3648.4410.3035.689.7843.218.4264.689.9121.364.6202466171.4827.8070.5625.7284.6324.6773.5912.5369.1524.7816.212.600380149.5136.8141.9227.3150.0516.4443.3614.5666.3416.4518.410.890427123.8010.5239.343.4212.081.5617.919.9525.281.849.084.4105276187.7230.7163.6230.7189.0329.6632.4713.1259.9029.6724.826.3306110159.5312.7084.3332.7593.6630.9140.2816.6863.1831.049.773.5807110151.7718.9474.6248.8999.6949.0837.1317.2063.0449.2512.852.3008470186.5128.1370.2028.1487.5728.1333.4111.4562.4527.1127.107.8109159158.1820.0369.2026.1883.4825.0751.9713.0267.0625.7615.215.2810120145.3316.9149.1023.9653.7022.9346.6313.8058.5223.0225.637.69fr2/desk✓✓-0.3610.2870.2690.214fr2/pioneer 360✓✓✓0.3060.4100.3830.218fr2/pioneer slam✓✓✓0.3090.3010.3380.190fr2/360 kidnap✓✓✓0.3670.3250.3110.298fr3/cabinet✓--0.3160.2820.2810.272fr3/long off hou valid✓✓-0.3270.3160.2970.237fr3/nstr tex near loop-✓-0.3400.2770.4400.255fr3/str ntex far✓--0.2350.2580.2160.177fr3/str ntex near✓--0.2170.1980.2040.128432763450图5.在Carla上预训练并在KITTI数据集上测试的不同方法的轨迹。当从虚拟数据转换到真实世界数据时，我们的方法明显优于所有其他基线方法0SfMLearner [44] Vid2Depth [24] Zhan等人 [42] GeoNet [41] SAVO [22] 我们的方法序列帧 t err r err t err r err t err r err t err r err t err r err t err r err0表3. 在Carla模拟器上预训练并在KITTI上进行测试的不同方法的定量比较0序列结构纹理突然运动 Zhan等人 [42] GeoNet [41] SAVO [22] 我们的方法0表4. 在KITTI上预训练并在TUM-RGBD数据集上进行测试的不同方法的定量评估。我们评估相对位姿误差（RPE），以[m/s]的平移RMSE表示432863460图6. 不同方法在TUM-RGBD数据集上恢复的原始图像（顶部）和轨迹（底部）0序列 09 序列 10 在线预训练 LSTM FA t err r err t err r err0- 标准 � � 10.93 3.91 11.65 4.11 Naive 标准 � � 10.22 5.33 8.243.220元学习元学习 - - 9.25 4.20 7.58 3.13 元学习元学习 � - 6.363.84 5.37 1.41 元学习元学习 - � 7.52 4.12 5.98 2.72 元学习元学习 � � 5.89 3.34 4.79 0.830表5. 我们方法在KITTI数据集上进行消融实验的定量比较。FA:特征对齐0然后，我们比较了天真的在线学习（第二行）和元学习（最后一行）的效率。可以看出，尽管天真的在线学习能够在一定程度上减少估计误差，但它的收敛速度比元学习方案慢得多，这表明将网络适应新环境需要更长的时间。最后，我们研究了在元学习过程中的convLSTM和特征对齐的效果（最后四行）。与基线元学习方案相比，convLSTM和特征对齐进一步提升了VO性能。此外，在在线自适应过程中，convLSTM往往比特征对齐表现更好。一个可能的解释是，convLSTM结合了时空相关性和过去的经验，可以在长序列上循环地关联不同状态，使得梯度计算图在反向传播过程中更加密集连接。0同时，convLSTM在不同时间上相关联VO网络，强制学习一组一致的权重θ，这些权重在动态环境中保持一致。此外，我们研究了滑动窗口大小N对VO性能的影响。N的变化对运行速度（30-32FPS）影响不大，但随着N的增加，适应性变得更快更好。当N大于15时，适应速度和准确性变低。因此，我们将N =15设置为最佳选择。06. 结论0在本文中，我们提出了一种在线元学习方案，用于自监督VO，以实现快速的在线适应开放世界。我们使用convLSTM来聚合过去的时空信息，使网络能够利用过去的经验进行更好的估计，并快速适应当前帧。此外，我们提出了一种特征对齐方法，以处理在无约束的开放世界环境中的特征分布变化。我们的网络在时间上动态演化，以持续适应不断变化的环境。在室外、虚拟和室内数据集上进行了大量实验证明，我们具有在线适应能力的网络优于最先进的自监督VO方法。致谢本工作得到了中国国家重点研发计划（2017YFB1002601）和中国国家自然科学基金（61632003，61771026）的支持。[1] Maruan Al-Shedivat,Trapit Bansal,Yuri Burda,IlyaSutskever, Igor Mordatch, and Pieter Abbeel. ContinuousAdaptation via Meta-Learning in Nonstationary and Com-petitive Environments. In ICLR, 2018.[2] MarcinAndrychowicz,MishaDenil,SergioGomez,Matthew W Hoffman, David Pfau, Tom Schaul, BrendanShillingford, and Nando De Freitas. Learning to Learn byGradient Descent by Gradient Descent. In NeurIPS, 2016.[3] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hin-ton. Layer Normalization. arXiv preprint arXiv:1607.06450,2016.[4] Samy Bengio, Yoshua Bengio, Jocelyn Cloutier, and JanGecsei. On the Optimization of a Synaptic Learning Rule. InPreprints Conf. Optimality in Artiﬁcial and Biological Neu-ral Networks, pages 6–8. Univ. of Texas, 1992.[5] Konstantinos Bousmalis, Nathan Silberman, David Dohan,Dumitru Erhan, and Dilip Krishnan.Unsupervised Pixel-Level Domain Adaptation with Generative Adversarial Net-works. In CVPR, 2017.[6] TamaraBroderick,NicholasBoyd,AndreWibisono,Ashia C Wilson, and Michael I Jordan. Streaming Varia-tional Bayes. In NeurIPS, 2013.[7] Fabio Maria Cariucci, Lorenzo Porzi, Barbara Caputo, ElisaRicci, and Samuel Rota Bul`o. Autodial: Automatic DomainAlignment Layers. In ICCV, 2017.[8] Vincent Casser, Soeren Pirk, Reza Mahjourian, and AneliaAngelova.Depth Prediction Without the Sensors: Lever-aging Structure for Unsupervised Learning from MonocularVideos. In AAAI, 2019.[9] Ting Chen, Xiaohua Zhai, Marvin Ritter, Mario Lucic, andNeil Houlsby. Self-Supervised GANs via Auxiliary RotationLoss. In CVPR, 2019.[10] Alexey Dosovitskiy, German Ros, Felipe Codevilla, AntonioLopez, and Vladlen Koltun. CARLA: An open urban drivingsimulator. In Proceedings of the 1st Annual Conference onRobot Learning, pages 1–16, 2017.[11] Quang Pham Doyen Sahoo, Jing Lu, and Steven CH Hoi.Online Deep Learning: Learning Deep Neural Networks onthe Fly. In IJCAI, 2018.[12] John Duchi, Elad Hazan, and Yoram Singer.AdaptiveSubgradient Methods for Online Learning and Stochas-tic Optimization. Journal of Machine Learning Research,12(Jul):2121–2159, 2011.[13] Jakob Engel, Vladlen Koltun, and Daniel Cremers. DirectSparse Odometry. IEEE Transactions on Pattern Analysisand Machine Intelligence, 40(3):611–625, 2018.[14] Jakob Engel, Thomas Sch¨ops, and Daniel Cremers. LSD-SLAM: Large-Scale Direct Monocular SLAM. In ECCV,2014.[15] Chelsea Finn, Pieter Abbeel, and Sergey Levine.Model-Agnostic Meta-Learning for Fast Adaptation of Deep Net-works. In ICML, 2017.[16] Chelsea Finn and Sergey Levine. Meta-Learning and Uni-versality: Deep Representations and Gradient Descent canApproximate Any Learning Algorithm. In ICLR, 2018.432963470参考文献0[17] Christian Forster，Matia Pizzoli和DavideScaramuzza。S-VO：快速半直接单目视觉里程计。在ICRA2014年。[18] Andreas Geiger，Philip Lenz和RaquelUrtasun。我们准备好自动驾驶了吗？KITTI视觉基准套件。在CVPR 2012年。[19] Diederik P Kingma和JimmyBa。Adam：一种随机优化方法。在ICLR 2015年。[20] JamesKirkpatrick，Razvan Pascanu，Neil Rabinowitz，JoelVeness，Guillaume Desjardins，Andrei A Rusu，KieranMilan，John Quan，Tiago Ramalho，AgnieszkaGrabska-Barwinska等。克服神经网络中的灾难性遗忘。《国家科学院学报》114（13）：3521-3526，2017年。[21] KeLi和Jitendra

下载后可阅读完整内容，剩余1页未读，立即下载