在线深度学习中的防止遗忘：基于LPF适配器的深度网络

41 浏览量更新于2023-10-23 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4494源帧对深度网络Itt-1L源姿势网构成深度……落后目标视频深度网+适配器L目标Pose Net +适配器构成深度|- 前期培训-||--------------------Online在线深度学习对抗单目视频中的遗忘Zhenn yuZhang1<$t，Ste′ phaneLathuilie` re2，4，ElisaRicci2，3，NicuSebe2，YanYan1杨健1杨健1中国南京理工大学PCA实验室1DISI，University of Trento，via Sommarive 14，Povo（TN），Italy2Technologies of Vision，Fondazione Bruno Kessler，Via Sommarive 18，Povo（TN），Italy3Te'le' comParis，多媒体集团，法国e4zhangjesse，yanyan，csjyang@njust.edu.cnstephane.lathuiliere，e.ricci，niculae. unitn.it摘要在线深度学习是一致地调整深度估计模型以处理连续变化的环境的问题。这个问题是具有挑战性的，因为网络很容易过度适应当前的环境，并忘记它过去的经验。为了解决这个问题，本文提出了一种新的学习防止遗忘（LPF）方法，用于在线单深度适应新的我源视频基本模型Online适配器以无监督的方式瞄准领域。LPF学习适配器模块，而不是更新的通用参数，有效地调整的特征表示和分布，而不会丢失预先学习的知识，在在线条件下。具体来说，为了适应视频中的时间连续深度模式，我们引入了一种新的元学习方法，通过将在线自适应过程结合到学习目标中来学习适配器模块。为了进一步避免过拟合，我们提出了一种新的时间一致的正则化，以协调在每个在线学习步骤的梯度下降过程。在真实数据集上的广泛评估表明，所提出的方法，非常有限的参数，显着提高估计质量。1. 介绍单目深度估计是视觉场景理解中的一项基本任务，在计算机视觉和机器人领域引起了越来越多的关注[8，58，47，54]。随着深度学习算法的成功[46，21]，最近的作品通常提出方法*通讯作者†Zhenyu Zhang、Yan Yan和Jian Yang就职于PCA实验室，该实验室是智能感知与高维信息系统的重点实验室。教育部、南京理工大学计算机科学与工程学院社会保障图像与视频理解江苏省图1.在线单眼深度学习的建议框架。该模型首先通过非监督和监督损失L源在合成数据集上进行训练。然后，通过一个在线学习目标L Meta从合成视频序列中学习一系列在线适配器。Finally,when adapting on the target real-world video, we only update thelearned adapters and regres- sors (decoder) by unsupervised lossLtarget.基于深度神经网络[13，27，31，53，56，59，57]。尽管这些方法具有吸引人的性能，但它们主要以监督的方式从地面实况中学习深度信息。由于数据收集的昂贵性，这种设置在现实世界的应用中可能不实用，因此许多工作转向设计无监督深度估计方法[63，17，55，1，18]，并且与监督方法相比表现出良好的性能。尽管上述无监督方法具有吸引力，但它们可能对开放世界应用有限制。由于机器学习中的经典范例，在训练阶段之后，模型被冻结并用于推断，而模型参数没有任何变化。然而，在现实世界的应用程序中，部署环境（即，目标域）可能与训练域（即，源域），并随时间持续变化。最近的几项工作被提出来解决立体匹配的这个实际的开放世界问题[62，50，49]，但是很少有工作关注在线单声道。更大深度适应。与线上立体声相比，适应|4495单深度学习从两个方面来看更具挑战性：（i）单目环境固有的尺度模糊性和缺乏地理信息的支持使得模型极度依赖于特定于域的视觉特征，并且容易过度拟合当前域[11，10];（ii）环境变化（例如，速度或场景变化）引入了对深度或姿态估计的额外挑战，使得整个模型脆弱。最重要的是，由于深度网络在在线学习环境中不灵活，因此存在灾难性的遗忘问题。换句话说，模型在更新到新领域时，很容易忘记预先学习的知识。从这个角度来看，在本文中，我们认为，防止遗忘，同时执行鲁棒的适应是在线单深度学习的关键点。为了实现这一目标，由于源上的训练数据通常是大量的，我们可以调整可靠的预先学习的知识，而不是在适应过程中完全更新它。首先，我们提出调整基本模型来克服域转移。根据最近的工作[28，2，34]通过批量归一化（BN）[23]层对齐域偏移，尽管在在线条件下我们永远无法访问完整的目标数据，但我们受到启发，通过目标视频的在线数据流平滑地调整模型统计。除了统计学之外，关于多域或增量学习的作品[20，37，41，40]启发我们选择性地调整学习的基本参数的一小部分，同时保持所有其他参数固定。在我们的设置中，这意味着确保由场景变化引起的视觉外观变化永远不会影响编码可靠知识的网络权重。根据这些想法，我们提出了新的适配器，使调整源模型在线。此外，受最近学习学习算法[12，38]的启发，我们开发了一种新的基于元学习的方法，将在线学习过程纳入学习对象，从而驱动适配器进行稳定的长期适应。在上述动机的驱动下，在本文中，我们提出了一种新的学习防止遗忘（LPF）框架，用于在线单深度学习。如示于图首先，我们使用合成数据训练单目深度预测模型。其次，我们采用了一系列在线适配器来调整模型的统计数据和权重，并使用一种新的基于元学习的策略来训练它们，适当更新基础知识。具体来说，我们将学习目标LMeta与在线自适应过程结合，因此Lmeta将导出初始适配器以适应视频中的时间连续深度模式Fi-最后，在对目标真实世界视频进行在线自适应时，我们只通过无监督的损失L目标来更新学习的在线适配器和回归器（解码器）。通过这种方式，我们实现了快速适应目标视频和具有较少遗忘的长距离适应。我们还提出了一种新的时间一致正则化以在每个在线学习步骤期间协调梯度下降。总之，本文有四个主要贡献：（i）我们提出了一种新的用于单目视频在线深度学习的学习防止遗忘框架，该框架对于目标数据流的快速和长距离在线适应是有效的;（ii）提出了一种新的适配器来处理连续在线数据流情况下的域转移问题;（iii）提出了一种新的基于元学习的方法，该方法允许获得适应在线学习条件的适配器;（iv）我们进行了广泛的评估，以验证我们的方法的有效性，表明我们的方法在现实世界的数据集上实现了比最先进的方法更优越的性能。2. 相关作品单眼深度估计。关于单深度估计的早期工作主要基于几何先验[45，30，24]。随着大规模数据集的可用性，最近基于深度学习的方法已经成为主流[9，31，27，13，56]。然而，监督方法需要大量的图像和地面实况深度图对。为了克服这种限制，已经提出了非监督或自我监督的方法[63，17，15，55，1，18，33，3]。然而，这些文章都没有关注开放世界的设置，其中目标序列是从不同的环境中收集的，源并随着顺序可用的数据流而保持变化。最近的一些工作[5，19]提供了开放世界问题的解决方案，但它们需要大量的额外注释或计算，如物体运动和光学运动。域适配，多域和持续学习。关于域适应的工作有很多[7]。最近基于深度学习的方法主要通过考虑分布损失[32]，对齐层[28，2，35]和生成对抗网络[43，44]来减少域偏移。最近，还研究了立体声深度估计的跨域自适应问题[50，48]。然而，这些作品并没有明确地解决域转移的问题，同时进行在线适应。一些跨域单目深度估计工作[61，60]也与我们的论文相关，但它们没有解决开放世界问题。通过特定适配器学习多域问题模型的工作[41，40]也与我们的工作有关。此外，持续学习方法与我们的工作关系不大，我们的任务是逐步更新模型，试图防止灾难性遗忘[36]。然而，以前的[26，4，29，42]工作主要集中在分类问题上，而我们的目标是密集回归任务。此外，我们的问题是在非常有限的学习阶段的实时条件。元学习。元学习，即学会学习，在-4496t+1tttt试图通过梯度下降来设计能够适应新环境的模型，如下所示：样品很少。在[51，20，12]中，元学习已被用于将模型快速泛化到新的领域和类别。最近，Park等人 [38]介绍了一种dt+1，θp]←[θd，θp]−αθp，θdLu（[θd，θp]，It，It−1），（一）基于元学习的方法来获得用于在线跟踪的初始网络。与我们更密切相关的工作是[49]，其中提出了一种学习更好地使模型适应立体视频的方法。相比之下，我们的论文专注于在线单深度学习。我们的方法不是学习一个更好的初始模型，而是学习如何利用预先存在的知识在连续的数据流中进行更好的在线适应，从而实现鲁棒的适应以防止忘记。因此，我们工作中考虑的任务、目标和方法与以前的论文有根本的不同。3. 初步在本节中，我们将介绍用于单目深度估计的无监督框架及其在线学习算法。无监督框架：我们遵循[63]中首次引入的方法，用于单目视频中的无监督深度估计。该框架包含两个子网络：深度网络，用于预测目标帧It的深度图Dt;姿态网络，用于预测相邻帧对（ It-1 ， It ）和（It+1，It）之间的相对姿态Pt-1，Pt+1。许多作品通过共同学习光学流[55]和采用几何约束[33，3]来扩展这种方法。在本文中，我们主要基于[63]和更近期的工作[1]实现和验证我们的方法，但我们想说明的是，原则上，我们的框架也可以集成大多数这些最新进展。在线学习：在这里，我们讨论在线单深度学习的范例。为了更好地制定问题，我们首先采用源数据集VS（通常是合成的，具有地面真实值）来预训练我们的单眼深度估计具有监督损失Ls的模型（例如，L1回归）和无监督损失Lu（定义于[63，1]）。然后，在目标视频VT上部署和评估模型。在经典作品中，VT通常是固定的，并且与VS来自同一域。然而，在实际应用中，VT通常来自不同的域（例如，真实世界的场景），并保持改变（例如，在汽车上实现的模型必须在变化的环境中工作）。在这样的开放世界条件下，我们顺序地处理视频帧，并在每个时间步不断地调整我们的模型，以便随着t的增加预测更准确的深度图。类似于[49，62]关于开放世界立体声，我们遵循学习和评估的范式。在时间t，我们首先从It（当前帧）。然后，我们根据监督损失Ls评估我们的预测，最后，我们使用Lu更新模型。得到了每个时间步的学习过程其中θd、θp是深度网络和姿态网络的参数4. 学会防止遗忘在本节中，我们将介绍我们提出的用于在线单深度学习的学习防止遗忘（LPF）框架，包括用于深度估计的在线适配器（第4.1节和第4.2节）以及相应的学习算法（第4.3节）。在第4.4节中还介绍了一种用于稳定在线学习的新的时间一致正则化。4.1. 在线统计适配器如第1节所述，尺度模糊性和缺乏几何先验信息使得单目深度估计框架过度依赖于外观线索和特定领域信息。因此，当部署在新的目标数据上时，它们特别容易受到域转移的影响。根据[28，2]，域差异源域S和目标域T之间的关系可以通过将记录在批处理中的统计数据氮化（BN）层。然而，在我们的例子中，我们不能访问完整的数据，而是T的顺序流。这启示我们开发了一个新的适配器，可以平滑地更新统计数据以在线方式传输数据流在源数据集上进行预训练后，模型收集与S对齐的统计数据BS=（µS，µS）。这里为了便于记法，我们仅分析一个BN层中的均值μ和协方差矩阵μ下文所述的方法适用于所有其他方法。当模型适应于目标时，由于源统计量BT与源统计量BS不同，使用源统计量BS会使模型发生区域偏移然而，在序列的开始，我们还没有处理足够的帧来具有BT的鲁棒估计。此外，委员会认为，通过仅使用目标帧的观测统计，模型会完全忘记源知识。受此激励，我们设计了一种更健壮的方法来对齐模型统计数据。基于[52]中分析不同层统计数据的理论，我们还可以将时间轴上的统计数据建模为卡尔曼滤波过程。在时间t处，给定状态转移矩阵At和具有m个示例的特征xt，我们可以将统计估计为：t|t−1=Atµt−1|t−1，t|t=（1−at）µt|t−1+ atx<$t，拉克莱特|t−1=Att−1|t−1（At）T+R，拉克莱特|t=（1−at）t|t−1+atSt，（2）其中，|t−1和t|t−1是从时间t − 1计算的均值和协方差矩阵，R和S t是协方差[θ4497L u我我θ1L u我我θ不u+s我我θ0适配器中的初始权重f在ϕ+1x1转换ConvM我适配器中的初始权重0，I1基于适配器的序列适配IT-1， IT对以下框架IT+n-1， IT+n深度网………姿势网LLLu+s01………不亚梯度下降适配器θ适配器权重前向处理反向传播图2.我们提出的基于元学习的在线适配器学习方法的一个单一训练循环适配器从权重θ0开始，然后不断适应源数据集上长度为T的视频序列，通过无监督损失Lu将权重更新为θT。之后，我们使用从以下时间点T + n随机选择的帧来评估适配器，并相对于初始权重θ0执行梯度下降。通过这种方式，我们学习了一系列更好的初始适配器，用于适应时间连续的深度模式。更多细节见第4.3节。偏置矩阵和观测特征。x<$t=1mxt，且米伊伊at是平衡重量，µt|t和t|这是最终的估计。由于At和R在在线自适应期间难以获得，我们简单地假设At是单位矩阵，偏差为零。此外，在卷积中，φφφFout神经网络的工作使得St=1m（xi−x<$t）。在这种情况下，我们可以简单地方程。2作为t|t= µt=（1−at）µt|t−1+ atx<$t，=（1−at）µt−1+atµt拉克莱特|t= t=（1−at）t|t−1+ atSt=（1−at）t−1+at t（3）其中，μt、μ t分别是时间t的观测值均值和方差，μ t、μt是统计量的最终估计值。T是可学习的动态权重，以决定层应适应当前帧的程度。注意，与标准BN操作不同，我们执行Eqn.3在训练步骤的前向过程中，即，训练步骤中的层的输入x将被变换为x− µtx=ω+ρ。（四）中国2+1ω，ρ是标度和位移因子，ω是小常数。以这种方式，随着时间t的增加，BS平滑地对准到BT，并且稳定地更新预先学习的知识4.2. 在线重量适配器为了在在线自适应过程中保留预先学习的知识，我们使用适配器来调整特征表示，而不更新主要的网络参数。这将削弱场景转换造成的误导，有利于长期适应。此外，这些适配器需要在非常有限的参数下足够有效，以避免(a) 串联适配器（b）注意适配器（c）并联适配器图3.建议的在线权重适配器。每个适配器都能够通过操作以非常有限的成本调整基本模型。参数总量为4.7M，约为DispNet编码器的1/9计算过载在这里，我们从多领域和增量学习作品中借鉴了一些想法[40，41]来设计我们的适配器。所采用的适配器如图3.第三章。考虑主模型的给定卷积层，φ（·，λ）表示其用权重λ参数化的计算函数。设f in和f out为输入和输出特征映射。我们进一步定义ε（·，γ）为带参数γ的适配器。在这项工作中，我们考虑三种不同的适配器。首先，可以如下调整原始层Φ（·，λ）f out= φ（f in）+ φ（φ（f in））。（五）考虑到卷积是一个1×1卷积，我们得到了[40]中引入的串联适配器（见图1）。3（a））。第二，如果我们使用1×1卷积，sigmoid激活和缩放操作到pixel中，它就变成了注意力模块在[22]中提出。该适配器能够使用注意机制重新加权φ的输出。在我们的例子中，我们稍微修改了这个注意力适配器，删除了挤压操作，并沿着每个通道计算softmax响应，以增强最相关的空间信息。该适配器被称为注意适配器，图3（b）款。最后，y，φ（·，λ）也可以如下调整：fout=φ （ fin ） +φ （ fin ），（6）这就是所谓的并行适配器[41]（见图）。3（c））。这些低成本适配器的使用避免了丢失可靠的可编程逻辑器件，f在ConvϕBN1x1转换+Foutf在Convϕ1x1转换SoftmaxX+Fout4498k=1k=1知识，这是有利于快速和长期的适应。4.3. 学习在线学习适配器通过4.1节和4.2节中提出的适配器，模型获得了调整统计量和权重的能力，以进行在线自适应。然而，标准的离线培训的来源是不令人满意的学习这些适配器，需要在在线模式下工作。为了克服这一限制，我们提出了一个新的学习目标图。2，它能够评估适配器在线适配的程度。给定适配器权重θ0和长度为T的视频序列，我们首先通过以下方式执行在线学习：Lu在每个帧对It-1，It上，并最终获得适配器权值θT在实际情况下，我们的目标是使模型在随后的帧中表现良好，然后我们在随机选择的随后帧对IT+n−1，IT+n上用θ T评估适配器。无监督损失Ls+u揭示了在使用初始适配器θ0进行在线适配之后的预测质量。根据最近的元学习，在[12]中提出的理论，我们可以执行梯度下降w.r.t. θ0，得到了能够进行快速稳定在线自适应的初始适配器。我们现在提供Meta学习方法的技术细节.我们考虑来自源数据集 VS并且由帧[I0 ， .，I T+N−1， IT+N]。设BS为预训练后获得的主模型统计量。方法详细在Alg. 1. T是每个在线算法1学习学习在线适配器要求：适配器的初始权重θ，训练集VS，超参数T，N，K，α，β。一曰：不做就做2：从VS采样{Vk}K3：初始化评价分数L=04：对于所有Vk，5：θ0=θ，B0=BS6：对于t ← 1，2，.，没做7：Bt← Bt−1，由方程38：θt<$θt−1−α<$θt−1Lu（θt−1，Bt;It−1，It）9：结束10：均匀采样n∈[1，N]图11：BT+n← BT，I T+n−1，I T+n由等式312：L=L+Ls+u（θT，BT+n;IT+n−1，IT+n）13：结束14：θ=θ0−β<$θ0L十五： end while学习，N是后续帧的数量。 K是所选择的视频序列的数目Vk，并且α、β分别是用于在线自适应和元梯度下降步骤的学习速率。在一个单一的循环中，我们开始初始化适配器权重和模型统计量为第5 行中的θ0=θ，B0=BS然后在第6行到第9行中，我们在选定的序列上调整模型，最终得到θT和BT。在第10至12行中，我们随机选择随后的帧IT+n-1、IT+n模拟未来可能发生的变化，并对其进行评价，得到得分L。最后，在对所有{Vk}K进行学习和评估后，我们进行梯度下降步骤w.r.t. θ0为在线自适应找到一个好的初始权重我们的方法与[49]中的方法不同，两个方面：i）它元学习和更新适配器而不是整个模型，这保留和调整（而不是完全改变）可靠的基础知识以对抗急剧变化; ii）在适应后对视频序列而不是单个帧进行评估和元梯度下降，旨在实现对未来帧的良好的长距离适应。4.4. 目标视频的在线改编在通过Alg. 1、我们可以对目标视频进行在线改编。然而，尽管用固定的原始知识更新适配器在一定程度上防止了遗忘，但模型仍可能受到现实世界场景中各种环境变化的影响，并倾向于过度拟合当前帧。为了进一步保证稳定的适应过程，我们支持提出时间一致正则化（用Lr表示）。在在线自适应的时间步长t处，除了当前帧之外，我们还使模型从随机选择的先前帧It-Bit 预测深度图Dstect-Bit。然后，我们迫使预测Dstect−t与时间步长t−t处的前一预测Dt−t相似，这可以通过计算Lr=||Dstect−bought−Dt−bought||1 .一、（七）在这里，我们只让1≤5，因此只需要很小的内存来存储之前的帧和预测。<在这样，模型被约束以保持其从先前帧学习的能力。即使在时间t发生剧烈的几何变化，Lr也可以协调梯度并惩罚模型最后，在目标视频上进行自适应的总无监督损失可以写为：L目标=Lu+δLr，（8）其中δ是平衡正则化的权重。重要的是，我们还在我们的Meta学习算法中使用Lr（图2的第二步）2）为了在将使用该损失的目标上模拟学习5. 实验5.1. 数据集Virtual-KITTI：Virtual Kitti [14]（vKitti）是城市驾驶环境的合成数据集。它包含6个不同的-4499表1.快速自适应低通滤波器各分量分析方法培训绝对相对值下SqRel更好的RMSERMSE日志越高越好<1.一、25<1.一、2521253基本（无调整）基础+幼稚标准标准0.36410.22426.29172.13119.94677.11790.41240.29910.50700.65580.77030.87090.88670.9486基本+SA标准0.21501.98346.90690.28830.66280.87830.9539基本+ SA + WA标准0.21431.95766.90550.28850.66250.87900.9543碱性+SA + WA +Lr标准0.21051.87326.76560.28200.67580.88020.9553基本+SALMeta0.20871.90036.83420.28330.66950.89010.9560基本+ SA + WALMeta0.20451.75496.70220.27910.67830.89570.9591碱性+SA + WA +LrLMeta0.20331.60766.56130.27780.69350.89650.9621在单目视频中输入具有地面真实深度和不同天气条件的场景。我们将其视为源域，并使用所有6个场景中所有条件下的视频（雾和下雨除外）来预训练我们的模型。总训练集包含85k图像。Cityscapes：Cityscpes [6]是一个用于自动驾驶和场景理解的城市数据集。我们使用来自41个不同单目视频的序列数据来预训练我们的模型。虽然它是在现实世界的场景，环境仍然与我们的目标域有很大的不同，我们将其视为源域来验证我们的方法。KITTI：KITTI [16]是一个广泛使用的自动驾驶真实世界数据集。根据[63，1]中的设置，我们使用Eigen的测试分裂[10]作为评估的目标域。请注意，由于我们的方法用于在线深度学习，我们使用所有目标视频中的所有帧来执行在线评估和自适应。5.2. 实现细节所提出的方法是使用PyTorch Li实现的[39]。我们使用SfM-Learner [63]和SC-SfM-Learner [1]中提出的框架来验证该方法，这是广泛使用的或最新的单深度估计方法。在这两个框架之后，我们使用DispNet和PoseNet来预测深度和相对姿态，分别对于SfM-Learner，我们使用pytorch实现，输入大小为128×416;对于SC-SfM-Learner，我们只使用作者我们根据模型统计适配器的需要，在这个人大多数不做任何修改，以复制原始论文的结果。我们使用监督损失和非监督损失的组合Lu+s来训练源域上的基本模型100个epoch，并使用Lu来训练另外100个epoch以保证PoseNet的学习。对于训练适配器，我们在Alg中选择T= 5，N= 5，K=8和学习率α= 1e−4，β= 1e−5。1.我们在Eqn中给出一个t。3 在训练期间上限为0.05，以避免太大改变，并且适配器被训练20个时期。对于目标的在线适应，我们使用与α相同的学习率来更新适配器和回归器。方程中的δ7设置为0.2。Adam优化器[25]在预训练和在线适应期间使用。表2.不同权重适配器的分析方法绝对相对值RMSE<1.一、25<1.一、252基础+幼稚0.22427.11790.65580.8709LPF（WA系列）0.20546.54230.69760.8960LPF（WA并行）0.20336.56130.69350.8965LPF（WA-attention）0.20726.61070.69200.89335.3. 评价方案我们使用一个评估协议，适合于在线的条件下，帧顺序送入网络。在每个时间步，我们首先测量模型在当前输入帧上的性能，然后通过反向传播和权重更新来调整该帧。我们在Eigen的测试中以随机顺序连接所有视频，并从第一帧开始适应。这种随机拼接可以在一定程度上进一步模拟环境变化。我们计算所有帧的平均分数作为最终结果，我们还显示了视频最后20%帧的分数，以分析模型在一系列帧上适应时的性能。这些分数可以说明模型适应每个视频的速度和稳定性。我们采用[63，1]中使用的指标来进行评估。5.4. 快速在线适应在本节中，我们分析我们的方法中的组件和机制是否有助于快速在线自适应。在没有特别注意的情况下，这些模型是基于SfM-Learner [63]构建的，并在vKitti数据集上进行了预训练。在补充材料中可以看到更多的额外实验。方法组分分析：为了便于标记，我们使用Basic来定义基本模型，而不使用我们的方法，WA和SA来定义建议的权重适配器和统计适配器。我们还使用Lr来表示在Eqn中提出的时间一致正则化。7. 幼稚方法中，我们采用不带适配器的主模型，并在学习步骤中更新所有参数。关于预训练，标准是指经典的预训练，没有Alg的元学习公式。1. 结果如表1所示为了清楚起见，我们只是示出了使用平行配重适配器的结果（方程 11 ）。（六）。我们观察到，没有在线适应的模型不能提供令人满意的结果，而朴素的在线学习表明，4500表3.不同框架和源数据集的比较[63]第六十三话方法数据绝对相对值RMSE<1.一、25<1.一、252天真弗基蒂0.22427.11790.65580.8709城市景观0.20166.79350.71660.8982LPF弗基蒂0.20336.56130.69350.8965城市景观0.17516.06770.74990.9186SC-Sfm-Learner [1]天真弗基蒂0.17825.94080.74730.9021城市景观0.16755.81850.77540.9163LPF弗基蒂0.15285.50810.77620.9234城市景观0.13835.34780.81940.9307表4.长期适应：Ktrain→vKitti→Ktest[63]第六十三话方法绝对相对值RMSE<1.一、25<1.一、252天真0.20706.52480.70410.8806回归器0.20026.43250.71560.8879L2A [49]0.19376.38040.72210.8980LPF0.17946.10900.73070.9126SC-Sfm-Learner [1]方法绝对相对值RMSE<1.一、25<1.一、252天真0.17355.65280.77430.9140仅回归变量0.17025.58830.77690.9153L2A [49]0.16925.55000.78810.9197LPF0.15055.44520.79900.9325只有有限的改进。在标准预训练的情况下，尽管我们的SA和Lr有利于适应过程，但WA带来的改善非常有限。一个可能的解释是，标准的运动训练不提供对模型的在线适应能力相比之下，使用我们提出的Meta学习方法Lmeta进行预训练，SA表现出更高的改进，我们的WA也能够表现出更好的性能，这表明我们的元学习方法使WA有效地工作。与其他方法相比，我们的完整方法实现了最佳性能表中的基线。这些结果表明，我们提出的LPF方法显然导致更快的在线适应目标视频。此外，我们还在表2中显示了不同WA的有效性在每个实验中，我们只是改变了我们完整方法中的权重适配器。WA-系列和WA-注意力意味着等式中定义的适配器 5，但与不同的degreas中描述的图。第3条（a）和（b）款。WA-并行意味着在等式n中定义的适配器。6，如图所示。3（c）款。我们观察到，所有三个适配器在指标上都显示出一致的改进。这些结果表明，我们的LPF方法可以实现不同类型的适配器和consis- tently提高性能。比较与不同框架和数据集：我们评估了我们的方法在不同的无监督框架和数据集上的有效性。在每个实验中，我们使用并行适配器。结果示于表3中。我们首先观察到两个框架都受益于我们的LPF方法，这表明LPF可以成功地应用到不同的框架中。然后我们观察到LPF带来的改进在不同的数据集上是一致的，这进一步证明了我们方法的推广性。1614121086420 50 100 150 200 250 300适配步骤图4.在同一个Kitti视频中演示不同型号的在线学习过程根据视频图像和理想的正弦模型的起伏性能，在t= 200附近存在环境变化。朴素的方法不能处理它，带来较慢的收敛速度，而我们的LPF方法获得稳定和鲁棒的适应过程。5.5. 跨领域的在本节中，我们将分析LPF在非常长距离在线自适应的情况下的表现为了模拟长时间的在线学习场景，我们首先在Kitti Eigen的训练分割（K train）上对模型进行预训练然后，我们使用我们在第5.1节中描述的所有视频对虚拟基蒂（vKitti）数据集进行在线自适应最后，在Virtual Kitti上进行适配后，我们对Kitti Eigen该实验能够显示我们的LPF方法是否在这样的长范围跨域自适应过程中防止遗忘。事实上，在vKitti上进行调整可能会使模型失去在K训练上学习到的可靠知识，并损害K测试的性能。结果报告于表4中。在本组件中，我们包括L2A方法[49]，该方法也可以在我们的模型中实现重要的是，这种方法并不是为了防止灾难性的遗忘而设计的。此外，我们还考虑了一个模型，其中只有解码器被更新（回归）。我们观察到，仅更新回归层获得的分数略好于更新整个网络。这表明，冻结编码器甚至可以更好地解决灾难性的遗忘问题。L2A还提供了改进，这要归功于它的元学习公式，使该方法能够快速适应。尽管如此，我们的LPF方法在两个框架中获得了最好的性能这表明在Ktrain上学习的知识在vKitti上适应后仍然保留它证实了适当调整主要知识而不是更新它可以减轻遗忘。5.6. 与理想方法和SOTA方法的比较在本节中，我们将我们的方法与理想和最先进的方法进行比较。实验设置与第5.4节相同，以分析目标视频上的快速在线自适应性能。结果如表5所示，其中所有方法都在两个考虑的框架中实现。为了显示性能的上限，我们还说明了理想条件的分数，其中我们基础+幼稚理想理想+天真RMSE4501表5.与理想方法和最先进方法的比较评估分数是在Eigen测试视频的所有帧上计算的在线评估分数最后20%帧方法训练集吸光度相对值↓RMSE↓<1.一、25↑<1.一、252↑吸光度相对值↓RMSE↓<1.一、25↑<1.一、252↑[63]第六十三话理想（不适应。）Kitti0.20246.55970.71800.89350.20916.54030.71110.8879理想+天真Kitti0.20326.50800.72200.89890.21136.45220.70750.8962天真弗基蒂0.22427.11790.65580.87090.21956.90220.66830.8798L2A [49]弗基蒂0.21716.80240.67590.87620.21036.72560.67830.8791LPF（我们的）弗基蒂0.20336.56130.68350.89650.19626.38870.71470.8996SC-SfM-Learner [1]理想（不适应。）Kitti0.15375.62950.80860.93380.15355.64120.80270.9335理想+天真Kitti0.14685.27680.82030.94310.13995.14130.83200.9479天真弗基蒂0.17825.94080.74730.90210.16625.75830.75960.9198L2A [49]弗基蒂0.17085.87640.75480.91570.16155.68310.77280.9213LPF（我们的）弗基蒂0.16285.65810.77620.92340.14955.43270.79360.9301(a) 图像（b）GT（c）理想（d）基本+天真（e）我们的图5.目视检查结果图示理想模型在Kitti上进行了预训练，而（d）和（e）的模型在vKitti上进行了预训练，并在线适应Kitti视频。我们的方法的结果优于朴素的基线，甚至与理想的方法的竞争模型是在Kitti Eigen的训练分割上预先训练的。对于在Sfm-Learner上实现的方法，我们首先观察到，即使在理想条件下，朴素在线学习带来的性能增益也非常有限，而L2 A [49]能够提高在线评估分数。与L2A算法相比，进一步提高了算法的性能，得到了最佳的结果。这些分析表明，我们的LPF方法优于L2A和天真的方法。与上界相比，在模型的理想情况下，我们的方法获得了有竞争力的分数，或者甚至更好的性能，特别是在最后的20帧上。这些结果进一步证明，我们的LPF方法导致一个稳定和快速的在线适应过程，即使模型从来没有看到数据在目标域之前。对于在SC-Sfm-Learner上实现的模型，我们观察到我们的LPF方法在所有指标的在线学习模型中仍然获得最佳结果。与理想模型相比，该方法的性能稍弱，但比其他在线方法更接近上界。值得注意的是，SC-Sfm-Learner的性能增益相对小于Sfm- Leaner。一种可能的解释是，SC-Sfm-Learner能够捕获两个广告帧之间的更多几何约束，并提供更可靠的视觉线索，这使得模型对外观信息的依赖更小，对环境变化具有鲁棒性。尽管如此，我们的LPF方法仍然显示出其在线深度学习的能力。为了进一步分析我们的方法，我们在图中说明了不同模型的在线学习过程4.第一章所有型号都建立在Sfm-Leaner上。我们观察到，在开始时，所有模型都表现相似。然而，当环境在t= 200附近发生较大变化时，朴素方法的两个模型表现出不稳定的行为，导致性能变差。相比之下，我们的LPF方法妥善处理这样的环境变化，并显示出更强大和更快的学习过程。最后，我们在图中显示了定性结果五、我们观察到我们的LPF方法比朴素模型预测更准确这些定性结果与定量结果一致。6. 结论在本文中，我们提出了一种新的学习，以防止遗忘（LPF）框架的无监督在线自适应单目视频。两个适配器被设计用于调整模型统计量和权重以防止遗忘。提出了一种基于元学习的适应器学习算法，以提高在线学习的效率。大量的实验表明，LPF能够实现快速、稳定的远程在线自适应，并获得与理想模型相媲美或更好的性能。7. 确认本工作得到了国家自然科学基金项目的资助。U1713208、61806094和“111”计划B13022。4502引用[1] Jia-Wang Bian，Zhichao Li，Naiyan Wang，HuangyingZhan，Chunhua Shen，Ming-Ming Cheng，and Ian Reid.来自单目视频的无监督尺度一致深度和自我运动学习。NeurIPS，2019。[2] FabioMaria Cariucci，Lorenzo Porzi，Barbara Caputo，ElisaRicci和SamuelRotaBul o`。自动拨号：自动域对齐图层。在ICCV，第5077-5085页[3] Vincent Casser、Soeren Pik、Reza Mahjourian和AneliaAngelova。没有传感器的深度预测：利用结构进行单目视频的无监督学习在AAAI，第33卷，第8001-8008页[4] Arslan Chaudhry 、 Puneet K Dokania 、 ThalaiyasingamAjan-than和Philip HS Torr.渐进学习的黎曼步行：理解遗忘和不妥协。在欧洲计算机视觉会议论文集，第532-547页[5] 陈宇华，考迪莉亚·施密德，克里斯蒂安·斯明奇斯-埃斯库. 单目视频中具有几何约束的自监督学习：连接流量、深度和摄像头。在IEEE计算机视觉国际会议论文集，第7063-7072页[6] Marius Cordts，Mohamed Omr

下载后可阅读完整内容，剩余1页未读，立即下载