基于元辅助学习的视频深度预测

180 浏览量更新于2023-10-16 收藏 838KB PDF 举报

图像重建

自适应学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1---基于元辅助学习的视频深度预测Huan Liu12，Zhixiang Chi1，Yuanhao Yu1，Yang Wang13，Jun Chen2，Jin Tang11华为诺亚huan.liu3，zhixiang.chi，yuanhaohuawei.comyang.wang @concordia.ca，chenjun@mcmaster.ca摘要我们考虑一个新的问题，未来的深度预测视频。给定视频中观察到的帧序列，目标是预测尚未观察到的未来帧的深度图。深度估计对于智能系统中的场景理解和决策起着至关重要的作用。预测未来的深度图对于自动驾驶车辆预测其周围物体的行为可能是有价值的。我们提出的模型，这个问题有一个两个分支架构。一个分支是未来深度预测的主要任务。另一分支用于图像重建的辅助任务辅助分支可以充当正则化。受测试时间自适应的启发，我们在测试过程中使用辅助任务来使模型适应特定的测试视频。我们还提出了一种新的元辅助学习，专门用于有效的测试时间适应的目的来学习模型。实验结果表明，我们提出的方法优于其他替代方法。1. 介绍我们考虑视频中的未来深度预测问题。给定视频中的一系列连续帧，目标是预测尚未观察到的未来帧的深度图（图1）。①的人。从图像或视频中进行深度估计在计算机视觉中得到了广泛的研究。最近，我们见证了单目深度估计的巨大成功[13，14，27，32，55]。然而，目前的方法主要集中在估计深度的数据已经观察到的。然而，在许多现实应用中，我们实际上需要预测未来帧的深度图以用于决策。例如，如果自动驾驶车辆可以正确地预测场景中其他车辆的未来深度，则它可以使用该信息来采取主动行动以避免可能的损害。已经有一系列关于预测视频中的未来信息的工作，例如未来RGB帧[21，33，43]，未来语义分割[20，31，40]，未来轨迹[6]，IT3ItDt+1图1：未来深度预测问题的说明每一列对应一个视频。给定几个观察到的帧（例如，在时间步t3，. t），目标是预测未来帧的深度图（例如，在时间t+1），尚未观察到。未来的深度预测可以由自主系统用于更好的规划和决策。未来的行动[12]等。然而，未来的深度预测还没有被研究过。本文是关于这一主题的第一项工作。未来深度预测的一个简单解决方案是将其视为纯监督学习问题。这种方法的局限性在于，学习的模型倾向于过拟合用于训练的视频，并且不能很好地推广到未看到的视频，特别是当训练视频和测试视频之间存在较大的域间隙时。在本文中，我们提出了一种用于未来深度预测的元辅助学习方法[3，28]。我们的方法具有以下特点。首先，我们不再把未来深度预测作为一个纯监督的问题来对待，而是增加了一个辅助任务5756……5757这是对未来深度预测的主要任务的补充。这两个任务共享特征提取的主干，并且一起学习辅助任务充当正则化，帮助学习对主要任务有用的特征表示。在本文中，我们选择图像重建作为辅助任务。其次，由于我们的辅助任务是自我监督的，并且不需要任何手动标签，因此我们可以使用它来执行测试时自适应[45]，以使模型适应特定的测试视频。最后，我们提出了一种元辅助学习方法来训练模型，以促进有效的测试时间适应。我们提出的方法显着优于其他替代品在几个基准数据集。本文的贡献是多方面的。首先，我们引入了一个新的问题，称为视频中的未来深度预测。目标不是预测观察到的帧的深度图，而是预测尚未观察到的未来帧的深度图这个问题的可靠解决方案可以用于许多现实世界的应用，例如自动驾驶。其次，我们建议使用图像重建作为模型中的辅助任务，而不是直接将未来深度预测作为纯监督问题来这种辅助学习充当正则化并提高主要任务的性能。此外，由于辅助任务是自我监督的，不需要任何手动标签，我们可以使用辅助任务来执行测试时自适应。最后，我们提出了一种新的元辅助学习方法来学习模型的方式，使有效的测试时间适应。实验结果表明，我们提出的方法优于其他替代方法。2. 相关工作2.1. 深度估计已经广泛地研究了从单目图像估计深度图。大多数当前最先进的深度估计方法使用深度学习框架。Eigen等人[8]提出了用于全局深度估计和局部深度细化的双尺度结构。Al- hashim等人。[1]显示更好的深度估计结果可以通过基于DenseNet的更强大的设计来实现[19]。一些工作还探索了使用统计学习技术提高神经网络映射能力的可能性。例如，Fuet al. [11]利用顺序回归来学习场景的顺序关系。此外，Maet al. [32]通过统一的框架实现深度估计和目标检测。基于视频的深度估计方法通常将摄像机运动和来自视频序列的多视图重建集成在一起[49，54]。2.2. 将来预测已经有一系列关于预测视频中未来帧的信息的研究。早期的工作[21，33，43]侧重于预测未来帧的原始RGB值，而不明确建模场景动态或低级别细节。近年来，为了从视频表示中分离出变化例如，[47，50]通过双流架构将运动和内容从视频中一些作品[4，35]预测未来的帧条件的额外变量，如里程或机器人状态。另一条研究路线将视频预测任务重新定义为预测其他语义信息而不是原始像素。示例包括未来语义分割[5，31，40]、未来人类姿势[46，50]等。[18]中的工作提出以概率方式联合预测未来的自我运动、语义图、深度图和光流。2.3. Meta学习元学习，也称为学习学习，已被证明可以有效地解决各种问题[7，42，53]，特别是少数学习问题[2，16，25，30，44]。在文献中有许多不同的元学习范式[15，51]。基于优化的方法[23，38]，特别是MAML[9]，已广泛用于快速模型自适应。MAML使用嵌套优化来学习模型参数的良好初始化，以快速适应新任务。除了少数镜头分类之外，元学习也已成功应用于密集预测任务，例如超分辨率[36，42]，视频插值[7]，图像去雾[26]等。目标是对每个测试图像/视频执行内部学习，以利用独特的统计信息来提高泛化能力。测试时间自适应需要来自测试数据的监督，这可以通过进一步下采样输入图像或视频中的帧速率来轻松获得。然而，对于未来的深度预测，这样的替代训练对在测试时不存在。所以我们的问题是更多的挑战。我们的工作与[3，28]中的元辅助学习密切相关。[28]中的工作旨在生成最佳辅助标签以改进主图像分类分支。相比之下，我们提出的框架通过辅助重建任务实现了测试时的自适应.最近，[3]提出使用元辅助学习进行测试时自适应的动态场景模糊。在本文中，我们进一步探讨了使用Meta辅助学习来处理很少研究的问题，即，未来深度预测除了[3]和我们在处理问题上的显著差异外5758a) 元辅助训练b）元辅助测试图2：我们提出的用于未来深度预测的元辅助学习框架概述在元训练状态（左）中，我们有一组成对的训练数据。每一对由作为输入的帧序列和作为输出的未来帧的深度图组成元训练过程涉及嵌套循环。在内部循环中，我们对一批训练数据进行采样。对于批处理中的每个实例，我们通过辅助任务分支更新模型参数，以获得适合该实例的模型。然后，我们使用主分支的损失来评估适应的模型。在外部循环中，我们以最小化批次中的主要损失的方式更新全局模型。经过元训练，我们已经获得了一个专门学习的模型，用于有效地适应新视频。在元测试期间，我们会得到一个新的视频。我们使用辅助分支来获得该测试视频的自适应模型，然后使用自适应模型来预测该测试视频的剩余帧。我们的研究结果也提供了元辅助学习可以用于处理序列数据的证据。3. 该方法在本节中，我们将介绍我们用于未来深度预测的方法。我们首先介绍我们的模型的架构我们的模型有一个两个分支的架构，共同解决两个相关的任务。这两个任务共享主干功能。给定一系列观察到的帧，主要任务旨在预测未来帧的深度图。除了主分支外，我们的模型还有另一个分支，它解决了与主任务互补的辅助任务。这两项任务可以共同学习。辅助任务可以充当正则化。我们选择使用图像重建作为辅助任务。给定一个测试图像，我们可以使用辅助任务更新模型参数，因为它是自我监督的，不需要手动标记。为了避免灾难性的遗忘，我们提出了一种元辅助学习方案，用于有效的测试时模型自适应。我们的方法概述见图2。3.1. 模型架构我们的模型有两个分支架构（见图1）。（3）第三章。网络的输入由几个连续的视频中的帧本文假设输入由四个标为（It-3，It-2，It-1，It）的帧组成. 给定观察到的四个连续帧，主分支用于预测下一时间步长t +1处的未来深度图Dt+1。辅助分支是一个自我监督的任务，重建观察到的帧。这两个分支共享用于特征提取的骨干网络。在下文中，我们将详细描述这两个分支。主要任务学习：给定输入帧（ It-3， It-2， It-1，It），我们首先使用2DCNN主干从每个帧中提取空间特征。2DCNN的背后--骨可以从任何现成的图像分类网络中选择，例如VGG[41]、ResNet [17]和DenseNet [19]。在我们的实现中，我们采用VGG19作为我们的骨干网络。VGG19中的最后三个完全卷积层被删除。然后，我们使用3DCNN模块对来自2DCNN骨干的最后一个卷积层的这四个帧的特征进行出于计算原因，我们使用单个3D卷积层，其沿着时间维度的内核大小为43DCNN模块允许我们在帧序列中捕获时间信息。最后，我们遵循U-NET架构[39]来构建我们的解码器。当解码器将特征从低尺度提升到原始输入分辨率时，我们在输出深度图中添加了一个额外的卷积层，正倒向样品利用主分支（Vn，Dn）✓ ←-outer德普泰赫电话+1n=1XNtt+1RL（D），D;D）ˆnnˆn电话+1帧重构带辅助支路=ˆn内科多rL（V，V;V）ˆ n nt t模型f（*）内部更新配对训练数据外部更新✓b✓aux✓ 深度洛…5759CVX13-aux4t- ID1D 2✓深度CVD3K✓b✓auxCV上采样卷积解卷积Max-pooling3DCNN或WetNneKBOCBAH布兰克离子框架重建未来预测处图3：我们的模型架构的图示。我们的模型有两个分支架构。给定一系列观察到的帧，基于3DCNN的骨干网络（参数为bandb）用于提取特征。主分支（具有参数Ep，h）用于预测未来帧的深度map。辅助分支（具有参数Xiaux）用于从由骨干网络提取的特征重建原始观察帧。辅助分支可以采取行动作为正规化。注意，辅助分支是自监督的，因为它不需要任何标签。三种不同的尺度。受[14]中改进多尺度公式的方法的启发，我们将所有较低分辨率的深度图上采样到输入分辨率。然后，我们应用L1损失和SSIM损失[52]来监督主任务分支：因此，这些特征对未来的深度预测也是有用的。我们在共享特征编码器的基础上设计了一个类似于深度预测解码器的图像重建分支在重建分支中，我们只产生全分辨率尺度的输出图像所述辅助任务可以通过L1损失来监督分支：L深度=33s=1L1（D（一）L=1X？Ii=0时-I¨（二）网络和地面实况深度图，分别用于t+ 1处在这里，R2是一个超参数，它控制着这两种损失的相对权重。自我监督辅助学习：学习主要任务和适当的辅助任务可以迫使模型捕获更有意义的表示，并避免学习危害其泛化能力的虚假相关性[34]。然而，辅助任务应该仔细选择，以补充主要任务。否则，主要任务的性能就会下降.在我们的例子中，我们需要一个辅助任务来帮助网络学习对未来深度预测有用的特征。此外，我们希望辅助任务能够自我监督，以便我们可以将其用于测试时的自适应[45]。在本文中，我们建议使用图像重建[3，29]作为辅助任务。图像重建是自我监督的，不需要任何手动标签。为了在图像重建中表现良好，模型可能需要学习捕获场景的几何和语义信息的特征表示。Intu-其中，表示在时间ti处的重构帧。我们整个网络的总损失函数是线性的，超参数L深度和L辅助0（0，1）：L总=L深度+Δ L辅助（3）3.2. 元辅助学习虽然辅助学习可以提高主要任务的性能，但我们认为，与Eq. 3对于看不见的数据是次优的。总之，测试时间适应策略[45]将进一步提高模型的性能。受[3，28]的启发，我们提出了一种使用元辅助学习的测试时自适应方法。测试时自适应的思想是利用测试过程中自监督辅助任务的丢失来更新模型参数，使模型更好地适应测试数据的特定特征然而，我们发现，天真地应用测试时适应有时会导致灾难性的遗忘[10]，危及主要任务的表现我们其中，D_ s和D_s表示t- I15760--不不L深度N⇥B深度auxB深度aux不电话+1n=1不不t-t-t-不电话+1nn=1电话+1电话+1表示批次大小。为了简单起见，我们使用Vt去-不不RLtt--b深度aux建议使用元辅助学习方案来学习模型参数，特别是用于有效的测试时间自适应。元辅助训练：元辅助训练的目标是学习模型参数，以便它们可以有效地用于测试时自适应。我们考虑一个预先训练的基线模型，参数化为k，其中={ 在此，、和表示算法一：元辅助学习要求：学习率优化器和优化器输出：元辅助学习模型参数使用辅助学习，使用预训练的模型参数初始化k=kb，kdepth，kaux而不收敛对一批训练数据{Vn，Dn}N;骨干网络、未来深度预测分支和图像重建分支的参数被重新确定。例如，预训练基线可以通过求解方程（Eq. 3. 然后，我们在给定训练对的图像重建任务上对于每个Vn，E在等式中评估au x（Vn， Vn;）。4.第一章计算自适应参数：✓ˆn=✓-цinnerr✓Laux(Vˆ n, Vn;✓)更新：{（In3，In2，In1，In），Dn}，其中n2[1：N]且N✓ 中文（简体）rLdepth（Dn，Dn;n）注（Int-3，t-2，t-1 ，In）。更新可以写为：✓ˆn=✓-цinne rr✓Lau x(Vˆ n, Vn;✓)(4)whereцinnerdenotesthelearningrate. Intuitiv ely，直觉=巴恩，巴恩，乌布包含自适应模型参数通过辅助任务对该批中的第n个训练对进行训练。注意，由于主分支不涉及辅助，因此等式2中的更新不涉及主分支4.不会改变原材料的参数4. 实验在本节中，我们首先介绍在第二节中4.1. 然后，我们在第二节中描述了我们的实现细节4.2、介绍第二节中4.3节中介绍了几种用于比较的基线方法4.4，并在第二节中给出定量结果。4.5.最后，我们进行了广泛的消融研究，玛丽布兰奇巴恩=100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000秒4.6进一步了解我们的方法我们希望调整后的参数能帮助我们-加强对未来深度的预测。因此，我们使用主要任务的损失来验证自适应参数的因此，元目标被定义为如：4.1. 数据集我们使用KITTI深度预测数据集[48]进行评估。此数据集包含超过93k的注释深度5761电话+1X⇥min✓nX=1Ldepth（Dnnt+1;中国（5）分辨率约为1241 376的地图。我们提出的方法在官方训练分割上进行训练，并在验证集上进行评估火车上有138个视频注意，L深度是基于经适配的参数来计算的，但是优化是相对于原始参数来执行的。这是合理的，因为Ldepth也是λ的函数，因为λλn是通过等式中的λ获得的。4.第一章因此，Eq. 5可以通过梯度下降最小化为：Ning集和验证集中的13个视频。在我们的实现中，我们构建了大约40k个视频剪辑用于训练，3k个视频剪辑用于评估。每个视频片段包含20帧。4.2. 实现细节我们的方法是使用Pytorch库实现的←外rLn=1深度ˆn电话+1nt+1;中国（6）[37]第37段。所有实验都在Nvidia V100 GPU上进行Adam优化器[22]用于预训练、Meta训练和测试时自适应。输入帧重新-其中，学习器表示该更新的学习速率。的完整的算法在Alg中概述。1.一、元辅助测试：经过辅助元训练后，我们得到了最终的模型。在元测试期间，我们有一个看不见的视频。我们首先从看不见的数据中收集一些RGB帧，并使用Eq。4进行测试-时间训练以获得适配的模型参数。最后，我们使用自适应的模型参数来执行在测试视频中的剩余帧上的预测。以来视频适配器适应每个测试视频，它可以更好地适应特定的视频的特点512 256.缺失的深度值使用[24]中的修复方法深度值的上限为80米。我们首先采用Eq。3、网络预训练。对于主学习和辅助学习，训练在KITTI训练集上进行25个epoch。学习速率最初被设置为1 e-4，然后在时期15和20被减小2超参数被设置为0.1，用于平衡L1损耗和SSIM损耗。我们让等于到0.001，以避免辅助学习支配主要学习，因为图像重建任务是EAS。得双曲余切值.得双曲余切值.（D）5762Ni=1Dii=1Ni=1QP方法错误（越低越好）准确度（越高越好）绝对相对值平方相对RMSERMSE日志 61.<256<1. 2526<1. 253海流深度估计[11]第十一届全国人大代表0.0910.5323.8720.1510.8910.9810.993DenseDepth [1]（当前）0.1090.6484.4140.1690.8680.9690.990一个时间步长t+1的未来深度预测[11]第十一话0.1090.6524.1630.1690.8740.9690.987DenseDepth [1]（直接复制）0.1220.8494.7020.1930.8480.9540.982我们0.0940.5614.0600.1560.8860.9720.991三个时间步长t+3的未来深度预测[11]第十一话0.1291.0895.1020.2140.8380.9360.979DenseDepth [1]（直接复制）0.1451.1295.2700.2350.8100.9330.971我们0.1210.7204.9580.1990.8440.9510.982表1：KITTI深度预测数据集上未来深度预测的定量结果。我们展示了基线、一个时间步（t+1）和三个时间步（t+3）预测的结果。我们比较了两种最先进的深度估计方法（DORN [11]和[1]）。我们首先报告两个基线的当前估计结果。然后，我们通过直接使用最后观察帧的估计深度作为未来深度预测来比较两个基线。我们提出的方法优于未来深度预测的所有基线毫不奇怪，结果表明，三时间步预测比一时间步预测更具挑战性。更容易收敛。在预训练之后，我们接着进行Meta辅助训练。在元辅助训练过程中，我们将学习率E1和E2固定为2.5e-5。我们在内部更新步骤中执行4.3. 评估指标本工作中使用的评估指标与[13]中的相同。令di、di和N表示地面真实视差图、我们的估计以及每一个图像，分别。度量定义为：平均相对误差（AbsRel）：1PNkdi-dik;squ a rerelat iv eNi=1diDORN和DenseDepth被提出用于预测观察图像的深度，我们遵循它们的原始设置在训练集上训练这两种方法，并在测试集上进行评估以用于当前深度估计。具体地，给定时间t处的图像，这两种方法还预测时间t处的深度图。• 直接复制：但是，这些方法只能预测观测图像的深度.因此，为了公平比较，评估协议是我们首先预测在时间t观察帧的深度，然后电话+1error（SqRel）：1PN均方根误差直接复制它作为时间的预测。（均方根误差）：q1PN （di-di）2;平均10g10平方误差（RMSElog）：1Nkllogdi-1logdik2;准确度门槛值6 <1. 25，<61。252，<61。253：百分比使得6=max（di，di）<1。25，1。252或1。253.4.5.实验结果我们首先在表1（顶部）中示出当前深度估计的实验结果。理想情况下，这个实验我4.4. 基线迪吉迪为未来的深度估计提供了无法达到的上限，例如DORN的性能但由于本文是第一次对未来深度进行预测的工作，因此没有可以与之直接对比的前人工作尽管如此，我们定义了几个基线方法进行比较如下。为了说明我们提出的未来深度估计的有效性，我们比较了两种最先进的深度估计方法，包括DORN [11]和DenseDepth [1]。• 目前估计：鉴于这两个事实，实验结果还说明，并非所有当前的深度估计方法都可以被采用来形成该上限。例如，在预测未来一个时间步长的深度图的情况下，DenseDepth对当前深度估计的性能然后，我们在表1（中间行）中显示了定量结果，以将我们提出的方法与一个时间步长的基线进行比较。从表1中，我们可以观察到DORN和DenseDpeth的性能比我们的差。这是因为N5763【详细】方法错误（越低越好）准确度（越高越好）绝对相对值平方相对RMSERMSE日志 61.<256<1. 2526<1. 253一个时间步长t+1的每个组件的影响仅小学0.1010.6344.1600.1640.8780.9700.989多任务0.0980.5844.1100.1610.8820.9710.991多任务+适应0.1120.5934.1540.1640.8760.9690.988我们0.0940.5614.0600.1560.8860.9720.991一个时间步长t+3的每个组件的影响仅小学0.1250.7324.9730.2030.8320.9420.978多任务0.1230.7244.9620.2020.8420.9490.981多任务+适应0.1260.7454.9930.2030.8280.9390.977我们0.1210.7204.9580.1990.8440.9510.982批量的影响批量N= 10.0970.5784.0950.1600.8830.9710.991批量N= 30.0950.5684.0710.1570.8850.9710.991批量N= 50.0940.5614.0600.1560.8860.9720.991表2：我们提出的方法的消融研究：（1）我们通过删除我们提出的方法的各种组件（见第二节）与方法进行比较。4.6以取得详细数据）。我们报告的实验结果，在这两种情况下预测深度图的一个和三个时间步到未来。(2)当使用不同的批量N时，我们的方法的性能。总的来说，较大的批处理大小可以提供更好的性能。这些方法被设计为预测所观测帧而不是未来帧的深度图。这表明，未来的深度预测不能简单地通过从观察到的帧复制预测来解决。相反，我们需要专门为未来的深度预测任务设计算法。最后，我们考虑一个更具挑战性的情况下，预测未来的深度图与三个时间步长提前。根据未来语义分割预测[31]中的设置，我们在时间t9、t6、 t3、t输入四个帧，并在时间t+3预测未来的深度图。定量结果见表1（底部）。虽然问题更难，我们提出的方法仍然优于两个基线。4.6. 消融研究我们对我们方法中各种因素的影响进行了消融研究4.6.1各组成部分我们首先研究了我们提出的方法中每个组件的影响。为了实现这一点，我们构建了如下三种方法：• 仅适用于初级：此方法是第 3.1 节中介绍的3DCNN。此方法中没有辅助分支。培训结束后，我们直接评估每个-在测试数据集上对基于3DCNN的未来深度预测模型进行建模• 多任务：该方法使用双分支架构，但不使用元训练或测试时自适应。相反，模型参数是使用等式中定义的多任务损失来训练的。3.训练后，我们直接在测试视频上使用主分支，而不进行调整。在这种方法中，辅助任务在训练期间仅用作正则化。• 多任务+适应：这种方法与前一种类似。不同之处在于，在测试期间，它使用Eq. 4.该方法与我们提出的方法之间的关键区别在于，该方法使用了等式中的多任务损失。3在训练过程中，而我们的方法使用元辅助学习。定量结果：从表2中，我们可以得出几个结论。首先，我们可以看到“多任务”比“仅主任务”执行得更好。该结果显示了在训练期间使用辅助任务作为正则化的益处。其次，这可以解释为一种灾难性的遗忘。测试时自适应虽然可以提高辅助任务的成绩，但会导致主任务成绩的下降。这是因为多任务5764仅帧主多任务多任务+适应我们提前一步预测提前三步预测图4：定性示例：（上）一个时间步长未来深度预测;（下）三个时间步长未来深度预测。我们的模型可以更好地捕捉由边界框突出显示的对象边界这是因为我们模型中的辅助任务隐式地捕获特定于测试视频的几何和语义信息，因为它试图重建视频中的帧通过执行测试时间自适应，我们模型中的骨干网络专门针对当前视频进行调整在Eq.3没有优化模型，以有效地进行测试时的适应。最后，我们的方法优于所有其他方法。我们的方法中的元辅助学习是专门设计来学习一个模型，准备有效的测试时间适应。定性结果：为了进一步说明我们的元辅助学习方法对未来深度估计的有效性，我们在图4中显示了一些定性结果。图4中的顶行和底行分别显示了一个时间步和三个时间步预测的结果。有趣的是，注意到由普通3DCNN产生的深度图存在几个问题（例如，未能估计叶子和对象边界上的准确深度值）。相比之下，我们的方法表现出更好的定性结果。我们认为这是因为我们模型中的辅助任务隐式地捕获特定于测试视频的几何和语义通过执行测试时间自适应，我们模型中的骨干网络专门针对当前视频进行调整。4.6.2批量的影响然后，我们研究了批量N在Alg中的影响。1. 我们在元辅助训练期间使用N = 1，3和5。我们在表2（底部）中展示了定量结果总的来说，我们观察到大批量可以提高性能。一种可能的解释是，大批量有助于模型避免对特定视频的过度拟合。5. 结论我们首先介绍视频中的未来深度预测问题。然后，我们提出了一个元辅助学习方法来解决这个问题。除了解决未来深度预测的主要任务外，我们的模型还使用了一个额外的分支来解决图像重建的辅助任务。辅助任务可以被认为是正则化。元辅助学习用于学习模型，使其能够有效地适应新场景。实验结果表明，我们提出的方法优于其他替代品的定量和定性。局限性和未来的工作。测试时的优化可能会给在边缘设备上部署带来困难。作为未来的工作，我们希望探索一种基于非优化的方法，有效的测试时间适应。5765引用[1] 易卜拉欣·阿尔哈希姆和彼得·旺卡。通过迁移学习的高质量单目深度估计。arXiv预印本arXiv：1812.11941，2018。[2] 池志祥、顾立、刘欢、王扬、余元昊、唐锦。Metafscil：一种用于少量类增量学习的元学习方法。在IEEE/CVF计算机视觉和模式识别会议论文集，第14166-14175页[3] 池志祥、王扬、余元昊、唐晋。基于Meta辅助学习的动态场景去模糊测试时快速自适应.在IEEE/CVF计算机视觉和模式识别会议（CVPR），第9137-9146页[4] SilviaChiappa ， Se'bastienRacaniere ， DaanWierstra 和Shakir Mohamed 。循环环境模拟器。 arXiv 预印本arXiv：1704.02254，2017。[5] Hsu-kuang Chiu，Ehsan Adeli，and Juan Carlos Niebles.分割未来。 IEEE Robotics and Automation Letters ， 5（3）：4202[6] Chiho Choi和Behzad Dariush。展望未来的轨迹预测关系。在IEEE/CVF计算机视觉国际会议上，2019年。[7] Myungsub Choi，Janghoon Choi，Sungyong Baik，TaeHyun Kim，and Kyoung Mu Lee.基于元学习的场景自适应视频帧内插。在IEEE/CVF计算机视觉和模式识别会议上，第9444- 9453页[8] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统进展，第2366-2374页，2014年[9] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。国际机器学习会议，第1126-1135页。PMLR，2017年。[10] 罗伯特·M·弗伦奇连接主义网络中的灾难性遗忘。Trends in Cognitive Sciences，3（4）：128[11] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE/CVF计算机视觉和模式识别会议上，第2002-2011页[12] Harshala Gammulle，Simon Denman，Sridha Sridharan，and Clinton Fookes.预测未来：共同学习的行动预测模型。在IEEE/CVF国际计算机视觉会议上，2019年。[13] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE/CVF计算机视觉和模式识别会议上，第270-279页[14] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J Brostow.深入研究自我监督的单目深度估计。在IEEE/CVF计算机视觉国际会议上，第3828-3838页[15] Erin Grant ， Chelsea Finn ， Sergey Levine ， TrevorDarrell和Thomas Griffiths。重铸基于梯度的元学习作为分层贝叶斯。2018年国际学习代表[16] 李谷、池志祥、刘欢、余元昊、王扬。改进用于少镜头视频对象识别的protonet：2022年轨道挑战赛的冠军。arXiv预印本arXiv：2210.00174，2022。[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。IEEE/CVF计算机视觉和模式识别会议，第770-778页，2016年[18] Anthony Hu 、 Fergal Cotter 、 Nikhil Mohan 、 CorinaGurau和Alex Kendall。用于视频场景理解的概率未来预测。欧洲计算机视觉会议，第767-785页。Springer，2020年。[19] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。IEEE/CVF计算机视觉和模式识别会议，第4700-4708页，2017年[20] Xiaojie Jin，Huaxin Xiao，Xiaohui Shen，Jimei Yang，Zhe Lin，Yunpeng Chen，Zequn Jie，Jiashi Feng，andShuicheng Yan.预测未来的场景解析和运动动态。在神经信息处理系统的进展，2017年。[21] Nal Kalchbrenner 、 Aaron van den Oord 、 KarenSimonyan、Ivo Danihelka、Oriol Vinyals、Alex Graves和Koray Kavukcuoglu。视频像素网络。在2017年的机器学习国际会议[22] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年学习表征国际会议[23] Yoonho Lee和Seungjin Choi。基于梯度的Meta学习，学习分层度量和子空间。国际机器学习会议，第2927-2936页。PMLR，2018。[24] Anat Levin，Dani Lischinski和Yair Weiss。使用最佳化着色。在ACM SIGGRAPH中，第689-694页。2004.[25] 刘欢、李谷、池志祥、王扬、余元昊、陈俊、唐锦。通过熵正则化的无数据重放进行少量类增量学习。arXiv预印本arXiv：2207.11213，2022。[26] HuanLiu ， ZijunWu ， LiangyanLi ， SadafSalehkalaibar，Jun Chen，and Keyan Wang.通过测试时训练实现多域单在IEEE/CVF计算机视觉和模式识别会议（CVPR），第5831-5840页[27] 刘欢，袁俊松，陈望，陈俊。基于师生网络的伪监督单目深度估计。arXiv预印本arXiv：2110.11545，2021。[28] Shikun Liu，Andrew J Davison，and Edward Johns.自我监督概括与 Meta 辅助学习。 Advances in NeuralInformation Processing Systems，2019。[29] 卢凯悦，尼克·巴恩斯，赛义德·安瓦尔，梁铮。从深处你能看到什么？通过辅助图像重建完成深度。在IEEE/CVF计算机视觉和模式识别会议上，第11306-11315页5766[30] Yiwei Lu，Frank Yu，Mahesh Kumar Krishna Reddy，and Yang Wang.少镜头场景自适应异常检测。欧洲计算机视觉会议，第125-141页。Springer，2020年。[31] Pauline Luc，Natalia Neverova，Camille Couprie，JakobVer-beek，and Yann LeCun.预测语义分割的未来。在IEEE/CVF国际计算机视觉会议上，第648-657页[32] 马军，余楚月，夏毅伟，任勋焕，茨维亚库，安纳托利.单摄像机距离估计和目标检测框架。2022年智能系统和计算机视觉国际会议（ISCV），第1IEEE，2022年。[33] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测2015年国际学习表征会议[34] Aviv Navon ， Idan Achituve ， Haggai Maron ， Gal Al-Ghik和Ethan Fetaya。内隐微分辅助学习学习代表国际会议，2021。[35] Junhyuk Oh，Xiaoxiao Guo，Honglak Lee，Richard LLewis，and Satinder Singh.Atari游戏中使用深度网络的动作条件视频预测。神经信息处理系统的进展，2015年28日。[36] Seobin Park，Jinsu Yoo，Donghyeon Cho，Jiwon Kim，and Tae Hyun Kim.通过元学习快速适应超分辨率2020年欧洲计算机视觉会议[37] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga ， et al. Pytorch ： An imperative style ， high-performance deep learning library.Advances in NeuralInformation Processing Systems，2019。[38] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。2016年学习表征国际会议[39] Olaf Ronneberger，Philipp Fische

下载后可阅读完整内容，剩余1页未读，立即下载