意图条件下的长期行动预测

93 浏览量更新于2023-10-16 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6048}{意图条件下的长期人类自我中心行动预期Estev eValls Mascaro'1Hyemin Ahn2Dongheui Lee1，3摘要要预测一个人将来会如何行动，理解人的意图是至关重要的，因为它引导主体采取某种行动。在本文中，我们提出了一个层次结构，它假设一系列的人类行动（低级别）可以从人类的意图（高级别）驱动。在此基础上，我们处理了自我中心视频中的长时动作预期任务.该框架首先通过分层多任务多层感知器混合器（H3M）提取视频中观察到的人体动作的低层和高层人体信息。然后，我们通过意图条件变分自动编码器（I-CVAE）来约束未来的不确定性，该编码器生成对所观察的人类可能执行的下一个动作通过利用人类的意图作为高级信息，我们声称我们的模型能够预测长期的时间一致性动作，从而改善了Ego4D数据集的基线结果。这项工作通过提供更合理的预期序列，提高名词和动作的预期得分，从而我们的作品在CVPR@2022和ECCV@2022 Ego4D LTA挑战赛中均排名第一。1. 介绍在我们的日常生活中，在执行某项复杂任务之前，对下一步行动进行推理是必不可少的。人类可以通过建设性的想象系统将自己投射到未来，这使他们能够预测自己和他人的未来行动。在此基础上，Vari-1Esteve Valls Mascaro和Dongheui Lee与Au-Bogota合作系统、技术Uni versitatêt温（TUWien），维也纳，奥地利（电子邮件：esteve.valls.mascaro，dongheui.tuwien.ac.at）。2Hyemin Ahn就职于人工智能研究生院（AIGS），Ulsan National Institute of Science and Technology （ UNIST ），Ulsan，Ko- rea（e-mail：hyemin. unist.ac.kr）.3Dongheui Lee也是机器人和机电一体化研究所的一员-ICS，德国航空航天中心，Wessling，德国。这项工作由 Marie Sklodowska-Curie Action Horizon 2020 资助（资助协议编号：2020）。955778），用于项目“个性化机器人作为面向服务的应用”（PERSEO）。可以实现诸如任务和运动规划（TAMP）或人-机器人-协作的各种应用例如，在了解某人将要做沙拉之后，我们可以首先预测他/她的下一步行动，以便稍后帮助这个人准备食材。计算机视觉的这一研究领域，被称为人类行为的长期预测（LTA），旨在根据过去的观察预测人类最有可能执行的行为人类行为长期协议的根本挑战是未来固有的不确定性人类的独特性导致我们每个人如何执行某项任务的高度可变性此外，对于同一个体，这种行为在不同时刻可能会有所不同然而，尽管可能的预测在理论上具有很高的可变性，但未来往往只有有限数量的合理结果。受此启发，我们假设，未来事件的任意性可以通过对过去观察的条件反射来缩小，这将意味着整个任务的背景。例如，如果我们观察到一个人在切西红柿，并且我们知道这个人这种人类意图被定义为一种高级假设，它制约着人类的行为，减少了未来的可变性和不确定性。因此，我们开发了一种方法，旨在约束未来行动的可变性的基础上，从过去的观察估计人类的意图。我们从一系列视频中预测一个层次结构，每个视频描述一个特定的人类动作。从这个给定的视频片段序列，我们定义了两个不同的抽象层次，如图所示。1.首先，我们探讨人的inten- tion作为最高的概念，它定义了人类在执行任务时所追求第二，我们利用低层次的动作序列来执行特定的任务。我们的目标是模仿人类的推理过程时，预测哪些行动执行给定的高级指令：（i）通过观察已经完成的步骤（过去的低级动作）来确定任务的当前状态或上下文，（ii）基于任务的最终目标（意图）来计划接下来的步骤。因此，基于人类执行的低级别动作的历史序列，我们建议利用高级别人类意图作为指导，条件下的下一个动作，6049图1：人工任务的层次结构示例。来自Ego4d的人类“在奶茶店工作”的以自我为中心的视频序列（紫色，描述了高层次的人类意图）[13]。在蓝色中，示出了由相机佩戴者执行的低级别动作标签的序列。本文提出了一种方法，了解基于这种层次结构的人类任务。我们的模型从观察到的N个剪辑序列（第一行）中提取高级别的人类意图信息和N个动作标签，以便于预测未来的低级别Z动作（第二行）。在未来执行。根据我们的方法的划分，我们将我们的框架定义为两步。首先，我们提出了一个层次的多任务多层感知器（MLP）混合器（H3M），将每个观察到的视频分类到一个动作标签，以及提取的整体意图的基于MLP混合器的架构[32]已被经验证明是通过时间和空间通道使用重复MLP层的最佳模型。我们的H3M被设计为一个多任务网络[6]，以利用低级动作和高级意图之间的依赖关系，同时使网络更有效。其次，我们设计了一个基于意图的变分自动编码器（I-CVAE），它可以根据用户的意图和观察到的过去行为来预测用户变分自动编码器（VAE）[17]已在[20，21]中示出，以有效地对人类动作序列分布进行建模。然而，为了缩小未来的不确定性，我们的模型基于受[24]启发的条件VAE（CVAE），利用推断的人类意图作为潜在条件，为模型提供指导以预测即将到来的动作序列。为了证明我们方法的有效性，我们使用了目前可用的最多样化的人类视频数据集Ego4D [13]，特别是我们在LTA基准测试中评估了我们的结果。Ego4D提供人类在世界各地体验日常活动的第一人称视频在LTA任务的情况下，它建议从其过去的未修剪视频中预测摄像机时代用户的未来动作序列。低级别的动作已经在视频中进行了注释，这些视频根据我们理解为人类的场景意图，如图所示。1最后，我们报告了定量结果，这些结果使我们的方法赢得了CVPR@2022和ECCV@2022 Ego4D长期行动预期（LTA）挑战。我们根据烧蚀研究的结果进行了详细的讨论总而言之，这些贡献可归纳如下：1. 它旨在通过多任务层次结构从视频中提取低层动作序列以及人类意图。2. 它促进使用高层次的意图作为预测未来行动序列的条件。3. 它提供了详细的分析，长期的人类行动预期任务，消融研究的基础上，旨在指出新的研究问题。2. 相关工作长期预测（LTA）一直是计算机视觉研究领域的一个基本挑战。在接下来的部分中，我们将讨论该领域最相关的研究然后，我们回顾了几个工作的分层提取和生成模型。2.1. 长期预期预测人类的未来事件已经被基于不同任务的计算机视觉所覆盖，例如生成骨架运动[24，29，31]，预测未来人类轨迹[11，23，34]或生成未来动作标签序列[20，21，28]。由于本书涉及面较广，我们将重点介绍与动作序列预期任务相关的作品6050现有文献[1，2，20，21，22，26，28]可以分为两类，在如何处理未来。一方面，研究人员旨在通过基于观察到的视频将未来建模为确定性函数来简化问题，而不考虑未来的不确定性[2，22]。为了克服这种简化， [2] 中还考虑了两步方法：递归神经网络（RNN）[5]用于首先从观察到的视频中推断动作标签序列，然后将这些分类的动作馈送到另一个RNN中以预测未来的动作序列。然而，[22]认为，直接从观察到的视频中预测未看到的未来动作标签序列提供了更多的上下文线索。另一方面，受未来的概率性质的启发为了适应体系结构中的概率本质，变分自动编码器（VAE）[17]模型与点过程模型相结合，在[21]中提出了学习以观察到的动作序列为条件的潜在分布。在此基础上，产生未来的行动。[20]重复使用了VAE方法，但对基于多头注意力（MHA）的变分RNN进行了建模，以对潜在分布进行编码，该分布在RNN的隐藏状态中串联我们的工作也受到两种生成方法的启发虽然实验结果[28]证明了最近的行动对近期未来预测的关键作用，但我们认为，了解意图可以引导智能体进行更好的长期预测。最近的工作，如[26]，展示了从观察到的动作中获得的潜在目标的使用，作为用于预测下一个动作的然而，这种潜在的表征是无法解释的，因为它不包括基于语言的标签。此外，[26]只尝试基于RNN建议的候选人选择一个下一个动作，然后处理短期预测。相反，我们提出了一个单一的高层次的可解释的标签，人类的意图，作为指导的预期长期序列的低层次的行动。这种对未来进行分层建模的尝试受到[30]的启发，[30]通过在模型置信度较低时抽象预测水平来应对不确定性。我们的目标在本质上是不同的，因为我们的目标是始终预测低级别的行为，但鼓励对基于高级别意图的模型的信心。据我们所知，我们的工作是第一次尝试将未来分解为两级可解释的层次结构。这种设计允许通过自上而下的方法来处理时间不确定性：高层意图用于对低层动作的鲁棒预测。2.2. 生成模型理解和建模数据分布并将其推广到不可见的场景是深度生成模型的关键当生成模型成功地合成合理的数据时，假设模型已经正确地学习了数据分布。深度生成模型可以应用于广泛的领域，从图像的生成[3，25，27]到文本[4，15]，骨架移动[24，29，31]以及即将到来的动作的合成[20，21]。尽管关于生成模型的工作种类繁多，但最近的一个惯例是将深层生成模型分为三个不同的方向[12，14，17]。首先，生成对抗网络（GANs）[3，12，29]受益于两个网络的对抗训练，这两个网络在相反的任务中竞争最大化自己的目标函数，从而鼓励对手网络提高其生成数据的性能。其次，变分自动编码器（VAE）[15，17，20，21，24]学习将大量数据编码到低维潜在空间中，然后基于该潜在空间表示重建原始数据。最后，扩散模型（DM）[14]由于其在图像合成任务中的出色表现而最近变得流行DM的工作原理是通过添加高斯噪声来迭代地破坏数据，并学习如何通过逐渐对样本进行降噪来逆转噪声注入过程。这项工作受到[20，21]的启发，旨在根据VAE观察到的动作生成未来的人类动作，但更多地参考[24]，以根据估计的人类意图来调节预测结果。我们的架构基于[24]，其中基于Transformer编码器-解码器的架构[33]被设计为通过使用离散参数令牌来合成以分类动作为条件的人类运动。这些参数对上下文信息（过去的观察和意图）进行编码，并用作Transformer解码器的调节器。3. 方法人类行为的长期预测需要利用观察到的行为之间的时间依赖性来生成未来可能的人类行为序列。我们的两步方法首先旨在通过分层多任务 MLP 混合器（H3M）（在第3.2节中以自下而上的方法描述）来理解所观察到的动作然后，在第3.3节中，受[24]的启发，提出了一种基于变换器的编码器-解码器图2示出了所提出的框架的概述，其表示如何从观察到的过去提取结构并用于调节要生成的未来动作6051∈----∈······不不不不图2：总体拟议框架。为N= 4个观察到的视频提供的预提取特征被馈送到我们的分层多任务MLP混合器模型（H3M）以获得低级动作标签和高级意图。结果被馈送到我们的意图条件变分自动编码器（ I-CVAE）中，该编码器预期随后的Z = 20个动作。3.1. 问题公式化设at=（v t，n t）表示时间t的动作标签，它由动词标签v t和名词标签n t组成。然后，从给定的未修剪视频观察到的相机佩戴者的过去N个动作可以表示为Aobs=[a1，. . . ，aN]。我们的目标是预测Z动作的未来序列，例如Ap red=[aN +1，. . . ，aN+Z]，通过对K个可能的序列A进行基因编码来解释变异。F或单个视频剪辑Vt=Vt，. . . ，It+T，其中I t + T由从时间t到t + T的图像帧I组成，Ego4d基准提供一组特征向量F=f1，. . .其中，fTR2304表示从一秒视频中的图像帧获得的特征向量。每个f 都是从使用Kinetics数据集[16]预训练的SlowFast架构[10]中获得的。我们在F中应用零填充，以确保所有视频剪辑的T然后，从观察到的N个视频剪辑，我们获得预提取的视觉特征的N一个独特的标签，对相机佩戴者的整个任务的总体目标进行分类;以及（ii）低级别动作序列预测A_s。最后，I型和A型光纤都被使用用于生成K个可能的未来动作序列A_ p_r_d。接下来，我们描述了我们提出的两个独立的架构，其目的是（i）获得人类任务的层次结构和（ii）预期由人类意图条件下的低级别动作3.2. 分层多任务MLP混合器（H3M）如图3.将描述未修剪的自我中心视频的视觉信息的预提取的特征Fobs=[F1，…，FN]馈送到分层多任务MLPMixer（H3M）架构中。动作混合器模型并行处理Ft，以编码定义给定at=（vt，nt）的视觉信息。设FtRT×2304，由T个特征块ft组成.混合器层在[32]中定义，由两个矩阵转置操作之间的2个MLP块组成，这些矩阵转置操作捕获ft的全局上下文。第一个MLP块识别强时间依赖性并在每个标记化补丁之间混合数据，而第二个MLP块利用空间相同补丁特征。每个MLP块由两个完全连接的层组成，其间具有GELU激活功能。最后，在T维中应用全局平均池化，将RT×2304投影到R2304，对观察到的动作的动作表示xt进行H3M的动作头通过全连接层将每个x t投影并分类为vt和nt，从而获得Nat=（v最后，意图头应用第二MLP混合器来利用动作表示特征序列X=[X1，，xN]，并将人类意图分类为观看视频。总体层次多任务类-SIFIER从过去的观察中获得最高-最低级别的信息3.3. 意图条件变分自动编码器（I-CVAE）图4示出了意图条件变分自动编码器（I-CVAE）架构。编码器-解码器转换器结构用于利用过去动作之间的时间依赖性来预测人类动词-名词对的未来序列由于VAE的性质，在训练场景中，模型通过利用观察到的动作Aobs和未来动作Apred来学习编码器中的条件概率分布。在其应用中，仅使用解码器块，而不提供任何关于其未来的信息。首先，通过可学习的嵌入矩阵独立地投影Aobs的每个动作对at=（vt，nt）[F1，···，FN]，我们将其用作H3M的输入ces intoet=（ev，en），其中ev和en由d-模型所获得的两级输出构成I-CVAE的输入：（i）高级别意图预测I-CVAE表示为维嵌入向量的动词和名词，分别。因此，动词嵌入被表示为6052∈OBS1N∈Pred NN+Z图3：H3M架构的详细结构。首先，预提取的填充特征被送入Action MLP Mixer [32]以获得剪辑级特征（如绿色圆圈）。这些特征用于：（1）通过一个全连接对（动作中心）获得动名对;（ii）通过意图MLP混合器获得被分类为意图类的视频表示。混合器层的定义继承自[32]。当Ev= [ev，. . .，ev]对于观察到的序列，Ev= [ev，. . .，ev]用于未来序列（相同图4：I-CVAE架构的详细结构，说明了我们基于Transformer的CVAE模型的编码器（顶部）和解码器（底部）。给定一个N+Z动作序列和一个Intention标签，编码器输出对所有序列进行编码的分布参数（μm和μm）信息. 受[24]的启发，使用每个意图的额外可学习参数（μ和μ）来获得μ和μ，并对潜在的未来动作表示zRM进行采样，其中M是Transformer的潜在维度。解码器取一个潜在向量z，N个观察到的动作和intenceI，输出Z个动作的表示序列来预测。I用于确定可学习的b。位置编码器（PE）向解码器提供时间分量知识最后，由两个完全连接的层组成的动作中心词将每个动作表示投射到动词-名词对中。名词处理程序，带Ennpred）. 加强动词和名词之间的依存关系作为一个共同的动作，Ev和En在动作嵌入器中连接成ERN×2d。直观地，然后，我们的Transformer编码器-解码器的目标是在解码器中仅给定Eobs和意图标签I作为条件来重建E pred。受[24]的启发，条件标签I被投影到额外可学习的分布参数μ和μ中，以继承Transformer Encoder之后的动作序列表示。这些标记被预先添加到观察到的和预测动作的嵌入式表示序列中，以汇集时间维度。如图所示，整个嵌入序列被求和到正弦位置编码器（PE）并被馈送到Transformer编码器中在图的顶部图中，4.第一章然后，基于来自VAE的重新参数化技巧，使用所获得的参数μm和μm来定义潜在分布我们对z∈R2d进行解码器中的潜在分布在解码阶段期间，如图1B的底部图所示4，仅N个观察到的动作Aobs和意图标签I被用于调节下一Z个动作Apred的未来生成。可学习的偏置参数b用于将潜在表示向量z移位到意图依赖空间。所观察到的动作嵌入Eobs被附加到每个Z个动作的零向量，以预测并与PE相加，以形成Transformer解码器的输入模式此外，在Transformer中还引入了移位潜空间，以调节基于I的E_ （？）最后，对于每个t=[N+1，. . . ，N+Z]，预测的未来动作表示被馈送到动作头部，动作头部将全连接层应用于和E6053∈将t分类为t=（vt，nt）。为了引导I-CVAE解码合理的动作表示，在Epred和Epred之间应用 L2 重构损失。最后，为了确保对动作的正确分类，在Ap red和Ap p r d之间使用加权的跨部门损失。4. 实验在本章中，我们介绍了Ego4D数据集[13]及其建议的基线，并报告和比较了我们的定量结果。最后，我们通过消融研究证明了我们方法的有效性。4.1. 数据集-Ego 4D为了正确地预测未来，有必要详细了解观察到的行为。来自视频的人类动作识别（HAR）本身是一个大型计算机视觉研究领域，对自我中心视图数据集的兴趣越来越大[7，13]。Ego4D [13]是目前可用于重新搜索的最广泛的日常生活自我中心视频数据集值得注意的是，Ego4D的作者还为每一秒的视频提供了预提取的特征。这些特征通过SlowFast 8x8模型获得[10]。由于Ego4D数据集最近发表，因此仅提供基线结果进行比较。来自Ego4D的预测基准（包括LTA）由来自53个不同场景的120提供的注释包含478个名词类型和115个动词类型，在训练和验证集中总共有4756个动作类。Ego4D对于名词和动词类别都具有长尾分布，导致高度不平衡的数据集。4.2. 评价指标和基线指标. 根据Ego 4D LTA基准[13]中提出的评估协议，我们报告了编辑距离（ED）度量，如公式1所示，计算为动词，名词和动作预测序列上的Damerau-Levenshtein距离[8，18]。该度量考虑了动作序列中的小变化，因为预测长时间范围受到不确定性的影响。建议的评估选择最好的K生成的序列，根据最小的度量。ED越低，预期序列与现实越相似。动词名词行动基线[13]0.7390.7800.943视频+剪辑[9]0.740.770.94我们0.7410.7390.930表1：Ego4D数据集中长期人类动作预期的编辑距离（ED）比较。分数直接从他们报告的结果中获得。这里，粗体表示最佳结果，下划线表示所有方法中的第二通过自我注意机制;（iii）具有Z个头（每个未来时间步一个头）的多头解码器网络，其生成未来动作序列。通过对预测的未来动作分布进行K次采样来生成K个未来动作可能序列。此外，我们还将我们的结果与基于CLIP的模型[9]进行了比较，该模型利用多模态来编码观察到的动作的视觉信息。据我们所知，没有其他现有的工作报告，以解决非常长期的行动（提前20个行动）的4.3. 定量结果我们在表1中报告了基于Ego4D LTA数据集的测试集的LTA任务的结果。在这个实验中，我们的框架预测了N= 6个观察到的动作和过去的总体意图，通过生成K= 5个序列来预测Z= 20个未来动作。我们的框架在定义的所有LTA指标中表现相似或更好：ED用于动词、名词和整体动作。我们认为，通过意图调节生成模型可以大大提高名词的ED，从而在整体动作预期中表现得更好由于我们有限的计算资源，每个模块的训练接下来，我们将首先描述H3 M模型的定量评估，然后描述I-CVAE作为独立模型的定量评估。由于LTA-Ego 4D预测基准是私有的，因此不提供来自测试集的基础事实。因此，为了验证我们的假设，我们进行了一项消融研究，该研究基于从验证集获得的结果。4.3.1H3M我们的模型能够识别具有相似性的动词-名词对E（（n，（n（j），v（j））Z）（1）性能作为基线，如表2所示。怎么-z，kz，kz=1z（1）我们的模型是在预提取的特征F上训练的，基线。我们将我们提出的框架与Ego4D [13]中提出的基线模型进行了比较，其中修剪视频用于预测K个不同的未来动作的合理序列。基线包括（i）用于基于SlowFast [10]获得N个视频级特征的编码器骨干;（ii）基于变换器的聚合模块，其组合先前提取的剪辑级特征。每个剪辑，而不是基于图像的视频剪辑V。由于这些特征的维数较低（FRT×2304，T= 14），应用了几种技术来避免过度拟合。我们在预提取的输入特征中应用高斯噪声注入（在表2中定义为N）以提高分类器的鲁棒性。通过添加多任务方法并在任务（M）之间共享内层，我们继承了6054精度意图TOP1TOP5动词TOP1TOP5名词TOP1TOP5我们的（M+I+N）78.5093.2720.4455.0519.3239.65我们的（I+N）76.33 94.0620.12 55.1418.64 39.95我们的（N）74.9294.2020.1856.0219.1640.02基线- -22.06 56.9020.92 41.40表2：与使用准确度度量的基线相比，具有不同训练策略的H3M的性能M：多任务替代损失（共享权重）。一：焦点缺失，解决阶层失衡。N：噪声注入。这里，粗体表示最佳结果，下划线表示所有方法中的第二佳结果。意图动词TOP1TOP5NOUNTOP1TOP5正确20.13 54.3219.48 41.58误差21.48 57.4618.79 33.28表3：意图对动作分类的影响基于准确性度量的分数。此外，我们进一步评估了作为我们的H3 M模型的背景的inten- tion的影响对于给定的inten- tion标签，仅观察到少数动词和名词。然后，我们将上下文外错误定义为预测在给定意图中看不见的动词或名词。例如，如果模型在一个视频中预测了“骑自行车”的动作，而人类的意图是“洗狗”，那么我们认为模型存在上下文外错误。为了确定给定意图的观察类，我们为每个意图创建了一个名词和动词袋。如果我们预测的名词在当前意图袋中找不到，我们将其确定为上下文外错误。我们可以从我们的实验中观察到，没有一个动词是脱离上下文的，而14。56%的名词是。这些结果加强了这样一种观察，(i) 名词和意图有着重要的关系，（ii）动词较少受意图的制约，它们更多地与所执行的动作的历史有关，这将在下一节中以实证的方式显示。4.3.2I-CVAE隐式数据扩充：由于需要对三个任务（对意图、动词和名词进行分类）的表示进行建模，因此该模型被迫从内部共享层中提取更好的模式，以优化每个任务的结果。最后，焦点损失[19]调制因子（β= 0. 99）的交叉熵损失被应用到解决类不平衡（I）的意图，动词和名词。当使用多任务方法进行初始训练以识别意图，然后微调动作层以用于动词-名词识别时，获得了最佳结果。在表2中，显示了应用所有技术（M+I+N）获得了我们框架的最佳Top-1准确性结果，但我们的模型略微降低了其关于Top-5预测的性能。我们声称，通过Focal Loss处理Ego4D数据集的不平衡，该模型通过尝试预测不太频繁的动作来承担更大的风险，这会影响准确性。最后，我们的模型受到输入的低维度的限制，这些输入是如上所述预先提取的视觉特征，但仍然能够近似于基线。我们还比较了正确预测意图对动作分类准确性的影响，如表3所示。结果表明，名词与意图之间存在着显著的直接关系。结果表明，通过意图调节动作级预测框架，名词预测的性能得到了提高。由于我们的意图标签，在这项工作中，作为因此，基于环境的制约作用直接影响着名词分类的准确性.我们基于Ego 4d数据集提供的地面事实动作和意图标签来评估我们的独立I-CVAE模型的性能。我们报告时间范围Z= 20（ED@Z= 20）的编辑距离（ED）作为名词和动词的评估指标。首先，我们研究了I-CVAE的性能下的观察到的动作数N的变化。图5示出了当利用N= 4时获得最佳结果。观察较长的过去会导致模型关注不太相关的线索，从而在不太可信的行动序列中崩溃。此外，我们观察到，名词的per-pronounce是负向影响的N，预测与不太自信，如果N是较低的，但不是动词。我们认为这些结果是由动词和名词在一系列动作中的不同行为引起的。一方面，动词的变化往往更频繁，但它们通常以重复的模式出现。例如，当“清洗”一个物体时，“拿-移动-打开-清洗-关闭-放”的顺序是典型的。另一方面，名词的变化较少，因为人类通常与某个物体进行较长时间的交互。推理人类将与之交互的下一个对象取决于环境以及先前的动词。这种现象也在图中显示。其中，在Z = 20个要预测的时间范围中的每一个处表示针对不同N的ED。观察较长的序列（N= 8）增加了观察到的动作的方差，这导致模型恶化的短期预期。这强调了使用我们的基于transformer的模型来利用时间依赖性的必要性。然而，由于缺乏上下文，只考虑最后一个动作（N= 1）会导致不可信的预期，主要是名词此外，Fig.图6还示出了较长时间范围估计如何不同地影响每个动作分量：名词per-60550的情况。750的情况。70的情况。650的情况。61 2 4 6 8观察到的行动（N）图5：基于不同数量的观察到的动作N训练的I-CVAE的评估。动词预期0的情况。80的情况。70的情况。60的情况。50 5 10 15 20名词预期表4：取决于在端到端方法中使用意图（I）或不使用意图（I），测试集中动词、名词和动作的ED@20的比较：I-CVAE使用来自N个观察到的剪辑的H3 M预测。4.3.3H3M + I-CVAE最后，我们研究了我们的整个框架的性能的基础上的端到端的评价。首先，H3M从观察到的剪辑中对动作和意图进行分类。然后，基于这些预测，我们的I-CVAE模型预测了未来Z= 20的动作。在表4中，我们评估了LTA任务在测试集中的不同N和意图的影响下作为一个条件。研究结果加强了使用意图作为指导来制定更现实的预期的重要性。因此，我们能够证实我们的假设，使用的意图作为一个高层次的任务知识，以缩小任意性的未来。这些结果也与之前讨论的动词和名词的不同行为一致：使用N= 4和N= 6为模型理解手头的任务提供了足够的上下文。观察到更高数量的动作会导致模型过拟合。0的情况。80的情况。70的情况。60的情况。5N=1N=2N=4N=6N=80 5 10 15 20未来行动步骤（t）5. 结论在这项工作中，我们提出了一个两个模块的框架，它包括一个分层多任务MLP混合器（H3 M）和意图条件变分自动编码器（I-CVAE），有效地利用人类意图作为一个条件，以增加长期人类动作序列预测模型的信心。我们的H3M模块利用层次结构对观察到的人类动作和意图进行分类。然后，通过我们的I-CVAE来调节未来，我们的框架预测更好-图6：根据观察到的动作数量N，在每个时间步t编辑距离（ED）。与动词性能的对数减少相比，每个时间步长的平均值线性减少。总而言之，我们已经展示了人类长期行动预期的两个长期挑战：（i）学习正确的人类行为模式，这在很大程度上受理解任务中动词的重复模式的影响;以及(ii) 基于利用视觉提示来提供人类将要与之交互的后续名词，探索在给定环境中执行的未来任务称之为长期行动序列。这些结果加强了定义任务情境化的不同层次的抽象的重要性。实验表明，通过人类意图调节模型具有在提高现实预期时的直接效果。最后，我们进行了一个广泛的消融研究，以探讨预期名词和动词之间的差异。我们用在Ego4D数据集中观察到的不同模式来描述这些行为，这对于解决长期预期（LTA）是必不可少的。然后，我们的工作在Ego4D LTA任务中的表现优于最先进的技术，主要是在预测名词和动作时。我们的作品在CVPR@2022和ECCV@2022 Ego4D LTA挑战赛中均排名第一。动词名词ED@20动词ED@20名词ED@20动作N IIIII20.743 0.762 0.747 0.786 0.932 0.9532019 - 05 - 22 00：00：00 00：002019 - 06- 250.741 0.748 0.740 0.7530.9300.938编辑距离（ED）编辑距离（ED）编辑距离（ED）6056引用[1] Yazan Abu Farha和Juergen Gall。活动的不确定性在IEEE/CVF计算机视觉研讨会国际会议论文集，第0-0页[2] Yazan Abu Farha、Alexander Richard和Juergen Gall。你什么时候做什么？-预测活动的时间发生。在IEEE/CVF计算机视觉和模式识别会议论文集，第5343- 5352页[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在学习代表国际会议上，2019年。[4] Tom Brown，Benjamin Mann，Nick Ryder，Melanie Subbiah ， Jared D Kaplan ， Prafulla Dhariwal ， ArvindNeelakan tan ，Pranav Shyam ，Girish Sastry ，AmandaAskell，et al.语言模型是很少机会的学习者。神经信息处理系统的进展，33：1877[5] 杰罗姆·T·康纳，R·道格拉斯·马丁和莱斯·E·阿特拉斯。回流神经网络与鲁棒时间序列预测。IEEE神经网络学报，5（2）：240[6] 迈克尔·克劳福德。深度神经网络的多任务学习：一项调查。arXiv预印本arXiv：2009.09796，2020。[7] DimaDamen ， HazelDoughty ， GiovanniMariaFarinella ， Sanja Fidler ， Antonino Furnari ， EvangelosKazakos ， Davide Moltisanti ， Jonathan Munro ， TobyPerrett，Will Price，et al. epic-kitchens数据集：收集，挑战和基线。IEEE Transactions on Pattern Analysis andMachine Intelligence，43（11）：4125[8] 弗雷德·J·达默劳。一种计算机检测和纠正拼写错误的技术。Communications of the ACM，7（3）：171[9] Srijan Das和Michael S.亮ego4d长期行动预测的视频+剪辑基线，2022年。[10] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He. 用于视频识别的慢速网络。在IEEE/CVF计算机视觉国际会议论文集，第6202-6211页[11] Harshayu Girase 、 Haiming Gang 、 Srikanth Malla 、Jiachen Li 、 Akira Kanehara 、 Karttikeya Mangalam 和Chiho Choi 。 Loki ：轨迹预测的长期和关键意图IEEE/CVF计算机视觉国际会议论文集，第9803-9812页，2021年[12] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成对抗网络，2014年。[13] Kristen Grauman，Andrew Westbury，Eugene Byrne，Zachary Chavis ， Antonino Furnari ， Rohit Girdhar ，Jackson Hamburger ， Hao Jiang ， Miao Liu ， XingyuLiu，et al. Ego 4d：在3,000小时的自我中心视频中环游世界在 IEEE/CVF 计算机视觉和模式识别会议的Proceedings中，第18995-19012页[14] Jonathan Ho，Ajay Jain，and Pieter Abbeel.去噪扩散概率模型。神经信息处理系统进展，33：6840[15] 胡志廷，杨子超，梁晓丹，鲁斯兰·萨拉胡特-迪诺夫，邢鹏.控制文本的生成。国际机器学习会议，第1587-1596页PMLR，2017年。[16] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，etal. 人体运动视频数据集。 arXiv 预印本 arXiv ：1705.06950，2017。[17] Diederik P Kingma，Max Welling，等.变分自动编码器简介。机器学习的基础和趋势，12（4）：307[18] Vladimir I Levenshtein et al.能够纠正删除、插入和反转的二进制代码。在苏联物理学doklady，第10卷，第707-710页。苏联，1966年。[19] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE/CVF计算机视觉国际会议的主席，第2980-2988页，2017年[20] SiyuanBrandonLoh ， DebadityaRoy 和 BasuraFernando。使用多头注意力为基础的变分递归神经网络进行长期行为预测。在IEEE/CVF计算机视觉和模式识别会议论文集，第2419-2427页[21] NazaninMehrasa ， AkashAbduJyothi ， ThibautDurand，Ji-awei He，Leonid Sigal，and Greg Mori.随机点过程的变分自动编码模型在IEEE/CVF计算机视觉和模式识别会议论文集，第3165-3174页[22] Yan Bin Ng和Basura Fernando。预测未来的行动序列与注意：弱监督行为预测的新方法。IEEE图像处理学报，29：8880[23] Hyun Soo Park ， Jyh-Jing Hwang ， Yedong Niu ， andJianbo Shi. 自我中心的未来定位。在IEEE/CVF计算机视觉和模式识别会议论文集，第4697-4705页[24] 他的妈妈是彼得·奥维奇，迈克尔·J·布莱克，还有古尔·瓦罗尔。基于Transformer的动作调节三维人体运动合成。在IEEE/CVF计算机视觉和模式识别国际会议论文集，第10985-10995页[25] Aditya Ramesh，Prafulla Dhariwal，Alex Nichol，CaseyChu，and Mark Chen.分层文本条件图像生成与剪辑潜伏期。arXiv预印本arXiv：2204.06125，2022。[26] Debaditya Roy和Basura Fernando使用潜在目标学习的行动预期。在IEEE/CVF计算机视觉应用冬季会议论文集，第2745-2753页[27] Chitwan Saha

下载后可阅读完整内容，剩余1页未读，立即下载