联合学习的行动预测模型：预测未来的行为并生成框架式未来表示

95 浏览量更新于2023-10-13 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5562预测未来：一个联合学习的行动预测模型Harshala Gammulle Simon Denman Sridha Sridharan Clinton Fookes澳大利亚昆士兰科技大学图像与视频研究实验室{pranali.gammule，s.denman，s.sridharan，c.fookes}@ qut.edu.au摘要受人类行为预期神经结构的启发，我们提出了一个行为预期模型，该模型通过预测视觉和时间未来来预测未来的合理行为。与首先学习模型以预测未来视频特征然后使用这些特征执行动作模拟的当前最先进的方法相比，所提出的框架联合学习以执行两个任务，未来视觉和时间表示合成以及早期动作预测。联合学习框架确保预测的未来嵌入对动作预期任务是有用的。此外，通过广泛的实验评估，我们证明了使用场景的视觉和时间语义的实用性在UCF 101、UCF 101 -24、UT-Interaction和TV Human Interaction等多个数据集上，我们的11. 介绍我们提出了一个动作预测模型，它使用视觉和时间数据来预测未来的行为，同时还预测了一个框架式的未来表示来支持学习。与动作识别不同的是，识别是在事件发生后进行的，通过观察完整的视频序列（图1）。1（a）），行动预期的目的（图。1（b））是通过只观察行动的一部分来尽可能早地预测未来的行动[3]。因此，对于预测，我们只有少量帧形式的部分信息，因此可用信息是稀缺的。图1（c）显示了我们提出的模型背后的直觉。动作预期任务是通过共同学习预测未来嵌入（视觉和时间）以及动作预期任务来完成的，其中预期任务提供线索以帮助补偿。1这项研究得到了澳大利亚研究委员会（ARC）链接基金LP140100221的观察到(a) 动作识别观察到未观察到(b) 典型行动预期观察到未观测？？？行动？Highfive预测未来嵌入(c) 建议的行动预期方法图1.通过未来嵌入预测进行行动预测。动作识别方法（a）通过完全观察的视频序列执行识别任务，而典型的动作预测方法（b）基于从帧的一小部分预测动作在我们提出的模型（c）中，我们共同学习未来的帧嵌入以支持预测任务。满足来自未观察到的帧特征的丢失信息我们证明了这两个任务的联合学习是相辅相成的。这种方法的灵感来自人类如何实现行动预测能力的最新理论。最近的心理学文献表明，在开始肌肉运动或运动控制之前，人类会建立一个未来的心理意象，包括未来的行动和相互作用（如物体之间的相互作用这些表示捕获了预期未来的视觉和时间模仿这种生物过程，行动？？？？行动？5563我们的动作预测方法在预测未来动作的同时共同学习预测未来场景表示，并且优于当前最先进的方法。与最近的作品[3，45，50]相比，这些作品仅依赖于视觉输入，并且受到[10，17，31]的启发，我们提出了一种联合学习过程，该过程关注视觉和时间流的突出组件，并为未来动作预测构建了一个高度在[50]中，作者证明了上下文语义，它捕获高级动作相关概念，包括环境细节，对象，历史动作和交互，在预测动作时比未来帧的实际像素值更重要。此外，通过预先训练的深度学习模型捕获的语义显示出对背景和照明变化的鲁棒性，因为它们倾向于捕获输入帧的整体含义，而不是简单地使用像素值[8，26]。因此，在所提出的架构中，我们从输入流中提取深度视觉和时间表示，并预测这些流的未来表示。受生成对抗网络（GAN）[1，16，33]的最新进展及其自动学习任务特定损失函数的能力的启发，我们在我们的方法中采用了GAN学习框架，因为它提供了预测合理的未来动作序列的能力。虽然存在用于防感染的单个GAN模型[32，56]，但我们在这项工作中更进一步主要贡献是通过两个GAN的联合训练，联合学习两个任务（动作预测和表示图2显示了我们提出的动作预期GAN（AA-GAN）模型的架构。该模型接收视频帧和光流流作为场景的视觉和时间表示。我们通过预先训练的特征提取器来提取各个流的语义表示，并通过注意力机制将它们融合。这使我们能够为每个流提供不同程度的关注，并有效地嵌入不同操作类别的重要组件。通过这个过程，低级别的特征表示，映射到一个高级别的上下文描述符，然后使用的未来表示合成和分类程序。通过将GAN（视觉和时间合成器）通过一个共同的上下文描述器耦合，我们最佳地利用了所有可用的信息，并学习了一个更好地描述给定场景的描述符。我们的主要贡献如下：• 我们提出了一个联合学习的早期行动，预期和合成的未来表示的框架。• 我们展示了如何注意可以有效地确定显着组成部分的多模态的形成，并生成单个上下文描述符，该上下文描述符为两个任务提供信息。• 我们引入了一种基于指数余弦距离的新正则化方法，该方法有效地指导了生成器网络的预测任务。• 我们对几个具有挑战性的数据集进行了评估，并通过彻底的消融研究，证明了所提出的模型的每个组成部分的相对重要性。2. 以前的工作人类动作识别是一个活跃的研究领域，在多个领域具有重要意义[7，9，23]。自该领域成立以来，研究人员一直专注于改进方法的适用性以符合现实世界的场景。早期工作的目的是使用图像[6，25]或视频输入[15，22，46]开发离散动作识别方法，并且这些方法已扩展到检测细粒度视频中的动作[29，37]。虽然这些方法已经显示出令人印象深刻的性能，但它们仍然局限于现实世界的应用，因为它们依赖于完全完成的动作序列。这激发了动作预测方法的发展，该方法可以利用有限数量的早期帧准确地预测未来动作，从而提供预测正在进行的动作的能力。在[50]中，提出了一种深度网络来预测未来的表现。预测表示用于对未来动作进行分类。然而[50]要求在测试期间提供正在进行的行动的进度水平，限制了适用性[19]。Hu等人[19]引入了一个软回归框架来预测正在进行的行动。该方法[19]学习软标签，用于包含部分动作执行的子序列上的回归。Lee等人[30]提出了一种人类活动表示方法，称为子体积共生矩阵，并开发了一种借助预训练的CNN预测部分观察到的动作的方法。Aliakbarian等人的深度网络方法。[3]使用了一个多阶段的LSTM架构，该架构结合了上下文感知和动作感知功能，以尽可能早地预测类。[40]的基于CNN的动作预测模型预测最合理的未来运动，并且通过基于动态和分类损失的有效损失函数进行了改进。动态损失是通过一个动态图像生成器获得的，该生成器被训练为生成特定于类的动态图像。然而，由于手工制作的损失函数，性能受到限制基于GAN的模型可以克服这一限制，因为它可以自动学习损失函数，并且在最近的研究中显示出有前途的性能[35，38，54]。在我们的工作中，我们利用条件GAN [12，13，36]进行深度未来表示生成。有限数量5564真/假真/假时间输入（光脉冲）图2.动作预期GAN（AA-GAN）：该模型接收RGB和光流流作为给定场景的视觉和时间我们不是利用原始流，而是通过将它们传递给预先训练的特征提取器来提取各个流的语义表示。这些流通过注意机制合并，该机制将这些低级特征表示嵌入到高级上下文描述符中。这种上下文表示由两个GAN使用：一个用于未来视觉表示合成，一个用于未来时间表示合成;并且通过利用上下文描述符来获得预期的未来动作。因此，上下文描述符学习受到未来表示预测和动作预期任务的影响GAN方法可以用于人类行为识别[1，33]。在[33]中，GAN用于生成掩码以检测输入帧中的演员，并且动作分类通过CNN完成。该方法易于与如前所述的损失函数发生困难。考虑到其他GAN方法，[32，56]需要不易获得的人类骨骼数据;[56]仅合成未来骨架表示;和[55]考虑了使用单个生成器和卷积对合成未来凝视点的任务，并直接从3D CNN中提取时空特征。与此相反，我们分析了两种模式，并利用注意力机制将每种模式的突出成分嵌入到可用于多个任务的上下文描述符中;我们通过两个GAN和一个分类器的联合训练来学习这个描述器。[45]的作者已经将[50]的模型调整为GAN设置;使用GAN来预测未来的视觉特征表示。在训练这种表示时，他们在预测的特征上训练分类器，以预测未来的动作类。我们认为[45]的方法是次优的，因为不能保证未来的动作表示非常适合预测两阶段学习的动作。我们的方法是联合学习任务，确保学习捕捉两个任务所需的重要信息。此外，通过将其扩展到多模态设置，我们证明了参加视觉和时间特征的动作预期任务的重要性。3. 行动预期模型我们的动作预测模型旨在预测未来，同时对未来动作进行分类。该模型的目的是为未来的帧生成嵌入，以获得正在进行的动作的完整概念，并了解如何最好地对动作进行分类。节中3.1，我们讨论了如何使用视觉和时间输入流生成上下文描述符，而Sec. 3.2描述了GAN在描述符生成过程中的使用。未来的行动分类程序在第2节中描述。3.3我们进一步改进了这个过程中添加的余弦三点四分。3.1. 上下文描述符公式化我们模型的输入有两个方面：视觉和时间。视觉输入是RGB帧，并且时间输入是对应的光流图像（使用[4]计算）。如果输入视频帧的数量为T，则未来视觉表征ResNet50（实数）（假的）ResNet50DV生成的视觉视觉输入αVαTPCResNet50（假的）DTP生成的时间预期行动（实数）ResNet50未来时态表示分类器GTPGVLSTMLSTM55651 2Ttt视觉输入（IV）和时间输入（ITP）都可以表示如下，我们提取特征的FV和FTP类似于方程。二、β V={β V，β V，. . . ，β V}，1 2T（九）I V={I V，I V，. . . ，IV}，β TP={β TP，β TP，. . . ，β TP}。1 2T（一）1 2TI TP={I TP，I TP，. . . ，I TP}。这些输入通过预训练的特征提取器，其逐帧提取特征θV和θTPθ V={θ V，θ V，. . . ，θ V}，这些特征βV和βTP在GAN训练期间使用。每个GAN的生成器（GV或GTP）的目的是合成足够真实以欺骗GAN（DV或G T P）的未来深度特征序列。DTP）。应该注意的是，GAN模型并不学习预测未来帧，而是学习预测未来帧的深层特征1 2T（二）帧（视觉或时间）。如[50]中所述，这允许θ TP={θ TP，θ TP，. . . ，θ TP}。1 2T然后通过单独的LSTM网络发送θV和θTP，以捕获输入特征的时间结构LSTM输出定义为，该模型识别当前并预测它们与未来行动的关系。这是通过以下损失函数学习的，ΣTV V TP TPLV（GV，DV）= logDV（Ct，βV）+ht =LSTM（θt），ht=LSTM（θt）的情况。（三）为每个帧生成注意力值，eV= tanh（aV[hV]），eTP= tanh（aTP[hV]），（4）ΣTt=1t=1log（1−DV（Ct，GV（Ct），（十）t t t t t tΣT其中V和TP是与网络的其余部分一起训练的多层感知器，并且通过S形函数以获得得分值，α V= σ（[e V，e TP]），α TP= 1 − α V。（五）LTP（GTP，DTP）= logDTP（Ct，βTP）+t=1ΣTlog（1− D TP（C t，G TP（C t）。t=1（十一）t t t t t t然后，生成注意力加权输出向量，3.3. 分类未来的深层序列是通过两个µ~V=αVhV，µ~TP=αTPhV（六）GAN模型如第 3.2. 一种天真的方式tttt t ttt最后，这些输出向量被连接（由[，]表示）以生成上下文描述符（Ct），Ct=[µV，µTP]。（七）Ct对两个输入的最近历史进行编码，因此用于预测未来的行为。3.2. 视觉和时间GAN基于GAN的模型能够学习难以与真实示例区分的输出它们学习从输入到这个现实输出的映射，同时学习损失函数来训练映射。上下文描述器Ct是两个GAN的输入（视觉和时间合成器，见图2）。2）的情况。地面真实未来视觉和时间帧被表示为FV和FTP，并且由下式给出，执行未来动作分类是使用训练的未来特征预测器并将合成的未来特征传递给分类器。然而，这是次优的，因为GV和GTP不知道该任务，因此特征对于它可能是次优的。因此，在这项工作中，我们研究了嵌入预测和未来动作预测的联合学习，允许模型学习动作预测所需的显著特征。因此，GAN能够支持学习两个过程的显著特征。我们通过一个分类器对动作预测任务进行未来动作分类，其输入是Ct。那么分类损失可以定义为，ΣTL C= −y tlog f C（C t）。（十二）t=15566重要的是要注意，上下文描述符Ct在-受分类损失Lc和GAN的FV={FV，FV，. . . ，F，V}，V TP V TP1 2T（八）损失，L和L，因为G和G利用上下文F TP={F TP，F TP，. . . ，FTP}。描述符来合成未来的表示。1 2T5567不不3.4. 正则化为了稳定GAN学习，经常使用正则化方法，例如L2损失[20]。然而，在比较深嵌入时，余弦距离被证明更有效此外，当生成未来序列预测时，预测远未来的表示比预测近期的表示更具挑战性。然而，来自遥远未来的语义对于动作类预测问题来说更具因此，我们提出了一种时间正则化机制，该机制使用余弦距离将预测嵌入与地面真实未来嵌入进行比较，并鼓励模型更多地关注于为遥远的未来生成准确的嵌入，UT-Interaction（UTI）[43]是人类交互数据集，其包含两个或更多个人执行诸如握手、出拳等交互的视频。以顺序和/或同时的方式。该数据集共有120个视频。对于最新技术水平的比较，我们对每个集合使用10倍留一交叉验证，并获得所有集合的平均性能，如[3]所示。TV Human Interaction（TV-HI）[39]数据集是从20个不同的电视节目中收集的300个视频片段的集合。它由四个动作类的人组成，如握手，击掌，拥抱和亲吻，第五个动作类称为“无”，不包含任何四个动作。根据[50]，使用提供的训练/测试拆分进行25倍交叉验证4.2. 网络架构与培训考虑到不同数据集的相关文献，LR= ΣTt=1−et d（GV（Ct），βV）+ΣTt=1−et d（GTP（Ct），βTP），（十三）使用了不同数量的观察帧[3，45]。设T是观察帧的数量，然后我们提取帧T+1到T+T'作为未来帧，其中T'是用于嵌入预测的未来帧作为暂时的-其中d表示余弦距离函数。受[3]的启发，我们引入了指数项et，鼓励更准确地预测遥远的未来嵌入。然后，学习上下文描述符Ct并由深度未来序列合成器（GAN模型）和未来动作分类两者加强的最终模型的损失可以被写为，L=wVLV+wTPLTP+wcLC+wRLR，（14）其中wV、wTP、wc和wR是控制相应损耗的贡献的超参数。4. 评价4.1.数据集动作预测或早期动作预测的相关工作我们用来评估我们工作的四个数据集概述如下。UCF 101 [49]已被广泛用于离散动作识别和动作预测的最新工作，因为它的大小和种类。该数据集包括来自13，320个视频的101个动作类，平均长度为7.2秒。为了与最先进的方法进行比较，我们利用提供的三个训练/测试分割，并报告三个分割的平均准确度。UCF 101 -24 [47]是UCF 101数据集的子集。它由3207个视频中的24个动作类组成。为了将动作预期结果与最新技术水平进行比较，我们仅使用集合1中提供的数据。类似于[46]，我们使用[4]计算的密集光流除了水平和垂直分量外，我们还使用水平和垂直流的平均位移。视觉和时间输入都单独通过在ImageNet [41]上训练的预训练ResNet50生成器的网络由两个LSTM层和一个全连接层组成生成器仅被馈送上下文输入，而生成器被馈送上下文和真/假特征表示两者。两个输入通过单独的LSTM层，然后合并的输出通过两个完全连接的层。分类器由单个LSTM层和一个全连接层组成。为清楚起见，我们在补充材料中提供了模型图。对于所有LSTM，使用300个隐藏单元。对于模型训练过程，我们遵循[20]的方法，在鉴别器的一个梯度下降通道与生成器和分类器之间交替，每个小批次使用32个样本。亚当优化器[24]用于学习率为0.0002和8×10−9的衰减，并训练了40个epochs。计算了超参数wV，wTP，wc，wR实验性地，分别设置为25、20、43和15。请参阅这些评价的补充材料当针对UTI和TV-HI数据集训练所提出的模型时，由于训练示例的可用性有限，我们首先在UCF 101训练数据上训练模型，并在来自特定数据集的训练数据上对其进行微调。为了实现我们提出的方法，我们使用Keras [5]和Theano [2]作为后端。55684.3. 绩效评价4.3.1评价方案为了在每个数据集上评估我们的模型，在可能的情况下，我们考虑输入帧数量的两个设置，即对于UCF101和UTI，类似于[3]，我们分别考虑20%和50%的帧用于对于每个数据集和设置，我们对输入视频进行重采样，使得所有序列具有恒定数量的帧。由于无法获得基线结果和以下[45]，对于UCF 101 -24，我们报告使用每个视频的50%帧进行评估，对于TV-HI数据集，如[14，27]所示，我们仅考虑1秒的帧。4.3.2与最先进方法的比较UCF 101、UCF 101 -24、UTI和TV-HI数据集的评价分别见表1至表4考虑到这些结果，Multi stage LSTM [3]和RED [14]的作者引入了一种新的手工设计的损失，鼓励对action类进行早期预测。RBF-RNN [45]的作者使用GAN学习过程，其中损失函数也自动学习。与所提出的架构类似， RBF-RNN [45]模型也通过 DeepCNN模型利用场景的空间表示，并尝试预测未来的场景表示。然而，与所提出的架构相比，该方法不利用时间特征或联合学习。我们学习了一个上下文描述符，它有效地结合了空间和时间表示，这不仅有助于动作分类，而且还更准确地预测未来的表示。这使我们获得了更好的结果。在选项卡中。2，UCF 101 -24的结果表明，我们的模型能够比RBF-RNN[45]高出0.9%，而在Tab.3我们在UTI数据集上的最早设置优于[45] 1.3%。当比较最早和最新设置之间的性能差距时，与基线模型相比，我们的模型具有较小的性能下降在我们的模型上，UCF101的差距GV和GTP合成视觉和时间流两者的未来表示，同时考虑当前上下文。因此，所提出的模型能够更好地预测未来的动作，即使具有更少的帧。我们对多个基准的评估进一步说明了所提出的架构的通用性，具有不同的视频长度和数据集大小。4.4. 消融实验为了进一步证明所提出的AA-GAN方法，我们进行了一项消融研究，方法最早最新[21]第二十一话30.671.1环境感知+损失[34]22.673.1多阶段LSTM [3]80.583.4提出84.285.6表1. UCF101的动作预期结果考虑了方法精度[11]第十一话86.0路[47]92.0[47]第四十七话90.0RBF-RNN [45]98.0提出98.9表2. UCF 101 -24的动作预期结果，考虑来自每个视频的50%的帧。方法最早最新S-SVM [48]11.013.4DP-SVM [48]13.014.6CuboidBayes [42]25.071.7CuboidSVM [44]31.785.0[21]第二十一话45.065.0环境感知+损失[34]48.060.0[42]第四十二话65.081.7BP-SVM [28]65.083.3D-BoW [42]70.085.0多阶段LSTM [3]84.090.0未来动态[40]89.291.9RBF-RNN [45]97.0NA提出98.399.2表3. UTI“最早”20%帧和“最新”50%帧的动作预期结果方法精度冯德里克等[50]第五十话43.6红色[14]50.2提出55.7表4.考虑来自每个视频的1秒帧的TV人机交互数据集的动作预期结果。拟议系统的组成部分。我们评估了所提出的AA-GAN模型的七个非基于GAN的模型变体和十个基于GAN的变体。基于非GAN的模型进一步分为两类：使用和不使用未来表示生成器的模型。类似地，基于GAN的模型分为两类：这些消融模型的图表可在补充材料中获得。非GAN模型：这些模型不使用任何未来的表示生成器，并且仅通过分类损失进行训练。(a) ηC，V：一个经过训练的模型，使用上下文进行分类5569仅从视觉输入流（V）提取的特征(b) ηC，TP：根据模型（a），但是使用时间输入流（TP）。(c) ηC，（V+TP）：根据（a），但是使用两个数据流来创建上下文嵌入。具有未来表示生成器的基于非GAN的模型：在这里，我们将未来的嵌入生成器添加到先前的模型集合中。生成器通过均方误差（即，无交叉熵损失且无对抗损失），而分类是通过分类交叉熵损失来学习的。这些模型的目的是展示联合学习如何提高性能，以及共同的嵌入如何服务于这两项任务。(d) ηC ，V+GV：使用未来视觉表示生成器（GV）建模，仅使用视觉输入流来训练分类器(e) ηC，TP+GTP：按照（d），但是接收和预测时间输入流。(f) ηC ，（ V+TP ）+GV+GTP：模型由两个生成器GV和GTP组成，并被馈送视觉和时间输入流。(g) ηC，（V+TP）+GV+GTP+Att：按照（f），但注意使用组合流。没有联合训练的基于GAN的模型：这些方法基于生成未来表示的GAN框架和预测这两个任务分别学习的动作的分类器。我们首先使用对抗性损失训练GAN模型，一旦这个模型被训练好，使用生成的未来嵌入，分类器就可以预测动作。(h) ηC，V+GANV\Joint：使用GAN学习框架-仅使用视觉输入流，并且使用基于余弦距离的正则化(i) ηC，TP+GANTP\联合：根据（h），但具有时间输入流(j) AA-GAN\Joint将GAN学习框架用于视觉和时间输入流。基于GAN的联合训练模型：这些模型反向训练深度未来表示生成器。通过从所提出的模型中删除不同的组件来引入所述模型变体(k) ηC，V+GANVI（L，R）：所提出的方法仅具有视觉输入流并且没有基于余弦距离的正则化。(l) ηC，TP+GANTPI（LR）：所提出的方法仅具有时间输入流并且没有基于余弦距离的正则化。(m) ηC，V+GANV：所提出的仅具有视觉输入流的方法使用基于余弦距离的正则化(n) ηC，TP+GAN，TP：仅具有时间输入流的所提出的方法。使用基于余弦距离的正则化(o) AA-GAN\（LR）：不含基于余弦距离的正则化的建议模型(p) AA-GANI（DR）：类似于所提出的模型，然而GV和GTP预测未来视觉和时间帧的像素值，而不是从预训练的特征提取器提取的表示。方法精度(a) ηC，V(b) ηC，TP(c)ηC，（V+TP）45.139.852.0(d) ηC，V+GV(e) ηC，TP+G TP(f)ηC，（V+TP）+GV+GTP54.752.468.1(g)ηC，（V+TP）+GV+GTP+Att68.8(h)ηC，V+GANV\接头98.1(i)ηC，TP+GANTP\接头97.9（j）AA-GAN\接头98.3(k)ηC，V+GANV\（LR）96.0(l)ηC，TP+GANTP\（LR）95.4(m)ηC，V+GANV98.4(n)ηC，TP+GANTP98.1(o)AA-GAN\（LR）98.7（p） AA-GAN\（DR）95.9AA-GAN（拟定）98.9表5.“最新”设置的UCF 101 -24数据集的消融结果消融模型在UCF 101 -24测试集上的评价结果见表1。五、基于非GAN的模型（a至g）：当同时使用两个数据流时，模型性能明显优于单独使用任何一个数据流（见（c）与（a）和（b）;以及（f））vs.（d）和（e））。因此，很明显，两个流提供不同的信息线索，以促进预测。将不使用未来表示生成器的模型的结果与（d）进行比较，我们看到监督未来表示确实改善了结果。没有联合训练的基于GAN的模型（h至j）：比较基于非GAN的方法与消融5570[4]美国[1]第一章[4][2][1][0][4] [5][4][0][4 ]美国[二]《中国日报》[4][3][1]第一章[2][1]第一章[4 ]美国[4][3][2][4][4]美国[3][2][4][1]108642[4]美国[1]第一章[4][2][1][0] [4] [5][4][0]0[4 ][二]《中国日报》[4][3][1]第一章[2][1]第一章[4 ]美国[4][3][2][4][4]美国[3][2][4][1]2468 6 4 2 0 2 4 681086420246864202468(a) AA-GAN(b) 消融模型（g）（见第4.4节）图3. AA-GAN（a）和消融模型（g）在（b）训练之前（蓝色）和之后（红色）的隐藏状态的投影Ground truth actionclasses在括号中。插入指示来自相应视频的样本帧。我们将所提出的AA-GAN模型（其中GV和GTP合成未来的视觉和时间表示）与消融模型（其中GV和GTP合成未来帧的像素值）进行比较。很明显，后一种模型无法捕获低级像素特征与动作类之间的语义关系，导致导出的上下文描述符对于动作分类而言信息量较少，从而降低了性能。为了证明所学习的上下文嵌入的区别性，图2示出了上下文嵌入的区别性。图3（a）可视化了TV-HI测试集的30个随机选择的示例的所提出的上下文描述符的训练之前（蓝色）和之后（红色）的嵌入空间。我们提取了学习的上下文描述符Ct，并应用PCA [53]生成2D向量。在括号中指示地面实况动作类。这清楚地表明，所提出的上下文描述符学习嵌入，这是为未来的表示生成和动作类的分离从显示来自视频的样本帧的插入中，类之间存在视觉相似性，因此在训练之前嵌入空间中存在重叠。然而，在学习之后，上下文描述符已经能够最大化类间距离，同时最小化类内距离。图3（b）示出了消融模型（g）的考虑到学习前后嵌入的混乱性质，很明显，所提出的GAN学习过程对学习有区别的嵌入2做出了重大4.5. 时间复杂度我们评估的计算需求的建议在模型（h）中，我们看到通过GAN学习过程实现了主要的性能提升，这表明了自动损失函数学习的重要性。比较视觉流和时间流的性能，我们观察到视觉流是占主导地位的，然而通过建议的注意力机制将两个流结合起来可以捕获互补信息。基于GAN的联合训练模型（k到p）：将模型（h）和（i）（它们是不使用联合训练的单模态模型）与使用联合训练的模型（m）和（n）进行比较，我们可以看到通过一起学习两个互补任务所提供的明显益处。这与[45]中报告的观察结果相矛盾，[45]使用与预测的未来嵌入相关联的分类器我们推测，通过学习这两个任务的压缩上下文表示，我们有效地传播通过编码机制的行动预期错误的影响，允许这种表示是两个任务的信息最后，通过将GAN损失与LR耦合在一起，其中基于余弦距离的正则化与指数损失相结合以鼓励准确的长期预测，我们实现了最先进的结果。此外UTI数据集“最早”设置的AA-GAN模型。该模型包含43M可训练参数，并使用Intel E5-2680 2.50 GHz CPU的单核在1.64秒内生成500个预测（包括未来视觉和时间预测以及动作预测）。5. 结论在本文中，我们提出了一个框架，共同学习预测的行动，同时也合成未来的场景嵌入。我们学习了一个上下文描述符，它通过系统地参加个人输入流，并有效地提取显着的特征，fa-cilitates这两个任务。该方法在合成未来方面表现出类似于人类神经行为的特征，并提供了端到端的学习平台。此外，我们引入了一个基于余弦距离的正则化方法来指导合成任务中的生成器。我们的评估结果表明，所提出的方法在多个公共基准测试中具有优异的性能2附加的定性评估显示生成的未来视觉和时间表示在补充材料中。5571引用[1] Unaiza Ahsan，Chen Sun，and Irfan Essa.Dispensnet：使用生成对抗网络从视频中进行半监督动作识别。arXiv预印本arXiv：1801.07230，2018。[2] RamiAl-Rfou ， Guillaume Alain ， Amjad Almahairi ，ChristofAngermueller，DzmitryBahdanau，NicolasBallas ， Fre'de'ricBastien ， Justin Bayer ， AnatolyBelikov，Alexander Be- lopolsky，et al. Theano：一个用于快速计算数学表达式的Python框架。arXiv预印本arXiv：1605.02688，472：473，2016。[3] Mohammad Sadegh Aliakbarian、F Sadat Saleh、MathieuSalzmann 、 Basura Fernando 、 Lars Petersson 和 LarsAndersson。鼓励地方标准化培训机制尽早采取行动。在IEEE国际计算机视觉会议，第1卷，2017年。[4] ThomasBrox ， Andre 'sBruhn ， NilsPapenberg ，andJoachimWeickert.基于翘曲理论的高精度光流估计。欧洲计算机视觉会议，第25-36页。Springer，2004.[5] Francois Chollet et al.K时代https://keras.io，2015年。[6] 文森特·德莱特，伊万·拉普捷夫和约瑟夫·西维克。在静止图像中识别人的动作：一项关于特征袋和基于零件的表示的研究。英国机器视觉（BMVC）会议，2010年。更新版本，可在 www.example.com 上获得http://www.di.ens.fr/willow/research/stillactions/。[7] 艾伦·迪克斯人机交互数据库系统百科全书，第1327-1331页。Springer，2009.[8] Jeff Donahue ， Y Jia ， O Vinyals ， J Hoffman ， NZhang，E Tzeng和T Darrell。用于通用视觉识别的深度卷积激活功能。arxiv 预印本。arXiv预印本arXiv：1310.1531，2013。[9] Ahmet Ekin，A Murat Tekalp和Rajiv Mehrotra。自动足球视频分析和摘要。IEEE图像处理学报，12（7）：796[10] Birgit Elsner和Bernhard Hommel。效果预测和行动控制。实验心理学杂志：人类感知和性能，27（1）：229，2001。[11] 范兆轩，林天威，赵旭，江万里，徐涛，杨明。面向现实世界应用的在线手势识别方法。在国际图像和图形会议上，第262-272页。Springer，2017.[12] Harshala Gammulle，Simon Denman，Sridha Sridharan，and Clinton Fookes.用于群体活动识别的多级序列gan。亚洲计算机视觉会议，第331-346页Springer，2018.[13] HarshalaGammulle 、 TharinduFernando 、 SimonDenman、Sridha Sridharan和Clinton Fookes。用于连续细粒度动作分割的耦合生成对抗网络。2019年IEEE计算机视觉应用冬季会议（WACV ），第200IEEE，2019。[14] Jiyang Gao，Zhenheng Yang，and Ram Nevatia.红色：用于动作预测的重新增强的编码器-解码器网络。arXiv预印本arXiv：1707.04818，2017。[15] Georgia Gkioxari和Jitendra Malik。找活动管。在IEEE计算机视觉和模式识别会议（CVPR），2015年。[16] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[17] 彼得·格雷夫。预测在心理过程中的作用：一种过程方法。心理学新思想，39：45-52，2015。[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页[19] 胡建芳，郑伟世，马连阳，王刚，赖建煌，张建国。通过软回归进行早期行动预测。IEEE关于模式分析和机器智能的交易，2018。[20] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络进行图像到图像翻译在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。[21] Ashesh Jain、Avi Singh、Hema S Koppula、Shane Soh和Ashutosh Saxena。通过传感融合架构预测驾驶员活动的循环神经网络。在机器人与自动化（ICRA），2016年IEEE国际会议上，第3118-3125页。IEEE，2016.[22] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEEtransactionsonpatternanalysisandmachineintelligence，35（1）：221[23] Christoph G Keller和Dariu M Gavrila。行人会行人路径预测研究。 IEEETransactionsonIntelligentTransportation Systems，15（2）：494-506，2014。[24] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。2015年国际学习表征会议（ICLR）[25] 高伯哲，洪俊赫，南在烈。使用动作姿势和两层分类模型在静止图像中识别人类动作。J. Vis. Lang.Comput. ，28（C）：163[26] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[27] 田兰，陈宗全，西尔维奥·萨瓦雷塞。用于未来动作预测的层次表示。欧洲计算机视觉会议，第689-704页。Springer，2014.[28] Kennard Laviers ， Gita Sukthankar ， David W Aha ，Matthew Molineaux，C Darken，等.通过对手建模提高进攻表现。载于《援助》，2009年。[29] Colin Lea、Michael D Flynn、Rene Vidal、Austin Reiter和Gregory D Hager。用于动作分割和检测的时间卷积网络。2017年[30] 李东奎和李成焕基于预训练的深度表示预测部分观察到的人类活动Pattern Recognition，85：1985572[31] 莫里茨·莱恩和斯特凡·科尔施。紧张和悬念的心理学模型心理学前沿，2015年6月79日。[32] Chen Li，Zhen Zhang，Wee Sun Lee，and Gim Hee Lee.人体动力学的卷积序列到序列模型在IEEE计算机视觉和模式识别会议论文集，第5226-5234页[33] Xinyu Li ， Yanyi Zhang ， Jianyu Zhang ， YueyangChen，Huangcan Li，Ivan Marsic，and Randall S Burd.基于区域的活动识别使用条件gan。在2017年ACM多媒体会议的论文集，第1059-1067页ACM，2017。[34] Shugao Ma，Leonid Sigal，and Stan Sclaroff.用于活动检测和早期检测的lstms中的学习活动进展在IEEE计算机视觉和模式识别

下载后可阅读完整内容，剩余1页未读，立即下载