EF-Transformer：参与者间行为预测的新方法

63 浏览量更新于2023-12-01 收藏 2.4MB PDF 举报

人工智能实验室

行为预测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文用于参与者行为推断和预测的Bo Hu1， 2 and Tat-Jen Cham1， 21Singtel认知与人工智能实验室（SCALE@NTU），新加坡2新加坡南洋理工大学计算机科学与工程学院{hubo，astjcham} @ ntu.edu.sg抽象的。一些团体活动，如团队运动和编排舞蹈，涉及参与者之间的密切互动。在这里，我们调查的任务推断和预测参与者的行为，在运动路径和行动，在这种条件下。我们缩小了问题，估计一组目标参与者如何对其他观察到的参与者的行为作出反应。我们的核心思想是以一种对帧式推理和预测过程中的错误积累具有鲁棒性的方式来建模参与者之间的时空关系。我们提出了一种新的入口翻转的Transformer（EF-Transformer），它通过注意机制在空间和时间域上模拟参与者之间的关系。与典型的transformer不同，我们通过翻转查询，键和值条目的顺序来解决错误累积的问题，以增加当前帧中观察到的特征的重要性和保真度。对比实验表明，我们的EF-Transformer在新收集的ten- nis双打数据集，Ceilidh舞蹈数据集和两个行人数据集上实现了最佳性能此外，它也表明，我们的EF-变压器是更好地限制累积误差和从错误的估计恢复关键词：入轨翻转，Transformer，行为预测1介绍计算机视觉与机器学习的发展导致了人类行为理解的广泛进展，例如人类动作识别和时间动作检测。虽然最先进的算法已经显示出了希望，但大多数方法都只关注个人，而没有明确处理人与人之间的交互。然而，人类行为可以跨越广泛的互动耦合，从陌生人相互传递的独立性，到高度协调的活动，如团体运动和舞蹈。一个人的行为可以被视为自我意图和社会互动的结合目前与群体相关的计算机视觉作品并没有太多地关注具有重arXiv：2207.06235v2 [cs.CV] 2022年7+v：mala2255获取更多论文目标追求典型Q关注K V意见目标捍卫击中EF-注意K VQ意见关注？2B. Hu和T. 室图1.一、本文主要研究参与者的行为预测和推理问题，即通过观察其他参与者的行为来估计群体活动中目标参与者的行为。针对注意力函数提出了条目翻转机制，通过翻转查询、键和值条目来获得准确的预测和推理参与者之间的社会互动。例如，在行人轨迹预测[2，40]中，行人的行为更多地基于自我意图而不是社会互动，后者粗略地避免碰撞。为了进一步探索群体活动中的社会互动模型，我们考虑推断和预测一些参与者对其他参与者的反应的行为在这些任务中，我们假设一个群体活动的参与者的行为较少依赖于自我意图，而是由其他参与者的行为所主导。为了将问题形式化，我们将一个组分为两组观察和目标参与者。对于目标参与者，我们假设除了一些初始状态之外没有提供任何数据- 因此，目标是仅基于从被观察的参与者接收的连续数据来推断他们的行为（参见图1）。我们相信这个模型在紧密结合的活动中，如团队运动，将最终导致实现更现实的代理行为模型，G.用于游戏或运动训练中的模拟。推断或预测参与者行为的任务是逐帧序列估计问题。有许多现有的模型专注于序列估计，例如基于递归神经网络（RNN）的方法[25，32，21]和基于注意力的方法[26，35]。然而，这些方法面临误差累积的问题，因为递归涉及使用来自前一步骤的输出估计作为下一步骤的输入。虽然这会导致节奏平滑的预测，但每一步的小误差会随着时间的推移而积累，导致最终的大误差。以典型的Transformer[26]为例，解码器中的交叉关注自回归地使用先前的估计作为查询输入。由于查询是注意力函数的基础，因此后续查询中的错误通常会增加，即使键和值条目是准确的。这可能不是E的问题。G.开放式文本生成，但成为我们的任务，优先准确的时间一致性当前估计的问题。在本文中，我们提出了入口翻转的Transformer（EF-Transformer），一个新的框架的推理和预测的参与者的行为。所需的两个关键属性是：i）良好的关系建模，ii）限制误差精度，+v：mala2255获取更多论文参与者行为的推断和预测的EF-变换器模拟为了模拟不同帧中所有参与者之间的时空关系，我们采用了基于变换的结构，具有多层编码器和解码器。在每个编码器中，对空间域，即空间域，分别进行关注.e.涉及不同的参与者，和时间域，即。e.在不同的框架中。每个解码器包含时空自我注意和交叉注意，以关联观察者和目标参与者的特征。为了限制逐帧推断和预测期间的累积误差，将条目翻转设计引入到解码器中的交叉注意，以更加关注输出的正确性而不是平滑性。在我们的方法中，解码器的查询，键和值条目被翻转w。R. t.典型的命令。由于在每一步都将观察到的参与者的准确信息发送到注意力函数的查询条目，因此可以有效地抑制误差累积。本文的主要贡献如下：– 我们阐明了在涉及高度耦合的互动的群体活动中推断和预测参与者行为所需的关键考虑因素– 提出了一种新的EF-Transformer框架，其中查询、键、值条目在解码器的交叉注意中翻转。– 我们的方法在涉及高度耦合交互的网球双打数据集和Ceilidh舞蹈数据集上实现了SOTA性能，并且在松散耦合的行人数据集上也优于其他方法。– 我们证明了我们的方法在限制累积误差和从尖峰误差中恢复方面更鲁棒。2相关工作关系建模参与者行为预测涉及多个模块，其中时空关系建模是一个核心。概率图模型已被用于模型关系，例如。G. 动态贝叶斯网络（DBN）[39]，条件随机场（CRF）[4]，但这些模型严重依赖于特征工程。通过深度学习，模型可以直接学习关系，同时找到好的特征卷积神经网络（CNN）被广泛用于从图像和视频中提取特征，而CNN的更深层可以被视为关系建模，因为它们总结了来自更大图像区域的特征[18，23，9，5]。图卷积网络（GCN）[34，38]用于学习没有固定网格格式的特征之间的关系。然而，卷积通常具有有限的感受野，并且仅通过许多层被扩大RNN，如LSTM，已被用于建模序列中的时间关系[31，3]。与CNN一次性处理所有条目不同，RNN是随着时间的推移迭代应用的。注意力机制由Transformer [26]推广，并被用于空间和时间关系建模[42，8，29]。注意力有助于对不同类型的输入进行总结，从而实现更好的泛化，这可以建立在骨干网络[13，15，20]或特征学习[10]中。然而，注意力的计算成本很大，因此许多方法[41，27，36]是涉及CNN，RNN组合的混合体，并注意平衡效率和有效性。+v：mala2255获取更多论文--≥--4 B号文件。Hu和T. 室分组相关任务。群体活动通常涉及群体成员之间重要的人际关系。群体活动识别旨在估计视频级别的活动标签。在[6，17，30，16]中，RNN用于对每个人的时间关系进行建模HiGCIN[33]中提出了交叉推理块，以捕获共现时空依赖性。在演员Transformer[12]中， Transformer在提取演员级特征后对所有演员进行编码。这些框架令人印象深刻，但不适合我们提出的任务，因为它们不是为帧级估计而设计的。另一个相关的任务是行人轨迹预测[19，22，28，32]。我们的目标是预测未来帧中所有行人的移动轨迹与观察过去的几帧，行人之间的相互作用是重要的线索。RNN[2，7]，基于图形的技术[35]和注意力机制[11，24]已用于此任务。在[40]中，LSTM被用于单个行人建模和基于注意力的状态细化模块，该模块被设计用于捕获不同行人之间的空间关系。基于图形的注意力已经被提出用于空间关系建模[35]，其中图形是基于行人之间的空间距离构建的。这个任务与我们的任务之间的区别在于，前者旨在根据对所有行人的过去观察来预测未来，而我们更关注能够持续预测目标参与者将如何对其他观察到的参与者的行为做出反应的模型。这在具有非常强的耦合相互作用的活动中尤其重要。尽管如此，现有的方法可以应用于我们的任务与微小的修改，如稍后所述。3方法3.1问题定义参与者行为推断和预测是指根据群体中其他被观察参与者的信息，对群体中多个目标参与者的行为进行估计。假设群体中有N个参与者，他们被分成两组，Nobs观察参与者和Ntgt目标参与者，其中N = Nobs + Ntgt。给定具有T个帧的修剪视频剪辑，令x =xi，ti=1：Nobs，t=1：T表示观察到的参与者的行为，其中行为包括位置和动作标签。相应地，y={yi，t}i=1：Ntg t，t=1：T表示目标对象的特性。任务是从目标对象的已知初始状态{yi，1}i=1：Ntgt开始推断和预测{yi，t}i=1：Ntgt，s。估计过程在时间上顺序地进行，其中在时间t处的可观测输入由xi组成，τi=1：Nobs，τ=1：t + K，其中K是超过t的未来的帧的数量。这里，K可以解释为目标参与者在预测其他参与者可能如何行为时的（完美）人类预见水平。作为一个ML问题，K=0对应于参与者的行为预测，而它成为对K1的推理如果K=1，则可以以在线方式执行推理，否则必须离线或延迟。+v：mala2255获取更多论文参与者行为的推断和预测的EF-变换器3.2典型Transformer典型的Transformer由多层编码器和解码器组成。编码器和解码器都涉及三个模块：注意力函数、前馈网络（FFN）和归一化，其中注意力函数是你好。fq（Xq）fk（Xk）TXatt=fodf v（X v）（一）在（1）中，Xq、Xk和Xv分别表示查询、键和值的输入特征图，并且Xatt是输出参与特征图。f（·）是全连接（FC）层，S（·）是输入矩阵的每行上的softmax函数，并且d是Xq和Xk的维度。注意到[26]中的多头注意方案也用于我们框架的所有注意模块，为了简化，在（1）一个典型的Transformer[26]可以适合所提出的任务，因为观察和目标参与者的特征可以被视为两个不同的序列。与机器翻译相比，观察到的参与者序列充当源语言句子，目标参与者序列充当目标语言句子。然而，典型的Transformer具有导致参与者行为推断和预测任务中的误差累积的缺点attention函数（1）在将输入（查询）映射到输出时考虑了其他一些特征（键和值）。从另一个角度来看，注意力功能可以看作是三个条目的总结。与卷积或MLP不同，这三个条目在注意功能中起着不同的作用具体而言，查询是注意函数的基础，而键和值是引用。在推理阶段，解码器的查询来自于前一帧估计，这是不准确的。在有噪声或错误的查询条目的情况下，难以恢复特征并在下一帧中提供相对正确的估计。因此，误差将随着时间的推移而累积，这在开放式任务中可能不那么相关，例如。G.文本生成。3.3入口翻转Transformer为了解决误差积累问题，提出了一种EF-Transformer。在我们的EF-Transformer中，编码器应用时空注意力模块来编码整个剪辑中来自多个参与者的信息与典型的转换器不同由于这并不取决于预测，在前一帧中，它减少了错误的积累。利用空时编码器（ST-编码器）和进入翻转解码器（EF-解码器），所提出的EF-变换器被设计成更多地从观察而不是早期预测逐帧预测目标参与者的行为。+v：mala2255获取更多论文阿森克+归一化FFN+正常化时间自我注意QKV+正常化空间自我注意Q KV克鲁德克+归一化FFN+正常化输入翻转交叉注意QKV阿森克��−��+正常化时空自我注意QKV…��预测EF解码器xL嵌入阿森克��−��,�� :��−你好，��…��预测EF解码器xL嵌入解码阿森克阿森克编码ST编码器xL嵌入不.OOOO--第6 B. Hu和T. 室(a) ST编码器中文��（简体）��(b) EF解码器(c) 预测图二. 提出的EF-T变换器的编码器、解码器和预测过程的框架。为了进行推理，Xenc被送到解码器以估计Yenc。时空编码器ST编码器采用两个自注意函数和一个FFN来将观察到的参与者x的特征映射到编码特征xenc，如图2（a）所示。与单词序列不同，每个视频片段都有空间和时间域。由于注意力函数具有输入大小的二次时间复杂度[26]，因此注意力函数在组合时空域上的时间复杂度为N2T2。为了减少这种情况，对这两个域的注意力被分开处理。空间自我注意将所有参与者之间的关系捕获在一个帧中，其中每个帧独立地发送给空间自我注意。随后，时间自我注意力捕获每个参与者的所有时间帧之间的关系，以获得在t处的关注特征x，使得跨不同时间帧的不同参与者不被直接关注。通过将被观察参与者的自我注意分为两个域，时间复杂度降低到（NT（N+T））。应用掩蔽注意力[26]以避免注意K帧以外的特征。在[26]之后，一个简单的FFN连接到自注意的输出端，以在t处从x获得xenc。进入翻转解码器在解码阶段，引入了EF-解码器模块。这包括自我注意函数、交叉注意函数和FFN。EF-Decoder中的自注意也分为空间域和时间域，与ST-Encoder具有相同的结构。它提供了目标跟踪器的自关注特性。不同于典型的Transformer，建议的EF-解码器中的交叉注意使用编码特征作为查询关键词和值条目是目标参与者的自我关注特征，包括最初观察到的和后来预测的。这在图中示出第2段（b）分段。具体地，当预测帧τ时，}i=1：Natti，τ−1OBS是查询条目，yi，ti=1：Ntgt，t=1：τ−1形成键和值条目。的关键思想是查询仅包含当前帧中的观察到的参与者，其成为下一帧推断或预测的基础键和时空自我注意…………+v：mala2255获取更多论文i，ti，ti，ti，ti，ti，ti，ti，tWHi，tWHi，tWHi，tGi，tSi，ti，t参与者行为的推断和预测的EF-变换器值仅包含过去帧中的目标参与者，形成下一帧推断或预测的参考基础。解码特征ydec来自交叉注意函数上的FFN栈，其与ST编码器相同。进入翻转的理由。为什么我们的方法和典型的Transformer之间的差异很重要？对于NLP翻译，最关键的词通常是最后一个翻译的词。因此，典型的Transformer使用目标语言中的最后翻译的单词作为解码器中的交叉注意的查询条目。然而，在参与者的行为是高度耦合和反应性的场景中，诸如在游戏运动中，用于确定下一帧中目标参与者的行为的最重要线索将不是参与者的过去帧，而是当前帧中其他观察到的参与者的状态。例如，网球运动员的理想运动高度依赖于她的队友和对手的位置变化，而快速的加速度和方向变化意味着该运动员的历史位置作为预测因素并不那么重要。因此，条目翻转更适合于所提出的群体行为推理和预测任务。整个预测框架（图）。2（c））网络包括几个层：i）特征嵌入层，ii）ST编码器层，iii）EF解码器层，以及iv）预测层。功能嵌入。两个FC层分别应用于两种类型的输入，即。e.参与者的2D坐标和动作标签，以映射到更高维度的特征。我们首先将二维坐标（ui，t，vi，t）扩展为一个非线性方程，通过以下方式实现的7D几何特征xgxg=uv，uv，uvR，t/TT，（2）哪里uv=ui，t，vi，t，uvi=ui，t−ui，t−1，vi，t−vi，t−1，紫外线R=ui，t−ui，1，vi，t−vi，1对于宽度为w和高度为h的视频帧，包含绝对坐标，坐标、相对坐标和时间位置，所有这些都被归一化。Gi，t被发送到FC层fg以获得更高维度的几何特征。操作标签首先转换为单热x，然后转换为另一个FC层PEfs。这两种类型的特征在位置编码xi，t之前被级联[26]添加了。因此，参与者的特征是x=<$f（xg），f（xs）<$T+xpe.（四）X（三）+v：mala2255获取更多论文›→ΣΣ××i，ti，t2i，ti，t2第8 B段。Hu和T. 室编码器和解码器。ST-编码器和EF-解码器的L层被堆叠。来自最后一层ST编码器的输出的观察到的参与者的编码特征被用作EF解码器的所有层的查询条目。最后的EF-解码器层输出是为目标参与者的推理和预测做好准备的特征。预测. 预测层提供RNobs×DRNtgt×Dout的映射，其中D是一个帧中一个参与者的特征维度。Nobs个观察到的参与者的特征在推断或预测之前被平坦化。D_out是输出的维度，其对于轨迹估计为2，并且对于动作分类为动作类别的数量。预测层由三个FC层组成，除了最后一层之外，每一层后面都有一个非线性层（在我们的实验中是LeakyReLU）。更多的实施细节可以在补充文件中找到。损失函数。这是应用于轨迹和动作估计的简单L2损失：NtgtT ¨i=1t =2¨¨ ¨L=<$xg*−xg*<$+λ<$xs−x（5）其中xg*不包括xg中的时间坐标t/T的第（2）项。在我们所有的实验中-i，t当λ =0时，1.4实验i，t4.1数据集和数据库在实验中，我们选择了三个具有紧密耦合行为的数据集。网球数据集收集了一个新的网球双打数据集来评估我们的方法。有12个视频的整个双游戏的分辨率为1280 720。总共收集了4905个10帧剪辑，这些剪辑被下采样到2.5 fps并被稳定以去除相机运动。注释了各个级别的边界框和动作标签，每个框的底部中心点表示玩家的空间位置。还估计了球的粗略空间位置。由于当图像被放大时由于极端的运动模糊而难以确定，球是快速行进的，球的位置仅通过两个球员连续击球的位置之间的时空线性插值来粗略估计。网球数据集的详细信息可以在补充材料中找到。在我们的实验中，左上方的玩家被选为目标参与者在测试过程中，而其他三个球员和球被视为观察实体。舞蹈数据集舞蹈数据集[1]包含16个来自Ceilidh舞蹈的俯视图的视频，由两名编舞者表演，其中每个舞蹈由10名舞者表演。每个编舞者的两个视频被选择用于测试，其他的用于培训。原始视频为5 fps，分辨率为640480。这里收集了3754个10帧剪辑动作标签被定义为“站立”、“向左走”、“向右走”、“向上走”、“向下走”和“旋转”。在培训期间没有提供关于编舞的明确信息。S+v：mala2255获取更多论文参与者行为的推断和预测的EF-变换器NBA数据集NBA数据集包含篮球比赛中的球员和球跟踪数据。在预处理期间，帧速率被下采样到6.25 fps，并构建了超过4000个10帧剪辑的子集。由于这个数据集中没有提供动作，我们只是将“防守”和“进攻”作为动作标签分配给球员。在训练中，随机选择一名防守球员作为目标参与者，而在测试中选择列表中的第一名防守球员。这个数据集中的“分辨率”（或法院大小）是100 × 50。行人数据集ETH [19]和UCY [22]数据集通常用于行人轨迹预测。在训练中随机选择目标参与者，并在测试中选择具有最长轨迹的参与者。在所有帧中选择目标行人的四个最近邻居作为观察参与者。我们遵循[14]中的留一法评估。为了评估轨迹推断和预测的准确性，计算了以下两个指标[40]：平均平均位移（MAD）是所有帧上估计和地面实况之间的平均距离。最终平均位移（FAD）是最后一帧的估计值和地面实况之间的距离。此外，分别计算短、中和长轨迹长度的度量，其中在所有样本上统计确定长度阈值，以使每个类别的样本数量均匀。对于动作推断和预测，报告宏F1分数。4.2基线和其他SOTA方法我们在实验中比较了几种方法：基于CNN的方法该框架基于空间和时间卷积层。编码器由2个卷积层组成，而解码器由3个卷积层组成。一个5帧的滑动窗口被应用于输入。基于RNN的方法该框架具有基于两个GRU层的编码器和解码器。在每一帧，编码器的输出在发送到解码器之前与目标参与者的历史数据典型的Transformer。这里的典型Transformer [26]使用ST编码器和典型解码器结构，并将额外的未来掩码添加到编码阶段的注意力功能中。行人轨迹预测方法. [35，40]也是比较的。对它们进行修改以将它们应用于我们的任务：i）在测试阶段为所有帧提供观察到的行人的地面真值，ii）如果K>0，则在目标参与者上采用K帧时移以确保网络具有观察到的参与者的K4.3消融研究在本节中，我们比较几种ST编码器结构。S+T表示并行结构，其中空间和时间的自我注意力分别操作，输出加在一起。S→T和T→S是空间域和时间域顺序不同的序列结构。S×T代表+v：mala2255获取更多论文−10 B. Hu和T. 室图三. EF-Transformer和典型变压器在网球数据集上的轨迹预测结果可视化。白色矩形和轨迹是观察到的粒子。红色矩形是具有红色轨迹的目标参与者，用于地面实况。典型的Transformer和黄色的轨迹预测由我们的方法。请放大查看详情。表1.Tennis数据集上不同ST编码器和预测类型的比较。编码器Pred疯FAD短中期长Avg短中期长AvgS+T18.7031.2744.5128.9332.8951.5669.1547.74T→ SS× T紫外线R19.4919.7231.0132.0545.7143.7329.2929.5335.3136.2850.9654.0969.8167.9048.4349.95S→ TUV40.5250.4262.7348.8936.1149.0564.3346.91乌鲁夫河20.7232.9149.0531.1840.1257.8178.9854.93紫外线R19.4030.0443.0428.3535.3848.6264.2346.43联合计算空间域和时间域上的注意力函数。此外，我们还从（3）中的3个预测分量中评估了不同位置估计器的精度，这些估计器具有重叠冗余。在此，逐帧相对分量uv，结果示于表1中。在这三个组成部分中，紫外线R似乎比其他两个更好地预测。绝对坐标uv的预测比仅仅预测差值更困难然而，预测相邻帧的差异uv_n会遭受误差累积。帧t的输出必须补偿用于预测帧T1中的误差，该误差可导致不稳定的振荡。与并行ST编码器相比，顺序ST编码器除了在短轨迹上外，在其他方面都有更好的性能。这是因为顺序ST编码器的查询基于上述结果，在以下实验中仅报告了uvR4.4弹道推断与预测在这里，我们只关注轨迹估计，因此为目标参与者提供了地面实况动作标签表2显示了网球和NBA数据集上的行为预测和推断结果。对于网球数据集，它+v：mala2255获取更多论文用于推断和预测参与者行为的EF变换器11表2.在网球数据集和NBA数据集上使用基线和SOTA方法进行轨迹推断和预测的比较方法疯FAD短中期长Avg短中期长Avg推理网球基于cnn22.6141.6364.4338.5442.9773.27102.7867.22基于rnn22.6241.2772.8839.7838.0767.86103.4763.01Transformer21.1732.9146.6730.9537.1452.0668.1449.34SR-LSTM[40]21.2234.4655.6033.1941.4958.5090.0857.60STAR[35]20.2835.2155.3633.1636.8657.5290.0155.45EF变压器19.4030.0443.0428.3535.3848.6264.2346.43预测基于cnn22.5841.8171.5739.8038.8470.35105.2664.76基于rnn23.8441.9978.9741.5741.3468.29110.6365.58Transformer20.1433.0950.7031.3335.8552.5571.5749.67SR-LSTM[40]20.4343.8685.8842.3739.1175.36117.4369.25STAR[35]23.8343.8083.6543.2037.8370.61117.1966.50EF变压器19.2430.7141.9828.4434.9750.3662.6046.83NBATransformer1.784.2510.133.992.917.3318.146.93SR-LSTM[40]2.844.7810.534.776.008.9018.639.08STAR[35]4.515.9610.045.925.818.8118.078.86EF变压器1.654.1810.053.892.697.2318.006.75可以观察到，我们的EF-Transformer在比较的方法中实现了最佳性能较长的轨迹提供了更大的风险较大的估计误差，我们的条目翻转机制是有效的限制误差的消除。SR-LSTM[40]的性能受到目标参与者的有限初始地面真值序列的影响，以充分引导LSTM单元状态。此外，目标参与者的估计坐标被发送到状态细化模块，因此观察到的参与者的隐藏状态可能会受到过去估计误差的影响类似地，STAR[35]将所有参与者的空间关系建模在一起，其中观察到的参与者的特征也将与目标参与者的推断特征合并与推断和预测相比，预测对于所有方法都是困难的，因为没有提供被观察参与者的未来信息。这在ten- nis数据集中尤其如此，目标参与者的行为涉及对观察到的参与者的快速反应，通常具有预期的预见性。图3中显示了一些可视化结果，说明我们的方法可以比典型的Transformer预测更好的轨迹。在NBA数据集中，EF-Transformer也优于其他方法，除了长轨迹的MAD，其中STAR[35]仅超过我们的0.01。从表2可以看出，比较方法之间的性能差异小于网球数据集。我们认为，主要原因是在大多数情况下，防守球员只需要跟随相应的进攻球员，这是一个比网球场景更简单的反应，并且通常会导致所有方法在预测过程中出现较小的位移+v：mala2255获取更多论文12B. Hu和T. 室表3. 使用基线和SOTA方法在舞蹈数据集上对1和2个目标参与者的轨迹预测进行比较。方法疯FAD短中期长Avg短中期长AvgNtgt=1基于cnn6.9112.1914.5811.138.6414.4916.8613.22基于rnn8.6015.0920.5214.6110.7117.0820.6916.03Transformer7.2912.7517.3312.359.6314.8319.4314.53SR-LSTM[40]9.5015.6722.4815.7611.5618.1621.8217.05STAR[35]9.2515.3422.3415.5211.7618.9323.7017.99EF变压器6.289.9912.119.397.4210.8312.5610.20Ntgt=2基于cnn7.2412.5514.9911.498.7814.8616.9713.42基于rnn9.2015.7720.9315.1711.5617.7221.4716.79Transformer7.0212.2617.4912.159.3915.5020.0614.86SR-LSTM[40]9.1913.9218.2113.6810.6915.0918.1114.54STAR[35]8.2614.7822.7715.1410.3917.0723.3416.80EF变压器6.8010.1912.239.678.2211.5213.6011.05对于舞蹈数据集，我们评估了具有不同数量目标参与者的预测任务的方法。结果列于表3中。我们的方法优于所有比较的方法。还可以观察到，Ntgt=2的结果与Ntgt=1相当。虽然较少的观察到的参与者可能使预测更加困难，但是在训练期间具有更多的目标参与者可能为网络提供更好的指导，使得更好地学习舞蹈的模式。更多推理任务的结果可以在补充材料中找到。为了评估行人数据集的性能，我们按照[14]为目标参与者提供8帧地面实况，因为行人的行为高度依赖于自我意图，这是一个人结果示于表4中。我们的方法取得了最好的性能比较方法。和以前一样，现有的方法[40，35]没有针对不同的观察和目标参与者的场景进行适当的设计行为预测与1帧观察的目标也进行了评估。结果和可视化可以在补充资料中找到。表4. 行人数据集上基线和SOTA方法的轨迹预测比较。方法性能MAD/FADETH酒店ZaraZARA 2UnivAVGSR-LSTM[40]1.09/1.760.69/1.310.79/1.700.88/1.851.23/2.320.94/1.79STAR[35]1.09/2.850.69/1.410.91/2.081.27/2.921.00/2.180.99/2.23Transformer0.73/1.400.52/0.930.63/1.240.68/1.461.00/1.960.71/1.40EF变压器0.70/1.330.49/0.840.53/1.070.54/1.100.89/1.750.63/1.22+v：mala2255获取更多论文用于推断和预测参与者行为的EF-transformer 13表5. 多任务预测与基线和SOTA方法在舞蹈数据集上的比较。Tr ajn表示轨迹预测的任务，在此期间提供地面实况动作标签。“多 ”表示多任务预测的任务，其中轨迹和动作标签都必须被预测。方法疯FAD短中期长Avg短中期长AvgTrajTransformer7.2912.7517.3312.359.6314.8319.4314.53EF变压器6.289.9912.119.397.4210.8312.5610.20多Transformer7.9114.7319.2413.8210.7717.8621.9416.72EF变压器6.9810.3111.809.638.2811.6512.5110.754.5多任务推理和预测在多任务推理和预测中，同时估计轨迹和动作标签。与之前的实验不同，估计的动作标签被发送到特征嵌入，用于下一帧的推断或预测。我们在这里只与舞蹈数据集上的典型Transformer进行比较。由于动作标签在网球中的观察和目标球员之间非常紧密地耦合，结果表明，两种方法都导致100%的动作分类，并且与表2中的轨迹预测只有微小的差异，因此结果被放置在补充材料中。轨迹预测结果如表5所示。在没有目标参与者的地面真实动作标签的情况下，我们的方法实现了与地面真实输入的结果相当的轨迹预测性能。相比之下，当必须估计目标参与者的动作标签时，典型的Transformer具有较差的性能补充资料中提供了动作预测混淆矩阵。我们的方法和典型的Transformer的宏F1分数是分别为0.99和0.90由于我们的方法能够限制累积误差，因此轨迹和动作预测发生在良性循环中，其中前一步骤中的误差鲁棒性改善了动作分类，这反过来又改善了轨迹预测。这与典型的Transformer形成对比，在典型的transformer中，误差漂移导致较差的动作分类和较大的轨迹预测误差。4.6鲁棒性分析鲁棒性反映了限制误差累积以及从大误差中恢复的能力（例如，G.由于传感故障）。为了评估鲁棒性，一个中间帧的6D预测被[1，1，-1，-1，-1，- 1]的大噪声尖峰代替然后计算FAD以比较方法从尖峰恢复的程度。这个实验是在网球数据集上进行推理任务的，其中尖峰被添加到不同的帧中。表6表明，两种方法都可以在一定程度上从尖峰恢复，注意到最后一帧对早期尖峰的恢复更好。+v：mala2255获取更多论文14 B. Hu和T. 室表6. 网球数据集上FAD的比较，其中噪声涉及不同帧。噪波位置Transformer FADEF-变压器FAD短中期长Avg短中期长Avg无噪音37.1452.0668.1449.3435.3848.6264.2346.43t=3时的噪声75.99103.24141.0699.6737.2356.3784.6554.15t=6时的噪声80.03105.35145.39105.8555.1964.9090.7165.68t=9时的噪声131.76161.07205.26157.81115.93123.30145.31124.29尽管如此，我们的方法比典型的变压器表现得更好。即使在帧9尖峰（倒数第二帧）的情况下，我们的方法4.7限制我们的方法假设一个群体有固定数量的参与者，所有参与者都具有强耦合行为。在E。G. 对于具有不同数量的个体（并非所有个体都具有相关行为）的行人场景，我们需要选择固定数量的最可能相关的个体作为每个目标行人的观测（例如，G. 具有k最近邻滤波）。此外，虽然行人轨迹比网球和舞蹈更平滑，但事实证明，我们的方法预测也更困难这很可能是由于行人之间较少的语音耦合当观测数据不那么丰富时，我们的方法主要是尝试像其他方法一样进行某种形式的航位推算5结论本文提出了一种EF-Transformer算法，用于基于其他观察到的参与者进行目标参与者的行为推断和在我们的解码器中，交叉注意的查询，键和值条目的顺序被翻转，以有效地减少错误积累。EF-Transformer在几个实验中进行了评估，在网球，舞蹈数据集和行人数据集上，它优于所有比较方法。此外，我们表现出优越的鲁棒性噪声尖峰。EF-Transformer的框架可以用于将来学习真实的基于Agent的行为。鸣谢本研究得到了RIE 2020产业联盟基金-+v：mala2255获取更多论文用于推断和预测参与者行为的EF变换器15引用1. Aizeboje，J.：从头顶的摄像头上识别出了Ceilidh舞蹈。爱丁堡大学理学硕士论文（2016）2. Alahi，A.，Goel，K.，Ramanathan，V.，Robicquet，A.，Fei-Fei，L.，Savarese，S.：Social lstm：Human trajectory prediction in crowded spaces.在：IEEE计算机视觉和模式识别会议论文集。pp. 9613. Aliakbarian，M.S.，Saleh，F.，Salzmann，M.，Fernando，B.，彼得森湖，安德斯 - 森， L. ：鼓励地方供应链管理机构尽早采取行动。 IEEEInternational Conference on Computer Vision（ICCV）pp. 2804. 阿梅尔，M.R.，Lei，P.，Todorovic，S.：Hirf：用于视频中集体活动识别的分层随机场欧洲计算机视觉会议（ECCV）pp. 572-585. Springer（2014）5. Azar，S.M.，Atigh，M.G.，Nickabadi，A.，Alahi，A.：用于群体活动识别的卷积关系机。IEEE/CVF计算机视觉和模式识别会议论文集。pp.邮编：78926. Bagautdinov，T.，Alahi，A.，Fleuret，F.，Fua，P.，Savarese，S.：社交场景理解：端到端的多人动作定位和集体活动识别。IEEE计算机视觉和模式识别会议（CVPR）（2017）7. Becker，S.，Hug，R.，Hubner，W.，阿伦斯，M.：Red：一个简单但有效的trajnet基准的基线预测器。在：欧洲计算机视觉会议（ECCV）研讨会上。pp. 08. Carion ， N. ， Massa ， F. ， Synnaeve ， G. ， N.C. ， Kirillov ， A. ，Zagoruyko，S.：使用变压器的端到端对象检测。在：ECCV（2020）9. Carreira，J.，Zisserman，A.：你好，动作识别？新模型和动力学数据集。IEEE计算机视觉和模式识别会议（CVPR）（2017）10. Dosovitskiy，A.，拜尔湖，Kolesnikov，A.，Weissenborn，D.，Zhai，X.，Unterthiner，T.，Dehghani，M.，Minderer，M.，Heigold，G.，Gelly，S.，等：一张图片相当于16x16个单词：用于大规模图像识别的变形金刚。arXiv预印本arXiv：2010.11929（2020）11. Fernando，T.，Denman，S.，Sridharan，S.，福克斯，C.：Soft+ HardwiredAttention：An LSTM Framework for Human Trajectory Prediction and AbnormalEvent Detection（软+硬注意力：人类轨迹预测和异常事件检测的LSTM框架）神

下载后可阅读完整内容，剩余1页未读，立即下载