没有合适的资源?快使用搜索试试~ 我知道了~
1305312多人极限运动预测文国1,2*,晓宇别1*,泽维尔阿拉米达皮内达1,弗朗切斯克莫雷诺诺古尔2 1Inria,大学。Grenoble Alpes,CNRS,Grenoble INP,LJK,38000Grenoble,France2Institutde Robo'ticaiInfor m' tica Industrial,CSIC-UPC,巴塞罗那,西班牙{ wen. guo,xiaoyu.bie,xavier.alameda-pineda}@ inria.fr,fmoreno@iri.upc.edu图1。协作式人体运动预测。第1行:来自ExPI数据集的3D样本网格(仅用于可视化目的)。第二-第四行:MSR[19]、Hisrep[47]和我们的方法的运动预测结果。 深红色/蓝色表示预测结果,浅红色/蓝色表示基本事实。通过利用交互信息,我们的协作运动预测方法比独立预测每个人的运动的方法取得了显著更好的结果。[10]摘要式人类运动预测的目的是通过给出过去的3D骨架序列来预测未来的姿势。虽然这个问题最近受到了越来越多的关注,但对于处于孤立状态的单身人士来说,它大多是被解决的。在这篇论文中,我们探讨了这个问题,当处理人类执行合作任务时,我们寻求预测两个相互作用的人的未来运动,给出他们过去骨架的两个序列。我们提出了一种新颖的交叉交互注意力机制,该机制利用了两个人的历史信息,并学会了预测两个姿势序列之间的交叉依赖性。由于没有数据集可用于训练此类交互式情况,我们收集了ExPI(极端姿势交互)数据集,这是一个新的基于实验室的数据集。* 同工同酬。†本研究得到ANR-3 IA MIAI(anr-19-P3 IA-0003)、ANR-JCJC ML3RI(anr-19-CE 33 -0008-01)、H2020 SPRING的支持(由EC根据GA #871245资助),由西班牙政府与MoHuCo项目PID2020 - 120049 RB-I 00和亚马逊研究奖。我们还感谢Inria Grenoble的Kinovis平台、Inria Grenoble的Laurence Boissieux和Julien Pansiot提供的帮助,以及Nvidia根据学术硬件资助计划捐赠的硬件。感谢杜玉明、杨晓、孟国、阿南德·巴卢、路易斯·艾拉莱提出的建议和讨论。是表演Lindy-hop舞蹈动作的专业舞者的交互数据集,其中包含115个序列,带有30 K帧,并附有3D身体姿势和形状注释。我们对我们在ExPI上的交叉交互网络进行了全面的评估,并表明在短期和长期预测中,它始终优于最先进的单人运动预测方法。"-我们的代码和数据集可在以下网址获得:https://team.inria.fr/robotlearn/multi-person-extreme-motion-prediction1. 介绍性人类运动预测的目标是从先前的观察中预测未来的运动。随着从单个图像进行深度人体姿势估计的成功发展[9,18,27, 37,51,52, 55,56,58,59,67],运动前判决开始引起越来越多的注意[3,8,16,22,23,24]。23,26,29,33,38,43,47,49,50,60]。大多数现有的工作是将运动预测作为一个序列到序列的任务,其中过去对3D骨架数据的观察被用来预测未来的13054骨架运动。所有这些方法的一个共同名称是,它们对待每一个姿势。13055∼序列作为一个独立和孤立的实体:一个人的预测运动只依赖于他/她的过去运动。然而,在现实世界场景中,人与其他人相互作用,并且一个人的运动通常依赖于其他人的运动或与其他人的运动相关。因此,我们可以通过利用这样的人类互动来潜在地提高运动预测的性能。基于这一直觉,在本文中,我们提出了一个新颖的任务:协作运动预测,其目的是联合预测两个强有力地参与互动的人的运动。据我们所知,以前公开可用的3D人体运动预测数据集,如3DPW [67谈话、握手等。在这里,我们更进一步,分析一个人的动作与另一个人的动作高度相关的情况,这在团队运动或工厂的协作装配任务中经常看到。为了推进这项新任务的研究,我们共同选择了ExPI(极端姿势互动)数据集,这是一个专业舞者表演林迪跳空中舞步的大型数据集。为了完成这些动作,两个舞者完成了不同的动作,这需要一个高水平的同步性。这些动作是由极端的姿势组成的,需要两个人之间严格而密切的合作,这对于研究人类的相互作用是非常合适的。这种高度交互的数据集的一些示例如图2所示。我们的数据集包含115个序列的两个专业夫妇执行16个不同的行动。这是记录在一个多视图运动捕捉工作室,和3D姿势和3D形状的两个人是注释的所有30K帧。我们精心创建了训练/测试切片,并提出了用于协作运动预测任务的姿势评估度量的两种不同扩展。为了模拟这种强大的人与人之间的交互,我们引入了一种新颖的交互注意力(XIA)模式,该模式基于标准的多人注意力[64],并同时利用两个人的历史运动数据。对于从事相同活动的一对人,XIA模块从两个人中提取时空运动信息,并使用它们来指导对另一个人的预测。我们全面评估了我们的方法,并将其与为单个人体运动预测设计的最先进方法进行了比较。请注意,在我们的舞蹈动作数据集中,动作是在高速下穿孔的。在这种情况下,长期预测非常具有挑战性。然而,结果表明,我们的方法与我们的方法相比,在很大程度上优于这些方法。短时间(≤500ms)准确度提高10~ 40%,以及长期预测的5~30%准确度imp漂移林迪跳(英语:Lindy Hop)是一对出生于20世纪30(500毫秒)1000毫秒)。我们的主要贡献可总结如下:...• 我们引入了协作运动预测的任务,重点是在高度互动的环境中估计人们的未来姿势。• 我们收集并公开了ExPI,这是一个高度互动的极端舞蹈姿势的大型数据集,并附有3D关节位置和身体形状的注释。我们还通过精心挑选的列车/测试拆分和评估协议定义了基准测试。• 我们提出了一种新的跨交互注意力(XIA)模块的方法,该模块利用两个交互的人的历史运动来预测他们未来的运动。我们的模型可以用作协作式运动预测的基线方法。2. 相关工作2.1. 3D人体运动预测由于人体运动的固有序列结构,3D人体运动预测已经被大量地用递归模型来进行广告宣传。例如,Fragkiadaki等人。[22]提出了一个嵌入人体姿势的编码器-解码器框架,以及一个更新潜伏空间和预测未来运动的LSTM。Jain等人。[33]将人体分解成子部分并通过结构性RNNs将其向前传递。Mar-Tinez等人。[50]它引入了一个残差连接来模拟速度,而不是它们自己的姿势。有趣的是,他们还表明,一个用不同动作训练的模型比那些用单一动作训练的模型表现得更好。然而,尽管RNNs在运动预测方面取得了巨大的成功,但它们却遭受着用固定大小的隐藏状态来包含整个历史的痛苦,并且倾向于收敛到静态姿势。一些工作通过使用RNN变量[15,45]、滑动窗口[10,11]、卷积来解决这个问题。模型[29,30,39]或对抗性训练[26]。由于人体是一个非刚性和结构化的数据,直接将整个人体编码成一个紧凑的潜在嵌入物将忽略人体关节的空间连通性。最后,Mao等人。[49]引入了具有可学习相邻矩阵的前向图卷积网络(GCN)[35,65]。这一方法后来得到了加强,因为人们注意到了一整段历史资料[47]或其中的一部分[41]。最近,通过利用多尺度监测[19]、时空可分图[63]和上下文信息[1,2],进一步开发了基于GCN的方法。在GCN设计术语中,Cui等人。[17]他认为,从划痕中训练相邻矩阵忽略了人类关节的自然连接,并建议使用一个半约束的相邻矩阵,这是一个非常复杂的问题。Li等人。[42]将图形散射网络与手工制作的相邻矩阵- trix相结合。其他作品还利用变换器的使用[64]来取代人体运动预测中的GCN [3,12]。13056ℓℓM→-图2。ExPI数据集的一些示例:带有投影的2D骨架、3D姿势、网格和纹理网格的RGB图像。考虑到人类行为在未来基本上是随机的,一些工作利用了生成性模型(例如,人类行为)。VAEs和GANs)[5,6,13,48,57,70,71,73]。从不-然而,尽管这些模型可以产生不同的未来运动,但当与确定性模型进行比较时,它们的预测准确性仍然需要进一步提高。2.2. 人类互动中的语境信息人类从来没有生活在孤立中,而是与其他人和物体进行着持续的互动。对这种交互和上下文信息进行建模已被证明在3D人体姿势识别主题中是有效的[27,28,34,68,69,72]。背景信息也被证明在预测人类路径选择方面是有益的。[10]为此,最近的工作探索了多代理上下文与社会池机制的使用- anisms [4],基于树的角色对齐[20],软注意力机制[66]和图形注意力网络[31,36,40]。不像轨迹预测问题集中在一个单一的中心点,运动预测的目的是预测整个人类骨骼的动力学。在这种情况下结合上下文信息仍是一个很大的探索。Corona等人。[16]将上下文信息的使用扩展到具有语义图模型的运动预测,但是仅对弱的人与人或人与对象的相关性进行建模。Cao等人。[14]它将场景上下文信息嵌入到运动预测框架中,但没有人与人之间的交互。最近,Adeli等人。[1,2]开发了一个社交上下文感知运动预测框架,其中人与物体之间的交互要么通过社交池建模,要么通过社交池建模。人类数据集可以是单人[32,46,62],也可以是伪3D姿势[53,67]。 与基于实验室的3D数据通常没有密切交互的其他数据集[25,44,53,61]最近,一些工作开始关注上下文信息的重要性,并提出了数据集来模拟合成人与场景的交互[14]。Furthermore,Fieraru等人。[21]使用接触检测感知框架创建了一个人类交互数据集,但该数据集仅包含几个具有轻度人类交互的日常场景,并且尚未及时发布。我们的提交。因此,我们相信我们在这里展示的Expi数据集,其中人们的动作是高度延迟的,填补了当前人类3D姿势/运动数据集中的空白。3. 问题的表述。正如在引言中所讨论的,单人人体运动预测的任务 是 很 好 地 建 立 起 来 的 。Itisde-finedaslearningamap:PtI:t−1Pt:tE来估计未来的 事 件Pt:tE从pre viousobservationPt I:t− 1,其中t I(tE)表示序列的开始(结束)帧,Pt表示时间t处的姿势。在这项工作中,我们将问题公式扩展到两个相互作用的人的协作运动预测。虽然我们的公式是通用的,并且可以适用于任何类型的交互,但为了在整个论文中保持一致性,我们将用分别对应于领导者和追随者的变量和f来表示它(参见数据集描述中的第4节)。因此,协作运动预测任务被定义为学习映射(learning a mapping):图形注意力网络[2]。然而,他们只在2D空间[7]或与弱人类互动[67]中学习。自MC:PtI:t−1PftI:t−1Pt:tEft:tE.(一)在该数据集中[67],大多数动作涉及弱动作,如握手或一起行走[68]。在任何情况下,这些论文都没有探讨我们所面临的情况。这篇论文中的模板,在其中人类做穿孔高由于两个人参与了相同的互动,我们相信有可能通过利用他/她的互动伙伴r的姿势信息来更好地预测一个人的动作。从n或 w on,我们将使用P c=[P l,P f]到t t t t交互式操作。2.3. 数据集使用深度学习方法研究高质量数据集上的3D人体姿势任务相关性。最早的3D表示两个演员在时间t时的联合姿势,而Pt表示他们中的另一个。在本文的以下部分中,我们将为协作运动预测任务提供一个实验性框架,该框架由数据集和评估指标组成。,P13057Mnc-D DDJJJ**图3.巨大性。左:对于不同的操作,标准值在一定阈值范围内的连接的百分比(以不同的颜色表示)。红色越多的股票越极端。右:标准差超过一定阈值的关节的百分比(%)。在这个方向上进行研究。 我们也将介绍--我们已经得到了。 我们认为两种姿势是不同的,给出了我们为此任务提出的方法。如果一个姿势的J关节中至少有一个P这是不同的4. 极限姿势交互数据集。我们提供了极端姿势相互作用(ExPI)数据集,从另一个姿势Pc的对应关节,超出一定公差τ(mm):最大Pc−P> τ,(2)Lindy Hop的新人物互动数据集j ≥[1,J ]m,jn,j选择。在Lindy Hop中,这两个舞者被称为领导者和追随者。我们记录了两对舞者在一个多摄像机设置也配备了一个动作捕捉系统。在本节中,我们将首先描述记录过程,然后对我们的数据集进行全面分析。4.1. 数据集概览数据集结构的定义。ExPI数据集中有16个不同的动作,有些是由两对舞者完成的,有些是由其中一对完成的。每个动作重复五次,以说明可变性。更准确地说,对于每个录制的序列,ExPI提供:(i)来自录制设置中的所有摄像机的25 FPS多视图视频;(ii)与视频同步的25 FPS Mocap数据(每个人 18个关节的3D位置)。(iii)相机校准信息;以及(iv)作为每个帧的纹理网格的3D形状。总的来说,数据集包含115个序列,每个视点有30k个可视帧,并注释了60k个3D实例数据集收集和后处理。数据收集在配备有68台系统同步和校准彩色摄像机的多摄像机平台和配备有20台MOCAP摄像机的运动捕捉系统中。3在收集运动捕捉数据时,由于遮挡或跟踪丢失,系统会遗漏一些点,这是基于实验室的交互式Mocap数据集中的常见现象[21]。为了克服这个问题并检查数据的质量,我们花了几个月的时间手动标记缺失的点。有关数据结构和数据后处理的更多详细信息,请参见补充材料。4.2. 数据分析多样性。类似于Ionescu等人。[32],我们通过检查有多少不同的姿势来分析我们数据集的多样性。2这是Lindy-Hop的标准性别中立术语。3Kinovishttps://kinovis.inria.fr/其中m,n表示数据集中的任意两个姿势。然后,我们将数据集的多样性定义为所有姿势中不同姿势的百分比。根据Ionescu等人的说法。[32]H3.6M4在公差τ分别为50mm和100mm时的多样性分别为24%和12%。虽然相同阈值值的Expi的差异分别为52%和23%,但差异要大得多。巨大性。为了测量一个姿势序列的极值,我们首先计算每个关节的xyz坐 标的 每 个 维数 随 时 间的 标 准差(std)。然后,关节j的极值被定义为它的最大过坐标标准差:εj=max σ x,σ y,σ z。最后,通过计算variousinter als[εmi n,εma x]中联合极值v alues ε n的百分比来评估一个动作的极值。 图3以两种不同的方式报告了与H3.6M相比的ExPI数据集的极值:(i)各种颜色编码间隔上的每作用图报告极值(左);(ii)计算超过特定标准值极值的接头百分比(右)。从两幅图中可以清楚地看出,Expi数据集比H3.6M数据集更为极端。5. 方法[编辑]我们介绍了我们的协作运动预测方法,旨在建立第一个性能基准,以帮助未来的发展。5.1. 管道系统我们的方法的想法是学习两个人特定的运动预测映射,并提出一种策略来共享这两个映射之间的信息。包括来自所涉及的其他人的信息的可能性4H3.6M 数 据 集 的 许 可 证 http ://vision 。 伊 马 尔 。ro/human3.6m/eula.php13058{}i=1图4。左:建议方法的计算流程图。实施了两个并行管道-用于领导者和追随者。 键值对由XIA模块细化(我们只是为第一个子序列可视化XIA模块,而对于后面的子序列则是相同的)。右:交叉交互注意力(XIA)模块。为了在相应交互信息的帮助下改进w,wint. 多个头的注意力是由w int.想要的,并把它作为关键和价值。在交互过程中,它应该推动网络学习更好的运动预测表示法。总体管道如图4-左侧所示。[10]对于两个人的运动预测映射,我们从[47]中汲取灵感,使用注意力模型来学习时间注意力w.r.t.过去的运动,和一个基于图卷积网络(GCN)的预测器[35],以模型的空间注意力沿关节使用adja-cency矩阵。时间注意力模型旨在通过测量最后观察到的子序列与一组过去的子序列之间的相似性来找到过去中最相关的子序列。在此注意力模型中,查询个人、追随者和领导者。我们自然地将协作式人类运动预测任务分解为学习如何在用Q查询时联合利用(Ki,Vi)中的信息来预测每个人的运动。我们的直觉是,一个人的姿势信息(键值对)可以用来转换另一个人的姿势信息,以获得更好的运动预测。我们在提出的跨交互注意力模块的帮助下实现了这一直觉。这样一个模取作为输入w和来自交互姿势wint的相应向量。,并使用多头自我注意来获得重新细化的v向量w′(见图4-右侧):Q是从最后一次观测Pt−1− M:t− 1中通过MLP学习到的(blue图4中的虚线矩形-左,长度M)。 Thew= XIA(w)国际。(w)=FC(MHA(w)国际。(w)+(w),(3)密钥Ki由MLP从子序列Pti:ti + M的起始块中学习(图4中的红色虚线矩形-左,长度M)。并且值Vi由从子序列Pti构建的DCT表示组成:ti + M + T(图4中的黑 色 虚 线 矩 形 - 左 , 长 度 M + T ) , 其 中 ti 与i1,. . .,N表示每个过去子序列的开始帧。\n\n为每个演员单独训练这样的策略并不占两个舞蹈伙伴之间的任何互动。为了解决这一问题,我们设计了一个基于多人注意力的跨参与度(XIA)模块,以指导参与者的行为。在下一节中,我们将介绍此XIA模块。其中MHA(q,k,v)表示具有查询q、键k和值v的多头我们使用不同的XIA模块来更新第5.1节中提到的键和值:在我们的实现中,键的XIA模块有8个注意头,值的XIA模块有一个注意头。此外,我们为MHA模块添加了一个跳接连接,随后是2个FC层。领导者/追随者的XIA模块不共享权重。如图4所示,所提出的XIA模块被集成到计算流的各个阶段。更准确地说,我们改进了所有键:K− =XIA(K,Kf),K−f =XIA(K f, K),(4)I I II II5.2. 交叉交互注意力(XIA)XIA的目标是在两个预测器之间共享运动信息。特别地,我们表示查询和密钥-类似地,对于值。XIA可以潜在地推广到任何数量的参与者,通过考虑其他几个XIA模块和Q和{Ki,Vi}N对一个人的值对-融合他们的输出,或在输入上执行融合并且使用superscriptf和来指示XIA模块的二。13059JMEAME∼∼UUccAAccWWW,TTPw,tW,TUUAA表1.用两个评价指标对共同份额进行分割的结果(单位:mm)。较低的值意味着更好的性能。显然,我们的建议在JME和AME上都优于所有其他方法。动作A1 A型框架A2 Ar周围背面A3库奇A4 青蛙经典版A5 NoserA6掷出A7车轮组AVG时间(秒)0.2 0.4 0.6 1.0 0.2 0.4 0.61.00.2 0.4 0.6 1.0 0.2 0.4 0.6 1.0 0.2 0.4 0.6 1.0 0.2 0.4 0.6 1.0 0.2 0.4 0.6 1.0 0.2 0.4 0.6 1.0Res-RNN [50] 83 141 182 236 127 224 30543399 177 239 350 74 135 182 250 87 152 201 271 93 166 225 321 104 189 269 414 95 169 229 325有限公司[49]70 125 157 189 131 242 321426102 194 260 357 62 117 155 197 72 131 173 231 81 151 200 280 112 223 315 442 90 169 226 303[47]第47话52 103 139 188 96 186 25634957 118 167 240 4593 131 180 51 105 149 214 61 125 176 252 71 150 222 333 62 126 177 251MSR [19]56 100 132 175 102 187 25636565 120 166 244 5095 127 172 54 100 138 202 70 132 182 258 82 154 218 321 69 127 174 248我们的4998 140 192 84 166 23434651 105 154 234 4184 120 161 4390 132 197 55 113 163 242 62 130 192 291 55 112 162 238Res-RNN [50] 59 102 132 167 62 112 15222957 102 139 215 4885 113 157 5190 120 167 5394 126 183 74 131 178 265 58 102 137 197有限公司[49]5192 116 132 5191 1161484380 103 130 387089 111 397090 116 427594 123 52 101 139 198 4583 107 137[47]第47话346997 130 4484 115150326591 121 275682 112 285885 121 346688 115 4283 120 171 346997 131MSR [19]417599 126 5496 129180417498 135 346182 106 335979 109 427193 124 57 103 146 210 4377 104 141我们的326899 128 4182 116163295884 116 24507396245175 109 316286 114 4181 115 160 326593 127图5. 左图:我们的方法与不同最先进方法相比的改进百分比,以不同预测时间下普通股分割时的平均JME误差为衡量标准。较低的值意味着更接近我们的模型的性能。我们的方法在短期内超过这些方法1040%,在长期内超过530%。右图:JME对我们的方法在Hisrep [47]和MSR [42]上的联合改进(mm)。更深的颜色意味着更大的改进。5.3. 姿势标准化Expi的原始姿势以世界坐标表示。与单个人运动预测类似,我们通过虽然我们的任务目标不仅是预测两个人的不同姿势,而且还预测两个人的相对位置,但我们必须对同一个人进行归一化,以保持他们相关姿势的信息。我们可以按领导者/追随者进行规范化,我们选择按领导者进行规范化,以获得更好的可视化效果。具体地说,对于每一帧,我们取引线的根关节(两个引脚的中间)作为坐标原点,使用引线的根点和左引脚来定义x轴,并使用引线的颈部来确定XOZ平面。我们不将两个人的所有关节映射到这个坐标上,然后可以直接在这个坐标上计算姿势误差。更准确地说,我们代表了世界坐标中的原始姿势。n为P w该书{P,Pf}和TP这是刚性变形-将两个行动者与领导者的协调系统对齐6.1. 拆分Expi数据集的步骤如章节中所述。 4.1,我们在Expi数据集中记录了16项行动。它们中的七个是被两个对中的两个刺穿的共同行为(A1到A7):我们将它们表示为1被对1刺穿,2被对2刺穿。其他动作是特定于对的,仅由一个对执行:我们将由对1(A8到A13)执行的动作表示为A 1,将由对2(A 14到A 16)执行的动作表示为A1。作为A2。使用这些符号,我们提出了三个数据拆分。共同行动分裂。类似于[32],我们将不同行为者对执行的共同行为视为训练和测试数据。更准确地说,2是训练数据集,1是测试数据集。因此,训练和测试数据包含相同的动作,但被不同的人破坏。单动拆分。类似于[22,33],我们通过将来自耦合2的一个动作作为训练集,将来自耦合1的相关动作作为测试集,分别为每个共同动作训练7个动作特定模型。看不见的动作分裂。 列车组是整个通信组--tem。归一化坐标为thusP=T P P,12tw,t w,t我的动作{Ac,Ac}。我们关注的是额外的情侣。P f=T P f. 在followingP将是一个lw天代表。动作{A1,A2}作为看不见的动作,并将它们用作我们的动作对未另行指定的标准化姿势感到不满。6. 实验评价本节描述了ExPI的实验方案,并讨论了我们提出的方法的结果。测试集。因此,培训和测试数据包含两对演员,但测试动作不用于培训中。综上所述,常见动作分割是为不同动作的单一模型而设计的,单一动作分割是为动作导向模型而设计的,而看不见的动作分割则侧重于测试看不见的动作以测量方法的推广。13060AMEJME∼∼L LL2表2使用两个评价指标(mm)对单个动作进行分割的结果。较低的值意味着更好的性能。七个动作智慧的模型是独立训练的。我们的方法在5个动作中表现最好,在另外2个动作中接近最好。动作A1 A型框架A2在后面A3库奇A4青蛙经典A5 NoserA6掷出A7车轮组时间(秒)0.2 0.4 0.6 1.0 0.2 0.4 0.61.00.2 0.4 0.6 1.0 0.2 0.4 0.6 1.0 0.2 0.4 0.6 1.0 0.2 0.4 0.6 1.0 0.2 0.4 0.6 1.0Res-RNN [50] 75 131 171 226 122 215 28740397 174 235 329 73 131 177 246 76 136 184 255 100 184 252 357 88 162 219 293有限公司[49]70 126 155 183 131 243 312415102 194 252 338 62 117 153 203 71 131 171 231 81 151 199 299 112 223 306 411[47]第47话66 118 153 190 128 231 30841774 143 205 295 64 120 159 191 63 121 166 227 90 168 232 312 88 166 232 332MSR [19]64 108 136 171 119 210 28238579 144 189 265 59 103 134 173 65 118 162 225 86 151 201 283 96 178 255 362我们的64 120 160 199 109 200 27538159 117 174 277 60 116 162 209 53 106 152 221 65 122 166 223 74 144 203 301Res-RNN [50] 5699 129 163 61 110 1502295396 131 188 4681 106 142 4479 106 147 53 100 162 176 70 133 163 198有限公司[49]5193 114 127 5191 1161624380 100 126 387088 118 397090 125 427593 123 52 101 137 188[47]第47话4583 106 118 57 102 1351783972 100 132 4177 103 119 357097 125 4682 107 137 4890 121 169MSR [19]467998 118 60 107 1411924886 111 150 396888 111 396991 121 5593 117 156 66 118 163 222我们的4384 115 131 5399 136185356898 140 3774 106 128 295986 125 397294 119 4382 112 1526.2. 评估指标[编辑]在姿势估计和运动预测任务中用于评估3D关节位置的最常用度量是每个关节位置的平均误差MPJPE(P,G)=6.3. 实施的详细信息由于这是第一次在文献中提出合作运动预测任务,因此没有可用的方法来与之进行比较。所以我们选择了4个代码-1ΩJJPj−G j j,其中J是连接数,Pj发布了最先进的单人运动的方法......预测[19,47,49,50],并实施其发布而Gj是联合的估计和地面真实位置。J .在MPJPE的基础上,我们提出了两种不同的度量标准来评估多人运动任务。联合平均误差(JME):我们提出联合平均每关节位置误差来测量不同人在同一坐标上的姿势,为了简单起见,将其表示为JME:JME(P,G)= MPJPE(P,G),(5)其中P和G被归一化JME为协作运动预测的性能提供了一个总体的想法,它将两个相互作用的人视为一个整体,测量他们的姿势误差和他们的相对位置误差。对齐平均误差(AME):我们提出了每个关节位置误差的对齐平均值,以测量没有位置偏差的纯姿势误差。我们首先通过对两个人之间的相对位置进行标准化,分别得到P,G,从而消除了两个人之间相对位置的误差。H或w ev erP的准确性主要受用于终止坐标的连接点(髋关节和背关节)的影响。为了减轻这种影响,我们使用Procrustes肛门分析计算了估计姿势和真实地面之间的最佳刚性对齐TA [24]AME(P,G)=MPJPE(TA(P,G),G),(6)其中P该书[P,P f]是独立归一化谓词。P=T P和Pf =TfP f,而TP是非r-Expi数据集上的代码5。为了公平的比较,所有这些模块都是用50帧的输入训练的,分别为领导者和追随者训练/测试。我们训练了25个历元的模型,并计算了10个预测帧的平均MPJPE损失。当数据被前导值非线性化时,相应的分支收敛得更快,因此我们通过用历元数指数地向下加权前导值的损失来补偿,使用丢失的功能:=f+10−l,当预测更长的地平线时,我们使用预测的地平线。运动作为预测未来运动的输入。受[47]的启发,我们为每个序列取64个子序列,以减少测试结果的方差。总的来说,我们有7K和2。3 k个子序列分别用于训练和测试普通动作分割和单动作分割,以及12k/2。9k训练/测试样本在看不见的行动分裂。6.4. 结果和讨论结果共同行动分裂。表1报告了普通股拆分的结果。我们注意到,我们提出的方法在所有操作、所有指标和不同测试时间下的性能几乎系统地优于其他方法。在图5-左中,我们计算了与最先进的方法相比,我们的方法的改进百分比,并发现我们大大超过了这些方法,达到了最高水平。10短期内为40%,短期内为5长期为30%。我们进一步将我们的每关节结果与图5右侧的Hisrep [47]和MSR [19]进行比较,并注意到我们提出的方法在几乎所有关节上都获得了更好的结果。更重要的是,四肢的关键点(手臂的关节)T PTTT PTT和腿)是大大改进的。这是合理的,因为-根据第5.3节中定义的姿势P计算的恶意转换。同样的计算也适用于人与人之间的相互作用大多是通过四肢来的,而躯干上的关节对它的影响很小。地面真相G。此标准化仅用于evalua-目的是。我们使用的所有代码都在MIT许可证下。j=113061AMEJME**表3.用两个评价指标(单位:mm)对看不见的动作进行动作分割的动作效果。较低的值意味着更好的性能。我们的方法仍然在大多数看不见的行动和平均结果上表现最好。动作A8A9A10A11A12A13A14A15A16AVG时间(秒)0.20.61.00.20.61.00.20.61.00.20.61.00.20.61.00.20.61.00.20.61.00.20.61.00.20.61.00.20.61.0Res-RNN [50]239 312 371193 256 303189 257 310305 425 520215 289 348165 214 252214 293 357149 187 210167 226 277204 273 327有限公司[49]239 324 394175 226 259148 191 220176 240 286143 178 192146 193 226252 333 387174 228 264139 184 217177 233 272[47]第47话195283 358121 169 20692129160129 193 24580 104121112 154 187157 219 257134 190 23396 146 187 124176 218MSR [19]297 368 451250 317 395173 231 303241 335 416280 345 449158 195 246173 231 28995 117 134 153 216 268202 261 327我们的191287 377118 165 20391 129162122 183 23281107128106 150 185156 216 256126 175 21396 152 205121 174 218Res-RNN。[50]124 165 195125 157 181131 166 189148198240149 169 192102 128 147181 237 279100 129 14493124 147 128 164 190有限公司[49]95 123 14685106 1167491 10186115 13798125 13485110 124 106 136 15591119 1357296 11688113 129[47]第47话101 144 1766182 944967 8073105 1295373 8664891048612014273104 12854821046896116MSR [19]377 463 315360 467 308260 276 212158 191 211524 699 344212 245 167262 232 2306786 98116 133 142258 308 225我们的95 137 1715880 935170 8470 105 1345373886388 10482 116 1426997 1205279 1046694 116表4。消融术。’mix /cat /sep’ "w.o. XIA'表示训练领导者和追随者在没有XIA模块的情况下使用我们定义的损失并行;'XIAkqv/kq/kv/v'使用XIA模块更新临时注意力的键、值和查询,或者只是其中的一些。JMEAME时间(秒)0.20.40.60.81.00.20.40.60.81.0混合691321852332714177104126142猫61123176223262377199121138SEP62126177218251346997116131w.o. 夏58120174217249336898118131XIA kq58118169211245336795114128XIA kqv57117170215251326595116131XIA v56116168210244326694113127XIA KV55112162204238326593112127交叉交互注意力可以提高四肢的准确性,而不是躯干的准确性。我们也不能对通常在空中飞行的跟随者的脚做出很大的改进,这表明我们的方法对于这些极端的高动态关节甚至更有效。单动作分割和看不见的动作分割。我们还报告了我们提出的方法,报告了关于无形行动分裂和无形行动分裂的结果。对于单动作分割,XIA在动作特定模型上也表现出了最先进的方法,如表2所示。有趣的是,我们观察到单动作分割的性能比普通动作分割的相应结果更差,这意味着不同动作的训练有助于为这个非常具有挑战性的协作极限运动预测任务调节网络。关于表3中所示的看不见的动作分割,我们可以看到XIA仍然在大多数动作上超越了最先进的方法,证明了我们方法的鲁棒性。定性结果。- 图1显示了一些示例我们的可视化结果与Hisrep等人进行了比较。[47]MSR [19]和地面真相,在共同行动分裂。我们可以看到,与其他
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功