深度度量学习用于人类运动相似性的评估与传统方法相比有显著改进

15 浏览量更新于2023-10-13 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于深度度量学习的Huseyin Coskun1，*，David Joseph Tan1，2，*，Sailesh Conjeti1，Nassir Navab1，2，and Federico Tombari1，21TechnischeUni versitaütMuünchen，German y2Pointu3D GmbH，德国抽象。有效地测量两个人的运动之间的相似性是必要的一些计算机视觉任务，如步态分析，人识别和动作检索。然而，我们认为，传统的方法，如L2距离或动态时间扭曲的基础上手工制作的本地姿势度量未能适当地捕捉跨运动的语义关系，因此，不适合被采用作为这些任务内的度量。这项工作通过专门针对处理人类运动数据的基于三元组的深度度量学习来解决这一限制，特别是由于运动对对齐而导致的不同输入大小和计算昂贵的硬否定挖掘的问题。具体而言，我们提出了（1）一种基于三元组架构和最大均值差异的新型度量学习目标;以及（2）一种基于专注递归神经网络的新型深度架构我们的目标函数的一个好处是，它通过相关联的分布矩在不同运动类别的学习嵌入空间内实施更好的分离与此同时，我们的专注递归神经网络允许将不同大小的输入处理为固定大小的嵌入，同时学习专注于语义上独特的运动部分。我们在两个不同的数据集上的实验表明，与传统的人体运动指标相比，有了显着的改进。1介绍在基于图像的人类姿势估计中，两个预测姿势之间的相似性可以通过常规方法精确地评估，所述常规方法评估对应关节位置之间的然而，当必须跨帧的时间集合比较人类姿势时，对姿势或运动的两个序列之间的相似性的评估实际上，人类运动通常在不同序列上以不同方式演变，这意味着特定姿势模式倾向于在表示相同人类运动的序列上的不同时刻出现：参见，例如，图中的前两个序列1，它描述了两个行动是-渴望同一类。此外，这些序列还导致不同的长度（即，不同数量的帧），这使得定义了一般的相似性度量* 平等贡献2H. Coskun，D.J. 谭，S.Conjeti，N.纳瓦布F.通巴里相似性度量Fig. 1. 当被要求测量与查询序列的相似性（“Walking”，顶部）时，两个 L2和DTW测量将不相关序列（“站立”，底部）判断相反，我们学习的度量能够捕获上下文信息并正确地测量与给定标签的相似性。更复杂.然而，尽管具有挑战性，估计跨序列的人体姿势之间的相似性是人体运动分析任务中所需的步骤，例如动作检索和识别，步态分析和基于运动的人识别。用于比较人体运动序列的常规方法基于估计L2位移误差[23]或动态时间规整（DTW）[42]。具体地，前者计算在特定时间t处两个序列中的对应关节之间的平方距离。如Martinez等人所示。[23]由于在序列上重复的恒定姿态可能比具有不同时间演变的视觉上相似的运动更好地匹配参考序列，因此另一方面，DTW试图通过经由压缩或扩展来扭曲两个序列以最大化局部姿态之间的匹配来缓解这个问题然而，如[18]中所示，当在峰值和平台方面的运动动态表现出小的时间变化时，DTW可以容易地在适当地估计相似性方面作为一个例子，图图1示出了DTW在测量三个人体运动之间的相似性时的典型失败情况。尽管前两个运动在视觉上彼此相似，而第三个运动与它们无关，但DTW估计第一序列和第三通常，DTW和L2度量都不能全面地捕获两个序列之间的语义关系，因为它们忽略了上下文信息（在时间意义上），这限制了它们在上述场景中的应用。这项工作的目标是引入一种新的度量估计两个人体运动序列之间的相似性。我们的方法依赖于深度度量学习，该深度度量学习使用神经网络将高维数据映射到低维嵌入[31，33，35，45]。特别是，我们的第一个贡献是设计一种方法，以便在学习的嵌入空间中的附近位置映射语义相似的运动这允许网络表达强烈依赖于运动的语义和上下文信息的相似性度量为此，我们采用了一种基于最大平均差异（MMD）[14]的新型目标函数，该函数基于运动的分布矩强制嵌入相对于标准的三重损失学习的主要优点是，我们的方法基于分布而不是样本，不需要硬负挖掘来实现。查询遍历步行站基于深度度量学习的3收敛，这在计算上是昂贵的，因为在人体运动数据集中找到硬负需要序列对的比对，其具有O（n2）复杂度（n是序列长度）。作为我们的第二个主要贡献，我们设计了一种基于注意递归神经网络（RNNs）的新型深度学习架构，该架构利用注意力机制将任意输入大小映射到固定大小的嵌入，同时选择性地关注运动的语义描述部分。我们的方法的一个优点是，与DTW不同，我们不需要出现在两个序列上的运动模式的任何显式同步或对齐，因为运动模式通过深度度量学习进行隐式和语义匹配此外，我们的方法可以自然地处理不同大小的输入由于使用的循环模型，同时保留独特的运动模式的注意机制。一个例子如图所示。1，将我们的相似性度量与DTW和L2进行比较。我们验证了我们的方法的任务的有用性动作检索和基于运动的人识别的两个公开可用的基准数据集。所提出的实验表明，显着改善传统的人体运动相似性度量。2相关工作在最近的文献中，基于图像的深度度量学习已经被广泛研究。然而，只有少数作品专注于时间序列数据的度量学习，特别是在这里，我们首先回顾了人体运动的度量学习方法，然后跟进了深度度量学习的最新改进。时间序列和人体运动的度量学习。我们首先回顾时间序列的度量学习方法，然后只关注与人体运动分析相关的工作时间序列方法的度量学习的早期工作在两步过程中测量相似性[4，9，30]。首先，模型确定两个时间序列之间的最佳对齐，然后基于对齐的序列计算距离通常，该模型通过DTW测量找到最佳对齐，首先考虑所有可能的对齐，然后基于手工制作的局部度量对其进行排名。这些方法具有两个主要缺点：首先，该模型产生O（n2）的复杂度;其次，最重要的是，局部度量很难捕捉高维数据中的关系。为了克服这些缺点，Meiet al. [25]建议使用LogDet散度来学习可以捕获高维数据中的关系的局部度量。Che等人[5]通过使用前馈网络学习局部相似性来克服手工制作的局部度量问题。虽然所提出的方法[5，25]学习在时间t测量两个给定时间序列之间的相似性，但两个时间步长之间的此外，找到最佳比对需要搜索所有可能的比对。为了解决这些问题，最近的工作集中在确定一个低维嵌入来衡量时间序列之间的距离为了实现这一目标，Peiet al. [29]和Zhenget al. [46]使用了一个从成对输入中学习的连体网络。而Peiet al. [29]通过最小化二进制交叉熵来训练他们的网络，以预测两个给定的时间序列是否属于同一个集群，Zheng等人。[46]建议最小化基于4H. Coskun，D.J. 谭，S.Conjeti，N.纳瓦布F.通巴里邻域成分分析（NCA）[32]。这些方法的主要缺点是连体架构通过仅考虑所提供的输入对之间的相对距离来学习嵌入。至于用于人体运动分析的度量学习，它们大多集中于直接测量沿着两个序列的对应姿势之间的相似性Lopez等人[22]提出了一种基于[10]的模型，以学习两个给定人体姿势的距离度量，同时通过隐马尔可夫模型（HMM）[11]对齐运动。Chen等人[6]提出了一种半监督学习方法，建立在手工制作的几何姿态特征上，并通过DTW对齐。通过在学习中同时考虑姿态相似性和姿态对齐，Yin等人。[44]提出了学习姿态嵌入与自动编码器训练与对齐约束。值得注意的是，这种方法需要基于DTW的初始对准。这些方法的主要缺点是它们的准确性严重依赖于由HMM或DTW提供的准确的运动对准，这在计算上是昂贵的，并且在许多情况下容易失败。此外，由于学习过程仅考虑单个姿势，因此它们缺乏捕获整个运动的语义。深度度量学习的最新改进。深度网络的度量学习始于最小化对比损失的连体架构[7，15]。Schroff等人[33]建议使用三重损失来学习面部识别和验证的嵌入，表明它比对比损失学习特征更好由于他们进行硬否定挖掘，当训练集和不同类别的数量增加时，搜索硬否定变得计算效率低下。从那时起，研究主要集中在仔细构造批处理和使用批处理中的所有样本。Song等人[36]提出了用于训练的提升损失，因此在一个批次中使用所有样本。在[35]中，他们进一步发展了这个想法，并提出了一个n对损失，它使用一批中的所有负样本。其他基于三元组的方法是[26，40]。在[31]中，作者表明，最小化在单个对或三元组上计算的损失函数并不一定会强制网络学习代表集群之间上下文关系的特征磁铁损失[31]通过学习比较分布而不是样本的特征来解决其中的一些问题。每个聚类分布由通过k-均值算法获得的聚类质心表示。这种方法的一个缺点是计算集群中心需要中断训练，这减慢了过程。Proxy-NCA [27]通过设计一种网络架构来解决这个问题，磁体损耗和代理-NCA均使用NCA [32]损耗来比较样本。重要的是，它们都表示具有簇质心的分布，簇质心不传达实际类别的足够的上下文信息，并且需要设置预定义数量的簇。相比之下，我们建议使用基于MMD的损失函数[14]，它依赖于不需要显式确定或学习聚类质心的分布矩。3人体运动的度量学习目标是学习用于人体运动序列的嵌入，使得两个人体运动序列之间的相似性度量X：={X1，X2，...，n}，并且基于深度度量学习的5Y：={y1，y2，…y m}（其中x t和y t表示在时间t的姿态）可以直接表示为嵌入空间中的平方欧几里德距离。在数学上，这可以写成d（f（X），f（Y））=f（X）−f（Y）2（1）其中f（·）是将可变长度的运动序列映射到欧几里得空间中的点的学习的嵌入函数，并且d（·，·）是平方欧几里得距离。度量学习的挑战是找到运动嵌入函数f，使得距离d（f（X），f（Y））应该与运动嵌入函数f的相似性成反比。两个序列X和Y。在本文中，我们通过深度学习模型来学习f训练损失函数（定义见第4）其源自MMD与三联体学习范式的整合此外，它的架构（描述在Sec.5）基于注意递归神经网络。4损失函数遵循标准的深度度量学习方法，我们通过在X和Y属于同一类别时最小化距离d（f（X），f（Y））来对嵌入函数f进行建模，否则将其最大化。学习f的传统方法是训练具有对比损失的网络[7，15]L1 12对比度=（r）2d+（1−r）2[max（0，αmargin−d）]（二）其中r∈ {1，0}表示X和Y是否来自同一类别，αmargin定义了不同类别样本之间的裕度在训练过程中，对比损失会惩罚不同类别样本比αmargin和当相同类别样本的距离大于零时。该等式表明，对比损失仅考虑样本之间的成对关系，因此仅部分利用类别之间的相对关系相反，三元组学习通过同时考虑三个样本来更好地利用这种关系，其中前两个样本来自同一类别，而第三个样本来自不同的类别。值得注意的是，已经表明，利用类别之间的相对三元组损失强制相对于来自不同类别的样本以给定的边缘距离嵌入来自相同类别的样本。如果我们将三个人体运动样本表示为X、X+和X-，则常用的排名损失[34]采用以下形式：L三重态= max（0，f（X）−f（X+）2−f（X）−f（X−）2+αmargin）（3）其中X和X+表示来自同一类别的运动样本，X−表示来自不同类别的样本。在文献中，X，X+和X−通常分别被称为锚点，正样本和负样本[31，33，35，45]。然而，三重态损失的主要问题之一是三重态的参数化。α裕度我们可以通过使用邻域分量分析来克服这个问题6H. Coskun，D.J. 谭，S.Conjeti，N.纳瓦布F.通巴里2 2 ′′JJ分析（NCA）[32]。因此，我们可以使用NCA将损失函数写成exp（−f（X）−f（X+）2）LNCA=ΣX−∈C exp（−f（X）−f（X−）2）（4）其中C表示除阳性样本之外的所有类别。在理想情况下，当迭代样本的三元组时，我们期望来自相同类别的样本将被分组在嵌入空间中的相同聚类中。然而，已经表明，大多数形成的三联体是没有信息的，访问所有可能的三联体组合是不可行的。因此，该模型将仅使用几个信息三元组进行训练[31，33，35]。可以通过选择难以区分的那些阴性样本（硬阴性挖掘）来制定直观的解决方案，尽管在运动序列数据集中搜索硬阴性样本在计算上是昂贵的。与使用三重丢失相关的另一个问题是，在单次更新期间，仅评估阳性和阴性样本根据它们在嵌入中的相对位置：因此，样品可以接近地结束其他类别[35]。我们通过推/拉集群分布，而不是推/拉单个样本，通过一种新的损失函数，称为MMD-NCA和下面描述的，这是基于类别的分布差异，解决了上述问题。4.1MMD-NCA假设给定两个不同的分布p和q，MMD的一般公式测量p和q之间的距离，同时取希尔伯特空间中的均值嵌入的差，写为MMD[k，p，q]=µq−µp=Ex，x′[k（x，x）]−2Ex，y[k（x，y）]+Ey，y′[k（y，y）]（5）其中x和x′是从p画出的IID，而y和y′是从q画出的IID，并且k表示核函数′k（x，x）= ΣKq=1′kσq（x，x）（6）其中kσq是具有带宽参数σq的高斯核，而K（核数）是超参数。如果我们替换给定样本的期望值，我们得到MMD[k，X，Y]2=1ΣM22000年2月k（xi，x′）−MN1Σnk（xi，yj）+n2Σnk（yi，y′）i=1j =1i=1j=1i=1j=1（七）其中X：={x1，x2，. . . Xm}是来自P和Y：={yi，y2，. . . 是来自q的样本集。因此，（7）允许我们测量两个集合的分布之间的距离M基于深度度量学习的7J(a) 架构（b）注意LSTM（A-LSTM）图二. （a）序列远程学习的拟议架构。(b)所提出的基于注意力的模型使用层规范化。我们制定了损失函数，以迫使网络减少锚样本分布与正样本分布之间的距离，同时增加与负样本分布之间的距离。因此，我们可以针对给定数目N的锚定阳性样本对重写（4作为{（X1，X+），（X2，X+），. . .，（X N，X+）}和N×M个阴性样本，1 2N−不同类别C ={c1，c2，. . . ，c M}作为{Xc1，1，Xc1，2，. . . ，Xc1，N，. . . ，XcM，N};然后，exp（−MMD[k，f（X），f（X+）]）LMMD-NCA=ΣM-（8）j=1exp（−MMD[k，f（X），f（Xcj）]）其中X和X+表示来自相同类别的运动样本，而X。表示来自类别c，j∈C的样本。我们的单次更新包含从训练数据中随机采样的M个不同的由于所提出的MMD-NCA损失最小化了嵌入中不同类别分布之间的重叠，同时保持来自相同分布的样本尽可能接近，因此我们相信它比三重态损失更有效我们证明了这一点定量和定性在第二节。7.第一次会议。5网络架构我们的架构如图所示二、该模型有两个主要部分：双向长短期记忆（BiLSTM）[16]和自我注意机制。使用长短期记忆（LSTM）[16]的原因是为了克服递归神经网络的消失梯度问题。在[12，13]中，他们表明LSTM可以捕获长期依赖关系。在接下来的部分中，我们简要描述了层规范化机制和注意力机制，在我们的架构中使用。锚积极负MMD-NCALNLSTMLNLSTMLNLSTMLNLSTMLNLSTMLNLSTMLNLSTMLNLSTML2范数BN+脱落+FCSelf-AttentionBN+辍学A-LSTMA-LSTMA-LSTMBN+脱落+FCBN+FC8H. Coskun，D.J. 谭，S.Conjeti，N.纳瓦布F.通巴里ΣH5.1层规范化在[7，26，27，36]中，他们已经表明批量归一化对三重模型的准确性起着重要作用。然而，将其直接应用于LSTM架构可能会降低模型的准确性[19]。因此，我们使用了层规范化的LSTM [3]。假设运动X =（x1，x2，. . . ，xn），则层归一化LSTM由下式描述：ft=σ（Wfhht−1+Wfxxt+bf）（9）it=σ（Wihht−1+Wixxt+bi）（10）ot=σ（Wohht−1+Woxxt+bo）（11）c~t=tanh（Wchht−1+Wcxxt+bc）（12）ct=ft⊙ct−1+it⊙c~t（13）‚ΣHJ..1Jmt= Hct，vt=，HJ（ct−mt）2（14）Jht= ot ⊙tanh（γt⊙（cvtt- m（t）+β）（15）其中c t-1和h t-1表示来自前一个时间步长的单元记忆和单元状态，xt表示时间t时的输入人体姿势。σ（·）和⊙分别表示逐元素的sigmoid函数和乘法，H表示LSTM中隐藏单元当γ和β具有相同的维度ht时，学习参数W·、·、γ和β。与标准LSTM相反，隐藏状态ht是通过归一化单元存储器ct来计算的。5.2自我注意机制直观地，在人类运动序列中，一些姿势比其他姿势信息量更大因此，我们使用最近提出的自我注意机制[21]为运动序列中的每个姿势分配分数具体地，假设状态序列S={h1，h2，. . .，h n}计算，我们可以通过下式有效地计算它们中的每一个的分数.Σexp（ri）r=Ws2 tanh（Ws1S）和 a i=− logΣjexp（rj）（十六）其中ri是r的第i个元素，而Ws1和Ws2分别是Rk×l和Rl× l中的权重矩阵ai是运动序列中的第i个姿势的分配得分。因此，最终嵌入E可以通过将得分A =[a1，a2，. . . ，a n]和S，记作E=AS。请注意，最终的嵌入大小仅取决于LSTM中隐藏状态的数量，并且Ws2。这允许我们将不同大小的LSTM输出编码为固定大小的输出。关于自我注意机制的更多信息可以在[21]中找到。1基于深度度量学习的96实现细节我们将TensorFlow框架[2]用于本文中描述的所有深度度量模型。我们的模型有三个分支，如图所示。2.每个分支由基于注意力的双向层归一化 LSTM（LNLSTM）组成（参见第二节）。5.1）。双向LNLSTM遵循给定序列的向前和向后传递- − − →的运动。然后，We表示St=[St，f，St，b]，使得St，f=←− −−t∈[0，N]且st，b=LNLSTM（wt，xt），其中t∈[N，0].LNLSTM（wt，xt）给定运动序列X的n个时间步，我们计算S=（s1，s2，. . .，s n）其中st是LNLSTM有128个隐藏单元双向LSTM之后是dropout和标准批处理归一化。批量归一化层的输出被转发到注意层（参见第二节）。5.2），它产生固定大小的输出。关注层之后是结构：{FC（320），dropout，BN，FC（320），BN，FC（128），BN，12Norm}，其中FC（m）表示完全连接层，其中m为隐藏单元和BN意味着批量归一化。所有FC层后面都是除了最后一个FC层之外的整流线性单元。自我注意机制源自[21]的实现这里，来自（16）的Ws1和Ws2参数分别具有R200×10和R10×1我们使用0.5的脱落率。在图1中的网络的所有分支中使用相同的丢弃掩码。2.在在我们的模型中，所有的平方权重矩阵都用随机正交矩阵初始化（15）中的参数γ和β分别用零和一初始化。内核设计。 MMD-NCA损失函数隐含地与特征核的家族相关联。类似于先前的MMD论文[20，38]，我们考虑（6）中K个径向基函数的混合我们固定K=5，σq为1，2，4，8，16。训练我们的单批由随机选择的类别组成，每个类别有25个样本。我们选择了5个类别为阴性。虽然MMD [14]度量需要大量样本来理解分布矩，但我们发现25个样本足以完成我们的任务。在Titan X GPU上训练每个批次大约需要10秒所有的网络都经过5000次更新的训练，并且在训练结束之前它们都收敛在训练过程中，类似于课程学习，我们开始在没有噪声的样本上进行训练，然后添加具有零均值和增加标准差的高斯噪声。我们使用随机梯度下降的时刻作为所有模型的优化动量值设置为0.9，学习率从0.0001开始，每50次更新指数衰减0.96。我们通过全局范数将整个梯度裁剪到-25和25的范围内。7实验结果我们将我们的MMD-NCA损失与DTW [42]，MDDTW [25]，CTW [47]和GDTW[48]的方法以及四种最先进的深度度量学习方法进行了比较：DCTW [41]，三重[33]，三重+GOR [45]和N对深度度量10H. Coskun，D.J. 谭，S.Conjeti，N.纳瓦布F.通巴里失[14]。首先，这些方法是通过行动的识别任务进行评估。7.1. 为了密切关注这种评估的性能，我们分析了所提出的方法在同一节中检索的动作和SEC的自我注意机制的贡献5.2在Sec. 7.3.由于其中一个数据集[1]用其对应的主题标记了动作，因此我们还研究了执行人物识别任务的可能性，其中，我们打算基于他们的运动来测量演员本身的相似性，而不是测量为了进行公平的比较，我们只对所有方法使用了基于注意力的LSTM架构，并且只改变了损失函数，除了DCTW [41]。DCTW [41]中的伪损失函数需要两个序列，因此我们删除了注意力层，仅使用我们的LSTM模型。值得注意的是，所有深度度量学习方法都使用相同的数据分割进行评估和训练。绩效评估。我们遵循与[36，45]中定义的相同的评价方案。所有的模型进行评估的聚类质量和假阳性率（FPR）在同一测试集，其中包括看不见的运动类别。我们计算90%、80%和70%真阳性率的FPR。此外，我们还使用归一化互信息测度（NMI）和F1得分来度量聚类质量，其中NMI是互信息与类和聚类标签熵之和的比值，F1得分是精确率和召回率的调和平均值。数据集和预处理。我们在两个不同的数据集上测试了模型：（1）CMU GraphicsLab运动捕捉数据库（CMU mocap）[1];以及（2）Human3.6M数据集[17]。前者[1]包含144个不同的受试者，其中每个受试者执行自然运动，如行走，跳舞和跳跃。他们的数据记录与mocap系统和姿态表示38关节在3D空间。排除了六个关节，因为它们没有运动。我们将姿态相对于躯干对齐，并且为了避免万向节锁定效应，姿态在指数图中表示[39]。虽然原始数据以120Hz运行，具有不同长度的运动序列，但我们在训练和测试期间将数据下采样到30Hz。此外，Human3.6M数据集[17]由15个不同的动作组成，每个动作由7个不同的专业演员执行。这些动作大多选自日常活动，如散步、吸烟、参与讨论、拍照和打电话。我们以与CMU mocap相同的方式处理数据集。7.1动作识别在该实验中，我们在CMU mocap [1]和Hu-man 3. 6 M [17]数据集上测试了我们的模型，用于看不见的运动类别。我们将CMU mocap数据集分为38个不同的运动类别，其中包含多个类别的运动序列被排除在外。其中，我们选取了19个类别进行培训，19个类别进行测试。对于Human3.6M [17]，我们使用了所有给定的类别，并选择了8个类别进行训练，7个类别进行测试。虽然我们的模型允许我们使用不同大小的运动序列进行训练，但我们使用固定大小进行训练，因为不同大小会减慢训练过程。选取基于深度度量学习的11CMUHuman3.6MFPR-90FPR-80FPR-70FPR-90FPR-80FPR-70[42]47.9842.9237.6249.6447.9644.38[25]第二十五话44.6039.0734.0449.7245.8744.51CTW [47]46.0240.9639.1147.6343.1042.18GDTW [48]45.6139.9535.2446.0642.7240.04DCTW [41]40.5638.8326.9541.3939.1836.71三重[33]39.7233.8228.7742.7840.1536.01[45]第四十五话40.3233.9727.7842.0337.6133.95N-Pair [35]40.1132.3526.1640.4639.5636.52MMD-NCA（我们的）32.6625.6620.2938.4236.5433.13– without41.2235.3630.0445.0342.0741.01– without37.2730.2127.9544.2541.6938.09– Linear39.8033.9229.0046.3541.6837.69– Polynomial36.8030.3524.9843.6040.0335.62表1. CMU mocap和Human3.6M数据集的动作识别假阳性率。三联体三联体+GOR N对MMD-NCA（我们的）百分之六十五百分之六十百分之五十五百分之五十百分之四十五百分之四十16 32 64 128256尺寸数量（Log2刻度）百分之三十百分之二十六百分之二十二百分之十八百分之十四16 32 64 128256尺寸数量（Log2刻度）百分之九十百分之八十八百分之八十六百分之八十四百分之八十二百分之八十16 32 64 128 256尺寸数量（Log2刻度）百分之六十五百分之六十百分之五十五百分之五十百分之四十五百分之四十16 32 64 128256尺寸数量（Log2刻度）(a) CMU Mocap百分之四十六百分之四十四百分之四十二百分之四十百分之三十八百分之三十六百分之三十四16 3264128256尺寸数量（Log2刻度）(b) Human3.6MF1评分（%）NMI评分（%）12H. Coskun，D.J. 谭，S.Conjeti，N.纳瓦布F.通巴里百分之九十百分之八十八百分之八十六百分之八十四百分之八十二百分之八十163264 128 256尺寸数量（Log2刻度）(c) 个人识别图三. 使用（a）CMU Mocap和（b）Hu-man 3. 6 M数据集的动作识别任务的NMI和F1得分;以及（b）用于人员识别任务。运动序列为90个连续帧（即，大约3秒）并留下30帧的间隙。然而，在测试时，我们仅在运动序列长于5秒时通过留下1秒的间隙来划分运动序列;否则，我们保持原始运动序列。我们发现这种处理是有效的，因为我们观察到，在序列的运动长于5秒，受试者通常重复他们的行动。我们也考虑过不带裁剪的训练，但这在GPU资源有限的情况下是不可能假阳性率。在CMU mocap和Human3.6M上不同百分比的FPR报告于表1中。真阳性率为70%，学习方法[33，基于深度度量学习的13查询Cartwheel运动第一个侧手翻运动我们- 第二-侧手翻运动- 第三-侧手翻运动- 第四-侧手翻运动- 第1-DTW跳运动第2集LaughingMotion- 第三-笑运动- 第四-站立运动图4.第一章我们的方法和DTW [42]之间CMU mocap数据集上的侧手翻运动查询的比较。第一行中的运动是查询，其余是每个方法的四个最近邻居，它们按距离排序。41，45，35]，包括我们的方法，相对于DTW [42]，MDDTW [25]，CTW [47]和GDTW [48]，FPR的改善高达17%。此外，与最先进的深度学习方法相比，我们的方法进一步将CMU mocap 和Human3.6m数据集的结果分别提高了6%和0.8%[33，41，45，35]。NMI和F1评分。图图3（a）绘制了CMU mocap数据集的具有不同嵌入大小的NMI和Fl分数在NMI和F1指标，我们的方法产生最好的集群在所有的嵌入大小。与其他方法相比，该方法对嵌入大小的变化不太敏感。此外，Fig.图3（b）示出了Human3.6M数据集上的NMI和F1评分，其中我们观察到与CMU mocap数据集相似的性能并获得最佳结果。动作检索。为了进一步研究，我们从CMU mocap测试集中查询特定的运动，并比较我们的方法和DTW [42]基于各自的相似性度量检索的最接近的动作序列。在图4中，我们在查询具有挑战性的侧手翻运动（参见第一行）时演示了该任务。我们的方法成功地检索语义相似的运动序列，尽管序列的长度变化很大。另一方面，DTW [42]无法将查询与数据集匹配，因为独特的姿势出现在序列的一小部分上。这意味着演员站立的大部分主导相似性度量。请注意，由于SEC的自我注意机制，我们没有同样的问题5.2（参见第二节。7.3的评价）。14H. Coskun，D.J. 谭，S.Conjeti，N.纳瓦布F.通巴里FPR-95 FPR-90 FPR-85 FPR-80 FPR-75 FPR-70[42]46.2243.1938.7032.3627.6122.85[25]第二十五话49.6745.8940.3635.4631.6928.44CTW [47]45.2340.1435.6929.5025.9120.35GDTW [48]44.6540.5435.0328.0724.3119.32DCTW [41]32.4520.2418.1515.9113.7810.31三重[33]22.5818.1311.309.638.366.51[45]第四十五话28.3716.6910.278.647.284.38N-Pair [35]22.8415.318.945.694.824.56MMD-NCA（我们的）19.3110.428.265.623.912.55– without36.1026.1522.4820.9419.2116.78– without26.6318.4312.8110.278.587.36– Linear35.7530.9725.9315.1311.9310.42– Polynomial27.2521.1817.9110.938.975.93表2. CMU mocap数据集的人员识别的假阳性率。7.2个人识别由于CMU mocap数据集还包括与每个运动相关联的特定主题，因此我们探索了人识别的潜在应用与Sec.7.1在基于运动类别计算相似性度量的情况下，该任务试图测量关于演员的相似性在这个实验中，我们以与Sec相同的方式构建训练集和测试集。7.1. 我们纳入了具有三个以上运动序列的受试者，这导致68名受试者。其中，我们选择了39名受试者进行培训，其余29名受试者进行测试。表2显示了在嵌入大小为64的情况下，不同真阳性率百分比的个人识别任务的FPR在这里，包括我们的工作在内的所有深度度量学习方法都显着提高了DTW，MDDTW，CTW和GDTW的准确性。总的来说，我们的方法优于所有FPR的所有方法，与DTW [42]，MDDTW [25]，CTW [47]和GDTW [48]相比提高了20%，与最先进的深度学习方法相比提高了2%[33，41，45，35]。此外，当我们评估NMI和F1得分的聚类质量在不同的嵌入大小，图。3（c）表明我们的方法获得了最先进的结果，具有显著的优势。7.3注意力可视化自我注意机制的目标来自SEC。5.2是集中在关于运动序列的语义信息最多的姿势上。因此，我们希望我们的注意力机制专注于运动中的描述性姿势，这允许模型学习更具表现力的嵌入。基于由来自（16）的ai组成的A的峰，我们在图16中示出了这种行为。其中前两行属于篮球序列，而第三行属于弯曲序列。值得注意的是，所有序列具有不同的长度。基于深度度量学习的15（一）（b）第（1）款（c）第（1）款图五. 注意力可视化：红色的姿势示出了模型主要集中注意力的位置。具体地，我们将与A中的每个列式全局最大值相关联的那些帧以及前2帧和后2帧标记为红色。为了可视化的目的，序列通过因子4进行二次采样。尽管运动的长度变化，但模型在动作者投球时聚焦，这是图1的运动的最具信息性的部分。5（a-b）;而，对于图中的弯曲运动。在图5（c）中，其还聚焦于运动序列的独特区域。因此，该图说明了自我注意机制成功地集中在序列的最具信息量的部分这意味着该模型丢弃了非信息部分，以便将长运动序列嵌入到低维空间而不丢失语义信息。8消融研究我们使用不同的配置来评估我们的架构，以更好地分别欣赏我们的每一个贡献。所有模型都使用MMD-NCA损失和大小为128的嵌入进行训练。表1和表2显示了层归一化[3]，自注意机制[21]和FPR方面的内核选择我们对线性、多项式和MMD-NCA使用相同的架构，并且仅改变（6）中值得注意的是，去除自我注意机制在所有数据集上产生了NMI和F1此外，层规范化和自我注意力分别将所得FPR提高了7%和10%。在核选择方面，结果表明，选择考虑较高矩的核会产生更好的结果。比较这两个任务，人员识别是从我们的架构中受益最多的任务。9结论在本文中，我们提出了一种新的损失函数和网络结构来衡量两个运动序列的相似性。在CMU mocap [1]和Human3.6M [17]数据集上的实验结果表明，我们的方法获得了最先进的结果。我们还表明，基于深度学习的度量学习方法可以将结果提高20%，而不是通常用于人类运动序列之间相似性的度量。作为未来的工作，我们计划将建议的MMD-NCA框架推广到时间序列，以及调查不同类型的内核。16H. Coskun，D.J. 谭，S.Conjeti，N.纳瓦布F.通巴里引用1. 卡耐基梅隆大学-卡耐基梅隆大学图形实验室-动作捕捉库。http://mocap.cs.cmu.edu/（2010），（2018年3月11日访问）2. Abadi，M.，Agarwal，A.，Barham，P.，Brevdo，E.，陈志，西特罗角科罗拉多州科拉多戴维斯，A.，迪恩J Devin，M.，Ghemawat，S.，古德费洛岛Harp，A.，Irving，G. Isard，M.，Jia，Y.，约瑟夫·奥维奇河 Kaise r，L.， Kudlu r，M.， L evenbe r g，J.，妈妈，D. 蒙加河Moore，S.，Murray，D.Olah，C.，Schuster，M.，Shlens，J.，Steiner，B.，萨茨克弗岛Talwar，K.，Tucker，P. V anhouck e，V.， Vasudevan，V.， Vi e'g as，F.， Vin yals，O.， Warden，P.， Wattenbe r g，M.，Wick e，M.，Yu，Y.，郑X：TensorFlow：Large-scale machine learning on heterogeneous systems（2015），https://www.tensorflow.org/，软件可从tensorflow.org3. BA J.L. Kiros ， J.R. Hinton ， G.E. ：层归一化。 CoRRabs/1607.06450 （ 2016 ），http://arxiv.org/abs/1607.064504. Berndt，D.J.，Clifford，J.：使用动态时间扭曲来发现时间序列中的模式。在：KDD研讨会.第10卷，第359-370. 02 The Fantasy of the Woman（1994）5. 切，Z.，他，X.，徐，K.，Liu，Y.：Decade：A Deep Metric Learning Model forMultivariate Time Series（2017）6. 陈春，Zhuang，Y.，Nie，F.，杨，Y.，吴，F.，Xiao，J.：从几何姿势描述符学习3d人体姿势IEEE Transactions on Visualization and Computer Graphics17（11），16767. Chopra，S.，哈德塞尔河LeCun，Y.：有区别地学习相似性度量，具有appli阳离子面对验证。计算机视觉与模式识别，2005年。CVPR 2005。IEEE计算机协会会议。第1卷，第100页。539-546. IEEE（2005年）8. Chu，X.，杨伟，欧阳，W.马，C.，尤伊尔，A.L.，Wang，X.：人体姿态估计的多上下文注意IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）9. 库图里山Vert，J.P.Birkenes，O.，Matsui，T.：基于全局对齐的时间序列核在：声学，语音和信号处理，2007年。ICASSP 2007年。 IEEE国际会议。第2卷，第II-413IEEE（2007）10. 戴维斯，J.V.，Kulis，B.，Jain，P.Sra，S.，D

下载后可阅读完整内容，剩余1页未读，立即下载