多目标人体运动预测的知识蒸馏及准确性与多样性的平衡

167 浏览量更新于2023-10-25 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8161基于知识蒸馏的多目标人体运动预测马恒博1，2<$李嘉晨3RamtinHosseini1，4<$ Masayoshi Tomizuka2 ChihoChoi11美国本田研究所2加州大学伯克利分校3斯坦福大学4塔夫茨大学{hengbo_ma，tomizuka}@berkeley.edujiachen_li@stanford.eduramtin. tufts.educchoi@honda-ri.com摘要获得准确和多样化的人体运动预测对于许多工业应用至关重要，特别是机器人和自动驾驶。最近的研究已经探索了几种技术，以提高多样性，并在同一时间保持人体运动预测的准确性。然而，它们中的大多数需要定义一个组合损失，例如准确性损失和多样性损失的加权和，然后在训练之前确定它们的权重作为超参数。在这项工作中，我们的目标是设计一个预测框架，可以平衡准确性采样和多样性采样在测试阶段。为了实现这一目标，我们提出了一个多目标条件变分推理预测模型。我们还提出了一个短期的预言，以鼓励预测框架，以探索更多样化的未来运动。我们评估我们提出的方法在两个标准的人体运动数据集上的性能。实验结果表明，我们的方法是有效的，并与国家的最先进的性能在准确性和多样性。1. 介绍人体运动预测在人机交互[3，4]、自动驾驶[13，14，33，39]和动画[45]等几个应用中发挥着重要作用例如，自动驾驶系统可以在给定行人的准确运动预测的情况下制定安全的规划策略。而且，当机器人对人类未来的计划有了很好的了解时，它们就能合理地与人然而，由于人类未来运动的多样性和不确定性是人类未来运动与车辆轨迹预测场景不同，在车辆轨迹预测场景中，我们可以获得诸如交通规则和路线信息等先验知识[40，41]来约束不同的†Hengbo和Ramtin在本田研究所实习期间完成的工作第一次组相似的姿势第二次组相似的姿势图1.在数据集中获得多模态伪未来运动的说明。我们可以将相似的初始姿势（紫色虚线圆圈）进行聚类，并将它们的未来姿势作为共同基础事实进行共享。实体姿势是地面实况，透明姿势是增强姿势。我们认为，这种方法可以递归地应用（橙色虚线圆圈），这将导致发现更多不同的和现实的运动模式的数据。我们很难事先知道人类将来会做什么因此，我们只能利用来自给定数据集的信息，这增加了各种人体运动预测的难度在这一领域有两条研究路线。首先，一些工作试图在不考虑多样性的情况下获得准确的人体运动预测，例如[36]基于图神经网络和[56]基于递归神经网络。另一方面，一些研究调查了如何基于深度生成模型[2，47，60，63]或不同采样技术[61]来增加人体运动预测的多样性。深度生成模型，如变分自编码器和生成对抗网络，自然地捕捉随机行为，但它们可能会遭受模式崩溃问题。否则，即使我们假设生成模型可以捕获实际的8162···数据分布，数据分布仍然可能是非常不平衡和偏斜的，这使得在有限数量的样本内对次模式进行采样一些作品[42，61，62]提出了新的损失，以增加多样性，同时保持预测的自然和准确。在[62]中，设计了一个多采样函数，以基于预训练的条件变分自动编码器显式捕获分布的不同模式通过使用这种预先训练的变分自动编码器，这种方法可以用训练超参数控制预测运动的可能性。在[5，32，42]中，他们提出了生成模型来隐式地学习分布。然而，这些工作仍然需要在训练之前选择超参数以平衡似然和多样性采样。这意味着这些方法在测试阶段不能被调整和控制考虑到自动驾驶中的行人运动预测等现实应用，我们不仅需要知道大多数不同的可能运动模式，还需要知道哪些模式最有可能发生。在自主车辆的风险规避或风险寻求规划器的设计中，如果能在测试阶段确定准确性抽样和多样性抽样之间的平衡，因此，我们引入了一个多目标变分推理框架与两个不同的先验。所提出的结构使得在测试时间内调整准确性和多样性采样之间的比率成为可能同时，由于给定历史观察只有一个地面真实未来运动姿态，因此一些作品[49，59]提出使用基于相似性聚类的技术来获得多模态伪地面真实未来运动。相似的初始姿态被分组，并且它们对应的未来姿态可以被视为该组中每个初始姿态的伪可能的未来运动。我们认为，这种逻辑也可以递归地应用。我们可以在某些步骤中再次将相似的姿势分组，并获得共享的未来。演示如图1所示。这一策略可以提高未来运动的多样性然而，由于训练期间的递归查询，采样数量将呈指数级增加，并且使得这种直接实现变得棘手。为了解决这个问题，我们引入了一个预言器，它提供了几个可能的未来运动与短期的地平线，以指导预报反复。总而言之，我们的贡献有三个方面：提出了一种基于多目标条件变分自编码器的人体运动预测框架，该框架可以在测试过程中调整准确性和多样性采样的样本数比例。我们建议学习一个短期的预言系统，并将预言的知识提取到预测框架中，为了实现这一目标，我们提出了一种新的基于样本的损失在训练阶段监督预测。我们评估了我们提出的方法在两个人体运动数据集上的性能实验结果表明，我们的方法可以达到国家的最先进的性能。2. 相关工作人体运动预测在计算机视觉领域，人体运动预测已经被研究了许多不同的方法。在早期阶段，提出了几种没有深度学习技术的方法[1，10，37，43，50，54，57]，如高斯过程[58]，隐马尔可夫模型[10]和潜变量模型[54]。这样的方法可以实现良好的性能，经常性的人体运动数据。然而，它们可能不适合更复杂的不规则的人体运动。由于最近提出了几种有前途的深度学习模型，如递归神经网络（RNN）[6，12，18]和图神经网络（GNN）[11，30，34，35，48]，因此有几项研究专注于如何结合上述模型以提高确定性人体运动预测的准确性。一些作品，如[21，27，44，46，64]是基于RNN的，[36，42]利用图神经网络（GNN）来捕获时间和空间信息。为了得到更多样化的人体运动预测，应用了几种概率模型[2，5，7，28，29，32，38，47，63]来捕获人体运动的不确定性。深度生成模型可用于估计数据分布。有几种方法基于可变自编码器[2，7，28，29]，生成对抗网络，作品[5，16，32，38]和规范化流程[20，47，63]。多样的预测。在[60]中，作者提出了一种可以同时学习运动重构和变换的表示的方法。此外，在[5，32]中利用GAN类模型来捕获各种人体运动预测。也有一些研究使用不同的-#24463;，以提高多样性[24]。在[61]中，提出了一种多样性采样函数，它被公式化为一个确定点过程[22，23，31]。特别是在[62]中，作者认为，即使现有的基于似然的方法可以对数据进行很好的估计，但在给定固定数量的样本的情况下，它们仍然难以对一些因此，他们建议学习另一种多样性采样函数，该函数可以基于一个预训练的可变自动编码器模型生成不同的运动然而，所提出的模型需要在训练之前选择超参数以平衡似然性和多样性我们研究了正交方向上的各种我们的目标是得到一个统一的模型，可以调整的样本数量之间的比例准确性和多样性的样本在测试阶段。此外，我们还尝试利用具有短期预言的伪未来运动来解释更多样、更自然的模式，并且上述任何模式都可以集成。8163∈||||||t+1：t+TfHF∈RNN MLP共享参数解码器准确度取样器损失分集采样器损耗短期Oracle图2.拟议框架概览红线表示管道，仅在培训期间使用蓝线表示在训练和测试阶段使用的管道。During training, several samplesare generated from both accuracy prior function(red diamond, Section 4.1.1) and diversity prior function (blue diamond, Section 4.1.2).准确度先验函数将仅通过第4.1.1节中定义的准确度采样器损失进行更新。多样性先验函数将由多样性采样器损失来更新，这取决于所有的样本。短期预言函数在4.2节中介绍。3. 问题公式化我们的目标是预测未来可能的人类-给定一个数据集D。我们把人体运动其中Q（Z C）是潜变量Z的条件先验分布RDZ 其维数为dz。P（X C，Z）定义为给定观测值的条件似然时间范围T=Th+Tf为X t−Th+1：t+Tf为特征信息C和潜变量Z。我们可以改变先验分布Q，以实现X[Xt−T+1，. -是的-是的，Xt+T]，其中XtRd是在时间步长t处的人体关节笛卡尔坐标。Th和Tf是历史视野和未来视野。给定一个观测值C=Xt−Th+1：t，我们打算得到未来运动分布P（Xt+1：t+TfC，ρ）。既然这样的条件--概率分布可能有几个主要的模式，很难在给定固定采样数的情况下对其他模式进行采样相反，如果我们专注于增加样本的多样性，预测精度将是不确定的。在这项工作中，我们引入一个变量ρ∈[0，1]，同样的观察C。在我们提出的方法中，我们引入了两个不同的先验分布Qacc（Z|C）和Qdiv（Z|C）的范围内。我们打算使用P（XC;Q）和先验Qacc（ZC）来估计数据分布PD，并得到最多样化的分布，主要集中在次要模式，通过从Qdiv（Z C）采样。总体框架如图2所示。类似于[62]，我们将历史观测编码器eh（C）和未来信息编码器ef（X）定义为：控制预测的多样性程度，即，我们打算eh（C）= [ MLP RNN]（C）（二）得到M个样本XiP（Xt+1：t+Tf|C，ρ），i=ef（X）=[ MLP RNN]（X），1、. - 是的- 是的，M. ρ越大，生成的样本越多样化，并且集中在罕见的情况下，ρ越小，预测将更多地集中在最可能的模式上。其中，我们首先通过使用递归神经网络（RNN）对时间信息进行编码，然后使用为了简单起见，我们使用X表示Xt+1：t+Tf时间步长索引是不必要的。4. 方法的情况前向神经网络将RNN的状态映射到特征嵌入空间基于历史嵌入eh（C）和潜变量Z，我们表示解码器函数d θ（X|C，Z）为：首先介绍了基于条件变分推理的多目标生成然后，我们介绍了所提出的短期预言，它提供了多模态监督的预测框架工作。最后，我们介绍了我们提出的方法总体框架如图2所示。4.1. 多目标预测器一般来说，我们可以通过潜变量模型来表示概率分布：P（X|C;Q）=EZ <$Q（Z|C）[P（X|C，Z）]，（1）未来嵌入准确性先验历史嵌入多样性先验编码器RNN MLP8164◦||d θ（X|C，Z）= [MLP | RNN]（e，h（C）||Z），（3）其中θ是解码器的参数。通常，解码器的输出是概率分布的参数，例如，高斯分布的均值和方差。在这项工作中，我们使用一个确定性的解码器，解码器的输出是预测的姿势。为了方便起见，解码器的输出也由等式3表示。解码器的随机性仅取决于Z。““表示两个向量的连接运算符。我们使用类似的神经网络结构的解码器与编码器。运营商的详细信息见补充材料。8165|||−||··XYXX|XXφacc|我OO21：T|−ndivJsτ+1：（ s+1）τsτ+1：（ s+1）τ）4.1.1精密取样器第一个目标是推断精度先验分布Qacc（Z C）。我们打算通过从精度先验分布中采样来近似数据分布。因此，我们应用变分推理来最大化对数似然的证据下限（ELBO）哪里和表示大小为Nx和Ny的两组样本。d（，）是定义在欧几里得空间中的度量。我们将度量定义为d（x，y）=η x其中η是用于确定两个样本之间的距离的灵敏度的参数。我们表示样本集其由精度采样器生成为Xacc，由分集采样器生成的样本集为Xdiv。L ELBO=EQ（Z|X，C）[log Pθ（X|Z、C）]-DKL[Q（Z|X、C）||Qac c（Z|C）]，（四）然后我们将多样性损失定义为：Ldiv=αdivDIV（Xdiv，Xdiv）+（1−αdiv） DIV（Xdiv，Xacc），其中Q（Z X，C）是给定历史观测和未来信息的潜变量Z已有文献[8，52，55，65]讨论了条件变分不等式的坍缩问题.这些著作认为，使用普遍的先验分布，即，独立的各向同性高斯分布，可能不是条件分布估计的好选择[8，52]。很难捕获复杂的条件多模态数据，并引入导致缺失模式的强模型偏差[53，55，65]。因此，不使用各向同性高斯分布N（0，I）与C无关，我们用C（ Z|C ）作为高斯分布 N （ μφacc （ C ）， μφacc（C））。 DKL[Q]||Qac[c]是：其中DIV（div，div）表示由分集采样器生成的样本的分集。DIV（div，acc）表示来自准确度和多样性采样器的样本之间的平均成对距离。在以往的工作中，当多样性损失的权重较大时，它将对采样器逼近数据分布的精度产生由于我们打算将准确度目标和多样性目标分开，所以我们仅通过使用等式9中的第一项来增加来自多样性采样器的样本之间的成对距离，并且我们通过使用等式9中的第二项来使来自多样性采样器的样本与来自准确度采样器的样本不同。我们可以确定的相对重要性1|φ accc|−19中的两个项目的权重为αdiv。较大的αdiv意味着，2[日志2|Σψ|-nz+Tr（φacc）+||µφacc−µ||-1]，（五）我们专注于使Qdiv中的样本更加不同。仅仅利用多样性损失是不足以得到一个重新-因为有可能增加多样性，其可以通过分析计算由于我们不能控制分布Qacc（ZC），它可以是任意分布的，这将增加训练的难度。为了约束先验分布，我们使用best-of- many loss作为先验模型的正则化：错方向了例如，一个模型可以生成随机噪声或任意无效姿势。因此，我们需要在数据中使用人体运动来约束预测。为了约束来自多样性采样器的每个生成的姿势，我们假设存在一个预言：Racc=min<$X<$i−X<$2X<$t+1：t+τ<$O（Xt，τ），（十）ziQ（Z|C）、Xi=d θ（X|C，zi），i=1，. -是的-是的，nacc，（六）其中（Xt，τ）是给定当前初始姿态Xt的未来姿态的概率分布。的其中nACC是样本数。那么整体损失甲骨文可以被看作是一个老师，将未来姿势的基于神谕，准确度采样器为：LA（θ，θ）= −λELBOLELBO+λaccRacc，（7）其中λelbo和λacc用于平衡两个损耗。我们定义一个基于样本的损失：Lref（τ）=1min，i，sS.T. ziQd iv（Z|C），X∈i=dθ（X|C，zi），4.1.2分集采样器~jsτ+1：（ s+1）τO（X为了探索可能的不同模式，真实姿势，我们建议学习另一个先验分布Qdiv（Z C），参数为φdiv。我们使用一个常见的多样性损失定义：i= 1，. - 是的- 是的，ndiv，j = 1，. - 是的- 是的，n= 0，s = 0，. - 是的- 是的，T/τ1，（十一）（九）X81661：TNxNy其中τ表示来自预言的预测姿态的时间间隔ndiv是从di生成的样本数DIV（X，Y）=1e−d（Xi，Yj）i、jversity先验，no是样本的数量，（八）Oracle提供。W.l.o.g，我们假设当前时间步长为0，预测范围为T。给一个萨姆-Xi，Yj∈ X，Y，i = 1，. - 是的- 是的，Nx，j = 1，. - 是的- 是的，Ny，第十回，神谕提供了一些可能的短期8167sτX··XS X∈O样品1样品2OracleXmt+1：t+1样品m样品i历史构成样品1样品2Oracle样品mPRNN ML图3.短期预言监督程序。在训练过程中，我们可以得到几个预测的人体运动。对于每个样本（由蓝色箭头指示），姿势将在每个τ时间步长后馈送到oracle。预言机将提供几种可能的未来姿势作为选项。预测的人体运动只需要在每个短时间范围内与选项之一相似。~jsτ+1：（ s+1）τgi ven当前预测的姿态Xi其中o表示所有未来姿势的集合，J递归地。我们执行短期预测序列对应的初始姿态Xt在半径为δ的球中ˆisτ+1：（ s+1）τ~jsτ+1：（ s+1）τ与所提供的未来之一相似. 请注意，其以给定的初始姿态Xt为中心。球由度量d（，）定义。表示K个选定的未来姿态的集合，其具有给定的时间范围τ，等式9将鼓励预测者选择其中一个提供了未来的人类运动，这对增加多样性是有用的。图3显示了oracle监督程序的说明。我们还采用了几种广泛使用的物理可行性损失[42，62，63]，例如肢体Lphy=λvelLvel+Llimb 。（十二）补充材料中提供了公式12中各项的详细信息。因此，分集采样器的总损耗为：LD=λ refL ref+λ divL div+L phy，（13）初始姿态X测试。由于可能存在许多与给定初始姿态相似的姿态，并且大多数对应的未来姿态非常相似，因此我们需要选择适当的固定数量的未来姿态，以便捕获不同的模式。在这里，我们使用k-行列式点过程（k-DPP）作为选择策略S来选择未来的姿势。4.2.1k-行列式点过程k-行列式点过程[31]被广泛用于给定固定数量的样本对不同的点进行给定一个集合X ={X1，X2，. - 是的-是的，Xn}，一个k-行列式点逼近定义在X上的cess是在2X上的概率测度：1999年10月15日，《中国日报》（|S|=k）其中λref和λdiv决定损失的重要性。此外，我们使用低通滤波器来平滑预测的姿势Pr（S）=PrS[n]，|S|=k det（LS），（十五）由训练后的多样性采样器生成详情请参见补充材料。其中我们表示为和的子集|S| ×| S|作为相似性矩阵：Ij4.2. 短期Oracle设计我们在第4.1.2节中引入了一个预言机来监督预测器。在本节中，我们将讨论如何获取Oracle。我们建议通过使用另一个条件变分自编码器来捕获伪地面实况多模态来学习短期预言（X，τ）为了实现这样的目标，一些作品利用相似性搜索技术[59]。该方法也在[61，62]中用作多模态评价指标。在我们的工作中，我们定义：τ（Xt）=S（Xo;τ，K）{LS}ij=e−d（Xt+1：t+τ，Xt+1：t+τ）.（十六）我们对训练数据进行预处理，以使用K个未来姿势来增强每个案例。几个采样算法[17，25]的决定点过程可以直接使用。4.2.2短期Oracle模型短期预言可以用第2节中提出的任何方法训练。在我们的实验中，我们使用一个条件变分自动编码器，类似于上面定义的似然采样器，在使用期货XXX8168={X. - 是不1OXot+1：t+τt+1：t+τ}d（Xj，Xt）≤δ，δj=1，. -是的-是的、|Xo|、（十四）预测水平τ现在，我们可以提供更多不同的未来，鉴于完全相同的历史观察。由于增广数据被k-行列式点平衡8169|LO∈B≤B{} ∼ DD−t+TfΣX−D∈Dˆj过程中，将有更少的极其次要的模式，因此减轻了罕见情况下采样的麻烦。补充资料中提供了短期预言神经网络结构的详细信息。5. 培训和测试流程训练过程总结在算法1中。我们从准确性先验和多样性先验中生成相同数量的样本进行训练。注意，分集损失div不会反向传播到精度先验Qacc（Z C），因为我们不希望分集损失影响精度先验。在我们得到优化的算法一：训练过程输入：N：epoches的数量。nacc：准确度采样器Qacc的样本数。ndiv：多样性采样器Qdiv的样本数。no：从Oracle生成的样本数。输出：θ、φacc、φdiv数据：训练数据集训练1，而epochN2个样本=Xi，Cii列车3foreachX，Cdo4生成n个acc样本：6. 实验在本节中，我们首先介绍数据集和评估指标。然后进行了定量分析、定性分析补充材料中提供了实施细节、广告效果、局限性和未来工作6.1. 数据集我们在Human3.6M [26]和HumanEva-I数据集[51]上评估了我们的方法，并使用与其他基线相同的设置Human3.6M数据集由11个主题和360万个视频帧组成每个主题有15个动作人体运动记录在50赫兹。我们在工作中采用了17关节的骨架表示。我们使用五个受试者（S1，S5，S6，S7，S8）与另外两个受试者（S9和S11）进行训练和测试预测的未来运动范围是2秒（100个时间步长），并且历史运动范围是0.5秒（25个时间步长）。HumanEva-I数据集包括三个主题。人体运动的记录速率为60Hz。我们选择使用15关节骨骼代表。我们使用官方网站提供的相同训练和测试数据集。我们用0.25秒（15个时间步长）的观测预测1秒（60个时间步长）的未来运动。6.2. 评估指标ˆiACC =d（X|C，zi），zi<$Qacc（Z|C）、6生成n个div样本：以下指标用于评估性能-ˆidiv =d（X|C，zi），zi<$Qdiv（Z|C）、方法的方式为了准确起见，我们使用平均直径-8f或s=0，. -是的-是的，Tf/τ1do9生成no样本：放置误差（ADE），其被定义为在预测时间步长上的位置之间的平均~jt+ sτ+1： t+（ s+1）τ11用LA更新θ、θ、φaccO（X地面实况运动Xt+1：t+Tf和最接近的样本[62]，以及最终位移误差（FDE），即Eu-最终地面实况姿态与12用LD更新θ，φdiv最终的预测姿态，即， mini<$X<$i−Xt+T<$. F或二-F在Versity中，我们使用平均成对距离（APD），这是所有运动样本对之间的L2距离，模型，我们可以决定不同样本的比例，主要集中在与计算为1K（ K−1）ˆi我 jt+1：t+Tft+1：t+Tf=0。通过调整比例数ρ来控制主振型。测试程序总结在算法2中。算法二：测试程序输入：ρ：来自Qdiv的样本占总样本的比例，M：样本总数输出：X，预测的姿势数据：测试数据集测试X、C试验各12从Qacc生成（1ρ）M个3从Qdiv生成ρM6.3. 定量分析我们将我们的方法与表1中的几个基线进行了比较。基线包括确定性方法，如acLSTM [37]和ERD[21]，概率方法，如MT-VAE [60]和Dlow [62]等。我们使用50个样本来评估所有方法的预测性能。我们直接使用[62]和[64]的基线结果。在表1中，我们可以得出结论，0的情况。46可以实现更好的性能与其他基线相比，在所有的指标。一般来说，像Best-of-Many和GMVAE这样的概率方法比像acLSTM和ERD这样的确定性方法可以实现更好的准确性和多样性我们可以观察到，如果APD小于或等于XXX--X57108170LHuman3.6MERD [21]acLSTM [37][56]第五十六话MT-VAE [60]HP-GAN [5]BoM [9]GMVAE [19][24]第二十四话DSF [61]德洛[62]DCT5/DCT20 [64]我们APD↑006.7230.4037.2146.2656.7696.5099.33011.7412 579/15 92014.24ADE↓0.7220.7890.4610.4570.8580.4480.4610.4830.4930.4250.412/0.4160.414FDE↓0.9691.1260.5600.5950.8670.5330.5550.5340.5920.5180.514/0.5220.516HumanEva-IERD [21]acLSTM [37][56]第五十六话MT-VAE [60]HP-GAN [5]BoM [9]GMVAE [19][24]第二十四话DSF [61]德洛[62]DCT5/DCT20 [64]我们APD↑ADE↓FDE↓00.3820.46100.4290.5412.3080.2690.2960.0210.3450.4031.1390.7720.7492.8460.2710.2792.4430.3050.3452.1770.3060.3224.5380.2730.2904.8550.2510.2684.181/6.2660.234/0.2390.244/0.2535.7860.2280.236表1.Human3.6M和HumanEva-I数据集的定量结果我们的结果和基线的最佳结果被突出显示。历史历史电话：+86-10 - 6666666传真：+86-10 - 6666666电话：+86-10 - 6666666传真：+86-10 - 6666666(a) Human3.6M数据集上的预测结束姿势。历史历史电话：+86-10 - 6666666传真：+86-10 - 6666666电话：+86-10 - 6666666传真：+86-10 - 6666666(b) HumanEva-I数据集上的预测结束姿势。-10 0-10 010 20 30 40 50 60 70 80 90 10010 20 30 40 50 60 70 80 90 100-6 0-6 06 12 18 24 30 36 42 48 54 606 12 18 24 30 36 42 48 54 60-10010 20 30 40 50 60 70 80 90 100(c) 在Human3.6M数据集上预测人体运动。-606 12 18 24 30 36 42 48 54 60(d) 在HumanEva-I数据集上预测人体运动。图4.Human3.6M和HumanEva-I数据集上预测结果的可视化图4a和图4b示出了从准确性先验（第一行）和多样性先验（第二行）两者生成的十个预测的图4c和图4d显示了预测的时间序列。第一行中的序列是地面实况运动。第二行中的序列是从准确度先验生成的样本之一，第三行中的序列是从多样性先验生成的样本之一。一般来说更大。这是因为在多样性和准确性之间存在权衡。与DLow相比，我们的方法提高了Human3.6M和HumanEva-I数据集的性能。我们还将我们的结果与[64]中使用CVAE框架的频率表示的DCT 5和DCT 20进行了比较。我们的结果与他们在两个数据集上的表现不相上下。6.4. 定性分析我们在图4a和图4b中示出了从准确度先验函数和多样性函数两者生成的随机样本的10个末端姿态。第一行显示来自精度先验函数的样本我们注意到，大多数样本与地面实况相似，这表明精确采样器可以以高精度生成预测的未来人体运动。第二行显示来自多样性采样器的样本。我们注意到，来自多样性采样器的预测姿势具有更多不同的模式，并且与从准确性采样器生成的样本不相似。这可以归因于等式9中多样性损失div中的第二项，其中我们在生成与那些不同的样本之前鼓励我们的多样性。从准确度采样器生成我们还示出了来自图4c和图4d中的两个数据集的准确性和多样性采样器的预测人体运动的两个样本。我们注意到，预测的时间序列是光滑的。与地面实况相比，来自准确度采样器的样本可以非常准确。补充材料中提供了更多可视化结果。6.5. 不同采样率在图5中，我们说明了在测试期间从准确度采样器生成的样本数量nacc的不同度量值当nacc等于0时，这意味着我们只从多样性先验分布中采样。我们可以看到ADE和FDE增加，因为多样性采样器旨在专注于探索更多不同的可能模式，而不是匹配数据的可能性。因此，我们观察到当nacc= 0时，APD可以达到约18。当nacc增加时，我们观察到准确性度量（ADE和FDE）和多样性度量（APD）都减小。当nacc足够大时，准确性度量缓慢下降。当nacc= 50时，这意味着所有样本都是从精度采样器生成的，我们8171观察到APD减小到大约6，并且准确度指标实现最佳性能。ADE↓FDE↓0.9410.4590.4330.4210.4130.4110.407 0.4041.1700.5980.5510.5290.5150.5100.504 0.501APD ↑18.7918.1617.1415.7314.0412.029.2655.927τ= 100，非短期n访问07142128354250ADE↓FDE↓0.5040.4310.4170.4090.4060.4020.401 0.4020.5800.5230.5050.4950.4910.4860.488 0.497图5. 根据Human3.6M数据集的n，APD、ADE和FDE。红色和棕色条表示准确度指标ADE和FDE。蓝色条表示APD。APD ↑7.3467.3977.3607.2346.9976.6836.2555.651表2.在Human3.6M数据集上与不同τ使用具有τ= 100的Oracle，即，预言机的预测时域不是短期的，并且该时域与目标预测时域相同，并且多样性低于具有τ= 25的预测时域。结果表明，短预测时间的预言确实增加了离散度.我们还比较了具有不同τ的两个模型的不同度量，结果总结在表2. 我们注意到，由于所有样本均来自准确度采样器，因此，τ= 100和τ= 25的两个模型的nacc= 50的然而，当nacc减小时，我们观察到由τ= 100的预言机监督的模型的多样性不会增加，历史历史电话：+86-10 - 6666666传真：+86-10 - 6666666电话：+86-10 - 6666666传真：+86-10 - 6666666(a) 预测因子样本，τ=25。多了我们还观察到，当nacc大于28时，oracle监督的模型（τ=100）的ADE和FDE没有太大变化，当nacc小于14时，APD没有太大变化。这是合理的，因为由τ= 100的预言机监督的模型只探索有限的模式，并且与τ= 25的预言机监督的模型相比，可能的模式较少。它还支持我们的(b) 来自预测因子的样本，τ=100。图6.在不同的预言机上对Hu- man3.6M数据集上预测运动的末端姿态进行可视化。图6a示出了具有oracle（τ=25）的预测器的性能。图6b示出了具有oracle（τ=100）的预测器的性能。在每个图中，第一行是从准确度先验函数生成的样本。第二行是从多样性先验函数生成的样本。6.6. 消融分析使用短期Oracle预测时域τ为了研究将预测时域划分为多个短期预测时域是否有助于预测器发现更多可能的模式，我们使用具有不同预测时域长度τ的Oracle来评估我们的模型。我们比较了由τ= 25的短期预言监督的框架和由具有预测范围全长的预言监督的框架，即，预测不被划分为短期连续性。我们在图6中显示了Human3.6M数据集的结果。我们可以看到当7. 结论在这项工作中，我们提出了一个多目标多样的人类运动预测框架，它可以使可调采样在测试时间。为了提高预测姿态的多样性，我们引入了一个短期预言来指导预测器发现未来姿态的更这样的框架克服了似然抽样和多样性抽样之间的权衡。由于多目标结构和短期预言，我们提出的方法在准确性和多样性方面达到了最先进的性能实验结果和烧蚀研究证明了该方法的有效性可以研究几个首先，由于我们提出的方法是一个通用的框架，更复杂的结构，如图形神经网络和Transformer可以被纳入。其次，我们目前假设短期预言的水平带是固定的。如何动态地确定短期地平线将是未来的工作。τ= 25，短期n访问07142128354250历史GT0123456789建议短期神谕确实有助于前，历史GT0123456789在发现更多可能的未来运动的同时，保持了预测的准确性8172引用[1] Emre Aksan、Manuel Kaufmann和Otmar Hilliges。结构化预测有助于三维人体运动建模。在IEEE/CVF计算机视觉国际会议论文集，第7144-7153页，2019年。2[2] Mohammad Sadegh Aliakbarian，Fatemeh Sadat Saleh，Mathieu Salzmann，Lars Petersson，Stephen Gould，andAmirhossein Habibian.通过混合匹配扰动学习人体运动的变化。arXiv预印本arXiv：1908.00733，2019。一、二[3] Andrea Bajcsy ， Somil Bansal ， Ellis Ratner ， Claire JTomlin，and Anca D Dragan.一种用于人体运动预测的鲁棒控制框架。IEEE Robotics and Automation Letters，6（1）：24-31，2020。1[4] Andrea Bajcsy，Anand Siththaranjan，Claire J Tomlin，and Anca D Dragan.分析在线适应的人类模型在2021年IEEE机器人和自动化国际会议上，第 2754-2760 页IEEE，2021。1[5] Emad Barsoum ， John Kender ， and Zicheng Liu. Hp-gan：通过gan进行概率3d人体运动预测。在IEEE计算机视觉和模式识别研讨会会议的论文集，第1418-1427页，2018年。二、七[6] Justin Bayer ， Daan Wierstra ， Julian Togelius ， andJürgen Schmidhuber. 进化记忆细胞结构的序列学习。在人工神经网络国际会议上，第755-764页Springer，2009.2[7] Yoshua Bengio Aaron Courville和Pascal Vincent表示学习：回顾与新的视角。IEEE Transactions on PatternAnalysis and Machine Intelligence ， 35 （ 8 ）： 1798-1828，2013. 2[8] Apratim Bhattacharyya ， Michael Hanselmann ， MarioFritz，Bernt Schiele，and Christoph-Nikolas Straehle.用于结构化序列预测的条件流变分自编码器arXiv预印本arXiv：1908.09008，2019。4[9] Apratim Bhattacharyya，Bernt Schiele，and Mario Fritz.基于“多个最佳”样本目标的精确和多样的序列采样在IEEE计算机视觉和模式识别会议论文集，第8485-8493页7[10] 马修·布兰德和亚伦·赫茨曼时尚机器。在Proceedings ofthe 27th annual conference on Computer graphics andinteractive techniques，pages 183-192，2000中。2[11] 曹德福，李佳晨，马恒博，富冢正义。用于弹道预测的谱时间图神经网络。在2021年IEEE国际机器人与自动化会议（ICRA）上，第1839IEEE，2021。2[12] Kyunghyun Cho ， BartVanMerriënboer ， CaglarGulcehre，Dzmitry Bahdanau，Fethi Bougares，HolgerSchwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078，2014。2[13] Chiho Choi，Joon Hee Choi，Jiachen Li，and SrikanthMalla.自动驾驶的共享跨模态轨迹预测。在IEEE/CVF会议上计算机视觉和模式识别，第244-253页，2021年。1[14] Chiho Choi和Behzad Dariush。展望未来的轨迹预测关系。在IEEE/CVF计算机视觉国际会议论文集，第921-930页，2019年。1[15] Enric Corona，Albert Pumarola，Guillem Alenya，andFrancesc Moreno-Noguer.上下文感知的人体运动预测。在IEEE/CVF计算机视觉和模式识别会议论文集，第6992- 7001页，2020年。14[16] Antonia Creswell、Tom White、Vincent Dumoulin、KaiArulkumaran、Biswa Sengupta和Anil A Bharath。生成对抗网络：概述。IEEE信号处理杂志，35（1）：53-65，2018。2[17] Michal Der

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

多目标人体运动预测的知识蒸馏及准确性与多样性的平衡

知识蒸馏重点改进方向

yolov8知识蒸馏

基于知识蒸馏的目标检测

知识蒸馏与信息蒸馏有什么区别

yoloV5知识蒸馏

yolov8 知识蒸馏

目标检测知识蒸馏代码实现

知识蒸馏python代码实现预测天气数据集模型

如何将知识蒸馏和小样本目标检测结合

yolov5v6.0知识蒸馏

目标检测知识蒸馏损失函数

yolov5知识蒸馏

知识蒸馏怎么压缩模型

yolov8剪枝与知识蒸馏

yolov7 知识蒸馏

cwd知识蒸馏温度设置

基于图的知识蒸馏嵌入一致性

yolo知识蒸馏技术

知识蒸馏的原理是什么

使用知识蒸馏的方法进行模型知识迁移，允许多个教师模型之间异构。对这句话进行扩展

最新资源