没有合适的资源?快使用搜索试试~ 我知道了~
SOMA:基于光学标记的MoCap自动求解
11117SOMA:基于光学标记的MoCap自动求解Michael J. 黑色德国图宾根马克斯·普朗克智能系统研究所{nghorbani,black} @ tuebingen.mpg.de图1:SOMA将原始运动捕捉(mocap)点云(黑点)转换为标记标记(彩色点)。黄色的立方体是检测到的“鬼”点;例如虚假反射、非主体标记或未识别点。 利用标记的mocap,我们使用MoSh拟合SMPL-X体(蓝色网格)[26,28]。摘要基于标记的光学运动捕捉(mocap)是计算机视觉、医学和图形学中获取精确三维人体运动的这些系统的原始输出是有噪声的和不完整的3D点或点的短轨迹。为了有用,必须将这些点与捕获的对象上的对应标记相关联;即“标记”。给定这些标签,然后可以商业自动标记工具在捕获时需要特定的校准程序,这对于存档数据是不可能的。在这里,我们训练了一种名为SOMA的新型神经网络,它采用具有不同数量点的原始mocap点云,在没有任何校准数据的情况下按比例标记它们我们的关键见解是,虽然标记点云是高度模糊的,但3D身体对解决方案提供了强大的约束,可以通过基于学习的方法加以利用。为了实现学习,我们生成大量的模拟噪声和地面实况mocap标记的训练集,这些标记由AMASS的3D身体动画。SOMA利用具有堆叠的自注意元素的架构来学习3D身体的空间结构和最佳传输层来约束分配(标记)问题,同时拒绝离群值。我们对SOMA进行了广泛的定量和定性评估。试着SOMA比现有的最先进的研究方法更准确和鲁棒,可以应用于商业系统无法应用的地方。我们自动标记使用各种技术捕获的4个不同数据集的超过8小时的归档mocap数据,并输出SMPL-X身体模型。该模型和 数 据 发 布 于 www.example.com , 用 于 研 究 目 的https://soma.is.tue.mpg.de/。1. 介绍基于标记的光学运动捕捉(mocap)系统记录由放置在受试者身体表面上的关键位置处的一组标记反射或发射的光的2D红外图像。随后,mocap系统将标记的精确位置恢复为稀疏且无序的点或短轨迹的序列这些系统经过来自这样的系统的丰富变化的mocap数据被广泛用于在动作识别、运动合成、人体运动建模、姿态估计等中训练机器学习方法。尽管如此,最大的现有mocap数据集AMASS [28]具有约45小时的mocap,比现场使用的视频数据集小得多。Mocap数据有限,因为捕获和处理它是昂贵的。尽管有其价值,但世界上有大量的11118这就是MOCAP的问题在于,为了求解3D身体,原始mocap点云(MPC)必须被“标记”;也就是说,点必须被分配到对象身体上的这是具有挑战性的,因为MPC是噪声和稀疏的,并且标记问题是模糊的。现有的商业工具,例如[21,27],提供部分自动化,然而没有一个提供完整的解决方案来自动处理标记布局中的变化,即:所使用的标记的数量和它们在身体上的粗略放置、受试者体型和性别的变化、以及捕获技术之间的变化,即主动与被动标记或系统品牌。这些挑战通常妨碍了归档数据的成本有效的标记,并且通过要求手动清理而增加了新捕获的成本。自动化mocap标记问题已经由研究团体进行了检查[14,16,19]。现有方法集中于通过去噪来修复已经标记的标记中的错误[8,19]。 最近的工作在匹配框架中制定了该问题,直接预测限制设置中固定数量的标记的标签分配矩阵[14]。简而言之,现有方法限于受限的运动范围[14]、单个身体形状[8、16、19]、特定捕获场景、特定标记布局,或者需要对象特定的校准序列[14、21、27]。其他方法需要高质量的真实mocap标记数据进行训练,有效地阻止了它们对新场景的可扩展性[8,14]。为了解决这些缺点,我们采取数据驱动的方法,并训练一个神经网络端到端的自注意组件和最佳传输层,以预测每帧约束的不精确匹配之间的运动帽点和标签。拥有足够的给定一个标记布局,我们生成具有真实噪声的合成mocap点云,然后训练一个特定于布局的网络,该网络可以处理整个mocap数据集的真实变化。 虽然以前的工作已经利用了合成数据[16,19],但它们在体型,运动,标记布局和噪声源方面受到限制。即使使用MPC的大型合成语料库,标记包含离群值和缺失数据的稀疏3D点的云也是高度模糊的任务。解决方案的关键在于点是结构化的,因为它们随铰接姿势而变化。具体地,它们受到人体的形状和运动的约束。如果有足够的训练数据,我们的注意力框架就学会了在不同的尺度上利用局部语境此外,如果没有噪声,则标签和点之间的映射将是一对一的。我们将这些概念制定为统一的培训目标,从而实现端到端的模型培训。具体而言,我们的配方利用Transformer架构来捕获本地和全球的上下文信息使用自我关注(Sec. 4.1)。通过生成具有变化的身体形状和姿势的合成mocap数据,SOMA隐含地学习底层可变形人体的运动学约束(Sec.4.4)。 一个一对一的匹配之间的3D点和标记,受到缺失和spurious数据,是通过一个特殊的归一化技术(第12节)。4.2)。 为了提供与[28]一致的公共输出框架,我们使用MoSh [26,28]作为后处理步骤以将SMPL-X [34]拟合到标记点;这也有助于处理由遮挡或丢弃的标记引起的丢失数据。SOMA系统概述图。3 .第三章。为了生成训练数据,SOMA需要一个粗略的标记布局,可以通过单个标记帧获得,这需要最小的努力。之后,虚拟标记自动放置在SMPL-X主体上,并通过AMASS的运动进行动画[28]。除了常见的mocap噪声模型,如遮挡[14,16,19]和鬼点[16,19]之外,我们还引入了新的术语来改变身体表面上的标记物放置, 并且我 们从AMASS中的 真实标 记物数据 复制4.4)。我们为每个mocap数据集训练一次SOMA,除了一个布局框架之外,我们不需要任何标记的真实数据。在训练之后,给定噪声MPC帧作为输入,SOMA预测每个点的标签上的分布,包括鬼点的空标签。我们在几个具有挑战性的数据集上评估了SOMA,发现我们在数值上优于当前的最新技术水平,同时更加通用。此外,我们使用Vicon mocap系统捕获新的MPC数据,并将手工标记的地面实况与Sho¯gun和SOMA输出进行比较。SOMA执行类似的商业系统相比。最后,我们将该方法应用于归档mocap数据集:Mixamo [10],DanceDB [4]和CMU mocap数据集[11]的先前未发布部分本文的主要工作包括:(1)提出了一种新的利用自注意力处理稀疏变形点云数据的神经网络结构;(2)直接消耗mocap点云并输出标记标签上的分布的系统;(3)推广到真实mocap数据集的新颖的合成mocap生成流水线;(4)与存档数据、不同的mocap技术、差的数据质量以及变化的主题和运动一起工作的鲁棒解决方案;(5)220分钟的SMPL-X格式的经处理的mocap数据,训练的模型和代码被发布用于研究目的。2. 相关工作学习处理MoCap数据首先由[45]在有限的场景中引入。最近,[14]提出了一种基于学习的mocap标记模型,该模型直接预测44个输入标记的排列 可能的排列的数量是禁止的,因此,作者将它们限制在训练期间向网络显示的有限池中。11119不||联系我们| |测试和测试时间。此外,运动被限制为四类:步行、慢跑、跳跃和坐。此外,[14]本质上不能处理鬼点。 我们直接与他们进行比较,发现我们更准确,同时消除了局限性。存在对已经标记的mocap标记的可能的不正确标记进行“降噪”的解决方案 这些方法将标记归一化为标准身体尺寸,并且依赖于脆弱的启发法来去除鬼点,并且必须首先计算身体的全局取向。 我们的方法更早一步开始,使用未标记的点云,并输出完全标记的序列,同时学习拒绝鬼点并处理不同的身体形状。点云数据的深度学习需要一个解决方案来处理可变数量的无序点,以及一种定义“邻域”概念的 为了解决这些问题[13,47]将3D点投影到2D图像中,并[30,55]将点云光栅化为3D体素,以使用传统的卷积运算符。Han等人 [16]通过将手MPC数据投影到多个2D深度图像中,利用该想法来标记手MPC数据。使用这些,他们训练一个神经网络来预测固定形状的手上19个已知标记的3D位置,在断开的图形匹配步骤中将标记的标签分配给最接近它的点相比之下,我们的管道直接与mocap点云一起工作,并预测每个点的标签上的分布,端到端,没有断开的阶段。PointNet方法[7,36]还直接处理3D点云,同时使用置换不变池化算子学习局部特征。其他非本地网络[54]和基于自我注意力[52]的模型可以全局地关注,同时学习局部地关注输入的特定区域。这个简单的公式使得能够在稀疏点云上学习鲁棒的特征,同时对可变数量的点不敏感。SOMA是这种思想在mocap数据中的一种新应用。节中4.1我们证明了通过堆叠多个自注意元素,SOMA可以在多个尺度上学习丰富的点特征,从而实现鲁棒的,置换不变的mocap标记。不精确图匹配公式化了在模型图的节点到数据节点之间找到分配的问题,其中前者偶尔具有比后者更少的这通常是NP难问题[1],并且由于遮挡和虚假数据点而对mocap具有挑战性。 这种图匹配问题经常出现在计算机视觉中,并且通过工程成本[5,25,49]或学习成本[6,40]来解决。古尔-巴尼等[14]通过假设 mocap框架的图与标签的图同构,使用Sinkhorn归一化[2,44]的近似解将其应用于mocap我们通过考虑标签和点之间的不精确匹配,通过选择最佳运输[53]解决方案来放松这一假设骨架形式的身体模型被广泛用于约束标记问题并求解身体姿势[9,18,33,37,38,41,41]。最近[24,46]采用卡尔曼滤波的变体来实时估计给定身体骨架的约束配置,但易受遮挡和鬼点的影响。迄今为止最成熟的商业解决方案是Shogun[27],它可以产生实时标记和骨架求解。虽然这是一款出色的产品,但它仅适用于特定于Vicon的标记布局,并且需要特定于对象的会话校准。因此,它不是一般的解决方案,并且不能用于大多数归档mocap数据或许多应用中所需的定制标记布局。MoSh [26,28]超越了简单的骨骼模型,并利用从大型身体扫描语料库中学习的逼真3D身体表面模型[23,34,56]。 它采用标记的mocap标记以及它们在身体上放置的粗略布局,并求解身体参数和标记在身体上的精确放置。我们采用MoSh将不同数据集的自动标记mocap后处理为统一的SMPL-X表示。3. MoCap标签问题mocap点云MPC是具有T三维点MPC={P1,. . .,PT},(1)Pt={Pt,1,. . .,Pt,n},Pt,i∈ R3,(2)其中,对于每个时间步长t1:T,Pt=nt。我们将MPC可视化为图1中的图表图2(顶部),其中每行保持由mocap硬件重构的点,并且每一列表示MPC的帧。 每个点都未标记,但这些点通常可以在短时间间隔内进行本地跟踪,如图中的灰色条所示。 注意,这些轨迹片段中的一些可能对应于噪声或“鬼点”。对于像Vicon [27]这样的无源标记系统,被遮挡的点通常出现在新的行中;即对于像PhaseSpace [22]这样的主动标记系统,由于遮挡,轨迹中可能存在间隙图中显示了这两种类型。MOCAP标注的目标是将每个点(或tracklet)分配给相应的标记标签L={11,. . . ,1M,null},(3)在标记布局如图所示 2(中间),其中每种颜色是不同的标签。标记标签的集合包括用于不是有效标记的点的额外空标签,因此L=M+1。这些在图中显示为红色。有效的点标签和它们的轨迹受到若干约束:(Ci)每个点Pt , i可以被分配给至多一个标签,反之亦然;( Cii ) 每 个 点 Pt , i 可 以 被 分配 给 至 多 一 个 轨迹 ;(Ciii)标签null是一个或多个标签。11120∈∈∈图2:MoCap标签问题。(top)原始、未标记的MoCap点云(MPC)。每列表示mocap序列中的时间戳,并且每个单元格是3D点或短轨迹片段(示出为灰色行)。(中间)显示标记后的MPC 颜色对应于标记布局中的不同标签。红色对应于鬼点(异常值)。红色斜线显示了被mocap系统错误地跟踪为实际标记的鬼点(底部)示出了最终结果,其中tracklet粘合在一起以形成仅保留有效标记的完整轨迹请注意,标记遮挡导致黑色(缺失)部分。可以与多个点匹配并且可以在每个帧中的多个轨迹片段中出现4. Soma4.1. MoCap点云SOMA系统管线总结见图。3 .第三章。SOMA的输入是稀疏无序点的单个帧,其基数随着每次篡改而变化,这是由于遮挡和鬼点。为了处理这些数据,我们利用多层自我注意力[52],采用多头公式,通过残差操作连接[17,52]。多个层增加了模型的容量,并使网络能够具有点云的局部和全局视图,这有助于消除点的歧义。我们将自我注意广度定义为从我们的验证数据集中挑选的随机序列的注意力权重的平均值图4显示了在第一个和最后一个自我注意力层的标记上的注意力;红色的强度与注意力的量相关 注意,这些点以规范姿势示出在身体上,但是实际的MOCAP点云数据处于许多姿态。更深层的人将注意力集中在测地线上接近的身体区域(手腕:上臂和下臂)或高度相关的区域(左脚:右脚和左膝)上,这表明网络已经弄清楚了身体的空间结构和各部分之间的相关性,即使观察到的数据点通过关节在欧几里得空间中进行了非线性变换。在Sup。垫, 我们提供了进一步的计算细节,并证明了自我注意广度作为网络深度的函数。此外,我们提出了一个模型选择实验来选择最佳的层数。4.2. 约束点标记在架构的最后阶段,SOMA预测非正方形得分矩阵SRnt×M。为了满足约束Ci和Cii,我们采用了由[ 35 ]描述的最佳传输[40]的对数域稳定实现。最佳传输层取决于迭代Sinkhorn归一化[2,43,44],其将行和列约束为可用点和标签的总和为1。为了处理丢失的标记和鬼点,在[40]之后,我们通过向得分矩阵附加额外的最后一行和列来引入垃圾箱这些可以被分配给多个不匹配的点和标签,因此分别求和为n,t和M。在归一化之后,我们达到了增强的赋值矩阵A′[0,1](nt+1)×|L|,从中我们删除不匹配标签的附加行,产生最终的归一化分配矩阵A[0,1]nt×|L|.而Ghorbani et al.[14]用一个类似的分数正常-然而,在原始形式下,他们的方法不能处理不匹配的情况,这对于处理真实的mocap点云数据至关重要4.3. 解决身体问题一旦标记了mocap点,我们就典型的mo- cap解算器[19,21,27]将骨骼模型拟合到标记的标记。相反,在这里,我们使用MoSh [26,28]将整个铰接式3D人体网格拟合到标记 该技术提供了具有骨架结构的动画身体,因此在传统方法中没有任何损失,同时产生完整的3D身体模型,与其他最近的mocap数据集一致[28,48]。这里我们拟合SMPL-X身体模型。其为具有手部和面部捕获的数据集提供了向前兼容性有关MoSh的更多详细信息,请读者参阅原始论文[26,28]。4.4. 合成MoCap生成人体模型。 为了综合生成具有地面真实标签的真实mocap训练数据,我们利用性别中立的最先进的统计身体模型SMPL-X [34],该模型使用基于顶点的线性混合蒙皮和学习的校正混合形状来输出全局11121∈∈∈∈|不∈H不k+1不不图3:我们仅使用合成数据训练SOMA, Sec。4.4 在运行时,S0MA接收具有变化数量的点的未处理的3D稀疏运动捕捉点云Pt。这些是居中的,并通过管道,由自我关注层,Sec。4.1,以及最终的归一化以鼓励双射标记点对应,Sec.四点二。网络输出分配给每个点的标签Lt,其对应于训练标记布局v中的标记,具有附加的空标签。最后,使用MoSh、Sec将3D主体拟合到标记的点四点三。特征的维数设{K,V,Q}∈Rn×d模型,f∈Rn×d,f∈ Rn ×256,A ∈ Rn ×|L|.位置|V |= 10,475个顶点:SMPL-X(θb,β,γ):R| θb |×个|β值|×个|γ射线|→ R3N。(四)这里θbR3(J+1)是身体姿势的轴角表示,其中J=21是除了用于全局旋转的根关节的基础骨架的身体关节的数量我们分别用βR10和γR3参数化身体形状和整体平移。与原始SMPL-X符号相比,这里我们丢弃控制面部表情、面部和手部姿势的参数;即 关于ψ,θf,θh。我们在SMPL-X上构建,以使SOMA能够扩展到具有面部和手部标记的数据集,但如果需要,SMPL-X可以转换为SMPL关于更多细节,我们请读者参考[34]。MoCap噪声模型各种噪声源可以影响mocap数据,即:对象身体形状、运动、标记布局和标记在身体上的准确放置、遮挡、鬼点、mocap硬件固有特性等。为了学习鲁棒的模型,我们利用AMASS [28],我们用中性性别SMPL-X身体模型重新拟合并子采样到统一的30 Hz 。 为 了 对 受 试 者 体 型 具 有 鲁 棒 性 , 我 们 从CAESAR数据集[39]生成了3664个身体的AMASS运动具体来说,为了训练,我们从AMASS的以下mocap子数据集中获取参数:CMU [11],Transitions [28]和PosePrior [3] 。 对 于 验 证 , 我 们 使 用 HumanEva [42] ,ACCAD [12]和TotalCapture [51]。给定目标数据集的标记布局v作为长度为M的向量,其中索引对应于标记标签和SMPL-X身体网格上的顶点的条目,连同标记-身体距离d的向量,我们可以将虚拟标记X∈RM ×3放置在身体上:X= SMPL-X ( θb , β , γ ) |v+N|v⊙ d.(5)这里,NRV ×3是顶点法线的矩阵,并且V选取与由标记布局定义的顶点相对应的元素(顶点或法线)的向量。有了这个,我们产生了一个库的mocap帧和破坏他们与各种可控的噪声源。具体地,为了生成噪声布局,我们在由标记布局指定的原始顶点的1-环邻域中随机采样顶点,有效地为每个数据点产生不同的标记放置v~。代替对先前方法[8,14,16,19]常见的全局身体方向进行归一化,我们向每个身体帧的全局根方向添加随机旋转r[0,2π]此外,我们从真实的AMASS mocap标记中复制每个标签的噪声,以帮助推广到mocap硬件差异。我们创建AMASS的模拟和实际标记之间的差异的数据库,并从该噪声模型中抽取随机样本添加到合成标记位置。此外,我们通过从3D高斯分布中抽取随机样本来将鬼点附加到所生成的mocap帧,其中平均值和标准偏差分别等于标记位置的中值和标准偏差此外,为了模拟标记物遮挡,我们从表示标记物的索引的均匀分布中获取随机样本,并且通过将其值替换为零来遮挡所选择的标记物。每个帧中添加的鬼点和遮挡的数量也可以受到随机性的影响在测试时,为了模拟被动mo- cap系统的中断轨迹,我们随机选择一个轨迹并在随机时间戳中断它为了中断轨迹,我们在中断开始时复制标记值,并创建新的轨迹,该新的轨迹的先前值直到中断为零,其余的由感兴趣的标记替换断裂后的原始标记轨迹被零替换。最后,在训练和测试时间,我们随机排列标记以创建一组无序的3D mocap点。与[14]相反,排列是随机的,并且不限于特定的排列集合。0模型11122--′′′′2±×个i、jΣ火车测试B B+C B+G B+C GAcc.F1Acc.F1Acc.F1Acc.F1B97.9397.3783.5581.1186.5485.9773.9571.93B+C97.2596.3197.2196.0595.3795.2993.7992.77B+G98.0697.1996.1494.0397.8797.6595.2793.62B+C+G95.7494.4495.5693.9195.7395.2295.5094.44表1:在具有添加的噪声的HDM05的真实mocap标记我们报告平均准确度和F1分数。图4:在规范姿势中 立方体示出了兴趣标记,并且颜色强度描绘了跨50个随机选择的序列的帧的注意力的平均值。每列显示不同的标记。在第一层(顶部),我们看到与最深层(底部)相比更广泛的关注4.5. 实现细节损失训练SOMA的总损失被公式化为,L=cILA+cregLreg,其中:vides点的tracklet,我们将tracklet的最频繁标签分配给所有成员点;我们称之为tracklet标签。 对于使用SOMA的详细示例,包括便于标记初始帧的一般模型,即“标签预充”,参见Sup。Mat.5. 实验评价数据集。我们用真实的标记数据和合成噪声在各种mocap数据集上定量地评估了SOMA;[15][16][17][18][19][ 个体数据集提供具有不同标记密度、受试者形状变化、身体姿势和记录系统的各种标记布局。我们从它们各自的公共接入点获取原始标记数据,并进一步用受控噪声破坏数据,即标记遮挡、鬼点和每帧随机混洗(第12节)。4.4)。 对于每帧实验,不使用断裂轨迹噪声。我们还收集了一个新的为了避免将超参数过拟合到测试数据集,LA =1Σi,jG′Wi,ji、j· Gi,j· log(Ai,j)、(6)我们利用单独的数据集进行模型选择和验证实验;即HDM 05 [32],含有215Lreg= ||ϕ||二、(七)A′ 是增广分配矩阵,G′ 是它的真实版本 W是对过度代表类的影响进行降权的矩阵,即空标签,通过其出现频率的倒数 Lreg是对模型参数的L2正则化。 有关更多体系结构的详细信息,请参见Sup. 垫..使用SOMA。自动标记流水线以可以大致类似于目标数据集的标记布局的如果数据集在标记布局中具有显著变化或许多移位或移除的标记,则需要每个主要变化一个标记帧。然后,我们为整个数据集训练一个模型。 在使用针对目标标记布局产生的合成数据进行训练之后,我们以每帧模式对mocap序列应用SOMA;即,独立地处理每个帧在GPU上,自动标记在非批处理模式下以52 12Hz运行,对于30帧的批处理运行时为1500±400Hz。在mocap硬件亲-序列,跨越4个受试者,平均使用40个标志物。评估指标。首先,我们报告每帧准确度的平均值和标准差以及F1分数的百分比。准确度是正确预测的标签在所有标签的比例精确度和召回率的调和平均值F1=2精度×召回率,(8)精度+召回率其中查全率是正确的预测标签相对于实际标签的比例,而查准率被认为是实际正确标签相对于预测标签的比例。mocap序列的最终F1分数是每帧F1分数的平均值。5.1. MoCap噪声生成在 这 里 ,我 们 使 用 各 种 合 成 噪 声 来 训 练 和 测 试SOMA。 训练数据是针对HDM05 的布局而 合 成 产 生的,如在第12节中所描述的。4.4 我们11123方法0每帧精确闭塞1 2 3 4 55+GHolzreiter等人[20个]88.1679.0072.42六 十七 点一六61.1352.10-Maycock等人[三十一]83.1979.3576.44七 十四 点九一71.1765.83-Ghorbani等人[14个] 97.1196.5696.1395.87 九十五点七五94.90-SOMA-Real99.0898.9798.8598.6898.4898.22 九十八点二九SOMA-合成99.1698.9298.5498.1797.6197.0795.13SOMA*98.3898.2898.1798.0397.8697.66 97.56表2:将SOMA与相同数据的先前工作进行比较。我们以三种不同的方式培训SOMA:一次使用真实数据;一次使用放置在从AMASS获得的相同运动的物体上的合成标记;最后一次使用第二节中产生的数据。4.4,用*表示。请参见Sup。Mat.标准偏差。对被合成噪声破坏的HDM05原始标记的测试。 B代表无噪声,B+C代表每帧多达5个标记被遮挡,B+G代表每帧多达3个鬼点,以及B+C+G代表遮挡和鬼点噪声的完全处理。表1显示了不同的训练和测试场景。一般来说,将模型训练噪声与真实噪声相匹配会产生最佳结果,但使用全噪声模型(B+C+G)进行训练会提供有竞争力的性能,并且在噪声水平未知时是一个很好的选择。使用更多噪声的训练提高了鲁棒性。5.2. 与以前工作的我们比较SOMA以前的工作在选项卡。2在相同条件下具体来说,我们使用[14]解释的BMLrub数据集的训练和测试数据分割。测试发生在具有合成噪声的真实标记上。我们用真实标记数据训练SOMA一次,用相同分裂的运动产生的合成标记训练一次。此外,我们用第二节中概述的完整合成数据训练SOMA。4.4 其他竞争方法的性能如[14]所报告SOMA的所有版本都优于以前的方法。使用合成标记和来自AMASS的各种训练姿势训练的模型(SOMA*)与在有限的真实数据或具有数据集特定运动的合成标记数据上训练的模型具有竞争力这可能是由于我们的噪声生成管道中的丰富变化与先前的工作相比,SOMA对增加的遮挡是鲁棒的,并且可以在没有额外的启发式方法的情况下处理鬼点;即Tab中的最后一列。二、5.3. 性能鲁棒性不同MoCap数据集的性能可能因标记密度、MoCap质量、主体形状和运动的变化而不同。 为了评估这种情况,我们采用三个全尺度mocap数据集,并用合成噪声破坏标记,包括多达50个破碎的轨迹,这些轨迹最好地模仿了现实的未标记mocap sce nario的情况。此外,我们评估tracklet标签解释在第二节。四点五分。表3示出了跨数据集的SOMA的一致的高性能当tracklet可用时,轨迹片段标记通常会全面提高性能。特定标记布局的子集或超集的性能可能会有所不同,因为这会引入“结构化”噪声。超集标记布局是数据集中所有标签的集合在超集标记布局上训练并在子集上测试的基础模型将受到结构化遮挡,而在子集上训练并在超集基础mocap上测试的模型将看到结构化鬼点。这些情况通常发生在数据集上,当试验协调员为使用更多或更少标记的特殊拍摄而即兴创作计划的标记布局时。或者,-10的标记为了定量确定性能方差的范围,我们采用验证数据集HDM 05的标记布局,并在渐进步骤中省略标记;选项卡.4.第一章在子集布局上训练并在基础标记(超集)上测试的模型显示出比在超集上训练并在减少的标记集上测试的基础模型更大的性能下降。5.4. 消融研究表5显示了SOMA最终性能中各种组分对验证数据集HDM05的影响自注意层和新的随机标记放置噪声在模型的整体性能中起着最重要的作用与Log-Softmax归一化相比,最佳传输层5.5. 应用与商业工具比较 为了直接与V icon的Sho ¯ gun自动标注工具进行比较,我们记录了一个新的“SOMA”mocap数据集,其中包含2个主题,执行11种运动类型,包括舞蹈,拍手,踢等,使用带有54个红外“Vantage 16”[ 27 ]摄像机的Vi- con系统,我们总共记录了69次运动,并有意使用Vicon首选的标记布局。我们手动标记该数据集,并将这些标签视为地面实况。我们使用SOMA(使用tracklet标记)和S ho¯gun处理重建的mocap点云数据。Tab中的结果6表明,SOMA实现了亚毫米精度和类似的性能相比,propriety工具,而不需要主体校准数据。在Sup。Mat. 我们呈现该数据集的进一步细节使 用 不 同 捕 获 技 术 和 未 知 受 试 者 校 准 处 理 真 实MoCap数据集如表所示。7 .第一次会议。对于每个数据集,仅使用合成数据在标记超集上训练SOMASOMAeffec- tively使运行MoSh的mocap点云数据提取逼真的机构。结果并不完美,并且我们手动移除不通过主观质量条的序列(参见Sup. Mat. 例如)。表7表明11124mmmm数据集每帧轨迹我的天啊表3:SOMA对各种数据集的真实标记数据的性能,其中受试者数量、身体姿势、标记和硬件细节变化很大 我们用额外的噪声破坏真实的标记数据,并忘记标签,在通过SOMA管道之前将其转换为原始MPC。#标记3 5 6 12移除Acc.F1Acc.F1Acc.F1Acc.F1基础模型基础MoCap95.35 ±6.5291.78 ±10.1394.40 ±7.3790.68 ±10.9094.08 ±7.0490.73 ±9.3891.75 ±8.3290.12 ±9.9693.41 ±7.8491.89 ±8.9790.73 ±9.3391.00 ±9.7188.25 ±14.0487.46 ±10.778.80 ±16.0786.78 ±12.00表4:标记布局变化的稳健性第一行:用全标记布局(超集)训练基础模型,并在来自具有省略标记(子集)的验证集(HDM05)的真实标记上逐帧第二行:每个变化的布局(子集)训练一个模型,并在基础mocap标记(超集)上测试。6. 结论SOMA解决了对运动中的人体的原始mocap点云序列进行鲁棒标记的问题,受到噪声和跨对象的变化、运动、标记放置、标记密度、mocap质量和cap-clock的影响。表5:HDM05数据集上SOMA组件的消融研究。这些数字反映了每个组件在SOMA的整体每帧性能中的贡献。我们采用完整的基础模型,每次删除一个真正的技术SOMA使用几项创新解决了这个问题,包括一个新的自我注意机制和一个处理离群值和缺失数据的匹配组件。我们使用几种技术在合成数据上训练SOMA端到端,以添加现实噪声,从而使真实数据能够生成。我们广泛地验证性能-V2V均值V2V中位数Acc.F1这是一个比以前更准确的SOMA寿君0.00±0.11 0.00100.0±0.00100.0±0.00Soma0.08± 2.09 0.00 99.94± 0.47 99.92± 0.64表6:SOMAvsS ho¯gun. 在一个手动标记的数据集与被动标记,我们比较SOMA对商业工具的标签性能和表面重建。类型点数受试者数量分钟成功率CMU-II [11]P40-25541116.3080.0%DanceDB [4]一3820203.3881.26%米萨莫[10]一38-9629195.3778.31%SomaP53-140218.27100%总533.32表7:用SOMA处理未清理、未标记的mocap数据集。 流水线的输入是具有可能变化的点数的MOCAP序列; SOMA将点标记为标记,然后将MoSh应用于数据以求解身体表面。P和A分别代表无源和有源标记系统MOCAP成功分钟数的百分比 失败通常是由于不良的mocap质量。请注意,SOMA数据集的质量非常高,有许多相机,这里的成功率是100%。有关示例渲染,请参阅随附的视频。这是一个简单的研究方法,并且在准确性上与商业系统相当,同时更加灵活。SOMA也可免费用于研究目的。局限性和未来的工作。SOMA执行每帧MPC标记,并且因此不利用时间信息。时间模型可以潜在地提高准确性。与任何基于学习的方法一样,SOMA在推广到训练数据之外的新运动方面可能然而,使用AMASS,训练数据的可变性很大,我们没有观察到泛化问题。通过在合成数据生成管道利用完整的SMPL-X身体模型,我们计划将该方法扩展到标记手部和面部标记。依赖于前馈组件,SOMA非常快,并且与合适的mocap求解器相结合,可以潜在地从mocap点云实时恢复身体。鸣谢:我们感谢Senya Polikovsky、Markus Höschle、GalinaHenz( GH ) 和 TobiasBauch 的 mocapfacilit y 。我 们 感 谢 AlexValisu 、 ElishaDenham 、 L eyreSa´nchezVin´uela 、 FelipeMattioni 和Ja kobR einhardt的mocap清理工作。我们感谢GH和Tsvetelina Alexiadis的试验协调。我们感谢Benjamin Pellkofer和JonathanWilliams的网站开发。披露:https://files.is.tue.mpg。de/black/CoI/ICCV2021.txtAcc.F1Acc.F1标记运动帧科目BMLrub [50]KIT[29]BMLmovi[15]98.15 ±2.7894.97 ±2.4295.90 ±4.6597.75 ±3.2395.51 ±2.6595.12 ±5.2698.77 ±1.5895.46 ±1.8797.33 ±2.2998.65 ±1.8997.10 ±2.0096.87 ±2.604153673013388418633757725350452412554471114889版本精度F1基地95.50 ±5.3394.73±5.5295.21 ±6.8391.51 ±10.6989.41 ±8.0611.36 ±6.5494.66 ±6.0393.73 ±6.2594.31 ±7.5790.10 ±11.4787.78 ±8.857.54 ±6.22- AMASS噪声模型- CAESAR体- Log-Softmax代替Sinkhorn- 随机标记放置- Transformer11125引用[1] Mohammad Abdulkader Abdulrahim. 标记图匹配的并行。美国 科罗拉多矿 业学院博士 论文, 1998年。AAI0599838。三个[2] Ryan Prescott Adams和Richard S.泽梅尔 排名通过Sinkhorn Propagation,2011. 三、四[3] 作者声明:Michael J.黑色.用于3D人体姿势重建的姿势调节关节角度限制。在CVPR中,第1446-1455页,2015年。五个[4] Andreas Aristidou,Efstathios Stavrakis,Margarita Pa-Paefthimiou,GeorgePapagiannakis,andYiorgosChrysan-thou. 基于风格的舞蹈动作分析。The Visual Computer,34:1725二、八[5] 亚历山大角塔玛拉?贝格Berg和Jitendra Malik。使用低失真对应的形状匹配和对象识别。在CVPR,第1卷,第26-33页,2005中。三个[6] Ti be'rioS. 朱利安?卡埃塔诺 李成,郭伟.Le和Alex J.斯莫拉学习图匹配。ICCV,第1-8页,2007年。三个[7] R. Qi Charles,Hao Su,Mo Kaichun,and LeonidasJ.GuibasPointnet:对点集进行深度学习,用于3D分类和分割。在CVPR,第77-85页,2017年。三个[8] 陈康,王玉盘,张松海,徐森哲,Weidong Zhang,and Shi-Min Hu.MoCap-Solver:光学运 动 捕 捉 数 据 的 神 经 解 算 器 。 ACMTransactionsonGraphics(TOG),40(4),2021。二三五[9] 雷纳托·孔蒂尼 身体部分参数,第二部分。人工Limbs,16(1):1-19,1972. 三个[10] Adobe Mixamo MoCap数据集,2019。二、八[11] 卡内基梅隆大学(CMU)MoCap数据集,2019年。二、五、八[12] 艺术与设计高级计算中心(Advanced Computing Centerfor the Arts and Design,AC-CAD)MoCap数据集,2019年。五个[13] 刘浩戈,梁辉,袁俊松,丹尼尔·塔尔曼. 单深度图像中的 鲁棒3D 手 部姿 势估 计: 从单 视图 CNN 到 多视 图CNN。在CVPR,第3593-3601页三个[14] Saeed Ghorbani、Ali Etemad和Nikolaus F.特洛伊自动-通过排列学习在光学运动捕获中标记。在计算机图形学进展,第167-178页,Cham,2019年。施普林格国际出版社. 二、三、四、五、七[15] Saeed Ghorbani 、 Kimia Mahdaviani 、 Anne Thaler 、Konrad Kordi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功