没有合适的资源?快使用搜索试试~ 我知道了~
81720基于4D骨骼增强的上下文感知序列对齐0Taein Kwon 1 Bugra Tekin 2 Siyu Tang 1 Marc Pollefeys 1 , 201 ETH Z¨urich计算机科学系 2 Microsoft MR & AI Lab, Z¨urich0图1.序列对齐。我们提出了一种骨骼自监督学习方法,使用对齐作为预训练任务。我们的工作可以对手和身体的姿势序列进行对齐,如上图所示的H2O [29]和PennAction[67]数据集。我们对齐的方法依赖于一个上下文感知的注意力模型,它在序列内部和序列之间结合了空间和时间上下文。姿势数据为对齐和下游任务(如相位分类和相位进展)提供了有价值的线索,因为它对不同的摄像机角度和背景变化具有鲁棒性,同时对实时处理非常高效。0摘要0在视频中对细粒度人类动作进行时间对齐对于计算机视觉、机器人技术和混合现实等众多应用非常重要。最先进的方法通过利用强大的深度卷积神经网络直接学习基于图像的嵌入空间。虽然这种方法很直接,但其结果远非令人满意,对齐后的视频存在严重的时间不连续性,需要额外的后处理步骤。最近在野外进行人体和手部姿势估计的进展为解决视频中人体动作对齐任务提供了新的方法。在这项工作中,我们基于现成的人体姿势估计器,提出了一种新颖的上下文感知自监督学习架构来对齐动作序列,我们称之为CASA。具体而言,CASA利用自注意力机制和交叉注意力机制来结合人类动作的空间和时间上下文,从而解决了时间不连续性问题。此外,我们引入了一种由3D骨骼表示的新型4D增强技术来增强自监督学习方案。我们对我们方法的关键组件进行了系统评估。我们在三个公共数据集上的实验证明,CASA在相位进展和Kendall'sTau分数方面显著优于之前最先进的方法。01. 引言0视频中人类活动的时间对齐旨在识别相同动作的两个视频实例之间的逐帧对应关系,如图1所示。由于动作速度的差异大、自遮挡严重以及不同视频之间背景多样,这是一项具有挑战性的任务。此外,准确的人类活动时间对齐需要对人体运动进行语义理解和动作阶段的因果推理。当涉及到以第一人称视角为中心的细粒度手部活动时,由于视点的变化和佩戴摄像头者的身体运动,这些挑战被放大。最先进的方法利用大规模数据集和强大的深度卷积神经网络来学习基于图像的表示来执行时间视频对齐。尽管在准确性和先进的学习方案方面取得了快速进展,但结果仍远未能应用于实际应用。最近的进展和日益丰富的头戴设备(例如Microsoft HoloLens[56])为沟通和协作提供了新的方式。例如,HoloLens的内置手部跟踪系统可以实时准确地估计摄像头佩戴者的手部姿势。这样的系统为基于从离线提取的3D骨骼运动的细粒度手部动作在视频中进行对齐提供了新的方法。81730图2.使用4D增强的自监督学习。给定一个序列及其在4D中的增强,我们优化我们的潜在空间,使得匹配帧(zi和z'j)之间的特征距离最小化,而非匹配帧(zi和z'p)之间的特征距离则被鼓励拉开。0架构估计器。这种设置的一个吸引人的应用是利用混合现实头戴设备来弥合专家和学习者之间的技能差距。传统上,从专家到学习者的技能转移并不容易。专家经常不得不靠近学习者来教学和检查个人。通过从他们的视角共享的视频和设备上的手部姿势估计,提供在专家和学习者之间进行细粒度手部动作的准确时序对齐方法将显著提高技能转移指导的效率和精确性。受到这些观察的启发,我们提出了一种用于人体动作对齐任务的从视频中提取的3D骨架对齐方法。我们提出了CASACASA,即上下文感知序列对齐,这是一种使用4D增强的新颖的上下文感知自监督学习框架,用于3D骨架。如图2所示,我们的框架通过注意模块推理上下文,并使用我们的新颖的4D增强策略进行自监督学习。通过增强和原始序列之间的地面实况匹配,我们可以学习强大的表示以执行下游任务。此外,我们基于3D骨架的对齐方法不仅适用于手部动作分析,还可以应用于提取视频中的全身动作,使用现成的身体估计器从视频中提取3D人体。尽管在这种情况下,重建的3D人体可能不如混合现实设备的手部跟踪结果准确,但由于新颖的上下文感知网络架构和由强大的4D增强方案启用的自监督学习框架,我们的方法仍然具有很好的泛化能力。我们进行了大量实验证明了CASA在三个公共数据集上的有效性和适用性:Penn Action [67],IKEAASM [2]和H2O [29]。CASA取得了0在三个数据集的大多数阶段分类任务中,我们的方法在性能上表现最佳。此外,在阶段进展和Kendall'stau方面,我们的方法在先前的最先进方法[16,22]上显著优于。结果表明了了解动作背景的重要性以及利用3D姿势进行细粒度视频对齐任务的适用性。0贡献。总之,我们的贡献包括:(1)我们提出了一种新颖的基于注意力和上下文感知的密集对齐框架,用于细粒度人体动作分析;(2)我们引入了一种针对3D骨架的自监督学习的新颖的4D增强策略,考虑了时空增强;(3)据我们所知,这是第一项使用自监督学习进行基于3D骨架的细粒度视频对齐的工作。我们通过在三个公共数据集上大幅超越最先进的方法来证明了我们的3D骨架时序对齐方法的实用性。02. 相关工作0自监督学习。最近提出了几种基于图像的自监督学习方法,这些方法依赖于不同的手工预训练任务。例如,最近的工作使用图像着色[30]、解决拼图[38,62]、旋转预测[19]或图像修复[26]作为预训练任务来训练自监督模型。这些手工任务依赖于特定的特殊启发式规则,限制了它们的泛化能力。相比之下,对比学习方法通过将正样本与负样本进行对比来学习表示[15, 23, 35, 55, 64,71]。值得注意的是,Chen等人[7]证明了多个数据增强操作的组合对于定义对比预测任务以获得有效表示的重要性。受到图像领域自监督方法的成功启发,最近提出了几种针对视频的自监督学习方法,无论是使用预训练任务,如预测未来帧[1, 12,48, 59]、剪辑顺序[18, 31, 36, 65]、速度[3, 8, 61,66]还是时间箭头[40,63],还是专注于基于实例的对比学习技术[11, 17, 25,42]。与图像和视频的自监督学习相比,基于骨架的自监督学习最近才开始兴起。最近的工作提出了骨架修复[68]和运动预测[50]等代理任务。然而,这些方法没有明确考虑骨架表示的时空依赖关系。依赖于邻域一致性[47]、多个预训练任务的融合[32]和运动连续性[51]的骨架自监督学习技术也显示出了自监督技术在学习骨架序列表示方面的潜力。与以往的方法不同,我们提出了一种自监督学习框架,其中包括一个组合的817404D数据增强策略的组成。我们考虑对数据进行时间和空间的全局变换,对骨骼运动进行全局变换,对个体关节进行局部变换。0Transformer。在Transformer架构[58]在自然语言处理(NLP)中的成功之后,人们对其在计算机视觉中的应用产生了浓厚的兴趣。已经提出了几种基于Transformer的架构,用于图像分类[14]、目标检测[5]和语义分割[60]。与我们的工作更相关的是,Sun等人和Sarlin等人[45,53]提出了用于图像对齐的Transformer。虽然Transformer在监督学习环境中被广泛使用,但最近的研究也显示了标准VisionTransformer模型的自监督预训练在多个下游任务中的潜力[6]。因此,在这项工作中,我们提出了一种自监督的Transformer架构,用于视频的细粒度对齐。0序列对齐。动态时间规整(DTW)已成为无监督序列匹配的事实标准,因其在不同类型的模态下的简单性和普适性[4]。Cuturi和Blondel[10]提出了DTW的可微分近似,使其能够与神经网络配对并训练序列模型。Canonical TimeWarping[70]和Generalized TimeWarping[69]推广了DTW,并实现了具有不同维度的信号的对齐。Su等人[49]提出了一种替代DTW的方法,依赖于最优传输来逐帧匹配两个序列,并通过正则化损失来保留时间信息。尽管这些方法专注于对齐问题,但与我们的工作不同,它们并不旨在进行序列匹配的特征学习。与序列对齐问题密切相关的是评估人体运动相似性的度量方法,先前的研究已经积极探索了这方面的工作[4,9,13,33,34,37,52,54,54]。由于速度、人体测量变化和特定主体姿势模式等多种因素的存在,评估两个姿势或运动序列之间的相似性是一个非常复杂的问题。用于测量人体运动序列相似性的传统方法基于估计L2位移误差[13,34]或DTW[4]。然而,这些度量方法忽略了时间维度中的上下文信息,从而限制了它们在人体运动分析中的应用。为了克服标准度量方法的局限性,[9,37,52,54]提出了深度度量学习方法。在自监督学习的视频对齐[16,20,22,46]的背景下,时间对比网络(TCN)[46]使用对比学习的同步帧来对不同视角的帧进行对齐。时间循环一致性(TCC)方法[16]学习了一个嵌入空间,最大化了视频序列对之间的一对一映射。学习通过对齐视频(LAV)[22]采用了软DTW[10]作为自监督的时间对齐损失。与我们的工作不同,我们的工作旨在进行自监督的骨骼序列学习,而这些工作都集中在跨视频匹配图像上。0这些工作都专注于匹配视频中的图像,而我们的工作旨在进行自监督的骨骼序列学习。03. 方法0图3显示了我们提出的流程的概述。我们提出了一种自监督的骨骼表示学习方法,该方法使用骨骼对齐作为预训练任务。我们的模型依赖于基于注意力的上下文感知框架进行序列对齐。我们的自监督损失受到了基于图像的对比学习[7]的成功启发,依赖于最小化骨骼序列与其在4D中的增强之间的差异,即在3D空间和时间上。我们的框架学习了一个有效的潜在空间,在下游任务中具有良好的效果,并可用于通过最近邻搜索对骨骼序列进行对齐。0符号。每个序列的3D骨架定义为s i ∈ R J ×3,其中J个骨骼关节在x、y、z位置上。第k个(1 ≤ k ≤L)骨架序列用Sk = {s 1, s 2, .., s M}表示,其增强版本用Sk'= {s' 1, s' 2, .., s' N}表示。骨架序列的嵌入计算为(U k, U' k) =Φ(S k, S' k;Ω),其中Φ是我们框架的编码器网络,参数为Ω。原始序列的嵌入U k用{u 1, u 2, ...u M}表示,增强序列的嵌入U' k用{u' 1,u' 2, ...u' N}表示。我们优化对齐损失的潜在空间用(Z k = {z 1,z 2, ...z M} = P(U k)和Z' k = {z' 1, z' 2, ...z' N} = P(U'k))表示,其中P(∙)是投影头[7]。请注意,我们使用大写符号表示序列级处理,使用小写符号表示每帧处理。03.1.初步03D人体表示。我们在PennAction数据集上使用SMPL[39],在IKEA数据集上使用Keypoint RCNN[24]的身体关节表示s rcnn ∈ R 17 × 3。姿势参数θsmpl ∈ R72存储22个骨骼关节的角度以及全局旋转和平移向量。我们将22个SMPL骨骼关节重新映射到FrankMocap[44]的骨骼表示ssmpl ∈ R 25 ×3,以便使用FrankMocap估计器。我们基于SMPL(β smpl, θsmpl)恢复3D身体骨架ssmpl,其中SMPL(∙)是计算3D骨架的函数,给定形状β03D手部表示。我们在H2O数据集中使用MANO[43]的3D手部骨架表示s mano ∈ R 42 × 3。MANO包含人手形状参数βmano ∈ R 20和姿势参数θ mano ∈ R 34 ×3,存储30个骨骼关节的角度,2个全局旋转和2个平移向量,分别对应两只手。我们从MANO(β mano, θmano)中恢复3D手部骨架smano,其中MANO(∙)是一个计算给定形状(βmano)和姿势参数(θ mano)的3D手部骨架的函数。81750图3.我们的流程概述。所提出的框架以骨骼序列Sk及其时空增强版本Sk'作为输入。这两个序列都通过时间位置编码进行编码。自注意力和交叉注意力层通过时间位置编码的帮助学习序列内部和序列间的上下文信息。我们使用投影头来提高我们的表示质量[7]。我们使用对比回归损失将姿势序列与其4D增强版本进行匹配。对于下游任务和对齐,我们使用投影头阶段之前的嵌入。0为简单起见,我们将s smpl、s rcnn和smano称为s,并在以下方程中省略β。此外,我们将使用变换函数T(∙)代替MANO(∙)和SMPL(∙)。因此,我们将使用S k =T(Θ k)将每个姿势参数转换为3D骨架。03.2.模型架构0我们的模型由多层感知机(MLP)、位置编码、注意力模块和投影头组成。接下来,我们将解释模型的每个部分。0MLP。我们使用两个非线性层的全连接网络,具有相同的输入维度,从我们的3D关节表示中提取特征,然后将它们输入到注意力模块中。0注意力模块。Transformer[58]在NLP领域取得了令人印象深刻的性能,如第2节所总结的。为了利用Transformer在时间理解方面的能力,我们采用自注意力和交叉注意力层,与从单个图像计算特征的方法相比,它们能够高效地捕捉时间上下文[16,22]。我们对自注意力进行建模,以学习同一序列中骨架之间的依赖关系,并对交叉注意力进行建模,以学习原始序列和其4D增强版本之间的相互依赖关系。为了降低注意力层的计算复杂度,我们采用了线性Transformer[28]架构。与之前的方法相比,0与基于Transformer的工作[45,53]不同,我们的注意力模块被集成到一个使用4D增强进行序列匹配的自监督学习框架中。0时间位置编码。我们使用位置编码[58]将时间信息注入到我们的框架中。使用位置编码,我们的模型可以推理出每个骨架帧的时间位置。这种信息对于理解骨架之间的时间依赖关系至关重要。与其他基于视觉的任务[14,53]不同,我们只需要1D位置编码,因为骨架中关节的顺序是固定的。我们选择正弦位置编码,因为它在机器翻译中被证明是有效的,这可以在概念上类似于将来自同一活动的两个骨架序列进行对齐。0PE i =0� sin ( w l ∙ i ),i = 2 l cos ( w l ∙ i ),i =2 l + 1,(1)05000 (2 l/d ),d 是骨架关节的维度,i是序列中的时间帧位置索引。我们选择 5000 作为 w l的分母,因为在我们的情况下,序列的最大长度受到 5000的限制。0投影头。为了提高我们的表示质量,我们采用了[7]中的投影头。正如[7]所示,没有投影头,学习到的模型更容易过拟合优化任务。虽然我们优化的是对齐,但我们的目标是为下游任务提供具有代表性的特征,这些任务涉及细粒度的动作识别。因此,我们使用一个投影头 p ( ∙ ),它采用一个隐藏层的多层感知机形式。γj,i =z′zi /λtempM���jgt − ˆj���2,(6)S′k = Gtemp,trans,flip(T(GV P oser,angle(Θk))),(7){s′1, s′2, ..., s′N} = Gtemp({s1, s2, .., sM}),(8)81760对于对齐,我们的目标是为下游任务提供具有代表性的特征。因此,我们使用一个投影头 p ( ∙ ),它采用一个隐藏层的多层感知机形式。0z i = p ( u i ) = W 2 σ ( W 1 u i ),(2)0其中 σ 是一个ReLU层,W 1 和 W 2是全连接层。我们在第4.4节中展示了投影头在下游任务中提高准确性的结果。0匹配和损失。给定一个原始序列及其在时间维度上的增强,两个序列之间的时间对应关系已经知晓并保留。同时注意,3D几何增强不会影响两个序列之间的对应关系,因为我们用于数据增强的3D扰动是与时间无关的。我们的自监督学习框架受到最近对比学习[7,21]的进展的启发,通过最大化正样本对之间的一致性来学习表示,我们将正样本对定义为骨架序列和其4D增强。我们使用以下公式来制定正样本对 (i, j) 的对比损失:0L i,j = -log exp (- ∥ z i - z j ∥ /λ temp ) � N m =1 exp(- ∥ z i - z m ∥ /λ temp ),(3)0其中 λ temp是一个温度参数。然而,基于分类的损失无法推断匹配帧的预测与真实对齐之间的距离。因此,我们不使用方程式 3,而是采用回归损失[16]来惩罚邻近帧的误差较小,通过考虑相邻帧的时间关系。与[16]的不同之处在于,我们为每个帧计算这个损失,以从整个序列中收集上下文信息,而不仅仅使用局部邻域的帧。原始序列中帧 i 与增强序列中帧 j的匹配概率用 γ j,i 表示,并通过以下公式计算:0� M m =1 e - ∥ z ′ j - z m ∥ /λ temp,(4)0其中 γ j,i 是概率 γ j 的第 i个值。然后,我们通过加权帧索引和它们对应的概率来预测目标帧索引 ˆ j ,具体如下:0ˆ j =0i ( γ j,i ∙ i ),(5)0最终损失 L 将是预测帧索引 ˆ j 与真实帧索引 j gt之间的均方误差,这些索引在数据增强后已经被知晓并保留。0L = 10N0N �0j0图4.不同类型的3D几何增强。平移增强解决了现成姿势估计器的噪声估计问题。我们观察到不同的增强策略产生了可行的姿势,为自监督学习框架提供了正对匹配。03.3. 4D增强0为了能够创建具有已知对应关系的正对数值序列,我们建议在3D空间和时间上增强骨骼序列。我们在图4中展示了我们提出的4D增强策略。我们提出了5种不同的增强方案:时间增强、关节角度增强、平移增强、骨骼翻转以及基于VPoser[39]对骨骼的潜在空间进行增强。我们通过为每个骨骼关节的平移或角度添加噪声来进行增强。为了能够生成反映运动不同变化的逼真骨骼增强,我们建议在序列中添加时间上平滑的噪声,使用具有高相关性的协方差矩阵的多变量正态分布,使得时间上更接近的点具有高相关性。关于我们在时间上平滑噪声中使用的分布的更多细节,请参考我们的补充材料。我们对关节角度和VPoser获得的潜在空间应用时间上平滑的噪声。这种策略可以使运动在时间上连续平滑。增强函数 G ( ∙ )定义如下:0接下来,我们更详细地描述了不同的增强策略。0时间增强。我们随机选择原始 M 帧中的 N帧。通过这一步骤,我们的自监督学习框架学习序列内不同和可变速度的动作。0平移增强。我们使用平移增强来处理3D姿势不准确性带来的噪声。S′k = Gtrans(Sk) = Sk + N(σ),(9)Θ′k = Gangle(Θk) = Θk + MN(C),(10)Θ′k = Gvposer(Θk) = Vdec(Venc(Θk) + MN(C)),(11)R2 = 1 −ni=1(yi − ˆyi)2ni=1(yi − ¯yi)2 ,(12)81770估计。0其中 N ( σ ) 产生标准差为 σ 的均匀分布噪声。0翻转。由于我们的身体是镜像对称的,我们提出了一种翻转策略。翻转函数 G flip ( ∙ )将左侧身体关节翻转到右侧,空间坐标相应地互换。0角度增强。为了进行数据增强,我们计算关节角度0MN ( C ) 表示协方差矩阵 C的多变量正态分布,其中沿对角线具有高相关性,如上所述。0VPoser增强。VPoser[39]提出了一种学习合理人体姿势嵌入空间的方法。我们利用这个潜在空间通过数据增强进一步生成匹配的骨骼序列对。为此,我们将我们的姿势与VPoser映射到潜在空间,并在潜在空间中采样附近位置。然后将增强的潜在空间解码回人体姿势。0在这里,我们使用相同的分布 MN 进行角度增强。V enc ( ∙ )和 V dec ( ∙ ) 分别对应于VPoser的编码器和解码器。03.4. 实现细节0为了适应不同的骨骼大小,我们将胸部关节和骨盆关节之间的骨长缩放为单位长度,并相应调整所有其他肢体长度。我们将胸部设置为坐标系的原点,以进行平移归一化。我们将胸部和骨盆之间的骨骼与z轴对齐,将胸部和右肩之间的骨骼与y轴对齐,以考虑旋转的变化。我们对手骨骼进行类似的归一化。我们依靠TCC[16]代码来重现他们在H2O数据集和基于姿势的对齐实验中的结果,遵循[16]中描述的相同超参数。有关我们框架参数的更多细节,请参考补充材料。04. 评估0在本节中,我们首先描述数据集和相应的评估协议。然后我们对我们的方法CASA进行详细分析,并将我们的方法与最先进的方法进行比较。04.1. 数据集0我们在Penn Action [ 67 ]、IKEA ASM [ 2 ]和H2O [ 29]数据集上验证我们的模型。PennAction是一个体育活动数据集。我们按照之前的工作 [ 16 , 22],使用其中的13个活动子集进行评估。我们严格按照之前的工作 [ 16 , 22 ]进行训练和测试集划分。IKEA ASM [ 2]数据集包含371个视频,展示了四种不同家具的组装过程。与LAV [ 22]类似,我们使用Kallax抽屉架组装视频进行实验(61个用于训练,29个用于验证)。H2O [ 29]是一个最近的视角动作识别和手-物体交互数据集,提供左右手的3D姿势和6D物体姿势的真实标注,以及交互标签。在这个数据集上,我们选择了包含单调子动作的活动“倒牛奶”的视频序列。在10个执行该动作的主体中,我们选择了7个作为训练集(27个视频),选择了3个作为验证集(11个视频)。这些序列最多有865帧,并且我们根据原始动作标签注释了10个不同的阶段,这些标签仅用于评估目的。我们将公开提供这些新的用于序列对齐的标签。在Penn Action和IKEAASM数据集中,我们使用全身姿势作为输入模态,而在H2O数据集中,我们使用手部姿势作为输入。特别是对于H2O数据集,我们的方法展示了从主体视角对手部进行骨骼对齐的应用,这在增强现实场景中非常相关。由于PennAction数据集没有提供3D人体姿势,我们使用最先进的人体姿势估计器 [ 27 , 44 ]来估计身体的3D关节。04.2. 评估指标0根据文献 [ 16 , 22],我们使用三种不同的指标进行评估。我们首先在训练集上训练我们的网络,不使用任何标签,然后使用训练好的嵌入向量评估我们的方法的性能。阶段分类准确率是细粒度动作识别的每帧分类准确率。为了评估这个指标,我们在训练数据的一个有限子集上训练一个SVM分类器来预测阶段标签。阶段进展度衡量了嵌入向量对过程或动作的进展程度的捕捉能力。我们按照之前的工作 [ 16],使用嵌入向量上的线性回归器来预测阶段进展值。它被计算为平均的R平方度量,如下所示0其中 y i 是真实的阶段进度值, ¯ y 是所有 y i 的平均值, ˆy i 是线性回归模型的预测值。该度量的最大值为1。Kendall'sTau [ 16 ]是一种统计度量,可以确定两个序列在时间上的对齐程度。它的取值范围为Penn Action [67]SaL [36]·✓74.8778.2679.96TCN [46]·✓81.9983.6784.04TCC [16]·✓79.7281.1181.35LAV [22]·✓83.5683.9584.25TCC [16]✓·79.5383.7584.51LAV [22]79.8380.2080.20IKEA ASM [2]LAV [22]·✓29.7829.8530.43TCC [16]✓·11.9513.5318.60LAV [22]14.5216.3118.63H2O [29]LAV [22]·✓23.4836.4136.38TCC [16]✓·30.4040.2042.70LAV [22]37.0539.5040.45TCN [46]·✓0.67620.7328SaL [36]·✓0.59430.6336Pr-VIPE [54]✓*··0.7476TCC [16]··0.43040.4529LAV [22]··0.38530.4929TCC [16]·✓0.66380.7012LAV [22]·✓0.66130.8047Hadji [20]·✓·0.7829TCC [16]✓·0.62680.6267LAV [22]0.64040.698381780数据集 方法 姿势 ImageNet 标签的百分比 →0预训练 0.1 0.5 1.00CASA (我们的方法) � ∙ 88.55 91.87 92.200CASA(我们的方法)� ∙ 21.32 31.52 31.060CASA(我们的方法)� ∙ 43.50 62.51 68.780表1.阶段分类结果。我们将我们的阶段分类准确性与基于RGB和姿势的方法在三个不同数据集上进行比较。在大多数情况下,我们的方法产生了最先进的结果。0该指标假设动作的严格单调顺序,其值范围为[ -1 ,1],其中1表示视频完全对齐,而-1表示视频按相反顺序对齐。由于该指标仅在PennAction数据集上评估,因此假设动作的严格单调顺序。04.3. 与最先进方法的比较0我们将我们的自监督骨骼序列学习方法与几种不同的方法[ 16 , 22 , 36 , 46 , 54]进行比较,包括最近的自监督视频表示学习技术TCC [ 16]和LAV [ 22],它们使用对齐作为预文本任务。以前的方法没有使用姿势数据作为输入报告结果。因此,我们重新实现了这些基线的结果,以便能够根据[ 16 , 22]的实现细节对我们的结果进行基准测试。对于处理姿势的特征提取,我们使用两个非线性全连接层,其维度与我们的输入相同,以保持相同的信息量。我们尽力进行公平比较,遵循LAV [22 ]和TCC [ 16]的相同超参数,除了学习率,我们将图像设置为0.00005,将姿势设置为0.0005,因为我们观察到这些学习率对于不同的输入模态具有更好的收敛性。我们将我们的阶段分类准确性与表1中的最先进方法[ 16 , 22 , 36 , 46 ]进行比较。除了在IKEAASM数据集中使用10%的标签进行训练的情况外,我们的方法在所有数据集和所有标签分数上都明显优于现有方法。IKEAASM数据集中使用10%标签的有限性能是由于该数据集上的噪声姿势估计引起的,这是由于物体遮挡,视点差异(例如,在家具组装过程中坐着和站立)导致的。0方法 姿势0ImageNet预训练进度τ0CASA(我们的方法)� ∙ 0.9449 0.97280表2. 视频进度和Kendall'stau结果。我们将我们的方法与其他基于RGB和姿势的方法进行比较。注意,*使用2D姿势。我们的方法在PennAction数据集上取得了最好的结果。0并且缺少提供装配任务信息的手部姿势。对于TCC [ 16 ]和LAV[ 22],由于缺少与对象交互相关的上下文信息,姿势输入导致IKEAASM数据集上的准确性较低。然而,我们的方法在该数据集上的整体准确性优于以图像或姿势作为输入的现有方法。我们的方法通过我们基于Transformer的自注意力机制考虑上下文信息和利用3D姿势来推理细粒度动作,从而对细微的人体动作有了详细的理解。在表2中,我们进一步报告了与最先进方法相比的阶段进展和Kendall'stau结果。请记住,这些指标分别衡量动作的进展情况以及两个序列在时间上的对齐情况。我们的方法在这些指标上比早期方法有很大的改进(阶段进展方面提高了0.27,Kendall'stau方面提高了0.17)。我们将这归因于我们的方法利用位置编码来编码时间帧位置,这是理解动作进展和对齐的有价值线索。我们的方法使用基于注意力的架构,在对齐过程中从整个序列中获取上下文信息,这导致比仅依赖局部上下文的先前方法具有更高的准确性。我们在补充材料中进一步提供了使用完整序列不同帧的分数以及在线序列对齐的结果。04.4. 消融研究0在表3中,我们在PennAction数据集上进行了消融研究,分析了不同网络组件的影响。我们的所有设计选择都一致地提高了整体准确性。对于位置编码和注意力层,改进尤为显著。位置编码提供了关于帧位置的局部信息,而注意力层则提供了跨帧的信息。81790方法 分类(%) 进展 τ0无位置编码 69.01 0.3361 0.34150无投影头 89.87 0.8852 0.97130无自注意力层 91.24 0.9193 0.93100无交叉注意力层 92.04 0.9316 0.96160全部 92.20 0.9449 0.97280表3. 我们模型不同组件的影响。我们在PennAction数据集上进行消融分析,分析我们的不同设计选择。0方法 分类(%) 进展 τ0无增强 89.95 0.8729 0.96530时间增强 91.78 0.9446 0.96210无角度 92.75 0.9397 0.97190无转换 92.64 0.9338 0.97220无Vposer 92.64 0.9379 0.97100无翻转 92.94 0.9414 0.97100全部 92.20 0.9449 0.97280表4. 4D增强的消融研究。最佳结果以粗体显示。我们在PennAction数据集上进行消融分析,分析不同的数据增强策略。0转换层有助于在同一序列内和两个序列之间收集上下文信息。投影头也显著提高了所有指标的准确性,显示了在应用自监督损失之前进行非线性映射的重要性,与最近关于自监督学习的文献一致[7]。0我们在表4中进一步展示了不同类型的数据增强策略对结果的影响。所有的增强策略综合起来,对所有指标都得到了一致的高准确性。虽然时间增强使相位分类准确性提高了约2%,3D空间增强使相位分类和Kendall'sTau进一步提高了约1%,这证明了不同策略的个体贡献和互补性。0我们在图5中展示了CASA学习到的表示的t-SNE嵌入[57]。颜色尺度展示了序列的相应时间帧,从开始到结束。我们展示了我们的方法学习到了一个平滑的表示,其中时间上接近的帧被映射到嵌入空间中的相邻位置。此外,两个视频之间对应的帧被嵌入到相似的位置。嵌入空间的这种结构展示了我们的方法在序列对齐方面的潜力和可靠性。我们在图1中展示了两个序列之间的对齐的定性示例。更多的定性结果可以在我们的补充材料中找到。我们进一步展示了与TCC相比,在两个序列之间逐帧匹配的结果,如图6所示。我们观察到CASA保留了时间上下文,并且产生了更平滑的对齐结果。0TCC0OURS0图5.CASA学习到的嵌入空间的t-SNE可视化。为了这个可视化,我们从棒球投球中选择了两个不同的序列。我们的方法能够保留时间上下文并对齐视频中的对应帧。0TCC0CASA0图6.两个序列之间的对齐。x轴是源序列的时间帧,y轴是目标序列的时间帧。我们展示了源序列和目标序列之间最接近的匹配帧。为了可视化,我们从棒球投球中选择了两个不同的序列。我们观察到CASA保留了时间上下文,并且产生了更平滑的对齐结果。05. 结论0在本文中,我们提出了一种自监督学习框架,该框架使用骨骼序列对齐作为代理任务。所提出的CASA方法使用变压器中的自注意力和交叉注意力层将局部特征转换为上下文和位置相关的特征,这对于CASA获取高质量的序列对齐至关重要。我们进一步提出在3D空间和时间上增加骨骼序列以生成匹配示例,并训练自监督损失以最小化序列间的对齐分数。我们的实验表明,CASA在多个数据集上的阶段动作分类,阶段进展和Kendall'stau分数方面取得了最先进的性能。我们的方法CASA依赖于现成的姿势估计器来计算人体姿势,该姿势估计器用作我们的对齐框架的输入。现成的姿势估计器的错误预测将导致序列对齐的不准确,这是我们方法的局限性。从RGB图像中进行端到端学习以进行骨骼对齐,使用预训练的姿势估计器将是一个有趣的未来方向,以克服这个限制。0致谢。TaeinKwon获得了微软MR&AI苏黎世实验室的博士奖学金的支持。作者感谢Jonas Hein,Mihai Dusmanu,Paul-EdouardSarlin,Luca Cavalli,Yao Feng和Weizhe Liu的有益讨论。81800参考文献0[1] Unaiza Ahsan,Chen Sun和IrfanEssa。Discrimnet:使用生成对抗网络的半监督动作识别。arXiv预印本arXiv:1801.07230,2018年。20[2] Yizhak Ben-Shabat,Xin Yu,Fatemehsadat Saleh,DylanCampbell,Cristian Rodriguez-Opazo,Hongdong Li和StephenGould。Ikeaasm数据集:通过动作,物体和姿势理解人们组装家具。2020年。2,6,70[3] Sagie Benaim,Ariel Ephrat,Oran Lang,InbarMosseri,William T Freeman,Michael Rubinstein,MichalIrani和TaliDekel。Speednet:学习视频中的速度。在计算机视觉和模式识别的IEEE/CVF会议论文集上,第9922-9931页,2020年。20[4] Donald J Berndt和JamesClifford。使用动态时间扭曲在时间序列中查找模式。在KDD研讨会上,第10卷,第359-370页。西雅图,华盛顿州,美国:1994年。30[5] Nicolas Carion,Francisco Massa,GabrielSynnaeve,Nicolas Usunier,Alexander Kirillov和SergeyZagoruyko。使用变压器的端到端目标检测。在欧洲计算机视觉会议上,第213-229页。Springer,2020年。30[6] Mathilde Caron,Hugo Touvron,Ishan Misra,Herv´eJ´egou,Julien Mairal,Piotr Bojanowski和ArmandJoulin。自监督视觉变换器中的新属性。arXiv预印本arXiv:2104.14294,2021年。30[7] Ting Chen,Simon Kornblith,MohammadNorouzi和GeoffreyHinton。对比学习视觉表示的简单框架。在国际机器学习会议上,第1597-1607页。PMLR,2020年。2,3,4,5,80[8] Hyeon Cho,Taehoon Kim,Hyung Jin Chang和WonjunHwang。使用可变播放速度预测的自监督时空表示学习。arXiv预印本arXiv:2003.02692,3(6):7,2020年。20[9] Huseyin Coskun,David Joseph Tan,SaileshConjeti,Nassir Navab和FedericoTombari。使用深度度量学习的人体运动分析。在欧洲计算机视觉会议(ECCV)论文集上,第667-683页,2018年。30[10] Marco Cuturi和MathieuBlondel。Soft-dtw:一种用于时间序列的可微损失函数。在国际机器学习会议上,第894-903页。PMLR,2017年。30[11] Ishan Dave,Rohit Gupta,Mamshad Nayeem Rizve和MubarakShah。Tclr:用于视频表示的时间对比学习。arXiv预印本arXiv:2101.07974,2021年。20[12] Vivek Diba, Ali ad Sharma和Rainer Van Gool, Luc adStiefelhagen. Dynamonet:动态动作和运动网络。在《IEEE国际计算机视觉会议论文集》中,2019年。20[13] Junting Dong, Qing Shuai, Yuanqing Zhang, Xian Liu,Xiaowei Zhou和Hujun Bao.从互联网视频中捕捉运动。在《欧洲计算机视觉会议》中,第210-227页。Springer
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功