没有合适的资源?快使用搜索试试~ 我知道了~
姿势动作3D机器:视频识别中的新方法
7922PA3D:用于视频识别的姿势动作3D机器王亚丽1李志峰2乔宇<$1,41中国科学院深圳先进技术研究院SIAT-SenseTime联合实验室深圳市计算机视觉与模式识别重点实验室2腾讯人工智能实验室3加州大学圣地亚哥分校4香港中文大学摘要最近的研究已经见证了使用3D CNN进行视频动作识别的成功。然而,大多数3D模型是建立在RGB和光流流上的,这可能没有完全利用姿态动态,即,一个模拟人类行为的重要线索为了填补这一空白,我们提出了一个简洁的姿势动作3D机器(PA3D),它可以有效地编码在一个统一的3D框架内的多个姿势模态,从而学习时空姿势表示的动作识别。更具体地说,我们引入了一种新的时间姿态卷积aggre门空间构成的帧。与经典的时域卷积不同,我们的操作可以显式地学习姿势运动,这些姿势运动对识别人类动作是有区别的在三个流行的基准上进行了广泛的实验(即,JHMDB、HMDB和Charades)表明,PA3D的性能优于最近的基于姿势的方法。此外,PA3D与最近的3DCNN高度互补,例如,I3D多流融合实现了所有评估数据集的最先进性能。1. 介绍视频动作识别在视频监控、人机交互等领域有着广泛的应用前景,近年来得到了广泛的研究。这一领域的进步主要是由深度学习驱动的[2,24,35]。特别是,3D CNN已被证明可以有效地学习视频的时空然而,大多数现有的方法主要是建立在两种输入类型,即RGB和光流。这忽略了另一个有区别的动作线索,即人类姿势动态。或者,基于人类姿势估计[1,38]的显著成功,已经开发了几种基于姿势的方法用于动作识别[3,4,5,18]。一个有吸引力的方向是姿态动态编码[3,4],颜安和王雅丽是同等贡献的第一yl.wang @ siat.ac.cn)。†余乔为通讯作者(yu. siat.ac.cn)。其聚集不同帧的人体姿势作为用于动作识别的时空表示。然而,这些方法主要依赖于预定义的人体姿势补丁的双流特征[3]和/或使用预定义的编码方案学习姿势动态。在这种情况下,姿势表示和动作识别是孤立的,没有自适应交互,这可能会限制理解野生视频中复杂动作的能力更重要的是,目前基于姿态的动作识别研究缺乏一个统一的框架,通用语义流,其是双流3D CNN的补充。为了解决这些困难,我们提出了一种新的姿态动作3D(PA3D)机,它提供了一个无缝的工作流程来编码时空姿态表示的视频动作识别。具体地说,PA3D由三个语义模块组成,即,空间姿态CNN、时间姿态卷积和动作CNN。首先,空间姿态CNN可以鲁棒地提取姿态热图的不同模态(即,关节、部分亲和场和卷积特征)。其次,时间姿态卷积可以自适应地聚合帧上的空间姿态热图,这为每个姿态模态生成时空姿态表示。最后,动作CNN将学习到的姿势表示作为输入来识别人类动作。总的来说,我们在本文中做出了三个贡献。首先,PA 3D是一个简洁的3D CNN框架,它可以通过分解语义任务(姿势/动作),卷积操作(空间/时间),姿势模态(关节/部分亲和场/卷积特征)来实现学习效率。在这种情况下,PA3D可以灵活地将各种姿势动态编码为区分线索,以对复杂动作进行分类。其次,我们提出了一种新的时间姿态卷积操作,它主要包括时间关联和语义卷积编码姿态运动。与3D CNN中传统的时间卷积不同,我们的时间姿势卷积可以学习时空语义表示来显式描述姿势运动。此外,我们的时间膨胀设计允许这种卷积捕获具有多尺度姿态动态的复杂动作。因此,7923图1.一种姿态-动作3D机器(PA 3D)的通用框架具体来说,它由三个语义模块组成,即,空间姿态CNN、时间姿态卷积和动作CNN。首先,空间姿态CNN可以鲁棒地提取姿态热图的不同模态(即,关节、部分亲和场和卷积特征)。其次,时间姿态卷积可以自适应地聚合帧上的空间姿态热图,这为每个姿态模态生成时空姿态表示最后,动作CNN将学习到的姿势表示作为输入来识别人类动作。由于PA3D是建立在一个简洁的时空3D框架,它可以被用来作为另一个语义流的动作识别视频。适用于野外视频中的动作识别。最后,我们对流行的基准进行了广泛的实验,即,JHMDB、HMDB和猜字游戏。结果表明,我们的PA3D优于最近的姿势编码方法的动作识别。此外,它与双流3D CNN(例如,I3D),其中评分融合导致所有评估数据集的最新性能。因此,我们的PA3D可以被用来作为一个其他语义流的人类行为识别。2. 相关工作行动识别。在过去的几年里,深度学习方法显着提高了视频动作识别的性能[2,7,24,32,33,35,36]。一个众所周知的框架是双流CNN [24],其将RGB和光流作为两个单独的流进行处理。在此基础上,通过深度局部描述符[31,33]、双流融合[7,8]、关键卷注意力和挖掘[34,42]、时间段网络[35]等引入了许多变体。然而,2D CNN仅限于学习复杂动作的时空表示。为了解决这个困难,3D CNN已经通过模型膨胀[2],时空关系[32,36,37],因子分解[21,29,39]等突出显示。然而,3D CNN通常需要大规模基准(例如,Sports1M [12]和Kinetics [2,13]),计算负担昂贵更重要的是,这些模型使用RGB和/或光流作为输入,并且因此它们忽略了姿势动态,该姿势动态对于识别人类动作可以是有区别的。为了弥补这一差距,我们提出了姿势动作3D机器(PA3D),即,一种用于基于姿势的动作识别的新型3D CNN。基于姿势的动作识别。人体姿势为复杂动作的分类提供了重要线索[10,43]。随着深度学习在姿势估计方面取得的显著成功[1,17,20,26,27,38],人们对基于姿势的动作识别越来越感兴趣。然而,实现有效的设计通常是挑战性的,因为这些姿态估计器不是为视频中的最近有几次尝试是亲-由骨架表示构成[6,40],多任务学习[18],循环姿势注意力[5],姿势动态编码[3,4,16]等。特别地,姿势动态编码是通过学习用于动作识别的时空姿势表示的有吸引力的方向。但是这些方法主要依赖于预定义的人体姿态块的两流特征[3]和/或使用预定义的姿态编码方案[4],这可能会降低它们在野外识别复杂动作的能力。此外,目前的研究缺乏一个统一的框架,基于姿态的动作识别。受此启发,我们提出了一种新的因子分解3D CNN(即,PA3D),它可以有效地学习姿势动态来对人类动作进行分类。3. 姿势动作3D机器(PA3D)为了获得一个有效的时空姿态表示的视频动作识别,我们介绍了姿态动作3D机(PA3D)的部分。它主要由三个语义模块组成,空间姿态CNN、时间姿态卷积和动作CNN。首先,我们使用空间姿势CNN为每个视频帧生成人体姿势特征。通过利用现有技术的姿态估计器(例如,[1]),我们的空间姿态热图对野外的遮挡和多人情况具有鲁棒性。其次,我们提出了一种新的时间姿态卷积,它可以在语义上将不同帧的空间姿态聚集成时空姿态表示。最后,我们将得到的姿势表示馈送到动作CNN中,并融合不同姿势模态的预测分数以提高动作识别。通用框架如图所示1.一、3.1. 空间姿态CNN利用人体姿势作为行动的明确提示在视频中,我们首先使用空间姿势CNN来生成每帧中演员的姿势热图。具体来说,我们选择广泛使用的多人姿势机器[1]作为我们的空间姿势CNN,因为它对野外多人和复杂遮挡的情况具有鲁棒性。此外,我们将每个视频帧馈送到这个空间姿态CNN中,7924图2.时间姿态卷积。不失一般性,我们使用联合热图作为说明。可以以相同的方式处理部分亲和字段和卷积特征具体来说,时间姿态卷积由两个原子操作组成(1)使用时间关联来为每个关节生成时间有序的立方体Jc。 我们通过堆叠所有帧(每个关节)的热图来实现它。(2)使用语义卷积来生成每个关节的时空姿态表示Jk。我们做到了,对Jc(每个关节)执行1×1卷积为了避免过度拟合,我们在所有关节之间共享卷积滤波器Θ提取三种姿态模态,即,关节、零件亲和字段和卷积特征。关节模态是指人体关节的预测置信度图。部分亲和场的模态指的是预测置信度图,其保留了身体肢体支持区域的位置和方向信息[1]。卷积特征的模态是指来自[1]中CNN骨干的卷积层帧,t = 1,..., T和c = 1,…, C.语义卷积在获得第c个关节的时间关联的立方体J^c之后,我们将其编码为帧上的时空姿态表示。如前所述,J的通道对应于第c个关节的按时间排序的热图。在这种情况下,我 们 直 接 对 Jc 执 行 1×1 卷 积 以 生 成 时 空 姿 态 表 示Jc∈RN×H×W,例如,在一个实施例中,第10层VGG19。不失一般性,我们使用联合热图作为J·库茨=J 好吧(一)一个例证。可以以相同的方式处理部分亲和字段和卷积特征具体地,我们将第t个视频帧的联合热图表示为RC×H×W(t= 1,...,T)。 它由C热图组成,大小为H×W,其中C是人体关节的数量3.2. 时间姿态卷积在获得每一帧的空间姿态热图(例如,Jt),我们提出了一种新的时间姿态卷积来对帧上的姿态动态进行编码。如图2,它主要由两个原子操作组成,即,时间请注意,Jc中的N个输出通道中的每一个都不仅仅是一个绝对特征图。它对第c个关节在帧上的运动进行语义编码,如图所示。2. 为此因 此 , 我 们 将 1×1 卷 积 表 示 为 语 义 卷 积 。 此 外 ,Θ∈RN×T×1×1是卷积滤波器。我们在关节之间共享它以减轻过度拟合。通过时间扩张的多尺度设计。对于每个关节,在所有帧上执行语义卷积结果,时空表示Jtlc可能缺乏描述各种尺度的姿态运动的能力。为了解决这个问题,我们引入了时间膨胀控制-联想和语义卷积。时间关联。对于每个关节,我们首先将进化,J·库茨=JΦ,(二)所有帧的热图沿着它们的时间顺序。 该操作可以为第c个关节生成时间关联的立方体,即,J∈RT×H×W,其中,J^c是指在第t时间点处的第c关节的热图。其中Φ∈RM×(T/d)×1×1是扩张卷积滤波器,d是扩张因子,M是输出数热图如图3,时间膨胀允许我们在这些通道上执行语义转换。CC7925图3.多尺度时间姿态卷积模块。时间膨胀允许我们以d个时间步长的间隔对那些通道执行语义卷积d= 2)。因此,它可以在不同的时间尺度上学习姿势动态。以d个时间步长的间隔(例如,d= 2)。因此,它可以在不同的时间尺度上学习姿势动态。另外,时间膨胀比局部卷积更可取,例如,对具有步幅1的相邻3个帧执行语义卷积。其主要原因是,时间膨胀可以扩展不同尺度的时间感受野,从而避免了在局部相邻帧。最后,我们将Jc和J·库茨作为多尺度时空姿态表示,以及将其输入CNN进行识别。为什么要使用Temporal Pose Convolution?我们主要解释了为什么与其他时间方法相比,我们的时间姿态卷积更适合学习时空姿态表示[4,29,39]。 (1)时间姿态卷积与传统时态卷积。首先,传统的时间卷积[29,39]可以直接在T帧上的联合热图上实现。 例如,为了产生N个输出特征,映射,时间卷积必须用公式表示为R∈N×C×T×1×1,即, T × 1 × 1,具有C输入通道和N输出通道。显然,它需要比我们的时间姿态卷积更多的参数θ ∈RN×T×1×1。因此,传统的时间卷积经常增加过度拟合的风险第二,在传统的时间卷积中,输出特征图通常是高度抽象的时空特征,其可能缺乏区分性姿态运动的语义表示。或者,我们的时间姿态卷积的每个输出都提供了丰富的语义描述,例如,关节在帧上的动力学。因此,我们的卷积更有效地编码时空姿态表示。(2)时间姿态卷积与PoTion的姿势着色。首先,姿势着色[4]根据剪辑中该帧的相对时间对每个视频帧的联合热图进行编码。由于这种编码方案被预先定义为时间步长的线性函数,因此通常限于学习复杂的姿势运动。或者,我们的时间姿态卷积与动作CNN联合训练,允许自适应地捕获非线性姿态动态秒-表1. CNN. R是时空姿态表示中的特征通道的数量。请注意,这些特征是中级语义表示,比原始图像更稀疏。因此,我们遵循[4]中的建议,并使用轻量级模型来识别K个动作类。其次,PoTion缺乏对姿态运动的多尺度描述,而我们的扩张操作可以在一个统一的框架中编码各种姿态动力学。第三,PoTion仅使用关节进行姿态编码,而我们的时间姿态卷积也适用于其他重要的姿态模态(例如,部分亲和域和卷积特征)。它可以进一步推动我们的方法。(3)时间姿态卷积与时间段网络。时间片段网络[35]为动作识别提供时间编码方式,即,它将采样帧的分数平均作为用于训练的视频预测。显然,可以使用它来编码不同帧的姿态热图,例如,我们将每个采样帧的姿势热图独立地馈送到动作CNN中,并将采样帧的分数平均作为用于训练的视频预测。然而,这种平均风格可能忽略了重要的姿势运动,这可以被视为动作识别的判别线索或者,我们的时间姿态卷积可以有效地编码语义姿态运动来训练动作CNN。3.3. 行动CNN在获得时空姿态表示后,我们将其馈送到动作CNN中,用于视频中的动作识别。层输出大小行动CNN输入R×H ×W-conv1 1128×H/ 2×W/ 23×3,步幅2Conv1 2128×H/ 2×W/ 23×3,步幅1conv2 1256×高/ 4×宽/ 43×3,步幅2conv2 2256×高/ 4×宽/ 43×3,步幅1conv3 1512×高/ 8×宽/ 83×3,步幅2Conv3 2512×高/ 8×宽/ 83×3,步幅1公司简介512× 1× 1平均池,退出FC-KK×1 ×1softmax7926TempPoseConv的类型JHMDBHMDB全球59.346.7当地57.544.9扩张型58.444.8全球+本地59.744.8全局+扩张60.147.8全局+扩张+局部58.547.1表2.时间建模方法的分类精度具体来说,我们首先使用空间姿态CNN来生成姿态特征,然后使用不同的时间建模方法来学习时空姿态表示以用于动作识别。值得一提的是,这些姿态表示是中层特征,比原始图像更稀疏。因此,我们遵循[4]中的建议,并使用轻量级动作CNN,即,六个卷积层和一个全连接层。1.此外,我们联合训练时间姿态卷积和动作CNN。它可以通过学习姿势动态和分类动作之间的自适应交互来增强我们的PA3D。最后,我们融合了不同姿势模态的预测分数,以提高测试中的动作识别。3.4. 关于PA3D的进一步讨论如图1,我们的PA3D可以被视为一种新的时空3DCNN,用于基于姿势的动作识别。为了有效地利用野生视频中的人体姿势信息,我们将3D CNN分解为不同的语义层次。首先,将目标任务解耦为时空姿态编码和动作识别.在这种情况下,我们可以明确地利用姿势动态作为区分线索来对人类动作进行分类。其次,我们通过单独的空间和时间姿态卷积来分解时空姿态学习。如示于图2,这可以有效地编码每个关节的姿势运动。 最后,我们通过三种方式表示人体姿势,即,关节、零件亲和字段和卷积特征。分数融合可以提高基于姿势的动作识别。此外,我们的PA3D是建立在姿态动力学。因此,它可以被用作另一个语义流,这是对流行的两个流的补充(即,RGB和光流)。表3. TempPoseConv(关节)的类型。具体来说,我们对所有8个帧(全局类型)或间隔为d=2步的帧(扩张类型)执行语 义 转 换 , 如 图 所 示 。 3. 为 了 比 较 , 我 们 还 设 计 了TempPoseConv的局部类型,例如,我们对具有步幅1的相邻3个帧执行语义卷积(即,t1-t3、t2-t4、t3-t5、t4-t6、t5-t7、t6-t8)。+表示,我们将各种类型的TempPoseConv集成为多尺度模块,例如图1。3.第三章。与局部类型相比,膨胀更适合于对具有较大时间感受野的多尺度姿态动态进行建模。帧T=2T=4T=6T=8T=12JHMDB57.856.355.355.650.4HMDB44.646.145.546.843.2输出N=2N=4N=6N=8N=12JHMDB58.259.656.360.152.6HMDB43.746.346.146.045.7表4. TempPoseConv(关节)中的参数。对于等式中的Θ∈RN×T×1×1(1),我们评估视频帧的数量T和每个关节的输出通道的数量N当我们改变T(或N),我们固定N= 6(或T= 4)。结果具有可比性,表明TempPoseConv对不同的参数选择具有鲁棒性更多详情见第4.1节。4. 实验数据集。由于我们的目标是在视频中基于姿势的动作识别,我们评估我们的PA3D上的三个流行的基准集中 在 复 杂 的 人 类 活 动 在 野 外 。 具 体 来 说 ,JHMDB[11]/HMDB[15] 分 别 由 21/51 个 动 作 类 别 和928/6766个视频片段组成。它们是从电影到youtube收集的,涉及日常活动。Charades[23]是最近的一个大规模视频数据集,由9,848个带注释的视频组成,平均长度为30秒。请注意,我们选择字谜而不是动力学[13], 原因 如 下。 一 方面 , 如[4]中 所讨 论 的, 在Kinetics上评估基于姿势的动作识别是不合适的,因为在这些数据的许多视频中,人类的可见性很差。另一方面,Charades包含267个不同人的活动,并且超过15%的该数据集属于多人场景。此外,它包含157个动作类的66,500个活动注释。每个视频都严重未修剪,并在重叠的持续时间内有多个动作标签。所有这些事实使得Charades对于基于姿势的动作识别来说是合理的和具有挑战性的。实施详情。 除非另有说明,我们时间姿态建模JHMDBHMDBTSN风格关节54.542.3部分58.544.0特征38.035.53DConv关节55.645.1部分54.544.8特征40.540.0温度转换关节58.545.8部分51.444.7特征38.439.3药剂关节51.243.4部分50.342.6特征38.037.8我们的TempPoseConv关节59.346.7部分58.647.1特征40.540.37927姿势模式JHMDBHMDB关节(J)60.147.8联合差分52.646.4部分(P)61.948.0部分差异(Pdiff)50.042.2特征(F)41.040.9Fdiff35.036.2融合策略JHMDBHMDBJP58.747.5JP65.650.7Jdiff56.245.8Jdiff61.250.3PPdiff64.949.1FFdiff47.745.1J P F67.554.1JPFJdiffPdiff Fdiff69.554.7表5.姿势模态融合。我们将不同姿势模态的时空表示连接起来,并将其馈送到动作CNN中进行动作识别。:我们将每个姿势模态的时空表示馈送到单个动作CNN中,并在测试短语处融合预测分数。按照如下方式执行我们的PA3D。 首先,我们使用官方的6阶段多人姿势CNN [1]来提取spa。每个采样帧的姿态热图,即,19个关节热图:最后阶段的联合分支,38部分热图:最后一级的部分亲和域分支,128个特征图:VGG19的第10层,它是这个姿势CNN的主干。更具体地说,我们用0.5、1.0、1.5和2.0的比例调整每个视频帧的大小,并对它们的输出进行平均,以生成每个帧的最终姿势热图。第二,我们在PyTorch上的实现下,将JHMDB/HMDB/Charades的训练批量大小 设 置 为 32/64/256 。 我 们 使 用 标 准 SGD 训 练 JH-MDB/HMDB,使用adam优化器[14]训练Cha- rades。初 始 学 习 率 设 置 为 0.01 , 并 且 训 练 过 程 以 JH-MDB/HMDB/Charades的 150/400/60个epoch完成。 第三,每个视频在JHMDB和HMDB中都有一个标签。因此,我们使用交叉熵进行训练,并报告测试分类精度。可选地,每个视频在Charades中包含多个标签因此,我们使用多标签损失[23]进行训练,并报告测试平均精度(mAP)。4.1. 消融研究为了研究我们的PA3D的属性,我们主要在JHMDB和HMDB上评估其关键模型组件为了公平起见,当我们探索一个组件的不同策略时,所有其他组件都被设置为上述实现细节中的基本策略。许 多 最 近 的 时 间 建 模 方 法 , 例 如 , 时 间 段 网 络(TSN)[35],3D卷积(3DConv)[28],因子化3DCNN中的时间卷积(TempConv)[29],PoTion中的姿势着色[4]。JHMDB和HMDB(split1)的测试精度结果如表2所示,其中我们的TempPoseConv优于其他时间建模方法,w.r.t.,所有姿势模态。它表明,我们的TempPoseConv可以编码的动作识别的歧视性姿态动力学。其次,我们评估时间膨胀是否是有效的模型多尺度姿态动态。因此,我们执行TempPoseConv的全局/局部/扩张类型具体地,我们对所有8个帧(全局类型)或间隔为d=2步的帧(扩张类型)执行语义转换,如图所示。3.为了比较,我们还设计了TempPoseConv的局部类型,例如,我们对具有步幅1的相邻3个帧执行语义卷积(即,t1-t3、t2-t4、t3-t5、t4-t6、t5-t7、t6-t8)。此外,我们将不同的TempPoseConv类型连接为多尺度模块。联合模态的结果如表3所示,其中我们保持相同数量的输出通道以保持公平,例如, 每个关节N= 6。可以看出,局部类型本身或串联不能很好地工作,因为局部相邻的姿势动态可能是有噪声的。或者,颞叶扩张是优选的,因为它可以以不同的尺度扩展颞叶感受野。 最后,我们评估TempPoseConv中的Θ∈RN×T×1×1 的结果关节形态见表4。测试时,我们在每个视频的10个采样片段上的预测,其中每个片段具有T个采样帧。由于JHMDB中的视频被截断为非常短的持续时间,因此每个剪辑中的小T足以捕获重要的姿势提示。当T在每个剪辑中增加时,10个采样剪辑逐渐重叠用于JHMDB中的视频在这种情况下,当融合时,不同剪辑之间的互补性降低因此,性能略有下降。此外,N是TempPoseConv中的输出通道数当N很小时,可能不足以对区分姿态动态进行建模以识别复杂动作。当N较大时,时空姿态表示可能是冗余的,这增加了动作CNN的训练难度因此,适度的N是优选的。对于JHMDB/HMDB,我们选择T= 4/8和N= 8/6如何融合不同的姿势模态?为了研究各种姿势模态的 最 佳 结 果 , 我 们 对 以 下 所 有 情 况 执 行 多 尺 度TempPoseConv。首先,对于每个姿势模态,我们计算两个连续帧之间的差异。例如,Jd- iff是Jt−Jt−1,其中Jt是t处的联合热图,t= 2,…,T.如前所述,我们将此特征编码为所有帧上的时空表示。在表5中,并 时间 姿势卷积有帮助吗?首先,我们将时间姿态卷积(TempPoseConv)与姿态差异对于动作识别也是有效的 其次,我们研究了不同的融合策略,即,请注意,7928方法JHMDBP-CNN [3]61.1电子游戏[9]62.5[19]第十九话71.1[43]第四十三话76.1波提恩[4]57.0I3D [4]84.1PoTion+I3D [4]85.5PA3D69.5RPAN† [5]83.9我们的PA3D + RPAN†86.1表6.最先进的JHMDB(Acc)。†表示我们的再现结果。更多详情见第4.2节。注意到,我们将不同姿势模态的时空表示连接在一起,并将它们馈送到动作CNN中。表示我们将每个姿势模态的时空表示馈送到单个动作CNN中,并在测试短语处融合它们的预测分数。在表5中,JBVP优于JBVP,表明在姿态模态之间使用分数融合更有效。广告因此,J Jdiff优于J Jdiff。结果表明,分数融合同样适用于姿态模态及其差异的融合因此,我们在其余部分中使用分数融合算法。最后,我们在不同的组合中融合了各种姿势模式。所有融合都达到了最佳效果,这表明不同姿势模态的互补特征。有必要对CNN的动作进行预训练吗? 我们评估了HMDB上的动作CNN,有两个设置(即,非预训练与大规模猜字游戏的预训练尽管预训练的动作CNN往往比非预训练的动作CNN收敛快1.5倍,但预训练的动作CNN的测试准确度将略低于非预训练的动作CNN(约1-2%)(联合模态:47.8%)。因此,可能没有必要像[4]中原因是动作CNN的输入是稀疏的因此,我们在实验中从头开始训练动作CNN。4.2. 与最新技术我们将我们的PA3D与表6、表7和表8中的一些最先进的方法进行了首先,我们的PA3D明显优于最近的姿态编码方法,例如,P-CNN [3],PoTion [4].这表明我们的PA3D可以学习用于动作识别的有区别的姿势动态其次,我们的PA3D与其他3D CNN(例如,I3D [2]或NL I3D [36])和双流CNN(例如,RPAN [5])。这表明,我们的PA3D是一个有效的语义流的人的行动识别。通过分数融合,我们实现了JHMDB,HMDB和Charades的最先进的性能。表7.最先进的HMDB(Acc)。方法字谜C3D [23]10.92Stream [23]14.2Asyn-TF [22]22.4多尺度TRN [41]25.2SVMP [31]26.7I3D [36]35.5GCN [37]36.2[36]第三十六话37.5(GCN+ I3D + NL I3D)†40.7[4]第四次世界大战10.3PoTion†+(GCN + I3D + NL I3D)†40.8PA3D13.8我们的PA3D +(GCN + I3D + NLI3D)†41.0表8.最先进的哑谜(mAP)。†表示我们的再现结果。更多详情见第4.2节。4.3. 可视化在图4中,我们通过HMDB的剑视频(T= 8帧)来可视化PA3D。 首先,我们使用空间姿态CNN来生成姿态热图,例如,38部分亲和场(PAF)热图。为了可视化,我们对所有PAF热图执行最大池化,这可以描述每个帧的人体第二,我们执行时间姿势卷积的帧。对于每个PAF,我们获得N= 6个运动图,即,时空姿态表示。对于视觉化,我们在PAF上执行最大池化,这可以在帧上产生N= 6作为局部描述符HMDBIDT [30]61.7TDD [33]63.2TDD +IDT [33]65.9二维卷积网络HMDB2Stream [24]59.4ST-Resnet [7]66.4TSN [35]69.4[43]第四十三话69.7SVMP [31]72.6关闭[25]74.23D卷积网络HMDBC3D [28]51.6ARTNet [32]70.9S3D [39]75.9[29]第29话78.7I3D [2]80.7波提恩[4]43.7PoTion + I3D [4]80.9PA3D55.3我们的PA3D + I3D82.17929图4.我们的PA3D可视化。可以看出,TempPoseConv可以学习各种时间运动,从而表示多样化的人体姿势运动。此外,conv3 2中的特征清楚地表明,动作CNN可以突出不同演员的重要姿势运动,并将它们整合在一起作为动作识别的区别性表示。示于图4、TempPoseConv表现出各种时间运动,从而捕获多样化的人体姿势运动。最后,我们将所有PAF运动图连接起来作为动作CNN的输入。我们通过使用32个卷积滤波器和相应的特征来可视化conv3 2显然,动作CNN可以突出不同PAF的重要运动,并将它们组合在一起作为动作识别的区别性表示。5. 结论在 本 文 中 , 我 们 提 出 了 一 种 新 的 姿 势 动 作 3D(PA3D)机器的动作识别。首先,它是一个简洁的3D CNN,具有多级语义分解。其次,我们引入了一个灵活的时间姿态卷积,它可以显式编码的时空姿态表示的动作识别。最后,我们进行了广泛的前-在JHMDB,HMDB和Charades上的实验中,我们的PA3D明显优于最近的姿势编码方法。此外,它通过与双流3D CNN融合实现了最先进的性能,显示了其作为另一种语义流的有效性。鸣 谢 。本 课 题 得 到 了 国 家 自 然 科 学 基 金(61876176,U1613211,U1713208)、腾讯人工智能实验室的Rhino-Bird联合研究计划(编号:JR 201807),深圳研 究 项 目 ( JCYJ20150925163005055 , CXB201104220032 A),中国科学院-香港联合实验室。引用[1] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR,2017年。7930[2] Joao Carreira和Andrew Zisserman。动作识别?新模型和动力学数据集。在CVPR,2017年。[3] GuilhemChe'ron,I v anLapt ev,和CordeliaSchmid。P-cnn:用于动作识别的基于姿势的cnn特征。在ICCV,2015年。[4] VasileiosChoutas,PhilippeWeinzaepfel,Je´ro meRev aud,and Cordelia Schmid.Potion:用于动作识别的姿势运动表示。在CVPR,2018年。[5] Wenbin Du,Yali Wang,and Yu Qiao. Rpan:一个用于视 频 动 作 识 别 的 端 到 端 循 环 姿 态 注 意 力 网 络 。InICCV,2017.[6] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络CVPR,2015。[7] Christoph Feichtenhofer、Axel Pinz和Richard P.王尔德用于视频动作识别的时空残差网络。在NIPS,2016年。[8] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。 卷 积 双 流 网 络 融 合 视 频 动 作 识 别 。 在CVPR,2016年。[9] Georgia Gkioxari和Jitendra Malik。找活动管。CVPR,2015。[10] Umar Iqbal,Martin Garbade,and Juergen Gall.摆姿势换动作动作换姿势。InIEEE FG,2017.[11] Hueihan Jhuang , Juergen Gall , Silvia Zuffi , CordeliaSchmid , and Michael J Black. 对 行 动 识 别 的 理 解 。InICCV,2013.[12] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模CVPR,2014。[13] Will Kay 、 Joao Carreira 、 Karen Simonyan 、 BrianZhang、Chloe Hillier、Sudheendra Vijayanarasimhan 、Fabio Viola、Tim Green、Trevor Back、Paul Natsev、Mustafa Suleyman和Andrew Zisserman。人体动作视频数据集。在arXiv:1705.06950,2017。[14] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[15] Hildegard Kuehne,Hueihan Jhuang,Est´ıbaliz Garrote,Tomaso Poggio,and Thomas Serre. Hmdb:用于人体运动识别的大型视频数据库。见ICCV,2011年。[16] Mengyuan Liu和Junsong Yuan。将人类动作识别为姿态估计图的演变。在CVPR,2018年。[17] Yue Luo,Jimmy Ren,Zhouxia Wang,Wenxiu Sun,Jinshan Pan , Jianbo Liu , Jiahao Pang , and LiangLin.Lstm pose机器。在CVPR,2018年。[18] 迪奥戈角Luvizon,David Picard,and Hedi Tabia.使用多任务深度学习的2D/3D姿态估计和动作识别在CVPR,2018年。[19] Xiaojiang Peng和Cordelia Schmid.用于动作检测的多区域双流R-CNN。在ECCV,2016年。[20] 托马斯·菲斯特詹姆斯·查尔斯安德鲁·齐瑟曼。用于视频中的人体姿态估计的流卷积。在ICCV,2015年。[21] 赵凡秋,姚婷,陶梅。用伪三维残差网络学习时空表示。InICCV,2017.[22] 贡纳河Sigurdsson,Santosh Divvala,Ali Farhadi,andAbhinav Gupta. 用 于 动 作 识 别 的 异 步 时 间 字 段 。 在CVPR,2017年。[23] GunnarASigurdsson、Gu¨lVarol、XiaolongWang 、AliFarhadi、 Ivan Laptev 和 Abhinav Gupta 。 好 莱 坞 之家:众包数据收集活动的理解.在ECCV,2016年。[24] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在NIPS,2014。[25] 孙树阳,匡章辉,欧阳万里,卢胜,张伟。光流引导功能:一种用于视频动作识别的快速鲁棒运动表示方法。在CVPR,2018年。[26] Jonathan J. Tompson , Arjun Jain , Yann LeCun , andChristoph Bregler.用于人体姿势估计的卷积网络和图形模型的联合训练在NIPS,2014。[27] 亚历山大·托舍夫和克里斯蒂安·塞格迪。Deeppose:通过深度神经网络进行人体姿势估计。CVPR,2014。[28] Du Tran 、 Lubomir Bourdev 、 Rob Fergus 、 LorenzoTorresani和Manohar Paluri。用3d卷积网络学习时空特征。在ICCV,2015年。[29] Du Tran,Heng Wang,Lorenzo Torresani,Jamie Ray,Yann LeCun,and Manohar Paluri.动作识别的时空卷积的详细研究在CVPR,2018年。[30] Heng Wang和Cordelia Schmid.具有改进轨迹的动作识别。InICCV,2013.[31] Jue Wang,Anoop Cherian,Fatih Porikli,and StephenGould.使用区分池的视频表示学习。在CVPR,2018年。[32] Limin Wang,Wei Li,Wen Li,and Luc Van Gool.用于视频分类的外观和关系网络。在CVPR,2018年。[33] 王利民,乔宇,唐晓鸥。使用轨迹池深度卷积描述符进行动作识别。CVPR,2015。[34] Limin Wang,Yuanjun Xiong,Dahua Lin,and Luc VanGool.Untrimmednetsforweaklysupervisedactionrecognition and detection.在CVPR,2017年。[35] Limin Wang,Yuanjun Xiong,Zheng Wang,Yu Qiao,Dahua Lin,Xiaoou Tang,and Luc Van Gool.时间段网络:深入行动识别的良好实践。在ECCV,2016年。[36] 王晓龙,Ross Girshick,Abhinav Gupta,和Kaiming He.非局部神经网络。在CVPR,2018年。[37] 王小龙和阿比纳夫古普塔。视频作为时空区域图。arXiv预印本arXiv:1806.01810,2018。[38] Shih-En Wei,Varun Ramak
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功