没有合适的资源?快使用搜索试试~ 我知道了~
9254用于少镜头、细粒度运动动作识别的视频姿势提取JamesHong1Matthe wFisher2Micha eülGharbi2KayvonFatahalian11斯坦福大学2Adobe Research摘要人体姿态是精细运动动作理解的有用特征。然而,姿态估计器在体育视频上运行时由于域移位和诸如运动模糊和遮挡之类的因素而常常是不可靠的。当下游任务(例如动作识别)取决于姿势时,这导致较差的准确性。端到端学习环境构成,但需要更多的标签来概括。我们介绍视频姿态蒸馏(VPD),一种弱监督技术,学习新的视频领域的功能,如个人运动,挑战姿态估计。在VPD下,学生网络学习从体育视频中的RGB帧中提取鲁棒的姿势特征,使得每当姿势被认为是可靠的时,特征与预先训练的教师姿势检测器的输出相匹配。我们的策略保留了姿势和端到端世界的最佳部分,利用原始视频帧中的丰富视觉模式,同时学习与目标视频域中的运动员姿势和运动一致的特征VPD特征提高了四个真实世界体育视频数据集中的少数镜头、细粒度动作识别、检索和检测任务的性能,而不需要额外的地面实况姿态注释。1. 介绍分析体育视频需要强大的算法来自动化大规模视频集合中的细粒度动作识别、检索和检测当运动以人为中心时,人体姿势是有用的用于动作识别的最先进的基于骨架的深度学习技术[31,57]依赖于准确的2D姿势检测来提取运动员为了避免这些问题,端到端学习模型直接在视频流上操作[7,13,28,43,51,62]。然而,由于它们消耗像素而不是姿势输入,因此当使用很少的标签进行训练时,它们倾向于锁定特定的视觉模式[9,52]图1:当前2D姿态检测器的局限性。最先进的姿态估计器[45]在具有挑战性运动的帧中产生噪声和不正确的结果,这在体育视频中很常见。下面是花样滑冰、网球、体操和跳水中姿势估计不正确的例子而不是细粒度运动(例如,运动员因此,当标签稀缺时,先验姿势和虽然收集具有精细动作和姿势注释的大型数据集是可能的,但是针对每个新运动这样做并不成比例。我们提出了视频姿态蒸馏(VPD),这是一种弱监督技术,其中学生网络学习在新的视频域(单个运动)中从RGB视频帧中提取鲁棒的姿态特征。VPD被设计成使得每当姿势可靠时,特征匹配预先训练的教师姿势检测器的输出。我们的策略保留了姿势和端到端世界的最佳效果首先,像直接监督端到端的方法,我们的学生可以ex-ploit丰富的视觉模式中存在的原始帧,包括但不限于运动员的姿势,并继续操作时,姿势估计是不成功的第二,通过约束我们的描述符,以同意与姿态估计器每当高置信度的姿势是可用的,我们避免了过度拟合的视觉模式无关的运动员的行动的陷阱 第三,弱姿势监督允许我们实施额外的约束:我们要求学生不仅预测瞬时姿态,而且预测其瞬时导数。这鼓励我们的特征随着时间的推移拾取视觉相似性(例如,运动员的进步-9255从一个姿势到另一个姿势)。当我们在未标记的体育视频语料库上训练学生时,学生学会了“填补”嘈杂的姿势老师留下的空白。总之,这些属性导致学生网络,当在下游应用中使用时,其特征优于教师VPD特征改善了目标运动领域中的少数镜头、细粒度动作识别、检索和检测任务的性能,而不需要额外的地面实况动作或姿势标签。 我们在四个不同的体育视频数据集上展示了VPD的优点,这些数据集具有细粒度的动作标签:跳水[27],自由体操[40],十项全能[58],以及一个新的花样滑冰数据集。在几个镜头- 有限监督-设置,用提取的VPD特征训练的动作识别模型可以显著优于直接在来自教师的特征上训练的模型以及来自先前的基于骨架和端到端学习工作的基线。例如,当限制在来自跳水和地板练习的每个类别8至64个训练示例之间时,这两个数据集对于姿势最具挑战性,VPD特征将细粒度分类准确度分别提高6.8至22.8%和5.0至10.5%,超过次佳方法。即使在标签丰富的情况下,VPD仍然具有竞争力,在四个测试数据集中的三个上实现了卓越的准确性。总而言之,VPD在利用姿势至关重要的情况下(例如,少量的)并且在端到端方法占优势时也是有竞争力的不可靠的姿态和高数据/全监视设置)。最后,我们展示了VPD特征在细粒度动作检索和少镜头时间检测任务中的应用。本文的主要贡献如下:1. 一种弱监督方法VPD,用于使姿势特征适应新的视频域,这显著提高了下游任务的性能,如动作识别、检索和2D姿势估计不可靠的情况下的2. 使用VPD功能,针对各种体育运动,在少数镜头、细粒度动作理解任务中实现最先进的准确性。在动作识别上,VPD特征表现良好,每类只有8个例子,即使训练数据增加,VPD特征也保持竞争力或最先进的水平3. 一个新的数据集(花样滑冰)和扩展到三个数据集的真实世界的体育视频,包括跟踪的表演者,以促进未来的研究细粒度的运动动作的理解。2. 相关工作姿势表示为人类动作理解提供了强大的抽象。尽管取得了重大进展在2D和3D姿态估计[36,37,45]中,依赖于姿态下游算法继续遭受体育视频中的不可靠估计由于可用的标签很少,对于细粒度动作识别等任务,模型必须学习动作并应对噪声输入。VIPE[44]和CV-MIM [61]表明,学习的姿势嵌入,其分解相机视图并放弃显式3D姿势估计,可能是有用的;它们在域外3D姿态数据上被训练以嵌入2D姿态输入,并且当2D姿态可靠时是有效的。VPD通过使用蒸馏来扩展这些工作,以用直接从像素嵌入到姿势嵌入的模型来替换不可靠的2D姿势估计步骤。[22,37,59]从视频中学习人体运动,但产生3D姿势而不是嵌入。视频动作识别由端到端模型[3,7,13,28,43,48,51,62]主导,这些模型通常在不同但粗粒度的分类任务(例如,'golf',' tennis '等)[23、25、34、42、60]。体育运动中的细粒度动作识别是最近的发展[27,40]。除了对于体育视频分析是必要的之外,单个体育运动内的细粒度分类是有趣的,因为它避免了粗粒度任务中的许多上下文偏差[9,27,52]。[2,11,16,50]也是细粒度数据集,但与体育运动中以身体为中心的动作不同。基于姿势或骨架的方法[10,31,57]似乎非常适合以人为中心的运动中的动作识别它们依赖于可靠的2D或3D姿态,其存在于受控设置中捕获的数据集中[30,39],但不适用于公共体育视频,其中没有地面实况可用 并 且 自 动 检 测 器 通 常 表 现 不 佳 ( 例 如 , [27 ,40])。VPD改进了以人为中心的运动数据集中的基于姿势的和端到端的方法,特别是当姿势不可靠时。像VIPE[44]一样,VPD产生有效的姿势特征,以至于相对简单的下游模型,如最近邻搜索[44]或通用的BiGRU [15]网络可以在动作识别中与最先进的技术竞争为了证明这一点,我们在第4.1中比较了几种最近的动作识别方法[31,43]。VPD特征可以用于预先训练的姿态特征可能有帮助的任何任务,诸如动作检索和时间细粒度检测(例如,基于时间的运动估计)。以200ms的粒度识别网球拍摆动)。后者是有趣的,因为先前的基线[12,21]专注于更一般的类别,而不是单一运动中以人为中心的动作,并且很少有论文[1,56]解决了少数镜头设置。少镜头动作识别文献遵循许多范例,包括元学习,度量学习和数据增强方法[1,6,26,33]。 这些作品关注粗粒度数据集[12,23,25,42],采用将数据集划分为可见/不可见类的各种协议和/或执行减少的N路、K次分类(例如,5路,1或5杆)。VPD的不同之处在于它是COM-9256∈∈运动员作物位姿编码构成计算流&提取物作物老师损提取姿态描述符重构位姿光流学生辅助解码器特征提取器)缩放,VIPE*(姿态归一化居中,预训练姿态估计器下游任务:识别、检索、检测等。图2:方法概述。VPD有两个数据路径:教师生成监督,学生学习在目标(运动)域中嵌入姿势和运动。当在帧t上训练时,教师应用现成的2D姿态估计器,随后是姿态归一化步骤,以获得弱姿态特征:pt和Δpt。学生路径接收局部RGBxt和光流t,并计算描述符F(xt,t)Rd,从该描述符F(x t,t)R d回归全连接网络D(pt,∆pt)。在训练之后,仅保留F以提取完整测试数据集上的嵌入。在训练特征时对动作标签完全不可知,并且不需要用于下游任务(例如动作识别)的特定架构。与试图推广到看不见的类的“少数”学习相反,我们评估了标准分类任务,所有类都是已知的,但在训练时每个类仅限于k个示例。我们的评估类似于[41,61],其在有限的监督下执行动作和图像识别,并且像[41,61]一样,我们在不同的监督水平下进行测试自我监督/蒸馏。VPD仅依赖于机器生成的姿势注释以用于弱监督和提取。VPD类似于[55],因为蒸馏的主要目标是提高学生的鲁棒性和准确性,而不是提高模型效率。大多数自我监督工作侧重于预训练和联合训练场景,其中自我监督损失是次要的最终任务损失,并且后续或同时微调是获得竞争结果所必需的[8,17,20,24,29]。相比之下,我们的VPD学生在蒸馏后是固定的。3. 视频姿态提取我们的策略是从现有的现成的姿势检测器(教师)中提取不准确的姿势估计,该姿势检测器在通用姿势数据集上训练,进入学生网络,该学生网络专门用于生成特定目标运动领域中的视频的鲁棒姿势描述符(图2)。学生(第3.2节)将运动员周围裁剪的RGB像素和光流作为输入。它产生了一个描述符,我们从这个描述符中回归出运动员我们在一个大型的,未切割和未标记的目标域视频语料库上运行这个蒸馏过程(第3.3),使用稀疏的高置信度教师输出集作为学生的弱监督。由于教师已经被训练,因此VPD不需要目标视频域中的新姿态注释同样,没有下游应用特异性标签(例如,用于识别的动作标签)来学习姿势特征。然而,VPD确实要求在每个输入帧中识别运动员,因此我们假设在每个帧中提供运动员的近似边界框作为数据集的一部分。有关讨论和限制,请参见第5节3.1. 教师网络为了强调VPD是一种可以应用于不同教师模型的通用方法,我们提出了VPD的两种教师变体。第一种方法使用现成的姿态估计器[45]从xt(第t帧的RGB像素)估计2D关节位置。我们通过如[44]中的重新缩放和居中来归一化2D关节位置,并且我们将关节坐标收集到向量ptRd中。我们将其称为2D-VPD,因为教师生成2D关节位置。我们的第二个教师变体进一步将2D关节位置处理为视图不变的姿态描述符,作为pt发出。我们的实现使用VIPE来生成这个描述符。VIPE是来自Pr- VIPE [44]的概念的重新实现,其被扩展为在附加的合成3D姿态数据[32,38,63]上训练以用于更好的泛化。我们将这种变化称为VI-VPD,因为教师生成视图不变的姿势表示。(有关VIPE及 其与Pr-VIPE相比的质量的详细信息,请参见补充资料3.2. 学生特征提取器由于了解运动员关于运动员当前姿势p t和姿势变化率Δ p t的关系:= p t − p t − 1。未剪辑视频9257∈∈∈×××N学生是一个神经网络F,它消耗运动员周围裁剪的彩色视频帧xtR3hw,以及来自前一帧的光流tR2hwh和w是裁剪学生生成一个描述符F(xt,t)Rd,与教师的输出具有相同的维度d我们将F实现为具有5个输入通道的标准ResNet-34 [18],并将输入作物调整为128 128。在提取期间,由F发出的特征通过辅助解码器D,其预测当前姿态pt和时间导数Δpt两者。利用视频的时间方面,Δpt提供了额外的监督信号,该信号迫使我们的描述符捕获除了当前姿势之外的运动。D是作为一个全连接的网络来实现的,我们训练组合的学生途径D◦F使用以下目标:Σ¨ΣptΣ¨也必须翻转教师对于2D关节位置和2D-VPD,这是直接的。为了翻转用于训练VI-VPD的VIPE(本身是手性姿势嵌入),我们必须将2D姿势输入翻转到VIPE,然后重新嵌入它们。4. 结果我们评估的功能产生的VPD四个细粒度的体育数据集,表现出广泛的运动。花样滑冰包括371个男子在分类任务FSJump6中,ISU定义了六种跳跃类型[19]。2018年的所有视频(134个例程,520个跳跃)都将用于测试。剩余的跳跃被分割743/183用于训练/验证。网球包括两项赛事(温布尔登和美国公开赛)的九场单打比赛,在尽量减少F、Dt=1¨D(F(xt,t))−∆pt¨2(一)球接触框架[58]。Tennis7有七个秋千班训练/验证集包含4,592/1,142由于在推断期间仅需要F我们在训练结束时丢弃D与其被训练成识别姿势和人类外观的一般分布的老师不同,学生F专门研究新目标域中的帧和光流(例如,网球场上的运动员)。经由蒸馏的专业化允许F专注于解释姿势的运动数据中存在的模式。我们不期望,也不要求下游任务,F编码在目标域中未看到的姿势或人(例如,坐在长凳上的芭蕾舞演员),尽管他们可能是教师培训分布的一部分第4节中的实验表明,我们的姿态描述符,F(xt,t),提高了几个应用程序的准确性,包括少镜头,细粒度的动作识别。3.3. 训练数据选择和增强数据选择。由于运动模糊和遮挡等挑战,或者由于目标视频与教师训练的数据之间的域偏移,教师的输出可能会有噪声。为了提高学生的学习能力并阻止对教师噪声的记忆,我们从教师的弱监督集中排除具有低姿势置信度分数(具体地,平均估计联合分数)的帧。默认情况下,阈值为0.5,尽管0.7用于网球。调整此阈值会影响提取特征的质量(有关详细信息,请参见补充我们还保留了一个固定的分数帧(20%)均匀随机作为学生的验证集。数据扩充。我们应用标准的图像增强技术,如随机调整大小和裁剪;水平翻转;以及颜色和噪声抖动,当训练学生F.为了确保在水平增加xt和t时保持左右身体方向,我们测试集包含来自五个匹配的2,509个示例,并且测试集包含来自其余四个匹配的2,509个示例。通过比赛视频分割,由于服装和独特个体(10名职业球员)的有限多样性,该数据集具有挑战性自由体操。我们使用FineGym99数据集[ 40 ]的女子有35个类别和7,634个动作。Diving48[27]包含由FINA定义的48个潜水序列的16,997个注释实例[14]。我们对作者发布的校正V2标签进行评估,并重新训练现有的最先进方法GSM [43]进行比较。所有四个数据集都包含姿势估计不准确或不确定的帧如前所述,由于运动模糊和非典型的运动姿势(诸如翻转或俯冲),姿势估计在具有快速运动的帧中通常更差;示例见图1。这些数据集的共同挑战是,快速运动帧通常对于区分感兴趣的细粒度动作我们假设动作的主体被识别和跟踪。画面中有多个人,快速移动的运动员在挑战性的姿势中经常被错过:也就是说,以比静态观众成员或裁判更低的置信度检测为了公平比较,我们通过提供与我们的方法,这大大提高了他们的结果4.1. 细粒度动作识别细粒度动作识别测试VPD捕捉运动员姿势和运动的精确细节的能力。我们既考虑了少数镜头设置,其中只提供了有限数量的动作示例,也考虑了传统的29258TSN(裁剪; 2流)GSM(裁剪)MS-G3 D(集成)归一化2D关节VIPE*1008060402001008060402008发(6.5%)16发(12.9%)32-射击(25.4%)64次注射(44.5%)(a) 花样滑冰(FSJump6)最佳完整数据集:95.18发(5.2%)16发(10.4%)32-射击(20.7%)64次注射(40.5%)(c)自由体操(FX35)8发(1.2%)16发(2.4%)32发(4.9%)64发(9.4%)(b)网球7最佳完整数据集:90.2s表示使用NNS的8次注射(2.5%)16次注射(5.0%)32-射击(10.0%)64次注射(18.9%)(d)护士48图3:少数镜头细粒度动作识别的准确性。 百分比给出完整训练集的分数。使用完整数据集作为监督的最新技术水平的准确度表示为虚线以供参考(参见表1)。基于姿势的基线(MS-G3 D [31],2D关节和VIPE)在除Diving 48之外的每个数据集的少数镜头设置中超过端到端基线(GSM [43]和TSN [51]),这表明了标签稀缺时姿势的重要性以及姿势不可靠时的挑战 VI-VPD在FX 35和Diving 48上显著优于基线和先前方法; FSJump 6和Tennis 7的准确性也略有提高,但仍与VIPE相似。上面的星号结果使用最近邻搜索(NNS)而不是BiGRU架构(NNS在这些情况下表现更好;完整结果请参见补充部分。完全监督设置,其中训练集中的所有动作示例都可用。我们的VPD特征是在体育语料库中的训练视频上提取的,未剪切且没有标签。为了提取测试集上的特征,我们使用固定的VPD学生F。VI-VPD和2D-VPD特征保持其教师的相同尺寸:对于VIPE,d = 64;对于归一化 的 2D 接 头 , d = 26 。 对 于 Diving48 , VIPE 的 d=128,因为我们还提取了垂直翻转姿势上的姿势嵌入并将它们连接起来。由于潜水姿势的通常反转性质,这种数据扩充对于VIPE是有益的,这在VIPE训练的域外3D姿势数据集中不太好地表示。动作识别模型。 为了使用VPD进行动作识别,我们首先将每个动作表示为姿势特征的序列。然后,我们使用双向门控递归单元网络(BiGRU)[15]对动作进行分类,该网络在学生F产生的(固定)特征上进行训练。由于我们的特征是手性的,并且许多动作可以用左右方向来执行,因此我们将常规和水平翻转的帧都嵌入到学生中。有关实现细节,请参见补充说明。先前的姿势嵌入工作已经探索了使用序列比对,然后 是 最 近 邻 检 索 [44] 。 我 们 还 测 试 了 最 近 邻 搜 索(NNS)方法,该方法使用动态时间扭曲来计算姿态特征序列之间的匹配成本对于NNS,每个测试前-针对所有训练样本搜索样本,并且预测最佳对齐匹配的标签。BiGRU在大多数情况下都是优越的,尽管NNS在少数情况下也是有效的,我们指出了这种情况。基线。我们比较我们的蒸馏2D-VPD和VI-VPD功能对几个基线。1. 来自老师的特点:使用相同的下游动作识别模型和数据增强,VIPE或标准化的2D关节位置。2. 基于骨架:MS-G3 D系综[31]和ST-GCN [57]。两个基线接收用于监督VPD的相同的跟踪的2D姿态。3. 端到端:GSM [43]、TSN [51]和TRNms [62](多尺度)。我们使用裁剪的运动员和全帧(w/o裁剪)作为输入进行测试,并且我们发现裁剪显著提高了所有四个数据集上的少数镜头设置和除Div-ing 48之外的所有数据集上的全监督设置的准确性。在适用时,具有RGB和光流模型的组合结果被指示为2流。4.1.1少拍有限监督设置实验方案。每个模型都包含每个操作类的k个示例,但可能会使用未标记的数据最佳完整数据集:97.4s表示使用NNS的最佳完整数据集:93.3s表示使用NNS的2D-VPD(我们的)VI-VPD(我们的)前1位准确度(%)前1位准确度(%)38.130.346.865.3 +75.7 +70.3 +78.4 +27.123.547.154.862.570.073.042.539.452.672.580.575.7 +81.1 +44.747.568.265.675.782.784.956.259.375.489.791.390.892.265.074.579.175.381.888.889.169.277.285.392.794.494.394.778.585.786.380.386.191.391.340.939.355.058.565.862.066.1 +20.015.112.415.3+18.829.434.055.243.467.464.468.8+66.971.136.033.023.925.535.057.658.854.259.340.544.253.276.676.763.347.375.369.773.271.576.368.075.657.163.566.982.282.474.258.579.676.079.978.380.49259不超过数据集(Top-1访问)随机16.714.32.92.1顶级33.746.77.58.3End-to-end†TRNms(2流)[40,62]84.9†TimeSformer-L [3]81.0TSN [51](不含作物)57.9-83.282.3TSN(作物)81.287.888.583.6TSN(作物; 2-流)82.790.990.483.6TRNms [62](无裁剪)68.7-81.580.5TRNms(裁剪)77.755.587.181.8TRNms(作物; 2-流)84.076.387.381.5GSM [43](不含作物)42.1-90.390.2GSM(作物)90.667.193.688.7基于骨架/姿势(带跟踪的2D姿势)†ST-GCN(无跟踪)[40,57] 40.1ST-GCN [57]88.788.480.364.8MS-G3 D(合奏)[31]91.791.092.180.2姿势特征(带BiGRU)规范化的2D关节95.590.986.975.7(我们的)2D-VPD97.092.694.586.4VIPE96.891.890.878.6(我们的)VI-VPD97.493.394.688.6(我们的)Concat-VPD96.293.295.188.7表1:使用所有训练数据的细粒度动作识别的准确性。总体最高结果以粗体显示,每个方法类别以下划线显示。†表示先前工作的最佳结果VI-VPD在FSJump 6、Tennis 7和FX 35上实现了SOTA精度,即使基线通过跟踪和裁剪输入进行了改进在Diving 48上,VI-VPD落后于端到端GSM(w/o crop)1.6%。VI-VPD和2D-VPD特征都可以是有竞争力的;将它们连接(Concat-VPD)可以稍微提高精度。或来自其他数据集的知识作为预训练。例如,基于骨架的方法依赖于2D姿态检测; VIPE利用域外3D姿态数据;并且在未剪切、未标记的训练视频上提取VPD特征。这个实验设置反映了现实世界的情况,其中很少有标签,但未标记和域外数据是丰富的。我们的评估指标是完整测试集上的top-1准确度。为了控制为每个少数实验选择的训练示例中的变化,我们针对每个k在数据的五个随机采样和固定子集上运行每个算法,并报告平均准确度。结果图3将2D-VPD和VI-VPD特征与其教师(和其他基线)进行了比较。在FSJump 6和Tennis 7上,VI-VPD与它的最先进的老师,VIPE,准确率在百分之几。FX 35示出了大的改进,并且VI-VPD在k =32处比VIPE增加高达10.5%的准确度,并且在k= 64处比MS-G3 D系综增加5%的准确度。同样地,在Diving 48上,其中端到端GSM和2流TSN在其他方面优于非VPD基于姿势的方法,VI-VPD将准确度提高了6.8%至22.8%。我们在FX35和Diving 48上的结果表明,VI-VPD有助于将姿势的好处转移到最不可靠的数据集。虽然视图不变(VI)特征通常比它们的2D类似物表现得更好,但VI-VPD和2D-VPD之间的准确性差异在具有不同摄像机角度(例如花样滑冰和自由体操)的运动中以及在小k下更明显,其中动作识别模型在训练期间只能观察到少数视图。4.1.2传统的完整训练集设置VPD功能即使在高数据状态下也具有竞争力(表1)。在所有四个数据集上,VI-VPD和2D-VPD都显着提高了教师的准确性VI-VPD还在FSJump 6(比VIPE高0.6%)、Tennis 7(比VIPE高1.5%)和FX 35(比GSM高1.0%,裁剪输入)数据集上实现了最先进的准确性。Diving 48对于基于姿势的方法而言尤其具有挑战性,并且VI-VPD在没有裁剪的情况下比GSM表现差1.6%。GSM,裁剪,也差了1.5%,可能是由于我们的跟踪的错误和限制。然而,VI-VPD确实比最高的基于姿 势的 基 线表 现 得显 著 更好 ( 比MS-G3 D 整 体高8.4%)。我们的研究结果表明,VPD的成功并不局限于少数拍摄制度。然而,由于表1中的许多方法可以产生90%或以上的高准确度,当给出充足的数据时,我们将提高标记效率视为VPD和未来工作的更重要目标。4.1.3消融和其他实验我们强调VPD的两个重要消融,以了解VPD改善的来源:(1)分析提取方法的部分,以及(2)仅利用视频的动作片段进行提取。我们还考虑(3)未标记的设置,其中在整个视频语料库上提取VPD。有关其他实验,请参阅补充资料。蒸馏方法的分析。表2(a)示出了当我们在没有流量输入t和没有运动预测1的情况下进行提取时,消融的2D-VPD和VI-VPD特征的动作识别的准确性的增加。增量改进通常在FX35和Diving48数据集上的少数拍摄设置中最为明显,其中VPD产生最大的益处(参见第4.1.1)。1学生直接模仿老师的pt输出,训练损耗中没有辅助解码器D和∆pt。9260不超过数据集FSJump6网球7FX35护士48输入要素\训练数据全16发整整16整整16整整16(a)规格化的2D关节(教师)95.572.590.964.386.965.675.725.5无运动蒸馏96.173.290.966.592.076.385.352.8蒸馏无运动; RGB&流95.874.691.767.091.676.685.653.02D-VPD:运动蒸馏; RGB&流97.074.492.666.994.582.786.457.6VIPE(教师)96.880.591.867.090.875.778.635.0无运动蒸馏97.181.392.167.693.583.486.554.9蒸馏无运动; RGB&流97.379.391.769.792.983.285.953.7VI-VPD:运动蒸馏; RGB&流97.480.293.371.194.684.988.658.8(b)VI-VPD(仅在动作视频中提取)96.379.492.469.194.184.3--(c)VI-VPD(通过整个视频语料库提取)97.281.993.872.694.584.988.459.6表2:动作识别实验。全训练集和16次拍摄场景中的前1准确度,其中(a)消融到蒸馏方法,(b)当仅数据集的动作部分用于蒸馏时,以及(c)当在整个视频语料库(包括测试视频,没有标签)上蒸馏结果与BiGRU。以VIPE为老师,单独从RGB中提取可以产生很大的效果(2.7%和7.7%,在FX 35上的全拍摄和16次拍摄设置; 7.9%和19.9%的潜水48)。除了RGB之外,在没有运动的情况下添加流,会产生混合的结果。最后,添加运动预测和解码器D,进一步改善结果(在FX 35上,在全拍摄和16拍摄时为1.1%和1.5%; 2.1%和3.9%的Diving 48)。FSJump6和Tennis7上的蒸馏运动效果在16杆设置下混合,尽管完整设置显示出改善。2D-VPD可以看作是视图不变性的消融(VIPE),并在进一步消融时显示出类似的图案。仅就视频的动作部分对VPD进行在FSJump6、FX35和Tennis7中,细粒度动作类占视频的比例分别不到7%、8%和28%。我们评估是否蒸馏VI-VPD在未切割的视频提高动作识别的泛化,通过蒸馏VI-VPD功能,只有动作部分的训练视频。结果总结在表2(b)中,并且表明仅用动作视频进行提取在我们的数据集上表现更差。这是有希望的,因为(1)未切割的表演比检测到动作的表演更容易获得,并且(2)在低监督设置中,即使在训练语料库的其余部分中没有检测到动作,VI-VPD也提高了准确性这也表明,在更多的视频上蒸馏提高了特征的质量对整个视频语料库进行提炼。未标记的语料库通常是在用新领域中的视频(例如,[58])。由于VPD仅由来自未标记视频的机器生成的姿势估计来监督,因此VPD特征可以在所有可用的视频上进行蒸馏,而不仅仅是训练数据。2 表2(c)示出了当蒸馏VI-VPD时的结果2这种设置类似于[46,47],它提出了自我监督,以在具有大域偏移的情况下对齐训练和测试分布与训练视频和测试视频一起,未剪切且没有标签。如果有的话,在所有四个数据集上的改进是微小的(1.5%,在Tennis 7上以16次射击获得),并且证明了在大型数据集上提取的VI-VPD能够在没有看到测试视频的情况下进行概括。4.2. 动作检索动作检索测量VPD特征可用于搜索类似的未标记动作的程度。在这里,VPD特征是在整个未标记语料库上提取的。实验方案。给定一个查询动作,表示为一个序列的姿态特征,我们排名语料库中的所有其他动作的姿态特征和动态时间扭曲之间的距离L2如果结果具有与查询相同的细粒度动作标签,则认为结果是相关的,并且我们通过在所有查询中平均的k个结果在表3中的所有截止点和所有四个数据集中,VPD特征优于其教师。在FX35和Diving48上可以看到显著的改进。如果相机角度的数量有限(例如,Tennis7和Diving48),尽管它可能有助于检索更多样化的结果。4.3. 用于少镜头动作检测的姿态特征以精细的时间粒度并且具有很少标签的细粒度动作的检测使得能够执行诸如少镜头识别和检索的任务。我们评估VPD功能的花样滑冰和网球数据集,暂时本地化的跳跃和摆动,分别。平均跳跃是1.6秒的长度(≈40帧),而挥杆被定义为球接触帧周围的200毫秒(≈5帧)。实验方案。我们遵循与FSJump 6和Tennis 7相同的视频级训练/测试分割,并提取功能9261数据集kFSJump6110 50网球7110 501FX351050护士48110 50规范化的2D关节91.884.873.891.888.182.171.657.439.034.5 22.1(我们的)2D-VPD92.586.476.393.190.084.679.766.847.564.4 43.8 27.9VIPE92.985.175.792.490.085.972.260.146.636.1 24.1 15.1(我们的)VI-VPD93.686.878.092.890.686.380.868.652.460.9 40.9 25.4表3:动作检索:通过动态时间规整的比对得分排名的精确度@k结果(%)。 VPD在所有四个数据集上产生更相关的结果。FSJump6和Tennis7的增益适中,而FX35和Diving48的大幅改进表明,在姿势估计最不可靠的情况下,VPD功能更优越。时间IoU 0.3 0.4 0.5 0.60.7花样滑冰跳跃(五套动作训练)这是可能的,因为运动员在外观,空间和时间上是突出的-体育视频是跟踪[4,53]和检测突出区域[5]的自然应用。网球挥杆200毫秒(五点训练)预训练R3D [49] 41.3 37.8 29.9 15.87.6规格化2D关节59.7 58.2 43.7 24.610.3(我们的)2D-VPD 67.4 66.5 54.0 28.413.1VIPE67.465.8 51.2 28.912.3(我方)VI-VPD73.5 72.6 58.6 32.913.8表4:少拍动作检测:不同时间IoU级别的平均精度(AP)。VI-VPD功能改善了VIPE和其他基线上的AP。只在训练视频上作为一种简单的基线方法,我们训练一个输出每帧预测的BiGRU,这些预测被合并以产生预测的动作间隔(详见补充)。BiGRU在来自五个例程(花样滑冰)和五个点(网球)的地面真实时间标签上为了获得更一致的结果,我们进行了五重交叉验证并集成了每帧预测。在表4中,我们报告了在时间交集大于并集(tIoU)的各个级别处的平均精度(AP)结果VPD在这两项任务上都提高了AP。网球挥杆的短持续时间意味着每帧姿态估计中的噪声具有大的影响,并且VI-VPD在每个tIoU阈值处改善AP(在tIoU =0处,比VIPE高至7.4)。(五)。5. 限制和讨论VPD需要对象跟踪以确保姿势是正确的人。真实世界的体育视频通常包含许多人,例如观众和裁判,除了主题之外。第4.1节中数据集中的跟踪注释是使用现成模型和启发式自动计算的(详细信息请参见补充由单个运动员或同步运动员运动(包含在跳水48中)。涉及许多人的任务和动作需要更复杂的下游模型,其可以处理每帧的多个描述符或姿势。今后的工作。首先,用于监督VPD的2D姿态估计相对于相机视图固有地是模糊的,并且诸如深度或行为先验的附加信息可以帮助减轻这种模糊性。除了议案和VIPE之外,其他薄弱的监督来源也可能有所帮助。第二,我们的蒸馏过程是离线的;支持在线训练,类似于[35,47],在姿态特征提取阶段,在时间演化数据集中可能是有益的。用于显式2D或3D姿态估计的蒸馏是另一种可能性。虽然VPD功能可以在有限的数据下提高准确性,但在少数镜头和半监督任务上的性能仍有很大的改进空间,我们希望未来的工作继续探索这些主题。6. 结论姿态特征对于研究新颖的体育视频数据集中的以人为中心的动作是有用的。然而,这样的数据集对于现成的模型来说通常是具有挑战性的我们的方法,VPD,提高了可靠性的姿态特征在困难和标签差的设置,从现有的姿态估计提取知识。VPD学习提高目标(运动)领域中的传统和少量动作理解任务的准确性的特征。我们相信,我们的基于蒸馏的方法是一个有用的范例,用于解决新的视频领域的应用所面临的挑战鸣谢。这项工作得到了国家科学基金会(NSF)(III-1908727)和Adobe Research的支持。我们也感谢匿名的评论者。[49]第四十九话39.5 3023.115.09.0我们观察到,规范化的2D关节80.6 70.053.540.224.6跟踪的和非跟踪的输入(我们的)2D-VPD85.7 77.861.547.625.8因为[43,51,57]可能是惊人的(48%的FSJump6VIPE84.5 76.859.345.326.7GSM [43]和ST-GCN在FX 35上的40%[57];参见表1)。(我们的)VI-VPD86.1 78.660.747.928.7为了评估姿势特征的质量,我们将重点放在9262引用[1] Rami Ben-Ari、Mor Shpigel Nacson、Ophir Azulai、UdiBarzelay和Daniel Rotman。TAEN:用于少镜头动作识别的时间感知嵌入网络。在CVPR研讨会,2021年。二个[2] Yizhak Ben-Shabat , Xin Yu , Fatemeh Sadat Saleh ,Dylan Campbell,Cristian Rodriguez-Opazo,HongdongLi,and Stephen Gould. IKEA ASM数据集:了解人们通过 动作 ,物 体和 姿 势组 装家 具, 2020 年 。arXiv:2007.00394。二个[3] Gedas Bertasius,Heng Wang,and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗?在ICML,2021。二、六[4] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。在ICIP,2016年。八个[5] ZoyaBylinskii , Adria`Recasens , Ali Borji , AudeOliva,AntonioTorralba和Fr e´ doDurand。Saliency模特下一步应该看哪里在ECCV,2016年。八个[6] Kaidi Cao , Jingwei Ji , Zhangjie Cao , Chien-YiChang,and Juan Carlos Niebles.通过时间对齐的少镜头视频分类。在CVPR,2020年。二个[7] J. Carreira 和 A. 齐 瑟 曼 。 Quo Vadis , ActionRecognition?新模型和动力学数据集。在CVPR,2017年。一、二[8] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offrey E.辛顿视觉表征对比学习的简单框架。在ICML,2020。三个[9]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功