没有合适的资源?快使用搜索试试~ 我知道了~
多任务学习方法提高行动质量评价的效果——
1你表现得如何?动作质量评价的多任务学习方法内华达大学拉斯维加斯分校parmap1@unlv.nevada.edu,brendan. unlv.edu摘要行动质量评估(AQA)任务的绩效是否可以通过利用行动及其质量的描述来提高?目前的AQA和技能评估方法建议学习功能,只服务于一个任务-估计最终得分。在本文中,我们提出了学习时空特征,解释三个相关的任务-细粒度的动作识别,评论生成,估计AQA得分。一个新的多任务AQA数据集,迄今为止最大的, 包括 1412潜水 样本 收集, 以评 估我们 的 方 法( http://rtis.oit.unlv.edu/datasets ) 。html)。我们表明,我们的MTL方法优于STL方法使用两种不同的架构:C3 D-AVG和MSCADC。C3 D-AVG-MTL方法实现了新的最先进的性能,等级相关性为90.44%。详细的实验表明,MTL比STL提供更好的泛化能力,动作识别模型的表示不足以完成AQA任务,而是应该学习。1. 介绍一个运动员在跳水/体操跳马/滑冰等项目上应该得多少分? 这 med 学生 拥有最高的外科技术水平他的绘画水平如何?患者的身体康复计划进展如何?回答这些问题涉及到行动质量的量化--确定行动执行得有现有AQA [18、16、26、13、25]和技能评估[4,10,31,32,33]方法使用单个标签,称为最终分数或技能水平,使用某种回归或排名损失函数来训练系统。然而,这些系统的性能是有限的,似乎单一的分数是不够的来描述一个复杂的动作 在AQA中,图1:多任务AQA概念。详细识别动作实例并口头描述其优点和缺点可以有助于量化该动作实例的质量的过程我们建议学习一个模型,除了测量其质量外,还可以描述一个动作。要观看视频播放,请下载手稿并在Adobe Reader中查看。分数取决于完成了什么(这决定了难度级别)和如何完成(这决定了执行的质量)。我们提出以下问题:学习描述和注释动作实例是否有助于提高AQA任务的性能?我们假设,通过强迫网络学习这样做将有助于更好地描述动作,从而帮助304多任务AQA行动质量评分:83.25/100因式分解动作认可:位置:塔克Armsstand?:没有旋转类型:正转否 翻筋斗:4.5不。扭转:面向AQA的标题世代:开始,开始,他向前翻腾四周半,三点七分,从加西亚开始的一个大的跳水,只是一 个 非 常 困 难 的 跳水,要控制水花,比他 可 能 喜 欢 的 多 一点 , 很 好 的 抱 膝 姿势,水点,脚过来一点305在AQA。因此,我们引入了一种多任务学习(MTL)方法,而不是仅仅使用一个包含质量的标签来训练网络。(1)评估一项行动的质量。具体地,我们提出利用3D CNN来学习显著运动和外观的时空表示;使用损失函数来优化那些,所述损失函数考虑i)动作质量分数,ii)因子化的(详细的)动作分类,以及iii)生成对性能的口头评论;并且被端到端地训练。请注意,架构是多任务的,而不是多模态的,因为输入不使用标题或动作分类来产生AQA分数。除了AQA和动作分类的直接实用性之外,自动评论或体育叙事生成在Yu等人最近的工作中被认为是有价值的并且非常适用。[29]第10段。对于AQA任务,领域专家可以提供详细的性能分析。在专业体育设置中,用于详细动作分类的地面实况注释和前运动员的评论在广播镜头中是容易获得的,从而促进标签和描述性字幕的提取。因此,为了评估我们的方法,我们引入了第一个多任务AQA数据集,其中包含1412个潜水样本,这也是迄今为止最大的AQA数据集实验评估表明,两种架构的性能提高了更多的任务被添加和C3 D-AVG-MTL变体优于所有现有的AQA方法在文献中。MTL被证明在各种训练集大小上优于STL。进一步的实验探索了我们的网络学习的特征表示的AQA导向性,并发现它们在看不见的动作上优于动作识别表示,这表明学习了更好的广义质量概念。贡献:本工作的主要新颖之处在于问题公式化-通过优化网络端到端联合细粒度动作描述和AQA评分来学习时空表示。任务选择是直观的。以前的工作没有做到这一点;不仅适用于AQA,甚至还适用于动作识别和字幕任务。我们发布了一个新的MTL-AQA数据集,这是迄今为止最大的AQA数据集,更多样化,更有说服力,并且用因子化的细粒度动作类和面向AQA的标题进行了丰富的注释我们的数据集可以帮助该领域的研究人员研究AQA和辅助任务的新想法。我们表明,我们的MTL方法适用于不同的架构。我们的方法适用于广泛的问题。我们提出的模型简单,但直观,有效地通过端到端优化网络在MTL设置中进行中央我们的C3D-AVG-MTL超越了所有现有的方法。2. 相关工作AQA : Pirsiavash 等 人 [18] 提 出 使 用 身 体 姿 势 的DFT/DCT作为支持向量回归器(SVR)的特征,以映射到最终的动作质量得分。他们引入了一个包含两个动作的动作质量数据集:跳水和花样滑冰。 然而,由于他们的方法仅依赖于姿势特征,因此忽略了重要的视觉质量线索,例如跳水中的飞溅。由于准确的姿势在运动员经历极其复杂的姿势的运动场景中特别困难,Venkataraman等人。[25]使用姿势的近似熵更好地编码以改善结果。最近,来自3D卷积神经网络(C3D)[24]的时空特征被证明在动作识别的相关任务上非常有用,因为它们捕获了外观和显著运动。认为这是一个理想的属性,这将有助于考虑视觉线索,Parmar和Morris [16]提出使用C3D特征进行AQA。他们提出了三个框架,C3 D-SVR,C3 D-LSTM和C3 D-LSTM-SVR,它们在特征聚合和回归方案上有所不同。所有框架都比以前的模型工作得更好,证明了C3D功能对AQA的有效性Xiang等[26]提出将视频剪辑分解为动作特定片段并融合片段平均特征而不是完整视频。通过在数据样本中添加更精细的段标签,改进了每个数据集。Li等[13]将样本分成9个片段,并使用9个不同的C3D网络专用于不同的潜水阶段。通过conv和fc层连接并进一步处理特征,以使用排名损失以及更典型的L2损失来产生最终的AQA分数。Xu等[27]使用自注意和多尺度卷积跳跃LSTM解决较长动作序列的AQA。技能考核:Zia 等人[33]在频域中提取时空兴趣点(STIP而不是使用手工制作的STIP[4]学习和使用卷积特征,将排名损失作为其目标函数,以评估手术,绘图,绘图和面团滚动技能。在他们随后的工作中[5],他们使用了时间注意力。Li等[14],将空间注意力用于手操作技能的评定。Bertasius等人[1]专注于测量篮球技能,但仅依赖于单个篮球教练的评估,使其数据集对特定评估者具有主观性。所有现有的AQA和SA框架都是单任务模型,并且只给出最终的AQA分数。我们提出的框架是一个多任务模型,用于识别动作,测量其质量,并生成字幕(或306MTL-AQA141216AQA评分,是/不同的操作类,评注数据集事件高度性别样本数量事件视图变化/背景标签[18]第十八话个人10米跳台男性1591否/相同AQA评分[16]第十六话个人10米跳台男性3701否/相同AQA评分个人、3米跳板,男同步10米跳台女性表1:我们新引入的数据集的详细信息,以及与现有AQA数据集的比较位置臂架旋转类型#SS #TW向内AQA数据集。它拥有1412个样本,是迄今为止最大的AQA数据集。这个特殊的数据集只关注Div-免费塔克·派克否是反向向后向前0至4.5 0至3.5因为它是最近使用最多的。 数据是COM-从16个不同的事件不同的单一主要事件(2012年奥运会男子表2:潜水的分类。呈现的子场的每个组合产生不同种类的机动。评论)。多模式方法和字幕:图像和视频(特别是体育)通常伴随着一个标题或评论,这些标题或评论本身可以作为AQA或技能评估的标签。Quattoni等人[19]使用大量未标记的图像和相关的标题来学习图像表示。他们发现,这种带有额外信息的预训练可以加速目标任务的学习。Sonalet al.[6]将字幕视为他们再次使用COM作为行动识别的为了以自动化的方式训练活动分类器,而不需要任何手动标记,Sonal和Mooney[7]利用广播隐藏字幕,并使用该系统进行视频检索。有几部著作是专门研究体育比赛中的字幕的。Yu等人[29]解决了为篮球生成细粒度视频描述的任务,并使用其新颖的度量来评估性能。板球中的评论生成已在[20,21]中解决,而Sukhwani在[23]中解决了描述网球视频的问题。虽然这些工作侧重于字幕或改进字幕,但我们将字幕任务与AQA任务相结合,以提供更强的监督,因为评论是对AQA的口头描述。3. 多任务AQA数据集为了方便AQA领域的研究,我们发布了一个新的数据集。这是第一个多任务处理更多变化新数据集中的跳水样本来自各种国际比赛,包括10米跳台和3米跳板,包括男女运动员,个人或成对的同步跳水运动员,以及不同的视图。我们的新数据集与现有潜水AQA集的比较见表1。由于数据是从电视转播的国际赛事中收集的,因此在运动员执行其例行程序之前,显示关于其例行程序的信息。这些信息包括潜水的难度和潜水的描述。AQA分数是从裁判在跳水完成后的分数中提取出来的。该数据集使用与Nibali等人相同的潜水分类策略。[15],其中不是直接使用潜水数(相当于动作识别中的动作类),而是将潜水分解为其组成部分,例如潜水位置,somer-saults(SS)的数量潜水分类的全部细节见表2。此外,在潜水过程中和之后,电视分析师提供评论。这些分析师通常是退役运动员,对这项运动有着深刻的了解这种运动员表现的口头描述评论被认为是一个重要的性能指标,因为它是唯一的方式来评论员说运动员的表现,什么是正确的运动员的表现,以及运动员在哪里和如何犯错误。这提供了对运动员表现的更深入的了解,可以帮助普通人更好地了解这项运动。我们使用Google3074. AQA的多任务方法MTL是一种机器学习范式,其中单个地面真值标号LCls= − 1ΣN 克瓦希涅夫斯基山ysa log(xsa)(2)模型满足不止一项任务的需求。示例是识别路标、道路和车辆,Ni=1saj=1i、ji、jSTL方法需要为每种对象类型建立单独的模型。MTL任务通常被选择为使得它们彼此相关,并且它们的网络具有分支为任务特定头的共同体。总其中ksa是子动作类sa中的类别数(如表2所示)。负对数似然被用作字幕任务网络损耗是各个任务损耗的总和。当端到端优化时,网络能够在公共主体部分中学习更丰富的表示,因为它必须能够完成/解释所有任务。 通过使用相关辅助工具,1ΣNLCap=−i=1Σln(xSL帽(3)辅助任务是主要任务的补充,丰富的表征往往有助于提高主要任务的绩效一般来说,不仅仅是跳水,动作质量是执行什么动作以及动作执行得如何的这使得辅助任务的选择变得自然:详细的动作识别是对“什么”部分的回答, AQA可以被认为是找到一个将输入视频映射到AQA分数的函数。Caru-ana在[2]中将来自辅助任务的监督信号视为归纳偏差(假设)。归纳偏差可以被认为是在找到AQA函数时限制假设/搜索空间的约束。通过归纳偏差,MTL提供了与STL相比改进的泛化[2]。在这项工作中,主要任务是评估动作质量(AQA评分)和辅助任务是识别动作(潜水类型分类)和生成描述性字幕/评论。动作识别又包括五个细粒度的潜水子识别任务:识别位置和旋转类型,检测手臂站立,并计算翻筋斗和扭转。首先,让我们形式化设置和目标函数。AQA是一个回归问题,其中,通常,预测的质量分数和地面实况之间的欧几里得距离被用作要最小化的目标函数[16,26,13]。最初的实验发现,在AQA任务其中sl是句子长度。 总体目标函数-最小化的是所有损失LMTL=αLAQA+βLAR+ γLCap。(四)其中,α、β、γ是损失权重。现在,我们将介绍两种不同的MTL-AQA架构。MTL-AQA架构与动作识别不同,动作识别可以通过查看单个帧来完成[11],对于AQA,需要考虑完整的动作序列,因为运动员可以在整个序列中的任何一点得分或虽然使用3D CNN的捕获外观和显著运动模式学习的时空表示我们通过两种方式解决这个瓶颈:1. 将视频(96帧)划分为小片段(16帧),然后聚合片段级表示以获得视频级描述(第12节)。第4.1节)2. 将视频下采样为一个小片段(第二节)。4.2)为多任务学习设计的网络通常分为两部分:公共网络骨干和特定任务的头。公共网络主干学习共享的表示,然后通过特定任务的头进一步处理,以获得更多面向任务的特征和输出。4.1. 平均作为聚合(C3 D-AVG)我们介绍的第一个网络是C3 D-AVG(图1)。2)的情况。网络主干:主干由C3D网络组成[24]至第五层。1ΣNLAQA=−i=1(xi−yi)+的|x i− y i|(一)汇总方案:一个运动员在整个动作中获得(或失去)分数可以被看作是一种附加操作。将这个观点与一个很好的经验法则结合起来,当学习到好的表示时,NN2308其中,xi是预测得分,yi是N个样本中的每个样本的地面实况得分。对于动作识别,我们使用预测标签之间的交叉熵损失,当对它们的操作变得有意义时,我们建议强制表示的线性组合是有意义的,以便学习好的表示。具体地说,309C1;C2;C3a,b;C4a,b;C5a,b共同网络主干图2:C3 D-AVG-MTL网络。我们建议使用平均作为线性组合。网络针对所有三项任务进行了端到端优化。C3 D-AVG网络到平均层可以被认为是一个编码器,它将输入视频剪辑编码成表示,当平均时(在特征空间中)将对应于运动员收集的总AQA点。后续层可以被认为是各个任务的解码器。具体任务负责人:对于动作识别和AQA任务,剪辑级池5特征被逐元素平均以产生视频级表示。自从字幕是一个序列到序列的任务,单独的剪辑级特征在平均之前被输入到字幕分支(单独的剪辑级特征在实践中比平均的剪辑级特征更好地用于字幕)。4.2. 扩展卷积多尺度上下文聚合(MSCADC)在Nibali等人的工作中,具有扩张卷积的多尺度上下文聚合(MSCADC)[28]已被证明可以改善潜水的分类。[15 ]第10段。鉴于其在辅助任务上的强大性能,选择MSCADC用于MTL。我们的MTL变体网络有一个主干和多个头,如表3所示。网络主干:MSCADC网络基于C3D网络[24],并结合了改进,如使用批归一化[9]来提供更好的正则化这在数据非常有限的AQA中是需要的。另外,从C3D的最后两个卷积组中移除池化该主干结构在所有MTL任务之间共享。具体任务负责人:我们用不同的头,一个负责一项任务。头部由一个上下文网络,然后是几个附加层。上下文网络是在多个尺度上聚合特征图的地方。扩张卷积和多尺度聚合已经在涉及密集预测的任务中显示出改进[28]。我们认为,去除池层和使用扩张卷积更好地保持了跳水运动员的结构,而不会失去分辨率。这有助于更好地评估运动员的姿势,这对AQA至关重要。例如,姿势可以识别腿何时对齐或分开,这不仅对潜水有用,而且对诸如体操跳马、花样滑冰、滑雪、滑雪板等的与C3 D-AVG网络不同,我们将完整的动作下采样为只有16帧的短序列(类似于关键动作快照),如Nibali等人所做的那样。[15 ]第10段。这将我们的96帧视频减少为关键动作快照,有助于在单次通过中处理完整的动作序列。使用该网络处理动作序列可以被认为是从输入帧中提取信息并将其放入特征图中,其中不同的特征图包含不同种类的姿势信息。对序列进行下采样的一个自然好处是,网络参数和存储器的数量显著减少,而这些参数和存储器可以用来增加空间分辨率。5. 实验实施情况:PyTorch [17]用于实现所有网络;常见的网络骨干在UCF 101 [22]动作识别数据集上进行了预训练。封顶模块使用GRU [3]单元,0.2在编码器和解码器中。最大字幕长度设置为100字。完整词汇量为5779。方程中的参数α、β和γ4分别设置为1、1和0.01。所有网络都使用Adam优化器[12],并以1 e-4的初始学习率训练数据增强是通过中心裁剪与时间增强和随机水平翻转。 中心夹1(16框架)8192Caption Generator夹子2(16框架)8192AQA评分回归AQA损失Σ最终损失一V共享权重96帧(96* 112 * 112 *3)ERAGEFC动作分类器位置#TW夹子6(16框架)8192旋转型#SS臂架...4096310尼巴利等人[第我们的MTLMSCADCC3D-AVG任务C3D-AVGMSCADCAQA89.6084.72+ Cls89.6285.76+瓶盖88.7885.47+ Cls +帽90.4486.12表4:STL与MTL在不同的架构中。Cls -分类小说,Caps -字幕。第一行显示STL结果,其余行显示MTL结果。位置74.7978.4796.32阿姆斯坦德98.3097.4599.72旋转型78.7584.7097.45翻筋斗77.3476.2096.88扭转次数79.8982.7293.20表3:MSCADC-MTL架构。C3(d,ch):3D卷积,ch-通道数,d-膨胀率。C1:1x1x1回旋BN:批量归一化。MP(kr):最大池化操作,kr-内核大小。Cntxt网:用于多尺度上下文聚合的上下文网。AP:(2x11x11)体积的平均合并。裁剪被发现可靠地捕捉运动员和其他突出的视觉线索,如飞溅。批量设定为3份样品。其他特定于体系结构的实现细节如下:C3 D-AVG:该模型是端到端训练的,从171 ×128像素的输入视频中截取112×112每个潜水样本在时间上归一化为96跳转MSCADC:由于这种架构不包含完全连接的层,并且所有视频都被下采样到16帧,因此允许使用更高分辨率 视 频输 入 的 模 型参 数 更 少 。帧 的 大小 调 整 为640×360像素,并使用180×180中心裁剪评估指标:AQA使用Spearman等级相关性,潜水分类使用准确性,和com-使用Bleu、Meteor、Rouge和CIDER的字幕指标。5.1. 单一任务与多任务教学法我们进行了一个实验,比较STL的性能对MTL。我们一共有三个任务:AQA,详细动作识别和注释生成。本实验首先考虑了STL方法对AQA任务的影响,然后测量了包括辅助任务的效果。评价总结见表4。我们观察到MTL方法在两个网络中的性能都优于STL方法,这表明我们的MTL模型B1B2B3B4MRCC3D-AVG0.260.100.040.020.110.140.06MSCADC0.250.090.030.010.110.130.05表5:辅助任务。该方法不限于网络,而是可跨网络推广。这里需要注意的另一件事是,MTL的性能随着我们合并更多的任务而提高。通过对这两种结构的比较,我们发现C3 D-AVG 在 STL 和 MTL 上 的 性 能 都 优 于 MSCADC , 而MSCADC具有速度快和较低的硬件要求的优点。定性结果参见表6和补充材料。辅助任务的绩效见表5. 据我们所知,只有一个工作(由尼巴利等人。[15]关于详细的潜水分类。我们的C3 D-AVG-MTL在分类任务上也表现最好我们还给出了两个网络的字幕度量,尽管在文献中没有比较的基线。其次,我们将我们的模型与表7中的现有方法进行比较。我们在我们的数据集上获得了所有现有方法的结果。C3 D-SVR是[16]中表现最好的方法,但它似乎并不受益于训练样本数量的增加。在[16]中,由于训练数据量不足,C3 D-LSTM的性能比C3 D-SVR差,并且在扩展训练数据的情况下确实优于C3 D-SVR我们的MSCADC-STL比大多数现有的方法更好,而我们的C3D-AVG-STL比所有现有的方法更好。此外,具有90.44相关性的C3 D-AVG- MTL实现了新的最先进的结果。(共同网络机构)C3(32); BNMP(1,2,2)C3(64); BNMP(2,2,2){C3(128); BN} x2MP(2,2,2){C3(256); BN} x2{C3(d= 2,256);BN} x2辍学率(0.5)(具体任务负责人)(AQA评分头部)(行动(首长)(字幕头部)中文(简体)中文(简体)中文(简体){Cntxt net}{Cntxt net}{Cntxt net}MP(2,2,2)MP(2,2,2)MP(2,2,2)C3(12);BNC3(12); BNC3(12);BN311我们的MSCADC-STL我们的C3 D-AVG-STL我们的MSCADC-84.7289.6086.1290.44真标签:89.08;[Tuck,No,Backwards,3.5,0]C3 D-AVG标签: 80.41;[Tuck,No,Backwards,3.5,0]C3 D-AVG:这超过60年代中期可能,这将是足够好,以保持她的中间包,这是她需要的地方真标签:63.07;[自由,是,向后,2,2.5]C3 D-AVG标签: 65.79;[自由,是,向后,2,1.5]C3 D-AVG:好吧,没关系,入水不是100%垂直的,但他只是有点煮过头了,很明显,有一些潜水员让你使用自己,所以如果你把你的手伸出来,我们正在摇摆,在技术上有一点飞溅,这不是飞溅,这意味着裁判将惩罚他,或者在他进入水中之前,他在两个半筋斗中只得到了17个,真标签:84.15;[Tuck,No,Backwards,3.5,0]C3 D-AVG标签: 81.94;[Tuck,No,Backwards,3.5,0]C3 D-AVG:非常好,非常好,如果你可以的话,他有很多潜水员在这里为他鼓掌,很多人在这里,在入口处采取一个角度,这个角度很好,通过这个角度不会太垂直,这个角度完美得多,裁判会喜欢这个角度,所以不要太多True labels:47.77;[Pike,No,Forwards,2.5,1]C3D-AVG labels: 53.04;[Pike,No,Forwards,2.5,1]C3 D-AVG:很好,很好的进入,因为执行很好,然后只是建议她在跳板的末端冲浪,无论如何,她与跳板有一个安全的距离,所以这是一个很好的跳水,在预赛中,你可以看到飞溅远离跳板,最多是六个半的七个,远离领奖台,一个接一个的跳水明星,58和它加上64这个表6:定性结果。标签排序如下:AQA评分; [位置,臂立?、旋转类型,#SS,#TW]。由于空间限制,此处仅显示生成的字幕;请参阅补充材料了解地面实况。方法Sp. Corr.样本数量1059450280140Pose+DCT [18]26.82STL89.6077.2769.6364.17C3D-SVR77.16MTL90.4483.5272.0968.16C3D-LSTM84.89表8:STL与MTL泛化。培训使用越来越少没有。训练样本。分段特定方法(UNLV潜水训练/测试[16])S3D(在[26]中表现最好)86.00Li等[13个国家]80.09我们的MSCADC-STL我们的C3 D-AVG-STL79.7983.83我们的MSCADC-MTL我们的C3 D-AVG-80.6088.08表7:与现有AQA方法的性能比较。Xianget al. [26]需要手动注释来标记所有分段的终点,这在新的潜水-MTL数据中不可用Xiang等[26]使用UNLV-Dive数据集[16],因此为了与[26]进行公平比较,我们在UNLV-Dive [16]上训练和测试我们的模型结果列于表7中。我们的C3 D-AVG-STL的性能不如S3D [26]。然而,我们的C3 D-AVG-MTL优于S3 D模型。这里需要注意的一点是,UNLV-Dive数据集比我们新引入的MTL-AQA数据集小得多,限制MTL性能。然而,正如第4节所指出的,MTL提供了比STL更好的泛化能力,这使得C3 D-AVG-MTL可以从更少的训练样本中有效地学习MTL提供的概括:为了确保MTL提供更多的泛化能力,我们使用更少的数据点来训练我们的C3 D- AVG-STL和C3 D-AVG-MTL模型。列车组大小和相应的STL/MTL性能详见表8。我们看到MTL一直优于STL,并且随着训练样本的减少,差距似乎会扩大。5.2. 学习表征的AQA导向性我们端到端地训练我们的网络来学习AQA特定的特征表示,而不是依赖于预先训练的面向动作识别的特征(如[16]中所做的)。然而,我们的问题,如果有一个实用程序在学习AQA特定的功能表示或动作识别导向的功能同样好?为了回答这个问题,我们遵循类似于张等人的评估方案。[30],在那里我们训练线性回归器,312C1 C2 C3 C4 C5C1C2C3C4C5基线-171.0171.3973.1376.3473.69基线-272.4370.1570.3557.2037.63C3D-AVG-MTL74.2677.9582.7886.1885.75表9:在所有卷积层。训练/测试事件重叠基线-141.1032.0636.5346.8644.78基线-237.7642.0237.9844.2838.56C3D-AVG-MTL 38.3242.6845.5349.1838.47训练/测试事件不重叠(需要更多的泛化)基线-1-02.6800.75-03.91 -02.2203.17基线-2-07.52 -02.4405.0724.0925.80C3D-AVG-MTL -07.75 -02.7723.5129.56-03.25表10:针对新型动作类体操跳马的所有卷积层的激活的拟合线性回归器的性能。顶行:数据集内评估,底行:数据集外评估。卷积层,并比较AQA和动作识别模型获得的性能。特别地,我们考虑两个动作识别基线:C3 D模型在UCF-101数据集上训练[22](基线-1),我们的模型在MTL-AQA数据集上训练,但用于因子化动作识别任务(基线-2)。在初步评价中,对衡量跳水动作质量的几种方法进行了比较.比较详见表9。与两个基线相比,我们发现我们的C3 D-AVG-MTL在所有中间层学习更好的表示。此外,我们比较了测量一个看不见的动作类-体操跳马[ 16 ]的质量的表示这有助于估计表征的普遍性。我们假设,如果我们的AQA网络已经学会了更好的表征,实际上捕捉了动作中的质量概念,那么它应该能够比动作识别特定网络更好地测量看不见的动作的质量。我们进行两种不同的评估:1)数据集内评价和2)数据集外评价。在数据集内评估中,我们将样本随机分为训练集和测试集,而在数据集外评估中,训练和测试样本来自不同的体育比赛。数据集外评估更具挑战性,需要特征表示更具一般性,并且不会受到数据集偏差的影响。就像之前的实验一样,通过学习表示,我们在所有卷积层之上训练线性回归器。训练集和测试集分别由125个和56个样本组成。两次评价的结果见表10。在数据集内评估中,所有模型学习的表示似乎都工作得很好,尽管C3 D-AVG-MTL表现最好。在数据集外评价中,性能差异变得更加明显正如预期的那样,数据集外评估更具挑战性,所有模型的性能都会下降。然而,Baseline-2和我们的模型的性能下降得更优雅。6. 讨论我们介绍了一种多任务学习方法AQA,并表明MTL比STL表现更好,因为更好的泛化能力,这在AQA和技能评估中尤其重要,因为数据集很小。我们表明,通过我们的MTL模型学习的表示能够更好地捕捉行动质量的固有概念。我们的方法是可扩展的,因为监督所需的辅助任务是现成的,从现有的视频镜头与最小的额外努力相比,只是AQA标签。此外,无需对超参数进行任何微调即可实现最先进的性能。我们的最佳性能和推荐模型C3 D-AVG-MTL与判断分数的相关性达到90.44%,但仍存在很小的差距,无法达到人类专家水平的性能(96%[18])。扩展到其他行动和技能评估:虽然本文是专门针对多任务潜水AQA,该方法是一般性的。没有任何设计决定偏向于或专门针对潜水任务。实验甚至表明,接受跳水训练的模型在另一个动作--体操跳马上表现得相当不错这一令人鼓舞的结果表明,我们的MTL方法直接应用于其他行动和日常技能评估。评论和行动类的细节几乎所有的时间在体育镜头。对于非运动技能评估,如手术、穿针、绘画或绘画,可以使用专家来生成评论和定义子动作以进行分类。请注意,现有的数据集可以简单地扩展以包含额外的标签,而不是从头开始构建新的此外,我们的MTL方法是对现有AQA和技能评估方法的补充鸣谢:感谢Andy(Squadra),Mark(Wilbourne),Josh(Rana)帮助我们收集数据集!313引用[1] Gedas Bertasius,Hyun Soo Park,X Yu Stella和JianboShi。我是个球员吗?第一人称视频中的篮球表现评估。计算机视觉(ICCV),2017年IEEE国际会议,第2196IEEE,2017年。2[2] 瑞 奇 · 卡 鲁 阿 纳 多 任 务 学 习 。Machine learning , 28(1):41-75,1997. 4[3] KyunghyunCho,BartVanMerrieenboer,CaglarGulcehre , Dzmitry Bahdanau , Fethi Bougares ,Holger Schwenk,and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv:1406.1078,2014。5[4] 黑兹尔·道蒂迪玛·达曼沃特里奥·马约尔·奎瓦斯谁更好?谁最好?用于技能确定的成对深度排名。在IEEE计算机视觉和模式识别会议,2018年6月。一、二[5] 黑兹尔·道蒂沃特里奥·马约尔·奎瓦斯和迪玛·达曼利与弊:用于长视频中技能确定的等级感知时间注意力。arXiv预印本arXiv:1812.05538,2018。2[6] Sonal Gupta , Joohyun Kim , Kristen Grauman , 和Raymond Mooney.看,听,学:对字幕图像和视频的共同培训。在联合欧洲会议机器学习和知识发现数据库,第457-472页。Springer,2008. 3[7] 索纳·古普塔和雷蒙德·穆尼使用隐藏字幕训练活动识别器,以提高视频检索。在CVPR-09关于从注释图像和视频(VCL)中上,迈阿密,佛罗里达州,2009年6月。3[8] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet 的 历 史 吗 ? 在 计 算 机 视 觉 和 模 式 识 别(CVPR)IEEE会议论文集,第6546- 6555页,2018年。4[9] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少 内 部 协 变 量 偏 移 来 加 速 深 度 网 络 训 练 。 在International Conference on Machine Learning , 第 448-456页5[10] Hassan Ismail Fawaz , Germain Forestier , JonathanWeber,Lhassane Idoumghar,and Pierre-Alain Muller.使用卷积神经网络从运动学数据评估手术技能。2018年医学图像计算和计算机辅助干预国际会议。1[11] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模在IEEE计算机视觉和模式识别会议的论文集,第1725-1732页,2014年。4[12] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。5[13] 李永军,柴秀娟,陈西林。端到端学习促进行动质量评估。在环太平洋地区,多媒体会议,第125-134页。Springer,2018.一二四、七[14] Zhenqiang Li , Yifei Huang , Minjie Cai , and YoichiSato.基于空间注意力网络的视频操作技能评估。arXiv预印本arXiv:1901.02579,2019。2[15] 艾登·尼巴利,何震,斯图尔特·摩根,丹尼尔·格林伍德.从连续录像中提取和分类潜水片段。在计算机视觉和模式识别研讨会(CVPRW),2017年IEEE会议上,第94-104页。IEEE,2017年。三五六[16] Paritosh Parmar和Brendan Tran Morris。学习奥运项目得分。在计算机视觉和模式识别研讨会(CVPRW),2017年IEEE会议上,第76IEEE,2017年。一二三四六七八[17] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017. 5[18] Hamed Pirsiavash Carl Vondrick和Antonio Torralba评价行动的质量。欧洲计算机视觉会议,第556-571页。Springer,2014. 一、二、三、七、八[19] 阿里阿德娜·夸托尼迈克尔·柯林斯和特雷弗·达雷尔学习视觉表示使用图像与帽- tions。《计算机视觉与模式识别》,2007。07年CVPR。IEEE会议,第1-8页。IEEE,2007年。3[20] Ashish Sharma 、 Jatin Arora 、 Pritam Khan 、 SidharthaSatapathy 、 SumitAgarwal 、 SatadalSengupta 、Sankarshan Mridha和Niloy Ganguly。Commbox:利用传感器进行实时板球投篮识别和评论生成。在通信系统和网络(COM- SNETS),2017年第9届国际会议上,第427- 428页。IEEE,2017年。3[21] Rahul Anand Sharma、K Pramod Sankar和CV Jawahar。板球视频的细粒度注释。在模式识别(ACPR),2015年第三届IAPR亚洲会议上,第421-425页。IEEE,2015年。3[22] Khurram Soomro、Amir Roshan Zamir和Mubarak Shah。Ucf101:来自野外视频的101个人类动作类的数据集arXiv预印本arXiv:1212.0402,2012。五、八[23] 莫哈·库马尔·苏赫瓦尼了解和描述网球视频。博士论文,信息技术海得拉巴国际研究所,2016年。3[24] Du Tran 、 Lubomir Bourdev 、 Rob Fergus 、 LorenzoTorresani和Manohar Paluri。用3d卷积网络学习时空特征。在Proceedings of the IEEE international conferenceon computer vision,pages 4489二、四、五[25] Vinay Venkataraman , Ioannis Vlachos , and Pavan KTuraga.动作分析的动力学规律。一、二[26] Xiang Xiang , Ye Tian , Austin Reiter , Gregory DHager,and Trac D Tran.S3d:用于动作质量评估的分段p3d 堆 叠 2018 年 第 25 届 IEEE 图 像 处 理 国 际 会 议(ICIP),第928-932页。IEEE,2018年。一、二、四、七[27] 徐成明,付延伟,张兵,陈子田,姜玉刚,薛向阳.学314着给无花果打分-315滑冰运动视频arXiv预印本arXiv:1802.02774,2018。2[28] Fisher Yu和Vladlen Koltun。通过扩张卷积的多尺度上下文聚合。arXiv预印本arXiv:15
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功