没有合适的资源?快使用搜索试试~ 我知道了~
1∆∆基于群体意识的行动质量评价对比回归余旭敏*,饶永明*,赵文良,陆继文†,周杰清华大学自动化系智能技术与系统国家重点实验室北京国家信息科学技术研究中心yuxm20@mails.tsinghua.edu.cn; raoyongming95@gmail.com;www.example.com; zhaowl20@mails.tsinghua.edu.cn摘要由于视频之间的细微差异和分数的巨大差异,评估动作质量具有挑战性。大多数现有的方法通过从单个视频回归质量分数来解决这个问题在本文中,我们表明,视频之间的关系可以提供重要的线索,更准确的动作质量评估过程中的训练和推理。具体而言,我们将动作质量评估的问题重新定义为参考具有共享属性(例如,视频质量)的另一视频回归相对分数。类别和难度),而不是学习未参考的分数。根据该公式,我们提出了一种新的对比回归(CoRe)框架,以通过成对比较来学习相对分数。对比学习学习YYAB∆A ∆B对比回归石其突出了视频之间的差异并指导模型学习用于评估的关键提示 为了进一步利用两个视频之间的相关信息,我们设计了一个组感知回归树,将传统的得分回归转换为两个更容易的子问题:粗到细分类和小间隔回归。为了证明CoRe的有效性,我们在三个主流的AQA数据集上进行了广泛的实验,包括AQA-7,MTL-AQA和JIGSAWS。我们的方法优于以前的方法的一个很大的保证金和estab- lishes新的国家的最先进的所有三个基准。1. 介绍动作质量评估(AQA)旨在评估特定动作的执行情况,近年来引起了越来越多的关注,因为它在许多现实世界的应用中起着至关重要的作用,包括体育[9,20,13,23,24,22,31,21],医疗保健[17,39,26,38,41,42]和运动[17,20,13,23,24,22,31,21]。其他[5,6]。 与传统的动作识别任务*同等缴款。 †通讯作者。图1:我们的对比回归(CoRe)框架用于动作质量评估。 受对比学习的启发,通过鼓励样本的距离来学习表示(例如,d A和d B)来反映它们的语义关系,我们学习AQA模型来回归相对分数(例如,ΔA和ΔB),以反映视频之间的动作质量的差异。通过比较具有不同分数的两个视频,Core鼓励模型从视频之间的差异中学习以进行评估。[12,33,32,27,15,7,34]和检测[40,16,28,37,18],AQA更具挑战性,因为它需要模型从描述相同动作的视频中预测细粒度的分数。考虑到视频之间的差异和分数的大变化,我们认为解决这个问题的关键是发现视频之间的差异,并基于差异预测分数。在过去的几年里,已经做出了许多努力来解决这个问题[19,22,6,35,20]。他们中的大多数将AQA公式化为回归问题,其中分数直接从单个视频预测。当一些承诺-7919ABSCAB评分AAY一YB一BS= 72S= 887920虽然取得了一定的成果,但AQA仍面临三个方面的挑战。首先,由于分数标签通常由人类裁判注释(例如,跳水比赛的得分是通过汇总不同裁判员的得分,然后乘以难度来计算的),裁判员的主观评价使准确的得分预测相当困难。其次,AQA视频之间的差异非常微妙,因为演员通常在类似的环境中执行相同的动作。最后,大多数当前模型都是基于斯皮尔曼排名进行评估的为了更好地利用视频之间的差异来预测最终评级的AQA框架,我们借用了对比学习概念的优点[10,4]。对比学习(图1,左上)旨在学习更好的表示空间,其中两个相似样本X,XA之间的距离dA被强制为较小,而不相似样本X,XB之间的距离dB被鼓励为较大。因此,表示空间中的距离已经可以反映两个样本之间的语义关系(即,如果它们来自相同的美食)。类似地,在AQA的上下文中,我们的目标是学习一个模型,该模型可以将输入视频映射到分数空间中,其中动作质量之间的差异可以通过相对分数(ΔA,ΔB)来测量。基于此,我们提出了一个用于AQA任务的对比回归(CoRe)框架与以前的作品,旨在直接预测的分数,我们建议回归之间的输入视频和几个范例视频作为参考的相对分数此外,作为朝向更准确的分数预测的步骤,我们设计了组感知回归树(GART)以将相对分数回归转换成两个更容易的子问题:(1)由粗到细分类。我们首先将相对分数的范围划分为几个不重叠的区间(即,组),然后使用二叉树通过渐进地执行分类来将相对得分分配给某个组;(2)小区间回归。我们在相对得分所在的组内进行回归,作为另一个贡献,我们设计了一个新的度量,称为相对L2距离(R-12),更精确地衡量性能的行动质量评估,考虑类内方差。为了验证我们的方法的有效性,我们对包含奥运会和手术动作的三个主流AQA数据集进行了广泛的实验,即AQA-7 [20],MTL-AQA [22]和JIGSAWS [8]。前-实验结果表明,我们的方法大大优于国家的最先进的三个基准下斯皮尔曼显示了我们提出的对比回归框架的优点。2. 相关工作在过去的几年里,AQA发展迅速主流的AQA方法将AQA表述为基于专家评判给出的可靠分数标签的回归任务例如,Gordanet al. [9]提出利用骨骼运动轨迹来解决体操跳马动作质量评定问题,在其开创性工作中。Pirsiavash等人。 [24]使用DCT对身体姿势进行编码作为输入特征。SVR [1]还用于构建从特征到最终得分的映射。由于深度学习在动作识别任务中的巨大成功,Parmar等人。 [21]表明,来自C3D [30]的时空特征可以更好地编码视频数据并显着提高性能。他们还提出了一个大规模的AQA数据集,并探索所有动作模型,以进一步提高评分性能。继[21]之后,Xuet al. [35]提出了一个包含两个LSTM的模型来学习视频的多尺度特征。Pan等人[19]建议使用空间和时间关系图来模拟关节之间的相互作用。此外,他们还建议使用I3D [3]作为更强大的骨干网络来提取时空特征。Parmar等人[22]建议一个更大的AQA数据集,为各种任务提供更多注释。多任务学习的思想也被引入,以提高模型的能力AQA。最近,Tanget al.[29]提出了一种新的不确定性感知得分分布学习(USDL),以减少来自人类裁判的动作得分标签的潜在模糊性。与这一系列工作不同,几种方法[39,5,6,2]将AQA制定为成对排序任务。然而,它们主要集中在更长和更模糊的任务上,并且仅预测总体排名,这可能限制AQA在需要一些定量比较的情况下的应用。在这项工作中,我们提出了一个新的对比回归框架,同时排名视频和预测准确的分数,这使得我们的方法区别于以前的作品。3. 方法我们的方法的总体框架如图2所示。我们将详细描述我们的方法如下。3.1. 对比回归问题表述。大多数现有的作品[19,22,6,35,20,29]将AQA制定为回归任务,其中输入是包含目标动作的视频,输出是动作的预测质量分数。注意,在一些AQA任务中(例如,潜水),每个视频与每个视频的难度(这是已知的最终得分是动作质量得分(即,(一)、区别的程度7921i3D共享权重概率……回归结果#预测得分i3D裁判员示范评分i=1WWRFW∈--∈ −mi=1输入视频范例视频图2:我们提出的组感知对比回归方法的管道。我们首先根据动作的类别和难度对每个输入视频的示例视频进行采样。然后,我们将视频对馈送到共享的I3D主干中以提取时空特征,并将这两个特征与范例视频的参考分数相结合。最后,我们将组合特征传递到组感知回归树,并获得两个视频之间的得分差异。在推断期间,可以通过对来自多个不同范例的结果求平均来计算最终得分邪教由于难度已经知道,我们只需要按照[29]预测动作质量得分输入和样本,如何选择样本是关键。使输入和范例比较-形式上,给定具有动作的输入视频v = {Fi}L我们倾向于选择分享某些特定内容的视频。质量标签s,回归问题是基于输入视频来预测动作质量sθ=RΘ(FW(v)),(1)其中Θ和分别是由Θ和参数化的回归量模型和特征提取器。回归问题通常通过最小化平均值来解决。预测分数和真实分数之间的平方误差:LA Q A(Θ,W|v)=MSE(s,s),(2)其中Θ和Θ是回归模型和特征提取器的参数。然而,由于动作视频通常是在类似的环境中捕获的(例如,跳水比赛经常在水上运动中心进行),模型很难基于具有细微差别的视频来学习不同的分数。为此 , 我 们 建 议 重 新 制 定 的 问 题 回 归 输 入 和 一 个exemplar之间的相对分数。令vm={Fi}Lm表示输入视频,并且属性(例如,类别和难度),其中输入视频作为范例。形式上,给定输入视频vm和对应的样本vn,我们首先使用I3D [3]来提取[29,22]之后的特征fn,fm,然后将它们与样本sn的得分聚合:f(n,m)=concat([fn,fm,sn/g]), ⑷其中ε是一个归一化常数,以确保s n/ε[0,1]。然后,我们通过回归量R Θ预测该对的得分差异为Δs= RΘ(f(n,m))。3.2. 组感知回归树虽然对比回归框架可以预测相对得分,但相对得分通常从很宽的范围(例如,对于潜水,∆s[30,30])。因此,直接预测∆s仍然是非常困难的。 为此,我们设计了一个组感知的回归树(GART),以解决这个问题的分治的方式。具体来说,我们首先将∆s的范围划分为2d非重叠区间(即“组”)。然后我们构建一个二进制重-vn={Fi}Ln表示具有分数标签的范例视频ni=1S具有d-1层的回归树,其中叶子代表n.回归问题可以重写为:sm=RΘ(FW(vm),FW(vn))+sn.(三)该公式也可以被视为残差学习的一种形式[11],其中我们的目标是回归输入视频和参考视频之间的得分差异基于样本的分数回归。我们现在描述如何为AQA问题实现Core框架。因为我们的目标是回归如图3所示,2个d组。组感知回归树的决策过程遵循从粗到细的方式:在第一层中,我们确定输入视频比样本视频好还是差;在随后的层中,我们逐渐对输入视频比样本好/差多少做出更准确的预测。一旦我们到达叶节点,我们就可以知道输入视频应该被分类到哪个组,然后我们可以在相应的小区间内执行回归。7922=δ−ζζ−ζr=1r=1ΣΣr=1r=1RR火车 }m=1R 通过将1分配给联系我们联系我们CNN特征组的组MLP节点特征回归结果图3:所提出的组感知回归树的架构。鉴于视频的特点和参考图4:不同划分策略下训练集中得分差异的分布(a)均匀分割我们可以观察到不同群体之间的频率变化很大。(b)等式(5)中提出的分组属于每个组的训练对是平衡的。输入对的地面实况得分差δ是第 i 组 , 即 , δ∈ ( ζi , ζi ) , one-hot labelclassification分数,回归树确定阳离子L={l}左权第i个节点其中二进制类-回归标签设置为σ我左.首先执行(紫色节点),然后我我权我左然后,叶层中的回归模块给出最终预测(白色节点)。树形结构。我们采用二叉树架构来执行回归任务。首先,我们对f(n,m)执行MLP,并使用输出作为根节点特征的初始化。然后,我们以自顶向下的方式执行回归。每个节点将来自其父节点的输出特征作为输入,并产生二进制概率以及更新的特征。每个叶节点的概率可以通过将沿着到根的路径的所有概率相乘来计算。我们使用Sigmoid将每个叶子节点的输出映射到[0,1],这是预测的相应的组。然后,我们描述我们的分区策略,以定义每个组的边界。首先,我们收集所有可能的训练视频对的得分差异列表[δ1,… δT]。然后,我们按升序对列表进行排序,以获得δ*=[δ1*,..., δT*]。给定组数R,划分算法给出了每个区间Ir=(π r,)为:对于训练数据中具有分类标签IrR和回归标签σrR的每个视频对,分类任务和回归任务的目标函数可以写为:RJcls=−(lrlog(Pr)+(1−lr)log(1−Pr))r=1RJreg=I(lr=1)(σr−σr)2,r=0其中PrR和σrR是预测的叶概率和回归结果。视频对的最终目标函数是:J=Jcls+ Jreg.(六)推理。所提出的组感知回归树的总体回归过程可以写为:r*r *r*左权RΘ(f(n,m))=σr*(ζright−ζleft)+ζleft,(7)R左 =δ,(T−1)×(r−1),(五)其中,r是具有最高概率的组。在我们的实现,我们也采用了多样本表决-R权=δ*.,(T − 1)× r,],i = 1,2,. . . ,R,ing策略给定输入视频v测试 ,我们选择M样本从训练数据构建M对使用这里我们用δ*(i)表示δ的第i个元素。它这M个不同的样本{v,mMm=1 他们的分数值得注意的是,分区策略是不平凡的。如果{strain}M. 多样本投票的过程可以是我们简单地将整个范围均匀地划分为多个组,训练集中分数差异位于某个特定组的视频对可能是不平衡的(详见图4)。总结为:M测试=RΘ(FW(vtest,vmM火车第0P P层1P P PP层2叶(b)第(1)款(一)频率频率ζζs))+s7923火车M、(8)优化.我们训练回归树s=1sm,m = 1,2,…M.(九)叶概率上的分类任务和地面实况间隔上的回归任务。具体来说,当测试Mm=1测试7924Fρ=√ΣΣi我-我-KKK表1:AQA-7数据集上的斯皮尔曼相关性和R-I2距离的比较]指责我们的实施。Sp. Corr潜水体育跳马大滑雪大雪Sync. 3MSync. 10mAvg. Corr.年Pose+DCT [24]0.53000.1000-----2014ST-GCN [36]0.32860.57700.16810.12340.66000.64830.44332018C3D-LSTM [21]0.60470.56360.45930.50290.79120.69270.61652017C3D-SVR [21]0.79020.68240.52090.40060.59370.91200.69372017JRG [19]0.76300.73580.60060.54050.90130.92540.78492019I3D+MLP* [29]0.74380.73420.51900.51030.89150.87030.74722020美国DL [29]0.80990.75700.65380.71090.91660.88780.81022020I3D + MLP*]0.86850.69390.53910.51800.87820.84860.7601CoRe + GART*0.88240.77460.71150.66240.94420.90780.8401R-l2(×100)潜水体育跳马大滑雪大雪Sync. 3MSync. 10mAvg. R-12年C3D-SVR [21]美国DL [29]1.530.793.122.096.794.827.034.9417.840.654.832.146.862.5720172020I3D + MLP*]0.812.546.065.311.413.083.20CoRe + GART*0.641.783.673.870.412.352.124. 实验4.1. 数据集和实验设置数据集。我们在三个广泛使用的AQA基准上进行实验 , 包 括 AQA-7 [20] , MTL-AQA [22] 和 JIGSAWS[8]。有关数据集的更多详情,请参阅补充资料。评价方案。为了与AQA中的先前工作[19,20,22,29]进行比较,我们采用SpearmanSpearman预测得分的等级,而我们的R-12关注数值。实施详情:我们采用在Kinetics [ 3 ]数据集上预训练的I3D模型作为特征提取器W。对于所有实验,我们将GART的深度设置为d= 5而节点特征尺寸为256。回归树的初始学习速率为1 e-3,I3 D主干的初始学习速率为1 e-4。我们使用Adam[14]优化器,权重衰减设置为零。我们在推理期间为输入测试视频选择10个样本,并且使用多样本投票策略来投票最终得分在对AQA-7和MTL-AQA的实验中,我们遵循[29,19,20,22]来提取103帧(p p)(q q)i(pi−p¯)2Σi(qi−q¯)2、(10)并将它们分割成10个重叠的片段,每个片段包含16个连续的帧。在JIG-SAWS中,我们按照[29]均匀采样出160帧其中p和q表示两个样本中每个样本的排名系列分别。我们还遵循以前的工作,在测量动作的平均性能时使用Fisher我们还提出了一个更严格的度量标准,称为相对L2-距离(R-l2),以更精确地衡量AQA模型的性能给定动作s_max和s_min的最高和最低分数,R-12被定义为:以形成10个不重叠的16帧片段。在AQA-7和JIGSAWS中,我们只根据视频的粗略类别来选择样本视频。例如,如果输入视频来自AQA-7中的单个跳水10米平台,则我们从AQA-7中的单个跳水10米平台的训练集中随机选择样本视频在MTL-AQA数据集中,由于存在关于跳水运动难度(DD)的注释,因此我们选择基于样本的在类别和难度上都有很大的不同。 注意1Σ。|s−s|Σ2Kk=1s最大值−s最小值由于DD在诉讼完成之前为所有法官所知。其中,sk和sk分别表示第k个样本的地面实况得分和预测。 我们使用R-12而不是传统的L2-距离,因为不同的动作具有不同的得分间隔。在不同的动作类别之间比较和平均l2距离是没有意义的我们在实验中报告了以下方法的性能,包括基线方法和我们的方法1的不同版本:I3D + MLP和I3D + MLP*(基线):大多数现存的作品都采用了这种策略。我们使用I3 D [3]来实现-混乱. 我们提出的R-12与斯皮尔曼的不同相关性:斯皮尔曼的相关性更侧重于1我们使用 * 来表示我们在训练和测试中都没有使用DD。·R-12(θ)=、(11)该实现与真实世界的SCE一致79250095908580752.001.751.501.251.000.750.500.2p. Corr.RL2(*100(一)702 3 4 5 6 7RT深度1.00.90.80.70.60.50.40.32 3 4 5 6 7RT深度088868482(b)807876742 4 6 8 1012投票人数0.002 4 6 8 1012投票人数图6:散点图中不同方法的比较图5:回归树的深度(a)和投票样本的数量(b)的影响。对单个输入视频进行编码,并且基于具有3层MLP的特征来预测得分。预测和地面实况之间的MSE损失用于优化模型。CoRe + MLP和CoRe + MLP*:我们重新表述了第2节中提到的回归问题。第3.1条我们从训练集中选择样本视频来构建视频对,并使用MSE损失进行优化。I3D + GART和I3D + GART*:我们在基线方法中用我们的组感知回归树替换回归子网络(MLP)我们使用等式(6)CoRe + GART和CoRe + GART*:第节中提出的方法。3 .第三章。请注意,由于缺乏难度注释,我们没有在AQA- 7和JIGSAWS数据集上评估其中的一些。4.2. AQA-7数据集我们的方法和其他AQA方法在AQA-7上的实验结果如表1所示。最先进的方法USDL [29]使用高斯分布为每个视频创建软分布标签,这可以减少原始标签上的人类判断的主观因素。我们用对比回归实现了同样的目标。我们我还提供了该数据集上的基线I3D + MLP*的结果,这些结果清楚地显示了性能的提高通过我们的方法获得。我们达到最好的结果,几乎所有的类在AQA-7的斯皮尔曼 我们的方法分别达到了8.95%,2.32%,8.83%-6.82%,3.01%和2.25%的性能改进,每个体育类相比,USDL下斯皮尔曼的排名。同时,我们获得了0.15、0.31、1.15、1.07、0.24、-0.21在R-I2下的性能改进。对于普通图中的每个点表示测试集中的视频。红线表示完美的预测。相关性和平均R-12性能,与USDL模型相比,我们有近3.7%和0.45的改进,清楚地显示了我们的模型的有效性。我们还进行了几个分析实验,研究的深度的回归树和投票数M的多样本投票对潜水类的AQA-7数据集的影响。回归树深度的影响。在回归树模块中,树的深度是确定回归树的架构的重要超参数。我们对AQA-7数据集的Diving类进行了几次实验,深度值从2到7不等,并将M设置为10。如图5所示,当深度为5和6时,我们的模型表现更好,其中组的总数为32和64。然而,当深度小于4或大于7时,性能略有下降总的来说,我们的模型对不同的深度都是鲁棒的。投票样本数量的影响。在推理阶段中使用的样本的数量是另一个重要的超参数。M的较大数字意味着模型可以参考更多的样本,同时导致更大的计算成本。我们在跳水课上进行实验,研究M.图5显示了当回归树的深度设置为5时的结果。我们观察到,随着M的增加,性能变得更好,方差更低。对SP. Corr. 当M超过10时变得不太显著我们还可以发现R-12的相同趋势。4.3. MTL-AQA数据集表2显示了现有方法和我们的方法在MTL-AQA数据集上的性能。由于在MTL-AQA中对潜水动作进行了难度(DD)注释,因此我们还验证了DD对该数据集的影响我们将所有方法分为两种类型:一些使用DDp. Corr.L2(*100···7926消融方法Corr.R-l2(×100)表2:在MTL-AQA数据集上与现有方法的性能比较。]指责我们的实施。方法(不含DD)Sp. Corr.R-l2(×100)年Pose+DCT [24]0.2682-2014C3D-SVR [21]0.7716-2017C3D-LSTM [21]0.8489-2017MSCADC-STL [22]0.8472-2019C3D-AVG-STL [22]0.8960-2019MSCADC-MTL [22]0.8612-2019C3D-AVG-MTL [22]0.9044-2019I3D + MLP* [29]0.89210.7072020美国DL [29]0.90660.6542020[29]第二十九话0.91580.6092020I3D + MLP*]0.91960.465CoRe + GART*0.93410.365方法(w/DD)Sp. Corr.R-l2(×100)年[29]第二十九话Musdl [29]0.9231 0.4680.9273 0.45120202020I3D + MLP0.9381 0.394CoRe + GART0.9512 0.260表3:MTL-AQA数据集图7:MTL-AQA数据集上的累积评分曲线。曲线下的面积越大,表示性能越好。训练阶段中的标签(表的底部)和其它标签(表的上部)不具有。我们看到CoRe + GART*分别实现了2.0%和0.244的改善[29]《易经·系辞下》:“以德为先,以德为先l2度量,不带DD标签。 通过训练的难度,我们的方法变得更好,达到2.6%和0.191的改进相比,MUSDL下的两个指标。我们推测有两个原因:一个是我们可以选择更合适的样本,另一个是,表4:在JIGSAWS数据集上与现有方法的性能比较。Sp. Corr.S NP KTAvg. Corr.ST-GCN [36]0.310.390.580.43TSN [21]0.340.230.720.46JRG [19]0.360.540.750.57美国DL [29]0.640.630.610.63Musdl [29]0.710.690.710.70I3D + MLP*0.610.680.660.65CoRe + GART*0.840.860.860.85R-l2(×100)S NP KTAvg.I3D + MLP*4.79511.2256.1207.373CoRe + GART*5.0555.6882.9274.556我们的方法可以从动作的难易程度中挖掘出更多的信息。为了直观地理解我们的方法和基线方法之间的差异,我们以图6中的散点图的形式可视化预测结果。我们看到我们的方法比基线更准确。通过使用难度信息,我们的方法的性能可以进一步提高,其中几乎所有的点都在图片中间的红线附近。在图7中,我们显示了我们的方法和SOTA方法MUSDL [29]的累积评分曲线给定误差阈值ε,其预测与地面实况之间的绝对差小于ε的样本将被视为正样本。可以观察到,在任何错误阈值下,CoRe + GART(红线)都表现出更强的预测准确分数的能力。消融研究。我们进一步对我们的方法进行消融研究。结果示于表3中。将I3 D + MLP和I3 D + GART进行比较 , 发 现 用 我 们 的 组 感 知 回 归 树 代 替 MLP , 在Spearman秩度量和R-12度量下性能分别提高了0.0022和0.028当用我们提出的CoRe框架替换I3D基线时,性能得到进一步改善。上述结果证明了我们的方法的两个组分的有效性。案例研究。 为了更深入地理解我们模型的行为,我们在图8中展示了一个案例研究。基于输入和样本之间的比较,回归树从粗到细确定相对分数。回归树的第一层试图确定哪个视频更好,而下面的层试图使预测更准确。图中的第一种情况显示了输入和样本之间的差异较大时的行为,第二种情况显示了差异较小时的行为。在这两种情况下,我们的模型都能给出令人满意的预测。I3D + MLP基线0.93810.394I3D + GART+ GART0.94030.366CoRe + GART+核心0.95120.2607927���= 0 +(0.5间隔长度������=0.155+23.5= 23.655预测 参考地面实况= 24.0=-4 +(-3 -间隔长度���= -3.6+ 22.0= 18.4预测 参考地面实况= 18.0叶d:[−4,−3]叶i:[0,0.5]图8:案例研究。在左上角标记有E和I的视频分别是样本视频和输入视频。每对范例和输入视频具有相同的难度(DD)。我们显示了回归树的每一层的概率我们将概率最高的叶节点的回归值作为最终的回归结果。我们的预测结果与地面实况之间的非常小的误差证明了我们的方法的有效性。情况情况B情况C输入I3D + MLP CoRe + GART4.5. 可视化为了进一步证明我们的方法的有效性,我们在MTL-AQA上使用Grad-CAM [25]可视化基线模型(I3D + MLP)和我们的最佳模型(CoRe + GART),如图9所示。我们观察到我们的方法可以集中于某些区域(手、身体等),这表明我们的对比回归框架可以减轻背景造成的影响,并且更多地关注可区分部分。5. 结论在本文中,我们提出了行动质量评估的核心框架我们还设计了一个组感知回归树,将传统的分数回归转换为粗到细的分类任务和小间隔的回归任务。三个人的实验图9:可视化。我们将可视化结果显示在使用Grad-CAM的MTL-AQA [25]。我们的方法可以专注于对评估动作质量至关重要的区域。4.4. 关于JIGSAWS我 们 还 进 行 了 实 验 , 这 个 手 术 的 行 动 数 据 集JIGSAWS。四重交叉验证用于遵循先前的工作[29,19]。表4示出了实验结果。Core + GART* 在很大程度上改进了以前的技术水平。我们的方法还获得了更平衡的在不同的行动类的表现。AQA数据集已经证明了我们的方法的有效性。我们希望引入的Core提供了一个新的和通用的解决方案,为各种AQA任务。确认这项工作得到了中国国家自然科学基金U1813218、U1713214和61822603基金的部分支持,部分得到了北京人工智能研究院(BAAI)的资助E#26-7S=23.5I#4-18一BCDeF GHijkLmnOE#4-103S=22.0I #10-24一BCDeF GHijkLmnO概率概率DD=2.9DD=3.07928引用[1] Debasish Basak , Srimanta Pal , and Dipak ChandraPatran- abis.支持向量回归。2007. 2[2] Gedas Bertasius , Hyun Soo Park , Stella X. Yu , andJianbo Shi.我是个球员吗?第一人称视频中的篮球表现评估在ICCV,第2196-2204页,2017年。2[3] J oaoCarreira和Andr e wZisserman。Quovadis,动作识别?新模型和动力学数据集。在CVPR中,第4724-4733页二三五[4] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,第1597PMLR,2020年。2[5] Hazel Doughty,Dima Damen和Walterio W.马约尔-奎瓦斯。谁更好,谁最好:使用深度排名的视频中的技能确定。CoRR,abs/1703.09913,2017。一、二[6] 作者声明:John W.马约尔·奎瓦斯和迪马·达曼利与弊:用于长视频中技能确定的等级感知时间注意力。在CVPR中,第7862一、二[7] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在ICCV,第6201-6210页,2019年。1[8] Yixin Gao,S Swaroop Vedula,Carol E Reiley,NargesAh-midi , Balakrishnan Varadarajan , Henry C Lin ,Lingling Tao,Luca Zappella,Benjamın Bejar,David DYuh,et al. Jhu-isi手势和技能评估工作集(拼图):用于人体运动建模的手术活动数据集。在MIC-CAIW,第3页,2014年。二、五[9] 安德鲁·戈登。人类行为的自动视频评估2001年11月。一、二[10] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR中,第9729-9738页,2020年。2[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。3[12] 水忘机、魏旭、明阳、开宇。用于人体动作识别的3D卷积神经网络。InJohannesFürnkranzandThorstenJoachims , editors ,ICML, pages 4951[13] Marko Jug,Janez Pers,Branko Dezman,and StanislavKo- vacic. 基于轨迹的协调人体活动评估在詹姆斯L.作者 : Justus H.Piater , Markus Vincze , and LucasPaletta,editors,ICVS,pages 5341[14] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。计算机科学,2014年。5[15] Hongyang Li,Jun Chen,Ruimin Hu,Mei Yu,HuafengChen,and Zengmin Xu.使用视觉注意力和强化学习的动 作 识 别 。 在 Ioannis Kompatsiaris , Benoit Huet ,Vasileios Mezaris,Cathal Gurrin,Wen-Huang Cheng和Stefanos Vrochidis,编辑,ACM MM,第365-376页1[16] 林天威,小刘,李欣,丁二瑞,文石磊。BMN:用于时 间 动 作 提 议 生 成 的 边 界 匹 配 网 络 。 CoRR ,abs/1907.09702,2019。17929[17] Anand Malpani,S. Swaroop Vedula,Chi Chiung GraceChen和Gregory D.海格基于成对比较的客观评分,用于手术任务中节段的自动技能评估Danail Stoyanov,D.Louis Collins,Ichiro Sakuma,Purang Abolmaesumi,and Pierre Jannin,editors,IPCAI,第138-147页,2014。1[18] Alber to oMontes,AmaiaSal v ado r,andX a vierGir o´-i-Nieto. 使用递归神经网络在未修剪视频中进行时间活动检测CoRR,abs/1608.08128,2016。1[19] Jia-Hui Pan,Jibin Gao,and Wei-Shi Zheng.通过联合关系图进行动作评估。 在ICCV,2019年。 一、二、五、七、八[20] Paritosh Parmar和Brendan Morris多个行动的行动质量评估。在WACV,第1468-1476页,2019年。一、二、五[21] Paritosh Parmar和Brendan Tran Morris。学习奥运项目得分。在CVPRW,第76-84页,2017年。一、二、五、七[22] Paritosh Parmar和 Brendan Tran Morris 。 你的 表 现 如何?动作质量评估的多任务学习方法在CVPR,2019年。一二三五七[23] 马泰·佩斯、马泰·克里斯坦、雅奈兹·佩斯和斯坦尼斯拉夫·Kova cic。用贝叶斯网络自动评估组织篮球活动2007年3月。1[24] Hamed Pirsiavash Carl Vondrick和Antonio Torralba评价行动的质量。在ECCV,第556-571页,2014年。一、二、五、七[25] Ramprasaath R Selvaraju,Michael Cogswell,AbhishekDas,Ramakrishna Vedantam,Devi Parikh,and DhruvBatra.Grad-cam:通过基于梯度的定位从深度网络进行视觉解释。见ICCV,第618-626页,2017年。8[26] YachnaSharma , VinayBettadapura , ThomasPl o¨ tz ,NilsY. Hammerla,Sebastian Mellor,Roisin McNaney,PatrickOlivier , SandeepDeshmukh , AndrewMcCaskie,and Irfan Essa.使用顺序运动纹理的基于视频的osats评估。2014. 1[27] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在NeurIPS,第568-576页,2014中。1[28] Yansong Tang , Dajun Ding , Yongming Rao , YuZheng,Danyang Zhang,Lili Zhao,Jiwen Lu,and JieZhou. COIN:用于综合教学视频分析的大规模数据集。在CVPR中,第1207-1216页,2019年。1[29] Yansong Tang , Zanlin Ni , Jiahuan Zhou , DanyangZhang,Jiwen Lu,Ying Wu,and Jie Zhou.行动质量评估的不确定性感知分数分布学习在CVPR,2020年。二、三、五、六、七、八[30] 杜特兰Bourdev,Rob Fergus,Lorenzo Torre- sani,andManohar Paluri. 用 3d 卷 积 网 络 学 习 时 空 特 征 。 在ICCV,第44892[31] Vinay Venkataraman、Ioannis Vlachos和Pavan K.图拉加动作分析的动力学规律。谢祥华、马克·W. Jones和Gary K. L. Tam,编辑,BMVC,第67.1-67.12,2015页。1[32] 王利民,乔宇,唐晓鸥。使用轨迹池深度卷积描述符进
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功