长视频动作质量评估：基于等级解耦Likert评分法和Transformer解码器架构的研究

121 浏览量更新于2023-10-25 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3232等级感知功能Likert评分64分总分0.10.20.30.4差（0分）一般（30分）好（60分）优秀等级（100分）行动表现量表长期行动评估的等级解耦Likert评分法徐昂琪1，曾玲安2，郑伟世1，3，4，1中山大学计算机科学与工程学院2中国中山大学人工智能学院3中国深圳鹏程实验室4机器智能与先进计算教育部重点实验室{xuangch，zenglan3}@ mail2.sysu.edu.cn，wszheng@ieee.org摘要长期动作质量评估是评估动作执行得有多好的任务，即，从长视频估计质量分数。直觉的、长期的动作通常涉及表现出不同技能水平的部分例如，技术亮点和故障可能出现在同一个长期行动中。因此，最后的分数应该由视频中表现出的不同等级的综合效果来决定。为了探索这种潜在的关系，我们设计了一种新的Likert评分范式，在心理测量学中的Likert量表的启发下，我们明确地量化等级，并通过结合量化值和从视频中估计的相应响应来生成最终的质量分数，而不是执行直接回归。此外，我们提取特定于年级的特征，这将被用来估计每个年级的响应，通过Transformer解码器架构与不同的学习查询。整个模型被命名为等级解耦Likert Transformer（GDLT），并在两个长期行动评估数据集上获得了最新的结果11. 介绍行动质量评估（AQA）是一项评估特定行动执行情况的任务，通常被建模为评分回归任务。由于其在现实世界中的丰富应用场景，如体育赛事[16，27，30-32，37，43 - 45 ]，手术训练[ 10 - 12，21，41 ]和日常技能[ 8，9，18 ]，AQA越来越受到计算机视觉界的与只需要几秒钟的动作相比*通讯作者。1项目页面https：//isee-ai. cn/cvpr22_gdlt.html等级解耦图1.简单说明一下我们的想法。动作视频的特征首先被分解为不同的等级感知特征，这些特征包含与特定等级相关的信息然后，它们将被视为最终的质量分数是通过汇总“量表问题”的分数不同的等级）根据来自视频的响应。（例如，潜水），长期行动的AQA（例如，花样滑冰）更具挑战性，因为它们包含更丰富和更复杂的信息。直觉上，长视频很可能表现出不同的技能水平（例如，优秀，好，一般或差）在不同的部分[9]，我们称之为性能等级的技能水平。例如，完美的空中转体、不合格的抬腿和跌倒错误可能发生在同一个长期动作（花样滑冰）中。因此，我们认为，质量分数应确定的综合效果的不同等级的视频。换句话说，我们假设存在从等级到分数的内在映射。这一观点在以前几乎没有讨论过。3233已有的作品[21，27，43，45]，这些现有的作品使用MLP直接从视频表示回归分数，忽略了这种固有的复杂性。在这项工作中，我们的目标是明确地模拟不同等级对分数的影响。为此，我们提出了一种新的评分范式，命名为Likert评分，其灵感来自心理测量学和社会学调查中着名的Likert量表[19]量表是一种定量评价被调查者心理状态的心理测量工具要求受访者评估他/她对每个陈述的同意程度然后将每个陈述的一致度转换为量化分数，将所有分数相加得到总分，该总分反映了被调查者在本文的背景下，我们把评估一个复杂的行动，填补了然后要求输入视频从视频中估计每个等级的响应强度。这些强度将与预先量化的评分相结合，以确定最终质量评分。这里潜在的洞察力是评估一个复杂的目标（即，动作质量），通过明确测量几个内在的组成部分，这是一致的李克特规模。图1简要说明了这一想法。而且，为了填满与来自视频的每个等级相关的信息）以生成响应。为此，我们将视频特征分解为不同的等级感知特征，这些特征包含特定等级的信息。这一过程被称为等级解耦。受DETR [3]的启发，该步骤由Trans- former [39]解码器实现，该解码器摄取视频特征序列和一组可学习向量作为各个等级的原型，并且等级特定的语义由这些原型通过交叉注意机制从视频特征中表现出来。形式上，我们将整个模型命名为等级解耦LikertTransformer（GDLT），它由标准Transformer [39]编码器-解码器架构和Likert评分模块（LSM）组成。前者由时间上下文编码器（TCE）和等级感知解码器（GAD）组成.在TCE中，我们利用自我注意机制来更好地探索每个片段的丰富上下文信息，这对于长视频理解至关重要然后，GAD和LSM将分别进行总之，我们的主要贡献有两个方面：• 在心理学研究的启发下，提出了一种新的评价范式--李克特评分法，以探讨不同年级对学生学习成绩的综合影响。分数• 引入Transformer [39]编码器-解码器架构以执行等级解耦，其旨在从输入视频中提取用于Likert评分的等级特定特征。据我们所知，这是第一个在AQA中采用Transformer的工作。为了评估我们的想法，我们对两个公共长期行动评估数据集进行了实验：艺术体操[45]和Fis-V [43]。我们的模型在两个数据集上都取得了最先进的结果，证明了它的有效性。2. 相关工作行动质量评估。AQA通常被认为是回归问题[11，16，21，27，28，30估计动作的质量分数。一些早期的作品[31，32]直接采用支持向量回归来执行回归，手工制作的离散余弦变换或深度C3D [38]特征作为输入。为了实现更准确的评估，最近的工作[11，16，27，28，37，40，43例如，Tanget al. [37]利用标签分布学习来建模得分不确定性。然而，长期AQA中的问题仍然相对未被探索[43，45]。Xu等[43]提出了两个LSTM[14]来学习本地和全局信息。Zeng等人[45]利用静态姿势信息来增强视频运动特征，并设计用于长期时间建模的基于图形的注意力模块。在这项工作中，我们探索了长视频中隐含的各种等级的性能，并提出了一种新的评分范式，考虑这些等级，而不是直接递减的分数。然而，一些日常活动，如打领带，没有专业的标准来准确评分。Doughty等人[8，9]通过将AQA视为成对排序问题来解决这个问题，即，以确定给定的一对视频中的哪一个更好。请注意，在[9]中，他们提出分别对视频中的高技能和低技能部分进行建模，并设计损失函数来约束一对视频之间这两个部分之间的关系，这与我们的工作类似然而，我们提出的模型是广义的多个等级，而不是二进制的，可以用于直接的分数估计。Transformer。Transformer [39]最早由Vaswani等人引入。用于机器翻译和序列建模。它提出了一种自注意机制，允许每个元素看到整个序列，并通过聚合来自其他元素的信息来更新自己。由于其先进的建模全局关系的能力，Transformer已经主导了自然语言处理领域[6，33]，3234t=1t=1--特征提取上下文增强等级解耦Likert评分评分···时间上下文编码器等级感知解码器分数生成响应估计定量···级原型骨干查询键值评分区间图2.我们提出的GDLT的总体框架。主干网从视频片段中提取特征序列，TCE利用上下文信息对特征序列进行增强。GAD维护一组可学习的向量作为性能等级的原型，并利用它们从上下文增强的视频特征中提取等级感知特征最后，等级感知特征用于生成响应强度，该响应强度将与定量值相结合以计算最终分数。并被广泛用于时间序列建模[42，47]和计算机视觉任务[1在这项工作中，Transformer编码器被用来进一步探索视频特征序列中的时间上下文关系。此外，一些作品采用了一组具有特定语义含义的可学习查询，通过Transformer解码器从输入中提取不同的语义[3，17，25，36，46]。例如，DETR [3]使用每个查询来表示对象检测中的潜在对象类。在这项工作中，我们把可学习的查询作为等级的原型，这将被用来提取相关的信息，为每个等级通过Transformer解码器。3. 我们的方法在这一节中，我们详细介绍了我们提出的分级解耦李克特Transformer（GDLT）.我们首先在3.1节描述我们工作的一些细节。然后介绍了GDLT的三个主要组成部分，时间上下文编码器（TCE）、等级感知解码器（GAD）和李克特评分模块（LSM）分别在第3.2节、第3.3节和第3.4节中。图2显示了GDLT的总体框架。3.1. 预赛问题表述。我们首先制定AQA问题。遵循现实世界中的实践（例如，体育比赛）时，动作质量由分数来衡量，分数是非负实数，分数越高表示动作质量越好。自然地，该模型需要在人类专家注释的监督下学习从视频到分数的映射。在[45]之后，我们将标签标准化为区间[0，1]，以获得更稳定的特征提取。根据长期动作理解的实践[15，43，45，46，48]，我们在从非重叠视频片段中提取的特征序列上构建GDLT，每个片段由几个连续帧组成。这些特征是通过精心设计的视频主干（例如，[23][24][25][26][27][28][29]][29][29][29]][29][29]然后，一个2层的MLP应用于减少骨干特征的尺寸。我们将所获得的具有T个片段的视频的特征序列表示为{ft}T 其中ft ∈ Rd，用作GDLT的输入。等级定义。如第1节所述，等级是质量水平。在这项工作中，我们定义了K级，从1到K，以表示行动质量从差到好的上升指数。请注意，这些等级指数与等级原型的下标（见3.3节）、数量值（见3.4节）和其他相关符号一致，即下标为k的相关符号对应于第k个等级。3.2. 时间上下文编码器由于特征是从视频片段中独立提取的，因此每个ft仅包含非常小的时间区域的信息（即，当前段）并且缺少上下文信息。因此，采用Transformer [39]编码器来首先丰富分段表示ftT。通过对所有片段特征进行加权聚合得到每个片段的上下文信息，并根据当前片段与其他片段之间的语义相关性确定权重。这个过程被称为自我注意机制。然后，将上下文信息加回原始ft，并且将求和的向量传递到小的前馈网络中以用于进一步融合。可以堆叠多个编码器我们将最终的上下文增强特征表示为{fctx}T，训练不其将由等级感知解码器使用。t=13235p=a（3）k，ttk=1k=1Kk=1k=1不不−不t=1k=1不t=1Kagg------kk=1+jkk等级感知功能��×��等级感知通过对应的查询密钥对之间的点积相似性来测量：qTkt解码器前馈网络ak，t=√d，（2）��×��级Softmax软模×软模去耦其中，Rcid用作缩放因子。它显示了第t段与第k性能等级相关。然后，沿着时间维度t应用softmax函数，以产生用于信息的归一化注意力权重a_k，t��×��查询Self-attention��×��关键��×��值值之间的函数聚合不阿格K等级原型��×��···视频特征序列��×��t=1以上等式被应用于经由等级相关权重来池化视频特征因此，这些结果可以看作是一种含有信息的图3.等级感知解码器和等级解耦机制的图示。重要张量的形状显示只与视频中的特定等级有关然后，我们利用获得的{p}K来激活video-agnostic prototypes{p$>}Kk k=1{pagg}K灰色的。表示矩阵乘法。X表示元素-kk=1通过添加k k=1明智的总和，并省略了一些剩余的连接，为简洁起见。Query、Key和Value是三种不同的线性投影。3.3. 等级感知解码器在等级感知解码器中，我们的目标是从上下文增强的视频特征fctxT中提取与不同等级相关的信息。为此，我们引入了一组K个可学习向量pkK作为K个绩效等级的原型，以学习它们的不同特征。受DETR [3]的启发，{pk}K和{fctx}T是由一个并行的非回到pkK，并且通过FFN 进一步细化求和向量。也可以堆叠并且一层的输出用作下一层的输入查询。最后一个GAD层的输出表示为{patt}K，我们称之为等级感知特征。等级感知特征的多样性。直觉上，不同的等级原型应该关注不同的语义模式，因此等级感知特征应该具有低相关性。因此，受[17，36]的启发，我们利用多样性损失来显式地正则化它们具体来说，我们采用三重损失[34]，以确保等级意识的fea-不同等级的自回归和非屏蔽版本的Transformer [39]图相距足够远。提供一批解码器，由三部分组成：自我注意，交叉，我们重写{patt}K作为{patt，（i）}K哪里注意力和小前馈网络（FFN）。自我-i= 1，2，…Bk k=1k k=1首先应用注意机制挖掘K个原型之间的关系。我们将自注意之后的更新原型表示为{pk}K-是的然后，.每个三元组包括等级感知特征patt，（i）第k等级和第i视频作为锚，同一等级的阳性样本和阴性样本不同的等级。因此，对于每个patt，（i），我们搜索将用于从视频Ki、k和特征序列通过交叉注意，并且该过程被称为等级解耦。图3显示了详细信息Di，k，其中：−对距离D+的GAD。等级脱钩。通过交叉注意机制实现了等级解耦。具体而言是Di，k=maxdist（patt，（i），patt，（j）），j=i，Di，k=mindist（patt，（i），patt，（n）），mdist =k，（四）ctxT K-m，nkm模块标记{ft }t=1和{pk}k=1作为输入，哪里是一个成对距离度量。公司现采用国际从{pk}K生成查询，而keys和值是dist（·，·）从{fctx}T通过三个不同的线性方程余弦距离：喷射：QK =Wq 波多克不，ktt=1=W kfctx，vt=Wv （1）第一章dist（x，y）=1 <$x，y<$x则分集损失被定义为：.（五）3236k=1t=1t=1divBK+−其中{qk}K、{kt}T和{vt}T指示查询，BK键和值。之后，语义第k等级和第t视频段之间的相关性是L=1max（0，Di，k−Di，k+α），（6） i=1k=13237GΣ我KK·KK·K KKk=1K k=1--G- -其中α是非负裕度和超参数。等级感知功能分数生成。最终得分是通过量化值和等级间反应强度的线性组合产生的。注意，分数应该由每个等级的比例来确定，以确保它落在有效的区间内（即，[0，1]）。所以我们也不-马里泽gK{wk}k=1，使得和为1，得到ne w权重{wg}K：k k=1沃沃格w=k。（九）和乘乙状L1-归一化KKi=1 沃沃格图4. Likert评分模块的图示。第一部分：响应估计。第二部分：分数生成。最后，质量分数s计算为：s=w g s g.（十）k=13.4. Likert评分模块对于桥接等级和质量分数，我们受李克特量表[19]的启发设计了组合权重被认为是视频中每个等级的响应强度，并且从等级感知特征pattK估计，因为它们中的每一个都可以被视为视频中特定性能等级的全局表示。形式上，李克特评分范式由三个步骤组成：量化、响应估计和评分生成。图4给出了简要说明。定量。第一步是找到一组离散值sK来表示等级，这些值对于给定的数据集是固定的。显然，这些值应该覆盖整个有效分数区间[0，1]，并且足够多样化以确保等级的可区分性。因此，我们将它们均匀分布在区间内：s g=k−1。（七）kK−1我们还研究了消融研究中的其他选择响应估计。在GAD之后，等级感知特征属性应该包含与视频中的第k个因此，我们采用一个简单的神经网络pkk（）来估计响应强度的第k级（表示为wg）的视频从相应的特征patt。Wrink（）被实现为一个全连接层，后面是一个sigmoid激活σ：w∈g=σ（p ∈k（pat t））。（八）损失函数。为了直接最小化估计得分和标签之间的误差，我们采用均方误差（MSE）损失LMSE来训练我们的模型，以及第3.3节中描述的多样性损失项Ldiv：L=LMSE+λLdiv，（11）其中λ是折衷超参数。4. 实验我们在两个数据集上进行实验：艺术体操[45]和Fis-V [43]来评估我们的模型。我们首先简要介绍了数据集和常用度量。然后，我们描述了我们的实施细节，并提出了结果。之后，我们进行消融研究，以进一步深入分析我们的模型，并进行一些直观的理解可视化。4.1. 数据集和指标艺术体操（RG）。RG数据集包含4个不同设备的艺术体操动作的总共1000个视频，球、球杆、铁环和丝带。每个视频的长度约为1.6分钟，帧速率为25。每种动作有200个训练视频和50个评估遵循[45]的实践，我们为每种类型训练单独的模型。花样滑冰视频（Fis-V）. F i s - V 数据集有500个花样滑冰女子单打短节目的视频。每段视频约2.9分钟，帧速率为25。我们遵循官方的划分，其中有400个视频用于培训，100个用于测试。根据竞赛规则，所有视频都标注了两个分数，即总元素分数（TES）和总程序组件分数在[43]之后，我们训练了两个独立的模型来预测这两个分数。请注意，Fis-V是MIT滑冰的替代品[32]，KK[31]第31话，你是我的女人！请注意，为了学习不同等级的特定映射规则，不共享Rankk（·）小得多（分别为150/171个视频）。因此，我们不再对它们进行实验。定量1···L1无菌灌装机···第二1······评分第一······克雷蒂安······影响烈度L13238↑我我我Σ−−不我我我我不t=1--SRCC表1. GDLT与其他方法在RG和Fis-V数据集上的比较。Avg.是使用Fisher z值计算的所有类别的平均SRCC。†表示我们重新实施的结果。表示度量越高越好。最佳结果以粗体显示，次佳结果以下划线显示。公制。根据以前的工作[31，32，43，45]，我们采用Spearman它RG（梅花）/ RG（箍）/ RG（丝带）/ Fis-V（TES）/Fis-V（PCS）。等式（11）中的λ对于RG为1.0，对于Fis-V为0.5。对于所有模型，公式（6）中的α均为1.0。为了对模型进行正则化，我们对RG/Fis-V使用0.3/0.7的dropout更多详情请参阅（xr x<$r）（yry<$r）ρ=π（xr−x<$r）2π（yr−y<$r）2，（十二）花絮4.3.与最新技术水平的其中，Xr和Yr分别表示两个系列的等级。它的范围从-1到1，越高越好。此外，使用Fisher z值从单个每类SRC计算各类的平均SRCC（“类”一词是指RG中的动作类型和Fis-V中的评分类型），如4.2. 实现细节特征提取。如3.1节所述，我们首先将视频划分为不重叠的片段，每个片段由32个连续帧组成。由于鉴于近年来视觉Transformer的快速发展，我们采用了一个新开发的视频Swin Transformer（VST）[23]作为我们的骨干，它是从Swin Transformer [22]扩展而来的，并在Kinetics-600 [4]请注意，我们对于小批量训练，RG的段数固定为68，Fis-V为124。如果一个视频有更多的片段，我们选择连续的片段，其中开始位置在每次训练迭代中随机确定，如[43，45]所示测试时使用所有实验设置。我们使用1层TCE和2层GAD都与单头注意来实现GDLT。潜在空间d的维数为256，等级数K对于所有类都设置为4公司现采用国际表1显示了我们的模型和先前最先进的方法在RG和Fis-V数据集上的评估结果。为了公平比较，我们在与我们相同的VST特性上重新实现[43，45如表1所示，我们的模型优于当前最先进的方法ACTION- NET[45]，特别是在 RG 上（平均 0.037 ），并且与 MS-LSTM [43]相比，RG上的平均改进为0.102，Fis-V上的平均改进为0.017。请注意，它们都直接从视频的全局特征回归分数，因此结果证明了对潜在等级进行建模的有效性。值得注意的是，ACTION-NET利用额外的静态图像功能来辅助动态视频功能。相反，我们的GDLT只使用视频功能，但仍然取得了优异的效果。4.4. 消融研究Likert评分范式。为了评估我们提出的Lik-ert评分（LS）范式，我们将其与AQA的常见做法进行比较，AQA通过MLP直接从视频级全局描述中回归分数。因此，我们采用共同平均池化（AVG）和注意力池化（ATT）来从上下文增强特征fctxT生成该全局描述，作为两个基线。atten- tion单元由两个完全连接的层组成，具有ReLU和softmax激活功能[9，26，35，45]。在每个时间步t，它将特征fctx作为输入并输出一个权重SGD的动量为0.9，以优化所有模型。批量大小为32，学习率为0.01，然后我们通过余弦退火策略逐渐将其减少到0.0001 [24]。为了更好地收敛，我们为不同的模型设置了不同的时期：250/400/500/150/320/400用于RG（球）/用于聚集。另外，Transformer [39]解码器的输出（即，GAD）可以被看作是一组对应于特定语义模式的响应特征[3，17，25，36，46]。因此，为了进一步显示优越性，方法特征艺术体操↑Fis-V球俱乐部箍丝带Avg.TESPCsAvg.C3D+SVR [31]C3D [38]0.357 [四十五]0.551 [四十五]0.495 [45]0.516 [四十五]0.483 [45]0.400 [43]0.590 [43]0.501 [四十三]C3D [38]-----0.6500.7800.721MS-LSTM [43]I3D [5]0.515 [45]0.621 [45]0.540 [四十五]0.522 [四十五]0.551 [四十五]---VST [23]0.621†0.661†0.670†0.695†0.663†0.660†0.809†0.744 †[45]第四十五话[13]第十三届全国政协委员0.5280.6520.7080.5780.623---3239LLLK−k=1G- -0.85表2. Likert评分范例的消融研究。AVG、ATT、TD-IS、TD-CS、TD-AS和TD-LS表示平均池、注意力池、个人评分、连接和0.800.750.700.650.602 3 4 5 6等级数K评分法、平均和评分法以及我们的Likert评分法。最佳结果以粗体显示，次佳结果以下划线显示。变体Fis-V球俱乐部箍丝带Avg.TESPCsAvg.不含TCE的0.7250.6930.6690.7640.7150.5970.7770.698GDLT w/oLdiv零点七二三零点七五五0.7600.7000.7350.675零点八一六0.754GDLT0.7460.8020.7650.7410.7650.6850.8200.761表3. TCE和Ldiv影响的消融研究。通过评分范例而不是Transformer解码器，我们构建了三个额外的基线（前缀为• 个体评分（TD-IS）。该基线通过不同的MLP单独回归每个响应特征的评分，然后取平均值。• 连接和评分（TD-CS）。该基线将所有响应特征连接为全局表示，并直接从其回归分数。• 平均和评分（TD-AS）。该基线与TD-CS相似，但TD-AS生成全球代表，图5.与不同数量的等级进行比较。最好用彩色观看。当从完整模型中删除TCE时。这说明上下文信息对于长时间的视频理解是重要的.div的影响。如表3所示，当不应用divdiv提供了额外的正则化来帮助学习GAD，它缺乏任何直接的监督信号（只提供视频级别的分数标签）。等级K的数量。等级K的数量至关重要。如图5所示，K=4适用于所有类别。我们观察到，当增加K时，大多数类的性能下降，因为太多的等级可能会给模型带来模糊性值得注意的是，K=2时的性能相对较差，这表明好/坏二元建模[9]量化战略。在等式（7）中，我们统一地设置定量值sK 。我们称这个方法为作为 Uniform-Interval（UI），并在这里检查其他两个可能的方法（注意，为了覆盖整个分数区间[0，1]，sg和sg必须为0和1）：通过平均所有响应特征来表示怨恨1K结果示于表2中。我们提出的Lik-ert评分在所有类别上都达到了最好或第二好的性能，并且平均以较大的幅度优于其他人，显示了其鲁棒性和有效性。特别是，与TD-IS、TD-CS和TD-AS相比，结果表明我们在反应特征和最终分数之间建立了更直接和更有意义的联系，如第1节所述。Moreover, similar to [9], we have an interesting findingthat the inclusion of the attention unit decreases the perfor-mance from naive average pooling in some cases. 我们认为这相反，我们的模型明确地将汇集的特征与特定的等级联系起来。这一操作可以被视为一个中间桥梁，它弥补了上述差距，并导致更好的结果。TCE的影响。从表3中，我们可以观察到RG（-0.05）和Fis-V（-0.063）的显著性能下降• 均匀样品（US）。我们量化等级，使训练集中样本的地面真值分数均匀分布在K-1个区间内。• 可学习宽度（LW）。我们通过将K1区间的宽度作为可训练参数的一部分来使定量值可学习。当评分时，我们应用softmax函数使它们非负并求和为1，并通过归一化宽度生成定量值。如表4所示，最简单的方法UI实现了最佳的平均性能。值得注意的是，使量化值可学习4.5. 定性分析交叉注意力权重的可视化。为了找出等级原型关注的模式，我们展示了RG（球）RG（俱乐RG（盘管）RG（丝带）Fis-V（TES）Fis-VSRCC编码器解码器艺术体操Fis-V球俱乐部箍丝带Avg.TESPCsAvg.AVG0.7730.7540.6750.7110.7300.5530.7860.687ATT0.7110.6850.6960.7280.7050.5280.7760.670TCETD-ISTD-CS0.7150.6970.7010.7190.7270.7360.7550.6960.7250.7120.6070.5730.8070.8220.7220.720TD-AS0.7050.7870.6880.7070.7240.5750.8150.715TD-LS0.7460.8020.7650.7410.7650.6850.8200.76132403K k=1一BCDa.C.b.D.图6.最后一层GAD中各年级原型的交叉注意力权重可视化示例是Fis-V中的#17视频，类别是PCS。第一行显示了视频片段上四个原型的四条权重曲线接下来的两行是对应于曲线上的四个标记的四个视频段，即，a、b、c和d。标签升序sg（0.667）最接近数据集的平均标签得分最后，一些与高技术有关的技术动作，如空中转体（markerc）和旋转（markerd），都有最高等级的原型参与。反应强度的可视化图7示出响应强度{wg}K由等式估计图7. RG（球）测试集上所有视频样本每列代表一个样本，所有样本按标签分数的升序排序。为了更好地观察强度随样本分数的相对变化，我们对每一行进行归一化，即，通过最小值-最大值缩放，相同等级的所有强度。最好用彩色观看。艺术体操表4.比较不同的策略来量化成绩。US、LW和UI分别表示均匀样本、可学习宽度和均匀间隔。最佳结果以粗体显示，次佳结果以下划线显示。在图6中，在最后GAD层中的视频特征序列上的每个原型的通过等式（2）体重曲线的不同波动表现出不同的注意模式。具体而言，1级原型对运动员跌倒的时刻（标记a）给予高权重，这表明表现较差。2年级的原型检测到更多不能得到高分的琐碎部分（标记b）。第三等级的曲线相对稳定，因为其定量值训练模型的特征（8）随着标签分数而变化。我们发现，低年级的强度随着样本分数的增加几乎单调下降，而高年级的强度增加，这是符合人类的经验。在柔软的材料中看到更多的可视化。5. 结论在这项工作中，我们提出了一种新的等级解耦的Lik- ert Transformer（GDLT），以探讨在视频中表现出的不同等级对分数的综合影响。为此，本文提出了一种新的评分范式--Likert评分，将质量评分作为量化等级和相应的视频响应之间的组合此外，一个trans-former解码器被用来提取特定等级的信息，这将用于响应估计，从视频通过各种学习查询。两个长期AQA数据集上的最新结果证明了我们模型的有效性。6. 确认本工作得到了国家自然科学基金项目（U21A20471，U1911401，U1811461）、广东省自然科学基金项目（ No.2020B1515120085 ，2018B030312002），广州研究项目（201902010037），广州市重点领域研究发展计划（202007030004）。变体Fis-V球俱乐部箍丝带Avg.TESPCsAvg.美国0.7580.7750.7410.7410.7540.6520.7990.734LW0.6890.7490.7070.7240.7180.6510.8200.747UI（我们0.7460.8020.7650.7410.7650.6850.8200.7613241引用[1] Anurag Arnab ， Mostafa Dehghani ， Georg Heigold ，Chen Sun，MarioL uc i c′，andCorde l iaSchmid. Vivit：一个视频视觉 Transformer 。 arXiv 预印本 arXiv ：2103.15691，2021。3[2] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？arXiv预印本arXiv：2102.05095，2021。3[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中，第213Springer，2020年。二三四六[4] Joao Carreira 、 Eric Noland 、 Andras Banki-Horvath 、Chloe Hillier和Andrew Zisserman。关于动力学的简短说明-600。arXiv预印本arXiv：1808.01340，2018。6[5] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页，2017年。三、六[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。2[7] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。3[8] 黑兹尔·道蒂迪玛·达曼沃特里奥·马约尔·奎瓦斯谁更好？谁最好？用于技能确定的成对深度排名。在IEEE计算机视觉和模式识别会议论文集，第6057- 6066页，2018年。一、二[9] 黑兹尔·道蒂沃特里奥·马约尔·奎瓦斯和迪玛·达曼利与弊：用于长视频中技能确定的等级感知时间注意力。在IEEE/CVF计算机视觉和模式识别会议论文集，第7862-7871页，2019年。一、二、六、七[10] Isabe lFunk e ， S ？ renTor geMees ， J ？ r genWeitz，andSte-fanie Speidel.基于视频的3d卷积神经网络手术技能评估。国际计算机辅助放射学和外科杂志，14（7）：12171[11] Jibin Gao ， Wei-Shi Zheng ， Jia-Hui Pan ， ChengyingGao，Yaowei Wang，Wei Zeng，and Jianhuang Lai.行动评估的非对称建模欧洲计算机视觉会议，第222-238页Springer，2020年。一、二、六[12] Yixin Gao，S Swaroop Vedula，Carol E Reiley，NargesAh-midi ， Balakrishnan Varadarajan ， Henry C Lin ，Lingling Tao ， LucaZappella ， BenjamınBe´ja r ， D avidDYuh ， etal.Jhu-isi 手势和技能评估工作集（拼图）：用于人体运动建模的手术活动数据集。在MICCAI研讨会上：M2cai，第3卷，第3页，2014年。1[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。进行中-IEEE计算机视觉和模式识别会议的论文集，第770-778页，2016年。6[14] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。2[15] 洪发庭，冯家昌，徐丹，英山，郑伟世。跨模态共识网络用于弱监督时间动作定位。arXiv预印本arXiv：2107.12589，2021。三、六[16] Hiteshi Jain ， Gaurav Harit 和 Avinash Sharma 。基于siamese网络的深度度量学习的行动质量评估。IEEETransactionsonCircuitsandSystemsforVideoTechnology，31（6）：2260-2273，2020。一、二[17] Yulin Li ， Jianfeng He ，Tianzhu Zhang， Xiang Liu ，Yongdong Zhang，and Feng Wu.多样的零件发现：使用部件感知的 Transformer 重新识别闭塞人员。在IEEE/CVF计算机视觉和模式识别会议上，第2898-2907页，2021年三、四、六[18] Zhenqiang Li ， Yifei Huang ， Minjie Cai ， and YoichiSato.基于空间注意力网络的视频操作技能评估。在IEEE/CVF计算机视觉研讨会，第01[19] 伦西斯·李克特一种测量态度的技术。心理学档案，1932年。二、五[20] 纪林、闯乾、宋涵。Tsm：用于高效视频理解的时间移位模块。在IEEE/CVF计算机视觉国际会议论文集，第7083-7093页，2019年。3[21] Daochang Liu, Qiyue Li, Tingting Jiang, Yizhou Wang,Rulin Miao, Fei Shan, and Ziyu Li.统一的技能评估。在IEEE/CVF计算机视觉和模式识别会议论文集，第9522-9531页一、二[22] Ze Liu，Yutong Lin，Yue Cao，Han Hu，Yixuan Wei，Zheng Zhang，Stephen Lin，and Baining Guo. Swin变压器：分层视觉Transformer使用移位的Win32. arXiv预印本arXiv：2103.14030，2021。三、六[23] Ze Liu ， Jia Ning ， Yue Cao ， Yixuan Wei ， ZhengZhang ， Stephen Lin ， and Han Hu. 视频摆动Transf

下载后可阅读完整内容，剩余1页未读，立即下载