基于等级感知的时间注意力技能判定在长视频中的优缺点

73 浏览量更新于2023-10-18 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7862优点和缺点：基于等级感知的时间注意力在长视频中的技能判定Hazel Doughty Walterio Mayol-Cuevas Dima Damen布里斯托尔大学，英国<名字>.& lt;Surname>@bristol.ac.uk摘要我们提出了一个新的模型，以确定相对的技能，从长视频，通过可学习的时间注意模块。技能确定制定为一个排名问题，使其适合于常见和通用的任务。然而，对于长视频，视频的部分与评估技能无关因此，我们提出了一种方法，它评估的相对整体水平的技能，在一个长视频出席其技能相关的部分。我们的方法训练时间注意力模块，学习只有视频级的监督，使用一种新的排名感知损失函数。除了关注任务相关的视频部分之外，我们提出的损失联合训练两个注意力模块以分别关注指示较高（优点）和较低（缺点）技能的视频部分。我们在EPIC-Skills数据集上评估了我们的方法，并从YouTube视频中添加了一个更大的数据集，以确定五个以前未探索过的任务。我们的方法在两个数据集上的性能都优于以前的方法和经典的softmaxattention，两个数据集的配对准确率超过4%我们还展示了我们的模型1. 介绍技能测定是评估受试者执行给定任务的程度的问题视频的自动技能评估将使我们能够探索大量的在线视频，这些视频捕捉日常任务，如手工艺和烹饪，用于训练人类和智能代理-机器人应该模仿哪个视频来为你准备早餐炒蛋？对于长视频，以前的方法做出了天真的假设;在整个视频中表现出相同的技能水平，因此可以在其任何（或所有）部分中确定技能[7，23，29，38，40]。以“系领带”为例;当确定受试者的技能时，将领带挂在脖子上或拉直领带可能是没有信息的，然而受试者越过一侧的方式，图1.等级意识的技能排名的关注。我们通过使用高（绿色）和低（红色）技能注意力模块来确定视频这两个模块融合（橙色），用于视频的整体技能评估线条不透明度表示线段的关注值，线条粗细表示分数。把领带推入绳圈是关键此外，视频中的技能可能会有所不同：当比较两个视频时，一个受试者可能在整齐地穿过领带时表现得更好，但在穿过环时表现得更差。因此，我们认为技能确定是一个细粒度的视频理解问题，其中重要的是首先定位相关的时间区域以区分实例[25]。我们针对常见任务的技能确定，其中对视频进行排名[2，7，21]比估计客观分数更合适[23，27，40]。对于许多任务来说，客观分数很难表达或找到专家机构进行认证。相反，众包可以获得任何任务的排名，这是通过一致的判断。因此，我们在时间段上设计了一个暹罗CNN，包括从[22]改编的注意力模块，我们使用一种新的损失函数训练它是感知排名的。这是因为相关性可能取决于视频中显示的技能而不同-例如，错误可能不会出现在较高排名的视频中。当训练与7863我们建议的损失，这些模块专门单独参加部分视频信息的高技能或低于标准的性能（见图。①的人。虽然时间注意力先前已被用于指示长视频中的相关性[22，25]，但没有先前的工作提出学习排名感知的时间注意力。我们的主要贡献是，我们解决了细粒度的视频排名的挑战，证明了需要排名意识的时间注意力，并提出了一个模型来有效地学习。我们还贡献了一个新的技能决定数据集，通过从YouTube收集和注释5个任务，每个任务包含100个视频。总的来说，我们的数据集是26小时的视频，是现有技能确定数据集的两倍我们在EPIC技能[7]和我们新收集的数据集BEST上超越了我们之前的努力以及替代注意力基线，并对排名意识注意力的贡献进行了全面评估。本文的其余部分组织如下。秒-第二部分回顾了相关工作。我们在第3节介绍我们提出的方法，在第4节介绍我们的新数据集。第5节给出了我们方法的定量和定性结果，第6节给出了结论。2. 相关工作在本节中，我们首先回顾视频中的技能确定工作，包括特定于任务的方法和广泛适用的方法。然后，我们审查工作提出的注意模块，具体的时间注意，为各种问题。技能判定。几个开创性的作品试图在视频中确定技能[13，14，37]。 Gordon [13]是第一个探索从视频中进行自动技能评估的可行性，以及确定适当的分析任务的人，并对从骨骼轨迹中进行体操跳马技能评估进行了案例研究。尽管视频自动技能评估对于培训和指导的重要性[5，1]，但以下工作仍然有限[2，7，23，27，29，35，38，40，41]。这些工作通过关注特定于任务的特征来展示良好的性能，例如潜水中的骨骼轨迹[27]或手术中重复缝合之间的熵[40]。相反，并行努力从非视觉传感器（例如惯性测量单元）执行技能确定[8，9，21，33，39]。在先前的工作中已经引入了几个数据集[7、11、23、27、35]。MIT Dive [27]和UNLV数据集[23]仅包括短视频剪辑（5s），而其余[11，7，27]是小规模数据集。f（pj）<$（pi，pj）∈P（1）对于长视频，之前我们假设这些成对技能注释可以传播到视频的任何部分[7]。给定p，它是第t个视频片段，t∈[0，T），技能注释被传播，使得，f（pit）>f（pjt）∈[0，T）;（pi，pj）∈P（2）处理长视频的另一种方法[23，36]是使用特征向量的统一加权来学习视频级别排名。这假设视频的所有部分对于技能评估同等重要，即u（pi）>u（pj）其中，总体上更好的视频具有表现出较少技巧的片段。其次，非均匀池化应该通过增加与主体技能更相关的片段的权重来更好地表示视频的整体技能。第三，比较相应的视频块（pit，pjt）假设任务以相同的速度以设定的顺序执行。我们偏离了这些假设，而是旨在共同学习时间注意力α（·），与排名函数r（·）一起，使得Σs（pi）>s（pj）; s（pi）=r（α（pit）pit）（4）不虽然α（·）是用于依赖的标准注意力模块，但我们观察到，对确定技能最关键的部分可能因受试者的技能而异主体可以执行某些动作（例如，错误）不是由高技能主体执行的，反之亦然。因此，我们建议训练两个一般注意力模块来为所有对（pi，pj）∈P产生分数s+，s-，使得：s+（pi）>s+（pj）;s−（pi）>s−（pj）;s+（pi）s−（pj）（5）特别是r，s+（pi）s-（pj），促使两个注意力模块发散，这样一个注意力模块专注于显示高技能（α+）的分段，另一个专注于显示低技能（α-）的分段，以及不同的排名函数g，h：Σs+（pi）=g（α+（pit）pit）（6）不1Σu（pi）=f（T不（3）第一章Σs−（pi）=h（α−（pit不）pit）（7）在这项工作中，我们认为这些假设并不成立。首先，视频的某些部分可能在技能上没有表现出任何差异，甚至可能显示出相反的排名，其中3.2. 等级感知注意力和整体网络我们在图中展示了我们的整体架构二、暹罗网络工作获取视频对（pi，pj），并将每个视频对分成T7865XUtmaLEFRoSXUtmaLEFRoSXUtmaLEFRoSXUtmaLEFRoSp+长度一致的片段。然后，来自所有分段{pit}的特征被传递到三个分支。在每个分支中，我们首先从所有片段中获得视频级表示，或者通过我们学习的注意力函数进行加权α+（·）和α−（·）（Sec. 3.3），或通过统一加权1ΣTTtIt. 然后学习三个排序函数（一个每个分支）g （ ·），h（ ·）和f（ ·），具有全连接（FC）层以产生每视频s+的对应分数（等式1）。6），s−（Eq.7）和u（等式（3）第三章。每个加权函数的FC层是独立的，但由暹罗的两侧共享网络这些分数然后通过不同的损失类型进行评估：排名损失，差异损失和排名感知损失，其中每一种都在下面解释。对于每个分支机构，保证金排名损失函数确保Pi比Pi高， Σ图3.注意力模块由K个注意力过滤器组成，每个注意力过滤器输出每个片段的标量权重，用于产生加权的视频级特征。优化这些滤波器以实现所需的响应，+秩=（pi，pj）∈Pmax（0，m-s+（pi）+s+（pj））（8）我们提出的等级感知损失Σ其中，s+（pi）是来自高-低-低-高-低-高-低-低-高-低LrAware=max（0，m3−（s+（pi）−s−（pj））技能注意力模块，并且m是恒定裕度。的（pi，pj）∈P+（u（pi）−u（pj）（12）对于低技能和统一加权分支，类似地定义排名损失：Σ与Eq. 12，我们确保s+注意到更好的视频pi的更高技能部分−秩Lu=（pi，pj）∈PΣ=max（0，m-s-（pi）+s-（pj））（9）max（0，m-u（pi）+u（pj））（10）来自PJ 的技能。为了优化rank-awareattention，我们使用与单个分支M2相比，更大的余量M3。然后通过组合损失来进行整体训练秩（pi，pj）∈PLR=Σi={+，−，u}ⅰ级别Σ+i={+，−}idisp+LrAware（13）虽然对统一加权的需要可能不明显，我们凭经验注意到，使用注意力模块的排序在训练期间经常落入局部最小值。这种局部最小值的学习注意力权重比均匀加权更差。我们通过引入注意力差异损失来避免这一点，这明确地鼓励注意力分支超越均匀：Σ当训练在P中的对中迭代时，相同的视频将被认为在一个对中具有较高的技能，而在另一个对中具有较低的技能（例如，（pi，pj）∈P，（pj，pk）∈P）.该网络根据这些权重进行优化，从而学习具有等级意识的注意力模块.在测试网络时，评估单个视频，并通过其排名分数分配其排名：disp=max（0，m2−（s+（pi）−s+（pj））R（pi）=s+（pi）+s−（pi）（14）（pi，pj）∈P+（u（pi）−u（pj）（11）注意，在训练中，我们学习s+（·）和s−（·），使得在这里，m2是一个单独的利润从m具体到这个损失.对于视频对（pi，pj），这种损失促进了差异分数（s+（pi），s+（pj））之间的差异大于分数（u（pi），u（pj））之间的差异，从而鼓励注意力模块产关注模块多样性损失ReLUReLU...SoftmaxSoftmax...LLLLL7866disp生更好地区分两个视频比均匀加权。这种损失单独可能反而导致f（·）的性能下降，但是通过与等式（1）联合优化，10这是可以避免的。肛门-s+（pi）>s+（pj）和s−（pi）>s−（pj），这意味着s+（pi）+s−（pi）>s+（pj）+s−（pj）。虽然α−（·）在-倾向于低技能片段，但总分s−反映了视频的正确排名。我们不包括u（pi），仅注意力就足够了（如图所（五）。3.3. 多过滤器注意模块我们的注意力模块α+（·）和α−（·）各自获取一组T个视频片段，并学习这些片段的权重Ogous lossL−为低技能分支定义。为技能排名提供信息。作为注意力模式-使用到目前为止定义的损失函数，两人了解到注意模块α+（·），α−（·）是不可区分的。它们关注与技能相关的片段以形成视频级表示，并且g（·）和h（·）执行排名。我们终于单元具有相同的结构，我们将参考通用的注意模α（·）我们在图中展示了注意力模块的架构。3.第三章。注意力模块由K个过滤器组成，每个过滤器由两个FC层组成，7867EPIC技能=F=L我第一个后面是 ReLU 激活函数，第二个后面是softmax。这是基于[22]中使用的注意力过滤器，使用softmax激活而不是sigmoid。过滤器被组合以实现细分级别的关注：ΣK任务#视频#配对%配对平均值长度筷子使用40 53669% 46 ±17揉面33 181 34% 102 ±29绘图40 247 65% 101 ±47外科手术103 165995% 92 ± 41α（pit）=k=1αk（pit）（15）炒蛋100 211243% 170 ± 113其中αk是指用于注意力的第k个注意力过滤器领带领带100 384377% 81 ± 47模α（·），重要的是不t=1 αk（pit）= 1，眼线笔100 374376% 122 ± 105K过滤器我们包括多个注意力过滤器，以鼓励模块在长视频中关注多个技能相关的子任务;单个过滤器通常只关注任务的一个元素[20]。为了正则化K滤波器，我们使用多样性损失。我们将与视频P1相关的KXT注意力矩阵定义为：α1（pi1）α1（pi2）。. .α1（p it）α2（pi1） α2（pi2）。. .α2（p it）δ编织头发100 384778% 179 ± 91折纸100 323765% 386 ± 193表1. Epic技能与Best技能的比较：视频数量、配对数量以及视频长度的平均值和标准差。背景中只有微小的变化。因此，我们从在线视频中收集并注释了一个超过两倍大的新技能确定数据集，Ai。.. ..中国（16）.各种各样的个人、环境和观点。αk（pi1）αk（pi2）. . .α k（p it）并使用以下多样性损失：ΣL=AAT−I2+AAT−I2（十七）4.1. BEST数据集我们收集并注释了布里斯托尔日常技能任务（BEST）2019数据集，该数据集由五个技能任务组成，每个任务有100个视频，公开提供1。这个数据集给了我们div我IF（pi，pj）∈PjjF有机会测试各种各样的技能任务，每个任务有更多更长的视频，来自不同的环境。其中I是单位矩阵，表示弗罗布-视频收藏。我们选择了五个任务，可以-nius范数类似的损失已经成功地用于其他应用，如文本嵌入[18] -这里我们使用它来正则化视频中的时间注意力。在我们的网络中，这种损失鼓励每个过滤器学习视频的不同方面。如果没有这样的损失，所有滤波器都关注视频中相同的最具鉴别力的部分，从而使多个滤波器冗余。这种损失也促使过滤器变得稀疏，并挑选出少数信息量最大的片段。我们在第5节中评估了多个过滤器的效果。注意，多样性损失是在注意力模块内注意力允许重叠，并且当细分与不同的技能水平相关时这样做。我们的整体训练损失是：使用各种方法完成，对新手来说可能很有挑战性：炒鸡蛋，编头发，打领带，做折纸鹤和涂眼线。选择的任务在内容上故意变化，并且也不同于EPIC技能中的任务，因为这允许对所提出的模型进行更彻底的为了每个任务获得100个视频，我们首先使用任务名称作为查询从YouTube检索前400个视频。然后，我们要求AMT工作人员回答有关每个视频的问题，以确定其是否适合我们的数据集。这些确保所选视频包含相关任务，是高质量的视频，包含任务的清晰视图和任务的完整性能，并进行最少的编辑。我们也ΣL-R秩i={+，−，u}Σ我divi={+，−}Σ我dispi={+，−}+LrAware（十八）询问AMT工作人员对执行任务人员技能的初步看法：“初学者”、“中级”或“专家”。这个初始标签确保我们选择足够的4. 任务和数据集我们在之前的数据集EPIC- Skills上评估我们的模型[7]。它包括四项不同的任务：[ 11 ]中的外科手术（打结、穿针和揉面），[6]中的揉面，以及自我记录的绘画（两幅绘画）和使用筷子。每个（子）任务由多达40个视频组成，成对注释指示成对视频的排名。此数据集的一个局限性是，每个任务都收集在一个环境中，最好+λL+L7868在成对注释之前的初学者视频。由于只有一部分YouTube视频可能包含所需的任务，因此我们使用与[4]中的注释相同的方法，通过AMT注释相关活动的开始和结束。我们使用四个工人的协议。成对注释。与[7]一样，我们要求AMT工作人员同时观看两个视频并选择视频1https://github.com/hazeld/rank-aware-注意网络7869显示出更多的技巧。只有当所有四个工人都同意一对的排序时，这对才被视为没有必要注释所有可能的对。相反，我们注意到40%的可能配对，其中每个视频都出现在相同数量的配对中。我们通过利用技能排名的传递性质来获得原始40%之外的配对，从而消除了对解释性注释然后，我们对相似排名的对执行第二轮注释，以确保我们的数据集包含具有挑战性的对。表1显示了每个任务的配对数量和百分比，以及每个任务的平均视频长度。我们的数据集在视频和注释对方面都比我们以前的努力EPIC-Skills大得多。5. 实验我们首先描述了我们的网络的实现细节。然后，我们将两个数据集上的结果与基线一起呈现，并通过消融研究分析了我们方法中各种成分的贡献。5.1. 实现细节我们为每个视频以10fps的速度均匀地采样400个16帧的堆栈。图像被重新缩放为256像素的高度，然后中心裁剪为224×224。我们使用I3D提取特征，在Kinetics上进行预训练[3]。为了防止过拟合，我们通过添加噪声N（0，0. 012）如图[22]。所有模型都使用Adam优化器，批量大小为128，学习率为10−4，2000个epoch。为了稳定的训练，我们迭代优化网络的参数。我们首先固定注意力模块的参数，并优化排名FC使用L秩损失的层权重（等式8、9、10）。然后，我们使用剩余的损失（Ldiv，Ldisp和LrAware）固定排名FC层权重并优化在所有实验中，我们设置λ的权重（等式18）至0.1，m1= 1（等式18）。8），m2= 0.1（等式1）11）和m3= 0。3（等式第12段）。5.2. 定量结果评估指标我们单独评估任务，并报告每个数据集的成对准确度（正确排序对的百分比）和平均任务准确度。对于EPIC-Skills，我们使用数据集提供的四重交叉验证训练和测试分割[7]。对于BEST，我们对每个任务使用一个75%：25%的分割（发布时提供），因为配对的数量更大。我们的测试集只包括训练集中没有视频的对。基线和注意力在表2中，我们显示了我们的方法与不同基线的比较结果。我们在EPIC-Skills和BEST上的表现分别超过了我们之前的工作[7] 4.3%和我们还使用四个基线的各种时间注意力的方法。的方法EPIC技能最好谁76.075.8最后分段76.861.0均匀加权78.873.6Softmax注意力74.572.3STPN [22]74.370.0注意力等级（Rank AwareAttention）80.381.2表2.与基线相比，我们的方法的结果。我们的最终方法在两个数据集上都优于每个基线。第一时间注意力基线仅选择视频的最后片段作为技能相关的。可以说，显示任务最终结果的这一部分信息量足以满足跨任务的要求，但这在BEST上表现得尤其差我们还使用统一的权重和softmax注意力作为时间注意基线。对于softmax注意力，我们使用我们的方法，其中单个注意力分支仅由L秩优化。重要的是，我们提出的方法比统一加权和标准softmax atten- tion都有改进，特别是对于具有较长视频的BEST。有趣的是，我们看到softmax attention的包含降低了两个数据集的准确性，从一个天真的统一权重的片段（ -4.3% 和 -0.7%）。虽然softmax attention在几个任务中实现了比uniform更高的准确性，但我们发现softmax attention是高度不一致的。为了与现有的时间注意力方法进行比较，我们将稀疏时间池网络（STPN）[22]中的类不可知注意力调整为成对排名框架。虽然这种方法对于动作局部化效果很好，但在排名框架中，它的表现比我们的方法和均匀采样都要差一般来说，基线在最好的斗争，因为他们是AF-受视频长度和无关部分增加的影响，而最后一段受环境和视点变化的通过关注指示技能的关键部分，我们的方法能够克服这些困难，并在此数据集上获得更大的增长。消融研究。在图4中，我们进行了每项任务的消融研究，测试了损失函数（等式4）中各组成部分的单独贡献。第13段）。包含多样性损失将两个数据集的结果增加2%。这对于绘画（+7.3%）和领带（+6%）特别有用，因为这些任务中的视频始终有许多与技能相关的片段。从图4中，我们看到训练注意力模块以及具有视差损失的均匀加权进一步改善了结果。Ldisp鼓励网络学习注意力，比均匀加权更好地区分视频，并降低对初始值的敏感性7870disp图4.所有任务的损失函数消融研究。一般来说，每个额外的损失项都会带来改进，最显著的改进是排名感知损失，它为BEST提供了平均5%的改进。图5.网络中不同分支机构的贡献。添加L+−disp 导致高技能分支和低技能分支在大多数任务中表现得比制服更好这些分支提供了补充信息，从而改善了我们的最终结果。642022 4 6 8 10过滤器数量（K）图6.我们测试所有任务的过滤器数量（K）。过滤器的数量导致许多任务明显增加，大多数任务在K= 3化在像使用筷子和炒鸡蛋这样的任务中，注意力优化只有排名损失，类似于制服，这可以帮助很大。我们最终的排名感知损失进一步改善了结果，特别是对于BEST（平均改善5%）。尤其是炒蛋和眼线膏（分别为+10.4%和+8.8%）。这些任务包含更多针对技能较高或较低受试者的子任务实例，如第5.3节所示。我们注意到这一趋势的三个例外：绘画，手术和折纸。手术在整个消融测试中保持相似的评分，并且在所有任务中具有最低的最终评分。我们认为这是由于I3D功能无法捕获不同能力的手术动作的细粒度细节之间的差异绘图和折纸都下降，增加了L显示。在绘画中，注意力分支努力比均匀分支更好地分离视频，指示大多数片段与确定技能相关。在Origami中，由于在纸张中放置整齐的折叠的视觉微妙性，均匀加权的性能较差。因此，将注意力分支优化为比均匀更好并不能改善训练。图7.我们测试所有任务的高技能和低技能过滤器的相关性，以检查它们是否参与不同的视频片段。分支贡献。在使用整体损失训练了我们的模型之后，我们现在使用单个或多个分支分数来评估技能排名。从图5中我们可以看到，学习高技能和低技能分支，这两个分支都比制服更能提供信息。这对于诸如使用筷子和炒鸡蛋这样的任务尤其如此，这些任务在引入视差损失之前几乎没有注意力的改善（图1）。4）.在任务中，高技能分支和低技能分支的性能可能会有所不同。我们可以看到这一点，低技能分支表现最好（+4.3%）。在此，较低排名视频中的犹豫的存在证明对于技能排名是有效的。高技能分支和低技能分支的融合进一步改善了结果（史诗技能+2.9%和最佳技能+3.2%）。在许多任务中，分支提供补充信息，因为每个分支可以处理单独的视频片段，具体到高技能或低技能（见第5.3节）。过滤器数量。在图6中，我们测试了K的影响，每个注意力模块的过滤器数量（第二节）。3.3）。详细章节使用K=3报告结果。这表明在大多数任务中，一个过滤器有了很小的改进。然而，在K>3的情况下，准确度不会进一步增加，因为包括了额外的信息量较少的片段。筷子使用面团滚动绘制手术炒蛋领带领带应用眼线辫子头发折纸准确度差异（%）和L7871图8.高技能（绿色）和低技能（红色）模块的注意力值以及相应的视频片段，例如‘Scramble 颜色的强度表示关注值。我们显示了两个分支的预测排名我们还比较了两个等级感知的注意力模块，每个模块有3个过滤器，以一个单一的标准（即等级不可知的）模块，其包含6个注意力过滤器。结果表明，我们的排名意识模块的明显优势。对于BEST，81.2%的准确率下降到75.0%，没有我们的新损失。滤波器相关性为了确保我们的高技能和低技能过滤器关注不同的视频片段，我们绘制了高关注度和低关注度模块之间的过滤器对的相关性，对所有视频进行平均以获得最佳效果。从图7中，我们可以看到大多数滤波器对具有低相关性，这表明它们涉及不同的段。在某些情况下，过滤器具有更高的相关性（ρ = 0时的辫子头发）。8）因为当与所有技能水平相关时，高技能过滤器和低技能过滤器中的至少一个关注相同的段可能是有帮助的5.3. 定性结果在图8中，我们显示了Scramble Eggs和Tie Tie任务的首先，该图显示我们能够使用注意力过滤掉不相关的片段，例如在“炒鸡蛋”中打开炉灶和打开橱柜其次，我们可以看到我们的等级感知注意力允许模块关注视频的不同方面。在炒蛋任务中，高技能模块始终专注于搅拌鸡蛋并搅拌锅中的混合物，而低技能模块则注意向鸡蛋中添加牛奶/奶油，倒酒对于“领带”，高技能模块对显示紧密的内结和在折叠之前拉直领带的片段给予了很大的权重，而低技能模块主要关注犹豫和重复。我们还观察到过滤器处理看似与技能无关的片段的情况;在Scramble Eggs中，低技能模块处理包含面包的片段补充材料中包括录像6. 结论在本文中，我们提出了一个新的模型的排名意识的注意，训练使用一种新的损失函数。我们的等级感知损失使我们能够学习与视频中显示的技能相关的最有信息量的片段。我们还使用视差损失来直接优化注意力，以选择比均匀分布更有信息量的片段，解决了优化标准softmax注意力排名时的不稳定性。我们已经在两个数据集上测试了这种方法，其中一个我们在本文中介绍，并表明我们的方法在技能确定方面取得了最先进的结果，在两个数据集中的平均性能超过80%未来的工作包括探索注意片段的应用，以提高人们鸣谢：访问BEST数据集和作者网页上的注释。由EPSRC DTP和EPSRC GLANCE（EP/N 013964/1）支持。7872引用[1] Jean-Baptiste Alayrac ， Piotr Bojanowski ， NishantAgrawal，Ivan Laptev，Josef Sivic，and Simon Lacoste-Julien.从叙述式教学视频中进行非监督式学习。在IEEE计算机视觉和模式识别会议（CVPR），2016年。2[2] Gedas Bertasius ， Hyun Soo Park ， Stella X. Yu ， andJianbo Shi.我是一个球员吗？第一人称视频中的篮球表现评估。在IEEE计算机视觉国际会议（ICCV）上，2017年10月。一、二[3] Joao Carreira和Andrew Zisserman。什么是行动识别？新模型和动力学数据集。IEEE计算机视觉与模式识别会议。IEEE，2017年7月。二、六[4] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos、Da- vide Moltisanti、Jonathan Munro、TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿景：EPIC-KITCHENS数据集。欧洲计算机视觉会议（ECCV），2018年9月。5[5] Dima Damen ， Teesid Leelasawassuk ， Osian Haines ，Andrew Calway，and Walterio Mayol-Cuevas.You-Do，I-Learn：从多用户自我中心视频中发现任务相关对象及其交互模式英国机器视觉会议（BMVC），2014年。2[6] FernandoDelaTorre ， JessicaHodgins ， JavierMontano，Sergio Valcarcel，R Forcada和J Macey。卡内基梅隆大学多式联运活动数据库指南.卡内基梅隆大学机器人研究所，2009年。5[7] 黑兹尔·道蒂迪玛·达曼沃特里奥·马约尔·奎瓦斯谁谁技能判定的成对深度排名在IEEE计算机视觉和模式识别会议，2018年6月。一二三五六[8] Mahtab J Fard，Sattar Ameri，R Darin Ellis，Ratna BChin-nam，Abhilash K Pandya，and Michael D Klein.自动机器人辅助手术技能评估：预测分析方法。国际医学机器人和计算机辅助手术杂志，14（1），2018。2[9] 热尔曼·F·皮蒂耶、弗朗索瓦·佩蒂让、P·v·埃尔·塞宁、法比恩·德斯皮诺和皮埃尔·雅宁。发现用于手术运动分析的可区分和可解释的模式。在欧洲医学人工智能会议上，第136-145页。Springer，2017. 2[10] 傅建龙，郑和良，陶梅。看得更近，看得更清楚：用于细粒度图像识别的递归注意卷积神经网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。2[11] Yixin Gao，S Swaroop Vedula，Carol E Reiley，NargesAh-midi ， Balakrishnan Varadarajan ， Henry C Lin ，Lingling Tao ， LucaZappella ， BenjamınB e´ ja r ， D avidDYuh ， etal. ISI 手势和技能评估工作集（JIGSAWS）：用于人体运动建模的手术活动数据集在MICCAI工作坊：M2CAI，第3卷，第3页，2014年。二、五[12] Jonas Gehring ， Michael Auli， David Grangier ， DenisYarats，and Yann N Dauphin.卷积序列到序列学习。arXiv预印本arXiv：1705.03122，2017。2[13] 安德鲁·S·戈登人类行为的自动视频评估在AI-ED的会议记录中，第16-19页，1995年。2[14] Winfried Ilg，Johannes Mezger，and Martin Giese.基于层次时空对应的运动技能水平估计。在Joint PatternRecognition Symposium，第523-531页。施普林格，2003年。2[15] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络。在神经信息处理系统（NIPS）的进展中，第2017-2025页，2015年。2[16] Shuang Li， Slawomir Bak ， Peter Carr， and XiaogangWang.多样性规则化时空注意力在视频人物再识别中的应用。在IEEE计算机视觉和模式识别中，2018年6月。2[17] Zhenyang Li，Kirill Gavrilyuk，Efstratios Gavves，MihirJain，and Cees GM Snoek.VideoLSTM卷积、参与和流用于动作识别。计算机视觉和图像理解，166：41-50，2018。2[18] Zhouhan Lin ， Minwei Feng ， Cicero Nogueira dosSantos，Mo Yu，Bing Xiang，and Yoshua Bengio.一个结构化的自我注意的句子嵌入。在2017年国际学习表征会议（ICLR）上5[19] Xihui Liu，Haiyu Zhao，Maoqing Tian，Lu Sheng，JingShao ， ShuaiYi ， JunjieYan ， andXiaogangWang.HydraPlus-Net：用于行人分析的注意力深度特征。在IEEE国际计算机视觉会议（ICCV）上，2017年10月。2[20] Xiang Long ， Chuang Gan ， Gerard de Melo ， JiajunWu，Xiao Liu，and Shilei Wen.注意：基于注意力的局部特征融合视频分类。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。5[21] Anand Malpani，S Swaroop Vedula，Chi Chiung GraceChen和Gregory D Hager。手术任务中分段自动技能评估的基于成对比较的客观评分在计算机辅助干预中的信息处理国际会议上，第138147. Springer，2014. 一、二[22] Phuc Nguyen 、 Ting Liu 、 Gautam Prasad 和 BohyungHan。基于稀疏时间池网络的弱监督动作定位在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。一、二、五、六[23] Paritosh Parmar和Brendan Tran Morris。学习奥林匹克运动会。在计算机视觉和模式识别研讨会（CVPRW）

下载后可阅读完整内容，剩余1页未读，立即下载