细粒度动作副词的识别与分析

22 浏览量更新于2023-10-25 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13832你是怎么做到的？伪副词的细粒度动作理解阿姆斯特丹大学邮箱：hazel. uva.nlCees G.M.阿姆斯特丹斯诺克大学cgmsnoek@uva.nl摘要我们的目标是了解动作是如何执行的，并识别细微的差异，例如“坚定地折叠”与“温柔地折叠”。为此，我们提出了一种跨动作识别副词的方法。不过，这么好的-行动是如何执行的？带副词标签慢慢慢慢游颗粒注释难以获得，并且它们的长尾性质使得识别罕见的动作副词组合中的副词具有挑战性。因此，我们的方法使用半监督学习与多个副词伪-无副词标签倍慢慢地？坚定地？垂直？伪标记标签来利用只有动作标签的视频结合这些伪副词的自适应阈值，我们能够有效地利用现有的数据，同时解决长尾分布。此外，我们收集了三个现有的视频检索数据集的副词注释，这使我们能够引入识别看不见的动作副词组合和看不见的域中的副词的新任务实验表明，我们的方法的有效性，它优于以前的工作，在识别副词和半监督的作品适用于副词识别。我们还展示了副词如何与细粒度的行动。1. 介绍本文旨在识别动作之间的细粒度差异，例如一个人是缓慢还是快速游泳，或者均匀还是不均匀地切割。理解操作是如何执行的是理解操作本身及其结果的关键。改进对动作方式的感知将允许人类和机器人更好地模仿动作，以及更好地区分细粒度动作类别，其中差异可以简单地是物体移动的程度[18]。以前的作品可以解决视频中发生了什么[79]，动作何时发生[67]，谁在执行动作[72]以及动作在哪里发生[43]的问题。然而，很少有作品像我们在本文中所做的那样研究行动是如何发生的在语言中，一个动作是如何完成的，可以用副词来有两部著作对副词识别进行了研究[12，51]。然而，这些研究要么集中在描写表情和情绪的副词上[51]，要么只研究了少数副词[12]，限制了回答“如何”的方式图1.我们通过学习不同动作的副词来回答动作是如何发生的我们以半监督的方式做到这一点，我们使用带有多副词伪标签的纯动作视频。是否正在执行该操作？"。这突出了学习副词和更普遍的细粒度视频理解的关键挑战：耗时的数据收集。视频之间的差异越细微，收集大量标签的难度就越大。为了解决这些挑战并更好地描述动作是如何执行的，我们通过使用仅具有动作标签的视频来扩大可以学习的副词的数量。此外，多个副词可以共现，并适用于同一个动作。因此，我们可以通过多副词伪标签获得额外的副词标签，以半监督的方式从视频中更好地学习副词（见图2）。1）。作为我们的主要贡献，我们建议将副词识别问题重新表述为半监督学习问题。节中3、提出了第一种副词半监督学习方法，该方法将多个副词伪标签应用于动作，并使用自适应阈值来应对副词的长尾分布。节中4，我们通过从现有视频检索数据集中的字幕中自动挖掘动作副词对来创建几个新的副词识别基准[29，64，69]。除此之外，我们提出了两个新的任务，以解决如何发生的行动：第一，识别副词在看不见的成分，第二，在识别副词跨域。节中5、我们证明了我们的多副词伪标记方法在识别动词和副词的可见组合以及提高这些新任务的概括性方面比以前的工作有了相当大的改进。138332. 相关工作我们首先审查工作集中在细粒度的理解，ING的行动，其次是视频检索。然后，我们研究了专门关注副词的作品。最后，我们来看看其他视觉任务的半监督。细粒度动作理解。最近的数据集集中在细粒度的动作[9，18，36，59]。例如，在FineGym [59]中，模型必须区分虽然有些动作是相似的，但大多数作品[6，14，30，37，40，63，65，77]将动作建模为不同的类别，让模型隐式地学习相似性。有些作品明确地将动作建模为组件的组合，无论是通过子动作[52，53]还是动词和名词的组合[26，45]或没有[3，9，24，44，60，80]名词的相反，我们通过识别副词与不同动词的组合来查看动作之间的细粒度差异其他作品通过特定属性的组合来识别动作[39，56，57，73，75]。例如，使用时间查询网络，Zhang等人。 [75]建议通过首先关注具有属性聚焦查询的最相关视频部分来确定正确的属性在这些著作中研究的属性不考虑副词，而是表示一个对象的存在，一个人姿势或动作的重复次数。视频检索。视频文本检索可能比动作识别更细粒度，其目的是检索描述视频的正确标题。大多数这样的作品都使用循环网络[10，21，48]，学习池[46]或变换器[15]创建了重复级别的功能，41、71、78]。虽然检索数据集[21，29，33，50，64，69]确实包含副词，但模型使用动词和名词来区分视频，因为它们更频繁[66]。而不是依赖于一个句子编码来指示字幕的独特元素，一些先前的作品专注于某些部分的语音[8，66，70]。同样，重点是动词和名词，与Wray等人。 [66]学习每个独立的嵌入和Chen et al. [8]从动词、名词以及它们之间的语义关系中学习一种层次化的文本编码。相反，我们专注于理解副词以及这些副词如何应用于不同的动词。我们从三个视频检索数据集获得新的，更多样的，动作副词注释。副词有些著作对单个副词进行了研究。例如，Benaim等人。 [4]识别视频是否快速播放，Epstein等人。 [13]识别事件是否意外发生，Heidarivincheh等人。 [20]确定动作何时完全完成。有两个更一般地看待识别副词的先前作品 Pang等人 [51]提出了一种使用视频、姿势和表情特征的全监督方法。这部作品中的副词主要集中在语气和表达上，如庄严和兴奋。 Doughty等人 [12]学习副词从弱监督中注意定位与动作相关的视频片段。然后，在嵌入中学习作为转换的BRB。这种方法仍然是标签饥饿，需要足够的副词标记的所有动作副词成分的行动。相反，我们利用仅标记动作的视频来识别可见和不可见成分中的副词。为此，我们引入了三个新的副词数据集，副词的数量从6个显著增加到34个，成分的数量从263个增加到1550个。半监督。已经探索了许多用于半监督学习的策略，例如伪标记[1，19，31]，一致性正则化[2，5，61，62]，生成模-ELS [49，54]和微调自监督模型[74]。例如，Lee [31]提出了一种有效的伪标记方法，其中通过采用最高置信度预测来获得未标记样本的独热标签。Sohn等人提出了一致性正则化方法Fix-Match [62]，其中损失旨在使图像的两个增强版本的预测标签一致。一些作品专注于视频的半监督学习[17，27，61，68]。 TCL by Singh et al. [61]最大化视频的不同速度之间的预测相似性。Xionget al. [68]通过RGB、光流和时间梯度流预测的伪标签中的目标一致性。Gavrilyuk等人。 [17]也在模态之间传播伪标签，但其目的是提取运动信息，因此下游任务在训练中只需要RGB模态。由于这些作品是以形象、对象或动作认知为对象的，所以不适合作副词。副词与动作副词和其他副词都是组合式的，并且这些组合式具有长尾分布。我们提出了一种半监督的方法来学习副词通过多副词伪标签和自适应阈值来解决这些挑战。我们还展示了我们的方法可以提高，证明泛化看不见的动作副词成分。3. 半监督学习算法我们的工作旨在通过预测适用的副词来了解视频中的动作是如何执行的这一行动。我们的方法的概述可以在图中看到。二、标记数据可用于学习识别具有不同动作的组合中的副词（第二节）。第3.1节）。然而，理解细微差异（如副词）的一个关键挑战是缺乏标记数据。在这项工作中，我们建议通过仅为带有动作标签的视频片段创建伪副词标签来更好地学习半监督学习副词（第二节）。3.2）。我们观察到，多个副词可以适用于同一个动作，因此我们建议更好地利用现有的数据与我们的多副词伪标签（第二节。3.3）。另一个挑战是副词的长尾性质。我们在副词伪标签上使用自适应阈值，以便我们的方法对所有副词都有效，而不仅仅是最频繁的副词第3.4段）。13834摇多功能b伪标记嵌入空间摇F慢慢摇不断摇轻轻振摇摇多字节伪标记>置信区间b周期性摇晃摇晃坚定迅速地监督学习轻轻振摇伪标签∈∈--˜˜→→˜具有标记视频集合S={（x，a，m）}的动词。嵌入空间切割F轻轻轻抛G扔坚定地监督学习轻轻慢慢置信区间b不断地>仅限电子标签置信区间b摇动连续图2.副词的半监督学习。在监督的情况下，我们的输入是带有动作和副词标签的视频，例如轻轻地扔。f将与动作相关的视频部分嵌入到接近于来自g的地面实况动作副词文本嵌入。对于没有副词标签的视频，我们通过找到与其反义词相比最有信心的副词预测来创建多个伪标签。在这个例子中，对于动作shake，我们得到的伪副词是slowly，gently和continuous。我们使用每个副词的阈值来选择我们应该使用哪些伪标签然后，每个视频都使用所选择的伪标记副词进行训练，就好像它们在监督集中一样。3.1. 使用标记数据给定视频剪辑X X和感兴趣的动作A的标签，副词识别的目标是正确地预测应用于动作A的广告词。由于许多副词并不相互排斥，可以同时适用于同一个动作，我们特别注重区分。利用这种类型的数据，我们提出用副词伪标记动作片段形式上，我们有一个没有副词标签U=（x，a）的视频集。对于具有动作标签a的每个视频剪辑x，我们可以通过选择最接近的文本表示中的副词作为伪标签来创建单个副词伪标签m令d（x，a，m）=dist（g（a，m），f（x，a））：带标副词m与其反义词的混淆ant（m）. 在有监督的情况下，我们学习识别广告-其中n=argminid（x，a，m），（3）m=mni与之前的工作一样[12]，我们在视频文本嵌入空间中学习副词，因为这允许动作和副词被我们可以用m来代替L中的m这给了我们整体的损失：Adv（等式2）。作曲的我们的目标是将视频中与动作相关的部分嵌入到由副词修改的动作的文本表示中。具体来说，我们学习一个视觉嵌入器f：X，AE和一个文本嵌入器g：A，ME. 我们的目标是f（x，a）和g（a，m）接近在嵌入空间E和f（x，a）中远离与其它作用g（a′，m）和与反义词副词g（a，ant（m））的嵌入. 我们用两个三重态损失来做这件事：Lact（S）=max（0，dist（f（x，a），g（a，m））−（1）L= Lact（S）+Ladv（S）+Lact（U）+Ladv（U）。（四）3.3.多块伪标号虽然监督集合S中的动作被标记为一个副词，大多数副词并不相互排斥，这意味着多个副词可以适用于一个动作。因此，我们提出了多副词伪标注。为了做到这一点，我们取前k个最有信心的副词，并让副词伪标签m是一组伪标签：m={mn}s. t. n∈topki（conf（x，a，mi）），（5）（x，a，m）∈SS.T. a =a′，dist（f（x，a），g（a′，m））+γ1）哪里ed（x，a，m）conf（x，a，m）=.（六）ed（x，a，m）+ed（x，a，ant（m））Ladv（S）= max（0，dist（f（x，a），g（a，m））−（2）监督学习乌利其中mn是指示副词n的标签。只为13835Σ有了这个conf（x，a，m）的定义，有信心的是，（x，a，m）∈Sdist（f（x，a），g（a，ant（m）+γ2），副词和它的反义词，而不是最接近的副词。其中dist是距离度量，γ1和γ2是边缘。3.2.伪标记双链现在我们考虑如何通过利用仅具有动作标签的视频剪辑来改进副词的学习。到现在，我们有多个副词伪标签为每个动作只标记的视频在美国。我们为每个伪标签副词进行优化，这意味着整体损失变为：L= Lact（S）+Ladv（S）+（Lact（U）+Ladv（U））。（七）m~13836Σ1Σ∈˜˜∼.U：m∈m˜3.4.自适应消隐控制识别副词的问题自然是长尾的. 不仅一些副词比其他的更常见，而且动作和副词的某些组合也更频繁。使用我们的多副词伪标签突然停止向下看我们能够更好地利用现有数据。然而，它倾向于只选择最常见的副词，因为这些是它最有信心预测的副词。我们从半监督对象检测中获得灵感慢慢退出用力拉轻轻按压周期性下降[35 ]第35话，也是一个很大的问题，使用自适应阈值。针对每个副词m动态地调整阈值。这不仅意味着对于更自信的副词增加阈值，使得使用更少的噪声伪标签，而且重要的是，对于具有更少自信预测的副词降低阈值，这意味着它们不再在伪标签中未表示。我们将初始阈值τ调整为特定于副词的阈值τm，如下所示：图3.示例视频剪辑和动作副词注释。足够的实例。VATEX由35k 10秒的视频剪辑组成，每个视频剪辑有10个英文字幕，总共有260k字幕。在MSR-VTT中，每个片段为10-30秒，有20个字幕，总共有10 k个片段和200 k个字幕。ActivityNet Captions包含20k个视频，平均每个视频3.65个时间上本地化的句子，总共产生10万个剪辑和匹配的字幕。每个数据集使用τm=conf（x，a，m）λτ，（8）YouTube视频，因此有些视频不再可用。在收集时，我们获得了：32，161个视频剪辑，NU|M|其中N是副词的数量。副词m的置信度得分之和U：mmconf（x，a，m）充当模型把这个副词放在它的反义词上。然后我们将其除以每个副词的平均伪标签数λ是一个平滑因子，它控制着模型对代表性不足副词的关注程度。当λ=0时，所有副词都使用原始阈值τ。应用特定于副词的阈值τm来过滤可用的伪标签，使得仅使用对于m∈m具有conf（x，a，m）> τm的伪4. 数据集和任务我们评估了我们在HowTo100M语料库[12]上的方法，该方法从HowTo100M [47]中的83个任务中挖掘副词。由于注释是从教学视频的自动转录叙述中获得在视频剪辑中该数据集包含5，824个片段，其中包含72个动词和6个副词的动作副词对。该数据集的一个明显限制是它包含的副词数量很少，因此我们从现有的视频检索数据集[29，64，69]创建了三个新的副词数据集：VATEX Ad- verbs，MSR-VTT副词和ActivityNet副词。这些包含更少的噪音和更多种类的副词。4.1. 从视频字幕我们从现有的视频文本数据集中提取视频的动词-副词注释，得到三个新的副词数据集。根据现有数据集[16，21，23，25，29，32VATEX，ActivityNet为 7，511人，MSR-VTT为 5，197人正在提取注释。为了从这些数据集中的字幕中提取副词注释，我们搜索副词及其对应的动词。我们使用SpaCy我们搜索的动词，有副词作为孩子，排除任何动词与一个消极的依赖另一个词。我们筛选出非视觉性副词、反义词不出现的副词从[12]的聚类开始，对来自三个数据集的所得动词和副词进行这一过程形成了17对副词反义词中的137个动词簇和34个副词簇图3示出了在所发现的动作副词对旁边的视频剪辑的示例。数据集。这导致三个副词数据集： VA-TEXAdverbs ， ActivityNet Adverbs 和 MSR-VTT Ad-verbs，我们将其与代码1一起公开提供。表1显示了每一项的统计数据。VATEX副词是最大的，有34个副词出现在135个动作中，形成1,550个独特的动作副词对。动作、副词及其组合的分布具有很强的长尾性（见图4）。每个数据集考虑的副词比现有的HowTo100M副词多得多，现有的HowTo100M副词只包含6个副词。我们用200个视频样本来衡量每个数据集注释的质量由于新的数据集来自人类的书面字幕，其中一个人明确选择了副词来描述动作，因此注释比HowTo100M字幕噪音小得多。69，76]我们发现VATEX [64]，ActivityNet标题[29]和[69]第69话最好的朋友1https://github.com/hazeld/PseudoAdverbsActivityNetMSR-VTTVATEX13837∈∈∈⊈∩∅×副词&行动Videos任务数据集副词行动对精度剪辑长度（s）看不见域[12]第十二话67226344.0%5,82420.0米--VATEX产品341351,550百分之九十三点五14,61710.0分✓源MSR-VTT微球1810646491.0%1,82415.7米-目标ActivityNet论坛2011464389.0%3,09937.3米-目标表1.我们新提出的三个副词数据集比HowTo100M副词数据集有更多的副词，动作，独特的对和更高的注释准确性[12]，也使我们能够研究在看不见的动作副词组合和看不见的领域中识别副词4.2. 识别任务有了这些数据集，就像以前的工作一样[12]，我们想学习识别以前见过的动作副词组合中的副词我们还提出了两个新的副词识别任务：第一，在看不见的成分和第二在看不见的领域。我们在下面解释每一个任务一：看作文。副词和动作是组合的，副词m M可以表示A的许多不同动作.假设我们有一组动作副词组合（a，m）C。在识别所见作文中的副词时，测试集中的所有作文都出现在标记的训练集中，即：C测试 C标记。这测试了模型是否可以成功地组合和识别各种动作中的在本评估中，我们使用了我们新提出的VATEX双极晶体管以及HowTo100M双极晶体管[12]。我们按照原始的训练和测试分割，将VATEX模块划分为训练和测试。这提供了11，782个视频片段用于训练，2，835个视频片段用于测试34个副词。HowTo 100 M-WEBs包含6个副词，包含5，475个训练视频片段和349个测试视频片段。任务二：看不见的作品。为了充分捕捉动作和副词的组合性质，有必要建立一个模型来概括可见的组合之外的组合。因此，我们建议在看不见的成分，即识别副词。C测试 C标记=。我们专注于VATEX副词，因为它有最多的动作副词对。我们把这些对分成两个不相交的集合。对于每一个动作，副词和它的反义词都在同一个集合中。每个集合包含50%的对，每个动作和副词都出现在两个集合中。我们将一个分割用于训练，并进一步划分第二个分割，使用每对的一半实例作为测试集，另一半作为仅操作集。任务三：看不见的领域。由于细粒度视频理解的一个关键挑战是标记数据的收集因此，我们建议测试的可转移性学习副词到新的领域。这里，我们的标记数据S来自域DS，而我们的测试集和仅动作标记数据U来自不同的域DU=DS。我们使用VATEX数据库作为源，MSR-VTT数据库和ActivityNet数据库作为目标。我们将两个目标分成两个50%的部分，一个用于测试，另一个作为仅标记动作的训练数据。行动图4. VATEX副词中动作副词对的分布以对数尺度显示。副词和动作标签是长尾的，它们的组合也是长尾的。补充说明中的标签版本5. 实验我们首先描述我们的方法和使用的评估指标的实施细节。然后，我们分析我们的模型的组件的贡献最后，我们评估了我们的方法识别看不见的成分和看不见的领域中的副词实施详情。所有视频都以25fps的速度采样，高度缩放至256px。每个视频被分成1秒的片段，每个片段提取一个16帧的片段。我们使用冻结的I3D网络作为骨干，一个用于RGB，一个用于光流。每个模态的全局池化层的输出被连接以创建T2048D特征，其中T是以秒为单位的视频剪辑的长度。视频嵌入器f使用变换器式注意力来定位相关视频部分，其中T视频特征作为关键字，动作作为查询。文本嵌入器g使用GloVe嵌入来表示动作，并将副词学习为动作嵌入上的线性变换。见[12]更多详情。最佳化是由Adam完成的[28]。训练模型的监督批量大小为128，学习率为10−4，1000个epoch。正如在[12]中，我们在第200个纪元之后引入副词，直到那一刻，我们将g训练为动作嵌入器。在没有阈值的实验中，我们通过在引入伪标签之前让副词表示训练100个时期来批次中标记副词的样品与标记仅行动的样品的除非另有说明，否则我们将三重态损失裕度设置为γ1=γ2=1（等式1，2），每个视频的最大伪标签为k=5（等式2）。5），基础阈值为τ=0。6（Eq. 8）和平滑因子λ=0。1（等式1）（八）。副词13838≥≥ ≥≥仅操作数据自适应阈值多个伪标签多个伪标签多个伪标签自适应阈值图5.副词伪标签在所有视频中的分布。每个条表示用特定副词伪标记的视频的数量。在我们的模型（紫色）中使用多副词伪标签和自适应阈值，伪标签在可能的副词中分布得更好使用单个副词伪标签（黄色）或其他类型的阈值（绿色和红色），伪标签反映了地面真实标签的长尾分布。方法Acc.最接近61.7最大差值63.9（一）公司控股无61.1固定61.4自适应63.9（b）第（1）款图6.当改变k时的性能，每个视频的最大伪标签使用多副词伪标记可以提高性能。评估指标。我们使用[12]中的副词-反义词二元分类精度。这是考虑地面真理副词与其反义词时的准确性。这适合可用的地面实况标签，因为它们表明一个副词，而多个副词可以适用于一个动作。由于我们新数据集中副词的分布是长尾的，我们报告了这些副词的平均准确度，而不是视频的平均准确度。5.1. 消融研究我们首先进行几个消融研究，评估每个建议的模型组件的效果。对于这些，我们认识到副词在看到的组成与VATEX副词，因为这有最大的各种副词。用5%的训练集作为标记集，其余的作为仅动作标记集进行实验。多字节伪标记。图6示出了k的效果，即每个视频的最大伪标记副词。使用多个伪标签（k>1）提供了比仅监督学习和具有单个伪标签（k=1）的半监督最好的性能是k=7，虽然所有的值在4k10是好的。对于许多不同的副词应用于动作（k13），性能下降，因为这么多副词很少同时出现，尽管这仍然比仅监督学习更好。使用多副词伪标签可以让我们更有效地利用我们掌握的数据，因为每个视频片段都用于学习多个副词。它还鼓励我们探索不太频繁标记的副词，我们在图中显示。五、对于单个副词伪标签（黄色），伪标签的总体分布是高度不平衡的，并且模仿了地面事实的长尾分布。甚至有5个副词没有任何伪标签。我们的多副词伪标签（紫色）减少了这种偏见，伪标签更好地分布在可能的副词中。表2. (a)伪标签选择。考虑最大差异的反义词比使用最接近的副词更好(b)阈值类型自适应阈值给出了更好的伪标签。仅作用比图7.副词标记数据与行动数据比例的影响。任何仅操作数据的比率都优于仅使用标记数据。伪标签选择。在嵌入空间中进行伪标记的标准方法是将最接近的相反，我们采取的副词与嵌入式视频的接近程度之间的最大差异的副词修改的动作和反义词修改的动作。我们在表2a中比较了这些方法，这表明我们的方法改进了结果。自适应控制。表2b比较了我们使用的自适应阈值与无阈值和所有副词的固定阈值。自适应阈值分割比固定阈值分割效果提高了2.5%，而固定阈值分割对图像质量影响不大。在固定阈值的情况下，一旦最常见的副词超过了这个阈值，模型将用这些副词伪标记所有动作，忽略更罕见的副词。自适应阈值允许伪标签选择更加平衡（如图1B所示）。（五）。仅限数据的比率。我们在图7中测试了副词标记的视频与仅动作标记的视频的比率的影响。这表明，使用任何数量的仅操作数据进行训练都可以获得更好的性能。我们在图7中观察到两个峰。在仅动作比率15的情况下，模型能够在标记数据的每个时期中看到所有可用的仅动作数据。这样可以更好地学习罕见的副词-动作组合。有了2倍的纯动作数据量，模型在训练早期不太可能过拟合任何嘈杂的伪标签。伪标签每单位b13839≥≥VATEX100M智能手表方法百分之一百分之二百分之五百分之十百分之二十Av.百分之一百分之二百分之五百分之十百分之二十Av.仅受监督54.054.560.364.764.259.567.368.567.973.474.870.4伪标签55.154.460.463.564.159.569.366.567.374.570.569.6FixMatch55.452.361.262.864.859.368.267.967.374.575.970.7TCL51.656.658.358.064.857.967.665.968.274.376.270.4我们55.056.663.965.367.561.767.066.869.977.179.172.0表3.看过作文。当使用5%的标记训练数据时，我们的方法优于半监督基线，用于识别以前见过的动作副词组合中的副词。均匀地向后小心地小心地，在室内，慢慢地，水平地，逐渐地，持续地，快，适当地，向下向后，向下大声地、杂乱地、漫不经心地。偶然地，立即地，混乱地均匀地，偶然地，垂直地，户外，快速持续，大声部分，向后图8.示例伪标签从我们提出的多副词伪标签所指示的行动。低于其副词阈值的伪标签我们的方法可以成功地为每个视频识别多个相关的副词（左列），可以使用自适应阈值来忽略不正确或不必要的伪标签（中间），但是当动作同时发生时（向下，右上），并且没有副词不可行的情况的概念（向后，右下），5.2. 任务一：看过的作品我们测试我们的方法因此，我们使用HowTo100M双极晶体管[12]以及VATEX双极晶体管。对于这两个数据集，我们使用不同数量的标记数据来测试我们的方法：1%，2%，5%，10%和20%。剩余的训练数据用于仅动作标记集中。我们比较了我们的方法所基于的仅受监督的副词识别方法Action Modifiers [12]。它只从副词标记的数据中学习，而不是仅从动作标记的数据中学习。我们还比较了几种半监督方法：伪标签[31]，FixMatch [62]和TCL [61]，我们通过将它们与动作修饰符相结合来适应副词识别。这允许公平的比较，因为主干和副词表示在所有方法中都是相同的。伪标签简单地将数据样本的最有把握的预测作为伪标签。FixMatch从输入数据的弱增广中获得伪标签。然后训练强增强版本来预测相同的伪标签。这也使用固定阈值。TCL使用视频速度，而不是FixMatch中使用的图像增强它还优化了所有类的预测之间的一致性，而不是单个伪标签。完整的实施细节可以在补充文件中找到。结果见表3。对于VATEX Bibbs，我们的方法优于或获得了所有基线的所有百分比的标记数据的竞争结果。在HowTo100M数据库上，我们的方法优于5%、10%和20%标记数据设置的基线。我们的多副词伪标注对VATEX副词的影响更大，因为它包含更多的副词。当使用5%标记数据时，改善也更大。随着标签的减少，每个副词在更少的情况下出现，这意味着伪标签变得更加嘈杂。然而，我们的方法仍有进一步改进的空间，使用100%副词标记的数据在VATEX Ad- verbs上获得73.9%，在HowTo 100 M广告词上获得80.8%我们观察到，尽管TCL是为视频设计的，但它的性能往往比其他方法差。这是因为TCL鼓励速度的不变性，这影响了副词，如快速和缓慢。每个半监督基线与仅监督方法总体上是可比较的，这突出了我们提出的多标签伪标签和自适应阈值的重要性如果没有这些因素，模型更偏向于特定的动作副词成分。我们在图8中展示了我们的多副词伪标记的例子。我们的方法为每个视频提供多个相关的副词伪标签。该模型能够使用自适应阈值来排除不正确的预测（向下爬）或频繁的组合（正确爬和大声打喷嚏）。仍然有嘈杂的伪标签，如爬室内和浸均匀。也有一些情况下，副词在动作的上下文中没有意义，例如向后倾斜。不正确的预测向下翻转突出了副词数据集的挑战，其中可能同时发生多个动作这里向下指的是人往下掉，而不是船转弯。吃剥离喷嚏爬烫反13840∼∼狼吞虎咽，不断地吃，不断地冲洗，漫不经心地洗方法准确度仅监督52.2我们的56.1完整标签培训65.1表4.在VATEX塑料布中看不到的成分。我们的方法提高了泛化看不见的动作副词成分。5.3. 任务二：看不见的作品我们调查我们的方法是否可以提高识别以前看不见的动作副词对副词。我们比较仅受监督的动作修饰符[12]。表4显示，我们的方法将性能提高了4%。自适应阈值是关键。如果没有它，伪标签主要由以前见过的副词组成。然而，我们的方法和训练之间的差距突出显示了未来工作的巨大潜力。对看不见的动作副词组合进行归纳是必要的，因为不可能为每一个可能的组合获得足够的标记数据。5.4. 第三章：看不见的领域在表5中，我们测试了我们的伪标记方法是否我们将我们的方法与仅使用源数据（即VATEX样本）以及伪标签[31]基线的训练进行比较。我们的方法优于MSR-VTT广播的伪标签方法，并给出了2%的增益，只使用源域视频。在ActivityNet数据库上，所有三种方法都是可比的，因为在动作和副词外观以及动作长度方面，与该数据集的差距都更大。表5还显示了在训练中使用目标数据时的上限。我们的模型的性能和源+目标之间的差距这是一个更现实的设置来评估副词表示，因为标记的数据是稀缺的。将副词表示转移到新的领域是识别异常行为或某人是否很好地遵循食谱等应用程序的关键5.5. 描述动作我们预见到副词在视频理解中的许多应用，例如密集视频字幕[29]，描述和检测异常[22]，确定人在这里，我们定性地展示了如何副词可以用来识别细粒度的零杆动作，通过描述这些看不见的动作和以前看到的动作图9显示了这些行动的例子。在每种情况下，零射击动作都可以通过将副词应用于已知动作来描述。方法MSR-VTT数据库ActivityNet数据库仅源62.9 67.2伪标签63.9 66.4我们的65.0 66.6来源+目标目标仅70.5 71.8表5.从VATEX-Cubbs转移到未见过的域我们的方法有助于推广到类似的领域（MSR-VTT广告动词），但与更大的变化（ActivityNet广告）的斗争。把握触摸牢固切片垂直切割摆动轻轻振摇煨逐步烹调图9.我们使用学习视频文本嵌入识别零镜头动作的副词和看到的动作的组合我们以粗体显示每个零镜头动作，以及嵌入空间中最接近的动作副词对和最接近的视频之一。6. 讨论局限性。我们的方法有几个局限性。首先，我们的模型没有动作和副词的不可行组合的概念，并且可以被同时发生的动作混淆，其中不同的副词适用。当一个副词在很少的语境中被标记时，它也会很困难虽然我们的方法可以帮助推广到看不见的动作副词成分和看不见的领域，但在这些领域还有很长的路要走。潜在的负面影响。本文中的所有数据集均来自YouTube，因此其中包含的主题和活动并不能代表全球社会的多样性因此，我们的训练模型将包含偏见。结论. 本文提出了一种半监督的动作副词识别方法。这使我们能够理解一个动作是如何执行的，并理解动作之间的细粒度差异我们提出了多副词伪标签，以利用视频与动作唯一的标签。为了应对长尾分布的副词和他们的动作成分，我们的方法还利用自适应阈值。我们提出了三个新的副词数据集，使我们能够评估我们的方法如何识别副词在看到的动作副词组合以及未看到的组合和看不见的域。结果表明，我们的方法提高了所有三个任务的性能。鸣谢。这项工作是实时视频监控搜索项目（18038）的一部分，该项目部分由荷兰研究委员会（NWO）应用和工程/科学（TTW）领域资助13841引用[1] Eric Arazo ， Diego Ortego ， Paul Albert ， Noel EO'Connor和Kevin McGuinness。深度半监督学习中的伪标记和确认偏差。国际神经网络联合会议（IJCNN），2020年。2[2] Philip Bachman，Ouais Alsharif，and Doina Precup.学习伪合奏。神经信息处理系统进展（NeurIPS），2014年。2[3] Fabien Baradel 、 Natalia Neverova 、 Christian Wolf 、Julien Mille和Greg Mori。视频中的对象级视觉推理在欧洲计算机视觉会议（ECCV），2018。2[4] Sagie Benaim 、 Ariel Ephrat 、 Oran Lang 、 InbarMosseri 、 William T Freeman 、 Michael Rubinstein 、Michal Irani和Tali Dekel。 Speednet：学习视频中的速度。IEEE/CVF 计算机视觉和模式识别会议（CVPR），2020年。2[5] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin Raffel 。Mixmatch：半监督学习的整体方法神经信息处理系统进展，2019年。2[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。2[7] Chien-Yi Chang ， De-An Huang ， Danfei Xu ， EhsanAdelli，Li Fei-Fei，and Juan Carlos Niebles.教学视频中的程序规划。欧洲计算机视觉会议（ECCV），2020年。8[8] 陈世哲、赵一达、秦晋、吴奇隆。基于层次图推理的细粒度视频文本检索IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年。2[9] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos 、 Davide Moltisanti 、 Jonathan Munro 、 TobyPerrett、Will Price和Michael Wray。缩放自我中心的愿景： epic-kitchens 数据集。在欧洲计算机视觉会议（ECCV），2018。2[10] Jianfeng Dong，Xirong Li，Chaoxi Xu，Shouling Ji，Yuan He，Gang Yang，and Xun Wang.用于零示例视频检索的双重编码在IEEE/CVF计算机视觉和模式识别会议论文集，2019。2[11] 黑兹尔·道蒂迪玛·达曼沃特里奥·马约尔·奎瓦斯谁更好？谁最好？用于技能确定的成对深度排名。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。8[12] Hazel Doughty，Ivan Laptev，Walterio Mayol-Cuevas，and Dima Damen.动作修饰语：从教学视频中的副词学习。在 IEEE/CVF 计算机视觉和模式识别会议（CVPR），2020年。一二三四五六七八[13] Dave Epstein，Boyuan Chen，and Carl Vondrick.哎呀！预测视频中的无意动作。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年。2[14] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。IEEE/CVF计算机视觉国际会议（ICCV），2019年。2[15] Valentin Gabeur ， Chen Sun ， Karteek Alahari ， andCordelia Schmid.用于视频检索的多模态Transformer。欧洲计算机视觉会议（ECCV），2020年。2[16] Jiyang Gao ， Chen Sun ， Zhenheng Yang ， and RamNevatia. Tall：通过语言查询的时间活动定位。IEEEInternational Conference on Computer Vision（ICCV），2017年。4[17] Kirill Gavrilyuk，Mihir Jain，Ilia Karmanov和Cees GMSnoek 。运动增强的自我训练在较小规模的视频IEEE/CVF国际计算机视觉会议（ICCV）论文集，2021年。2[18] Raghav Goyal，Samira Ebrahimi Kahou，Vincent Michal-ski ， Joanna Materzynska ， Susanne Westphal ，

下载后可阅读完整内容，剩余1页未读，立即下载