没有合适的资源?快使用搜索试试~ 我知道了~
1具有连续时间嵌入的Anna Kukleva波恩大学德国s6ankukl@uni-bonn.deHilde Kuehne麻省理工学院-IBM沃森实验室kuehne@ibm.comFadime Sener,JuergenGall波恩大学,德国sener,gall@iai.uni-bonn.de摘要在未修剪的视频中进行动作的时间检测和分割的任务在此上下文中的一个问题来自于需要定义和标记动作边界以创建用于训练的注释为了解决这个问题,我们提出了一种无监督的方法来学习- ING动作类从未经修剪的视频序列。为此,我们使用连续的时间嵌入的逐帧功能,受益于活动的连续性。基于由嵌入创建的潜在空间,我们识别出所有视频中对应于语义有意义的动作类的时间段集群该方法在三个具有挑战性的数据集上进行评估,即早餐数据集,YouTube说明和50Sal- ads数据集。虽然以前的作品假设视频包含相同的高级别活动,我们还表明,所提出的方法也可以应用于更一般的设置,其中视频的内容是未知的。1. 介绍行动识别的任务在过去几年中取得了巨大的成功到目前为止,高性能的方法需要对培训进行全面监督。但是,在未经修剪的视频中获取帧级的动作注释对于非常大的数据集来说是非常昂贵和不切实际的。因此,最近的工作,探索训练动作识别方法的替代方法,这些概念中的大多数,被称为弱监督学习,依赖于训练集中每个视频的有序动作序列然而,获取有序的动作列表也可能非常耗时,并且它假设在开始注释过程之前已经知道对于某些应用程序,如索引大型这项工作主要在波恩大学完成。星号表示平等贡献。在神经科学或医学中的视频数据集或人类行为分析中,通常不清楚应该注释什么动作因此,在决定哪些动作相关或不相关之前,在大型视频数据集中因此,最近的作品[27,1]提出了在长的、未修剪的视频序列中对动作进行无监督学习的任务。在这里,仅使用视频本身,目标是识别所有视频中对应于语义上有意义的动作类的时间片段集群。在这项工作中,我们提出了一种新的方法,用于从长视频序列中无监督学习动作,这是基于以下贡献。第一个贡献是学习基于帧的特征的连续时间嵌入。嵌入利用了一些动作需要以特定顺序执行的事实,并且我们使用网络来学习基于帧的特征相对于它们在视频中的相对时间的嵌入。作为第二个贡献,我们提出了一个解码的视频到连贯的动作段的基础上有序聚类的嵌入式帧视频功能。为此,我们首先计算集群相对于其时间戳的顺序。然后,使用维特比解码方法,例如在[26,13,24,19]中,其保持给定预定义顺序的最可能的活动状态我们在早餐[15]和YouTube说明数据集[1]上评估我们的方法,遵循[27,1]中使用的我们还在50Salads数据集[31]上进行了实验,其中视频更长,包含更多的动作类。我们的方法在从未经修剪的视频中对动作类进行无监督学习方面的表现优于最先进的方法。然而,在以前的工作中使用的评估协议使用每个视频的地面真实活动标签将数据集划分为不同的视频集群,即,无监督学习和评估仅在包含相同高级别活动的视频上执行这简化了问题,因为在这种情况下,大多数动作都发生在所有视频中。因此,作为第三个贡献,我们建议扩展我们的方法,使其能够超越场景1206612067仅处理来自已知活动类别的视频,即,我们一次从每个数据集的所有视频中发现语义动作类,以完全无监督的方式,而不需要任何相关活动的知识为此,我们学习了所有视频的连续时间嵌入,并使用嵌入来为每个未修剪的视频构建表示。在对视频进行聚类之后,我们为集群内的所有视频识别一致的视频片段。在我们的实验中,我们表明,所提出的方法不仅优于国家的最先进的使用简化的协议,但它也能够学习动作在一个完全无监督的方式。代码可在线使用。12. 相关工作[18,32,30,3,5]以及下-长期复杂活动[15,35,29]已经研究了很多年,重点是完全监督学习。最近,人们对可以在较少的监督下进行训练的方法越来越感兴趣。Laptev等人提出了这一领域的第一批工作之一。[18]作者从电影剧本中学习动作。遵循使用字幕的想法的另一个数据集已经由Alayrac等人提出。[1]也使用YouTube无标签的数据[34,2]。视频帧的时间排序也被用于学习动作识别的特征表示[20,23,9,4]。Lee等[20]通过解决序列排序问题以无监督方式学习视频表示。Ramanathan等人[23]通过在不同分辨率级别上利用每个帧的上下文信息来构建它们的时间嵌入Fer- nando等。[9]提出了一种方法,通过学习每个视频的帧排名函数,基于帧外观捕获动作的时间演变通过这种方式,它们分别为每个视频获得紧凑的潜在空间。Milbich等人提出了一种类似的方法来学习姿势的结构化表示及其时间发展。[22]第20段。虽然这些方法解决不同的任务,塞纳等人。[27]提出了一种用于学习动作类的无监督方法。他们引入了一种迭代方法,该方法在从视觉特征对子活动的出现进行区分性学习和使用广义Mallow模型对子活动的时间结构进行生成建模之间交替。3. 动作类3.1. 概述视频自动学习动作从教学作为输入,我们给出一个集合{Xm}MM视频和视频. 这一想法的多模式版本已被赞成-每个视频Xm=1Nm(21分)在这里,作者还从YouTube上收集了烹饪视频,并使用字幕,音频和视觉的组合来识别视频中的接收步骤。Sener等人提出了另一种从字幕中学习的方法。[28]通过经由此时给定视觉注释的动作原子的出现来表示每个帧然而,这些作品都假定叙事文本与视觉数据是一致的.另一种形式的弱监督是视频转录[12,17,24,7,26],它提供了行动的顺序,但不与视频或视频标签对齐[33,25]。也 有努 力 的行 动 类 的无 监 督学 习 Guerra-Filho 和Aloimonos [11]提出了在没有训练数据的情况下解决人体运动分割问题的首批工作之一。他们提出了一个基本的分割与后续聚类的基础上的感觉运动数据。基于这些表示,他们提出了一个并行同步语法系统的应用程序来学习原子动作表示类似于语言中的单词。在这方面的另一项工作是由福克斯等。[10]其中贝叶斯非参数方法有助于在没有进一步监督的情况下联合建模多个相关的时间序列。他们将他们的工作应用于运动捕捉数据。在视频数据的上下文中,视频数据的时间结构已被利用来微调火车上的网络1https://github.com/annusha/unsup_temp_embedm={xmn}n=1由Nm帧表示明智的 特点。然 后,任务 是估计子 动作标签 lmn∈{1,. . . .,K}。遵循[1,27]的协议,我们分别为每个活动定义可能的子动作的数量K,作为它们在地面上发生时可能的子动作的最大数量。真相K值见补充材料。图1提供了一个概述,我们的方法,从长视频序列的行动无监督学习。首先,我们学习所有特征相对于其相对时间戳的嵌入,如第2节所述。3.2.然后对所得到的嵌入特征进行聚类,并计算每个聚类的平均时间发生率。这一步骤以及聚类的时间排序在第2节中描述。3.3.每个视频然后相对于给定每个帧与每个集群的整体接近度的该排序被解码,如在第2.2节中所描述的。三点四分。我们还提出了一个扩展到一个更一般的协议,其中的视频有更高的多样性。而不是像[1,27]中那样假设视频包含相同的高级活动,我们在第二节中讨论了完全无监督的情况。3.5.最后,我们介绍了一个背景模型,以解决背景段。三点六3.2. 连续时间嵌入学习连续时间嵌入的想法依赖于这样的假设,即类似的子动作倾向于ap,12068不0.3D0.60.20.10.82个DNmnmNmNm0.110.220.330.640.85分段视频采集输入一个活动类聚类K个子动作子动作时间排序逐帧译码维特比算法图1.拟议管道概述。我们首先计算特征的嵌入相对于它们的相对时间戳。然后对得到的嵌入特征进行聚类,计算每个聚类的平均时间外观,并计算聚类的排序然后,在给定每个帧与每个集群的总体接近度的情况下,相对于该排序对每个视频进行解码在一个复杂的活动中在类似的时间范围内发生。例如,像“take cup”这样的子动作通常会出现在活动“making coffee”的开始。之后我们计算属于每个簇的所有帧的时间戳的平均值X(k)={xmn|p(xmn|k)≥p(xmn|k′),k′/=k},人们可能会把咖啡倒进杯子里,咖啡. 因此,执行许多子动作来进行1t(k)=Σt(xmn)。(二)特定活动被软绑定到它们在视频内的时间为了捕获视觉外观和时间一致性的组合,我们通过同时捕获相对时间依赖性和帧的视觉表示来建模连续的潜在空间。对于嵌入,我们训练了一个网络架构,该架构优化了活动的所有帧特征的嵌入,它们的相对时间t(x mn)=n。如图1,我们采用具有两个隐藏层的MLP,其维度分别为2D和D,以及逻辑激活函数。作为损失,我们使用特征的预测时间戳和真实时间戳t(xmn)之间的均方误差。然后由第二个隐藏层给出嵌入请注意,此嵌入不使用任何子操作la-|X(k)| xmn∈X(k)然后相对于时间戳对簇进行排序,使得{k1,.. k K}是服从0≤t(k1)≤.的有序聚类标签的集合。≤t(kK)≤1。然后将得到的排序用于每个视频的解码3.4.帧标记最后,我们在时间上分别分割每个视频Xm,即,我们将每个帧Xmn分配给有序簇Lmn∈ {k1,. . .,k,K}。我们首先计算每个帧属于由(1)定义的聚类k的概率基于给定的视频,我们希望最大化序列遵循聚类的顺序的概率。→kK以获得视频的每个帧的一致分配:belassociations,因此网络只需要训练一次,而不是每次都重新训练模型.Σ=argmax p x|L(三)迭代对于本文的其余部分,xmn表示嵌入的D维特征。1l1,..,lN m1 1NYm .Σ。Σ3.3.聚类与排序= argmaxl 1,..,lN mn=1px mn|Ln·pln|ln−1,在嵌入之后,所有视频的特征通过k-Means聚类到K个聚类中。在SEC。3.4我们需要概率p(x mn|k),即,嵌入特征xmn属于聚类k的概率,我们估计每个聚类的Dp(x mn|k)= N(x mn; μ k,μk)。(一)请注意,这种聚类没有定义任何特定的排序。 根据它们的时间发生来排序集群-12069其中p(x mn|l n= k)是x mn属于聚类k的概率,并且p(ln = k)是x mn属于聚类k的概率,|ln-1)是从帧n-1处的标签l n-1移动到帧n处的下一个标签l n的转移概率,p(ln|ln−1)=0≤ln−ln−1≤1。(4)这意味着我们允许过渡到有序集群列表中的下一个集群,或者我们保持集群分配-前一帧的部分注意,(3)可以解决有效地使用维特比算法。12070不D2个D输入框架聚类BoW视频聚类本地流水线图2.提出了一种用于未知活动类的无监督学习的管道。我们首先计算一次关于整个数据集的嵌入。在第二步中,在嵌入空间中对特征进行聚类,以为每个视频构建词袋表示。然后,我们将所有视频方向向量聚类到K′个聚类中,并对每个视频集应用前面描述的方法。3.5. 未知活动类别到目前为止,我们讨论了将无监督学习应用于一组视频的情况,这些视频都属于同一活动。当移动到更大的视频集合而不知道Activity类时,在集合内共享相同子动作的假设不再适用。如图所示。因此,我们首先将视频聚类为更一致的视频子集。与前面的设置类似,我们学习了特征的D维嵌入,但嵌入不限于训练数据的子集,而是一次为整个数据集之后,嵌入的特征在此空间中进行聚类,以使用具有软分配的量化基于词袋构建视频表示。通过这种方式,我们获得每个视频序列的单个词袋特征向量。使用此表示,我们将视频聚类成K′视频集。对于每个视频集,我们然后分别推断子动作的聚类,并将它们分配给每个视频帧,如图所示。1.一、然而,我们并没有为每个视频集学习嵌入,而是使用在每个视频集的整个数据集上学习的嵌入。K和K′的影响将在实验部分进行评估。3.6. 背景模型由于子动作并不总是连续和无中断地执行,我们也解决了建模的问题,ING一个后台类。为了决定一个帧是否应该被分配给K个集群之一或背景,我们引入了一个参数τ,它定义了百分比应该分配给背景的特征。为此,我们只保留每个聚类中最接近聚类中心的1-τ%的点,并将其他特征添加到背景类中。对于第2.2节中所述3.4,我们删除所有具有已经被分配到背景之前估计 lmn∈ {k1,. . . , kK}(3),即,首先标记背景帧,然后将剩余的帧分配给有序聚类{k1,. . . ,k,K}。4. 评价4.1. 数据集我们在三个测试数据集上评估了所提出的方法:早餐[15],YouTube教学[1]和50沙拉[31]。早餐数据集是一个大规模的数据集,包括执行常见厨房活动的十个不同的复杂活动,每个活动类大约有八个子动作。视频的持续时间变化很大,例如。咖啡的平均持续时间为30秒,而烤薄饼大约需要5分钟。此外,关于子活动的排序,也有相当大的变化。为了进行评估,我们使用[16]提出并在[27]中使用的简化Fisher向量特征,如果没有另外提及,我们YouTube指令数据集包含来自YouTube的150个视频,每个视频的平均长度约为2分钟。有五项主要任务:做心肺复苏,换轮胎,心肺复苏,跳车,盆栽。与Breakfast数据集的主要区别是存在背景类。不同任务中背景的比例我们使用[1]提供的原始预计算特征,并使用[27]。50Salads数据集包含4.5小时的不同人执行单一复杂活动,制作混合沙拉。与其他数据集相比,视频要长得多,平均视频长度为10k帧。我们在两个不同的动作粒度水平上进行评估,12071作者提出的ELS:具有17个子动作类的中级和具有9个子动作类的评估级。4.2. 评估指标由于模型的输出由时间子动作边界组成,与地面实况标签没有任何特定的对应关系,因此我们需要在{k1,..,k K}和K个地面实况标签来评估和比较该方法。在[27]和[1]之后,我们使用匈牙利算法,以获得一对一的匹配和报告准确度,作为Break-fast和50 Salads数据集的帧内平均值(MoF)请注意,特别是MoF并不总是适合不平衡的数据集。因此,我们还将Jaccard指数报告为交集(IoU)作为额外的测量。对于YouTube指令数据集,我们还报告了F1分数,因为它用于非正式作品。通过评估分割的时间间隔是否落在相应的地面实况间隔内来计算精确度和召回率为了检查分段是否与时间间隔匹配,我们随机绘制了15帧分段。如果至少一半的帧匹配相应的类,则认为检测是正确的,否则认为检测是不正确的计算所有视频的精确度和召回率,并将F1得分计算为精确度和召回率的调和平均值4.3. 连续时间嵌入在下文中,我们首先评估我们的方法用于已知活动类的情况,以与[27]和[1]进行比较,并考虑第二节中完全无监督学习的情况。4.7.首先,我们通过将所提出的方法与其他嵌入策略以及不嵌入Breakfast数据集的不同特征类型进行比较,分析了所提出的时间嵌入的影响。作为特征,我们考虑在[23]中使用的ImageNet上预训练的AlexNet fc6特征,基于RGB和流量管道的I3D特征[3]以及预计算的密集轨迹[32]。我们进一步与以前的作品进行比较,重点是学习时间嵌入[23,9]。我们根据每篇论文的设置训练了这些模型,并构造了潜在空间,用于替代我们的模型。从表1中可以看出,具有连续时间嵌入的结果明显优于具有和不具有时间嵌入的所有上述方法。我们还使用OPN [20]来学习嵌入,然后将其用于我们的方法中。然而,我们观察到,对于长视频,几乎所有的帧都被分配到单个集群。当我们排除具有退化结果的长视频时,MoF与我们的方法相比更低。时间嵌入策略ImageNet [14]+ proposed21. 百分之二I3D [3]+提出了25。百分之一密集轨迹[32]+建议31. 占6%视频矢量[23]+建议30. 百分之一视频达尔文[9]+提出36. 占6%我们的41. 百分之八表1.时间嵌入影响的评估。结果报告为早餐数据集上的MoF准确度。4.4. 马洛vs. 维特比我们比较了我们的方法,它使用维特比解码,与马洛 模 型 解 码 , 已 在 [27] 中 提 出 。 作 者 提 出 了 一 个rankloss嵌入在所有视频帧从同一活动相对于一个伪地面实况子动作注释。然后,对整个活动集合的嵌入帧进行聚类,并计算每个帧和每个聚类的可能性。对于解码,作者构建了一个关于其聚类的特征直方图,并使用硬分配,并根据每个bin的特征总量设置每个动作的长度。之后,他们应用Mallow模型对每个视频的不同排序进行采样。所得到的模型是Mallow模型采样和基于帧分布的动作长度对于第一个实验,我们评估了不同解码策略对所提出的嵌入的影响。在表2中,我们比较了解码的结果,只与马洛模型,维特比,并结合马洛-维特比解码。对于组合,我们首先对[27]所述的Mallow排序进行采样,从而得到另一种排序。然后,我们将Viterbi解码应用于新的以及原始的排序,并选择具有更高概率的序列。结果表明,原始的Mallow模型和多项分布抽样的组合另外,Viterbi和Mallow模型的组合不能优于单独的Viterbi解码。为了更仔细地观察,我们将观察概率以及图2中的两个视频随时间的所得解码路径可视化。3. 它表明,解码,总是给出子动作的完整序列,能够边缘化视频中未出现的子动作,方法是仅将非常少的帧分配给那些子动作,将大部分帧分配给视频中出现的簇。这意味着边缘化的效果允许丢弃不发生的子动作。总的来说,事实证明,这种边缘化策略通常比Mallow模型所做的重新排序子动作序列更好为了进一步比较拟议的设置[27],我们还比较了不同的de的影响12072马洛vs.维特比Acc. (财政部)0的情况。629.第二十九章.百分之五34.第三十四章百分之八维特比只有41. 百分之八表2. Mallow模型和Viterbi译码的比较。结果报告为早餐数据集上的MoF准确度。0的情况。50的情况。40的情况。30的情况。20的情况。1似然+解码路径K预测地面实况055 75 80 85 90 95100τ图4.根据YouTube指令数据集上的采样背景量评估不同的准确度测量。似然+解码路径K预测地面实况框架轴线4.5. 背景模型最后,我们评估了所提出的背景模型对给定环境的影响。对于此评估,我们选择YouTube指令数据集。请注意,对于该数据集,到目前为止已经提出了两种不同的评估方案。[1]通常在没有任何背景帧的情况下评估YTI数据集上的结果,这意味着在评估期间,只考虑具有类别标签的帧图3.维特比解码路径与相应两个视频的预测和地面实况分割。观察概率,红色表示高概率,蓝色表示属于子动作的低概率。它表明,解码分配大多数帧发生的子动作,而边缘化的动作,不发生在序列中,只分配- ING几个帧。与Rankloss和Mallow模型的兰克洛斯温度EMB.Mallow模型(MoF)三十四占6%29岁百分之五维特比解码器(财政部)二十七岁百分之一41岁百分之八表3.建议的嵌入和Viterbi解码与先前提出的Mallow模型的比较[27]。结果报告为早餐数据集上的MoF准确度。编码策略,Mallow模型和Viterbi,关于两个嵌入,rankloss [27]和连续时间嵌入,在表3中。结果表明,秩损失嵌入与多项Mallow模型结合时效果较好,但与Viterbi解码结合时由于时间先验信息丢失而失败,而Mallow模型不能在连续时间嵌入空间中解码序列.这表明了嵌入和解码策略两者适当结合的必要性。并且忽略所有背景帧。请注意,在这种情况下,如果估计的子动作变得很长并覆盖了背景,则不会受到惩罚然而,包括具有高背景部分的数据集的背景导致通过将大多数帧标记为背景来实现高MoF准确度的问题。因此,我们为此评估引入了Jaccard指数作为交集(IoU)作为额外的测量,这在可比的弱学习场景中也很常见[24]。对于下面的3.6从75%上升到99%,在图中显示。4. 可以看出,较小的背景比在计算MoF时没有背景会导致更好的结果,而在评估中考虑背景时,较高的背景比率会导致更好的结果。当我们将其与有背景和无背景的IoU进行比较时,它表明,在这种情况下,无背景的IoU与MoF面临相同的问题,但考虑到背景和类别标签之间的权衡,有背景的IoU给出了一个很好的衡量标准。对于75%的τ,我们的方法实现了9。6%和9。8%的IoU有和没有背景,分别为14。5%,39。0%MoF,分别有和无背景。4.6. 与最新技术我们进一步比较了所提出的方法,以目前的国家的最先进的方法,考虑无监督学习设置以及弱和完全监督的ap,MoF + bgMoF-bgIoU + bgIoUP31咖啡P48煎饼财政部/IoU12073YouTube说明无监督F1得分MOF弗兰克-沃尔夫[1]二十四岁百分之四−[27]第二十七话二十七岁0%的百分比二十七岁百分之八我们28岁百分之三39岁0%的百分比图5.对Breakfast和YouTube Instructions数据集的分割结果进行定性分析。表5.将所提出的方法与YouTube指令数据集上其他最先进的无监督学习方法进行比较。我们报告的结果为75%的背景比τ。F1-score和MoF的结果在没有背景框架的情况下报告,如[1,27]所示。早餐数据集50沙拉完全监督监督粒度级别MOFMOF全面监督[8]eval88岁百分之五HOGHOF+HTK [1]28岁百分之八35.我的超次元帝国百分之五TCFPN [7]52岁0%的百分比全面监督[6]中期67岁百分之五HTK+DTF w. PCA [16]五十六百分之三弱监督[26]中期四十九百分之四RNN+HMM [7]六十岁。占6%无监督(我们的)中期三十百分之二弱监督MOF表6.比较所提出的方法与其他国家的最先进的方法,完全,弱和无监督学习的[12]第二十七章.占7%[17]第二十八章:你是我的女人百分之二[24]第二十四话百分之三[7]第三十八章.百分之四N-维生素[26]I'm sorry.0%的百分比无监督F1得分MOF[27]第二十七话−三十四占6%我们二十六岁百分之四41岁百分之八表4.将所提出的方法与其他最先进的方法进行比较,以在早餐数据集上进行完全,弱和无监督学习。对两个数据集进行处理。然而,即使评估指标与弱监督和全监督方法直接可比,也需要考虑无监督学习的结果是关于聚类到地面实况类的最佳分配来报告的我们将我们的方法与表4中的Break- fast数据集正如我们在SEC中讨论的4.4,我们的方法优于目前的最先进的unsu-在这个数据集上的学习是7。百分之二。但它也表明,由此产生的分割是可比的结果到目前为止,最好的弱监督系统[26]获得了,并且优于该领域的所有其他最近的作品。在YouTube指令的情况下,我们比较了[1][27]只适用于无监督学习的情况请注意,我们遵循他们的协议,并在不考虑背景帧的情况下报告我们系统的准确性。在这里,我们的方法再次优于最近的两种方法,预测地面实况预测地面实况1207450沙拉数据集。spect to Mof以及F1-score。两个数据集上的分割的定性示例在图中给出。5.尽管我们无法与50Salads数据集上的其他无监督方法进行比较,但我们将我们的方法与表6中的弱监督和完全监督学习的最新技术进行了此数据集中的每个视频都有不同顺序的子动作,并包括子动作的许多重复。这使得无监督学习与弱监督或完全监督学习相比非常困难。不管怎样,30。2%,35。5%的MoF精度对于无监督方法来说仍然是有竞争力的结果4.7. 未知活动类别最后,我们评估我们的方法相对于一个完整的无监督设置的性能,如第二节所述三点五因此,没有给出活动类,并且所有视频都被一起处理对于评估,我们再次通过匈牙利方法进行形式匹配,并将独立于其视频集群的所有子动作与所有可能的动作标签进行匹配。在下文中,我们在Breakfast数据集上进行所有实验,并报告MoF准确性,除非另有说明。 我们假设早餐K′= 10个活动集群,每个集群K =5个子动作,然后我们将50个不同的子动作集群匹配到48个地面实况子动作类,而剩余集群的帧设置为背景。对于活动聚类的评估,我们在活动水平上执行匈牙利匹配,如前所述活动级别聚类。我们首先评估所产生的活动集群的正确性,12075活动聚类的准确性平均超过视频簇大小19. hello 百分之三弓硬屁股。29岁百分之八弓软屁股。31岁百分之八表7.基于活动的早餐聚类评价K′= 10个活性簇。多重嵌入MOF全W添加集群emb.十六岁百分之四完全无添加。集群emb.十八岁百分之三表8.评估为Breakfast数据集上的每个视频集群学习额外嵌入的影响。提出的词袋聚类。因此,我们评估了完全无监督的管道的准确性,有和没有词袋聚类,以及硬分配和软分配的情况。从表7中可以看出,省略量化步骤显著降低了基于视频的聚类的整体准确性。额外嵌入的影响。我们还评估了如图2所示只为整个数据集学习一个嵌入或为每个视频集学习额外嵌入的影响。表8中的结果表明,在整个数据集上学习的单个嵌入实现了18.3%的MoF准确度。如果我们为每个K′视频集群学习额外的嵌入,准确率甚至会略有下降。为了完整性,我们还将我们的方法与一个非常简单的基线进行了比较,该基线使用k-Means聚类,其中50个聚类器使用视频特征,而没有任何嵌入。这一基线仅达到6。1%MoF精度。 这表明在整个数据集上学习的单个嵌入性能最好。 簇大小的影响。对于之前的所有评估,我们基于类的地面实况数量来近似聚类大小。因此,我们评估如何活动和子动作集群的整体比例影响整体性能。为此,我们将最终子动作集群的总数固定为50,以允许映射到48个地面实况子动作类,并改变活动(K′)与子动作(K)集群的比率表9显示了不同簇大小的影响。结果表明,忽略活动聚类(K′=1)会导致结果明显变差。根据不同的测量,当K′=5和K′=10时,获得了良好的结果。YouTube上的无监督学习最后,我们在表10中的YouTube指令数据集上评估了完全无监督学习设置的准确性。我们使用K= 9和K′=5,并遵循第2节中描述的方案。4.5,即,我们将关于参数τ的精度报告为具有和不具有背景帧的MoF和IoU作为表9.早餐上活动集群数量(K′)相对于子行动集群数量(K)数据集。第二列(视频上的平均值)报告了活动聚类(K′)的准确性,如表7所示。背景比τ的影响MOFIOUτ沃湾w bg.沃湾w bg.6019号。百分之八8. 0%的百分比4.第一章百分之九4.第一章百分之九7019号。占6%9 .第九条。0%的百分比4.第一章百分之九4.第一章百分之八7519号。百分之四10个。百分之一4.第一章百分之八4.第一章百分之八80十八岁百分之九12个。0%的百分比4.第一章百分之八4.第一章百分之九90十五岁占6%二十二岁占7%4.第一章百分之三4.第一章占7%99二、百分之五五十八占6%1 .一、百分之五二、占7%表10.在YouTube Instructions数据集上,对报告为MoF和IoU的τ进行了我们在图中已经观察到4,在这种情况下,具有背景帧的IoU是唯一可靠的测量,因为通过将所有帧声明为背景或不声明为背景来优化其他测量总的来说,我们观察到背景和类别标签之间的良好权衡,τ=75%。5. 结论我们提出了一种新的无监督学习方法的行动,在连续的视频数据。考虑到动作不是以任意顺序执行的,因此绑定到它们在序列中的时间位置的想法,我们提出了一个连续的时间嵌入,以在相似的时间阶段执行集群我们结合了时间嵌入的帧到集群分配的基础上维特比解码,在该领域优于所有其他方法此外,我们介绍了无监督学习的任务,没有任何给定的活动类,这是迄今为止该领域的任何其他方法都没有解决的。我们表明,所提出的方法也适用于这个限制较少,但更K′/K平均超过视频MOFIOU1 /5010个。百分之九10个。占7%4.第一章0%的百分比2 /2519号。百分之九十五岁百分之三五、占6%12076现实的任务。谢 谢 。这 项 工 作 得 到 了DeutscheForschungsgemeinschaft(DFG,德国研究基金会)GA 1927/4-1 ( FOR 2535 预 测 人 类 行 为 ) , KU3396/2-1 ( 视 频 数 据 中 动 作 识 别 和 分 析 的 分 层 模型),以及ERC启动基金ARCA(677650)。这项工作 得 到 了 AWS Cloud Credits for Research 计 划 的 支持。12077引用[1] Jean-Baptiste Alayrac , Piotr Bojanowski , NishantAgrawal,Ivan Laptev,Josef Sivic,and Simon Lacoste-Julien. 从 叙 述 式 教 学 视 频 中 进 行 非 监 督 式 学 习 在CVPR,2016年。[2] 放大图片作者:J. Sch w ab,andBjoérnOmme r. LSTM自我监督用于详细的行为分析。在CVPR,2017年。[3] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。[4] Anoop Cherian、Basura Fernando、Mehrtash Harandi和Stephen Gould。用于活动识别的广义秩池。在CVPR,2017年。[5] Ali Diba , Mohsen Fayyaz , Vivek Sharma , M.MahdiArzani,Rahman Yousefzadeh,Juergen Gall,and LucVan Gool. 用 于 动 作 分 类 的 时 空 通 道 相 关 网 络 。 在ECCV,2018。[6] 李丁和徐晨良。Tricornet:一个用于视频动作分割的混合时间卷积和递归网络。CoRR,2017年。[7] 李丁和徐晨良。弱监督动作分割与迭代软边界分配。在CVPR,2017年。[8] CorneliaFermuüller , FangWang , YezhouYang ,KonstantinosZampogiannis , YiZhang , FranciscoBarranco , and Michael Pfeiffer. 操 纵 行 为 的 预 测 。International Journal of Computer Vision,126(2):358[9] 放大图片作者:Basura Fernando,Efstratios Gavves,Jos M.奥拉马斯阿米尔·古德拉蒂和蒂娜·图伊特拉尔斯用于动作识别的视频演化建模。CVPR,2015。[10] 艾米莉湾迈克尔·福克斯作者:Erik B.萨德斯和迈克尔·乔丹。通过beta过程的多时间序列联合建模及其在运动捕捉分割中的应用。应用统计年鉴,8(3):1281-1313,2014。[11] Guerra-Filho和Yiannis Aloimonos。一种人类行为的语言。Computer,40(5):42[12] 黄德安,李飞飞,胡安·卡洛斯·尼布尔斯。弱监督动作标记的连接主义时间建模。在ECCV,2016年。[13] Oscar Koller,Sepehr Zargaran,and Hermann Ney. Re-sign : 重 新 对 齐 端 到 端 序 列 建 模 与 深 度 递 归 CNN-Hacker。在CVPR,2017年。[14] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS。2012年。[15] Hilde Kuehne,Ali Arslan,and Thomas Serre.行动的语言:恢复目标导向的人类活动的语法和语义。CVPR,2014。[16] Hilde Kuehne,Juergen Gall,and Thomas Serre.用于视频分割和识别的端到端生成框架InWACV,2016.[17] Hilde Kuehne,Alexander Richard,Juergen Gall.从成绩单中弱监督学习动作。计算机视觉和图像理解,163:78[18] 伊万·拉普捷夫,马尔辛·马沙莱克,科迪莉亚·施密德,本杰明·罗森菲尔德.从电影中学习真实的人类动作。CVPR,2008。[19] Benjamin Laxton,Jongwoo Lim,and David Kriegman.利用时间、上下文和顺序约束识别视频中的复杂活动。CVPR,2007。[20] Hsin-Ying Lee,Jia-Bin Huang,Maneesh Kumar Singh,and Ming-Hsuan Yang.通过排序序列进行无监督表示学习InICCV,2017.[21] 乔纳森·马尔默,乔纳森·黄,维韦克·拉托德,安德鲁·约翰斯顿,尼克·拉比诺维奇,凯文·墨菲.什么是烹饪 ? 使 用 文 本 、 语 音 和 视 觉 解 读 烹 饪 视 频 。 在NAACL,2015年。[22] TimoMilbich , MiguelBautista , EkaterinaSut tt er ,andBjo? rnOmmer.通过协调姿势相似性的无监督视频理解InICCV,2017.[23] 维涅什·拉马纳坦,凯文·唐,格雷格·莫里,李菲菲。学习复杂视频分析的时间嵌入。在ICCV,2015年。[24] Alexander Richard,Hilde Kuehne,and Juergen Gall.基于RNN的从细到粗建模的弱监督动作学习。在CVPR,2017年。[25] Alexander Richard,Hilde Kuehne,and Juergen Gall.使用动作集的时态动作标注.在CVPR,2018年。[26] 亚历山大·理查德,希尔德·库恩,阿赫桑·伊克巴尔,尤尔根·加尔. Neuralnetwork-Viterbi:弱监督视频学习框架。在CVPR,2018年。[27] Fadime Sener和Angela Yao。视频中复杂活动的无监督学习和分割。在CVPR,2018年。[28] Ozan Sener,Amir Roshan Zamir,Chenxia Wu,SilvioSavarese,and Ashutosh Saxena.从视频集合中发现无监督的语义行为。在ICCV,2015年。[29] Zheng Shou,Jonathan Chan,Alireza Zareian,KazuyukiMiyazawa,and Shih-Fu Chang. CDC:卷积-去卷积网络, 用于 未修 剪视 频中 的精确 时间 动作 定位 。在CVPR,2017年。[30] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在NIPS,2014。[31] Sebastian Stein和Stephen J.麦肯娜将嵌入式加速度计与计 算 机 视 觉 结 合 用 于 识 别 食 物 制 备 活 动 。InUBICOMP,2013.[32] Heng Wang和Cordelia Schmid.具有改进轨迹的动作识别。InICCV,2013.[33] Limin Wang,Yuanjun Xiong,Dahua Lin,and Luc VanGool.用于弱监督动作识别和检测的Untrimmednets。在CVPR,2017年。[34] 王小龙和阿比纳夫古普塔。使用视频的视觉表示的无监督学习。在ICCV,2015年。[35] 杨小威,奥尔加·鲁萨科夫斯基,格雷格·莫里,还有李菲菲.从视频中的帧一瞥进行端到端的动作检测学习。在CVPR,2016年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功