没有合适的资源?快使用搜索试试~ 我知道了~
电影剧本中的语音和动作:基于转录的学习Speech2Action模型
她知道他是对的。简的手机响了。她让它再次响起,然后回答。动作:[回答]电话对话:你好,是我简行动:[答案]电话对话:谢谢你打电话来,很快.action:[answers]电话对话 你好爸爸,你还在吗(into喂,是我1Speech2Action:用于动作识别的跨模态监督阿尔沙·纳格拉尼1,2陈孙2大卫·罗斯2Rahul Sukthankar2Cordelia Schmid2Andrew Zisserman1,31VGG,牛津2谷歌研究3DeepMindhttps://www.robots.ox.ac.uk/www.example.comCaption:Hello,it电影剧本图1. 弱监督学习仅从语音中学习动作:电影剧本(文本)中的语音和场景描述的共同出现用于学习Speech2Action模型,该模型仅从转录的语音预测动作。然后,通过将该模型应用于大量未标记的电影集合中的语音,可以获得视觉动作的弱标签。摘要仅仅从对话中就能猜测人类的行为吗?在这项工作中,我们研究了电影中的言语和动作之间的联系。我们注意到,电影剧本描述了动作,也包含了人物的语言,因此可以用来学习这种动作,而不需要额外的监督。我们在一千多个电影剧本上训练了一个基于BERT的Speech2Action分类器,以从转录的语音片段中预测动作标签然后,我们将此模型应用于一个大型的未标记的电影语料库(188M语音段从288K电影)的语音段。使用该模型的预测,我们获得了超过80万个视频片段的弱动作标签。通过对这些视频片段进行训练,我们在标准动作识别基准上展示了卓越的动作识别性能,而无需使用单个手动标记的动作示例。1. 介绍通常,你可以通过单独听对话来感受电影中的人类活动。例如,句子同样,“你好,谢谢你的来电”这句话身体在电话里说话。这会是学习好的动作识别模型的有价值的信息来源吗?获取大规模人类标记的视频数据集来训练用于视觉动作识别的模型是一项众所周知的挑战性任务。 虽然大型数据集,如Kinetics [19]或Moments in Time [29],由单独的短片段组成(例如,10s)现在可用,这些数据集需要巨大的人力成本和努力。此外,许多这样的数据集遭受严重偏斜的分布与长尾-即。很难为罕见或不常见的操作获得手动标签[14]。最近,许多作品创造性地确定了视频的某些领域,例如叙事教学视频[27,38,51]和生活方式vlog [11,17],这些视频可以大量使用(例如:在YouTube上)并且通常包含具有解释屏幕上的视觉内容的明确意图的叙述。在这些视频域中,正在执行的动作与伴随视频的语音之间存在直接联系在本文中,我们探讨了在更广泛的电影和电视节目领域(不限于教学视频和视频博客)中语音和动作之间的互补联系。我们要问:是否有可能只给一个言语句子来预测一个动作是否正在发生,如果是,是什么10317Speech2Action分类器10318行动是什么? 虽然在某些情况下,演讲似乎与行动有关-“举起你的眼镜。- 是的- 是的在电影和电视节目中,更有可能的是,演讲与动作完全无关--“你今天过得怎么样?' .因此,在这项工作中,我们明确地学习识别语音何时是区分性的。虽然我们从语音-动作相关性中获得的监督仍然是嘈杂的,但我们表明,在规模上,它可以提供足够弱的监督来训练视觉分类器(见图1)。1)。幸运的是,我们有大量的文学内容可以用来学习言语和行为之间的这种相关性。电影剧本可以在数百部电影和电视节目中找到,并包含对人的身份,他们的行为和相互作用以及他们的对话的丰富描述。早期的工作试图将这些剧本与视频本身相结合,并将其作为弱监督的来源[2,8,22,25]。然而,这是具有挑战性的,因为在视频中的场景元素和它们在剧本中的文本描述之间缺乏明确的对应关系[2],并且尽管对齐质量,但在规模上也基本上受限于可用的对齐电影剧本的量。相反,我们从不结盟的电影剧本中学习。我们首先从书面材料中学习言语和动作之间的相关性,并使用它来训练Speech2Action分类器。然后,将该分类器应用于未标记的未对齐的视频集合中的语音,以获得与从语音中自信地预测的动作相对应的视觉样本(图2)。1)。通过这种方式,相关性可以为我们提供一个有效的无限弱训练数据源,因为音频可以与电影一起免费获得。具体而言,我们作出以下四项贡献:(i)我们从文学剧本中训练Speech 2Action模型,并表明可以单独从转录的语音中预测某些动作,而不需要任何手动标记;(ii)我们将Speech 2Action模型应用于大型未标记的视频语料库,以单独从语音中获得视频剪辑的弱标签;(iii)我们证明了与其他弱监督/域转移方法相比,用这些弱标签训练的动作分类器在标准基准上进行微调时实现了动作分类的最新结果;(iv)最后,更有趣的是,我们评估了仅在这些弱标签上训练的动作分类器,而没有在零拍摄和少数拍摄设置中对AVA数据集[ 14 ]的中间和尾部类进行微调,并且在不使用单个手动标记示例的情况下,某些类的完全监督性能有很大的提升。2. 相关作品将剧本与电影对齐:许多作品都探索了使用剧本来学习和自动注释电视剧中的角色身份[5,9,30,35,39]。从电影剧本中学习人类行为也曾被尝试[2,8,22,25,26]。然而,至关重要的是,所有这些作品都依赖于将这些剧本与实际视频本身相匹配,通常使用语音(作为字幕)来提供对应关系。然而,如[2]所述,由于视频中的场景元素与剧本中的文本描述之间缺乏明确的对应关系,因此以这种方式获得动作的监督是具有挑战性的除了从字幕对应关系推断的不精确的时间定位之外,主要的限制是该方法不能扩展到所有电影和电视节目,因为具有舞台方向的剧本根本不能以相同的数量级获得。因此,以前的作品仅限于小规模,不超过几十部电影或一季电视剧[2,8,22,25,26]。类似的论点也适用于将书籍与电影联系起来的作品[40,52]。相比之下,我们提出了一种方法,可以利用丰富的信息,在适度数量的剧本,然后被应用到一个几乎无限的编辑视频材料,没有对齐或手动注释所需的。行动识别监督:从大规模监督视频数据集学习动作识别任务的好处是众所周知的,随着Kinetics [ 19 ]等数据集的引入,刺激了新网络架构的发展,产生了令人印象深刻的性能增益,例如。[4、10、41、43、44、47]。然而,如引言所述,这样的数据集带有过高的标签成本。一些工作试图通过人工标注来减少这种标注工作[50](尽管需要人工注释器来清理最终标签),或者通过以附带Meta数据(如主题标签)的形式获取弱标签[12]。最近,人们对使用跨模态监督的兴趣也越来越大,这些监督来自视频[1,20,31,32,49]。然而,这样的方法集中于非语音音频,例如,“吉他弹奏”、弹跳球的“砰”声或波浪的“撞击”声。 海边,而不是转录的演讲。正如在引言中所讨论的,转录的语音仅用于某些狭窄的领域,例如。教学视频[27,38,51]和生活方式vlog [11,17],而与这些作品相比,我们专注于电影和电视节目领域(其中言语和动作之间的联系不太明确)。此外,这些方法使用伴随视频的大部分或所有语音来学习更好的整体视觉嵌入,而我们注意到,语音通常完全不提供动作的信息。因此,我们首先从书面材料中学习语音和动作之间的相关性,然后将这些知识应用于一组未标记的视频,以获得可直接用于训练的视频片段。103193. Speech2行动模型在本节中,我们描述了数据准备、数据挖掘和学习的步骤,这些步骤是从大规模的剧本数据集中训练Speech2Action分类器所需的。然后,我们评估其性能在预测从转录的语音片段的视觉动作。3.1. IMSDb数据集电影剧本是一个丰富的数据来源,它既包含舞台方向( 由于舞台指示通常包含描述的动作,我们使用剧本中对话和舞台指示的共现来了解“动作”和对话之间的关系(见图1)。1)。在这项工作中,我们使用从IMSDb ( www.imsdb ) 中 提 取 的 剧 本 语 料 库 。com)。为了获得各种不同的动作总的来说,我们的数据集由1,070部电影剧本组成(数据集的统计数据可以在表1中看到)。因此,我们将该数据集称为IMSDb数据集。剧本解析:虽然电影剧本(通常)遵循其部分的标准化格式(例如,舞台方向,对话、位置、定时信息等),由于布局和格式上的差异,它们的解析可能是具有挑战性的。我们遵循Winer等人创建的语法。[45]这是基于“好莱坞标准”[33],以解析脚本和分离出各种剧本元素。[45]提供的语法将脚本解析为以下四个不同的元素:(1)镜头标题,(2)舞台方向(包含动作),(3)对话和(4)过渡。更多详情见第二节。??的supply。材料在这项工作中,我们只提取(2)阶段方向和(3)对话我们提取了超过500K的舞台方向和超过500K的对话话语(见表1)。重要的是要注意,由于剧本解析是使用自动方法完成的,并且有时手写输入的剧本遵循完全非标准的格式,因此这种提取并不完美。对100个随机抽取的对话进行快速人工检查显示,其中约85%是真实对话,其余是被错误标记为对话的舞台指示动词挖掘舞台方向:并不是所有的动作都与言语相关,例如:像“坐”和“站”这样的动作很难单独基于语音来区分,因为它们通常与所有类型的语音一起出现。因此1动作,冒险,动画,传记,喜剧,犯罪,戏剧,家庭,幻想,黑色电影,历史,恐怖,音乐,音乐剧,神秘,浪漫,科幻,短,体育,惊悚,战争,西部我们的第一个努力是自动地确定仅通过语音而被赋予“区别性”的动词为此,我们使用上面描述的IMSDb数据集。我们首先获取数据集中的所有阶段方向,并将每个句子分解为干净的单词标记(没有标点符号)。然后,我们使用NLTK工具包[24]确定每个单词的词性(PoS)标签,并获得所有动词的列表。动词出现少于50次(包括许多拼写错误)或出现太频繁,即前100个最常见的动词(这些是停止词,如“be”等)被移除。对于每一个动词,我们然后把所有的变化和单词形式的一个特定的词干(例如。主干运行可以以许多不同的形式出现(running、ran、runs等),使用UPenn XTag项目中手动创建的动词变位列表2.所有这样的动词类然后被用于训练基于BERT的语音到动作分类器,下面将描述。3.2. 基于BERT的语音分类器然后,针对属于上面标识的动词类的动词来解析每个阶段方向我们利用电影剧本中的接近度作为线索来获得成对的因此,最接近舞台方向的语音片段(如图所示)。1)被分配一个标签,为每个动词在阶段的方向(更多的例子在图。2、Suppl. 材料)。这给了我们一个与动词标签匹配的语音句子数据集正如预期的那样,这是一个非常嘈杂的数据集。通常,语音与它被分配到的动词类别没有相关性,并且同一语音片段可以被分配到许多不同的动词类别。为了学习语音和动作之间的相关性,我们用850部电影训练了一个分类器,并使用剩下的电影进行验证。使用的分类器是一个预训练的BERT [7]模型,具有额外的分类层,在与弱“动作”标签配对的语音数据集上进行微调精确的模型细节描述如下。实施详情:所使用的模型是具有全字掩码的BERT大大小写(L=24,H=1024,A=16,总参数=340M)[7]仅在英语数据(BooksCorpus(8亿单词,[52])和维基百科语料库(25亿单词))上进行预训练,因为IMSDb数据集仅包含英语电影剧本3。我们使用具有30,000个标记词汇表的Word- Piece嵌入[46]。每个序列的第一个标记总是一个特殊的分类标记([CLS])。我们用最后的隐藏向量C∈RH对应于第一输入令牌([CLS])作为聚合表示。 唯一的新参数-在微调期间引入的参数是分类层权重W∈RK×H,其中K是类的数量。我们使用C和W的标准交叉熵损失,2http://www.cis.upenn.edu/3的模型可以可在此找到:https://github.com/谷歌研究10320#movies #scene descriptions #speech segs #sentences #words #unique words #genres 1,070 539,827595,227 2,570,993 21,364,357 590,959 22表1. IMSDb电影剧本数据集的统计数据。 该数据集用于学习语音和动词之间的相关性。我们使用850个剧本进行训练,220个剧本进行验证。句子和单词的统计数据来自剧本的全文电话喂,我可以有乔治·山南医生的电话号码吗亲爱的我告诉过你不要打电话,除非什么为什么嘿,是喂,你好吗?吻再亲一下给我一个吻晚安我亲爱的我爱你我亲爱的从来没有人吻过我那里,在此之前,晚安,天使,我亲爱的孩子。喝对我们为查理举杯干杯你想喝点水吗?喝得深些,活下去。舞蹈她是一个美丽的舞者Waddaya说你想跳舞来吧,我休息一下,大家跳支舞女士们,先生们,第一支舞对不起,你愿意跳支舞吗,海蒂,你还跳舞吗?驱动所以我们把鲁迪送到巴士那里我开车送她把车停在路边你要做的就是把我送到银行在路上等我他开了很久很久的车点范·多恩警官就在走廊那头好的,打印那个大都会艺术博物馆就在那边和她有黑点的那个图2. 六个动词类别的排名最高的语音样本的示例。 每个块在左边显示动作动词,在右边显示语音样本。所有语音片段都来自电影剧本的IMSDb数据集的验证集。也就是说,log(softmax(WTC)).我们使用批量大小 为 32, 并 使用 Adam 求 解器 以 5 ×105 的 学习 率在IMSDb数据集上对模型进行端到端的微调,进行100,000次迭代。结果:我们评估了我们的模型的性能,220个电影剧本在valset。 我们使用从Speech 2Action模型获得的softmax分数绘制精确率-召回率曲线(图1,附录1)。材料)。只达到高于0.01的平均精确度(AP)的那些动词被推断为与语音相关。性能最高的动词类是我们最终得出结论,有18个动词类的相关性很强。46个动词类的最可信预测的定性示例(使用softmax得分作为置信度的度量)可以在图中看到。二、我们在这里注意到,我们已经学习了动作动词和言语之间的关系,从电影剧本使用纯数据驱动的方法。关键的假设是,如果有一个动词出现在电影剧本之前或之后的语音片段的一致趋势,我们的模型能够利用这种趋势,以尽量减少分类对象,我们推断,语音与动作动词。因为评估纯粹是基于语音与电影剧本的舞台方向上的动词类的接近度来执行的,所以它不是动作是否将实际上在视频中执行的完美的地面实况指示(这不可能仅从电影剧本来说)。在这种情况下,我们使用舞台方向作为伪地面实况,即。如果舞台指示包含一个动作,而演员接着说了一句特定的句子,我们推断这两者一定是相关的。 作为一个健全的检查,我们4动词类是:“开”、“打电话”、“吻”、“拥抱”、“推”、“指”、“跳舞”、“喝”、“跑”、“数”、“煮"、"射"、”开“、”进“、”落"、“跟随”、“打”、“吃”。还 手 动 注 释 一 些 视 频 , 以 便 更 好 地 评 估Speech2Action模型的性能。这在Sec. 4.2.3.4. 挖掘视频进行动作识别现在我们已经学习了Speech2Action模型从转录的语音映射到动作(仅从文本),在本节中,我们将演示如何将其应用于视频。我们使用该模型自动挖掘视频样本从大型,未标记的语料库(语料库是描述在第二节。4.1),并从Speech2Action模型预测中为它们分配弱标签。有了这些弱标记的数据,我们就可以直接训练模型,用于视觉动作识别的下游任务。采矿的详细培训和评估协议在以下章节中描述。4.1. 未标记的数据在这项工作中,我们将Speech2Action模型应用于电影和电视节目的大型内部语料库。该语料库包括222,855部电影和电视剧集。对于这些视频,我们使用隐藏字幕(请注意,这可以直接使用自动语音识别从音轨中获得)。这个语料库的隐藏字幕总数是188,210,008,分成句子后,我们总共有390,791,653(近4亿)个句子。虽然我们在工作中使用这个语料库,但我们想强调的是,用于训练Speech2Action模型的文本数据与这个未标记的语料库之间没有相关性(除了都属于电影领域),并且这样的模型可以应用于任何其他未标记的编辑过的电影素材语料库。103214.2. 获取弱标签在本节中,我们将描述如何单独从语音中获取短片段的弱动作标签。我们通过两种方式做到这一点,(i)使用Speech2Action模型,以及(ii)使用下面描述的简单关键字定位基线4.2.1使用Speech2ActionSpeech2Action模型应用于语音的单个句子,并且如果置信度(softmax得分)高于某个阈值,则将预测用作弱标签。该阈值是通过在IMSDb验证集上以0.3的精度获取置信度值来获得的,并对“phone”、“run”和“open”类进行了一些手动调整(由于这些类的召回率要高得多,因此我们增加了阈值,以防止检索到的样本出现巨大的不平衡)。更多详情见第二节。??在Suppl.材料然后,我们提取10秒剪辑的视觉帧,该剪辑以 字 幕 所 跨 越 的 时 间 帧 的 中 点 为 中 心 , 并 将Speech2Action标签指定为剪辑的弱标签。最终,我们成功地为18个动作类挖掘了837,334个视频片段虽然这是一个低产量,但我们最终仍然有大量的挖掘剪辑,大于手动标记的Kinetics数据集[19](600K)。我们还发现,在IMSDb数据集中与语音高度相关的动词类在其他数据集中往往是不相关或罕见的动作[14]-如图所示。3,我们在AVA训练集中获得了两个数量级的数据[14]。带有动作标签的挖掘视频剪辑的定性示例可以在图中看到。4.第一章请注意,我们如何能够检索具有各种背景和演员的剪辑参照图5在Supply材料更多的例子显示多样性的对象和观点。4.2.2使用关键字定位基线为了验证我们在电影剧本上训练的Speech2Action模型的有效性,我们还将其与简单的关键字定位基线进行了比较。这涉及到直接搜索语音中的动作动词--像“你现在吃吗?' 被直接赋予了“吃”的标签。这本身就是一个非常强大的基线,例如。诸如“你愿意和我跳舞吗”的语音为了实现这个基线,我们直接在语音片段中搜索动作动词(或其变化)的存在,如果动词存在于语音中,我们直接将动作标签分配给视频剪辑这种方法的谬误在于,一个动词的不同语义之间没有区别。语音片段“You've missed the point entirely”将使用该基线用动词“point”弱标记,图3. 分发使用Speech2Action挖掘的培训剪辑。我们将挖掘片段的分布与AVA训练集中的样本数量进行比较。虽然挖掘的片段是嘈杂的,但我们能够获得更多,在某些情况下多达两个数量级的训练数据(注意x轴中的对数尺度跳舞电话接吻开车吃喝跑点命中射击42 68 18 41 27 51 83 52 18 27表2. 10个类别的100个随机再检验样本的真阳性数量。这些估计是通过手动检查标有Speech2Action的视频剪辑获得的。虽然某些类别的真阳性率很低,但其他样本仍然包含有价值的分类信息。例如,虽然只有18个真正的“接吻”样本这表示与物理动作“指向"不同的语义含义。因此,正如我们在结果中所示,与我们的Speech2Action挖掘方法相比,该基线表现不佳(表4和表3)。更多使用此关键词定位基线标记的语音示例可参见附录中的表1。材料4.2.3Speech2Action的手动评估我们现在评估Speech2Action应用于视频的性能。给定一个语音片段,我们检查模型对语音的预测是否转化为在与语音对齐的帧中视觉上执行的动作。为了评估这一点,我们对10个动词类的100个检索到的视频剪辑进行了随机手动检查,并在表2中报告了真阳性率(动作可见的剪辑数量)。我们发现,在10秒的时间范围内,大量的样本实际上包含了动作,有些类比其他类更嘈杂。“run”和“phone”类的高纯度10322角落吃喝这只鸡非常你吃过 这个菜吗?这么好吃的四川菜。以前吗你的菜单封面上有罗尼和凯萨琳吗?这些饮料很烈。啊,我就是那个人所以我现在才在这里喝香槟。喝酒两杯不加冰的马提尼酒运行看到了吗,在上面点看右边和那边 那里是在那边吗?快,快,快!跑快点宝贝别动嘿!追追电话你为什么脸色发青还在跳舞舞蹈还有Nandita,让我们你 怎么能不看你的Sita舞呢?跳舞?你跳舞吗,美国佬?请留言是的,我需要杰夫我正在努力兄弟接电话,奥列格。在音调之后。他的安全线路。从另一个电话。吻好一记右勾拳击中你打起来像个混蛋你差点撞到我,妈的!don’t爱,你给了我那么你必须吻亲我一下。我希望我们能留下来我想要的我现在永远这样图4. 使用Speech2Action模型自动挖掘的剪辑示例仅应用于8个AVA类的语音。 我们只显示每个视频的一个帧。注意背景、演员和观点的多样性。我们显示了eat、phone和dance的误报(每行最后一个,用红框括起来骂人的话会被删的。补充材料中提供了更多的例子正如SEC所解释的。第4.2.1条。假阳性的常见来源是在屏幕外执行的动作,或者在语音片段的时间偏移(之前或之后)处执行的动作我们注意到,在任何时候,我们实际上都没有使用任何手册标签进行培训,这些标签纯粹是为了评估和检查。5. 动作分类现在我们已经描述了我们获得弱标记训练数据的方法,我们在这些噪声样本上训练具有S3 D-G [47]骨干的视频分类器,用于动作识别任务。我们首先详细介绍了训练和测试协议,然后描述了这项工作中使用的数据集。5.1. 评价方案我们通过以下两种方式评估视频分类器的动作分类任务:首先,我们遵循视频理解文献[4]中采用的典型程序:使用我们的Speech2Action模型对大量弱标记视频进行预训练,然后对标记目标数据集训练后,我们在目标数据集的测试集上评估性能。在这我们使用HMDB-51 [21],并与该数据集上的其他最先进方法进行比较。我们还提供了UCF101数据集的结果[36]。??的supply。材料其次,也许更有趣的是,我们通过在挖掘的视频片段上训练视频分类器来应用我们的方法,并直接在目标数据集中罕见动作类的测试样本上对其进行评估(在这种情况下,我们使用AVA数据集[14])。注意:在这一点上,我们还手动验证了IMSDb数据集和AVA数据集中的电影之间没有重叠(这并不奇怪,因为AVA电影更老,更模糊-这些是YouTube上免费提供的电影)。这里没有使用单个手动标记的训练示例,因为没有微调(我们此后将其称为zero-shot5)。我们还报告了少量学习场景的性能,在这种情况下,我们在少量标记的示例上微调我们的模型。我们注意到,在这种情况下,我们只能评估与IMSDb数据集中的动词类直接重叠[5]为了避免与这个术语的严格含义混淆,我们澄清,在这项工作中,我们使用它来指代没有一个手动标记的示例可用于特定类别的情况。我们在多个弱标记样本上进行how-ever训练。103235.2. 数据集和实验细节HMDB51:HMDB51 [21]包含来自51个动作类的6,766个真实和变化的视频剪辑。使用来自[16]的三个训练/测试分割的平均分类准确度进行评估,每个分割具有3,570个训练和1,530个测试视频。AVA:AVA数据集[14]是通过详尽的手动注释视频收集的,并且在常见和罕见类别之间的示例数量上表现出强烈的Eg.一个普通的动作,比如ing和43K测试示例,与“drive”(1.18K列车和561测试)和“point”(仅96列车和32测试)相比因此,依赖于完全监督的方法在中间和尾部的类别上进行斗争。我们评估了与IMDSDb数据集中存在的类别重叠的14个AVA类别(均来自中间和尾部)。虽然该数据集最初是一个检测数据集,但我们将其重新用于动作分类任务,通过为每个帧分配来自所有边界框标记的标签的联合。然后,我们对来自这14个动作类的样本进行训练和测试,报告每个类的平均精度(AP)。实施详情:我们训练S3 D与门控(S3 D-G)[47]模型作为我们的视觉分类器。在[47]之后,我们从视频中密集采样64帧,将输入帧大小调整为256×256,然后随机裁剪大小224×224在训练中。 在评估过程中,我们使用所有帧,并采取224×224中心作物从调整大小的帧。我们的模型是用TensorFlow实现的,用动量为0.9的香草同步SGD算法优化。对于从头开始训练的模型,我们使用102,103和104的学习率计划进行150 K迭代,在80 K和100 K迭代后下降,对于微调,我们使用102的学习率进行60 K迭代。训练损失函数:我们尝试softmax交叉熵和每类sigmoid损失,并发现两种选择的性能相对稳定。5.3. 结果HMDB51 : HMDB51 的 结 果 见 表 3 。 在 带 有Speech2Actions标签的视频上进行训练,比从头开始的训练效果显著提高了17%。作为参考,我们还比较了其他自监督和弱监督的作品(注意,这些方法在架构和训练目标上都不同)。 我们比以前只使用视频帧(没有其他方式)的自监督作品有14%的改进。我们还比较了Korbar等人。 [20]在AudioSet上使用音频和视频同步进行预训练,DisInit [13]将ImageNet中的知识提取到Kinetics视频中,并简单地在ImageNet上进行预训练,然后将2D卷积扩展到我们的S3 D-G模型[19]。我们比这些作品提高了3-4%方法架构预训练Acc.[28]第二十八话S3D-G(RGB)UCF 101† [36]35.8OPN [23]VGG-M-2048UCF 101† [36]23.8[48]第四十八话R(2+1)DUCF 101† [36]30.9Wang等人[第四十二届]C3d动力学[36]33.43DRotNet [18]S3D-G(RGB)动力学†40.0DPC [15]3DResNet18动力学†35.7CBT [37]S3D-G(RGB)动力学†44.6DisInit(RGB)[13]D-18 [41]动力学分析54.8Korbar等人[20]I3D(RGB)动力学†53.0-S3D-G(RGB)划痕41.2我们S3D-G(RGB)KSB开采46.0我们S3D-G(RGB)S2A-mined58.1监督预训练S3D-G(RGB)ImageNet54.7监督预训练S3D-G(RGB)动力学72.310324表 3.HMDB51 的 行 动 分 类 结 果 。在 标 记 为Speech2Action的视频上进行预训练,比从头开始的训练提高了17%,并且优于严格的自我监督和弱监督作品。KSB-mined:使用关键字定位基线挖掘的视频剪辑。S2 A-mined:使用Speech 2Action模型挖掘的视频片段†没有标签的视频。** 从图像中提取标签Genet.当与[ 20 ]比较时,我们报告了他们的I3D(仅RGB)模型所实现的数量,这是最接近我们的架构的。对于ESTA,我们使用S3 D-G模型(与我们的模型相同)报告了[ 37 ]的重新实现。对于其余的,我们报告性能直接从原始文件中删除两种方法依赖于对大规模手动标记的图像数据集的访问[6],而我们的方法仅依赖于1000个未标记的电影脚本。另一个有趣的点(以及这种自我和弱监督流不可避免的副作用)是,虽然所有这些以前的方法都不使用标签,但它们仍然在Kinetics数据上进行预训练,这些数据经过精心策划,涵盖了600多种不同的动作。相比之下,我们直接从电影中挖掘训练数据,不需要任何手动标签或仔细的策展,我们的预训练数据只挖掘了18个类。AVA-划痕:从以下训练的模型的AVA结果没有预训练的划痕,可以在表4中看到(前4行)。我们比较以下几点:使用AVA训练示例进行训练(表4,顶行),仅使用我们挖掘的示例进行训练,以及使用两者进行联合训练。对于14个类中的8个类,我们在没有单个AVA训练示例的情况下超过了完全监督的性能AVA微调:我们还显示了首先对Speech2Action挖掘片段进行预训练的结果,然后对每个类逐渐增加的AVA标记训练样本进行微调(表4,底部4行)。在这里,我们保留来自微调的所有权重,包括分类层权重,用于初始化,并且仅针对单个时期进行微调。每个类有50个训练样本,我们超过了所有类的完全监督性能(除了10325表4. 14个AVA中间和尾部类别的每个类别平均精度。这些操作很少发生,因此很难进行手动监督。对于14个类中的8个,我们超过了完全监督的性能,而没有一个手动标记的训练示例(以粉红色突出显示,最好以彩色显示)。S2 A-mined:使用Speech 2Action 挖 掘 的视 频 片 段。 关 键 字 定位 基 线 。 前4 行 : 模型 是 从 头开 始 训 练 的。 最 后 4行 : 我们 对 使 用Speech2Action挖掘的视频片段进行预训练。遵循在你紧跟在我身后之后听我指挥 快跟我来!图5. 为更抽象的动作挖掘的剪辑示例。 这些操作不存在于HMDB 51等标准数据集中或AVA,但与语音相关性很好我们的方法是能够自动挖掘剪辑弱标记这些行动从未标记的数据。“拥抱”和“推”)与从头开始训练相比。表现最差的是对类快速手动检查显示,大多数片段都被错误地标记为为了完整性,我们还使用S2A挖掘的剪辑(只有14个类)预训练模型,然后对用于评估的所有60个类在AVA上进行微调,并获得40%的总体分类符合率。vs38%,仅接受AVA培训采矿技术:我们还对使用关键字定位基线挖掘的剪辑进行训练(表4)。对于某些类,这个基线本身超过了完全监督的性能。我们的Speech2Action标签超越了这一基准,类,实际上基线对于像“point”和“open”这样的类表现不佳然而,我们在这里注意到,由于AVA测试集中的特质(很少测试样本的错误地面真实标签),很难定量测量类“点”的性能,因此我们在图中显示了4.第一章我们注意到,“跳舞”和“吃”的基线非常接近,这表明对语音进行简单的关键字匹配可以为这些动作检索良好的训练数据。抽象动作:通过直接从电影剧本中的舞台指示收集数据,我们的动作标签是[11]后定义(如[11])。 这与大多数使用预定义标签的现有人类行为数据集不同[3,14,29,34]。因此,我们也设法挖掘一些不寻常的或抽象的动作,这是相当好的相关性,如“计数”和“跟随”的例子。虽然这些不存在于标准动作识别数据集中,如HMDB 51或AVA,因此无法进行数值评估,但我们在图中展示了这些挖掘视频的一些定性示例。五、6. 结论我们提供了一种新的数据驱动的方法来获得弱标签的动作识别,单独使用语音只有1000个不一致的剧本作为起点,我们自动获得了一些罕见的动作类的弱标签。然而,网上有大量的文学材料,包括戏剧和书籍,利用这些文本来源可以让我们扩展我们的方法来预测其他动作类,包括“动词”和“对象”的复合动作我们还注意到,除了行动,人们还谈论物理对象、事件和场景- 电影剧本和书籍中也有对它的描述。因此,这里使用的相同原理可以应用于挖掘视频以获得更一般的视觉内容。致谢:Arsha获得了Google PhD Fellowship的支持。我们感谢卡尔·冯德里克的早期讨论。数据驱动电话吻舞蹈吃喝每类AP运行点开放击中开枪推拥抱进入AVA(完全监督)0.630.540.220.460.670.270.66 0.020.490.620.080.090.290.14KS-基线†0.670.200.120.530.670.180.37 0.000.330.470.050.030.100.02S2A-mined(zero-shot)0.83 0.790.13 0.55 0.680.63 0.04 0.520.54 零点一八 0.040.070.04S2A-mined+ AVA0.840.830.180.560.750.400.740.050.560.640.230.070.170.04AVA(少发)-200.820.830.220.550.690.330.640.040.510.590.200.060.190.13AVA(少量)-500.820.850.260.560.700.370.690.040.520.650.210.060.190.15AVA(少量)-1000.840.860.300.580.710.390.750.050.580.730.250.130.270.15两个季度,三个二十四个一角的,一个五分的,一千四两便士。名要作第计数20美元4美分 三万六千四百,五百10326引用[1] Relja Arandjelovic和Andrew Zisserman。看,听,学。在IEEE计算机视觉国际会议论文集,第609-617页,2017年。2[2] Piotr Bojanowski Francis Bach Ivan Laptev Jean Ponce科迪莉亚·施密德和约瑟夫·西维克寻找电影中的演员和行动。在IEEE计算机视觉国际会议论文集,第2280-2287页,2013年。2[3] Fabian Caba Heilbron Victor Escorcia Bernard Ghanem和胡安·卡洛斯·尼布尔斯Activitynet:人类活动理解的大规模视频基准。在Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition中,第961-970页,2015年。8[4] Joao Carreira和Andrew Zisserman。Quo vadis,开拍认可?新模型和Kinetics数据集。在IEEE计算机视觉和模式识别会议的论文集,第6299-6308页,2017年。二、六[5] 本杰明·萨普,克里斯·乔丹,本·库尔Taskar 从模糊标记的图像中学习在2009年IEEE计算机视觉和模式识别会议上,第919-926页IEEE,2009年。2[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,还有李飞飞Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。7[7] Jacob Devlin、Ming-Wei Chang、Kenton Lee和Kristina图坦诺娃Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。3[8] 奥利维耶·杜兴,伊万·拉普捷夫,约瑟夫·西维克,弗朗西斯·巴赫,还有让·庞塞视频中人类动作的自动注释。2009年IEEE第12届计算机视觉国际会议,第1491-1498页IEEE,2009年。2[9] 马克·埃弗林汉姆 约瑟夫·西维克 还有安德鲁·齐瑟曼“你好啊!我叫...BuffyBMVC,2006年。2[10] Christoph Feichtenhofer、Haoqi Fan、Jitendra Malik和开明河用于视频识别的慢速网络。在IEEE计算机视觉国际会议论文集,第6202-6211页,2019年。2[11] David F Fouhey,Wei-cheng Kuo,Alexei A Efros,andJi-坦德拉·马利克从生活方式到日常互动。在IEEE计算机视觉和模式识别会议论文集,第4991-5000页一、二、八[12] Deepti Ghadiyaram、Du Tran和Dhruv Mahajan。 大-规模弱监督预训练视频动作识别。在IEEE计算机视觉和模式识别会议论文集,第12046-12055页2[13] Rohit Girdhar,Du Tran,Lorenzo Torresani,and DevaRa-manan. Distinit:在没有单个标记视频的情况下学习视频表示。ICCV,2019。7[14] 春晖 顾、 陈 孙先生, 大卫 一 罗斯 卡尔·冯drick , Caroline Pantofaru , Yeqing Li , SudheendraVijaya- narasimhan,George Toderici
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功