基于图的电影概要数据集与匹配框架

42 浏览量更新于2023-10-12 收藏 2.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4592一个基于图的电影和概要熊宇1黄庆秋1郭凌峰2周杭1周波磊1林大华11香港中文大学-商汤科技联合实验室2加州大学伯克利{xy017，hq016，bzhou，dhlin}@ ie.cuhk.edu.hkzhouhang@link.cuhk.edu.hk凌峰guo@berkeley.edu摘要受到视频分析领域的显著进步的启发，研究团队正朝着更大的目标迈进。- 电影理解。然而，与传统数据集中的那些活动视频相比，电影是显著不同的。一般来说，电影要长得多，并且由更丰富的时间结构组成。更重要的是，人物之间的互动在表达潜在故事中起着核心为了促进沿着这个方向的努力，我们构建了一个名为电影概要协会（MSA）的数据集，超过327部电影，这些电影支持为每部电影提供了一个大纲，摘要段落和电影片段之间的关联。在这个数据集之上，我们开发了一个框架，以执行电影片段和概要段落之间的匹配。该框架集成了电影的不同方面，包括事件动态和角色交互，并允许它们与基于图形的公式化的解析段落相匹配。我们的研究表明，所提出的框架显着提高了匹配精度比传统的基于特征的方法。同时也揭示了叙事结构和人物互动在电影理解中的重要性.数据集和代码可从以下网址获得：电子邮件地址：ycxioooong.github.io/projects/moviesyn1. 介绍在各种媒体形式中，电影通常被认为是最好的故事传达者。在创作电影时，导演可以利用各种元素– 场景、人物和叙事结构– 来表达从计算机视觉的角度来看，电影提供了一个巨大的舞台，具有许多新的挑战，例如。更大的长度、更丰富的呈现样式和更复杂的时间结构。最近的研究[23，26，31，32，24，16]试图从不同的角度探讨这一在过去的十年里，广泛的研究已经被投票给视频分析。一些基于视频的任务，e.G.动作识别[34，4]和事件分类[10]已经成为活跃的研究主题。然而，为这些任务设计的方法并不特别适合于电影。认识具体地，对于这样的任务，可以是各种线索的组合的视觉特征通常足以获得良好的准确性。然而，电影本质上是不同的。一部电影是为了讲述一个故事而创作的，而不是为了展示某个场景或某个血淋淋的事件为了有效地分析电影，我们需要新的数据，新的视角，因此需要新的方法。最近，在电影上构建了几个数据集，包括LSMDC[26]和MovieGraphs [31]。然而，这些数据集是有限的，因为它们很小，或者只集中在很短的片段上，即。那些只持续几秒钟的。为了促进电影理解的研究，我们需要一个新的数据集，是大的和多样化的，更重要的是允许高层次的语义和时间结构被提取和分析。在这项工作中，我们构建了一个大型数据集，称为电影概要协会（MSA）超过327部电影。该数据集不仅为每部电影提供高质量的详细概要，而且还通过手动注释将概要的各个段落与电影片段相关联。在这里，每个电影片段可以持续几分钟，并捕捉一个完整的事件。这些电影片段与相关的故事梗概段落相结合，可以在更大的范围和更高的语义层次上进行分析。图1显示了一个电影片段和相应的概要段落，其中我们有两个重要的观察结果：（1）故事以事件流的形式呈现，受潜在的叙事结构的支配。故事梗概中的句子通常遵循类似的顺序。(2)人物和他们之间的互动是潜在故事的关键要素这两个关键方面，即事件的动态流程和角色之间的交互，将电影与传统任务中的视频在这项工作中，我们开发了一个新的框架，电影片段和大纲段落之间的匹配。我们选择使用图来表示，而不是用特征向量来编码它们，这提供了一种灵活的方式来捕获中间层元素及其之间的关系。具体而言，该框架集成了两个关键模块：（1）事件流模块，用于将电影片段中的镜头序列（每个镜头示出特定事件）与概要段落中的句子序列对齐。4593镜头#5镜头#11拍摄#14拍摄#17拍摄#24拍摄#29从概要生成图表站谈谈进入满足站……忽略射击？杀……从视频生成图形…………电影片段段电影片段EFMCIM事件流人物互动射击#5射击#6射击#7射击#15射击#16射击#25射击#26射击#27图1.故事梗概段落中的故事是按照叙事结构（上半部分）呈现的，这些叙事结构被建模为事件流模块;下半部分显示了角色互动模块中捕获的角色互动。黄色方块表示行动。(2)角色交互模块，用于捕获角色及其行为（动作和交互），并将其与相应的描述相关联。基于这两个模块，然后可以通过求解基于它们各自的表示而制定的优化问题值得注意的是，以前的作品[31]已经探索了在电影表示中使用图形然而，我们的框架在几个方面是与众不同的：1）它考虑到复杂的时间结构和字符的相互作用，从数据挖掘。2)我们的方法在使用图形时不需要节点到节点的注释。概括而言，我们的贡献在于三个方面：（1）我们构建了一个关于327部电影的大型数据集MSA，该数据集提供了电影片段和大纲段落之间的注释关联。该数据集可以有效地支持电影片段如何与描述，我们认为这是迈向高层次电影理解的重要一步(2)我们开发了一个基于图的框架，它既考虑了事件流，又考虑了角色之间的交互。实验表明，该框架是有效的，与视觉语义嵌入等流行方法相比，检索准确率有了显著(3)我们进行了一项研究，揭示了高层次的时间结构和字符的相互作用在电影理解的重要性。我们希望这项研究可以激励未来的工作，以探讨如何更好地利用这些方面。2. 相关工作长期任务，通过语言的视频检索，已经提出了大量的数据集[36，1，26，19，31，30，29，33]。ActivityNetCaptions[19]是一个具有密集字幕的数据集，描述了来自ActivityNet[3]的视频，可以通过语言查询促进视频检索和时间本地化等任务。大规模电影描述挑战（LSMDC）[26]由自然语言描述的电影短片组成。MovieQA[30]是为了通过回答问题来理解电影中的故事而构建的。一些电影被提供具有对齐的电影剪辑的情节MovieGraphs[31]是为以人为中心的情况理解而建立的，带有图形注释。但这些数据集存在三个问题：（1）大多数人从众包平台获得枯燥的描述，（2）他们只是描述持续几秒钟的短视频片段，这导致建议数据与真实世界数据之间存在巨大差距，视频更长，描述更复杂。(3)其中一些就数据集大小而言相对较小。为了探索来自真实世界场景的数据中的高级语义和时间结构，我们构建了一个新的数据集，其中包含从电影中剪切的长片段和来自IMDb1中概要的各种描述。基于数据的方法。为了检索具有自然语言查询的视频，主要挑战是两种不同模态之间的差距。视觉语义嵌入（VSE）[9，7]是视频检索中广泛采用的方法[38，18，37，6，35]，试图通过将多模态信息嵌入到公共空间中来解决这个问题。[37]中提出的JSF基于fea学习匹配内核，跨模态理解数据集。在最近-t年，随着跨模态under-1的日益普及https：//www.imdb.com第#句第#句…第#句……在科斯蒂根的葬礼上，沙利文和玛德琳站在墓旁。…苏利文试图和她说话，但她不理他。当沙利文进入他的房间时，他遇到了迪格纳姆，迪格纳姆开枪打死了他。4594真序列融合为了检索视频和定位clip- s，[27]引入了一个框架，首先执行段落级检索，然后通过句子级剪辑定位来细化特征基于语义的检索方法不能进一步提高检索性能，因为这些方法无法捕捉视频和语言的内部结构。基于图形的方法。基于图的方法[17，21，31]，从语言和视频构建语义图，然后将检索任务制定为图匹配问题[2，41，39]，也广泛用于跨模态检索。[17]中的方法从用于图像检索的语言查询生成场景图。图匹配算法由[21]提出，用于自动驾驶领域的语义搜索。将图匹配问题转化为在优化约束条件下具有地面实况对齐的LP优化问题。[31]中提出的MovieGraphs使用图作为语义表示，并将图集成到潜在函数中进行训练。值得注意的是，在这项工作中，我们还使用基于图形的表示为电影和概要。然而，与以往依赖于昂贵的节点级注释的工作不同，我们的图匹配只需要段落级对齐的地面实况，这使得它更加实用。3. MSA数据集本节介绍电影概要协会（M-SA），这是一个基于327部电影构建的新数据集.特别地，我们从IMD-b中选择了一组高质量的概要，即。那些对个别事件有详细描述的，每部电影一个。这里的每一个简介都由几十个段落组成，每个段落都描述了电影中的一个事件。我们还通过人工标注提供了电影片段和故事梗概段落之间的关联。这些关联构成了支持高层次语义分析的坚实基础.我们按照以下程序收集了相关信息。(1)我们为注释者提供了每部电影的完整概述，包括角色列表，评论等，以确保他们熟悉电影。(2)我们进行了两个阶段的注释过程，从粗到细。在第一阶段，每部电影被分成64个片段，每个片段持续约2分钟。对于每个概要段落，要求注释者选择一段，即，覆盖相应描述的N个连续剪辑的子序列。在第二阶段，注释器调整结果片段的时间边界，使其更好地与段落对齐。这两个阶段的过程导致一个段落段对的集合(3)我们将每个段落分配给三个注释者，只保留其中一致性高的注释这里，一致性是根据注释之间的时间IoU来测量的。最后，我们获得了4494个高度一致的段落-片段对表1. MSA数据集的统计数据。火车Val测试总#电影2492850327节段33293418244494注射次数/节段96.489.876.992.3持续时间/段427.4469.6332.8413.3#发送。/para.6.06.05.55.9#文字。/para.130.8132.5120.5129.0表2.MSA数据集和MovieQA之间的比较[30]。#电影#已发送。/电影#words/sent.dur。（s）MovieQA14035.220.3202.7MSA32781.221.8413.3(out原始集合的5，725个表1显示了数据集的一些基本统计数据。这数据集具有挑战性：（1）每个电影片段的持续时间平均超过400秒，远远长于LSMDC等现有数据集[26]。(2)描述丰富，每段超过100图2将ActivityNet标题[19]与M-SA数据集与示例。我们可以看到，在MSA中的描述通常要丰富得多，并且在更高的层次上，例如。描述人物和事件，而不是简单的动作。MovieQA还包含了一个视频剪辑对。表2将MovieQA与我们的MSA数据集进行了比较。请注意，来自MovieQA的情节概要来自维基百科，而我们的则来自IMDb。与维基百科上的同义词相比，IMDb上的同义词是由电影迷撰写并由其他人评论的。它们更长，包含更多细节。4. 方法在这一节中，我们将介绍我们的框架之间的匹配电影片段和大纲段落-S.具体来说，给定一个查询段落P从一个梗概，我们的目标是检索其相关的电影片段Q出一个大池的候选人。该框架由两个模块组成：一个事件流模块（EFM），以利用事件流的节奏结构，和一个角色交互模块（CIM），以利用角色交互。如图1所示，给定查询段落P和候选电影片段Q，每个模块产生P和Q之间的相似性分数，表示为Sefm（P，Q）和Scim（P，Q）。那么整体匹配分数S（P，Q）定义为它们的和，S（P，Q）=Sefm（P，Q）+Scim（P，Q），（1）接下来，SEC。4.1和4.2分别介绍了EFM和CIM模块。秒4.3介绍了两个模块联合优化的训练算法。4.1. 事件流量模块该模块考虑事件流的时间结构它的动机是观察，森-4595J1. 一群篮球运动员站在体育馆的地板上，旁边有几个人在看。2. 其中一名球员倒在地板上，另一名球员在后台做手势。1. 史蒂文和几个朋友去体育馆打篮球，奇普尴尬地出现了。2. 奇普把自己插进了比赛中，以一种非常有侵略性的方式打球，击倒了其他球员，最终打破了篮球板。3. 史蒂文显然对奇普很生气，然后走开了。图2.ActivityNet标题（左）和MSA（右）示例之间的比较持续时间分别为12s和220s他把她的行李整理好，把他认为不必要的东西扔进垃圾桶。在机场，他检查以他一贯的效率，然后叹在家里，瑞安包装另一个公路旅行，他的货架是图3.摘要段落中的句子通常遵循与电影片段中呈现的事件中的情况类似的因此，它们可以在时间上对齐。摘要段落中的时态倾向于遵循与事件中的情景的顺序类似的顺序（每个时态由电影镜头2的序列捕获），如图3所示。特别地，句子和电影镜头之间的对齐可以基于以下原则来完成：（1）每个句子可以匹配多个镜头，而一个镜头最多可以分配给一个句子。(2)句子和电影镜头遵循相同的顺序。匹配不应交换图4.从段落构造图的过程。首先，检测所有的字符名称和代词。然后，每个句子都被解析为依赖树。在基于规则的链接阶段，基于树结构生成图。两个域的特征矩阵考虑到上述对准原理，我们可以通过解决以下问题来获得分配Y命令，例如，将一个句子与前一个镜头联系起来。MaxYtr（ΦTY）（3）配方。假设一个段落P由一个句子序列{p1，. . .，pM}。我们得到了一个嵌入特征φi∈RD为每个句子pi使用充分-ly连接的嵌入网络。与此同时，给你S.T.Y1≤1，（4）I（yi）≤ I（yi+1），则ni ≤ N − 1。（五）是指矩阵Y的i_h_w，并且I（·）表示片段Q由镜头序列组成，可以通过镜头分割工具[28]提取。对于每个镜头qi，我们利用全连通的嵌入网络得到了一个视觉特征i∈RD这里，我们的目标是将每个句子分配给一个子镜头序列，该子镜头序列可以由二元分配矩阵Y∈ {0，1}N×M表示，其中yij=Y（i，j）=1，如果第i个镜头连接到第j个镜头，否则为0。给定分配矩阵Y，总匹配分数可以表示为Σ Σ对于二进制向量中的第一个非零元素的索引这是一个二部图匹配问题，可以有效地解决动态规划。4.2. 角色交互模块如前所述，角色之间的互动在电影故事中扮演着重要的角色。我们还观察到，人物的互动往往是描述在梗概。为了实现这一点，我们提出了基于图表示的字符交互模块（CIM）Sefm=我yijφTi= tr（ΦTY），（2）J从概要段落和电影片段中的视觉观察。具体来说，每个段落和电影片段都是代表-其中Φ=[Φ1，. . .，φM]T和φ M=[φ1，. . .，N]T是2镜头是一系列的帧，在一段不间断的时间内运行。观察到镜头内的帧是高度冗余的，我们使用镜头作为单位而不是帧。图Gp=（Vp，Ep）和Gq=（Vq，Eq）表示。顶点集Vp和Vq包含字符节点和动作节点。边集Ep和Eq帽-角色与角色、角色与动作的关系。…里奇和悉尼接吻，欧文在一旁观看。检测co-ref.里奇和悉尼接吻，欧文在一旁观看。当他离开时，欧文走近她。当他离开时，欧文走近她。方法走里奇走开时，欧文走近悉尼。欧文悉尼方法走链路作里奇距离里奇·欧文悉尼4596Qp利用这两个图，可以通过Gp和Gq之间的匹配来计算P和Q之间的相似性。下面，我们将详细介绍匹配程序。来自电影片段的视觉图表。首先，我们生成角色和动作节点：（1）对于字符节点，我们利用Faster-RCNN[11]在[5]上实现并在[15，14]上进行预训练，以检测每个镜头中的人物实例。(2)我们为每个人实例附加一个动作节点，该节点来自AVA数据集[12]上预训练的TSN[34]。其次，我们通过以下过程产生边集：（1）如果一组人出现在相同或相邻的镜头中，我们在每对镜头之间引入一条边。(2)我们将每个角色节点链接到其对应的动作节点。我们定义一个二元向量u ∈ {0，1}nm×1作为指标，其中u ia= 1，如果i ∈ V q赋给a ∈ Vp. 为了度量不同图的节点和边的相似性，我们建立了相似性矩阵K ∈Rnm×nm，其中对角元素表示节点的相似性，非对角线条目表示边缘相似性。特别地，κia;ia=K（ia，ia）度量Vq中的第i个节点与Vp中的第a个节点之间的相似性。κia;jb度量两条边（i，j）∈Eq和（a，b）∈Ep之间的相似性。那个n-节点被表示为来自网络的输出特征。和边由其节点特征的连接表示K中的相似度通过特征向量之间的点积来计算给定指示符u和相似性矩阵K，两个图的相似性可以导出为句子的语义图。对于每一段，我们从每个句子中构造子图的集合基于依赖关系树，如图4所示。Scim（P，Q）=Σuiaκia;ia+我这个Σ Σuiaujbκia;jb，（6）i、j、a、b施工过程包括四个主要步骤：（1）名称检测：我们检测所有命名的实体（例如，Jack ）使用 StanfordNer [8] 。然后，我们求助于CorefAn- notator [25]来将代词与命名实体联系起来，并将所有代词替换为相应的名称。（2）人物联想：在IMDb的帮助下，我们可以检索每个命名角色的肖像，从而使用在PIPA上预先训练的ResNet [ 13 ]获得面部和身体特征[40]。这允许角色节点与电影中检测到的人物实例相匹配。（3）句子解析：我们使用GoogleNLPAPI 3来获得句子的依赖树。树中的每个节点都用词性标记来标记。（4）边缘连接：基于i/=jaB其中，第一项对匹配的笔记i∈Vq和a∈Vp之间的相似性得分进行建模。第二项从（i，j）和（a，b）之间的匹配边中得到奖励。基于节点的属性，在u上强制执行：（1）匹配应该是一对一的映射。例如，一个顶点集中的一个节点只能与另一个顶点集中的最多一个节点匹配。(2)不同类型的节点不能匹配在一起。例如，不能将角色节点分配给动作节点。目标函数与约束条件一起可以简单地表示为以下形式：依赖关系树，我们将每个字符名称链接到其par.Maxu（7）ent动词。同时，如果一组字符名称共享同一个动词，则我们在每对ΣS.T. 乌亚山≤1μa，（8）他们请注意，我们只考虑代表ac的动词第我们首先选出1000个出现频率最大值≤1μi，（9）cu ia=0n∈Va，（10）然后保留那些对应于视觉上可观察到的动作的动作，例如，“跑”。这导致i∈VqΣi∈Va 乌亚p=0 a∈ V c。（十一）一组353个动词这里Va表示只包含动作的顶点集值得注意的是，我们生成了一个子qa c的集合图从段落而不是一个连接的图。为视频中的节点|V q|=n aand V q for vertex only con在视频中设置投射节点。Va和Vc也是如此。为了方便起见，我们把子图的集合看作一个p p图与符号Gp，虽然它可以进一步分解成多个不相交的子图。这也是在我们的实施中。匹配段落与电影片段。对于图Gp，设V p是它的顶点集，|V P|= m = m c+m a，其中m c是字符节点的数量，m a是动作节点的数量。同样，我们有Gq，|V q|= n = n c+ n a.图匹配的目标是建立一个节点到节点分配的两个输入图，同时考虑成对的约束，即边缘，考虑。3https://cloud.google.com/natural-language/网站图修剪问题本身被称为NP-二次分配问题（QAP）解决香港问题可能是耗时的，特别是当图很大时，这通常是我们的视频图的情况。为了缓解这个问题，我们提出了一个图修剪策略，以减少图的大小到一个适当的，它可以在一个负担得起的时间内解决。该战略说明如下：种子节点生成。我们首先选择最重要的节点作为种子节点。他们是根据以下两个标准选择的：（一）问题可以近似解决by可以选择匹配的节点作为种子节点。 (b)的4597EFMCIMk个最相似的节点，其中来自查询图的每个节点将被选择作为种子节点。选择传播。在给定种子节点的情况下，我们通过考虑种子节点的J度连接内的节点来扩展节点选择我们把种子记为n-若用另一个指示向量v∈ {0，1}n×1表示图Gq的邻接矩阵A，则所选节点可表示为v <$AJv.通过使用选定的节点裁剪整个图来获得修剪图4.3. 联合优化。节点特征的质量对匹配结果有很大的为了使EFM和CIM中的模型更好地表达，有必要对模型的参数进行微调由于我们没有EFM中的Y或CIM中的u的地面实况对齐，因此我们不能以监督的方式直接更新模型参数因此，我们采用了EM的过程来微调的特征表示和优化匹配目标。整个框架的总体损失如下：L=L（Y，θefm，u，θcim）（12）其中θefm和θcim分别表示EFM和CIM中嵌入网络E步使用当前模型参数值θθ和θ，我们求解Eq.3、动态规划中提到的。4.1，我们在等式中获得次优值。7.应用KM算法。时间复杂度为O（n），时间复杂度为O（n）。min（n，m）≤τ≤max（n，m）。M步我们在M步中用E步中得到的最优解Y_n和u_n更新模型参数。特别地，给定Y和u，我们通过以下方式更新模型参数：5.1. 实验装置数据集。 MSA数据集被随机分为训练、验证和测试子集，分别具有3329、341和824个样本。注意，在子集之间不存在重叠电影。子集的统计数据见表1。有两种设置来测量性能，即跨电影和电影内。跨电影设置将整个测试集视为每个查询的候选池，而电影内设置仅将来自同一查询电影的片段作为候选。评估指标。为了评估性能，我们采用常用的指标：（1）Recall@K：已经排在前K的GT视频的分数;（2）MedR：GT视频的中位数排名。(3)Avg. MedR：平均MedR，这仅适用于电影内设置。实施详情。在EFM中，Word2Vec [22]嵌入被用作句子表示。Word2Vec模型在MSA语料库上进行了微调，摘要和副标题。快照功能由两部分组成：1）从ResNet-101的池5层提取的视觉特征[13]。2)其副标题在CIM中，我们采用在PIPA上预训练的ResNet- 50[40]来提取检测到的人物实例或演员肖像的视频中的动作特征来自在 AVA [12] 上预训练的 TSN [34] ，动作动词由Word2Vec嵌入表示我们使用学习率为0的S-GD来训练所有的嵌入网络。001。批量大小设置为16，成对排序损失中的边际α设置为0。二、5.2. 总体结果我们采用VSE作为基本模型，以前的方法JSF [37]也用于比较。同样为了比较，我们在基线方法中逐步加入了三种特征，即外观、演员和动作作为节点。其中，出现节点表示句子的嵌入∗EFM∗CIM= argminθefm，θcimL（Y），θ∗efm，u，θcim）或镜头特征。对于VSE，电影镜头和用两层MLP进一步变换句子我们= argminL（S）;θ（十三），θ ）θefm，θcimEFMCIM然后通过tak获取片段和段落的特征求镜头和句子特征的平均值期间其中L（S;θ）是保证金为α的成对排序损失如下所示Σ ΣL（S;θ）=max（0，S（Qj，Pi） −S（Qi，Pi）+α）我J IΣ Σ+max（0，S（Q，P）−S（Q，P）+α）（14）匹配时，使用余弦相似度计算段/段落相似度。我们使用相同的损失，如等式中所示。十四岁采用加权求和的方法对不同节点的匹配得分进行融合。权值是通过观察单个节点在值集上的性能来获得的。这里，对于跨电影设置，权重被简单地设置为0。三一0和0。1用于我j/=iiji i外观，演员和行动分别。对于影片内设置，权重为0。3，0。3和0。1.一、表3显示了MSA上视频检索的总体结果。5. 实验我们在MSA数据集上进行了电影摘要检索的实验。具体地说，从候选池中搜索电影片段，给出一个摘要段落作为查询。总体结果分析。根据表3所示的结果，通过比较不同的方法，我们观察到：(1) VSE和JSF的性能都大大优于随机猜测。JSF的性能不超过θ，θ4598表3.跨电影和电影内设置下MSA数据集上视频检索的整体性能在这里，大约。表示外观节点，cast表示角色节点，action表示动作节点。跨电影影片内方法节点R@1R@5R@10MedRR@1R@5R@7Avg. MedR1随机-0.120.611.21412.56.0728.8838.358.742JSF在大约3.5212.6220.025519.4256.0766.513.863VSE在大约4.4915.4124.5139.521.3660.0769.423.624VSE约+行动5.3415.7824.6442.521.8561.4169.663.475VSE约+动作+演员表19.0548.6760.92626.7065.9072.943.036我们的（EFM）在大约6.8020.1528.403627.6763.5971.972.927我们的（EFM）约+动作+演员表21.1248.6761.04630.5866.1473.422.708我们的（EFM+CIM）约+动作+演员表24.1553.2866.754.531.9267.9674.762.50表4.N的不同选择对CIM中更新分数的影响第一行是更新前的结果。R@1R@5R@10MedR前阶段21.1248.6761.046N = 1524.1553.2866.754.5N = 4023.9151.9463.715N = 6023.4251.4663.115N = 8023.4251.4662.865这是因为当段落中的概念复杂且视频长度变化很大时，JSF中学习的内核无法捕获段落和长视频之间的匹配模式。(2) 我们的方法与EFM和CIM优于传统的方法，只融合功能下跨电影和电影内设置。特别是，跨电影设置下的Recall@1从19提高。05%至24。百分之十五（5. 10%的绝对改善和27%的相对改善），在电影内设置下的回忆提高超过1。百分之五EFM与CIM分析同样如表3所示，第3、6行的结果表明，所提出的EFM改进了大多数指标的性能。我们可以从表中看到，EFM工作得更好，特别是在电影内设置（6。在召回@1上增加31%）。这是因为EFM中编码的故事和叙事结构是区分同一部电影片段的关键。同时，第7-8行的结果证明了使用角色交互图的有效性，特别是在跨电影设置下。但CIM并没有带来一致性-- 与EFM相比，在电影内设置下测试性能增益。原因是来自同一部电影的片段共享一组角色，并且它们的交互也相似。这也在第4-5行的右侧部分中示出。5.3. 消融研究我们提出了不同超参数的消融研究。除非另有说明，否则实验是在跨电影设置下进行的。CIM中N的选择如前所述，在推理阶段，我们需要通过求解最优问题来获得CIM中的得分，表5.比较了仅使用视觉特征和同时使用视觉特征和字幕特征作为镜头表示的性能输入节点为appr。R@1R@5R@10MedR仅可视4.2513.8419.6656目视检查+subtt.4.4915.4124.5139.5表6.不同图修剪参数的比较R@1R@5R@10MedRJ=123.3053.0366.145J=224.1553.2866.754.5J=324.0353.1666.635在Eq. 7 .第一次会议。解决一个匹配平均需要2秒。在跨电影设置下，我们需要解决这些问题8242次（测试样本数为824），加起来一个多星期。为了节省时间，我们只更新前一阶段排名前N的候选人的分数，例如，VSE与评分融合。表4显示了N的不同选择的影响。请注意，我们在第一行中取分数，以筛选出一个候选列表进行更新。我们可以看到，从N=15到N=40时，性能下降，但保持稳定，N从40增加到80。所有结果仍然优于第一行的基线。当N增加时，性能下降来自增加的离群值。因此，我们认为，减少N不仅可以提高推理效率，而且可以减少候选池中的干扰项数量。使用字幕功能的影响。回想一下，我们使用视觉和字幕功能作为镜头的表示，观察到有时叙述者倾向于在概要中总结重要的对话。我们对字幕功能的有效性进行了消融研究，如表5所示。实验仅基于外观结果表明，字幕对视觉信息具有互补性.图形修剪参数。为了提高推理效率，我们在CIM中进行了图修剪。我们设置k=2来选择种子，J=2来扩展选择（回忆第二节）。4.2）。由于k和J在控制剪枝图的大小上是互补的，所以我们只对不同的值进行研究4599视频图表第二天早上，索拉拉和克劳迪娅一起吃早餐。克劳迪娅·索拉拉概要图加PredGT……1.在接下来的高速追逐中，他们开错了方向......2.文森特最终射穿了迪尔德丽的一个轮胎。3.汽车在高速公路立交桥的尽头相撞并摔倒。4.在爆炸前不久，建筑工人把他们从车里拉出来（a）CIM的定性结果（b）EFM的定性结果CIM结果EFM结果（c）EFM和CIM的定性结果图5.EFM和CIM模块的定性结果（a）展示了CIM的成功案例;（b）展示了EFM的失败案例;（c）展示了EFM成功但CIM失败的示例。的J.结果示于表6中。证明了J=2对于图的剪枝是足够的，并且增加J可能引入更多的噪声。5.4. 定性结果我们提出了定性结果EFM和CIM模块，以进一步探讨其有效性。图5（a）显示了一个积极的结果，charac，句子中的词和动作是精确匹配的。正确的匹配是通过角色-角色和角色-动作的关系来实现的。图5（c）显示了EFM成功地将每个句子分配给相应的镜头，而CIM未能- s分配字符的情况。特别是，“Pentangeli”被分配给一个错误的人实例，而其他三个名字不匹配。原因是，由于昏暗的光线、遮挡或大的运动，来自电影片段的人物实例质量差，除了出现在片段末尾的那个之外图5（b）显示了EFM的一个失败案例，其中第二个句子完全未对齐。如图的上半部分所示，这是可能的，因为第三句话之前的镜头我们还观察到，这种情况是具有挑战性的，因为镜头看起来彼此相似，由于没有过渡的场景。从以上对更多此类案例的观察和分析中，我们得出以下经验结论：（1）边约束对于路线是重要的。（2）该人的资格─节点的重要性。如果节点质量较差，则边约束将不起作用。(3)判别式镜头应用程序，连同我们提出的EFM，是有助于时间对齐。6. 结论在本文中，我们提出了一个新的框架之间的匹配电影片段和大纲段落。所提出的框架集成了一个事件流模块来捕捉电影的叙事结构和一个角色交互模块来使用基于图形的公式化来建模角色交互为了方便电影-剧情匹配的研究，我们构造了一个叫做电影剧情关联的数据集.实验结果表明了所提模块的有效性。我们的框架优于传统的基于特征的方法，并提高了匹配精度一致的所有指标。定量和定性的研究表明，我们的方法可以捕捉到丰富的时间结构和字符之间的各种互动7. 确认这项工作部分得到商汤科技集团的合作研究资助（香港中文大学协议编号：TS1610626No.TS1712093）及香港政府一般研究基金（&第14236516&第14203518号）。小姐小姐小姐X当潘坦杰利在当地的一家酒吧遇到罗萨托斯时，他遭到袭击，但谋杀被一名警察打断。潘坦杰利是左死亡，和他的威利奇奇，是由一辆汽车击中，而在罗萨托斯射击，因为他们开车离开。4600引用[1] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化。在IEEE计算机视觉国际会议论文集，第5803-5812页[2] Alexander C Berg，Tamara L Berg，and Jitendra Malik.使用低失真对应的形状匹配和对象识别。IEEE，2005年。[3] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition中，第961-970页[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页[5] 陈凯，王佳琪，庞江苗，曹宇航，于晓雄，李晓晓，孙树阳，冯万森，刘紫薇，徐佳瑞，等。检测：打开mmlab 检测工具箱和基准。 arXiv 预印本 arXiv ：1906.07155，2019。[6] 董建峰，李喜荣，徐朝喜，季寿玲，王勋.用于零示例视频检索的双重密集编码。 arXiv 预印本 arXiv ：1809.06181，2018。[7] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：用硬否定词改进视觉语义嵌入。arXiv预印本arXiv：1707.05612，2017。[8] 珍妮·罗斯·芬克尔，特隆·格林纳格，克里斯托弗·曼宁.利用gibbs抽样法将非局部信息转化为信息抽取系统。第43届计算语言学协会年会论文集，第363计算语言学协会，2005年。[9] Andrea Frome ， Greg S Corrado ， Jon Shlens ， SamyBengio，Jeff Dean，Tomas Mikolov，et al. Devise：一个深度视觉语义嵌入模型。神经信息处理系统，第2121-2129页，2013年[10] Chuang Gan ， Naiyan Wang ， Yi Yang ， Dit-YanYeung，and Alex G Hauptmann. Devnet：一个用于多媒体事件检测和证据重新描述的深度事件网络。在IEEE计算机视觉和模式识别会议的Proceedings，第2568-2577页[11] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[12] Chunhui Gu ， Chen Sun ， David A Ross ， CarlVondrick，Caroline Pantofaru，Yeqing Li，SudheendraVijayanarasimhan ， George Toderici ， Susanna Ricco ，Rahul Sukthankar，et al. Ava：时空局部原子视觉动作的视频数据集。在IEEE计算机视觉和模式识别会议论文集，第6047- 6056页[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] 黄庆秋，刘文涛，林大华。通过视觉和时间链接在具有一个肖像的视频在欧洲计算机视觉会议（ECCV）的会议记录中，第425-441页[15] 黄清秋，熊宇，林大华。统一身份识别和上下文学习的人识别。在IEEE计算机视觉和模式识别会议上，2018年6月。[16] 黄青秋，熊元军，熊宇，张玉琪，林大华。从预告片到故事情节：从电影中学习的有效方法。arXiv预印本arXiv：1806.05341，2018。[17] Justin Johnson，Ranjay Krishna，Michael Stark，Li-JiaLi，David Shamma，Michael Bernstein，and Li Fei-Fei.使用场景图进行图像检索在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3668[18] Giorgos Kordopatis-Zilos 、 Symeon Papadopoulos 、Ioannis Patras和Yiannis Kompatsiaris。使用深度度量学习进行近乎重复的视频检索在IEEE计算机视觉国际会议论文集，第347- 356页[19] Ranjay Krishna、Kenji Hata、Frederic Ren、Li Fei-Fei和Juan Carlos Niebles。视频中的密集字幕事件。在IEEE计算机视觉国际会议论文集，第706-715页[20] 哈罗德·W库恩指派问题的匈牙

下载后可阅读完整内容，剩余1页未读，立即下载