电影场景分割方法及其应用

25 浏览量更新于2023-10-25 收藏 1.92MB PDF 举报

场景识别

时间结构

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1先前场景激发1激发2激发3一种局部到全局的多模态电影场景分割方法饶安义1，徐林宁2，熊宇1，徐国栋1，黄庆秋1，周波磊1，林大华11香港中文大学-商汤科技联合实验室2香港中文大学深圳分校{anyirao，xy017，xg018，hq016，bzhou，dhlin}@ ie.cuhk.edu.hk，linningxu@link.cuhk.edu.cn摘要场景是电影叙事的重要单元，它包含了演员在物理环境中的复杂活动和互动识别场景的组成是电影语义理解的关键一步。这是非常具有挑战性的射击A射击B（一）镜头C镜头D研究传统的视觉问题，例如，动作识别镜头4镜头5（b）第（1）款镜头6下一个场景因为电影中的场景通常包含更丰富的时间结构和更复杂的语义信息。为了实现这一目标，我们通过构建一个大规模的视频数据集MovieScenes来扩展场景分割任务，该数据集包含来自150部电影的21K注释场景片段。我们进一步提出了一个局部到全局的场景分割框架，它在三个层次上集成了多模态信息，即：剪辑、片段和影片。该框架能够从一部长电影的层次时间结构中提取复杂的语义，为场景分割提供自顶向下的指导。我们的实验表明，所提出的网络是能够分割成电影场景的高精度，始终优于以往的方法。我们还发现，在MovieScenes上进行预训练可以显著改善现有方法。 11. 介绍想象一下，你正在看汤姆·克鲁斯主演的电影《不可能的任务》：在一个打斗场景中，伊森跳上直升机的起落架，在挡风玻璃上粘上一个爆炸口香糖来消灭敌人。突然，故事跳到一个情感的场景，伊森扣动扳机，牺牲自己的生命，以挽救他的妻子朱莉娅。这样戏剧性的场景变化在电影的故事情节中起着重要的作用。一般来说，一部电影是由一系列精心设计的有趣的场景组成的，这些场景带有过渡，其中潜在的故事情节决定了1数据集将根据法规发布。中间功能，预训练模型和相关代码将被释放. https://anyirao.com/projects/SceneSeg.html图1.当我们看图（a）中的任何一个镜头时，在镜头B中的女人，我们无法推断当前的事件是什么。只有当我们考虑到这个场景中的所有镜头1-6，如图（b）所示，我们才能认出“这个女人正在邀请一对呈现的场景的顺序。因此，识别电影场景，包括场景边界的检测和场景内容的理解，有助于广泛的电影理解任务，例如场景分类，跨电影场景检索，人类交互图和以人为中心的故事情节构建。值得注意的是，场景和镜头有本质的不同。通常，镜头由在不间断的时间段内操作的相机捕获，因此是视觉上连续的;而场景是更高级别的语义单元如图1所示，场景包括一系列镜头以呈现故事的语义连贯部分。因此，尽管可以使用现有工具基于简单的视觉线索容易地将电影划分为镜头[23]，但是识别构成场景的镜头的那些子序列的任务是具有挑战性的，因为它需要语义理解以便发现语义上一致但视觉上不相似的那些镜头之间的关联。关于视频理解的研究已经有很多。尽管在这一领域取得了很大进展，但大多数现有的工作都集中在从短视频中识别某些活动的类别[28，6，14]。更重要的是，这些作品假定了一系列预先定义的类别，这些类别在视觉上是可区分的。然而，对于电影场景分割，不可能有这样的类别列表。广告1014610147此外，镜头是根据它们的语义连贯性而不仅仅是视觉线索来分组的。因此，需要为此目的开发新的方法。为了将视觉上不同的镜头联系起来，我们需要语义理解。这里的关键问题是“没有类别标签，我们如何学习语义？” 我们解决这个问题的想法包括三个方面：1）我们专注于场景边界，而不是试图对内容进行分类。我们可以以有监督的方式学习构成场景之间边界的内容2)我们利用包含在多个语义元素中的线索，包括地点、演员、动作和音频，来识别镜头之间的关联。通过整合这些方面，我们可以超越视觉观察，更有效地建立语义联系。3)我们还探索了从电影的整体理解，这带来了进一步的性能增益自上而下的指导。基于这些想法，我们开发了一个局部到全局的框架，通过三个阶段执行场景分割：1）从多个方面提取镜头表示，2）基于综合信息进行局部预测，以及最后3）通过求解全局优化问题来优化镜头的分组。为了方便这项研究，我们构建了一个大规模的数据集MovieScenes它包含超过21K的场景，其中包含来自150部电影的超过270K的镜头。实验结果表明，该方法的性能提高了68%（从28。1到47平均精度）优于现有的最佳方法[1]。在我们的数据集上预训练的现有方法在性能上也有很大的提高。2. 相关工作场景边界检测与分割。最早的作品利用了各种无监督的方法。[22]根据镜头颜色相似性对镜头进行聚类。在文献[17]中，作者从低层次视觉特征绘制镜头响应曲线[4，3]使用具有快速全局k均值算法的谱聚类进一步分组拍摄。[10，24]通过优化预定义的优化目标，用动态编程预测场景边界。研究人员还求助于其他模态信息，e.G. [13]利用带有HMM的脚本，[23]使用低级视觉和音频特征来构建场景转换图。这些无监督方法不灵活，并且严重依赖于手动设置不同视频的参数。研究人员转向监督方法，并开始建立新的数据集。IBM OVSD[21]包括21个场景粗糙的短视频，可能包含不止一个情节。 BBC Planet Earth （英语： BBCPlanet Earth ） [1] 来自 11 集 BBC 纪录片。 [15] 从Places205生成合成数据[31]。然而，这些数据集中的视频缺乏丰富的情节或故事情节，从而限制了它们的真实性。世界应用测试视频的数量是如此之少，不能反映考虑到各种各样的场景的方法的有效性。此外，他们的方法以镜头为分析单元，在局部区域内递归地实现场景分割。由于它们缺乏对场景内部语义的考虑，因此很难学习高级语义并达到理想的结果。图像和短视频中的场景理解。基于图像的场景分析[31，29，9]可以推断出一些关于场景的基本知识，例如。这幅图中包含的内容。然而，很难从单个静态图像中分辨出动作，因为它缺乏周围的上下文信息。动态场景理解进一步研究了秒长的短视频[6，14]。然而，与长视频相比，所有这些长视频场景理解。在长视频中，关注场景的数据集很少。大多数可用的长视频数据集专注于识别电影或电视剧中的演员[2，12，16]以及对动作进行本地化和分类[8]。MovieGraphs[26]专注于电影中的各个场景之间的一些过渡部分被丢弃，使得信息不完整。为了实现更一般的场景分析，可以扩展到长时间的视频，我们用我们的大规模MovieScenes数据集解决电影中的场景分割。我们提出了一个框架，既考虑了局部镜头之间的关系，又考虑了全局场景之间的关系，使用多个语义元素，取得了更好的分割效果。3. 电影场景数据集为了便于电影中的场景理解，我们构建了MovieScenes，这是一个大规模的场景分割数据集，包含来自150部电影的270K镜头的21K场景。该数据集为研究场景中的复杂语义提供了基础，并有助于基于场景顶部的情节的长视频理解。3.1. 场景定义根据先前对场景的定义[17，4，10，24]，场景是一个基于情节的语义单元，其中某个活动发生在某组角色之间。虽然一个场景往往发生在一个固定的地方，它也可能是-场景连续地在多个位置之间遍历是可能的，例如，在电影中的打斗场景中，角色从室内移动到室外。这些复杂的场景纠缠给需要高层次语义信息的场景10148场景12第10幕第11共88个场景图2.电影Bruce Almight（2003）中的注释场景示例。底部的蓝线对应于整个电影时间轴，其中深蓝色和浅蓝色区域代表不同的场景。在场景10中，角色在两个不同的地方打电话，因此需要对这个场景进行语义理解，以防止将它们归类为不同的场景。在场景11中，任务变得更加困难，因为这个直播场景涉及三个以上的地点和角色组。在这种情况下，只有视觉提示可能会失败，因此包括其他方面，如音频提示变得至关重要。表1.MovieScenes的数据一致性统计。我们将所有注释分为三类：高/低一致性情况和不确定的情况下，根据注释器的一致性。不确定的情况在我们的实验中被丢弃补充材料中详细说明了更多细节组成。高低不确定过境。16 392人（76.5%）5 036人（23.5%）-非变性人225 836人（92.6%）18 048人（7.4%）-总242 052人（89.5%）23 260人（8.6%）5 138人（1.9%）表2. 的比较现有的场景数据集。唯一地分类成一个场景。因此，场景边界必须是所有镜头边界的子集。对于每部电影，我们首先使用现成的方法将其划分为镜头[23]。这种基于镜头的方法大大简化了场景分割任务，并加快了注释过程。我们还开发了一个基于网络的注释工具3，以方便注释。所有的注释者都经历了两轮注释过程，以确保高度的一致性。在第一轮中，我们将每个电影块分派给三个独立的注释器，以便稍后进行一致性检查。在第二轮，不一致的anno-注射次数#场景#视频时间（h）源将重新分配给另外两个注释器，OVSD [21]10,0003002110迷你电影额外的评估。英国广播公司[1]4,900670119医生电影场景270,45021,428150297电影3.3.注释统计mation图2展示了MovieScenes中带注释的场景的一些示例，演示了这种困难。电影场景的多样性使注释者很难相互遵守为了确保不同注释结果的一致性，在注释过程中，我们提供了一个模糊示例列表，此外，所有数据都由不同的注释者独立地进行多次注释。最后，我们的多次注释与提供的指导导致高度一致的结果，即。89岁。高一致性病例占总数的5%，见表1。3.2. 注释工具和程序我们的数据集包含150部电影，如果注释器一帧一帧地遍历电影，那么工作量将非常大。我们采用基于镜头的方法，基于镜头2总是可以大规模的。表2将MovieScenes与现有的类似视频场景数据集进行了比较。我们发现，MovieScenes在镜头/场景数量和总持续时间方面明显大于其他数据集。此外，与短片或纪录片相比，我们的数据集涵盖了更广泛的不同数据来源，捕捉了各种场景。多样性我们数据集中的大多数电影的持续时间在90到120分钟之间，提供了关于单个电影故事的丰富信息。涵盖了广泛的类型，包括最流行的类型，如戏剧，惊悚片，动作片，使我们的数据集更加全面和通用。注释场景的长度从小于10s到大于120s不等，其中大多数持续10~30s。这种存在于电影层面和场景层面的巨大可变性使得电影场景分割任务更具挑战性。4[2]镜头是从同一台摄像机记录下来的连续的帧序列。3UI演示图见补充资料。4更多的统计结果在附录中详细说明。101494. 局部到全局场景分割如上所述，场景是一系列连续的镜头。因此，场景分割可以用二元分类问题来表示，即。以确定镜头边界是否是场景边界。然而，这项任务并不容易，因为分割场景需要识别多个语义方面和使用复杂的时间信息。为了解决这个问题，我们提出了一个局部到全局场景分割框架（LGSS）。总公式如公式1所示。有n个镜头的电影表示为镜头序列[s1，···，sn]，其中每个镜头用多个语义方面表示。我们-对三级模型进行签名，以合并不同级别上下文信息，片段级（B）、片段级（T）和电影级（G）。我们的模型给出了一系列预测[o1，···，on−1]，4.2. 片段级别的镜头边界表示正如我们前面提到的，场景分割可以用镜头边界上的二进制分类问题来表示。因此，如何表示镜头边界成为一个关键问题。在这里，我们提出了一个边界网络（BNet）模型的镜头边界。如等式中所示在第2阶段，表示为B的BNet将具有2wb个镜头的电影剪辑作为输入，并输出边界表示bi。出于直觉，一个边界代表-BNet应该同时捕捉前后镜头之间的差异和联系，BNet由两个分支组成，即Bd和Br。B-D模型由两个时域卷积层组成，每个层分别嵌入边界前后的炮点，然后进行内积运算计算它们的差值。BR的目的是捕捉镜头的关系，它是由一个时间卷积层，然后最大池化实现的。其中，oi∈ {0，1}表示第i个和第（i+1）个镜头是场景边界。bi=B（[sΣi−（wb−1），···，si+wb]）（窗口尺寸2wb）=Bd（[si−（wb−1），···，si]，[s一期+1，···，sΣi+ wb]）G{T[B（[s1，s2，···，sn]）]}=[o1，o2，···，on−1]（1）在本节的以下部分中，我们将首先介绍如何获得si，即如何用Br（[si−（wb−1），···，si，si+1，···，si+wb]）4.3. 段级粗预测（二）多个语义元素。然后，我们将详细说明我们的模型的三个层次，即. B、T和G。总体框架如图3所示。4.1. 具有语义元素的镜头表示电影是一种典型的多模态数据，包含不同的高层语义元素。通过神经网络从镜头中提取的全局特征，这在以前的工作中被广泛使用[1，24]，不足以捕获复杂的语义信息。一个场景是一系列镜头共享一些共同的元素，例如.地点、演员等。因此，重要的是要考虑这些相关的语义元素，以更好地表示镜头。在我们的LGSS框架中，镜头由四个元素表示，这四个元素在场景的构成中扮演重要角色，即地点，演员阵容，动作和音频。为了获得每个镜头si的语义特征，我们利用1)ResNet 50 [11]在关键帧图像的Places数据集[31]上进行预训练，以获得位置特征，2）Faster-RCNN [19]在我们得到每个镜头边界的代表之后，bi，则问题变成基于表示序列[b1，···，bn−1]来预测序列二进制标签[o1，o2，···，on−1]，这可以通过序列到序列模型[7]来解决然而，拍摄次数n通常大于1000，这对于现有的顺序模型来说很难包含如此长的内存。因此，我们设计了一个片段级模型来预测一个粗略的结果的基础上的电影片段，由wt镜头（wtn）。具体来说，我们使用一个序列模型T，例如。一Bi-LSTM [7] ，步长为 wt/2 次，以预测粗略分数[p1 ， · · · ， pn−1] 的序列，如等式 3 所示。这里pi∈[0，1]是镜头边界成为场景边界的概率。[p1，···，pn−1]=T（[b1，···，bn−1]）（3）然后，我们得到i∈{0，1}的粗略预测，其指示第i个镜头边界是否是场景边界。通过用阈值τ二值化pi，我们得到.在CIM数据集[12]上预训练以检测造型实例，在PIPA数据集[30]上预训练ResNet50以提取造型我=1如果pi>τ，0否则。（四）特征，3）TSN [27]在AVA数据集[8]上预训练以获得动作特征，4）NaverNet [5]在AVA- ActiveSpeaker数据集[20]上预训练以分离语音和背景声音，以及stft [25]以16 K Hz采样率和512窗口信号长度分别获得它们的特征，并将它们连接以获得音频特征。4.4. 电影级全局最优分组由分段水平模型T得到的分段结果oi不够好，因为它只考虑了wt个镜头上的局部信息，而忽略了全局信息。整个电影的背景信息为了10150图3.局部到全局场景分割框架（LGSS）。在剪辑层，我们为每个镜头提取四个编码，并采用BNet来建模镜头边界。局部序列模型输出片段级的粗略场景剪切结果最后，在电影级，全局最优分组应用于细化场景分割结果。捕获全局结构，我们开发了一个全局最优模型G，以考虑电影级上下文。它将镜头表示si和粗略预测oi作为输入，并将最终决策oi如下所示，[o1，···，on−1]=G（[s1，···，sn]，[o<$1，···，o<$n−1]）（5）将全局最优模型G表示为一个优化问题。在介绍它之前，场景φk。给出了一个超炮Cl∈φk与其余超炮Pk之间的关系，l=φk\Cl. g（φk）构成了描述全局关系和局部关系的两个项，Fs（Ck，Pk）是Ck和Pk之间的相似性得分，Ft（Ck，Pk）是一个指示函数，用来表示Ck和Pk中的任何超级镜头之间是否存在很高的相似性，从而形成场景中的镜头线索具体地说，首先介绍了超镜头和目标函数的概念局部分割给出了一个初始的粗场景割集C={Ck}，这里我们把Ck记为一个超级镜头，即一g（φk）=ΣCk∈φkf（Ck，Pk）=ΣCk∈φk（Fs（Ck，Pk）+Ft（Ck，Pk）），由分段水平结果[o<$1，···，o<$n−1]确定的连续激发序列。我们的目标是把这些1Fs（Ck，Pk）=Σcos（Ck，Ck），到j个场景中的超级镜头Φ（n=j）={φ1，. -是的-是的，φj}，SJ|Pk|Ck∈Pk其中C=+k=1φk，|φk|≥ 1。因为j不是F（C，P）= σ（max cos（C，C））。为了自动决定目标场景编号j，我们需要查看所有可能的场景切换，即， F = maxj，j<|C|F（n = j）。对于固定的j，我们要找到操作-不K KK KCk∈Pk最小场景割集Φn（n=j）。整体优化问题如下，F=maxF（n=j）（6）JDP. 动态规划（DP）可以有效地解决优化问题和确定目标场景数。 F（n = j）的更新为=maxmaxΣg（φk），10151max{F<$（n=j−1|C1：k）+g（φj={Ck+1，. -是的-是的得双曲余切值.|C|}）}，KjΦφk∈ΦS.T. J<|C|、|Φ|=j。这里，g（φk）是通过以下方式实现的最佳场景剪切分数：其中C1：k是包含前k个超级快照的集合。迭代优化上面的DP可以给我们一个场景剪切的结果，但我们可以进一步把这个结果作为一个新的10152并迭代合并它们以改善最终结果。当超级快照更新时，我们也需要更新这些超级快照表示.对所有包含的镜头进行简单求和可能不是超级镜头的理想表示，因为有些镜头包含的信息较少。因此，如果我们在最佳分组中细化超级镜头的表示，则会更好。补充资料中提供了对超级镜头表示进行改进的详细信息5. 实验5.1. 实验装置数据我们用MovieScenes数据集实现了所有的基线方法。整个注释集在视频级别上以10：2：3的比例分为训练集、验证集和测试集实作详细数据。我们采取交叉熵损失的二进制分类。Since there exists unbalance in the dataset, i.e.非场景转换镜头边界在数量上占优势（约9：1），对非场景转换镜头边界和场景转换镜头边界的交叉熵损失分别取1：9的权重。我们使用Adam优化器对这些模型进行了30个epoch的训练。初始学习率为0.01，在第15个时期，学习率将在全局最优分组中，我们根据这些镜头边界获得的分类得分从局部分割中取出j=600个超镜头（电影通常包含1k〜2k个镜头边界）。目标范围场景是从50到400，即i∈[50，400]。这些值基于MovieScenes统计信息进行估计。评估指标。我们采用三种常用的测量方法：1）平均精度（AP）。具体来说，在我们的实验中，它是每个电影的AP的平均值。2)Miou：检测到的场景边界的并集的交集相对于其到最近的地面实况场景边界的距离的加权和3）Recall@3s：在3秒时的召回，位于预测边界的3s内的注释场景边界的百分比5.2. 定量结果总体结果如表3所示。我们复制了现有的方法[18，4，10，21，24，1]，具有较深的地方特征，以进行公平的比较。基本模型对具有地点特征的镜头应用时间卷积，并且我们逐渐向其添加以下四个模块，即，1)多语义元素（Multi-Semantics），2）剪辑级别的镜头边界表示（BNet），3）利用局部序列模型的片段级别的粗略预测（Local Seq），以及4)电影级全局最优分组（Global）。分析总体结果。随机方法的性能取决于场景转换/非场景转换的比例。测试集中的过渡镜头边界，约为1：9。所有传统的方法[18，4，10，21]都优于随机猜测，但由于它们只考虑局部上下文信息而无法捕获语义信息，因此没有实现良好的性能。[24，1]通过考虑大范围信息，实现了比传统方法[18，4，10，21]更好的结果分析我们的框架。我们的基础模型应用时间卷积的镜头与地点功能，并达到19。5在AP在多个SEMAN的帮助下， tic元素，我们的方法从19。5（基础）至二十四岁3 (Multi-Semantics) (24. 6%）。框架-使用BNet进行镜头边界建模将性能从24. 3（多语义）到42。2（多语义+BNet）（73. 7%），这表明在场景分割任务中，直接建模镜头边界是有用的。局部序列模型（多语义+BNet+局部序列）实现了2. 7绝对和6。4%的相对改进比模型（多语义+BNet）从42。2到449 .第九条。完整的模型包括局部序列模型和全局最优分组（多语义+BNet+局部序列+全局），进一步改进了44。9到471，这表明电影级优化对场景分割是重要的。总之，在多语义元素、片段级镜头建模、片段级局部序列模型和电影级全局最优分组的帮助下，我们的最佳模型比基本模型和以前的最佳模型[1]有很大的改进，提高了27. 相对于基础模型（Base）提高了19. 对暹罗猫的绝对阳性率为0，相对阳性率为68%。这些都验证了这种从地方到全球的框架的有效性。5.3. 消融研究多个语义元素。以镜头边界建模BNet、局部序列模型和全局最优分组的流水线为基础模型。如表4所示，逐渐添加中间层语义元素可以改善最终结果。从模型开始只使用位置，音频提高4. 4、行动改善6. 5，铸造改进4. 0，提高8。1、大家一起。这一结果表明，地点，演员，动作和音频都是有用的信息，以帮助场景分割。此外，在我们的多语义元素的帮助下，其他方法[21，24，1]实现了20%至30%的相对改进。这一结果进一步证明了多语义元素对场景分割的贡献。时间长度的影响。在剪辑级镜头边界建模（BNet）中，我们选择不同的窗口大小，在片段级Bi-LSTM中，我们选择不同的序列长度10153表3.场景分割结果。在我们的流水线中，Multi-Semantics表示多个语义元素，BNet表示镜头边界建模边界网，Local Seq表示局部序列模型，Global表示全局最优分组。方法AP（↑）Miou（↑）召回（↑）召回@3s（↑）随机猜测8.226.849.854.2Rasheed等人，GraphCut [18]14.129.753.757.2Chasanis等，SCSA [4]14.730.554.958.0Han等人，DP [10]15.532.055.658.4Rotman等人，分组[21]17.633.156.658.7Tapaswi等人，[24]第二十四话25.135.758.459.7Baraldi等，暹罗[1]28.136.060.161.2LGSS（基础）19.534.057.158.9LGSS（多语义）24.334.857.659.4LGSS（多语义+BNet）42.244.767.578.1LGSS（多语义+BNet+本地序列）44.946.571.477.5LGSS（所有，多语义+BNet+本地Seq+全局）47.148.873.679.8人类上限81.091.094.199.5表4.多语义元素场景分割消融结果，其中研究了四个元素，包括地点，演员，动作和音频。表5.在剪辑和片段水平上比较不同的时间窗口大小垂直线在剪辑级镜头边界建模（BNet）的窗口大小上不同，水平线在片段级序列模型（seq.）的长度上不同。分组[21]C17.6[24]第二十四话C25.1暹罗[1]C28.1444.945.245.747.146.9644.745.045.846.746.6最优分组和初始超炮数的不同选择。（本地序列）。结果示于表5中。实验结果表明，较长的信息范围提高了性能。有趣的是，最好的结果来自于4个镜头的镜头边界建模和10个镜头边界作为局部序列模型的输入，其总共涉及14个镜头信息。这大约是一个场景的长度。这表明，这一范围的时间信息是有助于场景分割。全局最优分组中超参数的选择我们将优化的迭代次数（Iter #）和初始超级激发数（Init #），并在表6中显示结果。我们首先查看每一行并更改初始超级快照数。初始编号为600的设置效果最好，因为它接近目标场景编号50-400，同时保证了足够大的搜索空间。然后，当我们查看每一列时，我们观察到初始值为400的设置以最快的方式收敛。它在2次迭代后很快就达到了最佳效果所有的设置都在5次迭代内覆盖方法地方铸造法AUDAP（↑）的lgsC17.5的lgsC32.1的lgsC15.9的lgsC39.0的lgsCC43.4的lgsCC45.5的lgsCC43.0BNet\ seq1 2 5 10 20245.4 46.346.5分组[21]CCCC23.8[24]第二十四话CCCC33.2暹罗[1]CCCC34.1表6. 比较不同的超参数的lgsCCCC47.1Iter #\Init #4006008001000246.546.345.945.1446.546.946.445.9546.547.146.646.0收敛值46.547.146.646.010154[21]第一届中国国际汽车工业展览会DP [10]泰国人[1] 65.6 62.3LGSS76.2DP-预先训练的[10] 62.9 58.7暹罗语[1] 76.8 71.4LGSS-预培训图4.多语义元素解释，其中每个语义元素的相似性范数由相应的条长度表示。这四个影片片段说明了不同的元素如何对场景的预测做出贡献。图5.两种情况下全局最优分组的定性结果。在每种情况下，第一行和第二行分别是全局最优分组之前和之后的结果。两个镜头之间的红线表示有一个场景被剪切。每个案例的基本事实是这些镜头属于同一个场景。5.4. 定性结果定性结果显示我们的多模态方法的有效性如图4所示，全局最优分组的定性结果如图5所示。5多个语义元素。为了量化多个语义元素的重要性，我们对每个模态取余弦相似度的范数。图4（a）示出了一个例子，其中演员在连续镜头中非常相似，并且有助于形成场景。在图4（b）中，人物和他们的动作很难识别：第一个镜头是人物非常小的长镜头，最后一个镜头只显示了人物的一部分在这些情况下，由于这些镜头之间共享的类似音频特征，场景被识别。图4（c）是典型的在图4（d）中，只有地点是相似的，我们仍然将其视为一个场景。从以上对更多此类案例的观察和分析中，我们得出以下经验结论：多模态信息相互补充，有助于场景分割。表7.现有数据集上的场景分割跨数据集传输结果（AP）最佳分组。我们展示了两个案例来证明最优分组的有效性。图5中有两个场景。在没有全局最优分组的情况下，具有突然视点改变的场景可能预测场景过渡（图中的红线），例如，在第一种情况下，当镜头类型从全镜头改变为近镜头时，粗略预测得到两个场景切换。在第二种情况下，当极端特写镜头出现时，粗略预测得到场景剪切。我们的全局最优分组能够平滑这些冗余的场景削减，正如我们所期望的。5.5. 跨数据集传输我们在现有数据集OVSD [1]和BBC [21]上测试了不同的方法DP [10]和Siamese [1]，并在MovieScenes数据集上进行了预训练，结果如表7所示。通过对我们的数据集进行预训练，取得显著的改善，即绝对值为10AP相对改善15%。原因是我们的数据集覆盖了更多的场景，并带来了更好的生成器-对模型进行预训练。6. 结论在这项工作中，我们收集了一个大规模的注释集的场景分割150部电影，包含270Kannotations。我们提出了一个局部到全局的场景分割框架，以涵盖层次的时间和语义信息。实验结果表明，该框架是非常有效的，其性能远优于现有方法.一个成功的场景分割能够支持大量的电影理解应用。6.本文的所有研究表明，场景分析是一个具有挑战性但有意义的课题，值得进一步研究。鸣谢本研究获香港优才研究基金（第2003号）部分资助。 14203518&No.14205719 ）和 SenseTimeCollaborativeGrantonLarge-scaleMulti-modalityAnalysis。5更多结果见补充材料。6更多细节见补充材料。10155引用[1] Lorenzo Baraldi Costantino Grana和Rita Cucchiara一种用于广播视频场景检测的深度连体网络。第23届ACM多媒体国际会议，第1199-1202页。ACM，2015. 二三四六七八[2] Piotr Bojanowski ， Francis Bach ， Ivan Laptev ， JeanPonce，Cordelia Schmid，and Josef Sivic.寻找电影中的演员和行动。IEEE International Conference on ComputerVision，第2280-2287页，2013年。2[3] 布兰登·卡斯特拉诺Pyscenedetect：智能场景切割检测和视频分割工具。pyscenedetect.readthedocs.io/en/latest/，2018.2[4] Vasileios T Chasanis，Aristidis C Likas，and Nikolaos PGalatsanos.使用镜头聚类和序列对齐的视频场景检测。IEEE transactions on multimedia，11（1）：89-100，2008。二六七[5] 郑俊善 Naver在activitynet挑战赛2019-任务B主动扬声器检测（ ava ）。 arXiv 预印本 arXiv ： 1906.10555 ，2019。4[6] Bernard Ghanem Fabian Caba Heilbron、Victor Escorcia和Juan Carlos Niebles。Activitynet：用于人类活动理解的大规模视频法律程序中IEEE Conference onComputer Vision and Pattern Recognition ，第 961-970页，2015。一、二[7] Al e xGr av es和J ür genSchmidhube r. 用双向lstm和其他神经网络结构进行帧式音素神经网络，18（5-6）：602-610，2005。4[8] Chunhui Gu ， Chen Sun ， David A Ross ， CarlVondrick，Caroline Pantofaru，Yeqing Li，SudheendraVijayanarasimhan ， George Toderici ， Susanna Ricco ，Rahul Sukthankar，et al. Ava：时空局部原子视觉动作的视频数据集。In Proceedings of the IEEE Conference计算机视觉和模式识别，第6047- 6056页，2018年。二、四[9] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv：1505.04474，2015。2[10] 柏涵和吴卫国。利用一种新的边界评价准则和动态规划进行视频场景分割. 2011年IEEE多媒体与博览会国际会议，第1-6页IEEE，2011年。二、六、七、八[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。4[12] 黄清秋，熊宇，林大华。统一身份识别和上下文学习的人识别。在IEEE计算机视觉和模式识别会议上，第2217-2225页，2018年。二、四[13] 梁超，张一凡，程健，徐长生，卢汉青。一种新的基于角色的电影场景分割方法。在Pacific-Rim Conference onMultimedia，第917-922页。Springer，2009. 2[14] Mathew Monfort，Alex Andonian，Bolei Zhou，KandanRa- makrishnan ， Sarah Adel Bargal ， Yan Yan ， LisaBrown，Quanfu Fan，Dan Gutfreund，Carl Vondrick，et al.时刻10156在时间数据集中：100万个视频用于事件理解。IEEE Transactions on pattern analysis and machineintelligence，2019。一、二[15] StanislavProtasov ， AdilMehmoodKhan ，Konstantin Sozykin，and Muhammad Ahmad.使用深度特征进行视频场景检测和注释。信号，图像和视频处理，第1-9页，2018年。2[16] 维涅什·拉马纳坦，阿曼德·朱林，珀西·梁，李飞飞。使用共指消解将视频中的人物与“他们的”名字联系起来欧洲计算机视觉会议，第 95-110 页Springer，2014. 2[17] Zeeshan Rasheed和Mubarak Shah好莱坞电影和电视节目中的场景检测2003年IEEE计算机协会计算机视觉和模式识别会议，2003年。诉讼，第2卷，第II-343页。IEEE，2003年。2[18] Zeeshan Rasheed和Mubarak Shah视频中场景的检测和表示。IEEE多媒体学报，7（6）：1097-1105，2005。六、七[19] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。In C.Cortes，N. D. Lawrence，D. D.李，M。Sugiyama和R.Garnett ，编辑， Advances in Neural InformationProcessing Systems 28，第91Curran Associates，Inc.2015. 4[20] Joseph Roth，Sourish Chaudhuri，Ondrej Klejch，Rad- hika Marvin，Andrew Gallagher，Liat Kaver，Sharadh Ramaswamy ， Arkadiusz Stopczynski ，Cordelia Schmid ， Zhonghua Xi ， et al. Ava-activespeaker：一种用于主动说话人检测的视听数据集。arXiv预印本arXiv：1901.01342，2019。4[21] 丹尼尔·罗特曼，多罗·波拉特，加尔·阿舒尔。使用多模态的鲁棒视频场景检测的最佳顺序分组。International Journal of Semantic Computing ， 11（02）：193-208，2017. 二三六七八[22] Yong Rui，Thomas S Huang，and Sharad Mehrotra.探索镜头之外的视频结构。在诉讼中。 IEEEInternational Conference on Multimedia Computingand Systems（IEEE多媒体计算与系统国际会议）No. 98 TB 100241），第237-240页。IEEE，1998年。2[23] Panagiotis Sidiropoulos，Vasileios Mezaris，IoannisKompat-siaris，Hugo Meinedo，Miguel Bugalho，and Isabel Trancoso.使用高级视听特征对场景进行时间视频分割。IEEE Transactions on Circuits andSystems for Video Technology ， 21 （ 8 ）： 1163-1177，2011. 一、二、三[24] MakarandTapaswi ， MartinBauml 和 RainerStiefelhagen。故事

下载后可阅读完整内容，剩余1页未读，立即下载