匹配切割：高效找到电影镜头中的匹配关系

165 浏览量更新于2023-10-15 收藏 918KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2115--匹配切割：使用平滑视觉过渡查找切口Boris Chen Amir Ziai Rebecca S.Tucker Ychen Xie bchen，aziai，btucker，netflix.comNetflix Inc.关闭CA，USA图1. 三个匹配切割示例，其中主体的框架匹配：（左）《阿甘正传》（1994），（中）《向上》（2009），（右）《2001》：A Space Odyssey（1968）摘要匹配剪辑是一对镜头之间的过渡，使用类似的框架，构图或动作，将观众从一个场景流畅地匹配剪辑经常用于电影、电视和广告。然而，找到一起工作的镜头是一个高度手动和耗时的过程，可能需要几天。我们提出了一个模块化和灵活的系统，有效地找到高质量的匹配切割候选人从数百万的镜头对。我们注释并发布了一个由大约20k个标记对组成的数据集，我们使用分类和度量学习方法来评估我们的系统，这些方法利用了各种图像、视频、音频和视听特征提取器。此外，我们在github.com/netflix/matchcut上发布了用于复制我们实验的代码和嵌入。1. 介绍在电影中，镜头是一系列代表两个剪辑之间不间断的时间段的帧[12]。匹配剪辑是一对镜头之间的过渡，使用类似的框架，组成或动作，以流畅地将观众从一个场景带到下一个场景。它是一个强大的视觉叙事工具，用于创建两个场景之间的联系。例如，在电影中，通常使用一个人与年轻或年长的自己的匹配切割来表示闪回图2.《星球大战：天行者的崛起》（Star Wars：The Rise ofSkywalker，2019）[1]预告片预告片编辑从不同的场景中拍摄了两个具有相似跳跃动作的镜头匹配的运动给人一种连续跳跃的错觉。或未来闪影来帮助构建角色的背景故事。两部使用这种方法的电影是《阿甘正传》（1994）[79]2009年[21]（图）①的人。如果没有这种技巧，叙述者或角色可能不得不明确地表达这些信息，这可能会破坏电影的流畅性。斯坦利·库布里克（Stanley Kubrik）的《2001：太空漫游》（2001：A Space Odyssey）[43]中的一个著名例子1.一、这个标志性的火柴从一根旋转的骨头切割成一艘宇宙飞船，瞬间将观众带到数百万年前的未来。这是一个高度艺术化的编辑，表明人类匹配剪切可以使用任何元素的组合，例如框架、运动、动作、主题、音频、灯光和颜色。在本文中，我们将具体讨论两种类型：（1）角色帧匹配剪切，其中第一镜头中的角色的帧与第二镜头中的角色对齐，以及（2）运动匹配剪切，其中镜头基于一般运动而匹配在一起。运动匹配剪切可以使用常见的摄像机运动（向左/向右平移、放大/缩小）或主体运动。他们创造的感觉，平滑过渡之间固有的不连续镜头。一个例子如图所示。二、匹配剪切被认为是最困难的视频编辑技术之一[22]，因为找到一对匹配良好的镜头是繁琐和耗时的。对于一部故事片，平均有大约2k个镜头，这意味着2M个可能的镜头对，其中绝编辑者通常观看一个或多个长格式视频，并且依赖于自动或手动标记来识别将与先前观察到的参考镜头匹配的镜头鉴于大量2116我我i=1我（i，j）我j=1（i，j）--镜头对需要进行比较，很容易忽略许多理想的匹配切割。我们的目标是通过向编辑器呈现匹配切割对的排序列表来使查找匹配切割更加有效，因此他们从例如，前50个镜头对最有可能是好的匹配切割，而不是数百万个随机的。这是一项具有挑战性的视频编辑任务，需要对视觉构图、运动、动作和声音进行复杂的理解。本文的主要贡献如下：（1）提出了一个模块化的、灵活的匹配切割候选生成系统我们的系统已成功地利用编辑在创建宣传媒体资产（例如，预告片），并且还可以用于后期制作以在大量的预最终视频中找到匹配的镜头。(2)我们发布了一个大约20k个标记的匹配切割对的数据集，用于两种类型的匹配切割：角色框架和动作。(3)我们评估我们的系统使用分类和度量学习方法，利用各种图像，视频，音频和视听特征提取器。(4)我们发布代码和嵌入式程序来复制我们的实验。2. 相关工作计算视频编辑没有任何计算或算法方法可以与专业编辑的技能和创造性视野相匹配。然而，已经提出了许多方法和技术来解决视频编辑中的子问题，特别是缓慢和手动任务的自动化。用于专门的非小说类视频的自动视频编辑技术已经在基于规则的方法中取得了成功，例如用于小组会议[58，64]，教育讲座[31]，访谈[8]和社交聚会[5]的方法。一般来说，这些方法结合了一般的电影编辑惯例（例如，发言者应该被显示在摄像机上），并具有特定于主题领域（例如，对于教育讲座，白板应该是可见的）。虚构作品的计算视频编辑往往属于两条研究路线之一：基于成绩单的方法[45，72，25，68]和基于学习的方法[53]。莱克等 [45]生成编辑的视频序列使用标准的电影脚本和场景的多次拍摄，而不是检测存在的剪辑。我们的工作推进了基于学习的计算视频编辑，通过引入一种方法来生成并对建议的匹配切割对进行排名，而无需固定的规则或成绩单。视频表示学习自监督方法近年来主导了多模态媒体理解的大部分进展[76，47，24，37]。夹[57]是一个早期的例子，实现了令人印象深刻的零拍摄视觉分类后，自我监督训练超过4亿图像字幕对。通过利用相同模态的不同增强视图[19，18，27，60]或通过学习短视频[29，3，50]或长视频[39]的联合嵌入，已经为音频[29]和视频[50]取得了类似的进步我们的系统利用这样的工作来学习视频表示，捕获匹配的视频对的匹配切割的任务。电影理解有一个深刻而丰富的文献模型，理解和分析电影中的信息。许多特定于电影的数据集[34]已经被开发出来，这些数据集使研究能够深入到各种主题，例如以人为中心的情况[70]，基于故事的检索[6]，镜头类型分类[59]，叙事理解[6，10，44]和预告片分析[35]。我们发布了一个数据集，这有助于一个新颖的和具有挑战性的电影理解任务。3. 方法在本节中，我们提出了一个灵活和可扩展的系统，用于找到给定视频的K个匹配镜头对。该系统由五个步骤组成，如图所示。3.第三章。3.1. 预处理我们的系统的前两个步骤将视频分割成连续且不重叠的镜头序列，并重新移动接近重复的镜头。虽然我们为这些步骤提供了具体的实现，但我们的系统对这些选择是不可知的。步骤1：镜头分割。对于每个电影m，我们运行镜头分割算法将标题分割为n m个镜头。设S m=s mnm是一组镜头，在那里，第m部电影的第i个镜头。镜头sm由但他们的工作是特定于对话驱动的场景。两一个有序的框架集Fm={fmMi}li，其中fm类似的概念，Write-A-Video [72]和QuickCut [68]，是sm的第j帧，lm是帧数我我使用文本和视频库的组合来生成视频剪辑。近年来，基于学习的方法取得了成功，特别是在学习切割[53]中，该方法提出了一种通过对比学习对现实切割进行排名的方法MovieCuts数据集[54]包括匹配剪切作为子类型，尽管它是迄今为止最小的类别，并且不区分各种匹配剪切。相比之下，我们发布了一个20k对的数据集，区分帧和运动剪切，目标是找到这些对在 SM 。我们使用自定义镜头分割算法，但使用PySceneDetect [15]或TransNetV2 [62]可以实现类似的结果。步骤2：近似重复镜头重复数据删除。匹配的镜头应该至少有一个不同的人物，背景，服装，或人物的年龄.因此，我们删除了近似重复的镜头（例如，同一场景和取景中同一角色的两个镜头，但面部表情略有不同）。2117我MM}我 J我我D我我 J我 J∈D倒数第二嵌入{|∈ {}∈图3.用于生成候选匹配切割对的系统图。输入是电影m的视频文件，输出是K匹配削减候选人。(1)使用镜头分割算法将视频分割成镜头。(2)几乎重复的快照将被删除。(3)使用编码器为每个镜头sm计算张量表示rm（4）枚举所有独特的镜头对，并建立评分函数，我我用于计算镜头表示之间的相似性。(5)返回具有最高相似性的前K对。我们展示了一个说明性的例子，其中有四个镜头来自Moonrise Kingdom（2012）[4]，K= 2。我们用于重复数据删除的具体方法如下所示-并为每个重复数据删除计算相似性得分sim（rm，rm）∈RLows：我们首先为每个镜头提取中心帧Cm，m对镜头（Sm，Sm）。该相似性得分用于i i i j定义为cm=fmm。对于每个中心帧，我们对得分较高的配对进行排名从MobileNet中提取i（i，li/2）[33]在ImageNet上预训练[42]。令em=enc（cm）R1024是帧cm的嵌入，其中enc获取图像并输出1024维向量。我们定义电影m作为Dm={j|i，j∈{1，2，. . . ，n}，ij，cos（e，e）≥T}更高质量的函数sim可以是采用一对张量并输出实标量的任何函数。该功能可以预先选择（例如，余弦相似性）或通过监督学习。步骤5：Top-K对提取. 这一步只是对上一步的结果进行排序，并返回前K个对。mijD（一）3.3. 试探法其中cos计算一对嵌入之间的余弦相似度，Td是相似度阈值。最后，可以通过排除与D m中的索引相对应的镜头来构造电影m的去重复镜头的集合，如下所示：. .，n m，i Dm.我们利用imagededup [36]库并发现设置Td= 0。8删除了大部分近似重复项。3.2. 射击配对排名步骤3-5对步骤2之后的已消除重复的快照对进行评分和排名。步骤3：镜头表示计算。在此步骤中，我们为每个镜头sm计算张量表示rm。我们定义一个启发式h作为一个特定的组合镜头表示和预定的评分功能。这些化学品有两个功能。我们使用它们来生成候选对，以便视频编辑器进行手动注释，然后还评估注释的数据集。在这里，evaluate意味着我们使用启发式来对候选对进行排名，并计算排名列表的平均精度有关评估的更多详细信息，请参见补充资料3。我们利用本节中介绍的四个算法（h1，h2，h4和h5）来生成第二节中注释的候选对。4并报告所有的算法如何在我们的数据集上执行。五、ii启发式1（h1）：相等的面数。一个非常不同镜头的表示需要为匹配对保留一些相似性的概念。可以使用任何视频、图像、音频、文本或多模态编码器来提取表示我们将在接下来的章节中介绍一些这样的选择。步骤4：镜头对得分计算。在此步骤中，我们枚举电影m的所有唯一镜头对，P m={（s m，s m）|s m，s m∈ S m，i

下载后可阅读完整内容，剩余1页未读，立即下载