电影场景标签的自动识别及其在视觉模型中的应用

89 浏览量更新于2023-10-15 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2083MovieCLIP：电影中的视觉场景识别Digbalay Bose1、Rajat Hebbar1、Krishna Somandepalli2、Haoyang Zhang1、YinCui2、Kree Cole-McLaughlin2、Huisheng Wang2和Shrikanth Narayanan11南加州大学洛杉矶分校2谷歌1 2{dbose@，rajatheb@，zhangh21@，shri@ ee. usc.edu {ksoman@，yincui@，kree@，huishengw@}google.com摘要电影等长篇媒体具有复杂的叙事结构，事件跨越丰富多样的周围视觉场景。与电影中的视觉场景相关联的领域特定挑战包括过渡、人物覆盖以及各种现实生活和虚构场景。现有的电影中的视觉场景数据集具有有限的分类，并且不考虑电影剪辑中的视觉场景过渡。在这项工作中，我们首先自动策划一个新的和广泛的电影为中心的分类179个场景标签来自电影脚本和辅助基于Web的视频数据集的视觉场景识别的问题，在电影中。而不是手动注释，这可能是昂贵的，我们使用CLIP弱标签112万杆32K电影剪辑的基础上，我们提出的分类。我们提供了在称为MovieCLIP的弱标记数据集上训练的基线视觉模型，并在由人类评分员验证的独立数据集上对其进行评估。我们表明，利用MovieCLIP上预训练的模型的特征1. 介绍媒体以其多样的形式和模式被用于跨领域创造和分享叙事，包括电影、电视节目、广告、游戏、新闻和用户生成的社交故事。电影是媒体内容的一种主要形式，票房收入估计为2021年上映的329部电影中有44.8亿美元[37]，具有全球影响力和社会影响力。媒体内容的计算分析[49]，尤其是电影，由于其长形式的叙事结构与角色互动通常跨越不同的视觉场景和背景，因此提出了独特的挑战。在电影术语中，图1.概述图突出显示了与电影中的视觉场景识别相关的挑战（a）自然场景图像之间的域失配，（来源：http：//places2.csail.mit.edu/explore.html）与来自起居室的电影的帧（b）现有分类法中不存在的以电影为中心的视觉场景类，如监狱、控制室等（c）同一电影剪辑中的镜头之间的视觉场景的变化。[4]指的是如何在摄影机前描述和安排电影的不同元素。错景的关键组成部分包括不同风格的演员、互动发生的视觉场景、包括灯光和摄像机放置在内的布景设计以及艺术家的配套服装和化妆。视觉场景被认为是一个重要的组成部分，因为它设置了情绪，并为场景中演员的各种动作提供了背景电影中的视觉场景通常与婚礼、生日派对和工作场所聚会等社交场合有关，这些场合提供了有关角色互动的信息。视觉场景的准确识别可以帮助揭示在描绘相对于不同场景的代表性不足的人物时所涉及的偏差，与厨房相比，在办公室工作的妇女较少对于诸如类型分类的内容标记任务，视觉场景提供上下文信息，诸如动作/冒险电影中的战场描绘、科幻电影中的航天飞机或戏剧中的法庭然而，在用于需要被广告化的电影的视觉场景识别2084穿着，如图所示。一曰：域不匹配-场景图像与电影帧：与自然场景相比，电影中描绘的视觉场景是不同的，这是由于对演员的关注增加、多种活动和视角变化，如极端特写、广角镜头等。一个例子如图所示。1（a）对于来自Places 2数据集[57]的图像和来自Condensed Movies数据集[1]的电影帧。场景分类缺乏完整性：电影既描绘了现实生活，也描绘了跨越各种视觉场景的虚构场景。如图在图1（b）中，某些以电影为中心的视觉场景类，如战场、控制室、监狱、作战室、葬礼、赌场，不存在于与自然场景图像和视频数据集相关联的现有公共场景分类中。缺少镜头特定视觉场景注释：现有的数据集，如Condensed Movies [1]和VidSitu [46]，为整个电影剪辑（约2分钟长）提供了一个单一的视觉场景标签，通过作为YouTube频道Fandango Movie clips 1的一部分提供的描述获得。在图1（c）中，所提供的描述：约翰尼五（蒂姆·布莱尼饰）在纽约街头寻找他的人性。只提到了视觉场景街道，而最初的一组事件发生在教堂内。镜头级视觉场景注释可以帮助跟踪从教堂到街道的场景变化，而不是为整个影片剪辑考虑单个场景标签。在我们的工作中，我们将给定电影剪辑中的镜头视为视觉场景分析的基本单元，因为镜头由与相同内容相关的连续帧集组成我们的贡献如下：• 以电影为中心的场景分类：我们通过利用来自电影脚本的场景标题（sluglines）和具有场景标签（如HVU）的现有视频数据集来开发以电影为中心的场景分类法[13]。• 自动快照标记：我们利用我们生成的场景分类，基于逐帧聚合方案，使用CLIP [41]自动标记来自32K电影剪辑的约1.12M镜头。• 多标签场景分类：我们使用称为MovieCLIP的镜头级别标记数据集开发数据集和相关的代码库可以在https://sail.usc.edu/mica/MovieCLIP/ 上访问• 下游任务：我们进一步从MovieCLIP上预训练的基线模型中提取特征表示，并探索其在多标签场景和电影类型的各种下游任务中的适用性1https://www.youtube.com/channel/UC3gNmTGu-TTbFPpfSs5kNkg从网络视频[13]和预告片[9]分类，重新分类。2. 相关工作用于视觉场景识别的图像数据集：用于场景分类的图像数据集（如MIT Indoor67 [40]）依赖于对有限的（67）室内场景类进行分类。SUN数据集[56]将130K图像分为室内、室外（自然）和室外（人造）组，共397个子类别。对于大规模场景识别，开发了Places数据集[57]，其中包含434个场景标签，跨越1000万个图像。Places数据集中考虑的场景分类源自SUN数据集，然后仔细合并相似对。应该注意的是，像Places这样的大规模视觉场景数据集的管理依赖于多轮的众包手动注释。用于视觉场景识别的视频数据集：虽然由于引入了大规模数据集（如Kinetics [28]，ActivityNet [16]，AVA[22]，Something-Something [21]），在视频的动作识别能力方面取得了相当大的进展，但只有少数大规模数据集（如HVU [13]和场景，对象和动作（ SOA ）[43]）专注于使用动作和相关对象进行场景分类。SOA是作为社交媒体视频的多任务多标签数据集引入的，该数据集跨越49个场景，包含对象和动作，但分类管理涉及人工注释器的自由形式标记，然后进行自动清理。HVU [13]是最近发布的具有248个场景标签的Web视频公共数据集，它依赖于基于云API的初始标签生成，然后进行人工验证。以电影为中心的视觉场景识别：在电影场景识别领域，好莱坞场景[36]首次引入了10个场景类，这些场景类是从3669个电影片段的电影脚本中的标题中提取的。在电影[54]重点是潜在的相互作用（关系/情况）以及时空定位和相关的视觉场景（59类）。对于整体电影理解任务，Movienet数据集[27]引入了最大的以电影为中心的场景分类，包括90个位置（视觉场景）标签，以及整个电影的分段人工而不是整个电影数据，来自Fandango电影剪辑的YouTube频道的短电影剪辑用于压缩电影数据集[1]中的文本视频检索，视觉语义角色标签[46]和预训练以对象为中心的转换器[53]用于LVU数据集[55]中的长期视频理解。虽然没有明确的视觉场景标记，但Youtube上可用的原始描述与电影剪辑一起提到了某些视觉场景类。MovieCLIP是我们的策展数据集，它建立在电影之上2085数据集域#类样本数量注释单元AV[18]第十五场自然156K手动图像✓[第40话]自然6715620手动图像✓SUN397 [56]自然397130,519手动图像✓住宿[57]自然43410m手动图像✓好莱坞场景[36]电影103669自动视频剪辑（36.1s）✓电影[54]电影597637手动视频剪辑（44.28秒）✗[第43话]网络视频49562K半自动视频剪辑（10 s）✗Movienet [27]电影9042K手动场景片段（2 min）✗HVS [13]网络视频248251k半自动视频剪辑（10 s）✓电影浓缩[1]电影NA33k自动视频剪辑（2分钟）✓[46]第四十六话电影∼5014k手动视频剪辑（10 s）✓拉斯维加斯大学[55]电影6723自动视频剪辑（1分33秒）✓MovieClip电影1791.12m自动射击（3.54秒）✓表1. MovieCLIP与其他可用的图像和视频数据集与视觉场景类的比较。自然：自然场景的图像。网络视频：从YouTube等互联网来源获得的视频AV：是否公开。视频数据源的平均值或持续时间跨度被提供给相应的单元。NA：数据集未明确提及的场景类的数量剪辑可作为压缩电影数据集的一部分[1]。MovieCLIP和其他具有视觉场景标签的图像和视频数据集的比较概述如表1所示。与以前的以视频为中心的作品相比，我们的税收分类生成依赖于以领域为中心的数据源，如电影脚本和来自基于网络视频的源（如HVU）的辅助世界知识，其中用于分类细化的人在回路中的监督最少。来自预训练的视觉语言模型的知识转移：基于视觉语言（V-L）的预训练方法涉及基于与图像和文本对相关联的各种借口任务来学习可转移的视觉表示。V-L域中的借口任务的示例包括基于ICMLM [47]中的视觉线索预测字幕中的掩码词利用CLIP的视觉和文本编码器的功能在我们的工作中，我们使用CLIP的预训练的视觉和文本编码器，并根据我们策划的视觉场景分类法标记电影镜头，将其用作噪声3. 电影场景分类策展在本节中，我们概述了基于电影脚本中存在的域信息和辅助视频数据集中存在的预先存在的场景信息来策划视觉场景分类的过程3.1. 视觉场景信息电影脚本已被用作外部来源，用于通过[10]，[15]，[31]，[45]中的脚本和子标题对齐方法描述和注释视频。电影脚本包含的说明文字提供了有关视觉场景、一天中的时间以及动作是否发生的放置在室内或室外环境中。示例一条以河流为视觉场景的slugline是：分机哥谭河-一天。我们从内部的1434个电影剧本中解析了156k的sluglines对于每个slugline，我们自动提取“EXT”之后的实体（外部）或（内部）标签，如医院的房间，河流，战争室等使用这个过程中，我们提取173个独特的视觉场景标签。由于我们的分类生成过程是由电影中的视觉场景与sluglines从脚本作为种子源以及辅助源的动机。由于来自电影脚本的标签集并不详尽，我们还考虑了辅助源，特别是具有视觉场景标签（如HVU）的网络视频数据集[13]。我们认为HVU作为额外标签的来源，因为分类（248视觉场景类）是半自动策划的短修剪视频，具有类似的性质，电影镜头。我们3.2. 视觉场景分类策展为了开发电影中视觉场景的综合分类，我们开发了一种自动合并来自电影sluglines和辅助数据集的分类的方法，即，HVU具有用于后处理的最少的人在回路。分类生成涉及的主要步骤如下所示：标签空间预处理：为了简单起见，我们认为来自电影sluglines（MS ）的唯一标签的集合被表示为LMS，其基数为N MS。类似地，我们将NHVU表示为集合LHVU的基数，即，来自HVU数据集的唯一标签集。对于我们的情况，我们有 NMS=173 和 NHVU=248。我们提取LMS和LHVU之间的标签的相交集合，由集合Lcom表示。基于HVU和电影slugline的分类法之间的公共标签的数量是N_com=68。我们从两个标签中删除公共标签集Lcom2086----∪标记电影sluglines和HVU的空间这给出了分别由LMSLCom和LHVU LCom表示的电影sluglines和HVU中的标签的非相交集合我们组合标签的集合，即L MS L Com和L HVU L Com以获得称为L NC的更大的标签集合，其中NC指的是不常见。LNC=（LMS\LCom）L（LHVU\LCom）（1）与公共标签空间合并：在这一步中，我们在L NC中找到语义上接近L com中标签的标签。我们使用MiniLM-L 6-v2句子转换器模型[44]为LNC和Lcom中的标签提取密集的384 D标签表示。对于LNC中的每个标签，我们基于标签表示来计算与Lcom中的标签集的余弦相似度。我们将来自LNC的这些标签与Lcom中的相似标签合并，其前1余弦相似度值大于0.6。我们通过移除合并的标签将标签集LNC更新为LN。具有相应余弦相似性和源的这种合并的示例如下：• 沙丘{L NC} →沙漠{L com}（0. （第六十六条）在top-1相似性得分上为0.7，用于过滤出相似的标签。在比较两个相似的标签时，人类专家依赖于wiki定义将更具体的标签合并到通用标签中。例如，根据定义，集市是一种特殊形式的市场销售当地物品（根据维基），因此与市场合并。其他例子包括：• {stream，riverbed，creek，river} →河流• {hill，mountain，mountain pass，mountain range}→山• {road，road highway，lane} →道路• {port，marina dock，harbor} →港口这将导致一组标签，称为LmergefromLN。此外，人类专家被暴露于从浓缩电影[1]中的电影剪辑随机采样的1000个镜头，并检查集合Lmerge Lcom中的当前标签集合。基于视频内容，由人类专家添加从当前集合中缺失的场景标签（L人类）的因此，如下获得179个视觉场景标签的最终集合• 网球营{L NC} →网球场{L com}（0. 62）L=LLL（二）• 休息室{LNC} →浴室{L网 }（0.80）最终网合并人类• 农村地区{L NC} →村庄{L com}（0. 64）• 木板路{L NC} →人行道{L com}（0. 67）• 电视室{L NC} →客厅{L com}（0. 67）• 冰川湖{L NC} →湖泊{L com}（0. 73）图2. 不同来源（HVU、电影新闻稿、常见标签和人类专家）在管理标签分类方面的份额。来自不同来源的示例标签显示在带有饼图的框中。人在回路分类法细化：人类专家检查L N中的标签，并删除两个通用场景标签，如水体，沿海和海洋地貌，地平线，景观，地下以及高度具体的场景，如珊瑚礁，白房子，滑雪道，荒地等，我们使用标签表示从前一个步骤，利用L N中剩余的标签之间的语义相似性。对于LN中的每个相关标签，阈值标签源分布：如图2、最大的部分是来自电影的广告语（39%），只有9%的总标签是通过人类专家的反馈提供的。我们不是手动将类别划分为室内，室外或人造等广泛类别，而是通过亲和传播聚类[20]（基于句子转换器的标签表示）发现类别之间的分组。下面列出了视觉场景标签的某些集群，其中所有的运动场所，水体和表演艺术场所都被分组在一起。• 体育场地：篮球场、跑道、网球场、击球笼、高尔夫球场• 水体：河流、水池、瀑布、温泉、池塘、沼泽、湖泊• 表演艺术地点：舞台，会议室，剧院，礼堂，舞厅• 自然地貌：山，沙漠，山谷在视觉场景类别中发现的集群的详细列表在补充中示出。4. MovieCLIP数据集我们使用第3节中描述的策展分类法来开发一个名为MovieCLIP的电影镜头标记数据集我们在以下章节中概述了使用CLIP [41]进行镜头检测和自动标记的过程：2087--图3.使用CLIP的视觉和文本编码器对电影镜头进行基于提示的视觉场景标记的概述示意图。S是相似性矩阵，其中条目Slt是指文本嵌入el和视觉嵌入vt之间的相似性值。4.1. 影片剪辑由于镜头表示在视觉场景中具有最小变化的连续帧集合，因此我们考虑电影镜头用于我们的后续分析。将视觉场景标签与镜头相关联可以帮助识别视觉场景识别困难的情况，如特写或极端特写场景，即使在同一电影场景内。单个电影场景涉及跨连续镜头的相机视点的变化，因此使得CLIP难以将标签与整个电影场景的高置信度相对于镜头检测，我们使用PySceneDetect2 来分割 Condensed Movies 中的电影剪辑，并使用默认参数和内容感知检测模式。整体用于零炮分类CLIP的信息。类似地，我们考虑视觉场景特定提示：“标签的照片，一种背景位置”，用我们的场景分类中的标签标记视频剪辑中的各个帧。如果一个镜头包含T帧，我们利用CLIP的视觉编码器来提取逐帧视觉嵌入v t（t = 1，...，T）。对于我们的分类中的每个单独的场景标签，我们利用CLIP的文本编码器来提取嵌入el（l = 1，2，.，我们使用标签方式（标签特定）文本和帧方式视觉嵌入来获得相似性得分矩阵S，其条目S lt计算如下： eTvt丸粒提取过程的统计数据如表2所示：Slt=Lel（三）我们计算一个总的镜头特定的分数为个别场景标签的时间平均池在同一时间，相似度矩阵Slt，因为镜头内的视觉内容是相似的。表2.MovieCLIP数据集中的电影镜头统计4.2. 基于CLIP的电影镜头视觉场景标注在本节中，我们将描述CLIP [41]如何基本保持不变。对于第l个视觉场景标签，被称为CLIPSceneScore1的镜头特定分数的计算在等式1中示出。4.该过程的总体工作流程在图3中示出。T（Slt）用于将视觉场景标签与各个影片镜头相关联。由于CLIP已经以对比的方式进行了对准训练，因此它可以用于开发零炮类。CLIPSceneScorel=t=0不4.3. CLIP标签（四）不同任务的因子，包括场景识别（[56]），细粒度分类（[38]，[5]，[30]），面部情感识别（[2]），对象（[11]，[17]）和动作分类（[7]，[50]）。由于人类注释的MovieCLIP（以小时计）的尺寸过大基于GPT3考虑的提示工程设计[6]，在提示中添加上下文短语如2https://pyscenedetect.readthedocs.io/en/latest/网站定性分析：如图4a所示，当视觉场景的独特元素如室内位置（起居室）中的背景对象或基于外观的线索（森林的绿色背景）存在时，CLIP表现良好。例如，在4a中，飞机窗口的存在指示与给定电影镜头相关联的视觉场景标签是驾驶舱。然而，对于涉及模糊运动或缺乏背景信息的镜头，#电影年剪辑数量次数平均快照/剪辑平均持续时间35741930-201932484112463834.663.54s2088≥联系我们联系我们--铸造体育场市中心驾驶舱（一）（b）第（1）款图4. (a)来自具有高置信度的CLIP标记的电影镜头的样本帧（CLIPSceneScore0.6和以黄色示出的标签）（b）来自具有低置信度的CLIP标记的电影镜头的样本帧（以黄色示出的图5.不同场景标签的类型分布。对于每种类型，前5个场景标签根据CLIP [41]为MovieCLIP数据集中的镜头提供的前1个标签中的出现次数显示。前1个标签的置信度得分阈值= 0.4类型关联：我们考虑其前1个CLIPSceneScore值大于或等于0.4的那些镜头，并且针对某些类型（如西部、体育、战争和音乐）示出发生次数方面的前5个场景标签。从图5中，我们可以看到，相关的场景是通过CLIP的标签方案与流派相关联的。一些值得注意的例子包括射击场，沙漠西部，更衣室，拳击场的运动，舞厅，舞台的音乐和驾驶舱，战场的战争。可靠性评估：为了评估CLIP为电影镜头提供的top-k标签的可靠性，我们在Amazon Mechanical Turk上执行了一项验证任务。我们提供了一个注释器池，其中包含来自VidSitu [46]数据集的2393个电影镜头的子集，以及前5个场景标签。在提供的前5个场景标签中，注释者被要求选择适用于给定场景的所有标签。图6.镜头比例预测在镜头中的分布在人类注释者和CLIP的标记方案之间没有达成一致。ECS：极端特写镜头，CS：特写镜头，MS：中镜头，LS：长镜头，FS：全镜头电影镜头我们发现48.4%和80%的协议之间的注释标记的前1名和前5名剪辑标签相关。在人体验证实验完成后，我们丢弃了不一致的镜头样本，得到了1883个镜头样本的评价数据。快照类型关联：我们考虑了在可靠性估计阶段丢弃的镜头，以分析各种镜头尺度类型的分布。基于MovieShots数据集[42]中可用的镜头比例标签，我们使用来自预训练的ViT-B/16 [14]（以4 fps提取）的逐帧特征训练了一个2层LSTM（隐藏dim= 512）[26]网络。图6显示了来自训练LSTM模型的射击预测的分布。我们可以看到，与人类注释不一致的80%的镜头属于具有中等（MS）到非常高的人物特写（ECS）的镜头类别5. 实验和结果5.1. 实验装置出于训练和验证的目的，我们保留那些前 1 个CLIPSceneScore大于或等于0.4（约75百分位）的镜头样本，从而产生干净的子集。在top-1过滤之后，我们还考虑来自 top-k （ k = 2 至 5 ）的标签，其CLIPSceneScore大于0.1将每个样本的多个标签关联起来。这导致具有73.8k、23.2k和10.3k的训练、验证和测试分割的107k个样本的集合具有与人类验证的评估集不相交的id集合。大约38.4%的数据集是多标签的，覆盖了策展场景分类中179个场景类中的150个场景所有相关实验均使用Pytorch[39]框架使用4个T4 NVIDIA GPU进行。为了训练各自的模型，我们使用二进制交叉熵损失函数。为了进行评估，我们使用平均精度（mAP）和Pearson相关性（样本间的平均值）作为度量。2089联系我们→→→→ →→5.2. 视觉场景识别-电影逐帧聚合模型：对于逐帧聚集，我们以4fps从各个镜头中提取密集嵌入。我们使用两组嵌入：来自Resnet 18 [24]在Places 2数据集上预训练的512个dim在特征提取之后，我们使用LSTM [26]执行时间聚合，其中2层和隐藏维度为512。3D 卷积网络模型：我们使用 I3D[8]， R（ 2+1 ） D[52]，Slowfast [19]作为多标签设置中的基线3D卷积模型。I3D[8]和Slowfast[19]模型具有Resnet50[24]骨架，而R（2+1）D [52]具有Resnet34[24]骨架。所有模型都是从Kinetics400 [28]预训练的权重初始化的。对于微调I3D[8]和Slowfast[19]，我们使用SGD和学习率，0的情况。1、1e3以及1 e-4的重量衰减。对于R（2+1）D[52]我们使用Adam [29]，学习率为1 e-4。批量大小在16和32之间变化。视频Transformer型号：对于视频Transformer模型，我们考虑将 8 帧（ 224 x 224 ）视为输入的基本TimeTransformer模型[3]。对于微调TimeS-former [3]模型，我们使用SGD，学习率为5e-3，权重衰减为1 e-4，批量大小为8。打赌-在速度-准确性权衡中，我们使用视频Swin转换器模型[34]，[33]称为Swin-B，剪辑大小为32帧（224 x 224）作为输入。对于微调，我们使用AdamW [35]优化器，学习率为1 e-4，余弦退火，批量大小为32。上述型号的超参数设置的更多详细信息见补充说明。根据表3中的结果，我们可以看到，使用Imagenet-21 K预训练ViT-B/16的特征训练的2层LSTM模型与使用Resnet-18模型在Places 2数据集上预训练提取的特征相比表现更好。这表明Places2预训练模型的特征可能不是电影领域场景识别的最佳选择。在端到端模型方面，包括TimeTransformer和Swin-B模型在内的视频转换器优于3D卷积模型。Swin-B模型的平均相关系数为0.497，平均精度为44.4，优于其他模型。5.3. 下游任务5.3.1视觉场景识别-网络视频：我们还通过使用HVU数据集评估下游多标签场景分类的性能来探索MovieCLIP上微调的模型的知识转移对于训练和评估，我们使用251k和16k视频以及248个场景标签。我们从表3中表现最好的Swin-B模型中提取了1024个dim特征。我们使用以下配置在相应的特征上训练3层全连接模型：逐帧聚合模型特征地图相关性LSTM（512，2层）地点2（4 fps）24.150.29LSTM（512，2层）ViT-B/16（4fps）43.100.423D卷积网络模型特征地图相关性Slow Fast（R50）[19]NA25.800.402R（2+1）D（R34）[52]NA26.730.40I3D（R50）[8]NA13.330.26视频变形金刚时间变换器[3]NA36.870.46Swin-B[34]NA44.40.497表3.人类验证评估集（N=1883次射击）上不同模型的平均精度（mAP）和平均斯皮尔曼相关性。NA：使用端到端模型而不是功能。对于3D conv模型，骨干网络在括号内提及。M场景：INP[1024]FC[4096]，DO（0. 2）FC[4096]FC[248]从表4中可以看出，M场景表现出更好的性能-与在HVU上训练的现有端到端模型相比，模型地图3D-ResNet [13]50.63D-STCNet [1]51.9HATNet [13]55.8M场景55.92表4. HVU数据集上不同模型的平均精度，用于多标签场景分类（248类）。后端-用于端到端模型：3D Resnet18.5.3.2多标签类型分类-电影预告片：作为额外的下游任务，我们考虑Moviescope数据集中电影预告片的多标签流派分类[9]。在最初的4927个预告片中，我们可以从YouTube上访问3900个视频根据提供的分割，我们分别使用2948、410和542个视频进行训练、我们使用从表3中我们使用以下配置在相应的特征上训练3层全连接模型：[1024][512]第1024章：你是我的女人 [13]第十三届中国国际纺织品展览会即使当使用的预告片视频的数量是原始分割的子集时，M预告片也表现出与其他模型类似的流派趋势。从表5中，我们可以看到，与传记和神秘等类型相比，M预告片在动画和喜剧中显示出更好的性能当与表5中的fstTConv相比时，由于整个训练数据的不可用，我们的完全连接模型M拖车的性能略差2090模型整体ACAni生物网CRIDRMFmy芬齐HRRRMystROMSCFThrlM型拖车56.1462.9786.5114.480.7749.5879.5874.5549.5950.6226.8345.0547.9961.36C3D [51]53.463.891.316.282.345.171.665.354.850.828.238.321.864.8I3D [8]38.837.251.89.272.633.967.643.63922.821.334.322.648.3LSTM [9]48.447.586.81279.2337264.554.422.724.740.436.554.8Bi-LSTM [9]47.449.986.38.277.629.970.865.455.322.321.741.635.951.2fstVid [9]56.561.494.823.981.541.7776762.636.130.448.448.262fstTConv [9]58.964.795.721.283.549.178.968.668.942.729.246.85164.8表5.Moviescope数据集上多标签流派分类（13类）的不同模型的平均精度除M外，拖车比较结果来自[9]。缩写：AC：动作，Ani：动画，Bio：传记，Com：喜剧，Cri：犯罪，Drm：戏剧，Fmy：家庭，Fntsy：幻想，Hrrr：恐怖，Myst：神秘，Rom：浪漫，ScF：科幻，Thrl：惊悚，fstVid：fastVideo，fstTConv：fastVideo + Temporal Conv。5.3.3MovieCLIP预培训的影响：HVU电影放映机模型地图模型地图M场景55.92M型拖车56.14M场景（Kin）56.05M拖车（Kin）53.29后期融合57.73后期融合56.29表6. MovieCLIP预训练特征与Kinet-ics预训练特征对M场景（HVU）和M预告片（Movi-escope）的影响。报告的结果为平均精密度（ mAP ）值。模型（ Kin ）：具有Kinetics400预训练特征的模型其中模型∈{M场景，M拖车}.我们通过固定完全连接的架构M场景，M预告片和改变输入特征来考虑基于MovieCLIP的预训练的影响。在没有MovieCLIP（Kin）预训练的情况下，我们从在Kinetics 400上预训练的HVU和Moviescope数据集的Swin-B模型中提取了1024个dim特征。从表6中，我们可以看到，具有MovieCLIP预训练特征的M场景的性能与M场景（Kin）相当，即使Kinet-ics 400 [28]的域与HVU匹配。此外，具有相等权重的M场景和M场景（Kin）的预测logit的后期融合将HVU的mAP提高到57.73，从而指示在用电影数据训练时捕获互补信息。我们在Supplementary（图11）中包含了对HVU数据集的类分析，以展示MovieCLIP预训练特征在Kinetics400 预训练特征上有所改进的类。在Moviescope的情况下，由于与MovieCLIP数据集的域相似性， Mtrailer 导致与 Mtrailer （ Kin ）（53.29）相同的改进的性能（56.14）6. 伦理影响视觉场景识别能力可以帮助揭示与描绘下-在各种环境中被代表和边缘化的角色例如，与工厂、实验室或战场等场景相比，女性更多地出现在厨房、客厅、医院等室内场景中。此外，来自边缘化人口群体的角色通常在背景中描绘，而不是在共同的视觉场景中，因此具有相当少的发言时间。除了角色的描绘之外，使用像CLIP [41]这样的大规模预训练模型可以帮助诊断与其预测相关的固有所提出的方案利用CLIP弱标记数据集可以减少与大规模人类专家驱动的注释过程相关的7. 结论在这项工作中，我们引入了一个丰富的以电影为中心的视觉场景标签税收制度，自动从电影脚本和HVU[13]中策划，最小的人在循环干预。此外，我们利用CLIP的[41]零镜头功能，根据我们以可扩展的方式策划的分类。我们在名为MovieCLIP的弱标记数据集上开发了基线端到端模型，并在具有场景标签的独立人工验证数据集上进行评估。我们通过评估网络视频[13]和电影预告片[9]的多标签场景和流派分类的两个下游任务来探索MovieCLIP数据集作为预训练源未来的发展方向包括跨镜头的视觉场景的时间过渡建模，音频事件和视觉场景之间的多模态关联，以及视觉场景和相关属性（如动作、时间和设置（内部和外部））的多任务建模。8. 确认我们要感谢龚伯庆对论文的反馈这项工作得到了Google的支持。2091引用[1] 马克斯·贝恩，阿尔沙·纳格拉尼，安德鲁·布朗，安德鲁·齐瑟曼.浓缩电影：基于故事的检索与上下文嵌入，2020年。[2] Emad Barsoum，Cha Zhang，Cristian Canton Ferrer，andZhengyou Zhang.使用众包标签分发训练用于面部表情识别的深度网络。 2016 年 ACM 国际多式联运会议（ICMI）[3] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？ArXiv，abs/2102.05095，2021。[4] David Bordwell 和 Kirstin Thomson 电影艺术导论 .McGraw Hill，2001，2017.[5] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-1012014年欧洲计算机视觉会议[6] TomBrown ， Benjamin Mann ， Nick Ryder ， MelanieSubbiah ， Jared D Kaplan ， Prafulla Dhariwal ， ArvindNeelakantan，et al.语言模型是很少机会的学习者。神经信息处理系统进展，第33卷，第1877-1901页CurranAssociates，Inc. 2020年。[7] JoaoCarreira，EricNoland，ChloeHillier，andAndre wZis-serman.关于动力学-700人类行动数据集的简短说明。CoRR，abs/1907.06987，2019。[8] J. Carreira和Andrew Zisserman。你怎么看，动作识别？新模型和动力学数据集。第4724- 4733页[9] Paola Cascante-Bonilla ， Kalpathy Sitaraman ， MengjiaLuo，and Vicente Ordonez. Moviescope：使用多种模式对电影进行大规模分析。 ArXiv ， abs/1908.03180 ，2019。[10] 克里斯·乔丹，Eleni Miltsakaki和Ben Taskar。电影/剧本：视频和文本转录的对齐和解析。在David Forsyth、Philip Torr 和 Andrew Zisserman ，编辑， ComputerVision-ECCV施普林格柏林海德堡。[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[12] Karan Desai 和 Justin Johnson VirTex ： Learning VisualRepresentations from Textual Annotations.在CVPR，2021年。[13] Ali Diba 、 Mohsen Fayyaz 、 Vivek Sharma 、 ManoharPaluri、J ür genGall、R a inerStiefeldom和LucVanGool。大规模整体视频理解。在 Andrea Vedaldi ， HorstBischof，Thomas Brox和Jan-Michael Frahm编辑，计算机视觉施普林格国际出版社.[14] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器ICLR，2021年。[15] Mark Everingham，Josef Sivic，and Andrew Zisserman.你好啊！我叫... buffy”-电视视频中字符的自动命名。BMVC，2006年。[16] Bernard Ghanem Fabian Caba Heilbron、Victor Escorcia和Juan Carlos Niebles。Ac

下载后可阅读完整内容，剩余1页未读，立即下载