YouMVOS：多镜头视频对象分割数据集

64 浏览量更新于2023-10-25 收藏 23.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

210440YouMVOS：一个以演员为中心的多镜头视频对象分割数据集0Donglai Wei 1 † Siddhant Kharbanda 2 †� Sarthak Arora 2 � Roshan Roy 2 � Nishant Jain 2 � Akash Palrecha 2 �0Tanav Shah 2 � Shray Mathur 2 � Ritik Mathur 2 � Abhijay Kemkar 2 � Anirudh Chakravarthy 2 � Zudi Lin 20Won-Dong Jang 2 Yansong Tang 3, 4 Song Bai 5 James Tompkin 6 Philip H.S. Torr 4 Hanspeter Pfister 201波士顿学院2哈佛大学3清华-伯克利深圳研究院，清华大学4牛津大学5字节跳动公司6布朗大学0图1：多镜头视频对象分割（MVOS）。在多镜头视频中，MVOS旨在跟踪和分割选定的重复对象，尽管外观发生变化（例如，绿色遮罩中的人）和断开的镜头（例如，红色遮罩中的人）。我们展示了样本（a）帧，（b）分割遮罩和（c）我们数据集中《江南Style》视频的时间线。0摘要0许多视频理解任务需要分析多镜头视频，但现有的视频对象分割（VOS）数据集只考虑单镜头视频。为了解决这个挑战，我们收集了一个新的数据集—YouMVOS—包含200个流行的YouTube视频，涵盖十种类型，每个视频平均时长为五分钟，包含75个镜头。我们选择了重复出现的演员，并在每帧上标注了431K个分割遮罩，帧率为六，超过了以往数据集在平均视频时长、对象变化和叙事结构复杂性方面的表现。我们将模型架构设计、内存管理和多镜头跟踪的良好实践纳入现有视频分割方法，构建了具有竞争力的基线方法。通过错误分析，我们发现这些基线方法在处理YouMVOS数据集上的跨镜头外观变化仍然存在问题。因此，我们的数据集对于多镜头分割提出了新的挑战，以实现更好的视频分析。数据、代码和预训练模型可在https://donglaiw.github.io/proj/youMVOS上获得。0† 同等贡献。� 在哈佛大学实习期间完成的研究。01. 引言0视频理解的广泛计算机视觉目标必须包括分析具有复杂叙事结构的多镜头视频[25,32]，包括跨镜头转换中在视觉外观和时空关系上变化的人物和物体的描绘。视频对象分割（VOS）[37,56]在视频理解中起着至关重要的作用。在多镜头视频中，这个任务要求准确地跟踪和遮罩相同的对象，尽管外观发生变化（图1）。如果实现了多镜头VOS，那么它可以简化视频应用，如编辑[6]用于隐私模糊、重新照明或语义颜色分级，并有助于分析特定对象的姿势和动作。从长远来看，多镜头VOS数据和方法可以朝着更复杂的高级视频理解发展。针对VOS和相关的视频实例分割（VIS）问题的方法是在仅涵盖几秒钟的单镜头视频数据集上开发的，这是最近一项调查中强调的局限性[52]。因此，在多镜头视频中，VOS方法经常丢失对象实例，特别是在镜头切换快速且对象外观变化多的视频中，例如音乐视频。由于没有现有的多镜头VOS数据集，很难对这些错误进行表征并可靠地提高性能。210450为了促进多镜头VOS的研究，我们收集了一个新的数据集—YouMVOS，包含200个多镜头的YouTube视频，平均时长为五分钟，包含75个镜头（表1）。YouMVOS中视频的平均时长至少是现有VOS数据集的7.7倍。为了选择代表性的在线视频，我们首先选择了十种流行的视频类型，包括体育、烹饪和音乐视频，然后在每种类型中选择了20个受欢迎的视频，内容和时间结构各不相同。我们的多镜头VOS数据集侧重于演员——人类、动物或虚拟角色，在编辑的镜头中，它们的位置、姿势和外观都会发生变化。这与针对特定对象的VOS数据集的意图相似，例如自动驾驶中的汽车和行人[50]。为了高效地注释我们的数据集，我们建立了一个半自动系统，使用现代关键帧选择、遮罩初始化和遮罩传播进行手动校对。这产生了431K个标注的实例遮罩，比最新的VIS数据集[38]多出46%。为了了解YouMVOS中的新挑战，我们首先对现有的无监督VOS方法[58]和视频实例分割（VIS）方法[57, 8,10]进行基准测试，这些方法是使用短期单镜头视频数据集开发的。为了改进单镜头模型，我们研究了模型架构和内存管理实践，以处理镜头间演员位置和外观的变化。然后，我们添加了多镜头跟踪，进一步改进了基线方法在YouMVOS上的适用性。调整后的模型定义了YouMVOS上的基线性能。最后，我们使用oracle数据进行错误分析，确定未来可以改进的地方，发现跨镜头外观变化仍然是一个挑战。我们的贡献是：1）YouMVOS数据集，包含200个多镜头的YouTube视频和431K个主要演员的标注实例遮罩，2）在YouMVOS上改进的基线分割模型，以更好地处理长期多镜头视频，3）对改进的基线方法进行错误分析。这为计算机视觉社区提供了一个新的挑战，也是朝着更全面理解复杂视频的又一步。我们还公开发布了我们的数据、代码和模型。02. 相关工作0视频中的物体分割。我们将读者引用到Wang等人的调查[52]，了解视频物体分割方法。有两种主要情况：通用视频物体分割（VOS），其中物体类别未知，以及已知类别的视频实例分割（VIS）。然而，热门数据集只有单镜头视频。对于VOS，DAVIS挑战[37]是事实上的基准，具有半监督、交互和无监督学习设置，用于分割单镜头视频剪辑。我们的任务使用无监督设置，其中方法自动发现频繁出现的主要对象0数据集0平均持续时间（秒）0平均镜头数0平均YouTube观看次数† 总掩码数0DAVIS 17 [37] 2.9 1 N/A 14K YTVOS [56] 4.5 1 0.1M 197KYouMVOS（我们的数据集）333.1 75 433.8M 431K0MOTS [50] 43.4 1 N/A 65K BDD [57] 40.0 1 N/A 129KYTVIS [57] 4.6 1 0.1M 131K OVIS [38] 12.7 1 N/A 296K0A2D [55] 5.0 1 0.5M 16K J-HMDB [27] 1.0 1 N/A 31K0表1：VOS、VIS和VAAS数据集的统计数据。我们的YouMVOS数据集包含更多镜头和掩码的全长YouTube视频。（†截至提交时）0通过共现、物体显著性或物体检测来生成帧级别的分割标签[59, 33, 51, 17, 43,34]。与主要物体不同，我们的YouMVOS数据集专注于从常见的全长YouTube视频中分割演员，即主演和配角，这些视频大多经过剪辑和多镜头处理。VIS[57]或多目标跟踪和分割（MOTS）[50]旨在在单个镜头中分割和跟踪一个对象类的所有实例。例如，YouTube-VIS数据集[57]包含40个常见物体类别，而MOTS数据集[49]标记了行人和汽车。基于现有的图像实例分割流水线[21]，早期的VIS和MOTS方法添加了一个新的跟踪头[57,50]。最近的进展包括使用更好的物体检测模块[2,53]和提取更丰富的图像特征[30]。然而，最新的最先进的方法[5,31]采用了经过精心设计的模型和复杂的推理方案，使得它们在长期视频中效率低下，例如我们的YouMVOS数据集中的视频。因此，我们从一个高效的基线方法开始，并添加改进来实现可比较的性能，而无需复杂的设计方案。此外，以演员为中心的分割任务，例如视频演员-动作分割（VAAS），最近受到关注[55, 18, 26,12]。除了分割演员，这个任务还需要对应的动作类别进行分类。然而，当前数据集中的视频[55]只有单镜头，只有稀疏和粗糙的掩码注释。0视频镜头检测。早期的镜头检测方法通过颜色相似性[42]、低级视觉特征的响应曲线[40]和其他模态[45,29]对帧进行聚类。此外，还应用了谱聚类[11]和动态规划[19, 48]算法。流行的基准数据集包括IBM OVSD [41]和BBCPlanet Earth[3]。最近的MovieScenes数据集[39]将镜头进一步分组为语义一致的场景进行检测。我们的基线方法采用了在线k-means方法的镜头检测结果。030010093601204080200210460音乐视频0电影预告片0体育0烹饪0宠物0展示0教程0产品0教育0儿童0图2：YouMVOS数据集。我们选择了十个主要的视频类型，每个类型中有20个热门视频。对于每个视频，数据集提供了6FPS的高质量分割掩码，用于整个视频中经常出现的演员。0人物再识别（Re-ID）。为了在视频镜头之间链接相同的演员，常用的是鲁棒的人脸[1]和身体[23，25]视觉特征。此外，还探索了音频特征[35]、文本特征[15，20，16，46]和关系特征[24]。受到Xia等人[54]的启发，我们改进的基线方法使用多模态特征来链接镜头之间的演员。为了简化设计，我们使用预训练的Re-ID模型作为特征提取器。03. YouMVOS数据集03.1. 数据集构建0视频选择。我们从在线博客中编制了一个YouTube视频流派列表，并选择了十个受欢迎的高复杂度流派：音乐视频、儿童、电影预告片、烹饪、宠物、体育、表演、教程、教育和产品（图2）。我们排除了具有少量重复演员（例如“最佳”视频合集）或静态摄像机姿势（例如游戏视频中的对话头）的视频流派。对于每个流派，我们选择了20个受欢迎的视频，总共200个，同时平衡了性别、种族和子流派。完整长度的视频以1280×720分辨率下载。0重复演员选择。当前的VOS和VIS数据集在其单镜头视频中标记了选定或所有对象实例。对于我们的数据集，我们注释了在视频中出现至少五个镜头的演员。除了人类演员，我们还包括动物和虚拟角色，以增加数据集的多样性和难度。最终，我们平均每个视频注释了2.5个演员。0视频级统计。在图3a中，我们绘制了YouTube观看次数的平均数，以显示视频流派之间的受欢迎程度差距（蓝色柱状图），以及作为复杂度度量的视频镜头（红色柱状图）。如预期，音乐视频既有最多的观看次数，也有最高的镜头变化频率，而业余制作的视频（例如宠物）具有较简单的视频结构。我们将注释的演员分为成人、儿童、动物和虚拟角色，并绘制了它们出现的直方图（图3b）。虚拟角色0#YT观看次数（log10）0电影预告片0儿0演0宠0品0烹饪0体0教育0教程0#镜头0计数0成0儿童0图3：视频级统计。我们绘制了（a）每个流派视频的平均YouTube观看次数和镜头数，以及（b）四种不同类型演员的直方图。0在YouMVOS中提出的姿势在外观上提出了当前VOS和VIS数据集中不存在的挑战。03.2. 数据集注释0我们在代表性关键帧中注释了对象，然后将注释传播到相应视频镜头中的帧。为了改进演员蒙版，我们构建了一个半自动注释流水线，供注释者纠正自动结果中的错误。与Xu等人[56]类似，我们以每秒6帧的速度注释帧。0步骤1：镜头检测和选择。目标是找到每秒1帧的选定演员进行注释的帧。我们首先通过帧聚类最近邻将帧分成镜头。对于聚类，我们从在ImageNet上训练的ResNet-18网络的平均池化层中提取特征，并计算特征之间的余弦距离。我们构建了一个Web可视化工具来纠正镜头检测结果并选择包含感兴趣演员的镜头。然后，我们选择距离聚类中心最近的帧作为关键帧（图4a）。这些帧占所有帧的0.01％，从而减少了下游的蒙版初始化工作。0第二步：遮罩初始化。为了创建初始注释，我们使用预训练的PointRend网络[28]在选定的关键帧上生成分割遮罩（图4b）。然后，使用VAST体积分割注释软件[4]在我们的视频数据上，人工注释者选择了遮罩PointRend[28]…10.510.5010.550001,00042602104706FPS0(c) 遮罩传播（STM [36] + 手动）0(b) 遮罩初始化0关键帧0(a) 镜头检测和选择0+ 手动校正1FPS0目标源0校正0校正0重复0演员0输入视频0镜头00镜头k0图4：注释流程。 (a) 我们将帧按1FPS分为镜头，然后选择具有重复演员的镜头。(b)我们使用预训练的PointRend网络[28]和手动校正来分割每个选定镜头的一个关键帧。(c)我们使用预训练的STM网络[36]和手动校正，将遮罩从1FPS的关键帧传播到6FPS的帧。0对于PointRend结果中的重复演员，我们手动校正了遮罩。由于场景构图和演员外观的挑战，我们发现自动预测完全失败并不罕见；在这些情况下，我们的人工注释者手动分割了演员。0第三步：遮罩传播。我们使用时空记忆网络（STM）[36]来传播遮罩。然而，由于复杂的演员外观，其结果可能会迅速退化。因此，我们采用由粗到细的方法来进行遮罩传播：从关键帧到每秒标记一帧，然后到每0.17秒标记一帧，以实现最终的6FPS注释（图4c）。在每个传播步骤之后，注释者会纠正相应帧中的分割。随着注释过程中遮罩密度的增加，STM的结果显著改善。在后处理中，我们会移除那些非常小的遮罩区域。0注释质量。为了确保标记遮罩的高质量，我们的注释者检查并纠正了每个视频的所有帧上的分割结果。平均而言，每帧由三个不同的注释者检查。我们的注释团队有十个经过一周培训的注释者。为了检查注释的一致性，我们选择代表性图像，并比较我们的半自动注释流程和从头开始标记的不同注释者的分割遮罩IoU。总体而言，IoU得分为0.93，表明我们的注释流程结果与完全手动的方法相似。我们对YouTube-VOS数据集重复了相同的注释一致性评估协议，该数据集的遮罩质量与我们的数据集类似（0.89）。有关详细信息，请参阅补充材料。03.3. 多镜头VOS中的挑战0不同镜头中的演员变化。由于演员的存在与消失以及他们的突然出现和位置变化（图5a），跨镜头跟踪是具有挑战性的。我们绘制了所有演员存在切换次数的直方图。对于外观变化，我们计算了裁剪相邻帧之间预训练的ResNet-18特征的余弦距离，并对每个演员求平均0位置差异（像素）0频率0同镜头跨镜头0特征差异（余弦距离）0频率0淡入)0剪0淡入出0#开关0同镜头跨镜头0擦除0计数（log10）0(a) 连续三张照片中的三个帧0#演员数量0图5：多镜头VOS中的挑战。（a）即使在连续镜头的帧中，演员也可能切换位置（例如，跳切），并改变外观。我们绘制了每个演员的切换次数，以及同镜头和跨镜头帧的演员外观特征距离和中心位置距离的频率。（b）除了切换镜头转换之外，淡入淡出、交叉溶解和擦除转换对于模型来说可能会造成混淆，使其难以跟踪和分割演员。0同镜头和跨镜头对。我们量化距离并绘制距离频率。对于位置，我们计算同镜头和跨镜头情况下的中心变化并绘制距离。演员在镜头之间的外观和位置变化比在同镜头帧内更多。0镜头转换。我们的数据集包含四种视觉镜头转换效果：切换、淡入淡出、交叉溶解和擦除。我们绘制了转换类型的直方图（图5b）。对于VOS和VIS模型来说，淡入淡出、交叉溶解和擦除是具有挑战性的。例如，交叉溶解转换会混合光强度，这可能导致不同演员的错误链接。SVIS(i, n) = SDET + αSCLS + βSBOX + γSTRK,(1)2104803.4. 任务设置和评估指标0为简单起见，我们采用了VOS的无监督在线设置，该设置不需要初始掩码输入。我们使用DAVISVOS挑战赛中针对无监督跟踪定义的评估指标：区域相似度得分J和轮廓准确度F。对于每个视频，我们使用匈牙利算法将真实视频片段与预测片段进行匹配。对于每个真实演员，我们使用最佳匹配的提议平均J和F。最终得分是根据它们在所有视频中出现的次数对所有真实演员进行加权平均。由于某些帧的注释困难，例如，空间和时间上的模糊演员边界，我们排除这些帧进行评估。04. 改进的基准模型0作为一个数据集论文，我们还提供了一个基准方法供社区进行比较。在本节中，我们首先检查现有模型（第4.1节），然后改进一个基准模型的模块设计，用于单镜头（第4.2节）和多镜头（第4.3节）视频。04.1. 基准VIS模型0对于无监督在线演员分割任务，我们可以直接应用无监督视频对象分割（VOS）方法或视频实例分割（VIS）方法，而无需使用类别标签。经验上，我们发现很难将无监督VOS方法适应于我们的多镜头数据集，因为它们要么需要离线处理[43,34]，要么由于缺乏跟踪模块[61]而表现不佳。因此，我们评估了在与我们重叠的YouTube-VIS数据集[57]上开发的VIS基线模型。最先进的VIS方法MaskProp[5]和Propose-Reduce[31]没有公开发布它们的训练代码，这使得在YouMVOS上进行微调变得困难。此外，我们发现最近基于Transformer的方法VISTR[53]运行速度明显比基于CNN的方法慢，这使得它在长期视频中不实用。因此，我们对公开可用且在长视频中运行速度可接受的MaskTrack R-CNN [57]、SipMask [8]和ObjProp[10]进行基准测试。从中，我们选择ObjProp[10]模型作为基线模型，它在这三个模型中表现最好，并对其进行了单镜头和跨镜头预测的改进（图6）。ObjProp模型根据当前帧上的演员与存储在内存队列中的演员之间的成对匹配分数明确跟踪实例。在推理过程中，内存中第n个演员与当前帧中第i个演员之间的最终匹配分数定义为0多模态0特征匹配0Shot-aware0对象链接0Re-ID模型0图像单镜头VIS模型0帧聚类0边界框0图像特征0图6：改进的基线模型。给定一个单镜头VIS模型，我们首先改进其单镜头模块设计（SMD），然后添加一个预训练的Re-ID网络以更好地处理演员外观变化，最后在多镜头模块设计（MMD）中添加帧聚类来处理不同镜头之间的演员位置变化。0其中S DET是检测分数，SCLS是类别分数，仅当演员i和n具有相同的类别标签时为1（否则为0），S BOX是演员之间的边界框交并比（IoU），STRK是演员外观的跟踪分数。超参数α=10，β=2，γ=1与之前的方法[57，10]相同。预测的实例被分配给具有最佳SVIS分数的演员。04.2. 改进的单镜头模块设计（SMD）0我们将现有的单镜头分割和跟踪的良好实践融入ObjProp模型以进行改进。0模型架构。我们使用混合任务级联（HTC）框架[13]来改进单帧实例检测和分割结果，与MaskProp[5]类似。此外，我们将共享的边界框头和分类头分离，以减少误分类的错误。0内存管理。大多数现有的VIS方法[57，050]只在队列中保留最新的对象特征以链接到当前帧的预测。为了鼓励演员重新检测，我们使用一个内存库来存储直到该帧检测到的所有演员实例的信息。有了这个，当检测模块在中间帧上失败时，基线模型可以链接断开的帧中检测到的演员。为了实现演员检测的高召回分数，基线模型会产生许多仅在少数帧之间链接的虚假检测，形成短的轨迹片段。为了加速跟踪分数的计算并通过修剪虚假轨迹片段来提高跟踪准确性，我们在后处理过程中删除长度小于7帧的轨迹片段，其中阈值是经验性设置的。04.3. 改进的多镜头模块设计（MMD）0由于演员在镜头之间的外观和位置变化，我们添加了多模态特征[54]以实现更强大的跟踪，并添加了帧聚类模块以实现来自不同镜头的边界框跟踪。Multi-modal Feature Tracking (MFT).The ObjPropmodel consists of a tracking branch [57] to learn the trackingfeature fi for each instance i. Consequently, the appear-ance tracking score for the predicted current-frame instancei and the n-th instances in the memory bank is the n-thvalue in the log softmax of the dot product: STRK(i, n) =log softmax(f Ti F)(n), where tracking features for N actorsis F = [f0, f1, · · · , fN−1, 0], where 0 is for the new actor.As actors in our dataset are mostly human, we followXia et al. [54] to improve the appearance tracking by in-corporating human pose and face features via pre-trainedperson re-identification (Re-ID) models. Specifically, wecrop the predicted instance patch and extract the pose [47]and face [44] feature vectors as f poseiand f faceiTo bal-ance the weight among three features, we normalize eachJFJF210490Shot-aware Object Linking(SOL)。跨镜头链接对象需要两个改变：1）确保仅在同一镜头内计算实例的帧与帧之间的边界框IoU分数SBOX，2）不像[10]中的同一镜头帧那样在镜头之间传播对象以填充空掩码。因此，我们使用一个简单的在线k-means方法来检测镜头变化，如果余弦距离超过距离阈值θc，则将最新的帧分配给现有的镜头簇或新的镜头簇。为此，我们使用一个边界框来覆盖输入图像，从跟踪头模块获取每个帧的特征。然后，我们使用一个长期的内存库来存储帧特征中心和相应的帧编号。对于我们的多镜头视频，仅当预测的实例i和要匹配的实例n在同一个镜头簇gi =gn中时，我们才添加边界框IoU分数。因此，新的分数变为0S' BOX(i, n) = δ(gi, gn)S BOX(i, n) (2)0当且仅当帧i和n属于同一帧簇时，δ(gi, gn)=1，否则δ(gi,gn)=0。0�。为了调整新的演员实例的数量，我们给新的演员实例的最后一个元素，即跟踪分数，添加了一个阈值θt。更新后的分数为0S ′ TRK（i，n）= log softmax（f ′ T i F ′ + [�0，θt]）（n）（3）0通过插入新的多模态外观特征来调整新的轨迹数。05. 实验0我们展示了我们基线模型在YouMVOS上的性能，并描述了错误分析（第5.2节），消融研究（第5.3节）以及与YouTube-VIS数据集的比较（第5.4节）中的剩余挑战。0方法验证集测试集0SipMask [8] 20.9 20.0 16.1 15.1 MaskTrack R-CNN[57] 21.4 20.2 20.1 19.2 ObjProp [10] 21.8 20.9 21.220.00[10]+SMD（我们的）25.8 24.8 25.0 24.90[10]+SMD+MMD（我们的）31.8 30.8 30.9 30.60表2：YouMVOS上的定量结果。提出的单镜头（SMD）和多镜头（MMD）模块设计显著改善了基线ObjProp [10]。05.1. 实验设置0数据集划分和指标。对于十个视频类型中的每一个，我们将20个视频随机分为14个训练视频，3个验证视频和3个测试视频。总共，YouMVOS有140个训练视频（353个演员和9,042个镜头），30个验证视频（61个演员和2,002个镜头）和30个测试视频（78个演员和2,406个镜头）。最终的区域相似度得分J和轮廓准确度F在测试视频的所有演员中进行平均（第3.4节）。0实现细节。对于基线模型[57, 8，0[43,58]，我们使用官方实现。单镜头VIS模型（SipMask，MaskTrack R-CNN和ObjProp）在YouTube-VIS[57]上进行了12个时期的预训练，并在我们的YouMVOS上对跟踪和分割头进行了另外两个时期的微调，学习率为5×10-4。对于基于HTC的模型，我们还对边界框头进行了微调。更多细节请参见补充材料。05.2. 基准结果0定量结果。为单镜头视频设计的最先进的VIS方法[8, 57,10]在我们的多镜头视频上实现了约20个J和F分数（表2）。添加单镜头模块设计（SMD）和多镜头模块设计（MMD）可以将ObjProp[10]的J和F分数绝对提高约10个点，无论是在验证集还是测试集上。这个巨大的性能差距显示了所提出的改进模型设计对多镜头数据的有效性。尽管我们提出的改进也在较小程度上改善了YouMVOS上的SipMask，但是与两阶段的MaskTrackR-CNN相比，单阶段的SipMask由于许多错误的正样本对象提议而表现更差。0定性结果。我们展示了预测的分割掩模与不同视频的帧叠加（图7）。具体而言，我们的多镜头模块设计（MMD）通过使用姿势Re-ID特征来改善分割，当面部不可见或太小时（图7a），通过使用面部Re-ID特征来链接角色，尽管服装和场景发生变化（图7b-c），以及将帧聚类成相机镜头（图7d）。在(e)(c)(b)(a)(d)210500图7：YouMVOS验证集上我们改进基线的定性结果。（a-d）对于成功案例，每一行显示了同一视频序列中不同镜头的五个样本帧。（e）对于失败案例，错误可能来自于不常见的演员外观和摄像机姿势导致的较差的检测结果，以及由于特殊视觉效果导致的较差的跟踪。0单帧跟踪 J F0基线基线 31.8 30.77 基线理想 65.162.20Oracle Box Baseline 35.2 35.1 OracleBox Oracle 80.9 81.30Oracle Mask Baseline 44.7 45.5 OracleMask Oracle 100 1000表3：YouMVOS验证数据集上的Oracle分析。大部分剩余错误来自于数据集中的多镜头和分钟级长视频导致的演员跟踪。0图7e中，我们展示了典型的失败案例，包括模糊的外观（第一张图），音乐视频中罕见的相机姿势（第二张图），足球比赛视频中实例尺度的剧烈变化（第三张图），以及破坏一对一跟踪假设的意外分屏视频效果（最后两张图）。0Oracle分析。我们使用YouMVOS验证数据对改进的基线方法的错误源进行了分析，使用了不同组件的oracle（已知正确）结果（表3）。我们关注由于跨镜头视频引起的跟踪错误，并使用oracle跟踪、oracle边界框和oracle掩码生成结果。0使用oracle跟踪，我们将每帧预测与其最接近的真实对象进行0.5IoU阈值匹配，然后使用真实对象身份聚合实例。我们发现解决跟踪错误可以显著提高区域相似度J和轮廓准确度F，增加30多个点，表明错误主要是由于跨镜头和长序列之间的错误归因。其次，提供oracle边界框用于分割略微改善了基线性能，但与oracle跟踪结合使用时又增加了15个点。这表明未来需要改进跟踪和定位两方面的性能。最后，提供顶部的oracle掩码产生了预期的完美分数，但在没有oracle跟踪的情况下，仍然存在许多归因错误。总之，从不同的角度改进现有方法仍有很大的空间，而跟踪错误目前是不令人满意的分数的主要因素。05.3.消融研究0我们分析了改进基线在YouMVOS验证集上每个组件的有效性。0累积结果。我们按顺序添加单镜头模块设计（SMD），有意识的镜头链接（SOL）和多模态特征跟踪（MFT）。添加SMD通过减少丢失跟踪错误而导致1个点的改进。MaskTrack R-CNN [57]30.351.132.631.035.5STEm-Seg [2]30.650.733.531.637.1SipMask [8]33.754.135.835.440.1ObjProp [10]35.156.238.638.644.9VisTR [53]36.259.836.937.242.4MaskProp† [5]40.0-42.9--Propose-Reduce† [31]40.463.043.841.149.7210510（a）累积结果。0单镜头多镜头跟踪（MT）J F HTC Mem SOL MFT021.8 20.9 � 24.3 23.2 � � 25.8 24.8 � � � 28.7 27.6 � � � +pos29.6 28.7 � � � +face [44] 29.9 28.9 � � � +pose [47] +face[44] 31.8 30.80（b）SOL的聚类超参数。0θ c 0.88 0.90 0.92 J / F 30.6 / 29.6 31.8 / 30.831.5 / 30.60（c）多模态特征跟踪（MFT）。0姿态LightMBN [22] ABDNet [14] CoSAM [47] J / F31.2 / 30.2 31.1 / 30.2 31.8 / 30.80人脸VGGFace2 [9] CASIA-WebFace [60] J / F31.8 / 30.8 31.1 / 30.20表4：YouMVOS验证集上的消融研究。（a）我们展示了通过添加每个组件来累积改进的结果。从最佳模型开始，我们使用不同的（b）SOL超参数和（c）MFT特征进行修改。0匹配更多实例（表4）。SOL进一步通过使用帧簇内对象的位置一致性来提高2个点。这些假设可能会导致错误，但我们观察到整体改进。与原始的MFT跟踪特征相比，面部[44]和姿态[47]的Re-ID特征分别提高了2-3个点，组合提高了10个点。0有意识的镜头链接（SOL）。我们尝试了三个不同的余弦相似度阈值（θ）来决定在线最近邻帧聚类方法中相同簇中的特征。直观上，较大的θc将导致更精细的聚类结果，但在匹配分数中利用边界框之间的IoU以利用局部一致性方面的利益较少。我们经验性地发现θc =0.9可以实现最佳的整体得分（表4b）。0多模态特征跟踪（MFT）。从最佳基准模型开始，我们逐个替换流行的姿态和人脸Re-ID模型，将它们替换为当前模型。我们发现，添加姿态特征[ 47 ]相对于其他姿态Re-ID特征[22 , 14 , 47]可以提高约3个点。对于人脸Re-ID特征，FaceNet模型[ 44]在VGGFace2 [ 9]上预训练相对于在CASIA-WebFace数据集[ 60]上预训练可以提高约5个点（表4c）。05.4. YouTube-VIS单镜头数据集上的结果0为了展示我们改进的单镜头视频模块设计（SMD）的有效性，我们在YouTube-VIS数据集[ 57]上使用ResNet-50骨干网络进行基准测试，不使用任何外部数据进行公平比较（表5）。在验证集上，添加我们的单镜头模块设计（SMD）显著提升了ObjProp [ 10]的模型性能，平均精度提高了8.7个mAP。最先进的方法MaskProp [ 5 ]和Propose-Reduce [ 31]没有提供代码，因此无法改进；无论如何，它们使用复杂且计算量大的推断方案，更难应用于长视频。0方法 mAP ↑ AP 50 AP 75 AR 1 AR 100[ 10 ] + SMD (我们的方法) 39.0 61.2 42.9 38.9 47.60表5：YouTube-VIS Val [ 57]上的基准结果。我们的单镜头模块设计（SMD）将基准模型的性能提升到接近最先进水平（ResNet-50骨干网络，无外部训练数据）。带有†的方法的训练代码在我们提交时不可用。06. 结论0我们将视频对象分割问题扩展到长期多镜头视频，提供了一个包含431K分割掩码的新的以演员为中心的200个视频分割数据集。这为计算机视觉社区在处理具有位置或姿态变化、外观变化以及不同叙事结构中更复杂的存在/缺失的对象时提供了新的挑战。在基线方法的基础上，我们分析了错误的来源。我们发现跨镜头跟踪错误是多镜头分割错误的主要原因。总体而言，对多镜头视频的更好分析使我们朝着更长期和更复杂的计算机视觉理解迈进——我们的YouMVOS分割数据集是朝着这个目标迈出的早期步骤。0致谢0本工作得到了NSF资助项目NCS-FO-2124179，NIH资助项目R01HD104969，UKRI资助项目图灵人工智能奖学金EP/W002981/1，以及EPSRC/MURI资助项目EP/N019474/1的支持。我们还感谢英国皇家工程院和FiveAI的支持。[2] Ali Athar, Sabarinath Mahadevan, Aljoˇsa Oˇsep, Laura Leal-Taix´e, and Bastian Leibe. STEm-Seg: Spatio-temporal Em-beddings for Instance Segmentation in Videos. In ECCV,2020. 2, 8[4] Daniel R Berger, H Sebastian Seung, and Jeff W Lichtman.Vast (volume annotation and segmentation tool): efficientmanual and semi-automatic labeling of large 3d image stacks.Frontiers in neural circuits, 12:88, 2018. 3210520参考文献0[1] Ognjen Arandjelovic和Andrew Zisserman. Automatic facerecognition for film character retrieval in feature-lengthfilms. In CVPR , 2005. 30[3] Lorenzo Baraldi，Costantino Grana和Rita Cucchiara. A deepsiamese network for scene detection in broadcast videos. InACM international conference on Multimedia , 2015. 20[5] Gedas Bertasius和Lorenzo Torresani. Classifying, Seg-menting, and Tracking Object Instances in Video with MaskPropagation. In CVPR , 2020. 2 , 5 , 80[6] Benjamin Bratt. Rotoscoping . Taylor & Francis, 2012. 1 [7]Sergi Caelles，Jordi Pont-Tuset，Federico Perazzi，AlbertoMontes，Kevis-Kokitsi Maninis和Luc Van Gool。2019年DavisVOS挑战赛：无监督多对象分割。arXiv预印本arXiv:1905.00737，2019年。 50[8] Jiale Cao，Rao Muhammad Anwer，HishamCholakkal，Fa- had Shahbaz Khan，Yanwei Pang和LingShao。SipMask：用于快速图像和视频实例分割的空间信息保留。在ECCV，2020年。 2，5，6，80[9] Qiong Cao，Li Shen，Weidi Xie，Omkar M Parkhi和An-drewZisserman。Vggface2：一个用于识别不同姿势和年龄的人脸数据集。在2018年第13届IEEE国际自动面部和手势识别会议（FG2018）上，页码67-74。IEEE，2018年。 80[10] Anirudh S Chakravarthy，Won-Dong Jang，Zudi

下载后可阅读完整内容，剩余1页未读，立即下载