视频复制检测的综合数据集和评估协议

127 浏览量更新于2023-10-26 收藏 15.38MB PDF 举报

数据集

复制检测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

210860用于片段级别视频复制检测的大规模综合数据集和重叠复制感知评估协议0Sifeng He�，Xudong Yang�，Chen Jiang�，Gang Liang，Wei Zhang，Tan Pan，QingWang，Furong Xu，Chunguang Li，Jingxiong Liu，Hui Xu，Kaiming Huang，YuanCheng，Feng Qian†，Xiaobo Zhang†，Lei Yang蚂蚁集团0{sifeng.hsf�，jiegang.yxd�，qichen.jc�，youzhi.qf†，ayou.zxb†}@antgroup.com0摘要0在本文中，我们介绍了VCSL（视频复制片段定位），这是一个新的全面的片段级别注释视频复制数据集。与现有的仅限于视频级别注释或小规模的复制检测数据集相比，VCSL不仅具有两个数量级更多的片段级别标记数据，包括160k个现实的视频复制对，其中包含超过280k个定位的复制片段对，而且还涵盖了各种视频类别和广泛的视频时长。每个收集到的视频对中的所有复制片段都是手动提取的，并附有精确注释的起始和结束时间戳。除了数据集，我们还提出了一种新颖的评估协议，更好地衡量视频对之间复制重叠片段的预测准确性，并在不同场景中显示出改进的适应性。通过使用所提出的数据集和评估指标对几种基线和最先进的片段级别视频复制检测方法进行基准测试，我们提供了一项全面的分析，揭示了当前方法的优点和缺点，希望为未来的研究开辟有希望的方向。VCSL数据集、度量和基准代码都可以在https://github.com/alipay/VCSL上公开获取。01. 引言0近年来，盗版多媒体的广泛传播引起了全球用户和平台的关注。盗版内容的急剧增长得益于大量的用户生成内容（UGC）和专业生成内容（PGC）上传到内容共享市场，例如每分钟有超过500小时的视频上传到YouTube[1]，Bilibili的平均每月付费用户数量增加了0� 这些作者对本研究做出了相同的贡献。† 通讯作者。0仅在一年内增长了62％[2]。这些视频可以产生可观的广告收入，为那些希望通过熟练的版权侵权来利用这一繁荣的不良分子提供了强大的动力[3]。一些视频编辑专家甚至设计了一些方法来规避侵权检测算法，如裁剪、融合和合并流行视频的短片，这使得准确的复制检测变得更加具有挑战性。鉴于平台算法和演化盗版之间不断升级的对抗关系，具有真实部分视频侵权的综合数据集变得越来越重要。除了版权保护外，视频复制检测（VCD）系统在视频分类、跟踪、过滤和推荐等应用中也很重要[4-6]。在大多数情况下，仅仅得到视频级别的复制检测结果是不够的，因为检测到的视频通常会与系统用户进行显示和交互，用于下游任务。因此，设计一种可以定位复制片段的方法更受欢迎，并且已经在最近的研究中引起了很多关注[7-11]。然而，手动注释视频之间的复制片段是耗时且昂贵的。一些用于复制检测的数据集，例如CCWEB [12]，FIVR [13]和SVD[14]，仅提供指示两个视频是否包含复制部分的视频级别注释，这是粗粒度的，无法评估片段级别的复制检测方法。其他数据集，例如MUSCLE-VCD [15]和TRECVID[16]，通过生成具有预定义变换的模拟复制片段来产生自动片段级别标签，这可能不代表真实世界的数据[11]。唯一手动标记的片段级别数据集VCDB[11]于2014年发布，仅包含6k个带有9k个片段对的标记视频对，超过70％的复制持续时间少于1分钟。现有数据集的注释数量和视频多样性不足以开发需要训练数据和标签的片段级别视频复制检测算法。为了解决这些问题，我们提出了一个全面的数据集VCSL，专门用于片段级别(1)210870视频复制检测。这个数据集将公开提供，包含超过160,000对侵权视频和280,000个精心注释的片段对。所有这些视频都是来自Youtube或Bilibili的真实复制品，涵盖了广泛的视频主题，包括电影、音乐视频、体育等。与此同时，现有的片段级视频复制检测评估协议存在一个明显的缺陷，即大多数协议使用真实复制的片段作为查询，而不是整个视频[7, 8,11]。这对于实际的复制检测场景来说是不切实际的，因为很难事先知道视频的哪个部分将被盗版。因此，我们提出了一个更现实的协议，以一对复制视频作为输入，并联合提出了一个新的度量标准来解决以前的不合理问题。我们的提出的度量标准充分考虑了复制检测任务中段落划分等价性的独特性（在第4.1节中说明），对于各种侵权情况更加合适和稳健。此外，我们引入了一个片段级视频复制检测的基准。我们将整个算法过程分解为两个主要的算法模块：特征提取和时间对齐。然后，我们在VCSL的分割测试集上评估基线算法和最先进的算法的两个部分。上述描述的组件代表了一个完整的基准套件，为研究人员提供了必要的工具，以促进他们的方法的评估并推进片段级视频复制检测领域的发展。02. 相关工作0在本节中，我们将概述为不同的视频复制检测和检索任务设计的数据集和评估指标，然后对针对片段级视频复制检测的技术进行调查。02.1. 数据集和评估0在本节中，我们简要回顾了VCD任务的数据集，包括CCWEB [12]、MUSCLE VCD [15]、TRECVID [16]、FIVR[13]、SVD [14]和VCDB [11]。CCWEB[12]数据集是最广泛使用的数据集之一。它包含24个查询视频和12,790个带标签的视频。视频集中的所有检索视频都是根据与查询视频的视频级关系由三名注释者手动注释的。除了只有视频级别的注释外，CCWEB还在视频转换和主题类别多样性方面显示出局限性，几乎所有最近的方法都可以在该数据集上达到接近完美的性能（视频级mAP >0.99）。MUSCLE-VCD[15]收集了18个视频来构建查询集。然后，作者利用查询视频生成了0根据一些预定义的转换，将101个视频标记为标签集。类似地，TRECVID数据集[16]是根据与MUSCLE-VCD数据集相同的过程构建的。该数据集的最新版本包含11,503个参考视频，总时长超过420小时，以及11,256个查询。查询是通过从数据集视频中随机提取一个片段并施加一些预定义的转换来自动生成的。因此，MUSCLE-VCD和TRECVID中的副本都是基于可预测的处理进行模拟的，这些副本的多样性较低，检测和检索起来更容易。FIVR[13]包含225,960个视频和100个查询。该数据集收集了包括三个检索任务的细粒度事件检索视频：a)重复场景视频检索(DSVR)，b)互补场景视频检索(CSVR)，c)事件场景视频检索(ISVR)。尽管FIVR具有大规模的视频收集，但该数据集中只有一部分（约1325个带注释的视频）与视频侵权的范围相关，并且所有视频都是以视频级别标记的新闻事件。类似地，SVD[14]也是一个大规模的近似重复数据集，只有视频级别的注释，SVD中的大多数视频都少于20秒。与我们的工作最相关的数据集是VCDB数据集[11]，它包含28个查询集和528个带有9,236对复制片段的标记视频。注释提供了每个复制对的精确时间位置，因此适用于片段级别的复制检测任务。然而，VCDB存在一些明显的弱点。首先，用于进一步使用的标记视频数据和正样本对的数量都太有限。一些主题类别只包含一个查询集，无法从中分割训练集和测试集。VCDB中超过90%的视频时长都不到3分钟，也缺乏时长上的多样性。表1总结了上述数据集的一些统计数据。目前还没有同时支持片段级别注释、真实复制收集和大规模多样性的数据集。这激励我们构建一个全面的视频部分复制数据集。在评估指标方面，VCD任务的视频级评估指标（mAP）已在以前的工作中得到了很好的讨论[5,12]，本文不再涉及。先前的片段级评估指标是在MUSCLE-VCD[15]和VCDB数据集[11]中引入的。最近的研究工作[7-9]大多采用VCDB中定义的片段精确度和召回率，如下所示：0SP = |正确检测到的片段数|0|所有检测到的片段|0SR = |正确检测到的片段数|0|真实复制片段|0此外，VCDB还引入了一个帧级度量作为辅助标准：(2)210880表1.VCSL与现有数据集的比较。由于我们无法访问MUSCLE-VCD和TRECVID数据集，因此这两个数据集的一些统计数据为N/A。仅具有视频级注释（CCWEB、FIVR、SVD）的数据集的片段统计数据（最后两行）也为N/A。在FIVR中，（1）表示近似复制、重复场景、互补场景和事件场景标签的总数。（2）表示仅近似复制的视频对作为复制视频。所有持续时间都是在标记的视频上计算的。0项目 CCWEB MUSCLE-VCD TRECVID FIVR SVD FIVR-PVCD VCDB VCSL0片段级注释 � � � � � � � �0复制类型真实模拟模拟模拟真实真实真实真实真实0#查询集 24 18 11256 100 1206 100 28 1220#标记视频 12,790 101 11,503 12,868 1 34,020 5,964 528 9,2070平均持续时间（秒） 151.02 3564.36 131.44 113.12 17.33 113.12 72.77 364.900#正样本视频对 3,481 N/A N/A 1,325 2 5935 10,211 6,139 167,5080#复制片段 N/A N/A N/A N/A N/A 10,870 9,236 281,1820总复制持续时间（小时） N/A N/A N/A N/A N/A 76.4 326.8 17,416.20FP = |正确检测到的帧数|0|所有检测到的帧数|0FR = |正确检测到的帧数|0|真实复制帧数|0然而，片段P/R和帧P/R都有其局限性。最重要的一点是，该协议使用复制对中的每个片段而不是整个视频作为查询。同时，对于片段P/R度量，只要两个检测到的片段与真实复制对有至少一个帧的重叠，就被认为是正确的，导致对复制重叠和对齐准确性的认识较差。因此，我们需要将检测性能和对齐准确性统一到一个度量中，并使其适用于不同的侵权场景。02.2. 方法0帧级特征在视频检索任务中被证明能够获得较大的优势[5,17]，并且在准确定位复制片段方面是必要的。目前的方法采用深度卷积神经网络（DeepCNNs）[18]和深度度量学习（DML）[17,19]来提取稳健的特征。最大激活卷积（MAC）及其变种[18,20]在检索任务中被证明是一种高效的表示方法。最近，变换器（transformer）[21]作为卷积神经网络（CNNs）在视觉识别任务[22,23]上的一种替代方法出现。自监督预训练的变换器模型在图像复制检测任务上表现出竞争性能[23]。在获得帧级特征表示之后，需要一个时间对齐模块来揭示潜在复制视频对之间一个或多个复制片段的相似性和时间范围。一个简单的方法是通过时间Hough投票（Temporal HoughVoting）[11,24]进行时间投票。基于图的时间网络（TemporalNetwork，TN）[25]将匹配的帧作为节点，将帧之间的相似性作为链接的权重来构建网络，匹配的片段是网络中加权最长路径。另一种方法是动态规划[26]来找到一个具有最大相似性的对角块。0最大相似性。受到时间匹配核（temporal matchingkernel）[27]的启发，LAMV[7]将核函数转化为可微分的层来寻找时间对齐。SPD[8]将时间对齐形式化为帧间相似性矩阵上的目标检测任务，实现了最先进的片段级复制检测性能。03. 数据集03.1. 注释0该数据集的构建满足以下要求：1）视频复制变换应尽可能多样化，但避免过多的变换导致图像质量极低。2）类别应涵盖大多数常见的视频主题；3）视频的持续时间不应仅限于一种类型（短视频或长视频）。基于上述要求，我们从Youtube和Bilibili中精选了122个精心挑选的种子视频，其中包含PGC和UGC。每个种子视频都与一个文本查询（关键词）相关联，该查询将用于在线搜索潜在相关视频。这122个查询包含11个常见主题，即电影、电视剧、音乐视频、体育、游戏、综艺节目、动画、日常生活、广告、新闻和鬼畜。根据这些种子视频及其相应的文本查询，从Youtube和Bilibili平台收集了每个查询集约100个潜在复制视频。与以前的视频级别注释不同，从父视频中提取和注释复制的片段是一项极易出错且复杂的任务，特别是对于当前时尚的“鬼畜”视频中的一些短复制片段。因此，我们设计了一个在算法工程师（我们）和注释者之间协调的多步骤过程，如图1所示。在注释成本方面，我们雇用了30名全职经过良好培训的注释者，并花费约4个月的时间完成整个注释过程（约20,000人时）。以下所有的注释步骤都包含一个注释者的标注轮次，一个另一位注释者的质量检查轮次和我们的最后一轮抽查。210890一个质量检查轮次和我们的最后一轮抽查。0图1.注释过程概述。左侧的工程师（本文的作者）提供初始查询集，构建注释工具并清理下一步注释所需的注释数据。注释者完成在线相关搜索、视频级别和片段级别的注释。相似性图是通过视频对之间的帧级特征点积生成的。片段注释表示为一个列表，其中包含[种子视频的开始时间戳，搜索视频的开始时间戳，种子视频的结束时间戳，搜索视频的结束时间戳]。0如前所述，注释的第一步是向所有注释者提供种子视频和文本查询，然后要求他们搜索相关视频并给出粗略的视频级别复制结果。第二步是对第一步中每个查询集中的筛选复制视频进行片段级别的注释。在这一步中，精确定位匹配段的时间边界非常耗时，即使是经验丰富的注释者也只能在一个小时内完成2-3个视频对。在这里，我们构建了一个注释工具，不仅显示原始视频对，还显示帧对帧相似性图（在补充材料的Sec.S1中详细说明），作为辅助帮助注释者。通过观察相似性图中的近似直线[8]，注释者可以轻松检查视频比较后缺失的复制片段。在片段级别的注释之后，我们获得了一个种子视频与每个查询集中所有搜索视频之间的片段复制信息。与VCDB数据集[11]类似，我们利用视频复制的传递性属性，在种子视频中的匹配段相交的情况下，自动生成搜索视频之间的新复制片段。值得注意的是，注释复制片段对于一些当前时尚的“鬼畜”视频中的一些短复制片段来说，是一项极易出错且复杂的任务。因此，我们设计了一个在算法工程师（我们）和注释者之间协调的多步骤过程，如图1所示。在注释成本方面，我们雇用了30名全职经过良好培训的注释者，并花费约4个月的时间完成整个注释过程（约20,000人时）。以下所有的注释步骤都包含一个注释者的标注轮次，一个另一位注释者的质量检查轮次和我们的最后一轮抽查。0在具有传递性属性的两个与相同种子视频相关的视频之间进行注释可能会带来假阳性（例如，复制的片段没有共同内容）和假阴性（例如，种子视频中存在未出现的复制的片段）注释。因此，在最后一步中，注释者首先检查传递性传播的复制片段是否是正确的匹配，并细化复制边界。然后，他们会提供两个视频和与第二步中相似性图类似的相似性图，以找出剩余区域中的潜在复制片段。上述所有注释过程如图1所示。03.2. 统计数据0总共，我们从Bilibili和Youtube收集了9207个与122个选定视频查询相关的复制视频。经过我们和标注者的多轮精心协作注释，我们提取和标注了167,508个复制视频对和281,182个复制片段，这两个数量都比唯一现实级别的片段数据集VCDB大两个数量级。不同数据集之间的详细比较如表1所示。从表1的最后一行可以看出，VCSL中所有片段的总复制持续时间甚至大于大多数公开可用数据集中的总视频持续时间，这显示了我们数据集的相当大规模。图2进一步展示了VCSL的一些统计数据，并与VCDB进行了详细比较。与VCDB和其他短视频数据集不同，VCSL包含了超过30分钟的视频，这些长视频包括了现在容易侵权的电视剧和电影。同时，复制片段的持续时间范围也更广泛，从少于5秒到甚至大于30分钟。在至少有一个片段复制的视频对中，高达30%的视频对包含两个或更多个复制片段，其中45%的片段长度小于其父视频的1/5。所有122个视频查询集被分为11个主题，最小的主题包含至少三个查询集以满足训练-验证-测试的划分。图2（e）显示的每个主题的最少视频复制对数量超过4k，这超过了VCDB的标注数据（6k）的一半以上。此外，VCSL涵盖了许多现实的空间和时间变换，我们在补充材料的第2节中列出了一些。VCSL的广度和多样性使得可以对片段级别的VCD方法进行全面比较，并且可以训练需要训练数据和标签的监督学习方法。04. 评估协议04.1. 背景和动机0protocol by taking two entire videos as input and the systemneed to detect all the potential copied segments between thetwo videos. In this setting, most of previous metrics are in-applicable or need to be extended. As a result, we design anew metric to address this.However, the evolved evaluation protocol brings newdifﬁculties for designing the metric. During the annotationprocess, we observe that the boundaries of copied segmentsare hard to determine in some cases. As an example shownin Fig.3(a), some intermediate frames are edited or brieﬂyinserted by other video frames, leading to ambiguous seg-ment boundaries. Other common cases are mashup videosshown in Fig.3(b). If one single entire copied segment pairand a sequence of consecutive sub-segment pairs occupy thesame copied part on original video pairs, we believe thatthese two annotations are both reasonable and correct. Thisalso applies to predictions of algorithms with different in-ductive biases. The equivalence of an entire copied segmentpair and its division of consecutive sub-segment pairs, i.e.,segment division equivalence, must be taken into account�mi=0 LxOimi=0 LxGi·210900图2.VCSL的数据分布。所有蓝色柱状图代表VCSL的数量，橙色柱状图代表VCDB的数量。（a）不同视频持续时间的视频数量；（b）不同片段持续时间的片段数量；（c）每个视频对的片段数量；（d）复制片段在其对应父视频中的持续时间百分比；（e）每个主题类别的视频查询集数量；（f）每个主题类别的视频复制对数量。0在设计新的度量标准时，我们决定使用精确率和召回率作为评估指标，因为它们被广泛采用。但是，使用与之前度量标准中的公式（1）和（2）类似的方法计算召回率和精确率存在问题。公式（1）中的分段精确率和召回率无法衡量复制片段的重叠部分，而公式（2）中的帧级精确率和召回率在某些情况下分别在两个视频上计算得到完全错误的结果，如图4（f）所示。在这种情况下评估召回率和精确率的更好方法将在下一节中解释。04.2.新度量标准0该度量的计算可以更清楚地描述在图4中显示的视频对之间的帧对帧相似性图上。为了便于表示，所有复制片段对应关系在图4(a-f)中被描绘为边界框，并且相似性图中的复制模式在图4(c-f)中以斜线直线显示，表示两个视频之间的时间顺序复制。视频对中的预测和真实片段对分别表示为图4中显示的预测边界框{ P j } 1, 2, ..., n和GT边界框{ G i } 1, 2, ...,m。具体来说，我们首先定义所有预测边界框{ P j } 1, 2, ...,n与每个GT边界框Gi之间的重叠区域，使其交并比（IoU）> 0，如下所示：0O i = { P 1 ∩ G i，P 2 ∩ G i，...，P n ∩ G i } (3)0然后，对于每个GT框G i，计算从Oi沿x/y轴（分别表示视频A和视频B的时间轴）投影线的并集长度L x O i和L y Oi。该过程可以在图4(a)中展示。我们还可以获得G i的宽度和高度，分别为L x G i和L y Gi。因此，视频对的召回率度量定义如下：0召回率 =0� m i =0 L y O i � m i=0 L y G i (4)0值得注意的是，我们使用的是在x轴和y轴上的投影长度，而不是在IoU [28,29]中更常用的边界框面积。这是为了使度量标准更能抵抗单个边界框及其连续时间边界框的等效性，这将在图4(d-e)中讨论。类似地，对于精确度度量，我们首先计算所有GT边界框{ G i } 1, 2, ..., m与每个预测边界框Pj之间的重叠区域，0O j = { G 1 ∩ P j，G 2 ∩ P j，...，G n ∩ P j } (5)�nj=0 LxOjnj=0 LxPj·210910图3.两个具有模糊片段边界的复制视频示例。左侧是两个视频的定时截图，右侧是它们之间的相似性图，其中最细粒度的复制片段注释显示为黑色框。在帧对帧相似性图中，可能还有多个框可以合并，无论这些片段对是否合并，指标都不应该发生显著变化。由于视频持续时间和帧之间的自相似性，这两个相似性图在外观上非常不同。0图4. (a-b)说明了我们提出的方法的计算过程。(c-f)提供了四种简化情况，用于比较我们的度量标准和扩展的片段和帧度量标准。(c-f)中的灰色虚线表示时间顺序复制，其他常见情况，包括随机顺序视频编辑，也可以在相似性图中以复杂的模式发生。0然后，对于每个预测框，计算所有GT框的并集帧L x O j和Ly O j。精确率的定义方式与召回率类似：0精确率 =0� n j =0 L y O j � n j=0 L y P j (6)0其中L x P j和L y P j分别是预测框Pj的宽度和高度。为了计算最终得分，采用召回率和精确率的调和平均值，即Fscore，作为主要指标：0Fscore = 2 0召回率 + 精确率 (7)04.3.比较0从技术上讲，以前的片段和帧P /R协议不能用作视频对的输入。为了使它们与本场景中的提出的度量标准相比较，我们通过分别在x轴和y轴上计算指标来扩展它们。图4(c-f)提供了几个简化和极端情况下的评估结果。如图4(c)所示，扩展的片段P /R度量无法反映预测复制片段的不准确边界。对于在第4.1节中强调的多个子段，以前的片段度量也缺乏鲁棒性，如图4(d-e)所示。在图4(f)所示的情况下，帧P /R显示出较差的测量结果，其中预测的复制片段与GT片段完全不对齐。0通过计算每个片段对内的帧级预测准确性，我们提出的度量方法在不同的视频复制场景中显示出更好的适应性。考虑到片段对的IoU（在相似性图中表示为边界框），我们的度量方法突出了两个视频之间的时间相关性。这克服了前面提到的帧级统计的明显缺点，但仍然保持了细粒度的准确度测量。同时，我们的度量方法对于显著影响先前片段度量的片段划分也具有鲁棒性。我们还在补充材料的第6节中讨论了我们提出的度量方法在一些罕见和极端情况下的局限性。此外，动作定位任务[30，31]的mAP不适用于复制定位。mAP的核心是检查与GT片段的时间（1D）IoU，并给出真阳性或假阳性的评估结果。然而，在视频复制场景中，输入视频对都可能包含多个部分复制，而我们提出的度量方法应该更好地衡量视频对之间复制重叠片段的预测准确性，而不是评估单个视频的1D时间定位。2109205. 基准05.1. 流程0我们在图5中概述了我们的流程。流程从一对潜在的复制视频作为输入开始，然后输出预测的复制片段。0图5. 基准流程。0第一步是视频预处理，包括视频解码和帧提取。在这一步之后，输入视频被表示为一系列帧，用于后续处理。在这里，帧提取可以是均匀的或非均匀的，基于关键帧选择或视频摘要算法[32，33]。由于这部分超出了本文的范围，我们简单地采用了常用的均匀采样策略。在获取一组帧（例如m帧）之后，我们需要在这些m帧上使用视觉描述符，并为每个视频构建一个m×d维度的嵌入。d是每帧的特征维度。然后，可以通过计算两个视频嵌入之间的帧间相似性来构建帧间相似性图。在本文中，我们选择以下四个特征提取器进行比较：经典且常用的R-MAC特征[18]；在视频级检索任务上被证明是SOTA的ViSiL特征[5]，但维度较高；在图像检索任务上表现相当的ViT[34]；最近在图像复制检测上取得竞争性结果的自监督预训练模型DINO[23]。对于R-MAC、ViT和DINO，通过余弦相似性计算相似性矩阵，对于ViSiL特征，通过Chamfer相似性计算相似性矩阵，这与[5]一致。值得注意的是，所有选择的特征提取器都是帧级的。同时，还有方法[35，36]可以0联合学习时空特征。然而，在我们的片段级视频复制检测任务中，复制重叠边界应该被精确地定位，因此在长度至少为几秒钟的视频剪辑上提取的时空特征是不合适的。但是在帧特征提取之后，时间信息可以被利用，并在视频检索[17]上显示出改进的性能。我们相信，时间和空间注意力都可以灵活地插入到流程中，并且整个算法过程可以以端到端的方式进行训练，我们将这留给我们未来的工作。最后一步是找到时间对齐并输出复制的片段对。如第4节所述，预测结果可以在图5中的相似性图中表示为边界框。在这里，我们重新实现了以下五种对齐方法：HoughVoting（HV）[24]，TemporalNetwork（TN）[25]，DynamicProgramming（DP）[26]，dynamic timewarping（DTW）[37]和最近的SPD[8]。前三种方法通常用于视频复制检测[11]和视频检索任务比较[5]。DTW通常用于匹配两个时间序列，我们只是对其进行了简单修改以适应我们的任务。SPD在先前的片段级度量上展示了SOTA的时间对齐结果。05.2. 实现细节0数据集：为了进行基准和未来工作的训练和评估，我们将VCSL数据集分为每个主题类别的训练/验证/测试集中至少包含一个查询集。训练/验证/测试集中的查询集和复制视频对分别为60/32/30和97712/42031/27765。训练、验证和测试集包含不同的视频集，提供完全独立的内容。详细的数据集划分信息随VCSL数据集发布。度量方法：在第4节中，我们给出了复制视频对的详细评估度量方法。对于VCSL测试数据集，我们需要对这27765对视频进行整体评估。直接平均所有度量结果是不合适的，因为每个查询集的视频对数量不平衡。这种计算会使整体结果偏向数据更多的查询集，使查询集的多样性无用。因此，我们首先在每个查询集内部获得平均度量，然后计算查询集的宏平均作为整体结果。特征提取：我们为每个视频每秒提取一帧。所有帧特征模型都是在ImageNet[38]上预训练的，没有使用其他外部数据集。时序对齐：由于五种时序对齐算法都是传统方法，除了SPD之外没有训练过程，我们在VCLS的验证集上调整它们的超参数，并在测试集上进行比较。对于SPD，我们分别在VCDB和VCLS的训练/验证集上训练了两个版本的网络，并对它们进行评估。HV77.6575.0876.34TN82.0587.9584.90DP61.0487.3771.87DTW55.1085.7467.09SPD179.3991.3784.96SPD282.1689.7985.81HV81.9371.6476.44TN82.1689.5685.70DP64.2889.7674.91DTW54.2791.4068.10SPD179.1691.4584.86SPD283.8788.9786.34HV76.7175.7076.20TN83.6086.2284.89DP60.6181.2069.41DTW55.4072.9962.99SPD180.5690.2885.14SPD281.6190.9486.02HV81.4673.1777.09TN88.7483.6986.14DP64.3686.5873.83DTW57.1684.9268.33SPD181.2390.6685.69SPD284.6790.3187.40210930表2.使用不同特征和对齐方法的基准方法的比较。SPD（1）中的脚注表示在VCDB上训练的SPD，（2）表示在VCSL的训练/验证集上训练的SPD。更细粒度的结果在补充材料的第3-5节中给出。0宏平均查询集内部召回率精确率 F1值0R-MAC512维0ViSiL9*3840维0ViT768维0DINO1536维0在VCLS的测试集上进行了评估。其他详细的实验设置可以在我们发布的基准代码中推断出来。05.3. 结果与讨论0表2展示了使用我们提出的度量方法对特征和对齐方法的所有可能组合的性能。从表2可以看出，帧特征确实对性能有影响，并且在不同的对齐方法下呈现出类似的趋势。DINO在特征维度适中的情况下取得了最佳结果，这可能归因于Transformer架构和自监督框架。然而，特征对最终结果的影响并没有像预期的那样显著，尤其是考虑到不同的特征维度。通过观察相似度图，可以发现在一些困难的情况下（例如综艺节目中的画中画，从恶意软件中裁剪的大边距），复制片段的模式并不明显，并且所有方法的性能都很差。一些示例困难情况的相似度图在补充材料的第3节中给出。我们怀疑这是由于全局特征的局限性所致。0无法捕捉严重变形帧之间的局部对应关系。我们希望VCSL中的困难案例能为段级视频复制检测任务的更强大的特征表示开发提供一些见解。在时间对齐方法方面，VCSL训练集上训练的SPD表现最好。值得注意的是，使用VCDB数据集训练的SPD结果甚至低于某些特征的TN。这表明大规模和良好注释的数据集对于监督学习方法尤为重要。在所有方法的组合中，DINO + SPD2的性能最佳，F-score超过87%。然而，对于某些特定查询集，结果仅约为50%，远未达到令人满意的水平，尤其是在kichiku和电影类别的一些查询集中，存在显著的时空编辑。这些最近出现的VCSL中的复制侵权类型给这些针对近似复制案例设计的时间对齐方法带来了巨大的挑战。有关详细信息和糟糕案例分析，请参阅补充材料的第S4节。除了上述整体结果，我们还以更细粒度的方式评估了不同数据分布下的算法性能。与图2对应，补充材料的第S5节详细分析了视频持续时间、段持续时间、每个视频对的段数、复制持续时间百分比的F-score性能结果。包含更多段复制和较低复制持续时间百分比的视频对遇到了更多困难，结果较低。VCSL提供了大量这些类型的数据，以激发未来算法的发展。此外，我们还可以观察到，时间对齐方法在不同的数据分布和情况下显示出不同的适应性，例如，SPD在后向运行的视频上表现更好，而TN更适用于每个视频对中的多个复制段。这是由于它们对复制检测任务的不同定义和约束所致。细粒度视频复制检测和随后的模型融合也可能是未来研究的机会。06. 结论0这项工作代表目前最大的段级视频复制检测数据集VCSL。与现有的部分复制检测数据集（VCDB）相比，VCSL具有两个数量级更多的标记数据，并且是从现实世界中具有挑战性的YouTube和bilibili视频中收集的。此外，我们改进了评估协议，并共同提出了一个新的度量标准，以解决先前评估协议和度量标准中存在的问题。我们定量评估和比较了四种特征提取方法和五种时间对齐方法，揭示了有趣的未来研究方向。我们希望VCSL的公开可用性和新的周到度量标准将激发对于视频复制检测和版权保护这一重要且实用领域的更多兴趣。210940参考文献0[1]来自YouTube网站的统计数据。http://www.youtube.com/yt/press/statistics.html/，2021年。10[2] 中国视频平台bilibili在2021年第二季度增长了38%。0http://www.chinainternetwatch.com/31131/bilibili-quarterly/，2021年。10[3] Yi Xu, true Price, Fabian Monrose, and Jan-MichaelFrahm.被抓现行：在现实世界变换存在的情况下实现实用的基于视频的子序列匹配.在2017年IEEE计算机视觉与模式识别研讨会论文集中，第1397-1406页，2017年。10[4] Julien Law-To, Li Chen, Alexis Joly, Ivan Laptev, OlivierBuisson, Valerie Gouet-Brunet, Nozha Boujemaa, and FredStentiford. 视频复制检测：一项比较研究.在第6届ACM国际图像和视频检索会议论文集中，第371-378页，2007年。10[5] Giorgos Kordopatis-Zilos, Symeon Papadopoulos, IoannisPatras, and Ioannis Kompatsiaris.Visil:细粒度时空视频相似性学习.在IEEE/CVF国际计算机视觉会议论文集中，第6351-6360页，2019年。1, 2, 3, 70[6] Lowik Chanussot, Filip Radenovic, Tomas Jenicek, MaximMaximov, Laura Leal-Taix´e, Ismail Elezi, OndrejChum和Cristian Canton Ferrer.2021年图像相似性数据集和挑战。10[7] L. Baraldi, M. Douze, R. Cucchiara和H. Jegou. Lamv:学习使用核化时间层对齐和匹配视频。在2018年IEEE/CVF计算机视觉与模式识别会议上，第7804-7813页，2018年。1, 2, 30[8] Chen Jiang, Kaiming Huang, Sifeng He, Xudong Yang,Wei Zhang, Xiaobo Zhang, Yuan Cheng, Lei Yang, QingWang, FurongXu等。在第29届ACM国际多媒体会议上，第1618-1626页，2021年。1, 2, 3, 4, 70[9] Zhen Han, Xiangteng He, Mingqian Tang和Yiliang Lv.部分视频复制检测中的视频相似性和对齐学习。在第29届ACM国际多媒体会议上，第4165-4173页，2021年。1, 20[10] Weijun Tan, Hongwei Guo和Rushuai Liu.使用KNN和全局特征数据库进行快速部分视频复制检测。arXiv预印本arXiv:2105.01713，2021年。10[11] Yu-Gang Jiang, Yudong Jiang和Jiajun Wang. Vcdb:用于视频部分复制检测的大规模数据库。在欧洲计算机视觉会议上，第357-371页。Springer，2014年。1, 2, 3, 4, 70[12

下载后可阅读完整内容，剩余1页未读，立即下载