短视频近重复检索的大规模数据集SVD：构建与性能评估

198 浏览量更新于2023-10-12 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5281SVD：一种用于近重复视频检索的大规模短视频数据集Qing-Yuan Jiang< $，Yi HeXiang，Gen LiXiang，Jian Lin<$，Lei LiXiang and Wu-Jun Li <$$>软件新技术国家重点实验室南京大学计算机科学与技术系‡字节跳动人工智能实验室，中国北京jiangqy@lamda.nju.edu.cn，{heyi，ligen.lab，lileilab}@ bytedance.com，linj@lamda.nju.edu.cn，liwujun@nju.edu.cn摘要随着视频数据在实际应用中的爆炸式增长，近重复视频检索（NDVR）已成为不可或缺且具有挑战性的技术，特别是对于短视频。然而，所有现有的NDVR数据集都是针对长视频引入的。此外，它们中的大多数是小规模的，并且由于收集和标记近似重复的视频的高成本而缺乏多样性。在本文中，我们介绍了一个大规模的短视频数据集，称为SVD，用于ND-VR任务。SVD包含超过500，000个短视频和超过30，000个几乎重复的标记视频。我们使用多个视频挖掘技术来构建正/负对。此外，我们设计了时间和空间变换来模拟用户攻击行为，在实际应用中构建更困难的SVD变体。实验表明，现有的最先进的NDVR方法，包括基于实值和基于散列的方法，在这种具有挑战性的数据集上不能达到令人满意的性能SVD数据集的发布将促进NDVR领域的研究 SVD 数据集可在 https://svdbase.github.io 上获得。1. 介绍在过去的几十年里，我们见证了视频数据在各种视频分享网站中的爆炸式增长，如优兔网1，英斯塔格拉姆2，和TikTok3。例如，2017年2月，每分钟有400小时的新视频上传到YouTube，每天有10亿小时的内容在YouTube上观看。随着互联网上数以亿计的视频，如何进行近似重复视频检索（NDVR）1https://www.youtube.com2https://www.instagram.com3https://www.tiktok.com4https://en.wikipedia.org/wiki/YouTube从一个大规模的视频数据库。NDVR旨在从海量视频数据库中检索近似重复视频，其中近似重复视频被定义为视觉上接近原始视频的视频[32]。例如，视频可能被用户稍微修改以绕过检测，并且修改后的视频可以被视为原始视频的近似重复视频。这些修改可以是标题插入、边框插入等。NDVR系统在视频推荐、视频搜索、版权侵权检测等内容平台上有着广泛的应用。因此，NDVR已成为一个热门的研究课题，并出现了许多方法NDVR [32，10，8，4，33，29、1、24、16、18、2、23、13、30、19、6]。现有的NDVR方法可以分为视频级方法和帧级方法。视频级方法，包括逐层卷积神经网络（C-NNL）[12]、逐向量卷积神经网络（C-NNV）[12]和深度度量学习（DML）[13]，试图将每个视频表示为全局特征。帧级方法，包括时空后滤波[4]、循环时间编码（CTE）[24]和时间匹配k核（TMK）[23]，提取视频的每个帧的特征。同时，为了推进ND-VR的研究，近年来引入了几个视频数据集，包括CCWEB [32]，UQVIDEO [29] ， VCD- B [9] ， MUSCLE VCD [14] ，TRECVID [22]等。然而，所有这些都是平均持续时间超过60秒的长视频近年来，持续时间小于60秒的短视频在社交媒体平台上越来越受欢迎。用户有强烈的动机复制一个热门短视频，并在这些平台上上传修改后的版本以获得关注。随着短视频数据量的不断增加，近重复短视频的检测面临着新的困难和挑战现将一些新的困难和挑战列举如下。首先，大多数长视频都是由专业摄影师制作的，5282大多数短视频是由业余爱好者用移动设备制作因此，短视频可能包含一些新类型的近似重复，例如，水平/垂直屏幕视频和相机抖动视频。其次，由于编辑短视频的成本更便宜，用户可能更喜欢编辑短视频。因此，近似重复的短视频的数量大于近似重复的长视频的数量因此，NDVR任务迫切需要大规模的短视频数据集。在本文中，我们引入了一个新的大规模短视频数据集，称为SVD，以促进短视频NDVR的研究。本文的主要贡献如下：• 引入的SVD数据集包含超过500，000个短视频和超过30，000个ND标记视频-VR任务。据我们所知，SVD是第一个用于NDVR任务的大规模短视频数据集。与现有NDVR数据集相比，SVD数据集是最大的数据集。• 通过多种策略挖掘硬标记的正/负视频，SVD数据集对NDVR具有挑战性。此外，我们设计了一些时间和s-空间变换来模拟真实应用中的用户行为，并构造SVD的更困难和更具• 我们执行两类检索来评估SVD数据集上现有最先进的NDVR方法的性能，即，基于实值的检索和基于哈希的检索实验表明，这些NDVR方法在SVD数据集上不能取得令人满意的检索性能.因此，SVD数据集的发布将促进NDVR领域的研究.本文的其余部分组织如下。在第二节中，我们简要回顾了相关的工作。在第3节中，我们详细描述了数据集收集策略。在第四节中，我们介绍了一些应用于SVD数据集的时间和空间变换。在第5节中，我们在SVD数据集上进行了实验。最后，在第六节中对本文进行了总结.2. 相关工作在本节中，我们简要回顾了NDVR任务的数据集具体地，相关数据集包括 CCWEB [32] 、 UQ VIDEO[29]、VCDB [9]、MUSCLE VCD [14]和MUSCLE VCD[16]。TRECVID [22]数据集。CCWEB [32]数据集包含24个查询视频和12，790个标记视频。作者使用24个文本查询，例如，“The lionsleeps tonight” and “Evolution of dance”, 视频. 返回的视频包含27%的冗余视频.然后，作者收集了12，790个视频作为标记集。此数据集的平均持续时间为151.02秒。在这个数据集中，超过一半的查询是关于跳舞和唱歌的，这是缺乏多样性的。UQ VIDEO [29]是CCWEB的扩展数据集作者使用CCWEB的24个查询视频和12，790个标记视频分别作为UQ VIDEO数据集的查询集和标记集然后，作者构建了一个包含119，833个视频的背景分心集。背景分心集中的视频通常被视为负面的，但标签没有经过人类的验证最终，作者共收集到132,647个视频.虽然UQVIDEO比CCWEB大，但由于查询数量有限，它也缺乏多样性此外，对于所有背景分心视频，该数据集仅提供所有关键帧的HSV [26]特征和LBP [7]特征，并且原始视频不可用。VCDB [9]数据集使用相同的528个视频来构造查询集和标记集。此外，作者提供了100，000个背景分散注意力视频。因此，该数据集总共包含100，528个视频。此外，VCDB数据集最初被提出用于版权检测任务，并且仅提供9，236个复制的段标签，S.然而，对于NDVR任务，我们需要视频级成对标签来表示候选视频是否是查询视频的近似重复视频。因此，我们认为，我们过滤掉冗余的复制片段成对标签，并得到6，139个视频级成对标签用于NDVR任务。请注意，所有6，139个视频级成对标签都是阳性的。VCDB数据集的平均持续时间为72.77秒。MUSCLE VCD [14]收集了18个视频来搜索查询集。然后，作者利用查询视频生成101视频标记集的基础上一些预定义的转换。因此，MUSCLE VCD数据集总共收集了119个视频。TRECVID [22]数据集使用11，256个查询视频来构建查询集。然后，作者使用查询视频生成11，503个视频作为基于一些预定义的变换的标记集。因此，TRECVID数据集总共收集了22，759个视频。上述数据集已被广泛用于ND- VR任务。所有这些数据集都是长视频数据集并且有不同的缺点。具体而言，TRECVID和UQ VIDEO数据集的视频不是公开可用的。MUSCLE VCD和TRECVID数据集是小规模的，并且这两个数据集的标记视频是由数据集的作者而不是真实视频平台的用户生成的。CCWEB和UQVIDEO数据集缺乏多样性。VCDB数据集只包含正的成对标签。表1的第二至第六列从表1中，我们可以发现所有现有的NDVR数据集都是平均持续时间超过60秒的长视频。5283表1. SVD和现有数据集之间的比较。由于UQ VIDEO的背景干扰集中的原始视频不是公开的，我们无法访问MUSCLE VCD和TRECVID数据集，因此这三个数据集的一些统计数据为N/A。项目CCWEBUQ视频VCDB肌肉VCDTRECVIDSVD#查询视频24245281811,2561,206#标签视频12,79012,79052810111,50334,020阳性对数量3,4813,4816,139N/AN/A10,211负对数9,3119,3110N/AN/A26,927#背景分心视频0119,833100,000000#可能的负面未标记视频00000526,787#总视频12,814132,647100,52811922,759562,013平均持续时间（秒）151.02N/A72.773,564.36131.4417.33总持续时间（小时）539.95√N/A2027.60√100√4202704.96√视频免费提供××700600500400300200100CCWEB数据集4000300020001000VCDB数据集1.41e5SVD数据集 1.21.00.80.60.40.200100200300400500600视频持续时间00255075 100 125 150 175 200视频持续时间0.00 10 20 30 40 50 60视频持续时间图1.CCWEB、VCDB和SVD数据集上的视频持续时间比较请注意，我们构造的SVD的平均持续时间明显短于CCWEB和VCDB。3. SVD：一个大规模的短视频数据集在本节中，我们将描述用于构建我们的大规模短视频数据集（称为SVD）的数据集收集策略。SVD数据集中的所有视频都是从一家大型视频网站抖音5上抓取的，视频格式为大多数视频的持续时间小于60秒。我们抓取了一个包含超过1亿个短视频的环境集，从中选择视频并构建SVD。SVD数据集分为三个子集，即，查询集、标记集和可能负未标记集。首先，我们收集了1,206个视频作为查询集。然后，我们使用多种策略来挖掘硬阳性/阴性可标注视频进行注释。与现有数据集中随机抓取的候选视频不同，SVD中的候选视频很难通过使用多种策略进行选择。因此，我们将这些候选视频称为硬阳性/阴性候选视频。经过人工注释后，我们收集了34，020个标记视频，以获得标记集，其中包括10，211/26，927个标记的正/负视频对。除此之外，通过使用成对相似性过滤策略，我们收集了526，787个视频作为可能的负未标记集而不是背景分心集。这里，可能的负面未标记集合中的视频是未经人类验证的负面视频与随机抓取的背景干扰视频不同，5http://www.douyin.com在UQ VIDEO和VCDB数据集中，我们利用过滤策略来确保可能的负未标记集合中的视频不是具有高概率的查询视频的近似重复视频因此，可能负的未标记集合中的视频比背景分心集合中的视频更适合被视为在表1的最后一列- n中，我们展示了SVD数据集的统计数据。从表1中可以发现，SVD数据集的平均持续时间仅为17.33秒，比其他数据集短。此外，SVD是表1中所有数据集中最大的数据集。在图1中，我们进一步说明了CCWEB、VCDB和SVD数据集的持续时间分布。从图1中可以看出，与CCWEB和VCDB相比，SVD数据集中的大多数视频都很短。在本节的其余部分，我们将描述详细的构造策略。3.1. 查询集我们抓取了1，206个视频，每个视频都有超过30，000个“喜欢”，作为查询集。所有这些质询均于2018年11为了确保多样性，这些查询视频的内容和类型尽可能多样化具体地，查询视频的视频内容包括肖像、风景、游戏视频、动画等。查询视频还包含各种视频类型，包括垂直屏幕视频、水平屏幕视频等。图2展示了一些随机抽样的查询视频。#视频#视频#视频5284动画，水平屏幕纵向屏幕宠物，垂直屏幕动画，垂直屏幕建筑物，垂直屏幕游戏视频，垂直屏幕横向、横屏肖像，多个屏幕图2.SVD中的查询视频示例每个块表示具有多个帧的视频3.2. 组带标记为了构造标记集，我们首先选择一些视频作为候选视频进行注释。所有候选视频被分为正（接近重复）候选视频和负候选视频，它们分别表示我们期望被注释（标记）的视频为对应查询视频的正视频和负视频。为了挖掘用于-符号的硬阳性/阴性候选视频，我们利用多种策略从环境集合中选择候选视频。这些策略包括迭代检索、转换检索和基于特征的挖掘。在这些策略中，前两个策略主要用于挖掘硬阳性候选视频，最后一个策略用于挖掘硬阴性候选视频。我们收集了近50，000个视频对进行注释。这些视频对由人类注释者标记注释总共花费超过800小时在删除不适合公开发布的视频后，我们收集了1，206个查询和34，020个标记的视频。在本小节的其余部分，我们将详细介绍用于选择候选视频的三种策略。迭代检索为了挖掘硬阳性候选视频，我们利用交互式检索方法来注释阳性候选视频。这种方法可以分为以下三个步骤。首先，对于给定的查询视频，它通过环境集进行检索，以使用各种方法获得候选人，包括基于LBP [21]和BSIFT [35]特征的检索方法。其次，人工注释器为每个查询标记这些候选项，并选择肯定的候选项。最后，将所选择的正面视频进一步馈送到第一步骤中以检索更多正面候选者。整个过程重复多次，直到对于给定的查询不能找到更多的正视频由于交互式检索过程需要低延迟，因此我们在此过程中仅采用LBP [21]和BSIFT [35]更先进的功能和相似度计算方法用于以下的转换检索过程。我们还对查询视频应用各种变换，例如旋转和裁剪，以获得变换的视频。然后我们用转化后的查询视频阳性候选查询视频阳性候选查询视频阳性候选图3.硬阳性候选视频的示例。顶行：侧面镜像、颜色过滤和水遮罩。中间一行：水平屏改为垂直屏，大黑边。底行：旋转。视频作为查询来搜索环境集。具体来说，我们利用LBP，BSIFT和基于深度特征的检索方法来选择候选视频。然后我们选择前5名到前10名的结果作为候选视频进行进一步的人工标注。在图3中，我们展示了一些查询视频及其通过交互式检索和转换检索挖掘的硬阳性候选视频在图3中，候选视频是通过各种变换（包括镜像变换、滤色变换、黑边框插入和旋转变换）的近似重复视频。为了挖掘硬负面候选视频，我们从2018年6月至2018年8月上传的环境集中选择30，000个视频作为候选视频。由于这些候选视频的上传日期早于我们查询的视频的上传日期集合，我们可以预期大多数候选视频不是查询视频的近似重复视频。我们提取不同类型的特征来计算候选日期和查询视频之间的相似度。这些特征包括手工特征（LBP和BSIFT）和深度特征。为每个5285在真正可能是负面的情况下，我们从可能是负面的未标记集合中随机抽取100个视频，并邀请人类注释者对每个查询视频进行标记。这些视频都没有被标记为查询的近似重复。因此，可能的负未标记集合中的视频不是具有高概率的查询视频的近似重复。图4.硬负面视频的例子。所有候选项在视觉上与查询相似，但不是近似重复。查询视频，我们选择前5到前10个相似的视频作为候选视频进行人工标注。图4示出了查询视频和对应的否定候选视频的一些示例，其中基于深度特征来挖掘候选视频。在最上面一行的例子中，一个人正在向水中撒网在中间一行的例子中，一个女孩正在理发店里做发型。在最下面一行的例子中，一个女孩在一个装饰着灯饰的房间里玩耍。然而，由于每个视频对中的人是不同的，所以所有这些视频对不是近似重复的视频，尽管它们非常相似。3.3. 可能负未标记集我们首先从环境集中选择700，000个视频的子集作为可能的负面未标记视频的候选者，这些视频被定义为没有人类注释的负面视频在提取各种帧和视频特征后，我们计算查询视频之间的成对相似度4. 变换在实际应用中，用户可能更喜欢复制热门视频以获得关注。同时，这些用户通常选择稍微修改他们复制的视频以绕过检测。这些修改包括视频裁剪、边框插入等。为了模仿这样的用户行为，我们定义一个时间变换，即，视频加速和三个空间变换，即，视频裁剪、黑色边框插入和视频旋转。具体地，视频加速变换包括视频加速和视频减速。这种类型的转换旨在模拟视频加速或减速。在实际应用中，用户可能会裁剪视频以放大或缩小原始视频，这可以通过帧裁剪来执行。此外，用户可以插入边框，如黑色边框，以适应不同的视频大小。此外，存在许多水平或垂直拍摄的移动电话视频。当用户上传这些视频时，他们可能会旋转他们的视频。这些变换广泛应用于视频重建过程中。通过执行这些转换，可以生成更难的候选项，并且我们可以构建更具挑战性的数据集。请注意，上述变换用作说明示例，并且用户可以基于他们的需要定义他们自己的变换。5. 实验我们进行了实验，研究SVD数据集和其他NDVR数据集上我们采用-和候选视频。筛选出与查询视频相似度高的候选视频。然后，剩余的可标记视频被选择为可能的负未标记视频。具体来说，我们利用BSIFT特征和聚集的深度特征来计算查询视频和候选视频之间的相似度。BSIFT特征用于计算Jaccard相似度，并且只有那些与所有查询的相似度为0的视频才能被选为候选视频。然后，聚合的深度特征被用来计算视频级相似度的基础上的欧氏距离，我们进一步过滤约5%的视频，具有最小的相似度的所有查询。最后，我们获得了526，787个可能的负未标记集的视频。为了验证通过上述过程获得的视频测试两类NDVR方法，即，实值基础NDVR方法和基于散列的NDVR方法。在实际应用中，基于实值的NDVR方法通常存在存储开销大、查询速度慢等问题。为了避免高存储成本并实现快速查询速度，NDVR还采用了基于散列的方法[3，31，34，29，11，27，6]5.1. 数据集由于TRECVID和肌肉VCD太小-l和背景分心设置中的原始视频不适用于UQ VIDEO，我们选择CCWE-B [32]和VCDB [9]进行比较与SVD.我们采用第4节中定义的四种变换来构造更具挑战性的SVD变体具体查询视频阴性候选人查询视频阴性候选人查询视频阴性候选人5286最后，我们利用SVD 变换来表示SVD数据集的变量，其中标记的正视频被相应的变换视频替换这里的transformation表示transfor-第4节中定义的术语，即，变换∈{裁剪，黑边框，旋转，加速}。请注意，我们采用加速转换，SVD加速。对于所有数据集，给定查询视频的地面实况视频被定义为标记的正视频。5.2. 基准和评估方案5.2.1基准对于基于实值的方法，我们采用四种广泛使用的实值NDVR方法，包括三种视频级方法，即，分层卷积神经网络（ C-NNL ） [12] 、矢量卷积神经网络（ C-NNV）[12]和深度度量学习（DML）[13]，以及一种帧级方法，即，循环时间编码（CTE）[24]。在实际应用中，基于实值的方法对于海量视频可能是不切实际的。因此，我们也采用了一些哈希方法进行评估。具体来说，我们采用了四种散列方法，包括一种数据独立的方法，即，局部敏感散列（LSH）[3]，两种无监督散列方法，即，迭代量化（ITQ）[5]和各向同性哈希（IsoH）[11]，以及一种监督哈希方法，即，汉明距离度量学习（HDML）[20]，用于评估。在本文中，我们仅使用四种哈希方法进行演示，尽管可以采用更复杂的哈希方法来进一步提高性能[15]。对于基于实值的NDVR方法，在设置DML [13]之后，我们利用在ImageNet [25]上预训练的VGG 16-Net[28]为每个对于基于实值的NDVR方法，欧几里德距离用于对检索到的数据点进行排序。对于基于散列的NDVR方法，我们为每个视频学习二进制代码。然后使用汉明距离作为度量来对检索到的数据点进行排序。为了进一步提高哈希方法的检索精度，我们可以利用重排序策略。具体来说，我们首先使用汉明距离为所有返回的视频生成一个排名列表。然后我们选择返回的前N个视频运行重新排序算法。在重排序过程中，我们计算查询视频与基于深度特征的所选前N个视频之间的欧几里得距离，并基于欧几里得距离获得所选N个5.2.2评价方案对于CCWEB和VCDB数据集，在DML [13]的设置之后，我们使用查询集和标记集作为训练集。在测试过程中，我们使用查询集作为测试集，标记集作为CCWEB数据库。然后采用测试集对数据库进行检索对于VCDB数据集，我们选择查询集作为测试集。此外，我们利用标记集和背景分心集作为数据库。对于SVD数据集，我们从查询集中随机选择1,000个查询视频，并将其标记的视频作为训练集。在测试过程中，我们利用查询集中剩余的206个查询视频此外，相应的标记集和整个可能的负未标记集作为数据库。我们利用平均精度（MAP）和前KMAP作为评价指标。具体地，对于每个查询视频vq，根据以下等式计算平均精度（AP）frame. 对于所有数据集，我们设置fps= 1以进行公平比较。儿子6.在提取每帧的深度特征后，我们使用-AP（v）=1ΣMP（k）1，（1）采用与DML中相同的规范化策略，即，零均值和L2归一化，以生成视频级qRqQ Kk=1深刻的特征DML是一种基于三元组的深度度量学习方法。对于所有数据集，我们利用[13]提出的硬三元组采样策略对于CNNL和CNNV方法，我们还利用了在ImageNet上预训练的对于所有数据集，我们随机抽样50，000帧，通过CNNL和CNNV方法的k均值算法对于基于散列的方法，我们还使用提取的4096D深度特征其中，Rq是标记的正视频的数量，Mde。注意数据库中的视频的数量，Pq（k）是视频vq的排序列表中截止点k处的精度，并且1k是指示符函数，如果第k个返回的视频是查询视频的地面实况，则1 k等于1，否则1k= 0。然后，给定n个查询视频，我们可以如下计算MAP：1Σn通过VGG 16-Net进行哈希学习，以实现公平的计算。对于除CNNL、CNNV和CTE之外的所有基线，MAP=n q=1AP（vq）。源代码由作者提供对于CNNL、CNNV和CTE，我们仔细地实现了这些方法。6CTE在CCWEB数据集上实现了更高的精度，fps= 15在本文中，为了公平比较，我们设置fps= 1。可以通过在等式（1）中设置M=K来类似地计算前KMAP。此外，我们还比较了基于实值的ND-VR方法和基于散列的NDVR方法的存储成本和检索时间5287211222表2.基于实际值的NDVR方法的MAP（%）方法CCWEBVCDBSVDSVD裁剪SVDBlackBorderSVD旋转SVD加速DML97.0178.9878.4754.0768.1715.5976.70CNNL95.4749.8755.5515.6118.630.1551.80CNNV95.6045.1919.096.316.940.2215.45CTE90.0841.4250.9716.4832.662.8416.23图5. DML方法的不良情况。5.3. 基于真实值的NDVR准确性我们在表2中报告了CCWEB、VCDB和SVD数据集上DML、CNNL、CNNV和CTE的MAP。从表2中，我们可以发现，在CCWEB数据集上，DML，CNNL和CNNV方法可以实现类似的有希望的检索精度。此外，我们还可以发现，SVD的检索精度远远不能令人满意，这与VCDB数据集上的现象相似。由智能电话记录并且其地面实况视频C（1）通过裁剪来编辑。视频c（1）示出了穿黑色T恤的另一个女孩正在与查询视频q（1）的房间非常相似的房间中行走。对于某些长视频，这种情况可能不会发生，例如，电影对于第二行中所示的第二示例，查询视频q（2）示出了一个女孩正在理发店做她的发型查询视频q（2）及其地面实况视频c（2）非常相似。视频c（2）是o-SVD变换数据集上的MAP结果为al-22（二）如表2所示。从表2中，我们可以看到，对于所有的变换，准确性将恶化，特别是对于空间变换。我们在图 5 中展示了 SVD 数据集上的最佳基线（DML）的一些坏情况。在图5中，每个元素是被示出为三个代表性帧的视频。每一行包含查询视频q（i）及其第一返回视频c（i）和第二返回视频c（i）ac。原始视频。视频c1显示另一个女孩在做她的发型在一个类似的理发店。由于对视频应用剪切变换，因此查询视频及其近似重复视频与不是近似重复的其他视频混淆。对于第三行中所示的第三示例，查询视频q（3）示出了两个男人在喊叫。这些视频可能是电影的片段。审讯录像还有-1 2s groundtruth视频是通过插入两个编辑器编辑的-根据DML的排序列表。在所有情况下，第一次重新-转换后的视频c（i）对于第一行中所示的第一示例，查询视频q（1）及其地面实况视频c（1）示出女孩正在装饰有照明的房间中行走。与c（1）相比，查询视频q（1）可以是视频t视频模板。这两个视频的内容是一样的。但是，由于不同的视频模板，检测这些几乎重复的视频可能非常具有挑战性。从这些示例中，我们可以看到SVD数据集中的新类型的近似重复视频和硬正/负视频可能会引入新的挑战和困难。5288表3.MAP（%）用于基于散列的NDVR方法。数据集LSHITQIsoHHDML16位32位16位32位16位32位16位32位CCWEB68.1283.1570.1687.1472.2486.7582.7290.23VCDB10.3330.8810.6833.3110.6033.3035.9668.92SVD4.3428.365.1630.144.8530.886.4731.59SVD裁剪0.322.650.704.410.964.011.235.39SVDBlackBorder0.764.611.187.081.155.581.6110.54SVD旋转0.060.090.040.430.070.240.541.95SVD加速3.3423.564.4225.824.1426.634.5628.60表4.所有数据集的前100 MAP（%）、存储成本和检索时间方法尺寸/位数前100名地图存储成本检索时间（ms）CCWEBVCDBSVDCCWEBVCDBSVDCCWEBVCDBSVDDML500D97.9384.6081.2748.83M0.40G2.25G41.2278.32203.5CNNL4096D97.8884.4861.0499.96M3.29G18.42G266.62290.315887.3CNNV4096D97.8679.4425.10LSH+16位98.2966.5576.020.06M0.60M3.37M1.417.888.2ITQ+98.1166.6577.96IsoH+97.9266.5878.19HDML +97.7477.9676.29LSH+32位97.8167.1978.800.09M0.80M4.49M2.524.8174.8ITQ+97.7566.6578.92IsoH+97.7967.0179.00HDML+97.6978.3678.635.4. 基于Hashing的NDVR准确性在本节中，我们将展示基于哈希的方法在所有数据集上的检索结果MAP结果见表3。从表3中，我们可以发现，在所有数据集上，基于散列的方法的检索精度不如基于实值的NDVR方法与CCWEB和VCDB数据集相比，SVD数据集的检索精度最差。此外，在所有情况下，SVD变换重新排序我们还进行了实验，利用重新排序，以提高检索精度的哈希为基础的方法。为了重新排序，我们设置N= 0。1×M，其中M是针对每个查询的数据库7中的视频的数量。这里数据库中的视频包含标记视频和背景干扰视频或可能的负面未标记视频在表4中，我们报告了前100个MAP、数据库的存储成本和每个查询的平均检索时间“LSH+”表示具有重新排序的LSH算法，并且类似地从表4中，我们可以发现，在重新排序后，在大多数情况下，基于散列的方法的检索精度此外，基于散列的方法的存储成本比基于实值的方法的存储成本小得多7由于不同查询视频的标注视频的数量不同，因此不同查询视频的M也不同。耗氧物质此外，我们可以看到基于哈希的方法比基于实值的方法快得多。因此，对于大规模应用，基于哈希的方法通常比基于实值的方法更实用。6. 结论在本文中，我们介绍了一种新的大规模短视频数据集，称为SVD，用于NDVR。该数据集包含从大型视频平台收集的超过500，000个短视频和超过30，000个几乎重复的标记视频。我们利用多种挖掘策略从海量短视频中挖掘出硬阳性/阴性样本。此外，我们还设计了一些时间和空间变换来模拟用户在SVD是第一个短视频数据集，也是NDVR最大的SVD的发布将促进NDVR的研究，特别是短视频的NDVR。7. 确认这项工作得到了 NSFC-NRF 联合研究项目（ No.61861146001）和优秀博士A计划。南京大学考生。我们感谢Yubo Du和Ming-Wei Li在数据注释和过滤方面的帮助Lei Li和Wu-Jun Li为通讯作者。5289引用[1] 杨才，杨林军，魏平，王飞，陶梅，华先胜，李世鹏.百万级近似重复视频检索系统。在MM，第837-838页[2] 周建利，陈华宗，李淑贤基于模式的网络视频相似度检索与定位TMM，17（3）：382[3] Mayur Datar、Nicole Immorlica、Piotr Indyk和Vahab S.米罗克尼基于p-稳定分布的局部敏感哈希算法。在SCG，第253-262页[4] Matthijs Douze、Herve Jegou和Cordelia Schmid。一种基于图像的视频拷贝检测与时空后滤波方法。TMM，12（4）：257[5] Yunchao Gong和Svetlana Lazebnik。迭代量化：学习二进制代码的一种普罗克勒斯特方法。在CVPR，第817-824页[6] Yanbin Hao ， Tingting Mu ， Richang Hong ， MengWang，Ning An，and John Yannis Goulermas.随机多视图散列用于大规模近似重复视频检索。TMM ，19（1）：1[7] 何东晨和王力。纹理单元、纹理谱和纹理分析。TGRS，28（4）：509[8] Zi Huang ， Heng Tao Shen ， Jie Shao ， Bin Cui ， andXiaofang Zhou.实用的连续视频流在线近重复子序列检测。TMM，12（5）：386[9] Yu-Gang Jiang ， Yudong Jiang ， and Jiajun Wang.VCDB：用于视频中部分复制检测的大型数据库。在ECCV，第357-371页[10] 江玉刚和吴忠华。用于语义视频索引和近似重复检索的视觉词接近度和语言学。CVIU，113（3）：405[11] 孔伟豪和李武军Isotropic hashingNeurIPS，第1655-1663页，2012年[12] Giorgos Kordopatis-Zilos 、 Symeon Papadopoulos 、Ioannis Patras 和Yiannis Kompatsiaris 。通过聚合中间CNN层进行近似重复的视频检索。在MM中，第251-263页[13] Giorgos Kordopatis-Zilos 、 Symeon Papadopoulos 、Ioannis Patras和Yiannis Kompatsiaris。使用深度度量学习进行近乎重复的视频检索在ICCVW，第347[14] Julien Law-to 、Alexis Joly 和 Nozha Boujemaa 。肌肉-vcd-2007：视频拷贝检测的实时基准测试，2007年。[15] Wu-Jun Li，Sheng Wang，and Wang-Cheng Kang.基于特征学习的深度监督散列与成对标签在IJCAI，第1711-1717页[16] 刘嘉俊、黄子、蔡鸿运、沈衡涛、吴忠华、王伟.近似重复视频检索：目前的研究和未来的趋势。CSUR，45（4）：44：1[17] 刘璐，赖伟，华先胜，杨世强。视频直方图：一种新的视频签名用于有效的we-b视频重复检测。在MM，第94-103页[18] 刘武，陶梅，张永东。即时移动视频搜索与分层音视频索引和渐进式传输。TMM，16（8）：2242[19] Ajay Kumar Mallick和Sushila Maheshkar。基于时空模式树的近重复视频检索在CVIP，第173-186页[20] 放大图片作者：David J.Fleet，and Ruslan Salakhutdi-nov.汉明距离度量学习NeurIPS，第1070-1078页，2012年[21] TimoOjala，MattiPietik aíinen，andD a vidHar w ood. 基于特征分布的纹理度量与分类的比较研究。PR，29（1）：51[22] 放大图片作者：George Awad，Jonathan G.放大图片创作者： David W. Smeaton 和 Geo r gesQu e'not 。TRECVID2010-目标、任务、数据、评估机制和指标综述在TRECVID研讨会上，2010年。[23] Se'bastienPoullot ， Shunsu k eTsukatani ， PhuongAnhN-guyen，Herv e'J e'gou，andShin'ichi Satoh. 具有显式特征映射的时间匹配在MM，第381- 390页[24] 我是你的朋友，马修·杜兹，科迪莉亚·施密德和赫夫·我是你的朋友。具有循环时间编码的大视频集合中的事件检索在CVPR，第2459-2466页，2013年。[25] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang，Andrej Karpathy，Aditya Khosla，Michael S.作者： Bernstein ， Alexander C. Berg 和 Fei-Fei Li 。Imagenet大规模视觉识别挑战赛。IJCV，115（3）：211[26] Michael W.威廉·施瓦茨Cowan，and John C. 打-泰。rgb， yiq ，lab ，hsv和对手颜色模型的实验比较。TOG，6（2）：123[27] Fumin Shen，Chunhua Shen，Qinfeng Shi，Anton vanden Hengel，Zhenmin Tang，and Heng Tao Shen.非线性流形上的散列。TIP，24（6）：1839[28] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年，国际会议。[29] Jingkuan Song，Yi Yang，Zi Huang，Heng Tao Shen，and Richang Hong.多特征散列用于实时大规模近似重复视频检索。在MM，第423[30] 凌王、雨宝、李豪杰、樊信、洛重轩。紧凑的基于CNN的视频表示，用于高效的视频拷贝检测。在MM中，第576-587页[31] Yair Weiss，Antonio Torralba，and Robert Fergus.光谱散列。NeurIPS，第1753-1760页，2008年[32] 作者：Alexander G.豪普特曼和吴忠华从网络视频搜索中实际消除近似重复。在MM，第218-227页[33] Chuan Xiao，Wei Wang，Xuemin Lin，Je

下载后可阅读完整内容，剩余1页未读，立即下载