ViSiL:细粒度时空视频相似性学习

134 浏览量更新于2023-10-16 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6351ViSiL：细粒度时空视频相似性学习Giorgos Kordopatis-Zilos1，2，Symeon Papadopoulos1，Ioannis Patras2，IoannisKompatsiaris11信息技术研究所，CERTH，塞萨洛尼基，希腊2Queen Mary University of London，Mile End road，E1 4NS伦敦，英国{georgekordopatis，papadop，ikom}@qmul.ac.uk iti.gr摘要在本文中，我们介绍了ViSiL，视频相似性学习架构，认为细粒度的空间-时间对视频之间的关系-相比之下，我们基于卷积神经网络（CNN）的方法经过训练，可以从细化的帧间相似性矩阵计算视频间相似性在所提出的方法中，通过在区域CNN帧特征上应用张量点（TD），然后应用倒角相似性（CS）来估计成对帧相似性-这避免了在帧之间的相似性计算之前的特征聚合随后，所有视频帧之间的相似性矩阵被馈送到四层CNN，然后使用倒角相似性（CS）总结为视频到视频的相似性得分-我们使用三重损失方案训练了所提出的网络，并在五个公共基准数据集上对四个不同的视频检索问题进行了评估，与现有技术相比，我们证明了很大的改进ViSiL的实施是公开的1.1. 介绍由于基于互联网的视频共享服务的普及例如，YouTube报告称，每天有近20亿用户和超过10亿小时的视频观看量。因此，基于内容的视频检索是视频过滤、推荐、版权保护、视频检索等应用的重要组成部分。1https://github.com/MKLab-ITI/visil2https：//www.youtube.com/yt/about/press/，2019年3月21日访问图1.针对两个视频对示例的ViSiL方法的帧到帧相似性矩阵和CNN输出的描述：包含来自同一事件的镜头的相关视频（顶部），具有虚假视觉相似性的不相关视频（底部）。核查和核查变得越来越具有挑战性。在本文中，我们解决的问题之间的相似性估计对视频，一个问题，是几个视频检索系统的核心。对此的直接这样的视频级表示包括全局向量[35，11，21]、散列码[35，11，21]、散列码[35，11，21]、散列码[35，11，21]、散列码[35，11，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21，21[30，23，31]和词袋（BoW）[5，20，22]。然而，这忽视了视觉相似性的空间和时间结构，因为特征的聚合受到杂乱和不相关内容的影响其他方法试图在相似性计算中考虑帧的时间序列，通过使用动态规划[7，24]，时间网络[32，17]和时间Hough投票[8，16]。另一种研究考虑基于递归神经网络（RNN）[10，14]或在傅立叶域[28，26，2]中的时空视频表示和匹配。这样的方法可以在诸如视频对准或复制检测的某些任务中实现高性能，但在更一般的检索任务中不能实现高性能。一个有希望的方向是更好地利用空间和6352相似度计算中的视频的时间结构[8，16，17]。然而，最近的方法要么关注帧的空间处理和完全不相关的时间信息[11，21]，要么考虑全局帧表示（基本上丢弃空间信息），然后考虑这些帧表示之间的时间对齐在本文中，我们提出了一个视频相似性学习网络ViSiL，它同时考虑了视觉相似性的空间（帧内）和时间（帧间）结构我们首先介绍了一种帧间相似性，该相似性在区域级帧卷积神经网络（CNN）特征上采用张量点（TD）乘积和倒角相似性（CS）这导致帧到帧相似性函数，其考虑区域到区域成对相似性，而不是计算区域细节丢失的帧级嵌入的相似性然后，我们计算具有两个视频之间的每对帧之间的相似性得分的矩阵，并将其用作四层CNN的输入，其后面是Chamfer相似性（即，均值-最大值滤波器）。通过这样做，我们学习相关视频的帧级相似性的时间结构，例如图1中的对角结构的存在，并抑制可能发生的虚假成对帧相似性。我们评估了几个视频检索问题，即近重复视频检索（NDVR），细粒度的事件和基于事件的视频检索（FIVR，EVR），和动作视频检索（AVR）使用公共基准数据集，在所有情况下，往往是一个很大的利润，它优于国家的最先进的ViSiL。2. 相关工作视频检索方法可以大致分为三类[25]，即使用全局视频表示计算相似性的方法，计算单个视频帧之间相似性的方法以及采用时空视频表示的第一类中的方法提取全局视频向量并使用点积或欧几里德距离来计算视频之间的相似性。Goa等人。[11]基于利用时间相关性并重新移动跨帧的特征冗余的特征对齐过程来提取整个视频的视频印记Kordopatis等人为从中间CNN层提取的特征创建了视觉码本[20]，并采用深度度量学习（DML）来训练网络，使用三元组损失方案来学习嵌入，以最大限度地减少相关视频之间的距离并最大限度地增加不相关视频之间的距离[21]。一个流行的方向是结合汉明距离为整个视频Liong等人[23]采用CNN架构来学习整个视频的二进制代码，并根据以下对进行端到端训练：生成的代码和视频类标签的明智距离Song等人。[31]建立了一个自我监督的视频哈希系统，能够使用编码器-解码器方案捕获帧之间的时间关系。这些方法通常优于其他两类方法。第二类别中的方法通常提取帧级特征以应用帧到帧相似性计算，并且然后将它们聚合成视频级相似性。Tan等人。[32]提出了一种通过关键点帧匹配生成的基于图的时间网络（TN）结构最近的几项工作采用了这种方法的修改来解决部分副本检测的问题，将其与全局CNN特征[17]和CNN+RNN架构[14]相结合。另外，其他方法采用时间霍夫投票[8，16]来通过时间霍夫变换来对齐匹配的帧。这些往往优于TN在几个相关的问题。另一种流行的解决方案是基于动态规划（DP）[7，24]。这种工作计算所有帧对之间的相似性矩阵，然后提取具有最大相似性的对角块。为了增加灵活性，它们还允许有限的水平和垂直运动。Chou et al. [7]and Liu et al.[24]结合DP和BoW匹配来测量帧相似性。然而，所提出的解决方案是不能够捕捉大量的时间相似性模式，由于其刚性的聚合方法。相比之下，属于这类方法的ViSiL学习CNN子网中的相似性模式，该CNN子网对帧对之间的相似性矩阵进行操作。第三类方法基于帧级特征提取时空表示，并使用它们来计算视频相似性。一个流行的方向是使用傅立叶变换的方式，占时间结构的视频相似性。Revaud等人[28]提出了循环时间编码（CTE），其利用傅立叶变换对时空表示中的帧特征进行编码，从而在频域中比较视频。 Poullot 等人 [26] 介绍了时间匹配内核（TMK），它使用考虑帧描述符和时间戳的周期性内核对帧序列进行编码。 Baraldi等人[2]建造- 基于TMK的深度学习层组件，并且建立训练过程以使用考虑视频相似性分数和时间对准两者的三元组损失来学习特征变换系数。然而，以前的方法依赖于全局框架表示，忽略了相似性的空间结构最后，Feng et al.[10]开发了一种基于交叉门控双线性匹配的视频重新定位方法他们采用了C3 D功能[34]，并构建了一个多层循环架构，通过注意力权重匹配视频-6353图2.所提出的架构的训练方案的概述将锚点、正视频和负视频的三元组提供给CNN以提取基于注意力机制进行PCA白化和加权的区域特征然后，计算正锚点对和负锚点对的张量点积，然后计算倒角相似性，以生成帧到帧的相似性矩阵。输出矩阵被传递到CNN以捕获视频之间的时间关系，并通过在输出上应用倒角相似性来计算视频到视频的相似性该网络使用三重损失函数进行训练。双箭头表示共享权重。ing和分解的双线性匹配来定位相关的视频部分。然而，即使这种方法在视频匹配问题上表现良好，但发现它不适用于视频检索任务，如第6节所示。3. 预赛张量点（ TD ）：有两个张量 A∈RN1×N2×K 和B∈RK×M1×M2，它们的TD（也称为张量收缩）是通过在特定的斧头根据[36]中的符号，两个张量的TD是C=A·（i，j）B（1）其中C ∈RN1×N2×M1×M2是张量的TD，i和j表示张量求和的轴在给定的示例中，i和j只能分别是3和1，因为它们是唯一具有相同大小（K）的倒角相似性（CS）：这是倒角距离的相似性对应部分[3]。考虑两组项目x和y，项目总数分别为N和M并且它们的相似性矩阵S∈RN×M，CS计算为4. ViSiL描述图2说明了所提出的方法。我们首先通过在特征映射上应用区域池化来从CNN架构的中间卷积层提取特征。这些基于注意力机制进一步PCA白化和加权（第4.1节）。此外，设计了一个基于TD和CS的相似性函数，以准确计算帧之间的相似性（第4.2节）。然后将包括所有成对帧相似性的相似性矩阵馈送到CNN以训练视频级相似性模型（第4.3节）。这是基于从训练数据集（第4.5节）中选择和自动生成的三元组，使用三元组丢失方案（第4.4节）进行训练的。4.1. 特征提取给定输入视频帧，我们在给定特定粒度级别LN，N∈{1 ， 2 ， 3 ， .{\fn 方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 给定一个CNN架构，总共有K个卷积，K在多个功能层中，该过程生成K个特征图M∈集合y中最相似项的平均相似度，集合X中的每个项目。这在等式2中公式化。ΣNRN×N×Ck（k= 1，…，其中，Ck是第k个卷积层的通道数。所有提取的特征图具有相同的分辨率（N×N），并且是连续的。1CS（x，y）=MaxS（i，j）（2）表示为框架表示M∈RN×N×C，其中Nj∈[1，M]i=1注意，CS不是对称的，即CS（x，y）CS（y，x），C= C1+. + CK. 我们还将2-归一化应用于特征图的通道轴，在对比之前和之后。连锁该特征提取过程表示为对称变体SCS可以被定义为，SCS（x，y）=（ CS（x，y）+ CS（y，x））6354/2。LN-iMAC。提取的帧要素保留空间不同粒度的帧的信息然后我们6355IJNFIJ类型内核大小/stride输出大小激活。Conv3×3 /1X×Y×32ReLUM-Pool2×2 /2X/2 ×Y/2 ×32-Conv3×3 /1X/2 ×Y/2 ×64ReLUM-Pool2×2 /2X/4 ×Y/4 ×64-Conv3×3 /1X/4 ×Y/4 ×128ReLUConv1×1 /1X/4 ×Y/4 ×1-图3.两个视频帧之间的帧级相似度计算的图示在此示例中，帧几乎是重复的。对提取的帧描述符采用PCA来执行白化和/或降维，如[15]中所述。对所提取的帧描述符进行归一化，导致所有区域向量在表1.视频相似性网络的架构学习对于输出大小的计算，我们假设提供了具有X和Y分解为它们的区域向量dij，bkl∈RC。然后，计算每对区域向量之间的点积计算，创建两个帧的相似性矩阵，并且CS被应用于相似性矩阵以计算帧到帧的相似性。相似度计算例如，这将意味着完全暗的区域将对与描绘感兴趣对象的区域的相似性具有相同的影响。为了避免这个问题，我们根据帧区域的CSf（d，b）=1 ΣNN2i，j=1Maxk，l∈[1，N]kl（4）通过视觉注意机制的显着性在区域向量的启发来自不同研究领域的方法，即。文件分类[37]。为了成功地使其适应视频检索的需要，我们建立了以下注意事项机制：给定具有区域向量rij 的帧表示M：M（i，j，·）∈RC，其中i∈[1，N]，j∈[1，N]，我们引入视觉上下文单元向量u并使用它来度量每个区域向量的重要性为此目的，我们计算每个Rij区域向量与内部上下文向量u之间的点积，以导出权重得分αij。由于所有向量都是单位范数，所以αij将在[−1，1]范围内。为了保持区域向量等式3用公式表示加权过程。此过程利用捕获通过区域向量，并提供一定程度的空间不变性。更具体地，CNN提取对应于中级视觉结构（诸如对象部分）的特征，并且与CS组合，其通过设计而忽略区域到区域矩阵的全局结构，构成针对空间变换的鲁棒相似性计算过程，例如：空间转移这呈现了帧结构的保留与对空间变换的不变性之间的折衷。4.3.视频间相似度为了对分别具有X帧和Y帧的两个视频q、p应用帧到帧相似性，我们对对应的视频张量Q和P应用TD结合CS，并且推导出帧间相似性矩阵Sqp∈RX×Y。αij =urij，s.t. uF这在等式5中用公式表示。′=（αij/2 + 0。5）R ij（三）2qp1加权过程中的所有函数都是可微的;因此，u是通过训练过程学习的。不像Sf=N2i=1Max Q·（3，1）Pj∈[1，N2]（·，i，j，·）（5）在文献中的共同做法，我们不适用任何对计算的权重的归一化函数（例如，soft-max或除以和），因为我们希望独立地对每个向量进行加权。另外，我们还发现，与其他研究不同的是，在注意力模型中使用隐藏层会对系统的性能产生负面影响4.2.帧间相似性给定两个视频帧d、b，我们在它们的区域特征图上应用CS来计算它们的相似性（图3）。首先，区域特征图Md，Mb∈RN×N×C是其中TD轴指示对应视频张量的通道维度。以这种方式，我们对每个帧对应用等式4。为了计算两个视频之间的相似性，将从先前过程导出的生成的相似性矩阵Sqp提供给CNN网络。该网络能够学习视频内相似性的鲁棒模式在段级。表1显示了所提出的ViSiL框架的CNN架构的架构。为了计算最终的视频相似度，我们对网络输出的值应用硬tanh激活函数R6356vvvv其裁剪范围[-1，1]内的值。然后，我们应用CS来导出如等式6中的单个值。′视觉内容在训练期间充当锚定正对此外，我们通过对任意视频应用一些变换来人工生成正面视频CSv（q，p）=1ΣXX′i=1Maxj∈[1，Y′]Htanh（Sqp（i，j））（6）我们考虑三种类型的转换：（i）颜色，包括转换为灰度、亮度、对比度、色调和饱和度调整，（ii）几何，包括水平-其中Sqp∈RX′×Y′是CNN网络的输出，Htanh表示逐元素硬tanh函数。网络的输出必须是有界的，因此，在等式7中设置裕度。类似于帧到帧相似性计算，该过程是在尊重视频级结构和对一些时间差异不变之间的权衡。结果，可以捕获帧到帧相似性矩阵中的不同时间相似性结构，例如：强对角或对角部分（即，包含的序列）。4.4. 损失函数目标视频相似性得分CSv（q，p）对于相关视频应该更高，而对于不相关视频应该更低。为了训练我们的网络，我们将视频集合组织成视频三元组（v，v+，v−），其中v，v+，v−代表锚点，a正（即，相关），以及负（即，无关）视频分别为了迫使网络为正视频对分配更高的相似性分数，为负视频对分配更低的相似性分数，我们使用Ltr=max{0，CSv（v，v-）- CSv（v，v+）+γ}（7）其中γ是裕度参数。此外，我们定义了一个相似性正则化函数，惩罚硬双曲正切输入中的高值，这将导致饱和输出。这是驱动网络生成输出矩阵Sv值在范围[-1，1]内，这是限幅范围关于Hard Tanh 为了计算正则化损失，我们模拟-对输出相似度矩阵中落在裁剪范围之外的所有值进行求和（等式8）。X′Y′缩放或垂直翻转、裁剪、旋转、调整大小和重新缩放，以及(iii)时间，包括慢动作、快进、帧插入、视频暂停或反转。在训练期间，从每个类别中随机选择一个变换并将其应用于所选视频。我们构建了两个视频池，包括积极的对。对于每一个正对，我们然后生成硬三元组，即构建与锚点的相似度大于锚点和正视频之间的相似度的负视频（硬负）在下文中，我们使用BoW方法[20]来计算视频之间的相似性。第一个池来自训练数据集中的注释视频。两个视频至少有五秒的重叠构成一个正对。设s为对应视频片段的相似度。具有大于s的相似度（基于BoW [20]）的视频与正对中的任一片段构成硬负片。第二个池来自训练数据集的任意视频，用于人工生成阳性对。与初始视频相似的视频（相似性>0。（1）被认为是消极的。为了避免潜在的近似重复，我们排除了相似度> 0的视频。5、消极的态度。在每个训练时期，我们从每个视频池中采样T个三元组。由于GPU内存限制，我们不会将整个视频馈送到网络。我们选择来自三元组中的每个视频的总大小为W帧的随机视频片段，确保在锚视频和正视频之间存在至少五秒的重叠5. 评估设置该方法在四个检索任务上进行了评估，即近重复视频检索（NDVR），Lreg= ΣΣi=1j=1|+|++|min{0，Sqp（i，j）+1}|（八）细粒度事件视频检索（ FIVR ）、事件视频检索（EVR）和动作视频检索（AVR）。在所有情况下，我们报告平均精度（mAP）。最后，总损失函数在等式9中给出L=Ltr+rLreg（9）其中r是调整相似性正则化对总损失的贡献的正则化超参数。4.5. 培训ViSiL训练ViSiL架构需要一个训练数据集，该数据集具有段级的地面实况注释。使用这样的注释，我们提取视频对与相关5.1. 数据集VCDB[16]用作训练数据集，以生成用于训练我们的模型的三元组。它由528个视频组成，核心数据集中有9，000对复制片段，以及100，000个干扰视频的子集。CC WEB VIDEO[35]模拟了NDVR问题。它由24个查询集和13，129个视频组成。我们发现注释存在一些质量问题，例如：许多积极的东西被错误地贴上了消极的标签。因此，我们提供了一个“干净”版本的注释的结果我们也用两个6357评估设置，一个仅测量查询集的性能，另一个测量整个数据集的性能。FIVR-200 K用于FIVR任务[19]。它包含225，960个视频和100个查询。它包括三个不同的检索任务：a）重复场景视频检索（DSVR），b）互补场景视频检索，trieval （ CSVR ），以及 c ）事件场景视频检索（ISVR）。为了快速比较不同的变体，我们使用FIVR-5 K，FIVR-200 K的子集，通过选择DSVR任务中50个最困难的查询（使用[20]来测量难度），并为每个查询随机挑选每个标签类别的30%注释视频。EVVE[28]是针对EVR问题设计的。它由2，375个视频和620个查询组成。然而，由于不可用，我们只下载和处理了1897个视频和503个查询（占初始数据集的剩下的人。最后，基于[10]重组的ActivityNet[4]用于AVR任务。它包括3，791个培训、444个验证和494个测试视频。注释包含与特定动作相对应的精确视频片段。为了评估，我们认为任何一对视频至少有一个共同的标签相关。5.2. 实现细节我们为每个视频每秒提取一帧。对于除AVR之外的所有检索问题，我们使用基于ResNet-50 [13]的第4.1节的特征提取方案，但出于效率目的，仅从四个残差块的输出图中提取中间特征。此外，白化层的PCA是从从VCDB中的视频采样的1M个区域向量中学习的。对于AVR，我们通过空间维度上的最大池化从I3D架构[6]的最后3D卷积层提取特征我们还测试了I3D的其他检索问题，但没有任何重大改进。对于训练，由于GPU内存限制，我们一次只向网络提供一个视频三元组。我们-使用亚当优化[18]，学习率l=10−5。对于每个时期，每个池选择T=1000个三联体。的模型被训练100个时期，即200K次迭代，并根据验证集上的平均精度（mAP）选择最佳网络。其他参数设置为γ=0。5，r=0。1且W=64。特征提取CNN和白化层的权重保持固定。6. 实验在本节中，我们首先将提出的帧间相似性计算方案与具有点积相似性的几个全局特征进行比较（第6.1节）。我们还提供了一项消融研究，以评价不同配置下的拟议入路最后，我们比较了特征迪姆斯DSVRCSVRISVRMAC[33]20480.7470.7300.684SPoC[1]20480.7350.7220.669R-MAC[33]20480.7770.7640.707GeM[12]20480.7760.7680.711iMAC[20]38400.7550.7490.689L2-iMAC4x38400.8140.8100.738L2-iMAC4x5120.8040.8020.727L3-iMAC9x38400.8380.8320.739L3-iMAC9x2560.8230.8180.738表2.所提出的特征提取和相似度计算与现有技术特征描述符的mAP比较，所述特征描述符具有用于FIVR-5 K上的相似度计算的点积基于CS在导出的相似性矩阵上计算视频在每个问题中，最先进的最佳执行方法（据我们所知）（第6.3节）。我们重新实现了两种流行的方法，采用帧级表示的相似性计算，即。[27][28][29][29] 然而，它们最初都是结合手工制作的功能提出的，这是一种过时的做法。因此，我们将它们与所提出的特征提取方案和帧到帧的相似性计算相结合。我们还实现了公开可用的视频重新定位（VReL）方法[10]对检索设置的朴素适应，其中我们基于预测片段的概率对视频进行排名（原始论文中的等式12）。6.1. 帧间相似性比较本节将所提出的特征提取方案与文献中提出的几种全局池化方案在FIVR-5 K上进行比较。点积用于相似度计算。所有运行的视频级相似性通过在生成的相似性矩阵上应用原始CS来计算。基准特征提取方法包括最大卷积激活（MAC ）[33]、总和合并卷积特征（SSEF）[1]、区域最大卷积激活（R-MAC）[33]、广义均值（GeM）合并[27]（初始p=3）[27]中的表1）和中间最大卷积激活（iMAC）[20]，其等效于针对N=1提出的特征提取。此外，我们评估所提出的方案与区域水平LN，N=2，3，并与两个不同的区域向量大小为每个区域水平。我们使用PCA减少区域向量表2显示了FIVR-5 K的比较结果。所提出的方案与N=3（L3-iMAC）实现了最好的结果，在所有的评估任务的一个大的马-金酒此外，值得注意的是，减少的特征实现了有竞争力的性能，特别是与6358相似维度的全局描述符。因此，在存储空间不足的设置中，减少的ViSiL特征提供了检索性能和存储成本之间的极好的权衡。我们还尝试将建议的方案与其他汇集方案相结合，例如GeM池，但这对系统的性能没有明显的影响接下来，我们将考虑最好的每-形成方案（L3-iMAC无降维）作为基本帧间相似性方案ViSiLf.6.2. 消融研究我们首先评估每个单独的模块的架构上的检索性能的ViSiL的影响。表3显示了FIVR-5 K上不同配置设置的四次运行结果。使用主训练过程训练第三轮中的注意力机制。每个组件的添加都为系统的性能提供了额外的提升。DSVR和CSVR任务的最大改进分别为0.024和0.021 mAP，这是由于在ViSiLv.此外，ISVR任务（0.018 mAP）的可观收益是由于注意力机制的应用。我们还报告结果时，对称倒角距离（SCS）用于帧到帧和视频到视频的相似性计算（ViSiLsym）。显然，CS的非对称版本在这个问题上工作得更好。任务DSVRCSVRISVRViSiLf0.8380.8320.739ViSiLf+W0.8440.8370.750ViSiLf+W+A0.8560.8480.768ViSiLsym0.8300.8230.731ViSiLv0.8800.8690.777表3.FIVR-5 K的消融研究W和A分别代表注意机制和控制机制另外，我们评估了等式8的相似性正则化损失L_reg的影响。这似乎对系统的检索性能有显著影响。所有三项任务的mAP均增加，DSVR和ISVR任务的mAP改善超过0.02 mAP。LregDSVRCSVRISVR✗0.8590.8420.756C0.8800.8690.777表4.相似性正则化对所提出的方法在FIVR-5 K上的性能的影响在补充材料中，我们评估了CS以外的相似性函数的性能，超参数γ、W和r的不同值的影响，以及该方法的计算复杂性。6.3. 与最新技术6.3.1近似重复视频检索我们首先在CC WEB VIDEO的几个版本上比较了ViSiL与最先进方法的性能将所提出的方法与公开可用的深度度量学习（DML）[21]，循环时间编码（CTE）[28]（我们报告了原始论文的结果）以及我们基于动态规划（DP）[7]和时间网络（TN）[32]的两个重新实现进行了比较。与所有竞争系统相比，ViSiLv使用nal注释（CTE表现最好的地方）。在这种情况下，有几个错误的注释如上所述。当在“清洁”版本上进行测试时，ViSiL在两种评估设置下都获得了近乎完美的此外，值得注意的是，我们对最先进方法的重新实施导致了比原始论文中报告的结果好得多的结果，这意味着与原始报告的结果直接比较对ViSiL更有利。方法CCWebcc网站*cc webccc网站*CDML[21]0.9710.9410.9790.959[28]第二十八话0.996---DP[7]0.9750.9580.9900.982[32]第三十二话0.9780.9650.9910.987ViSiLf0.9840.9690.9930.987ViSiLsym0.9820.9690.9910.988ViSiLv0.9850.9710.9960.993表5.三种ViSiL设置和SoA方法在四个不同版本的CC WEBVIDEO上的mAP。表示对整个数据集的评估，下标c表示使用注释6.3.2细粒度事件视频检索在这里，我们评估了ViSiL与FIVR-200 K上最先进方法的性能[19]。我们与原始论文中报道的最佳性能方法进行了比较，即。层字袋（LBoW）[20]，采用VGG[29]的iMAC功能以及我们对DP [7]和TN [32]的两种重新实现。此外，我们测试了我们对VReL的适应[10]，但没有成功（无论是在VCDB上还是在ActivityNet上训练时）。如表6所示，ViSiLv优于所有竞争系统，包括DP和TN。它的性能在DSVR任务上相当高，几乎达到0.9 mAP。在对错误结果进行手动检查时，我们遇到了一些有趣的情况（在排名最高的不相关视频中），这些情况实际上应该被视为阳性结果，但没有被标记为阳性结果（图4）。6359方法地图每个事件类LAMV[2]0.5360.7150.3830.1580.4610.3870.2770.2470.1380.2220.2730.2730.9080.691LAMV+QE [2]0.5870.8370.5000.1260.5880.4550.3430.2670.1420.2300.2930.2160.9500.776ViSiLf0.5890.8890.5700.1690.4320.3450.3930.2970.1810.4790.5640.3690.8850.799ViSiLsym0.6100.8640.7040.3570.4400.3630.2950.3700.2140.5770.3890.2660.9430.702ViSiLv0.6310.9180.7240.2270.4460.3900.4050.3080.2230.6040.5780.3990.9160.855表7.在EVVE上使用LAMV [2]的三种ViSiL装置的mAP比较。[28]这是一个类似于[29]的事件。我们的结果是在视频的一个子集（原始数据集的约80%）上报告的，因为完整的原始数据集不可用。运行DSVRCSVRISVRLBoW[20]0.7100.6750.572DP[7]0.7750.7400.632[32]第三十二话0.7240.6990.589ViSiLf0.8430.7970.660ViSiLsym0.8330.7920.654ViSiLv0.8920.8410.702表6. FIVR-200 K三项任务的三种ViSiL设置和最先进方法的mAP比较方法地图方法地图DML[21]0.705ViSiLf0.652VReL[10]0.209ViSiLsym0.745DP[7]0.621ViSiLv0.710[32]第三十二话0.648图4.在FIVR-200 K中错误地未标记为阳性的相关视频的挑战性案例示例。6.3.3事件视频检索对于EVR，我们将ViSiL与最先进的学习对齐和匹配视频（LAMV）方法进行了比较[2]。ViSiL在EVR问题上表现良好，即使没有应用任何查询扩展技术，即。平均查询扩展（AQE）[9]。如表7所示，ViSiLv在数据集中的大多数事件上实现了最佳结果然而，由于一些视频不再可用，我们报告目前的结果占原始EVVE数据集约80%的可用数据6.3.4动作视频检索我们还评估了基于[10]重组的ActivityNet [4]的拟议方法的性能。我们与公开可用的DML方法[21]、我们对DP [7]和TN [32]的重新实现以及适应的VReL [10]进行了比较。对于所有运行，我们从I3D中提取特征[6]。所提出的方法与对称相似性计算ViSiLsym优于所有其他方法的一个相当大的利润率（0.035 mAP）的第二个最好的。表8.三个ViSiL设置和四个公开的基于[10]的重组，ActivityNet上可用的检索方法。7. 结论在本文中，我们提出了一个学习计算视频对之间相似性的网络。ViSiL的关键贡献是a）帧到帧相似性计算方案，其捕获区域级别的相似性;以及b）监督视频到视频相似性计算方案，其分析帧到帧相似性矩阵，以稳健地建立比较视频的视频片段之间的高相似性。结合起来，他们导致一个视频相似性计算方法，这是占细粒度的空间和时间方面的视频相似性。所提出的方法已被应用到一些基于内容的视频检索问题，在那里它提高了国家的最先进的一致，在几种情况下，由一个大的利润率。对于未来的工作，我们计划研究降低计算复杂度的方法，并将所提出的方案应用于相应的检测问题（例如，视频拷贝检测、重新定位）。致谢：这项工作得到了WeVer- ify H2020项目的支持，该项目部分由欧盟资助，合同编号为825297。IoannisPatras 的工作得到了 EPSRC 的支持，资助号为：EP/R026424/1。GKZ还感谢LazyProgrammer提供的令人惊叹的DL课程。6360引用[1] Artem Babenko和Victor Lempitsky。聚合局部深度特征用于图像检索。在IEEE计算机视觉国际会议论文集，第1269- 1277页[2] LorenzoBaraldi，Matthijs Douze，Rita Cucchiara和Herve'J e' gou。LAMV：学习对齐和匹配视频与k-nelized时间层。在IEEE计算机视觉和模式识别会议论文集，第7804-7813页[3] Harry G Barrow，Jay M Tenenbaum，Robert C Bolles和Helen C Wolf。参数对应和倒角匹配：图像匹配的两种新技术技术报告，SRI AI中心，1977年。[4] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。在IEEE计算机视觉和模式识别会议论文集，第961-970页，2015年[5] 杨才，杨林军，魏平，王飞，陶梅，华先胜，李世鹏.百万级近似重复视频检索系统。第19届ACM国际多媒体会议论文集，第837-838页。ACM，2011年。[6] Joao Carreira和Andrew Zisserman。什么是行动识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议论文集，第4724-4733页。IEEE，2017年。[7] 周建利，陈华宗，李淑贤基于模式的网络视频相似度检索与定位IEEE Transactions on Multimedia，17（3）：382[8] Matth i jsDouze，Her ve'J e' gou，andCordeliaSchmid.一种基于图像的视频拷贝检测与时空后滤波方法。IEEETransactions on Multimedia，12（4）：257[9] MatthijsDouze，Je'roRummeRevaud，CordeliaSchmid，and Herve e'Je'gou. 用于事件检测的稳定类型池和查询扩展在IEEE计算机视觉国际会议论文集，第1825-1832页[10] 杨峰，马琳，刘伟，张彤，罗杰波。视频重新定位。在欧洲计算机视觉会议论文集，第51-66页[11] Zhanning Gao，Gang Hua，Dongqing Zhang，NebojsaJojic ， Le Wang ， Jianru Xue ， and Nanning Zheng.ER3：事件检索、识别和叙述的统一框架。在IEEE计算机视觉和模式识别会议论文集，第2253-2262页[12] Yanbin Hao，Tingting Mu，John Y Goulermas，JianguoJiang，Richang Hong，and Meng Wang.无监督t分布视频哈希及其深度哈希扩展。IEEE Trans-actions on ImageProcessing，26（11）：5531[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on Computer Vision and PatternRecognition，第770-778页[14] 胡耀聪和卢晓波。结合cnn与rnn学习视频拷贝检测的时空特征视觉传达和图像表现杂志，55：21[15] 她的ve'J e' gou和On dˇrejChum。图像检索中的证据和共现：PCA和白化的好处欧洲计算机视觉会议论文集，第774-787页。Springer，2012.[16] Yu-Gang Jiang ， Yudong Jiang ， and Jiajun Wang.VCDB：用于视频中部分复制检测的大型数据库。在欧洲计算机视觉会议论文集，第357-371页。Springer，2014.[17] 姜玉刚和王家军。视频中的部分复制检测：对流行方法的基准和评估。 IEEE Transactions on Big Data ， 2（1）：32[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[19] Giorgos Kordopatis-Zilos 、 Symeon Papadopoulos 、Ioannis Patras 和 Ioannis Kompatsiaris 。 FIVR ： Fine-grained Incident Video Retrieval 。arXiv预印本 arXiv：1809.04094，2018。[20] Giorgos Kordopatis-Zilos 、 Symeon Papadopoulos 、Ioannis Patras和Yiannis Kompatsiaris。通过聚合中间cnn层的近似重复视频检索。在多媒体建模国际会议上，第251-263页。Springer，2017.[21] Giorgos Kordopatis-Zilos 、 Symeon Papadopoulos 、Ioannis Patras和Yiannis Kompatsiaris。使用深度度量学习进行近乎重复的视频检索在IEEE计算机视觉国际会议论文集，第347- 356页[22] Kaiyang Liao ， Hao Lei ， Yuanlin Zheng ， Guangfeng

下载后可阅读完整内容，剩余1页未读，立即下载