没有合适的资源?快使用搜索试试~ 我知道了~
43218212用于可伸缩视频检索的李淑燕1,4,陈志祥1,2,3,陆继文1,2,3,*,李秀1,4,周杰1,2,31清华大学自动化系2智能技术与系统国家重点实验室3北京国家信息科学技术研究中心4清华大学深圳研究生院li-sy16@mails.tsinghua.edu.cn; xiu.li @sz.tsinghua.edu.cnjzhou@tsinghua.edu.cn lujiwen@tsinghua.edu.cnzxchen@mail.tsinghua.edu.cn摘要在本文中,我们提出了一个邻域保持哈希(NPH)的可伸缩视频检索方法在无监督的方式。与大多数现有的深度视频散列方法不加区别地将整个视频压缩成二进制代码不同,我们将时空邻域信息嵌入到编码网络中,使得视频的邻域相关视觉内容可以在邻域信息的指导下优先编码成二进制代码具体来说,我们提出了一个邻域注意机制,它侧重于部分有用的内容,每个输入帧的条件下的邻域信息。然后,我们将邻域注意机制集成到基于RNN的重构方案中,以鼓励二进制代码捕获与邻域中的时空结构一致因此,学习的散列函数可以将类似的视频映射到类似的二进制代码。在三个广泛使用的基准数据集上的大量实验验证了我们提出的方法的有效性。1. 介绍可扩展视频检索在给定查询视频的情况下从大型数据库中寻找相似视频通常,视频由采样帧表示,并且每个帧由代表性特征表征。利用帧特征的集合来识别相关视频或最近邻居。 面对高维特征和大规模数据集,散列方法在可伸缩视觉检索中引起了很多关注[1-10]。视频散列方法将每个视频的帧特征编码为紧凑的二进制代码,同时使视频之间具有相似性*通讯作者图1:邻域保持哈希的基本思想.时空邻域信息被嵌入到编码网络中,以引导编码器优先将视频的相关视觉内容压缩成二进制代码。[11-22]在Hamming空间中被保存。其中,基于学习的视频哈希方法学习数据相关和特定于任务的哈希函数,取得了良好的搜索精度[23在过去的十年中,散列函数已被集成到各种深度学习架构中,以获得有前途的性能。通常,深度视频散列方法经由深度神经网络将整个视频压缩成二进制代码,并在散列层之上应用相似性保留标准以学习散列函数[13,18-20]。然而,由于视频包含复杂的、冗余的并且有时对于最近邻搜索是模糊的内容另一方面,人工标记是费时费力的,特别是对于大规模的视频数据集,这使得监督散列方法不太可行的可扩展的视频检索。43218213i=1M×l我≥−m=1我我 m=1我 m=1- -在这项工作中,我们提出了一个邻域保持哈希(NPH)的可伸缩视频检索方法在无监督的方式。如图1所示,我们将每个输入视频的时空邻域信息嵌入到NPH编码网络中,使得编码器在邻域信息的指导下学习将视频的邻域相关内容压缩成二进制代码。具体来说,我们开发了一个neighh- borhood注意机制,集中在part-tial有用的内容在每个输入帧,而不是同等对待整个输入,由附近的信息引导。此外,我们将邻域注意机制集成到基于RNN的重建方案中,使得鼓励二进制代码捕获视频中的邻域相关时空结构在三个广泛使用的视频数据集上的实验表明,NPH的性能优于最先进的方法,也验证了我们提出的邻域注意机制的有效性2. 相关工作深度无监督视频哈希。李等人[17]通过进一步利用外观结构扩展了SSTH。然而,他们都忽视了对邻里结构的开发. Song等人。 [18]试图通过在哈希层之上设计邻域相似性损失来弥补这一缺点。Wu等人。 [19]提出了无监督深度视频哈希(UDVH),其试图在二值化视频特征时平衡每个维度的变化。然后,他们通过用时间分段网络(TSN)[31]替换基线模型LSTM [29,30]来扩展UDVH [28]。然而,所有这些方法无差别地从视频中提取整个内容,而不区分它是否与邻居中的内容相关,这不可避免地导致次优散列码。3. 方法3.1. 邻域保持编码令X=XiN表示N个视频的集合。对于每个视频,我们统一采样M帧,并使用传统的卷积神经网络处理它们(CNN)得到一组帧特征{vm}M∈R。在 一般来说,学习型 视频散列方法vmi m=1分为监督方法和非监督方法[24,25]。监督学习范式提出学习se-我表示帧中第i个视频的第m帧特征。Rl. 我们的目的是学习一个非线性映射到转移标架特征{vm}M到k位二进制码b∈ {−1,1}mantically相关的散列函数通过使用手动标记的数据[11,13,15,27]。例如,Ye等人 [11]提出了具有鉴别性公共性和时间一致性(VHDT)的视频散列,以利用连续帧之间的一致性。Liong等人。 [13]提出了深度视频散列(DVH),其最小化二进制代码的类内变化并最大化二进制代码的类间Yu等人[27]定义了一种新的度量来选择关键帧,并应用成对约束来在语义级捕获事件的局部属性。他们的选择规则是手工制作的,在帧级,因此是不同于我们的。一般来说,监督方法比无监督方法取得了更好的整体性能,但是,时间和使得视频之间的相似性结构被很好地预处理。在Hamming空间中使用。与不加区别地从视频中提取整个内容的大多数现有深度视频散列方法不同,我们优先将视频的邻域相关内容编码成二进制代码,由邻域信息引导。具体来说,我们嵌入时空neigh-borhood信息到编码网络通过一个拟议的邻域注意机制。由于相似视频的邻域信息趋于相似,因此可以指导将相似视频投影到相似的二进制码。编码器首先在空间-时间邻域信息的指导下将输入帧特征{v,m}M映射到邻域保留视频表示ti:劳动消耗标签要求使他们imprac-用于可伸缩视频检索。ti=E({vm}M,ni,θ)。(一)无监督视频散列方法集成数据属性以学习散列函数,使得视频之间的相似性结构保留在汉明空间中[12 , 16-19 , 28] 。 早 期 的 作 品 , 如 多 特 征 散 列(MFH)[12],将图像散列技术扩展到视频散列,而忽略了利用时间结构。近年来,RNN(其在捕获序列中的长期依赖性方面是著名的)已经被广泛用于捕获视频中的时间结构[16-18]。其中,Zhang等人。 [16]提出 了 基 于 二 元 自 动 编 码 器 的 自 监 督 时 态 散 列(SSTH),这被认为是开创性的其中ni是Rb中的时空邻域表示,θ是编码网络的可学习参数集,并且E是非线性投影。然后,它将ti离散化到邻域中,保持二进制码bi:bi=sgn(ti),(2)其中sgn(x)= 1,如果x0和sgn(x)=1否则。邻里关注机制:邻域注意机制是以时空邻域信息为条件优先合并输入帧的内容,其灵感来自于K432182141+e√我i=1Nnn≪√i=1J j=1J j=1J j=1I1I2ia- -----nn×d联系我们联系我们ii1i 2ia关系递归神经网络(rRNN)[32]。rRNN的核心是一个记忆状态,它通过关注以前的记忆状态和新的输入来更新在时间步长t处,其中,MLP表示多层感知器,BN表示批量归一化。σ表示S形函数:σ(x)=1−x。tanh表示双曲正切函数:将新的输入帧特征v_t编码到存储器中sinh(x)ex−e−x我状态mi,t如下:tanh(x)=cosh(x)=ex+e−x。值得注意的是不. mi,t−1Wq([mi,t−1;vt]Wk)Tmi,t=softmaxiDKt v(三)项mi,t代替标准中的输入向量viLSTM。在编码周期期间,在-张力机制被认为是抑制不相关×[mi,t−1;vi]W,其中mi,t在Rb中,并且mi,0是随机初始化向量。dk是缩放因子。[x1;x2]表示行式连接-或者甚至是输入帧中的误导性内容。 我们绘制了- 经由全连接(FC)层将最后一个时间步的隐藏状态向量hi,M映射到视频表示tix1和x2的国家。Wx表示可学习的参数矩阵。(3)是自我注意的扩展,其中[mi,t;vt]ti=FC(hi,M 、k)、(10)用于计算键和值,并且mi,t用于计算查询[33]。它形成了对记忆状态和新输入的注意。该机制能够学习以存储器状态中包含什么为条件来确定输入帧中的哪些内容应当被优先写入存储器状态。虽然rRNN能够利用视频中的时空结构,但仅仅参考视频中的固有为了利用邻域相关的时空结构,我们通过将时空邻域信息嵌入到记忆状态中来构造邻域注意机制。我们假设对于每个输入视频xi,表示ni已经被很好地开发以携带邻域信息。 我们将ni集成到存储器状态中,使得时空邻域信息引导将注意力集中在输入帧中的相关内容上。在将ni合并到内存状态的各种方法中,我们选择仅在第一时间步注入它,以防稀释输入的内容视频如下:.ΣnWq([n;v1]Wk)T其中FC(x,y)表示将向量X映射到Ry中的向量的线性函数。 以这种方式,邻域保留编码器可以学习以邻域信息为条件来捕获视频中有用的时空结构,从而更好地保留邻域结构。邻域表示计算:邻域表示包含第i个视频的空间-时间邻域信息。我们将其表述为时空表征的整合输入视频的最近邻居的图像。对于数据库中的每个视频xi,我们采用LSTM自动编码器[34]从LSTM编码器的最后隐藏状态获取Rd中的时空特征yi我们使用yiN来表示训练视频的时空特征集。然后我们对yi执行K均值聚类以获得n个中心uR中.我们认为,成为一个锚定装置。 我们对待u的构造作为预处理步骤,因此我们不会在这一步上花费额外的时间用于将来的训练和评估。此外,我们设置n N,因此锚集合不需要太多的存储空间。对于第i个输入视频, 我们找到最近的一个通过对yi和所有mi,1=softmaxi我我[ni;v1]Wv.∗ ndki(四)在{uj}j=1中锚定。我们采用l2范数进行离散-费用计算 我们设一个nN,这样就可以计算出当t >1时,存储器状态m,t用(3)更新。由于邻域信息已经被嵌入到存储器状态中,因此在每个时间步,它将与新的输入帧交互并且引导将邻域相关内容并入到存储器状态中。我们将邻域注意机制集成到标准LSTM网络中,以形成邻域保留编码网络。我们设计门和单元更新如下:使用最近的锚需要很少的额外时间。 我们使用你好,你好,... u*(i1,i2,…, ia 1、2、… n)来表示第i个输入视频的a个最近的锚点,并以逐行方式将它们连接起来。然后,我们通过FC层投影关联以获得空间-时间邻域表示n1,如下所示:n=FC([u*;u*;.. ;u*],b).(十一)3.2. 邻域保持学习我受哈希我函数学习[16-i重建方案,如图2所示。与大多数现有的方法只重建输入特征不同,我们设计了几种重建原理和结构。ii,t=σ(Wivvt+Wihhi,t−1)(五)fi,t=σ(Wfvvt+Wfhhi,t−1)(六)oi,t=σ(Wovvt+Wohhi,t−1)(七)ci, =BN(fi,t⊙ci,t−1+it⊙MLP(mi,t))(8)43218215∈−联系我们2我i=1我i=1n图2:基于RNN的重构流水线。绿色区域表示编码周期。三角形表示邻域注意机制。省略了二值化、邻域表示计算和帧特征提取响应损失以学习邻域保持散列函数。1)我们从二进制码重构邻域结构以确保邻域得到截断相似矩阵YRN×n。它的每个条目计算为:exp(−Dist(y,u*)/t)在Hamming空间中保留结构。因此,委员会认为,Σ,ij宜友,,j∈i我们设计一个邻域相似性损失L来描述Yij=一j′=1 X-ray(,′i、j )/t(十三)S时空特征空间中的邻域结构与汉明空间中的邻域结构之间的差异。2)为了确保二进制代码包含视频中的视觉内容,我们设计了一个RNN解码器来重建帧特征。我们使用视觉内容重建损失Lvr来描述输入帧特征和重建特征之间的差异。3)期望邻域信息在整个编码阶段中提供指导,因此它应该被包含在最后的存储器状态mi,M中。0,否则其中表示yi的最近锚的索引。Dist()是距离计算函数,我们使用l2范数。t是带宽参数。根据[37,38],近似邻接矩阵A被计算为:A=YΛ-1ΥΤ,(14)其中Λ=diag(YT1)∈Rn×n. 近似的adja-因此,我们重建时空邻居-hood表示,M.我们设计了一个邻域信息重建损失L_nr来表示时空邻域表示和重建的邻域之间的差异。总之,我们将训练损失L设计为这三种损失的组合:Cency矩阵A是非负稀疏矩阵,其中每行或每列的条目总和为1。如果近似邻接矩阵A ij的第(i,j)个条目> 0,则设置Sij=1,否则设置Sij=1。我们将S的构造作为计算效率的预处理步骤我们定义了两个二进制码bi和bi之间的相似度bj为S~i,j=1bTbj。对于稳定的训练,我们用Si,jKiL=α1Ls+α2Lvr+α3Lnr,(12)有一个近似的Si,j:Sij=1tTtj,其中ti为Ki其中α1、α2和α3是平衡这三个损失的超参数。邻域相似性损失。为了计算邻域相似性损失Ls,我们需要预先在时空特征空间中对邻域结构进行建模。而不是像[18]那样构建kNN图,我们选择构建近似邻域图S基于小的锚点集合,以便于计算ef。引入了k维邻域保持表示在第3.1小节中。我们使用均方误差(MSE)来表示时空特征空间中的邻域结构与Hamming空间中的邻域结构之间的差异此外,我们还引入了一个关于bi和ti的辅助均方误差项,以减小这种差异在S〜ij和Si,j之间。因此,我们有一个特定的形式对于(12)的邻域相似性损失Ls效率其每个条目表示第i和第j训练视频的空间-时间特征之间的相似性,其中i和j∈ {1,2,…N}个。作为德-Ls=1ΣNN2ΣN(Sij−ΣNtTtj)2+千千牛顿||二、||2.在3.1小节中描述的,首先我们建立一个时空i=1j=1i=1(十五)特征集{yi}N和锚点集{u}。 然后,对于每个时空特征yi,我们计算其a最近锚u*,u*,..., u*。有了这些变量,我们就能...1143218216视觉内容重建损失:为了确保二进制代码捕获视频中的视觉内容,我们使用LSTM解码器来重建帧特征i1i 2ia43218217我∈我我∈我2我min(R,K)ΣKm=1我 m=1我----并且最小化输入帧特征v_m_M与重构帧特征v_m_M之间的差异。详细地,我们将二进制代码bi投影到实值向量v~0Rl. 在第一时间步,我们将v~0输入到解码器中并获得第一重构帧特征v~1Rl从解码器r的输出中解码。 然后,我们将v~1注入解码器以获得v~2。我们的行为相似检索结果。如果第i个检索到的视频被认为属于与查询相同的类别,则Ii= 1,否则Ii= 0我们将两个样本定义为同一类别,只要它们共享至少一个相似的标签 。 我 们 使 用 所 有 查 询 上 的 AP@K 的 平 均 值(mAP@K)作为主要评估度量。我们使用精确召回(PR)曲线作为详细评估的辅助测量我我循环地进行操作,直到产生v~M。我们将具有MSE的视觉内容重构损失Lvr公式化为:检索性能的观察。为了对结果进行排序,我们根据与查询视频的汉明距离对视频进行排名。我们选择了评估表演Lvr=1 ΣN ΣM||二、||2.(十六)在长度为8、16、32和64位的二进制码上。LMNi i2i=1m =1我们从每个视频中均匀采样25帧使用16层VGG网络[43]在图像上预先训练邻域信息重建丢失:我们经由FC层将编码器的最后存储器状态mi,M线性地投影到b-D向量n~i中:n~i=FC (mi,M,b)。然后,我们最小化ni和重构的n〜i之间的差异。我们用MSE公式表示邻域信息geNet [44]提取4096-D帧特征。我们将存储器状态b的维度和锚点d的维度都设置为256。在3.1小节中,我们仅使用训练视频来这是为了确保编码器关注视频的邻域相关内容,而不是简单地记住-Lnr=1ΣNNBi=1||二、||2.(十七)视频ID我们对K均值聚类进行了10次迭代,以获得具有2000个锚点的锚点集。我们将所获取的最近锚点的数量设置为a和尺度。4. 实验结果4.1. 数据集和实验设置我们在三个基准数据集上进行了实验FCVID包含91,223个Web视频,手动注释为239个类别所有视频的总时长为4,232小时,每个视频的平均时长为167秒。由于数据损坏和类别重叠,我们收集了91,185个视频。根据[16]中的设置,我们使用45,585个视频进行训练,并使用45,600个视频作为查询和检索数据库。YFCC是一个包含0.8M视频的巨大的多时间数据我们收集了700,882个视频,其中409,788个未标记数据用于无监督学习。在101,256个标记数据中,我们随机选择1000个视频作为查询,其余作为检索数据库。ActivityNet包含从YouTube收集的200个活动类别中的20K视频。视频的长度从几分钟到半小时不等。整个数据集的总长度为648小时。我们使用了9,722个视频进行培训。由于测试分割不是公开可用的,我们使用验证集作为我们的测试集。我们从验证集中随机抽取了1000个视频作为查询,并使用剩余的3,760个验证视频作为检索数据库。我们采用前K个检索视频的平均精度(AP@K)进行检索性能评估[42]。将因子dk设为3和256。我们根据经验将超参数α1、α2和α3分别设置为0.1、0.8和0.1,以平衡这三个损失。我们应用Drop-Out [45]来避免过度拟合。我们使用Xavier初始化[46]初始化网络参数。我们将学习率、动量和小批量大小分别设置为0.001、0.9和128。我们使用Adam优化算法[47]训练我们的模型,并在第100个历元停止训练。由于(2)中sgn()的导数几乎处处为0,因此我们参考BinaryNet [48]来处理不适定梯度问题。我们在单个Geforce GTX 1080 Ti GPU上使用Pytorch进行了所有实验。4.2. 结果和分析与最新技术水平的比较:我们将NPH与以下最先进的无监督散列方法进行了比较,以验证其有效性:[2019 - 01 - 17][2019 - 01 - 18][2019 - 01 - 19][2019 -01][ 以来ITQ和DH最初是为图像哈希设计的,我们将它们扩展到视频哈希[18]。所有方法的实验设置是相同的。FCVID上的mAP@K结果如图3(a)-(d)所示。可以看出,NPH的表现远远优于MFH、ITQ、DH、SSTH和JTAE。在这些方法中,ITQ、DH和MFH分别学习视频表示和散列函数,其性能普遍低于其他比较方法AP@K定义为AP@K=1i=1 Ri×Ii ,(1≤其同时学习视频表示i≤ K)。R是视频中相关视频的总数数据库Ri是顶部中的相关视频的数量-i散列函数虽然SSTH利用了一个更微妙的堆叠BLSTM编解码器结构,NPH优于43218218(a) FCVID 8位(b)FCVID 16位(c)FCVID 32位(d)FCVID 64位(e)YFCC 8位(f)YFCC 16位(g)YFCC 32位(h)YFCC 64位(i) ActivityNet8位(j)ActivityNet 16位(k)ActivityNet 32位(l)ActivityNet 64位所有散列方法在三个数据集上的mAP@K方面的检索性能。用所有的代码长度以大的余量形成它。此外,虽然JTAE努力进一步开发外观结构,但NPH的表现明显优于它。我们欠NPH这两种方法的巨大优势,充分利用邻域结构。与最具竞争力的SSVH相比,NPH始终显示出优越性。具体地,NPH在16比特的码长下在mAP方面由于SSVH也适用于哈希层顶部的邻域相似性损失,我们将NPH优于SSVH的性能归功于邻域注意机制。应该注意的是,SSVH构建在分层LSTM结构上[49],而NPH构建在单层LSTM结构上。由于邻域注意机制与分层LSTM等精细结构正交,因此当采用更强大的基线模型时,NPH的性能将进一步提升。在YFCC上的mAP@K结果示于图3(e)-(h)中。可以看出,NPH在所有代码长度下都始终优于其他方法,这验证了它的有效性。SSVH在32和64位的码长上是强有力的竞争者。NPH与与FCVID相比,SSVH变得微不足道。一个可能的原因是YFCC的规模比FCVID的规模大得多,但我们保持锚集的规模相同。更大的锚点集可以使NPH在YFCC上的优势更加突出。ActivityNet上的mAP@K结果如图3(i)-(1)所示。ActivityNet上所有方法的结果都不如其他两个数据集上的结果好。这可能是因为该数据集中的许多视频是由业余爱好者在不受控制的环境中拍摄的,这使得重新评估更加困难。此外,检索数据库的规模相当小,因此一些查询没有足够的真邻居。尽管如此,NPH始终在所有代码长度上表现出最先进的方法,这证明了我们方法的强大功能。NPH、SSVH、JTAE和SSTH的PR曲线如图4所示。可以看出,NPH在FCVID上以相同的召回率提供比现有技术方法更高的精度。在ActivityNet上,NPH始终提供比JTAE和SSTH更高的精度它比SSVH具有更高的准确率和更低的召回率要求。这在近似最近邻搜索中得到赞赏,因为43218219(a) FCVID 32位(b)FCVID 64位(c)ActivityNet 32位(d)ActivityNet 64位图4:FCVID和ActivityNet上具有各种代码长度的不同视频散列方法的PR曲线表1:不可见类检索的mAP0K结果。方法K=5K=20K=40K=60SSTH0.2490.1310.0800.057JTAE0.2580.1390.0860.062SSVH0.3000.1690.1020.071NPH0.3060.1750.1090.079表2:在训练25上训练时的mAP@K结果。方法K=5K=20K=40K=60SSTH0.2790.1600.0980.068JTAE0.2880.1660.1030.074SSVH0.3200.1850.1100.079NPH0.3270.1930.1180.085大规模视频检索最感兴趣的是检索到真实邻居的高概率,而不是找出所有邻居。转移场景:为了了解NPH如何应用于对未见过的类进行检索,我们遵循[50]将数据集分成两部分,而不发生类重叠:train 75和train 25/test 25,其中train 75是训练集,train 25/test25是检索数据库/查询集。在不失一般性的情况下,我们仅对FCVID进行评估。train 25/test 25包含随机选择的40个类中的数据,train 75由其余类中的数据组成Test25包含1000个查询视频,train25包含其他视频。mAP@K结果示于表1中。它表明,NPH优于比较方法检索数据时,看不见的类。我们使用train 25进行进一步训练,并在表2中报告mAP@K结果。这表明NPH仍然优于最先进的方法。消融研究:为了评估NPH不同组成部分的有效性,我们提出了以下基线。FullCNN、Plain和SelfAtt仅用视觉内容重构损失Lvr进行训练。它们的编码网络是全卷积网络[51],标准的卷积网络[52]。表3:不同方法对FCVID的mAP@K结果。上面的行是32位代码,下面的行是64位代码。方法K=20K=40K=60K=80K=100FullCNN0.1890.1490.1300.1170.105平原0.1750.1430.1290.1190.107SelfAtt0.1870.1400.1120.1030.093内巴特0.2010.1540.1310.1170.107SelfAtt+Ls0.2100.1620.1380.1210.113NeibCat0.2140.1670.1420.1240.115NPH-0.2400.1900.1660.1490.137NPH0.2460.1950.1700.1540.141FullCNN0.2330.1770.1500.1300.117平原0.2280.1730.1460.1290.116SelfAtt0.2390.1760.1460.1270.113内巴特0.2380.1770.1470.1280.114SelfAtt+Ls0.2440.2030.1840.1720.162NeibCat0.2540.2130.1930.1810.170NPH-0.2860.2380.2120.1930.179NPH0.2940.2400.2130.1960.183标准LSTM网络[29,30]和rRNN [32]。NeibAtt与NPH共享相同的结构,但仅使用Lvr进行训练。SelfAtt+Ls通过在训练期间添加邻域相似性损失Ls来扩展SelfAtt。NeibCat与SelfAtt+Ls类似,除了编码器中的一点差异:最近的锚点进一步与编码的视频表示级联,并且级联然后被映射到二进制码。NPH-与NPH相同,只是去除了邻域信息重构损失L_nr。我们在表3中示出了NPH的mAP@K结果和具有32位和64位的代码长度的这些基线。值得注意的是,NPH的 表 现 远 远 超 过 这 些 基 线 。 FullCNN , Plain 和SelfAtt,不考虑邻域结构,总体上表现最差。这说明利用邻域结构有利于散列函数的学习。此外,在我们的案例中,基于CNN的模型并没有表现出比基于RNN的模型内巴特43218220图5:前10个检索结果。紫色代表FCVID,黄色代表ActivityNet。上面的行是NPH的检索结果,下面的行是SSVH的检索结果绿色边框表示正确检索结果,红色边框表示不正确检索结果。在大多数情况下,其性能优于SelfAtt,这表明邻域注意机制优于自注意机制。具体地,所提出的邻域机制能够合并视频的邻域相关内容,从而更好地保留邻域结构。SelfAtt+Ls表现出比NeibAtt更好的性能,这表明相应的相似性损失对于学习邻域保持散列函数是有用的。比较NPH-和SelfAtt+Ls,可以看出将时空邻域信息嵌入到编码网络中可以大大提高检索性能。此外,NPH超过NeibConcat指示邻域注意机制不仅仅是简单地将锚分配给查询。相比之下,它学习在空间-时间邻域信息的条件下聚焦于每个输入帧的哪个部分,从而优先将邻域相关内容压缩到二进制代码中。比较NPH-和NPH,我们看到邻域信息重建损失进一步带来改善。定 性 结 果 : 我 们 在 图 5 中 显 示 了 在 FCVID 和ActivityNet数据集上使用64位NPH和SSVH的前10个检索结果。可以看出,一般来说,NPH获得了更高的检索精度。例如,给定一个在类别“瑜伽”中查询视频时此外,NPH能够检索各种背景和拍摄角度的相关视频5. 结论在本文中,我们提出了NPH的无监督可伸缩视频检索,它嵌入了时空在一个实施例中,视频编码器可以将邻近信息输入到编码网络中,使得视频中的邻近相关内容可以被压缩在二进制代码中。具体来说,我们提出了一个邻域注意机制,优先在公司有用的内容,从每个输入帧的邻域信息的条件此外,我们将邻域注意机制集成到基于RNN的编码器-解码器框架中,以捕获与邻域一致的视频中的时空结构。在三个广泛使用的基准数据集上的实验表明,我们提出的方法优于国家的最先进的性能,也验证了我们提出的邻居注意机制的有几个未来的工作要做。首先,我们可以将邻域注意力机制集成到更精细的架构中,如分层LSTM,以进一步提高性能。此外,我们将考虑优化的二进制代码和时空特征,用于计算在视频空间中的相似性结构,在交替的方式。确认这项工作部分由中国国家重点研究与发展计划资助2017YFA0700802,部分由中国国家自然科学基金资助61822603 、 资 助 U1813218 、 资 助 U1713214 、 资 助61672306 、 资 助 61572271 、 资 助 61572272 、 资 助61572273 、 61527273 、 6152 基 金 号 41876098 、61806110 , 部 分 由 深 圳 市 科 技 计 划 项 目JCYJ20151117173236192资助,部分由国家博士后创新人才计划项目BX 201700137资助,部分由中国博士后科学基金项目2018M630159资助。43218221引用[1] 龚云超,斯韦特兰娜·拉泽布尼克,阿尔伯特·戈多,和弗洛-伦特·佩龙宁.迭代量化-一种学习大规模图像检索二进制代码的procrusteanTPAMI,35(12):2916[2] Venice Erin Liong , Jiwen Lu , Gang Wang , PierreMoulin,and Jie Zhou.用于紧凑二进制代码学习的深度散列。在CVPR,第2475-2483页[3] Wei Liu,Jun Wang,Rongrong Ji,Yu-Gang Jiang,andShih- Fu Chang.监督哈希与内核。在CVPR,第2074-2081页[4] Yair Weiss,Antonio Torralba,and Robert Fergus.光谱散列。NIPS,第282卷,第1753-1760页。2009年[5] 刘祥龙,黄磊,邓成,勃郎,陶大成。用于大规模多视图 视 觉 搜 索 的 查 询 自 适 应 散 列 码 排 名 。 TIP , 25(10):4514-4524,2016.[6] 放大图片作者:Michael M.作者:Alexander M.Bron-stein,andJürgenSchmidhube r.多模式相似性保持散列。TPAMI,36(4):824[7] Jun Wang,Sanjiv Kumar,and Shih-Fu Chang.用于大规模搜索的半监督哈希。TPAMI,34(12):2393[8] 吕月明,王永.Y. 作者:Ng,Zizqian Zeng,Daniel S.和Patrick P. K.陈大规模图像检索的非对称循环散列算法。TMM,17(8):1225[9] Zhixiang Chen,Xin Yuan,Jiwen Lu,Qi Tian,and JieZhou.通过差异最小化的深度哈希在CVPR中,第6838-6847页[10] Ling-Yu Duan,Jie Lin,Zhe Wang,Tiejun Huang,andWen Gao.用于快速视觉搜索的二进制聚合描述符的加权分量散列TMM,17(6):828[11] Guangnan Ye , Dong Liu , Jun Wang , and Shih-FuChang.通过结构学习的大规模视频哈希。在CVPR中,第2272-2279页[12] Jingkuan Song,Yi Yang,Zi Huang,Heng Tao Shen,and Richang Hong.多特征散列用于实时大规模近似重复视频检索。在ACM[13] Venice Erin Liong,Jiwen Lu,Yap-Peng Tan,and JieZhou.深度视频哈希。TMM,19(6):1209[14] 郝彦斌,穆婷婷,约翰·雅尼斯·古勒马斯,蒋建国,洪日昌,王梦.无监督t分布视频哈希及其深度哈希扩展。TIP,26(11):5531[15] Yanbin Hao , Tingting Mu , Richang Hong , MengWang,Ning An,and John Yannis Goulermas.随机多视图散列 用于大规模近 似重复视频 检索。TMM ,19(1):1[16] Hanwang Zhang,Meng Wang,Richang Hong,and Tat-Seng Chua.播放和倒带:通过自监督时间散列优化视频的二进制表示在ACM[17] Chao Li,Yang Yang,Jiewei Cao,and Zi Huang.为无监督视频哈希联合建模静态视觉外观和时间模式。在ACM[18] Jingkuan Song,Hanwang Zhang,Xiangpeng Li,LianliGao,Meng Wang,and Richang Hong.使用分层二进制自动编码器的自监督视频散列。TIP,27(7):3210[19] 吴庚申、刘立、郭雨辰、丁桂光、韩军公、沈嘉烈、邵令.带平衡旋转的无监督深度视频散列在IJCAI,第3076[20] Zhixiang Chen,Jiwen Lu,Jianjiang Feng,and Jie Zhou.用于可伸缩视频搜索的非线性结构散列。TCSVT,28(6):1421[21] Chao Ma,Yun Gu,Wei Liu,Jie Yang,and XiangjianHe.利用时空特征的无监督视频散列。在ICONIP,第511-518页[22] 云古、超马、揭扬。用于大规模视频检索的有监督递归在ACM[23] JunfengHe,Shih-FuChang,RegunathanRadhakrishnan,and Claus Bauer.紧凑的哈希算法,搜索精度和时间的联合优化。见CVPR,第753[24] Jingdong Wang , Ting Zhang , Jingkuan Song , NicuSebe , and Heng Tao Shen. 关 于 学 习 哈 希 的 调 查 。TPAMI,40(4):769[25] Jun Wang,Wei Liu,Sanjiv Kumar,and Shih-Fu Chang.学习哈希索引大数据-一项调查。Proceedings of theIEEE,104(1):34[26] Kyung-Min Kim 、 Seong-Ho Choi 、 Jin-Hwa Kim 和Byoung-Tak Zhang。视频故事问答的多模态双注意记忆。在ECCV,第698-713页,2018年。[27] 李涛宇,黄子,曹洁伟,沈衡涛。基于视觉状态二进制嵌入的可伸缩视频事件检索。TMM,18(8):1590[28] 庚申吴、军公韩、玉臣郭、李六、桂光丁、强倪、令绍。通过平衡代码进行无监督深度视频哈希,用于大规模视频检索。TIP,28(4):1993[29] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。NeuralComputation,9(8):1735[30] 亚历克斯·格雷夫斯使用递归神经网络生成序列。CoRR,abs/1308.0850,2013。[31] Limin Wang,Yuanjun Xiong,Zheng Wang,Yu Qiao,Dahua Lin,Xiaoou Tang,and Luc Van Gool. 用于视频中动作识别的时间分段网络。CoRR,abs/1705.02953,2017。[32] 亚 当 · 桑 托 罗 , 瑞 安 · 福 克 纳 , 大 卫 · 拉 波 索 , 杰克 ·W·Rae , Mike Chrzanowski , Theophane Weber ,Daan Wierstra , Oriol Vinyals , Razvan Pascanu , andTimothy P. Lillicrap相对递归神经网络。在NIPS,第731043218222[33] 作者:Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszko-reit,Llion Jones,Aidan N.戈麦斯,卢卡斯凯泽,伊利亚·波罗苏欣。注意力是你所需要的。参见NIPS,第6000[34] NitishSrivastava , ElmanMansimov , andRuslanSalakhutdi-nov.使用lstms的视频表示的无监督学习。在ICML,第843-852页[35] 布莱恩·库利斯和特雷弗·达雷尔。学习使用二元重构嵌入进行散列。在NIPS,第1042[36] 米格尔·A'. Carreira-Perp ina´ nandRaminRaziperchi k olaei.使用二进制自动编码器进行散列。在CVPR,第557-566页[37] Wei Liu,Jun Wang,Sanjiv Kumar,and Shih-Fu Chang.使用图表进行散列。ICML,第1-8页,2011年[38] Wei Liu,Junfeng
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功