视频中对象实例搜索的分层对象原型编码

173 浏览量更新于2023-10-15 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2424FramesHOPE：用于视频中高效对象实例搜索的分层对象原型编码谭宇1、吴玉伟1、2、袁俊松11新加坡南洋理工大学跨学科研究生院ROSE实验室2北京理工大学智能信息技术北京实验室{tyu008，jsyuan}@ ntu.edu.sg，wuyuwei@bit.edu.cn摘要本文解决了视频中对象实例搜索的问题为了有效地捕捉查询和视频帧，并精确定位partic。对象，我们利用对象建议来改进。视频中对象实例搜索的质量。然而，在这方面，从每个帧获得的数百个对象建议可能导致无法负担的存储器和计算...............数据类型G成本为此，我们提出了一个简单而有效的分层对象原型编码（HOPE）模型，以加速对象实例搜索，而不牺牲准确性，它利用了空间和时间的自相似属性存在于从视频帧生成的对象建议。我们设计了两种类型的球面k-means方法，即，空间约束的球体k均值和时间约束的球体k均值，以分别学习帧级对象通过这种方式，对象实例搜索问题被转换为稀疏矩阵向量乘法问题。由于代码的稀疏性，内存和计算成本都显着降低。两个视频数据集上的实验结果表明，我们的方法显着提高了视频对象实例搜索的性能比其他国家的最先进的快速搜索方案。1. 介绍随着大数据时代的到来，在YouTube、Facebook和Flickr等多媒体共享平台上，可以很容易地找到大量的视觉资源。对象实例搜索在多媒体和计算机视觉文献中引起了相当大的关注。给定一个特定的对象作为查询，它的目的是检索视频帧包含一个特定的对象实例，并定位在检索帧中的对象然而，由于查询通常只占用数据库中很小的区域，因此设计一个有效的这项工作是在吴玉伟担任台大研究人员时完成的Frame-levelObjectProtypesCiObjectProposalsPi的函数图1.我们的分层对象原型编码的框架. 首先将来自帧fi的对象建议的特征分解为帧级对象原型Ci和由虚线示出的帧级稀疏码Hi的乘积。所有帧[C1，.，Cn]进一步分解为子集级对象原型G和子集级稀疏码[E1，...，用实线表示。通过利用我们的模型，我们可以在不牺牲准确性的情况下加速对象实例搜索，如第4节中所验证的。参考帧，周围有密集的杂波。本文提出了一种层次化的对象原型编码方法，该方法能同时获得令人满意的搜索精度、搜索效率和存储开销。与传统的图像检索不同，在对象实例搜索任务中，查询对象只占一帧图像的一小部分。在这种情况下，查询对象与帧之间的相关性不等同于查询对象与整个帧之间的全局相似性。此外，对象实例搜索任务需要精确定位帧中的对象。因此，整个图像/帧的全局表示，局部聚集描述符（VLAD）的向量[16]、最大池化[27]、跨维池化[17]和双线性池化[9]可能既不能有效地捕获查询对象与帧之间的相关性，也不适用于对象定位。.ObjectProposals2425i=1i=1i=1为了解决全局表示的缺点，许多努力[27，22]都致力于利用滑动窗口，该滑动窗口在多个尺度上的每个位置处穷尽地裁剪补丁为了精确地检测对象，可能需要大量的滑动窗口，特别是当查询的大小非常小时。相反，巴塔查吉类型，并且Ei表示来自帧fi的帧级对象原型的子集级稀疏代码。因此，对象建议Pi将被分层分解为GEiHi，如图1所示。在这种情况下，不是直接存储所有帧[P1，...，Pn]∈Rd×nm，我们只需要存储数据集级对象原型G∈Rd×t2，数据集-等[4]利用对象建议[28，37]来增强水平稀疏码{Ei}n帧级稀疏码目标搜索的效率，并实现了最先进的每，{Hi}n.由于t2nm和Ei和Hi都是稀疏的，搜索小物体。然而，数百对象建议用作每帧中对象的候选区域，这仍然是相当低效的，因为它不可避免地涉及数百倍的存储器和计算成本。这意味着对象建议的适用性对于有效的视觉搜索是它引发了一个问题：我们如何更好地推进鲁棒视觉搜索的对象建议，并获得令人满意的搜索效率？为了实现这一目标，我们从以下几点出发。来自同一帧的数百个提案严重重叠，导致裁剪的补丁可能彼此相似。此外，众所周知，连续帧也彼此非常相似，因此它们倾向于共享多个对象实例。换句话说，从视频帧生成的对象提议具有时空自相似性属性，并且自表示原理可以很好地应用于它们[36]。由于自表示的属性，我们提出了一个层次化的对象原型编码（HOPE）模型，以加快基于对象建议的对象实例搜索。在大规模数据集的出现和计算能力的快速发展的推动下，基于卷积神经网络（CNN）的特征已被证明在视觉搜索上表现得非常好[3，2，34，35]。在这项工作中，我们利用CNN功能来表示对象propos-人症给定一个查询对象q∈Rd，直接计算查询与m个来自框架fi的对象建议Pi∈Rd×m之间的相似度是不可行的，因为对象建议的数量m和建议的数量m都是有限的。帧N的BER大。因此，我们设计了两种类型的球k-means方法，即，空间约束球面（SCS）k-均值和时间约束球面（TCS）k-均值来加速对象实例搜索而不牺牲搜索精度。为了利用空间域中的自相似性属性，对于帧fi，SCSk均值学习帧f，层对象原型Ci∈Rd×t1（t1m），并将Pi因子化为CiHi，其中Hi的每一列是对象建议的帧级稀疏代码同样地，为了利用时域中的自相似性属性，TCS k均值进一步分解所有帧级对象原型[C1， C2，...， Cn]转换为G[E1，E2，.，n]，其中G∈Rt2（t2<$nt1）表示数组级对象原-提出的HOPE模型导致了内存和计算成本。事实上，正如我们的实验所示，存储HOPE模型的内存成本不到存储{Pi}n的1%。2. 相关工作对象实例搜索。对象实例搜索[39，41，40，43，42]中的主要挑战是查询对象仅占用参考图像中的一小部分区域，并且其周围可能存在密集的杂波为了应对这一挑战，Tolias等人。[27]和Mohedano等人。[22]在参考图像中均匀采样数十个区域。参考图像的最佳匹配区域被认为是搜索结果。然而，几十个采样区域不足以捕获参考图像中的小对象。Bhattacharjee等人。[4]利用对象建议作为参考图像中查询对象的候选区域，并在小对象实例搜索中实现了最先进的性能。然而，数以百计的对象提案带来了巨大的内存和计算成本。为了加快搜索速度，Meng等人[20]从所有对象提案中选择了“关键对象”。为了保证搜索精度，选择比不能太小，这限制了它的实用性。最近，Cao等人[5]提出了一种查询自适应匹配方法。但它需要解决一个二次优化问题，这是计算上的要求。相比之下，我们的HOPE方案只需要计算稀疏矩阵向量乘法，这是更有效的。有效的搜索方法。在对象实例搜索任务中，VLAD和CNN通常通过散列压缩为二进制聚合描述符[6，11，31，7，24，38]，因为二进制化的描述符允许快速汉明距离计算以及视觉描述符的光然而，散列算法只能产生几个不同的距离，导致有限的能力来描述数据点之间的距离。同样，另一种称为乘积量化（PQ）[15，10，1，33，29，19]的方案也广泛用于快速最近邻（NN）搜索，该搜索将空间分解为子空间的笛卡尔乘积并单独量化每个子空间。值得注意的是，PQ及其变体与稀疏编码密切相关。它们可以被视为逐块稀疏编码的特殊情况[32]，其中系数的值仅为0或1。更多re-2426i=11⊤n最近，受稀疏编码的启发，Jain等人。[13]通过添加系数扩展了乘积量化，并在NN搜索中实现了更高的精度。作为[13]的当代工作，Iscen等人。[12]将NN搜索公式化为矩阵分解问题，也通过稀疏编码解决，并实现了最先进的性能。受NN搜索中稀疏编码的成功启发，所提出的HOPE模型生成分层稀疏编码，以利用视频中对象提案之间的自相似性。3. 分层对象原型编码3.1. 问题陈述给定一个由n个帧{fi}n组成的数据集和一个由n个归一化特征q∈Rd表示的查询，对象实例搜索是检索所有相关帧并在相关帧中定位查询对象在大多数在这种情况下，感兴趣的对象通常在整个帧中占据很小的区域捕捉帧的相关性，其中C是=[ci1，.，c它]∈Rd×t1 是由我们的空间约束球面k均值生成的，并且Hi=[hi1，...，him] ∈ Rt1×m由从软分配码生成的对象建议的帧级稀疏码组成。ing. 我们将详细介绍如何求解Ci和Hi。空间约束球面（SCS）K-means是球面K-means[13]的扩展，考虑了对象建议的空间信息。空间关系可以提供有价值的信息。在-然而，如果两个对象提案严重重叠，则它们倾向于共享对象。为了方便起见，我们丢弃了Pi、Ci、Hi中的索引i，其标识特定帧，因为以下空间约束球面k均值被独立地应用于每个帧。我们用B={b1，...，bm}对象轮廓的边界框我们开发了空间约束球（SCS）k-均值迭代地更新帧级对象原型（聚类的归一化质心）和对象建议的分配，对于每个帧f1，我们提取m个对象建议，其用作帧中的查询对象的潜在区域我们用pij∈Rd表示j-1的π2-归一化特征λs分配：Au=arg max puck+K|一个k|ΣIoU（bu，bv），v∈Ak第i个对象提议，并且由Pi=[pi1，.， pim] ∈ Rd×m是来自第i帧的所有对象建议的归一化特征。在此方案中，确定帧fi与查询的相关性得分Σ Σ更新：ck = pv/pv2，v∈Akv ∈Ak（四）通过查询与帧中的最佳匹配对象建议之间的相似度S（q，pij）R（fi）= max S（q，pij）= max q<$pij.（一）其中，Au表示第u个对象提议被分配到的簇索引，ck表示第k个帧级对象原型，Ak表示分配j j到第k个聚类，IoU（·，·）计算交集在这里，最佳匹配的对象建议被用来定位在相关帧中的查询对象。为了获得所有帧的相关性得分，我们需要将查询与所有帧中的所有对象提议进行比较，这相当于计算s0= q[P1，....， P]。（二）应该强调的是，在Eq.（2）需要O（nmd）的复杂度。在这种情况下，对象实例搜索的关键问题是如何高效地获取s。3.2. 帧级对象原型编码如第1节所述，来自同一框架的建议往往相互重叠，这带来了大量的冗余。冗余意味着对象建议之间存在自相似性。为了利用自相似性属性，我们提出使用帧级对象原型Ci来分解来自帧fi的对象提议的特征Pi。公式由下式给出：P1→C1H1，（3）两个边界框的联合比λs是参数-控制空间约束的权重。当λs=0时，SCS k均值将退化为原始球体k均值。当帧级对象原型不改变或达到最大迭代次数时，迭代停止。实际上，我们的实验表明SCSk-means在20次迭代内收敛。空间信息对于处理多个不同但相似的实例出现在帧中的情况。图2可视化了来自球体k均值和空间约束球体k均值的对象提议的聚类结果。可以观察到，球体k均值将包含不同类型的汽车的对象提议分组到相同的聚类（红色边界框）中。相比之下，空间约束的球体k均值将包含不同汽车的对象提议分组到不同的聚类（红色边界框和紫色边界框）中。给定一个对象建议p∈Rd和由空间约束球面k-均值C∈Rd×t1生成的帧级对象原型，软分配编码（SAC）首先找到p的z个24272我i=1i=1i=1i=1i=1i=1i=111n(a) 球面K均值(b) SCS k均值。3.3. 数据集级对象原型编码众所周知，连续帧彼此非常相似。为了进一步加快视频中的对象实例搜索，我们提出在多个不同帧之间使用自相似性属性我们表示为图2. 球形k-means和SCS k-means的比较。球形k-means将两种不同类型的汽车分组到同一个聚类中（红色边界框）。相比之下，SCS k-means将不同类型的汽车分为两个集群（红色边界框和紫色边界框）。[C1，...，Cn]∈Rd×nt1数据集中所有帧的帧级对象原型。磁盘级原型编码将[C1，.，Cn]转换为GE，其中G =[g1，...，gt]∈Rd×t2包括从所提出的时间上生成的子程序级对象原型，通过Ck=[ck1，..，ckz]∈Rd×z 并进一步获得所述代码约束球面k-均值和E =[E1，...，En]=[e11，.，e1 t，e21，...，[ent]∈Rt2×nt1 包括h∈Rt1，h（i）=.exp（βcp），i =k1，.， Kz0，否则（五）从软分配编码生成的字节级稀疏码。在下文中，我们展示了所提出的HOPE模型的整个编码流程。算法1分层对象原型编码ˆ ˆ⊤输入：来自n个帧{Pi}n的对象提议，h = h/ h 1，其中β控制分配的软度。SAC代码的稀疏性受到z的严格控制。软分配编码传统上被用作图像分类的特征提取方法[18]，而我们将其用作稀疏编码方法以实现对象实例搜索的高效率。搜索阶段的复杂性分析。SCS k均值和软分配编码都可以离线进行，这不影响搜索时间。在搜索阶段，可以通过以下方式有效地获得所有帧的所有对象提议的相似性得分：i=1每帧t1的帧级对象原型的BER，字节级对象原型的数量T2，每个帧级代码中非零元素的数量Z1，每个字节级代码中非零元素的数量Z2。输出：数据集级对象原型 G ，数据集级代码{Ei}n，帧级代码{Hi}n。1：对于i= 1. n2：Ci←SCSK平均值（Pi，t1），使用等式（四）3：H1←SAC（P1，C1，Z1），使用等式（五）4：结束5：G ← TCSK表示（[C1，.， Cn]，t2）使用Eq.（七）6：对于i= 1. ns1=q1[C1H1，.，C H]中。（六）7：Ei← SAC（G，Ci，z2），使用等式（五）8：结束我们用z1表示Hi的每一列中非零元素的数量。在等式中计算s1（6）仅要求9：返回G，{Ei}n，{Hi}nO（nt1d+nmz1）复杂度。这是因为我们可以先计算[x1，...，xn]=qn[C1，.，Cn]的时间复杂度为O（nt1d），然后计算s1=[x1H1，...，xnHn]这是一个稀疏矩阵向量乘法（SpMV）问题[30]，复杂度为O（nmz1）。事实上，t1≠ m，z1≠ d，也就是nt1d+ nmz1≠ nmd. 因此，计算s1比直接计算方程中的s0有效得多。（二）、此外，为了存储稀疏矩阵，我们只需要存储它的非零元素。在那里-时间约束球（TCS）K均值。中在视频中，帧之间的时间关系还提供有价值的信息。一个常识是，连续的帧将倾向于包含相似的对象。因此，我们利用时间信息弱监督聚类。我们根据它们的时间位置将帧分成多个组。例如，给定由M帧组成的长视频，我们可以将M因此，存储{Ci}n的内存成本且{Hi}n为组为τ组。根据他们的小组分配，只有O（nt1d+nmz1），这比stor小得多，帧级对象原型将被划分为多个，ing{Pi}n. 然而，当n很大时，考虑到三个时间块{S1，...，Sτ}。有时，数据集n2428i=1i=1视频由巨大的帧组成，计算计算s1的成本以及存储还提供镜头信息，即，，它表明，是哪一个镜头。在这种情况下，我们可以直接{Ci}n（1）n仍然相当可观。它激励着我们从相同的框架级对象原型中排列以进一步利用跨帧的自相似性。在同一个时间段拍摄的视频暂时的2429ui=1i=1i=1i=1i=1i=1nn1约束球面k-均值迭代地更新数据集级对象原型和帧级对象原型的分配，表1. 不同方案的复杂性分析。m是每帧的对象提议的数量，n是帧的数量 d是特征尺寸。 t1是帧级ob的数量。每帧投射原型。t2nt1是队列级别的数量对象原型。 z1和z2表示非零ele的数量。赋值：Au=arg maxcgk+λt|、|,分别在帧级代码和帧级代码中的部分更新：gk=Σv∈AkKcv/ Σv∈Akcv=2，|Ak|（七）其中Scu 表示包含第u个框架级对象原型AkScu表示帧级对象原型分配给第k个clus- ter和Scu。λt是控制时间约束的权重的参数。当λt为0时，时间约束的球体k-均值将减少到原始球体k-均值。当队列级对象原型没有更改或达到最大迭代次数时，迭代停止。实验结果表明，该算法可以在100次迭代内收敛。搜索阶段的复杂性分析。利用生成的数据集级对象原型G，数据集-效率，我们提出了非穷举搜索方案，以避免比较查询与所有框架的所有对象建议。由于帧级对象原型是对象propos- als的集群的102归一化质心，因此它们表示帧中的不同类型的对象换句话说，它们可以被用作目标提案的代表。因此，可以通过最佳匹配的帧级对象原型来更有效地计算具有查询的帧的相关性得分：R（fi）=max（q <$cij）max（q <$Geij）。（十）水平稀疏码{E}n帧级稀疏码j=1，…t1j=1，…t1ii=1{Hi}n的所有提案的相似性得分我们通过帧级别对数据集中的所有帧进行可以通过以下方式获得帧：s2=q G[E1H1，.， EHn]。（八）相关性分数由等式（Eq.）（十）、的候选列表帧F=[fr1，...，将通过选择具有高等级的帧的一部分来获得。在这种情况下，我们只需要对查询对象进行空间定位我们用z2表示每个元素中非零元素的数量，列的Ei和表示由z1的非零元素的数量在每列的Hi。我们将计算s2分解为以下三个步骤：在候选列表F中，s3=qG[EHr1 、...、埃尔Hrs]中。（十一）1)时间复杂度：O（t2d）2)：[y 1，.，y n] ← [xE 1，...，xEn]复杂度：O（nt1z2）3）：s2←[y1H1，.，时间复杂度：O（nmz）（九）步骤2）和步骤3）都在Eq. （9）是稀疏矩阵-向量乘法（ SpMV ）问题 [30] ，分别需要 O （ nt1z2 ）和 O（nmz1）。总的来说，com-计算s2的复杂度为O（t2d+nt1z2+nmz1）.以来每个帧的最佳匹配对象建议将作为帧中查询对象的检测区域计算 s3 只需要 O（t2d+nt1z2+αnmz1）复杂度，其中α是进一步局部化查询对象的帧的比率。它比COM更有效。将s2设为α1。总的来说，帧级对象原型Ci充当两个角色：（1）对象提案的代表有效地确定了对象提案的相关性得分。frame. (2)原型对对象建议的特征进行编码，以加速相关帧中的对象定位。另外，帧级码{Hi}n只有t2≠1，z2≠d，计算s2比计算s1有效得多。同时，存储G、{Ei}n和{Hi}n的总内存开销为O（t2d+nt1z2+用于帧中的对象定位，并且与帧的相关性分数。表1总结了不同方案的复杂性。nmz1），其远小于存储{Ci}n4的存储量。实验（1）n在计算S1中。4.1. 设置和数据集3.4. 非穷举搜索上面的分析表明，计算s2需要O（t2d+nt1z2+nmz1）的复杂度.在实际情况下，t1m和t2d均为1.因此，计算s2最耗时的部分是将每个对象提案的稀疏码hij进一步完善在本文中，我们采用边缘框[37]来生成作为对象实例的潜在区域的对象建议。对于每个建议，我们通过最大池化在Imagenet数据集上预训练的VGG-16 CNN模型[25]的最后一个卷积层来提取其特征。进一步后处理最大汇集的512nR1方案复杂性0在Eq。（二）O（mnd）在Eq.（六）O（nt1d+nmz1）2在Eq。（八）O（t2d+nt1z2+nmz1）2430基线I0.5 0.5(a) GroundhongDay。0.40.30.20.10.40.30.20.100 50 100150200250300每帧(a) 土拨鼠日0050100150200250300每帧(b) NTU-VOI。(b)NTU-VOI。图3. 查询对象可视化。通过主成分分析（PCA）和白化来抑制突发性[14]，但特征的维数保持为512。的有效性图4. 两种基线算法在土拨鼠日和NTU-VOI数据集上的mAP。受益于对象提案，基线II比基线I好得多，基线II的性能随着对象提案数量的增加而提高。0.650.50.60.480.55方法通过平均精密度（mAP）进行评价我们在土拨鼠日[26]和NTU-VOI[21]数据集上进行了系统的实验。土拨鼠0.50.450.4K−均值球面K−表示SCSK−表示基线II0.460.440.420.4K−均值球面K−表示SCSK−表示基线IIDay数据集包含5640个关键帧和六种类型的小查询对象：红色时钟，麦克风，黑色时钟，框架每帧(a) 土拨鼠日510152025303540每帧的对象原型数(b) NTU-VOI。符号，菲尔符号和数字时钟。NTU-VOI数据集包含37340帧，我们使用五种类型的查询对象：Ferrari、Kittyb、Kittyg、Maggi和Plane对提出的方法进行了评价.图3显示了查询对象。4.2. 目标提案在本节中，我们评估目标提案的有效性第一种算法（基线I）提取整个帧的特征，并用全局特征表示每个帧在这种情况下，帧根据它们与查询对象的余弦相似度进行排名第二算法（基线II）穷尽地将查询对象与所有帧的所有对象建议进行比较，如等式（1）所示。（二）、在基线II中，每个帧的最佳匹配建议，即具有最高相似性分数的建议确定查询和帧之间的相关性。换句话说，根据它们的最佳匹配提议的相似度分数对帧进行排名。图4显示了Baseline I和Baseline II的对象实例搜索性能。可以观察到，基线II的性能比基线I好得多。同时，基线II的mAP随着对象提议的数量n的增加而提高。但是，增长速度越来越慢。这是有意义的，因为在大多数情况下，数百个对象建议足以捕获帧中对象实例的位置为了平衡有效性和效率，我们将对象建议的默认数量设置为300。我们将使用基线II算法作为参考，以进一步评估所提出的分层对象原型编码方法。4.3. 帧级对象原型编码所提出的分层对象原型编码由两个层次组成。我们首先评估帧级对象原型编码的有效性，并且不进行比较。图5.K-means、Sphere K-Groundhog Day和NTU-VOI数据集的平均值和SCS K-平均值。SCS K-means实现了最佳性能，并且当每帧t 1的对象原型的数量超过30时，它优于基线II。导入磁盘级对象原型编码。我们采用S1方案在方程。其中，我们将帧级稀疏码中的非零元素的数量Z1设置为3。图5比较了分别由k-means、sphere k-means和空间约束sphere k-means生成的帧级对象原型的性能。在我们的实现中，对象原型是从300个对象提案中生成的，两个数据集上的λs都固定为3可以观察到，一般来说，球面k-means略优于k-means。在比较中，所提出的空间约束球k-means是优于球k-means。有趣的是，当每帧t1的帧级对象原型的数量超过30时，由帧级对象原型实现的性能甚至比基线II更好。虽然较大数量的帧级对象原型可以带来更高的mAP，但是对象原型的故障数量被设置为30以平衡准确性和效率。与代表性选择比较。我们比较了帧级对象原型与从K-mediods中选择的对象代表[23] 以及SMRS方法[8]，其从每个帧的数百个对象建议中选择代表性对象建议在代表选择方案中，我们只需要将查询对象与所选择的代表对象进行比较，就可以避免穷举搜索。所提出的帧级对象原型与对象代表的根本区别在于，对象代表是从原始数据样本中选择的，而对象原型是从中心数据样本中生成的基线I地图地图地图地图2431i=1i=1i=10.70.70.80.60.50.40.30.2[23]第二十三话SMRS [8]我们0.60.50.40.30.2[23]第二十三话SMRS [8]我们0.70.60.50.4球面K−表示TCSK−表示基线II基线III0.80.70.60.50.40.30.2球面K−表示TCSK−表示基线II基线III510152025303540每帧对象原型/代表的数量(a) 土拨鼠日510152025303540每帧对象原型/代表的数量(b) NTU-VOI。3004005006007008009001000数据集级对象原型的数量(a) 土拨鼠日50100150200250300350400数据集级对象原型的数量(b) NTU-VOI。图6. 所提出的帧级对象原型类型与从K-mediods生成的对象代表[23]和SMRS [8]。图7.Groundhog Day和NTU-VOI数据集上球体k均值和TCS k均值之间的mAP比较0.8更强大的集群的troids从图6中，我们可以看到，所提出的对象原型方案的性能比从SMRS和K-mediods生成的代表性对象的性能好得多0.70.60.50.4我们[12]第十二话0.80.70.60.50.40.30.2我们[12]第十二话4.4. 希望的有效性3004005006007008009001000数据集级对象原型/原子的数量(a) 土拨鼠日50100150200250300350400数据集级对象原型/原子的数量(b) NTU-VOI。在本节中，我们将评估整个HOPE模型。我们采用方程中的非穷举搜索方案。其中，我们将α设为0.05。我们用基线III表示第4.3节中的实现，其中帧级对象原型是从SCS k均值生成的，帧级对象原型的数量ti=30，并且帧级稀疏码中非零元素的数量zi=3。我们将HOPE模型中帧级原型编码的设置与Baseline III相同，并重点测试了帧级对象原型编码。在Groundhog Day数据集上，我们将5640个关键帧平均分为50组，以生成TCS k-means所需的时间块。在NTU-VOI数据集上，我们直接使用数据集提供的镜头信息来获得时间块。在这两个数据集上，我们设置λt=2。我们首先使用球体k-均值和TCS k-均值比较了数组级对象原型的性能，其中代码z2中的非零元素的数量设置为3。如图7所示，从TCS k-means生成的队列级对象原型的性能明显优于从sphere k-means生成的。令人惊讶的是，图7显示，我们的HOPE模型的mAP比基线II和基线III都要好得多，这可以归因于HOPE模型的去噪效果。值得注意的是，800个以太网级别的对象原型可以实现0. 土拨鼠日数据集上的70mAP。在这种情况下，Stor-图8.稀疏编码与非稀疏编码的性能比较[12]和我们的小程序级对象原型编码。希望为了进行公平的比较，稀疏编码和子集级对象原型编码都是在从SCS K均值生成的完全相同的帧级对象原型上进行的，并且对于稀疏编码和子集级对象原型编码，我们将z2固定为3从图8中，我们可以看到所提出的队列级对象原型编码比[12]中使用的稀疏编码好得多。与量化的比较为了进一步验证数组级对象原型编码的有效性，我们将其与乘积量化（PQ）[15]，优化乘积量化（OPQ）[10]和系数乘积量化（α-PQ）[13]进行了比较。在量化方案中，我们将所有帧级对象原型量化到帧级量化器中，并从查找表中有效地获得帧级对象原型的相关性得分。在PQ，OPQ和α-PQ的实现中，我们改变子群的数目m，从2到16。我们首先将每个子组的聚类数设置为256，这是PQ的标准设置。然后，我们在Groundhog day数据集上将每个子组的聚类数设置为800，在NTU-VOI数据集上设置为100，这与我们的数据集级别对象原型编码的设置相同我们可以从图9中观察到使用HOPE模型（{Hi}n，{Ei}nG）只需要所提出的磁盘级对象原型编码28岁64甲基溴，而基准II的成本为3. 22GB的存储容量显著优于PQ、OPQ和α-PQ。{Pi}n. 在NTU-VOI数据集上，100个网络级别的ob-效率比较。我们比较了内存和项目原型可以达到0. 84mAP，只需要一百七十六47 MB来存储HOPE模型，而Baseline II的成本为21 MB。36GB。在这两个数据集上，HOPE的内存成本不到Baseline II的1%与Sparse Coding比较我们将我们的对象原型编码与[12]中提出的稀疏编码方法进行了比较，以进一步验证时间成本的建议原型编码（我们的）与表中的稀疏编码（SC）和乘积量化（PQ）2. 在实现中，我们设置z2=3，t2=800，用于我们的和SC。在PQ中，我们将子码本的数量m设置为4，并且子码本大小为800。从表2中可以看出，我们的算法在精度上明显优于SC和PQ，而内存和时间成本却相当。地图地图地图地图地图地图2432方法存储器搜索时间地图我们28岁6MB218毫秒0的情况。70SC28岁6MB218毫秒0的情况。55PQ二十七岁0个MB212毫秒0的情况。62表2.土拨鼠日的效率比较0.70.60.50.40.30.20.10QQ 800公司简介PQ256OPQ256PQ256我们0.90.80.70.60.5QQ 100PQ100PQ256OPQ256PQ256我们(a) 黑钟1 1.5 2 2.5 3 3.54log m2(a) Groundhong Day。1 1.5 2 2.5 3 3.5 4log m2(b) NTU-VOI。图9.我们的产品级对象原型编码与产品量化的比较[15]，优化的产品量化[10]和具有系数的乘积量化[13]。0.70.650.60.550.50.450.412 3 45阿勒特(a)λt0.750.70.650.60.550.50.4512 3 45 z2(b)z20.70.650.60.550.5246810(c) β(b)麦克风图11.Groundhog数据集上前16个搜索结果的可视化，带有查询黑钟和麦克风。图10.参数对土拨鼠日的影响参数灵敏度。图10显示了参数的影响。当λt∈[1，5]时，mAP相对稳定。z2越大，mAP越好，但算法和计算开销越大. 特别地，当z2= 1时，当z2>1时，软分配变成硬分配，并且其实现比软分配更差的mAP。为了平衡精度和效率，我们设置z2=3。当β=∞时，软分配将变为硬分配，所以我们不应该把β设置得太大。我们设置默认值β值为3。搜索结果可视化。最后，我们在图11和图12中可视化了所提出的HOPE模型的搜索结果。我们可以看到，查询对象只发生-这是一个非常小的区域，周围有非常密集的杂乱，但我们的方法可以准确地找到包含查询对象的帧，并在帧中精确地定位它。5. 结论在本文中，我们利用对象的建议，以提高视频中的对象实例搜索的质量。为了解决使用对象建议的大内存和计算成本，我们建议将搜索制定为分层稀疏编码问题。利用对象的空间和时间自相似性，分别提出了SCS K-means和TCS K-means学习帧级对象原型和帧级对象原型。两个视频数据集上的实验结果表明，我们的方法可以实现更好的性能比穷举搜索使用所有对象的建议在一小部分的复杂性和显着地图地图地图地图地图2433(a) 凯蒂(b) 麦琪图12.使用查询Kittyb和Maggi对NTU-VOI数据集上的前16个搜索结果进行可视化优于其他最先进的快速方法。鸣谢：这项工作得到了新加坡教育部学术研究基金Tier 2 MOE 2015-T2-2-114的部分支持。这项研究在新加坡南洋理工大学的ROSE实验室ROSE实验室由新加坡总理办公室国家研究基金会支持，其IDMFutures Funding Initiative，并由互动和数字媒体计划办公室管理。我们非常感谢NVIDIA AI技术中心（NVAITC）的支持，他们捐赠了一台Tesla K80和M60 GPU用于我们在ROSE实验室的研究。2434引用[1] A. Babenko和V.Lempitsky 用于极限矢量压缩的加性量化在 Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，第931[2] A. Babenko和V. Lempitsky聚合局部深度特征用于图像检索。IEEE国际计算机视觉会议，第1269-1277页，2015年[3] A. Babenko、A. Slesarev，A. Chigorin和V. Lempitsky图像检索的神经代码。欧洲计算机视觉会议，第584-599页。Springer，2014.[4] S. D. Bhattacharjee，J.袁，Y- P. Tan和L.- Y.段。使用对象建议和形状感知描述符的查询自适应小对象搜索。IEEE Transactions on Multi-media，18（4）：726[5] 曹氏湖Liu，P. Wang，Z.黄角Shen和H. T.沈重点在哪里：使用卷积特征映射进行实例检索的查询自适应匹配。arXiv预印本arXiv：1606.06811，2016年。[6] M. Datar，N. Immorlica，P. Indyk和V. S.米罗克尼基于p-稳定分布的局部敏感散列算法。在第二十届计算几何年会论文集，第253-262页。ACM，2004年。[7] T.- T.做吧A D. Doan和N.- M.张学习使用二进制深度神经网络进行哈希。欧洲计算机视觉会议，第219-234页。施普林格，2016年。[8] E. Elhamifar湾Sapiro和R.维达尔通过查看几个来查看所有内容：稀疏建模用于寻找代表性对象。在IEEE计算机视觉和模式识别会议论文集，第 1600-1607 页IEEE，2012。[9] Y. Gao、黄花蒿O. Beijbom，N. Zhang和T.达雷尔。紧凑的双线性池。在IEEE计算机视觉和模式识别会议论文集，第317-326页[10] T. Ge，K.他，Q。Ke和J. Sun.近似最近邻搜索的优化乘积量化。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition 中，第 2946-2953页[11] Y. Gong和S. Lazebnik迭代量化：一种学习二进制代码的亲克鲁斯特方法。在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第817-824页[12] A. Iscen，M.Rabbat和T.弗隆使用矩阵分解的高效大规模相似性搜索在IEEE计算机视觉和模式识别会议论文集，2016年。[13] H. Jain，P. 佩雷斯河 Gribo nv al，J. Zepeda和H. 我去。量化稀疏表示的近似搜索。欧洲计算机视觉会议，第681- 696页施普林格，2016年。[14] H. J e'gou和O. 好朋友图像检索中的证据和共现：PCA和白化的好处欧洲计算机视觉会议，第774-787页。Springer，2012.[15] H.杰古湾Douze和C.施密特最近邻搜索的乘积量化。IEEE Transactions on Pattern Analysis and MachineIntelligence，33（1）：117[16] H. Je' gou，F.Perronnin，M.Douze，J.桑切斯山口佩雷斯和C.施密特将局部图像描述符聚合成压缩代码。IEEETransactionsonPatternAnalysisandMachineIntelligence，34（9）：1704[17] Y.卡兰蒂迪斯角Mellina和S.奥辛德罗用于聚合深度卷积特征的交叉维度加权。 arXiv 预印本 arXiv ：1512.04065，2015年。[18] L.柳湖，加-地Wang和X.刘某为软分配编码辩护。计算机视觉国际会议论文集，第2486-2493页，2011年[19] J. Martinez，H. H. Hoos和J.小J在gpu中解决多码书量化问题。欧洲计算机视觉会议，第638-650页。施普林格，2016年。[20] J. Meng，H. Wang，J. Yuan和Y.- P. Tan。从关键帧到关键对象：通过代表性对象建议选择进行视频摘要在IEEE计算机视觉和模式识别会议论文集，第1039- 1048页[21] J. Meng，J. Yuan，J. Yang，G. Wang和Y.- P. Tan。通过时空轨迹显示的视频中的对象实例搜索。IEEETransactions

下载后可阅读完整内容，剩余1页未读，立即下载