区域流形扩散：紧凑CNN表示恢复小对象

112 浏览量更新于2023-10-15 收藏 2.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1区域流形上的有效扩散：使用紧凑的CNN表示恢复小对象Ahmet Iscen1Giorgos Tolias2Yannis Avritis1Teddy Furon1OndZagrejChum21Inria Rennes2 VRG，FEE，CTU在布拉格{ahmet.iscen，ioannis. avritis，teddy.furon}@ inria.fr{giorgos.tolias，chum}@ cmp.felk.cvut.cz摘要查询扩展是一种常用的方法，可以提高传统和CNN表示的图像检索质量。到目前为止，它仅限于全球图像相似性。这项工作的重点是扩散，一种机制，捕捉图像流形的特征空间。扩散是在重叠图像区域的描述符上进行的，而不是像以前的方法那样在全局图像描述符上进行的。有效的离线阶段允许可选地减少存储区域的数量。在联机阶段，所提出的在索引阶段中对未见过的查询的处理去除了额外的计算以调整预先计算的数据。我们通过一个稀疏的线性系统求解器进行扩散，产生实际的查询时间远低于一秒。在实验中，我们观察到在标准基准上使用紧凑的CNN描述符进行图像检索的小对象一直是基于CNN的检索的常见失败案例。1. 介绍对象搜索是许多应用程序背后的关键工具，如基于内容的图像收集浏览[56，34]，视觉定位[46，1]和3D重建[22，47]。许多应用受益于检索从各种视角和不同照明下拍摄的图像，例如，在浏览时为用户提供更多信息，白天和夜晚的本地化，以及完整的3D模型。每个图像由一个或多个描述符来表示，所述描述符被设计或学习为对成像条件表现出一定程度的不变性。检索被公式化为描述符空间中的最近邻搜索，通过近似方法执行[36，25，29，5]。虽然局部描述符的集合提供了良好的不变性，但像VLAD [26]这样的全局描述符占用的内存更小，但更容易锁定到(a) 单个查询(b) 多个查询图1.在R2中的合成数据集上的扩散。数据集点、查询点及其k-最近邻分别以蓝色、红色和绿色显示。等高线对应于扩散后的排名在这项工作中，点是区域描述符。杂乱这主要适用于查询对象仅覆盖图像的一小部分时。在全局CNN描述符的情况下，不变性部分由全局max [3，52]或sum [30，4]池化层或多尺度查询[19]设计，部分由训练数据的选择学习。通过在对象建议[35，18，57]或固定区域网格[52]上计算描述符来提高对背景杂波的鲁棒性以增加内存占用为代价观察到更好的性能[44]。在图像集合中，对象在各种条件下被描绘因此，查询图像和相关图像通常由图像序列连接，其中连续图像是相似的。这些图像的描述符在描述符空间中形成流形。即使序列的图像包含相同的对象，描述符也可以在某个点之后完全不相关。这一想法首先被Chum等人利用[8]谁介绍查询扩展。平均查询扩展20772078(AQE)由于其效率和显著的性能提升，现在被用作图像检索的标准工具然而，AQE只探索非常相似的图像的邻域。递归和尺度带递归方法[8]通过显式爬行图像流形进一步改善了结果这是以增加查询时间为代价的。查询扩展在查询时利用图像的流形-从查询的最近邻居开始，并使用这些邻居发出新的查询。另一方面，扩散[39，64，13]基于离线构建的数据集的邻域图，并在查询时有效地使用此信息以原则性方式在流形上搜索。我们做出以下贡献：• 我们引入了一个区域扩散机制，以相同的成本处理一个或多个查询向量。每个区域有一个向量，每个区域有几个区域。图像，使得构造和存储图是易处理的。这种方法显著地改善了对小对象和杂乱场景的检索。• 在扩散机制[39，64，13]中，查询向量通常是数据集的一部分，并且在索引时可用阶段提出了一种新的方法来看不见的查询• 虽然已知存在一个封闭形式的解，但到目前为止它已被明确避免[13]。我们证明了通常使用的替代方案实际上是公知的迭代线性系统求解器。由于相关矩阵是稀疏和正定的，共轭梯度法更有效，实际查询时间远低于一秒。• 为了研究性能对相对对象大小的依赖性，我们在CANURE数据集上进行了实验[55]，目前还没有引起太多的关注。我们提出了一个新的评估协议，该协议与其他知名数据集一致，并提供了一组丰富的基线，以方便未来的比较。在一个以上的流形并行搜索通过扩散和使用最近的邻居看不见的查询如图1所示。其余案文的结构如下。第二、三节分别讨论了相关的工作和背景，重点讨论了扩散机制.第4节和第5节详细介绍了我们的贡献和实验体。2. 相关工作本节讨论现有的查询扩展或重新排序方法。我们还回顾了计算机视觉和图像检索中的扩散概念。除了AQE [8]，这些方法都没有应用于卷积特征的检索。查询扩展。各种方法[8，7，51]采用了局部特征，并且很好地适应了词袋模型[49]。其他是通用的，适用于任何全局图像表示[27，42，2，48，10]。在这两种情况下，排名都是在图像级别上执行的。向区域一级推广并不总是那么容易。即使可能，这样的扩展也会带来巨大的成本，因为每个查询区域都需要独立处理。这与我们的区域扩散机制不同，区域扩散机制相对于查询区域的数量具有固定成本。扩散。我们关注的是扩散机制，它通过成对的亲和度传播相似性[13，39]。它适用于许多计算机系统，...解决问题，如半监督分类[63]，种子图像分割[20]，显着性检测[33，6]，聚类[12]和图像检索[28，14，60，13，58]。这种方法的力量在于捕捉数据的内在流形结构[63]。流行的PageRank算法[39]最初用于通过利用图结构中的链接来估计网页的重要性。我们的检索场景更接近于所谓的个性化[39]或查询依赖版本[45]，其中最终排名既考虑数据流形又考虑与许多查询向量的相似性。扩散用于检索一般场景或特定对象的形状[28，14，60，13]。它还可以通过在同一图上联合建模来融合多个特征模态[61，59]。在这些方法中，图像是具有给定成对相似性度量的边的图的节点。我们通过定义基于区域相似性链接的图像区域的图来区分，同时对多个查询区域执行单个伪随机游走。之前已经研究了具有区域相似性的扩散，但仅用于定义图像级亲和力[62]，聚合局部特征[15]或处理突发[16]。Donoser和Bischof [13]回顾了一些用于检索的扩散机制。他们专注于迭代解决方案，认为封闭形式的解决方案，当存在时，是不切实际的，由于大型矩阵的逆。我们，而专注于一个封闭的形式的解决方案计算近似的迭代方法，是专门为这个问题而设计的，并表明这种方法是更快的。3. 扩散排序Donoser和Bischof [13]的工作中的扩散指出了一种将查询相似性传播到组成数据集的流形上的机制这与连续时间扩散过程或图上的随机游动只有微弱的关系.我们主要遵循Zhou et al.[64]这是一个很好的例子。亲和矩阵。给定数据集X：={x1，. . .，xn}<$Rd，我们定义了一个以X中点之间的两两相似性为元素的矩阵A=（aij）∈Rn×n：2079DαQDQDaij：=s（xi，xj），n（i，j）∈[n]2，（1）其中[n]：={1，. . . ，n}和s：Rd× Rd→ R是一个对称的、正的、自相似性为零的相似性测度.矩阵A是一个顶点为X的加权无向图G的邻接矩阵.图的度矩阵是D：= diag（A1n），即具有A的行和的对角矩阵。图的拉普拉斯算子定义为L：=D−A。通常对这些矩阵进行对称归一化，例如，S：=D−1/2AD−1/2，（2）对于亲和矩阵，L：=In−S对于拉普拉斯算子，其中In表示大小为n的单位矩阵。矩阵L，L是半正定的[9]。扩散。在周等人的工作。[64]，a vector y =会是单一的，阻止我们挑选出一个解决方案。然而，很容易证明，成本αf<$Lf+（1−α）<$f<$2的最小值具有与（4）类似的表达式。的正则化项通过强制f为在不连接到任何查询点的子图中为零的为了简洁起见省略了细节。地方限制。Donoser和Bischof广泛研究了图像检索背景下亲和矩阵的各种构造[13]。我们的工作使用矩阵（2），这是最有效的，在他们的工作中，也被周等人使用。[63]。此外，为了处理噪声和离群值，我们采用了局部约束随机游走[31]，其中只有倒数（相互）接近的点对在图中保持est邻居作为边。特别地，给定z∈Rd，令.（yi）∈Rn指定X中的一组查询点，其中yi= 1sk（x|z）=s（x，z），如果x∈NNk（z）0，否则（五）如果xi是一个查询，yi= 0。目标是为每个点xi∈ X获得排名分数fi，表示为向量f=（fi）∈Rn。我们专注于一个特定的扩散机制，给定一个初始向量f0，根据下式迭代：ft=αSft−1+（1 − α）y。（三）如果S是一个转移矩阵，y是一个单位向量，这在图上定义了以下“随机游走”：概率为α，根据分布跳到相邻顶点在S中陈述，并且1−α均匀随机地到达查询点。以这种方式，点将它们的排名分数传播到图中的相邻点。好处是能够捕获由亲和矩阵表示的内在流形结构，并组合多个查询点。假设0< α<1，Zhou et al.[63，64]表明由（3）定义的序列{ft}收敛于f=（1−α）L−1y（4）其中 Lα ： =In−αS 是正定的。这是因为 Lα=αL+（1−α）In<$αL ≥0。在这项工作中，我们专注于封闭形式的解决方案（4），而不是其直观的迭代过程的推导（3）。与其他方法的关系。扩散机制也出现在种子图像分割[20]中，其中查询点对应于标记的像素（种子），数据库点对应于剩余的未标记像素。这个问题相当于半监督分类[63]。在我们的上下文中，Grady [20]的方法分解了f=（f，f）查询的分数（固定fq）是x∈ X给定z的相似性，也就是说，仅限于X中z的k个最近邻NNk（z）。然后，sk（x，z）=min{sk（x|z），sk（z|（ 6）如果x，z是X中彼此的k-最近邻，则等于s（x，z），否则为零我们使用相似性函数sk来构造类似于（1）中的亲和矩阵A4. 方法本节描述了我们在图像检索方面的贡献：处理不在数据集中的新查询点，使用单个扩散机制搜索多个区域，以及有效地计算解决方案。4.1. 处理新查询在先前关于扩散的工作中，查询点q被认为包含在数据集X中[63，13]。这在检索场景中并不适用，但是可以将查询包括在查询时的数据集图[61]如下。找到X中q的k个最近邻NNk（q），更新对应于NNk（q）的亲和矩阵A的行和列以在存在q的情况下维持（6），并且通过为q附加额外的行和列来扩充A。矩阵S通过正规化A（2）来计算。最后，向量y表示q是一个查询。泛化到多个查询点是很简单的。即使我们忽略上述计算所需的时间，我们认为锁定、修改和增强DQ和数据库（未知的f-d）点。扩散通过最小化w从fq插值fd。r. t.fd，二次成本i，jaij（fi−fj）2=f<$Lf，以强制执行该相邻点应该具有相似的分数。通过分解L=每个查询的整个亲和矩阵在空间要求1方面是不可接受的。我们在这里介绍一个alter- native方法，它以一种新的方式定义向量y，[Ld，−Sqd;−S，Lq]，证明了[20]，1想象一下多个用户同时查询的情况;每个查询都需要一个差分矩阵。此外，更新相互邻居需要满足Ldfd =y，y=Sfq。在我们的设置中，k-NN列表不再可用。2080Qi（m）XDdQqdqiX（ j）修改A。因此，我们不是搜索q，而是搜索它的邻居NNk（q）数据集。我们将（3）中的量分解为f=（f<$，f<$）<$，其中fd∈Rn，fq∈Rm，DQ加权特别地，我们定义y为。Σyi=sk（xi|q），n∈[n].（七）S=SdBdqBqdSq、（9）我们做出这一选择的动机详见第4.2包括多个查询点的更一般的情况且y=（0λ，1λ）λ。下标d、q表示数据和查询n m图1示出了扩散的玩具二维示例分别然后，（3）写成其中描绘了在（7）中考虑的每个查询点的k个最近邻居很明显，很多人-ft=αSdft−1+αBdqft−1（十）当发出多个查询时捕获ifold。第5节实验表明，改进的性能与传统的方法相比。4.2. 区域扩散ft=αBqdft−1+αSqft−1+（1 − α）1m。（十一）假设该系统收敛，则数据部分满足fL−1Bdq 1m（12）d α当数据库和查询图像都用单个向量全局表示时，上述扩散机制适用于图像检索。在本文的其余部分，我们称之为全球扩散。与使用局部描述符的传统表示不同[49，40]，全局差分完全符合早期基于CNN的全局特征[4，30，43]。全局特征在严重遮挡或感兴趣的对象很小时仍然失败。为此目的，已经研究了来自多个图像区域的局部CNN特征，无论是聚合[17，52]还是表示为集合[44]。给定一个查询图像，后者意味着单独搜索每个查询特征幸运的是，第3节中定义的扩散已经可以在下面的图片中，由m个点的集合Xi∈Rd表示，每个区域一个点数据集X是所有图像上这些集合的并集;n仍然表示其大小。查询图像也由设Q为m个点。每个区域特征是可能位于不同流形上的点。我们在下面讨论向量y的新定义以及将各个区域排名分数组合成每个图像的单个分数。我们称这种机制为区域扩散。回答问题。在查询点在数据集中的常规方法中，直接应用（3），其中y∈ {0，1}n+m，其中m个非零元素指示查询点。这种情况类似于个性化的当f≠1m时，Sq=0m×m，Bqd=0m×n. 换句话说，查询点被完美地检索，它们彼此不相似，并且图确实是有向的查询区域指向数据集区域，但不允许相反。比较（12）式和（4）式，可以得出Bdq1m是y的一个好选择.由于Bdq存储数据集和查询点之间的相似性，因此该分析证明了单个查询（7）和多个查询（8）的情况。扩散。给定y的这个定义，现在对数据集X执行扩散，联合用于Q中的所有查询点。多个查询点的相关性在与单个查询点的情况相比，在单个过程中不需要额外的成本。在这里，我们排除了与（7）相比，在（8）中计算y本身的额外成本这一研究在所有相关工作中进行。我们也没有讨论如何使这种搜索在空间和时间上更有效[5]，这超出了本工作的范围。图1说明了单个和多个查询点上的扩散。轮廓线显示了给定查询点的平面上的任何点将被分配的排名分数。很明显，当发出多个查询时，会捕获多个流形。合并。在扩散之后，每个图像与排名得分向量f的几个元素相关联，一个元素对应于X中的每个点X。组合这些分数的简单方法是将图像X的分数定义为PageRank [39].然而，将A保持为n×n更简单仿射矩阵，设y∈Rn为ΣΣf（X）=wjfj∈[ m]、（十三）yi：=sk（xi|q），n∈[n].（八）q∈Q每个数据集点xi都被分配一个标量，该标量是其中iX（j）是数据集X中X的第j个点的索引，并且w=（wj）加权向量r。后者被定义为w=1m，用于总和池，假设m d，在所有查询点q上的相似性，其中xi出现在对应的k-最近邻集NNk（q），以及零w=（ΦΦλ+λIm ）−11m（十四）如果它没有出现在这样的集合中。2081对于广义最大池化（GMP）[37，23]，其中Φ =衍生。我们的工作受到了⊤（1），的。. .，x）λ∈R+是一个正则化参数，[20]我们将其应用于扩散机制，Zhou等人的观点。[64]，其中查询点Q在参数我们的实验表明，GMP总是优于-形成总和池。（x2082α24.3. 有效解迭代（3）在实践中运行良好，但在大规模上运行缓慢。从字面上看封闭形式的解决方案（4），人们可能会试图离线计算逆L−1，但这可能会导致α不像Lα那样稀疏。我们提出了一个更有效的解决方案-通过连接到线性系统求解器。扩散是一种迭代求解器。当量（3）可以看作是Jacobi 求解器的迭代 [21] 。给定一个线性系统Ax=b2，Jacobi将A分解为A= b2 +R，其中A = diag（A）。然后，它根据以下内容迭代：xt=<$−1（b − Rxt−1）。（十五）在我们的例子中，x=f，b=（1-α）y，A=Lα=I-αS。由此得出，n =In且R=−αS，因此，ft=αSft−1+（1 − α）y。（十六）我们重新推导了（3）。注意，雅可比一致性的一个充分条件纳利马尼登岛e. |阿伊伊|>j/=iaij，其中i∈[n]。它很容易检查Lα确实满足这个条件的建设，给定0<α1。这提供了另一种证明，Zhou et al. [63]。共轭梯度（CG）[38]是解决像我们Lαf=（1−α）y，（17）其中Lα是正定的，特别是对于图相关的问题[54]。它已被用于随机行走问题[20]，但不是基于扩散的检索，据我们所知事实上，线性系统公式在本文中已被明确避免[13]。在这里，我们认为，如在[32]中，我们寻求的是（17）的解，而不是迭代（3）所遵循的路径然而，我们使用CG来近似这个解，因为矩阵Lα确实是正定的。在每次迭代中，CG最小化二次函数φ（x）=1x<$Ax−x<$b在一个特定的方向，通过分析计算的最佳，正常步长。更重要的是，在每次迭代中选择的方向与先前的方向共轭。因此，沿着这个方向的任何x的更新都不会破坏到目前为止所考虑的整个子空间中达到的与包括（16）的其他迭代方法相反，CG保证在n步中终止。值得注意的是，它提供了很好的近似在非常少的步骤。标准化是预处理。最后，标准的改进是预处理，即，，用C−1AC− ε代替A，求解一个相关的系统，矩阵满足一个弱条件，如其特征值被聚类. Un-幸运的是，找到一个合适的矩阵C可能是相当困难的。2.本节采用标准线性系统表示法;矩阵A不要与我们在（1）中定义的亲和矩阵混淆2083复合物[54]。我们观察到正规化（2）是预条件化。实际上，我们同样可以考虑矩阵Lα=D−αA=αL+（1−α）I<$0并求解线性系统Lα（D−1/2f）=（1−α）（D1/2y）（18）它相当于（17）。通过将Lα归一化为Lα，我们实际上是用C= diag（Lα）1/2进行预处理。这是对称预处理的一种简单形式，称为对角标度或Jacobi[53]。它改善了收敛，无论是CG还是扩散（3）。4.4. 扩大尽管在前一节中描述了有效的解决方案，但仍然存在关于大规模空间和离线预处理的问题。我们在这里解决这些问题。紧凑的表示。在大规模下，每个数据库图像的区域特征的数量应保持尽可能低。为此，我们对每个数据库图像的原始特征学习高斯混合模型（GMM）在处理重叠区域时，这是一个更自然的选择（见第5节）.因此，它减少了区域特征的数量和它们的冗余。亲和矩阵的离线构造是数据库中向量数量的二次方，并且在大规模下可能不容易处理。我们采用Dong等人的高效近似k-NN图构造方法[11 ]第10段。第5节表明，它比exhaustive搜索快几个数量级，对性能几乎没有影响。截断亲和矩阵。扩散不是对整个数据集进行排名，而是对初始搜索进行重新排名。我们实验中的基线是用全局描述符和kNN搜索完成的然后，我们只对排名靠前的图像应用扩散。我们截断亲和矩阵，仅保留与排名靠前的图像的区域相关的行和列，并根据（2）对其进行重新归一化。与实际扩散相比，该步骤的成本并不显著5. 实验本节介绍了实验设置和investi- gates的准确性，我们的图像检索方法与国家的最先进的方法。5.1. 实验装置数据集。我们使用三个数据集。两个是众所周知的图像检索基准：牛津大厦[40]和巴黎[41]。我们称之为牛津5k和巴黎6k。我们通过添加来自Flickr [40]的100k分心图像进行大规模实验第三个语料库是最近引入的实例搜索数据集，名为RESTRE [55]。它包含从建筑物到徽标的2084池化INSTRE Oxf5k Oxf105k Par6k Par106k总和GMP79.180.092.293.290.691.696.196.594.494.6表1.具有求和和广义最大池化（GMP）的区域扩散的检索性能（mAP），其中λ= 1在（14）中。有许多变化，如不同的尺度，旋转，10090807060，全球基线，全球区域扩散基线，区域扩散10 50 100 200 500 1000K闭塞。一些物体覆盖了图像的一小部分，使其成为一个具有挑战性的数据集。它由来自250个不同对象类的28，543幅图像组成。特别是，100个类的图像从在线源检索，100个类的图像由数据集创建者，和50个类组成的对从第二类。我们与原始协议[55]不同，原始协议使用所有数据库图像作为查询。我们将数据集随机分为1250个查询，每个类5个，以及27293个数据库图像，而边界框定义了查询区域3。查询和数据库集没有重叠。我们使用平均精度（mAP）作为所有数据集的性能指标。表示. 我们采用了一个CNN，它经过图像检索的微调[43]来提取全局和区域表示。特别是，这个微调VGG产生512个维度描述符。我们在R-MAC [52]中以3种不同的尺度提取区域，同时我们还将完整图像作为一个区域。以这种方式，每个图像平均具有21个区域。区域描述符被聚合并重新归一化为单位范数，以构造全局描述符，这与R-MAC完全相同。我们将监督白化[43]应用于全局和区域描述符。我们使用这个网络来执行我们所有的初始实验。在第5.4节中，我们还报告了使用相同固定网格从微调的ResNet101 [19]中获得的高维描述符的分数。实作详细数据。我们使用单项式内核[50]定义亲和度函数为s（x，z）= max（x<$z，0）3。扩散参数α始终为0.99，如工作中所Zhou et al.[63]。假设（8）所需的k-NN搜索穷尽地访问所有数据库向量。我们的工作没有研究近似搜索方法[36，25，29，5，24]如何改善这个过程所消耗的时间和空间。在计算（8）之后，我们只保留y的最大k值，并将其余值设置为零。5.2. 不同组成部分邻居我们改变最近邻k的数量来构建亲和矩阵，并评估全局和区域扩散的性能。全局基线方法是使用R-MAC的k-NN搜索，而区域基线方法是Razavian等人的方法。[44]其中，图像区域3http://people.rennes.inria.fr/Ahmet.Iscen/diffusion.html图2.仿射矩阵中最近邻数k的影响在Oxford 5 k上进行全球和区域传播的mAP性能;基线分别是R-MAC和R-match。都被编入索引并进行交叉比对在我们的其余实验中，我们将后者称为R-match。Oxford5k的结果如图2所示，与其他数据集一致。性能在很宽的k范围内保持稳定。低k的下降是由于很少的邻居被检索（其中区域扩散更敏感），而对于高k，这是由于捕获超过局部流形结构（其中区域扩散更优越）。这种行为与小图案比整个图像更频繁出现的事实相一致。在本文的其余部分，我们将k= 200设置为区域扩散，k= 50设置为全球扩散由于只有相互的邻居是链接的，每个元素的实际边缘数较少：25（第75）对于全球（分别为区域）扩散，测量的ECONORE。在区域扩散的情况下，我们也为查询设置k= 200，而对于全局查询，需要k= 10才能实现良好的性能。合并。我们在表1中评估了区域扩散后的两种合并策略。广义最大池在所有数据集中都有一个小但一致的好处。我们在剩下的实验中使用这种策略。离线计算权重（14），并且每个区域仅存储一个标量。共轭梯度的有效扩散。我们将迭代扩散（3）与我们的共轭梯度解进行比较。我们对每种方法进行迭代直到收敛。性能如图3所示，并在配备4核Intel Xeon 2.00GHz CPU的计算机上进行了计时。CG在少至20次迭代中收敛，这也更快，而（3）仅在110次迭代后才达到与CG相同的性能。在Oxford5k上，包括全球基线、区域基线、全球扩散和区域扩散的所有阶段的平均查询时间分别为0.001s、0.321s、0.02s和0.664s。处理新查询。我们比较我们的新的方式来处理新的查询，传统的方法，作为sumes查询的一部分，数据集。我们的方法实现了80.0与传统方法实现的77.7相比，因此，我们不仅提供空间地图208598949010 20 30 50 70 100迭代图3.共轭梯度（CG）和迭代扩散（3）的区域扩散与迭代次数的mAP性能。标签表示扩散时间。1009080703 5 10区域数（GMM质心）图4.在学习每个图像的GMM之后，针对不同数量的区域描述器的mAP性能。符号表示全局扩散，表示每个图像的默认区域数（21）。以秒为单位的平均扩散时间显示在文本标签中。10095908580103 104 105截断亲和矩阵图5.检索性能（mAP）与用于亲和矩阵截断的候选列表大小。改进，但也更好的性能，主要是在区域扩散的情况下。主要区别在于，每个查询区域（8）和整个向量y都保留了k个非零元素。由于CNN区域的重叠性质，这可能会过滤掉不正确的邻居。5.3. 大尺度扩散现在我们集中讨论4.4节中的大规模解。减少区域数量。图4显示了使用高斯混合模型减少区域数量的影响。每个图像具有少至5个描述符已经实现了有竞争力的性能，同时降低了在线搜索复杂度。当使用GMM约简时，我们将近邻k的数量减少到50，因为现在正近邻较少表2.与最新技术水平的性能比较。来自原始出版物的结果用†标记，否则它们是基于我们的实现。我们的方法都是有缺陷的。512D处的点用VGG [43]提取，2048D处的点用ResNet101 [19]. 5个区域的区域扩散使用GMM。利用Dong算法的亲和矩阵我们将矩阵A的穷举构造与董在一台配备12核Intel Xeon 2.30GHz CPU的机器上，对由220万个区域组成的Oxford105k进行彻底搜索需要96小时近似图只需要45分钟，对最终检索性能的影响很小.在Oxford105k和Paris106k上分别获得91.6mAP和94.6 mAP ，而在连续构造上分别获得 92.5 和 95.2mAP。截断是处理大规模数据集的一种方法即超过100k图像。区域全面Oxford105k的数据集需要13.9秒，这是不实际的。因此，我们根据聚合的区域描述符对图像进行排名，这相当于R-MAC表示[52]，然后在短列表上执行扩散。8060400的情况。2040608 1相对物体大小图6.在检索位置测量的每个正像的精度，根据相对对象大小对正像进行平均统计数据计算的所有查询的全球和区域扩散的EQUIPRE。3二、6s（PR）（CG）Par6kOxf5kPar6k）（CGOxf5k6s0的情况。. 1s7s0的情况。3s0的情况。0的情况。02秒0的情况。INSTRE0的情况。06s牛津5k3s2s0的情况。六比三。0秒0的情况。00的情况。6s1s0的情况。7s2s0的情况。5s0的情况。7s5秒0。00的情况。00的情况。02秒0。0牛津105k巴黎106k地图区域的全球地图地图方法m×d INSTRE Oxf5k Oxf105k Par6k Par106k全局描述符-最近邻搜索CrowW [30]†512-68.263.279.871.0R-MAC[43]51247.777.770.184.176.8R-MAC[19]2,04862.683.980.893.889.9NetVLAD [1]†4,096-71.6-79.7-全局描述符-查询扩展[8]第四十三话：一个人51257.385.479.788.483.5[48]第四十三话：一个人51260.185.380.589.484.5[42]第四十二话：一个人51264.779.9-92.0-全局扩散51270.385.782.794.192.5[19]第八届全国政协副主席2,04870.589.688.395.392.7[48]第四十八话：一个人2,04871.489.187.395.492.5全局扩散2,04880.587.187.496.595.4区域描述符-最近邻搜索R-match[44]R-match[44]21×51221× 2，04855.571.081.588.176.585.786.194.979.991.3区域描述符-查询扩展HQE [51]2.4k×12821×5125×51221×51221× 2，0485× 2，04821× 2，04874.760.477.580.088.489.689.4†83.691.593.295.095.884.0†78.684.790.390.094.282.8†87.095.696.596.496.9-81.093.092.692.595.895.3[44]第八届全国政协副主席区域扩散精度2086（美联社：43.1→84.9）0.5→1000.6→1001.8→1000.6→98.72.6→1002.6→1000.4→97.71.6→98.83.3→1000.4→96.74.5→1003.7→98.8(AP：24.0→89.9）3.1→1004.2→1004.3→1004.7→1005.9→1005.9→1006.4→1007.0→1007.0→1007.0→1007.1→1007.3→100(AP（56.5→94.3）8.2→94.512.9→91.518.8→91.614.7→85.4 13.3→83.615.9→86.115.9→84.810.9→79.513.7→82.417.0→84.117.8→84.426.5→93.0图7.查询示例来自EQUIPRE、Oxford和Paris数据集，检索到的图像按全球和区域扩散之间的排名差异降序我们在检索每个图像的位置测量精度，并在每个图像下报告精度，以进行全球和区域扩散。针对两种方法的每个查询报告平均精度（AP）。图5报告了截断的结果整个数据库扩散的性能几乎是通过重新排序不到10%的数据库来实现的。Oxford105k上的整个截断和扩散过程需要1秒，截断和重新归一化只需要其中的一小部分。在下文中，通过截断前10k个图像来执行对Oxford105k和Paris105k的搜索。这种选择导致大约200k个区域的亲和矩阵A。当使用GMM缩减时，我们的短列表大小被选择为使得A也具有2M区域，从而保持重新排序复杂度固定。由于截断，我们的方法是可扩展的：短列表长度是固定的，并且重新排序时间也是固定的，而与数据库大小和描述符的维数无关。虽然这个入围名单包含了数据库的一小部分，但它的表现明显优于基线。小物件。我们提出了定量和定性的结果表明，图像受益于我们的方法主要是当描绘的对象是小的，场景是混乱的。图7示出了与全局扩散相比具有最高精度增加的检索图像包含后者无法看到的小对象。由于边界框可用于所有图像的BURNRE，我们定量测量所有正图像的精度：图6显示，最高的改善确实来自相对较小的对象。5.4. 与其他方法的我们比较与国家的最先进的方法与全球或区域的代表性，有或没有查询扩展。表2总结了结果。我们实现了三种通常与BoW相结合的方法，即平均查询扩展（AQE）[8]，空间约束相似性度量（SCSM）[48]和Hello Neighbor（HN）[42]。AQE对CNN全局表示也有效 [52 ， 30 ， 18] 。区域 sce- nario 的基线是 R-match[44]。我们还将AQE扩展到重新-区域表示4与R匹配中使用的相似性相结合。HammingQuery Expansion5（HQE）[51]是唯一不使用CNN，而是使用局部描述符的方法。区域扩散在所有数据集上的性能均显著优于其他所有方法。全局扩散在Paris上表现良好，因为查询对象几乎完全覆盖了大多数数据库条目中的图像。这并不适用于IN-STRE，它包含很多小对象.在这种情况下，区域扩散的改善要大得多。6. 结论我们提出了一种检索方法，捕捉不同的人，ifolds在描述空间中，在没有额外的成本，一个单一的查询。我们的实验表明，它显着提高检索的小对象和混乱的场景。结论是，只有5-10个区域CNN描述符可以传达关于小对象的重要信息，而通常需要数千个传统的局部描述符。因此，区域亲和矩阵成为可能。区域性的扩散在以前是不可能的。在以前的工作相比，我们使用的封闭形式的解决方案的扩散迭代，得到共轭梯度法。结合我们对空间效率的贡献，这在合理的查询时间内实现了大规模搜索。使用最近的CNN架构，我们在两个流行的基准点和最近更具挑战性的数据集上实现了最先进和接近最佳的性能致谢作者得到了MSMT LL 1303 ERC-CZ资助的支持。用于这项研究的Tesla K40由NVIDIA公司捐赠。4没有在区域情景中提出空气质量当量。我们扩展它作为竞争力的基线来自以前的工作。[5]为了完成这项工作，我们对HQE进行了评估。2087引用[1] R. Arandjel o vi c´，P. Gronat，A. Torii、T. Pajdla和J. Si vic. NetVLAD：用于弱监督位置识别的CNN架构。在CVPR，2016年。1、7[2] R. Arandjelovic和A.齐瑟曼。每个人都应该知道的三件事，以提高对象检索。载于CVPR，2012年6月。2[3] H. Azizpour，A. S. Razavian，J. Sullivan，A. Maki和S.卡尔森从一般到具体的视觉识别深度表示。载于CVPRW，2014年。1[4] A. Babenko和V. Lempitsky聚合深度卷积特征用于图像检索。在ICCV，2015年。1、4[5] A. Babenko和V.Lempitsky 深度描述符的十亿级数据集的高效索引在CVPR，2016年。一、四、六[6] S.陈湖，澳-地Zheng，X. Hu，and P. Zhou.具有下沉点的区别性显著性传播。模式识别，60：2-12，2016。2[7] O. Chum，A.Mikulik，M.Perdoch和J.马塔斯全面召回II：重新审视查询扩展。载于CVPR，2011年6月。2[8] O. Chum，J. Philbin，J. Sivic，M. Isard和A.齐瑟曼。总召回：用生成特征模型进行对象检索的自动查询扩展。InICCV，October 2007. 一、二、七、八[9] F. R.阿忠谱图理论，第92卷。美国数学学会1997. 3[10] A. Delvinioti，H. 杰古湖 A m sal e g和M. 胡勒基于互反近邻和共享近邻的图像检索。在VISAPP，2014年。2[11] W.董，M. Charikar和K.李用于通用相似性度量的高效k-最近WEB，2011年3月。五、七[12] M. Donoser复制器图聚类。InBMVC，2013. 2[13] M. Donoser和H.比肖夫再访检索的扩散过程CVPR，2013。二三五[14] A. Egozi，Y. Keller和H.古特曼通过光谱匹配和Meta相似性改进形状检索。 IEEETransactions on ImageProcessing，19（5）：13192[15] T. Furuya和R.大渊基于形状的三维模型检索中局部特征的流形上扩散聚合。InICMR，2015. 2[16] Z.作者：Gao，J. Xue，W. Zhou，S. Pang和Q.田图像检索中的民主扩散聚合。IEEE Trans. on Multimedia，18：1661- 1674，2016. 2[17] Y.贡湖，澳-地王河，巴西-地Guo和S. Lazebnik深度卷积激活特征的多尺度无序池化。2014年，在ECCV。4[18] A. Gordo，J.Almazan，J.Revaud和D.拉勒斯深度图像检索：学习图像搜索的全局表示。ECCV，2016。1、8[19] A.作者：Gordon，J. Revaud和D. 拉勒斯深度视觉表示的端到端学习，用于图像检索。在arXiv，2016。一、六、七[20] L.格雷迪图像分割的随机游走。IEEE Trans. PAMI，28（11）：1768-1783，2006年。二三四五[21] W.哈克布施大型稀疏方程组的迭代解法。SpringerVerlag，1994年。5[22] J. Heinly，J. L. Schonberger，E.邓恩和J M.弗拉姆重建世界 * 在六天 *（如捕获的雅呼1亿图像数据集）。CVPR，2015。1[23] A. Iscen，T.

下载后可阅读完整内容，剩余1页未读，立即下载