没有合适的资源?快使用搜索试试~ 我知道了~
1地方特色与视觉词汇在激活OrianeSime' oni1YannisAvrithis1OndrejChum21UnivRennes,Inria,CNRS,IRISA2 VRG,FEE,CTU在布拉格摘要提出了一种新的深度空间匹配(DSM)图像检索方法.初始排名基于通过全局池化从卷积神经网络激活中提取的图像描述符,如在最近的最先进的工作中。然而,相同的稀疏3D激活张量也通过局部特征的集合来近似。然后,这些局部特征被鲁棒地匹配以近似张量的最佳对准这在没有任何网络修改、附加层或训练的情况下发生在原始图像上不发生局部特征检测在整个过程中不需要局部特征描述符和视觉词汇表。我们的实验表明,所提出的方法实现了国家的最先进的性能在不同的网络架构和不同的全球池化方法的标准基准。性能的最高增益时,实现扩散的最近邻图的全局描述符是从空间验证的图像开始。1. 介绍图像和特定对象的检索通常被称为大规模图像匹配:将查询与数据库图像进行匹配,并且由匹配分数给出最终排名。在早期的检索中,基于局部特征的方法占主导地位[35,23]。匹配分数首先通过词袋[35]或聚合描述符[14]的相似性来近似,然后通过有效的空间验证[26,25]重新排名。最近,图像检索由卷积神经网络(CNN)主导[10,29]。图像表示来自CNN的输出,其可以被解释为模式检测器的2D响应图的集合响应的位置指示图案在图像中的位置,图案的大小受感受野限制,并且响应的值指示图案存在的置信度。1图1.快速空间匹配[26]基于局部特征表示找到对象的两个视图之间的线性几何变换这是用于大规模图像检索中的空间验证。显示的内部对应关系,由视觉单词着色。什么是潜在的代表性?1(a) SIFT [19] Hessian-affine [22]局部特征的描述符(b) 通过使用补丁对标签的端到端可扩展管道检测到的补丁上的描述符[42]。(c) 由在图像级标签上学习的注意力机制选择的位置处的卷积特征子集[24]。(d) 香草特征图的每个通道上的局部最大值。不需要词汇。相应对象或对象部分的图像在所有通道中具有相似的响应已知图像到图像映射可以通过将两个图像的响应张量相关来恢复[18,4,31]。一般来说,CNN激活张量大小取决于通道数量和图像大小。它太大而无法存储,特别是对于大规模应用程序。为了构建一个固定且合理大小的描述符,提取通过全局池化获得的向量,例如均值池化[2],最大池化[40],广义均值池化[29]等[15,40]。如果CNN响应张量匹配,则全局池化后获得的统计数据也应该匹配。全局池不仅减少了描述符的大小,而且还注入了视点不变性。事实上,与特征袋类似,全局池化对非常1165111652大类的转换。因此,丢失了一些信息,即几何一致性。在这项工作中,我们介绍了一种非常简单的方法,从CNN激活中提取适合几何验证的表示,我们将其应用于重新排名。理想情况下,人们会估计几何变换以对齐激活张量并进行比较。然而,如前所述,这是不切实际的。我们提议利用激活的两个性质来近似该过程:较高的值更重要,并且激活是稀疏的。因此,每个通道可以很好地近似由少数极值区域。在讨论了第2节中的相关工作之后,我们在第3节中开发了我们的方法,称为深度空间匹配(DSM)。实验结果在第4节中报告,结论在第5节中得出。2. 相关工作在AlexNet的普及和使用其最后一个全连接层的输出向量进行图像检索的说明[17]之后不久,人们发现卷积层具有更强的区分能力,并且更好地适应新的领域[3]。然而,仅仅将3D卷积激活张量平坦化为向量会产生非不变的表示。下一个明显的尝试是将图像分割成补丁,应用空间最大池化并将它们逐对匹配,这可能首次击败传统管道[37],但费用昂贵[30]。然后,在整个图像的单个卷积激活上应用区域最大池化更有效[40]。结合积分图像计算,[40]还允许快速滑动窗口式空间匹配,仍然需要存储与整个卷积激活张量大小相同的张量随后使用度量学习损失函数对MAC和R-MAC [40]等全局池化表示进行网络微调,以实现最先进的性能[10,29]。每个图像的一个或非常少的区域描述符的CNN表示的能力允许将图像检索减少到最近邻搜索,并通过扩散将先前的查询扩展[6,39]扩展到数据集的整个最近邻图的有效在线探索[12]。这一进展几乎解决了不确定的基准,需要重新审视它们[27]。这些紧凑表示的主要缺点是它们与空间验证不兼容,这将确保与传统表示一样的顶级结果的准确性[26,36]。事实上,只要有足够的内存,这种表示仍然是最先进的[27]。在后一个基准测试中最值得注意的是深度局部特征(DELF)的性能[24],它将CNN特征的功能与传统管道相每个图像有数百个本地描述符,然后根据词汇进行编码,并通过倒排文件进行搜索。DELF方法确实允许空间验证,但代价是更多的存储器和与全局表示的不兼容性,另一方面,允许最近邻搜索。在这项工作中,我们试图通过引入一种新的表示来缩小这一差距,该表示对允许空间验证的几何信息进行编码,但它与用于最近邻搜索的全局表示有着微不足道的关系。在这一点上,有必要查看图1中所示的两个视图的几何对齐,并思考潜在的表示方法以及每种选择的优点。在几何对应性方面,最近的努力主要集中在密集配准[18,4,31,32](由于存储限制,其不适用于检索)或模仿传统管道[19,22]。在后一种情况下,两种主要范式是检测然后描述[42]和描述然后检测[24],这两种范式都导致了大量的视觉描述器。我们通过直接从特征图中“读取”信息来打破这种困境3. 深度空间匹配我们首先激励我们的方法,然后提出了建议的架构,其次是主要思想,包括特征检测和表示CNN激活,空间匹配和重新排名。3.1. 动机给定一个以全局平均池化结束的卷积神经网络,给定类的对象可以通过类激活映射(CAM)定位[43],即使该网络仅被训练用于图像级标签的分类。这些映射是最后一个卷积层的各个特征映射(通道)的线性组合。Grad- CAM [33]将这一想法推广到任何网络架构,并允许通过梯度信号上的类似线性组合在任何层进行可视化。在没有任何类语义的情况下,另一个线性组合产生了一个显着图,用于跨维加权(CroW)中的空间池化[15]。后者根据稀疏性对通道进行加权,但在所有情况下,线性组合仅提供给定类或类不可知显著区域的对象的粗略定位。[40]中的实验表明,卷积激活(MAC)的最大池化优于其他空间池化方案,至少对于图像检索是如此。这可能与激活的稀疏性有关。更有趣的是,查看对图像相似性贡献最大的通道中的最大值的位置,可以很容易地识别两个图像之间的对应关系[40]。同样的情况也发生在重新识别的过程中[1]。11653RP∈×P P图2. ROxf数据集中自然历史博物馆的四个视图(列),覆盖有VGG 16 [34]网络最后一个卷积层的两个不同特征图(行)。每个通道中的滤波器内核响应于所有图像中的相似图像结构。所有的激活都是自然稀疏的,非零响应在所有图像之间的位置和局部形状上都一致。后来,广义均值池(GeM)[29]被证明优于最大池。这可以归因于这样一个事实,即它允许多个位置对表示做出贡献,同时仍然比平均池更具选择性根据上述观察结果,我们研究了VGG的最后一个卷积层对Oxf数据集的几个匹配图像的这一次,我们不局限于对图像相似性贡献最大的通道(假设例如,全局最大池化(max-pooling)和余弦相似性),但是我们更愿意观察所有通道。 我们发现,如图2所示,对于两个示例通道,在大多数情况下,对所有图像的响应不仅稀疏,而且一致:滤波器响应于图像中的相同结构,并且在具有一致局部形状的一致位置处存在响应。响应在一定程度上表现出平移和尺度协方差在这项工作中提出的深度空间匹配的动机是以下想法。为什么不保留每个通道中的所有响应峰值以及几何信息(坐标和局部形状),而不是将每个通道简化为单个标量与其给每个这样的几何实体附加一个完整的描述符,为什么不把它提取出来的通道附加上,就好像它是一个视觉单词一样?我们提出了一种介于两种常用方法之间的方法,以两个世界中最好的。一个是传统的表示数以千计的本地功能,每个图像,其自己的描述符,适合倒排文件和空间验证。 另一个依赖于一种罪恶- 每个图像都有一个全局或几个区域描述符,从而实现紧凑的存储、高效的最近邻搜索和基于图的重新排序。所提出的方法适用于任何网络微调检索,而不需要任何网络适应,甚至没有任何训练。它不需要词汇,它与全球性的这些描述符主导了现有技术。3.2. 方法概述前面的想法产生了我们在这项工作中引入的深度空间匹配(DSM)网络架构,如图3所示。我们考虑一个完全卷积的骨干网络架构,保持尽可能多的空间分辨率。我们用f表示将输入图像映射到最后一个卷积层的特征张量的网络函数我们假设骨干网f,当后面跟着一个池机制,例如。MAC [40]或GeM [29],提取一个全局描述符,例如,[29]《归去来兮》。如图3所示,两个输入图像x1,x2被网络处理成三维特 征张 量A1 :=f ( x1 ) ,A2 :=f ( x2 )其 中Ai∈Rwi×hi×k,wi×hi是Ai的空间分辨率,i= 1,2,k是通道(特征)的数量。使用两个特征张量是图像配准中的标准实践[18,4],光学流[8]或语义对齐[16,31],但在这里我们使用一种完全不同的方法来处理张量。特别地,类似于来自单个特征张量的局部特征检测[24],大多数配准/流/对准方法将特征张量ARw×h×k视为w hk维向量描述符数组。然后,给定两个特征张量,大多数考虑两个二维数组的相关性,寻求密集的对应。相比之下,从每个特征张量A1、A2中,我们提取关于iv的局部特征的稀 疏 集 合 P1 : =d ( A1 ) 、 P2 :=d(A2)。在3.3节中讨论的特征检测器d特征集合是集合的列表,每个通道一个。局部特征如第3.4节所述。然后,两个局部特征集合1、2经历空间匹配,表示为g并且在第3.5节中讨论,返回内点M的集合和几何变换。11654MM××FCNND特征检测MX1的1P1X2一个2空间匹配P2GS相似性功能FCNND特征检测输入图像特征映射局部特征内点图3.深度空间匹配(DSM)网络架构。 两幅输入图像x1,x2通过网络f分别映射到特征张量A1,A2。由检测器d提取的稀疏局部特征P1、P2经历空间匹配g,从而产生内点M的集合。相似度函数适用于此集合。局部特征被独立地检测和匹配每个通道,其中通道扮演视觉单词的角色。这是在没有任何额外的学习和不适应骨干网络的情况下发生的。在检索中,仅存储局部特征P1、P2,并且g直接应用于重新排序。形成T.我们将一个线性运动模型拟合到一个试探性对应的集合,即,- 来自两个图像的局部特征对,其再次独立于每个通道形成这隐含地假设每个局部特征的内点对应的输出集合再次作为集合列表给出,每个通道一个。最后,相似性函数s适用于.整个特征检测和匹配机制在不以任何方式调整骨干网络并且不进行任何额外学习的情况下发生。 当应用于图像检索时,该体系结构假设局部特征已经预先计算并且是数据库图像的表示,即特征张量被丢弃。基于这种表示,空间匹配g直接适用于几何验证和重新排序。3.3. 局部特征检测为了检测每个特征通道中的局部特征,我们使用Matas等人的最大稳定极值区域(MSER)。[20 ]第20段。MSER是在2维输入上定义的,在我们的情况下是在特征张量A的特征图A(j)上定义的,对于每个通道j= 1,. . .,k.提取器找到连续区域R,其中所有内部点具有比相邻外部点严格更高的响应值。选择满足稳定性标准[20]并通过位置非最大值抑制的区域。这些特征适用于任意形状的区域,包括局部峰、斑点、细长或甚至嵌套区域。当MSER用作图像特征时,响应图4. 来自ROxf数据集中建筑物的两个不同视图的一个通道的特征图。椭圆拟合到由MSER检测到的局部特征。值是图像强度(MSER+)或反向强度(MSER−)。在我们的情况下,只有稀疏特征图中的高CNN激活区域是感兴趣的,因此只有一种类型的MSER直接在特征图响应上提取3.4. 局部特征表示对于在信道j中检测到的每个MSERR,我们计算表示强度的标量值v。它在特征图A(j)中的R的空间支持上被池化为v:= pool r∈RA(j)(r)。这里pool可以是任何池化操作,如max、mean或generalizedmean。我们还通过匹配椭圆的一阶矩和二阶矩来拟合椭圆,即.其2 1均值(位置)向量μ和2 2协方差矩阵(局部形状)μ。 例如,图4显示了一个示例在牛津自然历史博物馆的两个视图的一个通道的特征图上检测到的拟合到MSER的椭圆。两个视图中的椭圆对齐良好。然后表示对应于R的局部特征11655PP PP P2MMP P M MM(1)(1)(k)(k)M12我FSM是RANSAC的变体[9],其生成j=1我图5.我们的深度空间匹配(DSM)的例子之间的图像从ROxf和RPar基准。内点特征(椭圆)和对应(线)以不同颜色显示。以元组p:=(μ,μ,v)。 最后,我们收集局部特征没有旋转,假设图像是在P=(P(一),的。. .得双曲余切值.(k)其中P(j)包含本地fea-Giv en两个特征p1=(μ1,μ1,v1)的对应关系在通道j中发现的纹理p。 整个操作表示为通过:=d(A)。为了将特征通道视为视觉词,我们假设特征是不相关的,这在实践中并不成立,因为白化可以提高性能。同一个滤波器可能会响应各种输入模式,更糟糕的是,几个滤波器可能会响应同一个模式。这可能会增加负图像对中的干扰水平出于这个原因,我们在每个数据库图像的检测区域上的所有通道上应用非最大抑制(NMS)。由于本地特征通常很小,因此我们设置了一个较低的IoU阈值。我们不对查询图像应用NMS,以便允许来自任何通道的匹配。3.5. 空间匹配给定两个图像x1,x2的局部特征1,2,我们使用快速空间匹配(FSM)[26]来找到两个图像之间的几何变换T以及与该变换一致的1,2的子集。 匹配是基于对应关系的,即. 来自两个图像的局部特征对c=(p1,p2)。We所有o w对仅在同一通道的局部特征之间,即对于某个通道j,p1,p2在P(j),P (j)方面。我们这样对待和p2=(μ2,μ2,v2),从两个椭圆中可以发现(μ1,μ1),(μ2,μ2)变换T1,T2,将它们映射到单位圆,同时保持y方向,并定义变换假设T = T−1T1。假设是基于内点的数量来评估的,即,与它一致的对应性由于尝试性的对应关系不多,所以列举了所有可能的假设.在[26]之后,我们使用LO-RANSAC [5],它通过最小二乘拟合完整的变换来迭代地评估返回具有最多内点的变换T。 该操作由(,T)表示:g(1,2)和=((1)、. . . 、(k))是内点集合的列表,每个通道一个。3.6. 检索和重新排序在图像检索场景中,n个数据库图像X={x1,. . . ,xn}是预先给定的。对于具有特征张量Ai的每个图像xi,其局部特征Pi=d(Ai)与全局描述符zi空间汇集di一起计算直接从Ai再一次例如。通过max或GeM池化;然后丢弃Ai在查询时,给定具有特征张量A、局部特征P:=d(A)和全局描述符z的查询图像x,通道作为视觉词,就好像局部特征被分配这些描述符针对词汇表进行了矢量量化,并与离散度量相我们从所有这些对的集合即试探性对应C:=(P× P,的。. .得双曲余切值.×P)。我们首先将{z1,. . . ,zn}乘以与z的余弦相似度,然后根据(Mi,Ti):=g(P,Pi)对最高等级的图像进行 相 对 于 P 的 空 间 匹 配 , 并 根 据 相 似 性 函 数 s(i)。 最常见选择,我们也遵循这项工作,是数量(j)1 2 1 2发现的内点,s(M):= 10k| M|.从一个单一的对应转换假设。我们采用线性五自由度变换, 对于平移、各向异性尺11656度和垂直剪切,为了提高性能,我们遵循多-尺度方法,其中我们从3个不同尺度的每个输入图像计算特征张量和局部特征11657×R r rrRR√但是仍然根据强度保持来自所有尺度的固定数量的局部特征。在重新排序过程中,我们对查询和数据库图像尺度的所有9种组合进行空间匹配,并保留具有最大相似性的组合。匹配示例如图5所示。作为后处理,我们将监督白化应用于全局描述符[29]和查询时扩散[12]。后者基于整个数据集X的最近邻图,并且是在空间重新排序之后应用的第二重新排序过程。顶级图像的精确度对于扩散很重要[27],因此空间重新排序预计将有助于更多的存在。4. 实验在本节中,我们将评估深度空间匹配(DSM)的不同部分的好处,并将我们的结果与标准基准的最新水平进行比较。4.1. 实验装置测试集。我们使用重访的中硬设置Oxf和Par基准[27]。我们还使用大规模基准Oxf+ 1M和Par+1M,它们是一组1M分心物图像与两个小图像的组合。我们调整所有图像的最大大小为1024 1024.根据方案[27]的定义,我们通过平均精密度(mAP)和10(mP@10)时的平均精密度网络. 我们使用VGG 16 [34]和Resnet 101 [11],简称为VGG ( ResNet ) 或 V ( R ) 。 特 别 地 , 我 们 使 用Radenovic etal. [29]第29话,我们还使用最大池化在相同的120k Flickr图像数据集和相同的运动结构管道上重新训练它们[29]。最大池化由MAC [40]表示,重新训练由 * 表示。ResNet的分辨率比VGG小4倍因此,我们在第一个conv5卷积层中删除步幅,并在所有后续层中添加膨胀因子2因此,我们维护上采样2时的特征空间。这种上采样不需要重新训练,用↑表示。全局图像表示。为了根据余弦相似性对图像进行排名,我们计算了3.5节中描述的多尺度全局表示。我们在三个不同的尺度上提取描述符,通过因子1,1/2和1/2相关,并使用最大池化[40](MAC)或广义均值池化[29](GeM)从最后的激活图中合并。描述符被汇集到一个单一的表示,或者GeM的网络使用GeM,或平均网络使用MAC。局部特征检测。我们使用VLFEAT [41]的MSER实现来检测网络最后一个激活图中的区域我们将最小多样性设置为0.7,最大变化设置为0.5。我们观察到,方法介质硬ROxf RPar ROxf RParR-MAC*64.075.536.753.2R-MAC*↑63.975.535.653.3R-GeM[29]64.777.238.556.3R-GeM[29]↑65.377.339.656.6R-MAC*+D73.789.545.880.5R-MAC*↑+D73.989.945.681.0R-GeM[29]+D69.888.940.578.5R-GeM[29]↑+D70.189.141.578.9表1. ResNet(R)激活上采样(↑)对R Oxf和R Par中mAP的影响[27]。MAC:最大池化[40]; GeM:广义均值池化[29];D:扩散[12]。所有结果均采用监督白化[21]。引文指定网络的来源或 *:我们的再培训。方法介质硬ROxfRParROxfRPar地图 mP@10 地图 mP@10 地图 mP@10 地图 mP@10V44.8 63.365.7 95.018.4 31.241.0 79.1V+DSM51.1 77.366.2 96.925.3 40.341.0 81.7R↑44.4 64.269.0 96.417.7 31.246.5 85.3R↑+DSM49.6 74.069.7 98.421.7 37.646.7 87.0V+D48.4 65.281.4 95.624.8 37.167.1 93.0V+DSM+D61.6 81.082.8 97.635.5 48.168.7 95.9R↑+D53.8 69.085.6 96.329.8 38.172.1 94.1R↑+DSM+D 60.2 78.986.3 96.933.1 42.072.8 95.0表2.所提出的深度空间匹配(DSM)对ROxf和RPar [27]上的mAP和mP@10的影响,具有现成的(在Imagenet [7]上预先训练的)VGG(V)和ResNet(R)。↑:上采样; D:扩散[12]。DSM:这项工作。所有结果均采用GeM合并和监督白化。需要根据所使用的网络/数据集进行调整。我们通过将Risk设置为数据集上激活值累积直方图的60%来实现这一点。本地图像表示。为了在空间上验证图像,我们计算3.5节中介绍的多尺度局部表示。我们将椭圆拟合到每个MSER区域,并且对于每个椭圆,我们保持协方差矩阵、中心位置、通道ID和最大值。我们放弃激活地图超过20个功能检测查询图像,10个数据库图像。我们将NMS应用于数据库图像的特征,IoU阈值为0.2,即使对于小特征也有我们根据激活值对所有尺度上的特征进行排名,并在VGG上选择排名最高的512个特征,在ResNet上选择2048个特征。重新排名。在通过余弦相似度进行初始排名之后,我们在查询和排名最高的100个图像之间执行空间匹配,如第3.5节所述。试探性的通信来自相同的渠道。我们将误差阈值设置为2个像素(在激活通道中,而不是在11658RRRRRRRRR图像)并且最大比例改变为3。最后,我们使用内点的数量来重新排名前100张图像。空间验证扩散。我们使用D表示的扩散[12]作为空间验证后的第二个后处理步骤。它基于整个数据集的全局描述符的最近邻图,该图是离线计算的。它从排名靠前的图像开始,根据流形相似性找到扩散是非常强大的,但对最初排名靠前的结果的质量很敏感由于我们的空间匹配,这些结果更加准确。我们取10个排名靠前的空间虚拟化图像,并计算一个新的分数,该分数是内点数量和描述符相似性分数的乘积我们选择其中的前5名来启动扩散。4.2. 消融实验方法介质硬ROxfRParROxfRPar地图 mP@10 地图 mP@10 地图 mP@10 地图 mP@10V*55.2 78.1 61.3 96.1 25.0 38.6 35.8 77.4V*+DSM58.2 83.4 61.9 98.9 28.4 46.6 36.2 80.4V*+W59.1 81.3 66.8 97.7 31.5 49.0 41.7 82.3V*+W+DSM60.0 84.3 67.0 98.6 32.5 53.1 42.0 82.3R*↑54.0 75.7 70.6 97.0 24.2 36.6 44.4 84.6R*↑+DSM57.4 80.4 70.9 98.7 28.4 42.6 44.3 84.9R*↑+W63.9 85.2 75.5 98.4 35.6 52.6 53.3 89.6R*↑+W+DSM 62.7 83.7 75.7 98.7 35.4 51.6 53.1 88.6表3. 监督白化(W)[21]对mAP和mP@10对R Oxf和R Par的影响[27]。VGG(V)和ResNet(R)的结果,两者都使用MAC池; ↑:上采样; D:扩散[12]; DSM:这项工作。引用指定网络的起源或 *:我们的再培训。上采样。表1显示了上采样对检索的影响。这在MAC池中并不重要。然而,在GeM上这可以通过激活图的更高分辨率来解释。现成的网络。我们的重新排序可以应用于任何网络,即使是在Imagenet [7]上预先训练的网络(现成的)。我们使用GeM池,这比MAC0的情况。60的情况。40的情况。2010 20 30 40 50#内围值在这样的网络上[27]。表2显示了DSM对Oxf和Par中等和硬设置的影响。我们改进了有无扩散的结果。增益是显着的Oxf,高达13 mAP点VGG-GeM与扩散,中等设置。它在Par上要小得多,在Par上,性能已经比在ROxf.美白. 我们调查的效率,我们的重新排名与多尺度的全球性的描述,白化或不。我们使用监督白化,如[21,28]中所示,由W表示。这比PCA白化更强大[13]。如表3所示,我们在Oxf上使用两个网络对非白化描述器进行了显著改进。我们获得了3至4 mAP点,并增加了mP@10。另一方面,白化增强了余弦相似性搜索,并获得5到10 mAP点。在这种情况下,我们的改进更加边际化,或者我们损失了圈内人为了评估匹配的质量,我们检查为正图像和负图像找到了多少内点。特别是图图6示出了针对阳性和阴性图像的具有VGG-MAC的Oxf的所有查询的内点数量的分布在不同的网络和数据集上,分布是相似的。负图像可以通过具有很少的内点而容易地被区分,但是这可能导致丢失正图像。与传统的空间匹配相反,我们不使用局部描述符。这在内存方面是积极的,但必然会降低图6.使用VGG-MAC,在R比赛质量。然而,每个查询的最高排名的空间验证图像确实是准确的,如mP@10所指示的,这足以启动更好的扩散。4.3. 与最新技术我们对我们的方法与基线和其他最先进的方法进行了广泛的比较。所有方法均在ROxf、ROxf+R1M、RPar和RPar+R1M。我们在表4中收集所有结果。大多数基线通过重新排序得到改善,并且Oxf上的所有实验均显示出性能的持续增加。然而,重新排名并不完美,如图所示六、在少数情况下,性能在Par上重新排名多达一个mAP点后下降我们将损失归因于两个因素。一个是有限的另一个是激活图高度相关的事实。这是利用白化的全局描述符,但往往会创建相关的功能。当从排名靠前的空间验证图像开始扩散时,性能显著提高。扩散只需要很少的相关图像,我们能够提供这些图像感谢空间匹配。我们...负面图像正面图像#匹配的图像11659R†方法介质硬ROxfROxf+R1MRParRPar+R1MROxfROxf+R1MRParRPar+R1M地图 mP@10 地图mP@10地图 mP@10 地图 mP@10地图 mP@10 地图mP@10地图 mP@10 地图mP@10“DELF-ASMK*+SP”[10]第二十七话67.860.987.978.153.839.381.162.176.978.999.396.957.354.898.393.943.132.462.450.031.212.550.724.955.459.493.486.126.428.075.770.0V-MAC[28]58.4 81.1 39.768.666.8 97.7 42.492.630.5 48.0 17.927.942.0 82.9 17.763.7V-MAC*59.1 81.3 40.268.166.8 97.7 42.192.031.5 49.0 17.828.441.7 82.3 17.463.6V-MAC*+DSM60.0 84.3 42.271.067.0 98.6 42.594.732.5 53.1 19.431.642.0 82.3 17.766.0R-MAC*↑63.9 85.2 43.269.675.5 98.4 50.195.335.6 52.6 17.731.453.3 89.6 22.471.6R-MAC*↑+DSM62.7 83.7 44.472.375.7 98.7 50.496.435.4 51.6 20.632.353.1 88.6 22.772.1V-GeM[29]61.9 82.7 42.668.169.3 97.9 45.494.133.7 51.0 19.029.444.3 83.7 19.164.9[29]第二十九话63.0 85.5 43.972.969.2 98.4 45.494.734.5 54.0 19.932.943.9 82.7 19.567.6R-GeM[29]64.7 84.7 45.271.777.2 98.1 52.395.338.5 53.0 19.934.956.3 89.1 24.773.3R-GeM[29]↑65.3 86.3 46.173.477.3 98.3 52.695.439.6 54.6 22.236.456.6 89.4 24.873.6R-GeM[29]+DSM65.3 87.1 47.676.477.4 99.1 52.896.739.2 55.3 23.237.956.2 89.9 25.074.6扩散“DELF-HQE+SP”73.4 88.2 60.679.784.0 98.3 65.296.150.3 67.2 37.956.169.3 93.7 35.869.1“DELF-ASMK*+SP”→D†75.0 87.9 68.783.690.5 98.0 86.698.148.3 64.0 39.455.781.2 95.6 74.294.6V-MAC*+D67.7 86.1 56.878.685.6 97.6 78.696.439.8 51.1 29.446.073.9 94.1 62.491.9V-MAC*+DSM+D72.0 90.6 59.280.186.4 98.9 79.397.143.9 56.0 32.047.475.1 95.4 63.492.9R-MAC*↑+D73.9 87.9 61.380.689.9 96.1 83.095.145.6 62.2 31.948.481.0 94.3 68.691.9R-MAC*↑+DSM+D76.9 90.7 65.783.990.1 96.4 84.095.349.4 64.7 35.751.381.2 93.3 70.192.6V-GeM[29]+D69.6 84.7 60.479.485.6 97.1 80.797.141.1 51.1 33.149.673.9 93.7 65.393.1[29]第二十九章:你是谁?72.8 89.0 63.283.785.7 96.1 80.195.745.4 57.1 35.453.774.2 93.3 65.291.9R-GeM[29]+D69.8 84.0 61.577.188.9 96.9 84.995.940.5 54.4 33.148.278.5 94.6 71.693.7R-GeM[29]↑+D70.1 84.3 67.579.089.1 97.3 85.096.641.5 54.4 39.653.078.9 95.1 72.094.1R-GeM[29]↑+DSM+D75.0 89.6 70.284.589.3 97.1 84.895.346.2 60.6 41.954.979.3 95.1 72.093.4表4.mAP和mP@10最先进的完整基准[27]。我们使用VGG(V)和ResNet(R),以及MAC或GeM池。↑:上采样;* :我们的再培训; D:扩散[12]。DSM:这项工作。引用[27]的结果与该工作中报告的结果相同,并结合了DELF[24],ASMK* [38]和HQE [39]。SP:空间匹配[26]; D t:通过[10]获得的图上的扩散。剩下的引文说明了我们从哪里获得训练好的网络。在大多数数据集,网络和池化选项上证明。Oxf上的增益更明显,最高可达5 mAP或6 mP@10点。最后,在许多情况下,所提出的具有空间验证的扩散的方法优于基于深度局部特征的方法特别是,我们与[27]提出和评估的DELF [24]的最佳性能和昂贵版本进行了除了[26]对100张顶级图像进行空间一个是ASMK* [38],基于每个图像1000个DELF特征的128维描述符,并用于初始排名。 另一个是由ResNet-RMAC [10]获得的全局描述符,并在本工作中进行空间验证后用于扩散(D)。相比之下,我们的全局和局部表示是从相同的激活张量获得的,并且我们不使用任何局部描述符或其量化版本。5. 讨论我们的实验验证了所提出的空间验证表示达到了最先进的性能。管理许多不同的数据集、网络和池机制。这种表示在现有的现成或微调网络的卷积激活中自然出现,而无需任何特别的努力来检测图像补丁上的局部特征或提取局部描述符。它不需要任何网络修改或重新训练。这是一个重要的一步,缩小全球描述符,这是有效的初始排名使用最近邻搜索,和本地表示,这是兼容的空间验证之间的差距。当然,激活通道并不是最适合用来取代视觉词汇的结构。这意味着我们的表示虽然非常紧凑,但不如存储例如.每个图像有数百个本地尽管如此,我们仍然证明,提供高质量的顶级图像来启动扩散是足够的,然后带来了出色的结果。鸣 谢 这 项 工 作 得 到 了 GACEURR 赠 款 19- 23165 S 和OPVVV资助的项目CZ.02.1.01/0.0/0.0/16019/0000765“信息学研究中心”的11660引用[1] 乔恩·阿尔玛赞,博贾纳·加吉奇,奈拉·默里,戴安·拉鲁斯.正确完成重新识别:制定重新识别身份的良好措施。arXiv预印本arXiv:1801.05339,2018。2[2] Artem Babenko和Victor Lempitsky。聚合深度卷积特征用于图像检索。在ICCV,2015年。1[3] Artem Babenko,Anton Slesarev,Alexandr Chigorin,and Victor Lempitsky.图像检索的神经代码。2014年,在ECCV。2[4] Christopher B Choy,JunYoung Gwak,Silvio Savarese,and Manmohan Chandraker.通用通信网。在NIPS,第2414-2422页,2016年。一、二、三[5] 昂德·德雷杰·查姆,吉瑞·马塔斯,约瑟夫·基特勒.局部优化的ransac。在DAGM模式识别研讨会上,第236页。Springer Verlag,2003年。5[6] Ond Zurrej Chum,James Philbin,Josef Sivic,MichaelIsard , and Andrew Zisserman.Total Recall : Automaticquery expansion with a generative feature model for objectretrieval.在ICCV中,2007年10月。2[7] 魏 东 , 理 查 德 · 索 彻 , 李 丽 嘉 , 李 凯 , 李 菲 菲 。Imagenet : 一 个 大 规 模 的 分 层 图 像 数 据 库 。 载 于CVPR,2009年6月。六、七[8] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流。在CVPR中,第2758-2766页,2015年。3[9] Martin A. Fischler和Robert C.波尔斯随机抽样共识。Communications of ACM,6(24):381-395,1981. 5[10] 阿尔伯特·戈多,乔恩·阿尔玛赞,杰罗姆·雷沃,和黛安·拉鲁斯.深度视觉表示的端到端学习,用于图像检索。IJCV,124(2):237-254,2017年9月。一二三八[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。6[12] Ahmet Iscen 、 Giorgos Tolias 、 Yannis Avritis 、 TeddyFuron和Ondrej Chum。区域流形上的有效扩散:用压缩cnn表示法恢复小目标。在CVPR,2017年。二、六、七、八[13] 她的ve'Je'gou和Ondr e jChum。例如图像检索中的证据和共现:PCA和美白的好处。在ECCV,2012年10月。7[17] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。在NIPS。2012. 2[18] Jonathan L Long,Ning Zhang,and Trevor Darrell.囚犯们能学会通信吗?在NIPS。2014
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功