视觉特征翻译提高视觉搜索系统的灵活性和效率

95 浏览量更新于2023-10-17 收藏 3.42MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3004倒排索引提取器昂贵高效译者特征A特征B特征AB面向视觉特征的翻译胡杰1、姬荣荣12、刘红1、张胜川1、邓成3、田琦41厦门大学信息科学与工程学院认知科学系福建省智慧城市感知与计算重点实验室，厦门，中国。2中国深圳鹏程实验室。3西安电子科技大学。4诺亚{hujie.cpp，lynnliu.xmu，chdeng.xd}@ gmail.com，{rrji，zsc 2016}@ xmu.edu.cn，huawei.com摘要大多数现有的视觉搜索系统都是基于固定类型的视觉特征来部署的，这阻碍了在不同系统之间或在升级具有新类型特征的系统时的特征重用。这样的设置显然是不灵活的，并且消耗时间/存储器，如果视觉特征可以跨系统“翻译”，则这确实是可修复的在本文中，我们首次尝试了视觉特征翻译，以突破不同视觉搜索系统之间使用特征的障碍。为此，我们提出了一种混合自动编码器（HAE）来翻译视觉特征，它通过最小化翻译和重建错误来学习映射。在HAE的基础上，进一步设计了无向亲和力测量（UAM）在视觉搜索系统中广泛使用的十六种不同类型的特征的几个公共数据集上进行了广泛的实验。定量结果表明，令人鼓舞的功能翻译的可能性。第一次，广泛使用的功能，如SIFT和DELF之间的亲和力的报告。1. 介绍视觉特征是大多数现有视觉搜索系统的基础。在典型的设置中，视觉搜索系统只能离线处理从图像集提取的预定义特征这样的设置禁止在不同的系统中重用某种视觉特性。此外，当升级视觉搜索系统时，需要耗时的步骤来提取新的特征并建立相应的索引，而先前的特征和索引被简单地丢弃。如果可能的话，突破这样的设置无论如何都是非常有益的。例如，当用新特征更新旧特征时，可以有效地重用现有特征和索引，*通讯作者。跨特征检索检索系统图1.视觉特征翻译的两个潜在应用。上图：在跨特征检索中，特征A被转换为特征AB，可用于搜索由特征B表示和索引的图像。底部：在检索系统的合并中，系统A中使用的特征A被有效地转换为特征AB，而不是在系统A中使用特征B重新提取整个数据集的昂贵过程。这可以显著地节省时间和存储器成本。对于另一个实例，图像可以仅利用用于跨系统检索的相应特征来高效地存档。这些示例在图1中详细描绘。1.一、然而，功能重用并不是一件容易的事情。不同类型的特征的不同尺寸和不同分布因此，需要一个特征直觉上，给定一组用不同类型的特征提取的图像，人们可以利用特征对来学习相应的特征翻译器。在本文中，我们首次尝试研究vi-· ··· ··译者3005编码轮询全局特征手工制作学习型局部描述符第一阶段：特征提取紧凑矢量后处理输入图像图2.提出的视觉特征翻译的总体流程图。在第一阶段，从图像集中提取不同的手工或基于学习的特征进行训练。在阶段II中，从源特征到目标特征的映射由我们的HAE利用编码器Es、Et和解码器D来学习。然后在推理中使用编码器Es和解码器D。在第三阶段，计算UAM以量化不同类型的视觉特征之间的亲和力，并通过采用最小生成树进一步可视化。自然特征翻译具体而言，我们提出了一种混合自动编码器（HAE），通过最小化翻译和重建错误来学习从源特征到目标特征HAE由两个编码器和一个解码器组成。在训练中，源和目标特征由相应的编码器编码到潜在空间中将该潜在空间中的特征发送到共享解码器以产生经翻译的特征和经重构的特征。然后通过优化目标函数使重构误差和平移误差最小化。在推理中，源特征的编码器和共享的解码器用于翻译。所提出的HAE进一步提供了一种表征不同类型的视觉特征之间的亲和力的方法。在HAE的基础上，进一步提出了一种无向亲和度度量（UAM），它也是第一次提供了不同类型的视觉特征之间的亲和度的量化我们还发现UAM可以在实际翻译发生之前预测翻译质量。我们在Google-Landmarks数据集上训练HAE [16]，并评估了视觉搜索社区中广泛使用的16种不同类型的特征[2，4，19，21，29，36，41，44，52]。在三个基准数据集上进行了特征转换测试，牛津5k [40]、巴黎6k [37]和假日[18]。定量结果表明了特征翻译的激励可能性。特别是，HAE对于诸如V-CroW到V-Sort的特征对工作得相对较好（例如，在Oxford 5 k基准上降低0.1mAP）和R-rMAC到R-CrowW（例如，1.8在假期基准上的mAP下降）。有趣的是，视觉特征翻译提供了一些有趣的结果（见图1）。4在我们的实验中）。例如，当从SIFT转换为DELF时，可以突出旋转或视点不变性等特性，这提供了一种新的方法来吸收手工特征的优点，以基于学习的特征。简而言之，我们的贡献可以总结如下：• 我们是第一个解决视觉特征翻译问题的人，它填补了不同特征的类型• 我们是第一个量化检索中不同类型的视觉特征之间的亲和力，这可以用来预测特征翻译的质量。• 该方案在几个细节设计上有所创新，如用于培训译员的HAE，用于量化亲和力的UAM源代码和元数据在线发布1。本文的其余部分组织如下。部分2、回顾相关工作。在第3节中介绍了所提出的特征转换和特征关系挖掘算法。定量实验见第节。4.最后，我们在第5节中总结这项工作。1https://github.com/hujiecpp/VisualFeatureTranslation第二阶段：特色翻译第三阶段：关系挖掘翻译重建解码器$Zs混合ZtEncoderEsEncoderEt一B源要素目标特征功能翻译可视化最小生成树无向图A无向亲和力测量有向图一B定向亲和力测量30062. 相关工作视觉特征。早期的努力主要包括整体特征（例如，颜色直方图[15]和形状[7]）和手工制作的局部描述符[6，20，30，31，33，39，47，49]，如SIFT [29]和ORB [45]。然后，不同的聚集方案（例如，Fisher向量[36]和VLAD [19]）被提出来编码局部描述符。随着神经网络的激增，深度视觉特征已经主导了视觉搜索[1，4，5，12，16，21，32，41，43，52]，例如，局部特征DELF [16]和由GeM [41]池化产生的全局特征都是表示图像的突出特征。视觉特征的详细调查可以在[50，55]中找到。迁移学习。迁移学习[35，51]旨在利用源域中的知识来改善目标任务的学习它可以细分为：实例trans-特征传递、参数传递和关系传递。我们的工作与特征转移有关，但并不完全相同特征转移[3，9，11，13，24，27，34，42，53]通常基于源域和目标域具有一些共享特征的假设。它旨在为源域和目标域找到一个共同的特征空间，作为一种新的表示，以提高目标任务的学习。例如，结构对应学习[8]使用枢轴特征来学习从两个域的特征到共享特征空间的映射。对于另一个例子，联合几何和统计对齐[54]学习两个耦合投影，将两个域的特征投影到几何和分布偏移减少的子空间中。最近，深度学习已被引入特征转移[25，26，28，46]，其中神经网络用于找到公共特征空间。与之相反，视觉特征翻译旨在学习将特征从源空间翻译到目标空间的映射，并且翻译后的特征直接在目标空间。3. 视觉特征翻译图2示出了所提出的视觉特征翻译的总体流程图首先，在第一阶段中，从图像集中提取源和目标特征对用于训练然后，算法1HAE的训练输入：特征集Vs和Vt，解码器Es、Et和编码器D，由θEs、θEt和θD参数化。输出：学习的翻译器E和D。一曰：而不收敛2：通过Zs= E s（Vs）得到Z s。3：通过Zt= E t（Vt）得到Z t。4：通过平移得到Vst：Vst= D（Zs）。5：通过重构得到Vtt：Vtt= D（Zt）。6：优化Eq。1.一、7：结束while第八章：返回E和D。例如V-MAC [44，52]，首先通过神经网络提取特征图，然后通过池化层或编码方案来产生特征向量。在我们的设置中，我们总共调查了16种不同类型的特征，其详细表格可以在表1中找到这些特征集被排列成16×16个特征集对（Vs，Vt），其中，Vs表示源特征的集合，并且Vt表示目标特征的集合。中详细介绍了该实现第4.1节。3.2. 学习翻译为了实现翻译不同类型的特征的任务，提出了混合自动编码器（HAE），其在图的阶段II中示出。2.为了训练HAE，源特征Vs和目标特征Vt被输入到模型其输出经转换的特征V_st和重建，结构化功能Vtt.形式上，HAE由两个编码器Es、Et和一个解码器D组成。训练时，编码器Es将vs∈Vs编码为潜在特征zs∈ Zs，Et将vt∈ Vt编码为潜在特征zt∈Zt.潜在特征zs和zt然后由共享解码器D解码以获得转换特征vst∈ Vst和重构特征vtt∈ Vtt。我们将欧几里得距离定义为E（x，y）=<$x− y<$2。E s、E t和D由θ Es、θ Et和θD参数化，通过最小化以下损失函数来学习：L（θEs，θEt，θD）=Ev st∈V st，v t∈V t[E（vst，vt）]在阶段II中学习基于HAE的特征翻译翻译后，不同类型的特征之间的亲和力+Evtt∈Vtt，vt∈Vt[E（vtt（一），vt）]，在第三阶段进行量化和可视化。3.1. 预处理如图I所示2、为后续的翻译器训练准备源特征和目标特征对于手工特征，如SIFT [29]，首先通过设计的过程提取局部这些局部描述符然后通过编码方案聚合以产生全局特征。对于基于学习的功能，其中，我们将第一项定义为平移误差，将第二项定义为重构误差。在特征转换过程中，仅使用Es和D将特征从Vs转换为Vt。用于训练HAE的算法被概括为Alg。1.一、然后，我们为视觉特征翻译获得以下特征：特征I：饱和度翻译特征的性能很难超过目标特征。3007这种现象是特征翻译过程中固有的。根据等式1、优化后的平移和再现误差最小。然而，由于自动编码器的结构带来的信息丢失，它们很难接近零。特征二：不对称。翻译的可转换性是A2B和B2A之间的差异（我们将A2B聚焦于特征A到特征B的翻译等）。翻译不同类型特征的网络本质上是不对称的。HAE依赖于平移误差和重构误差，这在A2B和B2A之间是不相同的特征三：同源性通常，同源特征倾向于具有高可转换性。相比之下，对于异构特性，不能保证同源特征指的是由相同的提取器提取但由不同的方法编码或汇集的特征（例如，DELF-FV [16，36]和DELF-VLAD [16，19]，或V-CroW [21]和V-S [4]），而异质特征是指由不同的提取器提取的特征这在第4.2节中详细分析了特征。算法2亲和度计算和可视化输入：不同类型特征的数量n，特征对（Vs，Vt）和翻译器Es，D。输出：有向亲和矩阵M和无向亲和矩阵U。一曰：对于i = 1：n，j = 1：n是否2：通过等式计算M i→j3.第三章。第三章：端第四章：对于i = 1：n，j = 1：n是否5：通过等式计算R i→j和C i→j4和方程式五、第六章：端7：通过等式计算U。六、8：通过Kruskal算法基于U9：可视化MST。十： returnM，U.M的行s和列t处的元素的计算定义如下：Ms→t=Evst∈V st，v t∈V t[E（vst，vt）]3.3. 特征关系挖掘−Evtt∈Vtt，vt∈Vt[E（vtt（三），v t）]。HAE提供了一种量化特征对之间亲和力的方法因此，不同类型的特征之间的亲和力可以被量化为图3所示的阶段III。2.首先，我们使用翻译和重构误差之间的差异作为有向亲和度测量（DAM），并计算形成所有特征对的有向图的有向亲和度矩阵M 二是为为了量化特征之间的总亲和度，我们设计了一种无向亲和度测量（UAM），采用M.所计算的无向亲和矩阵U是对称的，其形成完整的图。第三，我们可视化的局部相似性之间的功能，通过使用最小生成树（MST）的完整图。定向亲和力测量。我们假设优化后，对于Eq. 1、重构误差小于平移误差。这一直观假设将在后面的4.3节中得到验证。然后，我们可以发现：L≥Evst∈V st，v t∈V t[E（vst，vt）]无向亲和力测量。由于特征对的非对称性，M是不对称的，不适合作为特征对的总体相似度度量。我曾为他设计了一个无定向的亲和矩阵，测量（UAM）来量化不同类型的特征之间的总体亲和力具体来说，我们将A2B和B2A视为一个统一的整体，因此M的行和列被一致地考虑。对于M的行，具有归一化行的矩阵R的行i和列j处的元素被定义为：R=Mi→j−min（Mi→：），（4）i→jmax（Mi→：）−min（Mi→：）其中min（Mi→：）和max（Mi→：）是行i的最小值和最大值，并且Ri→j被归一化为[0，1]。以类似的方式，对于M的列，具有归一化列的矩阵C的行i和列j处的元素被定义为：−E[E（v（二），v）] ≥ 0。Mi→j−min（M：→j）vtt∈V tt，vt∈V tTT不Ci→j=max（M：→j）−min（M：→j、（五））根据这个不等式，当最小化L时，trans-定位误差被迫近似重建误差，误差如果平移误差接近重建误差，则我们认为源特征和目标特征之间的平移是其中min（M：→j）和max（M：→j）是列j的最小值和最大值，并且Ci→j被归一化为[0，1]。无向亲和矩阵U定义如下：类似于目标特征的重建，这表明源特征和目标特征具有高相似性。因此，我们把翻译U=1（R+RT4+C+CT）的情况。（六）和重建误差作为亲和性测量。我们用Ms→t表示Vs和Vt之间的DAM。的如果U ij具有小值，则特征i和特征j相似，反之亦然。3008② ③④⑤⑥⑦⑧ ⑨②③ ④ ⑤② ③ ④ ⑤R-GeM⑥⑦⑧ ⑨⑥ ⑦ ⑧ ⑨0.10②③ ④ ⑤⑨0.14V-GeM0.68R-rGeMDELF-VLAD0.47R-MAC⑥ ⑦⑧0.280.13V-CrowWR-rMAC0.65DELF-FV0.380.65V-rMAC0.060.13R-CroWSIFT-VLAD②③④⑤② ③ ④ ⑤V-SC0. 870.250.010.37⑥ ⑦⑧ ⑨R-S⑥⑦ ⑧ ⑨v-Mac②③④ ⑤SIFT-FV②③④ ⑤⑥⑦ ⑧ ⑨⑥⑦ ⑧ ⑨查询图3. 基于U的MST可视化，具有流行的视觉搜索功能。边的长度是Holidays、Oxford5k和Paris6k数据集的结果。图像是万神殿的查询图像的检索结果，具有MST的主干中的相应特征像R-Scrum和R-CrowW这样的紧密特征对具有类似的排名列表。可视化。我们使用最小生成树（MST）来可视化基于U的特征关系。Kruskal算法[23]用于找到MST。这种算法首先创建一个森林G，其中每个顶点是一个单独的树。然后将连接两棵不同树的最小权值边递归地添加到森林G中，从而将两棵树组合成一棵树。最后的输出形成了完整图的MST。MST帮助我们理解最相关的特征对（由边连接），以及它们的亲和度得分（边的长度）。整个过程总结为Alg。2. 在一个查询示例中，流行视觉特征之间的亲和度的可视化结果3.第三章。4. 实验我们在本节中展示了实验。首先，我们介绍了实验设置。然后，报告了我们的HAE的翻译结果最后，我们对关系挖掘的结果进行了可视化4.1. 实验设置训练数据集。Google-Landmarks数据集[16]包含在世界各地的各种地标拍摄的超过100万张我们从这个数据集中随机挑选40，000张图像来训练HAE，并挑选4，000张其他图像来训练PCA白化[4，17]并为本地描述符创建码本。测试数据集。我们使用 Holidays 、 Oxford5k 和Paris6k数据集进行测试。Holidays数据集[18]有1，491张不同场景类型的图像和500张查询图像。Oxford5k数据集[37]由5，062幅图像组成，这些图像已被手动注释，以生成55幅查询图像的综合地面实况。类似地，Paris6k数据集[38]由6，412张图像和55张查询图像组成由于检索算法的可扩展性不是我们的主要关注点，因此我们不使用干扰数据集Flickr100k [38]。最近，[40]中的工作重新审视了Oxford5k和Paris6k上的标签和查询因为图像保持不变，这不影响特征的特性，所以我们不使用重新访问的数据集作为我们的测试数据集。平均精度（mAP）被用来评估检索性能。我们将参考图像的源特征转换到目标空间，并使用查询图像的目标特征进行测试。功能. L1归一化和平方根[2]应用于SIFT [29]。原始提取方法(at每个图像最多1，000个局部表示）应用于DELF [16]。 FV [36]和VLAD[19]是为SIFT和DELF创建的。我们使用高斯混合模型（GMM）的32个分量来形成FV的码本，并通过PCA白化将该特征的维数降低到2，048。聚合的特征被称为SIFT-FV和DELF-FV。我们使用64个中心点来形成VLAD的码本，3009假期牛津5kParis6kDELF-FV [16，36]83.4273.3883.06DELF-VLAD [16，19]84.6175.3182.54R-CrowW [21]86.3861.7375.46R-GeM [41]89.0884.4791.87R-MAC [44，52]88.5360.8277.74R-rGeM [41]89.3284.6091.90R-rMAC [52]89.0868.4683.00[4]86.5762.3676.75V-CrowW [21]83.1768.3879.79V-GeM [41]84.5782.7186.85V-MAC [44，52]74.1860.9772.65V-rGeM [41]85.0682.3087.33V-rMAC [52]83.5070.8483.54[4]83.3866.4378.47SIFT-FV [2，29，36]61.7736.2536.91SIFT-VLAD [2，29，19]63.9240.4941.49表1.目标特征的mAP（%）这一特征也被PCA减少到2,048，根据最小值（白色）和最大值（彩色）进行归一化，以显示每个数据集的结果从结果中，我们发现虽然数据集之间仍然存在一些差异，但颜色值的趋势几乎相同。为了进一步分析，结果可以分为三组：高可兑换性、低可兑换性和低可兑换性。首先，高可转换性主要表现在同源特征之间的转换例如，当从V-CroW转换为V-Sort时，Holidays、Oxford 5 k和Paris 6 k数据集上的mAP分别下降3.8、0.1和0.3。其次，发现基于R的特征和基于V的特征等异构特征之间的结果较差。例如，当从R-GeM转换为V-GeM时，mAP在三个数据集上分别减少5.7、11.3、2.3另一个例子是从V-rGeM到R-rMAC的转换，mAP在三个数据集上分别减少12.4、7.1、5.8。ing.聚合特征被称为SIFT-VLAD和DELF-VLAD。对于现成的深度特征，我们使用ImageNet [10]预训练的VGG-16（缩写为V）[48]和ResNet 101（缩写为R）[14]来生成特征映射。然后使用最大池化（MAC）[44，52]，平均池化（S）[4]，加权和池化（CroW）[21]和区域最大池化（rMAC）[52]来池化特征图。所提取的特征被称为V-MAC、V-S、V-CroW、V-rMAC、R-MAC、R-S、R-CrowW和R-rMAC。对于微调的深度特征，我们考虑广义均值池（GeM）和区域广义均值池（rGeM）[41]。所提取的特征分别被称为V-GeM、V-rGeM、R-GeM和R-rGeM。网络架构。HAE的任务特定网络体系结构具有510维的固定潜在特征空间。编码器的参数设置，具有基于ReLU的激活功能的全连接层的列表是2048-2048 - 2048-510或512-512-510，用于编码具有2048或512维的特征。解码器的参数设置与编码器的参数设置相反，这取决于输出特征的尺寸。输出特征是L2归一化的。我们使用多层感知器（MLP）作为我们的基线，其结构为2048- 2048 - 2048或512 -512- 512，用于编码2048或512维的特征，并且编码器是反向的。我们使用Adam [22]优化器来最小化所有特征对的目标函数，其中学习率设置为0.00001。4.2. 翻译结果定量评价。目标功能的性能如表1所示。我们使用目标和翻译功能之间的mAP差异来显示翻译结果。如表2所示，我们使用一个颜色映射，第三，低兑换率的结果也出现在异质性特征例如，当从SIFT-FV转换为DELF-FV时，性能不高。另一个示例是从DELF-VLAD到R-GeM的转换，其中前者由Resnet 50提取，后者由Resnet 101提取。我们从不同深度的网络架构，不同的训练过程和不同的编码/池化方案来解释它。在三个数据集上HAE与MLP相比的平均mAP差异示于表3中。从结果可以看出，MLP的性能很不稳定.相比之下，具有适当维度的潜在特征的HAE比MLP表现得更好，这是由于“瓶颈”架构带来的正则化效应定性评价。一些跨特征检索结果如图所示。4.第一列显示了从V-CrowW到V-Soccer的简单翻译，排名列表几乎相同。第二列示出了从R-GeM到V-GeM的间接翻译有趣的是，当查询夜间的凯旋门图像时，白天的凯旋门图像被翻译后的特征检索到，并且得到了较高的排序，这启发了特征翻译的集成，以提高跨模态检索。最令人兴奋的结果在于第三列：虽然从SIFT-FV到DELF-FV的转换性能较低，但是可以通过转换来突出诸如旋转或视点不变性的特性，这很好地将手工特征的优点桥接到基于学习的特征。例如，来自埃菲尔铁塔和凯旋门的仰视图的图像获得高等级（均在Rank@4 ）。它们的旋转图像也具有高等级（在Rank@7和Rank@3）。然后，在第四列中，我们表明这些特征不对称地存在于从DELF的反向翻译中-3010V-S 16.9 21.811.623.814.225.614.113.82.513.22.7十二点七6.51.615.419.7SIFT-FV59.864.059.3八十二点二67.378.9六十二点三61.763.0七十一点六63.0 68.966.9 60.18.810.0R-CroW12.916.21.28.64.97.43.22.68.813.1 17.910.58.28.532.6 38.4R-GeM10.213.46.41.85.52.13.05.06.75.712.65.37.18.833.538.1R-MAC12.715.12.88.14.17.71.82.76.212.38.810.34.67.3三十八点五41.7R-rGeM11.312.84.52.16.01.72.75.59.36.713.74.75.89.9三十五点八40.0R-rMAC11.614.81.88.64.38.02.03.37.610.611.68.95.29.5三十七点二40.6R-S12.615.71.49.15.18.02.92.68.113.0 18.711.07.88.231.536.7V-CrowW十八点八20.015.117.714.818.412.115.32.69.83.09.82.23.8三十五点二38.1V-GeM十七点八19.618.314.021.015.213.520.16.83.56.72.85.99.8三十四点八38.4V-MAC 33.5 36.7 33.7 34.6 31.1 35.322.2 35.8 11.418.9 6.7 20.97.3 15.2 46.9 50.5V-rGeM十八点零19.917.215.020.212.712.417.58.92.49.91.45.810.435.4三十七点四V-rMAC二十三点三26.121.525.921.523.314.1 22.96.612.84.712.63.69.942.8 45.1V-S十七点二18.013.616.814.716.511.113.41.810.35.78.13.62.230.9 36.6SIFT-FVSIFT-VLADDELF-FVDELF-VLADR-CrowWR-GeMR-MACV-MAC40.040.4三十三点二46.8 29.152.0 三十二33.69.926.15.4 32.4 10. 5 14.430.936.3V-rGeM18.113.4九点七21.616.017.07.1十点八3.8 4.16.81.9 六、37.125.829.7V-rMAC31.332.9二十一点四V-S 24.722.5十四点八分SIFT-FV 65.367.9五十五点四SIFT-VLAD 63.467.3五十七点零38.438.380.981.220.317.956.256.539.036.479.579.7十八点四22.03.7 17.10.916.91.3第5.1节17.016.02.119.13.517.36.6 0.5六十一点零57.261.077.156.475.364.1 59.261.457.259.976.656.575.263.2 57.627.6三十二点九24.630.6九点五十三点五10.2 九点八DELF-FV3.76.09.520.114.118.813.413.47.213.417.913.513.76.314.516.5DELF-VLAD6.43.38.918.013.016.011.510.75.512.319.112.913.76.515.019.0R-CroW16.817.34.017.46.015.18.94.911.014.418.413.514.911.117.6二十二点七R-GeM10.78.30.23.51.92.90.61.12.72.35.74.07.63.919.420.5R-MAC18.918.84.715.97.9十四点二9.06.5十二点三14.218.013.818.112.220.6二十五点二R-GeM 9.3 9.4 2.7 3.5 1.1 3.2 1.1 0.4 3.43.77.03.96.63.817.120.7R-rMAC 14.213.60.213.73.4十点四 4.9 0.9 6.99.611.98.99.87.118.222.0R-S15. 215.23.317.15.1十四点三8.03.610.013.615.812.713.29.716.822.0V-CrowW18.120.010.422.913.923.213.913.5 1.010.91.79.65.00.319.3二十一点六V-GeM 10.612.27.411.48.011.36.710.01.81.91.42.04.82.3 13.5 17.7V-MAC29.633.024.931.424.734.623.629.38.7十五点一7.3十六点三9.79.2 26.8 30.4V-rGeM10.912.86.212.36.812.3 5.86.51.23.33.11.24.81.7 12.6 16.0V-rMAC二十一点四24.2十二点九25.019.522.315.414.91.79.71.08.52.71.8 20.0 24.2表2.三个公共数据集上目标特征和转换特征之间的mAP（%）差异：Holidays（绿色）、Oxford5k（蓝色）和Paris6k（棕色）分别位于第一、第二和第三街区。26.7三十一点二629.3 34.055.9六十三点八61.268.5 69.566.6 57.159.359.560.863.460.359.4五十四点九 3.7 4.957.9六十三点六61.4 69.770.767.3 56.060.960.559.764.860.460.4 55.91.6 5.94.89.5十五点五30.8 二十二点二二十八点八分18.516.311.7二十二点一5.24.2十点四27.011.825.513.79.78.4 19.6二十七点二27.22.124.45.221.38.32.816.827.119.3 15.81.5 2.6 0.9 3.13.412.811.3三十分五28.08.0 二十六点四 5.825.8九点八六点九17.627.9R-rGeMR-rMACR-SV-CrowW23.5二十三点二V-GeM17.1十一点九13.632.319.033.814.614.81.0 十九点二0.317.66.2 0.13011FV到SIFT-FV。我们从SIFT-FV有限的代表能力来解释。4.3. 关系挖掘结果在计算有向亲和矩阵M和无向亲和矩阵U之后，我们将三个数据集的值平均并绘制热图。如图在图5（左）中，有向亲和矩阵M的值验证了我们的假设，即重建误差小于平移误差，因为所有值都是正的。所示在图5（右）中，浅色和深色的位置与表2中的翻译结果的位置几乎相同，这表明UAM可以用于预测两个给定特征之间的翻译质量。为了更好地研究特征之间的关系，我们将基于U的MST可视化为图3。图像是具有对应特征的查询图像的排名列表。由于MST中连接的叶节点的结果（例如，R-CrowW和R-Sort）非常相似，我们主要展示MST主干中更接近的特征返回DELF-FV1.74.416.019.320.817.913.016.911.414.120.9 13.011.013.640.042.5DELF-VLAD4.03.015.919.121.317.714.016.110.514.021.0十一点二11.312.240.742.93012FVADoWeMACeMACoCoWeMACeMACoCFVADVDELF-VLADR-CroWR-GeMR-MACR-rGeMR-rMACR-SPoCV-CroWV-GeMV-MACV-rGeMV-rMACV-SPoCSIFT-FVSIFT-VLAD(a) V-CrowW到V-Soccer(b) R-GeM到V-GeM(c) SIFT-FV到DELF-FV(d) DELF-FV到SIFT-FV图4.利用目标特征和翻译后的特征对埃菲尔铁塔（上）和凯旋门（下）的图像进行了检索。为了更好地查看，图像被调整了大小，有趣的结果被红色的边界框着色。图5.有向亲和矩阵M（左）和无向亲和矩阵U（右）的热图，值是Holidays、Oxford5k和Paris6k数据集上的平均结果。表3.三个数据集上MLP（绿色）和HAE（蓝色更多相似的排名列表，这从另一个角度表明了我们的亲和力测量的合理性5. 结论在这项工作中，我们提出了第一次尝试调查视觉特征翻译，以及第一次尝试量化的亲和力不同类型的功能在视觉搜索。特别是，我们提出了一种混合自动编码器（HAE）来翻译视觉特征.在HAE的基础上，我们设计了一种无向亲和度度量（UAM），量化亲和力。在几个公共数据集上进行了广泛的实验，其中包含16种不同类型的视觉搜索中广泛使用的特征。定量结果证明了特征翻译的可行性。致谢本工作得到国家重点研发项目（No.2017YFC0113000，No.2016YFB1001503）的支持，国家自然科学基金项目（编号： U1705262 ，No.61772443，No.61402388，No.61572410），博士创新人才支持项目（BX 201600094）、国家博士后科学基金项目（2017 M612134）、国家语委科研项目（批准号：YB 135 -49）和福建省自然科学基金（No.2017 J 01125和编号2018J01106）。查询查询查询查询查询查询查询查询DELF-FVDELF-VLADR-CrowWR-GeMR-MACR-rGeMR-rMACR-SV-CrowWV-GeMV-MACV-rGeMV-77.077.5二点九0.9九点四84.94.076.176.70.6十七点四18.515.316.19.743.1四十六点九十四点五20.113.916.99.043.3四十七点一十八点三19.714.913.610.942.8四十七点零十二点七5.99.77.043.2四十七点零二十七点八15.515.00.911.10.110.03.20.3六十六点四十五点二12.622.01.81.20.20.7第3.4节43.1四十六点二四十三点三四十六点九四点九0.941.1四十五点八4.33.46.613.723.419.021.815.015.510.116.519.115.615.39.428.2 30.7DELF-VLAD5.23.511.721.415.419.713.112.28.115.321.013.814.38.927.530.7R-CrowW 18.920.22.416.85.414.66.83.412.218.219.115.114.511.726.0 30.6R-GeM 13.412.52.62.61.52.72.93.17.46.412.36.99.88.428.230.8R-MAC 20.720.65.216.85.915.96.85.412.018.115.816.915.512.629.9三十三点四R-rGeM 12.812.91.13.22.02.62.92.28.07.413.36.19.09.027.631.0R-rMAC17.4十七点七1.0 3.012.53.91.99.914.213.512.310.510.627.9 31.5R-S17. 918.52.316.34.914.36.02.711.117.118.714.913.510.525.1二十九点五V-CrowW 20.221.113.024.315.925.113.514.51.613.31.712.34.51.427.130.3V-GeM 15.214.612.314.215.014.29.814.23.92.64.31.95.75.625.930.0v-Mac34.336.730.637.628.340.625.332.910.020.06.523.29.212.934.939.1V-rGeM 15.715.411.016.314.314.08.411.64.63.36.61.55.66.424.627.7V-rMAC25.427.718.629.720.428.215.920.04.013.22.212.72.55.630.2 34.1V-S19.620.813.426.315.626.214.114.42.114.24.012.75.61.423.6 29.0SIFT-FV 60.159.461.269.860.968.263.558.17.3九点五60.063.959.777.1六十四点九75.075.1六十点三65.258.777.2六十四点三78.078.812.64.18.6七十七点一76.257.380.677.657.967.867.974.677.159.859.678.6七十三点八七十八点五87.086.874.273.987.087.072.972.978.379.12.015.814.425.316.326.913.319.622.63.61.510.210.71.311.912.52.81.917.822.332.724.334.122.9四十二点一29.33.22.620.724.314.218.720.313.610.312.93.010.63.517.9六点九3.51.1第16.471.844.62.827.715.323.216.617.124.714.818.721.325.13.076.877.30.782.015.717.31.10.24.21.410.515.20.125.77.322.969.477.776.84.01.218.63.62.365.66.672.758.8十五点二4.61.63.59.89.411.27.012.77.59.910.377.9七十二点七七十七点四86.086.073.673.11.55.972.085.84.81.771.8八十五点七76.777.31.1八十14.4翻译目标翻译目标0.00 1.68 3.83 3.83 3.93 3.78 3.06 3.84 4.

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

视觉特征翻译提高视觉搜索系统的灵活性和效率

基于视觉信息的查询翻译

机器人视觉伺服研究进展：视觉系统与控制策略.pdf

请详细介绍人类视觉系统的视觉关注特性

abb机器人集成视觉

vm-pro通用化视觉系统框架

abb机器人与3d视觉通讯

欧姆龙视觉release

康耐视视觉 fixturetool

机械手视觉引导csdn

请从3个角度论述，在军用无人机上，采用视觉导航技术的重要性

视觉定位手段相较于其他手段的优点

abb机器人视觉抓取程序

pytorch视觉比较模型

visionsdk视觉软件

halcon视觉 百度网盘

plc分拣程序 视觉

机器人系统与传统系统的区别

基于嵌入式视觉的多任务agv小车

fz-panda视觉

介绍一下基于fpga的机器视觉技术

最新资源

halcon视觉百度网盘

plc分拣程序视觉