度量融合的对象检索和人物识别的统一包围扩散算法

19 浏览量更新于2023-10-19 收藏 635KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

740基于度量融合的对象检索和人物识别的宋白1彭唐2Philip H.S.托1Longin Jan Latecki31牛津大学2华中科技大学3天普大学{songbai.site，tangpeng723}@ gmail.com，philip. eng.ox.ac.uk，latecki@temple.edu摘要本工作研究了无监督的重新排序过程中的对象检索和人的重新识别与特定的浓度上的多个指标（或相似性）的合奏。虽然通过在底层数据流形上运行扩散过程来涉及重新排序步骤，但是融合步骤可以利用多个度量的互补性本文对现有的融合扩散策略进行了全面的总结，并系统地分析了它们的优缺点。在此基础上，我们提出了一种统一的鲁棒算法，它继承了它们的优点，摒弃了它们的缺点。因此，我们称之为统一包围扩散（UED）。更有趣的是，我们推导出继承的属性确实源于一个理论框架，其中相关的工作可以通过对目标函数施加额外的约束和改变相似性传播的求解器来优雅地概括为UED的特殊情况。三维形状检索、图像检索和人物重新识别的大量实验表明，该框架优于现有技术，同时表明通过度量融合进行重新排序是进一步提高现有算法检索性能的一种有前途的工具。1. 介绍由于视觉内容的获取、存储和共享方面的进步，图像和多媒体集合在范围和多样性方面都呈现出持续和一致的增长。因此，必须制定索引和检索这类资料的方法。给定查询实例，视觉检索的目标是在大型数据库中找到与查询具有相似视觉外观的对象因此，一个可靠的度量（或相似性）函数对检索性能至关重要然而，传统的对象检索系统只执行两两比较，即，计算距离（或相似性）度量，并忽略编码在对象之间的关系中的上下文信息。为了解决这个问题，已经提出了重新排序方法[33，4，5，21]，以便在不需要用户干预的情况下改进检索结果。这种方法（例如，流形排序[71]、扩散过程[10]）通过更全局的相似性度量来代替成对距离，能够更全局地分析数据集合并考虑底层的流形结构以揭示对象之间的内在关系。与此同时，随着特征学习的长期发展，大量的视觉描述符被提出，从传统的手工描述符[56，55，45，29] [2019-06-25]阅读更多不同的视觉描述符通常侧重于不同的视觉特征的对象。因此，最近在度量融合方面投入了大量精力[36]，以利用复杂性。通常，度量（或相似性）融合可以在典型检索流水线的任何阶段中完成（例如，特征学习阶段[37]，索引阶段[48，65，39]）。在这项工作中，我们考虑在重新排序阶段进行度量融合，特别是扩散过程[10]，以捕获多个数据流形的几何结构。现有的扩散融合方法可以粗略地分为三类。 NaiveFusion（NF）sim-ply平均多个亲和图的边权重，例如局部约束混合扩散[32]，图融合[68，67]和Yang等人。[61]第一章。为了结合两个不同和互补的度量，张量积融合（TPF）[72]考虑张量积图上的齐次融合。为了处理有噪声的输入度量，正则化包围扩散（RED）[7]同时执行相似性学习和权重学习，以最大化多个基于图的流形的平滑度。详见第二节。2、NF是这些方法中速度最快的相比之下，TPF考虑了两种相似性的相互作用，在一定程度上对噪声具有鲁棒性。但是，每次只能融合两个相似点。虽然RED可以通过动态权重741IJ学习机制，它是相对计算费用，元素为D µ=N的对角矩阵W µ。那个...iij=1ij因为扩散步骤必须对每个输入指示符进行，vidually。有了这些意见，我们在这项工作中提出了一个新的融合扩散算法称为统一包围扩散（UED）。UED的主要贡献有三个方面：1) UED结合了三种现有类型的融合与扩散方法的优点，而没有继承它们的缺点。特别是，UED比RED对噪声输入更鲁棒，因为它像TPF一样考虑了两个相似性同时，它可以处理两个以上的相似性，而不是在TPF的情况下只有两个。此外，UED的扩散步骤可以比RED快得多地执行，几乎与朴素融合一样快我们将从理论上证明这些3）和实验（见第二节）。（五）。其目标是学习一个新的相似度A∈RN×N，G以无监督的方式，使得索引的候选可以对给定查询（或探测）的图像重新排序。为了实现重新排名，可以使用各种方法，例如学习排名[8]，度量学习[36]，流形排名[71]等。在这项工作中，我们考虑了检索中的一个代表性分支，称为扩散过程[10]，在此基础上，我们建立了融合范式来集成多个度量。在[10]中总结的扩散过程的变体中，我们选择张量积扩散作为主干，因为它已被证明[62]在对象检索范围内更鲁棒。2.1. Naive FusionNaive Fusion（NF）是一个两步解决方案：融合步骤。简单地平均多个相似性以生成转换矩阵，如下所示：2) 更重要的是，通过对二者关系的深入分析S=1ΣMSµ。（一）我们观察到，继承的属性确实来自一个统一的框架，在这个框架中，所有这些方法都可以被概括为UED的特殊情况固有的差异在于对目标函数的附加约束和相似性传播的变化（见第二节）。4）.3) UED经历了精心设计的公式和推导。不幸的是，它变成了一个非凸优化问题，很难求解。我们工作的一个副产品贡献是，据我们所知，第一次引入了复制因子，Mµ=1扩散步骤。用S运行扩散过程以获得目标相似度A，A（t+1）=αSA（t）ST+（1−α）I，（2）其中t是迭代次数，α∈（0，1）是折衷参数，I∈RN×N是单位矩阵。由于转移矩阵S是对称矩阵，我们将在随后可改变地使用S=ST它被证明[4，5]，经过足够数量的迭代，方程。（2）收敛于作为一个强大的优化器来学习指标[40，41]重排序阶段的权重。A=（1−α）vec−1. （I−αS<$S）−1vec（I）<$、（3）在ModelNet 40 [59]和ModelNet 10数据集上进行了大量的3D形状检索实验，在Holidays [22]和Ukbench [34]数据集上进行了图像检索，并在Market-1501数据集上进行了人员重新识别[69]。最先进的性能有力地证明了拟议框架的有效性。2. 再论度量融合设G ={G1，G2，. . . ，GM}是一个多重图，其中Gμ=（X，Wμ）是由第μ个度量（或相似性）参数化的第μ个（1≤μ≤M）亲和图。顶点集X ={x1，x2，. . . ，x N}表示对象，Wµ∈ RN×N表示邻接矩阵，其中W µ是x i和x j之间的初始相似度，其中，v表示Kroneck er乘积，vec（·）是输入矩阵通过逐列堆叠而得到的向量化，其逆函数为vec−1。为了简化符号，我们将使用Y→=vec（Y）用于n y输入矩阵Y。2.2. 张量积融合Tensor Product Fusion（TPF）是一个简单的解决方案：扩散融合步骤。在一个扩散步骤中同时融合两个度量。当融合第µ个和第ν个亲和图时，定义为：A（t+1）= αSνA（t）Sµ+（1 − α）I。（四）这是证明[72]，经过足够数量的迭代，方程。（4）742收敛于第μ个公制单位。通常，转换矩阵定义为：Sµ=（Dµ）−1/2Wµ（Dµ）−1/2，其中Dµ∈RN×N是A=（1−α）vec−1.Σ（I−αSµ$> Sν）−1→I）.（五）743M2.3. 正则包围扩散正则化包围扩散（RED）[7]是最近提出的扩散步骤。给定β ={β1，β2，. . . ，β M}，其中β μ（1 ≤μ≤M）是第μ个亲和图的权重，RED的扩散步骤被定义为学习范式的扩散步骤。然而，作为Eq。也就是说，每个扩散步骤必须针对每个输入相似性单独进行。因此，它的计算量更大，虽然时间复杂度的规模与NF和TPF相同。感兴趣的读者可以参考[7]以获得更详细的分析。为了解决现有融合类型的局限性，哪里A（t+1）=ΣMµ=1αµSµ A（t） Sµ+（1−ΣMµ=1αµ）I，（6）方法，我们将提出一种新的方法，称为统一熵扩散（UED）在第二节。3继承了这些方法的优点更有趣的是，我们在理论上分析了SEC。4继承的优势源于一个统一的框架，其中NF，TPF和RED可以被删除。βµα µ=μM。（七）被概括为UED的特殊情况。γ+μ′=1βμ′其中，γ >0是一个小的权重常数，以确保收敛3. 该方法关于统一扩围的一点建议.A=vec−1（1− ΣMµ=1 αµ）（I−ΣMµ=1ΣαµSµ Sµ）−1→I（八）（UED）是首先计算输入相似性的加权平均值，ΣM可以得到S=βµSµ，（9）µ=1融合步骤。具有度量权重β的向量不是凭经验确定的。RED可以动态学习度量权重，以放大区分性仿射图的贡献，并抑制噪声图的贡献。通过以相等的权重1初始化，权重β可以经由坐标下降来优化。已经证明，通过交替扩散步骤和融合步骤，可以导出最佳相似度A和权重配置β详情可参见[7]。2.4. 优点和缺点总结现有的三种融合方法，包括其中权重β ={β1，β2，. . . ，β M}将在之后学习。虽然Eq。（9）似乎是一个简单的模式-简单融合的简化，我们将在本节中证明它导致一些良好的数学性质和实际益处（例如，它使我们能够考虑所有亲和图对的相互作用），这构成了本工作的核心贡献的基础。4.第一章3.1. 目标函数UED通过解决以下优化问题来学习目标相似度AminβTHβ+γT A−I βF+ηTβ2，朴素融合（NF）、张量积融合（TPF）和Reg-A、β2（十）孤立包围扩散（RED），有不同的优点，弊首先，NF是最有效的。可以看出S.T. β ∈ M ={β∈ RM×1：β ≥ 0，<$β<$1=1}，其中矩阵H∈RM×M，其元素定义为当量（1）、NF进行输入相似度的融合步骤首先，扩散步骤仅执行一次。怎么-Hµ v=1μm WµWν（的kiALJ2-）2ijKLDµDνDµDν以往，它是相当脆弱的噪声相似性，因为它的权重每个输入相等。因此，当存在较少的区分相似性时，NF的检索性能i，j，k，l=1=A→T（I−SμSν）A→IIKKJJ会（十一）很容易恶化。第二，TPF考虑了两个不同相似性的互补性和相互作用，如等式2所示。（四）、相比之下，NF和RED都单独考虑输入相似性，只需用相等的权重对它们进行平均（见等式10）。（1））或动态权重（见等式（1））。（6））。然而，TPF的一个主要缺陷是它只能处理两个输入，限制了它在两个以上度量可用的情况下的推广和使用最后，在三种方法中，RED方法对噪声相似度的鲁棒性最强，因为它具有鲁棒的权重N7442测量A相对于所有输入相似性对Wμ（1≤μ≤M）和Wν（1≤ν≤M）的平滑度。A−I计算β的平方L2范数，其对总损失的贡献为加权η>0以避免过拟合到特定输入。3.2. 推导由于有两个变量需要学习，即，目标相似度A和权重配置β，我们分解7452当量（10）将优化问题分解为两个子问题，然后采用交替方式求解。扩散步骤。当学习A时，我们修正β。因此，委员会认为，通过将vec（·）应用于它的两侧，并利用Kronecker积的性质，我们得到了ΣM在Eq中的第三项。（10）是常数，可以省略。A→（t+1）=1ββ（SμSν）A→（t）+γ→I。（十九）然后，Eq.（10）相当于Λµ νΛµ，ν=1min一ΣMµ，ν=1βμβνA→T（I−SμνSν）A→+γνA→−→Iμ ν2. （十二）正如补充材料中所证明的，Eq.（19）收敛到方程（19）中的封闭形式解。（14）。为了直接看到这一点，可以在等式中设置A→（t+1）=A→（t）。（十九）、然后通过对A→取ive的偏导数iv，我们得到：ΣM2βµβν（I-SµSν）A→+2γ（A→−→I）。（十三）µ，ν=1解看起来像Eq。（14）。融合步骤。当学习β时，我们固定A。因此，在Eq.（10）是常数，可以省略。然后，目标函数变为min βTHβ+ηβT2，s.t. β∈θ，（20）2通过将其设为零，我们得到了封闭形式的解β哪里A→=γ（I−1µ，ν=1ΣMβµβνSµ Sν）−1→I，（14）这是对单次多项式的二次函数的优化。不幸的是，Eq。式（20）不保证是关于β的凸优化，例如，H+ηI不是阳性半确定的。为了解决这个问题，我们证明，经过一些代数变换，复制方程[40，41]可以使用Λ =γ+µ，ν=1β μ β ν=γ +1。（十五）为了获得以下等价目标函数的适当局部最大化通过将vec−1应用于等式的两侧，（14），可以得到最优解A为了在实践中有效地学习A，我们使用基于迭代的求解器，max βTH<$β，s.t. β∈π，（21）β其中H<$=−H/2−HT/2−ηI+ C且C∈RM×M是所有元素等于下式最大元素的A（t+1）=1000万美元（Λv=1（1）A（ ΣMµ=1βµSµ）+γI.（十六）Λ（H/2 +HT/2 +ηI）。由于篇幅所限，详细的推导放在补充材料中然后，Eq.（21）可以通过使用复制器方程来求解，通过替换Eq。（9）到Eq.（16）可以简化为β（t+1）=β（t）H<$β（t）、（二十二）A（t+1）=1SA（t）S+ΛγI.（十七）Λβ（t）TH<$β（t）其中，t是迭代次数，并且一个关键的观察来自Eq。（17）这是一个首先计算多个输入相似性的加权平均，并在一次试验中执行一个扩散步骤。与NF（等式（2）），UED的扩散步骤相当有效，但由于权重学习机制而不易受噪声影响。与等式中定义的RED相比，（6）其需要针对每个输入相似性单独地进行扩散步骤，UED的扩散步骤在计算上更有效，因为对于多个输入相似性仅一个扩散步骤就足够了。M746ν元素乘法需要满足两个条件为了满足复制子方程的收敛性[30]，本文对这类问题进行了讨论。首先，H是对称的，它的所有元素都是非对称的。负的，这可以简单地从H的定义中得到。第二，每个起始于x轴的轨迹都将保持在单纯形中为此，我们需要证明β（t+1）的L1范数总是等于1。等价地，我们需要证明等式的分子的L1范数（22）相等到Eq的分母。（二十二）、它保持，因为现在，我们证明Eq中的迭代（16）可以近似方程中的封闭形式解。（14）。当量（16）相当于β（t）ΣMµ=1（吨）µΣMv=1HVβ（t）（二十三）A（t+1）=1βνβμSνA（t）Sμ+γI.（十八）ΣM=β（t）H<$µ vβ（t）=β（t）TH<$β（t）。Λ Λµ，ν=1µ νµ，ν=1βM747µ=1µµMµ算法1：统一包围扩散输入：4.2. 迭代的变化不同的正则化的单纯形神经网络是子-M个邻接矩阵{Wµ}M输出量：目标相似度A.开始∈RN×N，γ，η.不同的迭代求解器。回想Eq.中UED的基于迭代的求解器。（16）和Eq.（17）。然后，可以按照以下方式构建统一的框架。天真的融合。很容易证明，在同等权重下，初始化权重βµ=1，βµ。重复使用等式计算S。（九）、使用S和Eq更新A。（17）。使用等式计算H（十一）、使用H和等式更新β（二十二）、直到收敛返回一个当量（17）退化到方程（17）中NF的扩散步骤。（二）、等价性需要一个微妙的恒等式，即，α=1/Λ。根据Eq.（15），1-α=γ/Λ。张量积融合。方程中的相似性传播（16）可以转化为我们交替进行扩散步骤和融合步骤。的ΣM（v=1ΣM（1）A（µ=1βµSµ）=保证整个优化收敛到一个等式。总体程序总结见Alg.1.一、ΣMΣMβ2SµA（t）Sµ+βμβνSν A（t）Sμ。（二十八）与以前的工作相比，UED具有一些很好的性质，我们将在第二节中陈述。4.第一章4. 一个统一的框架在本节中，我们证明了现有的融合方法可以总结在一个统一的框架所提出的统一包围扩散（UED）。4.1. 单纯形上的正则化µ=1µ ν`x`x红色TPF通过在Eq.（26）到Eq。（28）并选择μ-th和ν-th亲和图，我们可以获得等式中的TPF的融合与扩散步骤。（4）定义α= 1/Λ。正则包围扩散。通过在Eq.（27）到Eq.（28），Eq.（16）成为回想一下方程中UED的目标函数。（10），和一个统一的框架，可以建立一个额外的单一的网络。然后，约束变为A（t+1）=1M<$µ=1 β2SµA（t）Sµ+γI，（29）Λβ∈o，（24）其是UED的原始单纯形X1和附加单纯形X20的交集。Naive Fusion设置为其等效于等式（1）的扩散步骤（6）如果将β2（1≤μ≤M）视为要学习的目标权重最后，应该提到的是，权重学习因方法不同而异。={β：β=1，o µM这意味着所有输入相似度具有相等的权重并且保持不变。Tensor Product Fusion将Tensor0设置为如果μ=ν，则βμ=βν= 0;否则= 1}（26）这意味着只有两个不同的相似度被融合，这两个相似度都具有权重1。正则化包围扩散将包围扩散设置为o={β：βμ βν= 0，βμ/=ν}，（27）这意味着不鼓励两个不同相似性之间的相互作用。所有的输入相似性被单独地融合。7484.3. 主要贡献汇总表如SEC所述 2.4、现有的融合方法各有利弊。相比之下，UED继承了UED的优点，摒弃了UED的缺点，对目标函数和推导过程进行了细致的设计。首先，UED的扩散步骤几乎与初始融合一样快如等式（9）表明，它还可以在一次试验中合并多个输入相似性，并且不需要像张量积融合和正则化系综扩散那样对每个输入重复地应用扩散步骤。第二，我们可以从Eq。UED还可以将两个不同的亲和图的相互作用考虑为张量积融合，使得可以更好地利用度量之间的互补性。更重要的是，UED不仅限于融合两个输入作为张量积融合。相反，它还可以处理两个以上的输入相似性作为朴素融合749基线ModelNet40ModelNet10AUC地图AUC地图B177.1976.5288.9787.98B280.1279.4189.0288.17B380.3979.5391.2489.97B445.1044.5262.3761.47表1. Model-Net 40和ModelNet 10数据集上四个基线的性能（%）。和正则化集合扩散。第三，由于动态权重学习范例，UED对噪声输入相似性具有鲁棒性。同时，为了解决非凸优化问题，我们还引入了复制子方程作为权值学习的有效优化器。最后，我们强调UED不仅仅是一个度量融合的重排序算法。更重要的是，它可以总结现有的方法在一个统一的框架与理论上合理的解释。5. 实验在本节中，我们评估了各种检索任务，包括3D形状检索，图像检索和人员重新识别的建议框架。5.1. 三维形状检索三维形状检索是近年来三维视觉领域的一个重要课题。在ModelNet数据集[59]上进行了实验比较，该数据集是一个代表性的大型3D形状存储库。ModelNet的当前版本由151，128个3D CAD模型组成，分为662个对象类别。在[54，6]之后，我们使用两个子集来评估检索性能，即，Mod-elNet 40包含40个对象类别中的12，311个形状，ModelNet 10包含10个对象类别中的4，899个形状我们使用与[6，23，54，52，17]中相同的训练 - 测试分割，并采用精确召回曲线下面积（AUC）和平均平均精确度（mAP）作为评估指标。基线。为了确保公平的比较，我们采用了与[7]完全相同的四个基线相似性度量，包括GIFT [6]，ResNet[16]，Volumetric CNN [42]和PANORAMA [37]。为了简化符号，我们将它们分别表示为B1、B2、B3和B4。基线性能见表1。与融合方法的比较在表2和表3中，我们分别比较了在ModelNet40和ModelNet10数据集上提出的框架中由于TPF每次只能融合两个相似点，因此其结果是在一个范围内给出的。通过融合相似性集合的3-组合或所有四个相似性来进行评估。从表2中可以看出，所提出的UED在ModelNet40数据集上的大多数相似性组合中获得了最佳性能。例如，当融合B2、B3和B4时，UED报告AUC 88。05和mAP 87. 三十在AUC方面，报告的性能比RED好1。57，TPF的最佳试验2。05，NF为3。41岁，重新开始。在mAP方面，UED优于RED 1。59，TPF的最佳试验2。18，NF为3。37，分别。实验证明，UED可以继承现有融合扩散方法的优点，学习到更鲁棒的相似性。当融合B1、B2和B3时出现异常情况，其中UED仅达到AUC 87。27和mAP 86。55，与最佳竞争对手NF的性能相当。如上所述，NF容易受到噪声相似性的影响。尽管如此，表1呈现了B1、B2和B3具有非常相似的性能，而B4的性能差得多，这表明在由B4参数化的亲和图中涉及多得多的噪声边缘。因此，当涉及B4时，NF由于缺乏权重学习机制，以减轻噪声的负面影响相比之下，使用相等的权重组合B1、B2和B3是合理的，在这种情况下，NF是一种廉价的解决方案在表4中，我们展示了RED和UED学习的权重。在RED [7]中，B4的权重被设置为0，以完全消除其对相似性学习的负面贡献。然而，在UED中，B4的权重为0。014，一个很小但非零的值。这种差异源于RED通过单独考虑每个输入相似性来融合多个相似性的事实，而UED能够考虑两个不同相似性的相互作用，如等式（1）所示。（28页）。即使B4带来更多的噪声边缘，它仍然可以提供补充信息，如果与其他异构相似性。与最新技术水平的比较。表5给出了与Mod- elNet数据集上最先进方法的全面比较结果引自ModelNet的领导委员会，可在 http ： //modelnet 上获得。cs.princeton.edu/的网站。从表中可以看出，UED在两个数据集上都实现了最佳AUC和第二佳mAP。作为一种基于视图的算法，SeqViews 2SeqLabels [15]提出了一种编码器-解码器RNN结构，注意聚集顺序视图并报告最佳mAP 89。在ModelNet40数据集上。同时，PANORAMA-ENN [48]是PANORAMA-NN [49]的扩展，它使用全景视图进行模型训练。在此基础上，提出了一种新的三通道模式表示方法，并对多模型进行了扩充，从而实现了最佳的mAP九十三在ModelNet10数据集上有28个。然而，作为重新排序和度量融合的一种假设，可以认为，如果融合，UED可以导致更好的性能750基线AUC mAP表2.ModelNet40数据集上融合方法的性能比较（%）基线AUC mAP表4.ModelNet40数据集上的学习权重方法ModelNet40ModelNet10AUC mAPAUC mAPSPH [24]34.47 33.2645.97 44.05LFD [9]42.04 40.9151.70 49.82PANORAMA [37]45.00 46.1360.72 60.32[59]第五十九话49.94 49.2369.28 68.26[53]第五十三话- 五十一点半-74.90[52]第五十二话76.8185.45 84.18MVCNN [54]- 七十九块五- -礼品[6]83.10 81.9492.35 91.12[49]第四十九话-83.45-87.39GVCNN [12]-85.70- -红色[7]87.0386.3093.2092.15[48]第四十八话-86.34-93.28[15]第十五话-89.09-91.43UED（我们的）88.0587.3093.3792.26表5.在ModelNet40和ModelNet10数据集上与最先进技术的性能比较（%）最好的和第二好的结果分别用红色和蓝色标记。SeqViews 2SeqLabels [15]和PANORAMA-ENN [48]作为输入相似性。5.2. 图像检索然后，我们在Holi- days [22]数据集上评估检索性能。Holidays数据集是一个被广泛使用的图像检索基准数据集，它由1491幅图像和500个查询组成。评估指标为B1+B3+B489.85 85.12 91.87 92.55 93.22B2+B3+B488.91 85.12 90.12 90.34 90.37B1+B2+B3+B490.69 85.12 92.46 93.32 93.56表6.不同融合方法在Holidays数据集上的性能比较平均精密度（mAP）。使用了四个基线相似性，包括NetVLAD [1]：mAP 88。29，Sunday [2]：mAP 86.07，ResNet [16]：mAP 81. 83，HSV彩色直方图[68]：mAP 61。83岁我们在表6中分别用B1、B2、B3和B4表示它们。与之前的实验一致，UED击败了NF，TPF，和RED，除了一个相似性组合之外，所有相似性组合如表6所示。同时，在重新排序阶段，通过简单地融合四个基线相似性，UED实现了mAP九十三第56集假期这一成就已经优于最先进的方法，包括成对几何匹配[27]：89.2，Gordo等人。[13]：89.1，Is- cenet al. [20]：87.5，Radenovic ′et al. [44]：82.5，仅略低于Gordo等人。[14]：94.8。然而，可以想象，如果使用更多的区分特征[14，35，38]和模型集合[19，21，43]，则UED的性能可以更好。在这里，我们不报告UKbench数据集上的实验结果[34]，因为它的性能已经饱和。在N-S评分为4分的情况下，以前的一些作品报告了接近完美的分数。例如，Gordoet al. [14]报告3。91通过增强R-MAC描述符[57]。因此，我们将Ukbench数据集上的比较包括在NFTPF红色我们NFTPF红色我们B1+B2+B387.5383.99元86.00元87.0487.2786.7783.15磅85.12磅86.3086.55B1+B2+B480.0268.56 84.0183.6084.7079.3267.16磅83.23磅82.8283.92B1+B3+B483.5468.56 84.7985.0686.2982.8367.16 83.8684.2485.38B2+B3+B484.6470.69 86.0086.4888.0583.9369.15磅85.12磅85.7187.30NFTPF红色我们NFTPF红色我们B1+B2+B392.8091.63 92.6093.2093.3791.6590.56磅91.48磅92.1592.26B1+B2+B491.4584.34磅92.38磅92.6592.8590.2582.85磅91.41磅91.5091.74B1+B3+B491.3583.97 92.6093.2393.2790.0382.56磅91.48磅92.1792.08B2+B3+B490.6783.97 92.1492.3592.4989.7182.56磅91.11磅91.2391.41B1+B2+B3+B491.7283.97 92.6093.2093.3690.4982.56磅91.48磅92.1592.25表3.ModelNet10数据集上融合方法的性能比较（%）方法B1B2B3B4基线NFTPF红色我们红色[7]0.3560.3480.2960.000B1+B2+B392.4390.03磅92.46磅93.3293.31751补充材料。5.3. 人员重新识别近年来，在视频监控需求的推动下，人的再识别（re-ID）技术在视觉领域受到了广泛的关注。特别是，基于重新排名的方法[70，47，31，64，63，28]成为自动优化搜索结果的流行工具。在本节中，我们在Market-1501数据集上评估了所提出的方法[69]。Market-1501是一个广泛使用的大规模个人身份识别基准。它由1501个恒等式组成。750个身份（12，936个图像）用于训练，751个身份（19，732个图像）用于测试，3，368个图像用作查询。我们利用三个基线相似性。首先，我们用softmax损失和三重损失微调ResNet-50模型[16]。然后，我们提取L2归一化激活的网络之前的损失层作为图像的特征和计算的欧氏距离来衡量图像之间的相似性。我们将这两条基线分别表示为B1和B2。此外，Mancs [58]，一个最近使用注意力机制的工作，作为第三基线相似度B3。性能通过单查询设置中的rank-1准确度和平均平均精度（mAP）来衡量。B1、B2和B3的基线性能为91。66，89。22和93。一级准确率17，78。九十，七十五。33和82。51在mAP，分别。由于大量的作品报告了Market-1501数据集的性能，因此很难比较所有作品。因此，我们只包括2018年发表的最先进的方法以及表7中关于重新排名或度量融合的方法。其中， K-reciprocal [70] ， SSM [3] ，PSE+ECN [47]和RED [7]也是基于重新排序的方法。我们还使用相同的基线复制了K-倒数和RED的结果，并使用公开的代码，以确保公平比较。由于K-reciprocal只能处理一个特征，因此我们将多个特征连接起来作为其输入。从表中可以看出，重新排序算法的结果（无论是原始的还是复制的）都不如UED的结果。图1，我们给出了一个定性的评价，通过展示几个探头图像和它们的1-最近邻居与不相交的相机ID。UED能正确地检索出匹配对，而RED搜索和K-倒数搜索不能识别这些人。UED的表现也远远优于一些最新的代表，包括AWTL [46]，HA-CNN [26]和Mancs [58]。此外，UED达到mAP 92。75，这是第一个工作报告mAP大于90，以我们所知。从这个意义上说，在未来的工作中，利用模型集成和重排序来提高re-ID系统的识别率将是一条可行的途径。表7. Market-1501数据集上的性能比较（%）。标有“0”的结果是使用相同基线的公开代码复制的。图1.UED在Market-1501数据集上正确检索的探针和图库图像的匹配对示例6. 结论在本文中，我们集中在重新排序与度量（或相似性）融合的能力，对象检索和人的重新识别。本文提出的统一包围扩散（UED）算法不仅是一种在基准数据集上达到最新检索性能的有效算法，而且是一个统一的理论框架，在此框架内，现有的融合方法被归纳为它的特例。UED在深入分析现有融合方法原理的基础上，对目标函数和推导过程进行了精心设计，使其具有扩散速度快、考虑了所有输入对的相互影响、处理多个输入、对噪声具有鲁棒性等特点。大多数当前的重新排序方法不是端到端可训练的，仅用作后处理过程以细化检索结果。最近，一些工作[50，51]建议在深度模型中以小批量构建亲和图，并实现了有希望的性能改进。然而，很难很好地采样的歧管结构给出了一个小的数据点集。因此，如何在小批量中包含上下文信息仍然是一个悬而未决的问题。我们把它作为我们未来的工作。致谢本工作得到华为、 EPSRC grant SeebibyteEP/M013774/1、EPSRC/MURI grant EP/N 019474/1和NSF grant IIS-1814745的支持。画廊方法Rank-1准确性地图AWTL [46]89.4675.67[26]第二十六话91.2075.70[58]第五十八话93.1782.51K-reciprocal [70]77.1163.63SSM [3]82.2168.80PSE+ECN [47]90.3084.00红宝石[7]94.7491.00K-reciprocal[70]94.6991.87UED（我们的）95.9092.75探针752引用[1] R. Arandjelovic，P. Gronat，A. Torii，T. Pajdla和J.西维克 Netvlad ：用于弱监督位置识别的 CNN 架构。在CVPR，2016年。7[2] A. Babenko和V. Lempitsky聚合局部深度特征用于图像检索。在ICCV，第1269-1277页，2015年。7[3] S. Bai，X.Bai和Q.田监督平滑流形上的可扩展人员在CVPR，2017年。8[4] S. Bai，X.拜角，加-地Tian和L. J. Latecki用于视觉检索的正则化在AAAI，第3967一、二[5] S. Bai，X.拜角，加-地Tian和L. J. Latecki面向对象检索的双向上下文正则化扩散过程TPAMI，2019。一、二[6] S. Bai，X.白氏Z. Zhou，Z. Zhang和L. J. Latecki礼物：一个实时和可扩展的3D形状搜索引擎。在CVPR，2016年。六、七[7] S.白氏Z.作者简介：王建，张世文.巴伊湖，加-地J.Latecki和Q. 田用于检索的集合扩散。在ICCV，第774-783页，2017年。一、三、六、七、八[8] C. Burges，T.摇晃，E。Renshaw，A. Lazier，M. 行动，N. Hamilton和G.胡伦德学习使用梯度下降法排序。ICML，第89-96页，2005年。2[9] D. Y. Chen，X. P. Tian，Y. T. Shen和M.欧英基于视觉相似性的三维模型检索研究。Comput. Graph.Forum，22（3）：223-232，2003. 7[10] M. Donoser和H.比肖夫再访检索的扩散过程在CVPR，第1320-1327页，2013年。一、二[11] Y. Fang，J.Xie，G.戴，M.Wang，F.Zhu，T.xu和E.黄。3D深度形状描述符。在CVPR中，第2319- 2328页，2015年。1[12] Y.冯，Z. Zhang，X. Zhao河，巴西-地Ji和Y.高. Gvcnn：用于3D形状识别的组视图卷积神经网络。在CVPR中，第264-272页，2018年。7[13] A. Gordo，J. Alma za'n，J. R ev aud和D. 拉勒斯深度图像检索：学习图像搜索的全局表示。在ECCV，第241-257页，2016中。7[14] A.作者：Gordon，J. Revaud和D. 拉勒斯深度视觉表示的端到端学习，用于图像检索。IJCV，124（2）：237-254，2017。7[15] Z.阿憨，M.翔Z.刘先生，C.- M.王Y.-- S.刘先生，M. Zwicker、J. Han和C.陈平。Seqviews2seqlabels：基于带注意力的rnn序列视图聚合的三维全局特征学习。TIP，28（2）：658-672，2019。六、七[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。六七八[17] X.他，Y. Zhou，Z. Zhou，S. Bai，还有X。柏多视角三维物体检索的三重中心丢失。在CVPR，2018年。6[18] A.赫尔曼斯湖Beyer和B. Leibe为三胞胎的丢失辩护，进行人员重新鉴定。arXiv预印本arXiv：1703.07737，2017。8[19] A. Iscen，Y.Avrithis，G.Tolias，T.Furon和O.好朋友用于相似性搜索的快速谱排序。在CVPR，2018年。7[20] A. Iscen，G. Tolias，Y. Avritis和O.好朋友在流形上采矿：没有标签的度量学习。在CVPR，2018年。7753[21] A. Iscen，G. Tolias，Y. S. Avrithis，T. Furon和O.好朋友区域流形上的有效扩散：用压缩cnn表示法恢复小目标。在CVPR，2017年。1、7[22] H.杰古湾Douze和C.施密特用于大规模图像搜索的汉明嵌入和弱几何一致性见ECCV，第304-317页，2008年。二、七[23] E. Johns，S. Leutenegger和A. J·戴维森用于主动多视点识别的图像序列的成对分解在CVPR，2016年。6[24] M. Kazhdan，T. Funkhouser和S.鲁辛凯维奇三维形状描述器的旋转不变球谐表示。见SGP，第156-164页，2003年。7[25] Q. Ke和Y.李旋转是形状识别中的一个麻烦在CVPR，第4146-4153页，2014年。1[26] W. Li，X. zhu

下载后可阅读完整内容，剩余1页未读，立即下载