没有合适的资源?快使用搜索试试~ 我知道了~
4840DMT稳定重识别系统Adhiraj Ghosh1,2,Kuruparan Shanmugalingam1,3,和Wen-Yan Lin11新加坡管理大学,2图宾根大学,3西南西北大学摘要对象外观随着姿态变化而显著变化这给嵌入方案带来了挑战,嵌入方案试图将具有相同对象ID的实例映射到尽可能接近的位置。这个问题在复杂的计算机视觉任务中变得更加突出,例如重新识别(reID)。在本文中,我们认为,这些戏剧性的外观变化表明,一个对象ID是由多个自然组,它是适得其反,强制映射实例从不同的组到一个共同的位置。这导致我们引入关系保持三元组挖掘(RPTM),一种特征匹配引导的三元组挖掘方案,它确保三元组将尊重对象ID内的自然子组。我们使用这种三元组挖掘机制来建立一个姿势感知,条件良好的三元组丢失隐式强制视图一致性。这允许单个网络在数据集上使用固定参数进行训练,同时提供最先进的结果。代码可从https://github.com/adhirajghosh/RPTM_reid网站。1. 介绍重新识别是识别在不同条件下拍摄的同一对象的图像的过程。reID的主要挑战之一是姿势引起的外观变化[2,9]。不仅对象外观随姿势而改变,当从相同姿势观看时,不同的对象通常看起来相似本文提出了一种新的解释逆变问题,一个有可能显着提高reID算法的有效性。虽然我们专注于重新识别,但这里开发的基本原理并不限于此任务,并且有可能影响广泛的其他计算机视觉问题[1,21,30,35]。当前的reID框架将表示和度量学习方法部署在DMTRPTM图1:将DMT [13](当前最先进的技术)学习的特征与我们提出的三重挖掘方案进行比较。特征对应于Veri-776的前四个ID [25]。距离保持UMAP投影表明RPTM特征变换更直观。尝试学习将语义相似的实例映射到相对邻近的位置的嵌入;以及语义上不同的图像到相对较远的位置。这通常是通过一个度量损失函数来实现的,比如三重损失[37],它鼓励参考(锚)输入与正(真)输入比负(假)输入更相似。三元组组合的数量往往随着数据集中实例的数量呈多项式增长,如Hermans et al. [15]然而,大多数三重组合都是多余的。这导致了三联体挖掘的发展,其目的是识别给定样本集中最重要的三联体。虽然三元组挖掘在reID算法中无处不在[2,13,15,39],但它具有先天的脆弱性。考虑一个包含apple-the-phone和apple-the-fruit实例的假设数据集,这两个实例都被归类为Apple。该数据集还包含三星制造的手机实例,归类为三星手机。这个数据集将有许多困难的三胞胎,例如,苹果手机(锚),苹果水果(积极)和三星-4841(a) 无RPTM(b)有RPTM图2:使用SGD训练的ResNet-50的损失景观可视化,使用Veri-776上的Triplet Loss,使用/不使用关系保持TripletMining。RPTM展示了更平滑的损失表面,改进的模型泛化和更宽的最小值,从而在训练过程中实现更好的优化。然而,用这样的三元组进行训练是适得其反的,因为它们试图确保apple-the-phone的实例被映射得更接近apple-the-fruit的实例这样的映射机制违反了对象之间的自然外观关系,并且可以看出,当前的度量学习系统强制相同对象的非常不同的视图在特征空间中重合。根据这一假设训练的模型不太可能充分概括。类似的现象也发生在reID中,其中大多数数据集[23,25,34]都按ID对实例进行分组。然而,人或车辆的前、后和侧面轮廓的外观彼此非常不同,并且它们似乎属于物理上不同的实体。这会创建错误的锚点-阳性对,其中被选择为锚点和阳性的实例不共享自然组[2]。考虑到在[37]中,三元组丢失被定义为用于面部检测,其中数据集只有面部的前视图,因此所有锚正对在语义上都是有意义的,可以进一步实现三元组挖掘方案中的这种谬论。正因为如此,三元组挖掘并不能很好地推广到reID。这个问题已经在最近的reID作品中被认识到[9,19,24,28,39],他们将姿势感知纳入网络,以及度量学习[35],其中类内和类间共享的潜在特征被显式学习。虽然这种方法可能是有效的,但它使网络训练复杂化,并导致训练新的特定于网络的姿态感知层的额外负担。我们建议一个简单的替代方案,其中功能匹配-ing [5,26]用于发现自然分组。因此,我们提出了关系保持三元组挖掘(RPTM),一个三元组挖掘方案,尊重自然appearance分组。我们进一步将我们的解决方案定义为即时强制视图一致性,我们将其定义为利用类内的内部自然分组并将具有相同视图的实例映射为语义实体的过程,以克服类内可分性。这些分组遵循语义学[21]引用的自然模式,并且在reID的上下文中往往与姿势相关。在这里,RPTM隐式地实施姿势感知三元组挖掘,这防止不同的姿势彼此映射。这改进了三元组成本的调节,允许在各种不同的数据集上采用相同的训练参数结果特征嵌入提供了更好的reID结果,并且更直观,如图1所示。我们观察到,过去的三元组挖掘过程在姿势意识方面失败,这可能导致较差的排名结果,而RPTM不仅显示姿势意识,更好的条件三元组挖掘也确保了准确的排名结果。我们的实验被构造成演示相干三元组挖掘方案如何能够消除在reID中使用三元组丢失的最大脆弱性,而不需要关键点标签和姿态估计管道。我们方法有效性的一个指标是在训练过程中观察损失优化情况。由于RPTM的平滑损失景观,如图2所示,我们演示了RPTM如何通过三元组过滤步骤清理三元组挖掘过程,并防止错误的损失。4842Σ×→calminimas.因此,当使用RPTM进行训练时,具有较大参数的模型可以像较小的网络一样快速优化,这有助于我们的主要目标,即通过对计算能力的自我约束以及跨任务和数据集的一般化参数设置由于RPTM对损失情况的波动具有鲁棒性,因此在简单的成本函数上使用SGD训练更深的网络对于对象检索任务来说更容易实现。总之,我们的论文贡献是:1. 我们解释了传统的三重态挖掘方法是如何病态的,因为它没有考虑到自然分组;2. 提出了一种特征引导的三元组挖掘方案,我们称之为关系保持三元组挖掘(RPTM);3. 我们证明RPTM条件良好,足以允许在数据集和任务中使用恒定的训练参数。由此产生的网络是同时pable的国家的最先进的车辆reID和人reID的竞争力的结果。2. 相关作品重新鉴定。对城市监控应用的需求导致了对人员和车辆重新识别的兴趣激增。已经建立了挑战基准,如Ve- hicleID [23],Veri-776 [25],DukeMTMC [34]等;并且已经提出了许多新算法[13,19,20,24,38,46]。在reID中,许多算法通过估计车辆姿态来获得良好的效果值得注意的是,Tang等人。 [39]创建了一个用于姿态估计的合成数据集,Meng等人。 [28]使用解析器模型将车辆分为四个部分,用于姿态感知特征嵌入 。 最 近 , 针 对 reID [14 , 42 , 50] 的 视 觉 变 换 器(ViT)被提出用于注意力学习,并且[10]解决了带有噪声标签的人reID。我们认为,大多数这些技术遇到的根本问题在于他们的定义三重损失。通过用我们的RPTM技术取代传统的这从越来越复杂的reID技术的趋势中脱颖而出。三重丢失。三重丢失首先在面部识别的背景下引入[37]。从那时起,它经历了许多改进[2,15,44,45]。这种基于三元组的公式隐含地假设给定的ID对应于有意义的组。我们认为,这种解释往往是错误的,三胞胎应根据自然发生的群体而不是给定的标签来定义。这种关于三重态损失的观点与大多数论文中使用的观点有很大不同。据我们所知,与我们最相似的研究是Bai等人 [2],他们强调了自然发生的群体在一个物种中的重要性然而,Bai等人试图使用组来强制ID的更紧密映射,对抗而不是利用自然关系。基于聚类的作品(如Bai等人[2]的作品)的另一个问题是,变化通常没有自然发生的聚类边界。这对于RPTM来说不是问题,因为RPTM以成对的方式定义关系,而不是基于共享集群。特征匹配。 RPTM使用特征匹配来帮助建立三元组。特征匹配是计算机视觉中的一个成熟领域,其目标是匹配图像对之间的关键点。经典的特征匹配工作包括SIFT [26]、SURF [3]、ORB [36]等。最近的开发包括[4]用于利用匹配上下文信息,[27]用于消除两个特征集之间的失配。在本文中,我们采用基于网格的运动统计(GMS)[5]作为我们选择的特征匹配器这是一种较新的算法,它结合了匹配一致性[22]以促进关键点匹配。GMS优于大多数经典技术,同时也快得多。3. 为什么会出现三重亏损?3.1. 神经网络作为嵌入函数许多计算机视觉可以被解释为试图将图像实例映射到语义上有意义的因此,如果xk表示图像实例并且yk表示其相关联的特征,则从xk到yk的变换可以表示为yk=f(xk),其中f:R3×w×hRd; w h表示图像维数; d表示嵌入空间的维数。 在该方案中,嵌入函数f(. )通过最小化交叉熵损失来学习MEent=Lent(xk),(1)k=1其中m表示训练图像的总数。最大限度地降低成本,在Eq。1提供了一种最大化分类精度的嵌入。然而,这并不能确保嵌入在语义上是有意义的。检索问题需要一个嵌入,其中语义相似的实例被映射到彼此附近,导致三重丢失的发展[37]。3.2. 三重损失关于三个图像实例定义三重损失:Anchor(随机选择的实例); Positive(与锚点共享公共ID的实例);Negative(其ID与锚点不同的实例)。我们分别用xa、xp和xn表示这些实例考虑到正电荷和负电荷,三重态损失定义为[37]:Ltri ( xa , xp , xn ) =max ( 0 ,dap−dan+α),(2)其中α是正实例和负实例之间的期望的边缘分离,dap=f(xa)−f(xp)n,dan=4843∥ −∥Σ1[2K标记ID 1标记ID 2标记ID 3真实ID 1真实ID 2真实ID 3真实ID 1真实ID 2真实ID 3真实ID 4真实ID 1真实ID 2真实ID 3具有自然亲和力的关系三元组禁止锚正对的区域传统和关系三联体禁止锚定阳性对的区域(a) 亲和基质积极(b) 锚正选择方案图3:关系保持三元组挖掘的代表性示意图。在图3a中,每个ID包含许多自然发生的组。关系三联体基于自然组而不是ID,从而防止病理性锚定阳性。在图3b中,观察到阳性与锚有明显的相似性(表明它们共享一个共同的自然组),但不是近似重复。f(xa) f(xn).最终的三元组成本通过对各个三元组损失求和来计算:不自然地,对于如何测量相关性没有共识;因此,三元组挖掘依赖于统计学。 两个最流行的广告是:硬负采半硬Etri =Lc=1三(xac,xpc,xnc)、(3)负面挖矿硬否定挖掘专注于否定与锚非常相似的三胞胎。半硬负面挖掘将焦点从最硬的负面转移其中t是三重态的总数。一般来说,三联成本不是孤立使用的。相反,它们与来自等式(1)的交叉熵成本组合。1,导致最终的成本函数:E=λentEent+λtriEtri,(4)其中λent和λtri分别控制给予交叉熵损失和三元组成本的权重4. 保持关系的三元组挖掘为了防止训练管道停滞,重要的是实现良好的三元组挖掘方案。三元组挖掘是一个更大框架的一部分,该框架将特征视为机器学习的关键例如,NetVLAD [1]和许多其他域转移工作表明,自适应功能显着提高了性能。类似地,知识蒸馏[30]试图将不实用的网络压缩成更紧凑的功能以供实际部署。我们专注于三重开采,因为最相关的在reID中的作品使用某种形式的三重丢失,也有效-到接近决策边界的否定。这两种类型的人看起来都很明智,而且往往表现良好;然而,仔细观察后发现,可能有什么地方出了问题。让我们进行一个思想实验,我们将ID A和B分配给相似的汽车模型。硬开采或半硬开采发现最令人困惑的三胞胎,导致以下三胞胎:汽车A的前部作为锚,汽车A的后部作为正,汽车B的前部作为负。三胞胎确实很辛苦;然而,将其纳入培训费用会产生反作用。这是因为这样的三元组鼓励嵌入将A的后部映射到A的前部。嵌入是如此违反直觉,它不太可能很好地推广为了避免这种病态的情况下,我们引入了关系三元组,它解决了类内可分性的问题,比其他方法更注意。4.1. 关系三元组关系三元组将三元组定义从基于人类分配的ID更改为基于自然发生的组。形式上,我们将训练图像的集合表示为S ={x,x,···,x}。 我们hypothesise有效地突出显示“Implemented Enforced ViewConsistency”。天真地将每一个可能的三元组都包含在损失中会产生糟糕的结果[15]。相反,训练算法em-这些图像是自然发生的成员(和位置,可能重叠)子集。子集的集合表示为N={Sm},其中采用三元组挖掘,这是一个旨在仅将最相关的三元组纳入三元组成本的过程。不锚点图像15场比赛82个匹配970个匹配标记ID 1标签ID 3标签ID 24844幸的是S=Sm∈N的作案(五)4845S{}∥ −∥输入图像Res残余激发挤压规模按通道全局平均池间隙特征嵌入提取伊本最终FC层分类器块转换块112乘法2 mGMS..输入集特征匹配器.MRe-ID损失关系矩阵图4:部署关系保持三元组挖掘的重新识别网络的示意图。RPTM模块包括实例-批量归一化(IBN)和挤压激励(SE),以减少通道的相互依赖性。使用GMS匹配估计关系矩阵,并用于三重选择。我们使用关系指标。C(x,x)=.1,如果xi,xj共享N中的子集,(六)GMS能够在显著的视点变化中可靠地匹配特征,同时确保没有共同点的图像对之间很少匹配。因此,在本发明中,0,否则。表示两个实例是否共享一个自然子集。关系三元组是指锚点-正对共享一个共同的自然子集,而负对则不共享。C(xa,xp)= 1,C(xa,xn)=0,C(xp,xn)=0。(七)传统三元组是关系三元组的一个特例 在reID中情况并非如此,正如我们在思想实验中以及通过图3a中的关系图所解释的那样。当锚定阳性对没有天然亲和力(共享一个共同的组)时,就会出现病理性三联体观察到传统的基于ID的三联体允许病理性锚定阳性对。在reID中,自然子集可能对应于对象姿态。这创造了使用特征匹配算法来识别这样的子集的可能性。下一节将说明如何实现这一点。4.2. 关系保持三元组的GMS [5]是一种现代特征匹配器,它使用相干性来验证假设的特征匹配。相干方案假设真实匹配假设将被相邻区域对之间的许多其他匹配假设强烈支持,而假匹配假设将不会。基于一致性的验证明显优于传统的比率检验[26]。这允许图像对之间GMS匹配的存在提供了等式(1)中的关系指示符的良好近似。五、GMS在reID系统中非常有效地量化图像之间的内在关系,并且在建立隐式强制视图映射方面至关重要。虽然GMS几乎没有错误,但错误确实会发生。为了确保锚点-正对具有为1的关系指示符,我们将每个锚点的正实例设置为其GMS与锚点匹配的数量最接近阈值τ的图像实例。在这里,我们承认设置相似的锚定阳性对会导致较差的训练。因此,我们对锚点正选择使用中间方法,我们称之为RPTM均值,其中τ被设置为锚点和所有其他图像之间的非零成对GMS匹配集中GMS匹配的平均数量。更正式地说,对于两个图像,xi,xj,我们预测自然关系指标为真,C(xi,xj)=1,如果它们之间的匹配数超过τ。以上提供了半硬正挖掘,其确保锚正对满足等式中的关系指示符5,同时还确保阳性与锚显著不同。一个例子如图3b所示。我们使用批量硬三元组挖掘来定义否定[15]。如果b=xj表示批处理中不与xa共享ID的实例集,则负数为xn= argmin((f(xa)f(xj)).(八)xj∈SbID丢失三重损失4846IIDD:96R1R2IIDD:38R1R2图5:不存在的不良目标的定性检索结果RPTM(R1)和RPTM(R2)。 正确的标识以绿色标出;错误的用红色标出。RPTM清楚地将骨干模型与更好的姿势感知对齐,并提供细粒度的注意力。观察到以这种方式定义的三元组满足等式:7,使它们保持关系的三元组。给定这样的三元组,最终的嵌入可以通过最小化方程中的成本函数来获得。4.第一章正如挖掘策略所证明的那样,RPTM允许对视点和姿态的内在理解,而无需硬编码的姿态估计。5. 实现细节图4中提供了网络架构的示意图。在本节中,我们将讨论模型布局,在第5.1节中的比较特征匹配管道上的配置,以及在第5.2节中使用RPTM的模型结构。为了测试和突出RPTM的通用性及其由于其新颖的三元组挖掘方案而推广训练管道的能力,我们对所有数据集的网络和参数调整进行了限制5.1. 特征匹配如前所述,我们使用GMS特征匹配来指导我们的三元组挖掘过程,以实现半硬正挖掘。理论上,我们需要在锚点和数据集中的所有其他图像之间建立GMS匹配。在实践中,我们使用图像ID作为自然分组的指南,并将匹配限制为仅与锚点共享公共ID的图像。这大大降低了三元组挖掘的计算成本。特征匹配在已经被调整大小为(224,224)。GMS特征匹配参数为:10,000个ORB特征,其方向参数设置为真,并且最近的邻居用蛮力锤击距离来识别。所有其他参数均根据[5]报告的指南设定匹配后,图像对之间的匹配数存储在关系矩阵m×m,其中m是训练图像的数量5.2. 神经网络为了将我们的结果与已建立的基准进行公平比较,我们选择了在ImageNet上预训练的ResNet-50和ResNet-101作为我们的骨干。我们的RPTM模块包括实例批量归一化和挤压激发层[16]。该网络的权重通过最小化等式中的损失函数来4.第一章这个网络是使用我们在4.2节中的关系保持三元组挖掘(RPTM)定义的三元组训练的。对于车辆reID,图像的大小调整为(240,240),对于人员reID,图像的大小调整为(300,150)。数据增强应用,随机翻转,随机填充,随机时代和颜色抖动(随机改变对比度,亮度,色调和饱和度)都被激活。随机梯度下降(SGD)被用作模型的优化器。初始学习率初始化为0.005,并设置为每20个epoch衰减0.1倍。该模型训练了80个epoch,批量大小为24。所有数据集的训练参数都是固定的。1.一、最后,图5提供了定性比较,表明RPTMtop- 19)。我们专注于展示质量的图库图像检索查询样本的RPTM通过比较前k检索结果与没有RPTM管道。6. 实验6.1. 数据集VehicleID[23]允许我们通过提供多个逐渐变大(和更难)的测试集来测试RPTM的可扩展性。我们评估我们的算法与800,1600和2400标签进行测试。Veri-776[25]是一种广泛使用的基准,每辆车都有不同的视角范围,旨在提供更受限制但高度逼真的条件。DukeMTMC[34]是一个具有1,404个不同类别的人重新识别基准。虽然我们的重点是车辆reID,我们包括这个基准,以表明我们的算法可以推广到其他问题。6.2. 评估指标根据[23,25]中建议的方案对排名进行评分,所有方法均报告平均值1这些参数的计算要求明显低于最近最先进的模型[10,14,33,41,50]96969611796117117113117113ID96969696961131131139611335303530383038303035ID383838383838303830304847模型小型(查询大小=800)mAP r=1 r=5中等(查询大小=1600)mAP r=1 r=5大型(查询大小=2400)mAP r=1 r=5[11]第十一话63.5061.1081.7060.0056.2076.2053.0051.4072.20AGNet [47]76.0673.1486.2573.3970.7781.7571.7569.1080.40ANet [31]-86.0097.40-81.9095.10-79.6092.70VANet [9]-88.1297.29-83.1095.14-80.3592.97Smooth-AP [6]-94.9097.60-93.3096.40-91.9096.20RPTM(ResNet-50)82.3095.0096.7079.9092.5096.2078.6092.1095.70QD-DLP [51]76.5472.3292.4874.6370.6688.9068.4164.1483.37AAVER [18]-74.6993.82-68.6289.95-63.5485.64汽车网[48]-83.6496.86-81.3593.61-79.4692.04RPTM(ResNet-101)84.8095.5097.4081.2093.3096.5080.5092.9096.30表1:与VehicleID最新方法的比较。RPTM在所有三个测试集中提供了最好的检索结果,在大型测试集中具有明显更好的性能。模型地图r = 1R = 5P2-Net [12]73.1086.5093.10[29]第二十九话78.7088.2095.20PNL [10]79.0089.20–SCSN [8]79.0091.00–RPTM(ResNet-50)80.2091.4095.80[32]第三十二话88.6090.90–[41]第四十一话83.4089.50–[40]第四十话92.7094.5096.80RPTM(ResNet-50)*87.5092.3095.20[20]第二十话78.2088.80–[46]第四十六话91.0092.90–RPTM(ResNet-101)*89.2093.5096.10表2:与Veri-776数据集最新技术水平结果的比较。该符号表示重新排序的用法平均精度(mAP)和累积匹配特性(CMC)。对于Veri-776和DukeMTMC数据集,我们还使用重新排序[49],通过考虑查询和检索图像的k倒数最近邻来细化最终排名,有效地改善了用于量化mAP和前k排名准确性的成对距离结果Ve- hicleID不采用重新排名,因为图库集合中通常只有一个真正的匹配ID [18]。我们根据主干网络的复杂性对过去的工作进行了划分,我们的结果是在ResNet-50和ResNet-101主干上进行的。6.3. 与最新技术水平的VehicleID:表1显示RPTM在具有挑战性的VehicleID数据集上实现了最先进的结果,表3:与DukeMTMC基准的比较。RPTM提供了有竞争力的结果,即使它没有针对人员reID进行调整。表示重新排序。RPTM 在 车 辆 数 据 集 上 的 可 扩 展 性 。 尽 管 未 超 过Smooth-AP[6] , 但 表 4 显 示 Smooth-AP 在 Veri-776 和DukeMTMC上的性能下降。Veri-776:如表2所示,RPTM超过了最近最先进的车辆reID模型。这些结果是非常值得尊敬的,特别是如果我们考虑到像VehicleNet [48]这样性能良好的算法使用补充数据进行训练的事实。我们还淘汰了强基线[17],它使用更深的骨干和更大的图像。此外,RPTMDukeMTMC:表3显示,尽管训练参数调整到车辆数据集,但RPTM在人员reID上获得了竞争性结果除了改变图像大小以考虑输入图像的纵横比之外,对RPTM网络或训练参数没有任何改变。这些结果对于训练参数针对不同任务进行调整的网络来说是值得尊敬的模型地图r = 1R = 5跨度[7]68.9094.0097.60PAMTRI [39]71.8892.8696.97[28]第二十八话79.5095.6098.40TBE [38]79.5096.0098.50RPTM(ResNet-50)79.9096.1098.50GAN+LSRO [43]64.7888.6294.52[19]第十九话82.0096.9097.70RPTM(ResNet-50)86.4096.7098.00卡尔[33]74.3095.4097.90[第14话]80.6096.80–RPTM(ResNet-101)80.8096.6098.90[18]第十八话66.3590.1794.34[13]第十三话82.0096.90–[第48话]83.4196.78–[17]第十七话87.1097.00–RPTM(ResNet-101)88.0097.3098.404848讨论:表1、2和3表明,将RPTM简化为特征学习技术使其在重新识别时更有效。性能改进在更困难的数据集上尤其显著,如Ve- hicleID和更严格的评估指标(mAP)。当我们考虑到RPTM对所有三个数据集使用恒定的训练参数时,这些性能是非常显着的。大多数深度学习算法需要从数据集到数据集调整参数,RPTM为了证明保持恒定训练参数的挑战,我们在其他两个数据集上训练了Smooth-AP [6],同时使用表1的训练参数,如表4所示。我们也承认He等人在TransReID中使 用 了 Visual Transformers ( ViT ) 。[14] ,demonstrating令人印象深刻的结果,尽管使用相机嵌入和视点标签。 虽然RPTM使用通用的,符合低计算要求的参数,我们仍然实现了国家的最先进的结果相比,基于变压器的ReID模型。作为额外的实验,使用TransReID中定义的增加的参数设置,我们进一步改进了检索结果,在Veri-776上实现了82.5%的mAP(w/o重新排序)模型Veri-776mAP r=1车辆ID(小型)mAP r=1RPTM128×128RPTM160×160RPTM224×224RPTM240×24056.5 84.574.8 92.485.1 95.288.0 97.372.5 89.080.5 91.883.1 92.984.8 95.5(a) 图像尺寸消融模型Veri-776mAP r=1车辆ID(小型)mAP r=1RPTMmin86.395.982.193.9RPTM平均值88.097.384.895.5RPTMmax82.295.679.893.1(b) 持续消融表5:(a)随着图像尺寸的增加,ReID性能。mAP和rank-1随着图像大小增加,直到(240,240),之后性能 稳 定 。 (b) 比 较 阳 性 选 择 阈 值 。 RPTM min 、mean、max对应于硬正、半硬正和易正挖掘。积极采矿。缺点是容易出现偶然的匹配错误。另一种可能性是将τ设置为锚图像具有的最大匹配数量。我们称之为RPTMmax。这消除了GMS匹配错误的任何漏洞,但牺牲了正面图像表4:Smooth-AP [6](ResNet-101 back-bone)在Veri-776和DukeMTMC上的性能,重新排序。6.4. 消融研究图像大小。我们首先研究图像大小如何影响重新识别。表5a显示,评估指标随着图像大小的增加而改善,这一发现被许多其他reID算法所反映,这些算法通常寻求使用最大可能的图像。然而,我们发现,在Veri-776和VehicleID上,per-total峰值为(240,240),这验证了RPTM正选择阈值第4.2节建议使用阈值τ选择正图像,阈值τ是非零匹配结果的平均数。我们注意到这个方案RPTM平均值(半硬正挖掘)。有许多替代方案。一种可能性是将τ固定在较低数量的匹配上,例如10。我们称之为方案RPTM最小值 该方案确保了锚定正性对不是接近重复,对应于硬位置。热情这对应于容易的积极挖掘。表5 b表明RPTM均值具有最佳性能;因此,我们采用它作为我们的默认采矿方案。7. 结论在这项工作中,我们已经表明,尊重类内的自然数据分组可以帮助显着改善三重挖掘,不仅有利于选择更好的锚正对,而且,因此,创建一个更易于处理的优化程序,导致更好的概括。为此,我们引入了关系预服务三元组挖掘(RPTM),这是一种三元组对齐方案,用于生成警惕逆可变性问题的样本,证明隐式强制视图排序可以显着改善reID管道。我们展示了如何使用特征匹配来开发关系感知的三元组挖掘,从而产生更好的条件三元组丢失,创建具有增强的训练稳定性的特征学习器此外,我们强调RPTM优于最近的reID模型,同时在数据集上保持恒定的训练参数。最后,我们相信我们的研究可以扩展到无监督域自适应,以便在reID数据集上实现更好的可扩展性,因为RPTM方法地图r = 1R = 5Smooth-AP(Veri-776)RPTM(Veri-776)79.4088.0091.1097.3094.2098.40Smooth-AP(DukeMTMC)RPTM(DukeMTMC)65.7089.2079.9093.5088.4096.104849引用[1] Relja Arandjelovic,Petr Gronat,Akihiko Torii,TomasPa-jdla,and Josef Sivic. Netvlad:用于弱监督位置识别的CNN架构。在IEEE计算机视觉和模式识别会议论文集,第5297-5307页,2016年。1、4[2] Yan Bai,Yihang Lou,Feng Gao,Shiqi Wang,YuweiWu,and Ling-Yu Duan.用于车辆重新识别的组敏感三元 组 嵌 入 。 IEEE Transactions on Multimedia , 20(9):2385-2399,2018。一、二、三[3] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf:加速健壮的功能。在欧洲计算机视觉会议上,第404-417页Springer,2006年。3[4] 法比奥·贝拉维亚根据暴露的上下文筛选匹配。IEEETransactionsonPatternAnalysisandMachineIntelligence,2022。3[5] JiaWang Bian , Wen-Yan Lin , Yasuyuki Matsushita ,Sai-Kit Yeung,Tan-Dat Nguyen,and Ming-Ming Cheng.Gms:基于网格的运动统计,用于快速、超鲁棒的特征对应。在IEEE计算机视觉和模式识别会议论文集,第4181-4190页,2017年。二三五六[6] Andrew Brown , Weidi Xie , Vicky Kalogeiton , andAndrew Zisserman. Smooth-ap:平滑大规模图像检索的路径。欧洲计算机视觉会议,第677-694页Springer,2020年。七、八[7] 陈财贤,刘智婷,吴智伟,钱少毅。基于语义引导部分注意网络的方向感知车辆再识别。在欧洲计算机视觉上,第330Springer,2020年。7[8] Xuesong Chen , Canmiao Fu , Yong Zhao , FengZheng,Jingkuan Song,Rongrong Ji,and Yi Yang.用于人物再识别的显著性引导级联抑制网络在IEEE/CVF计算机视觉和模式识别会议论文集,第3300-3310页,2020年。7[9] Ruihang Chu,Yifan Sun,Yadong Li,Zheng Liu,ChiZhang,and Yichen Wei.具有视点感知度量学习的车辆重新识别。在IEEE/CVF计算机视觉国际会议论文集,第8282- 8291页,2019年。一、二、七[10] Dengpan Fu , Dongdong Chen , Hao Yang , JianminBao,Lu Yuan,Lei Zhang,Houqiang Li,Fang Wen,and Dong Chen.大规模预训练用于具有噪声标签的人员重新识别。在IEEE/CVF计算机视觉和模式识别会议论文集(CVPR)中,第2476-2486页,2022年6月。三六七[11] Haiyun Guo , Chaoyang Zhao , Zhiwei Liu , JinqiaoWang,and Hanqing Lu.学习由粗到细的结构化特征嵌入用于车辆再识别。在AAAI人工智能会议论文集,第32卷,2018年。7[12] Jianyuan Guo , Yuhui Yuan , Lang Huang , ChaoZhang,Jin-Ge Yao,and Kai Han.超越人类的部分:用于人员重新识别的双重部分对齐表示。在IEEE/CVF计算机视觉国际会议论文集,第3642-3651页,2019年。7[13] Shuting He ,Hao Luo ,Weihua Chen ,Miao Zhang ,Yuqi Zhang,Fan Wang,Hao Li,and Wei Jiang.多领域学习和身份挖掘在车辆再识别中的应用。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中,第582-583页,2020年。一、三、七[14] Shuting He,Hao Luo,Pichao Wang,Fan Wang,HaoLi,and Wei Jiang. Transreid:基于转换器的对象重新识别。IEEE/CVF计算机视觉国际会议论文集,第15013-15022页,2021年三六七八[15] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失,进行人员重新鉴定。arXiv预印本arXiv:1703.07737,2017。一二三四五[16] 杰虎,李申,孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集,第7132-7141页,2018年。6[17] 苏文慧车辆重新识别的强有力基线。在IEEE/CVF计算机视觉和模式识别会议论文集,第4147-4154页,2021年。7[18] Pirazh Khorramshahi, Amit Kumar , Neehar Peri ,SaiSakethRambhatla , Jun-ChengChen , andRamaChellappa.车辆再识别的自适应注意双路径模型。在IEEE/CVF计算机视觉国际会议论文集,第6132-6141页7[19] Pirazh Khorramshahi , Neehar Peri , Jun-cheng Chen ,and Rama Chellappa.魔鬼就在细节中:车辆重新识别的自我监督注意力。在European Conference on ComputerVision中,第369Springer,2020年。二、三、七[20] Yulin Li , Jianfeng He ,Tianzhu Zhang, Xiang Liu ,Yongdong Zhang,and Feng Wu.多样的零件发现:使用部 件 感 知 的 Transformer 重 新 识 别 闭 塞 人 员 。 在IEEE/CVF计算机视觉和模式识别会议上,第2898-2907页,2021年三、七[21] Wen-Yan Lin ,Siying Liu ,Changhao Ren,Ngai-ManChe- ung,Hongdong Li,and Yasuyuki Matsushita.外壳理论:现实的统计模型。IEEE Transactions on PatternAnalysis and Machine Intelligence,2021。一、二[22] Wen-Yan Daniel Lin,Ming-Ming Cheng,Jiangbo Lu,Hong- sheng Yang,Minh N Do,and Philip Torr.全局运动建模的双边函数。欧洲计算机视觉会议,第341-356页。Springer,2014. 3[23] Hongye Liu , Yonghong Tian , Yaowei Wang , LuPang,and Tiejun Huang.深度相对远程学习:说出相似车辆之间的差异。在IEEE计算机视觉和模式识别会议论文集,第2167-2175页二、三、六[24] Jiawei Liu,Zheng-Jun Zha,Wei Wu,Kecheng Zheng,and Qibin Sun.视频中人物再识别的时空相关和拓扑学习。在IEEE/CVF计算机
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功