没有合适的资源?快使用搜索试试~ 我知道了~
12046通过调整学习:基于交叉模态对应的可见-红外人脸识别Hyunjong Park*Sanghoon Lee*Junghyup Lee Bumsub Ham†延世大学电气与电子工程学院https://cvlab.yonsei.ac.kr/projects/LbA摘要我们解决的问题,可见光红外人重新识别(VI-reID),即,检索一组人的图像,由可见光或红外摄像机,在交叉模态设置。VI-reID中的两个主要挑战是跨人图像的类内变化,以及可见光和红外图像之间的跨模态假设人图像被粗略地对准,先前的方法尝试学习在不同模态上是有区别的和可概括的粗略的图像或刚性的部分级人表示然而,通常由现成的对象检测器裁剪的人物图像不一定是良好对准的,这分散了辨别性人物表示学习。在本文中,我们介绍了一种新的特征学习框架,以统一的方式解决这些问题。为此,我们建议利用密集的对应关系之间的跨模态的人的形象,年龄。这允许解决像素级中的跨模态差异,更有效地抑制来自人表示的模态相关特征这也鼓励跨模态局部特征之间的逐像素关联,进一步促进VI-reID的判别特征学习广泛的实验和分析标准VI-reID基准测试表明,我们的方法的有效性,显着优于最先进的。1. 介绍人重新识别(reID)旨在检索跨多个相机捕获的具有与查询人相同的身份的人图像。它提供了广泛的应用,包括监视,安全和行人分析,并在过去十年中获得了很多关注[40,47]。大多数reID方法将任务表述为单模态检索问题,并专注于寻找匹配,例如RGB图像之间。可见光相机不能捕捉人的外观,特别是*同等贡献。†通讯作者。图1:SYSU-MM 01数据集[36]中RGB和IR图像之间密集交叉模态对应关系的示例。仅出于可视化目的,我们根据在没有(左)和(右)我们的方法学习的本地人表示之间的相似性来显示前20个匹配。我们的人表示是强大的跨模态差异,同时是高度区分,特别是对人的区域。(Best以颜色查看)。对于人来说重要是,在弱照明条件下(例如,在夜间或黑暗的室内)。另一方面,红外(IR)相机工作良好,无论可见光如何,捕获整体场景布局,同时不拍摄场景细节,诸如纹理和颜色。因此,可见IR个人重新识别(VI-reID),即检索与RGB查询相同身份的IR个人图像,反之亦然,最近引起了极大的兴趣 [36]。VI-reID是非常具有挑战性的,由于类内的变化(例如:视点、姿态、照明和背景杂波),噪声样本(例如,未对准和遮挡),以及RGB和IR图像之间的交叉模态差异。RGB/IR图像的视觉属性和统计数据彼此显著不同[36]。基于卷积神经网络(CNN)的VI-reID方法使用跨模态度量损失[7,37,41]以及模态匹配[4]来消除差异,以学习对跨模态差异鲁棒的人表示,并进一步使用自我注意[39]或解纠缠技术[3]来细化表示。这些方法专注于学习粗略的图像级或刚性部分级表示,假设人物图像是粗略对齐的。12047然而,来自RGB和IR图像的未对准特征对处理交叉模态差异具有不利影响,分散了学习人员表示。在本文中,我们建议在VI- reID的训练过程中利用交叉模态图像之间的为此,我们鼓励RGB图像的人表示从IR图像重建那些相同的身份,其经常由于视点和姿势变化而描绘不同的外观,反之亦然。我们实现这一点,通过建立密集的交叉模式之间的RGB和IR的人的图像在一个概率的方式correspondons。我们采用无参数的人面具,专注于重建的人的区域,而丢弃其他包括背景或闭塞的地区。我们还使用像素级关联引入了新的ID一致性和密集的三重损失,使网络能够学习更多有区别的人表示。密集的跨模态对应关系显式地对齐来自RGB和IR图像的像素级人物表示,这有利于VI-reID的人物表示学习,这主要有两个原因。首先,通过强制RGB和IR图像中语义相似的区域嵌入到附近,我们鼓励网络提取对输入模态不变的特征,即使是从未对齐的RGB和IR图像中。其次,通过鼓励局部关联,我们强制网络专注于提取判别性像素局部特征,这进一步促进了人表示学习。因此,使用我们的框架训练的网络能够提供对跨模态差异具有鲁棒性和高度区分性的局部特征(图13)。1),其被聚合以形成VI-reID的最终人物表示,而在测试时没有任何附加参数。实验结果和广泛的分析标准VI-reID基准测试表明,我们的方法的有效性和效率本文的主要贡献可概括如下:• 我们提出了一种新的特征学习框架,使用密集的跨模态对应关系,有效地消除了多模态图像之间的差异,同时进一步提高了人的表征的区分能力。• 我们引入ID一致性和密集的三元组损失来训练我们的网络端到端,这有助于使用跨模态对应来提取• 我们在标准VI- reID基准上实现了最新的技术水平,并通过消融研究的广泛实验证明了我们方法的有效性和效率。2. 相关工作在本节中,我们简要介绍与我们相关的代表性作品,包括person reID,VI-reID,cross-modal图像检索和密集对应。里德人员reID方法通常处理单模态情况,即RGB到RGB匹配。他们将reID任务表示为多类分类问题[49],其中相同身份的人物图像属于同一类别。三元组损失被进一步利用,以鼓励从相同身份获得的人表示被嵌入附近,而来自不同身份的人表示在特征空间中被远离[12]。最近的方法专注于提取对类内变化鲁棒的人表示,利用属性来提供补充信息[19],解开身份相关特征[9,48],或结合注意力技术来查看区分区域[18,46]。许多reID方法利用基于部件的表示[8,32,33],这进一步增强了人特征的区分能力。具体地说,他们将人的图像分成多个水平网格,隐含地利用人体部位。来自水平部分的局部特征比全局特征对类内变化(特别是对于遮挡)更鲁棒然而,当来自对应水平网格的身体部分未对准时,这相当分散学习人表示。[15,23,45,52]的工作提出通过采用辅助姿态估计器[23,45]或人类语义解析技术[15,52]来对齐人物图像之间的语义相关区域。虽然这些辅助分支提供可靠的估计以指导比对,但它们具有两个主要缺点:首先,它们通常在训练期间需要额外的数据集。其次,在测试时需要辅助预测,使得整个流水线的计算量很大。另一方面,我们仅在训练期间通过利用密集的对应关系来执行对齐,除了ID标签之外没有额外的监督信号,同时在测试时实现高效的流水线VI-reID。 根据RGB-IR相机的广泛传播,最近已经探索了与单模态reID相比的VI-reID。VI-reID方法专注于处理RGB和IR图像之间的跨模式差异,同时学习区分性的人表示。早期的作品试图学习可在不同模态中推广的区分特征。它们采用分类和/或三重损失,广泛用于单模态reID方法[36,40],然而,这并没有明确地减轻跨模态差异。为了解决这个问题,最近的方法使用交叉模态三重丢失,其中正/负对和锚点从具有不同模态的每个图像中采样[7,37,41]。例如,RGB图像被用作锚点,而IR图像被用作正/负样本。这些方法增强了从具有相同身份但具有不同模态的人的图像中获得的特征的相似性。12048LLLL LLILAR,提供对跨模态差异鲁棒的人表示。最近,DDAG [39]提出利用图形注意力网络,以便明确地考虑RGB和IR图像之间的交叉模态关系。基于生成对抗网络(GAN)的VI-reID方法减轻了图像级别中的跨模态差异例如,他们合成新的IR人物图像,具有身份保留约束[34]或周期一致性[35],给定RGB输入,以便比较具有相同模态的人物图像利用对抗学习技术进行VI-reID的其他方法是将身份相关特征与人物代表分离[3],或者利用模态匹配来更好地对齐RGB/IR图像的特征分布[4]。尽管GAN更好地捕获了每个reID的判别因素,但它们需要大量参数和启发式来训练网络[28]。与当前的VI-reID方法相比为此,我们通过密集的交叉模态对应关系明确地对齐语义相关区域,这也允许区分特征学习,甚至从未对齐的个人图像。跨模式图像检索。VI-reID与交叉模态图像检索密切相关,交叉模态图像检索关注于在不同模态的图像之间找到匹配,例如,草图/自然图像[27,29]和RGB/IR图像[1,20]。现有的工作通常采用连体网络[42]来学习输入图像对之间的度量函数[1,29],或者将特征表示分解为模态共享和特定嵌入[20,27]。他们试图减轻图像水平上的多模态图像之间的跨模态差异相反,我们通过利用密集的对应来解决像素级的差异。书信往来。在许多计算机视觉任务中,建立图像之间的对应关系一直非常重要,包括深度预测[13,43],光流[2,6],3D场景重建[16,51]和着色[11,44]。在person reID的上下文中,[31]的工作利用密集对应来学习用于单模态person reID的度量函数。然而,即使在测试时,也需要学习到的metric函数,这需要大量的计算能力和内存。相比之下,我们利用对应关系作为显式正则化器来仅在训练期间指导特征学习,从而在测试时实现人员表示之间的简单余弦距离计算。3. 方法我们在本节中描述了我们的VI-reID框架的概述(第12节)。3.1),并提出了网络架构的详细描述(第3.1节)。3.2)和训练损失(第3.3)。图2:VI-reID框架概述。我们使用双流CNN提取RGB和IR特征,分别表示为fRGB和fIR。CMAlign模块计算交叉模态特征相似性和这些特征之间的匹配概率,并且使用软扭曲将交叉模态特征相对于彼此对齐,连同无参数的人物掩码一起以在背景区域之间进行模糊匹配。 我们前-利用原始RGB和IR功能以及对齐的RGB和IR功能并将其纳入我们的目标由ID(ID)、ID一致性(IC)和密集三元组(DT)项组成的函数。在测试时,我们计算的余弦距离之间的人的表示,池RGB和IR的功能。详情见正文3.1. 概述我们在图中显示。2我们的VI-reID框架概述。我们首先从相应的人的图像中提取RGB和IR特征,然后将特征与CMAlign模块对齐。它在RGB和IR特征之间建立密集的交叉模态对应关系,并使用相应的匹配概率将这些特征相互扭曲。请注意,我们仅在训练时利用CMAlign模块,从而在测试时实现有效的推理。为了训练我们的框架,我们使用了三个术语:ID(ID)、ID一致性(IC)和密集三重(DT)损失。ID丢失分别适用于RGB或IR图像的每个特征,类似于单模态reID[12]。它要求同一身份的人物形象具有相同的特征,而不同身份的人物形象具有不同的特征。ID一致性和密集三元组项利用匹配概率,并鼓励来自相同身份的RGB和IR特征在像素级中彼此重构,而来自不同身份的RGB和IR特征则不会。因此,使用这些项获得的人表示对于RGB和IR图像之间的交叉模态差异是鲁棒的。注意,我们仅使用标识标签来训练我们的模型,而不利用辅助监督信号,例如,身体训练时间测试时池化ID池化RGB特征图像提取器f)*+Dtf#)*+CMAlign掩模红外辐射特性图像提取器fI)Dtf#I)池化ID池化跨模态特征相似度匹配概率软变形12049× ×W∈∈Σ∈∈∥· ∥× ××[15]或[23]。还要注意的是,我们模型中的所有组件都是完全可区分的,因此可以端到端地训练整个网络。3.2. 网络架构特征提取器。我们使用双流CNN从一对RGB/IR人物图像中提取大小为h w d的特征图,其中h,w和d分别是通道的高度,宽度和假设RGB/IR图像之间的交叉模态差异主要在于低-仅区域,通常对应于人,通过软翘曲,如下:(3)(1)MRGB(p)W(fIR(p))+(1−MRGB(p))fRGB(p),其中我们表示为Rh×w×d和MRGBRh×w分别是通过IR到RGB对齐和人掩模重建的RGB特征。我们用软扭曲算子来表示,该算子使用匹配函数来聚合特征概率,定义如下:水平特征[36,40],我们使用特定于浅层输入模态的单独参数,同时为其他人共享W(fIR(p))=P(p,q)fIRQ(q)。(四)CMAlign. CMAlign模块双向对准RGB和IR特征,即,从RGB到IR和从IR到RGB,以一种可能的方式使用密集的交叉模态对应。在下文中,我们描述IR到RGB对准。其他情况可以类似地执行。对于IR到RGB对齐,我们计算所有RGB和IR特征对之间的局部相似性。具体来说,我们计算RGB和IR特征之间的余弦相似性,表示为fRGBRh×w×d和fIRRh×w×d,分别如下:人物面具确保特征fRGB,forper-子区域通过以概率方式聚合IR特征来重建,而其他区域来自原始RGB特征fRG B。这种重建连同ID一致性和密集的三重损失鼓励我们的模型提供类似的人表示,无论图像形式,为相应的区域。为了推断没有地面实况标签的掩模,我们假设用用于reID任务的ID标签学习的特征在人区域上比其他部分高度激活,并且基于局部特征向量的L2范数计算激活图对于RGB特征,由gRGB∈Rh×w表示,如下所示:fRGB(p)fIR(q)C(p,q)=、(1)gRG B(p)=fRG B(p)2。(五)fRGB(p)利用RGB特征的激活图,gRGB,手头,其中2计算向量的L2范数。我们分别用fRG B(p)和fIR(q)表示位置p和q处的大小为d的RGB和IR特征。 基于相似性,我们使用softmax函数计算RGB到IR的匹配概率,如下所示:exp(βC(p,q))我们如下定义RGB特征的人物遮罩MRGB=f(gRGB),(6)其中f执行最小-最大归一化:f(x)= x − min(x)。(七)max(x)−min(x)P(p,q)=Σq′exp(βC(p,q′))、(二)CMAlign是一个非参数模块,可直接对从要素中获得的要素进行其中,我们用P表示匹配概率,大小为h的4D张量WHw,并且β是温度参数。注意,通过将argmax运算符应用于每个RGB特征的匹配概率,我们可以明确地建立从RGB到IR图像的密集对应,即,argmaxqP(p,q).这为语义相似的区域提供了可靠的交叉模态对应,但是使用硬对应来对齐IR和RGB特征是有问题的。对应性容易被背景杂乱和图像特定细节(例如,纹理和遮挡),并且RGB和IR图像之间的外观而且,我们不能在不同的背景区域之间建立对应关系,从用不同周围环境捕获的人物图像中为了缓解这些问题,我们转而利用匹配概率,并在前景之间对齐IR和RGB特征提取器,通过在VI-reID中提供以下优点来促进学习鲁棒的人物表示:首先,交叉模态对齐有助于缓解像素级RGB和IR图像之间的差异,允许更有效地抑制来自人物表示的模态相关特征,即使是未对齐的人物图像;其次,密集对齐允许我们的网络专注于学习局部特征,特别是对于人物区域,进一步增强人物表示的辨别能力。请注意,在我们的框架中,一对RGB和IR图像不必具有相同的身份,从而能够利用正和负对进行训练。3.3. 损失我们利用人物图像的地面真实ID标签来训练我们的12050模型,其总体目标函数如下:12051L∈∈LL LLWWLL=LID+λICLIC+λDTLDT,(8)其中ID、IC和DT分别是ID、ID一致性和密集三重丢失。 λIC和λDT是平衡相应项的超参数。在下文中,我们对损失中的每一个术语作了详细说明。ID丢失(ID)。作为ID损失,我们采用了使用图像级个人表示的分类和硬三元组损失的总和[12],这表明了在单模态人reID中学习区分性人特征的有效性。We表示为(fRGB)Rd和(fI R)分别针对RGB和IR特征的Rd图像级人物表示,其通过对每个特征应用GeM池化操作[26]而获得。为了计算分类项,我们将每个图像级特征(f(fRGB)和f(fIR))馈送到同一分类器中以预测类别概率,即,作为图像级特征的特定身份的可能性,其中分类器由批量归一化层[14]组成,然后是具有softmax激活的全连接层[22]。然后,我们计算类概率和地面真实身份之间的交叉熵。硬三元组项还使用从锚定、正和负图像获得的图像级人物表示来计算,其中锚定和正图像共享相同的ID标签,而其他对不共享。注意,ID损失没有明确地解决RGB和IR图像之间的交叉模态差异。ID一致性丢失(IC)。我们设计了一个术语来考虑图像级中RGB和IR特征之间的交叉模态差异。假设我们有一个具有相同恒等式但具有不同模态的正对,即,RGB和IR图像具有相同的特性。的用人工神经网络重构了人的区域的RGB特征这表明重建的身份应该与原始特征的真实身份相同。更具体地说,(fRGB)和(fIR)的图像级别表示应该具有与对应的正片相同的ID标签不同模态的对应物,分别为fIR和fRG B。为了实现这个想法,我们使用图像级表示将ID一致性损失定义为交叉熵,类似于ID损失中的分类项我们反而e利用重构特征,(fRG B)和(fI R)。注意我们使用的分类器和身份丢失的分类器一样的ID一致性损失强制来自相同身份但具有不同模态的人物图像的ID预测是一致的,从而允许抑制来自人物表示的模态相关特征。此外,重建,图3:IR和RGB图像的人物遮罩的可视化,MIR(左)和MRGB(右),以及相应的共同注意力图,AIR(中)。我们将掩模和注意力图覆盖在来自SYSU-MM 01的相应图像上[36]。我们可以看到IR图像描绘了具有完全可见的身体部分的人,而RGB图像中相同身份的人被部分遮挡(下半身)。共同注意力图突出显示在两个图像中相互可见的图像区域,并通过软扭曲使用密集的交叉模态对准来抑制其他图像区域(最好是彩色的)。一致性项明显地减轻了跨模态的差异。然而,它们专注于学习图像级的个人表示,这禁止了有区别的特征学习,特别是当个人图像被遮挡或未对齐时。为了解决这个问题,我们引入了一个密集的三重态损失。它使用不同模态的特征局部地比较原始特征和重构特征,鼓励最终图像级的人表示是有区别的,同时减轻像素级的跨模态离散。一种直接的方法是计算局部特征之间的L2距离,然而,这是次优的,因为这没有考虑遮挡区域。当一对人物图像中的每个人物图像描绘不相关的人体部分时,这尤其成问题。在这种情况下,在整个人区域之间实施局部对准为了规避这个问题,我们纳入了一个共同的注意力地图,突出显示在RGB和IR图像中可见的人的区域。这仅考虑相互可见的前景区域内的要素对齐来计算致密三重态损失。我们定义了一个共同注意力映射,表示为RGB图像的ARGB∈Rh×wARGB(p)=MRGB(p)W(MIR(p))。(九)对于(M_IR(p)),在这种情况下,我们计算f_R_GB和f_IR 之间的匹配概率P,类似于⑷,而人物掩码被用于软扭曲。即,共同注意力图ARGB是(样本来训练分类器,进一步指导区分。RGB人物面具MRGB(p)和扭曲的IR,本地人表征学习。致密三重态损失(DT)。 身份证的丢失有助于学习-识别人的表征,和ID con-(MIR(p))。我们计算一个共-注意力地图的红外图像类似,并显示在图。3一个共同注意力地图的例子。请注意,我们定义了相同身份的12052RGBIRIRRGBIR×我DT我我我+我我我·我·只.还要注意,我们对所获得的共同注意力图执行最小-最大归一化f,为了符号简洁,我们省略了该共同注意力图为了便于使用密集三元组项进行训练,我们对锚、正和负图像的三元组进行采样,其中锚和其他两个图像具有不同的模态,用于锚的RGB图像,以及用于一对正样本和负样本的IR图像。我们使用上标a、p和n来表示来自anchor、pos-正像和负像。 比如我们分别从RGB图像和来自IR图像的RGB图像,并报告使用不同训练/测试分割的10次试验的平均结果2)SYSU-MM 01 [36]是VI-reID的大规模数据集,包括分别由四个可见光和两个近红外传感器获得的RGB和IR图像。具体地说,它包含22,258个可见光和11,909个近红外图像,具有395个身份用于训练。测试集包含96个身份,其中查询集包含3,803个近红外图像,图库集包含301个可见光图像。我们采用[36]中的评估协议,其中使用用fp表示使用一个-所有搜索和室内搜索模式进行测试,其中卓法阿RGBfp的恒等式为前者和后者的画廊集包含图像帽-RGB和正对IR锚定件F. 类似地,是使用锚fa和具有与锚fa不同的身份的负对 fn的重建的IR特征。 有了共同注意力图,我们将密集三重态损失定义如下:L为ΣΣA(p)[d+(p)−d−(p)+α],(10)i∈{RGB,IR}p分别由所有四个和两个室内可见摄像机拍摄。请注意,我们所有的结果都是通过对4次训练和测试运行取平均值获得的。训练根据之前的VI-reID方法[3,21,39],我们采用ResNet 50 [10],针对ImageNet类进行训练[5]作为我们的骨干网络。用于可见光和红外图像的主干网共享参数,其中,α是预定义的矩阵,并且运算[]+指示max(0,1)。d+(p)和d-(p)分别计算锚特征与来自正图像和负图像的重构特征之间的局部距离d+(p)=fa(p)−fp(p)2,d−(p)=fa(p)−fn(p)2。除了拍摄不同模态的图像的第一剩余块之外,最后卷积块的步长我们调整每个人的图像的大小为288 - 144,并应用水平翻转的数据增强。我们将一个人表示的大小d设置为2,048。 为一个小批量,我们从每个随机选择8个身份我我我我我(十一)模态,并为每个身份采样4个人物图像。我们请注意,重建,fp和fn,是集合ga-分别来自正图像和负图像的锚点F的相似特征的选择因此我们可以解释,我们的损失迫使来自负的相似特征的聚合相反的图像在嵌入空间中是遥远的,相比于其正对应的边缘。这类似于典型的三重丢失[12,30],但我们以柔和的方式惩罚锚点和正图像中可见的所有局部特征的不正确距离。注意,由于以概率方式执行RGB和IR人物图像之间的密集交叉模态对准的CMAlign模块,这种局部关联是可能的。4. 实验在本节中,我们对我们的方法进行了详细的分析和评估,包括对不同损耗和网络架构的消融研究。4.1. 实现细节数据集。我们使用两个基准进行评估:1)RegDB数据集[24]包含412个人,其中每个人具有由双相机系统收集的10个可见光图像和10个远红外图像。按照[24]中的实验方案,我们将数据集随机分为训练和测试部分,每个部分包括不重叠的206个标识。我们测试我们的模型在可见光到红外和红外到可见光设置,这对应于检索红外图像训练我们的模型80个时期,批处理大小为64,使用SGD优化器,动量为0.9,权重衰减为5e-4。我们使用预热策略[22],逐渐将主干和网络其他部分的学习率分别提高到1 e-2和1 e-1,然后在第20和50个时期衰减10倍。我们使用网格搜索来设置超参数:λIC=1,λDT=0。5,α=0。3,β=50。请注意,我们仅在训练期间使用BNN技巧[22],在测试时使用ResNet50 [10],而无需任何额外参数。我们使用PyTorch[25]实现我们的模型,并使用Geforce RTX 2080 Ti GPU对RegDB[24]和SYSU-MM 01 [36]进行端到端训练,分别4.2. 结果与最新技术水平的比较。我们在表1中呈现了我们的方法与VI-reID的现有技术的定量比较[3、4、17、21、34、35、36、37、38、39]。我们报告平均精度(mAP)(%)和秩-RegDB [24]和SYSU-MM 01 [36]上单次激发设置的1精度(%)。从表中,我们可以看到我们的模型为VI-reID设置了一个新的最新技术水平,除了SYSU-MM 01 [36]上的室内搜索模式,其中DDAG [39]显示了更好的结果。然而,这种方法需要额外的参数,而不是ResNet50 [10]主干,用于在测试时自关注的特征细化12053LL表1:与VI-reID的现有技术的定量比较我们在RegDB [24]和SYSU-MM 01 [36]数据集上测量mAP(%)和rank-1准确度(%),并报告4次训练和测试运行的平均值和标准差。粗体数字表示最佳性能,下划线数字表示次佳性能。[36]第二十六话:方法可见光转红外线红外线转可见光全搜索室内搜索地图秩-1地图秩-1地图秩-1地图秩-1单流[36]14.0213.11--13.6712.0422.9516.94双流[36]13.4212.43--12.8511.6521.4915.60[36]第三十六话18.9017.7517.8216.6315.9514.8026.9220.58[37]14.9216.87--14.4212.5226.3820.82HCML [37]20.0824.4422.2421.7016.1614.3230.0824.52cmGAN [4]----31.4926.9742.1931.63BDTR [38]32.7633.5631.9632.9227.3227.3241.8631.92D2 RL[35]44.1043.40--29.2028.90--AlignGAN [34]53.6057.9053.4056.3040.7042.4054.3045.90Xmodal [17]60.1862.2161.8068.0650.7349.92--Hi-CMD [3]66.0470.93--35.9434.94--cm-SSFT [21]63.0062.20--52.1052.40--DDAG [39]63.4669.3461.8068.0653.0254.7567.9861.02我们的67.64±0.0874.17± 0.0465.46± 0.1872.43± 0.4254.14± 0.3355.41± 0.1866.33± 1.2758.46± 0.67表2:提取最终人物表示的平均运行时间与测试时所需参数数量的比较。表3:我们的模型在SYSU-MM 01数据集上的变体的定量比较[36](全搜索模式)。型号尺寸(M)mm(ms)方法RGBIRRGBIRAlignGAN [34]30.7124.667.573.32Hi-CMD [3]52.6352.634.434.43DDAG [39]40.3240.322.032.03我们23.5223.521.901.90时间,而在其他基准上被我们的超越。我们还可以看到 , 我 们 的 模 型 在 两 个 数 据 集 上 都 获 得 了 比 cm-SSFT1[21请注意,cm-SSFT [21]使用多个RGB和IR图像来提取人物表示,即使在测试时也是如此。也就是说,它利用不同模态的附加图像,多个IR图像以从RGB输入提取特征因此,cm-SSFT [21]在计算上是昂贵的,并且需要大量的存储器。总的来说,在标准基准测试上的实验结果表明,我们的方法提供了对跨RGB和IR图像的跨模态差异和类内变化鲁棒的人表示。定性比较以及10级准确度(%)见补充材料。参数和运行时分析。我们在表2中比较了提取最终人物表示的平均运行时间。为了公平的比较,我们测量了50次执行的平均运行时间,对于大小为288×144在同一台机器上与Geforce RTX 20801对于cm-SSFT [21],我们在表1中报告了在不使用随机擦除技术[50]和BNN技巧[22]的情况下获得的结果,与我们的相似,用于公平比较。结果取自[21]的表4。Ti GPU。表2还比较了测试时所需的网络参数数量。我们的方法是最快的最先进的状态,并使用最少的参数,因为它不使用任何额外的参数,除了骨干网络,在测试时。相反,其他方法利用附加的层或网络。4.3. 讨论消融研究。我们在表3中示出了对训练损失和CMAlign模块的消融分析。我们使用损失项、IC和DT以及共同注意力图A的不同组合来训练我们的模型的变体,同时将CMAlign模块添加到骨干网络的不同层。我们比较了在全搜索模式下SYSU-MM 01 [36]的mAP和秩1准确度对于第一行中的基线模型,我们排除了CMAlign模块,并单独使用ID损失对其进行训练。总的来说,我们 可 以 看 到 基 线 显 示 出 最 差 的 性 能 , 表 明 结 合CMAlign模块对VI-reID是有益例如,利用具有ID一致性项(第二LICL DTA层地图秩-1✗ ✗--49.5450.43✓-四、五52.8854.44✗ ✓ ✗四、五50.0850.38✗ ✓ ✓四、五51.2351.06✓ ✓ ✗四、五52.7853.4412054LL LL行)或与共同注意力图(第四行)耦合的密集三元组项显著提高了性能。这是因为ID一致性项主要解决图像级中的跨模态差异,并且密集三元组项在像素级中处理它们,同时进一步增强人表示的辨别能力从第二行、第四行和最后一行,我们可以观察到使用所有损失和共同注意力图给出了最佳结果,表明它们是互补的。请注意,共同注意力映射对于密集三元组项尤其重要,如第五行和最后一行所示。计算分心区域上的损失(例如,遮挡和背景杂波)可能妨碍学习区别性表示。我们还在最后三行中比较了涉及骨干网络的不同层中的CMAlign模块的模型,其中模块被添加到ResNet 50的conv 4 -6和/或conv 5 -3之上[10]。我们可以看到,将模块添加到conv 4 -6和conv 5-3中会得到最好的结果,因为这允许考虑多个级别的功能中的跨模态差异。密集对应的可视化。我们在图中显示。SYSU-MM 01上RGB和IR图像之间的交叉模态对应关系的4个示例[36]。我们可以看到,在同一身份的人之间建立了很好的匹配具体地说,我们的模型提供了对尺度变化鲁棒的局部特征(图1)。4(a))和occlusions(图第四条(b)款)。这意味着我们的模型能够提取具有丰富语义的有区别的人表示,这对于人reID任务是重要的,同时减轻跨模态差异。特别地,我们的模型提供了对视点变化鲁棒的局部特征(图13)。4(c)),其中一个人的运动衫或裤子通常与其配对,无论正面或侧面视图。这表明我们的网络提供了对视点变化鲁棒的本地人特征,这对于VI-reID特别有用reID的对应的这一方面与典型的对应任务相反,立体匹配和光流估计,这有利于视点特定匹配。我们还提供了在图。5不同损失配置对应关系的视觉比较我们的模型仅使用ID损失训练,无法在交叉模态图像之间建立可靠的匹配,并且容易被背景杂波分散注意力(图2)。5(a)),主要是由于跨模态差异和局部特征表示中缺乏区分能力,特别是对于人区域。ID一致性损失处理跨模态差异,建立来自不同模态的本地人表示之间的对应关系(图1B)。第5(b)段)。密集的三元组损失进一步鼓励每个局部特征是有区别的,这反过来提供了集中于人的再识别的匹配结果(a) 比例变化(b)遮挡(c)视点变化图4:SYSU-MM 01上RGB和IR图像之间对应关系的可视化[36]。我们通过匹配概率显示了前20个匹配。我们的本地人表示对于尺度变化(a)、遮挡(b)和视点变化(c)是鲁棒的(Best以颜色查看)。(a) LID(b)LID+LIC(c)LID+LIC+LDT图5:不同损失配置对应关系的直观比较:(一)ID;(b)ID+IC;(c)ID+IC+DT。我们在(b-c)中的模型利用CMAlign模块。ID一致性和密集的三元组项有助于减轻RGB和IR图像之间的交叉模态差异,同时进一步增强人特征的辨别能力。(最佳观看时间:color.)离子(图5(c))。通过利用密集的跨模态对应来训练的特征更具鉴别力,建立了专注于人区域的匹配,同时对跨模态差异具有鲁棒性更多的例子可以在补充材料中找到。5. 结论我们已经引入了用于VI-reID的新颖特征学习框架,其利用跨模态人物图像之间的密集对应关系,允许学习对跨RGB和IR人物图像的类内变化和跨模态差异鲁棒的人物表示我们还提出了利用像素级关联的ID一致性和密集三元组损失,使我们的模型能够学习更多有区别的人表示。我们在标准基准测试上设定了一个新的最先进的状态,显著优于其他VI-reID方法。大量的实验结果清楚地证明了我们的方法的有效性。鸣谢。本研究部分得到&了韩国科学与信息通信技术部资助的韩国国家研究基金会(NRF)的高级集成智能识别(AIID)研发计划(NRF 2018 M3 E3 A1057289),韩国政府资助的信息和通信技术促进研究所(IITP)的支持(MSIP)根据2016-0-00197号补助金和2021年延世大学研究基金(2021-22-0001)。12055引用[1] Cristhian A Aguilera 、 Francisco J Aguilera 、 Angel DSappa、Cristhian Aguilera和Ricardo Toledo。使用深度卷积神经网络学习交叉谱相似性度量。2016年CVPR研讨会。3[2] 托马斯·布洛克斯和吉坦德拉·马利克 大位移光学元件cal flow : Descriptor matching in variational motionestimation. IEEE TPAMI,2010。3[3] Seokeon Choi,Sumin Lee,Youngeun Kim,TaekyungKim,和金昌吉Hi-CMD:用于可见-红外人员重新识别的分层交叉模态解缠。在CVPR,2020年。一、三、六、七[4] Pingyang Dai,Rongrong Ji,Haibin Wang,Qiong Wu,and Yuyu Huang.跨模态的人重新识别与生成对抗训练。在IJCAI,2018。一、三、六、七[5] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,还有李飞飞ImageNet:一个大规模的分层图像数据库。CVPR,2009。6[6] Alexey 多索维茨基 Philipp 菲舍尔, 涡 Ilg,PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。FlowNet:使用卷积网络学习光流在ICCV,2015年。3[7] Zhanxiang Feng,Jianhuang Lai,and Xiaohua Xie. 学习用于可见-红外人重新识别的特定模态表示。IEEETIP,2019年。一、二[8] 杨福,魏云超,周玉倩,石红辉,高Huang , Xinchao Wang , Zhiqiang Yao , and ThomasHuang.用于人员重新识别的水平金字塔匹配在AAAI,2019年。2[9] Yixiao Ge , Zhuowan Li ,Haiyu Zhao , Guojun Yin ,Shuai Yi,Xiaogang Wang,et al. FD-GAN:用于稳健的人重新识别的姿势引导特征提取GAN。NeurIPS,2018。2[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。六、八[11] Mingming He,Dongdong Chen,Jing Liao,Pedro VSander,还有陆远。基于深度样本的着色。ACM TOG,2018年。3[12] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。在德-三重丢失的防护,用于人员重新鉴定。arXiv预印本arXiv:1703.07737,2017。二三五六[13] Asmaa Hosni,Christoph Rhemann,Michael Bleyer,CarstenRother和Margrit Gelautz。快速的成本-体积过滤,用于视觉对应和超越。IEEE TPAMI,2012年。3[14] Sergey Ioffe和Christian Szegedy。 批次标准化:通过减少内部协变量偏移来加速深度网络训练。ICML,2015。5[15] MahdiMKalayeh,EmrahBasaran,MuhittinGokmen,Mustafa E Kamasak和Mubarak Shah。用于人员重新识别的人类语义解析。在CVPR,2018年。 二、四[16] Angjoo Kanazawa、David W Jacobs和Manmohan Chan-德雷克。WarpNet:用于单视图重建的弱监督匹配。在CVPR,2016年。3[17] Dianga
下载后可阅读完整内容,剩余1页未读,立即下载


















安全验证
文档复制为VIP权益,开通VIP直接复制
