没有合适的资源?快使用搜索试试~ 我知道了~
自我批判注意力学习在人的重新识别中的应用
9637自我批判注意力学习对人的再识别陈光毅1,2,3,林春泽1,2,3,任亮亮1,2,3,陆继文1,2,3,刘伟,周杰1,2,31清华大学自动化系2智能技术与系统国家重点实验室3北京国家信息科学技术研究中心{chen-gy16,lcz16,renll16}@ mails.tsinghua.edu.cn;{lujiwen,jzhou}@tsinghua.edu.cn摘要在本文中,我们提出了一个自我批判的注意学习方法的人重新识别。与大多数以弱监督方式训练注意力机制并忽略注意力置信水平的实验方法不同,我们用一个衡量注意力质量的评论家来学习注意力,并提供一个强大的监督信号来指导学习过程。此外,评论家模型通过估计注意力地图的质量,促进了对学习过程中注意力机制的有效性的解释。具体来说,我们以强化学习的方式联合训练我们的注意力代理和评论家,其中代理产生视觉注意力,而评论家分析来自注意力的收益并指导代理最大化此收益。我们设计了空间和通道方面的注意力模型与我们的评论家模块,并评估他们在三个流行的基准,包括市场1501,DukeMTMC-ReID,和CUHK 03。实验结果表明,该方法的优越性,它优于国家的最先进的方法,由一个很大的利润率为5。9%/2。1%,6. 百分之三0%,10。5%/9。mAP/Rank-1分别为5%1. 介绍人员重新识别(ReID)旨在识别在不同位置部署的多个非重叠摄像机视图中的个人,考虑大量的可能性。它在各种视频监控应用中发挥着重要作用,如嫌疑人跟踪和失踪老人或儿童检索,并在过去几年中引起了广泛关注[20,46,53,38,39,19]。尽管最近取得了进展,ReID仍然是一个具有挑战性的问题,因为视觉特征难以与光照变化,姿势变化,遮挡和杂乱的背景相匹配。近日,几起备受关注的--*通讯作者关注CNN模型图像CNN...损失特征关注值评论家:注意力是否导致正确的分类?注意是否改善表征?...从临界点渐变损失预测前向梯度图1.自我批判性注意力学习的启示。卷积注意学习是由损失函数中的弱监督信号引导的。然而,这种学习方式并不总是相应地,我们的SCAL方法利用评论模块来评估注意力模型的质量,并通过预测的评论值提供强有力的监督信息已经提出了基于ReID的深度学习模型来解决这些问题[48,19,41]。通过引入注意机制,该模型学习关注行人的可区分特征,减少不同变化和背景干扰的负面影响。然而,注意力机制通常以弱监督的方式训练,而没有强有力的监督信号来在训练过程期间引导注意力模块。如图1所示,来自该弱监控信号的梯度可能在反向传播过程中消失[15]。以这种方式学习的注意力地图在其含义上并不总是“透明的”,并且缺乏辨别能力和鲁棒性。如果没有直接和适当的监督信号,冗余和误导性的注意力地图很难得到纠正。此外,训练过程中的注意力质量只能由人类最终用户进行定性评估,逐个检查注意力地图,这是劳动密集型和低效的。为了克服上述问题,在本文中,我们提出了一个自我批判的注意学习(SCAL)方法的人ReID。我们同时训练了一个注意力代理和一个批判模块来提供自我批评和自我纠正的能力。9638注意力模型的可行性。具体来说,注意力代理产生视觉注意力图,将模型集中在区分特征上。评论家模块检查注意力并测量性能的增益。基于它的观察,评论家提供了一个直接的监督信号的注意力代理,以最大限度地提高收益。我们在图1中展示了自我批判注意力学习的流程图。当注意力被错误地分配时,批评者向注意力代理提供反馈,使得它可以找出错误并自适应,这使得弱监督方式的“消失”梯度和“透明”学习成为可能。在强大的监督之外,批评者的输出允许量化注意力的质量,这极大地促进了注意力学习过程的解释。为了训练我们的打击力- IC模块,我们利用几个直观的评估标准,如注意力对最终分类结果的影响以及与没有注意力的原始特征相比的相对增益。由于这些标准通常是不可微的,传统的反向传播几乎不能直接用于学习。这促使我们在强化学习框架中制定自我批判注意力学习过程,其中状态是输入的人的形象,动作是产生的注意力。在该框架中,评论家接收状态和动作以评估注意力的质量,并且通过最小化预测评论家值和实际评估标准之间的差异来优化。使用我们的自我批判学习过程来训练空间和通道方面的注意力模型,在三个流行的基准测试中,包括Market-1501,DukeMTMC-ReID和CUHK 03,其表现大大优于其他最先进的方法。2. 相关工作人员重新识别:Person ReID系统大致由两个主要部分组成:表示学习和度量学习。一些传统的方法主要采用手工制作的特征,例如颜色和纹理直方图。Liao等人[20]提出了一种局部最大发生(LOMO)方法,通过最大化局部特征的水平发生来处理视点变化。Matsukawa等人[27]提出了一种分层的高斯特征,它通过多个高斯分布对每个区域的颜色和纹理线索 进 行 建 模 。 度 量 学 习 也 被 广 泛 应 用 于 人 的ReID.LMNN [45]试图确保每个人的邻居总是属于同一个类,而来自不同类的例子被很大的幅度分开。为了学习人的非线性关系,提出了基于核的度量学习方法[47,21]。最近,基于深度学习的人ReID方法通过在一个网络中同时学习人的表示和相似性,取得了巨大的成功[18,1,33,23,39]一些方法[51,46]通常通过训练深度分类网络来学习表示特征。此外,一些作品采用深度度量学习方法来识别ReID,例如:[7][8][9][10][11][12][13][14][15][16][17][18][19][ 避免…的影响背景杂波和姿态变化,提出了几种身体结构或基于部分的方法[39,49,16,12,6,36]。这些方法利用先前的人体信息或基于学习的姿势信息来定位显著部分并学习结构表示。注意力模型:最近,注意力模型[28,42,22]在各个领域取得了巨大的成功,例如自然语言处理(NLP),图像理解和视频分析。对于人员ReID来说,处理匹配错位挑战并增强特征表示也是有效和有效的[24,19,35,17,14,50,48、34、19、11、42、13]。例如,Liu等人。 [24]和Lan等人。 [14]直接学习注意力区域来定位显着图像区域。Xu等人 [48]和Zhao等人 [50]介绍了一种身体部位检测器,以在注意力模型中考虑身体结构。一些作品[26,34,17,4]在帧或特征序列上采用注意力模型来选择序列的关键部分。此外,提出了基于通道的注意力方法[19,11,48]来细化特征表示。然而,这些注意力方法的训练过程仅由微弱的监督信号维持,并且注意力模型的效果对于整体模型是不可见的。因此,我们提出了自我批判注意力学习方法来解决这些问题。特别是,我们开发了一个评价注意模型质量的评价模块,为注意学习提供了强有力的监督信号,定量地衡量了注意模型的有效性。3. 方法在本节中,我们首先介绍我们的自我批判注意力学习方法,然后将其应用于空间和通道注意力模型。最后,我们解释了优化过程和实现细节。3.1. 自我批判注意学习注意力模块是个人ReID系统的重要组成部分,用于引导网络找到个人最具辨别力的特征。大多数注意力模块通常以弱监督的方式进行训练,最终目标是,例如,来自人ReID任务中的三重损失或分类损失的监督。然而,由于监督不是专门为注意力模块设计的,它可能会导致注意力的次优效益。为了克服这个问题,我们提出了自我批判注意模块来改善学习过程,允许充分利用注意的有效性。在-而不是弱监督的方式,我们让注意力9639我p我我我...池BNCNNCNN关注评论家conv变平FCRX级联V平坦的;平坦的FCFC一评论家MSE损失评论家关注三重损失图2.自我批判性注意力学习法(它主要由卷积骨干网络,注意力代理和评论模块组成主干由一系列卷积块组成,我们在每个块的顶部编码注意力图评价器作为注意力模型的重要组成部分,以特征图X和注意力图A为输入,输出评价值V作为注意力学习的附加监督信号。模型对自身进行评价,用评价性能指导优化。在每个训练步骤中,注意力模块内的评论家将检查视觉注意力图,然后向注意力发送监督信号。有了这种自我批判的监督,注意力就能有效地弄清楚它是否被正确地学习和适应。由于最有效的评价指标通常是不可区分的,例如,在基本网络上的注意力模型的增益,我们通过强化学习算法优化我们的自我批判注意力模型。具体来说,状态是输入图像,而智能体是我们的注意力模型,它根据当前状态预测注意力地图。评论者将状态和注意力作为输入,并评估注意力模型的质量。在每一步中,给定输入图像I作为状态,我们首先通过基本网络F提取特征图,其公式为:X=F(I|(1)其中,k表示基本网络的参数。 然后在本节中描述评论器,并在下一节中给出注意力代理体系结构的细节。建议的批评家模块的架构是illustrat- ed在图2中。 具体来说,它包括两个分支:所述状态分支采用卷积层和随后的全连接(FC)层来提取所述状态信息;而注意分支应用单个FC层。然后,状态和注意力分支被连接并馈送到值预测FC层以输出临界值。引导评论家网络预测实际价值 在注意力模型的基础上,我们设计了一个反映任务目标的奖励信号R。具体来说,我们实验中的奖励包括两部分,第一部分是分类标准Rc,表示注意力地图是否导致第二个是改善部分Ra,表明注意力模型是否带来了积极的影响。分类奖励的详细定义如下:.1yc=yp具有参数θ的注意力代理A基于这些特征图X预测注意力图A。Rc=我0yc(4)我其中,yp表示基于注意力的A= A(X|θ)。(2)ic为了评估注意力模型并指导智能体预测更准确的注意力,我们设计了一个评论模块,其公式为:关于人i和yi的特征是地面事实类,办公室标签。而改善奖励Ra被公式化为:. 1pk(A,X)> pk(X)我我我V= C(X,A)|(3)Ra=0pk(A,X)≤pk(X),(5)其中,V是预测的评估值,φ定义了评价网络的参数。作为我们的评论家-ule对不同的注意力代理是通用的,其中pk表示真实分类的预测概率注意力模型的最终奖励表示为R=Rc+ Ra。交叉熵y9640212是说变平FCReLUFC乙状重塑SXA空间注意全球池FCReLUFC乙状X一个渠道关注(a)(b)第(1)款图3.关于空间和渠道关注的架构 在(a)中,空间注意力代理学习RH×W注意力图以定位空间显著区域。而在(b)中,通道方向的注意力向量生成用于特征重新加权的RC通道方向的注意力向量3.2. 关注代理在这项工作中,我们利用两种类型的注意力模型代理产生通道式注意力Ac,Ac=σ(Wcmax(0,Wc X池)), (7)作为我们的注意力代理人:channel-wise attention and spatial注意力和空间21关注其中Wc和Wc是瓶颈FC铺设的参数1 2空间注意力:空间注意力旨在引导该网络专注于给定图像的最显著区域。我们不是平等地利用所有的空间特征,而是丢弃不相关的信息并突出重要的区域。提出的空间注意力代理由两个FC层,一个ReLU层和一个Sigmod层组成。鉴于来自卷积块的特征图X∈RC×H ×W,其中C是通道,H×W表示空间大小,空间注意力代理产生空间注意力图Asas:表示特征映射X在空间域上的平均池化。相应地,通过通道乘法将通道注意力Ac应用于原始特征图。Stacked Attention Model:由于在单个步骤中重新获取最显著的特征并不是微不足道的,因此我们建议在骨干网络的不同卷积阶段堆叠多个注意力模型。 模型可以逐步- 过滤掉噪音,集中在对身份高度特异它的结构S.SsA= σ高×宽W2最大值(0,W1X)、(6)高×宽图2说明了一个附加注意力模型。 以[10]作为骨干网的一个例子,我们广告-其中Ws∈RR×(H×W)和Ws∈R(H×W)×r在每个残差块之上建立注意力模型与对应于属性的两个FC层的参数代理人,请尊重我。X<$表示特征图的通道域上的平均值为了限制模型复杂度并提高泛化能力,我们为注意力代理采用了瓶颈结构,其中第一个FC层将输入维度C减少了一个比率r,而第二个FC层恢复了维度。然后,输出被重新整形和扩展以匹配特征图的形状。一旦获得了注意力地图,我们就通过元素生成将注意力信息编码到特征地图中,以获得空间引导特征图G=X<$A s。为了更清楚,示出在堆叠的注意力结构中,网络被逐步引导专注于重要特征。3.3. 优化我们网络的参数由三部分组成:骨干网络Φ、注意力代理θ和评论家模块φ。 我们设计了两个损失函数来训练后-骨网络Fθ和注意力模型Aθ,包括三重丢失和分类丢失。三重损失函数的目的是保持一个大的余量的样本之间的等级关系,这增加了类间的距离,减少类内的。 其公式为:在图3(a)中。渠道方面的注意:的不同通道J(θ,θ)=1ΣNΣ||F -f+||2− ||F-Σ-f||+ m,特征图具有针对特定对象的特定激活。渠道方面的关注旨在提高代表性,三Nii2i=1ii2+(八)通过对各种样本的交互建模其中[·]+指示max函数max(0,·),并且+−卷积通道之间的依赖关系。通道式注意力代理利用具体来说,它是由一个全球性的fi、fi、fi分别表示锚的特征阳性和阴性样本三个一组。m是用于增强学习特征的辨别能力的裕度。分类损失集中在预测身份的正确性上,这是用交叉熵定义的:平均池化层和两个连续的全连接层。详细介绍了该注意力代理的体系结构.Jcls( θ,θ)=−1ΣN ΣK yklog(pk),(9)在图3(b)中给定特征图X,atten-Ni ii=1k =19641我我∂ψ∂θ∂φφKφ算法一:自我批判注意学习输入:训练图像数据:I ={I},最大迭代次数T,平滑参数λ,裕度m。输出:骨干网参数、注意力模型θ、评论家模型φ1:初始化θ、θ和φ;第二章: 对于t=1,2,…,没做第三章:从I中随机选取一批图像Ii=1:N;第四章:利用(1)获得特征图Xi5:用(2)生成注意力Ai6:用(3)预测批评值Vi 7:更新评论←评论(Jcls+Jtri)第八章:更新θ←θ(Jcls+Jtri+Jcri)第九章:更新φ←Jmse10:结束十一: 返回θ,θ和φ其中yk是第k个类上第i个人的真实身份,pk表示预测概率。 此外,为了正则化模型以获得更好的泛化能力,我们在分类损失函数中使用了标签平滑正则化[40]。具体来说,我们取一个均匀m分布μ(k)= 1/K作为正则化项,并将损失重新表示为:表1.实验中所有数据集的基本统计数据集Market-1501dukemtmc-ReidCUHK03身份150114021467图像326683641114097相机6810列车ID751702767试验id750702700测试设置SS平方平方标签手/DPM手手/DPM为了保持图像的分辨率,我们应用了在ResNet-50的最后一个块中,使用步长=1的卷积层,而不是原始步长= 2的卷积层。我们在ResNet-50网络上堆叠了五个注意力模型,它们被放置在网络的第一个在训练过程中,我们使用了三种数据增强方法,包括随机裁剪、水平裁剪和擦除。每个小批次由随机选择的P个身份和从训练集中随机采样的K个身份的图像组成,以配合以下要求:三重态损失这里我们设置P=24和K= 4来训练我们提出的模型。每个输入图像的大小为384×192,以利用细粒度信息。保证金参数-三重丢失和标记平滑正则化率的系数分别设为0.3和0.1。 加权系数-损失函数{Jcls,Jtri,Jcri,Jmse}的有效性为Jcls( θ,θ)=−1ΣN好吧klog(p)(1 −n)y+,设置为{1. 0,1。0,0。三一0}。Nii=1k =1IK(十)我们训练了我们的模型总共160个时代,优化器初始学习率为0.0004,其中,ε∈(0,1)是平滑参数。由于分类损失对特征的尺度敏感,我们在分类损失之前添加了一个批范数(BN)层,标准化尺度,如图2所示。对于注意力模型Aθ,我们引入了一个额外的由批评者模块预测的强大监督信号,定义为批评者损失:Jc ri(θ)=− VAθ(X,A).(十一)利用这个基于批评的目标函数,我们更新了注意力代理,以获得更高的批评值。最后,我们采用均方误差(MSE)来优化评价网络Cφ通过最小化估计的评论值和实际奖励之间的差距。 MSE损失写为:每40个时期被10个人看到的权重衰减因子L2正则化设置为0.001。在评估过程中,我们提取原始图像和水平叠加图像的特征,并将其平均为最终特征。我们采用余弦距离作为度量两个特征的相似性。所有实验均在2个Nvidia GTX 1080Ti GPU上使用PyTorch 1.0实现。在Market-1051数据集上训练模型花了大约3个小时的数据并行加速。上述参数设置适用于我们实验中的所有三个数据集。4. 实验JMSE(φ)=(VAθ(X,A)−R)2.(十二)我们在三个公共人物ReID基准上评估了我们的方法。在实验中,我们比较了所提出的值得注意的是,当我们优化批评者网络时,注意力网络被冻结,反之亦然。为了更清楚地解释优化,我们提供算法1来详细说明SCAL的学习过程。3.4. 实现细节我们在实验中使用ResNet-50 [42]作为SCAL方法的基本骨干网络,并使用ImageNet预训练参数初始化它们。在方法与其他国家的最先进的方法和进行消融研究,以分析我们的注意力模型。此外,我们进行了跨数据集上的迁移测试,以考察SCAL模型的泛化能力。4.1. 实验设置我 们在 三 个大 规 模 数据 集 上进 行 了实 验 ,包 括Market-1501 [52],DukeMTMC- ReID [29]和CUHK 03[18]。详细的统计数据和9642表2.与Market-1051数据集上最先进的人ReID方法进行比较。表3.在DukeMTMC-ReID数据集上与最先进的人ReID方法进行比较。市场-1051方法模型地图R=1R=5SVDNet [38]ResNet-5062.182.392.3CamStyle [55]ResNet-5068.788.1-[25]第二十五话DenseNet-16968.987.7-[43]第四十三话ResNet-5074.288.5-MLFN [2]MLFN*74.390.0-DKPM [32]ResNet-5075.390.196.7[30]第三十话ResNet-5082.592.796.9DCRF [3]ResNet-5081.693.597.7SPReID [12]ResNet-15283.493.797.6FD-GAN [9]ResNet-5077.790.5-部分对齐[37]GoogLeNet79.691.796.9SGGNN [31]ResNet-5082.892.396.1PCB+RPP [39]ResNet-5081.693.897.5加拿大[24]VGG-1635.960.3-DLPAR [50]GoogLeNet63.481.092.0PDCNN [36]GoogLeNet63.484.1-[第14话]GoogLeNet67.586.7-MGCAM [35]ResNet-5074.383.8-AACN [48]GoogLeNet66.985.9-DuATM [34]DenseNet-12176.691.497.1[19]第十九话HA-CNN*75.791.2-[41]第四十一话ResNet-5082.393.1-SCAL(空间)ResNet-5088.995.498.5SCAL(通道)ResNet-5089.395.898.7所有数据集的评价方案总结在表1中。这三个数据集都是在自然的真实场景中采集的,更接近于实际应用。如表1所示,我们遵循[19]中的标准人ReID实验设置。具体来说,我们在Market-1501数据集上采用了单查询评估模式。对于CUHK 03数据集,我们应用了[54]中的CUHK 03-NP分裂,选择了767个身份进行训练,另外700个身份进行测试。对于所有数据集,我们应用累积匹配特征(CMC)曲线和平均平均精度(mAP)作为评估指标。CMC曲线记录了前n个等级中的真实匹配,而mAP考虑了精确度和召回率来评估方法的整体性能。为了保持模型的简单性和有效性,我们在没有后处理的情况下评估我们的方法,这些后处理与我们的方法正交,并且可以以直接的方式集成,例如各种重新排序方案和度量学习[54,20]。4.2. 与最新方法的比较在表2、表3和表4的前几组中,我们分别将我们的方法与Market-1501、DukeMTMC-ReID、dukemtmc-Reid方法模型地图R=1R=5SVDNet [38]ResNet-5056.876.786.4CamStyle [55]ResNet-5057.678.3-[25]第二十五话DenseNet-16956.978.5-[43]第四十三话ResNet-5063.079.1-MLFN [2]MLFN*62.881.2-DKPM [32]ResNet-5063.280.389.5[30]第三十话ResNet-5066.480.788.5DCRF [3]ResNet-5069.584.992.3SPReID [12]ResNet-15273.386.093.0FD-GAN [9]ResNet-5064.580.0-部分对齐[37]GoogLeNet69.384.492.2SGGNN [31]ResNet-5068.281.188.4PCB+RPP [39]ResNet-5069.283.3-AACN [48]GoogLeNet59.376.8-DuATM [34]DenseNet-12164.681.890.2[19]第十九话HA-CNN*63.880.5-[41]第四十一话ResNet-5071.884.9-SCAL(空间)ResNet-5079.689.095.1SCAL(通道)ResNet-5079.188.995.2CUHK03数据集而底部的一组则用注意力模型总结了深度学习方法的性能。我们观察到,所提出的SCAL方法在空间域和信道域上都实现了优于所有比较方法的性能。它证实了注意力评估器和自我批评监督信号的有效性。针对Market-1051数据集,我们选择了单一查询模式,并与其他方法进行了比较,没有重新排序。如表2所示,我们评估了SCAL方法与13种传统深度学习方法和9种基于注意力的方法。SPReID [12]在ReID问题中集成了人类语义解析,并取得了最佳结果。我们基于通道的SCAL与ResNet-50实现了mAP/Rank-1= 89.3%/95.8%,在mAP和Rank-1上分别比SPReID高出+5.9%和+2.1%。虽然基于注意力的方法已经取得了很好的性能,最近,提出的注意力模型与自我批判的大幅度超过他们,7%的mAP和2.7%的秩-1。这表明,gests的重要性,建议的批评模块在注意力学习过程中。DukeMTMC-ReID是一个比Market-1501更具挑战性的人ReID基准,因为在更宽的相机视图和更复杂的背景下,类内变化更多。表3总结了所提出的方法和其他最先进方法的性能。 我们比第二好的方法SPReI- D [12]分别大幅增加6.3%和3.0%,9643表4.与CUHK 03数据集上最先进的人ReID方法进行比较,767/700分裂。检出标记的CUHK03方法地图R=1地图R=1SVDNet [38]37.840.937.341.5[25]第二十五话42.045.138.741.6[43]第四十三话60.264.558.161.6MLFN [2]49.254.747.852.8PCB+RPP [39]--57.563.7AACN [48]50.250.146.946.7[19]第十九话41.044.438.641.7SCAL(空间)71.574.168.270.4SCAL(通道)72.374.868.671.1mAP得分和Rank-1的准确率,这表明所提出的注意力模型是一种有效的方法,显著位置与杂乱的背景。我们对CUHK03基准测试的两个版本的人框进行了实验:手动标记并通过行人检测器自动检测。我们选择了767/700身份分割而不是1367/100,因为形式更现实,更具挑战性。如何在有限的样本下学习一个鲁棒的深度特征表示是现实世界中个人ReID系统的一个常见问题。我们在表4中报告了两个版本的所有先前结果的结果。对于标记和检测设置,建议的SCAL实现了较大幅度的改善(标记版本中,mAP为12.1%,Rank-1为10.3%;在检测版本中,mAP上为10.5%,Rank-1上为9.5%)优于具有相同ResNet-50基础模型的最佳替代DaRe [43]方法。4.3. 消融研究为了研究SCAL方法中单个组件的贡献,我们在单一查询模式下对Market-1051数据集进行了全面的消融评估。表5示出了在100 - 200 ℃下的比较结果。测试与SCAL组件相关的设置。我们分别分析了每个组件如下:自我批评模块的效果:我们比较了我们的S-CAL方法与两个原始的注意模型,包括堆叠空间注意和通道注意。如表5所示,SCAL方法在空间注意力和通道注意力方面都实现了显著的性能改善。对两个不同的基本模型的一致改进表明,所提出的自我批评模块适用于任何注意模块。空间注意力vs空间注意力:在实验中,我们设计了两个基本的注意力模型来考察所提出的自我批评模块的通用性。 在Market-1051和CUHK 03数据集上,基于通道的注意通常比基于空间的注意获得更好的性能。在DukeMTMC-ReID数据集上,表5.在Market-1051数据集上使用ResNet-50基线进行SCAL方法的消融研究分析显示了不同组分和设计选择对Rank-1和mAP(%)的影响组件设计选择交叉熵水平翻转三重态丢失标签平滑空间属性通道属性自我批评✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓✓ ✓ ✓ ✓ ✓ ✓ ✓✓ ✓ ✓ ✓ ✓ ✓✓✓✓✓ ✓✓ ✓✓ ✓✓ ✓秩-192.4 92.6 93.5 94.1 94.9 94.9 95.4 95.8地图82.1 82.2 84.1 85.5 87.6 88.1 88.9 89.3表6.关于Market-1051和DukeMTMC-ReID数据集的跨域评估 。 M→D 表 示 模 型 在 Market-1501 数 据 集 上训练, 在DukeMTMC-ReID数据集上测试,反之亦然。M → DD→ M方法地图R=1地图R=1PTGAN [44]-27.4-38.6SPGAN [8]22.341.122.851.5基线13.125.918.8 38.4扫描(空间)1730.423.1 49扫描(通道)16.428.623.8 51.7SCAN(通道)+SPGAN28.448.430.4 61.0基于空间的注意力模型是优越的。我们认为,它反映了DukeMTMC-ReID数据集中的图像由于更宽的相机视图和更杂乱的背景而具有更大的类内空间方差。损失函数:我们采用交叉熵损失作为基本目标函数来优化我们的模型,并通过引入三重损失作为基于秩的辅助监督信号并应用标签平滑正则化(LSR)来提高性能[40]。如表5所示,通过保留三元组之间的等级关系以促进类内紧密性,三元组损失获得了关于mAP/Rank-1的+1.9%/0.9改进。而LSR通过避免过度拟合,进一步提升了mAP得分的1.4%和Rank-1准确性的0.6%。水平翻转:在推理过程中,我们对原始图像和水平剪切图像的特征进行平均,这是一个减少视点方差的简单技巧。如表5所示,它提供约0.2%的增益。4.4. 跨域评估在实际的监控系统中,需要密集的人力来标记大量的数据。评价ReID系统鲁棒性的一个重要指标是对不可见人和场景的泛化能力9644输入图片基线关注我们的关注输入图片基线关注我们的关注输入图片基线关注我们的关注图4.注意力地图的可视化我们展示了三对图像,其中每对分别对应于来自查询集和图库集的同一个体对于每个样本,从左到右,我们显示输入图像,基线注意力图和我们的注意力图。我们可以看到,基线注意力无法定位人的相同突出部分,而我们的方法成功了。对比结果清楚地表明了我们的强监督对于学习更准确注意的有效性最好用彩色观看因此,我们进行了跨域评估,以调查我们的SCAL模型的可移植性。具体来说,我们使用Market-1051数据集中的数据训练模型,并使用DukeMTMC-ReID数据集中的样本进行测试,反之亦然。我们应用了ResNet-50网络,并使用交叉熵+三重态+LSR损失函数作为基线对其进行训练。如表6所示,空间和通道方式的SCAL方法都大大优于基线,这证明了SCAL方法的泛化能力。与最先进的迁移学习方法PTGAN [44]和SP-GAN [8]相比,我们仍然取得了有竞争力的性能。值得指出的是,在训练过程中,测试域的人物图像对于PTGAN和SPGAN方法是可见的。而在我们的实验中,测试域中的图像和标签都是不可见的,以评估所提出的注意力模型的泛化能力。此外,在与SPGAN [8]相同的设置下,通过将源域的风格转移到目标域,但用我们的SCAL模型代替SPGAN的特征提取部分,我们进一步提高了性能。4.5. 定性分析为了验证我们的自我批判注意学习方法的有效性,我们定性地检查了注意图和相关的批评值。一些可视化的例子如图4所示。具体来说,我们分别从查询集和图库集中选择了同一个人的两张图像。我们期望观察到,注意力有助于集中在人的相同的歧视性部分。我们可以看到,相同目标是突出显示,如包,T恤。这些定性结果证明了我们的SCAL模型的有效性,该模型引导网络关注高度相关的区域。此外,我们还将我们的注意力图与基线注意力图进行了比较。如图4所示,中间一列是基线注意力地图,右边一列是我们的注意力地图,所提出的批评者模型为学习更准确的注意力提供了强有力的监督。5. 结论在本文中,我们提出了一个简单而有效的自我批判注意模型的人的再识别。我们学会了关注,而不是软弱的监督。一个评论家,审查的收益,从关注超过骨干网,并提供一个强大的监督信号的基础上,其观察。此外,评论家可以测量注意力地图的质量,这大大有助于人类最终用户对注意力的解释。大量的实验结果表明,所提出的自我批判注意学习方法的性能大大优于现有的国家的最先进的方法,这验证了我们的方法的有效性。确认这项工作部分得到了中国国家重点研究与发展计划(2017YFA0700802)的支持,部分得到了中国国家自然 科 学 基 金 ( 61822603 、 U1813218 、 U1713214 、61672306和61572271)的支持。9645引用[1] Ejaz Ahmed,Michael Jones,and Tim K Marks.一种改进的深度学习架构,用于人员重新识别。在CVPR,第3908-3916页[2] Xiaobin Chang,Timothy M Hospedales,and Tao Xiang.用于人员再识别的多级分解网络。在CVPR中,第2109-2118页[3] 陈大鹏,徐丹,李洪生,Nicu Sebe,王晓刚.通过深度crf进行群体一致性相似性学习,在CVPR,2018年6月。[4] Guangyi Chen,Jiwen Lu,Ming Yang,and Jie Zhou.基于视频的人再识别的时空注意力感知学习TIP,28(9):4192[5] Weihua Chen , Xiaotang Chen , Jianguo Zhang , andKaiqi Huang.除了三重态损失:一个用于人员再识别的深度四重网络。在CVPR,2017年。[6] De Cheng , Yihong Gong , Sanping Zhou , JinjunWang,and Nanning Zheng.基于改进三重损失函数的多通道部件cnn的人员再识别。在CVPR,第1335-1344页[7] Dahjung Chung,Khalid Tahboub,and Edward J Delp.一个用于人员再识别的双流连体卷积神经网络在ICCV,第1983-1991页[8] Weijian Deng , Liang Zheng , Qixiang Ye , GuoliangKang,Yi Yang,and Jiabin Jiao.图像-图像域自适应,保留自相似性和域不相似性,用于人员重新识别。在CVPR中,第994-1003页[9] Yixiao Ge,Zhuowan Li,Haiyu Zhao,Guojun Yin,Shuai Yi,Xiaogang Wang,et al.Fd-gan:姿势引导的特征提取gan,用于强大的人员重新识别。在NIPS,第1230[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[11] 杰虎,李申,孙刚。挤压-激发网络。在CVPR中,第7132-7141页[12] MahdiMKalayeh 、 EmrahBasaran 、 MuhittinGo¨kmen 、Mustafa E Kamasak和Mubarak Shah。用于人员重新识别的人类语义解析。在CVPR中,第1062- 1071页[13] 尼古拉斯·卡里亚纳基斯,刘子成,陈银鹏,和斯特法诺·索阿托.增强时间注意力和分割率转移,用于基于深度的人员重新识别。在ECCV中,第715-733页[14] 徐澜,王含笑,龚少刚,朱夏天深度强化学习注意力选择用于人员重新识别。BMVC,第4-7页[15] Chen-Yu Lee,Saining Xie,Patrick Gallagher,ZhengyouZhang,and Zhuowen Tu.深度监督网络。人工智能和统计,第562-570页[16] Dangwei Li,Xiaotang Chen,Zhang Zhang,and KaiqiHuang. 学习身体和潜在部位的深度上下文感知特征,在CVPR,2017年。[17] Shuang Li,Slawomir Bak,Peter Carr,and XiaogangWang.基于视频的人员再识别的多样性规则化时空注意力。在CVPR,第369-378页,2018年。[18] Wei Li,Rui Zhao ,Tong Xiao ,and Xiaogang Wang.Deep-reid:深度过滤器配对神经网络,用于人员重新识别。在CVPR中,第152-159页[19] Wei Li,Xiatian Zhu,and Shaogang Gong.和谐注意力网络,用于人员再识别。在CVPR,第2页,2018年。[20] Shengcai Liao,Yang Hu,Xiangyu Zhu,and Stan Z Li.通过局部最大发生表示和度量学习进行个人重新识别在CVPR,第2197-2206页,2015年。[21] Shengcai Liao and Stan Z Li.有效的psd约束非对称度量学习,用于人员重新识别。在ICCV,第3685-3693页[22] Chunze Lin,Jiwen Lu,Gang Wang,and Jie Zhou.用于行人检测的粒度感知深度特征学习在ECCV中,第732-747页[23] 纪琳,任亮亮,陆继文,冯建江,周杰。一致感知深度学习用于相机网络中的人员重新识别。在CVPR,2017年。[24] Hao Liu,Jiashi Feng,Meibin Qi,Jianguo Jiang,andShuicheng Yan.端到端的比较注意力网络,用于人员重新识别。TIP,2017年。[25] Jinxian Liu,Bingbing Ni,Yichao Yan,Peng Zhou,Shuo Cheng,and Jianguo Hu.对可调动人员进行重新鉴定。在CVPR中,第4099-4108页[26] Yu Liu,Junjie Yan,Wanli Ouyang.质量感知网络用于集对集识别。在CVPR,2017年。[27] 松川哲,冈部孝弘,铃木荣之信,佐藤洋一.用于人员再识别的分层高斯描述符。在CVPR,第13
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功