没有合适的资源?快使用搜索试试~ 我知道了~
8040图像1图像2图像1图像2基于一致性注意正则化的区分性特征学习用于人物再识别周三平1,王飞2,黄泽毅3,王进军11. 西安交通大学人工智能与机器人研究所2. 西安交通大学计算机科学与技术学院3. 卡内基梅隆大学摘要个人重新识别(Re-ID)经历了一个快速的随着深度神经网络的蓬勃发展。大多数方法在训练过程中很容易受到目标失调和背景杂波的影响。 本文提出了一种简单有效的前馈注意力网络来解决上述两个问题,其中设计了一种新的一致注意力正则化器和一种改进的三元组损失来学习人Re-ID的前景注意力特征。具体地说,一致注意正则化器的目的是保持从低级、中级和高级特征图中推导出的前景掩模相似。因此,网络将集中在较低层的前景区域,这有利于从较高层的前景区域学习区分特征。最后,引入改进的三元组丢失来增强特征学习能力,在每个三元组单元中联合最小化类内距离和最大化类间距离.在Market 1501,DukeMTMC-reID和CUHK 03数据集上的实验结果表明,我们的方法优于大多数最先进的方法。1. 介绍人员再识别(Re-ID)是视频监控中的一项关键技术,旨在将同一行人在非重叠的摄像机视图中关联起来。随着卷积神经网络的蓬勃发展,当前基于深度特征学习的方法[5,8,53,61]已经显著优于各种传统的基于特征学习的方法[33,43]。在实践中,学习一个有区别的特征表示在解决人的Re-ID问题中是至关重要的。然而,学习的特征很容易受到目标失准和背景杂波的影响,因为大部分的深特征王进军为通讯作者。O维(a) 没有我们一致的注意力调节器的O维(b) 使用我们一致的注意力调节器进行特征学习图1.我们一致的注意力正则化器的动机,旨在驱动网络关注较低层的前景区域因此,该网络将学习一个有区别的特征表示,以增强来自点A的有用信号,并在较高层抑制来自点B的噪声信号从(a)和(b)中学习的最终特征,我们可以发现一致的注意力正则化器对于将两个样本与目标未对准和背景杂波相关联至关重要基于学习的方法通常试图从整个输入图像中学习有区别的特征。作为一种数据驱动的方法,基于深度特征学习的方法[22,46,50]可以自主地将大部分注意力集中在输入图像的前景区域上。然而,如果我们没有一个显式的正则化器来驱动其在特征学习过程中的注意力,那么网络很容易被误导为了解决这个问题,在过去的几年里,两种主流方法被广泛研究。第一种方法是基于基于部分的网络[5,38,62],他们试图从预定义的身体部位学习区分特征。第二种方法基于前景注意力[20,29,34,39,54,59],其中使用人物面具以监督方式驱动注意力,或者应用注意力机制以非监督方式推断注意力。一般来说,使用带注释的人物遮罩来学习区分性特征表示要容易得多,因为它可以帮助网络精确地聚焦于较低层的前景区域。一致注意正则化子图像2B一图像1低级中级高级别振幅振幅一图像1B图像2低级中级高级别8041许多现成的方法[9,57]已被广泛用于生成人物Re-ID的前景遮罩,然而由于输入图像的分辨率低,因此所得人物遮罩通常质量较差。因此,前景注意力在较低层被误导的风险很高[34]。为了缓解这个问题,最好将区分性特征学习和前景注意力推导结合到端到端网络中,因为它们可以在训练过程中相互受益。如图1所示,如何在较低层推导出前景关注度,从而在较高层学习前景关注度特征,抑制目标失准和背景杂波引起的噪声信号,成为一个重要的问题。在本文中,我们设计了一个简单而有效的atten- tion网络,从人的Re-ID的前景区域学习一个有区别的特征表示。我们的方法受到高级特征图通常比低级特征图包含更多语义信息的现象[ 58 ]的启发。因此,从高级特征图而不是从低级特征图推导出高质量的前景遮罩将容易得多。具体来说,我们首先设计了一种新的前馈注意力网络,它可以分别从低级,中级和高级特征图中学习前景蒙版。然后,设计了一种新的一致性注意力正则化器,将前景信息从高层特征图传递到中层特征图和低层特征图。以这种方式,从高级特征图学习的高质量前景掩模可以进一步用于帮助较低层聚焦于前景区域。最后,引入改进的三元组损失来增强特征学习能力,该特征学习能力可以在每个三元组单元中联合最小化类内距离和最大化类间距离。我们的网络以端到端的方式进行训练,可以有效地学习区分特征,以匹配大型相机系统中同一个人的图像。我们的论文的主要贡献可以突出如下:1)设计了一种新的前馈注意力网络,分别从低层、中层和高层特征图中学习前景掩模。2)提出了一种新的一致性注意正则化器,在训练过程中保持推导出的前景模板相似,有利于驱动网络聚焦于下层的前景区域。 3)建立了一种新的三元组损失来监督特征学习,在每个三元组单元中使类内距离最大化并使类间距离最大化。我们对Market1501 [56]、DukeMTMC-reID [27]和CUHK 03 [54]数据集进行了广泛的实验,与最先进的方法相比,我们的方法显示出了显著的改进。2. 相关工作我们的方法旨在通过一致的注意力正则化来学习有区别的特征表示,因此我们回顾了深度特征学习和深度注意力学习方面的两行相关工作。深度特征学习。 鲁棒的特征表示对于解决人的Re-ID问题是非常关键的,基于深度特征学习的方法主要集中在从输入图像。为此,已经开发了不同的损失函数,例如三重损失[8],四重损失[5],中心损失[47]和softmax损失[16],以指导特征学习过程。与此同时,已经设计了大量知名的网络来从输入图像中提取特征,包括ResNet[10],DenseNet [13],MobileNet [28]和Shuf WebseNet[23]。 在ad-此外,不同的部分策略[5,17,38,60]已被广泛用于增强骨干网络的特征表示能力。近年来,生成对抗网络(GAN)[7,45,58]被广泛研究,以增加个人Re-ID的训练数据,这是增强学习特征泛化能力的有效方法。尽管从单个图像中学习特征,但另一种方法[3,24,49,63]试图从视频剪辑中学习时空特征。由于深层神经元的强大表征能力,在Ral网络中,基于深度特征学习的方法在人Re-ID的基准数据集上实现了最先进的性能。深度注意力学习 深度注意学习在计算机视觉领域得到了广泛的研究,它可以通过处理有用的信息来有效地提高算法一般来说,基于深度注意力学习的方法可以分为有监督和无监督两种。在前一种情况下,需要标记的基础事实来监督学习过程.例如,前景掩模[15,34,39]已被广泛用于引导网络将其注意力集中在身体区域上,以便学习人Re-ID的判别特征。此外,预定义区域[12,55]通常用于驱动网络从局部区域学习精细特征,这在解决细粒度图像分类问题中得到了广泛的研究。在后者中,通常使用自注意机制或启发式知识来指导注意学习。例如,一些作品[20,54]设计了不同的注意力模块来引导网络将注意力放在有区别的身体区域上。深度剩余注意力学习[41]已成功应用于图像分类。此外,时空线索[25,35]已被广泛用于监督视频识别和分类中的注意力学习。8042特征图Tk1-扩张+2-扩张的热图输出HKK1 × 1 ×L2K3×3× L1K1 × 1 ×L2K3 × 3 ×L1K1 × 1 ×L2K3 × 3 ×L1图2.我们的前馈注意力网络的图示,其工作原理如下:前景蒙版首先分别从低级、中级和高级特征图中学习。然后,应用一致注意力正则化器来保持推导出的前景掩模的相似性,从而驱动网络聚焦于较低层的前景区域最后,改进的三重损失和softmax损失联合用于学习多任务学习框架中的判别特征3. 我们的方法给定一组训练样本X={Xi, Yi}N得双曲正弦值.其中Xi表示第i个i=1输入图像,Yi表示相应的标签,我们的方法试图从输入图像的前景区域学习一个有区别的特征表示。我们前馈注意力的结构3-扩张扩张卷积正态卷积Sigmoid函数网络如图2所示,其中一个新的consis-帐篷注意力正则化器和改进的三重丢失,图3.我们的注意力模块的插图为了简单起见,我们假设输入特征映射Tk具有Lk个特征映射,则我们以渐进的方式融合它们:L1=1L和L2=1L1。此外,我们认为,被设计为学习人Re-ID的区别特征k2kk2k在不失一般性的情况下,我们选择ResNet50 [10]作为主干。在下面的段落中,我们将详细解释我们的方法。3.1. 网络结构我们的前馈注意力网络旨在从前景区域学习区分特征,因此在网络设计中需要满足两个要求。首先,骨干网络应该足够强大,以便在输出层提取有区别的特征。在我们的网络结构中,我们选择ResNet50作为我们的骨干,它主要由卷积层,最大池化层和四个残差块组成。特别地,一个全局平均池(GAP)[21]层和一个全连接(FC)层用于获得2048维特征向量。此外,在GAP和FC层之间部署了一个批处理规范化(BN)[14]层。其次,设计了一个注意力模块,用于从特征图中推断出前景蒙版.为此,我们采用热图来表示前景蒙版,并使用具有不同膨胀率的三个膨胀卷积层,用于从局部视图到全局视图推断前景遮罩其中Θk表示我们的第k个注意力模块的参数。在我们的设计中,我们有以下几点:1)首先,我们采用两个卷积层将特征映射的数量减少到其自身的1/4,以便以渐进的方式将它们求和。然后,应用另一个具有1×1大小的内核的卷积层以进一步获得热图。最后,使用sigmoid函数对[0,1]中的热图进行归一化。2)多尺度信息已被应用于从局部到全局视图推断前景掩模。与[17]相同,三个不同的接收域,即7,5和3,已经被用于通过在膨胀的卷积层中使用不同的膨胀率来提取上下文信息。一 旦注 意 力模 块 被 设计 出 来, 我 们将 其 嵌入 到ResNet50中,并使用得到的热图来过滤每个残差块的输出特征图,如下所示:Ta(x,y,c)=Tb(x,y,c)×Hk(x,y),(2)K K产生的前景掩模以过滤相应的FEA。在培训过程中使用地图如图3所示,其中,Hk(x,y)表示在我们的注意力模块将特征图T作为输入坐标(x,y)、Ta(x,y,c)和Tb(x,y,c)表示k k k并且输出所推导的前景掩模Hk,其可以如下所示Hk= Mask(Tk;Θk),(1)坐标(x,y)处的输出和输入响应,第c个特征图。 如图2所示,我们的前馈注意力网络的工作原理如下:1)在前向传播中,骨干网首先提取我们一贯的注意力调节器逐元素乘积Softmax和Triplet前景掩模前景掩模前景掩模前景掩模2O48BN前馈注意力网络输入Conv1池1Res-1Res-2Res-3RES-4GAP FC1 × 1 × 1目标函数乙状8043X我我我22T1=-2(x - x)T=2(x - cj)Yi/=Yk。在每个三元组单元中,我们解决一个排序问题1996年X' 19 9 9 年1月1日T1=-2(x - x)JiangJiangT1阿克斯克X'K T=2(x-cj)T通过使用改进的三重态损失:Txkkj j j1= 2(xi-xk)阿克斯克=-2(x k-c j)T= [m+d(xi,c) +d(xj,c)-d(xk,c)]+,(5)阿克斯克xki我我我xixkxiTT其中d(z1,z2)=<$z1−z2<$2表示平方距离1阿斯克斯岛阿斯克斯岛 x'j电子邮件xj在特征空间中,m表示边缘参数,以及J''JT1我我x'xjci=ηxi +(1−η)xj表示一个点位于线上xjxjjx之间和x1 .一、 因此,x和x将移动(a) (b)改进的三重态损失i j i j图4.梯度反向传播中两个三重态损失之间的差异。特别是,我们的三重损失引入了一个点cj,以模拟每个三元组单元中的所有成对关系,以便一致地最小化在培训过程中的课堂距离从输入图像中提取有区别的特征,然后注意模块从相应的特征图中推导出前景掩模,最后,所生成的特征图进一步由具有逐元素乘积的所得前景掩模来滤波。2)在后向传播中,骨干网络和注意力模块的参数被联合优化,因此我们的前向注意力网络在下一次迭代中将其大部分注意力集中在前景区域上。3.2. 目标函数目标函数由两个损失项和一个正则化子组成,其可以用公式表示如下:L ( W , Θ ) =L1 ( X;W ) +αL2 ( X;W )+L3(H;Θ),(3)其中L1(·)表示softmax损失,L2(·)表示改进的三重损失,L3(·)表示一致注意正则化子,α是常数权重。在训练过程中,两个损失项旨在从原始输入图像中学习有区别的特征表示,并且一致注意力正则化器试图保持这些前景掩模相似,这些前景掩模分别从低级、中级和高级特征图中推导出。由于其强大的能力,softmax损失已被广泛用于训练深度神经网络。因此,我们引入它来监督特征学习过程,其可以表述如下:不并且类内距离可以在训练过程中一致地最小化。讨论据我们所知,在过去的几年里,已经设计了一系列的三重态损失。基本的三重态损失[8]定义如下:T1=[m+d(xi,xj)− d(xj,xk)]+. (D1)此外,一些研究人员专注于如何在他们的修改中改进梯度反向传播。例如,双三重态损失[52]定义如下:1T2= [m+d(xi,xj)−2[d(xi,xk) +d(xj,xk)]]+,(D2)[62][63][64][65][66][67][68][69]T3=[m+d(xi,xj)− [ud(xi,xk) +vd(xj,xk)]]+. (D3)首先,我们比较了我们的三重态损失和基本三重态损失之间的梯度反向传播,如图4所示,差异来自两个方面:1)基本三重态损失只考虑了一个正对(X i,X j)和一个负对(X i,X k),在它们的公式中忽略了另一个负对(X j,X k)。我们的三重损失正对的中心点cj, 2)由于梯度反向传播的优势,我们的三重损失可以不断地最小化类内距离,而基本的三重损失在训练过程中很难实现这一目标。其次,我们得出了三重态损失之间的关系:1)我们可以发现T2(xi,xj,xk)=1[T1(xi,xj,xk) +T1(xj,xi,xk)],这表明对每个三重态单元中的所有成对关系进行建模是很重要的。2)对称损失是一个广义的版本其中设计了一种新的算法来更新训练过程中的u和v。 3)我们失去了三胞胎1ΣNexp(pYixi)doesn’tL1(X;W)=Ni=1−log(logexp(pTx)),(4)Gg我其中pg表示学习的分类器的第g列,xi表示通过我们的feedfor学习的特征向量比对称三重态损失更鲁棒的性能现在,我们将我们的三重态损失扩展到整个三重态单元,其可以公式化如下:用于输入图像X的病房注意力网络。1L(X;W)=T(x,x,x),(6)I2|S|(X,X,X)∈Sijk为了应用改进的三元组损失来学习来自输入图像的区分特征,我们首先将训练样本组织成一组三元组单元,S={(Xi,Xj,Xk)},其中(Xi,Xj)表示一个双线性对其中,Yi=Yj,并且(Xi, Xk)指示与X我CΣ8044我JK哪里|S|表示S中三重态单元的数量。1为了保持我们的三重态损失优于基本损失,我们需要设置η∈(0,1),并且在所有实验中我们选择η = 0.5如果η = 1,基本三重态损失将成为我们方法的特殊情况8045WW∂Ω(q)ΣK我Σ我我如果r >0,、(9)我 JKj iijxj−c(一)✘ ✘✘算法1一致注意梯度下降。输入:训练数据X、学习率τ、最大迭代次数Q、权重参数α、β和β,以及H1 H2 H3 H4✔✔✔边缘参数m.输出:网络参数θ=[W,Θ]。重复(b) H2,H3>
H2,H3>重复1) 使用现成算法计算出最大值1输入图像H1 H2H3H4Res-1 Res-2 Res-32) 根据Eq.2计算(9);3) 根据Eq.3计算(11);图5.分别从低级、中级和高级特征图推导出的热图的图示特别是(a)显示了在没有应用一致注意力正则化器的情况下学习的热图,以及(b)显示了通过使用我们的一致注意力正则化器学习的热图∂Θ4) 根据等式更新梯度ΔL。(8);直到Tr在每个最小批中反转所有三元组输入{(xi,xj,xk)};2. 更新<$(q+1)=<$(q)− τq<$L和q ← q+1。最后,我们引入了一致注意力正则化器,以保持所有推导出的前景蒙版在训练过程中相似,定义如下:直到q > QWe表示r=m+d(xi,cj) +d(xj,cj)−d(xk,cj),βΣK+1̟F那么我们的三重态损失的偏导数可以用公式表示如下所示L3(H; Θ)=KHk+1−H^kK+12001年,(七)BELL2(X;W)⎧⎨1|S|P(xi,xj,xk)其中,K+ 1表示热图的数量,β,∂W⎩0,否则。是两个恒定的权重。此外,H^k的大小与其中Hk+1,其通过Hk的最大池化获得其中,ΔP(x,x,x)/ΔW计算如下:以stride 2。因为ResNet50中有四个残差块,所以我们在所有实验中设置K= 3我们的顾问-n(xi,xj,xk)x−= 2(xi−c)·帐篷注意力正则化器由两项组成,即:,The一致性项和稀疏性项,其中:1)一致性项旨在保持这些热图相似,这些热图是从低级、中级和高级特征中学习的我是J+2(xj− ci)·i(十)∂j<$xk−<$cj地图,分别。因此,从高级特征图中学习的高质量前景蒙版可以用于帮助网络专注于较低层的前景区域2)稀疏项倾向于进行特征选择,−2(xk −ci)·i∂我们的一致注意正则化器的偏导数计算如下:这有利于去除背景中的一些假阳性响应。我们比较了两组不同的热图,βL3(H;Θ)=βL1(H,H^K+1)+氯(H),(11)图5,从中我们可以看到,使用我们的一致注意力正则化器学习的热图要好θKCk=1k+1kK+1S Kk=1比这个正则化器更好。3.3. 优化其中Ic(Hk+1,Hk)和Is(Hk)计算如下:l(H,H^)=2(H-H^)·Hk+1-H^k,(12)我们通过使用随机梯度下降(SGD)算法来优化深度参数W、Θ。对于单纯的-c k+1kk+1kθhk我们将θ=[W,Θ]作为一个整体,并计算方程的偏导数。(3)如下:Is(Hk)=sign(Hk)·θ,(13)其中sign(·)表示符号函数,其中sign(z)=中文(简体)∂Ω=L1(X;W)+αWL2(X;W)+WαL3(H;Θ),∂Θ(八)如果z > 0,则为1,否则sign(z)= − 1。因为我们的方法需要反向传播梯度,通过使用我们的KWWk=1k=1=(xi,xj,xk)∈S8046其中,可以通过使用现成的算法来容易地计算ΔL1(X;W)/ΔW,并且Δ L2(X;W)/ΔW和在下面的段落中推导出ΔL3(H; Θ)/ΔΘ一致注意力正则化器,我们称之为一致注意力梯度下降算法。算法1显示了我们训练过程的整体实现。8047指数网络损失Market1501dukemtmc-ReidCUHK03单查询多查询单查询标记检测前1地图前1地图前1地图前1前5前1前51ResNet。S87.572.891.279.478.362.172.191.266.588.42ResNet。BT87.072.491.379.577.661.873.292.268.189.63ResNet。S+BT89.175.092.481.079.764.976.893.874.893.04ResNet。它89.775.892.981.479.264.577.194.274.192.95ResNet。S+IT93.479.294.282.582.168.482.496.678.494.56ResNet。(上午)S87.873.091.679.878.963.674.192.870.990.97ResNet。(上午)BT87.172.591.279.578.162.076.593.672.991.88ResNet。(上午)S+BT89.475.492.581.181.268.181.195.877.894.39ResNet。(上午)它90.276.693.382.079.865.281.396.178.194.410ResNet。(上午)S+IT93.979.594.682.982.669.188.497.885.596.611ResNet。(上午)S+CA89.375.492.781.281.668.478.594.675.193.212ResNet。(上午)BT+CA88.974.992.780.980.967.980.195.476.993.813ResNet。(上午)公司简介92.178.693.882.583.570.486.697.282.496.014ResNet。(上午)IT+CA93.379.295.283.783.170.289.198.187.197.315ResNet。(上午)S+IT+CA96.184.798.287.386.373.196.999.693.299.2表1.我们的方法在三个基准数据集上的不同变体的匹配率(%),其中1)AM:注意力模块; 2)S:Softmax损失; 3)BT:基本三重损失; 4)IT:改进三重损失; 5)CA:一致注意力调节器。4. 实验4.1. 设置数据集。我们在三个大规模数据集上进行了实验,即。,Market 1501 [56],DukeMTMC-reID [27]和CUHK03 [18]。Market1501数据集包含32,668张图像,其中包括来自751个身份的12,936个训练样本和来自750个身份的19,732个测试样本。DukeMTMC-reID数据集由从8个不同相机捕获的1,812个身份组成,其中来自702个身份的16,522个图像用作训练样本,另外702个身份的2,228个图像用作查询,其余17,661个噪声图像也用于图库集。香港中文大学03数据集它包含13,164张1,467个身份的图像,其中随机选择1,367个身份的样本进行训练,其余身份的样本用于测试。实施. 在我们的实现中,我们首先将输入图像调整为256 × 128,然后进行随机裁剪和裁剪以进行数据增强。 批量大小为32,学习率为τ = 0。01和衰减0。每10个时期1次权重参数设置为α=β=0.1 ,则n=0。01,并且余量参数被选择为m=1。0的情况。 一旦网络被训练好,我们只需使用它从测试图像中提取特征,把人重新识别为最近邻搜索问题。4.2. 消融研究变体。为了评估我们的方法在多大程度上改善了最终结果,我们在每个数据集上设计了15个实验,如表1所示,这可以很好地支持以下结论:1)多任务学习框架比单任务学习框架更能有效地学习区分性特征; 2)改进的三元组损失在监督特征学习方面优于基本三元组损失; 3)注意子网络可以略微改善表2.与CUHK 03数据集上最先进方法的匹配率(%)比较,其中网络的表现能力; 4)一致性注意正则化子可以引导注意子网络更好地探索输入图像的前景区域。因此,我们将我们的三个贡献在多任务学习框架中学习人Re-ID的判别特征表示。在下一段中,我们将详细解释上述结论。为 了清 楚 起见 , 我们 尝 试使 用 单查 询 评估 基 于Market1501数据集的性能来检查上述结论。为了评估多任务学习框架在多大程度上优于单任务学习框架,我们可以比较指标1、2和3;指标1、4和5;指标1、 4和5中列出的实验结果。6、7和8;索引6、9和10;索引11、12和13;以及指标11、14和15,从中我们可以发现,多任务学习框架可以显著改善人在所有六种情况下的Re-ID结果。以指标1、2、3的实验结果为例,方法标记检测前1前5前1前5LDNS [51](CVPR 2016)62.690.554.784.8PDC [36](ICCV 2017)88.798.678.394.8DLPA [54](ICCV 2017)85.197.6––SVDNet [37](ICCV2017)––81.895.2DCAF [17](CVPR 2017)74.294.368.091.0SSM [1](CVPR 2017)76.694.672.792.4DPFL [6](CVPR 2017)86.782.882.078.1JLML [19](IJCAI2017)83.298.080.696.9PRGP [39](CVPR 2018)91.798.2––DGRW [30](CVPR2018)94.998.7––BraidNet [44](CVPR2018)88.298.785.998.5AACN [48](CVPR 2018)91.498.989.597.7GCSL [4](CVPR 2018)90.298.588.897.2SGGNN [31](ECCV2018)95.399.1––PN-GAN [26](ECCV2018)79.896.2––8048对最终匹配率的影响前1 mAP对最终匹配率的影响前1 mAP的影响 最终匹配率前1 mAP100100100100m对最终匹配率的影响8080 808060(一)= 0.0= 0.1=0.260= 0.3 = 0.4(b)= 0.0= 0.1= 0.2= 0.3=0.460(c)第(1)款=0.060= 0.01= 0.02= 0.03= 0.04(d)m = 0.6 m = 0.8 m = 1.0 m = 1.2 m = 1.4图6.不同参数设置对最终匹配率的影响。 具体来说,我们使用单查询评估来比较我们的方法在Market1501数据集上的Top 1和mAP性能,其中α,β,α和m的详细信息分别在(a)到(d)中说明方法单查询多查询前1地图前1地图LDNS [51](CVPR 2016)61.035.671.646.0PDC [36](ICCV 2017)84.163.4––SVDNet [37](ICCV2017)82.362.1––DLPA [54](ICCV 2017)81.063.4––DPFL [6](CVPR 2017)88.672.692.380.7PRGP [39](CVPR 2018)81.2–––MLFN [2](CVPR 2018)90.074.392.382.4HA-CAN [20](CVPR2018)91.275.793.882.8DGRW [30](CVPR 2018)92.782.5––DuATM [32](CVPR2018)91.476.6––MGCAN [34](CVPR2018)83.874.3––BraidNet [44](CVPR2018)83.769.5––AACN [48](CVPR 2018)85.966.976.859.3GCSL [4](CVPR 2018)93.581.6––PCB [38](ECCV 2018)93.881.6––SGGNN [31](ECCV2018)92.382.8––PN-GAN [26](ECCV2018)89.472.692.980.2MGN [42](ACMMM2018)95.786.996.990.7我们的方法96.184.798.287.3表3.匹配率(%)与Market 1501数据集上最先进的方法进行比较方法前1前5Top10地图SVDNet [37](ICCV2017)75.986.489.556.3DLPA [54](ICCV 2017)81.063.4––GAN [58](ICCV2017)67.7––47.1DPFL [6](CVPR 2017)79.2––60.6MLFN [2](CVPR 2018)81.0––62.8HA-CAN [20](CVPR2018)80.5––60.8DGRW [30](CVPR 2018)80.788.590.866.4DuATM [32](CVPR2018)81.890.2–64.6BraidNet [44](CVPR2018)76.4––59.5AACN [48](CVPR 2018)76.8––59.3GCSL [4](CVPR 2018)84.9––69.5PCB [38](ECCV 2018)83.390.592.569.2SGGNN [31](ECCV2018)81.188.491.268.2PN-GAN [26](ECCV2018)73.6–88.853.2MGN [42](ACMMM2018)88.7--78.4我们的方法86.392.395.273.1表 4. 与 DukeMTMC-reID 数 据 集 上 最 先 进 方 法 的 匹 配 率(%)比较,其中S+T的表现优于S和T 1。6%和2。1%,第一和第二。2%和2. 6%,分别为mAP。对于我们的三重损失的改进,我们比较了索引2和4之间的结果;索引3和5之间的结果;索引7和7之间的结果。9;指数8和10之间; 11至14岁;以及分别在13和15之间。结果表明,前1 mAP8049改进的三重态损失优于基本三重态损失学习区别性特征。例如,通过我们的三重态损失获得的结果优于通过基本三重态损失获得的结果3。1%在第一和第四名。1%的mAP,当我们比较指数7和9. 根据块1中列出的结果(如索引中所示从图1到图5)和图2(如图5到图10所示),我们可以看到注意力子网络的改进是微不足道的,因为很难直接从低层特征图中推断出注意力。具体而言,改进仅为0。3%、0.1%、0. 3%、0. 5%和0。5%在前1位,0。2%,0. 1%、0. 4%,0. 8%和0。3%,当我们分别比较区块1和区块2之间的相应结果时,在mAP中。当使用一致注意力调节器来帮助推断注意力时,结果可以显著改善。具体而言,这些改进是1。5%、1. 8%,2. 7%,3. 1%和2。2%,第一和第二。百分之四,二、4%,3。2%,2. 6%和5。当我们分别比较区块2和区块3之间的相应结果时(如索引11至15所示),mAP中的2%参数 与大多数深度学习方法一样,我们的方法的性能也高度依赖于权重参数α、β和β,以及边缘参数m。为了阐明这一点,我们设计了四组实验来评估参数设置如何影响最终人员Re-ID性能。具体来说,我们在每组实验中只改变一个参数,而保持其他参数不变,以便评估变化的参数如何影响最终性能。为了简单起见,我们在Market1501数据集上进行实验,并使用单查询评估来评估结果。结果如图6所示,从中我们发现:1)实验结果对α、β和m具有鲁棒性,其中允许较大的变化范围以将最终人Re-ID性能保持在相对较高的水平。2)由于稀疏性在训练过程中难以控制,实验结果对稀疏性有轻微的敏感性。如果数据量很大,一些有用的信息可能会被过滤掉,因此人员Re-ID性能将受到严重影响。如果特征向量太小,特征选择的能力就会被削弱,也不利于进一步提高最终性能。考虑到这两种情况,我们宁愿选择小的在我们的实验中。8050查询CUHK03查询Market1501查询dukemtmc-Reid图7.CUHK 03、Market 1501和DukeMTMC-reID数据集上的平均热图的可视化从结果中我们可以看到,通过使用一致注意力正则化器,网络可以关注较低层的前景区域这是一个非常简单而有效的方法。其次,我们在三个数据集上比较了四种不同三重态损失的性能,如表5所示。从结果中我们可以得出结论:1)双重三重态损失优于基本三重态损失,并且对称三重态损失优于基本三重态损失。表5.三个基准上四种不同三重损失的结果数据集,其中可视化。我们的一致注意力正则化器可以有效地保持这些前景掩模相似,这些掩模分别从低层、中层和高层特征图中推导出来。因此,我们的网络将把注意力集中在较低层的前景区域。我们将三个数据集的平均热图可视化,如图7所示,从中我们可以发现,网络的大部分注意力都集中在从低层到高层的前景区域上。因此,所得到的特征将对目标失准和背景杂波非常鲁棒。4.3. 比较结果首先,我们将我们的方法与CUHK 03,Market 1501和DukeMTMC-reID数据集上的许多最先进的竞争对手进行了比较,如表2至表4所示。从结果中我们可以看到:1)我们的方法在CUHK03数据集上取得了最好的结果,其中它比之前表现最好的SGGNN [31]高出1。6%;2)我们的方法在Market 1501和DukeMTMC-reID数据集上的表现接近MGN [42],其中我们的方法在Top 1中更好,MGN在mAP中更好原因来自两个方面:1)我们的网络要轻得多,而MGN需要采取三部分分支网络来提取特征; 2)我们的三重态损失没有使用任何硬最小化策略,而MGN进一步应用batchhard三重态损失[ 11 ]改善了最终结果。从这个角度来看,我们的方法可以实现一个有竞争力的三重损失在所有三个数据集上的性能都优于双三重损失,这表明它是一种有效的方法来修正梯度反向传播,以最小化类内距离。2)我们的三元组损失在所有三个数据集上都优于对称三元组损失,因为它5. 结论在本文中,我们提出了一个简单而有效的前馈注意力网络,从人的Re-ID的前景区域学习判别特征。具体地说,设计了一种新的一致注意正则化器来驱动前景掩模相似,前景掩模分别从低级、中级和高级特征图中推导出来。这样,该网络将聚焦于较低层的前景区域,能够有效地处理目标失准和背景杂波在更高的层次上。此外,为了提高特征学习能力,引入了一种新的三元组丢失算法,在每个三元组单元中,该算法能够联合最小化类 内 距 离 和 最 大 化 类 间 距 离 . 在 Market 1501 、DukeMTMC-reID和CUHK 03数据集上的大量实验结果表明,我们的方法优于大多数最先进的方法。确认本工作得到国家重点研究发展计划项目(批准号:)的资助。2017YFA0700800和国家自然科学基金批准号:61629301。损失CUHK03Market1501DukeMTMC前1前5前1地图前1地图BT88.697.292.178.683.570.4DT90.398.293.579.884.270.9St92.898.694.280.385.071.5我们的三胞胎96.999.696.184.786.373.18051引用[1] 宋白、项白、齐天。监督平滑流形上的可伸缩人员重新识别。 在CVPR中,2017年7月。6[2] Xiaobin Chang,Timothy M Hospedales,and Tao Xiang.用于人员再识别的多级分解网络。在CVPR,第1卷,第2页,2018年。7[3] 陈大鹏,李洪生,肖彤,易帅,王晓刚.通过竞争性片段相似性聚合和共同关注的片段嵌入进行视频人物重新识别。在CVPR,2018年6月。2[4] 陈大鹏,徐丹,李洪生,Nicu Sebe,王晓刚.通过深度crf进行群体一致性相似性学习,用于人员重新识别。在CVPR中,第8649六、七[5] Weihua Chen , Xiaotang Chen , Jianguo Zhang , andKaiqi Huang.一个多任务深度网络,用于人员重新识别。在AAAI,第3988-3994页,2017年。一、二[6] 陈燕北,朱夏天,龚少刚。通过深度学习多尺度表示进行人员在CVPR中,第2590六、七[7] Weijian Deng , Liang Zheng , Qixiang Ye , GuoliangKang,Yi Yang,and Jiabin Jiao.图像-图像域自适应,保留自相似性和域不相似性,用于人员重新识别。在CVPR,2018年6月。2[8] Shengyong Ding , Liang Lin , Guangrun Wang , andHongyang Chao.深度特征学习与相对距离比较用于人员重新识别。PR,48(10):2993- 3003,2015。一、二、四[9] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在ICCV,第2961-2969页,2017年。2[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。二、三[11] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为重新鉴定人员而定义三重丢失。arXiv预印本arXiv:1703.07737,201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功