基于点到集相似度的深度特征学习用于人物再识别的研究

5 浏览量更新于2023-10-15 收藏 834KB PDF 举报

特征表示

深度学习方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3741基于点到集相似度的深度特征学习用于人物再识别周三平，王进军，王佳云，龚一红，郑南宁西安交通大学人工智能与机器人研究所摘要由于视角变化、背景干扰、光照条件变化和相互遮挡等原因，人的外观会发生显著变化，因此人的重新识别仍然是一个具有挑战性的问题。为了解决这些问题，传统的方法通常集中在提出鲁棒的特征表示或学习度量变换的基础上成对相似性，使用Fisher型标准。基于深度学习的方法的最新发展以联合的方式解决了这两个过程，(a)低分辨率(c)相互咬合(b)复杂背景(d) 角度变化取得了可喜的进展。基于深度学习的人Re-ID的关键问题之一是选择适当的相似性比较标准，并且使用基于成对相似性的现有标准的学习特征的性能本文提出了一种基于点到集相似性比较的人物身份识别方法。点到集（P2S）度量可以联合地最小化类内距离和最大化类间距离，同时反向传播梯度以优化深度模型的参数。通过利用我们提出的P2S度量，学习的深度模型可以通过学习有区别的和稳定的特征表示来有效地区分不同的人在 3DPeS 、 CUHK01 、 PRID2011 和Market1501数据集上的综合实验结果表明，该方法优于现有方法.1. 介绍给定来自一个相机视图的行人的一个单镜头或多个镜头，人重新识别（Re-ID）旨在从不相交的相机网络捕获的一组图库数据中匹配同一个人它是许多监视应用的重要任务，例如人员关联[25]，多目标跟踪[39]和被监视或分析[14]。这个问题也是非常棘手的，因为在无约束环境中的视频监视系统的典型设置通常由于视角的变化而产生显著的外观变化图1. 公共空间中的人的重新识别问题的挑战，其中探针集中的查询图像用绿色框表示，图库集中的匹配图像用黑色框表示。背景杂波，照明条件和相互闭塞，如图所示。1.一、因此，为了区分不同的个体，需要学习一种具有区分性和稳定性的特征表示，使类内距离小于类间距离。为了应对这些挑战，在过去几年中报告了大量的工作，这些工作大致可以分为两类：2）设计有效的距离度量来度量人与人之间的相似性。对于第一类，采用不同的线索进行区分和稳定的特征提取，代表性的描述符包括局部二进制模式（LBP）[35]，局部特征包围（ELF）[10]和局部最大出现（LOMO）[41]。对于第二类，标记图像用于学习独特的距离度量，流行的度量学习方法包括局部自适应决策函数（LADF）[19]，大间隔最近邻（LMNN）[32]，信息理论度量学习（ITML）[6]等。由于这两种方法都将特征提取和度量学习过程看作是两个不相交的步骤，因此它们的性能受到限制。最近，基于深度学习的方法已经被3742被证明是有效的人Re-ID [1，7，23]，因为他们可以将特征提取和度量学习纳入一个集成的框架，其中两个过程被实现为两个连接的组件：1）深度神经网络（DNN），用于从行人图像中提取特征，以及2）距离度量，用于计算损失并反向传播梯度。得益于DNN强大的表示能力，这些方法在人员Re-ID的基准数据集上实现了最先进的性能[31，34]。尽管这些基于深度学习的方法在个人Re-ID中取得了巨大的成功，但标记的训练数据不足限制了它们对测试数据的学习模型的泛化能力，而收集训练样本是相当劳动密集型的。尽管三元组损失函数[7]可以通过对大量锚点正-负三元组进行采样来有效地缓解这个在本文中，我们提出了一种新的点到集距离度量来监督设计的深度卷积神经网络（CNN），以学习人Re-ID的区分性和稳定的特征表示。为了从多个角度学习特征表示，我们构建了一个有效的基于部分的深度CNN，从每个人的不同身体部位提取有区别的特征。所提出的框架是通用的，其中不同的深度模型，如AlexNet[16]， VGGNet[30]或ResNet[11]，也可以应用于从输入图像中提取特征表示作为一般损失，我们提出的P2S度量可以联合最小化类内距离和最大化类间距离，同时反向传播梯度以优化深度模型的参数。如我们的实验中所示，在学习的特征空间中的类内距离和类间距离之间保持较大的裕度，使得其在区分类内/类间人方面的性能优于许多最先进的方法。这项工作的主要贡献可以突出如下：1）提出了一种新的P2S距离度量来监督深度模型学习用于相似性比较的有区别的和稳定的特征表示，这可以惩罚学习的特征空间中的正对和负对之间的大幅度。与现有的基于P2P距离的度量方法相比，该方法考虑了P2 S的信息，在提高排序性能方面更加有效; 2）构建了一种有效的基于部分的深度CNN，为每个Re-ID提取不同身体部位的区分性和稳定性特征表示。深度架构由全局子网络、局部子网络和融合子网络构成，使得首先在全局子网络和局部子网络中区分地学习不同的身体部位，然后在融合子网络中融合。在 3DPeS 、 CUHK01 、PRID2011和Market1501等公共基准数据集上进行了大量实验，结果表明，与现有方法相比，该方法有明显的改进.2. 相关工作据报道，已经开展了大量工作来解决人员重新识别问题。这些方法主要集中在几个不同的方面的问题，如开发鲁棒的特征描述符，设计区分度量和学习深度特征。本文对其中具有代表性的几种作一简要评述。特征设计方法特征设计方法主要集中在开发对交叉视图外观变化具有鲁棒性的有区别的人表示例如，Zhao等人[41]学了一个中，水平滤波器从补丁集群，以实现跨视图invariance。在[20]中，Liao等人构造了一个特征描述符，该特征描述符分析局部特征的水平出现并最大化出现以针对视点变化进行稳定表示。Ma等人。[22]通过协方差描述符呈现了人物图像，该描述符对照明变化和背景变化具有鲁棒性。在[8]中，Farenzena et al.增强最大稳定的颜色区域与直方图的人表示。Zhao等人[40]学习了不同的显著性特征来区分匹配的人。在[5]中，Chen et al.使用预先学习的图像结构模型来更准确地定位身体部位。Wu等人。[33]介绍了一种视点不变描述符，它通过使用他们所谓的从训练数据中学习的姿势先验来考虑人类的观点。在[15]中，Kviatkovsky et al.研究了颜色描述子的内部分布结构，该结构在一定的光照变化下是不变的。Li等人。[17]将在不同相机视图中观察到的人物图像与复杂的交叉视图变换相匹配，并将其应用于人物Re-ID。度量学习方法度量学习方法的目的是从特征空间中找到一个映射函数到另一个距离空间，其中来自同一个人的特征向量比来自同一个人的特征向量更相似t那些。例如，Zheng et al.[43]从概率的角度提出了一种相对距离学习方法。在[24]中，Mignon et al.从S-解析成对相似性约束中学习距离度量。Pedagadi等人[28]利用LADF将高维特征映射到更具鉴别力的低维空间。在[35]中，Xiong et al.通过使用核技巧和不同的正则化器，进一步扩展了LADF和其他几种度量学习方法。Nguyen等人[26]通过余弦相似度来度量人脸对的相似度，它与内积相似度密切相关。 [21]《易经》云：“君子之道，焉可诬也？”3743−2负锚−112阳性对称三重迭代常规三联体类内013我i=1探针样本GallerSampl e1=2（，−，）2=2（，−，）3=2（，−，）A BA BB B2468101224681012(e) 边际样本(f)分布优化(a) 梯度流(b) 运动轨迹24681012(c) 实时距离（d）初始分布（g）最终分布图2. 所提出的P2 S方法的图示，其中（a）显示了传统三重态公式[7]和所提出的对称三重态公式的梯度流;（b）示出了由两个梯度流驱动的两个对应的运动轨迹;（c）示出了两个三元组公式相对于迭代的类内距离、类间距离和相对距离的变化;（d）说明小批量样品的初始分布;（e）仅绘制自适应选择的正样本和负样本;（f）示出了基于所提出的对称三元组公式的分布流;以及（g）示出了最终分布。人的重新识别问题作为一个图像检索任务，通过考虑列表的相似性。Chen等人[4]提出了一种基于核的度量学习方法来探索特征空间中样本的非线性关系。在[13]中，Hirzer et al.通过使用松弛的成对约束来学习判别度量。Prosser等人发达国家[29]a并且M是属于第i个恒等式的训练图像的数目。我们的深度架构的目标是学习过滤器权重和偏置，以最大限度地减少输出层的排名误差。用于K层深度模型的递归函数可以公式化如下：Xk=<$（Wk<$Xk−1+bk）使用支持向量机的排序模型我我深度学习方法如前所述，基于深度学习的方法旨在将两者合并到集成框架中，其中可以在距离度量的监督下学习自适应特征表示例如，Li et al.[18]提出了一种新的滤波器配对神经网络，通过使用补丁匹配层来匹配视图中局部补丁的滤波器响应，从而对身体部位位移进行建模。在[1]中，Ahmed et al.提出了一种改进的深度学习框架，该框架将成对图像作为输入，并输出指示两个输入图像是否描绘同一个人的相似度值。Xiao等[34]提出了一种域引导的dropout算法- m，以提高深度CNN的性能，从而为人员Re-ID提取鲁棒特征表示。在[36]中，Yi等人构建了一个siamese神经网络来学习成对相似性，并使用身体部位来训练模型。Ding等人[7]应用三元组损失来训练用于人Re-ID的三元组深度框架。在[31]中，Wang等人提出了一种可联合提取单图像和跨图像特征表示的u-uniform triplet和siamesedeep架构。Zhou等人。[44]提出了一种自适应边缘方法，用于在连体框架中学习人员Re-ID的深度特征。3. Point to Set模型令X={Xi}N是训练样本的输入集合Xi={xi，a，xi，j}M表示训练样本的成对集合i=l，···，N;k=l，···，K;Xi（0）=Xi，⑴其中，Wk表示第k层的滤波器权重，bk表示对应的偏置，k表示卷积运算，k（·）是逐元素非线性激活函数，诸如ReLU，并且Xk表示在层k处针对样本Xi生成的特征图。为求相似性，我们将神经网络的参数作为一个整体进行简化，定义 W={W1 ， · · · ， WK} ，b={b1，· · ·，bK}。接下来的部分描述了我们提出的度量标准。3.1. 设定指标的要点P2S度量由三个项组成，即成对项、三元组项和正则化项，其可以公式化如下：L =LP（X，W，b）+αLT（X，W，b）+βR（W，b），（2）其中LP是成对项，LT表示三元组项，R表示正则化项，并且α、β是两个恒定权重参数。给定一个锚样本，成对项随机选择正和负候选项以缓解过拟合问题，而三元项自适应地选择边缘样本以提高排名性能，正则项平滑参数以保持数值稳定性.这些术语将在以下段落中详细阐述。为了缓解过拟合问题，成对项随机选择正对A Bj=1第i个原始输入数据，N是训练身份的数量，和负对来训练深度模型。特别是，The−μ3−v2负锚点-1v21阳性μ3迭代迭代类间01020相对010203744i、ji、ji，kF2N=G=成对项旨在当正距离大于预设的下边缘并且负距离小于预设的上边缘时进行惩罚。成对项的铰链损失可以用公式表示如下：其中Zt是归一化因子，Mt表示相对裕度参数，T（·）表示相对点以设置距离：T=Pa<$xi，a−xj，r<$2−Na[μ<$xi，a−xk，s<$2+v<$xj，r−xk，s<$2]，LP=1ΣNΣM max{Cp−Ga （Mp−<$xi，a−xj，r<$2），0}，i，j A B2a ai，kAB2BB2（六）Zi，j=1r=1i、jA B2（三）其中Pi，j，Ni，j表示正指示符和负指示符矩阵，μ，ν是两个自适应权重参数。给定三元组身份{i，j，k}，指示符矩阵P其中Zp是归一化因子，两个参数ai、jMP> CP分别用于定义下边缘和上边缘。具体来说，Mp-Cp表示下裕度，Mp+ Cp表示上裕度。给定并且Ni，k表示匹配和不匹配的候选将摄像机B中的第r和第s个图像分别转换为摄像机A其定义如下：第i个和第j个恒等式，指示矩阵Ga指.a1，如果i =j，且r=τp（a），对应于相机B中的第r个图像与锚图像，其定义如下：.Pi，j=.0，else，（7）ai，j+1，如果i=j，且r≤M，-1，如果i j，且r≤M，（四）ai，k1，如果ii=k，且s=τn（a），0，否则，（八）a a其中Pana都是N×M的大小，其中Gi，j的大小为N×M，Gi，j（j，r）=1表示i、ji，kRth第j个图像身份是指相同ai，j（j，r）=1意味着第j个iden的第r个图像-人到第i个身份的锚图像的那个，而Ga（j，r）= −1表示相反的情况。定义- 对称三元组：1给定一组三元组训练样本{xi，a，xi，p，xi，n}N，其中{xi，a，xi，p}（二）当事人的陈述;第i个身份的年龄，Na（j，s）=1意味着第k个身份的第s个图像被引用到与第i个身份的锚图像不同的个人，而A BBi=1A B Pa（j，r）=0且Na（j，s）=0表示相反的意思。的是正对并且{xi，a，xi，n}表示负对，i、ji，kA B 阳性和阴性边际样本表示为传统的三联体公式不利于大的相对量，有效边值<$xi，a−xi，n<$2−<$xi，a−xi，p<$2≥M，τp（a）和τn(a) ，两者均可使用ANB2A B2我这个最近邻搜索算法损失L=max{M+x}-xi，p<$2−<$xi，a−i，ni=1A B2 A正则化项为了平滑x =2，0}。在我们的对称三重态公式中，我们满足B2ΣN通过使用损失L=i=1max{M+1}，在整个神经网络中，我们定义以下正则化器术语：<$xi，a−xi，p<$2−[μ<$xi，a−xi，n<$2+v<$xi，p−xi，n<$2]，0}，<$KA B2AB2BB2R=Wk2+bk2，（9）其中第一项表示类内距离，第二项表示类内距离。第二项和第三项被加权以表示F2k=1类间距离，μ，ν是两个自适应权重。其中·2表示Frobenius范数，并且·2表示三元组术语三元组术语旨在改善通过最大化相对距离对性能进行在锚定到正集合和锚定到负集合之间。如示于图2，我们将点到集合距离表示为锚点和边缘集合样本之间的平均距离，其中锚点到负集合距离还应满足<$xi，a−xj，r<$2<<$xi，a−xk，s<$2，其中发送欧几里得规范。3.2. 深度架构所提出的P2S度量与我们提出的基于部分的深度CNN相结合，以实现用于特征学习和融合的端到端框架。所示A B2A B2图3，所提出的深层架构由三个i=j，i/=k，r，s≤M。因此，通过制定新对称三元组在公式中，三联体项的铰链损失可以定义如下：Pp3745子网：全局子网、局部子网和融合子网。以下各段更详细地解释了各个网络。全球子网络我们网络的第一部分是一个1ΣNLT =ΣMmax{Mt−T（xi，a，xj，r，xk，s），0}，（5）全局子网络，由卷积组成AL层和MAX池化层。它们被用来提取-Zi，j，k=1r，s=1A B B测试输入图像的低层特征，以支持1如图所示2.对称三重态公式通过优化正负样本的梯度方向而优于传统的三重态公式在下面的局部子网络中有区别地学习多级特征表示输入图像大小为230×80×3，首先通过不3746-零件生成+Concate操作+Elwise操作32×3×3×332×3×3×332× 3×3× 14× 100 4×100+8003× 230×8064× 7×7× 3FC足球俱乐部64× 3×3× 3+400-卷积+ReLU最大池化+++最大池化卷积+ReLUFC足球俱乐部+最终特征全局子网局部子网融合子网图3.深度特征学习和融合神经网络。此架构由三个子网络组成：全局子网、局部子网和融合子网。前两部分分别利用卷积层、最大池化层和局部生成策略从人物图像中提取全局特征表示和局部特征第三部分通过使用全连接层来学习和融合来自第二部分的最后，将关联的特征表示馈送到P2S损失层以进行相似性比较。64个学习的过滤器大小为7×7×3。然后，这些特征图通过一个整流线性单元（ReLU）。最后，将得到的特征映射通过一个大小为3×3×3的最大池化内核，步长为3。局部子网络我们的网络的第二部分是一个局部子网络，它由四组卷积层和最大池层组成。我们首先将输入的特征图在高度通道上分成四个相等的水平块，这引入了4×64个不同身体部位的局部特征图。然后，我们将每个局部特征映射通过两个卷积层，它们都有32个大小为3×3的学习过滤器。此外，第一局部卷积层的输出使用elwise操作与第二局部卷积层的输出进行汇总。然后，我们在它们之后添加一个整流线性单元（ReLU）。最后，将得到的特征图通过大小为3×3的最大池化内核，步长为1。为了有区别地学习不同身体部位的特征表示，我们不在四组卷积层之间共享参数融合子网络我们的网络的第三部分是一个融合子网络，它由四个完全连接的层组成。首先，局部特征图的d-最终得到的特征表示进一步与第二个四个全连接层的输出相关联，以生成800维的最终特征表示。类似地，我们在四个完全连接的层之间不共享参数，以保持不同身体部位的特征表示的区分性。3.3. 优化我们使用动量方法来更新自适应权重，并使用梯度反向传播方法来优化深度CNN的参数。两者都是以小批量模式进行的。为了继续进行，我们首先计算损失函数相对于自适应权重参数和相应层的特征表示参数的梯度为了简单起见，我们通过定义k=[Wk，bk]和k={k1，. . . ，K}。权重参数μ、ν可以自适应地学习，运用动量法进行训练。为了简化问题，我们定义了μ=+和ν=−，因此它们可以通过只更新来更新。三重态项相对于λ的偏导数可以用公式表示如下：.T（xi，a， xj，r， xk，s）ABB 当T>0时，不同的身体部位通过跟随每个团队中的两个完全连接的层尺寸t=00，否则，（十）全连接层的长度为100，其中，T=M+ T（xi，a，xj，r，xk，s），并且T可以是com。在他们之间添加了nit（ReLU）。然后，区分学习的前四个完全的局部特征表示不推测如下：A BB中国连接的层通过添加∂Ta我这个k，s2j，rk，s2另一个全连接层，其尺寸为400。Fi-∂ϑ= 2Ni,k[ǁxA −xB 2− −xB<$2]，（11）P2S丢失层3747∂Ω∂Ω∂Ω∂Ωi、j一∂Ω∂ΩxA Bx∂ΩxA Bx=A BB然后，可以按如下方式更新“配置文件”：其中η是更新速率。可以清楚地看到，当<$xi，a−xk，s<$2><$xj，r−xk，s<$2，即t0，则μ将算法1P2S梯度下降算法输入：训练样本X、学习速率ω、最大迭代次数H、权重参数α和β、初始化权重参数μ和ν、更新速率η、余量参数Cp、Mp和Mt。AB2BB2输出：网络参数当v增加时，将减少;反之亦然。作为结果，将自适应地调整对同一三元组单元中的每个样本的反向传播的强度，其中锚和正样本将被聚类，并且负样本将远离由锚和正样本扩展的超线。为了采用反向传播算法来优化网络参数，我们计算部分损失函数的导数如下：重复1.通过前向传播计算小批量中成对项和三元组项中的xi，a，xj，r和xk，s的输出特征表示。重复a) 更新权重参数μ和ν，等式（10），Eq. （11）和等式（12）;b) 根据等式计算CUP和CUPT。（15）和LΣN∂Ωi=1LP（Xi，Xi）+α LT（Xi，X）+2βΣKk=1（13）当量（17）分别;c) 根据等式1增加梯度ΔL（13），Eq. （14）和Eq. （16）;直到遍历每个单元其中第一项表示成对项的梯度，第二项表示三元组ter-m的梯度，第三项是正则化项的梯度小批量2. 更新h+1=h−ωhLH直到h > Hh←h+1。为简单起见，我们定义P=Cp−Ga（Mp−<$xi，a−xj，rj=2），则两两的阿克斯岛巴克斯河xk，sB2A、乙、B在每个小批量中，它们可以术语可表述如下：∂Ω∂Ω∂Ω.LP=n（xi，a， xj，r）AB 当P>0时，0，否则，（十四）通过分别向前和向后运行在成对和三元组单元中，每个图像的传播。由于算法需要遍历所有的成对和三重单元来累积每个单元中的梯度，其中，CUP定义如下：迭代，我们称之为P2S梯度下降算法。我们在算法1中展示了整个过程。CIP1=ΣN ΣM2Gai，a，j，r<$xi，a−<$xj，r（−）·。（十五）4. 实验Zp j=1k=1i，j A B4.1. 数据集和设置通过在等式（1）中的T（xi，a，xj，r，xk，s）的定义（10）我们A B B将三元组项的梯度反向传播导出为如下所示：.T（xi，a， xj，r， xk，s）ABB 当T>0时，我们在四个基准数据集上评估了我们的方法，即3DPeS[2] ， CUHK01[17] ， PRID2011[12] 和Market1501 [42]。他们中的每一个都至少有一个图像，每个人和每个相机的看法。LT=∂Ω0，否则，（十六）3DPeS：数据集包含192人的1011张图像，这些图像来自8台户外摄像机，其中，将ABT定义为：观点。每个人的图像编号从2到26不等。我们使用与[3]相同的协议，其中一半1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 =ΣM 2Pai，aj，r <$xi，a−<$xj，r（−）·3748i，k的人用于培训，剩下的人用于测试。香港中文大学01：数据集包含971人∂ΩZti、jj，k=1r，s=1一我这个Bk，s∂Ωxi，a−（十七）从校园环境中的两个摄像机视图中，并且在每个摄像机视图下每个人都有两个图像−2µNa（xA）−xB）·A B∂Ωxj，r−我们使用与[31]相同的协议，其中871个人的图像用于训练，剩下的用于测试。−2νNa （xj，r-xk，s）·BB。PRID2011：数据集包括749人，i，k B B从上面的推导，很明显，成对项和三重项的梯度都可以是通过两个不相交的摄像机，序列长度为5到675帧。按照[37]中使用的协议，我们只考虑出现在两个摄像机中的前200人。很容易计算，给定xi，a，xj，r，xk，s的值和市场1501：该数据集包含32668张图像，A B B3749表1.3DPeS数据集上的匹配率（%）方法Top1Top5Top10Top15Top20KISSME[15]22.9448.7162.2172.3978.11[第28话]33.4345.5069.9876.5381.03[27]第二十七话53.3076.7986.0389.3792.78KLFDA[35]54.0277.7485.9290.0492.38SCSP[3]57.2978.9785.0189.5291.51我们的方法（P2P）61.9784.1792.1993.8595.94我们的方法（P2S）71.1690.5195.1996.8897.601501个身份每个身份最多由六个摄像头捕捉，最少由两个摄像头捕捉。我们使用提供的固定训练和测试集，在单查询和多查询评估设置下，如[38]所示。参数设置权重初始化从两个零均值高斯分布与标准偏差从0。01到0。001，分别。偏置项设置为0。学习率ω=0。01，更新速率η = 0。001，权重参数α = 0。1，β = 0。01，方向控制参数μ = 0。6，ν = 0。4和边缘参数Cp=0。2，Mp=0。3，Mt=1。二、评估协议数据集被分为训练集和测试集，其中相同的图像一个人只能出现在任何一组中。将测试集进一步分为探测集和图库集，两个集合包含同一个人的不同图像。结果通过累积匹配特征（CMC）曲线[9]进行评估，这是在前n个匹配中找到校正匹配的估计。最后的表现是平均超过十个随机重复的过程。比较结果我们将我们的结果与四个基准数据集上的几种现有方法进行了比较，即 KISSME[15] ，LADF[19]， LF[28]， kLFDA[35]，[2019 -03 -16][2019 - 03 - 19][2019 - 03 -[31][32][33][34][35][36][37][38][39][3 为了分析每种成分对最终性能改善的贡献，我们报告了两种变化的方法的结果，即：P2P和P2S，其中，前一个P2P结果是在没有三元组项的情况下获得的，并且P2S利用完整的约束。详细的结果从表1至表4列出，其中最佳性能以粗体红色突出显示，第二佳以蓝色突出显示。4.2. 结果表1列出了3DPeS数据集上的结果，其中我们的P2P方法获得了第二好的性能，这得益于基于部分的深度CNN架构，而我们的P2S方法在所有Top 1到Top 20的准确度中获得了最佳性能。与以前在该数据集上表现最好的方法SCSP [3]相比，我们的两种方法优于它4。68%，13。前1位准确率分别为87%此外，还可以利用表2.CUHK01数据集的匹配率（%）方法Top1Top5Top10Top15Top20KISSME[15]29.4059.3471.4580.0988.12ITML[6]17.1041.0353.1263.8769.36LMNN[32]21.1749.4961.1269.9378.32[1]65.0089.3392.0493.7496.51JSC[31]65.7189.4192.5293.7496.63我们的方法（P2P）68.9189.2394.2996.3596.74我们的方法（P2S）77.3493.5196.7397.8498.53表3.PRID2011数据集的匹配率（%）方法Top1Top5Top10Top20KISSME[15]28.5459.7872.1383.26[第28话]26.4056.0769.8981.12LMNN[32]14.3838.0950.2267.19LADF[19]8.2020.4529.8942.25TDL[37]30.2259.1074.0488.43我们的方法（P2P）62.2488.7398.6199.92我们的方法（P2S）70.7195.1598.92100.00在三元组术语中，P2S方法赢得P2P方法9。19%的Top1准确度。CUHK01数据集的结果报告在表2中，列出的基准工作包括传统方法和基于深度学习的方法。从结果- s中，我们可以看到我们的两种方法优于基于深度学习的方法IDLA [1]和JSC [31]所达到的先前最佳准确度。特别是，我们的两种方法优于JSC方法，其性能为3.20%和11。63%的Top 1准确度。与表1类似，P2S方法比P2P方法好8倍。考虑P2S信息后，Top 1的准确率为43%在表3中，PRID 2011数据集是专门为基于视频的人Re-ID问题而设计的。为了公平起见，我们选择在P2S方法中不使用任何基于视频的提示，即。就像在[37]中一样。结果再次表明，我们的P2P方法赢得了第二好的性能，我们的P2S方法在所有Top 1到Top 20中实现了最好的性能。与以前最好的方法TDL [37]相比，我们提出的两种方法优于它32。02%和40。49%的Top 1准确度。此外，P2S方法以8. 47%的Top 1准确度。最后，Market1501数据集是一个新提出的大规模数据集的人重新识别。通过常规方法LDNS获得最佳性能[38]。如表4所示，所提出的两种方法优于LDNS 0.29%，9。在单次查询设置下，Top1的准确率为70%，4.53%和14。在多查询设置下的前1准确率分别为22%。同样，所呈现的P2S方法以9. 41%，9。在单查询和多查询评估设置下，Top1准确率分别为69%。对于mAP评估，可以得出相同的结论。3750，= 0.05，顶部1 =68.9%，= 0.1，前1名= 77.3%，= 0.15，顶部1 =72.5%Cp = 0.25，Mp = 0.25，顶部1 = 66.9%Cp = 0.2，Mp = 0.3，Top 1 = 77.3%Cp= 0.45，Mp= 0.55，顶部1 = 75.5%匹配率（%）匹配率（%）CUHK01的CMC曲线，10095908580CUHK01在不同Cp和Mp下10095908580不同Mt时CUHK01的CMC曲线10095908580757575707070650 5 10 1520650 5 10 1520650 5 10 15 20（一）排名分值（b）第（1）款排名分值（c）第（1）款排名分值图4.具有不同参数的CUHK01数据集上的CMC曲线，其中（a）显示了具有不同α和设置Cp = 0的匹配结果。2，Mp = 0。t =3，t = 1。图2（b）示出了在改变Cp、Mp和设置α = 0的情况下的匹配结果。1且Mt = 1。（c）示出了在改变Mt和设置α = 0的情况下的匹配结果。1，Cp = 0。2，Mp = 0。3 .第三章。表4.Market1501数据集上的匹配率（%）方法单查询多查询Top1地图Top1地图弓[42]34.3814.1042.6419.47KLFDA[35]51.3724.4352.6727.36KISSME[15]40.5019.02−−−−LDNS[38]61.0235.6871.5646.03SCSP[3]51.9026.35−−−−我们的方法（P2P）61.3135.7176.0947.92我们的方法（P2S）70.7244.2785.7855.73表5.方向控制参数的影响数据集µ=1。0，ν=0。0µ=0。6，ν=0。4µ=0。4，ν=0。6Top1Top5Top1Top5Top1Top53DPeS64.3888.1071.1690.5169.2889.91中大0171.2792.0277.3493.5174.5492.83PRID201165.3290.1970.7195.1568.2493.32Market150163.8288.7870.7290.5268.2189.09参数分析实验表明，权参数α、边缘参数Cp、Mp、Mt和方向控制参数μ、ν对方法有重要影响接下来，我们在CUHK01数据集上对我们的方法进行了实证分析参数Cp、Mp、Mt和α的影响如图所示。4中，我们分析了改变一个参数而固定其他参数的影响从结果中可以看出，我们的方法通过设置α=0来实现其最佳性能。1，Cp=0。2，Mp=0。t = 3， t=1。二、此外，我们还可以得出以下三个实证结论：1) 对于参数α，大的值会导致过拟合问题，小的值会削弱P2S约束的强度2)对于参数Cp，Mp，小的下裕度会导致过拟合问题，大的上裕度会使数值不稳定。3）同样，大的Mt也会导致数值不稳定，小的Mt会使候选正负样本难以区分。与[7]提出的传统三重态公式不同，我们的对称三重态框架引入了加权负距离项，以优化一个三重态单元中每个样本的反向传播。因此，通过设置μ = 1，传统的三重态公式是我们方法的特殊情况。0，ν=0。0和η=0。0的情况。比较结果示于表5中，其中我们的对称三重态框架优于常规框架，其具有6。78%，6. 07%，5.39%，6。在四个数据集上，分别为90%。得益于参数更新策略，μ和ν的初始值可能对我们的方法产生轻微影响，其中我们可以看到性能仅下降1。88%，2.80%，2. 47%，2。51%，设置µ=0。4，ν=0。6分别在四个数据集上5. 结论在本文中，我们提出了一种新的人重新识别方法，通过在基于部分的深度CNN中进行点到集（P2S）相似性比较来执行集成的特征学习和融合。深度架构分别学习全局子网络、局部子网络和融合子网络中的全局特征、局部特征和融合特征。P2S距离度量联合地最小化类内距离并最大化类间距离，同时反向传播梯度以优化深度参数。因此，学习的深度排名模型可以有效地区分不同的人，通过学习的区别性和稳定的功能。在3DPeS、CUHK01、PRID2011和Market1501数据集上的实验结果表明，该方法在身份重识别方面优于现有方法.确认本工作得到国家基础研究计划（973计划）的部分资助. 2015CB351705和国家自然科学基金批准号：61473219。Mt = 1.0，顶部1 = 72.1%Mt = 1.2，顶部1 = 77.3%Mt = 1.4，顶部1 = 69.0%匹配率（%）3751引用[1] E.艾哈迈德，M。Jones和T. K.标记.一种用于人员重新识别的改进的深度学习架构。在IEEE计算机视觉和模式识别会议（CVPR）中，2015年6月。[2] D.巴尔铁里河Vezzani和R.库奇亚拉Sarc3d：一种用于人体跟踪和重新识别的新型3d人体模型。在第16届图像分析和处理国际会议论文集，第197-206页2011年。[3] D. Chen，Z.袁湾，澳-地Chen和N.郑空间约束下的相似性学习在人员再识别中的应用。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。[4] D. Chen，Z.Yuan，G.Hua，N.Zheng和J.王. 基于显式多项式核特征映射的相似性学习用于人员重新识别。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第1565[5] D. S. Cheng，M.中国植物志 Cristani，M. 斯托帕湖巴扎尼，维·穆里诺用于重新识别的自定义图形结构。在BMVC，第1卷，第6页。Citeseer，2011.[6] J. V. Davis，B. Kulis，P. Jain，S.先生，我。S.狄伦信息理论度量学习。第24届机器学习国际会议论文集，第209-216页。ACM，2007年。[7] S.丁湖，澳-地 Lin，G. Wang和H. 赵深度特征学习与相对距离比较，用于人员重新识别。 PatternRecognition，48（10）：2993[8] M. 法伦泽纳，L. 巴扎尼，A. 佩里娜，V.Murino，以及M. 克里斯塔尼通过局部特征的累积进行人员重新识别在Computer Vision and Pattern Recognition（CVPR），2010 IEEE Conference on，第2360-2367页中。IEEE，2010。[9] D. Gray，S. Brennan和H.涛.评估识别、重新获取和跟踪的外观模型。 IEEEInternationalWorkshoponPerformance Evaluation for Tracking and Surveillance（PETS），第3卷。Citeseer，2007.[10] D. Gray和H.涛. 具有局部特征集合的视点不变行人欧洲计算机视觉会议，第262-275页。Springer，2008.[11] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年6月。[12] M.希尔策角，澳-地别列兹奈山口M. Roth和H.比肖夫通过描述性和判别性分类进行人员再识别斯堪的纳维亚图像分析会议，第91-102页。Springer，2011.[13] M. 希尔兹河，山口M. 罗斯，M。 Kostinge r和H. 比肖夫用于人员重新识别的再宽松成对学习度量。计算机Springer，2012.[14] W. Hu，T.坦湖，澳-地Wang和S.梅班克。目标运动和行为的视觉监控研究综述系统，男人，控制论C部分：应用和评论，IEEE Transactions on，34（3）：334 -352，2004。[15] M. Koestinger，M.Hirzer，P.Wohlh

下载后可阅读完整内容，剩余1页未读，立即下载