四元组网络实现人员重新识别的有效性

128 浏览量更新于2023-10-15 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

403除了三重态损失：一个深度的四元组网络，用于人员重新识别陈伟华1，2，陈晓堂1，2，张建国3，黄凯琪1，2，41CRIPAC NLPR，CASIA2中国科学3英国邓迪大学科学与工程学院计算4中国科学院脑科学与智能技术卓越中心邮箱：{weihua.chen，xtchen，kqhuang}@ nlpr.ia.ac.cn，j.n. dundee.ac.uk摘要人员再识别（ReID）是广域视频监控中的一项重要任务，其重点是识别不同摄像机之间的人员。最近，具有三重丢失的深度学习网络成为人ReID的常见框架。然而，三重损失支付的主要注意力在获得正确的顺序上的训练集。它仍然存在从训练集到测试集的泛化能力较弱的问题，从而导致性能较差。在本文中，我们设计了一个四重损失，它可以导致模型输出具有更大的类间变化和更小的类内变化相比，三重损失。结果表明，该模型具有较好的泛化能力，在测试集上具有较高的性能特别地，基于人ReID的四元组损失，提出了使用基于边缘的在线硬否定挖掘的四元组深度网络。在广泛的实验中，所提出的网络在代表性数据集上的性能优于大多数最先进的算法，这清楚地证明了我们所提出的方法的有效性1. 介绍人员再识别（ReID）是广域视频监控中的一项重要任务。关键的挑战是外观变化很大，通常是由人体姿势、照明和视图的显著变化引起的。由于人员ReID通常使用累积匹配特征曲线[11，13，45]进行性能评估，其遵循rank-n标准，最近的深度学习方法[7，2，29，32，4]通常将人员ReID视为排名任务并应用三元组损失来解决问题。三重丢失的主要目的是获得每个探针图像的正确顺序，并在投影空间中区分然而，在人ReID的类别（即。个人身份）是不可见的，并且与训练类别没有重叠如图所示图1. (a)和（b）说明两种模型的影响（例如，三重态损失与当应用于相同的测试集（右）时，在相同的训练集（左）上学习四元组损失。我们可以看到，在情况（b）中训练的模型输出了一个小的类内变化和一个大的类间变化，因此在测试集上的表现往往比在情况（a）中训练的模型更好。在图1（a）中，学习模型（例如，通常通过三重丢失）是训练标识所特有的，并且在区分这些标识方面表现良好。当它被应用于看不见的测试身份时，训练好的模型很难成为一个好的执行者，从训练到测试表现出较弱的泛化能力。根本原因是通过三重丢失训练的模型仍然会导致相对较大的类内变化1，这也在[4]中观察到。值得注意的是，减少类内变化和扩大类间变化可以减少训练模型的泛化误差[34]。1类内和类间变化的类别是指个人ReID中的个人身份。404我们认为，测试集上的三重损失的性能可以通过进一步减少类内变化和扩大类间变化来改善。所需的输出如图所示。第1段（b）分段。本文介绍了一种四元组排序损失，它是在三元组损失的基础上改进的，实现较小的类内变化和较大的类间变化，在测试集上具有显著的性能。我们设计的损失同时考虑了以下两个方面：1）获得关于相同探针图像的对的正确顺序（例如，B1B3 0）。但是对比的第一项损失优先考虑正对g（xi，xj），当相对距离的误差不够大时。获得较小的正距离会导致对比损失，并存在正负对之间的相对距离四胞胎与对比：然后，我们比较我们的四重损失方程。3、对比损失。除了max（u，·）中的阈值u的差异之外，我们可以发现等式（1）中的两个裕度阈值是相同的。3是不同的。相反，在情况2中，其中垂直虚线表示由分类器学习的决策阈值，分类器具有较低的误分类率。因此，在本发明中，在Eq. 8将有利于情况2而不是情况1，因为情况2（一个错误分类的样本）中的二进制分类损失将低于情况1中的二但是在人ReID中，我们更喜欢情况1，它为所有三个人输出正确的rank-1结果，而不是包含错误rank-1结果的情况2。在我们的四重损失，我们对待两项方程。3不同地来解决这个问题3，它们是用不同的裕度阈值训练的。第二项提供相对较弱的辅助约束，而第一项保持较强的约束并起主导作用。四胞胎与三重态：如第3节所示，三重态损失是四重态损失的一部分，但没有方程中的第二项。3.第二项从具有不同探头图像的订单的角度提供帮助。它可以进一步扩大类间变异，提高测试数据的性能。结果表明，我们的四元组损失算法在一定程度上弥补了二元分类损失算法和三元组损失算法的不足，并在Person ReID中发挥了各自的优势，取得了比二元分类损失算法和三元组损失算法更好的性能。在第5.2节中，我们还提供了相关的实验来比较我们的四元组网络与传统网络，使用等式中的对比损失。7.第一次会议。在Eq的对比损失8、两个名词共用相同的裕度阈值αcts，这表明2在这个批次中，我们可以设置a=M/2以保持比例一致。4103这在具有二进制分类损失的传统网络中无法实现，除非网络的输入像我们的那样从双联体变为四联体。411图5.不同模型在CUHK03训练集上的类内和类间距离分布红线和蓝线分别表示内部距离和内部距离.5. 实验我们进行两组实验：1）评估不同损失的性能; 2）将所提出的方法与最先进的方法进行比较。5.1. 实施和数据集我们的方法是在Caffe框架上实现的[12]。所有图像在输入网络之前都被调整为227×227。学习率设置为10−3，批量大小为128。对于所有的数据集，我们水平地镜像每个图像并将数据集大小增加四倍。当基于余量的硬负挖掘被关闭时，等式（1）中的余量阈值α1和α2被改变3分别设置为1和在基于间隔的硬负挖掘训练开始时，两个分布都是混沌的，平均距离也就没有意义了。为了提供有效的启动并加速收敛，我们使用固定裕度阈值的预训练模型初始化网络。对于所有其他网络，我们使用预训练的AlexNet模型（在Imagenet数据集上训练[15]）来初始化前两个卷积层的内核权重采用累积匹配特性（CMC）曲线来测量ReID性能。我们报告了所有数据集上的单次拍摄结果。实验在三个数据集上进行，包括CUHK03 [19]，CUHK01 [18]和VIPeR [9]。的CUHK03 [19]包含来自1360人的13164张图像。我们随机选择1160人进行培训，100人进行验证，100人进行测试，与[19]和[1]完全相同。CUHK01 [18]和VIPeR [9]数据集分别有971和632人，从两个相机视图中捕获。每个人都包含来自每个相机的两个图像。对于VIPeR和CUHK01数据集，个体被随机分为两个相等的部分，一个用于训练，另一个用于测试。请注意，为了比较的目的，我们进一步报告我们的在CUHK01上使用另一种设置的结果：随机抽取100人进行测试，其余871人用于培训，用CUHK01表示（p=100）。5.2. 四元组网络不同的损失。我们进行了不同损失的实验，并提供了几个基线来说明我们的方法中每个组件的有效性。结果示于表1中。有三个基线。的前两个基线是图1中的网络。2（a）和(b) 使用具有嵌入欧几里德距离和学习度量的三元组损失分别地，由BL 1：三元组（嵌入）和BL 2：三元组（学习度量）表示。第三种是使用第节中提到的二进制分类损失的传统网络。 4与我们的框架相同的八层，由BL3表示：分类。我们的改进的三重损失包含图2中的二维输出的归一化2(c) 用Triplet（Improved）表示，Triplet（Improved w/osfx）表示没有softmax损失的帮助。网络四元组表示图中提出的四元组网络。 3.将我们的 Triplet（ Improved ）与两个基线（ BL 1 ： Triplet（Embedding）和BL 2：Triplet（Learned Metric））进行比较，很当比较Triplet（Improved w/o sfx）和Triplet（Improved）之间的性能时，添加softmax损失可以稍微提高我们改进的Triplet损失的整体性能。如果引入新的约束，对于所有三个数据集，四元组的性能始终优于三元组（改进），这意味着我们提出的四元组损失的有效性。更重要的是，如第4节所述，我们的四胞胎损失与二进制分类损失有关。通过四元组分类算法与基线分类算法BL 3：Classification的比较，可以发现四元组分类算法克服了二值分类算法的不足，在分类性能上有了很大的提高。有vs无保证金的硬负挖矿。然后，我们测试我们的基于边缘的硬负挖掘的有效性。在表 1 中，术语+MargOHNM表示使用我们基于边际的在线硬负挖掘的网络。实验结果表明，使用 +MargOHNM 后，Quadruplet+MargOHNM的结果得到了进一步的改善，表明基于边缘的在线硬否定挖掘能够有效地选择样本，提高挖掘性能。可以看出， +MargOHNM 在CUHK 03和CUHK 01中对于rank-n（n>1）表现得更好，但在VIPeR中表现得相反。因为我们采用两个学习分布的平均值来代替边缘。两个分布的置信度有很大的差异。412表1.CMC性能的国家的最先进的方法和不同的架构在我们的方法上的三个代表性的数据集。方法CUHK03中大01（p=486）香港中文大学01（p=100）Viperr=1R=5R=10r=1R=5R=10r=1R=5R=10r=1R=5R=10ITML [6]5.5318.8929.9615.9835.2245.6017.1042.3155.07---[43]第四十三话8.7624.0738.2819.7632.7240.2922.8443.8957.6726.3146.6158.86KISSME [14]14.1748.5452.57---29.4057.6762.4319.6048.0062.20[19]第十九话20.6551.0067.00---27.8764.0077.00---mFilter [44]---34.3055.0065.30---29.1152.3465.95KLFDA [38]48.2059.3466.3832.7659.0169.6342.7669.0179.6332.3365.7879.72[41]第四十一话---------34.4062.1575.89[1]54.7486.5094.0047.5371.5080.0065.0089.5093.0034.8163.3274.79SIRCIR [32]52.1785.0092.00---72.5091.0095.5035.7667.0082.50DeepRanking [2]---50.4175.9384.0770.9492.3096.9038.3769.2281.33DeepRDC [7]---------40.5060.8070.40[42]第四十二话58.9085.6092.4564.9884.9689.92---42.2871.4682.94音乐厅[24]62.1089.1094.3053.4076.3084.40---45.9077.5088.90DeepLDA [36]63.2389.9592.73---67.1289.4591.6844.1172.5981.66GOG [23]67.3091.0096.0057.8079.1086.20---49.7079.7088.70GatedSiamese [30]68.1088.1094.60------37.8066.9077.40ImpTrpLoss [4]---53.7084.3091.00---47.8074.7084.80决定指导文件[37]80.5094.9097.1071.7088.6092.60---35.4062.3069.30BL 1：三联体（嵌入）60.1390.5195.1544.2467.0877.5763.5080.0089.5028.1652.2265.19BL 2：三重（学习度量）61.6092.4197.4758.7480.3588.0777.0094.0097.5040.1970.2582.91三重（改进，不含sfx）70.2595.9798.1058.8582.6188.3777.5095.0096.5044.3072.4780.06三联（改善）72.7895.9797.6859.2682.4188.2778.0095.5098.0044.3071.8481.96四胞胎74.4796.6298.9562.5583.0288.7979.0096.0097.0048.4274.0584.49BL 3：分类68.3593.4697.4758.7479.0187.1476.5094.0097.0044.3069.9481.96四联体+MargOHNM75.5395.1599.1662.5583.4489.7181.0096.5098.0049.0573.1081.96对+MargOHNM结果的影响。香港中文大学03及香港中文大学01的表现（即学习的分布）处于高置信水平（rank1 70%+），远高于VIPeR（rank1 40%+）。因此，+MargOHNM可以更好地在CUHK03和CUHK01上工作。影响内部和中间类变化.我们图中还提供了在CUHK03训练集上用不同损失训练的模型的类内和类间距离的分布。5.由于与BL 2：Triplet（学习度量）的距离不在0到1的范围内，因此我们将距离归一化为[0，1]并得到结果。从图5中我们可以看到，我们的Triplet（Improved）、Quadruplet和Quadruplet+MargOHNM逐渐使平均类内距离越来越小，使平均类间距离越来越大。对于BL 2：Triplet（学习度量）的大类内距离和小类间距离，这5.3. 与最新技术水平的比较我们比较了我们的代表ReID方法，包括18个算法。在表1中，值得注意的是，我们的结果优于上述大多数方法，这进一步证实了我们提出的方法的有效性。在rank-1精度下，我们的多任务网络在所有三个数据集上的表现都优于大多数现有的人ReID算法。DGD [37]的性能比我们更好，但它将所有当前数据集组合在一起作为其训练数据，这比我们的大得多。即便如此，我们在CUHK 03上的rank-n（n> 1）性能仍高于DGD。DGD中的损失旨在最大化前1分类准确度，较少强调前n（n> 1）准确度。前1分类准确度对应于秩1结果。我们的四元组损失同时考虑了排序顺序和rank-1的准确性，这由于VIPeR相对较小，预计深度学习可能无法充分发挥其潜力;相反，手工制作的度量学习可能在这个集合上更有利，如GOG[23]和Ensembles [24]。值得注意的是，DeepLDA [36]和ImpTrpLoss [4]也像我们一样关注类内和类间变化，如第2节所述。从与DeepLDA [36]和ImpTrpLoss [4]相比的结果中，我们可以得出结论，我们的约束比他们的约束更有效。6. 结论在本文中，提出了一个四重损失处理的弱点，三重损失的人ReID。在此基础上，提出了一种基于四元组损失的在线硬否定挖掘算法，该算法在CUHK03、CUHK01和VIPeR上的性能优于现有的大多数算法。确认本工作得到了国家重点研究发展计划（2016 YFB1001005）、国家自然科学基金（批准号：61673375和批准号61403383 ）和中国科学院项目（批准号：QYZDB-SSW-JSC006 ，批准号 173211KYSB20160008）。413引用[1] E.艾哈迈德，M。Jones和T. K.标记.一种用于人员重新识别的改进的深度学习架构。CVPR，2015。[2] S.- Z. 陈春C. Guo和J. - H. Lai.通过联合表示学习进行人员重新识别的深度排名。TIP，25（5）：2353[3] W. Chen，X. Chen，J. Zhang，and K.煌一个多任务深度网络用于人员重新识别。InAAAI，2017.[4] D.郑，Y.贡，S. Zhou，J. Wang，and N.郑基于改进三重丢失函数的多通道部件cnn的人员再识别。在CVPR，2016年。[5] C. Cortes 和 V. 瓦普尼克支持向量网络。 Machinelearning，20（3）：273[6] J. V. Davis，B. Kulis，P. Jain，S.先生，我。S.狄伦信息理论度量学习。ICML，2007年。[7] S.丁湖，澳-地Lin，G. Wang和H.赵使用相对距离比较的深度特征学习进行人员重新识别。 PatternRecognition，48（10）：2993-3003，2015.[8] M. Gou、X. Zhang，中国古柏A. Rates-Borras，S. 阿斯加里-埃斯费登M. Sznaier和O.营在外貌受损的情况下重新识别人。在BMVC，2016年。[9] D. Gray，S. Brennan和H.涛.评估识别、重新获取和跟踪的外观模型。 IEEEInternationalWorkshoponPerformance Evaluation for Tracking and Surveillance（PETS），2007年。[10] R. Hadsell，S. Chopra和Y.乐存。通过学习不变映射来降维。CVPR，2006。[11] M. Hirzer，P. M. Roth和H.比肖夫通过有效的基于冒名顶替者的度量学习进行人员重新识别。高级视频和基于信号的监控（AVSS），2012年IEEE第九届国际会议，2012年。[12] Y. Jia、E. Shelhamer，J.多纳休S. Karayev，J. 长R. Girshick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。ACMon Multimedia，2014年。[13] S. Karanam，M. Gou，Z.古，英-地Wu，中国茶条A.拉泰博拉斯岛Camps和R.J. 拉德克人员再认定的综合评价和基准：功能、指标和数据集。arXiv预印本arXiv：1605.09653，2016年。[14] M. Koestinger，M.Hirzer，P.Wohlhart，P.M. Roth和H.比肖夫基于等价约束的大规模度量学习。CVPR，2012。[15] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。[16] D. Li，X. Chen，Z. Zhang和K.煌在身体和潜在部位上学习深度上下文感知特征，用于人员重新识别。在CVPR，2017年。[17] W. Li和X.王.局部对齐的特征在视图间变换。CVPR，2013。[18] W.利河，巴西-地赵，和X。王.用转移度量学习进行人类重新识别。InACCV，2012.[19] W. 利河，巴西-地Zhao，T.萧，还有X。王. Deepreid：深度过滤配对神经网络，用于人员重新识别。CVPR，2014。414[20] Z. Li，S.昌角，澳-地Liang，T. S.黄湖，澳-地Cao和J.R.史密斯学习局部自适应决策函数进行人员验证。CVPR，2013。[21] S. 廖，Y.Hu，X.zhu和S.Z. 李基于局部最大发生表

下载后可阅读完整内容，剩余1页未读，立即下载