x y x y=sim(a~xy,a~””)sim(p~xy,p~””)。(九)x y x y该局部相似性可以被解释为由身体部位相似性加权的外观相似性,反之亦然。因此,根据等式(8)和(9),两个图像之间的相似性被计算为由在相应位置处的身体部位相似性加权的局部外观相似性的平均值sim(I, I′)=1Σ sim(a~,a~′)sim(p~,p′)。IS2xxx′ y′xyx′y′xyx′y′用于人员重新识别的部分对齐双线性表示7PIS2Xy·P一∈···∈(a) 外观特征(b)零件特征图三. Market-1501数据集上的归一化局部外观和部件描述符的t-SNE可视化。实验结果表明,我们的双流网络成功地将外观和零件信息分解为两个流。(a)外观描述符大致按颜色聚类,独立于它们来自的身体部位。(b)部位描述符按其来源的身体部位进行聚类,而不考虑颜色。(放大后在显示器上查看效果最佳)结果,图像相似性不依赖于图像中各部分的相对位置,因此减少了未对准问题。为了使局部部分相似性总是非负的,并且因此局部相似性的符号仅取决于局部外观相似性的符号,我们还可以通过在部分映射提取器之后添加ReLU层来将部分描述符pxy限制为逐元素非负的,如图2所示。由于这种变体的准确性与原始版本相似,因此我们在所有实验中使用了没有ReLU层的模型。更多详情请参见补充材料。与基线模型的关系。考虑一种基线方法,它只使用用于Σ图像表示的外观图和空间全局池化然后,im-年龄相似性被计算为sim(I,I′)=1xyx′y′sim(a~xy,a~″″)。Unlik eour模型,这种方法不能反映部分相似性。考虑另一个模型,基于框的表示,其将图像表示为K个身体部位描述符的级联,其中第k个身体部位被表示为对应边界框内的平均池化外观特征。当pxy被定义为pxy=[δ[(x,y)]时,该模型等价于我们的模型R1],,δ[(x,y)其中Rk是第k个部分边界框内的区域,并且δ[ ]是指示符函数,即,δ[x]= 1,如果x为真,否则为0。由于我们的模型包含这些基线作为特殊情况,并经过训练以优化重新识别损失,因此保证比它们表现得更好。双流网络产生分解的外观和零件图。在训练开始时,网络的两个流主要表示外观和部分图,因为外观图提取器和部分图提取器分别使用在ImageNet[46]上预训练的GoogleNet[54]和在COCO[29]上预训练的OpenPose[4]模型进行在训练期间,我们不对两个流设置任何约束,即,没有对身体部位的注释,而仅优化重新识别损失。令人惊讶的是,训练的双流网络保持decom-8Y. Suh,J.Wang,S.唐氏T.Mei和K.M. 李见图4。从所提出的方法获得的外观图A和零件图P的可视化。对于给定的输入图像(左),外观(中心)和部位(右)映射分别对外观和身体部位进行编码。对于外观和部件映射,相同的颜色表示描述符相似,而不同的颜色表示描述符不同。外观图在来自同一个人的图像之间共享相似的颜色模式,这意味着外观描述符的模式也是相似的。在部位贴图中,颜色根据描述符所处的身体部位的位置而不同。(Best颜色显示)图五、 比较身体部位描述符。对于给定的图像(左),传统的基于关节的(中心)和所提出的(右)描述符是可视化的。(Best颜色显示)将外观和零件信息设置为两个流:一个流对应于外观图,而另一个流对应于身体部位图。我们使用t-SNE[37]可视化学习的局部外观和部件描述符的分布,如图3(a)和(b)所示。图3(a)示出了外观描述符根据外观而聚类,同时独立于它们来自的部件。例如,红色/黄色框分别显示红色/黑色斑块紧密嵌入。相比之下,图3(b)示出了局部部分嵌入将相似的身体部分映射到接近的区域中,而不管颜色如何。例如,绿色/蓝色框分别示出了来自头部/小腿的特征被聚类。此外,身体上相邻的身体部位,如为 了 理 解 学 习 的 外 观 / 部 位 描 述 符 如 何 用 于 人 的 重 新 识 别 , 我 们 在SIFTFFlow[32]中使用的可视化之后可视化外观图A和部位图P,如图4.F所示,或者给定的输入图像(左),外观(中心)和部位(右)图分别编码外观和身体部位。该图显示了外观图如何区分不同的人用于人员重新识别的部分对齐双线性表示9×P××A×同时对每个人都是不变的相比之下,部位贴图独立于身体部位的外观对身体部位进行编码特别地,某个身体部位由跨图像的相似颜色表示,这证实了我们在图3中的观察,即来自物理相邻区域的部位特征被紧密嵌入。我们的方法学习的最佳部分描述符的人重新识别,而不是依赖于预定义的身体部位。图5定性地比较了传统的身体部位描述符和我们的方法学习的身体部位描述符。7在先前关于人体姿势估计的工作中[62,4,41],人体姿势被表示为预定义的关键身体关节位置的集合。它对应于一个部分描述符,该部分描述符根据该位置处的某个身体关节的存在对关键身体关节进行独热编码,例如,在膝盖上p膝盖=1,否则为0与基线相比,我们的平滑地映射身体部位。换句话说,颜色在整体上是连续的我们的身体,这意味着相邻的身体部位被密切映射。相比之下,基线并不总是紧密地映射相邻的身体部分映射。例如,臀部和膝盖之间的大腿比脚踝或膝盖描述符更接近背景描述符。这种平滑的映射使得我们的方法对姿势估计误差鲁棒地工作,此外,采用了部分描述符,以更好地区分信息部分例如,映射颜色从肘部到肩部变化剧烈,并区分详细区域。基于这些属性,学习的部分描述符更好地支持人重新识别任务并提高准确性。5实现细节网络架构。我们使用GoogLeNet [54]第一版的子网络作为外观映射提取器,从大小为160 80的图像输入到inception4e的输出,然后是11卷积层和批量归一化层,以将维度减少到512(图2)。此外,我们可选地在从inception4a到最后一层的层中采用膨胀滤波器,从而得到20 10响应图。图2示出了部件图提取器的架构。我们使用OpenPose网络[4]的子网络,从图像输入到stage2的输出(即,concat stage3)以提取185个姿态热图,其后是卷积层和批归一化层,从而输出128个部分图。我们采用紧凑双线性池[14]将两个特征映射聚合成512维向量f。紧凑的双线性池。对512维外观矢量和128维零件矢量进行双线性变换,得到的矢量维数极高,计算量大,内存消耗大。解决在这个问题上,我们使用张量草图方法[44]来计算[14]中的紧凑表示。张量草图方法的关键思想是,两个高维向量之间的原始内积(欧氏距离基于此)可以近似为降维向量的内积,降维向量是原始向量的随机投影。详情见[44]。7我们使用了SIFTFFlow[32]中提出的可视化方法10Y. Suh,J.Wang,S.唐氏T.Mei和K.M. 李一个P×网络培训。外观图提取器和部件图提取器分别从ImageNet[46]和COCO[29]上预训练的网络进行微调。添加的层初始化如下[17]。我们使用随机梯度下降算法。 初始学习率、权重衰减和动量设置为0。01210−4,0。9,分别。在每20000次迭代之后,学习率降低5倍所有的网络都经过了75000次迭代的训练我们遵循[76]在每次迭代中对一小批样本进行采样,并使用所有每个小批次内可能的三重峰使用[76]中提供的加速技巧计算梯度。 在每次迭代中,我们对180个图像的小批量进行采样,例如,平均有18个身份,每个身份包含10个图像。总的来说,每次迭代中大约有102·(180−10)·18<$3×105个三元组6实验6.1数据集市场-1501 [80]。该数据集是个人重新识别的最大基准数据集之一。使用六个摄像头:五个高分辨率摄像头和一个低分辨率摄像头。存在1501个身份的32668个DPM检测到的行人图像框:750个身份用于训练,其余751个身份用于测试。有3,368个查询图像和19,732个图库图像,其中有2,793个干扰项。香港中文大学03 [25]。这个数据集由6台摄像机拍摄的13164张1360人的照片组成。每个身份出现在两个不相交的相机视图中(即,4.第一章平均每个视图中8个 我们根据之前的工作[25]划分了训练/测试集。 为对于每个测试标识,随机采样两个图像作为探测图像和图库图像,并且报告20次试验的平均准确度作为最终结果。香港中文大学01 [24]。该数据集包括在两个图像中捕获的971人的3884张图像。不相交的摄影机视图。从两个图像照相机(即,总共四个图像)。实验在两个评估设置[1]下进行,使用100和486个测试ID。根据之前的工作[1,7,10,76],我们从CUHK03训练集学习的模型中微调了486个测试ID的实验模型。DukeMTMC [45]. 该数据集最初被提出用于基于视频的人跟踪和重新识别。我们使用以下固定的训练/测试分割和评估设置[31]8. 它包括702个身份的16,522个训练图像、702个身份的2,228个查询图像、702个身份的2,228个查询图像和702个身份的2,228个查询图像。身份和17661个厨房图像。MARS [78]. 该数据集被提出用于基于视频的人重新识别。它由至少两个摄像机捕获的1261个不同的行人组成。有来自625个身份的509,914个边界框和8,298个tracklet用于训练,以及来自636个身份的681,089个边界框和12,180个tracklet用于测试。6.2评估指标我们使用累积匹配特征(CMC)和平均平均精度(mAP)来评估精度。CMC评分衡量识别质量8https://github.com/layumi/DukeMTMC-reID评估用于人员重新识别的部分对齐双线性表示11PPPPP8580757065605550Market-1501火星公爵(一)908070605040GoogLeNetResNet50(b)第(1)款concat + averagepool +linear双线性(c)第(1)款见图6。(a)外观图上不同合并方法的比较。(c)在不同的数据集上比较模型(有和没有零件图)(d)在外观图提取器的不同架构上比较具有和不具有部分图的模型如果未指定,则在Market-1501上报告结果。(b)比较不同的方法来聚合外观和部分地图。从而在每个等级处确定正确的匹配。对于多个地面实况匹配,CMC无法测量所有图像的排名情况。因此,我们报告了Market-1501、DukeMTMC和MARS的mAP分数,其中图库中有多个地面实况图像。6.3与基线的比较我们比较了所提出的方法与基线在三个方面。在本节中,当未指定时,所有实验都在Market-1501数据集上执行,所有模型都不使用膨胀,并且姿势与其他参数一起训练。零件贴图的效果。我们将我们的方法与不明确使用身体部位的基线进行比较。作为基线网络,我们使用Eq. (1)、随后是全局空间平均池化和全连接层,从而输出512维图像描述符。图6(a)和(b)将所提出的方法与基线进行比较,同时改变训练策略:固定和训练P姿势。固定P姿势使用预训练的权重[4,29]初始化P姿势,并通过训练固定权重。训练姿势也以相同的方式初始化姿势,但是使用Eq. (7)在训练期间。图6(a)说明了三个数据集,市场1501,MARS和杜克大学的准确性比较。它表明,使用零件图一致地提高了基线的所有三个数据集的准确性此外,训练P姿势比固定姿势大大提高了准确性。这意味着采用部件描述符以更好地服务于个人重新识别任务。图6(b)显示了在不同的外观子网架构。类似地,当引入零件图时,基线精度得到提高,并且当在训练期间微调姿势时,双线性池的效果。图6(c)将所提出的方法(双线性)与具有不同聚合器的基线进行比较。对于给定的外观和部件图,con- cat+averagepool+linear通过连接两个特征图、空间平均池化并通过全连接层馈送来生成特征向量,从而产生最大平均最大平均最大平均12Y. Suh,J.Wang,S.唐氏T.Mei和K.M. 李∼∼P512维向量。结果表明,对于P姿势固定/训练时的两种情况,双线性池化始终实现比基线更高的准确度。与以前基于姿势的方法的比较。最后,我们比较了我们的方法与三个以前的作品[79,75,50],其中使用人体姿势估计,市场-1501。为了进行公平的比较,我们使用简化的CPM(R-CPM [3 M param])uti-[50]第9话pose. R-CPM的复杂度低于[75]中使用的标准FCN(6 M参数)和[79]中使用的CPM(30 M参数)。作为外观网络,[75]使用GoogLeNet[79]使用ResNet50。[50]使用了13个inception模块,而我们使用了7个。表1显示了比较。与[79,75,50]采用的方法相比,所提出的方法(Inception V1,R-CPM)分别实现了rank@1准确度和mAP的4%和9%实验结果表明,与以往的方法相比,该方法有效地利用了零件信息6.4与最新方法的比较市场-1501。表1显示了两种查询方案的比较,单查询和多查询。单个查询从每个人获取一个图像,而多个查询获取多个图像。对于多查询设置,通过对来自每个图像的特征求平均来从多个图像获得一个描述符。我们的方法实现了最佳的准确性方面的mAP和rank@K的单和多查询。我们还提供了重新排序后的结果[86],这进一步提高了准确性。此外,我们在扩展数据集上进行实验,其中包含额外的500K图像[80]。遵循标准评估协议[19],我们使用两个评估指标(即,等级-1精度和mAP)。表2报告了结果。所提出的方法优于所有其他方法。CUHK03。我们用两个人的盒子报告结果:手动标记和检测。表3给出了与现有解决方案的比较。在检测到箱子的情况下,实现了最先进的精度使用手动边界框,我们的方法也达到了最佳精度。香港中文大学01。我们将结果与两个评估设置(即,100和486测试ID)。对于486个测试ID,所提出的方法显示出最好的结果。对于100个测试ID,我们的方法获得了第二好的结果,仅次于[16]。请注意,[16]微调了从CUHK 03 +Market1501学习的模型,而我们使用CUHK 01数据集的871个训练ID训练模型,遵循先前工作中的设置[1,7,10,76]。DukeMTMC。我们按照[31]中的设置进行实验。表4报告了结果。所提出的方法实现了最好的结果与不重新排序。火星 我们还在一个基于视频的人员重新识别数据集上评估了我们的方法[78]。我们使用我们的方法来提取每个帧的表示,并使用时间平均池来聚合所有帧的表示,这与其他聚合方案(RNN和LSTM)具有相似的准确性。表5显示了组合物。9https://github.com/yokattame/SpindleNet用于人员重新识别的部分对齐双线性表示13表1. 市场上的准确度比较-1501单次查询多查询秩151020地图151020地图Varior等人2016年[58]61岁6---三十五3-----Zhong等人2017年[86]七十七。1---63岁6-----Zhao等人2017[76]八十991. 794 7九十六。663岁4-----Sun等人2017[53]82岁392. 3九十五2-62. 1-----Geng等人2016[16]83岁7---六十五589岁。6---七十三。8Lin等人2017[31]84. 3九十三2九十五2九十七0六十四7-----Bai等人2017[2]82岁2---68岁888岁2---七十六。2Chen等人2017[9]七十二388岁291. 9九十五0-----Hermans等人2017年[19]84. 994 2--69岁。1九十5九十六。3--七十六。4+重新排名86岁。7九十三4--81. 191. 8九十五8--87岁2Zhang等人2017 [74]87岁7---68岁891. 7---七十七。1Zhong等人2017 [87]87岁1---七十一3-----+重新排名89岁。1---83岁9-----Chen等人,2017[8](MobileNet)九十0---七十6-----Chen等人2017[8](Inception-V3)88岁6---七十二6-----Ustinova等人2017年[57](双线性)66岁。4八十五0九十2-41岁2-----Zheng等人2017年[79](姿势)Zhao等人2017[75](Pose)Su等人2017[50](Pose)79岁。3七十六。984. 1九十891. 592. 794 494 694 9九十六。5九十六。7九十六。8五十六0-六十五4---------------建议(Inception-V1,R-CPM)建议(Inception-V1,OpenPose)+扩张+重新排名88岁8九十291. 7九十三4九十五6九十六。1九十六。9九十六。4九十七3九十七4九十八1九十七4九十八6九十八4九十八9九十八274岁5七十六。079岁。689岁。992. 9九十三294 0九十五4九十七3九十七5九十八0九十七5九十八4九十八4九十八8九十八2九十九。1九十九。1九十九。3九十八981. 782岁7八十五2九十三1表2. 市场上的精度比较-1501 + 500 k。图库大小度量19732119732219732519732Zheng等人2017年[84]秩-1地图79岁。5五十九9七十三。852岁3七十一5四十九168岁3四十五2Linet等人2017[31]秩-1地图84. 062. 879岁。9五十六578岁2五十三675. 4四十九8Hermans等人2017年[19]秩-1地图84. 969岁。179岁。761岁9七十七。9五十八774岁7五十三614Y. Suh,J.Wang,S.唐氏T.Mei和K.M. 李建议(Inception V1,OpenPose)秩-1地图91. 779岁。688岁374岁286岁。6七十一584. 167岁2表3. CUHK 03和CUHK 01的准确度比较香港中文大学03香港中文大学01检测手动100个测试ID486个测试ID秩151020151020151020151020Shi等人[70个国家]52岁184. 0 92. 0九十六。861岁388岁5九十六。0 九十九。069岁。4 九十8 九十六。0-----SIR-CIR[60]52岁2-------七十一891. 6九十六。0九十八0----Varior等人[58个]68岁188岁194 6九十八8------------Bai等人[二]《中国日报》七十二792. 4九十六。1-七十六。694 6九十八0---------Zhang等人[72个]----八十2 九十七7九十九。2九十九。889岁。6九十七8九十八9九十九。7七十六。594 2九十七5-Sun等人[五十三]81. 8九十五2九十七2-------------Zhao等人[76个]81. 6九十七3九十八4九十九。5八十五4九十七6九十九。4九十九。988岁5九十八4九十九。6九十九。974岁792. 6九十六。2九十八4Geng等[16个]84. 1---八十五4---九十三2---七十七。0---Chen等人[9]第一章87岁5九十七4九十八7九十九。5--------74岁591. 2 94 8九十七1Ustinova等人[57](双线性)63岁789岁。294 7九十七569岁。7九十三4九十八9九十九。4----52岁978岁186岁。392. 6Zheng等人[79]I'm sorry.67岁192. 2九十六。6九十八1------------Zhao等人[75](姿势)----88岁5九十七8九十八6九十九。2----79岁。994 4九十七1九十八6Su等人[50](姿势)78岁394 8九十七2九十八488岁7九十八6九十九。2九十九。7--------提出88岁0九十七6九十八6九十九。091. 5 九十九。0九十九。5九十九。9九十4 九十七1九十八1九十八9八十794 4 九十七3九十八6用于人员重新识别的部分对齐双线性表示15表4. DukeMTMC上的准确度比较秩151020地图Zheng等人[八十五]67岁7---四十七1Tong等人[67个]68岁1----Lin等人[31]七十7---51岁9Schumann等人[47个]七十二6---52岁0Sun等人[53]七十六。786岁。489岁。9-五十六8Chen等人[8](MobileNet)七十七。6---五十八6Chen等人[8](Inception-V3)79岁。2---六十岁。6Zhun等人[87]79岁。3---62. 4+ 重新排名84. 0---78岁3建议(Inception V1,OpenPose)+ 扩张+ 重新排名82岁184. 488岁3九十292. 2九十三192. 7九十三8九十五0九十五0九十五7九十六。1六十四269岁。383岁9表5. MARS上的精度比较秩151020地图Xu et al.[68](视频)44707481-麦克劳克林及其他人[40](视频)45657178二十七岁9Zheng等人[78](视频)68岁382岁6-89岁。4四十九3刘等[33](视频)68岁381. 4-九十652岁9Zhou等人[88]七十6九十0-九十七650块7Li等人[23]七十一886岁。6-九十三1五十六1+ 重新排名83岁0九十三7-九十七666岁。4Liu等人[35]七十三。784. 9-91. 651岁7Hermans等人[19个]79岁。891. 4--67岁7+ 重新排名81. 2九十8--七十七。4建议(Inception V1,OpenPose)+ 扩张+ 重新排名83岁084. 7八十五192. 894 494 295九十六。3九十六。1九十六。8九十七5九十七4七十二275. 983岁9与竞争方法的比较我们的方法显示了最高的准确性,基于图像和基于视频的方法。16Y. Suh,J.Wang,S.唐氏T.Mei和K.M. 李7结论我们提出了一种新的方法来重新识别人。有助于我们的方法的卓越性能的关键因素如下。(1)我们采用部分地图,其中部分不是预定义的,而是专门为人员重新识别而学习的。它们被学习以在预训练的姿态估计模型的指导下最小化重新识别损失。(2)部位图表示提供了身体部位的细粒度/鲁棒区分,这取决于它们对于重新识别的有用性。(3)我们使用部分对齐表示来处理身体部分未对齐的问题。由此产生的方法实现了卓越的/有竞争力的人重新识别性能的标准图像和视频基准数据集。致谢本研究得到了微软亚洲研究院和韩国科学与信息通信部的Visual Turing Test项目(IITP-2017-0-01780)的部分支持。用于人员重新识别的部分对齐双线性表示17引用1. Ahmed,E.,琼斯,M.,马克,T.K.:一种改进的用于人员重新识别的深度学习架构。参见:CVPR(2015)2. Bai,S.,Bai,X.,Tian,Q.:监督平滑流形上的可扩展人员再识别1703.08359(2017)3. Bak,S., 你好E Br e'mond,F.,Thonnat,M.:使用人体部分的空间坐标区域的人重新识别03 The Dog(2010)4. Cao,Z.,Simon,T. Wei,S.E.,Sheikh,Y.:利用局部仿射场进行实时多人二维姿态估计。在:CVPR(2017)5. Chen,D.,中国农业科学院,Yuan,Z.,陈伯,Zheng,N.:空间约束下的相似性学习在人员再识别中的应用。见:CVPR(2016)6. Chen,D.,中国农业科学院,Yuan,Z.,Hua,G.,郑,N.,Wang,J.:基于显式多项式核特征映射的相似性学习参见:CVPR(2015)7. Chen,S.Z.,Guo,C.C.,Lai,J.H.:通过联合表示学习进行人员重新识别的深度排名。IEEE TIP25(5)
下载后可阅读完整内容,剩余1页未读,立即下载
- 粉丝: 5
- 资源: 2万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码