基于高度随机合成数据的姿态感知多任务车辆ReID

124 浏览量更新于2023-10-16 收藏 3.51MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

211PAMTRI：基于高度随机合成数据的姿态感知多任务车辆Zheng Tang郑唐 Milind Naphade Stan Birchfield Jonathan TremblayWilliam Hodge Ratnesh Kumar Shuo王晓东Yang NVIDIA摘要与研究界广泛研究的人员重新识别（ReID）相比，车辆ReID受到的关注较少。车辆ReID是具有挑战性的，因为1）高的类内可变性（由形状和外观对视点的依赖性引起），以及2）小的类间可变性（由不同制造商生产的车辆之间的形状和外观的为了应对这些挑战，我们提出了一个姿态感知多任务重识别（PAMTRI）框架。这种方法包括两个创新与以前的方法。首先，它通过关键点、热图和来自姿态估计的片段来明确地推理车辆姿态和形状，从而克服了其次，它联合分类语义车辆属性（颜色和类型），同时执行ReID，通过多任务学习与嵌入式姿势表示。由于手动标记图像与详细的姿态和属性信息是禁止的，我们创建了一个大规模的高度随机化的合成数据集与自动注释的车辆属性进行训练。广泛的实验验证了每个拟议组件的有效性，表明PAMTRI在两个主流车辆ReID基准上实现了超过最先进水平的显著改进：VeRi和CityFlow-ReID。1. 介绍交通摄像头的广泛部署为视频分析在物流、交通和智慧城市等各种应用中提供了巨大的机会。这种分析中的一个特别关键的问题是像行人和车辆这样的目标的跨相机关联，即，重新识别（ReID），这在图中示出。1.一、虽然行人和车辆都是智慧城市应用中常见的目标，但近年来，人们的注意力主要集中在人的ReID上。这主要是由于在NVIDIA实习时完成的工作郑现在在亚马逊工作图1.车辆ReID的问题涉及仅基于图像中的外观在不同的视角和摄像头上识别相同的车辆。我们的方法使用多任务学习来利用有关车辆姿态和语义属性（颜色和类型）的信息。合成数据在训练中发挥着关键作用，可以自动且廉价地生成非常详细的注释。最好用彩色观看。大量注释良好的行人数据，以及计算机视觉研究对人类面部和身体的历史关注此外，与行人相比，车辆ReID可以说更具挑战性，这是由于由来自不同视角的各种形状引起的高类内可变性，加上小的类间可变性，因为由各种制造商生产的汽车模型为了验证这种直觉，我们比较了基于人和基于车辆的ReID任务中的特征分布具体来说，我们使用 GoogLeNet [27] 在ImageNet [5] 上预训练，分别从 Market 1501 [42] 和CityFlow-ReID [30]中提取1，024维特征。对于每个数据集，计算类内与类间变异性的比率（基于Euclidean特征距离）。结果如下：行人为 0.921 （ Market1501），车辆为0.946（CityFlow-ReID），支持这一概念212基于车辆的ReID更加困难。虽然车牌可能对识别每辆车有用，但由于遮挡、倾斜视角或低图像分辨率，它们通常无法从交通摄像机读取，并且它们存在隐私问题。最近的车辆ReID方法利用特征学习[37，45，46]和/或距离度量学习[3，10，13]来训练深度神经网络（DNN）以区分车辆对，但目前最先进的性能仍然远远低于其在人ReID中的对应物[43]。此外，已经证明[30]直接使用最先进的车辆人员ReID方法并不能缩小这一差距，这表明两项任务之间存在根本差异。我们认为车辆ReID的关键是开发视点不变信息，如颜色，类型和编码姿态的可变形形状模型。为了共同学习这些属性以及姿态信息，我们建议使用合成数据来克服手动标记具有此类详细信息的真实训练图像在这项工作中，我们提出了一个新的框架PAMTRI，姿态感知多任务重新识别。我们的主要贡献有三个方面：1. PAMTRI将关键点、热图和来自姿态估计的片段嵌入到车辆ReID的多任务学习管道中，引导网络关注与视点相关的信息。2. PAMTRI使用大规模合成数据进行训练，这些数据包括随机车辆模型，不同背景下的颜色和自动生成车辆标识、颜色、类型和2D姿态的注释用于训练。3. 我们提出的方法在两个主流基准测试中实现了对最先进技术的显著改进： [14] 和城市流 ReID[30]。广告实验验证，我们独特的架构，利用明确的姿态信息，随着我们使用随机合成数据进行训练，是该方法的成功的关键2. 相关工作车辆ReID。在涉及深度学习的车辆ReID的最早尝试中，Liuet al.[14，15]提出了一个渐进式框架，该框架采用具有对比损失的暹罗神经Bai等人[3]和Kumaret al.[10]还通过扩展三元组嵌入人ReID的成功来利用距离度量学习[6] 到基于车辆的任务。特别是批量取样Kumaret al的变体。是VeRi和CityFlow-ReID [30]的当前最先进技术，后者是最近多目标多摄像机车辆跟踪基准的子集。另一方面，一些方法集中于利用视点不变特征，例如，Wang等人的方法。[37]其嵌入来自提取的车辆关键点的局部区域特征以用于具有交叉熵损失的训练。类似地，Zhouet al. [45使用生成式对抗网络（GAN）来生成要由视点感知注意力模型选择的多视图特征，其中属性分类也通过区分网络来训练。此外，Yanet al. [41]应用多任务学习来同时解决多粒度排序和属性分类，但搜索视觉相似的车辆与我们的ReID目标不同。据我们所知，没有一种方法联合体现姿态信息和多任务学习来解决车辆ReID。车辆姿态估计。车辆姿态估计经由可变形（即，基于关键点的）建模是处理视点信息的有前途的方法。在[31]中，Tanget al.建议使用基于16个关键点的汽车模型生成器，从进化优化的角度出发，为3D跟踪构建多个内核。Ansari等人[2]设计了一个更复杂的车辆模型，具有36个关键点，用于3D定位和来自仪表盘摄像头的形状估计。Wanget al. [37]也采用20个关键点模型来提取用于区域识别的基于方向的特征。然而，他们的网络并没有明确定位关键点坐标，而是只训练用于估计响应图，并且在他们的框架中没有利用语义属性其他方法可以直接回归到具有6个自由度（DoF）的汽车姿态[11，16，18，39]，但是它们对于我们的目的是有限的，因为没有提供通过关键点的详细车辆形状建模。合成数据。为了在训练图像上生成足够详细的标签，我们的方法利用了合成数据。我们的方法是在渲染和真实IM的混合上训练的年龄这将我们的工作置于其他使用模拟数据训练DNN的研究背景下。克服所谓的现实差距的一种流行方法是域随机化[34，35]，其中模型使用极端的视觉变化进行训练，以便当呈现真实世界的图像时，模型将其视为另一种变化。合成数据已成功应用于各种问题，如光流[17]、汽车检测[22]、物体姿态估计[26，36]、基于视觉的机器人操纵[8，34]和机器人控制[4，29]。我们将这项研究扩展到ReID和语义属性理解。3. 方法在本节中，我们描述了我们提出的PAMTRI框架的算法设计所提出的系统的概述流程二、213图2.所提出方法的概述。每个训练批次包括真实图像和合成图像。为了嵌入多任务学习的姿势信息，预先训练的网络输出的热图或片段与原始RGB通道堆叠作为输入。估计的关键点坐标和置信度分数还与ReID和属性（颜色和类型）分类的深度学习功能相连接。姿势估计网络（顶部，蓝色）基于HRNet [25]，而多任务学习网络（底部，橙色）基于DenseNet121 [7]。最好用彩色观看。3.1. 随机化合成数据集除了车辆身份，我们的方法需要额外的标签的车辆属性和关键点的位置如果手动注释，这些值（尤其是关键点）将需要相当大的工作量，甚至会令人望而却步为了克服这个问题，我们通过使用我们的深度学习数据集合成器（NDDS）[33]在虚幻引擎4（UE4）中创建一个随机环境来生成一个大规模的我们为NDDS添加了标记和导出特定3D位置的功能，关键点（在UE4中表示为套接字）。因此，我们使用Ansari等人定义的36个3D关键点手动注释每个车辆模型。[2]投影的2D位置然后与合成图像一起输出。对于随机化，我们使用了42个具有10种车身颜色的车辆3D CAD模型为了训练ReID的数据，我们为具有特定颜色的车辆模型的每个组合定义了唯一的最终生成的数据集由41，000个具有402个身份的唯一图像组成，1包括以下注释：关键点、方向和车辆属性（颜色和类型）。在生成数据集时，背景图像从CityFlow [30]中采样，我们还随机化了车辆位置和光线强度此外，在训练过程中，我们执行随机后处理，如缩放、裁剪、水平翻转和添加遮挡。图中示出了一些示例。3.第三章。1混凝土搅拌车和校车没有颜色变化，因此我们为每个人导出了500个独特的图像。为每个剩余的身份生成100个图像。3.2. 车辆姿态估计为了利用视点感知信息进行多任务学习，我们训练了一个鲁棒的 DNN 来提取姿势相关的表示。与Tremblayet al相似。[35]我们将真实数据和合成数据相结合，以弥合现实差距。更具体地说，在每个数据集中，我们利用预先训练的模型[2]来处理采样图像，并手动选择大约10，000个成功的样本作为真正的训练数据。我们没有像以前的方法那样使用堆叠的沙漏网络[21]作为骨干[2，37]，而是为了我们的目的修改了用于人体姿势估计的最先进的DNN，HRNet [25]。与堆叠沙漏架构和其他从低分辨率表示恢复高分辨率表示的方法相比，HRNet保持高分辨率表示并通过多尺度融合逐渐添加高到低分辨率子网络。因此，预测的关键点和热图更准确，在空间上更精确，这有利于我们的多任务学习嵌入。我们提出了两种方法来嵌入车辆姿态信息作为多任务网络的输入层的额外通道，基于热图和片段，重新排序。在一种方法中，在最终的去卷积层之后，我们为用于捕获车辆形状和姿态的每个关键点提取36个热图。在另一种方法中，使用来自最终全连接（FC）层的预测关键点坐标来分割车身。例如图在图3中，来自可变形模型的关键点#16、#17、#35和#34形成表示汽车引擎盖的片段。因此，我们为每辆车定义了13个分割掩码（见图1）。3 T OP-LEFT），其中由具有低置信度的关键点形成的那些是214图3. TOP-LEFT：来自Ansari等人的36个关键点模型。[2]我们定义的13个部分。TOP-RIGHT：在UE4中选择的3D关键点。BOTTOM：来自我们用于训练的随机化合成数据集的示例图像，自动标注的姿势重叠。最好用彩色观看。设置为空白。来自姿态估计网络的热图或片段的反馈然后被缩放并附加到原始RGB通道以供进一步处理。我们还将显式的关键点坐标和置信度发送到多任务网络以进行进一步嵌入。3.3. 车辆ReID的多任务学习在-0.5和0.5之间由于关键点被显式地表示和排序，因此它们使神经网络能够在最终FC层中学习更可靠的形状描述以进行多任务学习。最后，级联的特征向量被馈送到用于多任务学习的三个单独的分支，包括用于车辆ReID的分支和用于颜色和类型分类的另外两个我们网络的最终损失函数是三个任务的综合损失。对于车辆ReID，硬挖掘三元组损失与交叉熵损失相结合，以联合利用距离度量学习和身份分类，如下所述：LID=λhtriLhtri（ a ， p ， n）+λxenttLxent（ y ，y∈），其中Lhtri（a，p，n）是具有a，p和n的硬三重态损失分别作为锚定、阳性和阴性样本Lhtri （ a ， p ， n ） =[α+max （ Dap ） −min（Dan）]+，（2）其中，α是距离裕度，Dap和Dan是特征空间中锚点与所有正/负样本之间的距离度量， [·]+表示max（ ·，0）;Lxent（y，y）是交叉输入y损失：1ΣN姿态感知表示对于ReID和属性分类任务都是有益的。首先，车辆姿态-Lxent（y，y）=−Ni=1yilog（yi），（3）描绘对于相机视点不变的3D形状模型，因此ReID子分支可以学习将来自不同视图的特征关联起来。第二，车辆形状与目标所属的汽车类型直接相关。第三，通过2D关键点的分段使得颜色分类子分支能够提取主要车辆颜色，同时忽略诸如挡风玻璃和车轮的非涂漆区域。因此，我们将预测的关键点和热图（或片段）嵌入到我们的多任务网络中，以帮助将注意力引导到与视点相关的表示上。首先，来自姿态估计的所有反馈热图/片段与原始输入的RGB通道堆叠形成新的形象。因此，我们修改了基于DenseNet121 [7]的骨干卷积神经网络虽然我们使用RGB通道的预训练权重，但新通道使用高斯随机权重初始化。堆叠的图像为DNN提供了关于车辆形状的额外信息，从而有助于特征提取集中于视点感知表示。合成的和真实的身份都被批量处理在一起，并发送到主干CNN。对于从最终池化层提取的深度学习特征向量，我们附加了来自姿势预测的关键点坐标和置信度分数，这是正常的其中y是地面实况向量，y是估计，N是类的数量（在我们的情况下是ID）。由方程式其中，λhtri和λxent是正则化因子，均设置为1。对于属性分类的其他两个子任务，我们再次使用交叉熵损失，如下所示：L颜色=Lxent（y颜色，y颜色），（4）Ltype=Lxent（ytype e，y_type e）。（5）最终损失是所有任务的加权组合：L（θ，X）=LID+λ colorL color+λ typeL type，（6）其中X={（xi，yi）}表示输入训练集，θ是网络参数集根据其他研究人员的实践[12，23]，我们将λcolor和λtype的正则化参数设置为远低于1，在我们的情况下为0.125。这是因为，在某些情况下，车辆ReID和属性分类是冲突的任务，即，相同颜色和/或类型的两辆车不能共享相同的标识。在测试阶段，最终的ReID分类层被删除。对于每个车辆图像，从最后的FC层提取1024维特征向量。使用215欧几里德距离比较来自每对查询图像和测试图像的特征以确定它们的相似性。216数据集#总ID#列车ID#测试ID#查询图片#图像总数VeRi7765762001,67851,038CityFlow-ReID6663333331,05256,277合成402402––41,000表1.用于培训和评估的数据集的统计数据4. 评价在本节中，我们将介绍用于评估我们提出的方法的数据集、实施细节、显示最先进性能的实验结果以及PAMTRI各个组件的效果的详细分析4.1. 数据集和评价方案我们的PAMTRI系统在两个主流的大型车辆ReID基准上进行了评估，即VeRi [14]和CityFlow-ReID [30]，其统计数据总结在表1中。1以及我们为训练生成的合成数据的细节。VeRi [14]已被广泛用于车辆ReID的最新研究，因为它提供了从20个摄像头捕获的车辆的多个视图。CityFlow-ReID [30]是最近的多目标多摄像头车辆跟踪基准CityFlow的子集，该基准已被CVPR 2019的AI城市挑战赛[20]采用。后者明显更具挑战性，因为镜头是在更多样化的环境（住宅区和高速公路）中用更多的摄像机（40）捕获的。与VeRi不同，CityFlow中提供了原始视频，这使我们能够提取背景图像进行随机化，以生成逼真的合成数据。尽管颜色和类型信息可用于VeRi数据集，但CityFlow不提供此类属性注释。因此，这项工作的另一个贡献是我们手动标记了CityFlow-ReID中所有666个身份的车辆属性（颜色和类型）。在我们的实验中，我们严格遵循Market 1501 [42]中提出的评估方案，测量平均平均精度（mAP）和rank-K命中率。对于mAP，我们计算所有查询的平均精度的均值，即精确度-召回率曲线下的面积。K级命中率表示至少有一个真阳性排在前K位。当所有秩为K的命中率与K作图时，我们有累积匹配特征（CMC）。此外，在[30]中引入了rank-KmAP，它仅考虑前K个匹配来测量每个查询的平均精度的平均值4.2. 实现细节多任务学习训练。利用[44]中的现成实现，我们使用DenseNet121 [7]表2. VeRi上最先进的车辆ReID的实验比较[13]。所有数值均以百分比表示。对于我们提出的方法，MT、K、H、S、RS和R分别表示多任务学习、嵌入显式关键点、嵌入热图、嵌入片段、使用真实和合成数据进行训练以及仅使用真实数据进行训练Xent、Htri和DN201分别代表交叉熵损失、硬三重态损失和DenseNet201。（*）表示时空信息的使用。作为我们用于多任务学习的骨干CNN，其初始权重来自ImageNet上预训练的模型[5]。将输入图像的大小调整为256×256，并将训练批次大小设置为32。我们利用Adam优化器[9]来训练基础模型最多60个时期。初始学习率设置为3e-4，在第20和40个时期分别衰减到3e-5和3e-6。对于多任务学习，ReID的最后一个FC层的维度是1，024，而属性分类的两个FC层对于所有最终的FC层，我们采用泄漏整流线性单元（Leaky ReLU）[40]作为激活函数。姿势估计的训练。用于人体姿态估计的最先进的HR-Net [25]被用作车辆姿态估计的骨干，其建立在Sun等人的原始实现基础上。我们再次采用ImageNet [5]上的预训练权重进行初始化。每个输入图像的大小也被调整为256×256，热图/片段输出的大小为64×64。我们将训练批量设置为32，最大epoch数为210，学习率为1e-3。最后的FC层被调整为输出108维矢量，因为我们的车辆模型由36个2D关键点组成，其可见性（由置信度分数指示）也被计算。方法地图秩-1秩-5二十阶事实[13]18.7351.8567.1679.56[15]第十五话48.4776.7691.40-OIFE [37]48.0065.9287.6696.63PathLSTM*[24]58.2783.4990.0497.16GSTE [3]59.4796.2498.97-VAMI [45]50.1377.0390.8297.16[45]第四十五话61.3285.9291.8497.70[46]第四十六话24.9260.4977.3388.27英国广播公司[10]66.9190.1196.0198.27英国广播公司[10]67.5590.2396.4298.63Rs63.7690.7094.4097.47RS+MT66.1891.9096.9098.99RS+MT+K68.6491.6096.7898.75RS+MT+K+H71.1692.7496.6898.40RS+MT+K+S71.8892.8696.9798.23仅RS w/ Xent56.5283.4192.0797.02仅RS w/ Htri47.5073.5487.2596.01RS+MT，带DN20164.4290.5896.3698.81R+MT+K65.4490.9496.7299.11217图4. CityFlow-ReID上最先进方法的CMC曲线[30]。请注意，我们提出的方法提高最先进的性能。最好用彩色观看。表3. CityFlow-ReID上最先进的车辆ReID的实验比较[30]。所有数值均以百分比表示年龄，r100表示等级-100 mAP。对于我们提出的方法，MT，K，H，S，RS和R分别表示多任务学习，嵌入显式关键点，嵌入热图，嵌入片段，使用真实和合成数据进行训练，以及仅使用真实数据进行Xent、Htri和DN201分别代表交叉熵损失、硬三重态损失和DenseNet2014.3. ReID与最新技术水平的比较选项卡 . 2 比较 PAMTRI 的性能与最先进的车辆ReID。请注意，我们的方法在mAP度量方面优于所有其他方法。虽然GSTE [3]实现了更高的等级-K命中率，但其mAP得分比我们低约10%，这表明我们在所有等级上的稳健表现。还应注意，GSTE利用附加的组信息，即，，来自同一摄像机的相同身份的签名被分组在一起，这在我们提出的方案中是不需要的。此外，VeRi还提供时空信息，其使得能够在时间和空间上进行关联，而不是纯粹使用外观信息。令人惊讶的是，我们提出的方法比利用这种额外的时空信息的几种方法实现了更好的性能，这进一步验证了我们基于姿势感知多任务学习提取的特征的可靠性。我们还进行了一项消融研究，同时与最新技术进行比较。从结果可以看出，所有提出的算法组件，包括多任务学习和嵌入式姿势表示，有助于我们的性能增益。虽然不是我们系统的所有组件都对改进的结果做出了同样的贡献，但它们都提供了视点感知信息来帮助功能学习。三元组损失和交叉熵损失的组合优于单独的损失函数，因为特征空间中的度量和身份分类是联合学习的。ReID本身的分类损失通常是太侧全球外观。此外，我们使用DenseNet201进行了实验，它的参数几乎是DenseNet121的两倍，但结果并没有改善，甚至由于过度拟合而下降从而验证了HRNet的具体结构对于位姿估计的重要性最后，我们发现额外的合成数据可以显着提高ReID的性能。选项卡. 3，将PAMTRI与CityFlow-ReID [30]基准上的最先进技术进行比较。请注意，与VeRi相比，最先进技术的准确性有所下降，这证实了该数据集更具挑战性。BA和BS [10]依赖于三元组嵌入，与上表中针对VeRi所示的方法相同。此外，我们还使用交叉熵损失（Xent）[6]，硬三重损失（Htri）[28]，中心损失（Cent）[38]以及交叉熵损失和硬三重损失的组合（Xent+Htri）与ReID [44]中最先进的度量学习方法进行了比较像我们一样，他们都将DenseNet121 [7]作为CNN的骨干。最后，FVS [32]是2018年AI城市挑战赛的车辆ReID赛道冠军[19]。该方法直接从预先训练好的网络中提取特征，用Bhattacharyya范数计算特征距离。如实验结果所示，PAMTRI通过将姿态信息与多任务学习相结合，显著提高了最先进的性能同样，所有提出的算法组件有助于性能增益。其他烧蚀研究的实验结果与表1中的趋势一致。二、图4、表1中方法的CMC曲线3绘制，以更好地查看定量实验比较。我们还显示在图。5一些成功和失败的案例，使用我们提出的方法。如示例中所示，大多数失败是由诸如出租车的普通车辆的高类间相似性和场景中的对象的强遮挡（例如，标志和杆）。方法mAP（r100）秩-1秩-5二十阶FVS [32]6.33（5.08）20.8224.5231.27[第44话]23.18（18.62）39.9252.6666.06免费WiFi [44]30.46（24.04）45.7561.2475.94[44]第四十四话10.73（9.49）27.9239.7752.83Xent+Htri [44]31.02（25.06）51.6962.8474.91英国广播公司[10]31.30（25.61）49.6265.0280.04英国广播公司[10]31.34（25.57）49.0563.1278.80Rs31.41（25.66）50.3761.4874.26RS+MT32.80（27.09）50.9366.0979.46RS+MT+K37.18（31.03）55.8067.4981.08218图5.PAMTRI在公共基准上的性能的定性可视化对于每个数据集，提供了5个成功病例和1个失败病例。对于每一行，显示每个查询图像的前30个匹配图库图像（第一列，蓝色）。绿色和红色框分别表示相同的身份（真）和不同的身份（假）。最好用彩色观看。方法VeRi CityFlow-ReID颜色符合类型acc.颜色符合类型acc.RS+MT93.4293.2780.1678.97RS+MT+K93.8693.5383.0679.17RS+MT+K+H94.0692.7784.8080.04RS+MT+K+S94.6692.8083.4779.41R+MT+K74.9990.3879.5676.84表4. PAMTRI的不同变体对颜色和类型分类的实验结果。显示了准确度的百分比MT、K、H、S、RS和R分别表示多任务学习、嵌入的显式关键点、嵌入的热图、嵌入的片段、用真实数据和合成数据两者训练以及仅用真实数据训练。4.4. 属性分类比较颜色和类型分类的实验结果在表中给出。4.评价指标是正确识别属性的准确性。这些结果再次证实，由于视角和环境的多样性，CityFlow-ReID与VeRi相比具有更高的难度。我们还观察到类型预测的准确性通常低于颜色预测的准确性，因为某些车辆类型从相同的视点看起来相似，例如，从前面看，同一款车型的掀背车和轿车可能看起来是一样的。值得注意的是，姿态嵌入显著提高了分类性能。正如在第二节中所解释的。3.3、姿态信息直接与车型定义相关联，并且分段的形状变形使得仅对主体进行颜色估计。一般情况下，属性分类的准确率远高于身份恢复的准确率，可用于过滤匹配可能性较低的车辆对，从而提高跨摄像机目标关联的计算效率。我们把它作为未来的工作。4.5. 车辆姿态估计为了评估2D中的车辆姿态估计，我们遵循与人类姿态估计类似的评估协议[1]，其中误差阈值由对象的大小自适应地确定基于人类的评估中的标准是使用头部长度的50%，其对应于地面实况头部边界框的对角线长度的60%。与人类不同，车辆关键点之间的所有长度可以对应于观看视角而突然改变。因此，我们使用整个车辆边界框对角线长度的25%作为参考，而阈值设置与基于人类的评估相同。为了方便起见，我们将36个关键点分为6个身体部位进行单独的准确度测量，并给出了所有估计关键点的平均准确度。我们随机保留10%的真实注释标识以形成测试集。训练集由合成数据和剩余的真实数据组成我们的实验结果显示在Tab中。5.重要的是要注意，尽管在姿态估计中仍然存在域间隙，但与合成数据的组合可以帮助减轻真实数据集之间的不一致性。在所有比较的场景中，当在一个数据集上训练的网络在另一个数据集上进行测试时，关键点的准确性会随着训练期间添加另一方面，当网络模型219测试集训练集车轮加速挡泥板加速后加速器前加速器后方胜利。acc.正面胜利。acc.是说VeRi85.1081.1469.2077.4485.6789.9282.15VeRiCityFlow58.6254.9945.3254.8665.7474.3860.14VeRi+合成84.9382.6671.7377.7286.4189.8683.16CityFlow+合成64.0359.7345.1054.7363.9376.1462.13VeRi70.8960.6846.6648.3456.7763.5158.27CityFlowCityFlow83.7579.8965.8771.4875.3880.8077.07VeRi+合成69.7761.6852.4052.0763.0065.9261.03CityFlow+合成84.1980.9170.1872.3778.3582.1278.70表5.使用HRNet [25]作为骨干网络的姿势估计的实验结果。36个关键点分为6个类别进行单独评估。所示的是位于阈值内的关键点的百分比;详情见正文。图6.姿态估计性能的定性可视化（仅显示高置信度关键点）。顶部4行显示VeRi的结果，而底部4行显示CityFlow-ReID的结果。对于每一个，行表示来自不同训练集的输出：分别为VeRi、CityFlow-ReID、VeRi+合成和CityFlow-ReID+合成。最好用彩色观看。在相同的数据集上训练和测试，性能增益在CityFlow-ReID上更明显，因为合成数据在视觉上看起来相似。即使使用VeRi，也可以在大多数单个部分以及平均值中看到精度的提高从这些结果中，我们了解到车轮、挡泥板和挡风玻璃区域周围的关键点更容易定位，因为它们周围的边缘很强。相反，前部和后部的边界更难预测，因为它们通常在不同的车型中有所不同。一些定性的结果显示在图。六、大多数失败案例来自跨域学习，并且值得注意的是，结合合成数据提高了对训练集中看不见的车辆模型和环境的鲁棒此外，由于在我们的合成数据的生成中强制执行随机照明和遮挡，因此它们还导致针对现实世界中的这种噪声的更可靠的性能。5. 结论在这项工作中，我们提出了一个姿态感知的多任务学习网络称为PAMTRI联合车辆ReID和属性分类。以前的工作要么集中在一个方面，要么利用度量学习和时空信息。以匹配车辆身份然而，我们注意到，车辆属性，如颜色和类型是高度相关的变形车辆形状表示通过姿势表示。因此，在我们设计的框架中，估计的热图或片段与输入的批量图像一起嵌入以进行训练，并且预测的关键点坐标和置信度与深度学习特征连接以进行多任务学习。这一提议依赖于大规模数据集上大量注释的车辆信息，而这些信息目前还没有。因此，我们还生成了一个高度随机化的合成数据集，其中模拟了各种各样的视角和随机噪声，例如强阴影、遮挡和裁剪图像。最后，在VeRi [14]和CityFlow-ReID [30]上进行了广泛的实验，以评估 PAMTRI 与最先进的车辆ReID。我们提出的框架在两个基准测试中都达到了最高性能，并且消融研究表明，每个提议的组件都有助于增强鲁棒性。此外，实验表明，该方法对属性分类和车辆姿态估计子任务也有一定的帮助. 在未来，我们计划研究如何更有效地弥合真实数据和合成数据之间的领域差距。220引用[1] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在Proc. CVPR，第3686- 3693页[2] Junaid Ahmed Ansari ， Sarthak Sharma ， AnshumanMajum-dar，J. Krishna Murthy和K.玛达瓦·奎师那地球在Proc. IROS，第8404-8410页[3] Yan Bai，Yihang Lou，Feng Gao，Shiqi Wang，YuweiWu，and Ling-Yu Duan.用于车辆重新识别的组敏感三元组嵌入。TMM，20（9）：2385[4] Yevgen Chebotar，Ankur Handa，Viktor Makoviychuk，Miles Macklin ， Jan Issac ， Nathan Ratliff ， and DieterFox.Clos- ing the sim-to-real loop ： Adapting simulationrandomizationwithrealworldexperience.arXiv ：1810.05687，2018。[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。在Proc. CVPR，第248-255页[6] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为三胞胎的丢失辩护，进行人员重新鉴定。arXiv：1703.07737，2017。[7] 高煌，刘庄，劳伦斯·范德马腾，和基利安·Q.温伯格密集连接的卷积网络。在Proc. CVPR，第2261-2269页[8] 斯蒂芬·詹姆斯，安德鲁·J。戴维森和爱德华·约翰斯。将端到端视觉运动控制从模拟转移到现实世界的多阶段任务。arXiv：1707.02267，2017。[9] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv：1412.6980，2014。[10] Ratnesh Kumar ， Edwin Weill ， Farzin Aghdasi ， andParth- sarathy Sriram.车辆重新识别：一个有效的基线使用三重嵌入。arXiv：1901.01015v3，2019.[11] Abhijit Kundu，Yin Li，and James M.瑞格3D-RCNN：通过渲染和比较进行实例级3D对象重建。在Proc.CVPR，第3559-3568页[12] 林玉田，郑良，郑哲东，吴宇，胡智兰，严成刚，杨毅.通过属性学习和身份学习提高个体的再识别能力。arXiv：1703.07220，2017年。[13] Hongye Liu，Yonghong Tian，Yaowei Yang，Lu Pang，and Tiejun Huang.深度相对远程学习：说出相似车辆之间的差异。在Proc. CVPR，第2167-2175页[14] Xinchen Liu，Wu Liu，Tao Mei，and Huadong Ma. 基于深度学习的城市监控渐进式车辆重新识别方法。在Proc. ECCV，第869-884页[15] Xinchen Liu ， Wu Liu ， Tao Mei ， and HuadongMa.PROVID：用于大规模城市监控的渐进和多模式车辆重新识别。TMM，20（3）：645[16] Fabian Manhardt ， Wadim Kehl ， and Adrien Gaidon.ROI-10 D：将2D检测提升为6D姿态和度量形状的单目提升在Proc. CVPR，第2069-2078页[17] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox. 一大数据集来训练卷积网络，以进行视差、光流和场景流估计。在Proc. CVPR，第4040-4048页[18] Arsalan Mousavian、Dragomir Anguelov、John Flynn和Jana Kosecka。使用深度学习和几何的3D边界框估计在Proc. CVPR，第7074-7082页[19] 放大图片作者：Milind Naphade，Ming-Ching Chang，Anuj Sharma，David C. Anastasiu，Vamsi Jagarlamudi，Pranamesh Chakraborty，Tingting Huang，Shuo Wang，Ming-Yu Liu，Rama Chellappa，Jenq-Neng Hwang，andSiwei Lyu. 2018年NVIDIA AI城市挑战赛在Proc. CVPR工作室，第53-60页[20] 作者： Milind Naphade ， Zheng Tang ， Ming-ChingChang ， David C.Anastasiu ， Anuj Sharma ， RamaChellappa ， Shuo Wang ， Pranamesh Chakraborty ，Tingting Huang ， Jenq-Neng Hwang ， and Siwei Lyu.2019年AI城市挑战赛在Proc. CVPR研讨会，第452-460页[21] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在Proc. ECCV，第483-499页[22] Aayush Prakash 、 Shaad Boochoon 、 Mark Brophy 、David Acuna 、 Eric Cameracci 、 Gavriel State 、 OmerShapira和Stan Birchfield。结构化域随机化：通过情境感知合成数据弥合现实差距。arXiv：1810.10093，2018.[23] Ozan Sener和Vladlen Koltun。多任务学习作为多目标优化。在Proc. NeurIPS，第525- 536页[24] 沈艳涛，肖彤，李洪生，易帅，王晓刚.学习深度神经网络用于车辆Re-ID，并提供视觉-时空路径建议。在Proc. ICCV，第1900-1909页[2

下载后可阅读完整内容，剩余1页未读，立即下载