自适应注意力的车辆重识别双路径模型

170 浏览量更新于2023-10-13 收藏 1.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1一种具有自适应注意力的车辆重识别双路径模型Pirazh Khorramshahi1、Amit Kumar1、Neehar Peri1、Sai Saketh Rambhatla1、Jun-ChengChen2和Rama Chellappa11马里兰大学自动化研究中心2中央研究院信息技术创新研究中心{pirazhkh，akumar14，pirazh，rssaketh，rama}@umiacs.umd.edupullpull@citi.sinica.edu.tw，www.example.com摘要近年来，注意力模型已被广泛用于人和车辆的重新识别。大多数重新识别方法被设计成将注意力集中在关键点位置上。然而，取决于取向，每个关键点的贡献不同。本文提出了一种新的车辆再识别双路径自适应注意模型（AAVER）。全局外观路径捕获宏观车辆特征，而定向调节的部件外观路径通过将注意力集中在最具信息性的关键点上来学习通过广泛的实验，我们表明，所提出的AAVER方法能够准确地重新识别车辆在不受约束的情况下，产生的最先进的结果的验证数据集VeRi-776。作为副产品，所提出的系统还能够准确地预测车辆关键点，并且显示出比现有技术的改进超过7%。关键点估计模型的代码可在以下网址获得： https://github.com/Pirazh/Vehicle_Key_Point_Orientation_Estimation1. 介绍车辆重新识别（re-id）是指在大图库集中重新检索特定车辆身份的所有图像的任务，所述图库集由从不同取向、相机、时间和位置拍摄的车辆图像组成从图像和视频中准确地重新识别车辆，在监控和智能应用中具有重要意义.与旨在识别车辆的品牌和型号的车辆识别相反，车辆re-id涉及识别特定的车辆实例。这项任务极具挑战性，因为具有不同身份的车辆可能具有相同的品牌，型号和颜色，因此深度卷积神经网络（DCNN）做出准确预测是具有挑战性的。在本文中，我们提出了一种新的算法驱动的自适应注意的车辆重新识别(a) 前(b)左(c)权(d)后图1：按照[22]中的建议分组的热图。注意所有的关键点子群会导致错误的结果。虽然只有汽车的后部是可见的，但是来自正面关键点的贡献是非零的。从静止图像中提取图像，而不使用来自其他源的信息，例如时间和位置。人物重新识别的类似任务旨在重新识别出现在不同相机中的人。虽然视觉外观模型对于人员识别相当好地工作，但是由于缺乏高度区分的特征，相同的技术不能区分车辆。人的re-id模型并不严重依赖于面部特征，因为它们还基于服装和配饰来学习区分特征。然而，车辆重新识别提出了一组新的挑战。不同的车辆标识可以具有相似的颜色和形状，特别是来自同一制造商的具有特定型号、装饰和年份的车辆微妙的线索，如不同的车轮图案和自定义徽标可能无法在全球外观功能。因此，重要的是车辆re-id模型学习在做出决策时关注车辆的不同部分。以前的工作在人re-id，如[24]使用的注意力模型与人类的关键点作为关注的区域，并已显示出显着的性能改善。类似地，诸如[22]的方法已经使用车辆关键点来学习由[22]定义的20个关键点中的每一个的注意力图Wang等人提出的系统。[22]将关键点分为四组，分别对应于前，后，左和右。然而，并非所有关键点都提供区分信息，并且它们各自的贡献取决于车辆的取向。例如，在图1a中，我们观察到来自汽车前部的关键点包括：61326133直接影响模型的注意力，因为汽车的前部因此，注意所有的关键点，如[22]中所建议的，可能会导致错误的结果。该方法根据车辆的方向自适应地选择关键点进行聚焦，从而为全局外观特征提供补充信息，解决了错误注意问题在这项工作中，具有相同含义的术语，路径，流和分支，已互换使用。在所提出的方法中，第一流是被训练以提取每个车辆身份的有然而，该流通常无法提取区分类似车辆所需的细微特征因此，由定向条件关键点选择和局部特征提取模块组成的第二路径被并行地用于补充来自第一路径的特征。通过使用方向作为自适应关键点选择的调节因素，模型学习专注于车辆的最具信息性的部分。此外，我们开发了一个完全卷积的两阶段关键点检测模型的灵感来自Kumar等人的作品。 [9]和Bu- lat等人[2]分别用于面部关键点检测和人体姿态估计。在第3节中讨论了所提出的方法中每个模块的详细架构。通过广泛的实验，我们表明，所提出的车辆重新识别自适应注意力模型（AAVER）方法提高了具有挑战性的数据集（如VeRi-776 [11，12]和VehicleID[10]）的re-id准确性。此外，所提出的车辆关键点检测模型比现有技术的准确度提高了7%2. 相关工作在本节中，我们简要回顾了最近在车辆分类和重新识别领域的相关工作。学习区分表示需要大规模的注释数据进行训练，特别是对于最近的DCNN方法。Yang等人 [26]发布了一个用于细粒度车辆模型分类的大规模汽车数据集（ CompCars ） Liu 等人 [10] 的VehicleID数据集由大约26，000辆汽车的200，000张图像组成。此外，Liu等人 [12，13]发布了一个高质量的多视图车辆re-id（VeRi-776）数据集。Yan等人 [25]发布了两个高质量且注释良好的车辆数据集，即VD1和VD2，具有不同的注释属性，包含在不同城市捕获的1，097，649和807，260张车辆图像此外，除了用于训练的数据集之外，Tang等人。[21]声称传统的手工特征是深度特征的补充，因此融合了两种特征以实现改进的表示。相反，Cui等人。 [4]融合了来自不同对象训练的各种DCNN的特征，提维斯此外，Liu et al. [12，13]在从粗到细的车辆检索框架中使用多模态特征，包括视觉特征、车牌、摄像头位置和其他上下文信息。为了增强训练数据以进行鲁棒训练，[23]使用生成对抗网络来合成具有不同方向和外观变化的车辆图像。[30]通过adverserial学习和视点感知注意力模型来学习车辆re-id的除了全局特征，Liu et al. [14]通过区域感知深度模型从车辆的一系列局部区域中提取可区分的局部特征。不同于这些方法，所提出的方法利用方向自适应地选择区域的关注。另一种学习判别式表示的有效策略Zhang等人。 [28]提出了一种改进的三重损失，它与辅助分类损失作为正则化器进行联合优化，以表征样本内方差。Baiet al.[1]引入了Group-Sensitive triplet embedding，以更好地对类内方差进行建模。Shen等人 [19]还提出通过利用时空信息来提高匹配性能;他们开发了一种具有路径LSTM模型的Siamese-CNN，该模型通过基于链的马尔可夫随机场（MRF）模型和深入学习的势函数生成实际车辆图像的相应的可识别视觉时空路径相比之下，所提出的方法使用L2softmax [18]损失函数，因为它在面部验证任务中表现出令人印象深刻的性能，并且与[28]等基于三元组损失的方法相比，训练速度更快，而无需对硬三元组进行采样。3. 自适应注意车辆再识别（AAVER）所提出的方法AAVER的整个流水线由三个主要模块组成：全局特征提取、车辆关键点和视点估计、以及自适应关键点选择和特征提取，其之后是基于重新排序的后处理。图2显示了我们的方法的示意图在AAVER中，全局特征提取模块负责提取车辆的宏观特征（fg）通过查看整个车辆，该模型试图最大限度地分离特征空间中的身份然而，这种模型可能没有考虑到类似汽车之间的细微差异，最极端的是那些相同的制造，型号和颜色。因此，由该模块生成的特征被补充有来自局部特征提取模块的特征（fl）。这可以通过使用所提出的关键点和方向估计网络的自适应注意策略来实现为了估计车辆的关键点，我们画在-6134i、jjx2j图2：自适应注意力车辆重新识别（AAVER）模型管道。沿着两条路径并行处理输入车辆图像：在第一路径中，提取全局外观特征（fg）第二路径负责检测车辆关键点并预测其方向，之后基于自适应关键点选择提取局部特征（fl）随后，用浅层多层感知器融合两个特征向量f g和f l。从关于面部关键点检测和人体姿态估计的文献中获得的灵感。受[2，9]的启发，我们采用两阶段模型来预测车辆除了不同车辆的特征之外。它在数学上表示为：exp（ WT（αx）+b）以由粗到细的方式标记;粗略的热图使用更浅的网络来细化DCNN所指示的。最后，我们使用所提出的自适应关键点选择LS=−logΩNj=1y2002年exp（WT（αx）+b）（一）在一些实施例中，全局特征提取模块用于从全局特征提取模块的早期层中选择信息量最大的关键点的子集和池特征，以提取所选择的关键点周围的局部特征。然后使用多层感知器合并从AAVER的两条路径获得的特征整个模型可以使用任何不同的损失函数进行端到端训练在我们的工作中，我们使用[18]中提出的L2在推理过程中，我们使用倒数第二个全连通层的特征作为给定车辆的表示。此外，我们还执行重新排序[29]作为后处理步骤。在以下小节中详细描述了每个模块。Pytorch深度学习框架[16]已在所有实验中使用。其中，X是对应于类别标签y的特征向量，Wj是权重，bj是对应于类别j的偏置，α是正的可训练标量参数，N分别是类别的数量。3.2. 车辆关键点和方向估计在这项工作中，提出了一个两阶段模型的关键点估计。在第一阶段，采用基于VGG-16 [20]的全卷积网络进行粗略估计。N1 （ N1=21=20 个关键点加背景）大小为 H×W（56×56）的热图的位置该网络使用每像素多类交叉熵进行损失定义如下：3.1. 全局特征提取L1=−1ΣH ΣWexp（x日志（日志i、j（t*（i、j）））（2）为了提取全局外观特征，我们采用高×宽i=1j =1N1k=1 exp（xi、j（k））ResNet-50和ResNet-101 [6]作为骨干网络，其中xi，j是对应于像素位置i也采用它们作为我们的基准模型。我们初始化了所有输出通道上的j和t是事实使用来自模型在CompCars数据集上预先训练。然后，来自ResNet最后一个卷积层的2048维特征向量被馈送到浅层多层感知器。该网络使用L2softmax损失函数进行训练，该函数将网络提取的特征向量约束在半径为α的超球面上。这使得网络能够在推送时将相同车辆的特征嵌入在一起该像素位置的类标签经过第一次培训在第二阶段，该网络的权重被冻结，用于后续阶段的训练。图3的左侧描绘了样本车辆图像的第一阶段的输出。尽管第一阶段的响应可用于预测可见关键点位置，但在对应于不可见关键点的热图中可能存在错误激全局特征提取布吕Res-1Res-2Res-3RES-4Res-5浅外观特征池化定向条件关键点选择自适应关键点选择与特征提取Res-3RES-4Res-5斜纹车辆关键点和视点估计：左前预测的视图全连接层全连接层全连接层级联级联L2-Softmax6135活。因此，我们使用第二个6136图3：车辆关键点和方向估计器网络。VGG16网络输出对应于20个车辆地标和背景的21个粗略热图（左侧的响应图）。一个两层沙漏网络细化了20个关键点热图（右侧的响应图），不包括背景通道，并预测车辆两阶段网络。为了训练热图细化和方向分支，我们使用均方误差（MSE）和交叉熵损失恢复。等式3表示用于第二级的损失函数。值得一提的是，在第二阶段中，我们只对前景热图感兴趣，因此，我们排除了背景通道的细化。L2=LH+λ<$LO（3）其中LH是热图回归损失：24小时LH=ΣW| h k（i，j）− h*k（i，j）|第二（四）条图4：车辆方向的混淆矩阵k=1i=1j=1L0是方向分类损失：exp（p（p*））LO=−log（N）的情况。（五）估计网络pi=1 exp（p（i））该阶段接受输入图像的子采样版本和关键点的粗略估计以细化结果。细化网络遵循[15]中介绍的沙漏架构，该架构通常用于细化热图并减少因不可见关键点而产生的伪影在第二阶段中，从第一阶段估计的粗略热图通过具有跳过连接的两堆叠沙漏网络来细化除了细化估计的关键点外，还通过由两个完全连接的层组成的平行分支预测车辆的方向，该平行分支旨在将方向分为[22]中定义的八个类别。这种多任务学习有助于细化网络对可见关键点进行准确预测，同时减少不可见关键点的响应。图3示出了图1的总体示意性流程。炼气期预测方向：左后取向估计VGG 16级联6137K在等式（4）中，N2= N1− 1，h k（i，j）和h（i，j）是预测的，并且分别针对位置i和j处的第k个关键点在阶段2中获得真实热图。等式（5）中的p、p∈和Np构成预测的方向向量，相应的地面实况方向和类的数量。最后，等式（3）中的λ是用于平衡模型优化中使用的损耗的权重。在我们的实验中，λ被设置为交叉验证后获得的10。在示出第二阶段的输出的图3的右手侧中，可以观察到关键点的初始粗略估计已经被细化。3.3. 自适应关键点选择与特征提取相似车辆的细微差异大多发生在车辆地标附近，例如相同的汽车品牌和型号6138表1：每个方向组的七个突出要点定向组可见关键点前[11、十二、七、八、九、十三、十四]后[18、16、15、19、17、11、12]左[8、1、11、14、15、2、17]左前[9、14、6、8、11、1、15]左后[2、17、15、11、14、19、1]权[7、3、12、13、16、4、18]右前[九、十三、五、七、十二、三、十六]右后[第三、四、十二、十六、十八、十九、十三条]相同的颜色可以通过它们的车窗贴纸、边缘、侧镜上的指示灯等来区分。这可以通过将注意力集中在包含这些区别的图像部分来实现。为此，基于车辆的取向来识别图像内的感兴趣区域;之后汇集来自全局外观模型的较浅层的特征。正如[27]中所建议的，这些汇集的特征包含上下文信息而不是抽象信息。随后，使用另一ResNet模型的深度块（Res3、Res4和Res5）来提取对应于感兴趣区域的补充特征。在文献[22]中，车辆的方位被注释为八个不同的类别，即后、左、左前、左后、右、右前和右后;然而，在两个相邻取向之间没有绝对界限。例如，对于右和右前的情况，当训练用于方向预测时，网络在两个类别之间混淆;这可以在图4中观察到，图4示出了八类分类问题的混淆矩阵。为了克服这个问题，我们设计了关键点选择器模块，其采用预测的取向似然向量并且基于似然性自适应地选择关键点。为了实现这一点，我们构建了表1中所示的八个组，对应于车辆的八个方位中的每一个在推断期间，计算每个取向组的似然性，并且挑选具有最高概率的取向组。此外，实验上观察到，对于每个取向组，至少七个关键点总是可见的。因此，给定具有最高概率的方向组，我们选择表1中所示的对应于相应方向组的七个热图。这些方向组基于它们的中心方向命名，例如，包含左前、前和右前的组被命名为前。在获得七个热图之后，对于每个热图，将具有σ=2的高斯核放置在图的峰值的位置这样做是以便强调关键点周围的周围区域的重要性在高斯核的自适应热图选择和膨胀之后，是并行ResNet模型的Res3、Res4和Res5块的局部特征提取（fl）。这个子网络的输入是级联7个形状为7×56×56的膨胀热图和形状为256×56×56的合并全局特征。最后，局部特征fl与全局外观连接ance特征fg，并通过一个多层叠加器，随后是L2softmax损失函数（参见图2）。考虑到特征是归一化的，我们使用余弦相似性来计算图像对之间的相似性得分。3.4. 后处理步骤：重新评级通常，Re-ID可以被视为检索问题。给定一辆探测车，我们希望在图库中搜索在获得初始排名列表之后，良好的实践包括添加重新排名步骤，期望相关图像将接收更高的排名。这种重新排序的步骤主要是在通用实例检索中研究的，如[17]，[3]，[7]和[29]。许多重新排序方法的主要优点是它们可以在不需要额外训练样本的情况下实现，并且也可以应用于任何初始排序列表。大量的研究人员re-id进入重新排名策略和车辆re-id是缺乏在这方面。大多数用于车辆重新识别的现有技术方法不对它们的初始排名列表执行重新排名。我们使用重排序策略提出的钟等人。[29]我们的工作4. 实验在这里，我们首先介绍了用于车辆重新识别任务的两个大规模数据集及其评估原型，之后，我们描述了所提出的方法的实现细节。4.1. 数据集据我们所知，主要有两个大规模车辆数据集是公开可用的，并且是为车辆重新识别任务而设计的：[12]和VehicleID [10]。VeRi-776数据集由776辆不同车辆的49，357张图像组成，这些图像是在各种方向和照明条件下用20个非重叠摄像机拍摄的。在这些图像中，37，778（576个身份）和11，579（200个身份）分别被分配用于训练和测试。对于查询集，从测试集中选择了1，678张图像。这方面的评估方案6139数据集如下：对于查询集中的每个探测图像，收集相应的身份和从其捕获图像的摄像机ID。通过选择测试集中的所有图像来构建图库，除了与探头共享相同身份和相机ID的图像。该数据集采用的评价指标为平均精密度（mAP）、前1（CMC@1）和前5（CMC@5）匹配的累积匹配曲线（CMC）。VehicleID是另一个用于车辆检索任务的大规模数据集，由来自26，328辆独特车辆的221，567张一半的标识，即13、164，被保留用于训练，而另一半专用于评估。对于800、1600、2400、3200、6000和13164的图库大小，有6个测试拆分。近[19，22]前三个分裂已被使用。亲-用于VehicleID数据集中的每个分割的姿势评估协议该过程重复十次，并报告平均度量CMC@1和CMC@5。4.2. 实现细节在我们的实现中，所有输入图像都被调整为（224，224），并通过ImageNet数据集[5]均值和标准差进行归一化。此外，在我们所有的实验中，我们使用了大小为150和Adam的批量训练，优化器[8]，学习率为1e-4。最初，我们分别在VeRi-776和VehicleID数据集上微调了我们的基线模型（见第3.1节），持续20个时期。然后，我们使用ImageNet预训练的权重初始化关键点和方向估计网络该网络的第一阶段训练了40个时期;之后-第二阶段也被训练了40个时期。接下来，我们针对20个时期的VeRi-776和VehicleID数据集中的每一个训练了定向条件特征提取分支最后，我们选择网络的倒数第5. 实验评价我们首先介绍了我们的车辆关键点和方向估计模型的评估结果，然后在VeRi- 776和VehicleID数据集上评估所提出的方法AAVER。5.1. 车辆关键点和方位估计评估为了评估所提出的两阶段关键点检测模型的性能，我们在VeRi- 776关键点数据集的测试集上使用56×56地图中可见关键点位置的像素表2显示了我们模型的MSE在第一和第二阶段之后。此外，我们测量了模型的准确性的观点分类。可以观察到，与第一阶段相比，细化阶段将关键点定位误差减少了20%据我们所知，[22]是唯一的工作VeRi-776关键点和方向估计数据集。[22]使用所有可见关键点的估计位置和地面实况位置之间的平均距离进行评估。如果距离小于一个阈值（48×48图中的像素r0），则认为该估计是正确的。我们遵循相同的协议进行比较[22]和表2的精度显示了该比较的结果。表2：车辆地标和方位估计网络的准确度评估和比较阶段1阶段2关键点定位MSE（像素）1.951.56定向精度-84.44%关键点精度比较模型r0=3r0=5OIFE [22]88.8%92.05%我们百分之九十五点三97.11%5.2. 关于VeRi 776的表3总结了全局外观模型（基线）和所提出的具有自适应注意力的AAVER模型的结果。请注意，在基于ResNet-50和ResNet-101的架构中，mAP和CMC@1分数在增强自适应注意力后都有显著改善。这表明，对车辆方向的调节和选择相应的关键点使网络能够更多地关注类似汽车中包含微小差异的零件。在第5.5节中进一步研究了该声明。不出所料，我们还观察到，在类似的设置下，ResNet-101显示出比ResNet-50更好的性能。表3：VeRi-776数据集上的基线和所提出的方法之间的性能比较模型地图CMC@1CMC@5基线ResNet-5052.8883.4992.31ResNet-10155.7584.7494.34AAVERResNet-5058.5288.6894.10ResNet-10161.1888.9794.70图5绘制了探针图像以及每个基线和所提出的模型的前三个返回。可以观察到，AAVER相对于基线显著改善了性能。6140(a) 探针图像(b) 第1级（c）第2 级（d）第3(e) 排名1（f）排名2 （g）排名35.4. 与最新技术水平方法的比较在本节中，我们将具有ResNet- 101骨架的AAVER模型比较结果见表5。从表5中可以看出，我们提出的方法是车辆重新识别任务的最佳执行者之一，并且是大多数车辆的最新技术水平。 VeRi-776和VehicleID的评估指标图5：VeRi-776数据集(b)第1级（c）第2 级（d）第3数据集。请注意，在缺乏VehicleID数据集的确定性测试集的情况下，无法提供公平比较的基础。原因在于随机图库构造产生具有相对高方差的不同评估结果的事实，即使当在十次重复上平均最后，我们必须强调的是，当图库中有多个探针图像实例时，必须将重新排序作为后处理步骤。在此，对于VeRi-776数据集，重新排序显示出显著改善，并导致最新水平的mAP和CMC@1评分。请注意，对于VehicleID数据集，重新排序不适用。因为在画廊里只有一个真正的比赛，(a) 探针图像（e）第1级（f）第2 级（g）第3每个探头图像。图6：VehicleID数据集5.3. VehicleID评价结果该数据集中的图像在视点上具有较少的变化，即，与VeRi-776数据集相比，主要是前部和后部。对于该数据集，评估指标仅为CMC@1和CMC@5，因为每个探头图像的图库中只有一个真正的匹配。表4显示了基线和拟议模型在测试分割上的重新识别结果。与基准模型相比，当来自自适应的基于注意力的路径的特征与全局外观特征融合时，观察到性能不佳。表4：VehicleID数据集基线模型AAVER模型分裂ResNet-50ResNet-101ResNet-50ResNet-101CMC@180067.2770.0372.4774.69160062.0365.2666.8568.62240055.1259.0460.2363.54CMC@580089.0589.8193.2293.82160084.3184.9689.3989.95240080.0480.6084.8585.64图6示出了来自VehicleID数据集的查询以及由全局和自适应注意力模型返回的前三个结果5.5. 消融研究我们设计了一组实验来研究方向条件分支提供的补充信息注意，在这些实验中，我们仅将测试分割800用于VehicleID数据集。为此，已经进行了以下实验：1. 在第一个实验中，我们检查了全局分支中的层的深度，从该全局分支中，全局特征被汇集，然后被馈送到定向条件分支。为了研究这一点，我们尝试在空间大小为Res2、Res3和Res4的块后合并56×56，28×28和14×14。表6显示了该实验的结果。可以观察到当我们从浅层到深层时，特征变得更加抽象，并且集中于深层特征图的部分无助于提供具有微小差异的车辆的鲁棒表示。2. 在我们的方法中，我们使用两个流从车辆图像中提取全局和局部特征，因此我们热衷于观察单个分支是否可以提取包含全局和局部差异的判别特征。为了测试这一假设，我们不是从全局分支汇集特征，而是通过关联将所选择的热图融合到全局分支中，并使用输出作为车辆图像的表示。表7描述了VeRi和VehicleID数据集的实验结果。我们可以推断，通过依赖于单个分支，重新识别性能显著下降。6141表5：与最新方法和最新技术数据集VeRi-776车辆ID测试规模= 800测试规模= 1600测试规模= 2400方法地图CMC@1CMC@5CMC@1CMC@5CMC@1CMC@5CMC@1CMC@5SCPL [19]58.2783.4990.04------OIFE [22]48.0065.987.7------VAMI [30]50.1377.0390.8263.1283.2552.8775.1247.3470.29RAM [14]61.588.694.075.291.572.387.067.784.5AAVER61.1888.9794.7074.6993.8268.6289.9563.5485.64AAVER+重新排名66.3590.1794.34------表6：实验1：合并全局要素的深度数据集特征尺寸地图CMC@1CMC@5VeRi-77656 ×560.61288.9794.7028 ×280.60888.5094.5814 ×140.59785.8893.03车辆ID56 ×56-74.6993.8228 ×28-72.6093.2414 ×14-71.0992.13表7：实验2：单分支与双分支特征提取数据集类型地图CMC@1CMC@5VeRi-776单个0.52880.9390.52双0.61288.9794.70车辆ID单个-69.6191.45双-74.6993.823. 在最后一组实验中，我们仔细研究了将车辆关键点热图中的信息纳入所提出的模型的方式。我们的工作在某些方面类似于[22]，其将一组固定的关键点分组，并通过将它们添加到一起将所有相应的热图组合到一个地图中。因此，我们在与[22]相同的设置下进行该实验。表8示出了这些实验的结果。表8中的“组合”类型我们可以得出结论，使用组合成一个组的所有热图不会导致与热图的自适应选择一样的竞争结果。这验证了并非所有关键点都有助于车辆的区别性表示的假设。6. 结论和未来工作在本文中，我们提出了一个强大的端到端的框架，最先进的车辆重新识别。我们提出双路径模型AAVER，其结合宏观表8：实验3：关键点热图利用率数据集类型地图CMC@1CMC@5VeRi-776组合[22]0.60687.6694.17AAVER0.61288.9794.70车辆ID组合[22]-71.7992.10AAVER-74.6993.82全局特征与局部判别特征，以有效地识别不同大小的图库中的探针图像此外，我们建立了VeRi-776数据集上的关键点检测和方向预测最后，我们主张在考虑未来车辆重新识别方法的性能以车辆方向为条件的自适应关键点选择对于区分相同品牌、型号和颜色的车辆至关重要。在VeRi-776和VehicleID上的评估显示了我们所提出的方法的强度最后，我们进行了消融研究，以了解自适应关键点选择步骤的影响。在未来，我们计划扩展我们的关键点模块，在比较给定的一对图像之前，将车辆图像与规范坐标系对齐。类似地，我们可以学习车辆的3D表示，以用于其他任务，例如车辆速度估计。7. 确认这项研究部分由诺斯罗普·格鲁曼公司的任务系统研究在学习机器的应用（REALM）倡议支持，它也部分由国家情报总监办公室（ ODNI ），情报高级研究项目活动（IARPA）支持，通过IARPA&研发合同号。D17PC00345。本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表ODNI、IARPA或美国的官方政策或认可（无论是明示还是暗示）。政府的美国政府被授权为政府目的复制和分发重印本，尽管其上有任何版权注释6142引用[1] Y. Bai，Y.Lou，F.Gao，S.Wang，Y.Wu和L.段。用于车辆再识别的组敏感三元组嵌入IEEE Transactions onMultimedia，20（9）：23852018年。2[2] Adrian Bulat和Georgios Tzimiropoulos通过卷积部分热图回归的人体姿势估计。欧洲计算机视觉会议，第717施普林格，2016年。二、三[3] Ondrej Chum、James Philbin、Josef Sivic、Michael Isard和Andrew Zisserman。总召回：自动查询扩展与生成特征模型的对象检索。在2007年IEEE第11届计算机视觉国际会议上，第1-8页。IEEE，2007年。5[4] C. Cui，N.桑角，澳-地Gao和L.邹。融合多个深度神经网络的车辆再识别。在图像处理理论，工具和应用国际会议，第1-6页，2017年。2[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009. 6[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 用于图像识别的深度残差学习。 CoRR ，abs/1512.03385，2015。3[7] Herve Jegou Hedi Harzallah和Cordelia Schmid一个上下文相异度测量准确和有效的图像搜索。2007年IEEE计算机视觉和模式识别会议，第1-8页。IEEE，2007年。5[8] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[9] 阿米特·库马尔和拉玛·切拉帕在树状cnn中解开3d姿态在IEEE计算机视觉和模式识别会议上，2018年6月。二、三[10] Hongye Liu ， Yonghong Tian ， Yaowei Wang ， LuPang，and Tiejun Huang.深度相对远程学习：说出相似车辆之间的差异。在IEEE计算机视觉和模式识别会议论文集，第2167-2175页二、五[11] X. Liu，W. Liu，H. Ma和H. Fu.城市监控视频中的大型车辆再识别。在 IEEE 多媒体和博览会国际会议（ICME），第1-6页，2016年。二、五[12] Xinchen Liu，Wu Liu，Tao Mei，and Huadong Ma. 基于深度学习的城市监控渐进式车辆重新识别方法。欧洲计算机视觉会议，第869施普林格，2016年。二、五[13] X. Liu，W. Liu，T. Mei和H. MA.提供：用于大规模城市监控的渐进和多模式车辆重新识别IEEE Transactionson Multimedia，20（3）：645- 658，2018。2[14] Xiaobin Liu ， Shiliang Zhang ， Qingming Huang ， andWen Gao. Ram：一种用于车辆重新识别的区域感知深度模型。在 2018 年 IEEE 多媒体和博览会国际会议（ICME）上，第1-6页。IEEE，2018年。二、八[15] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络在European Conference onComputer Vision，第483施普林格，2016年。4[16] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。在NIPS-W，2017年。3[17] Danfeng Qin，Stephan Gammeter，Lukas Bossard，TillQuack，and Luc Van Gool.你好邻居：精确的对象检索与k-倒数最近的邻居。CVPR 2011，第777-784页。IEEE，2011年。5[18] Rajeev Ranjan，Carlos D Castillo，and Rama Chellappa.L2约束的softmax损失用于区分性人脸验证。arXiv预印本arXiv：1703.09507，2017。二、三[19] Y.沈，T. Xiao，H. Li，S. Yi和X.王.学习深度神经网络用于车辆识别和视觉时空路径建议。在 IEEEInternational Conference on Computer Vision （ ICCV ）中，第1918-1927页，2017年。二、六、八[20] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。3[21] Y. Tang，D.Wu，Z.Jin，W.Zou和X.李交通监控环境中车辆再识别的多模态度量学习在IEEE图像处理国际会议（ICIP）中，第2254-2258页，2017年。2[22] Z. 王湖，加 - 地唐， X. Liu ， Z. Yao ， S. Yi ， J.Shao ，J.Yan，S. Wang，H. Li和X.王.方向不变特征嵌入和时空正则化在车辆重识别中的应用。在IEEE计算机视觉和模式识别会议（CVPR），第379-387页，2017年。一二四五六八[23] F. Wu，S. Yan，J. S.史密斯和B。张某用于车辆重新识别的联合半监督学习和重新排序。在IEEE模式识别会议（ICPR），2018年。2[24] 徐静，赵睿，朱峰，王华明，欧阳万里。用于人员重新识别的注意感知合成网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。1[25] K. Yan，Y.田氏Y.Wang，W.Zeng和T.煌利用多粒度排序约束精确搜索视觉相似的车辆。IEEEInternationalConference on Computer Vision（ICCV），2017年。2[26] Linjie Yang，Ping Luo，Chen Change Loy，and XiaoouTang.用于细粒度分类和验证的大规模汽车数据集。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第3973-3981页2[27] Matthew D. Zeiler和Rob Fergus。可视化和理解卷积网络。CoRR，abs/1311.2901，2013年。5[28] Y. Zhang，L. Liu和Z.- J. Zha.改进卷积神经网络三元组训练用于车辆再识别。在IEEE多媒体和博览会国际会议（ICME），第1386-1391页，2017年。2[29] Zhun Zhong，Liang Zheng，Donglin Cao，and Shaozi Li.用k-倒数编码重新排序人重新识别。6143在IEEE计算机视觉和模式识别会议论文集，第1318-1327页三、五[30] Y Zhou和L Shao。车辆再识别的视点感知注意多视图推理。正在进行IEEE会议对比可见光帕特2018年第2期，第2卷。二、八

下载后可阅读完整内容，剩余1页未读，立即下载