基于解析的视图感知嵌入网络车辆再识别

10 浏览量更新于2023-10-25 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7103基于解析的视点感知嵌入网络车辆再识别孟德超1，2，李亮*1，刘学静1，2，李亚东3，杨世杰2，查正军4，高星宇6，王淑慧1，黄清明2，1，51、Intell重点实验室Info. 过程.，Inst. 的Comput。技术人员：中国科学院，北京2中国科学院大学，中国，3Megvii Inc，中国北京4中国科学技术大学，5中国深圳鹏程实验室6中国科学院微电子研究所，中国北京{孟德超，刘学静，杨世杰}@ vipl.ict.ac.cn，{liang.li，王淑慧}@ ict.ac.cn，liyadong@megvii.inc，www.example.comgaoxingyu@ime.ac.cn，zhazj@ustc.edu.cn，qmhuang@ucas.ac.cn摘要车辆重新识别是从交叉摄像机场景中的各种视图中找到同一车辆的图像该任务的主要挑战是由不同视图引起的较大实例内距离和由相似车辆引起的细微实例间差异。在本文中，我们提出了一种基于解析的视图感知嵌入网络（PVEN），以实现车辆ReID的视图感知特征对齐和增强。首先，我们引入一个解析网络来将车辆解析为四个不同的视图，然后通过掩模平均池化（maskaverage pooling）来对准特征。这种对齐提供了车辆的细粒度表示。其次，为了增强视图感知特性，我们设计了一种共同可见注意力机制，将注意力集中在共同可见的视图上，这不仅缩短了实例间的距离，而且扩大了实例间的差异。PVEN有助于在不同视角下捕获稳定的车辆识别信息。在三个数据集上进行的实验表明，我们的模型比最先进的方法有很大的优势。1. 介绍车辆再识别（ReID）近年来受到越来越多的关注，因为它对于构建智能交通和城市监控系统非常重要[16，11，18，14，13，30，2]。该任务旨在检索大型图库集中的查询车辆的图像，其中目标车辆通常处于各种视图下并且来自广泛的相机。当车辆的牌照*通讯作者。车辆被遮挡、模糊和损坏。如图1所示，在该任务中存在两个关键挑战，1）相同车辆在不同视图下的大的实例内差异。2)不同车辆共享相同类型和颜色时的细微实例间差异。为了应对上述挑战，一些作品使用Meta信息（例如，车辆属性、时空信息）来提高特征的表示能力。Liu等[16]提出了一个course-to-fine搜索框架，将属性和时空信息建模为车辆ReID。Zheng等[34]引入深度网络，将摄像头视图、车辆类型和颜色融合到车辆特征中。这些方法集中于学习车辆的全局表示。然而，在不同的视角下，整体外观变化剧烈，这导致了全局特征的不稳定性，也带来了第一个挑战。相反，局部特征通常提供稳定的区分线索。最近，研究人员引入了局部区域来学习关于车辆的更具鉴别力的特征。Wang等人[27]基于车辆关键点检测生成方向不变特征。Liu等[17]基于车辆的三个均匀分离的区域提取局部特征，以获得独特的视觉线索。He等人[3]通过YOLO检测器检测每辆车的窗口、灯光和品牌，以生成区分特征。上述方法专注于预先定义的区域，以学习微妙的局部线索。然而，如图1所示，不同的线索（例如，排气、贴纸和装饰物）可能出现在车辆的任何部分，这导致了第二个挑战。最近，互补视图生成等数据增强被应用于缩小实例内差异。Zhou等[37]试图处理多视图7104总之，我们的主要贡献有三个方面。(a) 车辆ID-1(b) 车辆ID-2图1.玩具的例子，从两个不同的车辆具有相同的类型和颜色在VERI-Wild。每一行表示同一车辆的不同视图，这显示了大的实例内差异的挑战。每列表示来自不同车辆的相同视图，这显示了细微的实例间差异的挑战红框代表两种车辆的细微区别基于生成不可见视图的问题。生成的视图是从可见视图导出的，其不能重建额外的鉴别特征。在车辆ReID中，不同的视图通常呈现车辆的不同特征。我们将获得更多的歧视性描述的车辆，利用这些互补的特点。然而，由于同一车辆在不同视图之间具有较大的外观差异，因此如何有效地融合这些不同的特征仍然是一个具有挑战性的问题。为了解决上述问题，本文提出了一种基于解析的视点感知嵌入网络（PVEN）来实现车辆ReID的视点感知特征对齐和增强。PVEN由三个模块组成：车辆部件解析器、视图感知特征对齐和公共可见特征增强。首先，我们通过训练一个U形解析网络生成四个视图掩码（前、后、顶和侧），如图3所示。由于车辆是刚体，解析网络实现了令人印象深刻的准确性，因为它不需要处理变形问题。其次，基于全局特征图，通过掩码平均池化方法对齐局部视图感知特征.这种对齐方式为车辆带来了具有完整空间覆盖的细粒度表示。第三，我们提出了一个共同的可见的注意，以提高当地的特点。该机制倾向于放大两个车辆之间的共同可见视图的影响，并抑制非显著视图。这有助于克服不同视图下实例内的巨大差异和细微差异在相似的类型和颜色下的实例间。基于共同可见注意，我们修改了典型的三重丢失，以避免局部特征的不匹配。我们优化了这个局部三重损失和全局损失来学习视图感知的特征嵌入。因此，全局语义• 为了解决车辆ReID中的两个关键挑战，我们提出了一种视图感知的特征嵌入方法，其中特征对齐和常见可见视图的增强都有助于学习更鲁棒和更具鉴别力的特征。• 我们引入了一个共同的可见的注意力，以增强不同视图下的功能。这不仅缩短了实例间的距离，而且扩大了实例间的差异。• 在三个车辆ReID数据集上的实验验证了PVEN1的有效性。它实现了优越的性能比SOTA方法具有很大的利润。2. 相关作品车辆再识别由于其在智能交通系统中的广泛应用而成为最近的热门话题[16，11，18，14，2，19，8]。在车辆ReID的先前工作中，这些方法可以总结为三组：(1)基于车辆元信息的特征融合。将时空信息、车辆属性等Meta信息聚合成全局车辆嵌入。Liu等[16]使用路线到查找的渐进式搜索来利用车辆属性和时空信息。Shen等人[24]考虑了时空信息的约束，采用视觉-时空路径缩小搜索空间。通过摄像头视图、车辆类型和颜色，Zheng等人。[34]介绍了一种融合车辆ReID特征的深度模型。这些方法学习车辆的全局表示，并且它们对视图的剧烈变化敏感。因此，它们面临着同一车辆在不同视图下的大实例内差异的挑战。(2)基于局部区域的车辆特征学习。近年来，除了利用全局特征外，还利用局部特征来提高表示能力.例如，Wanget al. [27]基于预定义关键点检测的方向不变特征。He等人[3]使用本地区域（例如，窗口、品牌和光边界框），以了解更多的区分区域。这种类型的方法通常取决于预先定义的独特区域或关键点。它们忽略了判别线索可能出现在车辆的任何区域的事实，并遭受相似车辆的细微实例间差异的挑战。(3)基于生成对抗网络的特征对齐。随着GAN的蓬勃发展，一些工作已经开始将GAN引入车辆ReID。例如，Zhouet al. [37]通过使用GAN生成相对侧特征来处理视点问题。Lou等人[18]建议生成和局部微妙的区别性线索被联合学习成车辆的最终嵌入1https://github.com/silverbulletmdc/PVEN7105全局特征提取ID评分全球训练阶段特征图平均值BNFCCNN池化ID丢失全球损失三重损失视图感知功能三重损失局部损失U-Net掩码平均合并共同可见注意力局部距离距离车辆部件解析器视图感知特征对齐可见性得分常见可见特征增强全局距离推理阶段图2. PVEN的网络结构。首先，将图像馈送到特征提取器和车辆部件解析器。前者输出语义特征图，后者生成前、后、顶、侧的视图掩码。然后提取车辆的全局特征，构造ID损失和三元组损失。视图感知特征通过针对每个掩模的掩模平均池化来提取。我们聚合的功能，共同可见的注意力，制定本地功能的三重损失在推理阶段，将全局特征和局部特征的距离相加，得到最终距离。硬样品通过引入GAN。由于现有GAN生成能力的限制和对抗样本的不足，生成的特征与真实特征之间存在较大差距。车辆重新识别也与人员ReID任务相关，其目的是从大量人员中的各种视图中找到目标人员。最近，基于CNN的特征在人ReID上取得了很大进展[25，35，6，20，33，9，32，12]。Sun等人[25]使用统一的分割策略分割图像，并为每个部分提取CNN特征。Zhao等人[33]将所述人物按人体区域进行分解，得到人物姿态信息。Wei等[9]提出了和谐注意力CNN来联合学习注意力选择和特征表示。人员ReID方法的激增减轻了车辆ReID任务。3. 方法为了解决车辆ReID中实例内差异大和实例间差异小的问题，提出了一种基于解析的视图感知嵌入网络（PVEN）.它由三个模块组成：车辆部件解析器、视图感知特征对齐和公共可见特征增强。PVEN专注于视图感知的特征学习，其中共同可见区域的对齐和增强有助于学习更鲁棒和区分性的特征。3.1. 车辆零件解析器作为车辆ReID的关键挑战之一，多摄像机下的视图转换是不可避免的。不变有限元-不同视角下的真实学习是提高车辆ReID性能的重要途径。我们注意到，大多数车辆都有以下两个特点。首先，车辆可以被看作是一个立方体，它可以被分成不同的部分，由视图。其次，车辆是刚体，因此没有物理变形。这些特征意味着能够提取准确的车辆解析掩码。有了这些解析掩码，我们可以为不同的车辆对齐相应的部件。一辆车可以粗略地看作是一个有六个面的立方体。车辆底部通常在摄像头下不可见。车辆的左右两侧在一定的视野下通常不能同时出现，在视觉上通常是对称的。基于这些观察，我们将车辆解析为四个部分：前面，后面，侧面和上面。侧面表示车辆的左侧或右侧。在本文中，上述解析方案是专为车辆视图感知表示。如图3所示，这种解析方案有两个主要优点：首先，它在一定的视野下覆盖了整个车辆，这样两辆车之间的每一个细微差别都可以被捕捉到。其次，在大多数视点下，车辆的3个部分在图像中可见，这意味着在查询图像和图库图像两者中出现至少2个相同的部分。解析VeRi776数据集的注释。我们注释了VeRi776[16]数据集的一个子集，用于训练车辆部件解析网络。为了提高解析模型对各种视图的适应能力，我们收集尽可能多的车辆视图。详细地说，根据[27]中视点的定义，我们对车辆的七个不同视点的图像进行了采样。如果视点的数量较少，7106LLLVeRi776车辆IDVERI-Wild图3.我们在三个主要车辆ReID数据集上的解析结果示例。红色、绿色、黄色和蓝色面罩分别表示车辆的前视图、后视图、侧视图和俯视图我们平均抽取这辆车的四张图像总共标注了3165幅图像。我们随机选取2665张标注数据集的图像作为训练集，500张图像作为验证集。车辆解析网络。为了获得准确的解析结果，我们使用上面标注的数据集训练分割模型[21]。解析模型以SeResNeXt50 [5]为骨干，并使用平衡的交叉熵损失进行训练。我们的模型在验证集中获得了81.2%的IoU得分，这足以解决视图转换挑战。图3显示了三个图4.可见的注意力。首先，基于车辆掩模计算不同部件的可见性分数。然后，通过共同可见性注意力得到各部分的共同可见性得分最后，我们计算两辆车之间的局部距离与他们的视图感知功能和相应的共同可见的分数。cle分别。f i的计算公式为：车辆ReID数据集。它显示了令人印象深刻的概括-根据解析器的需要来调整解析模型的性能fi= Σ16j，k=1 Mi（j，k）×F（j，k）（一）而不是处理变形问题。3.2. 视图感知特征对齐车辆ReID模型大多采用深度全局特征来表示车辆，侧重于学习高语义信息。在本文中，我们引入了视图感知的局部特征，以获得具有完整空间覆盖的细粒度表示。此外，实现视图感知特征对齐以避免不同视图之间的不匹配。在这里，我们使用在ImageNet[22]数据集上预训练的ResNet50[4]作为我们的特征提取器。我们将最后一个池化层的步长从2重置为1，得到了一个16×16×2048的fea。真地图F. 如图2所示，特征提取器网-工作有两个输出分支。第一个分支是全局分支，在这里我们将全局平均池应用于特征映射以获得全局特征fg。另一个分支是用于视图感知特征学习的局部分支。首先，我们一起上面的视图通过最大池化屏蔽到16 × 16，定义为{Mi|i∈{1，2，3，4}}。其次，我们将掩码平均池化（MAP）应用于特征图F以计算四个局部视图w-w是特征{fi|i∈{0，1，2，3}}。它们代表了车辆的前视图、后视图、侧视图和顶视图l16j，k=1Mi（j，k）全局特征将不同视图的特征混合成一个特征。这导致在比较两辆车时视图不匹配。相应地，局部视图感知特征在上述四个视图上对齐。它将不同视图的信息映射到相应的局部特征中，为车辆提供视图感知的嵌入。3.3. 常见可见功能增强在上述阶段之后，我们获得车辆的四个视图感知局部特征fi。在本节中，我们将介绍一个共同的可见的注意，以提高不同的视图的功能。这有助于捕获同一车辆在不同视图下的稳定的区分信息。图4显示了共同可见注意力的过程。给定两个图像p，q和它们的掩码Mp和Mq，p qi i我们计算可见性分数Vi和Vi，其指示每个视图的对应区域的大小。可见性得分vi定义为Σ16vi=Mi（j，k）（2）j，k=1可见性面具得分常见可见注意力可见性分数掩模常见可见分数视图感知功能视图感知功能局部距离7107我我们引入共同可见注意力来计算共同可见分数ap，q如下，4.2. 实验设置4.2.1培训p，qvpvq我ai =Nvpvq（三）我们在我们的注释上训练了40个时期的解析模型。正在解析VeRi数据集。批量大小为8，学习i=1其中p，q测量常见可见光的一致性，速率为1 E-4。我们使用亚当作为优化器。最后iPhoneParser在验证集中获得了81.2%的IoU得分gions。然后，计算两个局部特征之间的距离D，车辆被计算为，ΣN我们用热身策略训练了120个epoch的模型。初始学习率为3.5e-5，第10个时期后上升到3.5e-4，第40个时期下降到3.5e-5，3.5e-6，Dp ，q=apq D（fp，fq）（4）第70章更快的融合我们先在上面填充10个像素我我我i=1其中D表示欧几里得距离。如果车辆缺少一些视图，则对应的共同可见分数将相对较小。因此，只有具有高分数的视图才会有助于最终距离。在本文中，我们通过构造全局特征的ID损失和三元组损失以及局部特征的三元组损失来优化网络。基于上述局部特征的距离计算局部特征的三元组损失，图像边框，然后随机裁剪为256×256。我们还用随机删除来增加数据亚当使用来优化模型。此外，我们在全局特征之后添加了一个Batch Normalization层。添加了一个全连接层，将全局特征映射到ID分类分数。4.2.2推理为了评估我们的方法，我们首先计算全局特征之间的欧氏距离Dglobal。然后，我们计算距离Dlocal，如等式中所定义。（4）地方之间L三重 =max（Dap−Dan+γ，0）（5）视图感知功能。查询集和集合集之间的最终距离是计算dasλ1Dglobal+λ2Dg l ocal。这里我们其中，基于视图感知特征的局部距离对齐，实例和共同可见特征增强的目的是减小来自不同视图的实例内距离，并且增大来自相似车辆的实例间距离。最后，PVEN的总目标是最小化以下损失，设λ1= 1，λ2= 0。五、4.2.3比较方法我们将这种方法与一些最先进的方法进行了比较。（一）. 基于手工特征的方法。 BOW- CN [36]首先采用基于颜色的BOW模型，L=Lg+Lg+Ll（六）名称（中文）。局部最大发生率表示ID4. 实验4.1. 数据集三重三重（LOMO）[10]对不同的闪电条件具有鲁棒性。属性和颜色特征的融合（FACT）[15]结合了低级颜色特征和高级语义特征。（二）、基于深度学习的方法。我们在三个流行的车辆ReID数据集上评估了我们的模型，包括VehicleID [11]，VeRi 776 [16]和VERI-Wild[18]。VehicleID[11]是一个大规模的车辆ReID数据集。它包含了221，763张关于26，267辆汽车的图像。该数据集的图像在前视点或后视点下捕获三个测试集（即小、中、大）根据其大小提取。在推理阶段，对于每辆车，一个图像被随机选择作为图库集，而其他图像被视为查询图像。VeRi 776[16]也是一个经典的车辆ReID基准。它由776辆汽车的约50，000幅图像组成，这些图像是由20台摄像机在不同视点下跨街区区域采集的。该培训集涵盖576辆汽车，测试集包含其他200辆车。VERI-Wild[18]是车辆ReID的另一个大规模数据集。它包含40，671辆汽车的416，314张图像，这些图像是由174台摄像机在一个月内收集的。GoogleNet [28] 是在 CompCars [29] 数据集上微调的GoogleNet[26]模型。 Plate-SNN[16]，它使用车牌特征来增强检索车辆。Siamese+Path [24]提出了视觉-空间-时间-路径来利用时间限制。GSTE [1]提出了组敏感三元组嵌入来优雅地模拟组内方差。VAMI [37]通过GAN生成不同视图的特征，而特征距离对抗网络[18]（FDA-Net）在特征空间中生成硬负样本。EALN [19]提出了一种对抗网络，能够生成嵌入空间中的局部样本。（三）、基于区分区域挖掘的方法。OIFE [27]使用20个预先定义的关键点来粗略对齐车辆特征。RAM [17]将图像水平拆分为3个部分。PRN [3]检测车窗、灯光和品牌，以捕捉车辆实例之间的差异。AAVER [7]提出了一种基于车辆关键点和方向的注意机制。L7108表1.车辆ID上的CMC@1和CMC@5方法小介质大@1@5@1@5@1@5MD+CCL[11]0.4900.7350.4280.6680.3820.616OIFE[27]----0.6700.829VAMI[37]0.6310.8330.5290.7510.4730.703RAM[17]0.7520.9150.7230.8700.6770.845EALN[19]0.7510.8810.7180.8390.6930.814AAVER[7]0.7470.9380.6860.9000.6350.856美通社[3]0.7840.9230.7500.8830.7420.864PVEN0.8470.9700.8060.9450.7780.9204.3. VehicleID数据集上的实验我们比较了该数据集上的CMC@1和CMC@5分数，因为每个查询车辆只有一个地面实况。表1显示了不同大小的三个测试数据集的比较结果。我们观察到，首先，与其他方法一致，PRN和我们的PVEN获得表2. VeRi776上的mAP、CMC@1和CMC@5方法mAP CMC@1BOW-CN[36]0.1220.3390.537LOMO[10]0.0960.2530.465[28]第二十八话0.1700.4980.712事实[15]0.1850.5100.735FACT+平板+STR[16]0.2780.6140.788[24]第二十四话0.5830.8350.900OIFE[27]0.4800.894-VAMI[37]0.501--RAM[17]0.6150.8860.940EALN[19]0.5740.8440.941AAVER[7]0.6120.8900.947美通社[3]0.7430.9430.989PVEN0.7950.9560.984表3. VERI-Wild上的mAP方法小型中型大型性能提升幅度较大。这是因为这两种方法引入了进一步的学习，[28]第二十八话0.2430.2420.215一些关键地区。这在汽车中起着重要的作用。[第23话]0.1570.1330.099ReID任务。第二，我们的PVEN实现了在Softmax[16]0.2640.2270.176CMC@1乘3。6%+和CMC@5 × 4。5%以上CCL[11]0.2250.1930.148SOTA PRN [3]不同测试数据。尽管如此，[3]HDC[31]0.2910.2480.183介绍了玻璃窗、灯光、商标的检测，每辆车，他们忽略了一个事实，即独特的线索将出现在任何部分的车辆。相比之下，我们的方法通过局部视图感知特征嵌入来证明车辆的完整信息挖掘。上述比较结果证明了PEVN的有效性。值得注意的是，车辆在该数据集中仅包含两即使是同一辆车，从不同视角提取的特征也是完全不同的。PVEN算法采用视图感知的特征增强技术，避免了不同视图下局部特征的不匹配。4.4. VeRi776数据集上的实验我们还在VeRi776数据集上评估了车辆ReID方法，其中采用了三种测量指标，包括 mAP ， CMC@1 和CMC@5。表2显示了PVEN和其他方法之间的性能比较。我们发现，受惠于对额外关键地区的了解，区域资源网络及区域资源网络均大幅提升，平均平均接入点分别为16.0%及21. 2%。此外，不同于PRN的预定义区域，PVEN从四个视图中提取局部信息，这些视图因此，PVEN可以学习关键的独特和本地线索，以确定目标车辆。详细地，PEVN在mAP上获得5.2%的改善，并且在PRN上获得1.3%的CMC@1的改善。此外，两种方法的CMC@5都超过了98.4%，这对于真实车辆ReID场景是有希望的性能。GSTE[1]0.3140.2620.195Unlable-GAN[38]0.2990.2470.182美国食品药品监督管理局网络[18] 0.351 0.2980.228PVEN0.8254.5. VERI-Wild数据集VERI-Wild数据集[18]是目前最大的车辆ReID数据集。在这里，我们比较了我们的PEVN与其他方法在三个指标，即CMC@1，CMC@5和mAP。表3示出了mAP在三种不同的情况下的性能。测试数据集的大小。我们可以发现，我们的PVEN 一个很大的促进比以前的作品车辆ReID。具体而言，mAP在小型、中型和大型数据集上的改善分别为47.4%、47.2%和46.9%。mAP的这一令人印象深刻的提升得益于视图感知特征对齐和增强，这有助于学习车辆的更强大和更有区别的特征。表4显示了三个测试数据集上不同方法的CMC@1和CMC@5的性能。我们可以观察到，首先，我们的PVEN在不同测试数据的两个指标下都超过了所有其他模型。 PVEN 的 CMC@1 比 FDA- Net [18] 提高32.7%+CMC运动的一致性证明了模型的有效性.其次，随着测试数据规模的增加，翻译方法的性能下降了很大的幅度。例如，对于CMC@5，最先进的方法FDA-Netde-7109表4.VERI-Wild上的CMC@1和CMC@5表6.在VeRi776上对解析模块的验证设置mAP CMC@1 CMC@5基线0.7720.9570.980垂直分割0.7750.9480.974解析0.7950.9560.984表7.VeRi776上全局和局部距离的权重选择λ1λ2地图CMC@1CMC@5CMC@10表5.VehicleID上PVEN各部分的消融研究100.7870.9550.9820.99010.30.7940.9560.9840.992设置CMC@1CMC@5CMC@1010.50.7950.9560.9840.992PVEN，不含本地0.7960.9370.96910.70.7940.9590.9840.992PVEN，不带CV-ATT0.7660.9000.953110.7930.9610.9840.991PVEN0.8470.9700.987010.7130.9220.9670.982小样本与中样本之间的变异系数为4.5%，中样本与大样本之间的变异系数为7.8%; PVEN的性能在小数据和中数据之间下降0.4%，在中数据和大数据之间下降1.0%;这表明该方法在大数据下具有较好的泛化能力。这是由于PVEN在不同视图下增强了视图感知特征，不仅缩短了实例间的距离，而且扩大了实例间的差异。4.6. 消融研究4.6.1解析模块的有效性为了验证车辆ReID解析模型的有效性，我们进行了一个实验，该实验将图像垂直均匀地分成四部分，并且使用PVEN保持其他设置相同表6中的结果表明，在mAP和CMC@5中，解析的性能优于基线和垂直分割设置。4.6.2视图感知特征学习我们对VehicleID数据集上提出的视图感知特征学习进行了消融研究。PVEN w/o local指示没有视图感知特征学习的局部分支的PVEN模型。PVEN w/o CV-ATT添加本地分支，但不使用公共可见注意。它计算每个局部特征的欧氏距离。典型的三重态损失应用于距离。PVEN使用第3节中描述的完整体系结构。如表5所示，首先，我们观察到我们的PVEN比其他人实现了更好的准确性。这是因为视图感知特征对齐和共同可见注意力驱动网络关注两个比较车辆之间的共同可见部分。第二，在没有共同可见注意力的情况下，直接将三元组损失应用于视图感知特征，对业绩有害。它平等地对待每个视图的特征，忽略了某些视图下的特征是不显著的，因此这将噪声引入网络。4.6.3全局和局部距离的权重选择在这里，我们进行实验，以弄清楚视图感知功能如何影响车辆ReID的性能。表7显示了全局和局部距离之间不同权重的结果。我们可以发现，视图感知局部特征在所有指标（即mAP、CMC@1、CMC@5、CMC@10）上都带来了最终结果的改善。局部视图感知特征学习有助于全局特征更好地学习。4.6.4视图感知特征学习为了更好地理解PVEN中视图感知特征学习的重要性，我们将车辆图像的距离热图可视化。距离热图中得分高的像素表明它们在确定查询与图库车辆之间的相似性方面起着更重要的作用。具体来说，热图是主干的最后一个特征图的加权和。权重是从两个特征的逐元素欧氏距离计算的。图5显示了来自我们的PVEN和没有视图感知特征学习的PVEN的两个图像的距离热图。这两幅图像分别来自后视图和前视图，但它们是同一辆车。如图5中的第一行所示，我们观察到PVEN无视野感知特征学习主要关注车辆的不匹配的后灯和前灯。作为第二行的对比，PVEN更加关注车辆侧面和顶部等共现区域，减少了不同视图的遮挡，缩短了实例间的距离。方法小介质大@1@5@1@5@1@5[28]第二十八话0.5720.7510.5320.7110.4460.636[第23话]0.4470.6330.4030.5900.3350.514Softmax[16]0.5340.7500.4620.6990.3790.599CCL[11]0.5700.7500.5190.7100.4460.610HDC[31]0.5710.7890.4960.7230.4400.649GSTE[1]0.6050.8010.5210.7490.4540.665[38]第三十八话0.5810.7960.5160.7440.4360.655[18]第十八话0.6400.8280.5780.7830.4940.705PVEN0.9670.9920.9540.9880.9340.9787110查询Top5结果图5.同一车辆的两个图像的距离热图这两个图像是在不同的视图下（背面和正面）。没有视野感知未来学习的PVEN（第一排）主要关注车辆的后部和前部，而PVEN（第二排）更关注常见的可见部分。4.7. 跨数据集传输在车辆Re-ID任务中，不同数据集之间的主要差异在于视图的分布。例如，大多数车辆在VehicleID中处于后视图和前视图下，而更多车辆在VeRi 776和VERI-Wild中处于侧视图下。我们测试了PVEN的传输性能，以评估视图感知特征嵌入的有效性。我们在VERI-Wild中训练PVEN并在VehicleID中测试它。比较方法RAM [17]和EALN [19]均在VehicleID上进行训练和测试。表8显示了性能。我们发现我们的模型在CMC@1和CMC@5上的性能优于RAM [17]和EALN [19]，尽管PVEN没有在测试数据集上训练。所提出的视图感知特征学习消除了多视图分布差异。PVEN的这种迁移能力来源于两个方面。首先，视图感知特征对齐带来了车辆的细粒度表示。第二，不同视角下的共同可见特征增强不仅可以缩短实例间的距离，而且可以扩大实例间的差异。4.8. 定性分析图6显示了我们的PVEN在三个车辆ReID数据集上的定性结果。我们可以观察到，当查询和目标图像处于不同视图下时，我们的PVEN可以更好地识别同一车辆，这得益于视图感知特征对齐和增强。在图6中，顶部两行显示了VeRi 776上的结果。中间的两行是Vehi上的结果-表8.跨域设置的mAP、CMC@1和CMC@5方法火车测试CMC@1CMC@5RAM[17]车辆ID车辆ID0.7520.915EALN[19]车辆ID车辆ID0.7510.881PVENVERI-Wild车辆ID0.7720.944VERI-WildPVEN，不含本地PVEN图6.车辆ReID任务的排名列表可视化。第一列中的图像是查询图像。其余的图像检索前5名的排名结果。正确检索的图像以绿色边框显示，而错误实例以红色边框显示cleID，其中对于每个测试查询，图库集中只有一个目标图像。底部两行显示VERI-Wild的结果。我们可以发现，在没有视图感知特征学习的情况下，PVEN的前k个检索车辆具有相同的视图，并且具有相似的颜色和车辆类型。作为比较，PVEN在不同的视图下检索正确的图像。这表明视图感知特征学习可以更好地对齐和增强局部特征，从而缓解视图转换问题。5. 结论在本文中，我们提出了一个基于解析的视图感知嵌入网络。在车辆部件解析器的帮助下，视图感知特征对齐提供了车辆的细粒度表示。我们设计了一个公共可见注意力集中在公共可见的视图，这增强了车辆嵌入在不同的视图。这不仅缩短了实例间的距离，而且扩大了实例间的差异。PVEN有助于捕获同一车辆的稳定和有区别的信息。在三个数据集上的实验表明，我们的模型比SOTA方法有很大的优势。谢谢。这项工作得到了中国国家重点研发计划的部分支持&，该计划由Grand：2018AAA0102003，部分国家自然科学基金：61771457, 61732007，61772497，61772494 、 61931008 、 U1636214 、 61622211 、U19B2038、61702491，部分由前沿科学重点研究计划，CAS：QYZDJ-SSW-SYS 013。PVEN，不含本地D µ 3p µcQ=0.732Rpµk=17PVEND µ 3p µcQ=0.133Rpµk=5µVeRi776PVEN，不含本地PVEN车辆IDPVEN，不含本地PVEN7111引用[1] Yan Bai，Yihang Lou，Feng Gao，Shiqi Wang，YuweiWu，and Ling-Yu Duan.用于车辆再识别的组敏感三元组嵌入。IEEE Transactions on Multimedia，20（9）：2385[2] Haiyun Guo ， Chaoyang Zhao ， Zhiwei Liu ， JinqiaoWang，and Hanqing Lu.学习用于车辆再识别的粗到细结构化特征嵌入在AAAI，第6853-6860页[3] 何冰，李佳，赵一凡，田永红。部分正规化的几乎重复的车辆重新识别。在IEEE计算机视觉和模式识别会议的论文集，第3997-4005页[4] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE CVPR，第770-778页[5] 杰虎，李申，孙刚。挤压-激发网络。在IEEE CVPR，第7132-7141页大规模城市监控。IEEE Trans. Multimedia，20（3）：645[17] Xiaobin Liu ，Shiliang Zhang ， Qingming Huang ，andWen Gao. RAM：用于车辆重新识别的区域感知深度模型。在ICME，第1-6页[18] Yihang Lou ， Yan Bai ， Jun Liu ， Shiqi Wang ， andLingyu Duan. Veri-wild：一个大型数据集和一种用于野外车辆重新识别的新方法在IEEE CVPR，第3235[19] 楼一航，白燕，刘军，王世奇，段玲玉.嵌入对抗学习用于车辆重新识别。IEEE Trans.图像处理，28（8）：3794[20] Hao Luo，Youzhi Gu，Xingyu Liao，Shenqi Lai，andWei Jiang. 一袋技巧和一个强大的基线，为深入的人重新识别。在IEEE CVPR研讨会上，第0[21] Olaf Ronneberger ， Philipp Fischer ， and ThomasBrox.U-网：用于生物医学图像分割的卷积网络在医学图像计算和计算机辅助交互[6] 马赫迪M. Kalayeh，EmrahBasaran，MuhittinGokmen，预防- MICCAI 2015 -第18届国际会议穆斯塔法·E. Kamasak和Mubarak Shah人类语义学解析以重新识别人员。在IEEE CVPR，第1062-1071页[7] Pirazh Khorramshahi ，Amit Kumar，Neehar Peri，SaiSakethRambhatla ， Jun-ChengChen ， andRamaChellappa.车辆再识别的具有自适应注意力的双路径模型。arXiv预印本arXiv：1905.03397，2019。[8] Liang Li，Shuqiang Jiang，and Qingming Huang.通过混合范数正则化学习层次语义描述用于图像理解。IEEETransactions on Multimedia，14（5）：1401[9] Wei Li，Xiatian Zhu，and Shaogang Gong.和谐的关注网络，以进行人员再识别。在IEEE CVPR，第2285-2294页[10] Shengcai Liao，Yang Hu，Xiangyu Zhu，and Stan Z Li.通过局部最大发生表示和度量学习进行个人重新识别在IEEE CVPR，第2197- 2206页[11] Hongye Liu ， Yonghong Tian ， Yaowei Wang ， LuPang，and Tiejun Huang.深度相对距离学习：分辨相似车辆之间的在IEEE CVPR，第2167-2175页[12] Jiawei Liu，Zheng-Jun Zha，Di Chen，Richang Hong，and Meng Wang.用于跨域人员再识别的自适应传输网络。在IEEE CVPR，第7202[13] Xuejing Liu ， Liang Li ， Shuhui Wang ， Zheng-JunZha，Dechao Meng，and Qingming Huang.自适应重构网络在弱监督指称表达中的应用。在IEEE ICCV，第2611-2620页[14] Xinchen Liu，Wu Liu，Huadong Ma，and Huiyuan Fu.城市监控录像中的大规模车辆重新识别。在ICME，第1-6页[15] Xinchen Liu，Wu Liu，Huadong Ma，and Huiyuan Fu.城市监控录像中的大规模车辆重新识别。在ICME中，第1-6页。IEEE，2016.[16] Xinchen Liu ， Wu Liu ， Tao Mei ， and HuadongMa.PROVID：渐进式多模式车辆再识别，慕尼黑，德国，2015年10月5日至9日，会议记录，第三部分，第234-241页，2015年。[22] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang，Andrej Karpathy，Aditya Khosla，

下载后可阅读完整内容，剩余1页未读，立即下载