基于SwinTransformer的车辆再识别方法及实验验证

13 浏览量更新于2023-12-05 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列16（2022）100255基于Swin-Transformer网络李建荣，余昌，石金元，张传磊*，柯婷天津科技大学人工智能学院，天津，中国A R T I C L EI N FO保留字：车辆重新识别Transformer局部特征A B S T R A C T车辆再识别是在给定车辆图像的情况下找出由其他摄像机捕获的确切车辆。在自然交通监控系统中，车辆重新识别可以在目标车辆定位、监控和犯罪调查中发挥作用。虽然目前基于卷积神经网络的方法非常成功，但大多数研究都考虑从单个图像中学习表示，忽略了它们之间的潜在相互作用。Swin Transformer方法目前在图像分类中显示出优异的优势。它可以像卷积神经网络一样处理不同尺度的特征，并使元素之间的关系更加紧密，与卷积神经网络相比，增强了对鲁棒特征的学习，提高了特征的鲁棒性和区分度。因此，本文采用SwinTransformer方法进行车辆重识别，并在VeRi- 776和VehicleID两个大型车辆数据集上进行了实验验证。实验结果表明，该方法的识别效果明显优于VAM、FDA-Net、TransReID等现有的车辆重识别方法。1. 介绍随着现代社会中车辆数量的增加，出现了各种交通问题。在这种情况下，车辆重新识别技术逐渐被广泛研究。车辆再识别问题是指在特定范围的交通监控场景中，确定在非重叠区域内拍摄的车辆图像是否属于同一车辆的检索问题。其目的主要是将车辆图像与摄像头拍摄的车辆图像进行匹配。然而，由于智能城市道路上的监控摄像头和交通管理，从图库集执行车辆搜索的需求有所增加。车辆再识别类似于其他几个应用，如人员再识别、行为分析、跨摄像机跟踪、车辆分类、物体检索、物体识别等。目前，国内外交通发达地区都安装了监控摄像机。研究如何将其应用于交通监管和刑事侦查是一个令人感兴趣的问题。在深度学习技术出现之前，早期对车辆再识别的研究集中在手动设计更好的视觉特征和学习更好的相似性度量。近年来，深度学习技术被广泛应用于车辆再识别任务与的发展的深学习不像传统方法，深度学习方法可以自动提取更好车辆图像特征和学习更好的相似性度量同步对象重新识别旨在将场景和相机视图中的特定对象关联起来。去除鲁棒和可区分的特征是Re-ID的组成部分，并且长期以来一直由基于卷积神经网络（CNN）的方法[1尽管基于卷积神经网络（CNN）的方法取得了巨大的成功[4]，但它们一次处理一个局部邻域，并且由于卷积和下采样运算符（如池化和逐步卷积）而丢失了详细信息。 CNN处理边缘、形状和原始车辆特征，但不考虑这些特征之间的关系;因此，当车辆图像旋转或以不同的旋转捕获时，模型的性能往往不令人满意。另一方面，注意力机制的出现从根本上解决了卷积神经网络中的细节丢失问题。在自然语言中，Transformer [5]已成为其首选模型。Transformer在机器翻译任务上优于RNN和CNN。Transformer是一个具有注意力机制的模型。从生物学的角度来看，注意机制可以被看作是人类视觉系统独特的大脑信号处理机制。当一幅图像出现在眼前时，人类的视觉会快速地掠过整幅图像并过滤掉重要的目标区域。在计算机视觉领域，受一个Transformer的启发，Google提出了地标模型VIT（Vision Transformer）[6]。其主要设计是应用* 通讯作者。电子邮件地址：97313114@tust.edu.cn（C.Zhang）。https://doi.org/10.1016/j.array.2022.100255接收日期：2022年8月30日;接收日期：2022年10月20日;接受日期：2022年10月25日2022年11月2日在线发布2590-0056/© 2022作者。爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表阵列期刊主页：www.sciencedirect.com/journal/arrayJ. Li等人阵列16（2022）1002552Fig. 1. Swin Transformer模型。一个纯Transformer架构直接对一系列图像块进行分类任务，可以达到很好的效果。它在许多图像分类任务上的性能也超过了最先进的卷积网络。2020年，Transformer模型首次应用于图像分类任务，取得了比卷积神经网络模型更好的效果。此后，许多研究者试图将Transformer模型强大的建模能力运用到计算机视觉领域目前，基于transformer的框架更常用于图像分类。Transformer模型已成为自然语言处理领域的一种新范式。目前，越来越多的研究者试图将Transformer模型强大的建模能力应用到计算机视觉中。在车辆重识别中，CNN涉及到边缘、形状和原始车辆特征，但没有考虑这些特征之间的关系。而VIT的出现很好地解决了这个问题。它在处理不同的姿势、方向和模糊的物体时表现良好。VIT（Vision Trans-former）和DeiT（Data efficient image Transformers）[7]证明了在图像识别的特征提取中，一种基于Transformer的基于卷积神经网络的方法是一样实用的。TransReID [8]是一种通过VIT模型，提出通过移位和补丁混合操作重新排列补丁嵌入，以产生具有改进的区分度和更多样化覆盖的鲁棒特征。VIT模型内的斑块大小是固定的，并且是统一的尺度。对于自然语言处理领域，图的尺度是统一的，而在计算机视觉领域，图的块大小是不固定的，可以大也可以小。当执行一些分类任务时，补丁可能更重要。但是对于计算机视觉中的下游任务，例如，目标检测、像素级分割或生成等，通常需要调整贴片尺寸。这可能会导致VIT的计算问题，如果补丁是恒定的，这不是这些下游任务的好解决方案。Swin Transformer的出现是解决了VIT对下游任务不友好Swin Transformer [9]解决了这个问题，取得了较好的效果在分类、检测和分割任务中。卷积神经网络中常见的大多数超参数也在Swin Transformer中可以手动调整，例如可以调整的网络块数量、每个块中的层数、输入图像的大小等。在Swin Transformer之前，VIT和iGPT使用小尺寸图像作为输入，这种直接对图像进行加密的策略无疑会丢失很多信息。与它们不同的是，Swin Transformer的输入是原始图像大小，例如，ImageNet的224*224。Swin Transformer使用卷积神经网络中最常见的分层网络结构Swin Transformer也满足了此功能。Swin Transformer是使用滑动窗口对VIT进行的修改。该方法将VIT中固定大小的采样块按层次划分为不同大小的窗口，完成窗口像素点自关注机制的计算，并通过滑动窗口机制实现不同窗口之间像素点的信息交换。与TransReID方法在车辆重识别中的应用相比，Swin Transformer扩展了网络的“感知领域“，提高了信息利用效率。因此，本文采用SwinTransformer的方法对车辆进行重新识别。本文的结构安排主要包括引言、Swin Transformer模型描述、实验验证和结论。概括起来，主要包括以下两个方面。(1) 本文采用Swin Transformer模型作为骨干网络提取车辆图像的全局特征图，并实现了与车辆特征精确位置的相似性度量，提高了车辆重识别算法的准确性。(2) 在两个大型车辆数据集（VeRi-776和VehicleID）上的实验结果表明，该方法的识别性能优于现有的车辆识别方法.J. Li等人阵列16（2022）1002553∈∗2. Swin Transformer模型2.1. Swin Transformer模型架构图二、 Swin Transformer块模块。线性嵌入层被应用于该原始值特征，并且每个令牌的向量维度被称为C 。然后，每个输入补丁通过几个自关注块（ Swin TransformerBlock），每个令牌的编号称为C。然后传递每个输入补丁Swin Transformer基于使用滑动窗口的VIT。Swin Transformer的架构与VIT的架构相同，如图1所示。这两个模块与VIT中的模块大致相同。W-MSA（Windows Multi-Head Self Attention）和SW-MAS（ShiftedWindows Multi-Head Self Attention）分别采用定界窗口和滑动窗口的方式来代替传统的多头注意机制（MSA）。通过使用定界窗口和滑动窗口来实现多头注意，以提高计算效率和最终的分类精度。输入一幅图像，xRH×W×C，其中H、W和C表示图像图像的高度、宽度和通道数。这与VIT框架中的斑块大小划分一致使用滑动窗口机制滑动图像x以划分部分piX el重叠的补丁块。具有分辨率H W的输入图像x利用以下公式（1）被划分为N个固定大小的补丁块。N=NH<$NW=[H+S-P]<$[W+S-P]（1）通过几个自关注块（Swin Transformer Blocks），并且每个令牌的令牌数量是H/4、W/4，并且与补丁嵌入一起被称为“阶段1”。随着网络变得更加深入，令牌的数量通过补丁合并来减少。而面片合并的主要工作是将相邻的小面片合并成一个大面片，从而达到对特征图进行下采样的效果。第一个Patch Merging层将每组2*2个相邻面片拼接在一起，并合并确切的位置。H/8和W/8降低了输出分辨率，向量维数变为2C，这被称为Swin Transformer Block。该过程重复两次，即，“3”级和“4”级，输出分辨率分别为H /16和W /16，H /32和W /32。这些阶段产生具有与典型卷积网络相同的精确特征映射分辨率的(e.g.、[10]和ResNet [11]）。在Swin Transformer内部，它包含两个连续的模块，每个模块如图所示。二、Swin Transformer是通过取代标准Transformer模块中的多头自注意（MSA）模块与S S是一个基于Shift Window的Self-Attention模块，留下其他层其中NH和NW表示图像上的Patch块的数量x高度和宽度，S是幻灯片的步长，P是Patch的边长。每个补丁也被称为令牌，并且每个令牌的像素是RGB三色通道。在本实施例中，分割后的面片尺寸为4*4，因此每个面片的特征维数为4*4*3= 48。一不变如图2所示，Swin Transformer块由基于移位窗口的MSA模块和具有GELU层的2层MLP组成。在每个MSA模块和MLP之前应用LayerNorm（LN）层，并且在每个模块之后使用剩余连接J. Li等人阵列16（2022）1002554∗∗∗∗∗2.2. 修补程序合并模块图三. 补丁合并模块。2.3. W-MSA模块Patch Merging模块获取大小为H W的Patch，首先将其拼接，并在通道维度上完全连接以形成H/2W/ 2 4C特征图，然后执行LayerNormalization操作进行正则化，然后通过线性层执行降维以创建H/2W/ 2 2C特征图。特征图的下采样过程完成。如图3所示，尺寸缩小到原来的1/2，而管道的数量扩大到原来的两倍。每次我们进行补丁融合时，四个相邻的令牌被融合。补丁合并主要是对图像进行下采样，类似于卷积神经网络中的池化层，并主要提取该区域中的巨大值。VIT网络中的MSA（Multi-Head Self Attention）使每个像素与其他像素成为内积，通过自注意运算获得所有像素的信息，从而带来丰富的然而，每个PIXEL点需要与其他pixel点交换信息，这是计算密集型的并且对于网络执行是低效的。因此，Swin-T将MSA划分为多个固定窗口，形成W-MSA（Windows Multi-Head Self Attention）。窗口中的每个像素只能与其他像素进行内积来获取信息，大大减少了计算量，提高了网络的效率。输入是一个图，然后变成一个张量（张量）。通常，图像的流水线是三通道（RGB）。经过Patch Embedding操作后，其流水线数为96，原始图的Patch大小为4*4。流水线是3（RGB），通过窗口分割，分成几个窗口.在这些窗口之后，图四、在移动窗口分区中用于自注意的计算方法。J. Li等人阵列16（2022）1002555∑∑表1用于实验的数据集。数据集ID图片培训VeRi-77677649,35737,778车辆ID26,328221,567110,178可用时，每个分区窗口的自注意力由WMSA（Windows Multi-Head SelfAttention）计算。这些窗口之间没有关系，输入多少令牌，输出多少令牌。注意力在每个窗口内计算。2.4. SW-MSA模块虽然W-MSA通过划分窗口减少了计算工作量，但由于窗口之间没有信息交互，因此可以将其视为减少的为了实现其他窗口之间的信息交互，我们可以滑动窗口，偏移窗口以包含不同的PIXel点，然后进行W-MSA计算，并将两个W-MSA计算的结果连接起来，以组合两个不同窗口的pix el点所包含的信息，从而实现窗口之间的信息共享。偏移窗口的W-MSA构成了SW-MSA（Shifted Windows Multi-Head SelfAttention）模块，其中窗口被移动了两个补丁到W-MSA的右下角，形成了9个不同大小的块具体结构如图所示。四、然后，使用循环移位将九个块移位并缝合成与W-MSA相同大小的四个块Masked MSA通过计算这四个拼接块的相应模板并反转循环变化以将信息数据块移回其原始位置来提取信息。SW-MSA机制完成偏移窗口像素点的MSA计算，实现不同窗口之间像素点的信息交换，从而间接地扩大网络的信息利用效率。3. 实验验证本文使用Pytorch深度学习框架进行实验。实验环境是一台主机，配有3060显卡和12 GB视频内存。实验中包含的参数主要基于SwinTransformer论文的设置。每批图片数量为32张，窗口数量也是以原文4*4划分，输入图片大小为256*256。随机、翻转、随机擦除、意外裁剪和其他数据增强策略用于提高模型在训练期间的鲁棒性。3.1. 数据集和方法该领域中最常用的两个数据集是VeRi-776和VehicleID。VeRi数据集[18]由20台摄像机拍摄的619辆汽车的40，000张图像组成，具有丰富的注释信息，包括边界框，车辆类型，颜色，制造商等。每辆汽车由至少2和18台摄像机拍摄，具有不同的视角，照明，分辨率和遮挡，构成了现实场景下高度可再现的数据集。Liu等人[19]对VeRi数据集进行了扩展和注释，提出了VeRi-776数据集，这也是使用较广泛的车辆重新识别数据集之一。VehicleID是Liu等人[20]提出的大规模车辆再识别数据集，包括26,267辆车的221,763张图像，主要包含前后两个视图。每个图像不仅有车辆ID，而且还有车辆型号的详细信息（共250个制造商型号），以评估车辆的性能再鉴定方法比较全面。表1给出了用于实验的数据集，包含每辆车的ID、图像总数以及用于训练和测试的图像数量。本文主要通过对比VAMI [22]模型，对以下几种方法进行了比较，以解决不同角度拍摄的车辆造成的重识别精度低的问题，并提出了多角度学习方法。首先将车辆的单角度图像输入到网络中提取特征，然后使用跨视图排序损失训练其他视图特征，获得车辆其他视图的特征。使用网络生成的特征与从相机重新拍摄的图像中提取的特征有很大不同，因此最终结果是平均的。PROVID [12]和VSTP[13]都是多模态检索模型，它们将车辆的图像以及与图像相关的时空信息编码到模型中，在一定程度上提高了车辆检索的准确性，以及未能很好地融合时空特征的问题。SSL [14]模型的主要创新之处在于使用生成式对抗网络生成车辆再识别样本，从而增加了车辆再识别训练集的数量，并且SSL模型的训练过程采用了半监督学习方法。RAM [15]模型是一种区域感知算法，它使用四个分支来形成整个车辆重新识别模型。这四个分支过于关注局部细节特征，对整体车辆特征的感知能力太弱。QD-DLF [16]提取了车辆图像在水平、垂直、对角和反对角方向上的特征，最后将这些方法的特征归一化并连接起来。MTCRO [17]提出了一种多任务学习方法，并构造了一种新的排序方法。TransReID是一种基于VIT的改进方法，它主要引入辅助信息嵌入，通过插入可学习的嵌入来合并这些非视觉线索，从而减轻相机/视图变化的特征偏差。相机或视图更改的功能偏差。3.2. 评价指标在测试过程中，使用查询集的图片检索测试集的图像并对其进行排序，并通过欧氏距离来组织具有相同id的最近车辆。在检索和重新识别任务中最广泛使用的指标是Rank-N和平均精度（mAP），以评估模型的性能。车辆重识别是图像检索的一个子问题，在衡量重识别方法的性能时，常用的评价指标主要有mAP和Rank-N表。平均精度是用来评价重新识别的总体性能，代表所有检索结果的平均精度。将测试集分为查询集和图库集，首先对每个查询集图像q的检索结果计算平均精度AP，如式（2）所示，k表示图库集图像序号，n表示图库集图像总数，N表示目标车辆图像总数。P（k）表示检索序列中第k个位置之前的精度，gt（k）表示第k个图像是否为目标车辆，Q表示查询图像的总数。对所有查询集的检索结果的最终平均精度进行平均，即，mAP，如式（3）所示。nAP=P（k）>（k）/N（ 2）k=1QmAP=AP（q）/Q（ 3）q=1Rank-N表用于比较不同方法的性能。如果方法之间的性能差异不显著，则不可能准确确定性能的好坏。达到与其他方法的性能差异更多J. Li等人阵列16（2022）1002556∑1-=i，k=表2VeRi-776数据集比较实验。方法mAP/%排名-1/%VAMI [22]50.177.0PROVID [12]53.481.6VSTP [13]58.886.4SSL [14]61.188.6RAM [15]61.588.6QD-DLF [16]61.888.5MTCRO [17]62.688.0TransReID [8]78.296.5Swin Transformer78.697.3简单地说，通常选择一些关键匹配位置的累积匹配精度进行比较，其中Rank-1和Rank-5较为常见，分别表示结果序列中第一幅和第五幅图像正确匹配的概率。评价指标Rank-k建议对于所有待检测车辆的照片，将匹配图像库的图片按相似度排序，看排序结果的第k张图像是否被正确检索，计算如公式（4）所示。M秩（4）mk=1其中m表示要检索的车辆图像的总数。对于第i幅图像，其检索结果按相似度排序，Si，k1如果在第一k中存在与检测到的图像具有相同ID的图像，图像，否则。Si，k=0。3.2. 实验结果及分析将本文提出的方法与近年来精度较高的算法进行了比较。VeRi-776数据集的比较实验结果见表2和图5。运送至Swin Transformer方法的Rank-1/mAP性能比当前Vision高0.6%/0.4%基于Transformer的车辆重识别算法。VehicleID数据集的对比实验：表3和图6显示了VehicleID数据集与其他方法相比的结果，Swin Transformer也达到了最佳性能。在VehicleID数据集上，Rank-1/mAP的性能分别优于次优方法TransReID 0.4%和0.3%。实验结果表明，本文所采用的Swin Transformer模型方法在VeRi-776数据集和VehicleID数据集上均取得了良好的性能，优于现有方法。这表明了该方法的有效性和通用性。在实验期间训练和测试的两个数据集的损失减少如图所示。第七章左侧对应于VeRi- 776数据集，右侧对应于VehicleID数据集。实验主要进行60个Epoch，损耗在第60次左右稳定。实验结果表明，SwinTransformer模型在VeRi-776和VehicleID数据集上具有更高的精度。Swin Transformer模型的可视化结果如图所示。八、图在图8中，列1是待识别的图像，列2至列11是按照相似度从高到低排序的十个图像。列2至列11是按照相似度从高到低排序的十个图像。第2行和第3行都显示了具有正确匹配的十个结果行1中的最后一个图像是表3VehicleID数据集比较实验。方法mAP/%秩-1/%DRDL [20] 49.0 73.5C2F-排名[21] 61.1 81.6VAMI [22] 63.1 83.2美国食品药品监督管理局网络[23] 64.0 82.8VGG+ C+ T+ S [24][25]第25话VANET [26] 83.2 95.6[8]第八届全国人大代表Swin Transformer83.9 97.5图五. VeRi-776数据集比较直方图。J. Li等人阵列16（2022）1002557见图6。 VehicleID数据集比较直方图。见图7。训练和测试损失。图八、SwinTran sform er 车辆重新识别模型结果的可视化。不正确的匹配。结果的可视化显示，整体外观相似度仍然比较高，证明Swin Trans- former在车辆再识别方法中具有更鲁棒的特征提取能力和准确性。结论本文将Swin-Transformer模型结构应用于车辆再识别，并通过实验证明了在两个大型车辆数据集VeRi-776和J. Li等人阵列16（2022）1002558作为特征提取的骨干网络，该方法在Rank-1和mAP上均优于对比方法，有效提高了车辆重识别模型的车辆检索准确率，并能使特征之间的关联更加紧密，增强鲁棒特征的学习，并提高特征鲁棒性和区分性能。为车辆重识别算法的研究提供了具体的参考.信用作者声明李建荣：概念化，软件，余昌：方法论，软件，写作-初稿，石锦源：写作-评审编辑，可视化，张传磊：写作-评审编辑，柯婷：写作-评审编辑。&&&竞合利益作者声明，他们没有已知的可能影响本文所报告工作数据可用性数据将根据要求提供。引用[1] O'sheaK，Nash RJCS. 卷积神经网络导论 2015年。[2] 孙永峰，郑丽，杨勇，等。超越部分模型：基于改进部分池和强卷积基线的人员检索[C]。2018年第15届欧洲计算机视觉会议（ECCV）。p. 501- 18[3] SunY，Cheng C，Zhang Y，et al. 圆损失：对相似优化的统一观点[C].IEEE/CVF计算机视觉和模式识别会议（CVPR）; 2020年。第6397-406页。2020年。[4] ZarembaW，Sutskever I，Vinyals OJEA. 递归神经网络正则化[J]. 2014年。[5] VaswaniA，Shazeer N，Parmar N，et al. 注意力是你所需要的一切ArXiv ; 2017.[6] Dosovitskiy A，Beyer L，Kolesnikov A，et al. An image is worth 16 X 16words：transformers for image recognition at scale[C]. 2020年。[7] TouvronH，Cord M，Douze M，等.训练数据高效的图像转换器&注意力蒸馏[J]. 2020年。[8] He S，Luo H，Wang P，et al. TransReID.基于变换器的对象重识别[C]; 2021.[9] 刘志，林英，曹英，等。Swin Transformer：基于移动窗口的分层视觉变换器[C]。IEEE/CVF计算机视觉国际会议论文集。2021年：10012-22。[10] Simonyan K，Zisserman A.用于大规模图像识别的超深卷积网络[J].计算机科学;2014.[11] 何凯，张翔，任S，等.基于深度残差学习的图像识别[C]//IEEE计算机视觉与模式识别会议论文集. 2016年。p. 770- 8[12] 刘晓，刘伟，梅婷，等.基于深度学习的城市车辆识别方法[C]//欧洲计算机视觉会议. Cham：Springer; 2016.p. 869-84.[13] [1]沈勇，肖涛，李宏，等.基于视觉时空路径的车辆识别深度神经网络[C]//IEEE计算机视觉国际会议论文集. 2017年。p. 1900-9.[14] 吴锋，严松，史密斯，等.基于半监督学习和重排序的静止图像车辆识别方法[J].信号处理图像通讯2019;76：261-71。[15] [1]刘翔，张松，黄强，等. Ram：一种基于区域感知的车辆重识别深度模型[C]//2018 IEEE International Conference on Multimedia and E X po（ ICME） .IEEE; 2018. p. 一比六[16] ZhuJ，Zeng H，HuangJ， et al. 基于四向深度学习特征的车辆重识别[J]. IEEETrans Intell Transport Syst 2019;21（1）：410-20.[17] 徐东，郎春，冯S，等.一种基于多任务CNN模型和重排序方法的车辆重识别框架[C]//第10届互联网多媒体计算与服务国际会议论文集. 2018.p. 一比七[18] 刘翔，刘伟，马宏，等。城市监控视频中的大型车辆再识别[C]。2016年IEEE多媒体与博览会国际会议（ICME）;2016年。p. 一比六[19] 刘晓，刘伟，梅婷，等.基于多模式车辆识别的大规模城市监控系统[J].IEEE Transactions onMultimedia 2018;20（3）：645-58.[20] 刘华，田勇，王勇，等。深度相对距离学习：区分相似车辆[C]。2016年IEEE计算机视觉与模式识别会议（CVPR）; 2016年。p. 2167- 75[21] 郭华，赵聪，刘志.基于粗到精结构化特征嵌入的车辆再识别[C]//第三届AAAI人工智能会议. Piscataway：IEEE Press; 2018. p. 6853- 60[22] 周毅，邵亮，达比A.基于视点感知的多视点注意推理的车辆再识别[C]//IEEE计算机视觉国际会议. Piscataway：IEEE Press; 2018.p. 6489- 98[23] 刘军，等.汽车视觉系统中的车辆自动识别方法[C].北京：北京交通大学出版社，2000，21（1）：119 -119. Piscataway：IEEE Press; 2019.p. 3235- 43[24] 张英，刘丹，查正杰.改进卷积神经网络的三重训练用于车辆重新识别[C]//2017IEEE多媒体和E X po国际会议（ICME）。Piscataway：IEEE Press; 2017.p.1386-91年。[25] 陈H，拉加德克B，布雷蒙德F.分割与重组：一种用于车辆再识别的双分支神经网络[C]//IEEE计算机视觉与模式识别会议. Piscataway：IEEE Press; 2019.p. 184比92[26] 朱荣，孙英，李英，等.基于视点感知度量学习的车辆再识别[C]//IEEE计算机视觉国际会议. Piscataway：IEEE Press; 2019. p. 8282- 91

下载后可阅读完整内容，剩余1页未读，立即下载