可解释注意力的自监督几何特征发现在车辆再识别中的应用

136 浏览量更新于2023-10-13 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

194基于可解释注意力的自监督几何特征发现及其在车辆再识别中的应用李明*新明黄子明张伍斯特理工学院100 Institute Rd，伍斯特，MA，美国ming.li @ u.nus.edu，{xhuang，zzhang15}@wwwwpi.edu摘要为了学习可区分的模式，大多数最近的工作在车辆重新识别（ReID）努力重新开发的人工基准，以提供各种监督，这需要禁止人力劳动。在本文中，我们寻求实现类似的目标，但不涉及更多的人的努力。为此，我们引入了一个新的框架，它成功地编码的几何局部特征和全球表示，以区分车辆实例，优化只有从官方ID标签的监督。具体来说，鉴于我们的洞察力，在ReID中的对象共享相似的几何特征，我们建议借用自监督表示学习，以促进几何特征发现。为了浓缩这些特征，我们引入了一个可解释的注意模块，其核心是局部最大值聚合而不是完全自动学习，其机制是完全可以理解的，其响应图是物理上合理的。据我们所知，我们是第一个执行自我监督学习来发现几何特征的我们在三个最流行的车辆ReID数据集上进行综合实验，即，VeRi-776、CityFlow-ReID和Vehi-cleID。我们报告我们的国家的最先进的（SOTA）的性能和有前途的可视化结果。我们还展示了我们的方法在其他ReID相关任务上的卓越可扩展性，即，人ReID和多目标多摄像机（MTMC）车辆跟踪。1. 介绍车辆ReID是视频监控中的一个基本但具有挑战性的问题，这是由于来自相同品牌的车辆之间的细微差异以及同一实例的视点之间的大变化。近期工作的成功表明，解决这一问题的关键是增加-*这项工作是作者在WPI访问VISLab时完成的https：//zhang-vislab.github.io前回来左权(a)预标记标志 (b)我们学会的地标与自我监督图1：（上图）在文献中，通常需要劳动密集型细粒度标签注释来捕获局部区分特征，例如（a）标记[55]学习方向不变特征。相比之下，我们设法以自我监督的方式发现这样的几何特征（在（b）中表示为（底部）至于其泛化能力，我们的方法还可以一致地定位可变形人体的关键部分，例如，头部、上臂和膝盖，而不使用相应的地面实况。最好用彩色观看。建立明确的机制以发现和集中于信息性车辆部件（例如，车轮、制造商标志），用于除了从整体图像捕获鲁棒特征之外的区别性特征提取。然而，他们都试图编辑原始数据，以提供补充资料。195透视，例如，视图分割[39]，关键点[24，55]，车辆方向[24，55，8，7]或关键部位[17]，用于训练其深度分类器。尽管这些方法令人满意地执行，但是它们的注释过程不可避免地涉及密集的人工努力，这显著地限制了这种方法的可应用性。例如，当部署在新场景中时，[17]要求必须手动定位信息部分以优化其YOLO检测器。之后，它们能够从检测到的感兴趣区域嵌入局部模式以辅助ReID。因此，期望开发能够集中于车身的信息细节但不需要对应的地面实况的方法。另一方面，虽然它们的能力通过各种计算机视觉任务[12，2，24，4]证明，但现有的注意力机制，如通道注意力[21]，空间注意力[58]和自我注意力[53]，都非常复杂和模糊。也就是说，它们的架构很难解释，注意力地图是靠它们自己学习的例如，在自注意力[53]中，高维嵌入Q、K、V首先通过卷积或线性运算从输入中投影出来，然后通过Q、K之间的矩阵乘法获得条目相关性（注意力）。V由所得的相关矩阵加权作为注意力输出。虽然工作流程似乎是有意义的，但它工作的基本原理此外，他们的学习注意力通常分散在一个整体的对象，没有具体的关注。否则，一个可解释的注意力模块，其设计应该是容易理解的，可以揭示什么是识别的关键，并有助于指导进一步的改进。鉴于上述观察结果，我们提出了一种新的框架，除了车辆ReID的全局表示之外，该框架还可以在自监督学习和简单但可解释的注意力的帮助下成功地具体地，在自动生成的地面实况的监督下，执行自监督学习以优化编码器网络，该编码器网络被共享以浓缩低级车辆将编码的车辆表示馈送到引入的可解释注意机制中以获取注意图。通过对另一个低级别的车辆表示加权，我们获得了车辆ReID的感兴趣区域强调的特征。总之，我们在这项工作中的主要贡献是：• 我们是第一个成功地学习信息几何特征车辆ReID没有监督细粒度的注释。• 一个可解释的注意模块，其设计是易于解释的，其浓度是物理上重要的位置，被引入到突出的自动感兴趣的区域。• 我们报告了我们提出的方法在广泛使用的车辆ReID基准上的SOTA性能，即，VeRi-776 [33]、CityFlow-ReID [50]和VehicleID [31]，与所有现有工作（包括涉及更多来自手动注释的监督的工作）相比。我们还可视化了通过我们的框架学习的可靠和一致的几何特征。• 通过对人的ReID和MTMC车辆跟踪的直接传输实验，证明了该方案具有良好的可扩展性。2. 相关作品车辆ReID。现有的研究大多致力于探索除了身份标签之外的额外监督机制来指导ReID。这些工作可分为以下三个主流：（1）利用车辆属性（例如，颜色和模型）[16，62，34，33，35，75]或数据中的时间信息[55，44]来规范表示学习;（2）编辑官方数据集以提供更细粒度的注释，如关键部件位置[17]，视图分割[39]，关键点或车身方向[24，55，8，7]，以监督局部特征发现;(3)将多个数据集组装在一起[69]或合成更多车辆图像[36，49，59]以训练更强大的网络。此外，还有一些工作旨在从度量学习的角度增强表示学习[3，8，1，66]。相比之下，我们的工作设法捕捉歧视性的地方模式，而没有相应的监督。此外，与最近表现良好的作品不同，这些作品依赖于另一个辅助的预训练网络来指示信息部分[39，17，7，8]，我们的框架是优雅的，端到端可训练的。注意力集中。在计算机视觉领域已经提出了各种注意力架构，例如，[12][13][14][15][16][17][18][19][1[58]，其也扩展到ReID字段[4，2，74，24]。例如，[2]和[74]分别提出使用注意力增益和多级前景一致性来正则化ReID特征提取。所有这些注意力网络都非常复杂，计算成本很高，特别是难以解释，这限制了它们的推广和未来的改进。例如，[4]中的注意分支并行地合并了通道注意模块（ CAM ）和位置注意模块（PAM）。后者采用堆叠卷积层来执行Q、K、V投影而前者仅利用身份层（副本）的原因是未知的。在这种情况下，我们没有想法进一步改进它，例如，使得位置注意力集中在更可区分的部分上，而不是[4]中的人体的大的一般区域上。不同的是，我们的注意力只由几个可学习的操作组成，每一步都是合理的，很容易解释。196·Ni=1--图2：我们的框架概述：通过可解释注意力的自监督几何特征发现，其由全局分支（GB）、自监督学习分支（SLB）和几何特征分支（GFB）组成。一些关键组件是可解释Atten- tion模块（IAM），批量归一化颈（BNNeck）[37]，余弦分类器（CC）[13]，全局平均池（GAP），硬挖掘三重损失（Tri）[20]和平滑交叉熵损失（SCE）[48]。自我监督学习。自监督学习的成功取决于设计一个适当的借口任务来监督模型优化。在该文献中，已经构建了各种视觉任务，例如，图像完成[22]，着色[65]，补丁位置预测[9，29]，补丁顺序预测[26，29]和旋转识别[64，11]。此外，最近多视图图像的对比学习[5，18]已经证明了其有效性。此外，这些借口任务也可以作为辅助任务来加强目标任务[13，6]。我们的作品与这些作品有很大的不同。我们进行自我监督学习，以促进几何特征发现，这还没有被其他作品探索。我们知道，最近Khorramshahi等人 [25]提出了他们的自监督注意力车辆重新识别（SAVER）框架，以关注车身的细节。虽然我们的标题与他们的标题共享“自我监督”和“注意力”，但我们的方法与他们完全不同。原则上，SAVER将通过变分自动编码器（VAE）[28]从输入中去除重建图像的残差作为特征提取的区分细节，他们称之为然而，我们实际上提出了一种借用自我监督学习来规范我们的可解释注意力学习的新方法。此外，我们的建议与SAVER的明显不同之处，至少在以下几个• 我们的可以鲁棒性和一致性地定位几何特征与物理解释跨车辆实例和观点。• 我们的深层框架更加简洁，不需要额外的离线预训练（如SAVER中的VAE）或定制的图像预处理，即，使用对象检测器从所有图像中去除背景噪声。• 我们的结果明显更好。例如，即使在最具挑战性的VehicleID测试场景中，大画廊的大小，我们的方法优于储蓄5.5%和5.4%的前1名和前5名的准确性，分别。3. 基于可解释注意力的自监督几何特征如图2所示，为了同时学习自监督几何特征以及全局表示，我们的框架由全局分支（GB）、自监督学习分支（SLB）和几何特征分支（GFB）组成。每个分支都有自己的通常，GB用于对来自输入图像的鲁棒全局码进行编码。SLB执行辅助的自监督表示学习。通过与SLB共享其编码器，GFB能够在没有相应监督的情况下从自动发现的几何位置中在剩下的小节中，我们将依次阐述每个主要组件。3.1. 问题设置给定查询图像，车辆ReID用于根据查询与每个图库图像之间的相似度来获得所有图库图像的排名列表。相似性得分通常从深度嵌入计算，即，cos（f（xq;θ），f（x g;θ））.这里，f（;θ）表示具有可学习参数θ的深度网络;Xq、Xg分别是查询图像和全局图像;cos（·）表示余弦相似性。简单计算f（·;θ）在训练集上被优化D=xi，yi，其中xi，yi是车辆图像及其身份标签，N是训练样本的数量。3.2. 用于突出地理特征自监督学习相当于在机器生成的伪标签的监督下优化深度网络。其中，图像旋转度预测，即，通过随机角度旋转图像并训练分类器来预测它，已经在许多任务中证明了它的能力[14，64，11，29]。车辆ReID可以被视为实例级分类问题，即，所有图像包含相同的物种，但是包含许多实例。因此，每个图像中的显著对象具有相似的几何特性，例如，形状轮廓和骨架。我们认为，训练一个网络来预测随机旋转的车辆图像的旋转程度，可以鼓励它专注于这些可靠和共享的几何属性（对于每个车辆图像都是一样的）。197···∈NK4˜··图3：可解释注意力模块（IAM）。son ReID），这可以帮助容易地识别对象的旋转。该几何信息已被证明是区分车辆实例的关键和区别性的[55，24]，尽管它是由手动标注的关键点表示的，如图1（a）所示。具体地说，我们首先将图像xi从D旋转0◦，90◦，180◦或270◦（分别指定类别0，1，2或3）生成新的数据集D SL={xi，r，y r}，i=共享编码器fae（;θae）。我们认为，发现有区别的局部模式的最好方法是聚集高响应的空间位置，并集中于这些点的相应特征。当然，前一步是非常重要的，空间注意力可能是实现这一点的选择。然而，注意力学习中的现有工作通常具有两个众所周知的缺点：(1)无法解释的工作流程，即，体系结构通常是启发式设计的，它们的参数负载完全由它们自己学习;（2）分散的相关区域，即高响应区域太大而不能指示区分模式。另外，我们引入了一个可解释的注意模块，其推导过程可以合理地解释，不包含任何可学习的参数。此外，可视化表明，我们的注意力可以成功地集中在更准确的感兴趣区域，这些区域具有物理意义，1、…N. 随后，图像X编码器r=1i，r被馈送到共享的ings。解释性注意模块（Interpretable Attention Module，IAM）fae（·;θae）（即图2中的注意编码器）在图3中，其中L∈Rc×h×w是提取为了提取低级语义，fae（xi，r;θae）。为了预测旋转类，需要从fae（xi，r;θae）进一步压缩高级表示。我们附加另一个深模fse（;θse）来实现这一点。因此，获得高维嵌入向量：由fae（;θae）从输入图像xi和c，h，w分别表示通道，高度和宽度尺寸。为了发现空间维度上的局部兴趣点，首先沿着L中的每个通道传导每个点的邻域上的Softmax [ ]，即，FSL（xi，r）=GAP[fse（fae（xi，r;θae）;θse）]，（1）其中GAP[·]表示全局平均池化操作。M（k，u，v）=Σexp（L（k，u，v））、（m，n）∈N（u，v）exp（L（k，m，n））（四）为了在嵌入空间中生成更紧凑的聚类，采用余弦分类器（CC）[13]来分配旋转类。CC的可学习参数是[w1，. . . ，wj，. . . ，wb]，wjRd，其中d是向量FSL并且b是类的数目（即，b=4）。将输入图像分配到每个类别的概率其中（u，v）表示在第k个通道中的位置（u，v）周围具有边长的平方邻域集。并行地，从L执行跨所有通道的非最大值抑制（NMS）计算以突出重要特征通道，即，可以表示为P（xi，r）=[pi，. . . ，pj，. . . ，pb]，其中每个元素是L（k，u，v）G（k，u，v）=最大值t=1，…，cL（t，u，v）.（五）pj=So ftmax[γcos（FSL（xi，r），wj）].（二）Softmax[ ]和γ表示相应的归一化指数函数和可学习标量。最后，自我监督学习的目标函数是：LSLB=EDSL[CE（P（xi，r），yr）]，（3）其中CE（·）是交叉熵损失函数。哦，暴力，为了同时考虑局部空间最大值和通道最大图像，通过下式获得Q值：M和G的逐元素乘积，之后是信道维度i上的最大化。例如， Q（u，v）=maxt=1，.，c{M（t，u，v）·G（t，u，v）}. 我们的最终注意力Q通过Q的空间归一化获得，其考虑-将所有局部最大值合并在一起并聚合全局兴趣点：Q~（u，v）LSLB的优化加强了深度分类器，尤其是通常，子网工作fae（·;θae），以捕获几何特征。Q（u，v）=Σ（m，n）Q~（m，n）。（六）198从输入图像中提取图像。3.3. 基于可解释注意的通过执行自监督学习（第3.2节），已经通过以下方法提取了低级几何特征：Q表示激活张量L的空间强调，即输入图像xi的关键点。因此，能够合理地对从xi中提取的另一全局表示进行加权，其中Q作为区别性几何特征，如图1二、我们的注意力部分受到[10]中的软地标检测的启发，但与他们的显著不同。199×3.4. 总体优化目标为了优化整个框架，我们将SLB的CE损失，硬挖掘三重损失（Tri）[20]和GFB和GB的平滑交叉熵损失（SCE）[48]结合在一起作为我们的最终目标。参考批次归一化颈（BNNeck）的组合机制优化Tri和SCE损失[37]。我们的总体目标是GB GBGBGBGFBGFBL总体=λTriLTri+λSCELSCE+λTriLTri（7）+λGFB LGFB + λSLB LSLB。SCESCE为了避免对超参数进行大量调整，我们只需设置重要性系数λGB，λGB、λGFB、λGFB至三SCE三SCE0.5在所有实验中。在消融研究中仅对λSLB进行微调，并在最终实验中设置为1.0。在推理期间，SLB被放弃。来自GB和GFB的两个特征向量被级联为输入图像的表示。3.5. 网络架构表1：VeRi-776的结果比较测试，即， 800（小号）、1600（中号）和2400（大号）。实施. 我们选择PyTorch来实现我们的框架和Adam优化器[27]，使用默认的beta我们在图2中给出了架构配置，每种颜色代表一个子网。参考文献，我们选择ResNet50 [19]，在conv5x中将stride=2替换为stride=1，作为GB的主干。它被分成两个子网，即，第一个（conv1，conv2 x，conv3x）和第二个（conv4x，conv5x），分别用绿色和红色表示。 SLB 和 GFB 之间的共享编码器由ResNet18（橙色）实现，其在conv4x，conv5x中的步幅设置为1。在SLB中，另一个子网（紫色），由两个基本ResNet块组成[19]其中步幅=2，被附加到编码器以进一步压缩特征。在GFB中，每个图像首先通过注意编码器进行8次然后对得到的张量进行IAM处理，得到注意力图。通过逐元素乘法，它被广播到来自GB骨干网的第一子网络的特征的每个通道，随后是由conv4x’、conv5x’组成的另一子网络（蓝色）。4. 实验数据集。我们在三个车辆ReID基准上进行实验。VeRi-776包含776辆车的49，357张图像，576个身份的37，778张图像组成了它的训练集。CityFlow-ReID[50]是一个具有挑战性的数据集，其中在不同环境下通过40个摄像机捕获图像来自333个身份的36，935个图像形成训练集。VehicleID[31]是一个大规模的基准，包含26，267辆车的221，763张图像。它的图库集只包含一个随机选择的图像为每个identity，因此我们报告我们的结果为平均超过10次试验。有三种数量的图库图像被广泛用于（β1=0。9，β2=0。999），权重衰减5e-4以优化它。在训练期间，执行随机裁剪、水平翻转和擦除以增强数据样本。没有一个被采用来处理测试图像。将所有图像的大小调整为 256 256 ，并在一个 NVIDIAGEFORCE RTX 2080Ti GPU上进行实验。VeRi-776和CityFlow-ReID上的批量大小为28，VehicleID上的批量大小为40，每个实例有4个图像。关于VeRi-776和在CityFlow-ReID中，初始学习速率为1 e-4，并且三重丢失的界限根据经验被设置为0.5。训练时期的数量是80 ，并且学习率在第 20 、 40 和 60 个时期降低在VehicleID上，裕度为0.7，学习时期的数量为120。学习率在前10个时期期间从0线性增加到1 e-4，在第100个时期利用余弦调度器减小到1 e-7，并且在最后一个时期减小到0。评估方案。与以前的一些方法不同，我们不使用任何后处理技术，如k-倒数重新排序[71]来改进我们的结果。我们通过ReID文献中广泛使用的四个指标来评估我们的方法，即，图像到轨迹检索平均精度（tmAP）（如果轨迹在一个数据集中可用）、图像到图像检索mAP（imAP）、Top-1和Top-5精度。特别地，我们报告了VeRi-776上的tmAP和imAP两者以用于综合评价。这些分数以百分比表示，最好的分数以粗体表示。在表1、2和3中，ES（Y/N）指示是否采用除了ID标签之外的额外监督来训练对应的方法。4.1. 与SOTA作品的性能比较VeRi-776 我们在表1中将我们的方法与SOTA方法进行了比较。我们可以看到大多数作品都使用了额外的监督方法会场ESTMAPIMAPTop-1Top-5OIFE [55]ICCV17Y48.0-65.987.7OIFE+ST [55]ICCV17Y51.42-68.389.7NuFACT [34]TMM17Y53.42-81.5695.11VAMI [75]CVPR18Y50.13-77.0390.82AAVER [24]ICCV19Y58.52-88.6894.10RS [49]ICCV19Y-63.7690.7094.40R+MT+K [49]ICCV19Y-65.4490.9496.72VANet [8]ICCV19Y66.34-89.7895.99第[17]CVPR19Y74.3-94.398.7SAN [40]MST20Y72.5-93.397.1CFVMNet [47]MM20Y-77.0695.398.4PVEN [39]CVPR20Y-79.595.698.4跨度[7]ECCV20Y68.9-94.097.6DMML [3]ICCV19N-70.191.296.3UMTS [23]AAAI20N-75.995.8-SAVER [25]ECCV20N79.6-96.498.6我们-N86.281.096.798.6200×∼ ∼∼方法会场ESIMAPTop-1Top-5FVS [52]CVPRW18Y5.0820.8224.52RS [49]ICCV19Y25.6650.3761.48R+MT+K [49]ICCV19Y30.5754.5666.54跨度[7]ECCV20Y42.059.561.9[72]第二十二话arXiv19N18.6239.9252.66免费WiFi [72]arXiv19N24.0445.7561.24分[72]arXiv19N9.4927.9239.77Xent+Htri [72]arXiv19N25.0651.6962.84BA [30]IJCNN19N25.6149.6265.02BS [30]IJCNN19N25.5749.0563.12我们-N37.1460.0867.21表2：CityFlow-ReID的结果比较。来实现他们的表演。例如，VANet标注了来自每个数据集的5,000个图像以训练视点预测器，并学习了相似和不相似视点对的不同度量。PART定义了三种类型的车辆部件，即，灯光、窗户和品牌，以训练YOLO[42]。在训练ReID模型时，他们从YOLO检测到的区域中提取局部特征，作为全局表示的补充信息PVEN提供了3，165幅图像的视图分割以训练U-Net分割器，其输出掩码用于优化其模型时的视图感知特征对齐。尽管SAVER中未使用额外标签的增强，但需要Detectron[15]对所有图像进行预处理以去除背景噪声。相比之下，我们的方法不涉及任何额外的注释，以协助本地特征学习。虽然我们的训练批大小28比其他方法（例如，256在SAN中），我们的方法仍然可以在tmAP和imAP上显著优于其他竞争者关于前5名的准确性，我们的仅比使用更大图像尺寸的最好的512 512低0.1%。这一点被证明可以大大提高他们的业绩[17]。在同等条件下比较，我们的各项指标都比他们的好得多。CityFlow-ReID。结果报告于表2中。这个数据集非常具有挑战性，因为图像来自五个场景，涵盖了不同的位置类型和交通状况。度量学习方法（Xent、Htri、Cent、Xent+Htri）和基于批的采样方法（BA、BS）的结果在不使用额外注释的情况下获得为了辅助ReID，RS利用了真实和合成图像，而R+MT+K采用关键点、车辆类型和颜色类别来执行多任务学习。SPAN采用车辆方向信息指导可见特征提取，并计算每对图像的共现部分注意距离。正如我们所看到的，除了SPAN，我们的方法在所有三个指标上都远远超过其他方法，例如， 7.0%imAP、6.0%Top-1和与R+MT+K相比，Top- 5准确度为1.0%。车辆ID 我们在表3中列出了用于比较的结果。表3：VehicleID的结果比较图4：从同一车辆的不同视角发现的一致几何特征（每行）。注意，VANet和PVEN分别需要大得多的批量128和256。即便如此，我们的方法在几乎每一个测试环境中都击败了所有竞争对手。特别是，与SAVER相比，我们在所有画廊尺寸上都实现了更好的性能，即，6.9%Top-1，2.2% Top-5，5.9% Top-1，4.5% Top-5，5.5%Top- 1，5.4% Top-5，尽管它涉及一些特定的预处理步骤。4.2. 通过自我监督对发现的几何特征进行可视化我们覆盖了一个输入图像与其注意力地图从GFB可视化关键车辆部件学习我们的框架工作。即使我们的几何特征是在没有像其他人那样使用精确监督的情况下发现的，定性可视化也证明了我们方法的优越性。与其他作品定义的地标比较。先前的工作手动注释车身上的特定数量的地标[24，55]，以帮助其识别特征学习。从每个视点（前、后、左或右）可见的这些地标在图1（a）中示出，图1（a）从[55]借用并垂直重组。为了与这些人类注释thor-oughtly进行比较，我们将我们学习的几何特征从方法会场ES小介质大Top-1 Top-5 Top-1 Top-5 Top-1 Top-5[第63话] CVPR15 Y 47.90 67.43 43.45 63.53 38.24 59.51MD+CCL [31] CVPR16 Y49.073.542.866.838.261.6OIFE [55]ICCV17Y----67.082.9NuFACT [34]TMM17Y 48.90 69.51 43.64 65.34 38.63 60.72VAMI [75]CVPR18 Y63.183.352.975.147.370.3AAVER [24]ICCV19Y 72.47 93.22 66.85 89.39 60.23 84.85VANet [8]ICCV19Y 88.12 97.29 83.17 95.14 80.35 92.97第[17]CVPR19 Y78.492.375.088.374.286.4SAN [40]MST20Y79.794.378.491.375.688.3CFVMNet [47]MM20Y81.494.177.390.474.788.7PVEN [39]CVPR20 Y84.797.080.694.577.892.0UMTS [23]AAAI20N80.9-78.8-76.1-SAVER [25]ECCV20 N79.995.277.691.175.388.3我们-N86.897.483.595.680.893.7201KKK每个视点相应地在图1（b）中。我们可以容易地观察到，我们的方法集中在每个视点上的预定义地面实况的许多类似位置，例如，车辆顶部的左（右）前角、前视图上的左（右）雾灯、车辆顶部的右前角、右前（后）轮和右视图上的右前灯，这表明我们的框架可以成功地发现ReID的关键和信息丰富的车辆部件，而无需地面实况的监督。跨视点和场景的一致性为了vali-方法VeRi-776CityFlow-ReIDTMAPIMAPIMAPTop-1GB（无注意事项）GB+ResNet18，无关注84.085.278.379.532.0434.6356.2757.98GB+GFB（K=7）GB+GFB（K=11）GB+GFB（K=15）85.985.885.580.780.680.236.6335.9436.3259.9859.7058.56GB+GFB+SLB（λ SLB= 0.第一章85.880.5 36.6159.13GB+GFB+SLB（λ SLB= 1.0个）86.281.0 37.1460.08GB+GFB+SLB（λ SLB= 2.0个）86.180.9 36.5459.60表4：消融研究结果。我们强调正确的-确定已学习几何要素在我们选择了几张图片，选定K和λ值的响应结果SLB. 的图4中示出了从不同视点和通过不同相机拍摄的相同车辆实例，用于可视化。每一行代表一个车辆实例。尽管每个图像的视点、对象比例和背景变化很大，但是相同的车辆部件，例如，雾灯、车顶和车轮被发现用于相同的实例。这验证了我们的方法在处理视点和场景变化，这是解决ReID问题的关键点的稳定性和可靠性推广到人体部位发现。为了证明我们的框架对人ReID的泛化能力，我们在两个流行的基准上进行实验更多实验细节请参见第4.4节，此处我们仅分析图1底部所示的可视化结果。作为可变形对象，从人体中发现几何特征更具挑战性。为了节省空间，我们只为每个人选择三张图片。显然，相同的人体部位，例如，即使人体姿势、视点和背景在图像中变化很大，我们的方法也能发现头部、上肢和膝盖。这些部分对于估计人体姿势是至关重要的，这已经被证明在人体ReID中起重要作用[61，32，45]。讨论如第3.2节所述，人或车辆ReID是实例分类问题，即，任务中的所有图像取自同一类别但不同的个体。所以这些图像中的显著对象有很多共同点，例如，几何形状（用于车辆）、组成和骨架。进行自监督学习鼓励深度网络发现这些几何特征是合理的，因为它们是成功完成自监督借口任务的可靠本节中的可视化充分证明了这一主张。鉴于它们与ReID的高度相似性，我们将在未来的工作中将我们的方法扩展到其他细粒度分类任务[54，38]。4.3. 消融研究为了评估我们的框架的每个建议的效果，我们对VeRi-776和VeRi-777进行了广泛的实验。每个组件上的性能改进在数据集上是一致的。图5：从同一张图像中学习到的注意力图（上），没有自我监督学习（下）。CityFlow-ReID 。在这里，我们分别报告 tmAP 和imAP，imAP和Top-1，因为这些指标在每个数据集上都更重要。结果在表4中。在基线基础上简单合并另一分支的影响。我们的框架采用ResNet50作为GB的骨干和ResNet18作为SLB和GFB之间的共享编码器。虽然更多的分支和更大的网络工程通常被用来执行ReID在以前的作品，我们仍然进行实验，以表明我们的性能增益的基线（GB w/o注意）来自我们的建议，而不是一个额外的分支。为此，我们实现了一个新的框架，称为与我们的最终结果相比，我们可以看到添加基于ResNet18的分支的性能略有改善。然而，这也表明，如果像其他人一样涉及更多分支，我们的框架纯IAM仍然带来了很大的改进。基于IAM为了证明IAM的有效性，即使没有来自SLB的正则化，我们在固定其他超参数的情况下使用不同的“GB+GFB”进行实验。表4的第二部分中的结果显示IAM相对于W.r.t.价值观。我们在后续实验中默认设置=7此外，将“GB+GFB”与“GB+ ResNet 18 w/o attention”进行比较202秩123456团队ID我们921411116363IDF1评分0.4930 0.4616 0.4552 0.4400 0.4369 0.3677表5：人ReID基准的结果比较。比 ResNet18 分支更强大。例如，在具有挑战性的CityFlow-ReID上，前者和后者带来了约4.6%的改进，而后者则没有。在基线上，在imAP上为2.6%，在Top-1准确度上为3.7%对1.7%。这归因于可解释注意IAM。虽然在没有自监督学习的帮助下不能发现特定部分（参考图5），但是它可以从杂乱的背景中聚焦于整体车身，以提取更有效的表示。通过自我监督学习发现有物理意义的注意力。为了加强对重要车辆部件的关注（即，物理上有意义的位置），我们用完整的框架进行实验表6：MTMC在2020年AI城市挑战赛上的车辆跟踪结果比较。对于Lance任务，MTMC车辆跟踪通常由四个步骤组成，即，车辆检测、多目标单摄像机（MTSC）跟踪、车辆重新识别和轨迹同步。其中车辆ReID是获得满意跟踪结果的关键阶段。这比在良好校准的ReID基准上操作更具挑战性，因为摄像机和车辆之间的距离变化引起的大对象尺度变化和严重模糊。为了验证我们的方法在交叉数据集测试下的泛化能力，我们使用我们在VeRi-776上训练的模型对AI City 2020 Challenge[51]的城市规模多摄像头车辆跟踪提供的数据进行了实验，考虑到ReID只是我们关心的问题，我们简单地采用类似于[41]的高效MTMC跟踪管道来实现这一点。具体来说，我们首先采用Mask R-CNN“GB+GFB+SLB” with differentSLB 同时保持其他从Detectron2 [60]检测每个视频中的车辆frame. 我将以《易经》为题，以《易经》为题，以《易经》为题。超参数相同。表4中的第三部分结果表明，我们的框架对于w.r.t. 值，我们选择λ SLB=1。0作为我们的决定。据观察，与“GB+GFB”相比，自监督学习在所有指标上一致地提高了性能埃斯佩从图5中的注意力地图比较中，我们可以看到自我监督学习有助于将被背景车辆分散的注意力转移到主要关注点。并且我们的框架克服了来自不同背景干扰物的干扰，例如，交通信号灯和路标，并成功地发现有意义的车辆部件4.4. 推广到其他ReID相关任务在本节中，我们展示了我们的方法在人ReID和多目标多相机（MTMC）车辆跟踪中的潜在应用。人员ReID。该任务的目的不是识别单个车辆，而是将不同相机拍摄的图像中的同一个人关联起来。我们在Market-1501 [68]和DukeMTMC-reID [43]上进行实验，这是两个最广泛使用的人ReID基准。训练细节与VehicleID上的相同。我们在表5中将我们的表现与最近的作品进行了比较。正如我们所看到的，虽然我们的方法不是故意提出和调整的人ReID，其性能仍然是非常有前途的。我们相信，如果相应地微调超参数，它将表现得更好MTMC车辆跟踪。作为一个复杂的视频监控-[56]中的策略来执行MTSC车辆跟踪。最后，我们的训练模型直接应用于从裁剪的车辆图像中捕获ReID表示，然后使用与[41]相同的规则进行tracklet同步。由于页数限制，更多详情请参见[41]。我们的方法在官方评估指标IDF1得分方面达到了0.4930 [50]，远高于[41]的0.4585，尽管他们在官方提供的数据集上训练了他们的ReID模型。此外，我们将我们的结果与表6中的其他提交的结果进行比较，我们的结果明显优于其他人。5. 结论在本文中，基于我们的观察，ReID图像中的显着对象具有相似的属性，我们提出了一种新的框架来学习几何特征，没有监督细粒度的注释，通过执行自监督任务的车辆ReID。为此，还引入了一个可解释的注意力模块，以发现物理上合理的功能。综合实验定性和定量地证明了该方法的有效性和推广能力在未来，我们计划将其推广到解决细粒度分类问题。确认这项工作得到了NSF（CCF-2006738）的部分支持方法会场Market-1501dukemtmc-ReidIMAPTop1 Top5 IMAPTop1 Top5DG-Net [70] CVPR19 86.094.8-74.886.6-包[37]公司简介85.994.5-76.486.4-PCB [46]ECCV18 81.693.8 97.569.283.3 90.5RGA [67]CVPR20 88.496.1----OSNet [73] ICCV1984.994.8-73.588.6-203引用[1] Yan Bai，Yihang Lou，Feng Gao，Shiqi Wang，YuweiWu，and Ling-Yu Duan.用于车辆重新识别的组敏感三元组嵌入。 IEEE Transactions on Multimedia ， 20（9）：2385-2399，2018。2[2] Guangyi Chen ， Chunze Lin ， Liangliang Ren ， JiwenLu，and Jie Zhou.自我批判注意学习对人的再认同。在ICCV，2019年10月。2[3] Guangyi Chen，Tianren Zhang，Jiwen Lu，and Jie Zhou.深度Meta度量学习。在ICCV，2019年10月。二、五[4] 陈天龙、丁少金、谢静怡、叶远、陈武扬、杨阳、周仁、王张扬。细心但多样化的人重新识别。在ICCV中，2019年10月。2[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。3[6] Ting Chen ， Xiaohua Zhai ， Marvin Ritter ， MarioLucic，and Neil Houlsby.通过辅助旋转损失的自监督gans。在CVPR中，第12154-12163页，2019年。3[7] 陈财贤，刘智婷，吴智伟，钱少毅。基于语义引导部分注意网络的方向感知车辆再识别。arXiv预印本arXiv：2008.11423，2020。二、五、六[8] Ruihang Chu，Yifan Sun，Yadong Li，Zheng Liu，ChiZhang，and Yichen Wei.具有视点感知度量学习的车辆重新识别。在ICCV，第8282-8291页，2019年。二、五、六[9] Carl Doersch、Abhinav Gupta和Alexe

下载后可阅读完整内容，剩余1页未读，立即下载