没有合适的资源?快使用搜索试试~ 我知道了~
无人机车辆重新识别的数据集和算法
WWhhiteiteLoGrrFyJ流浪汉Spa.拉格白色货车白色货车黑色轿车黑色轿车蓝色蓝色黑色轿车蓝色白色货车1航空影像中的车辆再识别:数据集和方法Peng Wang,Bingliang Jiao,Lu Yang,Yifei Yang,Shizhou Zhang,Wei Wei,Yanning Zhang西北工业大学计算机科学与工程学院,西安{peng.wang,szzhang,weiweinwpu,ynzhang}@ nwpu.edu.cn{bingliang.jiao,lu.yang,yfyang}@ mail.nwpu.edu.cn摘要在这项工作中,我们构建了一个大规模的数据集的车辆重新识别(ReID),其中包含137k图像的13k车辆实例无人机安装的摄像机捕获。据我们所知,它是最大的基于无人机的车辆ReID数据集。为了增加类内变化,每个车辆由至少两个UAV在不同位置捕获,具有不同的视角和飞行高度。我们手动标记各种车辆属性,包括车辆类型、颜色、天窗、保险杠、备胎和行李架。此外,对于每幅车辆图像,注释者还需要标记可区分的部分,以帮助他们将该特定车辆与其他车辆区分开来。除了数据集,我们还设计了一个特定的车辆ReID算法,以充分利用丰富的注释信息。它能够为每个特定的车辆进行示例性检测,并显著优于评估的基线和最先进的车辆ReID方法。1. 介绍随着无人机的快速发展,基于无人机的视觉应用越来越受到工业界和学术界的关注[47]。计算机视觉中现有的无人机相关研究和数据集主要集中在目标检测[46,43,45]、单个或多个目标跟踪[23,2,48,32,33,31]、动作识别[1,25,29]和事件识别[24]。然而,基于无人机的车辆重识别技术虽然具有长期跟踪、视觉目标检索等多种潜在应用,但研究较少。其中一个原因是缺乏相应的公开可用的数据集,这将需要大量的人力来进行无人机飞行、视频捕获和数据注释。现有车辆ReID数据集[42,19,21]本工作得到了国家自然科学基金的部分资助(No. 61876152)。通讯作者:张世洲。图1.我们收集的基于无人机的车辆ReID数据集的图示。你能找出每一行中哪两个图像属于同一个车辆实例答案就在我们论文的最后为了帮助深入研究,我们的数据集中标注了一组丰富的信息,包括颜色、车辆类型、天窗(天空),保险杠(Bum.),备用轮胎(Spa.),行李架(Lug.)和区分部分。由固定的监视摄像机收集,这与无人机安装的摄像机在视角和图像质量上不同。在本文中,我们构建了一个大规模的车辆ReID数据集的无人机为基础的智能应用程序,命名为航空图像的车辆重新识别(VRAI)。VRAI数据集由13,022个车辆实例的137,613个每个车辆实例的图像由两个DJI消费者无人机的摄像头在不同的位置捕获。460白色货车白色货车黑色轿车黑色轿车黑色轿车拉格Spa.流浪汉天空拉格Spa.流浪汉天空拉格Spa.流浪汉天空拉格Spa.流浪汉天空拉格Spa.流浪汉天空拉格Spa.流浪汉天空拉格Spa.流浪汉天空拉格Spa.流浪汉天空拉格Spa.流浪汉天空蓝色SUV蓝色SUV蓝色SUV白色货车461VeRiVehicleID VRAI图2.我们的VRAI数据集与其他车辆ReID数据集的比较我们的数据集不仅提供了多样的视角范围标注的区分部分为细粒度识别提供了强有力的监督信息。阳离子,具有各种视角和飞行高度(15米至80米)。如图1所示,基于无人机的车辆ReID的任务通常比基于固定监控摄像机的任务更具挑战性,因为无人机捕获图像中的车辆具有更大的姿态变化和更宽的分辨率范围。为了支持深入的研究,我们收集了一组丰富的符号,包括车辆ID,车辆属性和区分部分。根据外观相似性和时间依赖性,相同车辆实例的图像被手动分配有唯一ID。对于每一个图像,我们还注释了颜色(9类),车型(7类),以及是否有天窗,保险杠,备胎和行李架。此外,与车辆检测[6],跟踪[3,40]和分类[44,17]的任务不同,车辆重新识别更多地依赖于包含细粒度区分信息的小区域。为此,我们还要求注释者使用数据集中每个图像的边界框来标记这些区分部分。图2示出了带注释的区别性部分的一些示例。我们可以看到,很多区别性的部位都对应着前窗、天窗、保险杠等内饰。总而言之,我们的VRAI数据集的特征属性包括:迄今为止最大的无人机车辆ReID数据集。它包含超过137,613张13,022辆车的图像,是我们所知的最大的基于无人机的车辆ReID数据集每辆车平均有10多张照片丰富的注释。除了唯一的ID,我们还标注了颜色,车辆类型,属性,如。它是否包含天窗、备用轮胎等。以及数据集中图像的区别部分。不同的视角和姿势。这些图像是由两架移动的无人机在真实的城市场景中拍摄的,飞行高度从15米到80米不等。它导致了一个巨大的潜水员-视角和姿态变化的大小,因此增加了相应的ReID任务的难度。基于我们数据集丰富的注释信息,我们提出了一种新的方法从航空图像中提取车辆ReID,该方法能够显式地检测出每个特定车辆的可区分部分,并显着优于其他比较算法。2. 相关工作在这一部分中,我们从以下三个方面对相关工作进行简要回顾。车辆图像数据集。近年来,越来越多的车辆相关数据集被收集用于许多研究领域。Yang等[42]提供了一个名为CompCars的大规模车辆收集KITTI数据集[8]作为对象检测、跟踪、语义分割等基本任务的基准数据集。还构建了几个车辆ReID数据集Liu等[21]构建一个名为VeRi的相对较小的车辆ReID数据集,其中包括619辆车的40,000个VehicleID [19]是一个更大的车辆ReID数据集,共有26,267辆车的221,763张我们可以从图2中看到,与我们提供的数据集相比,VeRi和VehicleID都空中视觉数据集。随着商用无人机的快速发展,越来越多的航空视觉数据集被构建出来,以便于航空视觉任务的研究。[39 ]第39话:你是谁?第39话:你是谁?在由UAV从相对高的飞行高度拍摄的航空图像中收集用于对象检测的数据集。UAV123 [23]是旨在用作目标跟踪数据集的视频数据集,其由飞行高度相对较低的UAV拍摄Visdrone2018 [47]数据集是462收集这些数据,作为“Vision Meets Drones”挑战的基准数据集。挑战的主要任务仍然是目标检测和跟踪。ReID接近。人和车辆是城市监控场景中的两个重要目标类别。近年来,ReID非常有吸引力。比如说,Wei等[37]采用GAN来弥合不同人Re-ID数据集之间的域差距。Liu等[20]提出了一种姿势可转移的人ReID框架,其利用姿势转移的样本增强来增强ReID模型训练。Li等[15]结合多空间注意模型来学习人脸、躯干和其他身体部位的潜在表征,以提高模型的性能。Dai等人[5]通过采用一种新的跨模态生成对抗网络(称为cmGAN)来提高红外和RGB图像之间的ReID性能。Shen等人[27]通过提出深度相似性引导图神经网络(SGGNN)并利用探针-图库对之间的关系来提供更精确的融合信息Bak等人[30]通过引入新的合成数据集来减轻照明条件Ge等人[7]采用特征提取生成对抗网络(FD-GAN)来学习身份相关和姿势无关的表示。也有许多其他研究在这个领域[35,14,41,4,16,10]。车辆ReID最近也越来越受到关注。例如,Wanget al.[36]提出利用方向不变特征嵌入模块和时空正则化模块来提高车辆ReID性能。Shen等人[28]提出了一个两阶段框架,该框架包含复杂的时空信息,用于有效地正则化重新识别结果。MGN [34]使用Resnet50的前三层来提取共享图像特征,并依赖于三个独立的分支来提取高级语义特征。Xiuet al.在[38]中,由三个相互连接的模块组成。第一个模块创建车辆图像的表示,第二层模块对分层依赖关系进行建模,最后一个atten-tion模块专注于将特定车辆彼此区分开的细微视觉信息。RAM [22]提取局部特征以帮助提取全局特征。3. 数据集在本节中,我们将详细介绍构建的VRAI数据集,包括硬件传感器,收集过程和注释。3.1. 数据收集我们使用两个DJI Phantom4无人机在两个相邻的位置同时拍摄视频(总共我们选择(a)颜色类型(b)车辆类型0 1 2 3 4>=5(c)#歧视性部分/图像(d)#图像/车辆图3.关于(a)颜色的统计信息;(b)车辆类型;(c)每个图像的区别性部分编号;(d)每部车辆的影像数目。白色、黑色和灰色是主流颜色。轿车、SUV和卡车比其他车型更受欢迎。大约91岁8%的实例被标记有至少一个区分部分。和94.0%的车辆有3个以上的图像。11个位置对),以便捕获具有不同视角和背景的各个车辆的图像。控制两个无人机在可见区域没有重叠为了增加物体分辨率的多样性,两个无人机保持在不同的高度,从15米到80米。在无人机控制过程中,采用悬停、巡航、旋转等多种运动模式,在视角和尺度变化的情况下采集数据。经过200多个工时的无人机飞行和视频拍摄,我们最终收集了350对视频片段,总时长34小时(每个片段约3在每个片段中,我们每隔0采样帧。5秒,共获得252000幅图像3.2. 注释我们开发了一个软件来执行以下四个注释步骤:1) 对象边界框注释:在每个图像中,所有可见车辆的四个角被手动标记,并且包含所有四个角的最小矩形边界框被自动计算和存储。的边界框分辨率的分布在图4中展示,具有42。90%不大于50 k像素和8。8%大于200k像素。此外,我们可以清楚地看到,我们的数据集的图像分辨率比VehicleID数据集的图像分辨率变化更大。我们用了1000个工时来完成这个463车辆IDVeRiVRAI注释步骤2) 交叉摄像头车辆匹配:最耗时的注释步骤是跨相机对象匹配,其中出现在两个视频剪辑中的同一车辆的实例需要被分组在一起。由于车牌在航拍图像中不可见,标注者只能依赖于外观相似性和时间对应性。在花费了大约2500个工时之后,我们收集了137613个实例(边界框),包含13022个单独的车辆(ID)。从图3(d)中,我们可以发现94。0%的车辆具有由两个摄像头拍摄的3个以上的注释边界框。3) 属性分类:在此步骤中,137613个匹配实例中的每一个都被手动标记有若干属性,包括颜色(白色、黑色、灰色、红色、绿色、蓝色、黄色、棕色和其他)、车辆类型(轿车、掀背车、SUV、公共汽车、卡车、卡车和其他)和四个二元属性(如果包含天窗、备胎、保险杠或行李架)。此注释步骤总共需要62个工时。注释颜色和车辆类型的分布如图3所示。我们可以发现,白色、黑色和灰色是主要的颜色,而轿车、SUV和两厢车是主要的车型。4) 区别性零件注释:区分具有相似属性的车辆需要每个特定ID的细粒度信息。对于每个边界框,我们用小的边界框手动注释多个有区别的部分。这些部分被注释者认为是区分特定实例和其他实例的关键。如图1所示,大量标注的区别性零件是前窗、行李架、天窗和头灯。如果注释者找不到任何区别性零件,我们也允许他/她跳过这一步。从图3(c)中,我们可以发现91。8%的实例被标记有至少一个区分部分,63. 2%的实例带有2到4个注释部分。这一步需要1300工时的注释。3.3. 与其他数据集的在表1中,我们的数据集与现有的数据集进行了比较,我们的数据集和其他数据集之间的差异总结如下。1) 捕获平台:据我们所知,该数据集是航空图像中车辆ReID的第一个数据集。我们的数据集中的图像是由安装在移动无人机上的摄像机从不同的视角集合捕获的,而其他车辆数据集中的图像是由固定摄像机捕获的。此外,我们数据集中的图像是由两个由不同飞行员控制的无人机拍摄的。百分之五十百分之四十百分之三十百分之二十百分之十0%的百分比图4.车辆ID、VeRi和VRAI的图像分辨率分布。从图中我们可以看出,VRAI具有更宽的分辨率分布。数据集/字符编号实例数Attr.Dis. 部分[42]第四十二话汽车[19]美国[21]1716262676191302220882622176340215137613√√√×××√×表1.“表示字符,即代表着“贡品”和“代表歧视。请注意,Comp- Cars仅包含每个车辆的模型注释,并且只有30%的VehicleID图像标记有属性信息。我们的数据集是唯一一个提供区别性部分注释的数据集。2) 数据大小:我们的数据集包含比CompCars [42]和VeRi [21]更大数量级的实例。此外,在我们的数据集中,每个实例平均包含10多个图像,而VehicleID [19]仅包含8个图像。我们的数据集在训练数据计数的丰富性方面具有一定的优势。3) 数据注释:在所列出的数据集中,我们的数据集是唯一一个配备了区分性部分注释的数据集,这为细粒度识别提供了强有力的监督信息。此外,VRAI还收集了颜色,类型和其他属性注释。4) 视角变化:由于我们的数据集是由无人机收集的,拍摄图像的视角经常变化。与固定摄像头收集的VehicleID [19]相比,我们的数据集包含更多样化的视角范围,如图2所示。5) 图像分辨率:在数据采集过程中,由于无人机飞行高度的变化,所拍摄图像的分辨率会发生波动。在这些情况下,我们的数据集的图像分辨率比VehicleID数据集的变化更大,如图4所示。车辆IDVeRiVRAI464FpF一fn平均fn合并Fafp加权池化× ×××D××深度CNNN卷积特征图一P平均值特征333333 33Conv.层Conv.层Conv.层Conv.层Conv.层康涅狄格层康涅狄格层加权特征辨别部位检测器检测到的鉴别部件重量矩阵图5.我们提出的模型的总体结构我们的模型有两个主要组成部分,一个是多任务分支,它通过一系列分类损失和使用平均特征的三重损失来训练用训练三元组来训练三元组损失,即,锚点(A)、正(P)、负(N)。另一个分支是判别部分检测模块,它使用权重矩阵进行加权池化。判别式部分检测模块使用加权特征来训练模型。4. 方法在本节中,我们提出了一种基于建议数据集的丰富注释的ReID算法,该算法能够显式检测特定车辆实例的可区分部分。我们的ReID算法在下面详细介绍。4.1. 总体框架如图5所示,所提出的方法的主要结构第一个是多目 标 模 型 , 其 骨 干 网 络 是 在 ImageNet 上 预 训 练 的ResNet- 50 [11][13]。在这一分支中,我们充分利用丰富的标注来训练一个多目标模型,用于检索、ID分类和属性分类。在另一个分支中,YOLOv2 [26]检测器分别使用注释的判别部分进行训练检测到的边界框用于构建权重矩阵,以聚合ResNet-50的卷积特征最后,加权的特征被用来训练另一个检索模型的ReID与三重丢失。4.2. 多目标学习平均池化后的卷积特征,用于检索任务。4.3. 区分性部件检测为了区分相似颜色或类型的车辆,我们使用区分部分的注释来训练基于YOLOv 2 [26]的检测器。该检测器是单独训练的,所有有区别的部分被视为同一类。由于我们的数据集(322853)中有大量带注释的区分部分,我们能够训练出一个有效的检测器。例如,检测器可以提取许多有价值的区分部分,如天空光、窗户、窗户,即使地面真值仅提供天空光。对于每个车辆图像,我们提取的前3个边界框产生的歧视性的部分检测器。4.4. 加权要素聚合除了平均池化,我们还根据检测到的有区别的部分提取加权特征我们模型中的骨干网络是ResNet-50,输入大小为352 352,输出特征图大小为2048 11 11。通过增加区别性部分内的像素的权重来生成1111.批量标准化是用多个目标训练的,包括检索、ID分类、颜色、车辆类型和属性分类。权重i=γ i∈ D,1否则,(一)几个损失函数分别用于不同的任务。交叉熵损失(Lce)用于识别、颜色和车型分类等多类问题对于多标签属性的分类问题,我们使用二进制交叉熵损失。三重损失函数其中i表示像素索引;γ是大于1的预定义标量;表示检测到的有区别的部分的区域。 使用此权重矩阵,我们对大小为2048的特征图执行加权池化1111,渲染大小为2048的加权特征。ID&属性分类三重损失三重损失33465××准确度(%)颜色86岁。25类型81. 88天窗九十16属性保险杠备胎82岁44九十七35行李架八十五67表2.我们的模型的分类结果的颜色,车型,天窗,保险杠,备胎和行李架。结果表明,天窗和备胎的识别率较高,而车型和保险杠的识别率较低5. 实验在本节中,我们展示了所提出的车辆ReID方法在我们的VRAI数据集上的实验结果,包括属性分类、区分性部件检测、消融研究、与基线和最先进的车辆ReID方法的比较实验。我们还进行了人员绩效评估,以衡量我们数据集的潜力。为了澄清,首先我们给出了评估协议和实现细节。5.1. 评价方案和实施将VRAI数据集分为训练集和测试集,其中训练集包含66,113张图像,6,302个ID,测试集包含71,500张图像,6,720个ID。测试集进一步分为查询集(25%的图像)和图库集(75%的图像)。同时,对于查询集中的每个图像,确保图库中的至少因此,查询集中有15,747张图像,图库集中有55,753张在测试阶段,使用查询集中的每个车辆图像来检索图库集中的相同车辆。至于评估标准,我们采用了流行的平均精度(mAP)和累积匹配治愈(CMC)在其他ReID作品。在实验中,我们使用在ImageNet上预训练的Resnet-50作为骨干。每个图像的大小调整为352三百五十二在训练阶段,我们将每个图像顺时针旋转90,180或270度,概率为0。2,并以0的概率水平翻转。五、三重态损失的裕度[18]被设置为0。3,最小批量大小设置为72 = 184个,18个身份,每个身份4个图像ID. 我们使用Adam优化器,初始学习率为10−3,学习率从第151所有模型都经过300个epoch的训练。为了提高性能,我们使用BatchHard三重损失[12]和ID分类损失联合。两个NVIDIA1080 TiGPU用于模型训练。图6.车型分类的混淆矩阵。我们可以看到,大多数分类错误是两厢车和SUV之间的不正确识别。这些错误是由于这两种车辆类型之间的视觉相似性造成的,因为实际车辆的大小有点难以估计。图7.判别部分检测的示例结果。红色和绿色边界框分别表示地面实况和预测只有前3个边界框被描绘在预测图像中。我们可以清楚地发现,我们的模型具有良好的性能,因此预测结果与地面实况之间的差异很小5.2. 属性分类我们的模型的颜色、车辆类型和属性分类结果如表2所示。可以看出,所有的评价准确率都在82%以上,除了车型。为了进一步分析车型的分类结果,混淆矩阵如图6所示。我们发现Hatchback和SUV是最容易混淆我们的分类模型的两个类别。原因可能是,两厢车和SUV确实是视觉相似,从顶视图,没有考虑车辆的大小。5.3. 区分性部件检测对于区分部分检测的实验,预训练的暗网用于微调VRAI上的YOLOv2 [26]为了简单起见,所有可区分的部分被视为一个类。多尺度训练方案是Saloon3058132293773412530帽子8342187235152373818SUV12731521 1487101052653总线1418138681194罗瑞31325713665826944卡车7921122155529381其他232622915232466图8.比较人类的表现和我们的算法的性能左、中、右列分别对应于查询、模型结果和人工结果。正确和不正确的结果分别用绿色和红色框标记。我们发现车辆姿态和视角是导致算法产生错误结果的主要因素。对于人类来说,当识别需要极细粒度的信息时,就会出现错误。在输入图像的分辨率被调整大小的范围从320到608的情况下采用。学习率设置为0。001,然后在第10和第15个时期下降了10倍。最小批量大小设置为72。动量设置为0。9,重量衰减率为0。0005在测试阶段,我们分别将置信度阈值、NMS阈值和IOU阈值设置为0。25,0。4,0。5经验,并实现精度=44的结果。07%,回忆率为49。48%,F评分= 46。百分之六十二图7示出了检测结果和辨别性部分的地面实况。5.4. 消融研究在本小节中,为了验证所提出的方法的有效性,并显示所提出的模型的每个组件对最终性能的贡献程度,我们报告了与几种基线方法相比的飞行器ReID性能以及对模型超参数的烧蚀研究详细的实验结果示于表3中。选择以下四种方法作为基线。1)三重丢失。该模型仅在平均特征上具有三重损失的情况下进行训练;(2)结构性损失。该模型仅在平均特征上进行重复性损失的情况下进行训练; 3)ID分类丢失。该模型采用单个ID分类损失进行训练; 4)三联体+ID丢失。 该模型使用平均特征上的三元组损失和ID分类损失不使用任何额外的属性注释,这四个模型可以应用于任何ReID数据,并在我们的实验中作为基线。从表3中可以看出,ID分类损失在提高性能方面贡献更大我们还使用Triplet+ID Loss评估了不同的CNN骨干基线我们发现,ReID的性能略有改善与更深的CNN模型,但在更高的计算负担的成本。与Triplet+ID Loss相比,我们的多任务模型使用额外的属性分类损失进行训练,包括颜色,车辆类型和其他属性。在属性信息的帮助下,实现了稍微更好的准确性由于在没有加权特征的情况下训练,基线方法和我们的多任务模型不依赖于所提出的模型的区分性部分检测分支而我们的多任务+ DP模型在加权特征上引入了额外的三重损失,并且最终模型由所有分支损失组成。Multi-task + DP的结果验证了从检测到的区分部分中加权的特征给出了显著的改进。我们还测试了我们的多任务+ DP模型对等式(1)中的加权参数γ的敏感性。如表5所示,多任务+ DP模型优于使用所有γ评估值的多任务模型。对于我们的多任务+ DP模型,我们还比较了使用平均特征和加权特征进行区分。距离计算从表4中可以清楚地看出,加权特征在所有mAP、CMC-1、CMC-5和CMC-10方面显著优于平均特征,这表明检测到的区别性部分确实有利于识别各个车辆实例。5.5. 与最先进方法的虽然很少有专门为航空图像设计的车辆ReID方法,为了展示我们算法的卓越性能,我们将我们的方法的实验结果与三种最先进的车辆ReID方法进行了比较。三 种 选 择 方 法 是 MGN [34] , RNN-HA [38] 和 RAM[22],我们已经详细介绍了它们。在这里,我们分析本小节中的实验结果。RNN-HA [38]在训练阶段仅使用ID分类损失和车辆类型注释。其性能略优于ID分类损失,低于Triplet+ID损失。MGN [34]和RAM [22]都对图像进行水平分割以提取局部特征。但是,由于图像是由无人机捕获的,因此我们的数据集中存在大范围的视角变化。这两种方法不能简单地转移到我们的任务中,因为如果它们只是水平地分割图像,则不容易对齐相应的部分。因此,这两种算法在我们的数据集上没有达到很好的性能。对于我们的方法,我们使用三元组损失来改进模型,我们使用多种属性分类损失来提高我们的算法的性能。此外,我们还重点研究了467骨干模型属性注释D.P.注释最大平均接入点(%)CMC-1(%)CMC-5(%)CMC-10(%)MGN [34]ResNet-5069岁。4967岁8482岁8389岁。61RAM [22]ResNet-5069岁。3768岁5882岁3289岁。88RAM [22]RNN-HA [38]VGG-16ResNet-50√五十七3374岁52七十二05七十七。4381. 6287岁38五十六8292. 65三重损失ResNet-50四十六岁。9950块64七十一49八十40对比损失ResNet-50四十八2352岁23七十二2881. 29ID分类损失ResNet-50七十二9675. 9687岁0192. 70三联体+ ID丢失ResNet-50七十七。2879岁。1388岁47九十三64三联体+ ID丢失ResNet-101七十七。4879岁。5988岁31九十三69三联体+ ID丢失ResNet-152七十七。5479岁。3388岁18九十三47我们的多任务我们的多任务+DPResNet-50ResNet-50√√√78岁0978.6379岁。8380.3089.0588岁4994 0994.45表3.我们的最终模型与其他基线和中间模型进行了比较。我们可以发现,ID分类和加权特征对提高性能有较大的贡献。测试功能最大平均接入点(%)CMC-1(%)CMC-5(%)CMC-10(%)Avg. 壮举.重量. 壮举.78岁3178岁63八十05八十3089岁。0188岁4994 2294 45表4.我们的多任务+ DP模型分别使用平均特征和加权特征进行距离计算的比较。实验结果表明,采用加权特征的模型性能优于采用平均特征的模型。加权参数γ最大平均接入点(%)CMC-1(%)1 .一、178岁34八十071 .一、378.6380.301 .一、578岁48八十191 .一、778岁36八十061 .一、978岁41八十09表5.对多任务+ DP模型的权重参数γ进行了实证研究。3的产量较好。请注意,在mAP和CMC-1方面,多任务+ DP模型的性能优于多任务模型,其中所有γ注释器1注释器2注释器3我们精度百分之九十八百分之九十八百分之九十六百分之八十表6.在100个随机选择的查询上,人类和我们的人工出租车之间的性能比较我们可以看到,人类的平均准确率为97%,比我们的算法高出17%。这表明算法的性能还有很大的改进空间如表3所示,我们的算法比其他三种最先进的方法实现了更好的5.6. 人因绩效评估为了调查我们的数据集的难度以及人类与我们的算法之间的性能差距,我们对我们的数据集进行了人类性能评估。在这个实验中,我们随机选择了100个查询图像,其中有两个候选图像要匹配。一个坎迪-468date与查询具有相同的ID,另一个是从其他ID中选择的,但具有相同的注释属性。三个训练有素的注释器参与了这个实验,平均花费30秒进行一个查询。这些注释器的性能如表6所示。图8显示了人类性能评估实验的一些示例。查询图像,注释器可见,车辆姿态和摄像机视角是影响算法性能的重要因素。相比之下,人类的表现对这些因素更不敏感。6. 结论在本文中,我们收集了VRAI数据集,这是迄今为止我们所知的最大的飞行器ReID数据集。除了身份,我们还提供了额外的注释信息,如颜色,车辆类型,属性,例如。是否包含天窗、备用轮胎等。以及数据集中图像的区别部分因此,我们的数据集可以用于许多其他视觉任务,如细粒度分类和属性预测。此外,值得注意的是,在单无人机平台上,飞行器的视角是多样的,更何况我们有两架无人机,由不同的飞行员控制,在不同的位置飞行。此外,我们还进行了全面的实验,以充分利用丰富的注释。基于我们数据集丰富的注释信息,我们提出了一种新的方法,从航空图像中提取车辆ReID,该方法能够显式地检测每个特定车辆的区分部分,并显着优于三种有前途的基线方法和我们数据集上评估的其他三种ReID方法。图1中的问题的答案是相同车辆的图像对分别为第1、2和3行的(1,2)、(1,3)和(1,3)469引用[1] Mohammadamin Barekatain,Miquel Mart 'south,Hsueh-Fu Shih , Samuel Murray , Kotaro Nakayama , YutakaMatsuo和Hel- mut Prendinger。Okutama-行动:用于并发人体动作检测的鸟瞰图视频数据集。 在proc IEEEConf. Comp.目视帕特识别研讨会,2017年。1[2] Goutam Bhat、Joakim Johnander、Martin Danelljan、Fa-had Shahbaz Khan和Michael Felsberg。揭示深度追踪的力量。欧洲药典配置文件可见,2018年。1[3] Matei Bogdan C. , Harpreet S Sawhney 和 Supun Sama-rasekera。使用关节运动学和外观特征在非重叠摄像机上进行车辆跟踪。 在proc IEEE Conf. Comp.目视帕特识别,2011年。2[4] Xiaobin Chang,T. M. Hospedales和Tao Xiang。用于人员重新识别的多级分解网络。正在进行IEEE会议对比可见光帕特识别,2018年。3[5] Pingyang Dai,Rongrong Ji,Haibin Wang,Qiong Wu,and Yuyu Huang.跨模态的人重新识别与生成对抗训练。在Proc. Int. Joint Conf.人工植入。,2018年。3[6] N. Dinesh Reddy,Minh Vo,and Srinivasa G.纳拉希姆汉CarFusion:结合点跟踪和零件检测,实现车辆的动态3D重建。正在进行IEEE会议对比可见光帕特识别,2018年。2[7] Yixiao Ge,Zhuowan Li,Haiyu Zhao,Guojun Yin,Shuai Yi , Xiaogang Wang , and Hongsheng Li.FD-GAN:姿势引导的特征提取GAN,用于强大的人员重新识别。在Proc.神经信息进展。过程系统,2018年。3[8] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?KITTI视觉基准套件。 在procIEEE会议Comp. 目视帕特识别,2012年。2[9] 成公、周培成、韩俊伟。学习旋转不变卷积神经网络用于 VHR 光 学 遥 感 图 像 中 的 对 象 检 测 。 IEEE Trans.Geosci.,远程传感器C,2016年。2[10] 郭一銮及张艺敏。使用多级相似性的有效和深度的在procIEEE Conf. Comp.目视帕特识别,2018年。3[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习 在proc IEEE Conf.Comp.目视帕特识别,2016年。5[12] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失,进行人员重新鉴定。arXiv预印本arXiv:1703.07737,2017。6[13] 李佳丽,李凯,李飞飞。Imagenet:一个大规模的分层图像数据库。 在proc IEEE会议Comp. 目视帕特识别,2009年。5[14] 马 赫 迪 M. 放 大 图 片 创 作 者 : Alfred J. Kamasak 和Mubarak Shah人的语义分析用于人的重新识别。 在procIEEE会议对比可见光帕特识别,2018年。3[15] Shuang Li ,Slawomir Bak ,Peter Carr,and XiaogangWang.基于视频的人再识别的多样性正则化时空注意。正在进行IEEE会议对比可见光帕特识别,2018年。3[16] Wei Li,Xiatian Zhu,and Shaogang Gong.和谐关注网络的人员再识别。 在proc IEEE Conf. Comp.目视帕特识别,2018年。3[17] 作者:Yen-Liang Lin,Vlad I. Morariu,Winston Hsu,and Larry S.戴维斯联合优化三维模型拟合和细粒度分类。欧洲药典配置文件可见,2014年。2[18] Hao Liu,Jiashi Feng,Meibin Qi,Jianguo Jiang,andShuicheng Yan.端到端的比较注意力网络,用于人员重新识别。IEEE传输图像处理。,2017年。6[19] Hongye Liu,Yonghong Tian,Yaowei Wang,Lu Pan,and Tiejun Huang.深度相对远程学习:说出相似车辆之间的差异。 在proc IEEE会议Comp.目视帕特识别,2016年。一、二、四[20] Jinxian Liu,Bingbing Ni,Yichao Yan,Peng Zhou,Shuo Cheng,and Jianguo Hu.对可调动人员重新进行身份证明。 在proc IEEE会议Comp. 目视帕特识别,2018年。3[21] Xinchen Liu,Wu Liu,Huadong Ma,and Huiyuan Fu.城市监控视频中的大规模车辆再识别正在进行IEEE国际Conf. Multimedia Expo,2016. 一、二、四[22] Xiaobin Liu , Shiliang Zhang , Qingming Huang , andWen Gao. Ram:一种用于车辆重新识别的区域感知深度模型。正在进行IEEE国际Conf. Multimedia Expo,2018. 三、七、八[23] M.米勒,N.史密斯和B。加尼姆无人机跟踪基准和模拟器。 在proc EUR. Conf. Comp. 目视,2016年。一、二[24] Sangmin Oh,Anthony Hoogs,Amitha Perera,NareshCun-toor , Chia-Chih Chen , Jong Taek Lee , SaurajitMukherjee , JK Aggarwal , Hyungtae Lee , LarryDavis,et al.监控视频中事件识别的大规模基准数据集。正在进行IEEE会议对比可见光帕特识别,2011年。1[25] Asanka G Perera,Yee Wei Law和Javaan Chahl。无人机-姿态:无人机控制和手势识别的数据集。 欧洲药典配置文件可见研讨会,2018年。1[26] 约瑟夫·雷德蒙和阿里·法哈迪YOLO9000:更好、更快 、 更 强 [j] 。 arxiv 预 印 本 。 arXiv 预 印 本 arXiv :1612.08242,2016。五、六[27] Yantao Shen,Hongsheng Li,Shuai Yi,Dapeng Chen,and Xiaogang Wang.基于深度相似性引导图神经网络的人物再识别。欧洲药典Conf.对比可见光,2018年。3[28] 沈艳涛,肖彤,李洪生,易帅,王晓刚学习深度神经网络用于车辆识别和视觉时空路径建议。正在进行IEEE国际配置文件目视,2017年。3[29] Amarjot Singh , Devendra Patil 和 SN Omkar 。 天 空 之眼:使用分散网混合深度学习网络的实时无人机监控系统(dss)用于暴力个体识别。正在进行IEEE会议对比可见光帕特识别工作坊,2018年。1[30] Bak Slawomir,Peter Carr,Jean-Francois Lalonde.通过470合成进行主适应,用于无监督的人重新识别。欧洲药典配置文件可见,2018年。3471[31] 宋一兵,马超,龚丽君,张佳伟,林松.刘和杨明轩卷积剩余学习用于视觉跟踪。正在进行IEEE国际Conf.对比可见光,2017年。1[32] Yibing Song , Chao Ma , Xiaohe Wu , Lijun Gong ,Linchao Bao,Wangmeng Zuo,Chunhua Shen,RynsonW.H.刘和杨明轩。通过对抗学习的视觉跟踪。 正在进行IEEE会议对比可见光帕特识别,2018年。1[33] 孙崇、王东、胡川、杨明玄。学习空间感知回归视觉跟踪。正在进行IEEE会议对比可见光帕特识别,2018年。1[34] Guanshuang Wang,Yufeng Yuan,Beiong Chen,JiweiLi,Xi Zhou.学习具有多个粒度的鉴别特征以用于人的重新识别。在2018年的ACM多媒体会议三、七、八[35] 王义成,陈振中,吴凤,王刚使用级联成对卷积的人员重新识别。正在进行IEEE会议对比可见光帕特识别,2018年。3[36] Zhongdao Wang ,Lum
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功