城市交通摄像机数据集CityFlow及其在多目标多摄像机车辆追踪和重新识别方面的应用

142 浏览量更新于2023-10-19 收藏 1.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8797CityFlow：一个城市规模的多目标多摄像机车辆跟踪和重新识别郑唐1米林德·纳普哈德2刘明宇2杨晓东2斯坦·伯奇菲尔德2王硕2拉特纳什·库马尔2大卫·阿纳斯塔西乌3黄仁能11华盛顿大学2NVIDIA3圣何塞州立大学摘要使用交通摄像机作为传感器的城市交通优化推动了对先进的多目标多摄像机（MTMC）跟踪的需求。这项工作介绍了CityFlow，这是一个城市规模的交通摄像机数据集，由来自10个十字路口的40个摄像机的超过3小时的同步高清视频组成，两个同步摄像机之间的最长距离为2.5 km。据我们所知，CityFlow是城市环境中空间覆盖范围和摄像机/视频数量方面该数据集包含超过20万个带注释的边界框，涵盖了广泛的场景，视角，车辆模型和城市交通流量条件。相机的几何形状和校准信息，以帮助时空分析。此外，基准的子集可用于基于图像的车辆重新识别（ReID）的任务。我们对MTMC跟踪、多目标单摄像机（MTSC）跟踪、目标检测和基于图像的ReID中的基线/最新方法进行了广泛的实验在2019年人工智能城市挑战赛上，我们发布了一个评估服务器，让研究人员能够比较他们最新技术的性能。我们希望这个数据集能催化这一领域的研究，推动最先进的技术向前发展，并导致在现实世界中部署的流量优化。1. 介绍城市使用交通摄像头作为城市范围的传感器来优化流量和管理中断的机会是巨大的。我们缺乏的是在所有天气条件下在不同十字路口跨越多个摄像头的大面积跟踪车辆的能力。实现在NVIDIA实习期间完成的工作图1.MTMC跟踪结合了MTSC跟踪、基于图像的ReID和时空信息。摄像机#1和摄像机#2中的彩色曲线是来自MTSC跟踪的轨迹，其通过视觉-空间-时间关联跨摄像机链接要达到这一目标，必须解决三个不同但又密切相关的研究问题：1）在单个摄像机内检测和跟踪目标，称为多目标单摄像机（MTSC）跟踪; 2）跨多个摄像头重新识别目标，称为ReID;以及3）在摄像机网络上检测和跟踪目标，称为多目标多摄像机（MTMC）跟踪。MTMC跟踪可以被认为是摄像机内的MTSC跟踪和基于图像的ReID与时空信息的组合，以连接摄像机之间的目标轨迹，如图1所示。1.一、近年来，基于个人的ReID和MTMC跟踪问题受到了极大关注[58，34，61，46，22，21，11，14，8，57，34，50，7，60]。还有为基于车辆的ReID提供数据集[28，26，52]。尽管最近的方法已经提高了这些数据集的最新性能，但与人ReID相比，这项任务的准确性仍然不足。车辆ReID中的两个主要挑战是小的类间可变性和大的类内可变性，即从不同的视角看，形状的多样性往往大于各厂家生产的汽车模型的相似性[10]。我们注意到，为了保护驾驶员的隐私，不应使用捕获的车牌信息（否则对于车辆ReID非常有用）[2]。8798图2.建议数据集的城市环境和相机分布。红色箭头表示摄像机的位置和方向。显示了相机视图的一些示例。请注意，与其他车辆ReID基准不同，原始视频和校准信息将可用。对象ReID（无论是人还是车辆）的现有基准的主要限制是有限的空间覆盖范围和使用的摄像机数量较少-这与它们需要操作的城市规模部署水平脱节。在两个基于个人的基准测试中，DukeMTMC [34，50]和NLPR MCT [7]的摄像机几何结构可用，摄像机跨度小于300×300 m2，分别只有6和8个视图。基于车辆的ReID基准，如VeRi-776 [28]，VehicleID [26]，和PKU-VD [52]，不提供原始视频或相机校准信息。更确切地说，这些数据集，如-证明MTSC跟踪是完美的，即。图像签名在每个摄像机内按正确的身份分组，这不能反映真实的跟踪系统。此外，在后面的数据集[26，52]中，只有车辆的前视图和后这些现有的车辆ReID基准都没有促进MTMC车辆跟踪中的研究。在本文中，我们提出了一个新的基准称为城市流城市规模的MTMC车辆跟踪，这是在图中描述。二、据我们所知，这是MTMC跟踪在摄像机数量、同步高质量视频的性质以及数据集捕获的大空间范围方面的与之前的基准测试相比，CityFlow包含的摄像头数量最多（40个），来自美国中型城市的大量交叉路口（10个）。城市，覆盖城市街道、居民区、高速公路等多种场景。十字路口的交通视频为视频分析带来了复杂的挑战和重大的机遇，不仅涉及交通流优化，还涉及行人安全。超过200 K的边界框被照顾-完全标记，并且将像素位置与GPS坐标相关联的单应性矩阵可用于实现精确的空间定位。类似于基于人的MTMC跟踪基准[57，34，50]，我们还提供了基于图像的车辆ReID的数据集子集。在本文中，我们描述了我们的基准测试以及基于图像的ReID、对象检测、MTSC跟踪和MTMC跟踪中许多基线/最先进方法的广泛为了进一步推进ReID和MTMC跟踪的最新技术，还向研究社区发布了一个评估服务器2. 相关基准用于人员和车辆ReID评估的常用公开基准汇总于表1。1.一、该表分为基于图像的人ReID、基于视频的MTMC人跟踪、基于图像的车辆ReID和基于视频的MTMC车辆跟踪的块。迄今为止，基于图像的人ReID最流行的基准是Market 1501 [58]， CUHK 03 [22]和 DukeMTMC-reID[34，61]。小规模基准，例如[2019 - 01 - 18 00：01][2019 - 01][2019 - 01：01][仅提供用于评估的测试集。最近，Zhenget al.发布了迄今为止规模最大的基准MSMT 17 [61]。在这些基准上的大多数最先进的方法利用度量学习来对对象标识进行分类，其中常见的损失函数包括硬三元组损失[13]、交叉熵损失[40]、中心损失[48]等。然而，由于这些场景中的摄像机数量相对较少，数据集之间的域间隙不可忽视，因此用于域自适应的迁移学习受到越来越多的关注[45]。另一方面，深度学习特征的计算数据集Market 1501[58]和DukeMTMC- reID [34，61]在基于视频的ReID中都有对应的数据集，分别是MARS [57]和DukeMTMC[34，50]。虽然轨迹信息在MARS [57]中可用，但原始视频和摄像机几何结构不为公众所知，因此无法使用时空知识将轨迹相关联。然而，DukeMTMC [34，50]和NLPR MCT [7]都提供了摄像机网络拓扑，以便可以建立摄像机之间的链路。这些场景更现实，但非常具有挑战性，因为它们需要视觉-时空推理的共同努力尽管如此，由于人们通常以缓慢的速度移动，并且相机视图之间的间隙很小，因此它们在时空域中的关联相对容易。VeRi-776 [28]是车辆ReID使用最广泛的基准，因为注释质量高，摄像头几何形状可用但8799基准摄像机数量包装盒包装盒数量/ID视频Geom.多视图市场1501 [58]632,66830.8✗✗CDukeMTMC-reID [34，61]836,41120.1✗✗CMSMT 17 [45]15126,44121.8✗✗C[22]第二十二话213,16419.3✗✗✗对香港中文大学01[21]23,8844.0✗✗✗ersVIPeR [11]21,2642.0✗✗✗pPRID [14]21,1341.2✗✗✗鱼子酱[8]26108.5✗✗✗火星[57]61,191,003944.5✗✗C[34，50]第一次世界大战84,077,132571.2CCCNLPR MCT [7]1236,41165.8CCC[28]第二十八话2049,35763.6✗CCCLE[26]第二十六话2221,7638.4✗✗✗嗨[52]第五十二话-846,3586.0✗✗✗ve[第52话]-807,26010.1✗✗✗MTMCCityFlow（提议）40229,680344.9CCC表1.公开的基于人/车辆图像签名的重新识别（ReID）和基于视频的跨摄像头跟踪（MTMC）基准对于每个基准，该表显示了每个身份的摄像机数量、注释边界框和平均边界框，以及原始视频的可用性、摄像机几何形状和多个视角。数据集不提供用于MTMC跟踪目的的原始视频和校准信息。此外，数据集只包含城市高速公路的场景，因此视点之间的变化相当有限。最后但并非最不重要的是，他们含蓄地假设MTSC跟踪完美地工作。至于其他基准测试[26，52]，它们仅用于前视图和后视图的图像级比较由于许多车辆共享相同的模型，并且不同的车辆模型可能看起来高度相似，因此车辆ReID中的解决方案不应仅依赖于外观充分利用时空信息对解决城市尺度问题具有重要意义研究界迫切需要一个基准，使MTMC车辆跟踪分析。3. CityFlow基准在本节中，我们详细介绍了拟议基准的统计数据。我们还解释了数据是如何收集和注释的，以及我们如何评估我们的基线。3.1. 数据集概述拟议的数据集包含3.25小时的视频，这些视频是从40个摄像头收集的，跨越美国中型城市的10个交叉路口。市两台同步相机之间的距离为2.5公里，这是所有现有基准中最长的。该数据集涵盖了一组不同的位置类型，包括交叉路口、道路延伸和高速公路。最大的空间覆盖-它是第一个能够实现城市规模视频分析的基准。该基准还提供了第一个支持MTMC跟踪车辆的公共数据集。该数据集分为5个场景，汇总在表中。二、总共有229，680个边界框，标注了666个车辆身份，每个边界框至少通过2个摄像头。CityFlow中车辆类型和颜色的分布如图所示。3.第三章。每个视频的分辨率至少为960p，大多数视频的帧速率为10 FPS。另外，在每个场景中，每个视频的开始时间的偏移是可用的，其可以用于同步。出于隐私方面的考虑，Deep-Stream [1]检测到的车牌和人脸CityFlow还显示了基于人员的MTMC跟踪基准中不存在的其他挑战[34，50，7]。同一交叉口的摄像机有时会共享重叠的视场（FOV），并且某些摄像机使用鱼眼镜头，导致其捕获的镜头的强烈径向失真。此外，由于相对较快的车辆速度，运动模糊可能导致目标检测和数据关联失败。图4显示了我们在基准测试中的注释示例。在不久的将来，该数据集将扩大到包括更多不同条件下的数据。3.2. 数据注释为了有效地标记多个摄像机之间的车辆轨迹，提出了一种自动标注方法，8800时间（分钟）#cam.包装盒ID编号场景类型Los117.13520,77295公路一213.52420,956145公路B323.3366,17418住宅一417.972517,30271住宅一5123.0819164,476337住宅B总195.0340229,680666表2.建议数据集中的5个场景，显示了总时间，摄像机数量（一些在场景之间共享），边界框和身份，以及场景类型（高速公路或住宅区/城市街道）和交通流量（使用北美服务水平标准（LOS）[37]）。场景1、场景3和场景4用于训练，而场景2和场景5用于测试。受雇。首先，我们遵循检测跟踪范例，并使用对象检测[32]和MTSC跟踪[43]中的最先进方法然后手动校正检测和跟踪错误，包括未对齐的边界框、假阴性、假阳性和身份切换。最后，我们手动关联轨迹跨相机使用时空线索。每个场景的摄像机几何结构都可以通过数据集获得。我们还提供了摄像机单应矩阵之间的二维图像平面和地面平面定义的GPS坐标的基础上，平地近似。摄像机校准的演示如图所示。图5所示的方法，其基于一组3D点与它们的2D像素位置之间的对应关系来估计单应性矩阵。首先，在来自每个视频的采样帧图像中手动选择5至14个界标点。然后，现实世界中相应的GPS坐标是从谷歌地图中推导出来的[3]。该问题中的客观代价函数是以像素为单位的重投影误差，其中目标单应性矩阵具有8个自由度。该优化问题可以用最小二乘中值法和RANSAC等方法有效地求解。在我们的基准测试中，由于Google Maps的精度有限，收敛的rejec- tion误差平均为11.52像素。当摄像机发生径向畸变时，在摄像机标定之前，首先通过拉直弯曲的车道线进行手动校正3.3. 基于图像的ReID子集来自CityFlow的采样子集（记为CityFlow-ReID）专用于基于图像的ReID的任务。CityFlow-ReID总共包含56，277个边界框，其中来自333个对象身份的36，935个边界框形成训练集，测试集由来自其他333个身份的18，290个边界框组成。剩下的1,052张图片是查询。平均而言，每辆车有84.50个图像签名，来自4.55个摄像头视图。图3.根据CityFlow中的车辆标识，车辆颜色和类型的分布。3.4. 评估服务器随着我们在2019年人工智能城市挑战赛上发布基准测试，我们推出了一个在线评估服务器。这使得能够持续评估和全年提交与基准相比的结果。一个排行榜是目前排名的表现，所有提交的结果。基于相同的基本事实的共同评价方法此外，研究界可以方便地参考最新技术3.5. 实验设置和评估指标对于基于图像的ReID的评估，结果由一个矩阵表示，该矩阵将每个查询映射到按距离排名的测试图像。在[58]之后，使用两个指标来评估算法的准确性：mean Average Precision（mAP），它测量所有查询的平均精度的平均值（精度-召回率曲线下的面积），以及rank-K命中率，表示至少一个真阳性被排在前K个位置内的可能性。在我们的评估服务器中，由于存储空间有限，采用每个查询的前100个匹配测量的mAP进行比较。补充材料中提供了更多细节至于MTMC跟踪的评估，我们采用了MOTChallenge[5，24]和DukeMTMC [34]基准测试所使用的指标。主要指标包括多目标跟踪精度（MOTA）、多目标跟踪精度（MOTP）、ID F1得分（IDF1）、主要跟踪目标（MT）和虚警率（FAR）。 MOTA计算精度时考虑了三个误差源：假阳性、假阴性/漏靶和身份转换。另一方面，MOTP考虑了注释边界框和预测边界框之间的不对齐。 IDF1测量比率在地面实况和计算的检测的平均数量上正确识别的检测。与MOTA相比，IDF1有助于解决误差源之间的模糊性。MT是地面实况轨迹的比率，8801图4. CityFlow上的注释，红色虚线表示相机视图中对象身份的关联。至少80%的寿命被轨道假设覆盖最后，FAR测量每个图像帧的平均错误警报数4. 评价的基线本节描述了我们使用CityFlow基准测试评估的最先进的基线系统。4.1. 基于图像的ReID对于人ReID问题，现有技术应用具有不同损失函数的度量学习，例如硬三重损失（Htri）[13]，交叉熵损失（Xent）[40]，中心损失（Cent）[48]及其组合来训练分类器[62]。在我们的实验中，我们比较了各种卷积神经网络（CNN）模型的性能[12，54，16，51，17，38，36]，这些模型都是使用相同的学习率（3e-4），epoch数（60），batch size（32）和optimizer（Adam）进行训练的。所有训练的模型在这些超参数设置下完全收敛。生成的特征尺寸在960和3，072之间对于车辆ReID问题，最近的工作[18]探索了用于最先进的个人ReID解决方案的三重嵌入的基于批次的采样的进展。他们比较了不同的采样变量，并在所有车辆ReID基准测试中展示了最先进的结果[28，26，52]，优于基于多视图的嵌入和大多数时空正则化（参见选项卡 . （七） . 选择的抽样变量包括批次所有（BA），批次硬（BH），批次样本（BS）和批次加权（BW），采用[13，35]。该实现使用MobileNetV1[15]作为骨干神经网络架构，true，将特征向量维数设置为128，学习率设置为3e-4，批量大小设置为18 ×4。另一种最先进的车辆ReID方法[43]是在CVPR 2018的AI城市挑战研讨会上获得车辆ReID赛道冠军 [31] ，该研讨会基于融合视觉和语义特征（FVS）。该方法提取图5.摄像机校准，包括在透视图（右）和自上而下的地图视图中手动选择地标点黄色虚线表示标志点之间的关联，而细彩色实线显示使用估计的单应性投影到图像上的地平面网格1 ， 024 维 CNN 特征来自 GoogLeNet [39] ，在CompCars基准[53]上进行预训练。在没有度量学习的情况下，Bhattacharyya范数用于计算特征向量对之间的距离在我们的实验中，我们还探讨了使用L2范数，L1范数和L∞范数的邻近计算。4.2. 单摄像机跟踪和目标检测大多数最先进的MTSC跟踪方法遵循检测跟踪范例。在我们的实验中，我们首先使用YOLOv 3[32]，SSD 512[27]和Faster R-CNN[33]等众所周知的方法生成检测到的边界框。对于所有检测器，我们使用在COCO基准上预训练的默认模型[25]，其中感兴趣的类别包括汽车，卡车和公共汽车。我们还对所有方法的检测分数使用相同的阈值（0.2）。MTSC跟踪中的离线方法通常会带来更好的性能，因为所有聚合的tracklet都可以用于数据关联。在线方法通常利用健壮的外观特征来弥补没有关于未来的信息。我们在CityFlow中试验了这两种类型的方法，如下所述。DeepSORT[49]是一种在线方法，将深度学习功能与基于卡尔曼滤波器的跟踪和匈牙利算法相结合，用于数据关联，在MOTChallenge MOT16基准测试中取得了卓越的性能[30]。TC[43]是一种离线方法，通过优化成本函数的加权组合应用tracklet聚类，包括平滑损失，速度变化损失，时间间隔损失和外观变化损失，在CVPR 2018 [31]的AI城市挑战研讨会上赢得了交通流分析任务最后，MOANA[42，41]是另一种在线方法，在MOTChallenge 2015 3D基准测试[19]上实现了最先进的性能，采用类似的时空数据关联方案，但使用自适应外观模型来解决对象的遮挡和分组。8802规范地图秩-1秩-5十阶Bhattacharyya6.3%百分之二十点八百分之二十四点五百分之二十七点九L2百分之五点九百分之二十点四百分之二十四点九百分之二十七点九L16.2%百分之二十点三百分之二十四点八百分之二十七点八L∞百分之三点二17.0%百分之二十三点六百分之二十七点六表3.从领先的车辆ReID方法FVS [43]中提取的CNN特征的性能，在我们的CityFlow-ReID基准上使用各种指标进行比较。图 6. CityFlow 上基于图像的 ReID 方法的 CMC- ReID 。DenseNet121 [17]用于Tab中所有最先进的人员ReID方案。4.第一章4.3. 时空分析时空关联背后的直觉是，车辆的移动模式是可预测的，因为它们通常遵循交通车道，并且速度变化平滑。Liu等[29]提出了一个渐进的多模态车辆ReID框架（PROVID），其中采用了基于时空的重新排序方案。时空相似性是通过计算相机之间的时间差和物理距离的比率来测量的更复杂的算法应用概率模型来学习相机对之间的转换。例如，基于双向高斯混合模型特征（2WGMMF）[20]的方法通过使用高斯分布学习相机视图之间的过渡时间，在NLPR MCT基准[7]上实现了最先进的然而，在FVS[43]中，由于没有提供训练数据，因此基于相机之间的估计距离预定义时间分布。这两种方法都需要在摄像机视图中手动选择进入/退出区域，但2WGMMF可以在线学习摄像机链接模型。5. 实验评价结果在本节中，我们分析了各种最先进的方法在我们的CityFlow基准测试中的性能，并将我们的基准测试与现有的基准测试进行比较。图7.基于图像的ReID方法对CityFlow-ReID中两个示例查询的定性性能。每个查询的行从上到下显示FVS（Bhattacharyyanorm）、Xent、Htri、Cent、Xent+Htri、BA和BS的结果每行显示通过该方法找到的前10个匹配项。DenseNet121 [17]用于Tab中所有最先进的人员ReID方案4.第一章5.1. 基于图像的ReID首先，我们评估了CityFlow-ReID上最先进的ReID方法的性能，CityFlow-ReID是第3.3节中提到的基于图像的ReID基准的子集。我们的目标是确定CityFlow-ReID是否对现有方法具有挑战性。非度量学习方法。CNN输出的深度特征可以使用标准距离度量直接进行比较选项卡. 3显示了使用各种距离度量的FVS方法[43]的结果。总的来说，非度量学习的性能很差。此外，该模型在用于细粒度车辆分类的数据集上进行预训练[53]，这将损害与车辆ReID数据集上的预训练相比的一些性能增益度量学习方法在人 ReID 。选项卡 . 图 4 显示了CityFlow-ReID数据集上每个ReID的最新度量学习方法的结果，使用不同的损失函数和网络架构。与Tab中的非度量学习方法相比，性能有了很大的提高。3 .第三章。特别地，硬三重态损失是最稳健的。硬三重态损失和交叉熵损失的组合产生最好的结果。至于CNN架构，DenseNet121 [17]实现了最高的准确性，8803损失ResNet50[12][54]第五十四话[51]第五十一话SEResNet50[16]SEResNeXt50[16][17]第十七话[38]第三十八话[36]第三十六话[40]第四十话25.5（41.3）25.3（42.1）26.6（42.4）23.8（40.4） 26.8（45.2）23.2（39.9）20.8（35.5）14.7（26.0）免费WiFi[13]28.7（42.9）27.9（40.1）30.0（41.3）26.3（38.7） 28.2（40.4）30.5（45.8）23.7（37.2）0.4（0.3）[48]第四十八话7.6（18.2）7.9（21.5）8.1（19.3）10.0（25.9） 10.2（25.6）10.7（27.9）6.0（15.2）7.9（18.4）Xent+Htri29.4（45.9）29.4（49.7）32.0（48.8）30.0（47.2）30.8（49.1）31.0（51.7）25.6（42.2）11.2（16.3）Xent+Cent23.1（37.5）26.5（47.3）24.9（40.9）26.2（43.7） 28.4（47.5）27.8（48.1）23.5（39.5）12.3（24.0）表4. CityFlow-ReID上人员ReID的最先进指标学习方法，以百分比形式显示mAP和rank-1（括号中）。所有网络都在ImageNet上进行了预训练[9]。最佳架构和损失函数分别针对每一行/列突出显示，其中阴影单元格指示mAP和秩1两者的总体最佳。方法市场1501[58]DukeMTMC-reID[34，61]MSMT17[45]方法[28]第二十八话汽车[26][52]第五十二话[第52话][23]第二十三话75.6（90.9）63.2（80.1）37.2（64.7）GSTE [4]59.5（96.2）72.4（74.0）--MLFN [6]74.3（90.1）63.2（81.1）37.2（66.4）VAMI [63]50.1（77.0）- （47.3）--GLAD [47]--34.0（61.4）OIFE [44]48.0（89.4）- （67.0）--Res50+Xent75.3（90.8）64.0（81.0）38.4（69.6）CCL [26]-45.5（38.2）--Res50M+Xent76.0（90.2）64.0（81.6）38.0（69.0）MGR [52]--51.1（-）55.3（-）SERes50+Xent75.9（91.9）63.7（81.5）39.8（71.1）[18]第十八话66.9（90.1）76.0（66.7）--Dense121+Xent68.0（87.8）58.8（79.7）35.0（67.6）MoV1+BH [18]65.1（87.3）76.9（67.6）--[18]第十八话67.6（90.2）78.2（69.3）58.3（58.3）62.4（69.4）表5.国家的最先进的度量学习方法的人ReID在其他公共基准，显示mAP和排名1（括号内），作为百分比。最下面的几行（来自[62]）显示了Tab中的方法四是竞争力对国家的最先进的。方法地图秩-1秩-5十阶[18]第十八话百分之三十一点三百分之四十九点六65.0%71.2%MoV1+BH [18]32.0%48.4%65.2%71.4%[18]第十八话百分之三十一点三49.0%63.1%百分之七十点九[18]第十八话百分之三十点八百分之五十点一64.9%71.4%表6.在CityFlow-ReID上使用不同采样变量的车辆ReID的最新度量学习方法。大多数情况下，因为它受益于整个网络的信息流和梯度的改善。其他基准测试中的Person ReID方法。尽管上述努力探索网络架构和组合度量学习损失，但我们的CityFlow-ReID基准测试的最高mAP仍然低于35%。相比较而言，选项卡. 5[62，56，59，55]显示了相同方法在其他公共基准上的性能，使用相同的实现和超参数。一般来说，性能明显更好，因此验证了CityFlow-ReID确实更具挑战性。车辆ReID中的度量学习方法。选项卡.图6显示了车辆ReID [18]在拟定数据集上的最新结果对于这个实验，我们使用一个简单的基于MobileNetV1的分段[15]，如前所述在等级-1命中率方面的结果仅略差于在人ReID中硬三联体损失和交叉熵损失的组合（参见表1）。4）. 这8804MoV1+BW [18] 67.0（90.0）78.1（69.4）--表7.其他公共基准上车辆ReID的最先进指标学习方法在VehicleID、PKU-VD 1和PKU-VD 2的最大测试集上评价性能。下面的行显示了我们比较中的方法（来自Tab.（六）。方法IDF1召回远MtMotaMOTPDS+YOLO78.9%67.6%8.677867.4%百分之六十五点八DS+SSD百分之七十九点五百分之六十九点二8.375668.9%百分之六十五点五DS+FRCNN78.9%百分之六十六点九15.376166.7%百分之六十五点五TC+YOLO79.1%68.1%8.587168.0%66.0%TC+SSD79.7%百分之七十点四7.4895百分之七十点三百分之六十五点六TC+FRCNN78.7%68.5%12.0957百分之六十八点四65.9%MO+YOLO77.8%69.0%8.5965百分之六十八点六66.0%MO+SSD百分之七十二点八68.0%6.398067.0%65.9%MO+FRCNN百分之七十五点六百分之六十九点五10.81094百分之六十八点六66.0%表8. CityFlow上的MTSC跟踪和目标检测的最新方法。这些指标在第3.5节中解释。精确度的降低可能是由于相对简单的网络架构（MobileNetV1 [15]）和计算上有效的嵌入到128维中。选项卡. 6再次展示了CityFlow-ReID的挑战。其他基准上的车辆ReID方法。为了验证我们的方法确实具有竞争力，Tab。7[18]显示了几种最先进的车辆ReID方法在公共基准上的性能这些结果也总结在图1B中的累积匹配曲线（CMC）图中。六、性能的定性可视化如图所示7 .第一次会议。我们观察到8805时空MTSC基于图像的ReID协会跟踪FVS Bh.克恩特Htri美分Xent+HtriBABS[49]第四十九话百分之二十一点五百分之三十一点三35.3%百分之二十七点六百分之三十四点五百分之三十五点六百分之三十三点六[29]第二十九话TC [43]22.1%35.2%百分之三十九点四百分之三十二点七百分之三十九点九40.6%39.0%MOANA [42]21.7%百分之二十九点一33.0%百分之二十六点一百分之三十一点九百分之三十四点四百分之三十一点八[49]第四十九话25.0%35.3%百分之三十八点四31.2%百分之三十七点五百分之四十点三39.8%2WGMMF [20]TC [43]百分之二十七点六百分之三十九点五41.7%34.7%百分之四十三点三百分之四十四点一百分之四十五点一MOANA [42]百分之二十点二百分之三十二点二35.9%百分之二十八点二百分之三十六点五百分之三十八点一百分之三十七点七[49]第四十九话百分之二十四点九百分之三十六点四40.0%百分之三十点八39.0%41.3%41.4%FVS [43]TC [43]百分之二十七点六百分之四十点五百分之四十二点七百分之三十六点六42.4%46.3%46.0%MOANA [42]百分之二十一点二百分之三十二点七百分之三十六点四百分之二十九点二百分之三十七点五百分之三十九点五百分之三十六点九表9. MTMC跟踪与时空关联的不同组合，MTSC跟踪（由SSD512支持[27]），以及CityFlow上基于图像的ReID方法每个单元格显示ID F1评分。每行/列的最佳性能突出显示，阴影单元格表示总体最佳性能。DenseNet121 [17]用于比较Xent、Htri、Cent和Xent+Htri。大多数故障是由视点变化引起的，这是未来方法应该解决的关键问题。5.2. MTSC跟踪和目标检测可靠的跨摄像头跟踪建立在每个摄像头（MTSC）内的精确跟踪基础上。选项卡. 8显示了在CityFlow上结合领先的对象检测算法[32，27，33]进行MTSC跟踪[49，42，43注意，在MTSC跟踪评估中不考虑假阳性，因为仅注释穿过多于一个关于对象检测器，SSD512 [27]表现最好，而YOLOv 3 [32]和Faster R-CNN[33]表现出类似的性能。至于MTSC跟踪器，TC [43]是唯一的离线方法，根据大多数评估指标表现更好。DeepSORT [49]和MOANA [42]在MOTA中的表现相似，但DeepSORT的ID F1得分要高得多。尽管如此，MOANA能够成功地跟踪大多数轨迹。5.3. MTMC跟踪MTMC跟踪是一个视觉-空间-时间联合推理的过程。对于这些实验，我们首先应用MTSC跟踪，然后从每个轨迹中采样一些签名，以提取和比较外观特征。根据经验，将来自每个车辆的采样实例的数量选择为3。表9显示了CityFlow上时空关联、MTSC跟踪和基于图像的ReID的各种方法的结果。请注意，PROVID [29]首先比较视觉特征，然后使用时空信息进行重新排序;而2WGMMF [20]和FVS [43]首先基于在线学习或手动测量对时空过渡进行建模，然后仅对置信对执行基于图像的ReID。还应注意，由于在评估中仅包括跨越多个相机的轨迹，因此与MTSC跟踪不同8806在MTMC跟踪精度的计算中考虑了假阳性。总体而言，最可靠的时空关联方法是FVS，它利用手动指定的概率模型的过渡时间。相比之下，2WGMMF在大多数情况下实现了与FVS相当的性能，这是由于在线学习的过渡时间分布应用于在训练集和测试集之间共享的那些相机。如果没有概率建模，PROVID会产生较差的结果。我们还可以从表9中得出结论，基于图像的ReID和MTSC跟踪方法的选择对整体性能有显著影响，因为这些方法在子任务中实现了卓越的性能，也有助于提高MTMC跟踪精度。6. 结论我们提出了一个城市规模的基准测试，CityFlow，它支持基于视频的MTMC跟踪和基于图像的ReID任务。我们的主要贡献有三个方面。首先，CityFlow是在交通理解方面对城市规模应用的首次尝试它在空间覆盖范围和涉及的摄像机/交叉口数量方面是所有现有ReID数据集中规模最大的。此外，还包括广泛的场景和交通流条件。其次， CityFlow 也是第一个支持基于车辆的MTMC跟踪的基准，它为原始视频、摄像机几何形状和校准信息提供可以利用所提供的时空信息来解决基于图像的ReID中的模糊性。第三，我们进行了广泛的实验，评估我们的基准测试的最先进的方法的性能，比较和分析各种视觉时空关联方案。我们表明，我们的sce- narios是具有挑战性的，并反映了现实的情况下，部署的系统将需要运作。最后，CityFlow还可以为新的研究问题开辟道路，如车辆姿态估计，视点生成等。8807引用[1] DeepStreamSDK。https://developer.nvidia.com/deepstream- sdk. 3[2] 的司机隐私保护法（DPPA）和你州机动车记录的隐私https：//www.epic.or g/privacy/drivers/. 1[3] 谷歌地图。www.google.com/maps/。4[4] Yan Bai，Yihang Lou，Feng Gao，Shiqi Wang，YuweiWu，and Ling-Yu Duan.用于车辆重新识别的组敏感三元组嵌入。T-MM，20（9）：2385-2399，2018。7[5] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。多目标跟踪性能评估：CLEAR MOT度量.图像和视频处理，2018年。四、十一[6] 作者：Timothy M. Hospedales和Tao Xiang。用于人员重新识别的多级分解网络。在Proc. CVPR，第2109-2118页，2017年。7[7] Weihua Chen ， Lijun Cao ， Xiaotang Chen ， and KaiqiHuang.基于均衡全局图模型的多摄像机目标跟踪方法。arXiv：1502.03532，2015年。一、二、三、六[8] Dong Seon Cheng ， Marco Cristani，Michele Stoppa，Loris Bazzani，and Vittorio Murino.用于重新识别的自定义图形结构。在Proc. BMVC，第68.1-68.11页，2011中。一、二、三[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。在Proc. CVPR，第248-255页，2009中。7[10] Yan Em，Feng Gag，Yihang Lou，Shiqi Wang，TiejunHuang，and Ling-Yu Duan.将类内方差扩展到细粒度视觉识别。在Proc. ICME，第1452- 1457页，2017年。1[11] 道格拉斯·格雷和海涛。具有局部特征集合的视点不变行人识别。在procECCV，第262-275页，2008年。一、二、三[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在procCVPR，第770-778页，2016年。五七十二[13] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为三胞胎的丢失辩护，进行人员重新鉴定。arXiv：1703.07737，2017。二、五、七、十二[14] 放大图片作者：Martin Hirzer，Csaba Beleznai，Peter M.Roth和Horst Bischof。通过描述性和区分性分类进行人员重新识别在proc SCIA，第91-102页，2011年。一、二、三[15] Andrew G. Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. MobileNets：用于移动视觉应用的高效卷积神经网络。arXiv：1704.04861，2017。五、七[16] 杰虎，李申，孙刚。挤压-激发网络。在Proc. CVPR，第7132-7141页，2018年。五七十二[17] 高煌，刘庄，劳伦斯·范德马腾，和基利安·Q.温伯格密集连接的卷积网络。在Proc. CVPR，第2261-2269页，2017年。五六七八十二[18] Rat

下载后可阅读完整内容，剩余1页未读，立即下载