PANDA：千兆像素级人类中心视频数据集

189 浏览量更新于2023-10-25 收藏 2.02MB PDF 举报

视频数据集

视觉分析

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3268PANDA：一个以人为中心的千兆像素级视频数据集王雪阳1*，张西亚1*，朱银恒1*，郭宇晨1*，袁晓云1，刘宇翔1，王泽润1，丁贵光1，David Brady2，戴琼海1，陆芳11清华大学2杜克大学图1. PANDA数据集的代表性视频马拉松。大视场和高空间分辨率的联合特性使得大范围、长时间、多目标的视觉分析成为可能。摘要我们提出了PANDA，第一个千兆像素级的以人类为中心的视频数据集，用于大规模，长期和多对象的视觉分析。熊猫的视频是由一个千兆像素的摄像头拍摄的，涵盖了真实的-具有宽视野（101平方公里区域）和高分辨率细节（100亿像素级/帧）的世界场景。场景可能包含4k头数，超过100×尺度变化。PANDA提供了丰富的和分层的地面实况注释，包括15，974。6k边界框，111. 8k个细粒度属性标签，12. 7k矩阵，2. 2k组和2. 9K互动我们对人体检测和跟踪任务进行基准测试。由于行人姿态、比例、遮挡和轨迹的巨大变化，经验方法在准确性和效率方面都面临挑战。鉴于PANDA具有宽视场和高分辨率的独特性，引入了交互感知的组检测的新任务。我们设计了一个我们相信PANDA将通过理解大规模现实世界场景中的人类行为和交互，为人工智能和行为学社区做出贡献PANDA网站：http://www.panda-dataset.com.*这些作者对这项工作做出了同样的贡献。通讯作者。邮箱：fanglu@sz.tsinghua.edu.cn本研究得到了国家自然科学基金项目的部分资助。61722209、6181001011、61971260和U1936202，部分由深圳市科学技术研究发展基金（JCYJ20180507183706645）资助。1. 介绍人们已经广泛认识到，最近计算机视觉技术的显著成功，特别是基于深度学习的技术，在很大程度上依赖于大规模和注释良好的数据集。例如，ImageNet [58]和CIFAR-10/100 [64]是深度卷积神经网络[33，41]的重要催化剂，Pascal VOC [26]和MS COCO [47]用于常见对象检测和分割，LFW [34]用于人脸识别，CaltechPedes- trians [21]和MOT基准[51]用于人员检测和跟踪。在所有这些任务中，以人为中心的视觉分析从根本上来说是至关重要的，但也是具有挑战性的。它涉及许多子任务，例如，行人检测、跟踪、动作识别、异常检测、属性识别等，在过去的十年中吸引了相当大的兴趣[55，9，46，68，50，63，18，71]。虽然意义重大-但目前研究进展有限，缺乏对大规模时空范围内人群活动的长期分析，缺乏清晰的局部细节。分析背后的原因，现有数据集[47，21，51，28，56，6]在宽FoV和高分辨率之间存在固有的权衡。以足球比赛为例，广角摄像机可以覆盖全景场景，但每个运动员面临显著的尺度变化，从而导致非常低的空间分辨率。尽管可以使用长焦镜头相机来捕获特定玩家的局部细节，但是内容的范围将高度限制于小的FoV。即使多个监视摄像机设置可以提供更多的信息，但对分散的视频剪辑进行重新识别的要求非常容易，3269影响了对真实世界人群行为的连续分析。总而言之，现有的以人为中心的数据集仍然受到所提供的有限的空间和时间低空间分辨率[44，54，28]、缺乏视频信息[14，72，18，4]、不自然的人类外观和动作[1，37，36]以及短期注释的有限活动范围[6，49，15，53]等问题导致不可避免地影响了对人群复杂行为和相互作用的理解。为了解决上述问题，我们提出了一个新的千兆像素级的以人为中心的视频数据集（PANDA）。PANDA中的视频由千兆摄像机捕获[70，7]，该摄像机能够覆盖充满高分辨率细节的大规模区域。马拉松的代表性视频示例在图中呈现。1.一、如此丰富的信息使PANDA成为具有多尺度特征的有竞争力的数据集：（1）全球宽视场（可视区域可能超过1 km2）;（2）局部高分辨率细节（空间分辨率为千兆像素级）;（3）时间上长期的人群活动（43. （4）真实世界场景，在人类属性、行为模式、尺度、密度、遮挡和交互方面具有丰富的多样性。与此同时，PANDA提供了丰富的和分层的地面实况注释，有15974个。6k边界框，111. 8k细粒拉贝尔，12. 7k轨迹，2. 2k组和2. 总共有9k个得益于全面和多尺度的信息，PANDA促进了各种基本但具有挑战性的任务，以图像/视频为基础的以人为中心的分析。我们从最基本的检测任务开始。然而，对熊猫的检测必须解决准确性和效率问题。前者受到尺度变化大和遮挡复杂的挑战，而后者受到千兆像素分辨率的高度影响。此后，跟踪任务被基准化。由于真实场景中存在复杂的遮挡以及大规模和长时间的活动，我们的跟踪任务同时具有大规模，长时间和多目标的特性，因此受到严重挑战。此外，PANDA实现了识别视频中人群的组关系的独特任务在这项任务中，我们提出了一个新的全球到本地放大的框架，以揭示全球轨迹和局部相互作用之间的相互影响请注意，这三项任务是内在相关的。虽然检测可能会偏向于局部高分辨率的细节和跟踪可能会集中在全球的轨迹，前者促进后者显着。同时，通过检测和跟踪得到的时空轨迹可用于群体分析.总之，PANDA的目标是为社区提供一个标准化的数据集，用于研究新的算法理解大规模真实世界场景中复杂的人群社会行为。现将这些贡献归纳如下。• 我们提出了一个新的视频数据集，具有千兆像素级的分辨率，以人为中心的视觉分析。它是第一个具有宽FoV和高分辨率的视频数据集空间分辨率，能够从全局场景和局部细节提供足够的空间和时间信息。提供了完整、准确的人群位置、轨迹、属性、群体和群体内交互信息标注• 我们在PANDA上对几种最先进的算法进行了基准测试，用于基本检测和跟踪任务结果表明，现有方法在准确性和有效性方面都面临严峻挑战，并且在复杂遮挡情况下，很难准确检测出尺度变化较大的场景中的目标以及跟踪长距离• 我们引入了一个新的视觉分析任务，称为交互感知的群体检测，基于空间和时间的多对象交互。全球性的-提出了一个基于局部放大的框架，以利用PANDA中的多模态标注，包括全局轨迹、局部人脸方向和交互。实验结果进一步验证了PANDA提供的全局场景和局部细节的协同效果.通过服务于大规模时空范围内人群活动的长期分析相关的视觉任务，我们相信PANDA必将有助于社区理解大规模真实场景中人群的复杂行为和交互，并进一步提升无人系统的智能化。2. 相关工作2.1. 图像数据集图像数据集上最具代表性的以人为中心的任务是人类（人或行人）检测。常见的对象检测数据集，如PASCAL VOC [26]，ImageNet [58]，MS COCO [47]，Open Images [42]和Objects365 [60]数据集，最初不是为以人为中心的分析而设计的，尽管它们包含人类对象类别1。然而，受限于狭窄的视场，每幅图像只包含有限数量的对象，远不足以描述人群行为和交互。1这些数据集中使用了不同的术语，例如当没有歧义时，我们统一使用3270行人检测。一些先驱代表包括INRIA [19]，ETH[25]，TudBrussels [67]和Daim-ler [23]。 [21]第二十一话：我的世界[75]和EuroCity Persons [8]数据集的质量更高，规模更大，内容更具挑战性。它们中的大多数是通过常规交通场景经由车载摄像头收集的，行人外观和遮挡的多样性有限。最新的Wider- Person [76]和CrowdHuman[61]数据集专注于有许多行人的人群场景由于空间分辨率和视场之间的权衡，如果场景变大，现有的数据集组检测。从几十年前的独立结构群体（FCG）开始[24]，随后的作品试图研究以相互场景位置和姿势为特征的相互作用的人，称为F-编队[40]。代表性的有IDIAP海报[35]、鸡尾酒会[72]、咖啡休息[18]和GDet[4]。在[14]中，提出了数据集的结构组问题最近，提出了行人组重新识别（G-ReID）基准，如DukeMTMC组[48]和道路组[48]，以匹配不同摄像机视图中的一组人。然而，这些数据集只支持位置感知的群体检测，缺乏重要的动态交互。2.2. 视频数据集行人追踪它定位行人在一系列并找到它们的轨迹。启动MOT挑战基准[43，51]以建立多目标跟踪算法的标准化评估。最新的MOT19基准测试[20]由8个新序列组成，具有非常拥挤的挑战性场景。此外，一些数据集是针对特定应用而设计的，例如，Campus [57]和VisDrone2018 [79]，它们是基于无人机平台的基准。PoseTrack [2]包含视频中多人的关节位置注释。为了提高长期跟踪的视场，采用摄像机网络，导致多目标多摄像机（ MTMC ）跟踪问题。 MARS [77] 、DukeMTMC [56]是其中的代表。另一方面，为了从监控角度调查行人，建议使用UCY Crowds-by-Example [44] 、 ETH BIWI WalkingPedestrian [54]、Town Center [5]和Train Station [78]进行轨迹预测、异常行为检测和行人运动分析。PETS 09[28]由校园内的八个摄像头收集，用于人员密度估计、人员跟踪、事件识别等。最近，CUHK [59]和WorldExpo '10 [ 74 ] 用于评估人群细分，人群密度，集体性和凝聚力的表现。mation然而，这些数据集对场景的丰富性和复杂性都不够，难以提供高分辨率的局部细节，这对于进一步分析人群中的人类交互至关重要交互分析。SALSA [1] contains uninter- rupted multi-modalrecordingsofindoorsocialeventswith18participants for over 60 minutes. Panoptic Studio [37]使用480个同步VGA摄像机来捕捉社交互动，并标注3D身体姿势。 BEHAVE [6] ， CAVIAR [49] ， CollectiveActivity [15]和Volleyball [36]是广泛用于评估人类群体活动识别方法的数据集。VIRAT [53]是一个真实世界的监控视频数据集，包含多种类型的复杂视觉事件的各种示例然而，为了局部细节，群体交互通常被限制在小场景或不自然的人类行为中。3. 数据收集和注释3.1. 数据收集和预处理众所周知，基于单相机的成像在宽FoV和高空间分辨率之间存在不可避免的矛盾。最近开发的基于阵列相机的gigapixel视频成像技术显著提高了高性能成像的可行性[7，70]。通过设计先进的计算算法，多个微型摄像机同时工作，实时生成无缝的千兆像素级视频结果，可以消除视场或空间分辨率的牺牲我们采用最新的千兆相机[3，70]来收集数据对于 PANDA ，视场为 70 度左右，视频分辨率为25k×14k，工作频率为30Hz。图 1中的代表性视频Marathon充分反映了PANDA的独特性，具有全局宽FoV和局部高分辨率细节。目前，PANDA由21个真实户外场景2组成，考虑场景多样性、行人密度、轨迹分布、群体活动等。的理由：建筑在每个场景中，我们收集了大约2小时的30Hz视频作为原始数据池。之后，提取大约3600对于要注释的图像，每个视频选择大约30个代表性帧，总共600个，覆盖不同的人群分布和活动。3.2. 数据注释注释PANDA图像和视频面临着由于千兆像素级分辨率而难以进行完整图像注释在此，遵循分并合并的思想，2我们不断收集更多视频以丰富我们的数据集。请注意，所有数据都是在摄影得到正式批准的公共区域收集的，并且将在知识共享署名-非商业性使用-相同方式共享4.0许可证下发布。3271图2.PANDA数据集中注释的可视化（a）大规模场景中行人的规模变化（b）三项罚款─人体上的颗粒边界框。(c)人体姿势的五种分类。(d)组信息以及组内交互（TK=交谈，PC=身体接触），其中圆圈和短线表示行人及其面部方向。加州理工CityPersons熊猫熊猫-CRes480P2048×1024>25k×14k>25k×14k#Im249.9k5k55545Ps数量289.4k35.0k111.8k122.1kDen1.167.0201.42,713.8表1.行人数据集比较（CityPersons的统计数据仅包含公共可用的训练集）。Res是图像分辨率，#Im是图像的总数，#Ps是人的总数，Den表示人密度（每个图像的平均人数），并且PANDA-C是PANDA-Crowd子集。通过考虑行人密度和大小，将整个图像划分为4到16个子图像。在子图像上分别标注标签之后，标注结果被映射回完整图像。被块边界切割的对象被标记为具有特殊状态，在将所有块合并在一起之后将重新标记。所有标签均由训练有素的专业注释团队提供。3.2.1图像标注PANDA有600张从21个不同场景中捕获的注释良好的图像，用于多目标检测任务。其中，PANDA-Crowd子集是从3个人头密集的场景中选取的45幅带有人头包围盒的图像。剩余的555幅图像来自18个真实世界的日常场景，总共有111k个行人，标记有头部点、头部边界框、可见身体边界框和靠近边界的估计全身边界框的行人。对于距离太远或太密集而无法单独区分的人群，玻璃反射的人，以及遮挡面积超过80%的人图2展示了一个典型的大规模真实场景--熊猫华侨城港湾，人群在规模、位置、遮挡、活动、互动等方面表现出显著的多样性。除了（b）中的精细边界框之外，还为每个行人分配细粒度标签，该细粒度标签示出（c）中的详细属性。使用五个类别，即，行走、站立、坐着、骑着和抱着（儿童），基于日常姿势。关键部位闭塞的行人标记为“不确定”。“骑”标签进一步细分为自行车骑手，三轮车骑手和摩托车骑手。另一个详细的属性被称为定量提供了与代表性加州理工学院 [21] 和CityPersons图像数据集[75]的比较（表1）。（1）统计（图）（3）第三章。从Tab。1，PANDA的每幅图像都拥有千兆像素级的分辨率，这是现有数据集的100倍左右。尽管图像数量比其他数据集少得多，但得益于联合高分辨率和宽FoV，PANDA的每张图像的行人密度比其他数据集高得多，特别是在极其拥挤的PANDA人群中，并且保持PANDA中的行人总数与加州理工学院相当，关于图像注释的一些详细统计数据是3272KITTI-TMOT16MOT19熊猫Res1392×5121080p1080p>25k×14k#V2014815#F19.1k11.2k13.4k43.7k#T2041.3k3.9k12.7k#B13.4k292.7k2，259.2 k15，480.5kDen0.726.1168.6354.6图3. (a)人物比例的分布（以像素为单位的高度）。(b)每个图像具有不同遮挡（通过IoU测量）阈值的人对的数量分布。(c)分布PANDA中的人的姿势标签（WK=行走，SD=站立，ST=坐，RD=骑，HA=抱，US=不确定;可见光比率分为W/OOcc（> 0.9）、部分Occ（0.5 - 0.9）和重度Occ（<0.5）。(d)PANDA中组间互动的类别和持续时间的分布（PC=身体接触，BL=肢体语言，FE=面部表情，EC=眼神接触，TK=说话;持续时间分为短（10 s）、中（10 s-30 s）和长（≥30 s）。<(e)人员跟踪持续时间的分布。(f)人员闭塞时间比的分布。（a）、（b）、（e）和（f）中的比较限于训练集。示于图3.第三章。特别是图图3（a）示出了PANDA、Caltech和CityPersons的像素中的人尺度的分布。可以看出，由于空间分辨率的限制，加州理工学院和城市居民的身高分布大多在50 - 300 px之间，而PANDA的身高分布在100 - 600 px之间。PANDA中较大尺度的变化需要强大的多尺度检测算法。在图3（b）中，给出了通过PANDA和CityPersons的边界框IoU测量的人之间的成对闭合。不同姿势和遮挡条件的细粒度标签统计总结在图1B中。3（c）款。3.2.2视频注释视频注释更加关注揭示活动/交互的标签。除了每个人的边界框之外，我们还标记了面部方向（量化为八个箱）和遮挡率（没有，部分和表2.多目标跟踪数据集的比较（KITTI的统计数据仅包含公共可用的训练集）。Res表示视频分辨率。#V、#F、#T和#B分别表示视频剪辑、视频帧、轨道和边界框的数量。Den表示密度（每帧的平均人数）。重）。对于短时间内完全被遮挡的行人，我们标记虚拟身体边界框并将其标记为“消失”。MOT注释可用于PANDA中除PANDA-Crowd之外的所有视频。定量提供了与KITTI-T [31]和MOT [20]视频数据集的比较（表1）。2）和统计（图。（3）第三章。显然，PANDA具有最大数量的帧，轨道和边界框3的竞争力。此外，在图3（e），我们显示了不同数据集的跟踪持续时间的分布。结果表明，由于PANDA具有更宽的FoV，其跟踪持续时间比KITTI-T和MOT长许多倍。这一特性使PANDA成为大规模和长期跟踪的优秀数据集此外，我们还调查了每个人被遮挡的持续时间，并总结了图1中的分布。第3段（f）分段。结果表明，无论是绝对数量还是相对数量，PANDA中有更多的轨迹遭受部分或严重的遮挡，这使得跟踪任务更具挑战性。对于组注释，具有宽FoV全局信息、高分辨率局部细节和时间活动的PANDA的进步与现有的基于组的数据集不同，这些数据集关注全局轨迹的相似性[54]或局部空间结构的稳定性[14]，我们利用社会信号处理[65]来标记交互级别的组属性。更具体地说，使用带注释的边界框，我们首先基于场景特征和社会信号（如人际距离）[22]和互动[65]。之后，每个组被签名为表示关系的类别标签，诸如熟人、家庭、业务等，如图第2段（d）分段。为了丰富组识别的特征，我们进一步标记组内成员之间的交互3由于行人的移动速度相对缓慢且稳定，并且行人的姿势很少发生快速和剧烈的变化，因此从标记成本的角度出发，我们在每k帧（k= 6到15在这里，我们将线性插值后的边界框数量与原始帧速率进行比较。3273表3.检测方法在PANDA上的性能。FR、CR和RN分别表示Faster R-CNN、Cascade R-CNN和RetinaNet。Sub表示不同目标尺寸的子集，其中Small、Middle和Large表示对象尺寸为32×32，<32 ×32−96×96，且>96×96。包括交互类别（包括身体接触、身体语言、面部表情、眼神接触和交谈;多标签注释）及其开始/结束时间。相互作用的分布和持续时间如图所示第3段（d）分段。平均交互持续时间为518帧（17.3s）。为了避免过于主观或模棱两可的情况，进行了三轮4. 算法分析我们认为三个以人为中心的视觉分析任务的熊猫。第一个是行人检测，这会使局部视觉信息产生偏差。二是多行人跟踪。在这个任务中，考虑了来自不同区域的全局视觉线索。基于这两个定义良好的任务，我们引入了交互感知的群体检测任务。在这项任务中，全球轨迹和人与人之间的局部交互都是必要的。4.1. 检测行人检测是以人为中心的视觉分析的一个基本任务.PANDA的极高分辨率使其能够从长距离检测行人图4.左：Visible Body上Faster R-CNN的错误分析。C75、C50、Loc和BG分别表示IoU=0.75、IoU=0.5时的PR曲线，忽略定位误差和忽略背景假阳性。右：假阴性实例（FN）与Visible Body上的Faster R-CNN的所有实例（ALL）在人的身高（以像素为单位）分布方面。我们将原始大小的图像调整为多个尺度，并将图像划分为具有适当大小的块作为神经网络输入。对于被块边界切割的对象，如果保留区域超过50%，则保留它们。类似地，对于评估，我们将原始图像调整为多个尺度，并使用滑动窗口方法为检测器生成适当大小的块为了更好地分析检测器性能和局限性，我们根据对象大小将测试结果划分为子集。结果我们从COCO预训练的权重中训练这3个检测器，并在三个任务中评估它们：可见身体、全身和头部检测。如Tab.所示。3、Faster R-CNN、Cascade R-CNN和RetinaNet在检测小对象时表现出困难，导致精确度和召回率非常低。我们还使用Faster R-CNN对可见物体进行了错误分析，如图所示。左四。我们可以观察到，大量的假阴性是限制检测器性能的最严重因素。我们进一步分析了图1中的假阴性实例的高度分布。4右。结果表明，小目标漏检引起的假阴性是造成召回率低的主要原因。根据实验结果，要准确地检测出场景具有非常大的尺度变化（在PANDA中最大为100×），距离然而，规模的显着差异，位置-真实和遮挡严重降低了检测性能。在本文中，我们基准测试了几个国家的最先进的检测算法在PANDA4。评估指标。对于评估，我们选择AP。50和AR作为度量：AP。50是IoU = 0时的平均精度。50. A是平均召回率，IoU在[0]范围内。5，0。95]步幅为0.05。基线探测器。我们选择Faster R-CNN [55]，Cas-cade R-CNN [9]和RetinaNet [46]作为我们的基线检测。ResNet101 [33]主干。该实现基于[11]。为了在我们的网络上训练十亿像素的图像4对于18个普通场景，13个场景用于训练，5个场景用于测试。对于3个非常拥挤的场景，2个场景用于训练，1个场景用于测试。基于现有架构的单个检测器更对于具有大对象尺度变化的超大图像的检测任务，高度要求先进的优化策略和算法，例如尺度自适应检测器和有效的全局到局部多级检测器。4.2. 跟踪行人跟踪的目的是将不同空间位置和时间帧的行人关联起来。PANDA的优越性能使其自然适合长期跟踪。然而，拥挤的行人区的复杂场景也带来了各种挑战。评估指标。为了评估多人跟踪算法的性能，我们采用 MOTChallenge [43 ， 51] 的指标，包括 MOTA ，MOTP，子Visible Body全身头AP. 50ARAP. 50ARAP. 50AR法国[55]SML0.2010.5600.7550.1370.3810.5230.1900.5520.7440.1280.3760.5120.0310.1570.2020.0230.0880.105捷克共和国[9]SML0.2040.5610.7470.1400.3880.5320.2270.5790.7650.1600.3840.5180.0280.1680.2410.0180.0910.116[46]第四十六话SML0.1710.5470.7250.1210.3700.4820.2210.5610.7400.1500.3600.4790.0230.1430.2590.0180.0810.1493274不DMOTA↑MOTP↑IDF1↑远↓MT↑FR25.5376.6721.1420.45762DS [68]CR24.3576.3121.3915.59661RN16.3678.015.164.32259FR25.0674.8121.8525.95826丹麦[63]CR24.2478.5520.1312.42602RN15.5779.9013.433.33227FR13.5178.8214.926.52257MD [50]CR13.5480.2514.894.41255RN10.7780.6211.861.90162表4.多目标跟踪方法在PANDA上的性能。T是跟踪器，D是检测器，DS、DAN和MD分别表示DeepSORT [68]、DAN[63]和MOTDT [50]跟踪器。↑表示越高越好，反之亦然。IDF1、FAR、MT和Hz。多目标跟踪精度（MOTA）计算精度时考虑三个误差源：假阳性、假阴性/漏靶和身份转换。多对象跟踪精度（MOTP）考虑了地面实况和预测边界框之间的未对准。ID F1得分（IDF1）测量正确识别的检测与地面实况和计算检测的平均数量的比率。虚警率（FAR）测量每帧虚警的平均大多数被跟踪的目标（MT）测量至少80%的各自寿命内被跟踪假设覆盖的地面真实轨迹的比率Hz表示算法的处理速度基线追踪器。对三种代表性算法DeepSORT [68]、DAN [63]和MOTDT [50]进行了评估。它们都遵循检测跟踪策略。在我们的实验中，边界框是从上一小节中的3种检测算法[55，9，46]中生成的。为了公平起见，我们在COCO数据集上使用相同的预训练权重和检测阈值得分（0.7）。作者提供的缺省模型参数用于评估三个跟踪器。结果选项卡. 4显示了DeepSORT [68]，MOTDT [50]和DAN [63]对PANDA的结果。处理单帧的时间成本对于DeepSORT、MOTDT和丹，分别。MOTDT根据MOTP和FAR显示更好的边界框对齐。 DAN leads on IDF1 and MT, implying itsstronger capability to estab- lish correspondence betweenthe detected objects in differ- ent frames.实验结果也证明了 PANDA 数据集的挑战性。在 MOT 16 上， Deep-SORT、DAN和MOTDT的最佳MOTA分别为61.4、52.42和52.42。47.6，而在PANDA上下降了一半以上。关于对象检测器，Faster R-CNN表现最好，Cascade R-CNN表现出类似的性能。然而，除了MOTP和FAR之外，RetinaNet的性能相对较差，原因是RetinaNet在图5.目标特性对跟踪器MOTA的影响。我们将行人目标分为3个子集，从容易到困难的每个属性。检测结果的置信阈值为0.7。我们进一步分析了不同的行人属性的影响，包括：（a）跟踪时间，（b）跟踪距离，（c）移动速度，（d）跟踪距离。（d）比例（高度）;（e）比例尺变化（高度的标准偏差）;（f）闭塞。对于每个属性，我们将行人目标从易到难分为3个子集.此外，为了消除检测器的影响，我们使用地面实况边界框作为输入。图5（b）（c）表明，跟踪距离和运动速度是影响跟踪器性能的最重要因素在图5（a）中，跟踪持续时间对跟踪器性能的影响不明显，因为场景中有许多静止或缓慢移动的人。4.3. 群组检测群体检测的目的是从人群中识别人群。与关注全局轨迹的相似性[54]或局部空间结构的稳定性[14]的现有数据集不同，具有联合宽FoV全局信息、高分辨率局部细节和时间活动的PANDA的进步此外，如轨迹嵌入[30，16]、轨迹预测[10，13]和视频识别中的交互建模[36，62，27]，这些任务与组检测任务密切相关。例如，建模组交互可以帮助提高轨迹预测性能[69，10，13]，而学习良好的轨迹嵌入也有利于视频动作识别[66，30，16]。然而，以往的研究还没有研究如何将这些多通道信息整合到群体检测任务中。因此，我们提出了交互感知的组检测任务，其中视频数据和多模态注释（时空人类轨迹，人脸方向和人类交互）作为组检测的输入。32751213151Egl$% l4E/*+g*0Eu（）*+t&i12131415El$）l图6.用于交互感知组检测的全局到局部放大框架全局轨迹、局部交互、放大和边合并模块相关联。不同颜色的顶点和轨迹代表不同的人体实体。线条粗细表示图形中的边权重。（1）全局轨迹：首先将轨迹送入具有dropout层的LSTM编码器，以获得嵌入向量，然后构建一个图，其中边缘权重为嵌入向量之间的L2距离（2）放大：通过重复推断，将dropout激活为随机采样[38]，从样本均值获得E全局和E不确定性，方差分别。（3）局部交互：使用视频交互分类器（3DConvNet [ 32 ]）进一步检查与高不确定性边缘（IBID）对应的局部交互视频。（4）边缘合并和结果：使用标签传播[73]合并边缘，图中剩余的团是组检测结果。框架. 我们进一步设计了一个全局到局部的放大框架，如图所示。6验证局部视觉线索对全局轨迹的增量有效性。更具体地，人实体及其关系分别表示为图G=（V，E）中的顶点和边。利用全局轨迹、人脸方向矢量和局部交互视频等多尺度和多模态特征生成边缘集E全局和E局部。遵循全局到局部策略[52，29，45，12]，首先通过计算每个轨迹嵌入向量的特征空间中的L2距离来获得E 全局，这来自LSTM编码器，如常见实践[30]。之后，采用基于不确定性的[38，39]和然后，估计时空ConvNet [32]。所获得的边缘集合的组合使用标签传播[73]合并Eglobal、Elocal或Eglobal最后，我们可以用性能来估计增量有效性在不同的组合下[14]中指定的度量结果关于网络结构、放大策略和边合并策略的详细信息分别在参考资料S.4.3.1、S.4.3.2和S.4.3.3中，而实验结果在表1中示出。五、半指标[14]包括精确度，召回率和F1，其中组成员IoU=0。5用于评价。通过引入E 局部估计和不确定性估计，算法的性能得到了显著提高，进一步验证了PANDA算法提供的局部视觉线索的有效性.边缘集放大精度召回F1E全球/0.2370.1200.160E全局性随机0.2440.1330.172E全局性不确定0.2930.1600.207表5.增量有效性（半度量[14]）。随机放大策略随机选择几个本地视频来估计交互得分，而基于不确定性的策略根据随机辍学样本的不确定性估计选择本地视频[38]。5. 结论在本文中，我们介绍了一个千兆像素级的视频数据集（PANDA）的大规模，长期和多对象的人类为中心的视觉分析。PANDA中的视频配备了宽FoV和高空间分辨率。提供了丰富和分层的注释。我们对几种最先进的算法进行了基准测试，用于基本的以人为中心的任务，行人检测和跟踪。结果表明，由于人体姿态、尺度、遮挡、运动轨迹等的显著变化以及由于大的图像尺寸和单个帧中的大量对象而导致的效率。此外，我们引入了一个新的任务，称为交互感知的群体检测的基础上的特点，熊猫。我们提出了一个全局到局部的放大框架，它结合了全局搜索和局部交互，产生了有前途的组检测性能。基于PANDA，我们相信社区将开发新的有效和高效的算法来理解大规模真实世界场景中的复杂行为和人群交互3276引用[1] Xavier Alameda-Pineda 、 Jacopo Staiano 、 RamanathanSub- ramanian 、 Ligia Batrinca 、 Elisa Ricci 、 BrunoLepri、Oswald Lanz和Nicu Sebe。Salsa：一种用于多模态群体行为分析的新型数据集。IEEE transactions onpattern analysis and machine intelligence ， 38 （ 8 ）：1707-1720，2015。二、三[2] Mykhaylo Andriluka，Umar Iqbal，Eldar Insafutdinov，Leonid Pishchulin ， Anton Milan ， Juergen Gall ， andBernt Schiele. Posetrack：人体姿态估计和跟踪的基准。在IEEE计算机视觉和模式识别会议论文集，第5167-5176页，2018年。3[3] Inc. 阿奎蒂Aqueti螳螂70阵列相机网页。https://www.aqueti.com/网站。2019年访问。3[4] Loris Bazzani、Marco Cristani、Diego Tosato、MichelaFarenzena 、 Giulia Paggetti、 Gloria Menegaz 和 VittorioMurino。在三维环境中通过视觉关注焦点的社会互动。Expert Systems，30（2）：115二、三[5] 本·本福德和伊恩·里德实时监控视频中的稳定多目标跟踪。在CVPR 2011中，第3457- 3464页。IEEE，2011年。3[6] Scott Blunsden和RB Fisher行为视频数据集：用于多人行为分类的地面真实视频。Annals of the BMVA，4（1-12）：4，2010. 一、二、三[7] David J. Brady，Michael E. Ronald A. Gehm丹尼尔·斯塔克大卫·马克斯达顿？基特尔Golish，Esteban Vera，andSteven D.费勒多尺度千兆像素摄影。Nature，486：386-389，2012。二、三[8] Markus Braun ， Sebastian Krebs ， Fabian Flohr ， andDariu Gavrila. 欧洲人：交通场景中人员检测的新基准IEEE Transactions on Pattern Analysis and MachineIntelligence，2019。3[9] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn：深入研究高质量的目标检测。在IEEE计算机视觉和模式识别会议论文集，第6154-6162页，2018年。一、六、七[10] Rohan Chandra、Uttaran Bhattacharya、Aniket Bera和Di-nesh Manocha。Traphic：使用加权交互在密集和异构流量中进行轨迹预测。在IEEE计算机视觉和模式识别会议上，第8483-8492页，2019年。7[11] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu ， Jiarui Xu ， Zheng Zhang ， Dazhi Cheng ，Chenchen Zhu ， Tian-heng Cheng ， Qijie Zhao ， BuyuLi，Xin Lu，Rui Zhu，Yue Wu，Jifeng Dai，JingdongWang ， Jianping Shi ， Wanli Ouyang ， Chen ChangeLoy，and Dahua Lin.MM检测：打开mmlab检测工具箱和基准测试。arXiv预印本arXiv：1906.07155，2019。6[12] Wuyang Chen ， Ziyu Jiang ， Zhangyang Wang ， KexinCui，and Xinning Qian.协作式全球-本地网络，用于超高分辨率图像的内存高效分割。在IEEE计算机视觉和模式识别会议论文集，第8924-8933页，2019年。8[13] Chiho Choi和Behzad Dariush。学习推断未来轨迹预测的关系。在IEEE计算机视觉和模式识别研讨会会议集，第0-0页，2019年。7[14] Wongun Choi，Yu-Wei Chao，Caroline Pantofaru，andSil-vio Savarese.在图像中发现人群。欧洲计算机视觉会议，第417Springer，2014. 二三五七八[15] Wongun Choi，Khuram Shahid，and Silvio Savarese.他们在干什么？：利用人与人之间的时空关系进行集体活动分类。在2009年IEEE第12届计算机视觉工作室国际会议，ICCV工作室，第1282-1289页。IEEE，2009年。二、三[16] John D Co-Reyes，YuXuan Liu，Abhishek Gupta，Ben-Eysenbach，Pieter Abbeel，and Sergey Levine.自洽轨迹自动编码器：具有轨迹嵌入的分层强化学习。arXiv预印本arXiv：1806.02813，2018。7[17] 知识共享。 Commonsattribution-noncommercial-sharealike 4.0

下载后可阅读完整内容，剩余1页未读，立即下载