没有合适的资源?快使用搜索试试~ 我知道了~
1634MEVID:用于视频人物再识别的Daniel Davila* DaweiDu 布莱恩·刘易斯 克里斯托弗·芬克 约瑟夫·范佩尔罗德里克·柯林斯 凯莉·科罗娜 马特·布朗 斯科特·麦克洛斯基 安东尼·胡格斯关闭NC,USAhttps://github.com/Kitware/MEVID摘要在本文中,我们提出了多视图扩展视频与身份(MEVID)数据集的大规模,视频 个人重新识别(ReID)在野外。据我们所知,MEVID代表了最多样化的视频人物ReID数据集,在73天的窗口中跨越了9个独特日期的广泛的室内和室外环境,各种摄像机视点和实体服装变化。具体地,我们标记了158个穿着598套服装的独特人物的身份,这些服装来自8,092个tracklet,平均长度约为590帧,在来自超大规模MEVA人物活动数据集的33个虽然其他数据集具有更多的独特身份,但MEVID强调关于每个人的更丰富的信息集,例如:4套服装/身份与CCVID中的2套服装/身份,17个地点的33个视点,MTA的5个模拟位置中有6个,1000万帧与300万买LS-VID基于MEVA视频数据集,我们还继承了有意在美国大陆人口统计学上平衡的数据。为了加速注释过程,我们开发了一个半自动注释框架和GUI,该框架和GUI结合了用于对象检测、姿态估计、人ReID和多对象跟踪的最先进的实时模型我们评估了几个国家的最先进的MEVID挑战问题的方法,并全面量化其鲁棒性的变化,装备,规模和背景位置。我们对MEVID的真实性、独特性进行了定量分析,结果表明,视频人ReID仍存在重大挑战,并为未来的研究指明了重要方向。1. 介绍在视频语料库中搜索感兴趣的人在公共安全和保安(机场,*同等贡献图1. MEVID(以绿色突出显示)与先前人员ReID数据集的比较[5,32]。我们的MEVID数据集显著增加了位置、视点、每人服装数量、目标比例以及视频人物ReID的轨迹总数的多样性。体育场、展览会)、零售客户行为分析以及搜索和救援。支持自动人员搜索的任务是基于视频的人员重新识别(ReID)的子任务。真实世界的人ReID由于视点、外观(例如衣服的变化)、人的姿势、照明、遮挡、分辨率、背景和人群密度设置的复杂变化而变得模糊。各种数据集都试图为解决个人ReID问题提供一个强大2. 然而,现有的工作未能捕获在部署在真实世界监控视频上的每个搜索期间预期的上述挑战的全部集合。为了解决这个问题,我们开发了大规模的多视图扩展 视 频 与 身 份 ( MEVID ) 数 据 集 。 如 图 1 所 示 ,MEVID提供了一个广泛而多样的数据集,用于跨各种尺度、位置、视点和每个单独目标的衣服变化的视频人重新识别。我们建立在MEVA数据集的基础上[1],其中包括复杂室内/室外场景中数百小时的视频,以及丰富的活动注释和参与这些活动的个人轨迹这项先前的工作记录了三个176名演员1635在2018年3月和5月的两周内,平均穿着20套不同的服装,表演脚本场景和自发的背景活动。我们通过跟踪这些视频中的个人来创建新的和可扩展的MEVID数据集,以生成人物轨迹,然后在数据收集的几周内将这些轨迹链接到视点、位置、日期和服装。MEVA是在完全符合人类受试者研究(HSR)指南的访问控制设施中收集的,所有参与者都签署了IRB批准的知情同意书; MEVID继承了这种依从性。将全球身份信息添加到已经在MEVA中注释的活动中,有助于开发和评估许多有趣的挑战性问题。这包括所有传统的人ReID问题:图像到图像、图像到视频和视频到视频。此外,我们标记数据集中每个演员的每次服装变化,允许评估服装变化ReID。换衣服场景在人员搜索的实际应用中无处不在,但在文献中仅由少数有限范围的数据集支持,参见第2节进行讨论。简而言之,我们将MEVID分为不重叠的训练集和测试集。训练集(9天内6个日期)包含104个全球身份,485套服装,6338个轨迹子,测试集(5天内3个日期)包含54个全球身份,113套服装,1754个轨迹子。MEVID数据集与其他相关数据集的详细比较见表1。由于MEVID是建立在MEVA活动数据集之上的,因此我们的人员标签与活动标签重叠,并且我们的数据集可以用于识别同一个人完成了多少活动。这将使得能够检测由个体在不同相机视图、大时间跨度和长距离上执行的合成的复杂活动。本文介绍了MEVID的发展及面临的挑战.我们使用MEVID来推进用于基于视频的人ReID的最先进的方法,包括服装变化ReID、尺度变化ReID和位置变化ReID。我们的论文是第一篇评估ReID在野外多个地点、视角、尺度和环境条件下的变化能力的论文在我们的实验中(Sec. 4),我们讨论和分析了10个现有的最先进的视频人ReID方法[2,4-7,20,24,26,29]。最后,总结了相关问题和未来的研究方向.我们希望这种全面的分析将促进视频人ReID在野外的研究。本文的主要贡献如下:• 我们引入了一个视频人ReID数据集,通过注释与从大规模视频集合(MEVA)中提取的tracklets相关的唯一个人身份,• 我们展示了最先进的视频的关键缺点ReID方法在更衣场景、尺度变化和位置变化中的性能。• 我们将完整的注释过程和软件栈作为开源发布,包括用于开发数据集的第一个开源视频ReID注释工具,以促进人员跟踪,搜索和活动识别数据集的进一步开发。2. 相关工作视频人物ReID数据集。我们与MEVID的目标是促进视频人ReID在野外的算法训练和评估文献中存在图像到图像和图像到视频ReID的几个数据集,例如CUHK 01-03 [14]、PRW [34]和CSM [8]。也有纯视频人ReID数据 集 , 包 括 MARS[32] ,iLIDSVID[12] ,LS-VID[11], P-DESTRE[10]和syn.合成MTA [9]。然而,所有这些都缺乏多样性的观点,每个人的衣服变化,规模和背景的变化。最近,Guetal. [5]制作了第一个视频更衣ReID(CCVID)数据集。这项工作隔离服装变化对视频ReID任务的影响,通过将视点、背景和比例固定在相对有限的范围内,同时捕捉多个服装中的演员的视频。虽然这表明了CCVID的现有技术的缺点,但这项工作限制了为位置、因素、视点、室内和室外场景以及查询和图库之间的目标比例的更广泛的多样性条件集开发模型的能力。视 频 人 ReID 方 法 。 与 依 赖 于 静 止 图 像 的 图 像 人ReID[16,17,19,28]不同,视频人ReID的目标是在不同相机上对同一个人的轨迹进行建模和匹配。为了提取噪声轨迹片段的区分表示,当前方法[5,11,13 , 18 , 20 , 24 , 29] 利 用 视 频 人 ReID 的 时 空McLaughlin等人[18]使用一个简单的Siamese网络来提取基于卷积,递归和时间池层的视频特征。为了去除不可避免的离群跟踪帧,Liet al. [13]提出时空注意力模型来发现不同的身体部位。类似地,通过使用技巧袋进行训练,Pathaket al. [20]在基于时间注意力的神经网络上添加Atten- tion和CL loss,以裁剪出噪声帧。为了适应不同长度的tracklets,Liet al. [11]对相邻帧之间的短期时间线索和不连续帧之间的长期关系进行建模。为了处理闭塞,Wanget al. [24]提出了金字塔时空聚合架构,它将帧级特征分层地集成到最终的视频级表示中。在尺度变化方面,Zanget al. [29]提出一个多方向和多尺度的金字塔,1636香港中文大学[27]PRW+[34]火星[32][第12话]LS-VID[11]多伦多大学[9]P-DESTRE[10]十八、一百八十四11816>1个。19M43,800>2个。一百零五,五百一十八八千四百三十二932一千二百六十一300三千七百七十二一千二百六十一300三千七百七十二二千八百四十−−−−−九十九,八百零九三十四,三百零四−−−-2016年120171 >1个。19米66一百四十二,四百六十253−1 >2个。98米1 37岁以上。3米-> 14. 8M20,478600十四万九百四十三二千八百四十一千八百九十四156移动−-2016年-2018年-2019年5202022020数据集#框架#身份#服装#每#BBoxes #tracklets #观点#地点年身份CCVID [五]《中国日报》三四七,八三三226480∼2三四七,八三三二千八百五十六112022MEVID>10。46米158598∼4>1个。7M八千零九十二33172022表1.我们的MEVID数据集(绿色)和当前发布的个人搜索数据集之间的比较,其中+表示图像到图像,而表示合成数据集。-表示此属性没有可用数据。前者用于捕获人们的细粒度部分信息最近,为了处理现实世界中的换衣问题,Gu等人提出了一种新的算法。[5]通过使用基于衣服的对抗性损失开发一种简单的基线方法,该方法从原始RGB图像中挖掘与衣服无关的特征视频人物ReID的注释工具。据我们所知,社区中不存在任何免费和开源的视频ReID注释工具。存在几种工具,如CVAT[22]和LabelMe[21],它们提供了边界框注释、轨迹注释、自动注释引导甚至属性标记方面的基本功能。没有工具直接促进轨道间链接和出现在数据集中的所有唯一人员或对象的全局实体信息的建立。如果没有这种能力,在视频中链接人物的实例是乏味和耗时的。3. MEVID数据集我们在MEVID中的目标是从MEVA数据集[1]中创建一组广泛的个人tracklet,并为每个tracklet注释个人的全局身份。这些身份注释的tracklet使我们能够在野外开发和评估视频人ReID方法,以应对现实世界的挑战,例如更换服装,大规模变化,多个位置等。3.1. 数据收集用于我们MEVID数据集的视频是为MEVA数据集收集的大约9300MEVA包含37种类型的活动轨迹,用于176个演员在144小时的视频中,总计66,172个注释活动。我们将额外的tracklet添加到数据集,并将演员链接到视频视图和服装中,以创建迄今为止最多样化的视频ReID数据集。新的MEVID数据集包含数百小时的视频,超过100名演员穿着多套衣服在一个访问控制的设施与室内和室外场景的9个独特的日期在73天的窗口。值得注意的是,这些照片是从室内和室外的30多个地面摄像机拍摄的,在各种距离,角度和闪电条件下捕捉人们。伦理考量。在独立机构审查委员会(IRB)的严格监督下,收集了本工作所依据的基线MEVA数据集MEVA只包含雇用的演员和同意在视频中收集的人,这些视频是在为收集数据而租用的高度控制的环境中拍摄的。在MEVID数据集中,人的身份或属性最初被授权用于MEVA视频集合。所有被监视的人都是自愿的。这些事件、地点或行动在现实世界中都没有意义,因为整个系列都是上演的收集这些数据是为了在种族和性别认同方面实现数据集与美国大陆的有意人口统计学对齐。3.2. 数据集注释MEVA数据集包含了超过2237套独特的服装,176名演员在两个月的收集窗口中穿了三周。在这项工作之前,该视频数据的一个非常小的子集被标记,并且这些标签纯粹是没有ID信息的小轨道。在数据收集过程中,每个演员都被拍了照片,正面和背面,穿着和不穿着外套。图2显示了数据集中这些签入照片的示例。每张照片都显示演员拿着一张识别他们GPS记录器ID的卡片。我们用全局ID注释MEVA视频数据集的方法是将视频中的人的每个实例与特定的签到照片链接起来,该签到照片本身是对服装ID(例如,裤子和衬衫)和全球身份(例如,Alice或Bob)。我们提出了两个层次的视频ReID问题。第一个是通常研究的相同服装的人ReID的问题,这是跨时间或视点重新关联相同服装的相同人的两个实例第二个是Change-of-Clothing ReID,它的任务是重新关联同一个人的实例1637图2. 演员签入照片(顶行)的示例,用于将MEVID视频(中间行和底行)中的tracklet与全局服装和身份ID相关联。在换了衣服之后,跨越时间或观点。我们还捕捉了许多不同尺度、位置、角度和照明条件下的人的相同服装和变化服装的例子。为了提高标记大规模视频人ReID数据集的效率,我们开发了免费、开源和半自动的MEVID注释框架和GUI。首先,我们从视频数据中提取tracklet,通过运行最先进的对象检测,姿态估计,人ReID和多对象跟踪的实时模型的组合。其次,我们忽略了检测置信度低或规模小的tracklet。第三,我们进行tracklet到签入照片的快速链接,受限于如下所述的约束。跟踪器、所有MEVID视频上的原始跟踪器输出和注释GUI可供未来团队免费使用,以将此级别的地面实况添加到数据集。GUI通过基于Web的界面监控每个视频在整个过程中的进度,从而简化了这些步骤。下面讨论的这些阶段包括tracklet生成、tracklet摄取到GUI中、tracklet清理、tracklet查看以及tracklet链接到nexus芯片,nexus芯片用作每个全局身份的锚,在这种情况下,我们使用MEVA actor签入照片。GUI可以在AWS上轻松配置,从而实现快速的全球协作,并加速跟踪和其他注释支持工作流。在界面中,我们实现了用于边界框和tracklet注释和清理的工具,包括来自数百小时注释时间的许多技巧和功能。3.2.1从视频数据中提取轨迹由于CenterNet 2检测器[35]在拥挤场景中生成的边界框的模糊性,我们使用HR-Net[23]来利用框中的姿势信息作为标准跟踪状态。 然后,FairMOT跟踪器[31]用于计算tracklet。 如图3所示,一种分层的方法来表示头部图3.MEVID tracklet注释的示例我们首先使用头部跟踪点来消除人与人之间的歧义,然后在头部特征不明确时使用全身姿势。质心和全身,这通过减少注释器在验证轨迹片段没有开关和中断时必须考虑的总信号来注意,姿态不被注释过程校正,除非关于姿态指的是哪个人存在歧义,在这种情况下,移动某些关节以便消除该歧义。出于这个原因,MEVID不是姿势跟踪或姿势ReID数据集,而是在注释器的tracklet到签入照片链接期间将姿势用作指南,并且稍后用于模型开发人员,以了解哪个人被分配了特定的全局ID。3.2.2注释过程中忽略的轨迹片段某些轨迹片段将被忽略,以加快以后的注释过程。首先,我们为所有小于人物尺寸阈值的检测分配一个忽略标签,以保持在标注时将ReID tracklet视觉识别到其签入照片所在这项工作中,我们忽略了小于75像素的高度或25像素的宽度的几何推导的检测其次,我们忽略任何重叠超过0的检测。三个IOU,其中一个在集合中。由于跟踪中的当前最先进技术的性质,高密度人群场景导致ID切换,显著延迟了人物轨迹片段的清理,这需要所有轨迹状态中的姿势到框和姿势来明确地指代一个人。在被清理的视频中,我们要求在任何给定帧上只有一个跟踪状态与一个人的单个实例相关联,并且tracklet是干净的,没有开关。3.2.3Tracklet扩展和链接到全局ID在过滤掉所有被忽略的tracklet之后,第二个注释器执行审计,即,将视频轨迹片段提升到链接阶段。我们利用了无数的限制,以促进快速链接的tracklet签入照片。第一个约束是计算任何可用的GPS tracklet(如果可用)与1638∼图4. 链接器用户界面的屏幕截图。在左边,显示了从视频中检测到的主题,然后将其与右边可能的签到照片进行注释者可以选择视频空间tracklets从我们的跟踪器。通过将tracklet投影到世界空间中,我们可以缩小列表范围通过检查哪些GPS跟踪器报告了轨迹片段附近的位置,并将此GPS ID列表与关联的签到照片进行交叉引用,来确定轨迹片段和签到照片之间的潜在匹配,其中每个签到照片都标记有GPSID。然后,给定演员服装出现的具体日期,当我们试图将tracklet与4000多张签到照片中的一张匹配时,我们可以将注释器的搜索空间减少100倍以上对于每个链接的tracklet,注释器将根据为每个轨道状态计算的Bagof Tricks ReID描述符[31]与签入照片之间的距离,呈现一个过滤和排序的潜在签入照片列表。在链接器中,当确定tracklet和签入照片是否代表同一个人时,注 释 者 可 以 选 择 三 个 选 项 之 一 ( Yes 、 No 或 Don'tKnow),如图4所示。 我们将这些决策中的每一个记录在tracklet到签入照片的亲和度矩阵中,该矩阵与上述时空过滤结合使用,以进行匹配空间的图形切割,并减少从tracklet到签入照片的可能比较次数。3.3. 数据集统计数据如图5所示,MEVID分为训练集和测试集。 这套火车,在9天的时间里有6个日期,包含104个全球身份,485套服装,6338个轨迹。这个测试集,在5天的时间里有3个日期,包括54个全球身份,113套服装,1754个轨迹。测试和训练集跨越73天的窗口。每个轨迹片段的帧长度从1到1000不等,平均为592。6帧。就测试集而言,我们选择316个查询tracklet,使得具有特定全局标识和不匹配组合的每个查询在剩余的1,438个图库tracklet中具有正确的匹配。此外,查询和图库由不同的相机捕获。每个身份将在每个摄像头下至少有一个查询。值得注意的是,我们在训练集和测试集之间分割相机视点,这样我们就不会通过在与训练集中存在的相同背景上进行测试来使人的ReID结果产生偏差。同样,我们试图防止训练过度拟合训练集中的演员。出于这个原因,我们还将参与者集分为训练参与者和测试参与者。这是可能的,因为不同的参与者在数据集收集的不同日期出现。有了谁在哪一天出现的信息,我们可以从包含人员的训练演员子图的训练相机视图构建训练集,并从相应的相机视图和演员桶构建测试集。3.4. 与现有数据集的如表1所示,我们提出的数据集在以下关键方面与现有数据集不同。• 3D模型和注册的相机。继承自MEVA[1],我们的数据集包含整个室外场地的3D模型,每个外部摄像机都注册到该模型。这使得站点感知方法能够在单个设施处推理多个摄像机以执行跟踪、学习跨摄像机的典型传输模式(摄像机网络拓扑)等等。这些在任何其他真实世界的ReID数据集中都是独一无二的。• 换衣服。我们寻求在野外推动最先进的视频人ReID,目前仅限于穿着几乎相同服装的不同观点的人的重新关联。这是由于缺乏足够的一对多的人对装备数据集。我们的数据集包含158名演员穿着598种不同的服装,每个演员换19套衣服。这将有助于训练新的视频搜索和ReID方法,这些方法可以推广到匹配相似服装的应用之外。• 不同的地点。我们采集室内和室外场景的视频数据.在我们研究的人ReID数据集中,只有MSMT17[25]包括室内和室外场景。所有端到端的人员搜索数据集都有室内或室外场景之一。相比之下,在MEVID中的17个独特位置中,我们总共有33个不同的相机视点。这些视频收集自各种自然场景,如停车场、公交车站、咖啡馆、学校环境等。另外,构成MEVID的场所经由门道、楼梯间、隧道和走廊在我们发布了所有外部场景的3D模型,允许通过考虑计算的轨迹的时空合理性或整个场景中运动的运动学可行性来进行高阶推理和约束人ReID问题但是,其他数据集必须进行渲染才能具有多个位置1639火车测试图5.MEVID中存在的装备、位置和目标尺度的数据分布如:[9]。方法mAP top-1前5名前10名前20· 目标尺度对人的重要性ReID是对从查询到图库的人的尺度变化我们的数据集在每个目标上呈现了广泛的尺度,最小的大约为75像素,卡尔[5]AGRL[26]BiCnet-TKS[6]TCLNet[7]PSTA[24]27.1%百分之五十二点五48.4%6.3% 19.0%48.1%46.2%百分之六十六点五百分之七十三点七70.6%40.5%60.1% 69.0%60.8% 69.6%百分之八十点七百分之七十七点九百分之五十二点九百分之七十六点三77.8目标高度上最大500像素。这反映了周围观测地点规模的差异,[29]第二十九话STMN[2]联系人-CL[20]13.6% 34.2%11.3% 31.0%18.6% 42.1%55.4% 63.3%54.4% 65.5%56.0% 63.6%70.6%72.5%73.1%数据收集的地点,其中一些是室内的[20]第二十话25.9% 46.5%59.8%百分之七十一点八设置和其他清扫车道AP3D[4]15.9% 39.6%63.3%百分之七十六点三和停车场之间的建筑物的网站。这种尺度变化将使我们能够评估跨尺度ReID的性能,以及目标分辨率的显著差异对特征嵌入的影响在我们的数据集中还存在各种各样的目标形状和长宽比。我们有许多人坐着的轨迹,或者包括腰部以下的轨迹,这在处理芯片序列时提出了独特的挑战。4. 基线性能我们对MEVID进行了全面的实验,以建立性能基线。具体来说,我们将10种最先进的视频人物ReID算法进行了比较,包括AP 3D[4]、 Attn-CL[20]、 Attn-CL + rank[20],[24][25][26][27][28][29][29]我们遵循每张纸的默认设置。请注意,CAL[5]是唯一一个明确补偿服装变化的方法。4.1. 实验方案与MARS方案[32,33]类似,我们使用平均平均精密度(mAP)和累积匹配特征(CMC)指标来评估ReID方法。我们计算了查询和图库音轨之间的相似性分数CMC度量指示在前k个等级(k=1,5,10,20)内找到的真正匹配,并且mAP度量关注所有查询的精确度和召回率。如上所述,MEVID的详细注释元数据允许我们评估算法在各种挑战性因素下的性能,1640∼表2. MEVID上最先进的视频人ReID方法的比较。最高分数以粗体显示。难度:1)换衣服属性表示同一个人的不同服装在测试集中,每人13套。2)位置差异表示轨迹片段是在室内或室外场景中录制的。测试数据包含11个摄像机,分布在不同的地方,包括车道/停车场,公交车站,教室,入口和楼梯间。3)比例变化属性指示轨迹片段中人物的平均大小。根据COCO协议[15],在我们的数据集中发现 了两 个规模 类别 ,中型 ([32 ,96] )和 大型([96,∞])。4.2. 结果分析表2示出了MEVID上的当前视频每个ReID方法的性能。与以前的视频人ReID数据集上的性能相比,即使个体的数量较少,这些al-tax在我们的数据集上的性能也要差得多。其他数据集上的最高mAP得分为88。5%用于MARS [32],92. iLIDSVID为1%[12],69. LS-VID为2%[11],80. 6%P-命运[10]和81。3%为CCNVID [5]。CAL[5] in-在ReID模型上引入了一个服装分类器,解耦与衣服无关的信息,实现27. 1%的mAP和52. 5%的前1名得分。MEVID在衣服、位置和尺度上提供了更真实的变化,使得现有算法更在下文中,我们将详细分析上述方法如何根据每个属性执行。1641∼∼∞方法相同的衣服(%)不同的衣服(%)地图top-1top-5前10前20地图top-1top-5前10前20方法相同位置(%)不同位置(%)地图top-1top-5前10前20地图top-1top-5前10前20AP3D [4]23.242.759.767.779.22.91.87.4 9.5十六、六表3.视频人物ReID方法在服装变化属性方面的比较。最高分数以粗体显示。图6.每人不同数量服装的影响4.2.1换装挑战虽然以前的工作在有限的多样性数据集上取得了良好的结果定义了两个测试设置,以计算单个的准确度:1)所有tracklet具有与查询相同的衣服;以及2)所有tracklet都有来自查询的不同衣服如表3所示,所有现有方法在真实世界的服装变化场景中表现不佳。例如,AGRL[26]和PSTA[24]的最佳准确度为5%,证明了最先进的视频人ReID在复杂场景中的失败。另一方面,视频人ReID方法对于相同服装的经典视频ReID问题表现得更好。然而,结果仍然不令人满意,即, 39岁0%mAP和56. 6%的前1名得分最好,CAL [5]。这是因为数据集中的位置差异和比例变化。服装数量的影响我们探讨了不同服装的前3种方法在不同服装数量方面的性能(1(3)第三章。 如图6所示,可以看出,随着每人服装数量的增加,Intu-然而,更多的服装带来了很大的类内方差,这是ReID问题的核心问题。4.2.2位置差异挑战为了评估改变背景位置对视频人ReID的性能的影响,我们设置了两个测试设置,其具有与在测试相同和变化的衣服ReID时详细描述的相同的实验设置,除了现在我们强制要求查询和图库轨道-let必须具有不同的位置,即,室内/室外场景。表4中的结果表明,对mAP评分的位置没有实质性影响然而,从室内/室外到室外,表4. 视频人物ReID方法在位置差异属性方面的比较。最高分数以粗体显示。图7. 室内/室外场景中特定位置的性能比较。对于每个实验,查询位置是固定的,但图库可以采用数据集中的任何位置。室外/室内场景。这是由于在不同的位置域移位我们注意到AGRL[26]在不同的位置上获得了更好的结果。它采用基于姿态对齐和特征亲和连接的结构感知时空图表示。通过这种方式,相关地域特征之间的语境互动可以帮助区分不同地方的人.具体地点的业绩比较。探索现有方法的性能w.r.t.位置,我们将室内/室外场景分解为7个特定位置。如图7所示,我们可以得出结论,所有算法在室内场景(教室和楼梯间)的ReID性能都远低于室外场景(入口、车道/停车场和公交车站)。这可能是因为室内场景中更多的遮挡在特征学习中带来了噪声。4.2.3规模变化挑战根据SEC中的设置4.1、探讨尺度变化对视频人物ReID的影响从表5中,我们观察到与位置差异属性评估中类似的趋势。具体而言,Attn-CL+rerank[20]和CAL[5]在所有比较方法中表现最好。值得注意的是,Attn-CL+rerank [20]通过使用rerank后处理[3],基于基线Attn-CL方法提高了ReID性能。人员ReID性能w.r.t.更精细的尺度。为了进一步分析 重新 识别tracklet 的 各种 尺度 的性 能, 我 们基 于COCO定义了6个更细的尺度尺度分割[15],即,[32,48),[48,64),[64,96),[96,128),[128,192),[192,)。然后,选择三个最佳执行者进行本消融研究,包括Attn- CL+重新排序[20]、CAL[5]和AGRL [26]。从图8,校准[5]39.056.670.878.185.43.510.6 14.8 19.4卡尔[5]AGRL[26]24.718.142.127.656.642.863.248.872.057.622.222.535.041.149.857.655.264.862.070.1AGRL[26]32.651.464.9 73.6 80.95.74.915.119.0 25.7[6]2016年10月18日二十点五36.5 41.7 51.4 1.7 0.7 4.6 7.8 13.4BiCnet-TKS[6]TCLNet[7]5.120.714.538.825.352.630.660.937.568.84.718.89.433.019.542.424.648.534.355.9TCLNet[7]31.9五十一点七63.5 71.9 79.2 3.9 3.5 8.8 14.1PSTA[24]29.7四十九点零63.972.278.512.319.428.9PSTA[24][29]第二十九话20.012.136.825.054.645.463.553.671.460.516.510.128.619.241.434.049.539.157.649.21642∞CAL[5]24.342.3五十六点三61.371.720.635.250.758.462.4AGRL[26]22.140.357.364.771.017.729.543.649.3 58.4[6]2016年中国国际汽车工业展览会14.726.031.0 39.7 4.610.720.825.5 34.9TCLNet[7]20.740.0五十二点三61.065.017.634.244.350.3 59.4PSTA[24]18.634.351.360.367.016.829.944.351.7 60.1[29]第二十九话23.744.053.360.310.623.5三十七点三分41.6 51.0STMN[2]10.519.2三十三点二39.246.222.342.051.0 58.0附件-CL[20]15.431.350.056.064.314.326.537.646.3 55.7[20]第二十话23.135.754.059.367.721.233.644.050.0 54.4AP3D[4]14.231.0四十七点三53.063.711.424.5三十五点九42.6 52.7表5.尺度变化属性的视频人ReID方法的比较最高分数以粗体显示。图8. 视频人ReID性能w.r.t.更精细的尺度。对于每个实验,查询比例固定为一个范围,但图库可以采用数据集中的任何比例。现有方法对于查询轨迹小程序的大多数尺度类似地执行,除了最大尺度[192,)。我们推测大包围盒中的背景噪声会对识别人产生负面影响,特别是在室内场景中较低的摄像机下。4.3. 讨论虽然在视频人ReID方面取得了很大的进展,但现有的方法在我们的MEVID上仍然不能令人满意。这是因为在不同的服装、地点和规模的组合在下文中,我们讨论了当前研究的几个问题和潜在的研究方向,通过我们的实验分析揭示。换衣服基于我们的数据集,我们可以得出结论,所有国家的最先进的方法都在机架上提取具有不同服装的人的判别嵌入。这是必要的,使用多模态信息,包括姿态,轮廓,步态,面部和3D形状。复杂场景下的多重挑战。当前基于深度学习的视频人物ReID方法在我们的MEVID中容易我们的实验表明,随着查询和图库之间的规模变化,性能也会下降。在显著的位置差异中存在类似的趋势,这迫使每个人的观点多样化(例如,侧视图与由于照相机高度和角度的最低点透视)。视频人物搜索在我们的数据集中,我们对视频人物ReID使用了地面实况tracklet,这在现实生活中是不切实际的。因此,视频人物搜索是需要进一步研究的。一种简单的尝试是将现有技术的多目标跟踪(MOT)方法(例如,FairMOT[31]和ByteMOT[30])和基于视频的个人ReID网络。然而,运行两个sepa并不有效速率子模型。相反,具有MOT和ReID的统一框架可以利用两个模块的联合优化,并通过共享骨干特征来获得高计算效率结合活动识别。为了帮助提高ReID的准确性,我们可以考虑视觉+语言模型,给出tracklet的活动标签。也就是说,全球身份和现有MEVA活动标签的组合[1]将允许未来对活动识别和多人交互进行新的研究。例如,对于人ReID来说,捕获离开车辆、走进建筑物或放下包裹并离开建筑物的人的活动是有益的5. 结论在这项工作中,我们为计算机视觉社区提出了新的具有挑战性的MEVID数据集。以前的数据集使我们能够推动最先进的视频人ReID,但缺乏足够的多样性来模拟现实世界的条件。我们的MEVID证明了最先进的视频人员ReID在处理更接近真实世界的情况时的重大失败,在真实世界的情况下,演员可能会在不同的服装和位置,从不同的视角和不同的尺度被捕获。据我们所知,它是迄今为止最多样化的ReID数据集,这些因素几乎影响了人员跟踪,ReID和搜索的所有方面。我们希望该数据集可以促进现实生活中的人搜索的研究和开发。此外,我们还发布了所有源视频和注释工具,用于扩展此数据集。值得注意的是,通过扩展MEVA数据集而不损害个人识别信息,MEVID继承了MEVA鸣 谢 。 这 项 研 究 是 基 于 国 家 情 报 总 监 办 公 室(ODNI),情报高级研究项目活动(IARPA)通过[2017-16110300001和2022-21102100003]支持的部分工作。本文所包含的观点和结论是作者的观点和结论,不应被解释为必然代表ODNI、IARPA或美国的官方政策(无论是明示还是暗示)。政府的美国政府被授权为政府目的重新制作和分发重印本,尽管其中有任何版权注释。本材料是根据美国空军根据第2000号合同支持的工作编写的。FA8650-19- C-6036。本材料中表达的任何观点、发现和结论或建议均为作者的观点,不一定反映美国空军的观点方法相同比例(%)不同比例(%)地图top-1top-5前10前20地图top-1top-5前10前201643引用[1] 凯莉·科罗娜,凯蒂·奥斯特达尔,罗德里克·柯林斯,安东尼·胡格斯. MEVA:用于活动检测的大规模多视图多模式视频数据集。在WACV,2021年。[2] Chanho Eom,Geon Lee,Junghyup Lee,and BumsubHam.利用空间和时间记忆网络进行基于视频的人物再识别在ICCV中,第12016-12025、2021页[3] Yang Fu,Xiaoyang Wang,Yunchao Wei,and ThomasS.煌STA:大规模基于视频的人再识别的时空注意力。在AAAI,第8287- 8294页[4] Xinqian Gu , Hong Chang , Bingpeng Ma , HongkaiZhang,and Xilin Chen.用于基于视频的人再识别的保留外观的3d卷积。在ECCV,第12347卷,第228-243页[5] Xinqian Gul , Hong Chang , Bingpeng Ma , ShutaoBail,and Xilin Chen.仅以rgb模式重新识别换衣人。在CVPR,2022年。[6] 侯瑞兵,常洪,马冰鹏,黄锐,石光山。Bicnet-tks:学习有效的时空表示,用于视频人员重新识别。在CVPR中,第2014-2023、2021页[7] 侯瑞兵、常红、马冰鹏、Shiguang Shan和Xilin Chen。基于时间互补学习的视频人物再识别。在ECCV,第12370卷,第388[8] 黄庆秋,刘文涛,林大华。通过视觉和时间链接在具有一个肖像的视频在ECCV,第11217卷,第437-454页[9] 菲利普·科尔,安德烈亚斯·斯派克,阿恩·舒曼,尤尔根·贝耶勒。MTA数据集的多目标多摄像机行人跟踪加权距离聚合。在CVPRW,第4489-4498页[10] S. 诉Aruna Kumar,Ehsan Yaghoubi,Abhijit Das,B.S.哈瑞什,还有雨果·普朗。P-DESTRE:一个完全注释的数据集,用于行人检测,跟踪和航空设备的短期/长期重新识别。TIFS,16:1696[11] 李佳宁,张世良,王敬东,高文,齐天。用于视频个人重新识别的全局-局部时间表示在ICCV,第3957-3966页[12] Minxian Li,Xiatian Zhu,and Shaogang Gong.通过深度学习轨迹关联的无监督人员重新识别在ECCV,第11208卷,第772-788页[13] Shuang Li ,Slawomir Bak ,Peter Carr,and XiaogangWang.基于视频的人再识别的多样性正则化时空注意。在CVPR,第369-378页[14] Wei Li , Rui Zhao ,Tong Xiao ,and Xiaogang Wang.Deep- reid:深度过滤配对神经网络,用于人物重新识别。在CVPR中,第152-159页[15] 作者:Michael Maire,Serge J. Belongie,James Hays,PietroPerona,Dev aRamanan,PiotrDol la'r,andC.劳伦斯·齐尼克。Microsoft COCO:在上下文中常见的对象。在ECCV,第8693卷,第740-755页[16] Hao Luo,Youzhi G
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功