没有合适的资源?快使用搜索试试~ 我知道了~
文件标题:前向传播、反向回归和姿势关联:野外手部跟踪
Mingzhen Huang1,2, Supreeth Narasimhaswamy1, Saif Vazir1,3, Haibin Ling1, Minh Hoai1,41Stony Brook University, 2University at Buffalo, 3Tulip Interfaces, 4VinAI Research0.80.20.30.1(i) Current multi-object tracker(ii) Our proposed Handler0.90.20.3t-1tt0.90.30.81.00.10.60.80.20.3PoseAssociationOccludedhandsAssociation0.10.2misseddetectedProposals and objectness scores0.80.1Dropped detection 0.1Tracking offsets0.2Flow maps0.90.8Detected hands andconfidence scores64060前向传播、反向回归和姿势关联:野外手部跟踪0摘要0我们提出了HandLer,一种新颖的卷积架构,可以在无约束的视频中在线联合检测和跟踪手部。HandLer基于Cascade-RCNN,并添加了三个新的阶段。第一阶段是前向传播,根据先前检测到的手部和其估计的运动,将特征从帧t-1传播到帧t。第二阶段是检测和反向回归,利用前向传播的输出在帧t中检测手部及其在帧t-1中的相对偏移。第三阶段使用现成的人体姿势方法来连接任何碎片化的手部轨迹。我们将前向传播、反向回归和检测阶段与其他Cascade-RCNN组件一起进行端到端的训练。为了训练和评估HandLer,我们还贡献了YouTube-Hand,这是第一个具有手部位置和轨迹注释的大规模无约束视频数据集。对该数据集和其他基准进行的实验证明,HandLer在跟踪算法方面的性能优于现有的最先进算法。代码和数据可在https://vision.cs.stonybrook.edu/˜mingzhen/handler/上获取。01. 引言0手部跟踪是各种应用场景中的重要问题,从手势和活动识别到接触追踪和技能评估。一种跟踪手部的方法是将其视为人体的一部分,然后根据跟踪的人体姿势进行手部跟踪。但是,姿势检测和跟踪本身可能不可靠,特别是对于部分遮挡或超出相机视野的人。另一种手部跟踪方法是使用现成的跟踪方法。不幸的是,单个目标跟踪器不适用于跟踪多个手部,而现有的多目标跟踪器虽然在跟踪行人和车辆方面表现出色,但对于手部的跟踪效果不佳。手部跟踪很困难,因为手部不是普通的物体,考虑到手部的极端关节运动和与其他物体的频繁交互。0图1。我们为跟踪多个手部开发了一种先进的检测和关联算法。与先前仅基于当前帧的目标性得分估计检测到的手部的概率的方法不同,我们基于帧t和t-1的目标性得分来估计概率,并通过姿态和跟踪偏移在帧之间关联手部。0手部的关节运动和与其他物体的频繁交互使手部跟踪变得困难。在短短几帧的时间内,手部的大小、形状、位置和可见性可能会发生剧烈而频繁的变化。许多现有的多目标跟踪器使用检测和关联的范式。然而,手部检测在存在运动模糊和遮挡的情况下会失败,而跨时间的手部关联则困难重重,因为手部的大小、位置、姿态和外观可能会发生 drastical的变化。同时,两个不同的手部实例可能看起来相似,因此即使对于专门针对手部进行训练的复杂重新识别模块来说,区分它们也是困难的。0在这项工作中,我们开发了一种新颖的卷积架构,可以在无约束的视频中检测和跟踪手部。我们将这种提议的架构命名为HandLer,代表HandLinker。HandLer以时间t-1和t的两个连续视频帧作为输入,并输出帧t中检测到的手部以及它们在帧t-1中的相应位置。处理流程包括三个阶段。第一阶段是前向传播,根据先前检测到的手部的位置和其估计的运动,将特征从帧t-1传播到帧t。第二阶段是检测和64070图2.我们数据集中的代表性图像序列。手的大小、形状、位置、外观和可见性都可能发生剧烈而频繁的变化。0反向回归使用前向传播的输出来获取帧t的手部位置以及其在帧t-1中的对应位置,并根据帧t和t-1的对象得分估计它们的置信度,如图1所示。这使我们能够在两个帧之间连接手部检测。第三,我们通过姿势关联建立手部轨迹之间的对应关系。这是为了利用手是人体不可分割部分的事实,从而可以使用姿势来恢复过早终止的手部轨迹。0所提出的处理流程的每个阶段都有其优势。传播步骤和条件置信度估计步骤对于检测模糊和遮挡的手部很有用。检测步骤是为了处理视频中的新手部,并避免仅基于传播的方法中常见的漂移问题。回归步骤将两个不同时刻的检测结果引入到一个公共参考帧中,以获得更可靠的链接。高级姿势关联步骤避免了由于运动模糊和遮挡导致的频繁ID切换。0我们还引入了一个名为YouTube-Hand的新数据集,用于开发和评估手部跟踪算法。YouTube-Hand包含来自不同场景类别的240个视频序列,包括厨房、机械车间和健身房。该数据集有19,728个带有864个唯一手部实例的标注帧。据我们所知,这是第一个包含用于无约束环境的视频和每个视频的多个手部轨迹的大规模手部跟踪数据集。图2显示了我们数据集中的一些代表性图像。我们将发布这个数据集和用于研究的代码。02. 相关工作0以往的研究主要集中在静态图像中的手部检测上[6, 8, 9,13-15, 22, 26-28, 32, 37, 38, 40, 52,55],而手部跟踪的研究则主要针对实验室环境和自我中心视角等受限设置进行。Sridhar等人提出了一种使用深度相机跟踪手部的方法[42]。Zhang等人提出了一种手部跟踪解决方案,通过单个RGB相机预测人类的手部骨架,用于增强现实/虚拟现实应用[60]。Wang和Popovi´c使用单个相机跟踪带有印记图案的手套[46]。Sharp等人基于单个深度相机提供了一种手部跟踪和姿势估计系统[39]。Mueller等人使用运动学3D手部模型开发了一种用于单目RGB视频的3D手部跟踪方法[24]。Sridhar等人提出了一种在RGB-D视频中跟踪操纵物体的手部的方法[43]。然而,这些方法都不适用于野外视频,它们需要特殊的标记、深度信息、自我中心视角或纯色背景场景。手是物体,我们可以考虑多目标跟踪(MOT)方法。一种常见的MOT方法是通过检测进行跟踪,其中对象检测器首先定位对象,然后关联方法构建轨迹。根据关联方法的不同,我们可以将MOT方法分为离线跟踪或在线跟踪。对于给定的当前帧t,离线方法[35, 56,57]可以使用未来的帧,并将关联问题作为全局优化方法。与此同时,大多数在线方法[33, 54, 58,63]仅限于使用到帧t为止的帧。将不同帧上的检测关联起来的一种典型方法是匈牙利算法[25],其亲和成本基于重叠准则进行定义。Bewley等人提出了使用卡尔曼滤波器预测边界框移动,并使用匈牙利算法将这些边界框链接成轨迹的方法[4]。然而,由于手部经常快速移动、相互交互和交叉,这种方法在无约束视频中效果不佳。此外,首先检测手部然后关联它们的两步方法可能导致次优结果,因为这两个步骤没有进行端到端的联合优化。已经有一些方法来减轻两步检测-跟踪范式的缺点。Bergmann等人开发了一个框架,使用当前帧中的对象位置直接回归它们在下一帧中的位置[2]。然而,该方法仅使用当前帧的对象位置作为下一帧的区域建议。这种方法在跟踪手部时效果不佳,因为手部位置在帧之间发生剧烈变化。Zhou等人提出了一种基于点的联合检测和跟踪框架,通过一个点来表示每个对象,并跟踪这些点[62]。该方法输出从当前对象中心到其中心的偏移向量。64080在之前的帧中进行跟踪。然而,仅使用点表示对于高度可变形的手部来说效果不好。有一些方法可以同时处理多个帧。Feichtenhofer等人[10]引入了相关特征,表示对象在时间上的共现性,以生成两帧的轨迹片段。然而,当对象经历严重遮挡时,这种方法效果不好,而手部经常出现这种情况。Peng等人[30]通过添加基于外观的身份注意力并提出了一种在线方法来链接两帧的轨迹片段,扩展了[10]。Wu等人[51]提出在每个像素中生成重新识别嵌入,并从该嵌入中估计对象的运动偏移量。这个偏移量可以用来传播特征和关联对象。然而,这些算法都是基于外观的,对于手部来说效果不好,因为手的外观随时间的变化可能会发生剧变,不同的手实例可能具有相似的外观。我们的方法不使用相关特征或基于外观的方法,而是直接估计当前帧中手的相对偏移量,给定当前帧中手的位置和前一帧中的手的位置。正如我们的实验所示,这使得我们的手部跟踪系统对于遮挡或运动模糊更加鲁棒,并减少了与其他手实例的身份切换。03. 提出的方法0在本节中,我们描述了一种用于在线跟踪多个手部的新方法。我们在图3中说明了所提出的架构。我们方法的核心是一个卷积网络,每次处理一对连续的帧。在时间t,网络的输入是时间t-1和t的一对视频帧,网络的输出是帧t中检测到的手的位置和置信度分数,以及它们在帧t-1中的对应位置和置信度分数。我们使用时间t-1中的手的估计位置与现有手部轨迹建立关联,假设我们已经跟踪了视频中的手直到时间t-1。具体而言,给定时间t-1和t的两帧It-1和It,我们使用一个骨干网络获得它们的特征Xt-1,Xt∈Rh×w×d。这里,h×w表示空间尺寸,d表示通道数。我们还使用一个现成的姿势跟踪器[29]获得对应于15个人体关节的姿势热图Pt-1,Pt∈Rh×w×15。令Ht-1∈Rh×w表示在帧It-1中检测到的手的热图。我们将特征Xt-1和Xt,姿势热图Pt-1和Pt,以及手热图Ht-1传递给前向传播阶段。03.1. 前向传播0给定特征Xt-1和Xt,姿势热图Pt-1和Pt,以及手热图Ht-1,前向传播阶段0估计一个流动图Ft∈Rh×w×2,并使用该流动图来获得时间聚合特征Zt∈Rh×w×d。0流动估计。为了估计流动图Ft,我们提出使用流动估计网络[12]。该网络的输入是多尺度特征Xt-1和Xt,输出是2通道的流动图Ft∈Rh×w×2,表示帧It-1和It之间的运动。Ft中的两个通道对应于水平和垂直方向的流动。我们将这个流动估计网络与网络的其他组件一起进行端到端的训练。给定在t-1和t帧中具有相同ID的一对手,我们获得两个二进制掩码Mt-1,Mt∈Rh×w,分别对应于两帧。这些掩码是帧t-1和t中手的地面真实二进制分割图。然后,我们使用[65]提出的双线性变形函数W来估计帧t中手的二进制分割图Mt':Mt' =W(Mt-1,Ft)。然后,我们定义手部运动的损失为估计的Mt'和地面真实Mt之间的均方误差损失:Lhmo := MSE(Mt',Mt)。类似地,我们还使用姿势热图对(Pt-1,Pt)定义姿势运动的损失。我们首先在时间t获得一个估计的姿势:Pt' = W(Pt-1,Ft)。然后,我们定义姿势运动的损失为估计的Pt'和地面真实Pt之间的均方误差损失:Lpmo := MSE(Pt', Pt)。0时间特征聚合。从流估计网络中输出的 F t 用于将时间 t-1的特征聚合到时间 t 的特征中。具体而言,我们将特征 X t− 1 传播到特征 X t ,得到 Z t :0Z t = [1+ W ( H t − 1 , F t )] ⊙ X t + W ( H t − 1 ⊙ X t− 1 , F t ) (1) 在上述方程中, ⊙ 是Hadamard乘积, F t是从帧 t-1 到帧 t 的估计光流图, W 是双线性变换函数。03.2. 手部检测和向后回归0我们架构的第二个重要组件是手部检测和向后回归模块。该模块的输入是传播的特征图 Z t 和估计的光流图 F t。首先,我们使用CenterNet[61]在每个像素处获取一组密集的手部提议。其次,对于每个提议,我们计算:(1)帧 t上手部的边界框,(2)该边界框是手的概率,(3)帧 t-1上该手部的相对偏移边界框,以及(4)检测到的边界框和偏移边界框属于同一手部身份的置信度。0基于跟踪的检测。我们观察到,对于一些模糊和遮挡的手部,即使这些手部在之前的帧中清晰可见,我们的模型也会产生相对较低的置信度分数。置信度分数较低的检测可能会被丢弃,导致假阴性。为了解决这个问题,我们将帧 t上的检测概率条件化于物体性质和前一帧的检测结果上。{pt}O}Temporal AggregationjP(Ctk|Ct−1j)P(Ct−1j).(3)P(Ctk)P(Ct−1j),(4)64090F0前向0传播0X t-10t0t-10Z t0{p t0检测0H t-10H t0X t0共享权重的DLA0共享权重的DLA0X0t-10t0偏移0向后0回归0图3. HandLer的处理流程。给定时间 t-1 和时间 t 的输入视频帧,我们首先提取它们的DLA特征 X t − 1 和 X t 。我们从帧 t-1 到帧 t估计光流图 O ,并从CenterNet [61]中获取帧 t 上的热图 H t 。我们按照公式(1)中的描述,与热图 H t − 1 一起聚合特征,得到特征图 Zt 。然后,我们从 Z t 中提取RoI特征,在帧 t 上检测手部,并在帧 t-1 中使用向后回归估计它们的相应偏移和概率。0在帧 t 和 t-1 上的得分(如图1所示)。考虑时间 t 和位置 k上的一个提议 C t k 及其对应的锚框检测 D k ,我们使用 P( D k ) = P ( D k = hand ) 表示 D k 是手的概率,使用 P (C t k ) = P ( C t k = object ) 表示提议 C t k的物体概率。检测的可能性被定义为:P ( D k ) = P ( D k |C t k ) P ( C t k ) (2)0= P ( D k | C tk )0我们进一步假设,如果从 j 到 k 没有运动,则 P ( C t k | C t− 1 j ) = 0 ,否则 P ( C t k | C t − 1 j ) = P ( C t k )。因此,检测的可能性变为:0P ( D k ) = P ( D k | C tk ) �0其中,F t k 表示光流图 F t 中指向 k的运动矢量的像素位置集合。03.3. 手部跟踪的延续和初始化0我们现在描述如何将新检测到的手部与现有的手部跟踪关联或用于初始化新的手部跟踪。考虑通过运行检测模块并将t-1 和 t 两帧作为输入得到的特定检测到的手部 D 。帧 t上的检测 D t 由四元组表示:D t = ( B t , p t , B O t , p Ot ) ,其中 B t 是帧 t 上的手部位置,B O t 是其在帧 t-1上的相应偏移位置,p t 是相应的检测置信度,p O t 是 B t和 B O t 属于同一手部身份的置信度。注意,我们仅保留 pt 大于检测阈值 θ det的检测结果。然后,我们使用匈牙利算法 [25]将检测 D i t与现有的手部跟踪集合匹配。这是一个联合优化过程,确定最佳的一对一对应关系。如果 D i t与现有的手部跟踪匹配,我们0我们将使用它来继续跟踪。否则,如果检测得分p高于阈值θnew,我们将为Bi初始化一个新的手部跟踪,否则将丢弃此检测。注意,θnew应该高于θdet,以避免传播误报。在我们的实验中,我们设置θdet = 0.6,θnew =0.9。匈牙利匹配过程如下进行。此过程的输入是:(1)一组检测到的手,由帧t中的一组边界框{Dt}表示,和(2)一组活动手部跟踪,由跟踪的最后一组边界框{Tt-1}表示。注意,Tt-1的最后一个边界框可能不在帧t-1上。遵循先前的MOT方法,如果某个手部跟踪与任何新检测不匹配超过σ帧,则将其从活动手部跟踪集合中移除。给定两组边界框{BO}和{Tt-1},我们得到一个相似度矩阵M,其中Mij =(α +pOt)IoU(BOit,Tjt-1),并使用匈牙利算法找到最佳的一对一对应关系,以最大化相似度的总和。在我们的实验中,我们设置α = 0.1和σ = 50。03.4. 姿态关联0由于手是人体不可分离的部分,我们建议使用跟踪结果来指导我们的手部运动估计和跟踪模型。具体而言,我们考虑到最先进的开源姿态跟踪算法LightTrack[29],观察到它的召回率比我们的手部跟踪器低,但大多数检测到的姿态通常是准确的。因此,我们建议使用LightTrack[29]来帮助估计运动流(在第3.1节中描述)并将新检测到的手与现有的手部跟踪关联起来。此外,回想一下,新检测到的手由四元组D=(B,p,BO,pO)表示。在大多数情况下,这个检测将用于继续手部跟踪,如第3.3节所述。在某些情况下,如果p很低,我们将丢弃D,并且如果pO很低或者没有与BO匹配的手部跟踪,我们将创建一个新的跟踪。但是这些操作可能会导致64100假阴性或假身份切换,因此我们建议采用以下姿态跟踪方法来解决这些问题。首先,给定一组检测到的手和一组检测到的姿态的手腕位置,我们运行匈牙利算法找到最佳匹配,其中手和手腕的匹配成本基于它们之间的距离。其次,我们丢弃具有低p值且没有匹配手腕的检测。第三,我们使用第3.3节中描述的过程将一些检测到的手与现有的手部跟踪关联起来。对于一个未与任何手部跟踪关联的检测到的手D,如果:(1)D与帧t中的姿态Pt的右/左手腕关联;(2)T与帧t-1中的姿态Pt-1的右/左手腕关联;并且(3a)Pt和Pt-1通过姿态跟踪关联,或者(3b)Pt的左/右手腕与另一个与手部跟踪T'关联的手D'关联,而T'又与Pt-1的左/右手腕关联。03.5. 损失函数0为了训练这个手部检测和回归模块,我们优化了组合损失函数:L = Lhmo + Lpmo + LRP N + Lclass + Lreg +LOclass + LOreg。这里,LRPN是区域建议网络的损失,Lhmo和Lpmo是流图损失,其他项用于边界框的分类或偏移回归。04. YouTube-Hand数据集0我们的目标是开发一种能够在不受限制的场景中跟踪手部的跟踪器,这些场景可能包含许多相互交互的人和其他周围物体。为了训练和评估,我们需要一个包含多种条件的数据集,但这样的数据集并不存在。因此,我们编制了一个包含不受限制的视频并用手部位置和轨迹进行注释的新数据集。0数据集来源。我们将我们的数据集命名为YouTube-Hand,因为其中大部分视频(240个中的200个)是从YouTube收集的。具体来说,我们从10个场景中爬取了200个视频,包括赌场、音乐会、烹饪、跳舞、驾驶、健身房、孩子玩耍、机械车间、消毒和运动。为了获得多样化的数据集,我们从不同的YouTube上传者那里收集了不同的视频。我们手动验证了收集到的视频,以确保它们在光照条件、摄像机视角、肤色和年龄方面是无约束且多样化的。我们没有收集带有版权标记的视频。总共,我们从YouTube下载了200个视频,每个场景20个视频。此外,我们从PoseTracks数据集中选择了40个视频并进行了标注。这些视频的空间分辨率从640×480到1920×1080,帧率从24到30帧每秒。0标注。对于每个收集到的视频,我们使用视频的原始帧率提取帧并进行标注。0数据来源划分 训练/测试划分0总计 YouTube PoseTrack 训练 测试0#视频 240 200 40 150 90 #帧数 232K 227K 5K 166K 65K#手部标注 60K 41K 19K 30K 30K #轨迹数目 864 666 198519 3450表1. 提出的YouTube-Hand数据集的统计数据。0场景/摄像机 有#手 最大数据集约束 视频轨迹数目/视频数目0EgoHands [ 1 ] Google眼镜 0 不适用 Handseg [ 20 ] 彩色手套 0不适用 NYUHands [ 45 ] 手关键点 0 不适用 ColorHandPose [ 64 ]3D手关键点 0 不适用 HandNet [ 48 ] 指尖 0 不适用GANeratedHands [ 24 ] 合成 0 不适用 Oxford-Hand [ 22 ] 无约束 0不适用 TV-Hand [ 26 ] 无约束 0 不适用 COCO-Hand [ 26 ] 无约束 0不适用 Contact-Hand [ 27 ] 无约束 0 不适用 100DOH [ 38 ] 无约束 �0 不适用 GTEA [ 16 ] 自我中心 � 0 不适用 WorkingHands [ 40 ]向下摄像头 � 0 不适用 BSL [ 31 ] 电视节目,分割 � 2 2 SynthHands [23 ] 自我中心 � 1 1 ICP-PSO [ 34 ] 手关键点 � 6 1 EpicKitchen [ 7 ]自我中心,自动标注 � 1400 2 VIVA [ 36 ] 车载 � 45 4 YouTube-Hand无约束 � 864 150表2. 将YouTube-Hand与其他手部数据集进行比较。0图4.现有的手部数据集与我们的数据集非常不同。这显示了来自以下数据集的一些代表性图像:VIVA [ 36 ](左上角)、EpicKitchen [ 7](右上角)、BSL [ 31 ](左下角)和SynthHands [ 23 ](右下角)。0每15帧标注一次。我们只标注了那些可见区域的轴对齐边界框像素数超过100且轨迹出现超过50帧的手部实例。我们的数据集由三名标注员进行标注,然后由两人进行验证。0训练/测试划分。我们将数据划分为不相交的训练集和测试集。训练集包含150个视频,随机选择自200个YouTube视频中。剩下的90个视频用于测试。0统计数据和与其他手部数据集的比较。表1显示了我们数据集的统计数据。表2将我们的数据集与其他现有的手部数据集进行了比较;其中大部分数据集64110仅用于手部检测,要么没有视频数据,要么没有手部轨迹。一些数据集包含手部轨迹,但它们只有约束的摄像机设置下的视频,例如自我中心或车载摄像头。图4显示了这些数据集中的一些图像,它们比我们的数据集更受限制,如图2所示。05. 实验0在本节中,我们将我们的方法与各种通用目标跟踪方法和手部跟踪算法进行比较。我们还进行了消融研究,报告了定性结果,并讨论了失败案例。05.1. 实施细节和评估指标0架构细节。我们使用Detectron2 [ 53]实现了HandLer。具体来说,我们基于一个带有DLA-34 [11 ]骨干网络和双向特征金字塔网络(Bi-FPN)[ 44]的级联RCNN进行构建。该网络可以端到端地进行训练,推理速度为5Hz。0训练细节。HandLer的核心是一个网络,它以两个帧作为输入,并输出这些帧之间的链接检测结果。网络的输入不一定是训练或测试时的连续帧对。为了处理各种视频帧率和手部运动,包括低帧率视频和快速移动的手部,我们实际上对训练视频帧(t',t)进行了采样,其中t和t'之间的距离是可变的。具体而言,对于每个t,我们使用t' = t - 15k,其中1 ≤k ≤5,因为训练视频是每15帧进行注释的。我们使用来自TV-Hand [26]和COCO-Hand[26]数据集的静态图像对HandLer进行了预训练,使用相同的静态图像作为t-1和t两个帧,以利用更大的手部注释数据集。随后,我们在提出的YouTube-Hand数据集上对网络进行了微调。对于微调,我们使用SGD优化了12K次迭代的训练损失,初始学习率为0.0005,批量大小为48。在8K次迭代后,我们将学习率降低了10倍。0评估指标。我们使用标准的多目标跟踪评估指标[3, 18,21]:身份识别F1分数(IDF1),大部分被跟踪的轨迹百分比(MT),大部分丢失的轨迹百分比(ML),假阳性(FP),假阴性(FN),身份切换(IDs),多目标跟踪精度(MOTP),多目标跟踪准确度(MOTA)和高阶跟踪准确度(HOTA)。在这些评估指标中,MOTA被认为是量化整体检测和跟踪性能的最重要指标。MOTA的定义如下:MOTA:= 1 -0t GT t ,其中 FN t ,FP t ,IDs t 和 GT t分别表示假阴性、假阳性、身份切换和真实手的数量0身份切换和真实手的数量,分别表示帧t的假阴性、假阳性和真实手的数量。我们发现,常用的MOT指标都不能衡量恢复能力;它们不能量化跟踪器通过重新连接新的手部轨迹和过早终止的轨迹来纠正错误身份切换的能力。特别是,虽然身份切换(IDs)指标衡量了地面真实轨迹的碎片化程度,但它对任何身份切换都应用相同的惩罚,无论跟踪器是切换到一个新的错误身份还是一个旧的正确身份。例如,轨迹ID序列(a→b→c)和(a→b→a)在当前指标下具有相同的性能,但后者更可取。因此,我们引入了一个称为最长轨迹比(LTR)的新指标。对于一个特定的地面真实轨迹,它与具有不同ID的多个预测轨迹匹配,LTR定义为最长预测轨迹的长度与整个轨迹长度的比值。我们将测试集上所有轨迹的平均LTR作为新的性能指标。05.2. 主要结果0表3比较了我们的手部跟踪器与其他最先进的MOT跟踪方法的性能。TraDes、CenterTrack和FairMOT是端到端可训练的MOT方法,它们被训练用于联合检测和跟踪手部,但在手部上的表现相对较差,可能是因为它们更适用于不太可变形和关节类别,如行人和车辆。我们还实现了几种基于检测的跟踪方法,其中检测结果由HandCNN[26]提供,它是最先进的手部检测方法。LightTrack使用姿态轨迹将手部连接起来。我们首先使用LightTrack检测和跟踪人体关节,然后根据预测的腕关键点与检测到的手部边界框中心之间的距离将HandCNN检测到的手部与人关联起来。CenterTrack*是一种方法,其中CenterTrack的检测组件被HandCNN替换。MPNTrack是一种离线跟踪方法,其中使用消息传递网络(MPN)进行HandCNN检测关联。对于所有方法,我们首先使用TV-Hand和COCO-Hand数据集的静态图像进行预训练,以提高手部检测性能,然后使用YouTube-Hand的训练集对其进行微调。根据这些指标,HandLer在各方面都优于其他方法。图5显示了HandLer的一些代表性结果和失败案例。05.3.消融研究0我们现在展示了我们的实验,以研究所提出架构的不同组件的有效性。0HandLer的有效性。为了研究各个组件的重要性64120方法 IDF1 ↑ MT ↑ ML ↓ FP ↓ FN ↓ IDs ↓ MOTP ↑ MOTA ↑ LTR ↑ HOTA ↑0LightTrack [29](姿势)53.4 101 70 6240 12816 1955 74.5 30.8 48.4 48.5 FairMot [59] 41.4 96 57 206512753 3448 76.8 39.9 31.3 39.0 MPNTrack [5](离线)49.0 156 66 5918 11263 1039 77.0 40.0 44.3 40.7CenterTrack[62] 37.2 113 62 2279 12379 3362 76.5 40.7 27.3 39.0 CenterTrack*[62] 57.8 137 43 3208 103171647 79.0 50.0 37.5 49.10SORT [4] 48.3 101 72 2295 12960 1475 76.7 44.9 47.6 46.1 TraDeS [51] 53.6 168 43 3271 9102 1982 76.452.7 44.4 46.40HandLer(提出的方法)70.9 218 23 2412 5986 712 79.9 70.0 64.3 59.40表3. YouTube-Hand测试集上的手部跟踪性能。以MOTA为指标,HandLer在性能上远远超过其他方法。在每一列中,最佳结果以粗体突出显示,第二佳结果以下划线表示。0(a)HandLer的跟踪结果。这显示了两帧之间的手部跟踪结果。属于同一轨迹的手部使用相同的颜色进行可视化。0(b)手部检测和后向回归结果。左图和右图对应于帧t-1和t。帧t中检测到的手部及其在帧t-1中通过后向回归获得的相应位置以洋红色显示。帧t-1中检测到的手部以蓝色和绿色进行可视化。0(c)HandCNN和HandLer的比较。HandCNN无法检测模糊和遮挡的手。由于我们的时序特征聚合和基于跟踪的检测,HandLer可以检测到这些手。0(d)HandLer的失败案例。左图显示了由于严重遮挡而未检测到手部的情况,第二张图显示了将其他皮肤区域误认为手部的情况。0图5. YouTube-Hand数据集上的定性结果。0为了研究手部跟踪的前向传播,我们训练了一个没有前向传播的模型。同样地,我们训练了一个没有对帧t-1进行后向回归的模型。在这种情况下,我们使用匈牙利算法将帧t中的手部检测与手部边界框进行链接。最后,我们训练和测试了没有姿势的模型。结果显示在表4中。我们使用HandLer来指代我们的完整模型,HandLer-NP是没有姿势的HandLer。0姿势。可以看出,这三个组件都是HandLer的重要组成部分。0FP ↓ FN ↓ IDs ↓ MOTA ↑ LTR ↑0HandLer 2412 5986 712 70.0 64.3 HandLer无前向传播 31076432 761 66.1 62.1 HandLer无后向回归 2838 6195 1488 65.458.4 HandLer-NP 2875 6169 1256 66.1 59.0HandLer-NP无前向传播 3076 6821 1203 63.4 56.4HandLer-NP无后向回归 2301 6965 1536 64.4 52.20表4. HandLer各组件的有效性。0低帧率下的鲁棒性。我们研究了随着视频帧率下降,跟踪性能的变化。为此,我们对各种K值的视频的每第K帧运行了HandLer。具体来说,我们使用了K = 1, 3, 5,15,对应于每秒30、10、6和2帧。结果显示在表5中。可以看出,当帧率从30降低到6时,HandLer的MOTA并没有明显下降。与SORT[4](使用HandLer检测)相比,即第5.2节中描述的另一种跟踪方法,MOTA的降低幅度相对较小。这证明了我们的链接算法在不同时间间隔下的鲁棒性。0跟踪 SORT HandLer0Stride FP ↓ FN ↓ IDs ↓ MOTA ↑ FP ↓ FN ↓ IDs ↓ MOTA ↑ K =1 2446 36297 1902 64.9 2412 5986 712 70.0 K = 3 11772977 2903 59.2 1099 3525 1284 65.8 K = 5 915 2297 330155.6 906 2861 1468 64.3 K = 15 664 1636 3569 51.2 6512077 1759 62.70表5. 随着视频帧率降低,跟踪算法的性能。K是跟踪算法的步长。05.4. 手部检测0只要输入是视频,HandLer也可以用于手部检测。为了研究HandLer对检测手部,特别是模糊和遮挡手部的效果,我们从YouTube-Hand中采样了一个只包含模糊和遮挡手部的子集,以测试Han-dLer对检测此类手部的效果。在每个真实手部框内使用[41]提出的手部关键点估计方法检测手部关键点。我们声称IDF1↑FP↓FN↓IDs↓MOTA↑CenterTrack[62]22.26512817745.9MPNTrack[5]11.6144766458.8SORT[4]13.692827163.2HandLer20.560893972.5Box2PointPoint2BoxLightTrack [29]60.749.2HandLer69.661.264130如果[41]无法检测到所有手部关键点,则说明手部模糊或遮挡。除了YouTube-Hand和VIVA数据集,我们还使用VOC平均精度指标在这三个数据集上评估了各种手部检测方法的性能。由于野外视频中的手部关键点估计[17?]无法很好地检测手部,我们与HandCNN[26]进行了比较,这是最先进的手部检测方法,并总结了这些实验的结果如表6所示。此外,使用HandLer作为检测器(无链接器)还可以提高其他跟踪方法的跟踪性能,如表7所示,用于YouTube-Hand和VIVA数据集。请注意,这里我们只报告支持使用外部检测进行跟踪的方法的性能。0数据集0方法 YouTube-Hand 模糊和遮挡数据集 VIVA [36]0HandCNN[26] 72.4 62.8 (13.1%↓) 89.2 HandLer 84.176.7 (8.8%↓) 95.30表6.手部检测性能。彩色数字是在模糊和遮挡手部数据集上与完整的YouTube-Hand数据集相比性能下降的百分比。与每秒约2帧的HandCNN相比,我们的方法既高效又有效。0IDF1 ↑ IDs ↓ MOTA ↑ LTR ↑0SORT[4] 60.6 (+12.3) 1902 (+427) 64.9 (+20.0) 53.6 (+15.1)0MPNTrack[5] 61.1 (+12.1) 1288 (+249) 65.2 (+25.2) 57.3 (+13.0)0CenterTrack[62] 61.3 (+24.1) 2167 (-1195) 62.7 (+22.0) 51.1 (+23.8)LightTrack[29] 71.0 (+17.6) 1635 (-320) 61.7 (+30.9) 65.7 (+17.3)0表7.在YouTube-Hand数据集上使用HandLer作为检测器与其他MOT方法。彩色数字表示与表3相比的性能改善或下降。05.5. 其他数据集和任务0我们还评估了HandLer在其他数据集(VIVA、BSL)上的跟踪和检测性能。请注意,以下所有方法都使用HandLer检测和关联检测到的手部。0VIVA数据集[36]包含由自我中心摄像机捕获的20个视频的采样帧。它被用于开发一种检测驾驶员和乘客手部的算法。我们使用了11个视频进行训练,剩下的9个用于评估。结果如表8所示。0IDF1 ↑ FP ↓ FN ↓ IDs ↓ MOTA ↑0CenterTrack[62] 45.6 341 1287 79 68.7 SORT[4]44.1 517 884 93 72.6 MPNTrack[5] 46.2 793 54546 74.7 HandLer 62.0 272 367 58 87.20表8. 在VIVA数据集上比较不同方法0英国手语(BSL)数据集[31]包含0来自BBC电视节目的6000帧,其中296帧已经进行了手部分割注释。表9中报告的所有方法都是在YouTube-Hand训练集上进行训练,然后在BSL数据集上进行测试的。0表9. BSL数据集上的跟踪性能.0姿态跟踪.由于手部与手腕相连,人们可能会想知道是否可以跟踪人体姿态和手腕.我们假设姿态跟踪本身就是一个困难的问题,其性能不会比手部跟踪性能更好.为了验证这个假设,我们在Youtube-Hands的PoseTrackSplit上进行了实验.姿态跟踪跟踪手腕点,但是将点跟踪结果与边界框跟踪结果进行比较并不容易,因为MOTA计算方式不同.为了进行公平比较,我们考虑了两种转换:(1)Box2Point:用其中心表示边界框;(2)Point2Box:将手腕点与HandLer检测到的手部匹配,如第5.2节所述.表10比较了进行这些转换后HandLer和LightTrack的性能.0表10. 与姿态跟踪算法(LightTrack)的比较.评估指标为MOTA.姿态跟踪本身是一个困难的问题,并且其性能不如HandLer好. 6. 结论和潜在的负面影响0我们引入了HandLer,一种新颖的卷积架构,用于检测和跟踪无约束视频中的手部.我们还收集和注释了一个大规模具有挑战性的手部
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功