没有合适的资源?快使用搜索试试~ 我知道了~
167380只需15个关键点0Michael Snower:* Asim Kadav;Farley Lai;Hans Peter Graf;0: 布朗大学;NEC实验室美国0michael snower@brown.edu { asim,farleylai,hpg } @nec-labs.com0摘要0姿势跟踪是一个重要的问题,需要在视频的不同帧之间识别唯一的人体姿势实例并在时间上进行匹配。然而,现有的姿势跟踪方法无法准确地建模时间关系,并且需要大量计算,通常是离线计算轨迹。我们提出了一种高效的多人姿势跟踪方法KeyTrack,它仅依赖于关键点信息,而不使用任何RGB或光流信息实时跟踪人体关键点。关键点使用我们的姿势蕴含方法进行跟踪,首先从视频的不同帧中对姿势估计进行采样并进行标记化。然后,基于Transformer的网络进行二元分类,判断一个姿势是否在时间上跟随另一个姿势。此外,我们通过一种新颖的无参数关键点细化技术改进了自上而下的姿势估计方法,该技术改进了在姿势蕴含步骤中使用的关键点估计。我们在PoseTrack'17和PoseTrack'18基准测试中取得了最先进的结果,同时仅使用大多数其他方法计算跟踪信息所需的计算量的一小部分。01. 引言0多人姿势跟踪是人类行为识别和视频理解的重要问题。它分为两个步骤:首先是估计,其中定位各个人的关键点;然后是跟踪步骤,其中将每个关键点分配给唯一的人。姿势跟踪方法依赖于深度卷积神经网络进行第一步[48,47,57,52],但第二步的方法各不相同。这是一个具有挑战性的问题,因为必须为每个唯一的人创建轨迹,同时克服遮挡和复杂运动。此外,由于他们穿着相同的制服,个体可能在视觉上看起来相似。在线执行跟踪也很重要。常用的方法如下:0* 作为NEC实验室的实习生完成的工作0图1.他们看起来很像,我们如何决定谁是谁?在姿势蕴含框架中,给定一个视频帧,我们通过比较姿势对来跟踪个体,使用时间运动线索来确定谁是谁。使用一种新颖的标记化方案创建可由Transformer解释的姿势对输入[49],我们的网络在匹配对中平均分配注意力,并在非匹配对中更多地关注单个姿势,因为关键点之间的运动线索不存在。我们在上面进行了可视化;明亮的红色关键点对应高注意力。0由于光流和图卷积网络(GCNs)在建模时空关键点关系方面非常有效[45],[35],但依赖于高空间分辨率,因此计算成本较高。非学习方法,例如空间一致性,比基于卷积的方法更快,但不够准确。为了解决上述限制,我们提出了一种高效的姿势跟踪方法KeyTrack,利用时间关系改进多人姿势估计和跟踪。因此,KeyTrack遵循“跟踪通过检测”的方法,首先定位人体,估计人体姿势关键点,然后使用变压器构建块[49]在新颖的“蕴含”设置中对关键点信息进行编码。类似于文本蕴含任务,其中需要预测一句话是否跟随另一句话,我们提出了“姿势蕴含”任务,模型学习进行二元分类,判断两个关键点姿势是否在时间上相互跟随或蕴含。因此,我们不是使用深度CNN从高维图像表示中提取信息,而是从一个由15个标记组成的句子中提取信息,每个标记对应一个关键点。67390姿态上的一个点。类似于BERT对单词进行分词[ 14],我们提出了一种姿态数据的嵌入方案,捕捉了时空关系,并将这些嵌入馈送给我们的Transformer网络。由于这些嵌入包含了空间位置之外的信息,我们的网络在准确性和速度方面优于基于卷积的方法,特别是在非常低的分辨率下。此外,为了改进Transformer网络使用的关键点估计,我们提出了一种时序目标关键点相似度(TOKS)方法。TOKS通过增加未检测到的关键点和使用关键点相似度度量对低质量估计进行阈值处理来改进姿态估计输出。TOKS在估计步骤中不添加任何学习参数,并且优于常用的依赖于NMS和光流的边界框传播方法。KeyTrack的贡献如下:1.KeyTrack引入了姿态蕴含,即对来自不同时间步的两个姿态是否属于同一个人进行二分类。我们在基于Transformer的网络中建模了这个任务,即使在具有复杂运动的数据集中也能学习到时序姿态关系。此外,我们提出了一种姿态信息的分词方案,允许Transformer在低空间分辨率下跟踪关键点时优于卷积。2.KeyTrack引入了一种改进关键点估计的时序方法。TOKS比边界框传播更准确,比检测器集合更快,并且不需要学习参数。使用以上方法,我们开发了一个高效的多人姿态跟踪流程,在PoseTrack测试集上取得了新的最佳结果。在PoseTrack'17测试集上,我们的跟踪准确率达到61.2%,在PoseTrack'18Val集上达到66.6%,使用的模型在跟踪步骤中仅包含0.43M个参数。我们的流程比领先的光流方法[ 45]高效500倍。我们的训练在一块NVIDIA 1080TiGPU上进行。在跟踪步骤中不依赖于RGB或光流信息,我们的模型适用于使用其他非视觉姿态估计传感器进行姿态跟踪,这些传感器每个人只提供15个关键点[ 3 ]。02. 相关工作0我们受到姿态估计和跟踪方法的相关工作以及将Transformer网络应用于视频理解的最新工作的启发。0姿态估计早期的姿态估计工作使用图模型来学习各个关节之间的空间相关性和相互作用[ 5 , 16]。由于遮挡和长时间范围的时间关系,这些模型通常表现不佳,需要明确建模[ 12 , 42 , 51]。更近期的工作涉及使用卷积神经网络(CNN)直接回归笛卡尔坐标0方法 估计 检测 改进 跟踪0我们的HRNet时序OKS姿态蕴含HRNet [ 45 ] HRNet边界框提议光流0自上而下0POINet [ 40 ] VGG, T-VGG - Ovonic Insight Net MDPN [ 20 ] MDPN集成光流 LightTrack [35 ] 简单基线集成/边界框提议 GCN ProTracker [ 19 ] 3D Mask RCNN - IoU0Af�nity Fields [ 38 ] VGG/STFields - STFields0自下而上0STEmbeddings [ 28 ] STEmbeddings - STEmbeddings JointFlow Siamese CNN - FlowFields0表1.不同方法如何解决姿态跟踪问题的每个步骤。我们的贡献以粗体字显示。0关节的坐标[ 48 ]或生成关节位置概率的热图[ 47 , 57 , 52]。大多数卷积方法可以分为自上而下和自下而上两种方法-自上而下方法使用单独的检测步骤来识别人物候选者[ 21 ,37 , 10 , 24 , 37]。然后在这些人物候选者上执行单人姿态估计步骤。自下而上方法从所有候选者计算关键点,然后将这些关键点关联到单个人体关节[ 53 , 25]。后一种方法更高效,因为所有关键点在单个步骤中计算;然而,前者更准确,因为目标检测步骤限制了回归边界。然而,自上而下方法在小物体上效果不好,最近的工作(HRNet)[ 45]使用不同分辨率的并行网络来最大化空间信息。PoseWarper [ 8]使用一对标记和未标记的帧来通过学习姿态变形使用可变形卷积来预测人体姿态。最后,自从深度学习应用于姿态估计[48]以来,迭代预测已经提高了准确性。姿态估计已经显示出从级联预测[ 10 ]和姿态细化方法[ 17 , 34]中受益,这些方法通过单独的后处理网络改进了先前阶段的姿态估计结果。在这个精神中,我们的工作KeyTrack依赖于HRNet生成关键点,并通过使用TOKS对低置信度关键点进行时序聚合和抑制来改进关键点估计,而不是常用的边界框传播方法。0姿势跟踪方法将唯一的ID分配给通过先前子节中描述的技术估计的各个关键点,以便通过时间跟踪它们[4, 26, 27,1]。一些方法通过使用卷积在视频帧之间学习时空姿势关系来进行跟踪[50, 40,35]。[40]以端到端的方式,使用嵌入的视觉特征从其估计步骤中预测跟踪ID,以多个时间方向进行预测。[35]使用GCN根据时空关键点关系跟踪姿势。这些网络需要高空间分辨率。相反,我们从关键点的空间位置和其他信息中创建关键点嵌入,使我们的网络不太依赖于高空间分辨率。67400图2. a) 使用HRNet估计关键点。b) TOKS提高检测精度。c)从多个过去的时间步收集姿势对。相同颜色的姿势具有相同的跟踪ID,黑色表示跟踪ID未知。d) 每对独立地进行标记化处理。e)我们的Transformer匹配网络独立地计算每对的匹配分数。f) 贪婪地选择最大匹配分数,并分配相应的跟踪ID。0在空间分辨率上,我们可以建模更细粒度的时空关系,从而提高效率。我们还可以模拟更细粒度的时空关系。在非学习的跟踪方法中,光流将姿势从一个帧传播到下一个帧,以确定它们在下一个帧中与哪个姿势最相似[45,20]。这比空间一致性更好,空间一致性是指在时间上相邻的帧中姿势的边界框之间的IoU[19]。其他方法使用基于图分割的方法来分组姿势轨迹[26, 27,29]。另一种方法,PoseFlow[55],使用帧间/帧内姿势距离和NMS来构建姿势流。然而,我们的方法在推理过程中不需要硬编码参数,这限制了非学习方法对于建模具有复杂运动的场景的能力,并且需要耗时的手动调整。表1显示了与我们的工作类似的自上而下的方法以及竞争性的自下而上的方法。0Transformer模型最近,已经成功地实现了基于Transformer的模型,用于图像和视频输入模态,通常替代卷积和循环机制。这些方法可以有效地建模各种场景元素之间的高阶关系,不同于成对方法[11, 22, 41,56]。它们已经应用于图像分类[39]、视觉问答[30, 31, 46,60]、动作识别[23, 32]、视频字幕[44,61]和其他视频问题。视频动作Transformer[18]通过学习视频中每个人的上下文和交互来解决动作定位问题。BERT[13]通过在无监督任务中预训练基于Transformer的网络,预测缺失的单词或下一个句子。相反,在监督设置中,KeyTrack使用Transformer来学习视觉问题的时空关键点关系。03. 方法03.1. 我们方法的概述0我们现在描述KeyTrack中使用的关键点估计和跟踪方法,如图2所示。对于时间步t的帧Ft,我们希望为第i个关键点分配一个跟踪ID。0姿势pt,i P P t的第k j PK个关键点首先进行检测。这是通过在每个姿势周围定位边界框,然后在框中估计关键点位置来完成的。关键点预测通过时间OKS(TOKS)进行改进。更多细节请参见3.3。从这里开始,没有跟踪ID的姿势pt,iI将被分配其适当的跟踪ID。这是基于该姿势与先前时间步中的一个姿势的相似性,该姿势具有一个ID,pt´δ,jid。相似性是用匹配分数mt´δ,jid来衡量的,使用姿势蕴含(3.2)。错误的负样本是关键点检测中不可避免的问题,它会对下游的跟踪步骤造成影响,因为具有正确跟踪ID的姿势可能看起来不再出现在视频中。为了缓解这个问题,我们不仅计算与一个先前帧中的姿势的匹配分数,而且计算与多个帧tF1,F2,...Fδu中的姿势的匹配分数。因此,我们将与每个姿势pt´d,jid进行比较,其中1≤d≤δ,1≤j≤|Pt´d|。在实践中,我们将在给定帧中要比较的姿势数量限制为n个空间上最近的姿势。这与与帧中的每个人进行比较一样准确,并将我们的运行时间限制为O(pδnq)。这给我们提供了一组匹配分数M,我们将pt,iI分配给最大匹配分数m˚“maxpMq,其中id˚“m˚id。因此,我们将跟踪ID分配给姿势pt,i id˚。03.2. 姿势蕴含0为了有效解决多人姿势跟踪问题,我们需要了解人体姿势如何根据空间关节配置随时间变化,以及在多人和遮挡物存在的情况下的变化。因此,我们需要学习在时间步长t中的姿势是否可以从时间步长t´1中推断出来。文本蕴含为我们提供了一个类似的框架,在自然语言处理领域中,需要理解一个句子是否可以从下一个句子中推断出来。更具体地说,文本蕴含模型将一对句子投影到嵌入空间中,然后通过神经网络将它们输入,输出句子对的二元分类结果。因此,我们提出了姿势蕴含问题。更正式地说,我们试图分类判断时间步长t´δ中的姿势(即前提)和时间步长t中的姿势(即假设)是否是同一个人。为了解决这个问题,我们不使用基于视觉特征的相似度,因为这会带来大量的计算开销,而是使用我们的姿势估计器检测到的人体关键点集合K。使用这些关键点是计算效率高的,因为它们的数量有限(在我们的情况下为| K|≈15),并且它们不受跟踪步骤中意外视觉变化(如光照变化)的影响。此外,正如我们在下一节中所展示的,关键点适合进行令牌化。因此,在跟踪阶段,我们只使用检测器估计的关键点作为我们的姿势表示。tail:Position Token: The absolute spatial location of eachkeypoint is the Position token, ρ, and its values fall in therange r1, wFhFs. In practice, the absolute spatial locationof a downsampled version of the original frame is used.This not only improves the efficiency of our method, butalso makes it more accurate, as is discussed in 5.2. We givea general expression for the Position tokens of poses pt andpt´δ, where ρptj corresponds to the Position token of the jthkeypoint of pt:tρpt1 , ρpt2 , ... ρpt|K|, ρpt´δ1, ρpt´δ2, ... ρpt´δ|K| u(1)t1pt, 2pt, ... |K|pt, 1pt´δ, 2pt´δ, ... |K|pt´δu(2)67410图3.橙色框:直观解释我们的令牌化。在位置列中,匹配的姿势在空间上比不匹配的姿势更接近。这是因为它们在图像中的空间位置相似。坐标轴限制为432,因为图像已经被下采样到宽度432像素。在下一列中,匹配的轮廓相似,因为姿势处于相似的方向。最后一列中的段表示对的时间距离。绿色框:一系列Transformer(Tx)计算自注意力,提取对之间的时间关系。接下来进行二元分类。0j对应于p t的第j个关键点的位置令牌:0姿势对令牌化的目标是将姿势信息转化为一种表示,以便于学习时空人体姿势关系。为了实现这个目标,对于每个姿势令牌,我们需要提供以下信息:(i)场景中每个关键点的空间位置,以允许网络在帧之间进行空间关联;(ii)每个关键点的类型信息(例如头部、肩膀等),以学习每个人体姿势中的空间关节关系;最后(iii)每个关键点在时间窗口δ内的时间位置索引,以学习时间关键点的转换。因此,我们为每个关键点使用三种不同类型的令牌,如图3所示。总共有2个姿势,因此每种类型的令牌有2个| K|个。每个令牌线性投影到一个嵌入式E P R 2 | K |,H,其中H是Transformer的隐藏大小。嵌入是一个学习的查找表。我们现在描述一下每个令牌的具体内容。0类型令牌:类型令牌对应于关键点的唯一类型,例如头部、左肩、右脚踝等。类型关键点的范围为r 1 , | K|s。这些关键点提供了关于姿势方向的信息,并且对于在低分辨率下实现高准确性至关重要,因为关键点具有相似的空间位置。姿势p t 和p t ´δ的类型令牌的一般表达式如下,其中j p t 对应于pt的第j个关键点的类型令牌:0Segment Token:Segment标记表示姿势与当前姿势之间的时间步长。段标记的范围在r 1 , δs之间,其中δ是一个选择的常数。(我们将δ设置为4。)这也使得我们的方法能够适应不规则的帧速率。t1pt, 1pt, ... 1pt, δpt´δ, δpt´δ, ... δpt´δu(3)qV(4)67420对于不规则的帧速率,我们可以回顾两个时间步长,将模型调整为基于时间的标记值为2,而不是1。0在嵌入每个标记之后,我们对嵌入进行求和,E sum “ EP osition ` E T ype ` E Segment,以合并每个标记类别的信息。这被馈送到我们的Transformer匹配网络中。0Transformer匹配网络:我们网络的目标是学习与姿势匹配相关的运动线索。Transformer的自注意机制使我们能够通过学习关键点之间的时间关系来实现这一目标。Transformer对一组查询(Q)、键(K)和值(V)进行缩放点积注意力计算,每个查询、键和值都是输入E sum P R 2 | K |,H的线性投影。我们根据对一对关键点嵌入进行softmax注意力计算,其中softmax操作的输入维度为r 2 | K | , 2 | K|s。实际上,我们可以从关键点对的注意力分布中生成热图,如5.3所示。在实践中,我们使用多头注意力,这导致头部专门化,也可视化。此外,我们使用注意力掩码来处理由于遮挡而不可见的关键点。这个注意力掩码的实现与[49]中的注意力掩码完全相同,因此不会对由于遮挡而不可见的关键点进行注意力计算。注意力方程如下,我们在补充材料的表5中详细说明每个操作。0注意力 p Q, K, V q “ softmax p QK T0在通过一系列堆叠的Transformer计算自注意力之后,类似于BERT,我们将这个表示输入到一个池化器中,该池化器通过选择序列中的第一个标记,然后将该标记输入到一个学习到的线性投影中来“汇聚”输入。这被馈送到另一个线性层,作为一个二进制分类器,输出给定姿势匹配的可能性。我们使用二元交叉熵损失来训练,只提供网络是否匹配的监督。更多细节请参见图3。03.3.改进的多帧姿势估计0我们现在描述如何改进关键点估计。自顶向下的方法在目标检测器方面存在两类主要错误:1. 丢失的边界框 2.不完美的边界框。除了当前帧中的边界框之外,我们还使用相邻时间步长的边界框检测结果。0为了解决这些问题,我们在每个时间步长上进行姿势预测,从而解决这些问题。这是基于这样的直觉:当帧速率相对较高时,每个人的空间位置在帧与帧之间不会发生剧烈变化,这在大多数现代数据集和摄像机中是典型的。因此,在帧Ft中,将第i个人的边界框粘贴到与其在帧F t ´1中相同的空间位置上,是对人p t,i的真实边界框的很好近似。为了考虑到从帧到帧的空间位置变化,边界框会被稍微放大。以前的方法,如[54],使用标准的非极大值抑制(NMS)来选择要输入到估计器中的这些框。虽然这解决了丢失框的问题,但并没有完全解决第二个问题。NMS依赖于边界框的置信度分数。我们对当前帧和时间上相邻的边界框进行姿势预测。然后,我们使用物体-关键点相似度(OKS)来确定应该保留哪些姿势。这比使用NMS更准确,因为我们使用关键点的置信度分数,而不是边界框的置信度分数。TOKS的步骤如下:0算法1 时间OKS0输入:p t ´ 1,p t,F t01. 检索包围p t ´ 1的边界框B,并按因子α进行膨胀。2. 从B中在Ft中估计一个新的姿势p 1 t。3. 使用OKS确定要保留的姿势,p ˚ “ OKS p p 1 t,p tq 输出:p ˚04. 实验04.1. PoseTrack数据集0PoseTrack2017的训练、验证和测试集分别包含250、50和208个视频。测试集的注释被保留。我们在PoseTrack17测试集上进行评估,因为PoseTrack18测试集尚未发布。我们在测试集上使用官方评估服务器,可以提交最多4次。[4,1]我们在PoseTrack ECCV 2018Challenge验证集上进行其余比较,该验证集是PoseTrack17的超集,包含550个训练视频、74个验证视频和375个测试视频[2]。使用每个关节的平均精度(AP)来评估基于关键点估计的方法,根据[6]中的公式。多目标跟踪准确性(MOTA[7],[33])评分跟踪。它对以下公式下的假阴性(FN)、假阳性(FP)和ID切换(IDSW)进行惩罚,其中ki是当前时间步的关键点。我们的最终MOTA是所有关键点ki P K的平均值:01 ´ ř0t p FN i t ` FP i t ` IDSW i t q ř0t GT i t67430跟踪方法 检测方法 AP Ò % IDSW Ó MOTA Ò Total Head Shou Elb Wri Hip Knee Ankl Total Total0Pose Entailment GT边界框,GT关键点 100 0.7 0.7 0.6 0.6 0.6 0.7 0.7 0.7 99.3 GCN 1.4 1.4 1.4 1.5 1.4 1.6 1.6 1.5 98.5 光流 1.1 1.2 1.2 1.21.2 1.3 1.4 1.2 98.70Pose Entailment GT边界框,预测的关键点 86.7 0.9 0.9 0.8 0.8 0.7 0.8 0.8 0.8 72.2 GCN 1.6 1.6 1.6 1.6 1.3 1.5 1.4 1.5 71.6 光流 1.2 1.2 1.21.1 1.0 1.1 1.1 1.1 71.80Pose Entailment 预测的边界框,预测的关键点 81.6 0.9 1.0 0.9 0.8 0.7 0.8 0.8 0.8 66.6 GCN 1.7 1.7 1.7 1.7 1.4 1.5 1.4 1.6 65.9 光流 1.3 1.21.2 1.2 1.1 1.1 1.1 1.1 66.30图4. 在相同的关键点上比较PoseTrack 18 Val集上跟踪方法的准确性。GT代表Ground Truth,“predicted”表示使用神经网络。较低的%IDSW值越好,较高的MOTA值越好。“Total”平均所有关节得分。0我们的方法独立地分配跟踪ID并估计关键点。这也适用于与我们的MOTA分数最接近的竞争方法。鉴于此,我们使用相同的关键点估计来将PoseEntailment与竞争跟踪方法进行比较。这使得IDSW成为MOTA指标中唯一变化的组成部分,我们计算%0在4.3中,我们将我们的估计方法与其他方法进行比较,而不进行跟踪评估。最后,在4.4中,我们将我们的整个跟踪流程与其他流程进行比较。04.2. 使用Pose Entailment改进跟踪0我们将其与光流跟踪方法[54]和图卷积网络[35](GCN)进行比较,如图4所示。我们不与IoU进行比较,因为GCN和光流[35],[54]已经证明优于它,我们也不与[40]中的网络进行比较,因为它是以端到端的方式训练的。我们遵循光流的[54]方法,并使用[35]提供的预训练GCN。IDSW是通过三组关键点计算的。无论关键点AP如何,我们发现KeyTrack的姿势蕴含始终比其他方法有着持续的改进。我们的IDSW数量约为GCN的一半,比光流少30%。我们相对于GCN的改进源于它仅依赖于关键点的空间位置。通过使用关键点的空间位置之外的附加信息,我们的模型可以更好地推断出姿势的时间关系。光流CNN不专门用于姿势跟踪,并且需要手动调整。例如,将CNN的原始输出(从-1到1进行了归一化)缩放为像素流偏移量,需要应用原始光流网络的作者(而不是[54])提供的一个通用常数。然而,我们发现这个常数需要进行调整。相比之下,我们的学习方法在推理过程中不需要任何调整。04.3. 使用TOKS改进检测0表2显示,与其他方法相比,我们的方法在关键点检测质量上有更大的改进。在没有边界框改进的情况下,AP性能降低了6.6%,突出了假阴性的问题。TOKS的进一步改进强调了估计每个姿势的有用性。通过使用NMS,边界框传播方法错过了使用关键点的置信度得分的机会,这会导致更好的姿势选择。0检测方法 AP 头 肩 肘 腕 臀 膝 踝 总计0GT 90.2 91.4 88.7 83.6 81.4 86.1 83.7 86.70Det. 68.8 72.8 73.1 68.4 68.0 72.4 69.8 70.4 Det. + Box Prop. 79.3 82.0 80.8 75.6 72.4 76.572.4 77.1 Det. + TOKS@0.3 83.6 86.6 84.9 78.9 76.4 80.2 76.2 81.1 Det. + TOKS@0.35(我们的方法) 84.1 87.2 85.3 79.2 77.1 80.6 76.5 81.6 Det. + TOKS@0.5 83.9 87.2 85.2 79.177.1 80.7 76.4 81.50表2.当姿势估计器以不同的框为条件时,每个关节的AP。GT表示使用了真实边界框,作为准确性的上限。Det.表示使用了检测器来估计边界框。@OKS*是使用的OKS阈值。0边界框改进后,AP性能降低了6.6%,突出了假阴性的问题。TOKS的进一步改进强调了估计每个姿势的有用性。通过使用NMS,边界框传播方法错过了使用关键点的置信度得分的机会,这会导致更好的姿势选择。04.4. 跟踪流程与SOTA的比较0现在,我们已经分析了PoseEntailment和TOKS的好处,我们将它们结合起来并与其他方法进行比较。图5显示我们获得了最高的MOTA得分。我们在测试集上比原始的HRNet论文提高了3.3个MOTA点。[25]在2018验证集上与我们的得分最接近,在2017测试集上则相差较远。此外,我们的FPS在所有具有相似MOTA得分的方法中都有所改善,其中许多方法由于使用了集成而处于离线状态。(每秒帧数(FPS)通过将数据集中的帧数除以方法的运行时间来计算。)此外,我们的方法在AP方面优于其他所有方法,显示了TOKS的好处。还报告了APT,这是应用了跟踪后处理后的AP得分。这种后处理对MOTA得分有益,但会降低AP。有关此后处理的更多详细信息,请参见A.3节。由于我们具有最高的AP,但不具有最高的APT,因此跟踪后处理的效果似乎因论文而异。测试集上只给出APT,因为每篇论文有4个提交,因此这些提交用于优化MOTA,而不是AP。67440PoseTrack 2018 ECCV Challenge Val Set0No. Method Extra Data AP T AP FPS MOTA01. KeyTrack (我们的方法) � 74.3 81.6 1.0 66.6 2. MIPAL [25] � 74.6 - - 65.703. LightTrack (离线) [35] � 71.2 77.3 E 64.904. LightTrack (online) [35] � 72.4 77.2 0.7 64.605. Miracle [58] � - 80.9 E 64.006. OpenSVAI [36] � 69.7 76.3 - 62.407. STAF [38] � 70.4 - 3 60.908. MDPN [20] � 71.7 75.0 E 50.60PoseTrack 2017测试集排行榜0No. Method Extra Data AP T FPS MOTA01. KeyTrack (我们的方法) � 74.0 1.0 61.2 2. POINet [40] � 72.5 -58.403. LightTrack [35] � 66.7 E 58.004. HRNet [45] � 75.0 0.2 57.905. FlowTrack [54] � 74.6 0.2 57.806. MIPAL [25] � 68.8 - 54.507. STAF [38] � 70.3 2 53.808. JointFlow [15] � 63.6 0.2 53.10图5.PoseTrack排行榜上的最高分数。E表示使用了检测器的集成,结果是该方法离线的。勾号表示除了COCO和PoseTrack之外还使用了外部训练数据。破折号表示该信息尚未公开。JointFlow和FlowTrack的FPS计算来自[59]。HRNet的FPS是从FlowTrack近似得出的,因为这两种方法非常相似。AP列是最佳AP得分。AP T是经过跟踪后处理的AP得分。0图6. KeyTrack在PoseTrack 17测试集上的定性结果。补充材料中还有其他定性结果。0效率:我们的跟踪方法高效,不依赖光流或RGB数据。当以我们的最佳分辨率24x18处理图像时,我们将光流所需的GFLOPS从52.7减少到0.1。[35]的GCN无法捕捉关键点之间的高阶交互作用,因此在本地卷积方面可能更加高效。然而,这只能使GPU运行时间提高1毫秒。事实上,我们的跟踪流程在整个运行时间上比[35]提高了30%,如4.4所示。我们是自顶向下方法中最快的FPS。此外,我们不依赖光流来改善边界框传播,而是使用TOKS。这使我们的FPS比[54,45]提高了5倍。有关GCN、光流网络和我们的Transformer匹配网络的参数和FLOPS的更多详细信息,请参见补充材料的表6。05. 分析05.1. 跟踪流程0变化的分词方案和Transformer超参数我们研究了每种嵌入的好处。如表3所示,分段嵌入是关键,因为它们使网络能够区分被匹配的姿势。标记嵌入为网络提供了关于姿势方向的信息,并帮助解释空间接近的关键点;即具有相同或相似位置嵌入的关键点。我们还训练了一个模型,该模型使用相对距离而不是关键点在整个图像中的绝对距离。我们发现,使用这种嵌入会降低匹配准确性。这可能是因为在PoseTrack数据集中,许多人执行相同的活动,例如跑步,导致它们具有几乎相同的相对姿势位置。我们在表7中变化了Transformer块的数量、Transformer块的隐藏大小和注意力头的数量。减少Transformer块的数量、隐藏大小和注意力头会降低性能。0绝对位置 类型 分段 相对位置 匹配百分比 准确率0� � � � 72.60� � � � 90.00� � � � 93.2(我们的)0� � � � 91.30� � � � 92.00表3. 不同嵌入方案的匹配准确率。0关键点距离与姿势中心的距离而不是关键点在整个图像中的绝对距离。我们发现,使用这种嵌入会降低匹配准确性。这可能是因为在PoseTrack数据集中,许多人执行相同的活动,例如跑步,导致它们具有几乎相同的相对姿势位置。我们在表7中变化了Transformer块的数量、Transformer块的隐藏大小和注意力头的数量。减少Transformer块的数量、隐藏大小和注意力头会降低性能。0时间步数和其他因素我们发现减少时间步数会对MOTA得分产生不利影响。当仅使用一个时间步时,得分会下降0.3个点,因为我们对检测错误的鲁棒性较低。此外,我们尝试了[19]中使用的匈牙利算法来替代我们的贪婪算法。该算法在使用真实信息时效果很好,但在使用检测到的姿势时不准确。212851240.401.0412851240.430.8612851241.261.146425640.230.9412851240.430.84256102443.311.1412812840.430.8412851240.860.8412812820.430.9412812840.430.8412812860.430.867450时间步数 隐藏大小 内部大小 注意力头数 参数(M) IDSW百分比0图7. 左:变化Transformer网络超参数。右:IDSW速率与图像分辨率的关系图。左侧表格显示了每种方法的输入,conv+visual输入模糊,因为图像被降采样。0图8.显示了我们网络的两个注意力头的注意力热图。上面的两对是匹配对,而下面的一对不是(并且来自不同的视频)。t是帧时间步。05.2. 将自注意力与卷积进行比较0我们通过将我们的Transformer匹配网络替换为两种基于卷积的方法来比较Transformer和CNN。一种方法将边界框姿势对的视觉特征作为输入,而另一种方法仅将关键点作为输入,其中每个唯一的关键点通过线性插值进行着色,这是我们的Type标记的视觉版本。这两种方法使用相同的CNN,共享受到VGG[43]启发的架构,并且具有大约4倍于我们基于Transformer的模型的参数,因为这对于稳定训练是必需的。如图7所示,Transformer在跟踪任务中优于CNN。然而,我们发现CNN在两个方面可以具有竞争力。首先,在更高的分辨率下,Transformer通常需要大量参数来匹配0CNN的性能。在NLP中,当使用大词汇量时,观察到了类似的行为,变压器需要多个层次才能达到良好的性能。其次,我们还发现,卷积比变压器更快地优化,达到其最低的ID切换次数在训练的前2个时期内。直观地说,CNN更容易利用空间接近性。变压器通过位置嵌入接收空间信息,位置嵌入是2D位置的1D线性投影。这可以通过使用更好地保留空间信息的位置嵌入方案来改进[18]。总之,CNN在高分辨率下准确,具有平移不变性和位置不变性等有用属性。然而,使用它们会产生额外的计算成本。我们的关键点嵌入中包含的超出关键点的空间位置的额外信息,再加上变压器模型高阶交互的能力,使其在非常低的分辨率下表现出色。因此,CNN的优势被削弱,我们基于变压器的网络在低分辨率情况下优于它们。05.3. 可视化注意力热图0我们在图8中可视化了网络的注意力热图。当我们的网络将一对姿势分类为非匹配时,它的注意力主要集中在其中一个姿势上。此外,我们发现有趣的是,其中一个注意力头主要将注意力放在靠近人头部的关键点上。这种特殊化表明不同的注意力头对特定的关键点运动线索进行调整。06. 结论0总之,我们提出了一种高效的多人姿态跟踪方法。我们提出的姿态蕴含方法在PoseTrack数据集上实现了SOTA性能,在跟踪步骤中不使用RGB信息。KeyTrack还通过使用TOKS改进的关键点估计获益,TOKS优于边界框传播方法。最后,我们演示了如何在变压器架构中对人体姿态信息进行标记和嵌入,这对于基于姿态的动作识别等任务具有应用价值。67460参考文献0[1] Posetrack排行榜,2017测试集,2017年。 2,5 [2]Posetrack挑战-2018 ECCV,2018年。 5 [3] AbdulrahmanAlari�,AbdulMalik Al-Salman,Mansour Al- saleh,AhmadAlnafessah,Suheer Al-Hadhrami,Mai A Al- Ammar和HendS Al-Khalifa. 超宽带室内定位技术:分析和最新进展.传感器,16(5):707,2016年。 20[4] Mykhaylo Andriluka,Umar Iqbal,EldarInsafutdinov,Leonid Pishchulin,Anton Milan,JuergenGall和Bernt Schiele.Posetrack:人体姿势估计和跟踪的基准。在CVPR,2018年。 2,50[5] Mykhaylo Andriluka,Stefan Roth和Bernt Schiele.图片结构再探:人体检测和关节姿态估计.在2009年IEEE计算机视觉和模式识别会议上,第1014-1021页。IEEE,2009年。 20[6] Mykhaylo Andriluka1,Leonid Pishchulin,PeterGehler和Bernt Schiele.2D人体姿势估计-MPII人体姿势数据集。在CVPR,2014年。 50[7] Keni Bernardin和Rainer Stiefelhagen.评估多目标跟踪性能:清晰的MOT指标.图像和视频处理杂志,2008:1,2008年。 50[8] Gedas B
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- MATLAB实现小波阈值去噪:Visushrink硬软算法对比
- 易语言实现画板图像缩放功能教程
- 大模型推荐系统: 优化算法与模型压缩技术
- Stancy: 静态文件驱动的简单RESTful API与前端框架集成
- 掌握Java全文搜索:深入Apache Lucene开源系统
- 19计应19田超的Python7-1试题整理
- 易语言实现多线程网络时间同步源码解析
- 人工智能大模型学习与实践指南
- 掌握Markdown:从基础到高级技巧解析
- JS-PizzaStore: JS应用程序模拟披萨递送服务
- CAMV开源XML编辑器:编辑、验证、设计及架构工具集
- 医学免疫学情景化自动生成考题系统
- 易语言实现多语言界面编程教程
- MATLAB实现16种回归算法在数据挖掘中的应用
- ***内容构建指南:深入HTML与LaTeX
- Python实现维基百科“历史上的今天”数据抓取教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功