基于遮挡感知网络的三维视频人体姿态估计

24 浏览量更新于2023-10-12 收藏 1.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

723基于遮挡感知网络的三维视频人体姿态估计Yu Cheng1，Bo Yang2，Bo Wang2，Wending Yan1，and RobbyT.Tan1，31新加坡国立大学2腾讯游戏AI研究中心3耶鲁-新加坡国立大学学院{e0321276，e0267911}@ u.nus.edu，{brandonyang，bohawkwang}@ tencent.com，robby. nus.edu.sg摘要遮挡是从单目视频中估计三维人体姿态的关键问题为了解决这个问题，我们引入了一个遮挡感知深度学习框架。通过使用估计的关键点的2D置信热图和光流一致性约束，我们过滤掉被遮挡关键点的不可靠估计。当发生遮挡时，我们有不完整的2D关键点，并将它们馈送到我们的2D和3D时间卷积网络（2D和3DTCN），这些网络强制执行时间平滑以产生完整的3D姿势。通过使用不完整的2D关键点，而不是完整但不正确的关键点，我们的网络受遮挡关键点的易出错估计的影响较小训练遮挡感知3D TCN需要成对的3D姿态和具有遮挡标签的2D姿态。由于没有这样的数据集可用，我们引入了一个通过将模型以不同的视角投影到2D平面上，我们获得并标记被遮挡的关键点，为我们提供了大量的训练数据。此外，我们使用该模型来创建姿势正则化约束，更倾向于遮挡不可靠关键点的2D估计。我们的方法在Human 3.6M和HumanEva-I数据集上的性能优于最先进的方法。1. 介绍从单目视频中估计三维人体姿态在动画生成、动作识别、人机交互等应用中具有重要意义。最近的自上而下的姿态估计方法已经取得了有希望的结果[29，13，27，6，21，28，36]。一般来说，这些方法检测每个图像中的个人，估计每个人边界框内的2D姿态，并最终将2D姿态转换为3D姿态。由于人类是关节连接的对象，因此许多关节或关键点（诸如手腕、肘部和脚部处的关节或关键点）可能由于遮挡而不可见，*两位作者的贡献相等。车架126车架146车架210车架230图1.使用遮挡感知（第四行）或不使用遮挡感知（第三行）的3D姿态估计结果之间的比较。2D姿态估计结果在第二行中示出，并且被遮挡和未被遮挡的人类关节被标记为绿色和白色反射（最佳地以彩色观看）。如图1中的第二行所示。这些方法总是预测属于一个人的所有关键点的2D位置，即使其中一些是不可见的或被遮挡的。这是有风险的，因为因此3D姿态估计容易出错。研究人员已经表明，遮挡是从单个图像[25，24，39，23]估计人体姿势误差的主要来源，并且最先进的方法[34，42，8]仍然受到影响。已经尝试从图像[32，11]中估计关键点或身体部位的遮挡可能性，惩罚遮挡的关键点[1]或推断多个3D姿势[44，18]。对于视频输入，为了解决这个问题，利用了时间信息[16，13，17，29]。然而，它们是基于一个假设，即闭塞724输入视频人体检测关键点估计…二维姿态的时间卷积…三维姿态的时间卷积…2D关键点地面实况…圆柱人模型3D关键点地面实况…监督丢失无监督丢失遮挡感知操作测试流程培训流程2DKeypointsMSE损失姿态正则化重新投影到2D3D关键点MSE损失鉴别器损失图2.我们方法的框架，最好用彩色来看只发生在几个独立的帧中。不幸的是，在实际情况下，遮挡可能持续地发生在多个帧上。因此，如图1中的第三行所示，很难通过简单地进行遮挡感知时间卷积来纠正错误，因为他们不知道哪些关键点可能是不可靠的，并且平等地对待所有关键点。在本文中，我们的目标是估计三维人体姿势从一个单一的视频。我们引入了一个遮挡感知的深度学习框架，由三个网络组成，以处理被遮挡关键点的实验，如图2所示。第一网络以逐帧独立地热图（置信图）的形式输出人的每个边界框的关键点的估计的2D位置。这些地图与光流相结合，以判断预测的关键点是否被遮挡。现有的基于时间的方法[13，17，29]使用所有关键点，尽管其中一些由于遮挡而不准确。相反，我们过滤掉被遮挡的关键点，然后将可能不完整的2D关键点馈送到我们的第二个和第三个网络，这两个网络都是时间卷积网络（分别为2D和3D TCN），以增强时间平滑性。由于我们的3D TCN将可能不完整的2D关键点作为输入，因此我们需要在训练期间使用遮挡标签的3D姿势和2D姿势对然而，在大多数3D人体数据集中，没有可用的遮挡标签。因此，我们引入了一个因此，我们可以获得并标记被人自己遮挡的关键点，提供大量的训练数据。由于有限的3D联合地面实况，一些最近的方法利用2D姿态数据通过采用3D到2D投影损失来训练其3D姿态网络[26，29]。然而，这些方法在计算损失时简单地忽略被遮挡的关键点，导致可能的错误解决方案，因为这些关键点可能被估计为未被遮挡，从而与遮挡地面实况标签相矛盾。因此，我们引入了一个姿态正则化项来惩罚这种违反，与我们的“圆柱人模型”的帮助我们的整个框架可以在一个半监督的方式。图1中的第四行显示了我们的方法在长期2D遮挡场景下的有效性;可以正确地估计闭塞臂。作为总结，我们的贡献如下：• 我们介绍了一个三维姿态估计框架与明确的遮挡处理。• 我们提出了一种新的包括关键点。• 我们引入了一个完全集成的2D姿态和3D姿态估计框架，可以以半监督的方式进行端到端的训练2. 相关工作近年来，虽然基于深度学习的2D人体姿态估计方法已经取得了重大进展[38，37，25，40，4，3]，但3D姿态估计仍然具有挑战性，主要原因是遮挡和深度模糊。一些方法使用相机阵列系统（一组RGB和深度传感器）来跟踪准确的3D身体运动[9，15]。由于对野生视频的姿态估计的高需求，许多最近的方法集中于由单筒RGB相机捕获的数据[2，45]。从单个图像中获得准确可靠的3D关节是棘手的最近，时间信息被用来提供可靠的3D估计。Lee等人[17]使用LSTM学习3D人体姿势估计的联合相互依赖性。Hossain等人[13]使用RNN模型来增强运动平滑度。然而，它们假设高帧速率和慢动作，这限制了该方法在野生视频中的有效性。Pavllo等人[29]建议一种时间卷积方法，用于从2D关键点序列生成3D姿态。然而，它们需要估计每帧中的所有2D关键点，并假设预测误差在时间上是不连续和独立的，这在大多数遮挡情况下不成立。Charles等人[5]还检测了被遮挡的关键点，并将其移除用于时间传播;然而，我们采用TCN来实现比他们的光流方法更大的时间感知场。725我我22D b b2由于具有3D关节地面实况的人体姿势数据集很少，为了避免过拟合，一些方法采用半监督方法，该方法通常将估计的3D关节投影到2D图像空间上，并将结果与2D地面实况进行比较以进行损失计算[26，29]。这允许使用2D数据集而不使用3D联合地面实况进行训练。然而，它们都没有考虑到缺失（被遮挡）的关键点，导致它们的网络学习不准确。一些方法通过正则化空间配置来解决遮挡问题[8，7]，或者执行对抗性数据增强以提高遮挡情况的检测精度[30]。不幸的是，这些都没有利用时间信息，使预测不稳定。与现有的基于时间的方法[26，13，29]不同，我们的时间卷积网络明确排除了被包含的，因此不可靠的关键点预测。此外，我们引入了一种新的此外，我们没有忽略被遮挡的关键点，而是通过在损失函数中添加遮挡约束来设计姿态正则化方案3. 遮挡感知的3D姿态估计图2显示了我们的框架的概述给定一个输入视频，我们应用一个人体检测器，例如Mask R-图3.在2D TCN（中）和3D TCN（右）中填充遮挡关键点之间的最终3D结果比较左图显示了初始不完整的2D估计。我们突出显示第二列和第三列中估计值不同的关节，以实现清晰的可视化。对于非遮挡的高斯平滑度，如[25]中所示在输出层中使用sigmoid函数来强制热图中的每个值在[0，1]范围内。这些值表示关键点估计的置信度分数。对于每个热图Mi，我们选择峰值响应点作为第i个关键点的候选。我们的方法预计将产生低的Ci为闭塞的关键点。为了进一步改进遮挡估计，我们应用光学流动（例如，[33]）到pi，并将流动矢量记录为o→i。我们的第一个网络也处理下一帧，并且关键点i在相邻帧中的位置差被定义为d→i。进一步用o→i和d→i之间的差来度量p→i的可靠性。因此，p i的最终置信度得分定义为：||2||2CNN [12]，对于每个帧，将每个检测到的人类边界框归一化为固定大小，同时保持宽度/高度C=Ciexp（−2σ2（2）、（2）比率，并将其馈送到我们的第一个网络，一个堆叠的沙漏网络[25]，它以热图（或置信度图）的形式估计2D关键点随后，我们的第二个网络（2D TCN）提高了估计的2D关键点的准确性，并将其进一步馈送到我们的第三个网络（3D TCN）以获得最终的3D姿态。我们的框架是端到端的，用于培训和测试。如果输入视频中有多个人，我们使用 PoseFlowTracker [41]来避免身份转移。我们认为现场不会太拥挤，这样跟踪者就不太可能造成身份转换。在拥挤的场景中跟踪多个姿态不同的人是一个复杂的问题，这超出了本文的范围。3.1. 二维位姿估计给定一个包含一个人的边界框，我们的第一个网络输出一组热图，表示为{M∈i}，其中i ∈ [1，K]，K是预定义的关键点的数量。网络逐帧处理边界框单独，并使用以下损失进行训练ΣK其中σ是标准偏差，固定为0。1在我们的案子如果C_ i小于阈值b，则p_i被标记为被遮挡的关键点。为了利用时间平滑性，我们连接所有2Dk个点的坐标以形成2K长的向量，并且将时间窗口中的所有这样的向量馈送到2D扩张的时间相关网络（2DTCN），f（·）。不像[29]，我们通过设置它们在矢量中的值和地面实况为零。2D TCN的损失公式为：LT 为||CT（f（CTX<$）−X）||第二条、第三条其中X是级联的地面实况关键点坐标向量，并且Cb是根据阈值b的二值化置信度得分向量，指示关键点的可靠性标签。请注意，在我们的方法中，我们不打算完成2DTCN中缺失的关键点。我们在表2中的实验表明，将缺失（被包含）关键点的预测原因是3D中的时间平滑度是S2个Di=1||第二条第一款||2,(1)比可能发生扭曲的2D更稳定。图3示出了一个示例。我们看到，填补缺失的关键点其中Mi是关键点i的地面实况热图，并且被定义为对于被遮挡的关键点和单个峰值都为零在2D TCN中，可能导致关键点的不准确定位，而3DTCN产生更精确的估计。L=72622IJ3.2. 三维位姿估计在获得时间上平滑但可能不完整的2D关键点之后，我们将它们馈送到我们的3D TCN中，该3D TCN输出所有的估计的3D关节坐标。k∈y点，表示为{P∈i =（xi，yi，zi）}，包括那些在早期阶段被预测为被遮挡的关键点。当3D联合地面实况可用时，我们的3D TCN采用基于表示的3D联合的MSE损失图4.用于遮挡推理的“圆柱人模型”的插图。详情见正文如：LΣ=||P−P||第二条、第四条MSEi i2i~4.1. 模型定义如图4左侧所示，我们将一个3D hu-其中Pi是3D联合地面实况，并且Pi是校正。由3D TCN响应预测的3D关节。当3D地面实况不可用时，我们假设正交投影将结果投影回2D，并计算人分为十部分：头部、躯干、两条上臂、两条下臂、两条大腿和两条小腿。给定任何3D图像，无论是来自地面实况还是我们的网络，我们使用损失为：LΣ=v||p-p~||第二条，第（五）项一个圆柱体来近似十个中的每个的3D形状proji i i2我零件. 头部的半径定义为10cm，每个肢体的半径定义为5cm，如图4其中pi=（xi，yi）是2D关键点的地面实况，并且pi=（xi，yi）是从对应的3D关节的投影所产生的关键点。 vi∈ {0，1}是关键点i的遮挡标签。此外，我们还增加了一个对称约束，一个人的左右两侧的骨头长度是一样的走了圆柱体的高度定义为定义该部分的关键点之间的距离。躯干的半径不是预定义的，而是设置为颈部和肩部之间的距离这种近似在我们的框架中工作得很好，并通过实验进行了验证。和右部分，并且被定义为LSym=（1）A（||Pi−在我们的模型中，每个圆柱体由Cij=普吉||2−||P−P||2）2，其中E是所有相邻的集合{rij，Pi，Pj}，其中rij是半径，Pi，Pj是3Di j关节，其限定了key点形成骨骼，并且kei指示骨骼的指数x关键点i的对称部分。由于人体关节具有多个约束，整个3D姿态空间中只有部分姿态是人体测量有效的。与[43，7]类似，我们也采用了对抗学习的概念。一个专家接受过评估通过将损失函数最小化为 L dis=−j （ ujlogqj+（1−uj）log（1−qj））来估计的3D关节的正确性，其中j是3D姿态的索引对于地面实况和生成的3D姿态，uj分别为1和0，并且q j∈[0，1]是网络的输出3D的损失圆柱体，如图4中间所示。为了计算点P是否被Cij遮挡，我们首先假设正交投影将它们映射到2D空间。圆柱体的垂直横截面ABCD映射为矩形A′B′C′D′，如图4中间所示。由于rij相对于圆柱体的高度较小，即，当投影到2D平面时，我们只检查P是否被ABCD如果投影的P不在2D空间中的矩形A′B′C′D′否则，我们计算范数在3D空间中的平面ABCD的−n→−−−→−−→姿态估计模块然后被定义为：L3D=0||派-派||2+（1−1）vi||pi−pi||2我我+αLSym+βLDis，（六）ij=PjPj×PjA。注意t，−-n→也是向量的范数。我们选一个指向照相机，即，z坐标为负。点P的可见性然后通过下式计算：Y其中，f∈ {0，1}指示3D地面实况是否为可用，α和β是平衡VP=（i，j）∈E[（P-Pi）·nij>0]，（7）对称损失LSym和鉴别损失LDis，并固定为0。2和0。1在我们的实验中4. 圆柱人模型训练3D TCN需要成对的3D关节地面实况和具有遮挡标签的2D关键点。然而，现有的3D人体姿势数据集（例如，[14，22]）没有遮挡标签，并且3D数据的量是有限的。因此，我们引入了一个“圆柱人模型”来生成3D数据的遮挡标签并执行数据扩充。我们还使用该模型的姿态正则化的闭塞的关键点时，3D地面实况不可用。其中E是形成骨骼的所有相邻关键点的集合，并且[·]表示Iv ersonbrack et，如果命题为真则返回1，否则返回0为了保证可微性，我们用sigmoid函数来逼近这个函数.气在图4右侧所示的示例中，如果视角是从人的后面，则关键点P将在点O处被身体圆柱体遮挡。SMPL [19]等其他人体模型可以提供更详细的人体形状表示，但它需要额外的计算成本来检查遮挡。基于圆柱体的近似适合我们的任务。7274.2. 姿势数据增强现有的3D数据集提供了人体关节的3D坐标和在不同视角下捕获的2D图像。为了提供遮挡地面实况，我们首先使用上述模型将3D骨架扩展为根据所提供的摄像机参数，我们可以估计当前摄像机因此，我们可以使用等式来预测对应图像中的每个关键点的可见性。7.第一次会议。虽然上述过程创建了一些用于训练我们的3D TCN的数据，但由于捕获的图像数量有限，数据仍然不足。因此，我们在3D数据集中围绕人类创建了一组虚拟相机，以增加我们的训练数据。我们规范化的三维骨架地面真理关于身体中心，因此，我们可以忽略相机的平移，但只考虑旋转操作。围绕x和z轴的旋转角度为lim-被限制为0。2π，采样步长为0。02π以避免将人颠倒过来。围绕y轴的旋转在[−π，π]内随机选择。因此，我们为每个样本生成100个虚拟视角，并使用Eq.七是--估计每个关键点的遮挡，以生成具有遮挡标签的3D姿势和2D姿势对。由于我们的Cylin-der Man模型仅计算自遮挡，为了进一步包括对象间遮挡情况，我们随机屏蔽了一些关键点，假设它们被一些虚拟遮挡物遮挡。这些额外的数据明显提高了我们训练集的多样性。4.3. 姿态正则化在我们的框架中，被遮挡的关键点被过滤掉，然后将关键点馈送到我们的3D TCN。这意味着我们从其他可靠的关键点中估计缺失关键点的3D关节但是，3D空间中有许多可能的在图5的第二行中示出了一个示例。当然，当3D联合地面实况可用时，我们可以使用它们来训练3D TCN以估计正确的路径。然而，我们并不总是像前面提到的那样具有3D联合地面实况。因此，我们引入姿态正则化约束。给定估计的3D姿态，我们首先建立其7.第一次会议。如果一个缺失的关键点被遮挡，未能检测或不可靠的合理解释。如果它没有被遮挡，则它不太可能被2Dk点估计器遗漏，并且应该被惩罚为：Lreg=（1−1）vi，（8）i∈Occ其中，Occ是不可靠关键点的集合，由第3.1节中的方法。利用该正则化项，我们更倾向于找到其中不可靠的关键点被遮挡的3D姿态配置。图中示出了示例图5.姿势正则化的有效性示例第二行显示了没有正则化项的错误3D估计第三行显示约束修复错误。5. 人的左手腕在帧120 190中被遮挡，并且被Equ分类为不可靠关键点2.在没有姿态正则化约束的情况下，左手腕的估计位置不被遮挡，如图5中的第二行所示。在添加我们提出的正则化之后，框架将不可靠的关键点推到被遮挡的位置，产生正确的结果，如图5中的最后一行所示。我们的整个系统通过最小化损失进行端到端的训练：L=L2D+w1L3D+w2Lreg，（9）其中w1和w2是加权因子，并且固定为1。0乙腈-0.1所示。5. 实验5.1. 实验设置数据集。两个广泛使用的人体姿势估计数据集Human3.6M [14]和HumanEva-I [31]用于性能评估。Human3.6M是一个大型的3D人体姿势数据集。它有360万张图像，包括11名表演日常生活活动的演员，还有7名演员被注释。3D地面实况由Mocap系统提供，并且内部和外部相机参数是已知的。与以前的工作类似[13，29，27，43]，我们使用受试者1，5，6，7，8进行训练，受试者9和11进行评估。HumanEva-I是一个相对较小的数据集。按照典型的协议[21，13，29]，我们使用相同的数据划分来训练所有三个动作（步行，慢跑，盒子）的一个模型，并使用剩余的数据进行测试。评估方案。我们在实验中使用两种常见的评估协议。协议#1指的是每关节平均位置误差（MPJPE），它是mil-728图6.我们的时间卷积网络结构的插图CONV和T CONV代表卷积和转置卷积操作。S、C和D分别代表步幅、通道和膨胀率。所有块的内核大小都设置为5。地面实况和预测的关键点之间的距离。协议#2，通常称为P-MPJPE，指的是在预测的关键点和地面实况之间应用对齐之后的相同误差。5.2. 实现细节我们采用Mask-RCNN [12]进行人体检测，并使用ResNet-101主干。堆叠沙漏网络[25]被用作2D姿态检测器结构，并使用在COCO数据集上预先训练的权重进行初始化。我们为两个TCN使用相同的网络结构，每个TCN都有两个卷积块（C块）和两个转置卷积块（T块），如图所示6.短连接用于合并不同的时间尺度和膨胀。除了最后一个卷积层的输出通道之外，2D TCN和3DTCN的结构是相同的。用于检查3D姿态的验证的卷积层由三个1D卷积层组成，后面是一个全连接层，该层输出最终的区分分数。我们使用Adam Optimizer，学习率为0。001的前100，000次迭代，以及0。0001进行另外30，000次迭代。我们使用128的批量大小，并执行第4.2节中提到的随机数据增强。5.3. 超参数灵敏度分析在我们的框架中有两个重要的超参数：TCN的序列长度和可靠关键点的阈值。我们在Hu-man 3. 6 M数据集上测试了性能，协议#1和#2用于比较。的图7.使用方案#1和#2的估计误差（mm在不同的超参数设置下。方法协议#1协议#2Seq=16，t=0.3055.441.2Seq=32，t=0.3051.838.1Seq=64，t=0.3047.034.6Seq=128，t=0.3042.932.8Seq=256，t=0.3044.134.0Seq=128，t=0.2045.736.1Seq=128，t=0.2543.334.8Seq=128，t=0.3042.932.8Seq=128，t=0.3543.134.1Seq=128，t=0.4044.235.7表1.根据方案#1和#2，基于人体3.6M的估计误差进行超参数敏感性测试。3DTCN2DTCNOCC意识SymAdvPOSReg数据AugP #1P #2C54.042.1CC51.740.5CCC46.335.4CCCC45.834.8CCCCC45.134.3CCCCCC44.834.1CCCCCCC42.932.8表2.不同组件的有效性：3D TCN，2D TCN，遮挡感知，对称约束，对抗学习，姿态正则化，数据增强。我们根据人类3.6M方案#1（P#1）和方案#2（P#2）进行评价模型在不同设置下进行测试，结果如图7和表1所示。我们发现，在每种协议下，图7中的误差曲面都有一个明显的谷谷周围的曲率很小，甚至表1中的第二和第三最佳设置仍然优于最先进的结果，表明我们的方法对这些超参数不敏感。误差随着序列长度的增加而下降，直到256。这意味着更多的时间信息将有益于姿态估计，但是时间上远离的姿态可能不会提供太多有用的信息，并且序列边界处的过长重复填充可能对性能有害。此外，误差在阈值0附近达到谷值。3 .第三章。过小的阈值会削弱不可靠关键点的抑制效果，并且会在后续的TCN模块中使用更多的错误关键点;太大的阈值导致过多的信息去除，留下很少的有用信息用于估计所有关键点。在后来的实验中，729直接圆盘法吃迎接电话照片姿势购买。坐下吸烟等待 WalkD. WalkT.AvgPavlakos等人[28]第二十八届中国国际汽车工业展览会67.471.966.769.172.077.065.068.383.796.571.765.874.959.163.271.9Zhou等人[46] ICCV'1754.860.758.271.462.065.553.855.675.2111.6 64.166.051.463.255.364.9Martinez等人[第21话]51.856.258.159.069.578.455.258.174.094.662.359.165.149.552.462.9Sun等人[35] ICCV'1752.854.854.254.361.867.253.153.671.786.761.553.461.647.153.459.1Fang等人[10] AAAI50.154.357.057.166.673.353.455.772.888.660.357.762.747.550.660.4Yang等人[43] CVPR51.558.950.457.062.165.449.852.769.285.257.458.443.660.147.758.6Pavlakos等人[27]第二十七届中国国际汽车工业展览会48.554.454.452.059.465.349.952.965.871.156.652.960.944.747.856.2Luvizon等人[20]第二十届中国国际汽车工业展览会49.251.647.650.551.860.348.551.761.570.953.748.957.944.448.953.2Lee等人[17] ECCV'1840.249.247.852.650.175.050.243.055.873.954.155.658.243.343.352.8[13]第十三话44.246.752.349.359.959.447.546.259.965.655.850.452.343.545.151.9Pavllo等人[29]第二十九届中国国际汽车工业展览会45.246.743.345.648.155.144.644.357.365.847.144.049.032.833.946.8我们的结果38.341.346.140.141.651.941.840.951.558.442.244.641.733.730.142.9表3. 在方案#1下，在估计的姿态和Human3.6M上的地面实况之间使用以毫米为单位的MPJPE进行定量评估，在后处理中没有应用刚性对准或变换。最好用粗体，其次是下划线。直接圆盘法吃迎接电话照片姿势购买。坐下吸烟等待 WalkD. WalkT.AvgMoreno-Noguer等人[23]第二十三届中国国际汽车工业展览会66.161.784.573.765.267.260.967.3103.5 74.692.669.671.578.073.274.0Pavlakos等人[28]第二十八届中国国际汽车工业展览会–––––––––––––––51.9Martinez等人[第21话]39.543.246.447.051.056.041.440.656.569.449.245.049.538.043.147.7Sun等人[35] ICCV'1742.144.345.045.451.553.043.241.359.373.351.044.048.038.344.848.3Fang等人[10] AAAI38.241.743.744.948.555.340.238.254.564.447.244.347.336.741.745.7Pavlakos等人[27]第二十七届中国国际汽车工业展览会34.739.841.838.642.547.538.036.650.756.842.639.643.932.136.541.8Yang等人[43] CVPR26.930.936.339.943.947.428.829.436.958.441.530.529.542.532.237.7Lee等人[17] ECCV'1834.935.243.242.646.255.037.638.850.967.348.935.231.050.734.643.4[13]第十三话36.937.942.840.346.846.737.736.548.952.645.639.643.535.238.542.0Pavllo等人[29]第二十九届中国国际汽车工业展览会34.136.134.437.236.442.234.433.645.052.537.433.837.825.627.336.5我们的结果28.730.335.131.630.236.831.529.341.345.933.134.031.426.127.832.8表4.在方案#2下，在估计的姿态和Human3.6M上的地面实况之间使用P-MPJPE（毫米）进行定量评估。在后处理中使用与地面实况的Procrustes对齐。最好用粗体，其次是下划线。我们将序列长度固定为128并且将阈值固定为0。3 .第三章。5.4. 消融研究为了评估我们框架中每个组件的有效性，我们在Hu-man 3. 6 M数据集上进行了几次消融实验，结果如表2所示“3D TCN”基线方法是将完整的2D估计关键点（无论是否被遮挡）直接馈送到3D TCN以进行最终3D姿态估计。然后，我们逐步启用更多模块，包括2DTCN、遮挡感知、姿态正则化和数据增强。注意，遮挡感知不是像其他模块那样的单独模块，而是集成到2D关键点估计、2D TCN和3D TCN模块中。从表2中，我们可以看到，我们所有的模块都对最终的性能做出了贡献最大的改进来自我们的遮挡感知模块。这验证了我们的假设，即使用不完整的2D关键点而不是完整但不正确的关键点有利于估计精度。添加姿势正则化使误差减少约1。5毫米和1。在方案#1和#2下分别为3mm，表明缺失关键点的遮挡约束是有帮助的。我们的虚拟视角数据增强方案增加了训练池的多样性，进一步将误差降低了约1。9毫米和1。方案#1和方案#2分别为3mm。5.5. 定量结果我们在两个公共数据集上评估了整个系统，并与最先进的方法进行了比较。方案#1和方案#2下的人3.6M结果分别见表3和表4。在协议#1和#2下，我们的方法比之前的最佳结果[29]平均约4mm，约为8.3%和10.1%的错误减少率，而Pavllo等人。[29]与当时的技术水平相比，误差分别减少了9.8%和3.2%。请注意，在表4中，尽管Yang等人[43]在五个动作中的误差较低，但他们的结果不稳定，导致整体误差比我们高得多。它值得注意的是，平均性能提高了3-4mm;在具有最大ER的前10 K接头在H3.6M数据集上，我们的遮挡感知模块显著地将平均误差从713mm降低到382mm。这些实验表明，通过使用我们的遮挡感知框架，我们可以更好地处理被遮挡的人体关节，并从其他确信的关节中恢复它们。我们还在HumanEva-I [31]数据集上评估了我们的方法，结果见表5。我们的方法比最先进的方法[29]高出9.5%，考虑到这个相对较小的数据集上的性能几乎饱和，这是一个坚实的改进730未感知闭塞的 2D结果3D结果（无遮挡感知）遮挡感知2D结果我们结果车架84车架118车架140车架160车架44车架64车架82车架107图8.我们的整个框架以及禁用遮挡感知模块的结果示例方法步行慢跑AvgPavlakos等人[28]第二十八届中国国际汽车工业展览会22.3 19.5 29.728.9 21.9 23.824.3Martinez等人[第21话]19.7 17.4 46.826.9十八点二十八点六24.6Pavlakos等人[27] 2018年CVPR*18.8 12.7 29.223.5 15.4 14.518.3Lee等人[17] ECCV'1818.6 19.9 30.525.7十六点八十七点七21.5Hossain等人[13]第十三届中国国际汽车工业展览会19.1 13.6 43.923.2 16.9 15.522.0Pavllo等人[29]第二十九届中国国际汽车工业展览会13.4 10.2 27.217.113.1 13.815.8我们的结果11.7 10.1 22.818.711.4 11.014.3表5.根据方案2对HumanEva-I数据集进行评价。图例：（*）使用额外的深度注释进行顺序监督。最好用粗体，其次是下划线。5.6. 定性结果我们在图8中显示了一些示例结果。当发生遮挡时，关键点的2D估计通常是不正确的，例如第一行中的帧118 140中的左臂和腿以及帧82 107中的右臂。在没有遮挡感知模块的情况下，这种错误的关键点检测与其他可靠的关键点检测被相同地对待，导致可能的错误的3D姿态估计，如第二行所示。然而，我们的方法去除了如第三行中所示的那些不可靠的2D关键点，并且仅使用可靠的2D关键点来产生如第四行中所示的更准确和稳定的3D估计结果。5.7. 局限性和未来工作尽管我们的框架在公共数据集上的性能优于最先进的方法，但仍然存在一些未解决的问题，图9中显示了一些失败的示例像其他自顶向下的人体姿态估计方法一样，我们假设检测和跟踪后的边界框大多是正确的。如果边界框偏离地面实况太多，我们的姿势估计可能会失败。还有，图9.由（a）多人重叠，（b）检测或跟踪错误，以及（c）（d）长期严重遮挡引起的故障情况如果两个或更多人非常接近，我们的方法可能无法区分来自不同人的关键点。此外，我们的“圆柱人模型”是用来估计自遮挡的，但不能直接处理被其他物体遮挡的情况。最后，我们的方法不能处理长时间的重遮挡。在这种情况下，很少或没有时间信息可用于恢复严重遮挡的关键点。解决这些问题将是我们今后的工作。6. 结论我们提出了一个遮挡感知框架，用于从输入视频中估计人体3D姿态。不可靠的2D关键点估计的抑制降低了累积误差的风险。我们的我们的方法将Human3.6M数据集的估计精度提高了约10%，将HumanEva-I数据集的估计精度提高了约9.5%。731引用[1] Vasileios Belagiannis和Andrew Zisserman。周期性人体姿态估计.在自动人脸和手势识别国际会议（FG）上。IEEE，2017年。[2] Federica Bogo，Michael J Black，Matthew Loper和JavierRomero。从单目rgb-d序列对运动中的人进行详细的全身重建。 IEEE International Conference on ComputerVision（ICCV），第2300-2308页，2015年[3] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。Openpose：使用部分亲和字段的实时多人2D姿势估计。IEEE Transactions on Pattern Analysis andMachine Intelligence（TPAMI），2019年。[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议（CVPR）中，第7291-7299页，2017年。[5] James Charles ， Tomas Pfister ， Derek Magee ， DavidHogg，and Andrew Zisserman.个性化的人类视频姿态估计。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年。[6] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第7035-7043页[7] Yu Chen ， Chunhua Shen ， Xiu-Shen Wei ， LingqiaoLiu，and Jian Yang.对抗性posenet：用于人体姿态估计的结构感知卷积网络。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第1212-1221页[8] Xiao Chu，Wei Yang，Wanli Ouyang，Cheng Ma，AlanL Yuille，and Xiaogang Wang.用于人类姿态估计的多上下文注意。在 IEEE 计算机视觉和模式识别会议（CVPR）的会议记录中，第1831-1840页[9] Ahmed Elhayek 、 Edilson de Aguiar 、 Arjun Jain 、JonathanTompson 、 LeonidPishchulin 、 MichaAndriluka 、 Chris Bregler 、 Bernt Schiele 和 ChristianTheobalt。基于convnet的高效无标记运动捕捉，适用于一般场景，摄像机数量较少。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第3810-3818页[10] Hao-Shu Fang，Yuanlu Xu，Wenguan Wang，XiaobaoLiu，and Song-Chun Zhu.学习姿势语法编码人体结构以进行3d姿势估计。2018年第三十二届AAAI人工智能会议[11] Golnaz Ghiasi，Yi Yang，Deva Ramanan和Charless C.福克斯解析闭塞的人。在IEEE计算机视觉和模式识别会议（CVPR）的会议中，2014年6月。[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE国际计算机视觉会议（ICCV）的会议记录中，第2961-2969页[13] Mir Rayat Imtiaz Hossain和James J Little。利用时间资讯进行三维人体姿态估测。在Pro-欧洲计算机视觉会议（ECCV）的会议记录，第69-86页。Springer，2018.[14] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6m：大规模数据集和预测方法，用于自然环境中的 3D 人体感知。 IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），36（7）：1325[15] Hanbyul J

下载后可阅读完整内容，剩余1页未读，立即下载