没有合适的资源?快使用搜索试试~ 我知道了~
积分人体姿态回归小孙1、肖斌1、方银伟2、双良3、魏逸晨11中国北京微软研究院{xias,Bin.Xiao,yichenw}@ microsoft.com2北京大学,北京,中国weifangyin@pku.edu.cn3中国上海同济大学shuangliang@tongji.edu.cn抽象。现有技术的人体姿态估计方法基于热图表示。 尽管有良好的性能,但该表示在本质上具有一些问题,诸如不可微的后处理和量化误差。 这项工作表明,一个简单的积分运算关系和统一的热图表示和联合回归,从而避免了上述问题。 它是可区分的,高效的,并且与任何基于热图的方法兼容。其有效性是convincingly验证通过全面的消融实验在各种设置下,特别是对3D姿态估计,第一次。关键词:积分回归·人体姿态估计·深度学习。1介绍人体姿态估计已经被广泛研究[24,3,28]。近年来,使用深度卷积神经网络(CNN)在这个问题上取得了重大进展。2D姿态估计的最佳执行方法都是基于检测的[2]。它们为每个关节生成似然热图,并将关节定位为图中具有最大似然的点。热图也被扩展用于3D姿态估计,并且显示出有希望[37]。尽管其性能良好,但热图表示在实际中具有一些绘制障碍。“taking-maximum”操作不会影响培训的可靠性,也不会影响培训的端到端性由于深度神经网络中的下采样步骤,热图具有比输入图像更低的分辨率这导致不可避免的量化误差。使用具有更高分辨率的图像和热图有助于提高准确性,但需要计算和存储,特别是对于3D热图。从另一个角度来看,姿态估计本质上是一个回归问题。回归方法执行端到端学习并产生连续输出。它避免了上述问题然而,对于2D人体姿态估计,回归方法不如基于检测的之间通讯作者。2X. 孙湾肖氏F.Wei,S.Liang和Y.魏在2D姿势基准测试[2]中性能最好的方法中,只有一种方法[7]是基于回归一个可能的原因是回归学习比热图学习更困难,因为后者是由密集像素信息监督的。虽然回归方法被广泛用于3D姿态估计[42,55,56,31,32,30,35,43,21,14],但其性能仍然不令人满意。现有的工作是基于检测或基于回归。这两个范畴之间存在着明显的差异,研究它们之间关系的工作很少。这项工作表明,一个简单的操作将联系和统一的heat的地图上,一个新的字符串。 Itmdiesthe“taking i n g-max im um”oper at i on to“taking i n g- e x p ec t at i on”。该连接被定义为热图中的所有位置的整体,由它们的概率(从似然性归一化)加权。我们称这种方法为积分回归。它分享了热图表示和回归方法的优点,同时避免了它们的缺点。积分函数是可微的,并且允许端到端训练。该算法简单,计算量小,存储开销小。此外,它可以很容易地与任何基于热图的方法相结合。积分运算本身并不新鲜。它被称为soft-argmax,并在以前的作品中使用[27,52,45]。具体而言,两个当代作品[29,34]也将其应用于人体姿势估计。然而,这些工作限制了烧蚀实验。积分回归的有效性没有得到充分的评价。具体来说,他们只在MPII 2D基准测试上进行实验目前还不清楚该方法在其他设置下是否有效,例如3D姿态估计。更多讨论见第3节因为积分回归是无参数的并且仅将姿态表示从热图变换到关节,所以它不影响其他算法。Rithm设计选择,并且可以与它们中的任何一个组合,包括不同的任务、热图和联合损耗、网络架构、图像和热图分辨率。总结见图1。我们进行了全面的实验,调查在所有这些设置下的积分回归的性能,并找到一致的改善。这些结果验证了积分表示的有效性。我们的主要贡献是在各种实验设置下应用积分回归并验证其有效性。具体而言,我们首先表明积分回归显著改善了3D姿态估计,实现了3D和2D数据的混合使用,并在Hu- man3.6M上实现了最先进的结果[24]。我们在2D姿态基准(MPII [3]和COCO [28])上的结果也具有竞争力。代码4将被释放,以促进未来的工作。2积分位姿回归给定第k个关节的学习热图Hk,图中的每个位置表示该位置是关节的概率最终关节位置坐标4https://github.com/JimmySuen/integral-human-pose积分人体姿态回归3图像(3D)热图关节坐标ConvNet一体化训练数据?图像分辨率?深度?多阶段?损失类型?热图分辨率?2D/3D?混合?损失类型?图1.一、姿态估计管道和所有消融实验设置的概述Jk被获得为位置 p,其中最大似然为J k= arg max H k(p)。(一)p这种方法有两个主要缺点。首先,Eq. (1)是不可微的,将其自身简化为后处理步骤,但不是学习的组成部分。培训不是端到端的。这种监督,只能对学习热图进行。其次,热图表示导致量化误差。由于深度神经网络中的下采样步骤,热图分辨率远低于输入图像分辨率。因此,联合定位精度受到量化因子的限制,这对准确的联合定位提出了挑战。使用更大的热图可以缓解这个问题,但代价是额外的存储和计算。回归方法与基于热图的方法相比具有两个明显的优点。首先,学习是端到端的,由联合预测的目标驱动,弥合了学习和推理之间的共同差距。第二,原则上,输出是连续的并且达到任意定位精度。这与热图中的量化问题相反。我们提出了一种统一的方法,将热图转换为联合位置坐标,并从根本上缩小了热图和基于回归的方法之间的差距。它带来了原则和实际的好处。我们的方法简单地修改了等式中的最大运算。(1)进行实验,如Jk =∫p∈Ωp·H~k(p)。(二)因此,Hk是在地图上对he进行规范化,dΩ是在地图上进行规范化。testimatejont是域中所有位置p的积分,由它们的概率加权。Normallization是将H~k(p)n的所有元素映射到n个元素和sum上。[34]已经讨论过了,我们在本文中使用softmax作为H~k(p)=∫ eHk(p)Hk(q)。(三)q∈Ω e4X. 孙湾肖氏F.Wei,S.Liang和Y.魏KK方程的离散形式(2)是ΣD ΣHJk =ΣWp·H~k( p),⑷pz=1py =1px =1默认情况下,热图为3D。其深度、高度和宽度的分辨率分别表示为D、H和W。对于2D热图,D以这种方式,任何基于热图的方法都可以通过在等式2中附加积分函数来增强用于联合估计。(4)的热图Hk,并采用回归损失Jk。我们称这种方法为整体姿态回归。整体姿态回归共享基于热图的方法和回归方法两者的所有优点。Eq.中的积分函数(4)是可区分的,并允许端到端的培训。它是简单、快速和非参数的。它可以很容易地与任何基于热图的方法相结合,同时增加的开销可以忽略不计用于训练或推理的计算和记忆。它的底层热图表示使其易于训练。它有连续的输出和做不受量化问题的影响。2.13D和2D联合训练缺乏多样的训练数据是三维人体姿态估计的一个严重问题已经做出了一些努力来结合3D和2D训练[55,31,43,51,41]。由于积分回归为2D和3D姿态估计提供了统一的设置,因此它是一种简单且通用的解决方案,以促进联合3D和2D训练,从而解决3D人体姿态估计中的该数据问题最近,Sun等。[42]介绍了一种简单而有效的方法来混合2D和3D数据以进行3D人体姿态估计,并显示出巨大的改进。关键是将联合预测Jk的2D部分(xy)与深度部分(z)分离,使得xy部分可以由丰富的2D数据监督。积分回归自然可以采用这种混合训练技术,谢谢的积分运算的可微性方程。(四)、我们也得到了巨大的改善,从这个技术在我们的实验中,这种改进是可行的,由于积分制定。然而,底层的3D热图仍然不能由丰富的2D数据来监督。为了解决这个问题,我们进一步分解积分函数Eq。(4)以生成单独x、y、z热图目标。例如,对于X目标,我们首先将3D热图集成到1DX热向量Eq.(五)ΣDV~x=ΣHHk(p),(5)pz=1py =1然后,进一步将1Dx热矢量积分到x关节坐标Eq.(六)Jx = ΣWpx=1p·V~k(p)。(六)积分人体姿态回归5对应的y和z公式应该容易推断。以这种方式,x、y、z目标在第一步被分离,从而允许2D和3D混合数据训练策略。我们从直接和两步积分回归的三维姿态估计得到显着的改善3综合性实验教学法这项工作的主要贡献是一个全面的烧蚀实验方法,以评估在各种条件下的积分回归的性能图1说明了框架的概述和每个阶段的决策选择。相关工作[29,34]仅在MPII基准[2]上试验了2D姿态估计。他们也有有限的消融实验。具体地说,[29]仅提供系统级比较结果,而没有任何消融实验。[34]研究了热图归一化方法、热图正则化和骨干网络,远不如我们的全面。任务 我们的方法是通用的,并准备为2D和3D姿态估计任务,无可争议。从这两个任务中获得一致的改进特别地,2D和3D数据可以在训练中容易地同时混合3D任务从这种技术中受益更多,并且大幅优于以前的作品。网络架构。我们使用了一个简单的网络架构,该架构在其他视觉任务中被广泛采用,例如对象检测和分割[20,19]。它由一个深度卷积骨干网络和一个浅头网络组成,前者用于从输入图像中提取卷积特征,后者用于从特征中估计目标输出(热图或关节)。在实验中,我们表明,我们的方法是一个灵活的组件,可以很容易地嵌入到各种骨干网络和结果是受网络容量比热图的影响较小。具体来说,网络设计ResNet [20]和HourGlass [33],网络深度ResNet18,50,101 [20],多级设计[49,7]进行了研究。热图损失。在文献中,存在用于热图的损失函数的若干选择。最广泛采用的是预测热图和地面实况热图之间的均方误差(或L2距离),其中2D高斯斑点以地面实况联合位置为中心[48,49,6,33,10,12,13,5]。在这项工作中,高斯斑点具有标准偏差σ=1,如[33]中所示。我们将这种损失的基线表示为H1(H表示热图)。最近的Mask RCNN工作[19]使用了一个one-hotm×m地面真实掩码,其中只有一个位置被标记为关节。它在m个2路softmax输出上使用交叉熵损失我们将这种损失的基线表示为H2。另一行工作[38,22,36]解决了每像素二进制分类问题,因此使用二进制交叉熵损失。每个热图中的每个位置是6X. 孙湾肖氏F.Wei,S.Liang和Y.魏是否被归类为关节。在[38,22]之后,通过将15个像素内的每个位置处的正标签1分配给地面实况关节来构建每个关节的地面实况热图,否则为负标签0。我们使用此实现的基线表示为H3。在实验中,我们表明,我们的方法可以很好地与任何这些热图损失。虽然这些手动设计的热图损失可能在不同的任务上具有不同的性能,并且需要单独仔细的网络超参数调整,但它们的积分版本(I1,I2,I3)将得到显着的改进并产生一致的结果。热图和联合损失组合。对于关节坐标损失,我们实验了预测关节和地面真实关节之间的L1和L2我们发现L1损失的效果始终优于L2损失。因此,我们在所有实验中采用L1请注意,我们的积分回归可以在有或没有中间热图损失的情况下进行训练对于后一种情况,定义了积分回归方法的变体,表示为I*。网络是相同的,但没有使用热图上的损失。训练监控信号只在关节上,不在热图上。在实验中,我们发现积分回归在有或没有热图监督的情况下都能很好地最佳性能取决于具体任务。例如,对于2D任务I1获得最佳性能,而对于3D任务I* 获得最佳性能。图像和热图分辨率。由于热图的量化误差,高定位精度通常需要高图像和热图分辨率然而,它对存储器和计算的要求很高,特别是对于3D热图。在实验中,我们表明,我们的方法是更强大的图像和热图分辨率的变化。这使得它在实际情况下,当计算能力受到限制时成为更好的选择。4数据集和评估指标我们的方法在三个基准数据集上进行了验证。Human3.6M [24]是最大的3D人体姿势基准。在受控环境中捕获数据集它由360万个视频帧组成。从4个相机视点捕获11个对象(5个女性和6个男性),执行15个活动。对象和背景的图像外观是简单的从运动捕捉设备获得精确的3D人体关节位置。为了评估,许多以前的作品[8,46,32,54,25,31,37,51,41,4,53,44,56]使用每个关节位置误差的平均值(MPJPE)。一些工作[51,41,8,4,32,54]首先使用Procrustes分析[18]将预测的3D姿态和地面实况3D姿态与刚性变换对齐,然后计算MPJPE。我们将此度量称为PAMPJPE。MPII [3]是单人2D姿势估计的基准数据集。这些图像是从YouTube视频中收集的,涵盖了具有复杂姿势和图像外观的日常人类活动大约有25k图像。在积分人体姿态回归7总共约29k个注释姿态用于训练,另外7k个用于测试。对于评估,使用正确关键点百分比(PCK)度量。如果估计的关键点与地面实况关键点的距离小于头部段长度的分数α,则估计的关键点被认为是正确的。度量表示为PCKh@α。通常,PCKh@0.5度量用于基准[2]。为了在高定位精度下进行评估,这也是回归方法的优势,我们还使用PCKh@0.1和AUC(曲线下面积,α从0变化到0.5时的平均PCKh)度量。C O C O KeypotChallenge[28]要求在具有挑战性的、不受控的条件下进行“新的”检测和姿态估计。COCO训练,验证和测试集,包含超过20万张图像和25万个标有关键点的人物实例。其中15万个实例可公开用于培训和验证。COCO评估定义了对象关键点相似性(OKS),并使用超过10个OKS阈值的平均精度(AP)作为主要竞争度量[1]。OKS在对象检测中扮演与IoU相同的角色它是根据预测点和由人的尺度归一化的地面实况点之间的距离来计算的。5实验训练我们的训练和网络架构对于所有三个数据集都是相似的。采用ResNet [20] 和 HourGlass [33] ( Human3.6M 和 MPII 上 的 ResNet 和HourGlass,COCO上的ResNet-101)作为骨干网络。ResNet在ImageNet分类数据集上进行了预训练[16]。HourGlass是从零开始训练的使用具有1 e-3标准差的正态分布来初始化HourGlass和头部网络参数。热图的头部网络是完全卷积的。它首先使用反卷积层(4× 4内核,步幅2)将特征图上采样到所需的分辨率(默认为64× 64)。输出通道的数量固定为256,如[19]所示。然后,使用1× 1卷积层来产生K个热图。热图基线和我们的积分回归都基于这个头部网络。我们还实现了一个最广泛使用的回归头网络作为回归基线进行比较。在[7,42,55,56]之后,首先平均池化层降低卷积特征的空间维度。然后,全连接层输出3K(2K)个关节坐标。我们将回归基线表示为R1(R表示回归)。我们使用一个基于ResNet-50的简单多阶段实现,来自conv 3块的特征被共享作为所有阶段的输入然后,每个阶段将该特征与前一阶段的热图连接起来,并通过conv4和conv5块来生成自己的深度特征。然后将热图头部附加到输出热图,用地面实况和损失进行监督。根据热图上使用的损失函数,该多级基线表示为MS-H1(2,3)。MxNet [9]用于实现。Adam用于优化。将输入图像归一化为256×256。数据扩充包括随机8X. 孙湾肖氏F.Wei,S.Liang和Y.魏平移(图像大小的±2%)、缩放(±25%)、旋转(±30度)和翻转。在所有实验中,基本学习率为1 e-3。当验证集上的损失饱和时,它下降到1 e-5。每个方法都经过足够次数的迭代训练,直到验证集的性能饱和。小批量大小为128。使用了四个GPU。使用批次归一化[23]。其他训练细节在各个实验中提供。对于积分回归方法(I1、I2、I3及其多级版本),网络仅使用热图损失(因此其H版本)进行预训练,然后仅使用积分损失我们发现这种训练策略的效果比使用两种损失从头开始的训练稍微好一些。5.1MPII实验由于MPII测试集上的注释不可用,因此我们的所有消融研究都是在约3k的验证集上进行评价的,该验证集是根据之前的惯例[33]从训练集中对剩余的训练数据执行训练表1. MPII验证集上使用热图、直接回归和积分回归的主干网络是ResNet-50。性能增益如下标图二. α在0 ~ 0范围内变化时不同方法的PCKh@α曲线。5.积分回归的效果表1给出了综合比较。我们首先注意到,所有积分回归方法(I1,I2,I3)明显优于其基于热图的对应方法(H1,H2,H3)。该改进在具有高定位精度要求的PCKh@0.1例如,在PCKh@0.5时,I1对H1的改善为+0.5,但在PCKh@0.1时,I1对H1的改善为+12.1。AUC的总体改善是显著的(+5.4)。在三种基于热图的方法中,H3表现最差。在使用积分回归(I3)之后,它得到了很大的改进,例如,AUC从46.3至57.7(+11.4)。 这样的结果表明,热图和关节的联合训练是有效的。 定位精度(PCKh@0.1度量)的显著改善归因于联合回归表示。令人惊讶的是,我的表现相当不错。它仅比I1/I2/I3方法稍差。由于其回归表示,它在PCKh@0.1和AUC上优于H1/H2/H3。它优于R1,表明积分回归优于直接回归,因为这两种方法使用完全相同的监督和几乎相同的网络(实际上R1具有更多的参数)。度量R1H1H2 H3I* I1 I2 I3@0.584. 686 886 4830 86岁。0 ↑1。4 87.3 ↑0. 5869 ↑0. 586岁。6 ↑3. 6@0.1二十五017 217612. 628岁3↑3. 3293↑12。1 29.7↑12。一百二十九1↑16。5积分人体姿态回归9地面实况R1 H1 I1地面实况R1 H1 I1图3.第三章。回归基线(R1)、检测基线(H1)和积分回归(I1)的示例结果从上面的比较中,我们可以得出两个结论。首先,使用底层热图表示的积分回归是有效的(I*> H,I*> R)。即使在热图上没有监督,它也能工作其次,热图和联合坐标预测的联合训练结合了两种范例的益处并且效果最好(I> H,R,I*)。由于H3始终比其他两个更差并且难以实现3D,因此在剩余的实验中将其丢弃。由于H1和I1在2D姿势中表现最好,因此它们用于剩余的2D(MPII和COCO)实验。为了更好地说明,图图3示出了一些示例结果。回归预测(R1)通常不能很好地与角点或边缘等局部图像特征对齐相反,检测预测(H1)与图像特征很好地对准,但难以区分局部相似的块,容易陷入局部最大值。积分回归(H1)具有热图表示和联合回归方法的优点。它有效地和一致地改善了这两个基线。分辨率的影响表2比较了使用两个输入图像大小和两个输出热图大小的结果毫不奇怪,在所有情况下,使用大图像尺寸和热图尺寸获得更好的准确性。然而,积分回归(I1)比基于热图的方法(H1)受分辨率的影响小得多因此,当计算复杂度至关重要并且需要小分辨率时,它是有利的例如,当热图在图像尺寸256(a到b)上缩小一半时,节省了1.1GFLOP(相对15%)。I1的AUC仅下降0.6,而H1下降4.8。该间隙在图像尺寸128(c至d)上更显著。节省了0.3G FLOPs(相对17%)I1的AUC仅下降3.5,而H1下降12.5。当图像缩小一半(b到d)时,节省了4.7 G FLOPs(相对76%)。I1的AUC仅下降11.1,而H1下降18.8。因此,我们得出结论,积分回归显着减轻了量化误差的问题或需要的大分辨率的热图为基础的方法。网络容量的影响表3示出了在两种方法上使用不同骨干的结果。虽然所有方法都使用具有大容量的网络进行了改进,但积分回归I1始终优于基于热图的方法H1。10X. 孙湾肖氏F.Wei,S.Liang和Y.魏表2.对于两种方法(H1/I1),两种输入图像→特征图(f)分辨率和两种热图大小(使用3或2个上采样层),性能度量(mAP@0.5,map@0.1,AUC),计算(以FLOP为单位)和网络参数的量注意,在所有其他实验中使用设置(b大小×2, ×2, ×2×2、 ×2大小×2, ×2, ×2×2、 ×2256 →8 (a)→16→32 →64(b)→16→32128 →4 (c)→8→ 16→32(d)-8 -16H1I186.7/28.0/57.786.6/32.1/58.986.8/17.2/52.987.3/29.3/58.381.6/13.6/46.683.2/20.6/50.775.4/5.6/34.180.9/16.1/47.2FLOPsparams7.3G26M6.2G26M1.8G26M1.5G26M表5.与MPII上最先进的作品的比较方法(Heat基于地图汤普森[47个]RAF[39]第三十九届魏[49个]Bulat[五]《中国日报》Newell[33个]杨[50个]我们H1MS-H1 公司简介平均值(PCKh@0.5)82.086.388.589.790.992.089.489.890.4方法(回归)卡雷拉[7]太阳[42]R1(我们的)I1MS-I1公司简介平均值(PCKh@0.5)81.386.487.090.090.791.0虽然大型网络提高了准确性,但也引入了高复杂性。使用ResNet-18的积分回归I1已经达到了与使用ResNet-101的H1相当的精度。这使得它在实际场景中有利于小型网络时成为更好的选择。表3.PCKh@0.5、PCKh@0.1和AUC度量PCKh@0.5、PCKh@0.1(顶部)以及三个骨干网络的模型复杂度(多级tom的bot和AUC度量)。请注意,ResNet-网络有和没有积分50用于所有其他实验回归ResNet-18ResNet-50ResNet-101H1I185.5/15.7/50.886.0/25.7/55.686.8/17.2/52.987.3/29.3/58.387.3/17.3/53.387.9/30.3/59.0FLOPsparams2.8G12M6.2G26M11.0G45M阶段 MS-H1MS-I1186.8/17.2/52.9 87.3/29.3/58.3286.9/17.6/53.4 87.7/32.0/59.5387.1/17.8/53.7 87.8/32.4/59.9487.4/17.8/54.0 88.1/32.3/60.1表4示出了使用或不使用积分回归的我们的多阶段实现的结果有两个结论。首先,积分回归可以有效地与多阶段架构相结合,并且性能随着阶段的增加而提高第二,积分回归在所有阶段都优于基于热图的回归。具体地,MS-I1阶段2结果87.7已经好于MS-H1状态4结果87.4。结论积分回归的有效性取决于积分回归的代表性。 它可以在不同的热图损失(H1,H2,H3),不同的训练(联合或非联合),不同的分辨率和不同的网络架构(深度或多级)下工作。Consis-积分人体姿态回归11表6. COCO测试开发结果骨干APkp APkp50 75APkpM LCMU姿势[6]61岁884. 9675五十七1682[19]第十九话ResNet-50-FPN63岁187岁3687五十七8714G-RMI [36]ResNet-101(353×257)六十四9八十五571362. 3700我们的:H1ResNet-101(256×256)66岁。388.474. 662. 9721我们的:I1ResNet-101(256×256)67.888岁274.863.9 74.0还可以从第5.2节中COCO基准和第5.3节中的3D姿态基准中得出更强有力的结论。MPII测试基准表上的结果。5总结了我们的方法的结果在这些实验中,我们对所有29k个训练样本进行我们还采用了[33]中使用的翻转测试技巧增加训练数据并使用翻转测试将从验证数据集到测试数据集增加约2.5mAP@0.5我们首先注意到我们的基线具有良好的性能,这表明它们是有效且强大的基线。基于热图的部分中的H1和MS-H1分别具有89.4和89.8PCKh,已经可以与许多通常更复杂的多阶段方法相媲美。回归部分中的R1已经是性能最好的回归方法。我们的积分回归进一步改善了两个基线(I1> H1,MS-I1> MS-H1,使用4个阶段),并取得了与其他方法竞争的结果。我们还重新实现了HourGlass架构[33],表示为HG-H1。使用积分回归HG-I1观察到一致的改善虽然我们的方法的准确性略低于最先进的水平,但我们指出,最近的主要方法[13,12,10,50]都相当复杂,难以与这些作品进行直接和公平的比较积分回归是简单、有效的,并且可以与大多数其他基于热图的方法相结合,如在我们的基线多阶段和HourGlass实验中验证的。与这些方法的组合是留给未来的工作。5.2COCO实验我们遵循与[36]中类似的两阶段自顶向下范式。对于人体检测,我们使用配备可变形卷积[15]的Faster-RCNN [40]。我们使用Xception [11]作为骨干网络。COCO test-dev上的盒检测AP为0.49。作为参考,[36]中的这个数字是0.487。因此,人检测性能是相似的。在[36]之后,我们使用直接建立在OKS度量上的基于关键点的非最大抑制我们还使用姿势重新评分技术[36]来计算一个精确的实例置信度估计,该估计考虑了关键点热图得分。12X. 孙湾肖氏F.Wei,S.Liang和Y.魏我们用基于热图的方法(H1)和我们的积分回归方法(I1)进行了实验所有设置都与MPII上的实验相同,除了我们使用ResNet-101作为我们的骨干,并使用3个去卷积层(4× 4内核,步幅2)来对特征图进行上采样。结果表6总结了我们的方法的结果,以及COCO测试-开发数据集的最我们的实验是在COCO训练数据上进行的基线模型(H1)是一个单级ResNet-101架构。我们的基线模型H1已经优于最先进的自上而下方法[36]。我们的积分回归进一步增加APkp1.5点,并实现了最先进的结果。5.3Human3.6M实验在文献中,有两个广泛使用的评估协议。它们具有不同的训练和测试数据分割。方案1在训练中使用六个受试者(S1、S5、S6、S7、S8、S9)。对受试者11的每64帧进行评估。PA MPJPE用于评价。方案2在训练中使用五个受试者(S1、S5、S6、S7、S8)。对每64帧的被摄体进行评价(S9、S11)。MPJPE用于评估。在 是 否 使 用 额 外 的 2D 数 据 上 使 用 两 种 训 练 策 略 策 略 1 仅 使 用Human3.6M数据进行训练。对于积分回归,我们使用Eq.(四)、策略2将Human3.6M和MPII数据混合用于训练,每个小批次由一半2D和一半3D样本组成,随机采样和混洗。在这种策略中,我们使用两步积分函数方程。(5)(6)以便我们可以在热图和关节损失两者上添加2D数据以用于训练,如第2.1节中所解释的积分回归表的影响。图7比较了两种训练策略下的积分回归(I*,I1,I2)与相应的基线(R1,H1,H2)。议定书2使用。Backbone是ResNet50。我们观察到几个结论。首先,积分回归显著改善了两种训练策略中的基线具体地,在不使用额外的2D数据的情况下,积分回归(I*,I1,I2)分别将(R1,H1,H2)提高了6.0%,13.2%,17.7%I2在此设置中优于所有以前的作品。当使用额外的2D数据时,基线已经取得了非常有竞争力的结果。积分回归分别使它们提高了11.7%、17.1%、11.6%。I* 在这种环境下达到了新的最先进水平,并大大优于以前的作品,见表。10(B)。第二,使用MPII数据后,所有方法都有显着改善。这是可行的,因为积分公式方程。(5)(6)分别生成x、y、z预测并保持可微。骨干网络的影响[37]是唯一使用3D热图表示的先前工作他们使用不同的骨干网络,多级HourGlass。在表中。8,我们遵循与[37]中完全相同的做法进行公平比较积分人体姿态回归13表7.使用热图、直接回归和积分回归的方法之间的比较。使用协议2两个培训策略进行了研究。主干网络是ResNet-50。相对性能增益显示在下标培训数据策略R1H1H2我 *I1I2战略1一百零六6九十九。5八十4一百块2↓6. 0%的百分比86岁。4↓13。百分之二66.2 ↓17. 占7%策略2五十六263岁6五十九349.6 ↓11. 占7%52岁7↓17。百分之一52岁4↓11。占6%表8.与仅在Human3.6M上训练的粗到细体积预测[37]的比较。使用协议2。评价指标为MPJPE。表示在第i个沙漏组件处提供的监督的z维分辨率。我们的I1在两个阶段都网络架构(HourGlass [33])从粗到细。[37]第三十七届H1我们的I1一期(d= 64)85.885.578.7两阶段(d1= 1,d2 = 64)69.868.064.1使用这个主干网络。仅Human3.6M数据用于训练,方案2用于评价。我们有几点意见。首先,我们的基线实现H1足够强大,在两个阶段都已经优于[37]。因此,它可作为竞争参考。其次,我们的积分回归I1进一步改善了H1在两个阶段的6.8毫米(相对8.0%)在阶段1和3.9毫米(相对5.7%)在阶段2。我们可以得出结论,积分回归也可以有效地与HourGlass和多阶段骨干一起解决3D姿势问题,我们的两阶段I1在此设置中设置了新的最先进技术,请参见表。11个国家。分辨率表的效果。图9研究了输入图像和热图分辨率对3D问题的影响。我们也可以得出与表中类似的结论。2.积分回归(I2)比基于热图的方法(H2)受分辨率的影响小得多。因此,它是一个有利的选择时,计算的复杂性是至关重要的,一个小的分辨率是在需求。例如,当热图在图像尺寸256上缩小一半时(a到b)。I2甚至变得稍微好一点,而H2下降2。MPJPE上2mm。该间隙在图像尺寸128(c至d)上更显著。I2仅下降3。8mm,而H2下降19. 8毫米。当图像缩小一半时(b到d)。I2仅在9中下降。2mm,而H2下降24. 9毫米。与表相比,在3D任务上得出了一致但更强的结论。2、2D任务与现有技术的比较以前的作品是丰富的,不同的实验设置,分为三大类。它们与表中的方法进行了比较。10(A)、(B)和表。11分别。我们的方法是最好的单图像的方法,优于以前的作品大利润率。具体来说,它提高了国家的最先进的,由5.1毫米14X. 孙湾肖氏F.Wei,S.Liang和Y.魏表9.对于两种方法(H2/I2),两种输入图像-特征图(f)分辨率和两种热图尺寸(使用3或2个上采样层)。使用策略2和协议主干网络为ResNet-50大小×2, ×2, ×2×2、 ×2大小×2, ×2, ×2×2、 ×2256 →8 (a)→16→ 32→64(b)→16→32128 →4 (c)→8→ 16→32(d)-8 -16H2I2五十九352岁461岁551岁766岁。6五十七186岁。4六十岁。9表10.与以前在Human3.6M上的工作进行比较。所有方法都使用额外的2D训练数据。我们在训练中使用MPII数据。A组和B组分别采用方案1和方案2。在这两种情况下,我们的方法都是最好的单图像方法。带*的方法利用了时间信息,与我们的方法是互补的。我们甚至在协议2方法(A,Pro.第一章Hossain[21]∗达布拉尔[14]∗Yasin[五十一]Rogez[41个]陈[八]《中国日报》莫雷诺[32个]周[五十四]马丁内斯[30个]金泽[26日]孙[第四十二届]方[17个]我们PA MPJPE42.036.3108.3 88.182.776.555.347.756.848.3 45.7 40.6方法(B,Pro.(二)Hossain[21]∗达布拉尔[14]∗陈[八]《中国日报》普[46个]莫雷诺[32个]周[五十四]贾汉吉里[25日]Mehta[三十一]马丁内斯[30个]金泽[26日]方[17个]孙[第四十二届]我们MPJPE51.952.1 114.2 88.487.379.977.672.962.988.060.4 59.1 49.6表11.与以前在Human3.6M上的工作进行比较。使用协议2。不使用额外的训练数据。我们的是最好的方法周[53]泰金[44]兴义[56]太阳[42]帕夫拉科斯[37]我们MPJPE113.0125.0107.392.471.964.1(相对11.2%)。10(A),9.5 mm(相对16.1%)。10(B),和7.8 mm(相对10.8%)。11.注意,Dabral et al.[14]和Hossain等人。[21]利用时间信息并与我们的方法互补然而,我们在表中已经非常接近它们10(A),甚至更好的表。10(B)。6结论我们提出了一个简单而有效的积分回归方法,统一了热图表示和联合回归方法,从而共享两者的优点实验结果验证了该方法的有效性使用简单而廉价的基线网络获得了强大的性能,使我们的方法在实际情况下是一个有利的选择。我们将积分回归应用于3D和2D人体姿态估计任务,并在MPII,COCO和Human3.6M基准测试中推出了最先进的技术。积分人体姿态回归15引用1. COCO领导委员会。http://cocodataset.org2. MPII领导委员会。http://human-pose.mpi-inf.mpg.de3. Andriluka,M.,Pishchulin,L. Gehler,P. Schiele,B.:2D人体姿态估计:新 的 基 准 和 最 先 进 的 分 析 。 In : Proceedings of the IEEE Con-fe-re-nceoncomputterVis isi onandPatter nRecognition. pp. 36864. Bogo,F.,Kanazawa,A.,Lassner,C.Gehler,P.Romero,J.布莱克,M.J. :Keep it smpl :从单个 图像自动估计3d 人体姿势 和形状In :EuropeanCo nfere nceo nCom p uterVisio n.pp. 561Springger(2016)5. Bulat,A.,Tzimiropoulos,G.:通过卷积部分的人体姿态估计是一个预处理过程。 In:EuropeanConferenceonCom up uterVison。pp. 717 -732 Springer(2016)6. Cao,Z.,Simon,T.Wei,S.E.,Sheikh,Y.:利用局部仿射场进行实时多人二维姿态arXiv预印本arXiv:1611.08050(2016)7. 卡雷拉,J.,阿格拉瓦尔,P.,Fragkiadaki,K.,Malik,J.:迭代误差反 馈 人 体 位 姿 估 计 在 : Proceedings of the IEEE Conference onComputerVision andPattern Recognit ion中。pp. 47338. Chen,C.H. Ramanan,D.:3D人体姿态估计= 2D姿态估计+匹配。arXiv预印本arXiv:1612.06524(2016)9. 陈,T.,Li,M.,李,Y.,Lin,M.,王,N.,王,M.,Xiao,T.,徐,B.,张,C.,张志:Mxnet:一个灵活高效的异构分布式系统机器学习库。arXiv预印本arXiv:1512.01274(2015)10. 陈玉,Shen,C.,Wei X.S.刘,L.,Yang,J.:对抗性posenet:用于人体姿势估计的结构感知卷积网络。arXiv预印本arXiv:1705.00389(2017)11. Chollet,F.:Xception:使用深度可分离卷积的深度学习。arXiv预印本arXiv:1610.02357(2016)12. Chou,C.J.,简J.T. Chen,H.T.:人体姿态估计的自对抗训练。arXiv预印本arXiv:1707.02439(2017)13. Chu,X.,杨伟,欧阳,W.马,C.,尤伊尔,A.L.,Wang,X.:人体姿态估计的多上下文注意arXiv预印本arXiv:1702.07432(201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功