没有合适的资源?快使用搜索试试~ 我知道了~
6173基于进化训练数据的李世超1、李克1、普塔玛1、戴玉荣2、邓志强1、郑广庭11香港科技大学,2腾讯摘要端到端的深度表示学习已经实现了单目3D人体姿势估计的显著准确性,但这些模型可能会在有限和固定训练数据的情况下失败本文提出了一种新的数据增强方法:(1)对于合成大量训练数据(超过800万个有效的3D人体姿势与对应的2D投影)用于训练2D到3D网络是可扩展的,(2)可以有效地减少数据集偏差。我们的方法发展了一个有限的数据集,以synn- thesize看不见的3D人体骨架的基础上hierarchi- cal的人的表示和启发先验知识的算法。大量的实验表明,我们的方法不仅在最大的公共基准上达到了最先进的准确性,而且还能更好地推广到看不见的和罕见的姿势。相关文件和工具可在项目网站12上获得。输入图像Li等人进化之前(我们的)进化之后(我们的)1. 介绍从RGB图像中估计3D人体姿势对于动作识别[32]和人机交互等应用至关重要,但由于缺乏深度信息以及人体姿势、相机视点和外观的大变化,因此具有挑战性。自从引入大规模运动捕捉(MC)数据集[56,20]以来,基于学习的方法,特别是深度表示学习在3D姿态估计中获得了越来越大的发展势头。由于它们的表示学习能力,深度模型已经达到了前所未有的高精度[43,41,28,34,32,60]。尽管它们取得了成功,但深度模型是数据饥渴型的,并且容易受到数据收集的限制。由于两个因素,该问题对于3D姿态估计更为严重。首先,为RGB图像收集准确的3D姿态注释是昂贵且耗时的。其次,收集的训练数据通常偏向于室内环境,1https://github.com/Nicholasli1995/EvoSkeleton2arxiv版本将提供未来的更新(如果有的话)。图1:在进化的训练数据上训练的模型比[25]更好地生成看不见的输入。选择性的日常行动。深度模型可以很容易地利用这些偏差,但在不受约束的环境中,对于不可见的情况则会失败这一事实已经被最近的作品[69,66,25,64]所验证,其中跨数据集推理证明了用有偏数据训练的模型的泛化能力较差。为了应对3D姿态估计的外观的域移位,最近的最新技术水平(SOTA)深度模型采用两阶段架构[68,13,14]。第一阶段从外观信息中定位2D人体关键点,而第二阶段利用几何信息将2D关节提升为3D骨架。由于2D姿态注释更容易获得,因此可以使用额外的野外图像来训练第一阶段模型,这有效地减少了数据收集期间对室内图像的偏差。然而,第二阶段的2D到3D模型仍然会受到几何数据偏差的负面影响,但以前没有研究过。我们在这项工作中关注这个问题,我们的研究问题是:我们的2D到3D深度网络是否受到数据偏差的影响?如果是,我们如何改善网络6174i=1i=1当训练数据的规模或变化有限时,如何进行泛化?为了回答这些问题,我们建议用层次化的人体模型来分析训练数据,并将人体姿势表示为局部骨骼方向的集合。然后,我们提出了一种新的数据集进化框架,以应对训练数据的限制。在没有任何额外的符号,我们定义了进化算子,如交叉和变异发现新的有效的三维骨架在树结构的数据空间由简单的先验知识指导。这些合成骨架被投影到2D并形成2D- 3D对,以增强用于训练2D到3D网络的数据。随着进化后的增强训练数据集,我们提出了一个级联模型,在各种评估设置下实现了最先进的准确性。最后,我们发布了一个新的数据集,用于野外不受约束的人类我们的贡献总结如下:• 据我们所知,我们是第一个使用合成配对监督改进2D到3D网络训练的公司• 我们提出了一种新的数据进化策略,它可以通过探索3D人体姿态空间来增强现有的数据集,而无需密集收集额外的数据。这种方法是可扩展的,以产生2D-3D对在10-7的顺序,导致更好的模型泛化能力在看不见的情况下。• 我们提出了TAG-Net,这是一种由精确的2D联合检测器和新颖的级联检测器组成的深度架构。2D到3D网络它优于以前的monocular模型上最大的3D人体姿态估计基准在各个方面。• 我们发布了一个新的标记数据集,用于在野外进行无约束的人类姿势估计图1显示我们在增强数据集上训练的模型可以处理罕见的姿势,而其他人,如[25]可能会失败。2. 相关作品单目3D人体姿态估计。单图像3D位姿估计方法通常被分类为生成方法和判别方法。生成方法将参数化模型拟合到图像观测中以进行3D姿态估计。这些方法通过PCA模型[2,70]、图形模型[8,5]或可变形网格[4,30,7,42,24]。拟合过程相当于非线性优化,这需要良好的初始化并迭代地细化解决方案。区分方法[53,1,6]直接从两阶段方法[39,34,47,68]。前者直接从像素强度映射到3D姿态,而后者首先提取中间几何表示,如2D关键点,然后将它们提升到3D姿态。我们采用区别对待的方法,集中在第二阶段。我们不使用固定的训练数据集,而是对训练数据进行进化,以提高2D到3D网络的性能。弱监督3D姿态估计。DNN的监督训练需要大量数据,而3D标注是困难的。为了解决这个问题,弱监督方法探索其他潜在的监督,以改善网络,只有少量训练数据可用时的工作性能[44,49,50,23,11,65,27]。多视图consistency [44,49,50,23,11]被提出并被验证为在训练数据稀缺时有用的监督信号,但最少需要两个视图。相比之下,我们专注于通过从现有数据合成新数据来有效利用稀缺的训练数据,并且只使用单一视图。用于姿态估计的数据增强。 可以合成新图像以增强室内训练数据集[51,63]。在[63]中,使用MC数据和hu绘制了新图像男模在[10]中,在使用合成图像进行训练的过程中[46]中使用了对抗性旋转这些工作产生增强图像,而我们专注于2D到3D网络的数据增强,并产生几何2D-3D对。姿势估计数据集。大多数大型人体姿势估计数据集[67,29,3]仅提供2D姿势注释。准确的3D注释[20,56]需要MC设备,并且这些数据集由于以下限制而存在偏差:数据收集过程。深度模型容易过拟合这些有偏差的数据集[61,62,26],无法在看不见的情况下进行泛化。我们的方法可以免费合成大量的有效的3D姿态,在人体姿态空间中具有更完整的覆盖范围。3. 数据集演变从包含一个人类主体的给定输入图像xi,我们的目标是通过图像观测φ(xi)来推断3D人类姿势p_(?)为了像其他2D到3D方法那样对几何信息进行编码[34,68,25],我们将φ(x)表示为图像平面上k个人类关键点( xi, yi) k 作为区别性方法,我们寻求F ( φ(xi),Θ)上 的 回 归 函 数 i ,其输出3D姿态pi为pi=F(φ(xi),Θ)。该回归函数被实现为由Θ参数化的DNN。传统上,这个DNN是在MC de收集的数据集上训练的,vices [56,20].该数据集由成对的图像组成,图像观察到3D姿势。 相关和近期深3D姿态地面实况{(xi,pi)}NDNN可以是神经网络(DNN)采用两种主流架构,通过基于损失函数的梯度下降训练,结果:一步法[66,69,32,43,41,28,60,16]在训练数据集L=Ni=1 E(pi,F(φ(xi),Θ))6175PCP父母C儿童= Rb当地i=1i=1突变交叉其中,E是地面实况pi和预测pi=F(φ(xi),Θ)。鼻子头脖子然而,在数据采集过程中存在着抽样偏差。右肩左肩胸部选择并限制训练数据的变化呼man 3.6M(H36M)[20]是最大的MC数据集,仅包含11个受试者在4个视点下执行15个动作右肘右手腕脊柱骨盆左肘导致训练2D-3D对的权髋左髋左手腕(φ(xi),pi)。DNN可能过拟合数据集偏差,并且对不可见的φ(x)不太鲁棒。例如,当受试者开始跳街舞时,DNN可能会失败,因为它只接受了坐和走等日常活动的训练右膝右脚左膝和左脚对于弱监督方法[44,50,11],这个问题甚至更加严重,其中仅使用训练数据的子集来模拟数据稀缺场景。我们对训练数据采取非平稳的观点来解决这个问题。虽然传统上收集的训练数据是固定的,并且经过训练的DNN在部署过程中不会修改,但在这里我们假设数据和模型可以在其生命周期中发展。具体来说,我们基于初始训练数据集合成大小新颖的2D-3D对,并将它们添加到原始数据集中以形成进化的数据集。然后,我们用进化后的数据集重新训练模型如图2、与在初始数据集上训练的模型相比,在进化数据集上重新训练的模型图3:分层的人类表示。左:3D关键点-组织在运动树中的点,其中红色箭头从父关节指向子关节。右:局部坐标系的放大视图。MPJPE(mm)图4:应用演化算子的示例。交叉和变异分别取2个和1个随机样本,合成新的人体骨架.每个3D姿态p对应于一组骨骼向量{b1,b2,···,bw},并且骨向量被定义为:bi = p儿童(i)-pparent(i)(一)%0.1 S1(245)%1 S1(2.42k)%5 S1(12.4k)%10 S1(24.8k)训练数据图2:在数据集进化之前和之后,H36M上的泛化误差(使用地面真实2D关键点作为输入的MPJPE),初始种群的大小不同。在下文中,我们展示了通过使用分层其中pj是3D骨架中的第j个关节,并且parent(i)给出第i个骨骼向量的父关节索引。在每个父节点处附加局部坐标系3 对于父节点pparent(i),其局部坐标系由三个基向量Ri=[ii,ji,ki]定义的旋转矩阵表示。全局骨骼向量被变换到该局部坐标系中,表示的人体骨骼,合成新的2D-3D对可以实现进化算子,i本地iTiglobal= RiT(pchild(i)-pparent(i))(2)摄像机投影为方便起见,将该局部骨骼向量进一步转换为3.1. 层次化人的表示球坐标为bi=(ri,θ i,φ i)。姿势可以用骨骼的收集来描述我们用一组骨头来表示三维人体骨架,或者-方位{(θi,φi)}w当骨架尺寸被编码时在运动树中分层组织,如图所示-变成{ri}w.ure 3.这种表示法捕捉了adja的依赖性。使用树边的中心关节。[3]坐标系详见我们的补充材料。113.1110106.8Temporal convolution Pavllo et al. CVPR'19在进化进化后1009090.881.88078.176.471..37071.064.265.263.5K母Ji骨向量孩子B6176i=1REM选择j=1i=1..- 是的C..-是的+。- 是 的-是 的热图回归模型(第1阶段)2D关节3D姿势回归模型(阶段2A)3D关节3D姿态优化模型(阶段2B)偏移2C阶段输入/输出坐标三维姿势表示+。- 是 的-是的完全连接的跨层连接k:人类关键点(1、2*k)(1,d)(1,d)(1,d)(1,d)(1,d)(1,d)(1,d)(1,d)(1,d)后期区块(1,d)(1、3*k)d:表示尺寸剩余区块1剩余区块2剩余区块3图5:我们的级联3D姿态估计架构。上图:我们的模型是一个两阶段模型,其中第一阶段是2D地标检测器,第二阶段是级联的3D坐标回归模型。下图:级联中的每个学习器都是一个前馈神经网络,其容量可以通过残差块的数量来调整为了适应进化的数据集,我们为每个级联使用8层(3个块),总共有24层,级联3个模型。3.2. 合成新的2D 3D对我们首先合成新的3D骨架D新={ pj}M算法1数据演化输入:3D骨架的初始集合Dold={pi}N,噪声水平σ,初始训练数据集Dold={pi}N和项目G世代输出:骨架的增强集Dnew={pi}M3D骨架到2D给定相机固有K以形成2D-3D对(φ(x),p),其中φ(x)= Kp。1:D新=D旧i=1j j j j当采用分层表示时,铰接的3D对象的数据集本质上是树结构数据的群体。进化算子[18]具有构造性[57],可用于合成给定初始种群的新数据[15]。运算符的设计取决于问题,我们的运算符详细如下。交叉算子给定两个父3D骨架,交叉被定义为子树的随机交换。这个定义的灵感来自于观察到的一个看不见的3D姿势可以通过将肢体从已知的姿势形式上,我们表示骨向量的集合对于父A和B,作为SA={b1,b2,. . .,bw},并且2:对于i=1:Gdo3:Parents = Sample(Dnew)4:Children= NaturalSelection( Mutation(Crossover(Parents)5:Dnew=Dnew新的Children6:结束7:returnDnew由于人类肢体的运动通常是连续的,因此旧3D骨架的一个肢体的扰动可以导致有效的新3D姿态。为了实现这种扰动,我们的变异算子修改一个骨向量的局部方向,以获得一个新的姿势。选择用于输入3D姿态的一个骨骼向量bi=(ri,θi,φiS12WA A a并且其方向通过添加噪声而突变B={bB,bB,. - 是的- 是的,bB}。选择由q索引的关节在随机和骨骼植根于它是位于为两个父母这些骨骼形成所选择的子树集合S(本研究中的高斯分布):θ′=θ+g,φ′=φ+g(5)我我 我{bj:parent(j)=qIsOff(parent(j),q)}(3)其中,如果关节父节点(j)是运动学树中关节q的后代,则IsOff(parent(j),q)为真父骨骼被分割为选定骨骼和剩余骨骼,如SX=其中gN(0,σlocal)和σlocal是预定义的噪声水平。一个左腿突变的例子如图所示。见图4。我们还改变了3D骨骼的全局方向和骨骼长度,以减少视图的数据偏差。X选择XREM其中SXX选择并且X是和主题大小,这是详细的,在我们的灵活,材料。或B.现在,交叉算子给出两组孩子骨头自然选择我们使用一个适应度函数来评估选择的综合数据的优劣,作为v(p),一选择BREM和D= B一REM(四)指示新姿势的有效性。v(p)可以是描述骨架在解剖学上如何有效的这两个新的集被转换成两个新的三维电子吨。图中的示例4表示选择右肩关节时右臂的交换S∪S=SX−SSC=S∪S∪S6177是,并利用[2]提供的二进制函数实现我们指定v(p)=−∞,如果p是无效的,以排除所有无效的姿势。6178i=1i=1i=1将上述算子应用于Dold以通过合成新姿态并与旧姿态合并来获得新一代Dnew这种进化过程重复几代,并在算法1中描述最后,将D新投影到2D关键点以获得成对的2D-3D监督。4. 模型架构我们提出了一个两阶段模型,如图所示。5.我们将其命名为TAG-Net,因为该模型该模型可以表示为函数P=TAG(x)=G(A(x))(6)给定输入RGB图像x,A(x)(外观阶段)回归k=17个高分辨率概率热图骨干延伸#参数FLOPs误差尼泊尔共产党[12]--13.9G5.40[第59话]-63.6M32.9G4.98↓7.8%HRN+ U63.6M32.9G4.64↓14.1%HRN+ U + S63.6M32.9G4.36↓19.2%表1:H36M测试集的平均2D关键点定位误差(U:热图上采样。 S:使用soft-argmax。与[45]中使用的前一个最佳模型[12]相比,误差减少遵循↓符号。其中Dt是由Θt参数化的级联中的第t个深度学习器,其输入是it。 如图顶部所示。5,级联中的第一学习器D1直接预测3D姿态,而后面的学习器预测3D细化δp =(δ xi,δ yi,δ zi)k。虽然级联坐标回归已被用于2D关键点定位[9,48],ki=1k个2D人体关键点,并将其映射到2D手工制作的图像特征和经典的弱学习者,如坐标c =(x i,y i)k。G(c)(几何学阶段)─因为使用线性回归。 相比之下,我们的几何计算3D关键点坐标4p =(xi,yi,zi)k在模型G(c)仅使用坐标作为输入,并且每个学习器摄像机坐标系从输入的2D坐标。关键具体设计如下。4.1. 高分辨率热图回归合成的2D关键点是从3D点投影的我们希望这种噪声可以尽可能小,因为我们需要合并这两种类型的数据,如第3节所述。为了实现这一目标,我们使用HR-Net [59]作为图像特征提取的骨干。虽然原始模型预测大小为96乘72的热图,但我们在末尾添加了一个像素洗牌层[55],并通过以下方式回归大小为384的热图:288.原始模型使用硬arg-max来预测2D坐标,这在我们的实验中导致舍入误差。相反,我们使用软arg-max[40,60]来获得2D坐标。H36M测试图像的平均2D关键点定位误差如表1所示。我们的设计选择改进了以前的最佳模型,并在H36M上实现了迄今为止最高的关键点定位精度。这些扩展增加了微不足道的参数和计算量。4.2. 级联深度三维坐标回归由于从2D坐标到3D关节的映射可能是高度非线性的并且难以学习,因此我们提出了一个cas-caded 3D坐标回归模型,是具有剩余连接的DNN [17]。图的底部。5显示了每个深度学习者的细节。一个深度学习器首先将输入的2D坐标映射到维度d=1024的表示向量,之后使用R=3个残差块。最后,通过全连接(FC)层将表示映射到3D坐标中。在每个FC层之后,我们添加批归一化[19]和dropout [58],dropout率为0.5。每个深度学习者的能力可以由R控制。该级联模型通过梯度下降顺序训练,训练算法包含在我们的补充材料中。尽管参数数量随着级联长度线性增加,但我们发现级联模型对于该3D坐标预测问题的过拟合具有鲁棒性,这也被2D对应部分共享[9,48]。4.3. 实现细节我们依次训练A(x)和G(c)。输入大小为384 ×288,我们的输出热图具有相同的高分辨率。A(x)的主干在COCO上进行了预训练[29],我们使用Adam优化器在H36M上进行了微调,批量大小为24。训练在两个NVIDIA Titan Xp GPU上进行我们首先以0.001的学习率进行3k次迭代训练,然后每3k次迭代后将其乘以0.1到trainG(c),我们使用Adam优化器以0.001的学习率训练级联中的每个深度学习器200个epoch。ΣTp=G(c)=t=14相对于根关节。Dt(it,Θt)(7)5. 实验为了验证我们的数据演化框架和模型体系结构,我们从H6179H36M并进行数据集内和跨数据集评估。H36M提供的相机内部函数在数据合成过程中使用。我们改变初始种群的大小,以证明当训练数据稀缺时合成数据的有效性。最后,我们提出烧蚀研究分析数据增强和超参数的影响。5.1. 数据集和评估指标Human 3.6M(H36M)是最大的3D人体姿势估计基准,具有准确的3D标签。我们通过将受试者ID附加到S来表示数据集合,例如,S15表示来自受试者1和5的数据。以前的作品固定的训练数据,而我们的方法使用它作为我们的初始popul- lation,并从它演变我们使用 以 毫 米 为 单 位 测 量 的 平 均 每 关 节 位 置 误 差(MPJPE)来评估模型两个标准的评估协议。协议1(P1)直接计算MPJPE,而协议2(P2)将地面实况3D姿态与预测在计算它之前先进行刚性变换。协议P1使用地面实况2D关键点作为输入,并消除了第一阶段模型的影响。MPI-INF-3DHP(3DHP)是我们用来评估2D到3D网络泛化能力的基准。我们不使用它的训练数据,而是通过将提供的关键点馈送到G(c)来进行跨数据集推理。 除了根据MPJPE,正确关键点百分比(PCK)是指-确保在指定阈值下的3D关节预测的正确性,同时针对PCK阈值范围计算曲线下面积(AUC)我们自己收集了一个新的小数据集,由300个具有罕见人类姿势的具有挑战性的野外图像组成,其中150个来自利兹运动姿势数据集[21]。注释过程在我们的补充材料中有详细说明。与3DHP类似,该数据集用于验证不可见3D姿势的模型泛化。5.2. 与现有技术方法的与弱监督方法的比较在这里,我们与弱监督方法进行比较,弱监督方法只使用少量的训练数据来模拟稀缺数据场景。为了与其他人保持一致,我们使用S1作为初始种群。虽然其他人将S1固定为训练数据集,但我们从中进化以获得增强的训练集。模型性能的比较如表2所示,其中我们的模型显著优于其他模型,并证明了有限训练数据的有效使用。虽然其他方法[50,23]使用多视图一致性作为额外的监督,但我们通过合成有用的监督,仅使用单个视图实现了相当的性能。图2验证了我们的方法,当训练数据非常稀缺时,我们从一个小的frack开始的S1和增加的数据大小的2.5倍的进化。请注意,在数据集演化之后,模型的性能始终更好。与[45]中提出的时间卷积模型相比,我们不利用任何时间信息,并实现了相当的性能。这表明我们的方法可以更好地利用极其有限的方法作者性能P1 P1* P2使用多视图Rhodin等人(CVPR’18)--64.6Kocabas等人(CVPR’19)65.3-57.2利用时间信息的单像法表2:与SOTA弱监督方法的比较。报告了在两个协议( P1 和 P2 ) 下 针 对 H36M 的 所 有 15 个 动 作 的 平 均MPJPE。P1* 指的是用地面实况2d关键点评估的协议1。最佳成绩用粗体字标明。每个动作的错误可以在我们的补充材料中找到。与全监督方法的比较在这里,我们与使用H36M的整个训练分割的全监督方法进行比较。我们使用S15678作为我们的初始popu- lation和表3显示的性能比较。在这种情况下,与其他SOTA方法相比,我们的模型也具有竞争力的性能,表明我们的方法不仅限于稀缺数据的情况。方法作者性能P1 P1* P2Martinez等人(ICCV’17)62.945.547.7Yang等(CVPR’18)58.6-37.7Zhao等人(CVPR’19)57.643.8-Sharma等人(ICCV’19)58.0-40.9Moon等人(ICCV’19)54.435.2-我们50.934.538.0表3:在完全监督设置下与SOTA方法的比较。P1、P1* 和P2与表2相同。5.3. 跨数据集泛化为了验证我们的2D到3D网络在未知环境中的泛化能力,表4与3DHP上的其他方法在这个实验中,我们从H36 M中的S15678进化而来在不利用3DHP的任何训练数据的情况下,我们实现了SOTA性能。Pavllo等人(CVPR’19)六十四点七Li等(ICCV’19)88.8-66.5我们62.950.547.56180图6:连接右肩和右肘的骨向量的数据集分布。上图:数据集增强之前(左)和之后(右)的分布。底部:显示与取自[2]的有效区域(棕色)重叠.标杆与[25]相比,我们得到了明显的改进结果表明,我们的数据增强方法有效地提高了模型的如图6,增强数据集的分布表明数据集偏差较小。3DHP和LSP的定性结果如图所示7.第一次会议。请注意,这些不受约束的姿势在原始训练数据集中没有得到很好的表示,但我们的模型仍然给出了良好的推理结果。与[25]在U3DPW中的一些困难姿势的定性比较如图所示。我们的模型对这些罕见的人类姿势显示出更好的准确性。方法CEPCK AUCMPJPE梅塔等人[35]第三十五届76.5 40.8117.6[第37话]76.6 40.4124.7LCR-Net [52]59.6 27.6158.4Zhou等人[第六十九话]69.2 32.5137.1[36]第三十六话75.2 37.8122.2OriNet [31]81.8 45.289.4Li等人[25日]C67.9--金泽市[22]C77.1 40.7113.2Yang等人[第六十六话]C69.0 32.0-我们C81.2 46.199.7表4:MPI-INF-3DHP数据集的测试结果。 较高的值对于 PCK 和 AUC 更 好 , 而 较 低 的 值 对 于 MPJPE 更 好MPJPE在没有刚性变换的情况下进行评估CE表示跨数据集评估,不使用MPI-INF-3DHP中的训练数据。5.4. 消融研究我们的消融研究是在H36 M上进行的,总结见表5。基线(B)使用T=1。注意添加级联(B+C)和数据集演化(B+C+E)的性能明显优于基线。关于演化算子的讨论包括在我们的补充材料中。级联长度T的影响在这里,我们在H36M的各种子集上训练我们的模型,并绘制MPJPE随级联长度的变化,如图所示。9.这里R固定为2。注意,训练误差随着训练集变得越来越多而增加。测试复杂,测试误差相应减小。这两个错误之间的差距表明训练数据不足。请注意,随着深度学习器数量的增加,训练误差会有效减少,但模型不会过拟合。这种特性是由多个深度学习器的集成效应带来的。块数R的影响这里我们固定T=1,d=512,改变R。使用H36M中的S15678及其演进版本。进化之前(BE)和进化之后(AE)的数据集运行-为 了 清 晰 起 见 , Domly 被 分 成 训 练 和 测 试 子 集 。MPJPE的训练和测试如图所示。10.注意,在相同的R=7的情况下,进化后的训练误差更大这意味着我们的方法为数据集带来了新的信息,这可以提供具有更大R的更深层次的架构(例如,R=9)。方法培训数据P1 P1*问题设置A:弱监督学习BS171.566.2B+CS170.1↓2.0%64.5↓2.6%B+C+E进化(S1)62.9↓12.0%50.5↓21.7%问题设置B:全监督学习BS1567854.344.5B+CS1567852.1↓4.0%42.9↓3.6%B+C+E进化(S15678)50.9↓6.2%34.5↓22.4%表5:H36 M的消融研究。B:基线。C:添加cas-cade。E:添加数据演化。Evolve()表示数据扩充操作。P1和P1* 与表2相同。与基线相比,误差减少遵循↓符号。6. 结论本文提出了一种新的进化框架来丰富初始偏差训练集的数据分布,从而更好地实现2D到3D网络的数据集内和数据集间泛化。训练了一种新的单目人体姿态估计模型,实现了单帧3D人体姿态估计的最新性能。还有许多富有成效的方向有待探索.首先,扩展到时间域,多视图设置和多人场景只是三个例子。其次,我们将研究如何在数据生成过程中也可以演变,而不是使用固定的演变算子。618166.160.864.559.964.160.049.448.648.5图7:G(c)在MPI-INF-3DHP(第一行)和LSP(接下来的两行)上的跨数据集推断。图8:与[25]相比,U3DPW的跨数据集推断结果视频包含在我们的补充材料中。培训MPJPE(mm),P1*20MPJPE(mm)under P1*2010101 2 301 3 5 7 9P1下测试MPJPE(mm)60501 2 3叶栅长度图9:不同级联长度和训练数据数量的训练和测试错误。级联有效地减少了训练误差,并且对过拟合具有鲁棒性。区块数R图10:具有不同数目的嵌段R的进化之前(BE)和之后(AE)的MPJPE(P1*)。进化的训练数据可以提供更深层次的网络。最好用彩色观看。鸣谢我们衷心感谢NVIDIA公司的支持,并捐赠了一个用于本研究的Titan Xp GPU。这项研究也得到了腾讯和研究资助局的部分支持。香港特别行政区根据授权编号1620818S1S15S156培训:BE测试:BE列车:AE试6182引用[1] Ankur Agarwal和Bill Triggs。从单目图像中恢复三维人体 姿 态 。 IEEE Transactions on Pattern Analysis andMachine Intelligence,28(1):44[2] Ijaz Akhter和Michael J Black。三维人体姿态重建的姿态条 件 关 节 角 度 限 制 。 在 Proceedings of the IEEEconference on computer vision and pattern recognition,第1446-1455页[3] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele.[4] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。景观:人的形体完成与动画在ACM图形交易,第24卷,第408-416页中ACM,2005年。[5] Vasileios Belagiannis , Sikandar Amin , MykhayloAndriluka,Bernt Schiele,Nassir Navab,and SlobodanIlic. 用 于 多 个 人 体 姿 势 估 计 的 3D 图 像 结 构 。 在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,第1669-1676页[6] Bo Liefeng和Cristian Sminchisescu结构化输出-关联回归。在2009年IEEE计算机视觉和模式识别会议上,第2403-2410页。IEEE,2009年。[7] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl:由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉会议,第561-578页。施普林格,2016年。[8] Magnus Burenius,Josephine Sullivan和Stefan Carlsson。用于多视图铰接姿态估计的3D图示结构IEEE计算机视觉和模式识别会议论文集,第3618-3625页,2013年[9] 曹旭东,魏一晨,方文,孙健。通过显式形状回归进行面部对齐。International Jour-nal of Computer Vision,107(2):177[10] 陈文正、王欢、李阳燕、苏浩、王振华、涂长河、丹尼·利辛斯基、丹尼尔·科恩-奥尔和陈宝泉.合成训练影像以提升人体三维位姿估计。2016年第四届3D视觉国际会议(3DV),第479-488页。IEEE,2016.[11] Xipeng Chen , Kwan-Yee Lin , Wentao Liu , ChenQian,and Liang Lin.用于3d人体姿态估计的几何感知表示的弱监督发现在IEEE计算机视觉和模式识别会议论文集,第10895-10904页,2019年[12] Yilun Chen,Zhicheng Wang,Yuxiang Peng,ZhiqiangZhang,Gang Yu,and Jian Sun.用于多人位姿估计的级联金字塔网络。在IEEE计算机视觉和模式识别会议论文集,第7103-7112页[13] Yu Cheng,Bo Yang,Bo Wang,Wending Yan,andRobby T.Tan.用于视频中3d人体姿态估计的遮挡感知网络。在IEEE计算机视觉国际会议(ICCV),2019年10月。[14] 海慈、淳于王、马小玄、益州王。三维人体姿态估计的优化网络结构在IEEE计算机视觉国际会议(ICCV),2019年10月。[15] 乔·奥·科雷亚,蒂亚戈·马丁斯,还有佩努斯·马查多。深度人脸检测中的进化数据增强。在遗传和进化计算会议伴侣的Proceedings,第163-164页[16] Ikhsanul Habibie , Weipeng Xu , Dushyant Mehta ,Gerard Pons-Moll,and Christian Theobalt.在野外使用显式2d特征和中间3d表示的人体姿态估计。 在IEEE计算机视觉和模式识别会议论文集,第10905[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[18] 约翰·亨利·霍兰德等自然和人工生态系统的适应:一个介绍性的分析与生物学,控制和人工智能的应用。麻省理工学院出版社,1992年。[19] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。[20] Catalin Ionescu , Dragos Papava , Vlad Olaru , andCristian Sminchisescu.人类3。6m:自然环境中3D人体感知的大规模数据集和预测方法。IEEE Transactions onPattern Analysis and Machine Intelligence,36(7 ):1325[21] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。英国机器视觉会议论文集,2010年。doi:10.5244/C.24.12。[22] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集,第7122-7131页[23] Muhammed Kocabas、Salih Karagoz和Emre Akbas。使用多视角几何学的3d人体姿势的自监督学习。在IEEE计算机视觉和模式识别会议论文集,第1077-1086页[24] 放大图片作者:Michael J.布莱克和科斯塔斯·丹尼利迪斯学习通过循环中的模型拟合重建3d人体姿势和形状。在IEEE国际计算机视觉会议(ICCV)上,2019年10月。[25] 陈莉和金熙李。基于混合密度网络的三维人体姿态估计在IEEE计算机视觉和模式识别会议论文集,第9887-9895页[26] Yi Li和Nuno Vasconcelos修复:通过数据集重新采样删除在IEEE计算机视觉和模式识别会议论文集,第9572-9581页[27] 李智,王璇,王飞,姜沛林。基于单目视频的单帧三维人 体 姿 态 估 计 。 在 IEEE 计 算 机 视 觉 国 际 会 议(ICCV),2019年10月。6183[28] Mude Lin,Liang Lin,Xiaodan Liang,Keze Wang,andHui Cheng.循环3d姿态序列机器。在IEEE计算机视觉和模式识别会议论文集,第810-819页,2017年[29] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740-755页。Springer,2014.[30] Matthew Loper 、 Naureen Mahmood 、 Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl:一个有皮肤的 多 人 线 性 模 型 。 ACM transactions on graphics(TOG),34(6):248,2015。[31] 落辰虚、小楚、艾伦.尤耶。Orinet:用于3D人体姿势估计的全卷积网络。arXiv预印本arXiv:1811.04989,2018。[32] Diogo C Luvizon,David Picard,and Hedi Tabia.使用多任务深度学习的2D/3D姿态估计和动作识别在IEEE计算机视觉和模式识别会议论文集,第5137-5146页[33] 伊丽莎贝塔·马里诺尤,德拉戈斯·帕帕瓦,克里斯蒂安·斯明奇斯·埃斯库. 图片人类空间:人类如何感知3D关 节 姿 势 ? 在 Proceedings of the IEEE InternationalConference on Computer Vision,第1289[34] Julieta Martinez、Rayat Hossain、Javier Romero
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功