没有合适的资源?快使用搜索试试~ 我知道了~
2192基于单目视频的单帧三维人体姿态估计算法研究※李志1、※王璇2、王飞2、蒋培林11西安交通大学软件工程学院2西安交通大学电子信息工程学院{maleficentlee,xwang.cv} @ gmail.com,{wfx,pljiang} @ xjtu.edu.cn摘要训练一个精确的三维人体姿态估计网络的前提是拥有大量的、标注丰富的训练数据。尽管如此,手动获得丰富和准确的注释即使不是不可能,也是繁琐和缓慢的。在本文中,我们建议利用单角视频来补充训练数据集的单图像三维人体姿态估计任务。在开始时,使用一小部分注释训练基线模型通过固定由所得模型产生的一些可靠估计,我们的方法自动收集整个视频中的注释,以解决3D轨迹复杂性问题。然后,使用收集的注释进一步训练基线模型以学习新的姿势。我们在广泛采用的Human3.6M和MPI-INF-3DHP数据集上评估了我们的方法。如实验中所示,仅给定一小组注释,我们的方法成功地使模型从未标记的单目视频中学习新姿势,将基线模型的准确性与以前的方法相比,我们的方法不依赖于多视图图像或任何明确的2D关键点注释。1. 介绍从单幅图像中准确估计出人体的三维姿态是计算机视觉和图形学大规模应用的重要基础,受到了国内外的广泛关注。近年来,利用深度学习技术在三维人体姿态估计方面取得了尽管取得了成功,但这些方法中的大多数严重依赖于大量训练数据集的可用性。然而,使用运动捕捉系统来捕捉3D注释通常在工作室环境中受到约束。此外,3D[2]这些作者对这项工作的贡献是相等的图1. 两阶段三维人体姿态估计框架。来自视频序列的未注释的图像帧被馈送到初始的3D人体姿态估计网络中,该网络仅由少量注释数据训练接下来,将利用视频序列的低秩属性和时间平滑度的3D轨迹优化操作应用于这些预测以生成伪注释。然后,这些优化的预测作为伪监督应用于初始网络,加上几何损失,以提高网络的性能。人体姿势非常耗时且容易出错。在过去的几年中,已经提出了几种采用未标记的多视图图像或2D注释图像的方法手动2D关键点注释可能足够准确,但仍然繁琐。此外,采用多视图图像需要特定的多相机设备。然而,仍然存在一个问题:如何仅利用未标记的单目视频来补充用于单图像3D人体姿态估计任务的训练数据集?为此,我们提出了一种自动方法,收集准确的注释人类运动2193从单眼视频。如图1所示,基线模型是用一小组注释预先训练的。然后,该基础模型的输出被优化并用作进一步训练的注释。与传统方法相比,捕获单目视频不需要任何特定设备,例如。多相机系统,并且不受受控环境的约束。此外,当用视频补充数据集时,不涉及人工干预具体地,注释的自动收集可以被视为完成连续的3D人体运动的问题依靠低秩表示和时间平滑先验,我们通过固定由基线模型产生的关节部分的可靠估计来优化整个视频中的连续姿势。作为副产品,精确的几何信息,例如特定对象的个体肢体长度比可以容易地从优化的姿势中估计。我们将这些几何信息编码在损失函数中,使用优化的姿势作为注释来微调基线模型。实验表明,该方法显著提高了三维人体姿态估计的准确性。总之,我们专注于单图像三维人体姿态估计任务,并提出了一种方法来解决数据稀缺问题。与以往从连续图像序列中学习姿态的方法不同,我们的方法只在训练过程中利用视频数据。给定仅用一小组注释预训练的基线模型,采用基于矩阵补全的方法来自动收集来自单眼视频的3D注释。在这个过程中,除了3D注释的小集合之外,我们的方法不需要任何人为干预,例如现有弱监督方法通常采用的2D姿势的手动注释或多相机系统的校准。如在Hu- man3.6M和MPI-INF-3DHP数据集上的实验所示,我们的方法将预训练模型精确地微调到未标记的单眼视频中描绘的新动作和主题。依靠这种微调过程,估计的3D人体姿势的准确度提高了约10%。2. 相关作品如今,3D人体姿态估计[4,6,20,11,17,16、15、19、21、22、24、25、26、28、29、30]已经增长到即使在实时情况下也可以产生精确的姿势。然而,在没有充分标记的数据集的情况下估计运动在本节中,我们简要回顾了以前的算法,专注于数据稀缺性问题。数据扩充。使用合成数据学习[5,23,27]是解决数据稀缺问题的另一种选择。随着计算机图形学的发展,许多方法-ODS通过替换背景或对象外观来合成地生成训练图像。在[23]中,引入了拼贴方法。他们通过从不同图像合成人体部位来合成具有已知3D姿势然而,外观和运动的多样性是不相等的,导致使用这样的数据集训练的模型的准确性是有限的。多视角方法。有几种方法专注于通过视图一致性从同步的多视图图像中学习姿势,而不管3D地面实况的可用性如何。给定通用2D姿态检测器,[17]中的方法依靠来自校准的多相机系统的约束自动收集注释。在[12]中,采用无标记运动捕捉系统来记录多视图图像,并且对每个视图估计3D地面实况。[22]中的弱监督方法消除了多视图系统的校准要求,并实现了良好的性能水平。在[21]中,通过学习可以集成到半监督学习中的潜在表示,进一步减少了注释训练数据的数量。这种方法的主要缺点是它们需要特定设备来建立多相机系统。此外,对于大多数多视图方法,假定多相机系统被校准和同步。单视图方法。也有其他作者探索用单视图图像补充训练数据集的方法。在[30]中,引入了一种弱监督方法,其目的是增强仅具有2D注释的全监督训练数据此外,在[29]中提出了一种对抗学习方法,该方法采用[30]中的估计器作为生成器。此外,将2D注释与深度顺序关系[15]相结合被证明对于学习3D人体姿势是有效的。虽然比捕获准确的3D地面实况更方便,但手动注释2D关键点或深度顺序关系仍然是耗费劳动力的。在本文中,我们的目标是解决问题的训练数据的稀缺性,既没有多视图图像,也没有2D构成。在这种具有挑战性的情况下,所提出的方法有效地补充了训练数据集,只有未注释的单眼视频。我们的经验表明,与所产生的数据集微调的网络的性能显着提高。3. 技术途径在本节中,我们提出了用单目视频增强单图像3D人体姿势估计的训练数据集的方法。我们设计了一个框架来微调网络初始化与一个小的一组注释的训练数据,2194Fmin X +λXD2+λC+λE图2. 网络架构和初始化过程。 上图:2D检测网络(传统的堆叠沙漏网络),由现有的2D人体姿势估计数据集训练。向下:将2D探测器的特征提取层转移到 3D重建网络。将体积沙漏网络与先前训练的2D检测器(其参数是固定的)连接以将2D特征提升到3D姿态。一些注释的3D数据用于执行全监督训练。带注释的单眼视频序列。我们首先用少量的3D注释数据训练一个深度网络,以产生合理的3D人体姿势。然后,我们使用矩阵完成方法来优化由训练不足的网络预测的未注释的视频序列同时,可以从预测的3D人体姿势中收集每个视频的相对准确的骨骼长度。的然后,由先前训练的2D检测器提取的特征可以被馈送到3D沙漏网络中,该3D沙漏网络仅需要少量的3D注释数据来获得对未注释视频序列的合理3D预测。与[18]中的网络设置不同,我们的3D网络直接从单帧图像中输出3D姿态,而不需要将2D姿态作为中间结果,因此不需要2D关键点数据来微调2D检测器或训练3D网络。图2显示了我们的网络体系结构和初始化网络的整个过程。3.2.自动收集3D注释仅由少量注释的3D数据训练的网络对未注释的视频序列进行初始预测。这些预测可以被保存和增强以作为伪注释执行,用于网络的进一步(无监督)训练然而,由于3D沙漏的训练不足,初始预测不够精确。由于视频序列中的人体姿势是非刚性的,并且具有低秩和时间平滑等属性,因此我们可以通过应用于3D轨迹的矩阵完成方法来优化初始预测。制剂。优化可以被视为一个矩阵完成问题,其中我们在一个视频中利用一些具有高置信度的姿势,并填充具有低置信度的我们结合视频中人类姿势的低秩约束及其时间平滑性,以获得以下问题公式:¨ ¨¨ ¨Fce1然后,优化的预测被用作伪注释以进一步训练(微调)初始网络。为了更好地利用准确的预测和通过inac-S.T. X= XB + E,P(X)=P(S),B = C,X = X。(一)针对这些问题,我们引入加权保真度损失作为伪监督项。此外,我们引入骨长度一致性损失作为无监督项。3.1.基线模型为了从单目图像重建3D人体姿态[13]中的网络架构,即堆叠沙漏网络,对于从图像中提取2D特征以用于预测3D姿态是有效的。此外,受[12]的启发,现有的2D人体姿势估计数据集可以用于训练2D人体姿势检测器,然后可以将其特征提取层转移到3D人体姿势估计网络。为了直接从单目图像获得准确的3D姿态,我们参考[16]的工作,其引入了堆叠沙漏网络的体积版本。所述2D由方程式1,λe、λc和λd分别是λE1、λC1和λXD2的权重X∈R3P×F(P为每个人的关节点数,F为每个人的帧数视频序列)包含3D姿态(每个视频一个主体的一个矩阵)。 S ∈ R3P×F是一个常数矩阵,它等于初始姿态预测的预处理版本,其中低置信度元素被设置为0,其中PΩ(·)表示选择初始姿态的操作。高置信度的元素这里的信心可以可以用从网络的热图输出中提取的得分来表示,并且我们有阈值得分值τ∈[0,1]。B∈RF×F是自表示系数矩阵的启发[10]和[31],E∈R3P×F是误差矩阵D∈RF×(F−1)是由1和−1组成的块对角稀疏矩阵,用于计算姿势序列的时间平滑度矩阵X∈R3P×F和C∈RF×F分别等于X和B,它们满足2195形式作为辅助工具,用于在优化过程中使核范数最小化。优化。方程1可以通过增广拉格朗日方法(ALM)求解[2]。通过将等式1转换为增广拉格朗日形式,转换后的成本函数可以直接提取预测关节的热图置信度得分。因此,我们利用这些置信度得分,并提出一个加权保真度伪监督损失函数,写为:问题可以分成五个子问题,其中的变量可以通过ALM有效地求解,通过迭代地更新各个变量来最小化成本函数LSw(θ;p, s)=ΣFi=1ΣPj=1 W(sij)·pij−pij2,(3)其他变量都是固定的。每个子-这些问题可以通过一些开发的技术单独解决,例如奇异值阈值(SVT)操作[3],收缩算子[9]或简单地求解线性方程组。 在我们的设置中,X和X是ini-其中,F表示帧的数量,P表示每像素的关节的数量。W(·)是权重函数,其被定义为:.通过预测的姿势来确定B和C由单位矩阵初始化E中的元素都在W(s)=1、s >τs,s≤τ、(四)开始. 在ALM收敛之后,我们取X作为优化结果,其将进一步用作伪在网络微调步骤中的监督。3.3. 微调初始网络在前面的步骤中,来自未注释视频序列的图像帧被送入初始网络以获得3D其中τ∈[0,1]表示阈值,该阈值被定义为判断预测关节是否足够可靠以监督网络微调。骨长度一致性丧失。无监督几何学术语,即骨稠度损失,定义如下:预测,然后优化并保存这些预测FU(θ; b)=¨b¨-b¨、(五)在微调步骤中,这些保存的预测与加强对土著居民进一步培训的i=1k=1?ik伊克tial网络这些操作就像自动为未注释的视频收集然而,在优化的预测中仍然存在许多错误,这些错误很可能会误导网络的进一步训练。为了减轻由这些错误引起的错误影响,我们建议通过每个预测的置信度得分来加权损失函数中的伪监督项,并为同一视频中的同一人添加骨骼长度一致性约束。用于微调初始网络的完整损失函数如下:L(θ)=Sw(θ; p,s)+γU(θ; b),(2)其中Sw(·)是损失函数的加权保真度伪监督项,并且U(·)是无监督项(骨长度一致性损失)。θ表示网络参数集对应预测的置信度得分,以及b表示骨长度。γ是可以根据经验设置以平衡两项的权重。加权保真度损失。在网络微调过程中利用未注释图像的优化预测作为伪监督。由于我们将高置信度的初始预测视为精确预测,因此我们不希望微调网络的相应输出与其初始预测值偏离太多。由于我们的网络输出体积热图,我们其中B是一个骨架的骨骼数量。可以通过初始预测来计算和收集骨长度b。在本文中,我们采用了11个骨骼(右,左下肢和上肢,骨盆到左,右髋,下巴到头顶)的长度基本不变,而受试者正在移动。由于我们的初始网络输出体积热图而不是每个关节的坐标,因此在网络初始化步骤(仅具有监督损失)的训练期间,L2损失被应用于热图。为了执行网络推断和验证,我们可以通过argmax运算从预测的热图中提取联合然而,在网络微调期间,由于argmax操作不可微,因此不能直接应用我们的计算需要坐标的骨架长度一致性损失。为了通过直接坐标反向传播网络输出,我们用[7]中的峰值查找操作的3D版本替换了argmax操作,其中以最大分数的粗略位置为中心的立方体内的热图置信度分数的加权和用作预测的联合坐标。4. 实验在本节中,我们在各种设置中进行实验,以分析我们的轨迹优化的性能及其在增强训练不足的3D姿态估计网络方面的能力。221964.1. 实验配置数据集。我们的方法首先在众所周知的Human3.6M(H36M)[8]数据集上进行测试。它包含执行不同动作的11个人类主体的总共360万帧的视频序列,其中主体1、5、6、7、8、9和11用3D姿势注释。原始视频以50fps的帧速率记录,我们将其下采样到10fps。由于我们的2D特征提取层是在MPII 2D人体姿势数据集[1]上训练的,因此我们也将该数据集的16关节骨架用于H36M。受试者1、5、6、7和8被视为训练受试者(全监督或半监督),受试者9和11用于验证。我们还测试我们的方法在最近的MPI-INF-3DHP(3DHP)数据集上[12]。3DHP的训练集类似于H36M,但具有更具挑战性的动作,包含8个在相同室内场景中使用绿色屏幕的主体。原始视频以25或50 fps的速度录制,我们将其下采样到12. 5 fps。3DHP的测试集要小得多,总共包含6个主题的大约3k图像帧。6个序列中的两个在与训练集相同的绿屏室内场景中,两个在不同的室内场景(没有绿屏)中,并且另外两个在室外。我们的网络只需要相机坐标中的3D姿势注释,并且我们为所有动作训练单个模型。训练规程。我们将训练数据集分为两部分:标记的和未标记的。基线模型使用标记数据进行训练,未标记数据的注释被自动收集并用于进一步的微调阶段。为了说明我们的方法的有效性,我们在H36M和3DHP数据集上设计了不同的数据分割模式。a)受试者方案。我们根据不同的主题划分训练数据集。对于H36 M,我们主要使用主题1的注释作为标记集,S5,6,7,8作为未标记集;对于3DHP,我们使用标记的S1来训练初始和未标记的S2-8进行微调(受试者方案S1)。在使用H36M测试不同数量的标记受试者对网络性能的影响时,我们逐渐增加标记集中的受试者数量(受试者协议S1,S15,S156和S1567)。b)行动方案。我们通过根据不同的动作分割H36M数据集来评估框架学习新动作的能力。首先,不管动作难度的不同程度,我们使用动作的前半部分(方向、讨论、吃饭、问候、打电话、拍照、摆姿势和购买)作为标记集,其余部分作为未标记集(动作方面的协议一半)。然后,为了说明我们的自动收集的注释可以增强网络向下)进行微调(动作明智协议困难)。评估指标。预测的3D姿态的准确性通常根据平均每关节位置误差(MPJPE)来评估,即从以根关节(骨盆)为中心的预测到地面实况注释的平均每关节距离(以mm为单位)。此外,受[22]的启发,我们采用了另外两个度量-NM-PJPE被设置为避免受试者身高的依赖性,其中比例因子被应用于预测,以便最小化注释和预测之间的平方距离当在计算每个关节的平均误差之 前 将 Procrustes 对 齐 应 用 于 预 测 时 , 度 量 变 为PMPJPE,其与尺度和方向无关。在本文中,所有的三个评价指标在毫米证明。实施详情。如第3.1节所述,我们的初始3D人体姿势估计网络是3堆栈体积沙漏网络,其中前2个堆栈通过在MPII 2D人体姿势数据集上训练的2D检测器的转移学习来初始化。然后固定这两个堆栈的参数(无需使用来自3D数据集的2D注释进行微调),因此, 3D网络的训练。对于数据集子集上的全监督训练,我们使用批处理进行训练学习率为2时,大小为2。5×10−4。对于网络微调,我们在整个unanno上训练2个epoch学习率下批量大小为4的图像序列二、5×10−5。用于全监督训练的注释和用于网络微调的伪注释(优化预测)都增加了50%的机会翻转,−30次旋转+30次旋转和0次旋转。75块1 25倍规模ing.4.2. 3D轨迹优化结果在数据集的标记部分上训练的基线网络在数据集的未标记部分上产生合理的3D姿态预测,然后使用我们的轨迹完成方法优化预测。表1和表2给出了H36 M S5-8和3DHP S2-8在受试者方案S1下的3D轨迹优化结果。表1和表2显示了优化后所有评估指标的明显改进。此外,可以观察到,可以使用热图得分值来选择可靠的预测和优化。由于优化对视频序列施加了时间平滑性属性,因此通过先前或随后的姿势来校正错误的关节中的一些图3显示了优化前后的一些3D姿势示例,显示优化的预测(蓝色骨架)更接近地面实况,特别是对于那些被遮挡的关节。2197MPJPENMPJPEPMPJPE预测(全部)优化(全部)91.2081.6786.8377.3675.5266.88Preds(评分>τ)Optis(评分>τ)71.1264.1668.7760.8862.9257.79表1. 受试者方案S1下的H36M优化结果。预测(全部)是在S1上训练的网络对H36 M的S5-8的直接输出,优化(全部)是优化结果。有86.38%的预测得分大于阈值τ= 0。7 .第一次会议。表2. 受试者方案S1下的3DHP优化结果。 预测(全部)是在S1上训练的网络对3DHP的S2-8的直接输出,优化(全部)是优化结果。有80.96%的预测得分大于阈值τ= 0。五、图3. 受试者方案S1下的定性H36M优化结果。H36 M S5- 8在3D轨迹优化前后的一些3D姿态的可视化。绿色虚线骨架是地面实况姿势,红色骨架是初始网络预测,蓝色骨架是优化预测。4.3. 网络微调结果受试者结果。表3显示了在受试者协议S1下在H36M上训练的网络的预测误差,使用不同的损失设置进行微调,表3. H36M在受试者方案S1下的微调结果。网络(由H36M,S1初始化)在不同的损失配置下用未注释的S5-8图像进行微调。在H36M验证集上生成结果。与一些最先进的方法进行比较。我们的实验的数据分裂模式,即。用于完全监督训练(基线)的S1和用于网络微调(微调)的S5-8(没有2D微调)与Rhodin等人的相同。[22],他们利用多视图信息来执行半监督训练。我们的基线与他们的基线相当,但在使用相同数量的数据的情况下,我们的网络微调Pavllo等人[18]设计接受2D注释(或检测)作为输入以重构3D姿态的深度网络,并且它们的半监督训练经由将预测的3D姿态重新投影到2D注释来执行。表3中的结果是在单帧设置中使用提供的堆叠沙漏检测生成的,没有微调(SH PT)。基线也与我们的基线相当,但当没有地面真实2D注释可用于微调2D检测器时,它们的半监督训练失败(即,2D检测是不太准确)。在相同的配置下,我们的两阶段训练框架工作良好,网络在单帧中工作,这更容易和更快地训练,并且在训练或测试期间不需要连续的图像帧。从表3还可以观察到我们的轨迹优化、加权保真度损失和骨长度一致性损失如何递增地改善基线网络。每个组件都进一步改进了网络,最终初始网络在所有三个评估指标中获得了约10%表4提供了该烧蚀实验的更详细的行动方面的结果。对于所有操作,由优化预测监督的结果优于基线,证明了我们的注释自动收集方案的有效性。对于大多数动作,具有加权保真度加骨长度一致性损失的优化监督获得最佳结果。图4显示了MPJPENMPJPEPMPJPERhodin[22]基线99.691.5-德国[22]98.588.8-Pavllo[18]基线98.693.870.3美国[18]119.3113.792.8我们的基线97.793.475.6原有监管94.589.769.3+ 加权保真度93.088.669.0+ 骨稠度92.687.768.8优化监管91.082.167.6+ 加权保真度90.581.467.1+ 骨稠度88.880.166.5MPJPENMPJPEPMPJPE预测(全部)优化(全部)132.25125.97128.87123.53109.1598.41Preds(评分>τ)Optis(评分>τ)100.2498.63101.5798.3286.6581.082198直接讨论吃迎接电话照片构成购买基线78.9092.8082.0986.3494.10113.2183.75110.55+ 优化监管71.4787.4577.3679.9487.96107.6974.47108.40+ 加权保真度70.8685.5577.4078.9287.93108.4873.53107.03+ 骨稠度70.4483.6176.5977.9185.43106.1472.26102.93坐坐下烟雾等WalkDog走WalkPair平均基线125.45185.7690.5782.2499.8367.0479.8697.72+ 优化监管118.34168.8584.2577.2894.7160.9772.7191.05+ 加权保真度117.91171.9383.5275.8293.5560.5271.1590.50+ 骨稠度115.79164.9982.4374.3494.6160.1570.6588.77表4. 受试者方案S1下的消融H36M微调结果。MPJPE中显示的网络微调结果,通过在不同损耗配置下对H36M验证集的操作进行最好用粗体。图4. 受试者方案S1下的定性微调结果。 一些最终网络微调结果的可视化在验证集上,根据受试者方案S1。前8列是H36M结果,后4列是3DHP结果(绿屏演播室、无绿屏演播室和室外)。绿色骨架是地面真实姿势,红色骨架是基线网络预测,蓝色骨架是微调网络的最终结果。初始网络和用具有骨长度一致性损失的加权保真度优化监督微调的未检测到或错误检测到的关节(与其他关节互换)通过网络微调进行有效校正我们进一步测试我们的方法与不同数量的标记的主题。随着标记和未标记主题的变化,我们的方法仍然可以很好地提高基线网络的性能。图5示出了在逐对象协议S15、S156和S1567下的网络微调结果。它表明,我们的框架一致地提高了网络与不同的标记的主题。明智的结果。为了测试我们的框架表5比较了在行动方案一半下对H36M验证集的一半未标记行动的基线和表6给出了在行动方案硬下4个未标记硬行动的H36M验证集的结果。可以观察坐坐下烟雾等基线111.88254.4269.2566.80微调101.08215.0264.7161.57WalkDog走WalkPair平均基线75.9557.6561.3698.92微调71.9553.6356.7588.75表5. H36M在行动明智协议下的微调结果一半。 有标签和无标签的行动的困难是相似的。结果是在H36M验证集中的未标记训练动作部分上生成的,如MPJPE所示。照片采购坐坐下Avg.基线85.0085.01107.85252.06138.09微调83.2282.7697.44200.32119.76表6. H36M在行动明智协议下的微调结果很难。4个未标记的行动更具挑战性。在H36M确认集中的这4个硬操作上生成结果,如MPJPE所示这两种协议下的网络性能都在新的动作上得到了提升,表明我们的两阶段框架有能力帮助从无监督数据中学习新的动作,特别是对于具有挑战性的AC。2199图5. 使用不同数量的标记H36M子序列进行训练。 根据主题 方 案 S1 、 S15 、 S156 和 S1567 的 MPJPE 、 NMPJPE 和PMPJPE。MPJPENMPJPEPMPJPE工作室GS基线124.52121.3398.41微调113.49111.6590.85Studio no GS基线151.45149.15122.46微调138.25136.43103.52户外基线187.06180.46158.67微调171.16167.18148.89所有基线149.79146.07122.07微调136.76134.40109.84表7. 3DHP上不同场景的结果。受试者方案S1下3DHP验证集的网络微调结果训练集中的所有视频都在具有绿色屏幕的室内工作室(Studio GS)中记录。结果在验证集上生成,其中显示所有三个场景(Studio GS、Studio no GS和Outdoors)。选项。此外,最近关于半监督学习的研究[14]解决了“类分布不匹配”的问题,这是指来自不同类的标记和未标记数据是否限制了分类任务的半监督学习的性能。为了验证我们的框架在这种情况下,我们选择包含在标记和未标记的部分中的动作尽可能不同。我们用H36M“讨论”(主要是站立)的注释数据训练初始模型微调后,这两个动作都得到MPJPE下降:讨论从82.2mm到79.2mm,Phoning从144.5mm到134.2mm,表明尽管类分布不匹配,但我们的框架是有效的。推广到新的场景和户外拍摄。 作为H36 M的训练集和验证集都是室内的,我们还在更近和更有挑战性的数据集-MPI-INF-3DHP上测试了我们的两阶段训练方案,其验证集不仅包含与训练集相同的室内场景的图像,而且包含新的在3DHP上的实验在受试者方案S1下进行。表7显示了3DHP验证集上不同场景的结果。可以观察到,我们的两阶段训练框架改善了所有三个评估度量的所有场景中一些结果在图4. 可以从针对所有三种类型的场景的重建的3D姿态观察到明显的改进。跨数据集验证。 为了在更真实的场景中验证我们的框架,我们进行了跨数据集转移学习的实验,仅使用新数据集的未标记数据将在一个数据集上训练的模型转移到新数据集。我们使用来自3DHP的未标记数据来微调在H36M上完全监督训练的模型。我们从3DHPs1-5中随机选择5个视频作为未注释的训练数据,并从s6-8中随机选择3个视频进行测试。优化后的MPJPE在s1-5上由192.6mm下降到176.6mm;在使用优化的预测来微 调 网 络 之 后 , s6-8 上 的 结 果 从 206.8mm 下 降 到153.8mm,这表明初始网络在3DHP数据集上提升了25.6%,而没有引入任何3DHP注释。5. 结论在本文中,我们引入了一个两阶段的框架,用于单图像3D人体姿态估计,以提高神经网络的性能,通过自动收集未注释的单目视频的注释。大量的实验证明了我们的框架的有效性,表明它可以成功地帮助学习新的3D人体姿势从未注释的单目视频。当没有足够的注释数据来训练3D人体姿态估计网络时,可以应用此框架,而大量未注释的单目视频可用,这在现实世界中通常是6. 确认本课题得到了国家科技重大专项2018ZX01008103、中 央 高 校 基 础 研 究 经 费 和 科 技 创 新 专 项201809162CX3JC4的支持。引用[1] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新标杆2200和最先进的分析。在Proceedings of IEEE Conference onComputer Vision and Pattern Recognition(CVPR),第3686-3693页[2] Stephen Boyd,Neal Parikh,Eric Chu,Borja Peleato,Jonathan Eckstein,et al.分布式优化和统计学习通过交替方向法的多-[14] Avital Oliver、Augustus Odena、Colin Raffel、Ekin DCubuk和Ian J Goodfellow。半监督学习算法的真实感评价。2018年。[15] Georgios Pavlakos,Xiaowei Zhou,and Kostas Daniilidis.三维人体姿态估计的有序深度监督。IEEE计算机视觉会议论文集老虎钳 基础和Tr端3(1):1在机器学习中,和Pattern Recognition,第7307-7316页,2018年。[16] Georgios Pavlakos,Xiaowei Zhou,Konstantinos G Derpa-[3] 蔡建峰,EmmanuelJCand e`s,和Zu o weiShen. 矩阵完备化的奇异值阈值算法SIAM Journal on Optimization,20(4):1956[4] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在IEEE计算机视觉和模式识别会议论文集,第7035-7043页[5] 陈文正、王欢、李阳燕、苏浩、王振华、涂长河、丹尼·利辛斯基、丹尼尔·科恩-奥尔和陈宝泉.合成训练影像以提升人体三维位姿估计。2016年第四届3D视觉国际会议(3DV),第479-488页。IEEE,2016.[6] Rishabh Dabral、 Anurag Mundhada 、 Uday Kusupati、Safeer Afaque、Abhishek Sharma和Arjun Jain。从结构和运动学习三维人体姿势。在欧洲计算机视觉会议(ECCV)的会议记录中,第668-683页[7] Xuanyi Dong,Shouou-I Yu,Xinshuo Weng,Shih-EnWei,Yi Yang,and Yaser Sheikh.注册监管:一种提高面部标志点检测器精度的无监督方法。在IEEE计算机视觉和模式识别会议(CVPR)中,第360-368页[8] CatalinIonescu, JoaoCarreira,andCristianSminchisescu.用于3d人体姿态估计的迭代二阶标签敏感池。IEEE计算机视觉和模式识别会议论文集,第1661-1668页,2014年[9] Zhouchen Lin,Minming Chen,and Yi Ma.精确恢复低秩矩阵的增广拉格朗日乘子法。arXiv预印本arXiv:1009.5055,2010。[10] Guangcan Liu , Zhouchen Lin , Shuicheng Yan , JuSun,Yong Yu,and Yi Ma. 基于低秩表示的子空间结构鲁棒恢复。IEEE Transactions on Pattern Analysis andMachine Intelligence(TPAMI),35(1):171[11] Julieta Martinez、Rayat Hossain、Javier Romero和JamesJ Little。一个简单而有效的三维人体姿态估计基线在IEEE国际计算机视觉会议论文集,第2640-2649页[12] Dushyant Mehta , Helge Rhodin , Dan Casas , PascalFua , Oleksandr Sotnychenko , Weipeng Xu , andChristian Theobalt.使用改进的cnn监督进行野外单目三维人体姿态估计。在2017年3D视觉国际会议(3DV)中,第506IEEE,2017年。[13] Alejandro Newell,Kaiyu Yang,and Jia Deng.用于人体姿态估计的堆叠沙漏网络在欧洲计算机视觉会议上,第483施普林格,2016年。尼斯和科斯塔斯·丹尼利迪斯单图像三维人体姿态的粗到细体积在IEEE计算机视觉和模式识别会议集,第7025-7034页[17] Georgios Pavlakos , Xiaowei Zhou , Konstantinos GDerpanis,and Kostas Daniilidis.为无标记的3d人体姿势注释获取多个视图。在IEEE计算机视觉和模式识别会议论文集,第6988-6997页[18] DarioPavllo ,ChristophFeichtenhofer, DavidGrangier,and Michael Auli.使用时间卷积和半监督训练的视频中的3d人体姿势估计。第7753-7762页[19] Alin-Ionut Popa、Mihai Zanfir和Cristian Sminchisescu。用于集成2d和3d人体感知的深度多任务架构。在IEEE计算机视觉和模式识别会议论文集,第6289-6298页,2017年。[20] Mir Rayat Imtiaz Hossain和James J Little。利用时间资讯进行 三维 人体 姿态 估测 。在欧洲 计算 机视 觉会 议(ECCV)的论文集中,第68-84页[21] Helge Rhodin,Mathieu Salzmann,and Pascal Fua.用于3d人体姿态估计的非监督几何感知表示。在欧洲计算机视觉会议(ECCV)的会议记录中,第750-767页[22] HelgeRhodin , Jo¨rgSpo¨rri , IsinsuKatircioglu ,VictorConstantin , Fre´de´ ricMeyer , ErichMu¨ ller , MathieuSalzmann,and Pascal Fua.从多视角图像学习单目3d人体姿态在IEEE计算机视觉和模式识别会议论文集,第8437-8446页[23] 格里高利·罗杰斯和科迪莉亚·施密德。mocap引导的野外3d姿态估计数据增强神经信息处理系统的进展,第3108-3116页,2016年[24] GregoryRogez , PhilippeWeinzaepfel 和 CordeliaSchmid。Lcr-net:人体姿势的定位-分类-回归。在IEEE计算机视觉和模式识别会议论文集,第3433-3441页[25] 小孙、尚嘉祥、双亮、卫奕辰。合成人体姿势回归。在IEEE计算机视觉国际会议论文集,第2602-2611页[26] 丹尼斯·托姆克里斯·拉塞尔和卢尔德·阿加皮托 从深处升 起 : 从 单 个 图 像 进 行 卷 积 3d 姿 态 估 计 。InProceedings of the IEEE Conference计算机视觉和模式识别,第2500- 2509页,2017年。2201[27] Gul Varol 、 Javier Romero 、 Xavier Martin 、 NaureenMah- mood 、 Michael J Black 、 Ivan Laptev 和 CordeliaSchmid。向人造人学习在IEEE计算机视觉和模式识别会议论文集,第109-117页[28] Min Wang,Xipeng Chen,Wentao Liu,Chen Qian,Liang Lin,and Lizhuang Ma. Drpose3d:3D人体姿态估计中的深度排序。2018年。[29] Wei Yang , Wanli Ouyang , Xiaolong Wang , JimmyRen,Hongsheng Li,and Xiaogang Wang.通过对抗学习的野外3D人体姿势估计在IEEE计算机视觉和模式识别会议论文集,第5255-5264页[30] Xingyi Zhou , Qixing Huang , Xiao Sun , XiangyangXue,and Yichen Wei.野外3d人体姿态估计:一种弱监督方法。在IEEE计算机视觉国际会议论文集,第398-407页[31] 朱莹莹,黄东,费尔南多·德拉托雷,西蒙·露西.基于子空间并的复杂非刚体运动三维重建在IEEE计算机视觉和模式识别会议论文集,第1542- 1549页
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功