没有合适的资源?快使用搜索试试~ 我知道了~
基于距离矩阵回归的单幅图像三维人体姿态估计
1基于距离矩阵回归的单幅图像三维人体姿态估计弗朗切斯克·莫雷诺-诺格尔Institut de Robo` tica i Informa` tica Industrial(CSIC-UPC),08028,Barcelona,Spain摘要本文研究了从单幅图像中估计人体三维姿态的问题我们遵循标准的两步流水线,首先检测N个身体关节的2D位置,然后使用这些观察结果来推断3D姿势。对于第一步,我们使用最近的基于CNN的检测器。对于第二步,大多数现有方法执行笛卡尔关节坐标的2N到3N我们表明,通过使用N×N距离矩阵表示2D和3D人体姿态,并将问题表示为2D到3D距离矩阵回归,可以获得更精确的姿态估计。为了学习这样的回归量,我们利用简单的神经网络架构,通过构造,强制预测矩阵的正性和对称性该方法还具有自然地处理缺失的观察结果并允许假设未观察到的关节的位置的优点。Humaneva和Human3.6M数据集上的定量结果表明,与最先进技术相比,性能获得了一致的提高。使用在Human3.6M上学习的回归器对LSP数据集的野生图像进行定性评估,显示出非常有希望的泛化结果。1. 介绍已知从单个RGB图像估计3D人体姿势是严重不适定的问题,因为许多不同的身体配置可以具有几乎相同的投影。一个典型的解决方案是使用区分策略直接从图像事件中学习映射(例如,HOG,SIFT)到3D姿势[1,9,32,36,44]。这最近已经扩展到使用CNN的端到端映射[23,46]。然而,为了有效,这些方法需要大量的训练图像,这些训练图像用地面真实3D姿势注释。虽然获得这种类型的数据对于2D姿势是直接的,甚至对于“在野外”的图像FLIC [35]或LSP [18]数据集),它需要使用复杂的运动捕捉(MoCap)系统用于3D情况。此外,以这种方式获得的数据集(例如,Humaneva [37],Human3.6M [17])大多是室内的,他们的图像不代表类型在实验室外的图像外观因此,将问题分为两个阶段似乎是很自然的:最初使用强大的图像驱动的2D关节检测器,然后使用从MoCap数据中学习的先验知识从这些图像观察中推断3D姿态。这种管道已经在许多工程中使用[10,31,39,40,50,52],这是我们在本文中考虑的策略。特别是,我们首先使用最近的CNN检测器[51]估计2D关节。对于第二阶段,大多数先前的方法在笛卡尔空间中在N个身体关节的2个N-和3个N-向量表示之间执行2D到3D推断。相比之下,我们建议使用每对关节之间的N×N欧几里得距离矩阵来表示2D和3D姿态,并将3D姿态估计问题表示为2D到3D距离矩阵回归1之一。图1,说明了我们的管道。尽管计算起来非常简单,但欧几里得距离矩阵(EDMs)相对于向量表示有几个有趣的优点,特别适合我们的问题。具体而言,EDM:1)自然地编码姿态的结构信息。对向量表示的推理需要明确地表达这样的约束;2)对于平面内图像旋转和平移是不变的,并且归一化操作为缩放带来不变性;3)捕获所有身体关节之间的成对相关性和依赖性。为了学习将2D映射到3D EDM的回归函数,我们考虑全连接(FConn)和全卷积(FConv)网络架构。由于我们的数据的维度很小(N×N方阵,在我们的模型中N=14个关节),因此可以通过浅层架构实现输入到输出的映射,FConn只有2个隐藏层,FConv只有4个卷积层。最重要的是,由于用于训练网络的距离矩阵仅由点配置构建,因此我们可以轻松合成伪影并在2D检测器噪声和身体部位遮挡下训练网络。我们在包括Humaneva-I和Human3.6M数据集在内的标准基准上取得了最先进的结果,并且我们表明我们的方法对大型2D检测器具有鲁棒性。1一旦预测了3D距离矩阵,就可以使用多维缩放(MDS)来估计3D身体关节的位置。28232824输入图像和2D检测x输入2DEDM电火花加工(x)2D-3DEDM使用神经网络回归估计的3DEDM电火花加工多维标度3D形状yMDS图1. 概况. 我们将3D人体姿态估计问题表示为两个欧几里得距离矩阵(EDMs)之间的回归,分别编码2D和3D身体关节的成对距离。通过神经网络进行回归,并通过多维缩放从预测的3D EDM获得3D联合估计。误差,同时(对于FConv的情况)还允许合理地假设闭塞的肢体。此外,利兹运动姿势数据集的实验,使用在Human3.6M上学习的网络,在“野外”图像上表现出良好的生成能力2. 相关工作从单个图像估计3D人体姿势的方法可以大致分为三个主要类别:依赖于生成模型来约束可能姿态的空间的方法、从图像证据直接预测3D姿态的判别方法以及介于前两类之间的方法。最直接的生成模型包括将人类姿势表示为从训练数据中学习的模式的线性组合[5]。允许表示更大变形的更复杂的模型包括谱嵌入[43],欧几里得或黎曼流形上的高斯混合[15,41]和高斯过程[22,48,54]。然而,探索这些生成模型定义的解空间需要迭代策略和足够好的初始化,使这些方法更适合于跟踪目的。早期的判别方法[1,9,32,36,44]专注于从图像描述符(如HOG滤波器的SIFT)直接预测3D姿态,最近,从编码身体部位信息的丰富特征[16]和从Deep架构[23,46]中的整个图像直接预测3D姿态。以来 特征和姿态空间之间的映射学习起来很复杂,这类技术的成功取决于存在大量用地面真实3D姿态标注的训练图像。Humaneva [37]和Human3.6M [17]是用于此目的的两个流行的MoCap数据集。然而,这些数据集是在实验室条件下获得的,这阻止了唯一地使用它们的数据来很好地推广到无约束和真实图像的方法[33]通过使用由真实纹理制成的自动合成图像来增强CNN的训练数据来在前两个类别之间,存在一系列方法,其首先使用判别公式来估计2D关节位置,然后使用e.G. 回归森林,期望最大化或进化算法[10,26,31,39,40,50,52]。这两个步骤可以迭代细化[39,50,52]或独立制定[10,26,31,40]。通过这样做,可以利用当前基于CNN的2D检测器的全部功能,如DeepCut [28]或卷积姿态机(CPM)[51],这些检测器已经用大规模图像数据集进行了训练关于3D身体姿势参数化,大多数方法使用具有N个关节的骨架,关节数量在14和20之间,并且由3N个向量 在笛卡尔空间中。最近,[10]使用了全身的通用体积模型。为了在2D到3D推断期间加强联合依赖性,[17]和[46]考虑了通过核依赖估计和自动编码器获得的潜在联合表示。在本文中,我们提出使用N×N欧几里德距离矩阵来捕获这种联合依赖关系。电火花加工已经在类似的领域中得到应用,例如:在模态分析中估计形状基础[2],表示蛋白质结构[20],用于传感器网络定位[7]和运动约束的解决方案[29]。值得指出的是,对于3D形状识别任务,测地线距离矩阵(GDM)优于EDM,因为它们对等距变形是不变的[42]。然而,出于同样的原因,GDM不适合我们的问题,因为多个形状变形产生相同的GDM。相比之下,产生特定EDM的形状是唯一的(直到平移,旋转和反射),并且可以通过多维缩放来估计[7,11]。最后,通过距离矩阵表示2D和3D关节位置,使得可以使用简单的神经网络执行推理。与最近基于CNN的3D人体姿态估计方法[23,46]相比,我们不需要显式修改我们的网络来对潜在的联合依赖性进行建模。这直接由距离矩阵编码。2825i=1图2. EDM与笛卡尔表示。左:随机姿态对之间的相对3D和2D距离分布,表示为笛卡尔向量(第一个图)和EDM矩阵(第二个图)。笛卡尔表示显示了更去相关的模式(皮尔逊相关系数为0。09比0。60的EDM),特别是遭受更大的模糊性,即。具有相似的2D投影和不同的3D形状的姿势红色圆圈表示最模糊的姿势,绿色圆圈表示最理想的配置(2D和3D差异较大)。请注意,使用EDM表示时,红色圆圈沿垂直轴分布更均匀,有利于更大的差异和更好的可辨别性。右:具有相似(顶部)和不同(底部)投影的成对不同3D姿势它们对应于最左侧图中的暗红色和深绿色3. 方法图1示出了我们的方法的主要构建块,以估计3D人体姿势从一个单一的RGB图像。 给定该图像,我们首先使用最先进的探测器然后,将2D关节规范化并由EDM表示,该EDM被馈送到神经网络以回归EDM用于3D身体坐标。最后,通过“反射感知”多维缩放方法[ 7 ]估计3D关节的位置接下来,我们将详细描述这些步骤中的每一个。3.1. 问题公式化我们将3D姿态表示为具有N =14个关节的骨架,并由3N向量y =[p],. . .,p=0,在范围[-1,1]内。3D关节位置yi以米表示,而没有进一步的预处理。然后,我们表示2D和3D构成的欧几里德距离矩阵的手段对于3D姿态y,我们将edm(y)定义为N×N矩阵,其中其(m,n)项计算为:edm(y)m,n=<$pm− pn<$2。(一)类似地,edm(x)是从归一化的2D关节坐标之间的成对距离构建的N×N如果某些关节被遮挡,我们将edm(x)中相应的行和列设置为零。尽管定义简单,但EDM有几个相对于笛卡尔表示的优势:EDM是无坐标的,不受旋转、平移和反射的影响。1N其中pi是第i个关节的3D位置同样,2D姿态由2N个向量x =[u],. . . ,u,第 以前的基于回归的方法[33,39,52]需要通过预先对准1N其中ui是像素坐标。给一个全身的人我们的目标是估计3D姿态向量y。为此,我们遵循基于回归的判别方法。这个问题最一般的表述是将涉及使用一组训练图像来学习将输入图像或其特征映射到3D姿态的函数。然而,如上所述,这样的过程将需要大量的数据来获得良好的泛化。或者,我们将首先使用卷积姿态机检测器计算2D关节位置[51]。我们用x表示CPM的输出,它是一个噪声版本地面实况2D姿态x的然后,我们可以将我们的问题正式地写为从潜在损坏的2D联合观测xi到3D姿态y,g iv en注释和干净的训练数据集{xi,yi}D学习映射函数f:R 2 N →R 3 N。3.2. 用EDM为了获得深度尺度不变性,我们首先将投影的2D姿态xi的垂直坐标归一化为训练3D姿势yiw.r.t. 全球坐标系,通常指由特定的身体关节定义此外,EDM还不仅对普通3D矢量表示的底层结构进行编码,而且还捕获了关于所有身体关节之间的成对相关性的更丰富的这两个优点的直接结果是,基于EDM的表示允许减少2D到3D人体姿态估计问题的固有模糊性。为了从经验上支持这一说法,我们从Humaneva-I数据集中随机挑选了几对样本,并使用笛卡尔或EDM表示绘制了它们的3D和2D姿态之间的相对距离分布(见图11)。2)的情况。对于笛卡尔的情况(最左边的图), 图中的条目对应于[dist(yi,yj), dist(xi,xj)],其中dist(·)是归一化距离,i,j是两个随机索引。类似地,对于EDM(第二曲线图),图的条目对应于[dist( edm(yi), edm(yi)), dist( edm(xi), edm(xi))]。注意,在这种情况下,3D和2D成对差异的相关性要大得多。对这种模式的解释是2826i=1图3. 用于执行对称欧几里得距离矩阵的2D到3D回归的神经网络架构。距离矩阵对于大多数不同的2D姿态产生较大的3D姿态差异图中的红色圆圈对应于最模糊的形状,即,具有非常相似的图像投影的不相似姿态对{yi,yj}{ui,uj}。请注意,使用EDM时,这些关键的sam-图中示出了沿垂直轴的较大差异,即,对2D表示。这种行为使得学习2D到3D映射的后续任务变得更容易。3.3. 二维到三维距离矩阵回归在SEC中提出的问题3.1现在可以重新编写为找到映射f:RN×N→RN×N,从潜在损坏的距离矩阵edm(x)到编码3D姿态的矩阵edm(y),给定训练集{edm(xi), edm(yi)}D.输入和输出数据(14×14矩阵)的表达性和低维性将使学习这种映射成为可能,微型神经网络架构,我们接下来会描述。完全连接的网络。由于距离矩阵是对称的,我们首先考虑一个简单的FConn架构,它具有40 K个自由参数,回归edm(y)对角线上方的N(N−1)/2= 91个元素。如图左3,网络由三个完全连接(FC)层组成,具有128-128-91个神经元。每个FC层之后是一个整流线性单元(ReLU)。为了减少过拟合,我们在前两层之后使用dropout, dropout比率为0.5(将神经元的输出值设置为零的概率为50%输出端的91维矢量用于建立14×14输出EDM,通过构造,保证了EDM是对称的。此外,最后一个ReLU层强制执行矩阵的所有元素的积极性,这是EDM的另一个必要(但不是充分)条件。完全卷积网络受最近全卷积网络在语义分割[24],流量估计[13]和变化检测[4]等任务中的成功的启发,我们还考虑了图中所示的架构。3-右回归整个14×14距离矩阵。FConv网络最初被设想为映射具有某种空间连续性的图像或二维数组然而,EDM不传达这种连续性,此外,它们被定义为骨架关节的随机排列。在任何情况下,对于人体运动的情况,距离矩阵变成高度结构化的,特别是当处理遮挡关节时,这导致输入EDM内的零列和零行的图案。在实验部分,我们将证明FConv网络在这种情况下也非常有效。根据以前的作品[4,24],我们探索了一个具有收缩和膨胀部分的建筑。对比部分由两个卷积块组成,每个卷积块具有7×7内核和64个卷积层之后是具有学习参数的批量归一化(BN)层,从而从必须在测试期间从数据计算这种统计的任务中解脱出来。BN输出被转发到非线性ReLU;一个步幅为2的2 × 2最大池化层,执行实际的收缩;最后,到具有0的丢弃层。5比率。扩展部分也有两个主要的块,从反卷积层开始,内部执行×2上采样,并再次执行7×7内核和64个特征的卷积。反卷积之后是ReLU和比率为0的dropout层。五、对于第二个块,dropout被卷积层取代,该卷积层将64个14×14特征压缩成单个14×14通道。请注意,不能保证可扩展部分的输出将是一个对称的正矩阵,正如EDM所期望的那样。因此,在计算实际损耗之前,我们设计了一个名为“矩阵对称”(MS)的层如果我们用Z表示扩展部分的输出,MS将简单地计算(Z+Z<$)/2,这是对称的。最后一个ReLU层,保证所有的值都是正数。这个全卷积网络有606K个参数。训练在实验部分,我们将报告多个训练设置的结果。在所有这些实验中,这两个网络都是从头开始训练的,并且随机初始化-2827方法行走(动作1,摄像机1)S1 S2 S3平均慢跑(动作2,摄像机1)S1 S2 S3平均拳击(动作5,镜头1)S1 S2 S3平均[ 45 ]第48.80 47.4049.8048,7075,35---- ---[ 8 ]第八届全国人大代表45.40 28.3062.3045.33----42.50 64.0069.3058.60[ 38 ]第三十八话66.00 69.00------- ---[ 31 ]第二届中国国际汽车工业展览会161.80 一百八十二点188.60177.47----151.00 170.00英镑158.00159.67[ 40 ]第四十话99.60 108.30127.40111.77----- ---[ 39 ]第三十九话65.10 48.6073.5062.4074.2046.6032.2051.00- ---[ 30 ]第三十话75.10 99.8093.8089.5779.2089.8099.4089.47- ---王CVPR71.90 75.7085.3077.6362.6077.7054.4064.90- ---[ 6 ]第六届全国人大代表68.30-------62.70---[ 21 ]第二十一话44.00 30.9041.7038,8757.2035.0033.3041.83- ---[ 12 ]第十二66.50-------60.00---[ 3 ]第三届中国国际汽车工业展览会186.10 一百九十七点八209.40197.77----165.50 一百九十六点五208.40190.13[ 47 ]第37.50 25.1049.2037.27----50.50 61.7057.5056.57[ 52 ]第五十二话35.80 32.4041.6036.6046.6041.4035.4041.13- ---[ 55 ]第二届中国国际汽车工业展览会100.00 98.90123.10107.33----112.50 一百一十八点六110.00113.70[ 10 ]第10话73.30 59.0099.4077.23----82.10 79.2087.2082.83我们的方法,完全连接的网络Train 2D:GT,测试:CPM35.70 36.8041.3437.9541.2527.9634.3434.5247.26 50.5267.6455.14Train 2D:CPM,Test:CPM20.16 14.0028.7620.9738.1217.9521.4225.8344.05 48.5257.0049.86Train 2D:GT+CPM,Test:CPM19.72 13.5226.4619.9034.6417.8520.0524.1845.6747.5257.6350.27我们的方法,全卷积网络Train 2D:GT,测试:CPM27.7538.9331.6847.7527.8230.2135.2642.4049.1559.1750.24Train 2D:CPM,Test:CPM19.8212.6426.1919.5543.8321.7922.1029.2445.55 47.6446.5246.57Train 2D:GT+CPM,Test:CPM19.6813.0224.8919.2039.6920.0421.0426.9246.63 47.5646.4546.88表1. Humaneva-I数据集上的结果。地面实况与预测关节位置之间的平均误差(单位:mm)。‘-’ indicates 所有方法的结果都是从原始论文中获得的,除了(*),它是从[10]中获得的。使用[14]中提出的策略。在这两种情况下,我们使用标 准 的 L2 损 失 函 数 。 使 用 Adam [19] 进 行 优 化 ,Humaneva-I的批量为7个EDM,Human3.6M的批量为200个EDMFConn一般需要大约500个epoch来收敛,FConv大约需要1500个epoch。我们使用默认的Adam参数,除了步长α,它被初始化为0。001,降为0。0001,250(FConn)和750(FConv)时期后。模型定义和训练在MatconvNet下运行[49]。3.4. 从距离矩阵到3D姿势检索3D关节位置y =[p],. . . ,p]4. 实验我们在两个公开可用的数据集上广泛评估了所提出的方法,即Humaneva-I [37]和Human3.6M [17]。除了定量比较w.r.t.我们还评估了我们的方法对噪声2D观测和关节遮挡的鲁棒性。我们进一步提供了LSP数据集的定性结果[18]除非特别说明,否则我们假设我们的方法中的2D关节位置是用CPM检测器[51]获得的,并提供全身人物图像的边界框。作为文献中的常见做法[39,52],重新-1N从由神经网络估计的潜在噪声距离矩阵EDM(y),可以公式化为以下误差最小化问题:我们报告的施工误差是指平均3D Eu-在将估计的姿态与地面实况(如果可用)刚性对准之后计算的关节误差(以mm为单位)。Σargmin|布吕普-p2−edm(y)2| .(二)4.1. Humaneva Im n2p 1,…pNm,nm,n在Humaneva-I的实验中,我们训练EDM我们使用[7]解决了这个最小化问题,这是一个MDS算法,它对非凸方程组提出了一个半定规划松弛。2、采用梯度下降法进行精化。然而,请注意,我们从edm(y)中检索的形状y取决于反射变换,即,y和它的反射版本yx产生相同的距离矩阵。为了消除这种情况的歧义,我们根据它们的拟人化程度来保留y或y,以数量来衡量。关节的角度在[3]提供的物理激励先验定义的范围内。对受试者1、2和3的训练序列进行回归,并对“验证”序列进行评估。这与我们对比的基线使用的评估方案相同[3,6,8,10,12,21,30,31,38,39,40,45,47,50、52、55、56]。我们报告的性能上的 关于我们自己的方法,我们根据回归变量的类型考虑几种配置:全连接或全卷积网络;并且取决于用于训练的2D源的类2828型:Ground Truth(GT)、CPM或GT+CPM。2829样本3D重建右臂,腿,真实轨迹右臂,腿,Hypoth。跟踪左臂,腿,真实跟踪左臂,腿,假设。轨道图4. 假设被堵塞的身体部位。使用全卷积距离矩阵回归器获得的基础事实和假设身体部位(受试者3,来自Humaneva-I的动作“慢跑”)。该网络使用成对的闭塞关节进行训练,并且能够一次预测一个闭塞肢体(2个相邻关节)请注意,生成的轨迹与地面实况轨迹非常NN Arch.发生类型误差行走(动作1,摄像机1)S1 S2 S3平均慢跑(动作2,摄像机1)S1 S2 S3平均拳击(动作5,镜头1)S1 S2 S3平均FConn2兰德关节Avg. 误差53.3059.4951.9954.9349.9327.9137.0738.3049.6360.7464.5358.30发生错误 关节53.9560.2453.6555.9554.0630.6143.2542.6456.3268.7472.0465.70FConn右臂Avg. 误差55.5559.1649.3154.6754.4531.3036.7340.8349.4869.5968.2662.44发生错误 关节59.3855.0245.3253.2472.4837.2541.3350.35100.57127.29134.75120.87FConn左腿Avg. 误差53.5155.8760.0456.4749.8330.9041.1640.6346.6864.8562.0457.86发生错误 关节83.1586.7388.2586.0485.5861.3882.0476.3338.4372.6655.1255.40FConv2兰德关节Avg. 误差31.5628.0038.4932.6846.6326.6134.3435.8650.0054.1956.1253.44发生错误 关节32.9630.2245.7936.3248.0429.5740.3239.3158.6060.5966.3461.84FConv右臂Avg. 误差37.9627.7035.2733.6451.0028.1131.8136.9758.0959.7462.7860.20发生错误 关节48.0627.5729.7235.1269.5932.7834.7945.72111.61101.49132.76115.29FConv左腿Avg. 误差34.4238.6441.6938.2539.7229.2233.6234.1950.6853.8550.1451.56发生错误 关节61.0364.7971.4865.7759.359.2467.1161.8844.5961.2346.4850.77表2. Humaneva-I在闭塞情况下的结果。使用所提出的全连接和全卷积回归量的平均整体关节误差和闭塞和假设关节的平均误差(单位:mm)。我们使用2D GT+CPM和随机对闭塞关节训练这两种架构。使用特定闭塞配置的CPM检测进行测试用于评估的2D源始终为CPM。表1总结了结果,并表明我们的方法的所有配置均显著优于最新技术水平。当通过直接使用CPM的2D检测来训练回归量来对CPM的潜在偏差进行建模时,这种改进特别相关。有趣的是,注意FConn和FConv获得的结果非常相似,前者是一个更简单的架构。然而,正如我们接下来将要展示的,FConv在处理遮挡时实现了非常对遮挡的鲁棒性。我们估计的3D姿态明显取决于2DCPM检测的质量尽管我们使用的CPM观测已经包含一定的误差,我们已经明确评估了我们的方法在人工噪声和遮挡伪影下的鲁棒性接下来我们评估闭塞的影响我们将2D噪声的研究留到下一节。我们考虑两个关节闭塞,综合生产,通过删除两个节点的投影的电子-吨。为了使我们的网络对这种情况具有鲁棒性,并且能够假设未观察到的关节的3D位置,我们使用配对重新训练它们全臂)。表2报告了FConn和FConv的重建误差。总体结果显示FConv网络具有明显且一致的优势,在观察所有关节时,其误差值甚至与最先进的方法相当(见表1)。此外,请注意,假设关节的误差也在非常合理的范围内,仅针对“拳击”活动中的右臂位置进行开发这与之前的工作一致,这些工作表明卷积层和去卷积层的组合对于图像重建和分割任务非常有效[27,53]。关节幻觉的一个具体例子如图所示。4.第一章4.2. 对Human3.6M的评价Human3.6M数据集由11个受试者在4个视点下执行15个不同动作的360万个3D姿势组成。我们在文献中发现了3种不同的评价方案。对于方案#1,5名受试者(S1、S5、S6、S7和S8)用于培训,2名受试者(S9和S11)用于测试。训练和测试是根据每个动作独立进行的,并使用所有摄像机视图。测试在{edm(xocc), edm(yi)}D ,其中edm(xocc)与所有图像。该方案在[17,23,34,46,47,56]中使用。i i=1iedm(xi),但将两个随机行和列设置为零. 在测试中,我们考虑的情况下,随机联合oc-clusions或结构化的闭塞,其中我们完全删除一个肢体的观察(完整的腿或协议#2与协议#1的不同之处仅在于,正面视图被考虑用于测试。它最近被用于[10],也评估[3,31,55]。最后,在协议#3中,训练数据包括所有动作和视点。六2830方法直接.讨论吃迎接电话构成采购坐SitD烟雾照片等走WalkD步行Avg协议#1[ 17 ]第十七话132.71183.55133.37164.39162.12205.94150.61171.31151.57243.03162.14170.69177.1396.60127.88162,20李ICCV-136.8896.94124.74-168.08------132.1769.97--[ 46 ]第-129.0691.43121.68------162.17-65.75130.53--[ 47 ]第102.41147.7288.83125.28118.02112.38129.17138.89224.90118.42182.73138.7555.07126.2965.76124.97周CVPR87.36109.3187.05103.16116.18143.32106.8899.78124.52199.23107.42118.09114.2379.3997.70112.91[ 34 ]第48.8256.3195.9884.7896.4766.30107.41116.89129.6397.84105.5865.9492.58130.46102.2193.15我们的,FConv,测试2D:CPM67.4879.0176.4883.1297.4374.5871.96102.40116.6887.70100.3794.5775.2182.7274.9285.64协议#2[ 31 ]第二届中国国际汽车工业展览会137.40149.30141.60154.30157.70141.80158.10168.60175.60160.40158.90161.70174.80150.00150.20156.03[ 3 ]第三届中国国际汽车工业展览会1199.20177.60161.80197.80176.20195.40167.30160.70173.70177.80186.50181.90198.60176.20192.70181.56[ 55 ]第二届中国国际汽车工业展览会99.7095.8087.90116.80108.3093.5095.30109.10137.50106.00107.30102.20110.40106.50115.20106.10[ 10 ]第10话62.0060.2067.8076.5092.1073.0075.30100.30137.3083.4077.0077.3086.8079.7081.7082.03我们的了FConv,测试2D:CPM64.1176.5870.5980.8193.0174.0165.4587.93109.4983.8196.3193.0873.5181.5772.5981.52方案#3[ 52 ]第五十二话88.4072.50108.50110.2097.1081.60107.20119.00170.80108.20142.5086.9092.10165.70102.00110.18[ 33 ]第三十三话---------------88.10我们的,FConv,测试2D:CPM66.0561.6984.5173.7365.2367.1760.8567.29103.4874.7592.5569.5971.4778.0473.2373.98表3. Human3.6M数据集的结果。考虑到文中所述的3种评价方案,平均关节误差(mm)。所有方法的结果都是从原始论文中获得的,除了(*),它来自[10]。发生率类型误差直接.讨论吃迎接电话构成采购坐SitD烟雾照片等走WalkD步行Avg第2节接头Avg. 误差88.5397.83139.9999.57106.13102.7892.97113.35126.62111.73122.74109.8595.196.7697.97106.79Err.Occl. 关节94.77104.37155.66110.48119.62103.8391.04141.31135.35137.76146.68131.41116.1696.1199.73118.95左臂Avg. 误差197.86101.88123.91109.7293.00106.15100.55113.19129.50111.15135.72118.0799.21100.73100.94109.44Err.Occl. 关节177.44177.68152.06220.28145.93180.42143.24192.42154.62184.24253.88213.6176.11160.44188.38181.38右腿Avg. 误差79.9482.23132.6492.05100.7797.3276.37126.95125.51106.66109.8295.9294.8889.8291.60100.17Err.Occl. 关节81.2392.57177.80103.69148.45120.7492.63200.56183.03146.10145.29107.36133.11105.9120.12130.57表4. 人类3.6M在遮挡下的结果。平均整体关节误差和假设闭塞关节的平均误差(mm)。该网络根据文中描述的“协议#3”进行训练和评估2D输入直接.讨论吃迎接电话构成采购坐SitD烟雾照片等走WalkD步行AvgGT53.5150.5265.7662.4756.960.6350.8355.9579.6263.6880.8361.8059.4268.5362.1162.17GT+N(0,5)57.0556.0570.3365.4660.3964.4959.0658.6282.8067.8583.9770.1366.7675.0468.6267.11GT+N(0,10)76.4670.7477.1877.2573.4281.9464.6571.0597.0876.9193.4577.1285.1480.9683.4779.12GT+N(0,15)90.7291.9996.5494.9987.43101.8189.3984.46107.2693.31106.0195.96100.3896.59104.4196.08GT+N(0,20)109.84110.21117.13115.16107.08116.92107.14101.82131.43114.76115.07112.54125.50118.93129.73115.55表5. 2D噪声下Human3.6M数据集的结果。增加2D噪波级别时的平均3D关节误差。该网络使用二维地面实况(GT)数据进行训练,并使用GT+N(0.σ)进行评估。其中σ是噪声的标准偏差(以像素为单位)受试者(S1、S5、S6、S7、S8和S9)用于训练,并且S11的正视图的每第64这是在[33,52]中考虑的协议。我 们 将 评 估 我 们 在 三 个 协 议 上 的 做 法 。 与HumanEva实验相比,CPM检测不会用于训练(非常耗时),我们将使用地面真实2D位置进行训练。不过,在测试期间使用CPM检测对于协议#3,我们通过在所有姿势和相机视图中随机挑选400K样本来选择训练集,与[52]中的数量相似对于其余的实验,我们将只考虑FConv回归器,它在Humaneva数据集中显示出比FConn更好的整体性能。结果总结于表3中。对于协议#1和#3,我们的方法以相当大的幅度改进了最先进的技术,并且对于协议#2,非常类似于[10],这是一种依赖于体型的高质量体积先验的最新方法。对遮挡的鲁棒性。我们执行与Humaneva-I相同的遮挡分析,并在随机遮挡关节下重新训练网络,结果(根据方案#3)报告于表4中。同样,请注意,平均身体误差保持在合理的范围内。有,怎么-曾 经 , 一 些 具 体 的 行 动 ( 例 如 , ‘Sit’, ‘Photo’) forwhich the 我们认为这是因为在这些动作中,肢体在训练集上只有少数样本。事实上,即使在观察所有关节时,最先进的方法也报告了这些动作的不良性能。对2D噪声的鲁棒性。我们进一步分析了我们的方法(在干净的数据上训练)对2D噪声的鲁棒性。为此,我们使用具有增加量的高斯噪声的2D地面真实测试姿势,而不是使用CPM检测进行测试。分析结果见表5。请注意,3D误差随着2D噪声逐渐增加噪声水平高达20像素标准仍然合理的支持。作为参考,表4和表3中考虑的CPM检测的平均2D误差为10。91像素。还要注意的是,仍然有改进的空间,因为更精确的2D检测可以大大提高3D姿态精度。4.3. Leeds运动姿势数据集的评价最后,我们探讨了我们的方法在LSP数据集上的泛化能力。对于每个输入图像,我们使用CPM检测器定位2D关节,执行2831图5. LSP数据集上的结果。 前六列显示正确估计的姿势。最右边的列显示了失败案例。错误类型英尺膝盖臀部手肘部应该的头脖子AvgCPM5.664.224.277.255.243.173.552.654.77重复。二维CPM12.688.7110.329.508.055.797.615.248.83重复。二维GT9.757.337.476.056.144.526.244.096.67表6.LSP数据集上的重投影误差(以像素为单位)。使用在Human3.6M(方案#3)上学习的全卷积网络进行2D到3D EDM回归,并通过MDS计算3D姿态。此外,一旦估计了3D姿态,我们就可以使用Pendral-taxim[25]检索将其与输入图像对齐的刚性旋转和平移。由于相机的内部参数是未知的,我们扫描焦距配置空间,并保持最小化重投影误差的解决方案。3D注释的缺乏使得不可能执行3D形状精度的定量评估。相反,在表6中,我们报告了每个身体部位的三种类型的2D重投影误差,对数据集的2000张图像进行平均:1)CPM检测的误差; 2)当使用CPM 2D检测估计时的重新投影形状的误差;以及虽然这些结果不能保证所估计的形状的良好准确性,但它们指示该方法正常工作。对3D估计姿势的视觉检查显示出非常有希望的结果,即使对于未出现在用于训练的Human3.6M数据集上的姿势也是如此(见图11)。(五
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功