没有合适的资源?快使用搜索试试~ 我知道了~
基于弱监督的网络架构实现单目3D手部重建
补片损失迭代模型拟合1弱监督网格卷积手重建算法DominikKulon1,3RizaAlpGuüler1,3Iasonas Kokkinos3Michael Bronstein1,2,4Stefanos Zafeiriou1,31 Imperial College London2 USI Lugano3 Ariel AI4 Twitter{d.kulon17,r.guler,m.bronstein,s.zafeiriou}@iasonas@arielai.com imperial.ac.uk裁剪的输入图像预测网格生成地面实况预测地标潜在向量图1:我们提出了一种通过自动数据收集方法获得的具有网格监督的端到端神经网络训练方法我们处理大量YouTube视频,并使用2D手部关键点检测器进行分析,然后进行参数模型拟合(右侧)。拟合结果用作前馈网络的监督信号(“网格损失”),该前馈网络具有网格卷积解码器,其摘要我们介绍了一种简单有效的网络架构,用于单目3D手部姿态估计,由图像编码器和网格卷积解码器组成,该解码器通过直接3D手部网格重建损失进行训练我们通过收集YouTube视频中手部动作的大规模数据集来训练我们的网络,并将其作为弱监督的来源。我们基于弱监督网格卷积的系统在很大程度上优于最先进的方法,甚至将野外基准测试的错误减半。数据集和其他资源可在https://arielai.com/mesh_hands上获得。1. 介绍单目3D手部重建可以促进人机交互、增强现实、虚拟远程呈现或手语识别中的广泛应用。尽管如此,目前最先进的方法并不总是推广到在非实验室环境中捕获的样品。我们的工作旨在野外操作,因此主要是在从YouTube视频中收集的大规模手部动作图像数据集上进行训练;与此同时,我们的系统在很大程度上优于目前的状态-在公共基准上评估的最先进的技术。尽管我们的方法可以提供密集的手部网格,但我们优于试图解决估计通常对应于手部关节和指尖的稀疏关键点集合的坐标的更窄任务的系统标准方法是回归2D地标的热图并找到匹配的3D姿势[62,40,37]。最近的工作,也集中在全面的网格重建,依赖于拟合可变形模型估计的地标,有效地利用3D形状空间中的先验分布来执行3D重建[5,60,2,20]。这些模型通过旋转角度和线性变形函数的权重进行参数化[44]或从数据中学习的潜在特征[17,27]。我们遵循后一种方法,这已被证明是最有前途的,但我们大大提高了它们的准确性和鲁棒性。我们的第一个关键贡献是一个弱监督训练方法的三维网格重建。我们介绍了一种快速准确的方法,从未标记的图像生成数据集,这依赖于拟合手模型的2D关键点检测,同时尊重旋转角度的先验。我们的数据生成算法处理一系列YouTube视频,生成一个带有3D手部网格的精选图像数据集。我们已经选择了50,000个训练注释的过滤子集,其包括执行各种各样的任务的数百个4990ResNet-50空间网格卷积解码器4991除了数据驱动的进步,我们还通过使用基于邻域排序的空间网格卷积方法获得了实质性的改进。我们从头开始训练我们的端到端系统,通过使用一个目标函数,它只执行与图像对齐的手部网格的重建我们的系统达到了50%的手姿态估计误差相比,目前最好的模型在野生sce-nario,这是我们的主要重点。它在受控环境中的手部姿势估计方面也优于传统方法,而无需对特定数据集进行调整或过拟合总括而言,我们的贡献如下:• 我们介绍了一种自动化的方法来生成训练数据,从未注释的图像的三维手部重建和姿态估计。该方法可扩展并且不需要大的计算资源。• 我们发布了50,000个网格的数据集,这些网格与从100多个YouTube视频中选择的• 我们提出了一个简单的损失函数的网格重建,允许训练神经网络,没有中间监督。• 我们证明了空间网格卷积优于用于手部重建的谱方法和基于SPL的模型[33,44]• 我们在姿态估计和网格重建任务上大大优于当前最先进的技术,同时使用简单的单次编码器-解码器架构,结构2. 背景我们把注意力集中在只使用RGB图像作为输入的手部姿势估计任务上。当深度传感器也可用时,这比手部姿势估计更具挑战性[58,47,16,38,54]。手部网格恢复是更一般的任务,因为它旨在重建相对密集的点云并估计目标对象的姿态和主体特定形状。如果一种方法允许生成不同的特定于主题的形状,我们将其归类为属于后一类。手部姿态估计多视图自举[45]是一种迭代改进技术,其中通过执行2D关键点检测器获得的来自多个视图的手部的初始注释在3D中进行三角测量,并且如果它们满足质量标准,则在下一次迭代中重新投影用于训练。这个系统是OpenPose框架的一部分[53],我们使用它来进行弱监督。已经提出了许多方法来从估计的2D关键点回归3D姿态[62,40,32,9]。Di- bra等人[13]结合深度正则化来监督由旋转角度表示的3D姿态估计。相比之下,变分方法通过变分自编码器之间的交替训练来学习共享的潜在空间[46],潜在表示的解纠缠[57]或潜在空间的对齐[56]。这允许在任何学习的模态中对输出进行采样。Gao etal. [14]解决了在变分框架中估计与对象交互的手的姿势的问题生成网络还可以用于将合成图像转移到真实世界图像的空间中[37],方法是修改循环对抗损失[61],以包括确保图像翻译期间姿态保持的几何一致性项。Tekin等人[49]使用单镜头网络估计手部和物体姿势最近,Cai et al.[10]提出构建时空图并在谱域中使用图卷积来估计3D姿态。手部网格恢复MANO [44]是一种手部模型,通过为运动树中的每个关节指定的旋转角度和对人的形状进行建模的线性函数的混合权重进行参数化。通过应用线性混合蒙皮来获得不同的关节,该线性混合蒙皮内插分配给关节的旋转矩阵以根据角度变换顶点。此外,学习姿势相关的校正偏移以解决由蒙皮方法引起的体积损失。最近,已经提出了通过回归MANO和相机参数来找到3D姿态的许多工作。Boukhayma等人[5]从OpenPose获得的图像和热图中回归这些参数。该方法在野外图像上进行评估,但误差相对较高,如我们在评估部分中所示。Zhang etal.[60] Baek et al.[2]介绍了从热图迭代回归模型参数的方法。Hasson等人[20]预测MANO参数和重建手与之交互的对象。Ge等人。[17]在谱域中使用图形卷积来恢复手部网格。该系统包括热图回归模块,并且在真实世界图像的情况下,利用2D关键点、深度图和利用来自地面实况热图的预训练模型近似的Kulon等人[27]通过对预训练网格生成器的潜在向量进行回归并估计相机投影来从图像重建手。在本文中,我们介绍了一个架构上更简单的ap-proach,显着优于以前的作品,通过计算损失的网格与点定位在图像坐标系和利用空间网格卷积。4992δδ基于前一小节中描述的回归MANO参数的人体网格恢复方法源自人体网格恢复工作[3,28,22,48,42、50、41、39、21、55、25]。我们的工作类似于Kolo- touros等人[26],他们对图像进行编码,并将其特征与规范姿势中的模板网格的坐标连接起来。所得到的图通过一系列谱图卷积来恢复对应于图像的身体模型。相反,我们直接从图像编码中解码网格,并应用具有池化层的空间卷积。几何深度学习我们的兴趣在于应用深度学习来学习三角网格中的不变形状特征[7]。为此,频谱方法[8,12,23,29]表示频域中的卷积。空间卷积定义了局部制图[34,4,36],似乎更适合在流形上学习或设计有意义的池函数。或者,卷积运算符3.1. 3D形状表示我们的方法依赖于拟合的MANO模型在谭DEM与旋转角度的先验。MANO通过映射形状的可微函数M(β,θ)预测手部表面上的N=778个顶点和K=16个关节β∈R|β|并将θ∈RK×3个参数置于由网格表示的模型实例中:M(β,θ,T→,s;φ):R|β|×|θ|×|T→δ|×|S|→RN×3(1)哪里|β|取决于训练过程,φ是我们在进一步讨论中省略的一组学习模型参数。此外,我们有相机参数s用于缩放并利用T→δ∈R3对模型进行平移全球定位是由第一行θ建模。而不是模型的关节角度作为自由变量,这可能会导致不可能的估计,在优化过程中,我们约束他们躺在一些预先计算的聚类中心的凸包。对于接头i,我们使用C=64欧拉角星系团P1,...,通过k均值获得的P C [19]可以用注意力机制来定义,邻居选择[52,51]。在与我们的方法类似的应用方面,Ranjan并将任意角度表示为:ΣCexp(wc)Pc等人[43]使用快速谱卷积[12]来找到人脸的低维非线性表示,θi=P(w)i=c=1Cc=1 实验(wc)I.(二)不受监督的方式。Kulon等人[27]表明自动编码器可用于学习3D手的潜在表示。最近,螺旋算子[30]已被并入卷积框架中,以训练人体的可变形模型[6]或解决网格对应和分类任务[18]。在本文中,我们应用螺旋滤波器直接从图像编码生成手。3. YouTube Hands-in-the-Wild数据集尽管有丰富的可能的应用程序,有没有数据集的单目3D手重建从RGB图像在野外。在非实验室环境中捕获的手部图像的唯一现有集合[45]包含少于3000个具有2D点的手动注释的样本。为了训练一个神经网络,用于不同领域的手部3D重建,我们构建了一个系统,用于从YouTube视频中快速自动生成数据集,为我们提供了一组多样化的chal-challening手部图像。我们没有手动注释它们,而是使用一种弱监督方法,首先使用OpenPose检测虽然AC-在约束最终角度估计以取合理值的同时,该表达式允许我们优化无约束变量wc。我们代表所有的欺诈-应变角的参数矩阵w∈RK×C,同时允许全局方向w0不受这种简单的方法只需要一个小的数据集,角度,不同于VAE先验;将姿势空间限制为合理的姿势,不像PCA先验,其特征在于不真实的插值;并且允许拟合看不见的姿势。然而,它并没有对成对依赖关系进行建模,我们将其留给未来的工作。3.2. 参数化模型拟合我们的监督来自OpenPose的2D地标的形式。我们定义了一个拟合过程,该过程试图通过以下步骤稀 疏 矩阵J∈RN× ( K+F ) , 其 从 模 型顶点回归到K=16个关节和F=5个指尖位置,从而得出手部姿势J∈R(K+F)×3:J(β,w,T→δ,s)=JTM(β,P(w),T→δ,s).(三)我们通过最小化以下目标来将模型拟合到2D注释:训练模型的准确性可能受到OpenPose性能的限制,我们表明它会导致最先进的3D手部重建和姿势估计系统{β_i,w_i,T→t,s_i}=argmin(E2D+Eβ,Σ4993w,T→δ,s骨+E reg),(4)当在具有手动注释的外部数据集上进行评估时。由2D重投影项E2D、骨长度保留成本Ebone和正则化项Ereg组成。4994特别地,关节误差项使2D关节E2D(β,w,T→δ,s)=||Λ2D(ΛK(J(β,P(w),T→δ,s))−Y)||2(五)其中,Y是2D检测器预测,并且RISK是到2D的固有相机投影,如在Pavla k os等人的方法中那样初始化。[41]。 Λ2D是实验选择的掩模,其将指尖的影响放大1。7分,手腕2分。5,并减少了掌指(MCP)关节(每个手指的基部)的影响,这些关节通常不准确地由0注释。7 .第一次会议。骨损失E骨确保手部骨骼树E中的每个边的长度被保留,即,ΣEbone(β,w,T→δ,s)=|||J2Dj−J2Di||Y j −Y i||Y|||(i,j)∈E(六)其中J2Di=<$K(J(β,w,T→δ,s))i.正则化项Ere g(β,θ)=λθ||θ||2+λβ||β||2惩罚与平均姿势的偏差,以确保真实的变形。超参数λθ=0。1和λβ=1000。优化我们使用Adam优化器,针对相机、姿势和形状参数(分别为10−2、10−2、10−5)使用不同的学习率,并使用小学习率decay(乘法因子为0)。95)每500次迭代后。我们从1,500次迭代开始,优化摄像机参数和全局方向,其中关节集减少到手腕和MCP关节,不包括拇指。之后,我们对所有参数执行2,500次迭代我们在GeForce RTX 2080 Ti上每批次装配4,000个样品,平均耗时10分钟。3.3. 自动数据收集数据收集系统迭代YouTube链接列表,下载视频,提取帧,运行OpenPose,将MANO拟合到每个帧,并选择过滤样本的一个小子集。投影网格的深度与投影网格的X坐标与其世界位置之间的标准差之比成比例。通过对总OpenPose置信度得分、每个关节置信度得分以及投影MANO关节与OpenPose预测之间的均方误差(通过与摄像机的距离进行归一化)进行阈值化来执行合理样本的过滤。为了创建我们的YouTube数据集,我们为训练集处理了102个视频,并在每个视频中随机选择了最多500大多数样本涵盖了各种国籍和种族的人进行的手语对话。一些视频包括,例如,一百人签署一个这是全世界网络摄像头的常用语验证集和测试集涵盖7个视频,其中受试者与训练集的交集为空。我们选择的测试视频是多样化和具有挑战性的,包括户外谈话、舞蹈姿势、美国、澳大利亚和台湾手语(图6,左半部分)。此外,我们在COCO数据集[31]上运行我们的系统,并提取了7,048张手部图像进行训练。组合训练集包含54,173个样本,验证和测试集各包含1,525个图像。4. 手部重建网络我们提出了一个简单的编码器-解码器系统,如图1所示,它直接在图像坐标中重建网格。我们使用一个空间卷积网格解码器D网格,我们的实验已经证明是优于替代解码策略。在下面的小节解释构成我们的解码器的构造块的选择的空间算子和上采样方法。a)b)、图2:a)以顺时针顺序为中心顶点选择相邻顶点(取自[6])。b)在我们的解码器中使用的拓扑的层次结构4.1. 螺旋算子在我们的解码器中,我们使用的螺旋修补程序的建设空间的邻域。Lim等人。[30]通过将顺序强加于以以下方式获得的k盘的元素来定义中心顶点v0-环(v)={v},(k+1)-环(v)=N(k-环(v))\k-圆盘(v),k-disk(v)=khi=0. ki-环(v),(7)其中N(V)是与集合V中的任何顶点相邻的所有顶点的集合。螺旋贴片算子[6]则是有序序列S(v)S(v)=(v,1-环(v),. - 是的- 是的,k-环(v)).(4995八)4996作为方向,我们从每个顶点开始顺时针方向,并随机初始化v的第一个邻居。图2展示了示例空间配置。特征f(S(v))与核图3:螺旋解码器的C(w,l):A那么g可以定义为:(fg)v=ΣL=1gf .ΣS/2005/5,(9)具有w个滤波器和螺旋长度l的螺旋卷积; U(p):通过因子p进行上采样; FC(d):具有d个输出维度的全连接层; R(d1,d2):向量整形为d1×d2矩阵。其中螺旋长度L对于神经网络的同一层中的每个顶点是固定的4.2. 采样我们创建一个层次的网格与顶点的数量减少了2的因素,在每个阶段的解码器。我们基于二次误差度量[15]收缩顶点对我们将每个折叠节点投影到下采样网格中最近的三角形[43],并使用投影顶点的重心坐标来定义上采样矩阵的插值权重。更具体地说,我们将收缩过程中丢弃的顶点vq∈ V投影到d采样网格Vd的最近三角形vi,vj,vk∈ Vd中,获得 vp。 我们计算它的重心坐标 w1 , w2 , w3 使得v_p=w1v_i+w2v_j+w3v_k并且w1+w2+w3=1。上采样矩阵Qu∈Rm×n,其中Vu=QuVd且m > n成立,通过设置Qu(q,i)=wi, Qu(q,j)= wj, Qu(q,k)=wk,并且对于l/∈ {i,j,k},Qu(q,l)= 0来形成。所得到的拓扑层次结构获得使用相同的-安装策略如图2所示。每层的顶点数n∈ {51,100,197,392,778}。4.3. 架构给定以手为中心的图像裁剪X,我们将其嵌入到具有64个参数的潜向量Z=E图像(X)中解码器D将嵌入作为输入并产生网格Y=Dmesh(Z)。 我们使用标准的ResNet-50网络作为编码器,E图像。建筑师-螺旋解码器的结构在图3中详细描述。如果螺旋序列是短于所需的,由于错误的三角测量或网格边界,我们填补了它与一个节点,最初集中在0。我们只考虑k=2的k-圆盘。基于实验评估,我们选择Leaky ReLU作为激活函数4.4. 培训损失函数由L1顶点重建项和边长度保持分量组成对于地面实况网格Y和边缘集Emesh。 Hyper-参数设置为λvertex=0。01且λedge=0。01.没有明确的姿态估计损失,因为我们发现它没有效果。关节坐标在评估期间从如等式3中的网格获得。该网络使用Adam优化器进行训练,学习率为10−4,持续150个epoch。学习率衰减因子为0。1发生在第90和120个历元之后。使用ImageNet训练集计算的平均值和标准差对图像进行归一化,并基于从我们的训练数据子集计算的统计数据对输出网格我们用随机的图像裁剪和变换来增强数据。数据增强对于推广到真实世界示例是必要的,其中输入图像不能基于地面实况注释进行裁剪。我们在单个GeForce RTX 2080 Ti上训练网络2天,批量大小为32,裁剪大小为192 ×1925. 评价网格重建方法只是最近才开始流行,因此没有建立良好的手部恢复基准。为了显示我们的方法的鲁棒性,我们在流行的手部姿势估计数据集上对其进行了评估。此外,我们在FreiHAND数据集上展示了手部重建性能,并在YouTube数据集上对不同的网格解码器进行了自我比较研究最后,我们表明,这两个主要的贡献,神经网络架构和数据注释系统,导致国家的最先进的性能,在没有一个或其他。5.1. 数据集MPII + NATURAL(MPII)数据集[45]包含通过手动注释两个具有2D地标的公开数据集收集的野生图像:MPII人类姿势数据集[1]显示了每天的人类活动和一组来自新西兰手语专家的图像。L=λ顶点|1|1Σcises [35].它包括模糊,低分辨率,闭塞,并与对象交互手图像是什么使数据集+λ边缘(u,v)∈E网格|尤夫-尤尤||−||Yv − Yu||Y||(十)|(10)特别具有挑战性。训练集和测试集分别计数1,912和846个样本。FCR UP C UP C UP C(51*48)(51,48)(2)(32,8) (2)(32,8) (2)(16,8) (二)(3,8)4997渲染手部姿势数据集(RHD)由41,258个训练样本和2,728个测试样本的渲染字符组成[62]。由于其大尺寸和挑战性的观点,它已被普遍用于FreiHAND是一个最近发布的数据集,包含130,240张训练图像[11]。它是唯一一个包含3D网格注释的数据集,背景人工混合代替绿色屏幕。在受控的室外和办公室环境中,在没有绿色屏幕的情况下收集了由3,960个样本组成的测试集。它包含与对象交互和变化的照明困难的姿势测试集注释不可用,并且通过向在线竞争匿名提交预测来执行评估单目全捕获(MTC)是最近的人类运动数据集,包含40名受试者的身体、手和面部注释[55]。数据集是在实验室环境中收集的,存在域过拟合的风险;然而,由于其多样性和大多数准确的注释,它可以用于学习3D手部形状的鲁棒先验。我们选择了30,000张图像的子集进行训练过滤,以减少相似和平均姿势。Stereo Hand Pose Tracking Benchmark(STB)包含15,000张训练图像,这些图像是单个受试者在5种不同背景下执行随机姿势和计数手势的训练图像,以及3,000张具有相同背景的图像的测试集[59]。在最近的出版物[17]中,由于不准确的地面实况注释,该数据集已被解决,具有较高的容错性。最后,我们的YouTube数据集在第3.3节中描述。对于每个数据集,除了提供顶点注释的FreiHAND之外,我们按照第3.2节中描述的优化方法拟合MANO模型。在3D注释的情况下,我们仅将固有相机改变为等式5中的恒等函数,然后我们基于数据集相机参数投影输出网格。深度像以前一样重建。5.2. 度量为了评估手部姿势估计和网格重建性能,我们测量了平均欧几里得距离(姿势/网格误差)、不同阈值的正确点百分比(2D/3D PCK)以及PCK的曲线下面积(AUC)。对于3D基准,我们测量刚性对齐后的误差。在计算2D误差之前,我们正交投影估计的3D姿态。对于自我比较研究,我们报告了平均绝对误差(MAE)以及网格误差。我们布克etRGB+2Dal.[五]《中国日报》布克 等人RGB [5]布克 等人2D拟合[5]布克 等人RGB [5][62]第六十二话位姿误差[px]9.2718.9522.3620.6523.0459.4图4:MPII的2D PCK和平均2D关节距离(px)到地面实况。我们Yang等人[56个]Spurr等人 [46个][57]第五十七话[62]第六十二话位姿误差[mm]10.9213.1419.7319.9530.42图5:RHD的3D PCK和平均3D关节距离(mm)。5.3. 手势估计图4显示了MPII数据集的评估结果。我们的系统显著优于其他方法,将领先的基于MANO的方法的姿势误差减半,并将AUC提高了0.21个点。图5显示了RHD上的3D姿态估计结果。这是一个非常受欢迎的基准,在此基础上,我们也以显著的优势击败了现有的方法。如表1所示,所提出的系统还在FreiHAND数据集上实现了卓越的性能。值得注意的是,该基准中的大多数竞争方法都依赖于MANO参数回归。5.4. 网格重建我们在FreiHAND数据集上评估了网格重建的质量4998(表1)。除了标准4999我们[11]第十一话[11]第十一话布克等人[五]《中国日报》Hasson等人[20个]平均形状[11]位姿误差[mm]↓0.841.371.13.51.331.71网格误差[mm]↓0.861.371.091.321.331.64姿势AUC↑0.8340.730.7830.3510.7370.662补片AUC↑0.830.7290.7830.7380.7360.674F@5 [mm]↑0.6140.4390.5160.4270.4290.336F@15 [mm]↑0.9660.8920.9340.8940.9070.837表1:FreiHAND上的3D姿态估计和网格重建性能。对于前两行,低一点更好,对于其他行,高一点更好。解码器类型RHD [mm]MPII [px]YouTube [mm]马诺12.08611.44814.958光谱11.6389.85813.612螺旋GMM11.13810.07411.999螺旋GMM,调谐11.12110.11711.799螺旋11.0529.43410.698解码器类型MAE [mm]网格误差[mm]马诺13.02327.485光谱9.05819.317螺旋GMM8.46218.206螺旋GMM,调谐8.38018.057螺旋7.82717.096表2:位姿误差。 不同解码器在简化的数据集上训练。度量,我们报告给定阈值d(F@d)的F分数,这是精确度和召回率的调和平均值[24]。关于野生数据集的定性结果可以在图6中找到。5.5. 自身对照表2和表3示出了不同类型的网格解码器上的姿态估计和网格重构误差为了执行广泛的超参数搜索,以确保基线方法的公平计算,我们使用了一个简化的训练数据集,对应于表5中的第6行,以加速优化。螺旋是指所提出的方法,光谱遵循CoMA解码器[43],如Kulon等人所实现的。[27]但是没有相机估计分支。螺旋GMM是[27]的螺旋实现,其结合了之后固定的解码器预训练和相机估计分支。Spiral GMM,tuned是通过恢复训练Spiral GMM的所有参数而获得的微调版本。最后,MANO类似于Boukhayma等人。[5]但在网格顶点而不是关节上使用损失函数。我们观察到,我们的边长突变损失项稳定了MANO形状参数回归,在先前的工作中,通过施加较大的L2惩罚[5]来缓解发散。我们发现,空间方法优于光谱方法。此外,在图像坐标系中损失网格的端到端训练优于在规范框架中的预训练和估计相机参数。表3:在不同解码器上的网格重构YouTube数据集在精简数据集上训练。5.6. 与迭代拟合的我们的系统是由网格监督的,网格与关键点预测迭代自然地,问题出现了网络性能是否由迭代拟合的性能限制。我们比较了这两种方法上唯一现有的手动注释的野生数据集。此外,我们从846个样本中选择了390个样本,这些样本根据第3.3节中描述的健全性检查进行了过滤。基于表4,我们观察到我们的系统在过滤数据集上的迭代拟合性能略差。这是预期的,因为这些是关键点估计器具有非常高置信度的样本。重要的是,当考虑整个数据集时,网络的性能要好得多该网络的另一个特点是推理时间快得惊人具体而言,报告的4000份样本/ 10分钟迭代拟合的时间(第3.2节)为批量4000。单个样本需要110秒(GPU)或70秒(CPU)来拟合2D标注,不包括关键点预测。相比之下,我们的网络推理时间为60 FPS(GeForce RTX2080 Ti)。模型MPII [px]MPII过滤[px]迭代拟合10.2955.111网络9.2655.555表4:在MPII测试集上,在姿态误差方面,网络性能与迭代拟合的比较5000图6:YouTube(左半部分)和MPII(右半部分)上显示的定性网格重建结果5.7. 数据集和消融方法在表5中,我们评估了在不同数据集组合上训练的系统。通过比较第1-3行,我们观察到在我们的数据集上训练网格重建系统比在其他室外数据集上训练的结果更好图5-8表明,当我们的数据集在训练过程中被包含时,即使将其添加到所有其他数据集的并集中,也会获得最佳结果。我们还观察了RHD和MPII上的最新性能,而没有YouTube,FreiHAND,MTC等最近的数据集,证明了所提出的神经网络的效率(第4行)。模拟IDMPIIRHDMTCFreiHANDYouTubeRHD[公厘]MPII[px]YouTube[公厘]1X15.39814.93035.0322X13.25816.55823.4093X12.44810.57211.0524XX11.20511.54718.5395XXX11.20210.96516.2146XXXX11.0529.43410.6987XXXX10.9269.67212.6378XXXXX10.9229.29210.536表5:位姿误差。在不同数据集组合上的性能类似地,表2示出了用新的数据集和网格损失训练的基于MANO的方法获得了比现有的基于MANO的实现更好的性能,这表明了贡献的数据收集系统的重要性。6. 结论我们已经证明,一个简单的编码器-解码器架构可以获得优越的性能,网格rebenchec- tion和姿态估计任务,适当定义的目标函数。此外,我们还提出了一种自动数据收集方法,该方法允许系统适应非实验室领域,并进一步改善常见基准的结果。我们认为,这些发现证明了进一步研究用于人类建模的网格生成模型以及其他弱监督和自监督方法的合理性,这些方法可以减轻在不受约束的环境中为人类获取3D地面实况的需求7. 致谢S.Z. 部 分 由 EPSRC Fellowship DE- FORM : LargeScale Shape Analysis of Deformable Models of Humans(EP/S 010203/1 )和Amazon AWS Machine LearningResearch Award资助5001引用[1] M.安德里卢卡湖Pishchulin,P. Gehler和B.席勒2D人体姿态估计:新的基准和最先进的分析。2014年IEEE计算机视觉和模式识别会议,第3686-3693页,2014年6月。5[2] Seungryul Baek,Kwang In Kim,and Tae-Kyun Kim. 通过神经渲染推进基于rgb的密集3d手部姿态估计的包络在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。一、二[3] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Pe ter Gehler、Javier Romero和Michael J.黑色.保持它SMPL:从单个图像自动估计3D人体姿势和形状。在计算机视觉Springer International Publishing,Oct. 2016. 3[4] Da videBoscaini , JonathanMasci , EmanueleRodola` ,andMichael Bronstein.用各向异性卷积神经网络学习形状对应关系。神经信息处理系统进展,第3189-3197页,2016年。3[5] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3d手的形状和姿势从图像在野外。在IEEE计算机视觉和模式识别会议的论文集,第10843-10852页,2019年。一、二、六、七[6] GiorgosBouritsas , SergiyBokhnyak , StylianosPloumpis,Michael Bronstein,and Stefanos Zafeiriou.神经3D可变形模型:用于3d形状表示学习和生成的螺旋卷积网络。在IEEE国际计算机视觉会议(ICCV),2019年。三、四[7] Michael M Bronstein,Joan Bruna,Yann LeCun,ArthurSzlam,and Pierre Vandergheynst.几何深度学习:超越欧几里得数据。IEEE Signal Processing Magazine,34(4):18-42,2017。3[8] Joan Bruna , Wojciech Zaremba , Arthur Szlam , andYann Le- Cun.图上的谱网络和局部连通网络。在第二届国际学习代表会议上,ICLR 2014,Banff,AB,加拿大,2014年4月14日至16日,会议记录,2014年。3[9] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单角rgb图像的弱监督三维手势估计。在ECCV,2018。2[10] Yujun Cai,Liuhao Ge,Jun Liu,Jianfei Cai,Tat-JenCham,Junsong Yuan,and Nadia Magnenat Thalmann.利用空间-时间关系通过图形卷积网络进行3d姿态估计。在IEEE计算机视觉国际会议(ICCV),2019年10月。2[11] 杨继梅,布莱恩,罗素,马克斯,阿古斯,克里斯蒂安,齐默尔,杜伊古,锡兰,托马斯.Freihand:一个用于从单个rgb图像无标记捕获手部姿势和形状的数据集 。 IEEEInternational Conference on Computer Vision(ICCV),2019年。六、七[12] 我 的 朋 友 德 夫 费 拉 尔 , XavierBresson 和PierreVandergheynst。具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统的进展,第3844-3852页,2016年。3[13] Endri Dibra 、 Silvan Melchior 、 Ali Alcohis 、 ThomasWolf、Cengiz Oztireli和Markus Gross。基于无监督精化网的单目rgb手势推理。在IEEE计算机视觉和模式识别会议(CVPR)研讨会上,2018年6月。2[14] 高亚飞,王毅达,彼得·法尔科,纳西尔·纳瓦布和费德里克·托姆巴里。从一张rgb图像实现可变物体感知的3d手部姿势。 IEEE机器人与自动化快报PP:1-1,07 2019. 2[15] 迈克尔·加兰和保罗·S·赫克伯特。使用二次误差度量的曲面第24届计算机图形和交互技术年会集,第209-216页。ACM出版社/Addison-Wesley出版公司1997. 5[16] Liuhao Ge , Hui Liang , Junsong Yuan , and DanielThalmann.单深度图像中的鲁棒3d手部姿态估计:从单视图cnn到多视图cnn。在IEEE计算机视觉和模式识别会议 论 文 集 ( Proceedings of the IEEE conference oncomputer vision and patternrecognition),第3593-3601页,2016年。2[17] Liuhao Ge , Zhou Ren , Yuncheng Li , Zehao Xue ,Yingying Wang,Jianfei Cai,and Junsong Yuan.根据单个RGB图像的3D手的形状和姿态估计。 在IEEE计算机视觉和模式识别会议论文集,第10833-10842页,2019年。一、二、六[18] Shunwang Gong , Lei Chen , Michael Bronstein , andStefanos Zafeiriou.Spiralnet ++:一种快速高效的网格卷积算子。在IEEE计算机视觉研讨会国际会议论文集,2019年。3[19] Riza Alp Guler和Iasonas Kokkinos。Holopose:Holistic3D human reconstruction in the wild.在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。3[20] YanaHasson , Gu¨lVarol , Dimi triosTzionas , IgorKale-vatykh , Michael J.Black , Ivan Laptev , and CordeliaSchmid.学习手和操作对象的关节重建。在CVPR,2019年。一、二、七[21] Hanbyul Joo Tomas Simon和Yaser Sheikh总捕获量:用于跟踪面部、手部和身体的3d变形模型。在IEEE计算机视觉和模式识别会议论文集,第8320-8329页3[22] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集,第7122-7131页,2018年。3[23] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。国际学习表征会议(ICLR),2017年。3[24] Arno Knapitsch , Jaesik Park , Qian-Yi Zhou , andVladlen Koltun.坦克和寺庙:大规模场景重建的基准ACM事务处理图表,36(4):78:1-78:13,July2017. 7[25] 放大图片作者:Michael J.布莱克和科斯塔斯·丹尼利迪斯学习通过循环中的模型拟合重建3D人体姿势和形状在计算机视觉国际上,2019年10月。3[26] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积网格回归对单幅图像Hu-5002人型重建在IEEE计算机视觉和模式识别会议上,2019年6月。3[27] Dominik库伦,何欧阳王里扎ALP作者:Michael M. Bronstein,and Stefanos Zafeiriou.基于网格卷积的单幅图像手部三维重建。 英国机器视觉会议(BMVC),2019年。一、二、三、七[28] Christoph Lassner 、 Javier Romero 、 Martin Kiefel 、Federica Bogo、Michael J Black和Peter V Gehler。团结人民:关闭3D和2D人类表现之间的循环。在IEEE计算机视觉和模式识别会议论文集,第6050-6059页,2017年。3[29] Ron Lev
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功