没有合适的资源?快使用搜索试试~ 我知道了~
6121基于GAN和Mesh模型的弱监督域自适应估计与物体伦敦帝国学院imperial.ac.ukKwang In KimUNISTkimki@unist.ac.kr伦敦帝国理工学院tk.kim邮件imperial.ac.uk摘要尽管最近在手部姿态估计方面取得了成功,但是在呈现严重遮挡和杂乱背景的手-物体交互(HOI)场景下,基于RGB的3D手部姿态估计(HPE)最近的RGBHOI基准已经收集在真实或合成域中,然而,数据集的大小远远不足以处理与手部姿势相结合的各种对象,并且缺乏真实样本的3D姿势注释,特别是对于遮挡情况。在这项工作中,我们提出了一种新的端到端可训练管道,该管道在为HPE学习的同时,将域自适应发生在图像空间中,通过生成对抗网络(GAN)的2D像素级引导通过在图像空间中的域自适应,不仅提高了3D HPE精度,而且HOI输入图像被转换为分割和去遮挡的手部图像。所提出的方法利用了两个指南的优点:GAN可以精确地对齐手,而MR可以有效地填充被遮挡的像素。使用Dexter-Object,Ego-Dexter和HO 3D数据集的实验表明,我们的方法显着优于仅用手数据训练的最先进的方法请注意,我们的方法主要是通过带有姿势标签的纯手图像和没有姿势标签的HOI图像进行训练的。1. 介绍从RGB图像[59,86,7,22,35,61]或深度图[83,38,66,75,38,81,34,50,81,1]已显示出巨大的改善[68,59,75,83,14,79,51,9,17,80,62,77,48,84,72,69,13,60,39,65,40,27,33、42、12、81]。成功的手部姿势估计背后的属性是:能够学习高度非线性2D到3D映射的深度学习方法,以及能够对卷积神经网络(CNN)进行充分训练的可用大规模数据集[83,59]。但挑战(a)(b)(c)(d)(e)图1:手-对象交互场景中的示例手姿势估计结果我们的方法从输入的HOI图像合成并逐渐细化仅手图像(a)输入图像x;(b)由我们的网格渲染器基于x构建的初始手动估计x ′;(c)由GAN生成的x ′的细化x′′;(d-e)基于x "生成的最终仅手图像z和骨架估计y。对于存在严重遮挡和杂乱背景的手-物体交互(HOI)情况,仍然存在最近提出了RGB基准来解决这种情况[62,35,21,20,11],其中使用HOI图像训练基于CNN的手部姿势估计器(HPE)。然而,收集真实RGB图像的高质量3D姿态注释是具有挑战性的,这是由于例如:HOI场景下的遮挡。不存在用于为严重闭塞的手注释3D关节位置的完整且自动的管道。它要么需要大量的人工努力来不断检查和改进标签[87],要么使用磁性传感器[12]/数据手套[5]破坏RGB图像。或者,他们求助于合成数据。大多数现有的用于手部姿势估计的大规模数据 集 ( 例 如 , [2019 - 03-18][2019 - 03- 19][2019 -01][2019 真实数据集具有有限的注释,例如离散抓取类型(例如,GUN-71 [52]),只有5根 手指6122提示(例如: DO [62]、EGO [37])或有限数量的帧(例如,HO3D [20])。FPHA [12]数据集是真实的,大小适中;然而,由于所使用的磁传感器是可见的,所以它们的RGB帧被破坏。FreiHand [87]是最新的基准测试,具有中等规模(35k)。然而,只有不到一半的图像包含HOI图像。当考虑到不同的对象,背景和大的手部姿势空间时,需要更多的样本进行训练。在[21]中,作者报告了使用“仅手”或“HOI”数据训练和测试的手部姿势估计器的准确性当手部姿势估计器由“HOI”训练时在本文中,我们的目的是适应领域的手-物体互动(HOI)的领域,单手只有(见图。1为例)。这有助于减少用于训练HPE的HOI样本的3D关节注释的数量。据我们所知,这是填补HOI和纯手域之间空白的第一项工作。我们的贡献主要有三方面:1) 我们提出了一种新的端到端的学习框架,同时适应领域和HPE。域自适应网络是在弱监督下训练的,由2D对象分割掩码和3D姿势标签用于仅手部数据。该方法不需要使用3D标注的HOI数据,具有很好的推广性,提高了HOI条件下3D手部姿态估计的准确性2) 域自适应是通过图像空间中的两个引导来实现的(尽管它们也可以在特征空间中完成)。研究并结合了两种图像生成方法:生成对抗网络和网格渲染器使用估计的3D网格和纹理。因此,输入的HOI图像被转换为分割和去遮挡的纯手图像,有效地提高了HPE的准确性。3) 各种损失的使用,和建议的archi- tecture优化性能。除了主要的管道,我们还研究了使用真实的HOI数据及其3D姿态标签(如果可用)。在大量的实验中,对于纯手和手对象交互,该方法优于或等同于最先进的。代码可在项目页面1上找到。2. 相关工作HPE为单个只有手。3D构成估计的分离手(或从深度im-年龄[83,38,66,75,38,81,34,50,81,1,76]或从RGB[22,7,86,24])取得了巨大的成功。基于深度的3D姿态估计已经被很好地建立,因为深度图固有地包含3D信息[81,68,31],并且1https://github.com/bsrvision/weak_da_hands自动数据合成方法[83,12,4]有助于生成大规模3D手部姿势数据集。在RGB域中,自动数据生成更具挑战性,并且直到最近才使用多视图信息和/或可微分2D投影来解决[7,22]:Simon等人。[59]提出了一种自动数据注释方案,该方案在多相机设置中强制标签一致性[24],Kocabas等人使用多视图2D骨架重建3D人体骨架[28]。此外,不同的渲染器和透视模型[6,15,21,31]已经能够训练CNN从单个RGB图像进行3D网格重建。它们通常采用2D/3D骨架和2D分割掩码作为弱监督。3D手部姿态估计方法也可以分为生成和判别方法:生成方法将3D网格模型拟合到点云[72,69,54,67,65,64,51,42]或中间数据表示,如2D骨架[46]。大多数生成式方法优化非线性数据拟合准则,因此容易陷入局部最优。随着CNN和大规模数据集的出现[59,81,68,81],判别方法已经显示出有前途的性能,并已被确立为生成方法的强大替代方案。然而,这些方法对于运动学和/或几何(网格)约束是不可知的混合方法[70,47,73,56]试图结合判别和生成方法的优点。在这种情况下,一个常见的策略是使用判别方法构建初始化,然后使用生成方法对其进行细化。例如,Tompson et al.[73]应用CNN来预测手关节位置,并应用粒子群优化(PSO)来细化它们。类似地,Sharpet al.[56]估计初始关节角度并通过PSO对其进行细化。进一步利用来自强交互手的多视图输入,Taylor等人。[70]实现了实时混合系统。HPE下的手对象交互(HOI)场景。 该领域的早期工作集中在将3D生成模型拟合到RGBD图像[45,18,30,19],而一些工作采用了判别方法,例如。基于随机森林[52,53]。基于模型的手部跟踪器通常遭受模型漂移,限制了适用的HOI场景的范围。多相机系统也被利用[43,44]。最近,CNN已经应用于 到 收回─ 手握HOI 构成从 单个 RGB im- 年龄[62,12,20,21,11,37,35,55,57,43,71]。 作为注释遮挡下的3D关节是具有挑战性的,最近已经研究了利用合成数据(例如,[35][37][38][39]然而,现有的数据集表现出高水平的伪影,包括不现实的手部姿势(当与对象交互时),并且其中的渲染图像显示出与真实世界图像的相当大的差距。还收集了HOI场景中的真实数据集用于3D姿态估计[12,20,87],6123XxyGTDRHOI3DL热L热特征和姿势估计量gFPE特征和姿态估计器gFPEGAN发生器gGAN特征和姿态估计器gFPEX''网格渲染器gMRLImgLd网格渲染器gMRL阳性L阳性yX'训练数据X甘DGANx对z(选择xsH和 dyGTXxsH和 dyGTXxsHOIxsHOI xsH和 d+DR手DS手DR海DS配对图2:通过域自适应提出的3D手部网格和姿态估计框架的示意图 我们的域自适应网络接收输入HOI RGB图像x并提取2D特征图f和联合热图h(通过2D特征和姿态估计器gFPE)。基于它们,网格渲染器gMR重建对应的3D网格m和纹理t,并且此后将这些渲染为初始的仅手图像估计x′。分别提取的二维映射{f,h}和{f′,h′}然后,x和x′被馈送到GAN生成器g GAN,GAN生成器gGAN合成精细的仅手图像x″。最后,将gFPE和gMR应用于x“”以生成免提网格m"“,其然后1)被渲染到对应的仅手图像z,以及2)被用于生成骨骼关节姿态y。绿色和蓝色箭头分别代表数据处理和监督流程动作识别[57,3]。但是,它们缺乏数量。最先进的:Oberweger等人[41]建议反馈环框架,其嵌入深度图生成器并使用其迭代地细化估计的骨架。Wei等人。[78]开发了一种基于部分的人体姿势估计方法,该方法使用全局场景上下文来补偿被遮挡的关节。该算法生成并逐渐细化中间2D热图响应。 类似的想法也已经在3D HOI手部姿势估计中被运用(例如,[35])。然而,它们需要构建大型HOI手部姿势数据集。我们的算法建立在魏等人的架构[78]并且在不使用HOI数据的3D标签的情况下,它与我们的方法类似,Goudie et al.的算法[16]采用两阶段方法,并使用来自HOI图像的手部分割掩模。然而,与我们的方法不同,该方法不执行被遮挡部分的去遮挡(或修复),因此当手部严重遮挡时会失败。也有一些作品处理两只手之间的相互作用[74,36]。HPE的域适配。已经开发了几种方法来减少真实和合成手部数据之间的差距(只有孤立的手出现)[50,58]或RGB和深度数据之间的差距[49,82]。然而,据我们所知,没有一个先前的工作已经解决了适应HOI和只手域。3. 我们的手域适应框架构建与对象(HOI)交互的手(HPE)的姿态估计器是一个具有挑战性的问题:现有的HPE在仅用手的数据集上训练,由于对象遮挡而挣扎。此外,在HOI场景下训练新的HPE并不简单,因为带注释的真实世界HOI数据集有限。我们建议通过将输入HOI图像映射到相应的无对象(仅手)图像来缓解这一挑战,仅利用易于访问的数据集:仅用手和HOI场景中的输入RGB图像、用于仅用手图像的骨架注释以及用于仅用手和HOI图像的2D二进制分割掩模(其可以基于伴随的深度图来提取;我们使用的训练数据集和数据类型的总结见表2)。虽然这需要恢复(或修复)被遮挡的手部区域,这并没有一个普遍认同的解决方案,我们证明,我们的框架往往忠实地恢复被遮挡的手,通过这样做,它可以提供显着的性能改善现有的手姿态估计方法。概况. 我们的域自适应网络(DAN)f DAN接收输入的256×256大小的RGB HOI图像x ∈ X,并生成相应的手部图像x′∈ X和21个3D骨骼关节y∈Y估计。表1提供了符号的摘要。受最近成功的手6124表1:符号总结。算法通过利用对应的特征图f作为辅助信息来迭代地改进估计的热图h:总迭代次数固定为3. 所有网络结构的详细信息见随附的补充文件。3.2. 网格渲染器gMR:F×H→X×Y给定从输入HOI图像x,g提取的2D图f,h,MR合成对应的仅手′图像x和基于其分量骨架关节y函数gHME、gTex、gNR和gReg:遵循[6,2,21],先生我们通过首先估计一只手来对g姿势估计[2,10,32,6],我们通过将其分解为每个都提供有中间级别监督的组件来指导DAN的训练:fDAN结合2D特征以及姿态估计器(FPE)gFPE和网格渲染器(MR)gMR 。 FPE 提 取2D 空 间特 征 图f∈F , 并 生成 热 图h∈H,表示图像窗格中21个骨骼关节MR包括1)手网格估计器gHME,2)纹理估计器gTex,3)神经渲染器gNR,以及4)手关节回归器gReg。gHME和gTex都接收gFPE的两个输出{f,h},估计对应的仅手网格m和纹理t,然后将其馈送到gNR以合成仅手图像x′。这里,我们用x′表示基于x估计的仅手图像。此后,gReg根据m计算关节位置y。 对于gNR和gReg,我们使用[25]和[54]分别获得的模型。他们在DAN的整个培训过程中保持固定。然而,由于两者是可区分的,它们促进了gHME和gTex端到端的培训。训练DAN进一步由生成对抗性网格m作为代理几何特征,然后将其渲染为2D图像x′。 MANO手部模型用于促进该过程[54]:我们的手部网格估计器gHME首先估计63维MANO参数向量p,然后使用可微MANO层gMANO将其转换为MANO网格m。并行地,纹理估计器gTex接收f,h并计算对应的网格颜色值t。最后,gNR将m和t投影到图像窗格上,以生成输入HOI图像x的仅手对应部分x′,并且gReg从下式确定3D骨骼关节yM. gHME、gTex、gReg和gNR的操作细节在补充文件中提供。3.3. GAN生成器gGAN:F×H×F×H→X我们的GAN生成器gGAN提供了HOI域中的图像x到对应的仅手图像x“”的自适应,并且它具有通常用于未配对图像转换的标准编码器/解码器架构[85,23]。灵感来自Kossaifi等人的工作[29]其涉及关键点作为辅助几何信息以改进面部图像合成,从x提取的特征f、h被用作输入。此外,我们通过以下方式增加输入:网络(GAN):GAN生成器gGAN分别根据从x ′和x中提取的特征生成x ′的改进版本x ″。相应的训练鉴别器dGAN、dGAN以区分1)添加从x′中提取的特征f′,h′:通过采用MANO手模型,gMR可以合成干净的手图像x′没有遮挡和背景杂波。即使x′可能并不完全与底层对齐,1 2合成的仅手图像和真实的仅手图像,以及2)仅手图像和HOI图像。图2和图1分别显示了我们的DAN架构和相应示例的概述3.1. 2D特征和姿态估计器gFPE:X→F×H这 接 收 256×256 大 小 的 RGB 图 像 , 并 生 成 128 个32×32维空间特征图f和21个32×32维热图h,每个热图以8倍下采样分辨率从X。在[32,6]中已经证明了生成这种中间2D图以指导手部和人体姿势估计器的训练的有效性。我们使用卷积姿态机(CPM)架构[78]和预先训练的手部姿态估计权重[86]:与x、f′、h′的特征f、h相结合,可以帮助gGAN生成逼真的手部图像。我们在初步实验中评估了一个更简单的设置,其中gGAN仅以f,h为条件,而不生成x′。相应的结果明显差于x′′,表明直接估计只有手的对应物具有挑战性,并且具有由网格重建m引导的初始手部重建x'有助于在训练期间细化gGAN参数的搜索空间3.4. 培训DAN是基于1)仅手部输入图像x以及对应的3D骨骼关节和手部分割掩模s和2)HOI图像和各自覆盖手部的对应分割掩模来端到端训练的,以及X轴R256×256×3RGB图像(x:输入;x′:由gMR渲染;x′′:由gGAN合成;z:由gMR渲染的最终网格估计)Y轴R21×3三维骨骼姿态空间FR128×32×32二维特征空间高宽R21×32×32二维热图空间型号R778×15383D网格空间:778个顶点× 1,538个面型号:T型R1538×3RGB网格纹理(3× 1,538面)gFPE:X→F×H2D特征和姿态估计器gHME:F×H→M手工网格估计器gTex:F×H→T纹理估计器gNR:M×T→X神经渲染器[25]g注册:M→Y手关节回归器[54]gMR:F×H→X×Y网格渲染器:gMR=[gNR≤[gHME,gTex],gReg≤gHME]gGAN:F×H×F×H→XGAN发生器dGAN,d GAN:X→R1 2GAN鉴别器fDAN:X→X×Y域自适应网络:fDAN=gMRgFPE6125海海2211海手海22表2:用于训练DAN的数据类型。sHand和sHOI分别表示前景手(仅)和HOI对于真实世界的数据集,分割掩码使用伴随的深度第二任务,而由gGAN生成的图像在两个任务中都被用作假图像该图像级监督信息被编码在损失LImg中:地图 注意,我们不使用s手进行DR只有手的区域是具有挑战性的。为萃取LImg(gFPE,gHME,gTex|D)Σ2=E[log(1−dGAN(x′))]+E[log(1−dGAN(x′))]我我i=1′′ ′+ x −x s手1+ x−x s手1。(二)最后两项不用于真实HOI图像(DR:对象我们的算法是弱监督的,因为它不使用地面实况3D骨骼关节或手只分割掩模HOI图像。然而,可选地,当为HOI提供3D关节注释时,参见表2),因为它们不具有对应的仅手部分割掩码的Hand。使用对抗性损失进一步监督PMDGANLd(dGAN|D)=−E[log([dGAN(x sHand)])]−E[log(1−[dGAN(x sHOI)])](3)图像,我们的算法也可以利用它们。 培训过程总结在图中。二、本节详细介绍了超级-−E[log([dGAN(xs手)])]−E[log(1−[dGAN(x′′)])],向DAN的每个组成部分提供的信息。其中只要可用就使用掩蔽图像xs2D热图监督LHeat.gFPE的 C P M 架 构 -例如DS提供sHand和sHOI,而对于DR,ture [78]使用Zimmermann和Brox [86]提供的预训练权重进行初始化,并基于以下内容进行细化:S手DR,提供了s手或sHOI从相应的3D骨骼注释中导出的仅手部图像的地面实况2D热图hGT[86]。相应的损失如下:3D骨架监督L位置对于纯手数据,地面实况3D骨架yGT被提供给gFPE和gHME:L热 ([gFPE]H|DHand)=gFPE(x)−hGT第二章(1)L阳性(gFPE,gHME)|D手)=[gMR(gFPE(x))]Y−yGT第二章(四)其中Vec[A]向量化输入多维阵列A且[v]H从gFPE的输出v提取2D热图分量。我们使用符号'(·|D)“来表示从其采样各个数据实例的数据集D的类型。为估计的热图被迭代地改进(参见第3.1),L热量应用于迭代的每一步此外,由于gFPE在训练过程中生成三次热图(分别针对x,x'和x";参见第二节)。3.3和图因此,多次施加热:1分别由x′和x′′图像级监控LImg. 训练数据集D中的每个输入图像x被提供有对应的2D分割掩模s,使得能够提取前景手部区域xx,其中x是逐元素乘积。对于只有手的图像,我们惩罚这些前景手以及分别由g MR和g GAN生成的对应的仅手重建x′和x″。通过两个GAN鉴别器提供额外的监督:dGAN和dGAN拍摄图像x,x′,x′′其中[v]Y从gMR的输出v中提取骨架分量。类似于LHeat,LPos在训练图像的每次通过中应用两次(对于x和x′;后一种情况在等式2中替换x4x′)。训练序列。我们在初步实验中观察到,初始化gFPE和gHME有助于训练过程的收敛。因此,我们使用LHeat和LPos训练它们的前30个epoch。此后,所有分量函数基于组合损失L进行联合训练(有关训练过程的详细信息,请参见我们的补充文档):L= LHeat+LPos+LImg+Ld。(五)3.5. 测试将训练后的DAN应用于测试图像x遵循与训练相同的流水线(图2)。(2)在测试时,不提供任何监督。 一旦被估计,X的MANO参数向量p唯一地确定对应的手部网格m和骨骼关节y。总的来说,这些产出1 2并分别区分1)真实和合成图像和2)HOI和仅手图像:仅手用数据集中的图像(STB、RHD、SH:见第4)和HOI数据集(CORe50)DDR={(x,sHand,y)}手真正的手持数据(STB)DS ={(x,sHand,y)}手合成手动数据(SynthHands,RHD)DR={(x,sHOI)}海真实HOI数据(CORe50)DS={(x,x,sHand,sHOI}配对成对的合成HOI(x)和仅用手(x)图像(Obman)D手=[DR,DS]的一种手手仅手数据D=[D手,DR、DS]海配对我们使用6126被用作第一和第二图像的真实图像。不需要完全符合中间变量在p的估计期间生成,并且强制与它们的一致性可以帮助提高p,从而生成更准确的网格和骨架估计(参见[2],6127手2表3:HANDS 2019挑战任务3中使用的HO3D上不同算法的错误率(越低越好)[8]。将显示参与此挑战的所有算法的结果三个最好的结果分别用粗体蓝色、斜体绿色和纯橙色字体参与者IDEXTRAP对象马铃薯24.7427.36恩普尔韦29.1918.39lin8431.5130.59伊哈森38.4231.82LSL41.8172.70金世保49.6453.79明基57.4554.81sirius.xie80.0645.34我们28.2425.93Ours +HO3D3D annot.23.6320.59类似的想法在不同的背景下执行特别是,检查和执行p和x"的一致性很简单,因为gFPE、gHME和gReg都是可微的一个对象和相应的3D指尖注释(见图1)。5(DO)为例)。ED包含3,190个RGBD图像,这些图像是在以自我为中心的视角下捕获的手与6个对于该数据集中的1,485个图像的子集STB拥有15,000个单一主题的纯手测试框架和相应的 21个3D骨架关节注释。HO3D在HOI场景中收集了6,636个视频帧,提供了严重对象遮挡的示例每个帧提供有21个3D骨架关节注释。HO3D最初用于HANDS 2019挑战赛的任务3 [8],它为多个实验场景提供了设置。其中,我们使用训练数据。 我们的训练集只包含真实的手关于p:假设j是2D骨骼关节数据DR,合成仅手数据DS,真实HOI数据′′′′手手通过2D热图恢复h在x上估计.然后,我们-RHOI ,以及HOI和仅手图像基于以下更新规则迭代地细化p(0):=pS配对 . 提供这些训练子集中的所有图像p(t+1)= p(t)−γ·p.[y]2ΣXY−木星2、(6)利用对应的前景分割掩模(用于仅手图像的手掩模和手+对象掩模其中[y]XY表示3D关节y在对于HOI图像)。 DR中的图像S手也图像窗格(注意,[y]XY取决于p(t))。迭代次数T和γ固定为50和0.01,分别这对应于分别使用p(0)和γ作为初始化和相应步长的能量E(p)= f [y]XY(p)-f2的最终解p(T)将平均手部姿态估计精度从p(0)提高4。3%和6. DO和ED数据集分别为5%:'Ours'和'Ours(wo/ test refine.)'图4(a-b)中的两个分别表示从p(T)和p(0)得到的结果。4. 实验我们在三个数据集上评估了我们的算法:1)提供弱监督的HOI场景此外,我们在2)仅手图像上进行了实验,以确认我们的方法实现了与专为仅手场景设计的现有方法相当的性能后一组实验表明,一旦可用,我们的算法是能够充分利用3D骨架,从而显着优于现有的方法针对此设置。测试数据。我们使用三个具有挑战性的真实世界HOI数据集:Dexter-object(DO)[62],Ego-Dexter(ED)[37]和Hand Object-3D(HO3D)[20]。此外,为了评估仅手持场景中的性能,我们使用STB的测试分割。DO提供了从6个视频序列中采样的3,145个视频帧,这些视频序列记录了一个人与并附有骨骼关节注释(见表2)。为了便于与现有工作进行直接比较,我们对每个测试数据集使用了不同的训练集组合:为了在DO和STB上进行测试,STB和RHD的训练分割被用作仅手训练集DHand,而对于ED测试集,使用STB、RHD和SH。请注意,SH包含纯手图像和HOI图像,每个图像都提供了地面实况3D骨架。为了训练,我们只使用SH的手部图像,而Iqbal等人。的算法[22],我们比较,使用所有的图像和3D骨架注释。对于HO3D测试装置,STB、RHD和SH用作DHand。评价方法。我们基于具有不同阈值的正确关键点( PCK ) 的 比 率 和 ( PCK 曲 线 的 ) 曲 线 下 面 积(AUC)来评估我们的算法,并将其与4种最先进的基于RGB的3D手部姿势估计算法进行比较[86,35,22,1]:Mueller等人。的算法[35]是基于合成图像和其GANerated数据集中相应的3D关节注释[35]为HOI场景定制的。伊克巴尔等人的算法[22]建立在[78]的基于热图的框架之上,并使用潜在深度图生成模块,该模块有助于从2D热图响应恢复在由纯手数据组成的STB上,除了[22]之外,我们还比较了为纯手域设计的7种最先进的算法[61,86,46,22,26,47,632.除了[22],我们不知道任何现有的2随附的补充文件提供了所比较算法的详细讨论。DD和D6128图3:仅手图像恢复结果示例:(左)输入HOI图像,(中)和(右)分别由仅用dGAN(中)和用dGAN、gFPE、gMR(右)训练的GAN生成的恢复手部图像。评估3D PCK精度的工作。为了便于与现有工作进行比较,我们还测量了我们的方法在2D PCK中的精度。结果 图4总结了结果。在DO上(图4a),我们的算法显著优于Mueller等人。s算法[35]和Iqbal et al. s算法[22],这两种算法都是在3D HOI骨架注释上训练的。有趣的是,Baek et al.的手动网格重建算法[2]也显示出比[35,22]有显著的改进,即使前者不是为HOI场景设计的这可以归因于这样一个事实,即通过采用显式的3D手形模型(与我们的模型类似的MANO模型),[2]提供了对中度遮挡的鲁棒性,并且此外,DO中的大多数输入图像都表现出这种轻度对象遮挡。当误差阈值大于40mm时(这通常是手显示严重遮挡的情况),我们的算法始终优于[2],并且随着阈值降低,它变得与[2]相当图4(b-c)显示了ED数据集的结果:当在3DPCK中进行评估时,我们的算法明显优于Iqbal等人。s算法。在2D PCK中,我们算法的性能与[22,35]相当,并且优于[86]它只使用手的图像。在STB上,我们的算法再次明显优于或可与最先进的算法[61,86,46,22,26,47,63]相媲美,这表明即使在纯手持领域,它也能继续提供最先进的性能(图1)。4(d))。注意,直接应用在HOI数据上训练的系统(Mueller et al. s算法[35])到仅手图像可以显着降低性能。伊克巴尔等人s算法[22]在仅用手的图像上重新训练。表3显示了我们的算法与参与使用HO3D的HANDS2019挑战任务3的(所有)八种算法的比较结果。我们的算法分别在EXTRAP和OBSERVED上取得了最好和第二好的结果(忽略Ours +HO3D3D annot.)进一步证实了我们最初的论点,即它可以在HOI场景中提供最先进的性能,甚至不需要3D骨架注释和/或已知的对象类型:应该注意的是,我们的算法已经在与HO 3D不相交的数据集上进行了训练,并且HO 3D的对象类别与我们的训练数据集之间没有重叠。此外,当提供这样的骨架注释时,我们的算法对EXTRAP和OBBEE分别排名第一和第二,分别证明了它完全适应这种高质量监督的能力。图5演示了如何仅使用弱监督来实现如此显著的性能提升:通过采用MANO 3D手部模型和GAN生成器,并迭代地执行最终网格重建在2D地图上的一致性,我们的算法可以忠实地恢复输入HOI图像的手部对应物。应该注意的是,随后已经通过GAN生成器x"和/或在测试(z)处执行的网格细化来校正了仅用手计算x“中的初始误差消融研究。为了深入了解我们的系统组件的贡献,我们测量了我们的系统的姿态估计精度,该系统使用1)仅初始网格重建x'(没有后续的显式域自适应步骤)和2)最终网格估计,没有测试细化步骤。相应的结果('Ours (init. 网眼估计值)“ 和'Ours (wo/ testrefine.)'图图4(a,b)分别针对DO和ED数据集)示出了域自适应步骤和迭代细化步骤都显著有助于提高性能。我们还使用相应的3D注释在HO3D的训练分割上训练了我们系统的一个单独实例,以评估其在提供3D骨架时的性能。在表3中,得到的系统表示为而在没有HO3D的3D骨架注释的情况下训练的最终系统讨论我们的GAN合成的仅用手的图像相当模糊。这可以归因于事实上,在我们的框架中,GAN参数不仅基于已更新的GAN,而且还基于2D特征和姿态估计器gFPE和网格渲染器gMR进行更新:后两个分量不会提高最终结果的清晰度。当我们去除这两个分量时,相应的重建并不模糊,但最终的手部姿势估计变得不那么准确。相应的合成实施例如图所示。3 .第三章。我 们 基 于 PyTorch 的 实 现 在 单 个 NVIDIA GeforceGTX 1080 Ti GPU和Geforce GTX 1050移动GPU上分别需要600 ms和2 s/帧。6129(二)10.80.60.40.210.80.60.40.210.80.60.40.210.90.80.70.60.50.400 20 40 60 80100误差阈值(mm)(a) DO上的3D PCK00 20 40 60 80100误差阈值(mm)(b) ED上的3D PCK00 5 10 15 20 2530误差阈值(像素)(c) ED上的2D PCK0.320 25 30 35 40 45 50误差阈值(mm)(d) 机顶盒上的3D PCK图4:不同算法在三个基准数据集上的性能:(a)DO,(b-c)ED,(d)STB。(a)(b)(c)(d)(HO3D)(a)(b)(c)(d)(DO)(a)(b)(c)(d)(教育署)(a)(b)(c)(d)(a)(b)(c)(d)(STB)(a)(b)(c)(d)图5:在HOI(HO3D、DO、ED)和仅手(STB)场景下经由域自适应的示例手图像恢复结果(a)输入图像x,(b)由我们的初始网格渲染器gMR生成的图像x′,(c)由我们的GAN生成器gGAN生成的图像x″,(d)由网格渲染器gMR生成的最终图像z。5. 结论估计与对象交互的手的骨骼的现有方法需要完全注释的3D骨骼关节,由于对象遮挡,这是昂贵的构建。我们已经提出了一个新的框架,它可以训练估计器,而不必构建这种完全注释的数据集。我们的方法的关键是一个新的域自适应框架,该框架仅基于2D前景分割掩模、仅手图像的3D骨架以及合成的仅手图像和HOI图像对将输入HOI图像转换为相应的仅手图像,所有这些都可以很容易地构建用于合成数据集或伴随有深度图的真实RGB图像。我们设计了一个新的培训流程,以端到端的方式充分利用这种薄弱的监督。在3个真实世界的HOI数据集和一个仅用手的数据集上进行了评估,我们证明了1)在HOI图像上,我们的算法提供了优于或相当的性能优于在完全注释的骨架上训练的现有方法此外,3)当提供有可选的骨架注释时,其可以显著优于现有的HOI姿态估计方法。由于我们的方法是基于学习的,它受到一种新型的测试数据。我们在补充说明中将“黄瓶”作为此类数据之一。此外,我们没有利用1)时间信息和2)交互下对象未来的工作应探讨的可能性,通过利用(公认的)动作上下文行使互动下的对象上的估计网格形状和细化姿态估计的时间一致性。谢谢。Kwang In Kim获得了韩国政府(MSIT)资助的韩国国家研究基金会(NRF)资助:NRF-2019 R1 F1A1061603。Z B(ICCV 17)(AUC=0.44)6130引用[1] Seungryul Baek,Kwang In Kim,and Tae-Kyun Kim.用于基于深度的手部姿势估计的增强骨架空间转移。在CVPR,2018年。一、二、六[2] Seungryul Baek,Kwang In Kim,and Tae-Kyun Kim.通过神经渲染推进基于RGB的密集3D手部姿势估计的包络在CVPR,2019年。四、五、七[3] Seungryul Baek , Zhiyuan Shi , Masato Kawade , andTae-Kyun Kim.基于深度动作识别的动态布局感知随机森林。在BMVC,2017年。3[4] Binod Bhattarai、Seungryul Baek、Rumeysa Bodur和Tae-Kyun Kim。GAN合成数据的采样策略。在ICASSP,2020年。2[5] Abhishake Kumar Bojja, Franziska Mueller ,Sri RaghuMalireddi , Markus Oberweger , Vincent Lepetit ,Christian Theobalt , Kwang Moo Yi , and AndreaTagliasacchi. Hand-Seg:一个自动标记的数据集,用于从 深 度 图 像 中 进 行 手 部 计 算 机 和 机 器 人 视 觉 会 议(CRV),2019年。1[6] Adnane Boukhayma,Rodrigo de Bem,and Philip H.S. 乇3D手的形状和姿势从图像在野外。在CVPR,2019年。二、四[7] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单目rgb图像的弱监督三维手势估计在ECCV,2018。一、二[8] ICCV HANDS2019 挑 战 赛 。 https : //sites.google.com/view/hands2019/challenge,(11月15日访问)2019年)。6[9] 陈子扬,丁百文,吴敏宇,傅立臣。学习具有球形部分模型的深度网络以进行3D手部姿势估计。在ICRA,2017年。1[10] Yujin Chen,Zhigang Tu,Liuhao Ge,Dejun Zhang,Ruizhi Chen,and Junsong Yuan. SO-HandNet:自组织网络,用于3D手部姿势估计和半监督学习。在ICCV,2019年。4[11] Chiho Choi , Sang Ho Yoon , Chin-Ning Chen , andKarthik Ramani.在与未知对象交互期间的鲁棒手部姿态估计。InICCV,2017. 一、二[12] Guillermo Garcia-Hernando 、 Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准测试,包含RGB-D视频和3D手部姿势注释。在CVPR,2018年。一、二[13] Liuhao Ge , Hui Liang , Junsong Yuan , and DanielThalmann.单深度图像中的鲁棒3D手部姿势估计:从单视图CNN到多视图CNN。在CVPR,2016年。1[14] Liuhao Ge , Hui Liang , Junsong Yuan , and DanielThalmann.3D卷积神经网络用于从单个深度图像进行高效和鲁棒的手部姿势估计。在CVPR,2017年。1[15] Liuhao Ge , Zhou Ren , Yuncheng Li , Zehao Xue ,Yingying Wang,Jianfei Cai,and Junsong Yuan.从单个RGB图像进行3D手部形状和姿态估计在CVPR,2019年。2[16] 邓肯·高迪和阿芙罗狄蒂·加拉塔使用卷积神经网络从深度进行3D手部物体姿势估计在FG,2017年。3[17] Hengkai Guo ,Guijin Wang, Xinghao Chen ,CairoongZhang , Fei Qiao , and Huangzhong Yang. 区 域 集 合 网络:6131改进用于手部姿势估计的卷积网络。在ICIP,2017年。1[18] Henning Hamer,Juergen Gall,Thibaut Weise,and LucVan Gool.一个对象相关的手姿势之前从稀疏的训练数据。CVPR,2010。2[19] Henning Hamer , Konrad Schindler ,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功