没有合适的资源?快使用搜索试试~ 我知道了~
基于锚点的三维姿态估计网络(A2J)
793A2J:用于从单个深度图像Fu Xiong1人,Boshen Zhang1人,Yang Xiao1人,Zhiguo Cao1人,Taidong Yu1人,Joey TianyiZhou2人,Junsong Yuan3人1华中科技大学人工智能与自动化学院多光谱信息处理科学与技术国家重点实验室2新加坡A*STAR IHPC3纽约州立大学布法罗分校xiongfu,zhangbs,Yang_Xiao,zgcao,taidongyu@hust.edu.cn,joey.tianyi. gmail.com,jsyuan@buffalo.edu摘要分度头针对深度图像中手部和身体的三维姿态估计问题,提出了一种基于锚点的具有端到端学习能力的锚点到关节回归网络(Anchor-to- Joint Regression Network,A2 J)。在A2 J内,能够捕获全局-局部空间上下文信息的锚点被密集地设置在深度图像上作为关节的局部回归量它们有助于以集成方式预测关节的位置,以提高泛化能力。所提出的3D关节式姿态估计范例不同于现有的基于FCN的编码器-解码器、3D CNN和基于点集的方式。为了发现指向特定接缝的信息锚点,锚点建议程序是深度图像锚点索引中棕榈信息锚点也是A2J。同时,2D CNN(即, ResNet-预计偏移地面真实节理50)被用作骨干网络来驱动A2J,而不使用耗时的3D卷积或去卷积层-S.在3个手部数据集和2个人体数据集上的实验验证了A2J算法同时,A2J在单个NVIDIA 1080Ti GPU上具有约100 FPS的高1. 介绍随着低成本深度相机的出现,来自单个深度图像的3D手部和身体姿态估计引起了具有广泛应用场景(例如,HCl和AR)[32,33]。尽管最近取得了显着的进展[20,42,26,18,19,7,33,50,41,3],由于剧烈的姿势变化、不同关节之间的高度相似性、自遮挡等问题,这仍然是一项具有挑战性的任务[20,42,37]。大多数最先进的3D手部和身体姿态估计方法都依赖于深度学习技术。从来没有-* 傅雄、张博深贡献相当。†杨潇为通讯作者(Yang_Xiao@hust.edu.cn)。图1. A2J中基于锚点的3D姿态估计范例的主要思想。密集设置的锚点预测关节的位置与加权聚合。不同的接头具有高权重的不同信息锚点(即,>0。02),揭示了A2J但也存在一些缺陷。首先,基于编码器-解码器的FCN方式[2,43,27,4,42,41,26]通常使用不同关节的非自适应地面真实高斯热图进行训练,并且具有相对较高的计算负担。同时,它们中的大多数不能完全端到端地训练到3D姿态估计任务[35]。其次,由于大量的卷积参数,3D CNN模型[16,10,26]难以用昂贵的体素化过程来此外,基于点集的方法[14,17]需要一些额外的耗时的预处理处理(例如,点采样)。因此,我们试图解决3D手和身体姿态估计问题,使用一种新的基于锚的方法,称为锚关节回归网络(A2J)。亲-794提出的A2J网络具有端到端的学习能力。A2J的核心思想是通过聚合多个锚点的估计结果来预测3D关节位置,它的集成学习,以提高泛化能力。具体地,锚点可以被视为从不同视点和距离朝向关节的局部回归量。它们被密集地设置在深度图像上以一起捕获全局-局部空间上下文信息。它们中的每一个都将有助于回归所有关节的位置,但具有不同的权重。通过聚合所有锚点的输出来定位关节。由于不同的关节可以共享相同的锚点,因此可以很好地保持它们之间的铰接特性。对于特定关节,并非所有锚点都有相同的贡献。因此,提出了一种锚点建议过程,通过权重分配来发现指向特定关节的信息锚点。在训练过程中,考虑了锚点估计误差和信息锚点的空间布局两个因素。特别地,鼓励拾取的信息锚点均匀地围绕对应的关节以减轻过拟合。因此,所提出的基于锚点的3D姿态估计范例的主要思想在A2J中示出。1.一、我们可以看到,通常不同的关节具有不同的信息锚点。此外,可见的“而在相对平坦的区域上,不可见的“这实际上揭示了A2J从技术上讲,A2J网络由2D CNN骨干网络驱动的3个分支组成(即,ResNet-50 [21]),无解卷积层。其中,3个分支分别负责锚点与节理平面内偏移量的预测、节理深度值的估算和锚点信息的建议。在2D CNN上构建A2 J用于3D姿态估计的主要原因在于3个文件夹:(1)深度图像中已经包含了3D信息,使用2DCNN仍然可以揭示原始深度图像数据的3D特征;(2)与3D CNN和点集网络相比,2D CNN可以在大规模数据集(例如,ImageNet [9]),这可能有助于增强其深度图像的视觉模式捕获能力;(3)2D CNN具有高运行效率,无需耗时的3D卷积运算和预处理过程(例如,体素化和点采样)。A2J在3个手数据集上实验(即, HAND- S 2017[48],NYU [37]和ICVL [36])和2个身体姿势数据集(即,ITOP [20]和K2HPD [42]),以验证其优越性。实验结果表明,无论是对于3D手和身体姿态估计任务,A2J通常优于最先进的方法的有效性和效率的相似性。同时,A2J可以在线运行,在单个NVIDIA 1080Ti GPU上的速度约为100 FPS。本文的主要贡献包括:• A2J:基于锚点的回归网络,用于从单个深度图像进行3D手部和身体估计具有端到端的学习能力;• 提出了一种信息锚提议方法同时考虑节点位置预测误差和锚点空间布局• 没有去卷积层的2D CNN用于驱动A2J,确保高运行效率。A2 Jhttps://github.com/2. 相关作品现有的3D手部和身体姿态估计方法可以主要分类为非深度学习和基于深度学习的组。最先进的基于非深度学习的方法[33,22,13,46]通常遵循两步技术流程,首先提取手工特征,然后执行分类或回归。一个主要的缺点是,手工制作的特征通常不够有代表性。这往往导致基于非深度学习的方法不如基于深度学习的方法。由于所提出的A2J属于深度学习组,因此接下来我们将分别从2D和3D深度学习的角度介绍和讨论该范式。基于2D深度学习的方法。由于端到端的工作方式,深度学习技术对视觉模式表征具有很强的二维CN-N已经在2D姿态估计方面取得了巨大成功[38,4,27,43,44]。最近,它也被引入到3D领域,诉诸全局回归[18,19,29,28,7,15,20]或局部检测[37,25,42,41,39]的方式。全局回归方式由于在全连通层内进行全局特征聚合操作,不能很好地保持局部空间上下文信息。有希望的性能的基于局部检测的范例通常选择经由编码器-解码器模型(例如,FCN),为每个接头设置局部热图。尽管如此,热图设置仍然不能适应不同的并且,反卷积操作是耗时的。此外,大多数基于编码器-解码器的方法不能完全端到端训练[44]。基于3D深度学习的方法。为了更好地揭示深度图像内的3D属性以增强性能,最近的一个研究趋势是求助于3D深度学习。 付出的努力通常可以分为3D基于CNN和基于点集的族。基于3D CNN的方法[16,10,26]将深度图像体素化为体积表示(例如,占用网格模型[24])。然后执行3D卷积或去卷积操作以捕获3D视觉特性。然而,3D CNN由于大量的卷积而相对难以调谐。795骨干网共干深度图像锚点信息锚点预测的平面内位置预测的平面内偏移预测的深度值逐元素相乘回归干线锚提案处信息锚建议平原内偏移估计分支深度估计分支Softmax估计的深度值预测关节图2.A2J的主要技术管道A2J由主干网和3个功能分支组成主干网络基于ResNet-50构建。并且,这3个分支是平原偏移预测分支、深度估计分支和锚建议分支。符号定义锚点集。a锚点a∈A。J接头。j联合j∈J。K关节数S(a)锚点a的平面内位置。Pj(a)锚点a对接头j的响应。Oj(a)从锚点a朝向接头j的预测平面内偏移。Dj(a)锚点a预测的节理j深度值。表1.A2J中的符号定义合理的参数同时,三维体素化操作也导致了内存存储和运行时间的高计算负担3D深度学习的另一种方法是点集网络[6,30],将深度图像转换为点云作为输入。然而,一些时间消耗图3.深度图像上密集设置的锚点它们将用于以集合方式预测所有关节的位置。将通过锚提议分支被分配权重以发现信息性的。因此,关节j的平面内位置和深度值可以被实现为所有锚点的输出的加权平均值:ˆΣ ˜过程(例如,点采样和KNN搜索),这削弱了运行效率。因此,A2J属于基于2D深度学习的Sj=Da∈APj(a)(S(a)+Oj(a))Pj(a)Dj(a)、(1)组密集锚点以集合方式捕获全局-局部空间上下文信息,而不使用计算上昂贵的解卷积层。2D CN-N被用作高运行效率的骨干网络,也旨在传递RGB域的知识。a∈A其中,Sj和Dj指示关节j的估计的平面内位置和深度值;Pj(a)可以被记为锚点a朝向关节j的跨所有锚点,并使用softmax通过以下方式获取:3. A2J:锚点到接头回归网络A2J的主要技术管线如图所示二、Pj(a)=ePj(a)ePj(a).(二)a∈A并且,A2J内的符号在表1中定义。A2J由2D骨干网络(即, ResNet-50)和3个功能分支:平面内偏移估计分支、深度估计分支和锚点建议分支。3个分支分别预测Oj(a)、Dj(a)和Pj(a)在A2J范围内,锚点密集地设置在放置具有步幅S t=4个像素的深度图像以捕获全局-局部空间上下文信息,如图2所示。3.第三章。本质上,它们中的每一个都充当局部回归器,以通过平面内偏移预测分支和深度估计分支来预测所有关节的3D位置。对于某个关节,通过聚合所有锚点的输出来最终定位。考虑到可能不是所有的锚点对某个关节的贡献相等,值得注意的是,锚点a,其中Pj(a)>0的情况。02将被视为关节j的信息锚点。选定的信息锚点可以揭示A2J1.一、采用关节位置在他们的共同监督下,将拾取具有围绕关节的空间布局的信息锚点,以增强生成能力。接下来,我们将详细说明所提出的A2J回归网络及其学习过程。3.1. A2J回归网络这里,将分别详细说明A2J内的3个功能分支和骨干网络。锚点接头1接头2步幅=4796JJ锚点锚提案处���×������×���转换转换×���������������������������(××)������公共干线特征图3.1.1平面内偏移和深度估计分支本质上,这2个分支起到预测关节的3D位置的作用。由于平面位置估计和深度估计具有不同的性质,因此我们选择分别执行它们。具体地,一个是估计锚点和关节之间的Oj(a)。另一个是估计节点的Dj(a)。如图4所示,它们建立在骨干网络内回归主干的输出特征图因此,四个3×3中间卷积层(具有BN和ReLU)被设置为聚合更丰富的局部上下文信息。平原内偏移估计分支输入深度图像而不减少平面尺寸。由于特征图是在平面尺寸上的输入深度图像的16倍下采样(在第2节中示出)。3.1.3)和锚点设置步幅St=4,如图3所示,一个特征图点对应于深度图像上的4×4= 16个锚点然后设置具有要素地图平面内大小的输出卷积图层以列方式朝向所有16个相应的锚定点。假设存在K个节理,平面内炮检距估计分支为16×K×2个输出道。深度估计分支为16×K×1个输出通道。3.1.2锚提案处该分支通过权重分配发现用于特定关节的信息锚点,二、如图5所示,在骨干网内公共干线的输出特征图上建立一个chor建议分支,以涉及相对精细的特征。作为在Sec中引入的2个分支3.1.1,因此设置4个中间卷积层和1个输出卷积层,用于预测锚点的Pj(a),而不损失平面内大小。因此,该分支的输出层为16×K×1通道。3.1.3骨干网体系结构图4.平面内偏移和深度估计分支。他们都包含4个具有256个通道的中间卷积层和1个输出卷积层(具有16×K×2或16×K×1通道)。W和H指示输入深度图像的宽度和高度。d表示维数。输入深度图像图5.锚建议分支具有4个中间卷积层,256个通道,1个输出卷积层,16×K×1通道。W和H指示输入深度图像的宽度和高度。d表示维数。身体区域。 对于关节j,普通目标Ti表示根据裁剪区域变换的像素坐标中的2D地面实况。为了使Ti和深度目标T d在ImageNet上预训练的ResNet-50 [21]被用作j j骨干网特别地,层0-3对应于图1B中的公共干线。二、并 且 , 层 4 对 应 于 回 归 主 干 。 执 行 一 些 修 改 以 使ResNet-50更适合于姿态估计。首先,将层4中的因此,层4的输出特征图是在平面尺寸上的输入深度图像的16X下采样。与具有32倍下采样的原始ResNet-50相比,可以通过这种方式保持更精细的空间信息。同时,第4层内的卷积操作被修改为具有2的膨胀的膨胀卷积,以扩大感受野。3.2. A2J的学习过程为了生成A2J的输入,我们遵循[26]并使用中心点从深度图像中裁剪手部区域。对于身体姿势,我们遵循[11]并使用边界框进行裁剪在可比的量级上,我们将地面实况接头j的深度Zj为:Td=µ(Zj−θ),(3)其中μ和θ是变换参数。对于手部姿势,µ设置为1,θ设置为中心点的深度。对于身体姿势,µ设置为50,θ设置为0,因为我们没有深度中心。在测试期间,预测结果将被扭曲回世界坐标。然后在2个损失函数的联合监督下训练A2J:联合位置估计损失和信息锚点周围损失。接下来,我们将详细说明这两个损失函数3.2.1联合位置估计损失在A2J中,锚点作为局部回归量以整体方式预测关节的3D位置。这锚点���×������ ×���转换转换×������������ ���(××)������深度估计分支回归树干���×������×���转换转换×������������ ���(××)������797JJJ客观损失可表述为:Σ损失1=αj∈JΣ01- 02-03-2001(a∈AP<$j(a)(S(a)+Oj(a))−Ti)Σ+j∈JΣ02- 0a∈APj(a)Dj(a)−T d),(四)其中α=0。5是平衡平面内偏移量和深度估计任务的因子;Ti和Td是平面内偏移量和深度估计任务的因子。J J并且Lτ(·)是由下式给出的平滑L1类损失函数[31.1x2,用于|X| τ<,(a) 来自NYU数据集的Lτ(x)=2ττ(五)|2、否则| − 2,otherwise.在等式中4,τ1被设置为1,τ2被设置为3,因为深度值相对有噪声。3.2.2信息锚点周围损失为了增强A2J的泛化能力,我们打算让拾取的信息锚点位于关节周围,同时从多个视点观察关节的精神。因此,我们将损失周围的信息锚点定义为:(b) 来自ITOP前视图数据集的图6.锚点周围损失的有效性灰点表示锚点。红点表示信息锚点。绿色箭头表示平面内偏移。黄色方块对应于地面实况节理。损失2=Σj∈J01-02-03-2001(Σa∈APj(a)S(a)−Ti)。(六)纽约大学手部姿势数据集[37]。它包含72K训练和8.2K测试深度图像,36只手上为了揭示其有效性,我们显示了信息锚点空间布局,并没有使用它的手和身体姿势的情况下,图。六、可以看出,信息锚点周围的损失可以从根本上帮助减轻观点偏差。其定量有效性也将在第二节中得到验证。4.3.1.3.2.3端到端培训上述2个损失函数共同监督A2J的端到端学习过程,其被公式化为:损失=λ损失1+损失2,(7)其中损失是全部损失;λ=3是平衡损失1和损失2的权重因子。4. 实验4.1. 实验环境4.1.1数据集HANDS 2017数据集[48]。它包含从BigHand 2.2M [49]和第一人称手部动作[48]数据集采样的957K训练和295K测试深度图像。地面实况是21个手部关节的三维坐标。分度头分度头Indexmid索引中伴随着周围的损失无周围损失脖子脖子左手左手伴随着周围的损失无周围损失798接头. 根据[7,19,18,26],我们从正面视图中选择36个关节中的14个进行评估。ICVL手部姿势数据集[36]。它包含22K训练和1.5K测试深度图像。通过面内旋转,它被增加到330K个样本。注释了16个手部关节ITOP体位数据集[20]。它包含40K训练和10K测试深度图像,用于前视图和顶视图轨道。每个深度图像标记有人体的15个3D关节位置。K2HPD体位数据集[42]。它包含大约100K深度图像。19个人体关节以平面方式注释。4.1.2评估指标对于手,平均3D距离误差和成功帧度量的百分比年龄[26]被用作评估标准。对于身体,使用检测到的关节百分比(PDJ)[42,20]和10 cm规则的平均精度(mAP)[42,20]进行评价。4.1.3实现细节A2J网络使用PyTorch实现。输入深度图像被裁剪并调整大小为固定分辨率(即,手为176×176,身体为288×288)。随机799∗V2v[26] 9.95 6.97 12.43[34]第三十四话A2J(我们的)8.57 6.92 9.95 105.06表 2. HANDS 2017 数 据 集 的 性 能 比 较 [48] 。 “SEEN” 和“UNSEEN”表示测试子样本是否包含在训练集中的情况。“AVG”表示所有受试者的结果。而“十”是指十个模特的集合。方法平均误差(mm)FPS美国[1]Hand3D [10] 17.6 30[51]第51话JTSC [12] 16.8-全球对地方[23][45]第四十五话:[18]第18话[18]第18话DeepPrior++[28] 12.24 30[7]第七届全国人大代表[14]第十四话[39]第39话V2V [26] 9.22 35P2P [17] 9.045 41.8A2J(我们的)8.61 105.06表3.纽约大学数据集上的性能比较[37]。“对平面内和深度维度执行平面内旋转和随机缩放以用于数据扩充。随机高斯噪声也随机添加的概率为0.5的数据增强。我们使用亚当作为优化器。在所有情况下,学习速率设置为0.00035,权重衰减为0.0001。A2J在NYU上训练了34个epoch,学习率每10个epoch下降0.1,在ICVL和HANDS 2017上训练了17个epoch,学习率每7个epoch下降0.1对于2个人体数据集,用于训练的时期被设置为26,其中学习率衰减为0.1每10个时期。4.2. 与现有技术方法的HANDS 2017数据集:将A2J与最先进的3D手部姿势估计方法进行比较[47,8,14,26]尤其是。性能比较见表2。可以观察到:• 在这个具有挑战性的百万级数据集上,A2J从有效性和效率的角度来看都明显优于其他方法。这从本质上验证了我们命题的优越性;• 值得注意的是,A2J显著优于其他,对“这一现象从本质上说明了A2 J的泛化能力;• V2V是A2J最强的竞争对手,但10A2J(我们的)表4. ICVL数据集的性能比较[36]。“图7. A2J与最先进方法的比较。左:不同错误阈值上的成功帧百分比。右:每个手部关键点的3D距离误差。上图:纽约大学数据集。下图:ICVL数据集。模特儿合奏因此,它比只有一个模型的A2J慢得多NYU和ICVL数据集:我们将A2J与最先进的3D手部姿势估计方法进行比较[36,1,34,28、51、12、10、45、19、18、40、7、23、39、14、17、26]具体数据。在表3、4中给出了关于平均3D距离误差的实验结果。同时,在图中还给出了不同错误阈值上的成功帧的百分比以及每个关节的错误。7.第一次会议。我们可以总结如下:• A2J方法在大多数情况下无论是精度还是效率都优于其他方法例外的情况是,A2 J在ICVL数据集上的准确性略低于V2V和P2P,但运行效率要高得多;• 考虑到有效性和效率之间的良好权衡,A2J基本上利用了最先进的3D手部姿态估计方法。方法AVG看到看不见FPS方法平均误差(mm)FPS瓦诺拉[47]11.919.5513.89-LRF [36]12.58-[8]第十八话11.709.1513.83-DeepModel [51]11.56-绿洲[14]11.308.8613.3348Hand3D [10]10.930JTSC [12]9.16-[28]第二十八话8.130[18]第十八话7.63-[18]第十八话7.31-DenseReg [39]7.327.8POSE-REN [7]6.79-HandPointNet [14]6.93548P2P [17]6.32841.8∗V2V [26]6.2863.5800mAP(前视图)mAP(顶视图)方法RF[33个]RTW[50个]IEF[五]《中国日报》VI[20个]CMB[41个]REN-9x6x6 [18]∗V2v[26日]A2j(我们的)RF[33个]RTW[50个]IEF[五]《中国日报》VI[20个]REN-9x6x6 [18]∗V2v[26日]A2j(我们的)头63.897.896.2 98.197.798.798.2998.5495.498.483.8 98.198.298.498.38脖子86.495.885.2 97.598.599.499.0799.2098.582.250.0 97.698.998.9198.91肩膀83.394.177.2 96.575.996.197.1896.2389.091.867.3 96.196.696.8796.26肘部73.277.945.4 73.362.774.780.4278.9257.480.140.2 86.274.479.1675.88手51.370.530.9 68.784.455.267.2668.3549.176.939.0 85.550.762.4459.35躯干65.093.884.7 85.696.098.798.7398.5280.568.230.5 72.998.197.7897.82臀部50.890.383.5 72.087.991.893.2390.8520.055.738.9 61.285.586.9186.88膝盖65.768.881.8 69.084.489.091.8090.752.653.954.0 51.670.083.2879.66英尺61.368.480.9 60.883.881.187.6086.910.028.762.4 51.541.669.6258.34是说65.880.571.0 77.483.384.988.7488.047.468.251.2 75.575.583.4480.5表5.ITOP 3D身体姿势估计数据集的性能比较[20]。方法PHRCPMSHIEMLCMBA2j数据集组件误差/mAP[二]《中国日报》[四十三][27日][第四十二届][41个](我们的)PDJ(0.05)26.830.041.043.252.576.3PDJ(0.10)70.358.573.764.184.294.4PDJ(0.15)84.787.884.688.191.797.6PDJ(0.20)91.393.689.091.095.198.6平均68.367.572.171.680.991.7表6.K2HPD数据集上的性能比较[42]。ITOP数据集:我们还将A2J与最先进的3D身体姿势估计方式进行了比较[33,50,5,20,18,纽约大学(手)iTop前视图(身体姿势)w/o锚点建议分支10.08无信息锚点周围损失9.00使用一个分支估计IPO和DV8.95A2J(我们的)8.61w/o锚点建议分支80.1w/o信息锚点周围损失86.4使用一个分支估计IPO和DV87.4A2J(我们的)88.0#21426;在这个数据集上。性能比较如表5所示。我们可以看出:• 除了V2V* 以外,A2J在前视和俯视轨迹上都明显优于其他两种。前视情况下的性能差距至少为3.1,顶视情况下的性能差距至少为5。这表明A2 J也适用于3D身体姿态估计,以及3D手部任务;• A2J比V2V*差。然而,V2V系统实际上由10个模型组成。因此,与单一型号的A2J相比,其运行效率要低得多K2HPD数据集:由于该身体姿势数据集仅提供像素级的平面内地面实况,因此A2J内的深度估计分支被相应地移除我们还将A2J与最先进的方法进行了比较[2,43,27,42,41]。性能比较在表6中给出。可以观察到:• A2J方法的性能始终优于其他方法,与不同的PDJ阈值相对应。平均而言,性能差距至少为10.8。这表明A2 J也适用于2D情况;• 值得注意的是,随着PDJ阈值的降低,A2J的优势将显著扩大这揭示了以下事实:A2J本质上优于更准确的身体姿势估计。4.3. 消融研究4.3.1组件有效性分析A2J中的组件有效性分析在NYU [37](手部)和ITOP[20]数据集(身体)上执行。我们801表7. A2J内的组件有效性分析。“表示平面内偏移,而“将调查锚建议分支的有效性结果列于表7中。可以观察到:• 如果不使用锚点建议分支,性能将显著下降,特别是对于身体姿势。这验证了我们的观点,即并非所有锚点对某些关节的贡献相等实际上,锚点自适应性是A2 J• 在不使用信息锚点周围损失的情况下,性能将下降,尤其是对于身体姿势。这说明,信息锚点的空间布局是影响信息锚点泛化能力的一个重要因素;• 当在一个分支中估计平面内偏移和深度值时,性能将在一定程度上下降这可能是由于平面内偏移和深度值保持不同的物理特性的事实4.3.2锚定范式的有效性为了验证基于锚的3D姿态估计范例的有效性,我们将A2J与基于全局回归的方式[38]和基于FCN的方法[44]进行了比较。由于FCN模型通常用于预测平面内关节位置,因此本消融研究在K2HPD上执行802范式全球回归[38]FCN模型[44]A2J(我们的)PDJ(0.05)61.570.476.3FPS145.1245.4893.78表8. K2HPD数据集上不同范例之间的性能比较[42]。Pre-train从头开始ImageNet pre-training NYU(error)10.088.61ITOP前视图(mAP)87.388.0表9.在ImageNet上预训练A2J的有效性骨干ResNet-18ResNet-34ResNet-50纽约大学误差9.329.018.61FPS192.25144.63105.06iTop地图87.187.888.0前视FPS167.19122.4793.78表10.骨干网之间的性能比较[42]只有在平原地面实况注释。全局回归方法采用二维C-NN对深度图像进行编码,然后利用全连接层对平面人体关节位置进行回归。根据[44]建立FCN模型。ResNet-50 [21]被用作它们的骨干网络,这与A2 J相同,以便进行公平比较。PDJ(0.05)用作评价标准。性能比较列于表8中。我们可以看出:• 当使用相同的ResNet- 50骨干网络时,我们提出的基于锚点的范例显着我们认为有两个主要原因。首先,与基于全局回归的方式相比,可以在A2J内更好地维护局部同时,与FCN模型相比,A2 J模型具有锚点对特定节点的自适应性;• A2J模型比FCN模型运行快,但比全局回归模型运行慢然而,它的性能优于全局回归范式是显着的,实际上是更好的权衡效果和效率。4.3.3预培训的有效性我们在2D CNN上构建A2J的一个原因是,它可以在大规 模 RGB 视 觉 数 据 集 上 进 行 预 训 练 ( 例 如 ,ImageNet)进行知识转移。为了验证这一点,我们在NYU(手部)和ITOP(身体)数据集上比较了在ImageNet上进行预训练和未进行预训练的A2J的性能性能比较列于表9中。可以观察到,对于手部和身体姿势的情况,在ImageNet上预训练A2J确实可以帮助利用性能。4.3.4骨干网比较进一步研究了不同骨干网之间的比较。如表10所示,我们比较了3个骨干网络的性能(即,ResNet-18、ResNet- 34和ResNet-50)。可以总结如下:• 更深的网络可以达到更好的效果,但随着运行效率相对较低。但是,不同骨干网之间的性能差距并不大;• 值得注意的是,即使使用ResNet-18 A2 J,一般都能达到最先进的性能,运行速度极快,达到192.25 FPS。这揭示了A2J对高实时运行要求的应用场景的适用性。4.4. 运行速度分析A2J在单颗NVIDIA 1080Ti GPU上的3D手势估计平均在线运行速度为105.06 FPS,其中读取和扭曲图像的平均运行速度为1.5 ms,网络前向传播和后处理的平均运行速度为8.0 ms用于3D身体姿势估计的运行速度是93.78帧/秒,包括0.4 ms的读取和扭曲图像,以及10.2ms的网络前向传播和后处理.这揭示了A2J5. 结论提出了一种基于锚点的单幅深度图像三维关节位姿估计方法A2J。 A2J内锚点设置密集 在深度图像上捕获全局-局部空间上下文信息,并以集成方式预测关节位置。同时,提取信息锚点,以揭示A2J对不同关节的自适应特性。A2J构建在2D CNN上,而不使用计算昂贵的去卷积层。广泛的实验表明,A2J在今后的工作中,我们将寻求更有效的融合锚点的方法。确认本课题得到了国家重点科技&攻关计划(2005年)的 资 助 。 国 家 自 然 科 学 基 金 ( 批 准 号 :2018YFB1004600)61876211和61602193),中央大学基础研究基金(批准号:61876211和61602193)。2019kfyXKJC 024),湖北省国际科技&合作项目(批准号:2017AHB051),来自布法罗大学的周天一由新加坡政府的研究、创新和企业2020计划(先进制造和工程领域)资助,资助额我们也感谢匿名评论者为提高本文质量而提出的建议803引用[1] Diane Bouchacourt Pawan K Mudigonda 和 SebastianNowozinDisconets:Dissimilaritycoefficientsnetworks。在proc 神经信息处理系统进展(NIPS),第352-360页,2016年。6[2] Adrian Bulat和Georgios Tzimiropoulos通过卷积部分热图回 归 的 人 体 姿 势 估 计 。 欧 洲 计 算 机 视 觉 会 议(ECCV),第717-732页,2016年1、7[3] Yujun Cai,Liuhao Ge,Jun Liu,Jianfei Cai,Tat-JenCham,Junsong Yuan,and Nadia Magnenat Thalmann.利用空间-时间关系通过图形卷积网络进行3d姿态估计。在Proc. IEEE国际计算机视觉会议(ICCV),2019年。1[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。IEEE计算机视觉和模式识别会议(CVPR),第7291-7299页,2017年。一、二[5] Joao Carreira ,Pulkit Agrawal,Katerina Fragkiadaki,and Ji- tendra Malik.迭代误差反馈人体位姿估计。在Proc. IEEE计算机视觉和模式识别会议(CVPR),第47337[6] R Qi Charles, Hao Su ,Mo Kaichun , and Leonidas JGuibas.Pointnet:对点集进行深度学习,用于3D分类和分割。IEEE计算机视觉和模式识别会议(CVPR),第773[7] Xinghao Chen , Guijin Wang , Hengkai Guo , andCairoong Zhang.用于级联手部姿态估计的姿态引导结构区域集成网络。arXiv预印本arX- iv:1708.03416,2017年。一、二、五、六[8] Xinghao Chen , Guijin Wang , Hengkai Guo , andCairoong Zhang.用于级联手部姿态估计的姿态引导结构区域集成网络。arXiv预印本arX- iv:1708.03416,2017年。6[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据 库 。 在 proc IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第248-255页,2009年。2[10] Xiaoming Deng,Shuo Yang,Yinda Zhang,Ping Tan,Liang Chang,and Hongan Wang.Hand3d:使用3D神经网 络 进 行 手 部 姿 势 估 计 。 arXiv 预 印 本 arXiv :1704.02224,2017。一、二、六[11] 方浩树,谢淑琴,戴玉荣,陆策武。区域多人姿态估计。在Proc. IEEE国际计算机视觉会议(ICCV),第2334-2343页,2017年。4[12] Damien Fourure、Rémi Emonet、Elisa Fromont、DamienMuselet、Natalia Neverova、Alain Trémeau 和ChristianWolf。多任务、多领域学习:应用于语义分割和姿态回归。神经计算,251:68-80,2017。6[13] Varun Ganapathi、Christian Plagemann、Daphne Koller和Sebastian Thrun。根据距离数据进行实时人体姿态跟踪 在 Proc. European Conference on Computer Vision(ECCV),第738-751页,2012中。2[14] 刘浩、蔡玉军、翁君武、袁俊松。手点网:使用点集的3d手姿态估计。 在Proc. IEEE计算机视觉和模式识别会议(CVPR),第8417-8426页,2018年。1、6[15] Liuhao Ge , Hui Liang , Junsong Yuan , and DanielThalmann.单深度图像中的鲁棒3d手部姿态估计:从单视 图 cnn 到 多 视 图 cnn 。 在 Proc. IEEE Conference onComputer Vision and Pattern Recognition(CVPR),第3593-3601页,2016中。2[16] Liuhao Ge , Hui Liang , Junsong Yuan , and DanielThalman-n. 3D卷积神经网络,用于从单个深度图像进行高效和鲁棒的手部姿势估计。在Proc. IEEE计算机视觉和模式识别会议,第1卷,第5页,2017年。一、二[17] 六号戈,周仁,袁俊松。点到点回归点网络用于三维手姿 态 估 计 。 在 Proc. Eu-roxis 计 算 机 视 觉 会 议(ECCV),第4751、6[18] Hengkai Guo , Guijin Wang , Xinghao Chen , andCairong Zhang.深度3d手部姿势估计的良好实践。arXiv预印本arXiv:1707.07248,2017。一、二、五、六、七[19] Hengkai Guo,Guijin Wang,Xinghao Chen,CairoongZhang,Fei Qiao,and Huangzhong Yang.区域集合网络:改进卷积网络用于手部姿态估计。在Proc. IEEE图像处理国际会议(ICIP),第4512-4516页,2017年。一、二、五、六[20] Albert Haque , Boya Peng , Zelun Luo , AlexandreAlahi,Ser- ena Yeung,and Li Fei-Fei.视点不变的三维人体姿态估计。欧洲计算机视觉会议(ECCV),第160-177页,2016年。一、二、五、七[21] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习 在proc IEEE计算机视觉和模式识别会议(CVPR),第770-778页,20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功