没有合适的资源?快使用搜索试试~ 我知道了~
11677--DECA:使用胶囊自动编码器的深度视点等变人体姿态估计Nicola Garau1、Niccolo`Bisagno1、Piotr Bro´ dka1和Nicola Conci1nicola.garau,niccolo. unitn.itpiotrbrodka95@gmail.com,www.example.com,nicola.unitn.it1University of Trento,Via Sommarive,9,38123 Povo,Trento TN输入(a) 2D/3D HPE(b) 3D HMR(c)Ours图1:[颜色更好]。建议的解决方案概述。对于每个图像,示出了同一对象的两个不同视图:(a)2D/3D人体姿态估计(HPE)和(b)3D人体网格恢复(HMR)方法在前视图(第二行)上实现了良好的精度。更改视点会导致性能下降(第一行)。我们的方法(c) 促进了视点等方差,在RGB和深度域中均显示出良好的结果摘要人体姿态估计(HPE)的目的是从图像或视频中检索人体关节的3D位置。我们表明,当前的3D HPE方法缺乏视点等方差,即当处理在训练时间看不见的视点时,它们往往失败或表现不佳。深度学习方法通常依赖于尺度不变、平移不变或旋转不变操作,诸如最大池化。然而,采用这样的程序并不一定改善视点生成,而是导致更多的数据依赖性方法。为了解决这个问题,我们提出了一种新的胶囊自动编码器网络与快速变分贝叶斯胶囊路由,命名为DECA。通过将每个关节建模为胶囊实体,结合路由算法,我们的方法可以保持关节通过实现视点等方差,我们大大减少了网络数据的依赖性在训练时,导致在一个改进的能力,以推广看不见的观点点。在实验验证中,我们优于其他方法的深度图像从看到的和看不见的视点,无论是顶视图,和前视图。在RGB域中,相同的网络在挑战性的视点转移任务上给出了最先进的结果,还为顶视图HPE建立了新的框架。代码可以在https://github.com/mmlab-cv/DECA上找到。116781. 介绍人体姿态估计是许多应用的关键,例如动作识别、动画、游戏等[16,29,28]。依赖于RGB图像的现有技术方法[2,32]可以正确地定位人体关节(例如,关节)。躯干、肘部、膝盖),也存在遮挡。然而,当处理挑战场景时,它们往往会失败。特别地,俯视视角被证明是一项困难的任务;一方面,它导致最大量的关节闭塞,另一方面,它遭受合适的训练数据的稀缺,如图1B所示。1.一、当呈现看不见的视点时,即使在存在遮挡和非常规关节配置的情况下,人类也显示出估计人类姿势的非凡能力。 这在计算机视觉中并不总是正确的。事实上,可用的方法是在相对受约束的环境中训练的[15],不同观点之间的可变性有限有限的数据,尤其是来自顶视点的数据,连同对人类姿势的分层和几何结构建模的有限能力,导致较差的泛化能力。这个泛化问题,称为视点问题,取决于网络激活如何随着视点的变化而变化,通常是在变换(平移,缩放,旋转,剪切)之后。卷积神经网络(CNN)标量激活不适合有效地管理这些视点变换,因此需要依赖于最大池化和积极的数据增强[4,9,22,36]。通过这样做,CNN旨在实现视点不变性,定义为f(Tx)=f(x)(1)根据该公式,在输入图像X上应用视点变换T不会改变网络激活的结果。然而,更期望的属性将是捕获并保持应用于输入图像X的变换T,从而获得知道应用于输入的不同变换的网络能够对根据输入视点变换以结构化方式改变的网络激活进行建模也被称为视点等方差,并且其被定义为:f(Tx)=Tf(x)。(二)这是通过引入胶囊来实现的:胶囊是显式地对存在于同一对象的不同部分之间的固有视点不变关系进行编码的神经元组胶囊网络(CapsNets)可以学习跨不同视点的所谓实体之间的部分-整体关系[12,26,13],类似于我们的视觉皮层系统如何运作,根据组件识别理论[1]。与通常保持视点不变性的传统CNN不同,胶囊网络可以通过网络激活来显式地建模并联合保持视点变换T,从而实现视点等价性(等式2)。2)的情况。为3D HPE网络开发视点等变方法可带来多项优势:(i)学习的模型更鲁棒、可解释并且适合于现实世界应用,(ii)视点被视为可学习参数,允许从每个特定视图中解开骨架的3D数据,(iii)相同的注释数据可以用于训练不同视点的网络,因此需要较少的训练数据。在这项工作中,我们解决的问题,从单一的深度或RGB图像的视点等变人体姿势估计。我们的贡献概述如下:• 我们提出了一种新的深度视点等变胶囊自动编码器架构(DECA),共同解决多个任务,如3D和2D人体姿态估计。• 我们展示了我们的网络如何使用有限的训练数据,没有数据增强,以及不同的输入域(RGB和深度图像)。• 我们展示了如何的特征空间组织,定义路由输入信息,建立胶囊实体,蒂,提高任务时,共同解决。• 我 们 在 深 度 域 的 ITOP [9] 数 据 集 和 RGB 域 的PanopTOP31K [5]数据集上评估我们的方法我们建立了一个新的基线的视点转移任务,并在RGB域。2. 相关工作近年来,人体姿态估计已经成为多个研究的主题,特别是对于实时2D HPE [2]、3D HPE [32]和人体网格恢复(HMR)方法[19,18]。在这项工作中,我们使用RGB [2,10]或深度图像[9,22,36]从单个视图关注HPE。来自RGB图像的视点不变HPE。3D HPE通常利用其他线索,例如2D预测[32,34,30],多个图像[38],预训练模型[17]和姿势字典[27]。其他最近的工作旨在端到端、基于学习的3D HPE [25,31,21]。在RGB域中,常见的HPE数据集(如Human3.6M [14])提供来自多个视图(如前视图或侧视图)的图像然后很明显,缺乏合适的多视图(特别是俯视图)数据意味着当在测试时间呈现不可见的视点时,现有技术的方法[2,32,19,18]必然表现不佳,如图1B所示第1(a)段。11679×个∼×个Σ。Σ≈F来自深度图像的视点不变HPE。已经使用来自顶视图和侧视图的深度图像[9,22,36],使用像K2HPD身体姿势数据集[35]和ITOP数据集[9]的数据集开发了视点不变HPE方法。为了利用在2D深度图像中编码的3D信息,一个最近的研究趋势是求助于3D深度学习。所付出的努力通常可以分为基于3D CNN和基于点集的族。为了增强深度数据的3D属性并计算更重要的特征,当前的方法依赖于3D CNN [9,22]或具有密集特征的2D CNN [36]。基于3D CNN的方法[9,22]对像素执行体素化操作以将其转换为3D对象。为了处理3D数据,每个网络对输入数据执行昂贵的3D卷积。这些操作是高计算负担和难以适当地调谐3D CNN中的大量参数的原因。在2D CNN的结构域中,Xionget al. [36]通过以整体方式计算密集特征来捕获3D结构,从而避免计算密集的CNN层,但它们仍然依赖于骨干预训练网络来提取2D特征。尽管如此,上述方法通常实现弱视点不变性,但无法对视点等变性进行建模。此外,我们认为,数据的3D几何形状应该由网络来解释,而不依赖于体素化嵌入或2D预训练的特征提取网络。HPE的胶囊网络。由于网络结构和特征,胶囊网络已经显示出对训练数据的几何性质进行建模的能力[26,13,20]。Sabour等,介绍了一种用于向量胶囊路由算法,称为协议路由,作为最大池的更好替代。Hinton等人[13]通过更复杂的矩阵胶囊结构和用于胶囊的期望最大化路由(EM路由)不幸的是,与CNN和向量CapsNets相比,嵌入在胶囊中的EM路由和4 × 4姿态矩阵有助于增加训练时间。Kosiorek等人[20]第一次引入了一个无监督的基于胶囊的自动编码器。Ribeiro等人在[24]中,通过首次提出适合变换高斯混合的变分贝叶斯胶囊路由(VB路由),他们提出了使用少50%的胶囊的最先进的结果,实现了性能增益和网络复杂性降低。然而,所有提到的工作都只考虑小数据集,如MNIST,small-NORB和CIFAR-10进行基准测试。在RGB域中,Ram 'ırez [23]使用动态向量胶囊网络[26]解决RGB HPE问题,以端到端的然而,他们的工作只利用了Human3.6M数据集的横向视角,并且只考虑了RGB数据。在这项工作中,我们使用矩阵胶囊[13],以及不同的胶囊路由算法和具有GELU激活的新的编码-解码流水线。我们认为,矩阵胶囊比矢量胶囊更适合于3DHPE任务,因为用于路由的4 - 4姿态矩阵可以比动态矢量结构更好地捕获3D几何形状。3. 方法我们现在分析所提出的自动编码器,DECA,开始与胶囊编码器和多任务解码器。DECA可以进行端到端的训练,而无需任何预训练或数据增强,并且它在推理阶段实时工作。所提出的架构的概述在图1中示出。二、3.1. 胶囊编码器网络的编码模块(图中的浅蓝色)(2)分为:(i)输入预处理器I,(ii)CNN编码器E和(iii)具有可变贝叶斯路由的四层矩阵胶囊[24]。(i) I是在区间[0,1] 中归一化不同类型的数据(RGB图像、深度图像、顶视图、侧视图、自由视图)的层。(ii) 然后将归一化的输入转发到CNN编码器E,使用具有输入[N_ch,64,128,256]、实例归一化和GELU激活[11]的四个卷积层构建3. Nch是通道的数量,其可以根据输入而变化。GELU(x)0。5x(1 + tanh2(x +0. 044715x3))π(三)(iii) CNN编码器E的输出馈送我们的胶囊层。在以前的作品[26,13,20]中已经表明,胶囊提供了对视点以及部件和父对象之间的关系的考虑到每个关节的多个自由度,我们采用矩阵胶囊模型[13]而不是向量胶囊[26],丰富了单个关节作为分层链接胶囊实体的描述。我们基于变分贝叶斯(VB)[24]部署了新的胶囊路由VB路由的最后一次迭代也称为ClassRouting,它用于将最高级别的信息路由到特征空间之前的最后一层胶囊。在我们的CapsNet中,我们采用了四层:初级胶囊层将E的输出特征封装成16维胶囊,两个卷积胶囊层细化胶囊特征,最后一个类胶囊层11680F×个{·}FFED2个y^2个帽FD3Dy^3DDDMy^WDMy^L我图2:[颜色更好]。建议架构概述。在浅蓝色中,编码模块(输入,CNN编码器,胶囊层),绿色是具有胶囊实体的可解释特征空间,浅橙色是解码模块(具有多个任务和自平衡损失的完全连接的解码器)。将输出编码为潜在空间中的J维特征,其中J是关节(也称为实体)的数量。给定每个较低级别的胶囊i和对应的较高级别的胶囊j,我们将Mi定义为所提出的较低级别的胶囊j。算法一:胶囊编码器CapsuleEncoder(x)输入:x = x0。. . x BS,BS =批量RGB或深度图像输出:F=J16维实体;水平姿态矩阵和Wij∈R4×4作为可训练视点-yW=可训练的反向图形等变变换矩阵,使得:VJ|i=MiWij(4)其中Vj|i是来自较低胶囊i的 用于较高胶囊j的投票。投票过程发生在VB路由内部,并且它允许每个较低的封装体i将其信息路由到其选择的较高的封装体j,从而允许构建CapsNet典型的分层结构。为 了 促 进 Eq. 2 , 我 们 在 类 胶 囊 中 引 入 逆 矩 阵 y(W),其旨在满足逆图形约束:yWWij=I(5)这意味着学习到的逆矩阵y(W)有效地充当渲染操作的近似逆,如在计算机图形学中常见的那样[12]。在编码器的输出处,对应于骨架的每个关节的每个实体由16个元素的扁平化向量定义,或者换句话说,由足以掌握每个关节的完整姿势(平移+旋转)的4 × 4胶囊编码器的概述在算法1中示出。在该算法中,s3D、s2D、sDM、sW是用于损耗的自平衡的权重,wc是卷积层权重,a是每个胶囊层的激活,并且表示仅当在RGB域中时使用的参数。矩阵s3D,s2D,{sDM},sW←1;w c←xavier uniform()c∈ ConvLayers;foreachi∈ConvLayersdox←Conv2di(x);x←InstanceNorm2di(x);x← GELU(x);a,x←PrimaryCapsules(x);foreachj∈ConvCapsuleLayersdoa,x←ConvCapsulesj(a,x);a,x←VBRoutinggj(a,x);a,x,yW←C类封装(a,x);a,x←ClassRouting(a,x);int x(x);retur nF,y(W;3.2. 多任务解码器从胶囊特征空间中的16维实体出发,我们设计了一个解码模块(图1中的光或范围块)。2)允许我们从相同的特征空间同时重新尝试针对不同任务的多个预测。 解码模块中的每个解码器DT被配置为独立的全连接块,其中0。5脱落和GELU激活[11]。我们不采用跨解码器的权重共享或层共享来实施多任务丢失,如第3.3节中所解释的。我们定义具有不同目标的不同任务(τ)11681DDLW不LDML不sτ+e−sτLτ• 3:最小化3D空间中的地面实况与预测的3D关节• 2:如上所述,但不依赖于3D关节预测,而是预测如从相机帧坐标中的当前视点看到的2D关节•:反转图形丢失 其作用是强制胶囊权重矩阵的可逆性。注。F定义了矩阵的Frobenius范数。L =1ΣBS(y−yˆ)2• DM:重建输入的深度图二维、三维BSi=0我我ΣΣ ΣRGB图像。它仅用于RGB域;• W反转图形损失:学习反转图形Lτ=LDM=BSi=0时掩模|yi−yi|+的|yi−yi|2*BS矩阵yW以促进输入像素的去渲染(六)对于每个任务τ=3D、2D、DM,解码器Dτ取考虑作为所采用的任务τ的集合,所有任务的总平衡损耗表示为:作为特征空间F的输入,并且其输出预测Y=[y3D,y2D,{yDM}]到损失函数。F或W,Σ。Στ∈T(七)胶囊解码器的概述如Algo-Rithm 2.算法二:胶囊解码器CapsuleDecoders(x)输入:F=J16维实体输出:Y=[y3D,y2D,{yDM}]x← F;对于每个i∈Ydox←删除0. 5(x);x←Linear(x);(x,y);retur nY?=[y?3D,y?2D,{y?DM}];3.3. 自平衡多任务丢失任务与不同的输入域相关联,如下所示:3D2个DDM W深度C c CRGBC C C每个任务被分配损失Lτ,其被定义为:• L2D、L3D:3D的均方误差(MSE)损失和2D关节预测任务。•DM:深度估计任务在RGB域中,其中mask是仅对超过某个深度阈值的像素应用L1损失的函数,以促进非背景区域上的深度估计。其中sτ=[s3D ,s2D ,sDM,sW]是与在算法1中初始化为1的每个损失相关联的可训练权重,并且τ是启用的解码器的每个损失,如在等式2中定义的。六、4. 实验4.1. 数据集深度图像的ITOP数据集。ITOP数据集[9]包含来自顶视图和前视图的深度图像训练分割和测试分割分别由40k和10k图像组成。深度图像在受约束的设置中显示20个演员的15个视频使用两个Axus Xtion Pro相机记录数据集3D骨架模型由15个关节组成。PanopTOP31K深度和RGB图像数据集。PanopTOP数据集[?]由来自24个不同演员的视频序列的31k顶视图和31k前视图图像组成地面实况3D骨架由19个关节组成。4.2. 评估指标在[9,22,36]的工作之后,我们选择平均平均精度(mAP)作为深度域的评估度量。它被定义为落在小于0.10米的间隔内的所有预测关节的百分比在RGB域中,我们使用以毫米为单位的平均每关节位置误差(MPJPE),如在许多HPE作品中一样[2,32,23]。4.3. 实现细节我们的网络使用Pytorch Lightning以端到端的方式进行训练。输入图像在区间[0,1]中进行归一化,深度分辨率为256x256像素分离的胶囊实体,如第二节所述。3.1,等式五、LW=yWWijF矩阵被直接从编码器向损失函数发送L=11682不D不WDWD∈F接头数量(a)V2V [22](b)DECA-D1,T=[3D](c)DECA-D2,T=[3D,W](d)DECA-D3,T=[3D,2D,W]图3:使用t-SNE [33]获得的16维潜在空间的2D表示每个点对应于表示来自ITOP [9]的测试集的骨架的关节jt的实体E_jtV2V网络[22]依赖于CNN,因此不能将对应于相同实体(a)的样本聚类在一起。当训练仅满足3D预测约束时,我们的DECA-D1网络的性能略好于V2 V(b)。对应于骨架模型的15个关节的15个聚类在DECA-D2(c)和DECA-D3(d)中是清楚可区分的,其中(d)显示更好的聚类分离和更少的离群值。图像和256x256像素的RGB的。我们不对输入数据集执行 任 何 增 强 。 ITOP 的 批 次 大 小 设 置 为 128 ,PanopTOP31K的批次大小设置为128。我们使用Xavier初始化[6]初始化权重。学习率设为1e-5,权重衰减设为0,Adam是最佳选择。我们在ITOP数据集上训练了20个epoch,在Panop-TOP31 K上训练了15个epoch。4.4. 特征空间实体与消融研究我们报告了ITOP数据集[9]的顶视图实验,以验证我们的网络提供的3D表示,并显示多任务解码器如何影响整体性能。为此,我们部署了4个配置,3个在深度数据上,1个在RGB数据上,具有我们方法的不同任务集:• DECA-D1,T=[3D]• DECA-D2,T=[3D,W]• DECA-D3,T=[3D,2D,W]• DECA-R4,T=[3D,2D,DM,W]其中字母D或R表示深度或RGB域,并且数字定义了分配给网络的任务的由于我们正在评估3D HPE的性能,因此τ=[3 ]用于所有不同的配置。损失有效性分析。结果报告在表1的最后3列中。如表中所示,增加任务的数量通常导致网络性能的增加。DECA-D1已经实现了与最先进技术相似的结果,这要归功于CapsNets输入数据。当采用逆图形损失(DECA-D2和DECA-D3)时,权重矩阵的强制可逆性导致性能的立即增益。在DECA-D3中,引入2损失导致准确度方面的额外改进。因此,我们认为,当更多的任务,因为我们实现了一个更好的代表性的潜在空间中的实体的网络性能提高。潜在空间分析为了分析潜在空间,我们使用胶囊模块后提取的测试集的特征。每个特征f被线性化以获得长度为Lfeat的向量。在该阶段,通过将每个特征向量除以关节的数量来定义对应于每个关节jt的每个实体E jt,从而得到长度为Lfeat的向量.出于可视化目的,我们使用t-SNE[33]以将实体投影到二维空间上。结果如图所示3.第三章。我们将我们的潜在空间与V2 V [22]编码器/解码器结构的公开可用版本进行比较。我们展示了我们的DECA网络如何更好地集群和分离每个实体Ejt相对于V2V。我们的解决方案提供了一个更好的组织的潜在空间,更大的类间利润和更少的离群值。潜在空间组织显著改善当我们采用τ=task(DECA-D2)时,因此强制执行逆图形约束。在DECA-D3中,我们添加了τ=2任务。潜在空间的最终组织得到改善,从而进一步建立相关性任务数量的增加和性能的提高之间的关系4.5. 与最新方法的深度数据:ITOP数据集。我们将我们的DECA与用于深度图像上的人类姿势估计的常见最先进方法进行结果见表1。1.我们的DECA比现有的-11683ITOP前视图ITOP顶视图身体部位俄罗斯联邦[28]RTW[37]IEF[3]六[9]REN9x6x6[8]V2V[22]A2J[36]DECA-D3俄罗斯联邦[28]RTW[37]IEF[3]六[9]REN9x6x6[8]V2V[22]A2J[36]DECA-D1DECA-D2DECA-D3头63.8097.8096.2098.1098.7098.2998.5493.8795.4098.4083.8098.1098.2098.4098.3894.4195.3195.37脖子86.4095.8085.2097.5099.4099.0799.2097.9098.5082.2050.0097.6098.9098.9198.9198.8699.1698.68肩膀83.3094.1077.2096.5096.1097.1896.2395.2289.0091.8067.3096.1096.6096.8796.2696.1297.5196.57肘部73.2077.9045.4073.3074.7080.4278.9284.5357.4080.1040.2086.2074.4079.1675.8876.8681.6784.07手51.3070.5030.9068.7055.2067.2668.3556.4949.1076.9039.0085.5050.7062.4459.3544.4145.9754.33躯干65.0093.8084.7085.6098.7098.7398.5299.0480.5068.2030.5072.9098.1097.7897.8299.4699.7099.46髋50.8080.3083.5072.0091.8093.2390.8597.4220.0055.7038.9061.2085.5086.9186.8897.8497.8797.42膝盖65.7068.8081.8069.0089.0091.8090.7594.562.6053.9054.0051.6070.0083.2879.6688.0188.1990.84英尺61.3068.4080.9060.8081.1087.6086.9192.040.0028.7062.4051.5041.6069.6258.3479.3083.5381.88上身---84.00---83.03---91.40---78.5180.6083.00下半身---67.30---95.30---54.70---89.9691.2791.39是说65.8080.5071.0077.4084.9088.7488.0088.7547.4068.2051.2075.5075.5083.4480.583.8585.5886.92表1:ITOP前视图和顶视图(公制:0.1m mAP)与最新技术水平的比较在前视图任务上使用方法,在更具挑战性的顶视图上大幅提高一般来说,我们在大多数关节和平均值上的表现始终优于其他方法。我们的方法的增益是特别大,当处理下半身,这往往是在顶视图中被遮挡。深度数据:视点-等变ITOP。我们测试DECA的观点转移任务,这意味着在一个观点,无论是顶视图或前视图的培训,并在另一个测试,看不见的训练时间。与现有最先进方法[28,37,3,9]的比较报告见表1。2.我们一贯优于其他方法的一个很大的保证金,从而使一步前进的观点等方差。而其他方法仅提供视点转移结果的最佳子集(表1)。2),完全省略了列车在顶部和测试在前面的场景,我们提供了所有的关节和所有的视点转移组合的结果在Tab.3.我们的DECA在许多不同的关节上(例如:肩部、下半身)。在Tab3中,在顶视图或前视图上训练DECA可实现相当的较低身体精度。这意味着,当网络在俯视图上训练时,其中下半身主要被遮挡,它可以从先前不可见的前视图中检索被遮挡的关节,反之亦然。这显示了我们的网络如何学习视点作为参数,因此它能够以类似的方式在所有视点转移组合中进行泛化。RGB数据:视点-等变PanopTOP 31 K。据我们所知,我们是第一个解决RGB域中顶视图和前视图之间的视点转移问题的。我们在Tab中报告了对可见和不可见视点的训练和测试结果。4.所选择的度量是平均每关节投影误差(MPJPE)。我们报告了预测姿势的有和没有Procrustes 对齐[7]的结果有趣的是,注意到DECA如何能够减小相同视点结果与视点转移任务的结果之间的差距在视点转移的情况下,我们在视点A上训练,在同一视点A上验证,并在视点B上测试。iTop在前面训练,在上面测试身体部位俄罗斯联邦[28]RTW [37]IEF [3]六[9]头48.101.5047.9055.6046.27脖子5.908.1039.0040.9073.14躯干4.703.9041.9035.0085.94上身19.702.2023.9029.4045.00全身10.802.0017.4020.4051.85表2:与ITOP视点转移任务的最新技术水平的比较(度量:0.1m mAP)。前视图培训、前视图验证、顶视图测试(顶视图数据在验证中不可见)。DECA-D3身体部分火车在前面,火车在上面表3:ITOP视点转移任务的DECA-D3完成结果(度量:0.1m mAP)。两种情况的确认期间均未看到测试数据4.6. 定性结果在图4中,我们示出了来自RGB数据上的DECA-R4配置的一些定性结果。我们将网络训练和测试部署在所有可能的视点组合上。网络将俯视图RGB(图1)作为输入。4a)图像或前视图(图4b)一个。当训练和测试在同一观点(图。4d,4e),网络产生类似的输出,从而确认其能力。顶部测试正面试验头46.2718.51脖子73.1444.77肩膀69.0225.18肘部43.8716.23手9.412.19躯干85.9468.63髋72.1564.75膝盖49.3168.15英尺42.4646.12上身45.0018.81下半身59.1160.95是说51.8538.4811684联系我们在前面训练,在前面在上面训练,在上面DECA-R4在前面训练,在上面在上面训练,在前面身体部位没有普罗克鲁斯特Procrustes没有普罗克鲁斯特Procrustes没有普罗克鲁斯特Procrustes没有普罗克鲁斯特Procrustes脖子4.022.374.552.5116.024.168.215.06鼻子5.663.756.983.8916.837.6710.726.76主体中心0.564.631.233.631.0131.200.8311.59肩膀4.562.765.143.0717.435.338.515.35肘部9.827.149.647.5129.7018.5223.2015.47手13.8810.8214.0212.3447.0138.2936.7828.25臀部18.754.872.713.895.1030.073.6410.88膝盖9.545.147.594.8452.9828.6520.119.28英尺11.535.089.835.1069.1828.7526.3611.07眼睛6.194.007.443.7919.3311.0011.407.45耳朵5.503.737.153.7423.5613.0011.227.16上身6.935.217.665.4623.6916.5615.5411.60下半身7.655.036.714.6142.4229.1616.7110.41是说7.165.157.365.1929.6020.5415.9111.22表4:PanopTOP 31 K RGB数据集上的DECA-R4结果,使用和不使用Procrustes变换[7](度量:MPJPE)。任务:(i)从前视点和顶视点的3D姿态估计(ii)针对前视图和顶视图的视点转移在两个视点转移任务的验证期间,测试数据不可见。(一)(b)第(1)款(c)GT(e){F};{ F}(g){F};{ T}图4:PanopTOP 31 K数据集上的DECA-R4定性结果在左边(a,b)是DECA接受的输入类型DECA还可以接受深度域中的输入。在中心(c),对应的3D地面实况。右边是训练/测试实验的可能组合。T代表顶部,F代表前部。例如,在(f)中,T ; F意味着DECA已经专门在顶部数据上进行了训练,并在以前看不见的(甚至在验证时也没有)前端数据上进行了测试。以应对具有挑战性的顶视图方案。当在顶视图上进行训练并在前视图上进行测试时(图4f),该网络可以准确地检索下半身关节的位置。DECA可以检索在训练时间内大部分被遮挡的身体部位,从而显示其泛化能力。当在前视图上进行训练并在顶部视图上进行测试时(图4g),该网络可以检索上身关节的位置,这些位置在两个图像中都是可见的,但从不同的角度来看,证明DECA可以在内部对视点进行建模。5. 结论我们提出了DECA,一个深视点等变的方法,使用胶囊自动编码器在单个RGB/深度图像上进行人体姿态估计。我们展示了如何帽sNets更适合处理原始数据的3D性质,以及它们如何允许向前迈出一步的观点等方差。我们已经展示了我们的方法如何有效地推广并在RGB和深度域以及视点转移任务中实现最先进的结果在未来的工作中,我们的目标是改进手部姿势估计,并在更大的RGB数据集上采用矩阵胶囊。(d){T};{ T}(f){T};{ F}11685引用[1] 欧文·比德曼按组件识别:人类图像理解的理论。Psychological Review,94(2):115,1987.[2] Z. Cao,T.西蒙,S。Wei和Y.酋长利用局部仿射场进行实时多人二维位姿估计。在2017年IEEE计算机视觉和模式识别会议,第1302-1310页[3] Joao Carreira 、Pulkit Agrawal、Katerina Fragkiadaki和Jitendra Malik。具有迭代误差反馈的人体姿态估计。在IEEE计算机视觉和模式识别会议论文集,第4733-4742页,2016年。[4] TacoSCohen, MarioGeiger , JonasK?hler ,andMaxWelling. 球 形 cnns 。 arXiv 预 印 本 arXiv :1801.10130,2018。[5] NicolaGarau 、 GiuliaMartinelli 、 PiotrBro` dka 、 Niccolo`Bis-agno 和 Nicola Conci 。 Panoptop : a framework forgeneratingviewpoint-invarianthumanposeestimationdatasets.IEEE/CVF计算机视觉研讨会国际会议论文集,2021年。[6] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。第9卷,Proceedings of Machine LearningResearch,第249-256页JMLR研讨会和会议记录。[7] 科林·古道尔Procrustes方法在形状统计分析中的应用。英国皇家统计学会杂志:Series B(Methodological),53(2):285 -321,1991.[8] Hengkai Guo , Guijin Wang , Xinghao Chen , andCairong Zhang.深度3d手部姿势估计的良好实践。arXiv预印本arXiv:1707.07248,2017。[9] Albert Haque , Boya Peng , Zelun Luo , AlexandreAlahi,Ser- ena Yeung,and Li Fei-Fei.视点不变的三维人体姿态估计。在欧洲计算机视觉会议上,第160-177页。施普林格,2016年。[10] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页[11] 丹·亨德里克斯和凯文·金佩尔。高斯误差线性单位(gelus)。arXiv预印本arXiv:1606.08415,2016。[12] Geoffrey E Hinton,Alex Krizhevsky,and Sida D Wang.转换自动编码器。国际人工神经网络,第44-51页。Springer,2011.[13] Geoffrey E Hinton,Sara Sabour,and Nicholas Frosst.带有EM路由的矩阵胶囊。在2018年国际学习代表会议上[14] Catalin Ionescu , Dragos Papava , Vlad Olaru , andCristian Sminchisescu. Human3.6m:大规模数据集和预测 方 法 , 用 于 自 然 环 境 中 的 3D 人 体 感 知 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,36(7):1325[15] Hanbyul Joo、Tomas Simon、Xulong Li、Hao Liu、LeiTan、Lin Gui、Sean Banerjee、Timothy Scott Godisart、Bart Nabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio:一个大规模的多视图系统社交互动捕获项目IEEE Transactions on Pattern Analysisand Machine Intelligence,2017。[16] M Esat Kalfaoglu,Sinan Kalkan和A Aydin Alatan。用于动作识别的bert三维cnn结构中的后期时间建模。在欧洲计算机视觉会议上,第731-747页。Springer,2020年。[17] Isinsu Katircioglu 、 Bugra Tekin 、 Mathieu Salzmann 、Vincent Lepetit和Pascal Fua。使用深度神经网络学习3D人体姿势的潜在表示。International Journal of ComputerVision,126(12):1326[18] Muhammed Kocabas、Nikos Athanasiou和Michael J.黑色.Vibe:用于人体姿势和形状估计的视频推理。在IEEE计算机视觉和模式识别会议(CVPR)上,2020年6月。[19] Nikos Kolotouros , Georgios Pavlakos , Michael JBlack,and Kostas Daniilidis.学习通过循环中的模型拟合重建3d人体姿势和形状在IEEE计算机视觉国际会议论文集,第2252-2261页[20] Adam Roman Kosiorek、Sara Sabour、Yee Whye Teh和Geoffrey Hinton。堆叠式胶囊自动编码器。2019年。[21] J. Liu,H. Ding,中国茶条A. 沙赫鲁迪湖Duan,X.Jiang,G. Wang和A.C. 科特用于三维姿态估计的特征提升 网 络 IEEE Transactions on Pattern Analysis andMachine Intelligence,42(2):494[22] 文京植,张朱勇,李京武。V2v-posenet:体素到体素预测网络,用于从单个深度图进行准确的3d手部和人体姿势估计。在IEEE计算机视觉和模式识别会议论文集,第5079-5088页[23] Iv a'nRam'ırez, AlfredoCuesta-Infante , EmanueleSchiavi ,and Juan Jose 'Pantrigo.贝叶斯胶囊网络用于从单个2d图像估计3d人体姿态。神经计算机,379:64[24] Fabio Ribeiro,Georgios Leontidis,and Stefanos Kollias.基于变分贝叶斯的胶囊路由。AAAI人工智能会议论文集,34:3749[25] Gre'goryRogez,PhilippeWeinzaepfel,andCordeliaSchmid. LCR-Net++:自然图像中的多人2D和3D姿势检测。IEEE Transactions on Pattern
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功