没有合适的资源?快使用搜索试试~ 我知道了~
11148基于图的多视点图像三维多人位姿估计大小吴1、3盛进2、3刘文涛3*雷白4 陈倩3刘冬1欧阳万里41中国科学技术大学2香港大学3SenseTime Research and Tetras.AI4悉尼大学wsz327471010@mail.ustc.edu.cn{jinsheng,liuwentao,qianchen}@sensetime.combaisanshi@gmail.comdongeliu@ustc.edu.cnwanli. sydney.edu.au摘要本文研究了从多个校准的摄像机视图估计多个人的三维人体姿态的任务。遵循自上而下的范式,我们将任务分解为两个阶段,即人员定位和姿态估计。这两个阶段都以由粗到精的方式进行处理。我们提出了三个特定于任务的图神经网络,有效的消息传递。对于3D 人 物 定 位 , 我 们 首 先 使 用 多 视 图 匹 配 图 模 型(MMG)来学习跨视图关联并恢复粗糙的人的建议。中心细化图模块(CRG)通过灵活的基于点的预测进一步细化结果。对于3D姿态估计,姿态回归图模块(PRG)学习多视图几何和人体关节之间的结构关系。我们的方法在CMU Panoptic和Shelf数据集上实现了最先进的性能,并且计算复杂性显著降低。1. 介绍从多个视图估计多个人的3D人体姿态的任务是一个长期存在的问题。由于其广泛的应用范围,在工业生产中得到了越来越多的关注.体育广播[6]和零售分析[35]。最近对使用多视图图像的3D多人姿态估计的研究通常遵循两个流:基于2D到3D提升的方法和直接3D估计方法。如图1(a)所示,2D到3D提升方法[3,4]首先通过单目姿态估计器估计每个视图中的2D关节,然后跨视图关联2D姿态,最后通过三角测量[2]或图像结构模型(PSM)[11]将匹配的2D单视图姿态提升到3D。这种方法通常是有效的,并且是寻求实时性能时的事实标准[31]。然而,3D重建精度是*通讯作者。图1.主流多视图3D姿态估计框架概述(a)(b)直接3D姿态估计方法。(c)我们的方法应用基于图的匹配算法来检测人体中心,并应用基于图的姿态细化模型来有效地利用几何线索和人体结构优先,以实现更好的性能。受到2D姿态估计的限制,这不是鲁棒的到闭塞。如图1(b)所示,直接3D方法[35]通过收集多视图特征构建离散化3D体积表示[28,29],并直接在3D空间中操作。这样的方法避免在2D相机视图中做出不正确的决定。然而,它们的计算成本随着空间的大小成立方地增加。它们还遭受由空间离散化引起的量化误差[35]。如图1(c)所示,我们通过在第一阶段采用2D到3D提升来进行有效的3D人体中心检测,并在第二阶段采用直接3D估计方法来进行准确的单人3D姿态估计,从而结合了两种方法的优点为了在准确性和效率之间取得平衡,这两个阶段都用特定于任务的图神经网络以粗到细的方式处理在第一阶段中,对于粗略的3D人体中心检测,我们通过多视图匹配生成粗略的人体中心预测。以前的方法执行关联11149通过多视图几何约束[18]和外观相似性[11]跨视图进行比较。然而,它们的匹配标准是手工制作的并且不可学习,这可能遭受繁琐的超参数调整和不准确的匹配结果。为了解决这个问题,我们提出了多视图匹配图模块(MMG)从数据中学习,通过考虑视觉和几何线索来匹配跨视图的人。它还捕获多个视图之间的关系,以做出更可靠的预测。对于第一阶段的精细级三维人体中心检测,我们提出了一种基于图的点预测器,即。中心细化图模块(CRG),用于细化粗略的人体中心位置。以前的作品[1,6,29,28,35]主要是将空间离散成体素并在规则网格上操作。相反,CRG采用隐式场表示[21,32,33]并直接在连续3D空间上操作以预测点是否是人类中心。它为我们提供了灵活的平衡精度和速度,通过采样任意步长。此外,我们建议使用图模型来学习融合多视图功能,这是没有很好地利用文献。对于粗略级别的单人姿势估计,我们简单地使用现成的姿势估计器来基于检测到的人类提议生成初始3D姿势对于精细级别的单人姿势估计,我们提出了姿势回归图模块(PRG),以细化初始的3D姿势,通过利用身体关节之间的空间关系和跨多个视图的几何关系。这三个图模块可以缓解由于不准确的2D检测或空间离散化而导致的上述弱点,并且提高位姿估计精度。我们的主要贡献可概括如下:• 据我们所知,这是使用任务特定的图神经网络进行多视图3D姿态估计的第一次尝试。我们提出了一种新的粗到细的框架,显着优于以前的方法在准确性和效率。• 我们提出了多视图匹配图模块(MMG),以显着提高性能的多视图人类协会通过学习匹配。• 我们提出了中心细化图模块(CRG)基于点的人类中心细化,有效地聚合多视图特征,通过图神经网络,并自适应采样点,以实现更有效和准确的定位。• 我们提出了一个强大的基于图的模型,称为姿态回归图(PRG)的三维人体姿势细化。它考虑了人体结构信息和多视图几何形状,以生成更准确的3D人体姿势。2. 相关工作2.1. 单视图3D位姿估计对于从单眼相机进行的单人3D姿态估计,我们将现有的工作简要地分为三类:(1)从2D姿态到3D姿态[8,23,41](2)联合学习2D和3D姿态[27,28],以及(3)从图像直接回归3D姿态[29,43]他们在重建3D姿态方面表现出了显着的效果,这激励了更多的研究工作在更具挑战性的多人任务。来自单个RGB图像的多人3D姿态估计通常遵循两个流:自上而下和自下而上。自上而下的方法[10,26,39]首先使用人体检测器来产生人体位置,然后对每个检测到的人应用单人姿势估计。自下而上的方法[24,40]直接定位所有人的关键点并执行关键点到人的关联。单视点三维位姿估计近年来取得了显著的进展然而,从单个视图推断3D姿势其重建精度与多视点方法无法相比。2.2. 多视点三维位姿估计本文主要研究了基于多视角的多人三维姿态现有的方法可以主要分类为2D到3D姿态提升方法[1,3,4,5,6]。6、11、13、15、22、44]和直接3D姿态估计应用。”[35]。2D到3D提升方法[1,3,4,6,11,13]首先通过单目姿态估计器估计每个视图中同一个人的2D关节,然后将匹配的2D单视图姿态提升到3D位置。Belagiannis等人[3,4]首先将2D PSM扩展到3D图像结构模型(3DPS)以编码身体关节位置和之间的成对关系。其他作品[6,15]首先解决多人2d姿势检测并在多个相机视图中关联姿势使用三角测量[6]或单人3D PSM [11]恢复3D姿态。同时Linet al. [22]提出使用1D卷积来联合解决基于平面扫描立体的然而,这样的方法严重依赖于2D检测结果,并且2D中的粗差可能极大地降低3D重建。相比之下,我们的方法以粗到细的方式进行它使用图神经网络来建模多个摄像机视图之间的交互,这是更有效和准确的。直接3D姿态估计方法[35]用体积表示离散化3D空间,并通过多视图几何从所有相机视图收集特征Tu等人提出了一种自顶向下的多人多视角三维姿态估计方法。具体来说,它首先用体素离散化3D空间,并集中操作。11150--通过3DCNN对3D空间进行评估,以提供人类建议。对于每个人类提议,应用另一个3DCNN来恢复3D人类姿势。这样的方法可靠地恢复3D姿态,但计算要求高。相比之下,我们的方法引入MMG显着减少搜索空间使用多视图几何线索。结合基于点的预测器CRG,我们实现了更高的精度与更少的计算复杂度。从任意视图聚合功能是重要的,但在文献中没有得到很好的利用。传统方法通过级联或平均池化来聚合多视图特征[35]。功能串联很难通过设计推广到不同的相机设置。 平均池是置换不变的,但忽略了视图之间的关系。在本文中,我们提出了一种新的图神经网络模型,学习结合几何知识与相应的二维视觉特征,从不同的意见。2.3. 图神经网络图卷积网络(GCN)是卷积神经网络的一种推广,可以用来处理图形数据。GCN在消息传递和各种任务中的全局关系建模中表现出了有效性,例如动作识别[38]和跟踪[14]。最新的GCN可以分为光谱方法[7,20]和空间方法[12,36]。在本文中,我们使用空间的方法,更好的效率和概括性。最近,GCN已经显示出在建模人体结构的单视图2D人体姿态估计的有效性。Zhang等人[42]提出使用PGNN来学习用于2D单人姿势估计的关键点的结构化表示。Qiu等[30]提出了OPEC-Net来处理2D自顶向下姿态估计的遮挡。Jin等人[16]提出了分层图分组模块,以学习将关节关联起来,以进行2D自下而上的姿势估计。还存在用于单视图单人3D姿态估计的工作Zhao等人[45]提出SemGCN来捕获关节之间的局部和全局语义关系。Zou等人[46]提出通过高阶图卷积来捕获长程依赖关系。我们建议使用基于图形的模型来学习通过多视图几何学从多个相机视图中聚集特征,这在现有的GCN作品中没有研究在姿态优化图模块(PRG)中,对人体结构先验信息和多个视图的几何对应关系进行编码,以获得更鲁棒和更准确的人体姿态估计。此外,我们提出了EdgeConv [36]的变体EdgeConv-E,以明确地将地理度量对应作为GCN中的边缘属性。2.4. 隐式字段表示大多数3D多视图姿态估计器[1,6,28,29,35]使用3D体积表示,其中3D空间是离散的。将其划分为规则的网格。然而,构建3D体积遭受立方缩放问题。这限制了体积表示的分辨率,导致大的量化误差。使用更精细的网格可以提高性能,但它会导致高昂的内存成本和计算复杂度。最近,内隐神经表征或内隐场[9,25,32,33]已经变得流行。这样的方法学习连续函数空间中的3D重建。基尔伊洛夫等提出PointRend [21]来选择一组点,在这些点上进行预测以进行实例分割。受PointRend[21]的启发,我们提出了中心细化图(CRG),一种基于点的预测器,以粗到细的方式对连续3D空间进行我们能够实现更高的准确性,显着降低计算复杂性。3. 方法3.1. 概述我们直接使用来自Tu等人的相同的预训练的2D自下而上姿态估计器。[35]在每个摄像机视图中定位2D人体中心,并为我们的特定任务GCN提供特征图。为了从2D位置预测3D人体中心,我们提出了多视图匹配图模块(MMG),以匹配来自不同相机视图的中心对应于同一个人。然后,我们通过简单的三角测量从匹配结果中获得粗略的3D人体中心位置[2]。中心细化图模块(CRG)进一步细化粗中心候选。在预测3D人体中心之后,我们遵循Tuet al. [35]以生成具有固定取向和大小的3D边界框,并且应用3D姿态估计器[35]以生成初始3D姿态。为了提高姿态估计精度,我们提出的姿态回归图模块(PRG)进一步细化预测的初始3D姿态。3.2. 多视图匹配图模块(MMG)给定由2D姿态估计器生成的2D人体中心,所提出的多视图匹配图模块(MMG)旨在跨不同相机视图匹配它们,并且经由三角测量将2D人体中心提升到粗略的3D人体中心[2]。我们构造了一个多视图匹配图,其中顶点表示视图中的人类中心候选者,并且边缘表示两个相机视图中的一对人类中心之间的连通性。边连通性是0,1中的二进制值,表示两个对应的顶点是否属于同一个人。因此,多视图匹配问题被公式化为边缘连接预测问题。我们的MMG应用基于图的模型来解决这个问题。11151N−图2.概述我们的方法。整个管道遵循自上而下的范式。该方法首先利用多视点匹配图模块(MMG)得到粗候选人体中心,并利用粗候选人体中心限定搜索空间。中心细化图模块(CRG)自适应地在搜索空间中执行基于点的预测,以实现更准确的人体检测。最后,将姿态回归图模块(PRG)应用于每个检测到的人类提议,以粗到细的方式预测3D姿态。图模型由两层EdgeConv-E组成(参见第二节)。3.2.1),然后是两个完全连接的层。它以顶点特征和边特征作为输入,通过消息传递提取代表性特征,并学习预测边连通性得分。顶点特征对从2D骨干网络的特征图获得的2D视觉线索进行具体地,在每个人体中心位置处提取顶点特征向量R512。边缘特征通过对极几何学对来自两个不同视图的两个2D人体中心的成对几何对应进行编码[2]。具体来说,我们首先计算两个中心之间的对称epipo-lar距离[2]d 然后是Corre-自发性得分scorrr可以通过scorr r=e-m·d 来 计 算,其中m是常数并且根据经验被设置为10。0在我们的实现中这样,我们明确地使用了geomet-在MMG中,Ric对应分数图3.中心细化图模块(CRG)迭代地对选定的查询点应用基于点的预测来检测人类中心。通过链接所有相机视图中的3D查询的2D投影来构造图。通过一些图卷积、图池和MLP,我们获得了每个提案的置信度得分。3.2.1使用EdgeConv-EEdgeConv [36]是一种流行的图卷积预测.xv=最大v'∈N(v)hθ。Concat(xv,xv'−xv,e(v,v'))Σ.(二)以捕获局部结构并学习边缘的嵌入。在数学上,EdgeConv可以表示为:.3.2.2培训我们首先构造一个多视图图,其中顶点是使用2D人体中心生成的,而边是使用二维人体中心生成的。xv=最大v'∈N(v)hθ(Concat(xv,xv'−xv)),(1)在不同的摄像机视图中连接每对2D人体中心。目标边连通性被分配为其中xv和xv'表示v和v'处的节点特征。‘Concat’(v)是v的相邻顶点。hθ是一个神经网络,即多层感知器(MLP)。在标准EdgeConv(Eq. 1),特征聚合过程仅考虑节点特征Xv和两个相邻节点的相对关系(Xv’Xv)。它不显式地利用边缘属性进行消息传递。基于EdgeConv[36],我们提出了EdgeConv-E来显式地将边缘属性e(v,v')合并到aggre中。gation程序。 EdgeConv-E的传播规则是在Eq.二、对于连接相同的人的边,否则为为了避免过拟合,我们通过向地面真实2D人体中心坐标添加范围从0到25像素的均匀噪声来增强预测边缘连接性与目标边缘连接性之间的二进制交叉熵损失用于训练。我们采用Adam优化器[19],学习率为10−4训练模型2个epochs。3.3. 中心细化图模块(CRG)中心细化图模块(CRG)建立在MMG之上,以细化3D人体中心检测结果。CRG在3D搜索中自适应地采样查询点11152··××Σ∗ǁX−Xǁ空间,并预测查询点是人类中心的可能性。它用隐式场表示代替了常用的体表示,这使得能够在任何实值点处进行查询,以在3D空间中进行更灵活的搜索和准确的定位。搜索空间。而不是在整个3D空间上操作,我们建议限制搜索空间的基础上匹配结果MMG。对于每对匹配的2D人体中心,我们通过三角测量[2]恢复粗略的3D人体中心建议我们生成一个3D球包围每个3D人体中心的建议在半径r0=300mm。因此,搜索空间(表示为x0)是这些3D球的并集。特征提取。每个查询3D点首先被投影到所有2D相机视图以获得其对应的2D位置。然后,从2D特征图获得对应的2D点位置的逐点特征表示使用位于规则网格上的周围四个最近邻,通过双线性插值获得实值2D位置的特征。我们首先介绍了一个基线模型,它将来自不同视图和过程的逐点特征与可学习的多层感知器(MLP)连接起来。对于每个候选点,MLP输出作为人类中心的置信度分数。我们将这种方法称为MLP-基线。虽然直观,我们认为,这种方法是有限的,有两个原因:(1)它分配相同的权重给所有的意见,并不能处理遮挡在某些观点。(2)它不能通过设计推广到其他相机设置(不同数量的相机)。为了减轻这些限制,我们建议使用图神经网络进行有效的消息传递。我们的中心细化图模块(CRG)学习融合来自多个视图的信息,并验证前一阶段的建议。如图3所示,对于每个3D查询点,我们构造一个多视图图。顶点表示每个摄影机视图中的2D投影。顶点特征包括(1)在图像平面中提取的视觉特征R512(2)查询点的归一化3D坐标R3(3)来自2D骨干的2D中心置信度分数。边缘将这些2D投影彼此密集连接,从而实现交叉视图特征聚合。我们的CRG使用三层EdgeConv进行交叉视图内尔。CRG从第2节所述的搜索空间Ω 0开始。三点三在迭代t中,它以步长τ t在搜索空间中均匀地对查询点进行采样。图模型处理采样的查询,并预测它们作为人类中心的可能性。具有最高置信度分数的点被选择为细化的人体中心Xt。 我们将第n次迭代的搜索空间Ωt+1更新为围绕人体中心x t的3D球子空间,半径为rt+1=rtγ。我们缩小了采样步长通过I.E. τ t+1= γ′τ t。迭代将继续,直到步骤尺寸达到所需精度()。复杂性分析。在Tuet al. [35],人类中心建议的搜索空间以及时间复杂度为O(L W H),其中L,W和H是3D空间的大小。应用我们提出的MMG和CRG,搜索空间的大小显着减少到O(N),其中N是人数。这里我们省略了实例的搜索区域的大小值得注意的是,该复杂度与空间的大小无关,使得其适用于大空间应用,例如:足球场在实验中,我们设定了初始步长τ0= 200 mm,收缩因子γ = 0。6且γ′= 0。25,所需精度为φ= 50mm 。在CMU Panoptic [17] 数据集上,我们平均每帧记录1,830个查询而Tu等人的数据为128,000。[35 ]第35段。3.3培训该模型学习预测每个查询点的置信度得分。我们开发了一个有效的抽样策略,选择训练样本来训练CRG。考虑两种类型的样品用于训练:位于地面实况人类中心周围的正样本和远离人类位置的负样本。我们在地面真实人体中心周围采集阳性样本,遵循标准差σpos=400mm的高斯分布。对于阴性样本,我们在整个3D空间中均匀采集样本。根据经验,阳性和阴性样本的数量比为4:1。对于位于X处的样本,目标置信度得分通过下式计算:特征消息传递,随后是用于特征融合的最大池化层和一个全连接(FC)层以预测中心置信度得分。我们使用标准的Edge-s*conf =最大失效时间j=1:N2J22σ2、(3)Conv而不是EdgeConv-E,因为CRG没有用于聚合的显式边特征。3.3.1点选择推理。给定MMG的搜索区域,我们以由粗到细的方式迭代搜索人体中心其中N是人 实 例 的数量,Xj是人 j 的 中 心 点 的3D坐标。并且σ是高斯分布的标准偏差,其被设置为σ=200mmXRG的训练损失是预测置信度得分与目标置信度得分之间的l2损失。我们采用Adam 优化器[19],学习率为10- 4。它需要4个时期才能达到最佳性能。.−11153图4.3D姿态估计阶段的概述将初始3D姿态投影到所有相机视图以构造多视图姿态图。通过有效的消息传递和特征融合,PRG预测3D姿态细化的回归偏移。3.4. 姿势回归图模块(PRG)现有的3D姿态回归模型对在大多数视图中可见的关节产生可靠的结果,但是将对被遮挡的关节产生不准确的定位结果。人类可以很容易地识别遮挡姿态,这主要是因为他们的生物力学身体结构约束和多视图几何的先验知识。知识边缘帮助去除由自遮挡或相互遮挡引起的定位中的模糊性鉴于此,我们设计了姿势回归图模块(PRG),以学习细化关节位置,同时考虑多视图几何和人体关节之间的结构关系。3D姿态估计阶段的概述在图4中示出。我们将PRG应用于每个个体以进一步提高准确性。PRG模块将初始3D姿态作为输入。在我们的实现中,我们简单地使用[35]的姿态回归器来生成初始3D姿态。初始3D姿态被投影到所有相机视图以获得多个2D姿态。我们构建了一个多视图姿态图的基础上,在不同的相机视图中的投影的2D构成。该图预测3D空间中的每个关键点的偏移,这些偏移被添加到初始3D姿势以用于细化。对于多视图姿态图,顶点表示特定相机视图中的2D关键点。我们连接以下特征来初始化图中的所有节点(1)视觉特征R512是从投影的2D位置处的2D骨干网络的特征图获得的。(2)接头类型的独热表示RK(3)归一化的初始3D坐标R3。多视图姿态图由两种类型的边组成:(1)连接特定相机视图中的规范骨架结构中的不同类型的两个关键点的单视图边缘。(2)连接不同视图中相同类型的两个关键点的交叉视图边。 我们使用one-hot特征向量R2来区分这两种类型的边缘。独热边缘特征被传递到由等式(1)定义的EdgeConv-E。二、我们的PRG图模型首先使用两个连续的EdgeConv-E层进行邻居之间的消息传递设置身体关节和多个摄影机视图。然后,应用最大池化层来聚合交叉视图特征并粗化图。最大池化特征通过以下三个EdgeConv-E层经由身体关节之间的有效信息流来更新。最后,所提取的特征被传递到具有两个全连接(FC)层的一个MLP,以回归每个关节的细化向量。训练 目标偏移是地面实况3D姿态与初始3D姿态之间的差异。我们使用预测偏移和目标偏移之间的11回归损失来训练PRG。请注意,PRG的损耗梯度可以反向传播到2D骨干网络,这将进一步提高其特征表示能力。我们使用Adam优化器[19]训练PRG,学习率为5×10- 5。我们训练它4个epoch以获得最佳模型。4. 实验4.1. 数据集CMU Panoptic[17]:CMU Panoptic数据集是目前用于多人3D姿态估计的最大真实世界数据集。它是在一个工作室实验室里拍摄的,有多个人在做社交活动。它总共包含65个序列(5.5小时)和150万个3D骨架,以及30多个高清摄像机视图。我们遵循[35,37]将数据 集 分 为 训 练 和 测 试 子 集 。 然 而 , 我 们 缺 乏'160906band3'训练子集,由于破碎的图像。平均精确度(mAP)和平均召回率(mAR)是用于全面评估的常用指标。我们通过在所有平均每关节位置误差(MPJPE)阈值(从25mm到150mm,步长为25mm)上取AP和AR的平均值来计算mAP和mAR。我们报告的mAP和mAR以及MPJPE的三维人体中心检测和三维人体姿态估计的性能进行评估货架[3]:货架数据集由四个人组成,他们正在拆卸由五个摄像机捕获的货架。由于复杂的环境和严重的遮挡,这是具有我们遵循[3,11,35]来准备训练和测试数据集。在[35]之后,我们使用在COCO数据集上训练我们遵循[3,4,5,11,13]使用正确估计部分的百分比(PCP3D)来评估估计的3D姿势。4.2. 与最先进技术的在本节中,我们比较了CMU Panoptic [17]和Shelf [3]数据集上的最新方法。在CMU Panoptic数据集上,我们按照[35]使用五个相机设置进行实验。为了进行公平的比较,我们使用相同的高清摄像机视图(id:3、6、12、13、23)。由于AP75、AP125和mAR在Tu等的原始论文中未报道。[35]我们将重新定义11154‡↓↑↓表1.与CMU Panoptic数据集上最先进方法的比较[17]。符号表示分数越高越好,符号表示分数越低越好。'*'指示在[35,22]中报告的四个AP K度量的平均值。''表示使用了更好的2D姿态估计器[34]。mAP↑mAR↑MPJPETu等人[35]第三十五届九十五40∗-17.68mmTu等人[35](转载)96.7397.5617.56mm‡Linet al. [22日]九十七68∗-16.75mm我们98.1098.7015.84mm通过使用推荐的超参数运行公开可用的官方代码1得到结 果 。 我 们 发 现 我 们 的 重 新 实 现 了 稍 好 的 结 果(17.56mm对17.68mm)。我们表明,我们的方法显着改 善 - proves 后 涂 等 人 。 [35] 关 于 mAP 、 mAR 和MPJPE。与Tuet al. [35],我们的方法具有更高的准确性 ( 98.10 mAP vs 96.73 mAP ) 和 更 高 的 召 回 率( 98.70 mAR vs 97.56 mAR ) 。特 别是 , MPJPE从17.56mm显著减小到15.84mm,证明了该方法在减小空间离散化引起的量化误差方面的有效性。Shelf [3]数据集的定量评价结果见表2。在实验中,我们遵循Tu等人的评价方案。[35 ]第35段。我们表明,我们的ap-proach实现了国家的最先进的性能。表2.与Shelf [3]数据集上最先进方法的定量比较。该指标是正确估计部件的百分比(PCP3D)。架演员1演员2演员3平均Belagiannis等人[3]第一章66.165.083.271.4[2] Belagianniset al.[五]《中国日报》75.067.086.076.0Belagiannis等人[4]美国75.369.787.677.5Ershadi等[13个国家]93.375.994.888.0Dong等人[第十一届]98.894.197.896.9Tu等人[35]第三十五届99.394.197.697.0Huang等人. [第十五条]98.896.297.297.4†Zhanget al. [第四十四届]99.096.297.697.6我们99.396.597.397.74.3. 消融研究在本节中,我们进行烧蚀实验,以详细分析我们提出的框架中的每个组件。MMG的效果。在表3中,我们评估了多视图匹配图模块(MMG)在3D人体中心检测和3D人体姿态估计上的性能。所有结果使用相同的2D检测,并且使用多视图三角测量恢复3D人体中心[2]。传统方法使用极线约束[18]执行跨视图的关联。但是,它们不会产生1https://github.com/microsoft/voxelpose-pytorch在遮挡场景中得到可靠的匹配结果。MMG从数据中学习,以匹配不同视图中的人员。我们观察到匹配性能的显著改善(75.91mAP对61.65mAP)。我们还注意到,用地面实况匹配结果替换MMG并不能显著改善人体中心检测结果(78.70 mAP vs75.91mAP)。这意味着MMG生成的人类关联结果已经非常准确。CRG的效果。中心细化图模块(CRG)旨在细化粗略的人类中心预测。为了显示图推理对人类中心预测的有效性,我们将CRG与第二节中介绍的MLP基线进行了比较。3.3在CMU Panoptic数据集上。为了公平比较,我们使两个模型共享相同的输入特征,并且具有大致相同数量的参数。如表3所示,CRG在人体检测准确度(82.10mAP对81.38mAP)和3D人体姿势估计准确度(98.10mAP对97.82mAP)方面优于MLP-基线这表明经由基于图的消息传递来学习多视图关系的重要性。表3. MMG和CRG对人体中心检测和3D人体姿态估计的影响。本表中的位姿结果均由PRG获得。方法中心mAP↑构成mAP↑构成mAR↑构成MPJPEEpi+三角测量61.6586.0291.0824.46mmMMG+三角测量75.9195.1197.6016.99mmGT+三角测量78.7096.7798.4416.08mmMMG+MLP-基线81.3897.8297.8916.06mm肾上腺素+CRG79.8095.6895.6816.03mmMMG+CRG(最终)82.1098.1098.7015.84mmPRG的效果。为了分析姿态回归图(PRG)的效果,我们在具有不同精度的多个初始3D姿态回归器的CMU Panoptic数据集上进行实验。这些模型是通过改变体素的粒度来获得的323、483和643。我们在表4中报告了PRG细化之前和之后的姿态的准确度。我们的PRG是一个通用的位姿细化器,它可以应用于各种位姿估计器,以不断提高3D位姿估计精度。注意,(c)的3D姿态估计器来自Tu等人。[35 ]第35段。表4.当PRG应用于不同的初始3D姿态回归量时,3D姿态估计(MPJPE)的改进。PRG前PRG后改进(一)18.12mm16.63mm1.49mm(8.2%)(b)第(1)款17.78mm16.44mm1.34 mm(7.5%)(c)第(117.09mm15.84mm1.25mm(7.3%)11155)款11156图5. 定性分析估计的3D姿态和他们的2D投影我们的(第1行),和涂等人。[35](第二行)。最后一列示出了地面实况(黑色)和预测的3D姿态(红色、绿色和蓝色)。缺少的姿势将用圆圈突出显示4.4. 定性研究我们定性地比较我们的结果与屠等人。[35]在图5中。在该示例中,女性的身体(蓝色)仅被一个相机(视图#2)清楚地捕获,而在其他视图中被截断或遮挡Tu等人[35]简单地平均来自具有相同权重的所有视图的特征这将使特征不可靠,导致假阴性(FN)。相比之下,我们的方法通过GCN学习多视图特征融合。我们获得更全面的功能,使我们能够作出更强大的估计。我们的方法也得到更少的假阳性(FP),并预测人体姿势具有更高的精度。更多例子请参见补充资料。4.5. 内存和运行时分析表5. CMU Panoptic数据集的内存和运行时间分析。运行时测试与一个泰坦X GPU。*表示处理一人提案的费用。尼泊尔共产党[35][35]第三十五话MMGCRGPRG*存储器运行时1.10GB26ms2.38GB52Ms7.10MB2.4ms1.08MB5.6ms20.3MB6.8ms表5报告了CMU Panoptic数据集上具有5个摄像机视图的序列的内存和运行时间。测试结果是在一台带有Titan X GPU的台式机上进行的。Tu等人[35]提出CPN来定位人,PRN来回归3D姿势。它们都使用体积表示,这遭受大量的内存。相比之下,我们提出的图形神经网络的内存成本是可以忽略不计的。我们提出的模块也是非常有效的。平均而言,我们的未优化实现仅需要2.4ms的多视图匹配(MMG)和5.6ms的更精细的多人人类中心预测(CRG)。与[35]中的CPN相比,由于搜索空间较小,CRG需要的采样查询减少了数十个(1.8K vs 128K)。PRG的时间成本为6. 每人8ms当使用PRN作为初始姿态估计器时,我们的方法便于使用体素表示的较少的仓。比较表6中的#1和#4,我们的方法使用32 ×3个仓,比Tu等人具有约1/4的计算成本和更高的精度(1.84mm改进)。[35 ]第35段。减少箱 导 致 我 们 的 误 差 增 加 较 小 ( 与 #2 和 #4 相 比 为0.11mm ) , 但 Tu 等 人 的 误 差 增 加 较 大 。 [35](1.51mm,比较#1和#3)。表6.运行时比较。N是人数。‘avg is the average runtime (ms)when ‘#bins’ is the number#方法箱数计算成本avgMPJPE12Tu等人[35]第三十五届我们64364326 + 52×N8+(52 + 6。8)×N23424317.68mm15.84mm34Tu等人[35]第三十五届我们32332326+ 7 3×N8+(7。三加六。8)×N556419.19mm15.95mm5. 结论在本文中,我们提出了一种新的框架,多视角多人的三维姿态估计。我们精心设计了三个任务特定的图神经网络模型,以开发多视图功能。我们提出了多视图匹配图模块(MMG)和中心细化图模块(CRG),以检测人体中心的建议和细化,和姿态回归图模块(PRG),以产生准确的姿态估计结果。综合实验表明,该方法的性能明显优于以往的方法。谢谢。 我们要感谢徐鲁民和王增对本文的宝贵反馈。这项工作得到了澳大利亚研究委员会基金DP200103223和FT 210100228、澳大利亚医学研究未来基金 MRFAI 000085 、 中 国 自 然 科 学 基 金 62036005 和62021001以及中央大学基础研究基金WK 3490000005的支持。11157引用[1] Sikandar Amin、Mykhaylo Andriluka、Marcus Rohrbach和Bernt Schiele。用于三维人体姿态估计的多视图图像结构。在英国。马赫。目视Conf. ,第1卷,2013年。二、三[2] 亚 历 克 斯 · 安 德 鲁 计 算 机 视 觉 中 的 多 视 图 几 何 。Kybernetes,2001年。一、三、四、五、七[3] Vasileios Belagiannis , Sikandar Amin , MykhayloAndriluka,Bernt Schiele,Nassir Navab,and SlobodanIlic.用于多个人体姿势估计的3D图像结构 在IEEE Conf.Comput.目视模式识别第1669-1676页,2014年。一、二、六、七[4] Vasileios Belagiannis , Sikandar Amin , MykhayloAndriluka,Bernt Schiele,Nassir Navab,and SlobodanIlic.3D图像结构再访:多人姿态估计。IEEE Trans. 模式分析马赫内特尔,38(10):1929一、二、六、七[5] Vasileios Belagiannis,Xinchao Wang,Bernt Schiele,Pascal Fua,Slobodan Ilic,and Nassir Navab.具有时间一致的3d图像结构的多人姿态估计以Eur.确认补偿目视,第742-754页。Springer,2014. 六、七[6] Lewis Bridgeman、Marco Volino、Jean-Yves Guillemaut和Adrian Hilton。运动中多人三维位姿估计与追踪。在IEEE Conf. Comput.目视模式识别Worksh. ,第0-0页,2019。一、二、三[7] Joan Bruna , Wojciech Zaremba , Arthur Szlam , andYann Le- Cun.图上的谱网络和局部连通网络。国际会议学习。代表。,2014年。3[8] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。 在IEEE会议计算机。目视模式识别,第7035-7043页,2017年。2[9] 陈志勤和张浩。学习生成式形状建模的隐式字段。 在IEEE会议Comput. 目视患者记录,第5939-5948页,2019年。3[10] Rishabh Dabral、 Anurag Mundhada 、 Uday Kusupati、Safeer Afaque、Abhishek Sharma和Arjun Jain。从结构和运动学习三维人体姿势。以Eur. Conf. Comput.目视,第668-683页,2018。2[11] Junting Dong,Wen Jiang,Qixing Huang,Hujun Bao,and Xiaowei Zhou.快速和强大的多人三维姿态估计从多个视图。 在IEEE会议Comput. 目视模式识别,第7792-7801页,2019年。一、二、六、七[12] DavidKDuvenaud 、 DougalMaclaurin 、 JorgeIparraguirre 、 Raf aelBombarell 、 Timoth yHirzel 、 Ala´nAspuru-Guzik和Ryan P Adams。用于学习分子指纹的图上卷积网络在高级神经信息。过程系统,2015年。3[13] Sara Ershadi-Nasab、Erfan Noury、Shohreh Kasaei和Es-maeil Sanaei。从多视点图像估计多个人的三维姿态。Multimedia Tools and Applications,77(12):15573-15601,2018。二六七[14] Junyu Gao,Tianzhu Zhang,and Changsheng Xu.图卷积跟踪。在IEEE Conf. Comput.目视模式识别,第4649-4659页,2019年。3[15] Congzhentao Huang , Shuai Jiang , Yang Li , ZiyueZhang , Jason Traish , Chen Deng , Sam Ferguson , andRichard Yi11158大徐。端到端动态匹配网络用于多视点多人三维位姿估计。 以Eur. Conf. Com
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功