没有合适的资源?快使用搜索试试~ 我知道了~
Lei Jin1, Chenyang Xu1, Xiaojuan Wang1†, Yabo Xiao1, Yandong Guo2, Xuecheng Nie3, Jian Zhao4†. . .130860单阶段就足够了:多人绝对3D姿势估计01 北京邮电大学 2 OPPO研究院 3 新加坡国立大学 4北方电子设备研究所0{ jinlei,xuchenyang,wj271,xiaoyabo } @bupt.edu.cn, guoyandong@oppo.com, niexuecheng@nus.edu,0zhaojian90@u.nus.edu *0摘要0现有的多人绝对3D姿势估计方法主要基于两阶段范式,即自上而下或自下而上,导致具有高计算成本的冗余流程。我们认为,将这种两阶段范式简化为单阶段范式更加可取,以提高效率和性能。为此,我们提出了一种高效的单阶段解决方案,Decoupled Regression Model(DRM),具有三个独特的创新点。首先,DRM引入了一种新的解耦表示方法来表示3D姿势,通过2D中心点(可见关键点的中心)和根点(表示为骨盆)分别表达图像平面上的2D姿势和每个3D人体实例的深度信息。其次,为了学习更好的人体深度回归特征表示,DRM引入了一个2D姿势引导的深度查询模块(PDQM),用于提取2D姿势回归分支中的特征,使深度回归分支能够感知实例的尺度信息。第三,DRM利用解耦的绝对姿势损失(DAPL)来促进绝对根深度和根相关深度的估计,从而提高绝对3D姿势的准确性。在包括MuPoTS-3D和Panoptic在内的具有挑战性的基准测试中进行了全面的实验,明确验证了我们框架的优越性,优于最先进的自下而上绝对3D姿势估计方法。01. 引言0从单目RGB相机估计3D人体姿势是计算机视觉和人工智能中的一个重要任务,由于其在许多高级应用中的基础,例如机器人技术[41]、动作识别[8, 15]、动画[36,37]、人-物互动检测[6, 12,38]、虚拟试衣[11]等。随着最近在...0* 通讯作者:Xiaojuan Wang和Jian Zhao。0模型02D姿势回归 深度回归0人体检测器0关键点检测器0(c)我们的单阶段解决方案0单人姿势估计器0关键点分区器0(b)自下而上方法0(a)自上而下方法0图1.我们的单阶段解决方案与现有的自上而下和自下而上方法在多人3D姿势估计中的比较。0基于单人的3D姿势估计[3, 7, 23, 25,33],更加真实和具有挑战性的问题引起了越来越多的关注,即从单张图像中估计多人的3D人体姿势。一般来说,现有的多人3D姿势估计范式可以分为自上而下和自下而上的方法,如图1(a),(b)所示。自上而下的方法[1, 13,20,30]使用人体检测器获取每个人的边界框,然后进行单人姿势估计,而自下而上的方法[19,39]同时估计所有人的姿势,然后将属于同一人的关键点组合在一起。前一类分别为每个人估计姿势,因此总的计算成本随图像中的人数线性增长;后一类需要将关键点分组到相应的人身上,导致冗余的计算复杂度。尽管最近的研究热点和有希望的性能表现...130870单阶段方法在2D姿势估计[22, 31, 32,40]中的性能表现出色,但是对于多人3D姿势估计的单阶段流程几乎没有研究,因为如何有效地将端到端的2D姿势回归与人体深度估计相结合仍然不清楚。在本文中,我们提出了一种称为解耦回归模型(DRM)的单阶段流程。DRM引入了一种新的解耦公式,通过2D中心点(可见关键点的中心)和根点(称为骨盆)表示每个3D人体实例的2D姿势和深度信息。具体而言,我们通过两个并行分支从2D中心点进行2D关键点回归,并通过根点进行关键点深度估计,从而有效地将2D姿势回归与人体深度估计相结合,共同进行3D姿势回归。由于从单张图像测量深度是模糊的,因此绝对3D姿势的估计自然而然地受到不准确的人体深度估计的影响。考虑到用于绝对深度预测的特征需要充分感知高级特征,例如人体尺度、相对位置等。从相机模型的角度来看,人体尺度和位置可以部分描述深度信息。为了学习更好的特征表示以区分不同深度的实例,DRM引入了一个插件2D姿势引导的深度查询模块(PDQM),以提取2D姿势回归分支中的特征,实验证明这对于绝对深度预测是有益的。具体而言,我们设计了一种扭曲操作,从预测的2D姿势位置查询特征,然后将这些特征与深度特征连接起来,以增强深度预测分支。此外,为了进一步提高根绝对深度和根相对深度的估计精度,我们提出了一种解耦绝对姿势损失(DAPL),以监督相机坐标系中的人体绝对3D姿势。证明DAPL可以进一步提高PDQM带来的改进。对具有挑战性的3D姿势基准MuPoTS-3D[18]和Panoptic[9]进行的综合实验明显证明了所提出的DRM的优越性能。我们的主要贡献总结如下。•我们提出了第一个单阶段解决方案Decoupled RegressionModel(DRM),用于多人绝对3D姿势估计,将问题分解为2D姿势回归和深度回归。•DRM引入了一个插件2D姿势引导的深度查询模块(PDQM),通过位置查询操作将2D姿势回归分支的特征注入到深度回归分支中,有助于我们的模型自适应地感知实例的尺度信息。•DRM还引入了一种解耦绝对姿势损失(DAPL),专注于绝对深度预测。0作为PDQM的补充。0•DRM在MuPoTS-3D[18]基准测试中与大多数自上而下的方法具有可比性,并且在Panoptic[9]基准测试中明显优于最先进的自下而上方法[39],分别提高了4.6 PCK rel和2.3 PCK abs,以及4.9 MPJPE。02. 相关工作0单人3D姿势估计使用单目RGB图像解决单人3D姿势估计问题有两种方法:单阶段[10, 24, 27, 28]和两阶段[16, 21,33]方法。单阶段方法直接从输入图像中定位3D人体关键点。例如,Pavlakos等人[24]提出了一种从粗到细的方法来估计姿势的3D热图。Kanazawa等人[10]通过最小化重投影损失,提出了端到端的对抗学习3D姿势和人体网格。Sun等人[28]将积分操作形式化为软argmax,以可微分的方式获得3D姿势坐标。不同的是,两阶段方法首先利用现成的准确2D姿势估计器预测2D姿势,然后将其提升到3D空间。例如,Martinez等人[16]提出了一种直接从2D坐标回归3D姿势的简单基线。Moreno-Noguer[21]通过距离矩阵表示获得更精确的姿势估计。Yang等人[33]利用多源鉴别器生成具有人体测量学有效性的姿势。0多人3D姿势估计对于使用单目RGB图像的多人3D姿势估计,与多人2D姿势估计类似,有两种方法:自顶向下[1, 2, 13,20, 30]和自底向上[19,39]。自顶向下的方法首先进行人体检测以检测每个人,然后对于每个检测到的人实例,通过3D姿势估计模型估计绝对根(人体骨盆)深度和3D根相对姿势。例如,Moon等人[20]引入了一种相机距离感知方法,将裁剪的人体图像输入到他们设计的RootNet中,估计身体的根深度,然后通过他们提出的PoseNet估计根相对3D姿势。Benzine等人[1]提出了一种单次拍摄的方法,并引入了低分辨率的基于锚点的表示学习方案,以避免遮挡问题。Li等人[30]采用分层多人序关系方法,以层次化地利用身体级语义和全局一致性来编码交互信息。Lin等人[13]将人体深度回归形式化为相机坐标系中的多人定位的二进制索引估计问题。相反,自底向上的方法首先预测所有身体关键点的位置和深度图,然后根据根深度和根相对深度将身体部位关联到每个人。例如,Mehta等人[19]推断可见身体关键点的中间3D姿势,而不考虑准确性,然后通过学习的姿势先验和全局上下文推断遮挡关键点,重建最终的3D姿势,并通过应用时间一致性和拟合运动骨骼模型来进一步优化3D姿势。Zhen等人[39]利用深度感知的部分关联算法,通过推理人与人之间的遮挡和骨长约束来分配关键点给个体。130880无论准确性如何,然后通过推断学习的姿势先验和全局上下文来重建完成的3D姿势。最终的3D姿势通过应用时间一致性和拟合运动骨骼模型进行优化。Zhen等人[39]利用深度感知的部分关联算法,通过推理人与人之间的遮挡和骨长约束来分配关键点给个体。0单目深度估计在多人绝对3D姿势估计中,大多数方法[20,39]使用稀疏深度图来监督根(骨盆)点的2D位置的深度值。与此不同的是,Zhang等人[35]将深度离散化为几个级别,以表示实例的深度,并使用实例之间的序数深度关系来监督深度排序。我们认为人体深度估计应该感知与实例尺度相关的全局特征。因此,我们提出将2D姿势回归分支的特征注入到深度回归分支中。上述阐述说明了多人3D姿势估计的两阶段方法各自的缺点。自顶向下的方法高度依赖于人体检测器的性能,几乎没有解决遮挡问题的良好策略,而自底向上的方法则依赖于在获取复杂的中间表示后的分组算法,以恢复所有人的姿势。而我们的单阶段DRM在准确性上与自顶向下的方法相当,并且具有更紧凑的流程,比自底向上的方法更好。03. 解耦回归模型0本文旨在提出一种单阶段方法,能够在更高效和紧凑的流程中实现与两阶段方法相当的性能。所提出的解耦回归模型(DRM)在性能和计算复杂度之间取得了更好的平衡,没有任何花哨的东西。03.1. 3D姿势的解耦表示0给定一张图像I,多人绝对3D姿势估计是为了定位图像I中所有人的关键点P ={P_abs_m},其中N表示I中的人数。假设单个3D姿势骨架中有J个关键点。第m个绝对3D姿势可以表示为:P_abs_m ={X_abs_m,j, Y_abs_m,j,Z_abs_m,j},其中{j=1,2,...,J},{X_abs_m,j, Y_abs_m,j,Z_abs_m,j}是第m个绝对姿势中第j个关键点在以摄像机为中心的坐标系中的位置,如图2(c)所示。在DRM中,需要使用2D姿势{p_m},相对根部深度{ΔZ_m}和根点的绝对深度{Z_m,r}来估计绝对3D姿势。第m个2D姿势0中心点 2D偏移 根点 根相对深度0其他关键点0(a) (b) (d) (c)0图2. 姿态表示的可视化和解释。(a)在包含一个人的图像上叠加的姿态表示。(b)基于中心点的2D姿态表示。(c)右视图中的3D姿态。(d)基于根点的相对深度表示。在我们的框架中,根点和中心点是不同的。0姿态pm和根相对深度ΔZm的公式如下:0pm = Σ(xm,j, ym,j)T / Jj=1, (1)0ΔZm = {Zm,r - Zm,j} Jj=1, (2)0其中(xm,j,ym,j)T是第m个2D姿态的第j个关键点在像素坐标中的位置,Zm,j是第m个实例的第j个关键点的绝对深度。因此,我们将多人三维姿态估计分解为两个同时进行的基于回归的任务,即2D姿态回归和深度回归。此外,我们分别采用中心点和根点作为2D姿态回归和深度回归的回归线索。02D姿态回归:我们使用中心图C和n个偏移图O来定位给定图像I中的实例,如图2(b)所示。中心图被建模为基于高斯的热图,其值表示中心位置的置信度。我们用C*表示真实中心图。我们将实例的中心点设置为实例所有可见关键点的平均坐标,并且中心点是DRM中2D姿态回归分支的回归线索。对于I中的位置(x, y),C*(x, y) = exp(−∥(x, y) - (xc, yc)∥2 /σ2),其中(xc,yc)是实例中心的位置,σ是高斯方差。每个偏移图O预测了从所有实例的中心像素q到n个关键点的2n维偏移向量。每个图像的真实偏移图O*由图像中的所有2D姿态{p1, p2, ...,pn}构建。我们计算中心位置pi = 1/n Σnk=1pik。候选区域在中心位置周围,其半径为130890输入图像0主干网络01 × 1 卷积中心热图回归0PQ0PQ0根相对深度回归0×0PQ0偏移图0特征图0连接操作0×0位置查询操作0PQ01 × 1卷积01 × 1卷积01 × 1卷积02D偏移回归0根深度回归0PDQM01 × H × W01 × H × W0J × H × W0(J × 1) × H × W0深度回归分支02D姿态回归分支0图3.多人绝对三维姿态估计的DRM概述。给定输入的单目图像,我们的单阶段网络分为四个流程,分别输出中心图、偏移图、根深度图和根相对深度图。值得注意的是,通过提出的PDQM,2D偏移回归的特征通过连接操作与根深度回归共享。通过所有这些回归图,可以重构所有人的绝对三维姿态。0根据先前的方法[40],将其设置为3。候选区域中的像素表示关键点的偏移{pi - pi1, pi - pi2, ..., pi - pin}。0深度回归:我们不是为所有关键点预测绝对深度值,而是仅回归根点的绝对深度和其他关键点的相对深度,如图2(d)所示。这种表示方式使得我们的深度回归保留了身体关键点的相对信息,并提高了整体训练稳定性。根点的绝对深度由根像素r处的密集深度图Z*表示,其值表示根点的真实深度。类似地,根相对深度由(n-1)维的密集深度图ΔZ*表示。0以编码所有实例的所有根像素r上其他关键点与根点之间深度差异。我们将根点设置在骨盆上。通过这种方式,2D姿势和深度被解耦,防止它们相互影响。为了获得最终结果,我们通过根点将2D姿势和深度预测相结合。0与现有研究[20,39]中的表示的关系在于,将3D姿势估计解耦为2D姿势估计和深度预测也已经被探索过。与它们仅在任务层面上解耦的形式不同,我们进一步解耦了线索关键点,使用中心点和根点进行2D姿势回归和相应的深度回归,分别将解耦的表示的有效性在第4.2节进行了实验分析。由于线索关键点的解耦表示的好处,两个回归分支都比以前的方法取得了更好的性能。0通过解耦表示在线索关键点上的好处,两个回归分支都比以前的方法取得了更好的性能。在第4.2节中,通过实验证明了解耦表示的有效性。03.2.框架架构0所提出的单阶段DRM的框架概述如图3所示。首先,将输入图像I送入主干网络以产生特征图X。然后,将X转换为四个中间监督流。一个流用于回归中心图,其中包含1个通道。另一个流用于具有2n个通道的偏移图,包括n个关键点的x轴和y轴偏移。其余两个流用于回归深度图,即1个通道用于绝对根深度,n-1个通道用于根相对深度,包括除根点外的n-1个关键点。采用解耦形式[40]来回归偏移图和根相对深度图。02D姿势引导的深度查询模块从单个视图中估计深度存在固有的歧义。直接通过从整个图像学习到的特征表示来估计绝对深度是非常困难的,因为它只关注根区域,而没有感知与实例尺度相关的全局特征。实际上,人的绝对深度可以部分地通过人的尺度来表达。因此,我们认为2D姿势可以帮助提高绝对深度估计的准确性。为了预测根的深度,我们可以利用130900位于其他关键点的特征。受此启发,我们提出了一个2D姿势引导的深度查询模块(PDQM)。在偏移图回归的流程中,我们将从主干网络输出的特征图X分为n个特征图{X1, X2, ...,Xn},并从相应的特征图中估计每个关键点的偏移图{Oi},i = 1, 2,..., n:Oi = Fi(Xi),i = 1, 2, ..., n,(3)0其中,Fi(∙)是第i个关键点的第i个回归器,Oi是第i个关键点的偏移图。这n个回归器具有相同的结构,它们独立地预测它们对应的关键点偏移图。在根深度回归的流程中,我们旨在通过提取每个关键点周围的特征来丰富根的特征。通过回归的2D偏移图,我们利用位置查询(PQ)操作从每个关键点的区域提取(n-1)个64通道特征,并将它们连接到根深度回归的特征图中:0Z = FZ�cat�X, W�O'1, W�O'2...W�O'n-1, (4)0其中,FZ(∙)是根绝对深度的回归器,与偏移图的回归器具有相同的结构,cat{∙}是通道维度上的连接操作,W(O'i)是第i个关键点的位置查询操作,它是一种获取对应位置特征的变形操作,O'i是从根点到其他关键点的第i个偏移图,即O'i = Oi+Oe,其中Oe是预测根点与中心点之间位移的额外偏移图。我们使用Z来预测根点的深度。03.3. 训练和推断0我们在每个流中使用不同的损失。对于2D姿态预测,采用中心图损失和偏移图损失,而对于深度预测,设计了一种新颖的解耦的绝对姿态损失(DAPL)作为密集深度图损失的补充。0中心图损失中心置信度图通过将中心位置建模为高斯峰来构建,中心图的损失函数被制定为预测热值和真值热值之间的加权距离:0Lc = ∥C − C�∥22,(5)0其中∥∙∥2是逐元素的2范数,C和C�分别是预测和目标中心图。0偏移图损失偏移图通过从中心预测一个2n维的偏移向量来估计每个中心像素的候选姿态。我们使用平滑的ℓ1损失来制定密集偏移图损失:0Lo = �0i∈S01Bi smooth ℓ1 (oi − o�i),(6)0其中S是具有真值姿态的位置集合,Bi = �0H2i +W2i是对应实例的大小,Hi和Wi是实例框的高度和宽度,oi和o�i分别是位置i的预测和真值偏移。0深度损失DRM的深度回归有两个输出流,包括根点的绝对深度和其他关键点的根相对深度。我们使用平滑的ℓ1损失来制定像素级深度损失:0Lrz = 0i∈S smooth ℓ1 (zi − z�i),(7)0LΔz = 0i∈S smooth ℓ1 (Δzi − Δz�i),(8)0其中S是具有真值姿态的位置集合,zi是位置i的1维估计根深度向量,zi�是位置i的1维真值根深度向量,Δzi是位置i的(n-1)维预测根相对深度向量,Δz�i是位置i的(n-1)维真值根相对深度向量。0解耦的绝对姿态损失由于解耦回归方法[40]的存在,我们网络预测的2D姿态在大多数情况下已经足够准确,而估计的绝对深度的性能较差。为了进一步优化绝对姿态,我们设计了一种解耦的绝对姿态损失(DAPL),它关注绝对深度和相对深度。考虑到根相对深度是局部的且独立估计的,因此,估计的根相对深度无法整合与实例尺度相关的信息。DAPL被用于感知实例尺度,它可以作为根相对深度回归的辅助监督。此外,其他关键点的相对深度会受到根点的累积误差的影响。DAPL通过间接监督其他关键点的绝对深度来缓解这个问题。具体来说,我们使用透视相机模型在相机坐标中使用估计的绝对深度、根相对深度和2D地面真值信息来重建估计的3D姿态:0Xi = (x�i − cx�) 0fx�,(9)0Yi = (y�i − cy�)0fy�,(10)0其中x�i,y�i是位置i在2D图像平面上的真值x轴和y轴坐标,cx�,cy�是相机内参矩阵的x轴和y轴主点的值,fx�,fy�是相机的x轴和y轴的焦距。130910然后我们使用归一化的ℓ1损失来制定像素级投影损失:0Lp = �0i∈S01Bi0���� (x�i−cx�)∙[(zi−Δzi)−(z�i−Δzi�)]0fx�0���� 10+ �01Bi0���� (y�i−cy�)∙[(zi−Δzi)−(z�i−Δzi�)]0fy�0���� 0(11)在DAPL中,使用3D投影模型将预测的绝对深度与人体实例的地面真实2D位置相结合,以间接监督的形式对绝对根深度和根相对深度进行映射。值得注意的是,我们使用2D位置的地面真实值,以避免DAPL由于自然存在的2D姿势估计不准确而导致的次优性能。DAPL的机制将不准确的绝对深度和相对深度的预测调整到正确的优化方向,从而直接优化绝对和相对的3D姿势。0整体损失为了训练提出的单阶段DRM,我们将整体损失函数L定义如下:0L = Lc + λoLo + λrzLrz + λΔzLΔz + λpLp,(12)0其中λo,λrz,λΔz和λp是用于平衡不同损失项的超参数。我们将λo,λrz,λΔz设置为0.03,λp设置为0.003,这些值经过实验证实。推理在测试期间,将图像输入DRM,以预测中心图、偏移图、根深度图和根相对深度图。首先,通过在中心图和偏移图上执行NMS过程,获得候选的2D姿势。然后,从根深度图和根相对深度图中获取每个候选实例的根绝对深度和根相对深度。然后,通过将所有根相对深度加到根绝对深度上,获得所有关键点的绝对深度。最后,对候选的2D姿势和绝对深度执行NMS过程,并保留一个图像的最多20个候选结果。利用这些候选结果和相机内部矩阵,我们可以通过透视相机模型重建3D姿势:0[X,Y,Z]T = ZK-1[x,y,1]T,(13)0其中[X,Y,Z]和[x,y]分别是关键点的3D和2D坐标,K是相机内部矩阵。04.实验04.1.实验设置0数据集我们在两个流行的具有挑战性基准数据集上评估了提出的DRM的多人3D姿势估计,即MuPoTS-3D [18]和CMUPanoptic [9]。0MuCo-3DHP [18]是由MPI-INF-3DHP[17]的单人数据集组成的多人3D训练集,其中包含来自多视角无标记运动捕捉系统的地面真实3D姿势。我们遵循SMAP[39],使用来自该数据集的400k张图像进行DRM的训练。MuPoTS-3D是一个测试集,由8,700个具有遮挡、剧烈光照变化和某些户外镜头中的镜头光晕的具有挑战性的图像组成,这使得它成为一个验证模型泛化能力的令人信服的测试平台。我们像SMAP [39]一样将其用于评估。CMU Panoptic[9]是在全景工作室拍摄的一个大规模数据集,为从事各种社交活动的多人提供了3D姿势注释。我们遵循Zanfir等人[34],选择两个摄像头(即16和30),165k张来自不同序列的图像作为我们的训练集,并选择四个活动(即Haggling、Ma�a、Ultimatum、Pizza)的9,600张图像作为我们的测试集。实施细节我们的框架是在PyTorch平台上实现的。所提出的模型在8个NVIDIA V100GPU上进行训练,每个GPU的批量大小为8。我们使用预热训练策略,基本学习率设置为1×10-3。学习率将在第一个时期增加到基本训练率,然后在最后线性衰减为0。优化使用Adam [4]。由于HRNet[26]在密集预测任务中具有领先的性能,例如人体姿势估计,我们采用HRNet作为骨干网络。骨干网络使用ImageNet[5]预训练的权重进行初始化。我们分别在MuCo-3DHP和CMU Panoptic上训练了两个模型,混合了COCO[14]数据集。每个小批量中50%的数据来自COCO。由于COCO缺乏3D姿势注释,当输入来自COCO的图像时,3D损失的权重被设置为零。所有图像都被调整为固定尺寸832×512作为我们模型的输入。04.2. 在MuPoTS-3D [18]基准上的实验0评估指标3DPCK [20]是2DHPE评估中使用的正确关键点百分比(PCK)指标的3D扩展版本。如果估计关键点与真实值之间的距离在一定阈值范围内(即我们的实验中为15cm),则认为估计关键点是正确的。PCK rel 通过根对齐测量相对姿势准确性;PCK abs通过不进行根对齐测量绝对姿势准确性;PCK root仅测量根点的准确性。0与最先进模型的比较。表1显示了我们提出的DRM与其他最先进方法之间的结果比较。我们的单阶段方法在匹配的人群中达到了85.1 PCK rel 和41.0 PCK abs,优于所有自底向上方法和大多数自顶向下方法,除了Cheng等人[2]。请注意,我们在相对3D姿势上实现了4.6 PCKrel 的改进,并在根部的绝对3D姿势上实现了2.3 PCK abs的改进。0100200300400500600700800020040060080001002003004005006007008000200400600800130920表1. 在MuPoTS-3D [18]数据集上的比较。所有数字都是在20个活动上的平均值。0方法 匹配的人群 所有人群0PCK rel ↑ PCK abs ↑ PCK root ↑ AUC rel ↑ PCK rel ↑ PCK abs ↑0自顶向下0CDMP(ResNet-50)[20] 82.5 31.8 31.0 40.9 81.8 31.50HDnet(FPN)[13] 83.7 35.2 - - - -0HMOR(FPN)[30] - - - - 82.0 43.80Pandanet(FPN)[1] - - - - 72.0 -03Dpose(HRNet-w32)[2] 89.6 48.0 - - - -0自底向上0Xnect [19] 75.8 - - - 70.4 -0SMAP(Hourglass)[39] 80.5 38.7 45.5 42.7 73.5 35.40单阶段DRM(我们的,HRNet-w32)85.1 41.0 45.6 45.4 80.9 39.30表2.分别使用根点(表示为“RC”)和2D中心点(表示为“CC”)作为回归2D姿势的线索的比较。0方法 AP ↑ AP M ↑ AP L ↑ AR ↑ AR M ↑ AR L ↑0RC 63.9 59.8 71.6 70.2 64.4 78.6 CC 67.2 61.8 77.1 73.066.3 82.60(a) CC (cm) (a) RC (cm)0图4.分别使用根点(表示为“RC”)和2D中心点(表示为“CC”)作为回归深度信息的线索的比较。散点图显示了预测的绝对深度与相应的真实值之间的偏差。0与SMAP [39]相比,它是当前最先进的自底向上方法。0解耦表示的分析。本文提出了新的解耦表示方法,通过中心点(可见关键点的中心)和根点(表示为骨盆)分别编码每个3D人体实例的2D姿势和深度信息。我们进行了剔除分析,探索这种解耦表示的优越性。我们首先分别使用根点(骨盆)和2D中心点回归x-y关键点偏移量。在COCO数据集[14]上报告了结果,如表2所示。可以观察到使用中心点回归2D姿势的效果优于使用根点(即67.2 AP vs. 63.9AP)。因此,中心点被认为能够编码更多的信息特征,例如尺度和姿势变形,而不是根点。我们进一步应用根点(骨盆)和2D中心点回归相应的深度信息。0表3.提议组件的分析。PDQM表示2D姿势引导的深度查询模块。DAPL表示解耦的绝对姿势损失。0PDQM DAPL PCK abs ↑ PCK root ↑ PCK rel ↑032.1 32.3 81.3 √ 35.5 40.8 81.4 √ 39.8 44.1 83.7 √ √41.0 45.6 85.10中心点的绝对深度通过平均所有可见关键点的绝对深度来计算。如图4所示,可以观察到使用根点信息回归深度与相应的地面真实深度之间的偏差较小,特别是对于大深度。因此,根点被认为是具有明确语义信息的位置,比中心点更有益于深度估计。因此,我们提出了解耦表示,利用不同的点来编码和预测不同的属性,例如2D姿势和深度,这显著改善了绝对3D姿势的估计。0所提出组件的分析基于解耦表示,我们研究了DRM中两个关键组件的贡献,即2D姿势引导的深度查询模块(PDQM)和解耦的绝对姿势损失(DAPL)。如Tab. 3所示,DAPL在PCK root和PCKabs上分别获得了11.8和7.7的改进,表明DAPL通过增强绝对深度预测显著提高了绝对姿势估计的性能。此外,引入PDQM可以独立提升8.5的PCK root和3.4的PCKabs,表明2D姿势回归分支中的尺度信息改进了深度估计,减轻了对深度的感知能力不足的问题。最后,我们的完整模型包含了DAPL和PDQM,分别获得了13.3的PCKroot、8.9的PCK abs和3.8的PCK rel的整体增益。0定性结果 图5展示了在COCO[14]验证集上估计的3D姿势的可视化结果。可以看到,即使在室外具有挑战性的场景中(包含尺度变化、人群、遮挡和巨大的深度变化),我们的方法仍然表现出色。130930图5. 在COCO[14]验证集上,展示了所提出的DRM对野外图像的可视化结果。上排:输入图像。下排:所提出的DRM的多人3D姿势估计结果。0表4. CMU Panoptic上RtError的定量比较。0方法 Haggling Ma�a Ultim. Piazza Mean ↓0MPSM [35] 257.8 257.8 301.1 294.0 315.5 CDMP [20] 160.2151.9 177.5 127.7 154.30SMAP [39] 84.7 87.7 91.2 78.5 85.50DRM(我们的方法) 63.7 58.5 52.3 69.1 60.90表5. 运行时间(毫秒)比较。方法 3人 ↓ 20人 ↓0CDMP[20](自上而下)0DetectNet 120.0 120.0 PoseNet 14.771.80RootNet 13.0 58.9 Total 147.7 250.70SMAP[39](自下而上)0SSNet 57.0 57.0 Grouping 4.5 8.80Re�neNet 0.80 0.83 Total 62.3 66.60DRM(我们的方法)单阶段 55.6 56.00总之,尽管存在许多挑战(例如,尺度变化、人群、遮挡和巨大的深度变化),我们的方法仍然表现出色。04.3. 在CMU Panoptic [9]基准上的实验0我们使用RtError [39]和Mean Per Joint Position Error(MPJPE) [34]作为CMU Panoptic[9]上的评估指标。RtError衡量根点的绝对估计,MPJPE衡量3D根相对姿势的准确性。RtError的定量比较见Tab.4。可以观察到,我们的模型在RtError方面明显优于最先进的自下而上方法SMAP[39],改进了24.6mm(四个活动的平均值),显示出所提出的DRM在泛化能力方面的潜力。为了完整起见,我们在补充材料中提供了最先进方法和我们方法之间的MPJPE定量比较。04.4. 运行时间分析0Tab. 5报告了代表性自上而下、自下而上的推理过程中运行时间的详细比较。0方法[20, 39]和提出的DRM。实验在一台NVIDIA V100GPU上进行。现有的自上而下和自下而上方法都采用多阶段范式,导致计算冗余。具体而言,自上而下方法CDMP[20]采用检测器选择每个单独的实例,总计算成本随人数线性增长。自下而上方法SMAP[40]需要额外的分组过程将关键点分组到相应的实例中。相比之下,我们的单阶段模型DRM的运行时间成本较低,几乎不随实例数量增加。值得注意的是,与SMAP[39]相比,DRM在3人设置中节省了6.7ms,在20人设置中节省了9.4ms。05. 结论0在本文中,我们提出了一种高效的单阶段解耦回归模型(DRM),用于解决多人绝对3D姿势估计。DRM利用并行分支同时回归2D姿势和人体深度,实现了更紧凑的流水线。此外,DRM引入了2D姿势引导的深度查询模块(PDQM)和解耦的绝对姿势损失(DAPL),共同提高深度预测的准确性。PDQM将2D姿势回归分支的特征连接起来,丰富了绝对深度回归的特征,这对于实现更好的3D姿势性能有显著帮助。DAPL使用实例的地面真实2D位置将预测的深度映射到相机坐标系,实现了对3D空间中的直接姿势监督,提高了深度预测的性能。在进一步的研究中,我们将致力于探索将我们的PDQM应用于其他单阶段方法,例如,用于身体网格估计的BMP [35]和ROMP [29]。0致谢0本文的研究得到了国家自然科学基金No.62071056、No.62102039和No.62006244的资助,以及中国科学技术协会青年科技人才扶持计划YESS20200140的资助。130940参考文献0[1] A. Benzine, F. Chabot, B. Luvison, Q. C. Pham, and C.Achard. Pandanet:基于锚点的单镜头多人3D姿势估计。在CVPR,2020年。1,2,70[2] Yu Cheng, Bo Wang, Bo Yang, and Robby T. Tan.通过整合自上而下和自下而上网络进行单目3D多人姿势估计。在CVPR,第7649-7659页,2021年。2,6,70[3] Yu Cheng, Bo Yang, Bo Wang, and Robby T. Tan.使用显式遮挡训练的时空网络进行3D人体姿势估计。AAAI,34(07):10631-10638,2020年。10[4] Kingma D and Ba J. Adam:一种用于随机优化的方法。计算机科学,2014年。60[5] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei.ImageNet:一个大规模的分层图像数据库。在CVPR,第248-255页,2009年。60[6] Hao-Shu Fang, Jinkun Cao, Yu-Wing Tai, and Cewu Lu.用于识别人-物互动的逐对身体部位注意力。在ECCV,2018年。10[7] Mir Rayat Imtiaz Hossain and James J. Little.利用时间信息进行3D人体姿势估计。在ECCV,2018年。10[8] Fang Zhao Xuecheng Nie Yunpeng Chen Shuicheng YanJian ZHAO, Jianshu Li and Jiashi Feng.边缘化CNN:学习深度不变表示。在BMVC,第127.1-127.12页,2017年。10[9] H. Joo, T. Simon, X. Li, H. Liu, L. Tan, L. Gui, S. Banerjee, T.Godisart, B. Nabbe, and I. Matthews.全景工作室:用于社交互动捕捉的大规模多视角系统。TPAMI,第1-1页,2016年。2,6,80[10] Angjoo Kanazawa, Michael J. Black, David W. Jacobs, andJitendra Malik.人体形状和姿势的端到端恢复。在CVPR,2018年。20[11] Jianshu Li, Jian Zhao, Congyan Lang, Yidong Li, YunchaoWei, Guodong Guo, Terence Sim, Shuicheng Yan, and JiashiFeng.基于图形生成对抗模型的多人解析。在ACMMM,2020年。10[12]李永路,刘新鹏,陆涵,王世义,刘俊琪,李杰峰和卢策武。用于人体-物体交互的详细2D-3D联合表示。在CVPR,2020年。10[13] Jiahao Lin和Gim HeeLee。Hdnet:用于多人相机空间定位的人体深度估计。在AndreaVedaldi,Horst Bischof,Thomas Brox和Jan-MichaelFrahm(编辑),ECCV,页码633-648,2020年。1,2,70[14] T. Y. Lin,M. Maire,S. Belongie,J. Hays和C. L.Zitnick。Microsoftcoco:上下文中的常见对象。ECCV,2014年。6,7,80[15] Diogo C. Luvizon,David Picard和HediTabia。用于实时3D人体姿势估计和动作识别的多任务深度学习。TPAMI,43(8):2752-2764,2021年。10[16] Julieta Martinez,Rayat Hossain,Javier Romero和James J.Little。用于3D人体姿势估计的简单而有效的基线。在ICCV,2017年。20[17] Dushyant Mehta,Helge Rhodin,Dan Casas,PascalFua,Olek- sandr Sotnychenko,Weipeng Xu和ChristianTheobalt。在野外使用改进的CNN监督进行单目3D人体姿势估计。在3DV,页码506-516,2017年。60[18] D. Mehta,O. Sotnyc
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功