没有合适的资源?快使用搜索试试~ 我知道了~
1基于单幅图像[StarCount *] Jiang Wen2*,Nikos Kolotouros1*,Georgios Pavlakos1,XiaoweiZhou2†,Kostas Daniilovsky11宾夕法尼亚大学2浙江大学输入图像基线我们的图1:多个人的姿势和形状的一致重建。典型的自上而下的回归基线(中心)会在预测位置重叠或深度排序不一致的人时受到我们的方法(右)被训练为尊重所有这些约束,并以前馈方式恢复场景中所有人的连贯重建。摘要在这项工作中,我们解决的问题,多人的三维姿态估计从一个单一的图像。在这个问题的自上而下设置中,典型的回归方法首先检测所有人,然后独立地重建他们中的每一个。然而,这种类型的预测遭受不一致的结果,例如,场景中的人之间的相互渗透和不一致的深度排序。我们的目标是训练一个单一的网络,学会避免这些问题,并生成场景中所有人类的连贯3D重建。为此,一个关键的设计选择是在我们的自顶向下框架中纳入SMPL参数体模型,这使得能够使用两种新的损失。首先,基于距离场的碰撞损失惩罚重建的人之间的相互渗透。第二,深度排序感知损失的原因有关闭塞,并促进深度排序的人,导致渲染是一致的注释实例分割。这向网络提供了深度监督信号,即使图像没有明确的3D注释。实验表明,我们的方法优于以前的方法在标准的3D姿态基准,而我们提出的损失,能够更连贯的重建自然图像。包含视频、结果和代码的项目网站可以在https://jiangwenpl.github.io/multiperson1. 介绍最近的工作在3D人体分析任务的前沿取得了巨大进展。当前方法*同等缴款。†X.Zhou和W.蒋先生是浙江大学CAD/CG国家重点实验室的成员.邮箱:xwzhou@zju.edu.cn已经建立了令人印象深刻的性能,用于3D关键点估计[35,57],3D形状重建[11,62],完整的身体3D姿势和形状恢复[15,26,28,43],甚至超越这一点,并估计更详细和表达重建[42,63]。然而,随着我们朝着更全面地理解场景和人在其中交互的方向前进,关键的一步是从单个图像中连贯地3D重建多个人。关于多人姿态估计,在频谱的一端,我们有自下而上的方法。遵循这种范例的工作首先检测场景中的所有身体关节,然后将它们分组,即,把它们分配给合适的人。然而,自下而上处理如何可以扩展到关节之外并不简单(例如,将其用于形状估计或网格恢复)。与自底向上不同,自顶向下方法首先检测场景中的所有人,然后估计每个人的姿势。虽然他们在早期(个人检测)做出艰难的决定,但是他们通常依赖于用于个人检测和姿势估计的最先进的方法,这允许他们实现非常引人注目的结果,特别是在2D姿势的情况下,例如,[9、56、64]。然而,当在3D中推理多个人的姿势时,问题可能比在2D中更复杂。例如,重建的人可以在3D空间中彼此重叠,或者在与实际深度排序不一致的深度处被估计,如图1所示。这意味着不仅仅是为每个人单独预测合理的3D姿势,而是估计场景中所有人的连贯重建。这种整体场景的连贯性是这项工作的主要目标。我们采用典型的自上而下的范式,我们的目标是训练一个深度网络,学习估计场景中所有人的连贯重建开始-55795580互穿损耗检测深度排序感知损失−重投影场景实例分割图2:拟议方法概述。我们设计了一个端到端的框架,用于从单个图像中估计多个人的3D姿势和形状。基于R-CNN的架构[19]检测图像中的所有人并估计他们的SMPL参数[34]。在训练过程中,我们加入了限制因素,以促进场景中所有人的连贯重建。首先,我们使用一个相互渗透的损失,以避免人们相互重叠其次,我们通过将所有人的网格渲染到图像并鼓励渲染的实例分割与注释的实例掩码匹配来应用深度排序感知损失使用遵循R-CNN管道的框架[48],我们做出的一个关键决定是使用SMPL参数模型[34]作为我们的表示,并向R-CNN添加SMPL估计分支。SMPL提供的网格表示允许我们推理遮挡和相互渗透,从而能够将两种新的损失合并到连贯的3D重建中。首先,回归网络预测的一个常见问题是,重建的人经常相互重叠,因为前馈性质不允许对潜在交叉点进行整体反馈为了训练一个学会避免这种类型的冲突的网络该术语不需要注释并且依赖于自然场景的简单性质,即,人与人之间不能相交。除了碰撞之外,结果中的不一致性的另一个来源是网格的估计深度不尊重场景中的人的实际深度。配备了一个网格表示,我们把我们的整体场景预测的2D图像平面和处罚的差异,这种渲染从注释的实例分割。这种损失使得能够对遮挡进行推理,鼓励场景中的人的深度排序与注释的实例遮罩一致我们的完整框架(图2)在各种基准上进行了评估,并优于以前的多人3D姿势和形状方法,而提出的损失在定性和定量上提高了整体结果的一致性总结一下,我们的主要贡献是:• 我们提出了一个完整的框架,为多个人的三维姿态和形状的相干• 我们训练的时候要注意相互渗透避免倒退-使网格彼此相交。• 我们用深度排序意识损失来训练,以促进尊重场景中人的深度排序的重建。• 我们outperfrom以前的方法多人的3D姿态和形状,同时恢复显着更连贯的结果。2. 相关工作在本节中,我们提供了与我们更相关的先前工作的简短描述。单人3D姿势和形状:许多最近的作品以骨架的形式估计3D姿势,例如,[35,39,44,47,57,59,60,67],或以非参数方式的3D形状例如,在一个实施例中,[11、53、62]。然而,在这里,我们专注于网格形式的全身姿势和形状重建,通常使用参数模型,如SMPL [34]。在对这个问题进行了早期的研究之后[14,52],Bogo等人提出了第一个完全自动的方法SMPLify。[4]的文件。SMPLify迭代地将SMPL拟合在由2D姿态估计网络检测到的2D关节上[46]。这种优化方法后来以多种方式扩展; Lassner等人[31]使用轮廓拟合,Varol等人。[62]使用体素占用网格,而Pavlakos等人。[42]拟合一个更具表现力的参数模型SMPL-X。尽管上述拟合方法取得了成功,但最近我们已经观察到对直接从图像回归姿态和形状参数的方法的兴趣增加,使用深度网络进行该任务。许多工作集中于在回归SMPL参数之前首先估计某种形式的中间表示。Pavlakos等人[45]使用关键点和轮廓,SMPLR-CNN输入图像5581Omran等人[41]使用语义部分分割,Tung等人。[61]将2D关节的热图附加到RGB输入,而Kolotouros等人[29]用Graph CNN回归网格顶点。直接从RGB输入回归SMPL参数更具挑战性,但它避免了任何手工设计的瓶颈。Kanazawa等人[26]在训练过程中,在惩罚不可能的3D形状之前使用adversar- ial。Arnab等人 [3]利用时态上下文对回归网络进行改进。 Güler等[15]结合基于2D/3D关键点和DensePose的测试时间后处理[16]。多人3D姿态:对于多人情况,自上而下的范例对于3D姿态估计非常流行,因为它利用了R-CNN作品的成功[13,48,19]。LCR-Net方法[50,51]首先检测每个人,然后将其姿势分类到姿势聚类中,最后回归每个关节的偏移。Dabral等人[10]首先估计边界框内的2D关节,然后回归3D姿势。Moon等人[40]提供一个根网络,以估计根关节的深度赞菲尔等。[65]依赖于场景约束来迭代地优化场景中的人的3D姿势和形状。或者,也有遵循自下而上范式的方法。Mehta等人[38]提出了一种基于遮挡鲁棒姿态映射的公式,其中部分亲和字段[6]用于关联问题。后续工作[37],除其他外,提高了系统的鲁棒性。最后,Zanfir等人[66]求解二进制整数线性规划进行骨架分组。特别是在姿势和形状估计的上下文中,存在有限数量的估计场景中多个人的全身3D姿势和形状的赞菲尔等。[65]使用多个场景约束优化图像中所有人的3D形状。我们的方法从这项工作中汲取灵感,并有着相同的目标,即恢复连贯的3D重建。与之相反,我们不是在测试时优化这种一致性,而是训练前馈回归器,并在训练时使用场景约束来鼓励它在测试时产生使用前馈网络来估计多个人的姿势和形状已经由Zanfir等人的工作提出。[66]。然而,在这种情况下,3D形状是基于3D关节回归的,3D关节是自底向上系统的输出相比之下,我们的方法是自上而下的,SMPL参数直接从像素回归,而不是使用中间表示,如3D关节。事实上,以自底向上的方式设计SMPL参数回归的框架是不平凡的一致性约束:我们工作的一个重要方面是引入损失项,以促进多个人的一致3D重建。考虑到我们的互穿损失,Bogo等人。[4]和Pavlakoset al. [42]使用一个相关的目标,以避免考虑中的人中与我们更相似的精神,Zanfir等人。[65]使用容积容差损失,以避免人员相互交叉。在不同的应用中,Hassonet al. [18]惩罚interpen- etrations之间的对象和手与它互动,而哈桑等。[17]惩罚人类与环境之间的相互渗透。上述工作的大部分使用互穿惩罚迭代地完善在测试时的估计除了[18]之外,我们的工作是唯一一个使用相互渗透项来指导前馈回归器的训练并在测试时促进无碰撞重建的工作。关于我们的深度排序意识损失,我们遵循陈等人的公式。[8],这也被Pavlakos等人用于3D人体姿势的背景下。[44 ]第44段。与之相反,我们不使用显式的深度注释,而是利用实例分割掩码来推断遮挡,从而推断深度排序。Rhodinet al. [49]也是相关的,其中推断深度排序被用作用于从多个视图分解场景的中间抽象我们的工作还旨在估计一个连贯的深度排序,但我们这样做,从一个单一的图像与实例分割的指导下,而我们保留了更明确的人类表示的网格。最后,通过渲染和比较使用实例分割也已由Kundu等人提出。[30 ]第30段。然而,他们的多实例评估只包括刚性对象,特别是汽车,而我们调查的,更复杂的,非刚性的情况。3. 技术途径在本节中,我们描述了这项工作中遵循的技术方法。我们首先提供有关SMPL模型(第3.1小节)和我们使用的基线区域架构(第3.2小节)的一些信息。然后,我们详细描述了我们提出的损失促进无互穿重建(3.3小节)和一致的深度排序(3.4小节)。最后,我们提供了更多的实现细节(3.5小节)。3.1. SMPL参数模型对于人体表示,我们使用人体的SMPL参数模型[34]。与其他表现形式相比,SMPL非常适合我们的工作,因为它允许我们对封闭和相互渗透进行推理,从而使小说得以使用我们在网络训练中所包含的损失。SMPL模型定义了一个函数M(θ,β),它以姿态参数θ和形状参数β为输入,输出一个由Nv=6890个顶点组成的网格M∈RNV×3该模型还提供了一个方便的映射,通过线性回归量W将网格顶点映射到k个身体关节J,使得关节可以表示为网格顶点的线性组合,J=WM。5582图3:互穿损耗的图示。左:人i(红色)和人j(米色)之间的碰撞。中:人i的距离场φi,右:人j的网格Mj。 与人i碰撞的M j的顶点,即, 位于φi的非零区域,用软红色表示,受到互穿损失的惩罚。3.2. 基线体系结构在我们方法的架构方面,我们遵循熟悉的R-CNN框架[48],并使用与Mask R-CNN迭代[19]最相似的结构 。 我 们 的 网 络 包 括 一 个 主 干 ( 这 里 是 ResNet50[20]),一个区域建议网络,以及用于检测和SMPL参数回归(SMPL分支)的头。关于SMPL分支,其架构类似于Kanazawa等人提出的迭代回归器。[26],分别回归姿态和形状参数θ和β,以及凸轮。era参数π={s,tx,ty}。相机参数是根据边界框预测的,但我们稍后会根据边界框在整个图像中的位置(详见Sup.Mat.)。虽然bbox预测中没有明确的反馈,但每个建议的接受范围包括大部分场景。由于每个边界框都知道相邻的人及其姿势,因此它可以做出与他们一致的知情姿势预测对于我们的基线网络,各个组件以端到端的方式联合训练。检测任务根据[19]的训练过程进行训练,而对于SMPL分支,训练细节类似于Kanazawa等人提出的训练细节。[26]第10段。在3D地面实况可用的罕见情况下,我们在SMPL参数和3D关键点上应用L3D在只有2D关节可用的最典型情况下,我们使用2D重投影损失L2D来最小化地面真实2D关键点与3D关节J到图像的投影之间的距离。此外,我们还使用了一个判别器,并在回归的姿势和形状参数上应用对抗性先验Ladv,以鼓励输出身体位于人体的流形上。在将其分配给相应的地面实况边界框之后,上述每个损失都独立地应用于每个提议。有关上述损失条款的更多详情以及工作通常可以预测人们在重叠的位置。为了促进非碰撞的人的预测,我们引入了一个损失,惩罚重建的人之间的相互渗透。我们的公式从[17]中获得灵感。一个重要的区别是,而不是一个静态的场景和一个人,我们的场景包括多个人,它是在训练过程中以动态的方式生成的。令φ为场景的修改的有符号距离场(SDF),其定义如下:φ(x,y,z)=−min(SDF(x,y,z),0),(1)根据上述定义,在每个人体内,取正值,与到表面,而它只是0以外的人。通常,φ被定义在尺寸为Np×Np×Np的体素网格上。单一体素化表示整个场景是完全可能的。然而,我们需要一个非常精细的体素网格,这取决于场景的扩展,可能会使处理棘手的内存和计算方面。这里的一个关键观察是,我们可以为场景中的每个人计算一个单独的φi函数,方法是计算一个围绕人的紧密框并对其进行体素化这允许我们忽略没有被任何人覆盖的空场景空间,并且我们可以使用精细的空间分辨率来获得身体的详细体素化。使用该公式,人j与人i碰撞的碰撞惩罚被定义为:ΣPij=φi(v),(2)v∈Mj其中,φi(v)使用三线性插值以可微分的方式从3D网格中对每个3D顶点xv的φi值进行采样(图3)。人i的φi计算由自定义GPU实现执行。 这是-估算不一定是可微的;φ i仅定义了一个距离场,我们从该距离场以不同的方式采样值。 根据定义,Pij是非负的。 需要如果在人i和j之间没有冲突,则值为0,随着人j的表面顶点距离人i的表面移动得更远而增加。理论上,Pij本身可以作为避免互渗的优化目标.然而,在实践中,我们观察到,它导致人物翻译的非常大的梯度,当存在严重冲突时导致训练不稳定性。而不是典型的术语,我们使用这个目标的一个强大的版本更具体地说,我们对于具有N个人的场景的最终互穿损失定义如下:基线模型包含在Sup.Mat中。3.3. 互穿损耗LP= ΣNj=1ΣNρi=1,i中国(3)J从单个图像进行多人相干重建的关键障碍是回归网络,其中ρ是Geman-McClure鲁棒误差函数[12]。为了避免惩罚框之间的交叉,5583图4:深度排序感知损失的图示。对于RGB图像(第一幅图像),我们考虑带注释的实例分割(第二幅图像),以及基于图像平面上估计网格的渲染的实例(第三幅图像)。 如果在人与人之间存在分歧,例如, 对于其中y(p)/=y(p)的pi ×e1,我们用有序深度损失惩罚在该pi×e1处 的 对 应 深 度 估 计 。通过针对每个像素独立地渲染深度图来估计像素深度Dy(p)(p)和像素深度Dy(p)(p)。人物网格(第四和第五图像)。这允许梯度甚至反向传播到不可见的顶点。响应于同一个人,我们仅使用分配给地面真值框的最可信框建议。3.4. 深度排序感知损失在多人三维重建中,除了互相渗透外,另一个常见的问题是人们经常被估计为不正确的深度顺序。在人在2D图像上重叠的情况下,该问题更加明显基于所述3D网格的渲染来预测所述人索引我们使用0表示背景像素。如果对于像素p,两个估计指示人(没有背景)并且不一致,即,y(p)/=y(p),则我们对该pixel的两个人的深度值y(p)和y(p)应用损失,以促进正确的深度排序。我们申请的损失是[ 8]《易经》中的“道”,与《易经》中的“道”相似更具体地说,完整的损失表达式是:飞机虽然对于人眼来说哪个个体更接近(由于遮挡)是显而易见的,但是网络预测仍然可能是不连贯的。解决这个深度排序问题LD= Σp∈S日志.1 +exp.ΣΣDy(p)(p)−Dy(p)(p)(四)如果我们能够访问像素级深度注释,其中S={p∈I:y(p)>0,y∈(p)>0,y(p)y(p)}选项。但是,这种类型的注释很少可用。这里我们的关键思想是,我们可以利用经常可用的实例分段注释,例如,在大规模COCO数据集中[32]。在图像平面上渲染所有重建人物的网格可以指示每个像素对应的人物,并基于与注释的实例注释的一致性进行优化。虽然这个想法听起来很简单,但它的实现更为复杂。一个明显的实现方式是使用可区分的渲染器,例如,神经网格渲染器(NMR)[27],并惩罚实际实例分割与将网格渲染到图像所产生的分割之间的不一致。[ 27 ]的实际问题是它只将误差反向传播到可见的网格顶点;如果存在深度排序错误,则不会促使不可见顶点向摄像机靠近。在实践中,我们观察到,这往往会使大多数人走得更远,破坏我们的训练。Liu等[33]试图解决这个问题,但我们观察到他们在深度上的softmax操作可能导致梯度消失,同时我们也面临数值不稳定性。代替仅渲染场景的语义分割,我们还使用NMR独立地渲染每个人的深度图像Di[27]。 假设场景有N个人,我们分配一个唯一的索引i ∈ {1,2,. - 是的-是的,N}给他们每个人 设y(p)为像素在地面实况分段中的位置p,并且y(p)是表示图像I的像素集,其中我们有深度排序错误(图4)。这里的关键细节是,损失被反向传播到两个人的网格(以及最终的模型参数),而不是像传统的可微分渲染器那样仅将梯度反向传播到可见的人。这促进了丢失(和更新)的更对称的性质,并且甚至最终使该丢失实用。3.5. 实现细节我 们 的 实 现 是 使 用 PyTorch 和 公 开 可 用 的mmdetection库[7]完成的我们将所有输入图像的大小调整为512x832,保持与原始COCO训练中相同的宽高比。对于基线模型,我们只使用3.2小节中指定的损失进行训练,而对于完整模型,我们在训练中包含3.3和3.4小节中提出的损失。我们的训练使用2个1080TiGPU,每个GPU的批量大小为4个图像。对于SDF计算,我们在CUDA中重新实现了[54,55]在32×32×32体素网格中对单个网格进行体素化在1080Ti GPU上需要约45 ms为了提高效率,我们执行3D边界框检查来检测重叠3D边界框,并仅对相关网格进行体素化此外,我们重新实现了部分NMR [27],以使渲染大图像更有效。这使我们能够获得超过一个数量级的加速,因为前向传递复杂度从O(Fwh)下降到O(F+5584wh)平均,其中F是面的数量,w和h分别表示图像的宽度和高度4. 实验在本节中,我们提出了我们的方法的实证评估。首先,我们描述用于训练和评估的数据集(4.1小节)。然后,我们将重点放在定量评估(第4.2和4.3小节),最后我们提出更多的定性结果(第4.4小节)。4.1. 数据集Human3.6M[21]:这是一个室内数据集,每个帧中都可以看到一个人。它为训练和评估提供3D地面实况。我们使用[26]的方案2,其中受试者S1、S5、S6、S7和S8用于培训,而受试者S9和S11用于评价。MuPoTS-3D[38]:这是一个多人数据集,为场景中的所有人提供3D地面实况。我们使用与[38]相同的方案使用该数据集进行评估。Panoptic[24]:这是一个捕获多个人的数据集方法HMR [26]Arnab等人[3]第一章我们重新开始误差56.854.352.7表1:人3.6M的结果。数值为Procrustes对线后的平均3D关节误差(mm)(方案2)。所有方法的结果都是从原始论文中获得的。方法讨价还价黑手党终极披萨是说Zanfir等人[第六十五章]140.0165.9150.7156.0153.4Zanfir等人[第六十六话]141.4152.3145.0162.5150.3我们的(基线)141.2140.3160.7156.8149.8我们的(满)129.6133.5153.0156.7143.2表2:Panoptic数据集的结果。这些数字是根关节居中后每个关节位置误差的平均值。所有方法的结果都是从原始论文中获得的。多人基线。在这种情况下,我们考虑的ap-proaches也估计姿势和形状的多个人。最相关的基线是Zan的作品在Panoptic工作室。 我们使用这个数据集进行评估,根据[65]的协议。MPI-INF-3DHP[36]:这是一个具有3D姿势地面实况的单人数据集。我们使用受试者S1至S8进行训练。PoseTrack[1]:具有2D姿势注释的野外数据集。每个序列包括多个帧。我们使用这个数据集进行训练和评估。LSP[22]、LSP Extended[23]、MPII[2]:带有2D关节注释的野外数据集。我们使用这些数据集的训练集进行训练。COCO[32]:具有2D姿势和实例分割注释的野外数据集。我们使用2D关节进行训练,就像我们在野外数据集中使用其他关节一样,而实例分割掩码用于计算深度排序感知损失。4.2. 与最新技术为了与最先进的技术进行比较,作为一种合理性检查,我们首先在一个典型的单人基线上评估我们的方法的性能我们的目标始终是多人的三维姿态和形状,但我们希望我们的方法 即使在较简单的环境中,也要实现有竞争力的结果,即,当只有一个人在图像中时。更具体地说,我们评估了我们的网络在流行的Human3.6M数据集上的性能[21]。这里最相关的方法是Kanazawa等人的HMR。[26],因为我们共享类似的架构选择(迭代回归器,回归目标),训练实践(对抗先验)和训练数据。结果示于表1中。我们的方法优于HMR,以及Arnab等人的方法。[3],使用与HMR相同的网络,但使用更多数据进行训练在确定我们的方法在单人环境中具有竞争力之后,我们继续进行评估,fir等[65,66]。我们比较了这些方法,Panoptic数据集[24,25],使用其评估协议(假设没有来自Panoptic studio的数据用于训练)。完整结果见表2。我们的初始网络(基线),训练没有我们提出的损失,实现性能与Zanfir等人以前的作品报告的结果。但更重要的是,增加两个拟议的损失(全部),提高了所有业务和整体的性能,同时我们也优于以前的基线。这些结果证明了我们的方法在多人环境中的强大性能,以及我们从这项工作中提出的损失中获得的好处。多人3D姿态估计的另一个流行基准是MuPoTS-3D数据集[36]。由于没有多人3D姿势和形状方法报告关于该基准的结果,因此我们基于用于单人3D姿势和形状的最先进方法实现两个强的自上而下基线。具体来说 , 我 们 选 择 了 回 归 方 法 HMR [26] 和 优 化 方 法SMPLify-X [42],并将它们应用于OpenPose [5]提供的检测(正如其公共reposito-ries所建议的那样)或Mask-RCNN [19](对于HMR的情况)。完整结果报告于表3中。正如我们所看到的,我们的基线模型与其他方法相比表现出色,而我们用建议的损失训练的完整模型在基线上显着改善。与前面的结果类似,这个实验进一步证明了我们的相干性损失的使用。除此之外,我们还证明了,头脑中只有一个人训练的朴素基线对于3D姿势的多人设置是次优的。这与2D情况不同,在2D情况下,单人网络在多人顶层网络中表现得特别好5585表3:MuPoTS-3D上的结果。数字是3DPCK。我们报告总体准确度(All),以及仅与预测匹配的人员注释的准确度(Matched)。方法MuPoTS-3DPoseTrack我们的基线114653我们的基线+LP34202表 4 : 互 穿 损 失 的 烧 蚀 。 结 果 显 示 了 MuPoTS-3D 和PoseTrack上的碰撞次数也可以沿管道向下,例如,[9、56、64]。然而,对于3D的情况,当涉及多个人时,使网络在训练期间意识到遮挡和相互渗透,实际上在测试时也是有益的。4.3. 消融研究对于这项工作,我们对多人3D姿态估计的兴趣超出了仅仅估计在典型3D姿态度量下准确的姿态。我们的目标也是恢复现场的连贯重建。这是重要的,因为在许多情况下,我们可以改进3D姿态度量,例如,为每个检测到的人获得更好的3D姿势,但整体上返回不连贯的结果。例如,人物的深度排序可能不正确,或者重新构建的网格可能被定位成使得它们彼此重叠为了证明我们提出的损失如何改善这些一致性度量下的网络预测,即使它们仅在训练期间应用,我们进行了两次消融研究以进行更详细的评估。首先,我们期望我们的相互渗透损失能够自然地消除我们预测中的大多数重叠的人我们在MuPoTS-3D和PoseTrack上对此进行了评估,报告了有和没有互传损失的碰撞数量。结果报告于表4。正如我们预期的那样,当我们用LP损失训练网络时,我们观察到冲突数量显着减少此外,我们的深度排序意识损失应该改善场景中的人的翻译估计。由于对于单目方法,评估度量平移估计没有意义更具体地说,我们考虑场景中的所有人对,我们评估我们的方法是否正确地预测了这对人的顺序深度关系。最后,我们报告了正确的百分比表5:深度排序感知损失的消融。 MuPoTS-3D的深度排序结果。我们考虑图像中的所有人对,并评估这些方法是否正确地恢复了两个人之间的这些数字是正确估计的顺序深度关系的百分比。表5中的估计顺序关系。正如预期的那样,深度排序感知损失在我们的基线上有所改善。在同一个表中,我们还报告了Moon等人的方法的结果。[40]这是3D骨架回归的最新技术虽然[40]是基于粒子的,因此与我们没有直接可比性,但我们要强调的是,即使是最先进的方法(在3D姿态度量评估下)仍然会受到结果不一致的影响。这提供了证据表明,我们经常可能会忽视整体重建的一致性,当我们评估结果的质量时,我们也应该考虑这方面。最后,我们强调,我们不适用于这些共同损失在测试时。相反,在训练过程中,我们的损失作为重建的约束,并最终为网络提供更好的监督,对于没有显式3D注释的图像。改进后的监督在测试时也会产生更一致的结果。4.4. 定性评价在本小节中,我们将介绍我们方法的更多定性结果在图5中,我们将基线与使用建议损失训练的完整模型进行了比较。正如预期的那样,我们的完整模型产生了更连贯的反射,就相互渗透和深度排序错误而言,在基线上有所改善。当人与人之间存在显著的尺度差异并且在图像平面上没有重叠时,可能发生错误(图6的最后一行)。更多结果可在Sup.Mat中找到。5. 总结在这项工作中,我们提出了一个端到端的方法,从一个单一的图像多人的三维姿态和形状估计。使用R-CNN框架,我们设计了一种自顶向下的方法,该方法为图像中的每个检测到的人回归SMPL模型参数。我们的主要贡献在于从一个更全面的角度来评估这个问题,并旨在估计场景的连贯重建,而不是只关注每个人的独立姿态为此,我们在我们的框架中引入了两种新的损失,它们训练网络,以使a)避免产生重叠的人类,b)鼓励人们以一致的深度排序来定位。我们在各种基准测试中评估了我们的方法,证明了传统3D方法Moon等人[第四十届]我们的基线我们的基线+LD方法所有匹配精度百分之九十点八五92.17%93.68%[42]第四十二话62.8468.04[26]第二十六话66.0970.90Mask-RCNN + HMR65.5768.57我们的(基线)66.9568.96我们的(满)69.1272.225586输入图像基线我们的图5:拟议损失的定性影响。我们的基线模型(中心)和我们的完整模型的结果与我们提出的损失(右)训练。正如预期的那样,我们在结果的一致性方面超过了我们的基线(即,更少的相互渗透,对于重建的网格更一致的图6:定性评价。我们从不同的角度来想象我们的方法的重建;正面(绿色背景)、顶部(蓝色背景)和侧面(红色背景)。更多定性结果可参见Sup.Mat。姿态度量,同时在重构场景的相干性方面在定性和定量方面也表现得明显更好在未来的工作中,我们的目标是更显式地建模人与人之间的交互(除了避免重叠),这样我们就可以在更精细的层次上实现更准确和详细的场景重建。以类似的方式,我们可以结合更多的信息来进行场景的整体重建。这可以包括地平面[65]、背景[17]或人类与之交互的对象[18,58]的约束鸣谢:NK、GP和KD感谢通过以下赠款提供的支持:NSF-IIP-1439681(I/UCRC),NSF-IIS-1703319 , NSF MRI 1626008 , ARL RCTA W911NF-10-2-0016 ,ONR N00014-17-1-2093 , ARL DCIST CRA W911NF-17-2-0181 ,DARPA-SRC C-BRIC,由本田研究所和谷歌白日梦重新搜索奖。XZ和WJ感谢国家自然科学基金(编号61806176)和中央大学基础研究基金(2019QNA5022)的支持5587引用[1] Mykhaylo Andriluka,Umar Iqbal,Eldar Insafutdinov,Leonid Pishchulin , Anton Milan , Juergen Gall , andBernt Schiele. PoseTrack:人体姿态估计和跟踪的基准。在CVPR,2018年。6[2] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新的基准和最先进的分析。CVPR,2014。6[3] Anurag Arnab,Carl Doersch,and Andrew Zisserman.利用时间背景进行野外3D人体姿态估计。在CVPR,2019年。三、六[4] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。SMPL:从单个图像自动估计3D人体姿势和形状。在ECCV,2016年。二、三[5] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。OpenPose:实时多人2D姿态估计使用部分亲和字段。PAMI,2019。6[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2D姿态估计。在CVPR,2017年。3[7] Kai Chen,Jiaqi Wang,Jiangmiao Pang,Yuhang Cao,Yu Xiong,Xiaoxiao Li,Shuyang Sun,Wansen Feng,Ziwei Liu , Jiarui Xu , Zheng Zhang , Dazhi Cheng ,Chenchen Zhu , Tian-heng Cheng , Qijie Zhao , BuyuLi,Xin Lu,Rui Zhu,Yue Wu,Jifeng Dai,JingdongWang , Jianping Shi , Wanli Ouyang , Chen ChangeLoy,and Dahua Lin.MM检测:打开mmlab检测工具箱和基准测试。arXiv预印本arXiv:1906.07155,2019。5[8] 陈伟峰,赵甫,杨大伟,邓佳。在野外的单一图像深度感知。在NIPS,2016年。三、五[9] Yilun Chen,Zhicheng Wang,Yuxiang Peng,ZhiqiangZhang,Gang Yu,and Jian Sun.用于多人位姿估计的级联金字塔网络。在CVPR,2018年。1、7[10] Rishabh Dabral、Nitesh B Gundavarapu、Rahul Mitra、Ab- hishek Sharma、Ganesh Ramakrishnan和Arjun Jain。基于单目图像的多人三维人体姿态估计在3DV,2019年。3[11] 在加布,让-塞巴斯蒂安佛朗哥,Xa vier马丁,科迪莉亚施密德和格雷戈里罗杰斯。塑造人类:基于单幅图像的非参数三维人体形状估计。在ICCV,2019年。一、二[12] 斯图尔特·杰曼和唐纳德·麦克卢尔。断层图像重建的统计方法。《国际统计研究所公报》,4:5-21,1987年。4[13] 罗斯·格希克。快速R-CNN。在ICCV,2015年。3[14] Peng Guan,Alexander Weiss,Alexandru O Balan,andMichael J Black. 从人体模型估计人体形状和姿态 一个单一的形象。ICCV,2009年。2[15] RızaAlpGüler和IasonasKokkino s. HoloPose:在野外进行Holistic在CVPR,2019年。第1、3条[16] RızaA l pGuéler,Na taliaN ev er ov a,andIasonasKokkinos.DensePose : 在 野外 进 行 密集 的 人 体姿 势 估 计。 在CVPR,2018年。3[17] MohamedHassan , VasileiosChoutas , DimitriosTzionas,and Michael J Black.解决具有3D场景约束的3D人体姿势模糊性。在ICCV,2019年。三、四、八5588[18] Yana Hasson 、 Gul Varol 、 Dimitrios Tzionas 、 IgorKale-vatykh、Michael J Black、Ivan Laptev和CordeliaSchmid。学习手和操作对象的关节重建。在CVPR,2019年。三、八[19] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面罩R-CNN。InICCV,2017. 二三四六[20] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。4[21] Catalin Ionescu , Dragos Papava , Vlad Olaru , andCristian Sminchisescu. Human3.6M:大规模数据集和预测方法,用于自然环境中的3D人体感知PAMI,36(7):1325-1339,2013. 6[22] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。在BMVC,2010年。6[23] 山姆·约翰逊和马克·埃弗林汉姆从不准确的注释中学习有效的人体姿态估计。CVPR,2011。6[24] Hanbyul Joo 、 Hao Liu 、 Lei Tan 、 Lin Gui 、 BartNabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio:用于社交运动捕捉的大规模多视图系统。在ICCV,2015年。6[25] Hanbyul Joo、Tomas Simon、Xulong Li、Hao Liu、LeiTan、Lin Gui、Sean Banerjee、Timothy Godisart、BartNabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio:一种用于社 交 互 动 捕 捉 的 大 规 模 多 视 图 系 统 。 PAMI , 41(1):190-204,2017. 6[26] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik 。 端 到 端 恢 复 人 体 形 状 和 姿 势 。 在CVPR,2018年。一三四六七[27] Hiroharu Kato 、 Yoshitaka Ushiku 和 Tatsuya Harada 。Neu- ral 3D
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功