单目回归：基于鸟瞰图有效推理多个3D人的单眼重建方法

138 浏览量更新于2023-10-25 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13243把人放在他们的位置：3D人物深度的单目回归孙宇1* 刘武2<$钱宝2傅伊利1 <$陶梅2Michael J. 黑色31哈尔滨工业大学，哈尔滨，中国2探索研究院JD.com，北京，中国3德国图宾根马克斯·普朗克智能系统研究所yusun@stu.hit.edu.cn，www.example.com，liuwu1@jd.combaoqian@jd.com，meylfu@hit.edu.cntmei@jd.com，black@tuebingen.mpg.de图1. 具有连贯深度推理的多个3D人的单眼重建。我们引入BEV，这是一种单目单阶段方法，具有有效的新“鸟瞰图”表示，使网络能够明确地在3D中推理人。摘要给定一个有多个人的图像，我们的目标是直接回归所有人的姿势和形状以及他们的相对深度。然而，在不知道一个人的身高的情况下，推断他在图像中的深度从根本上是模糊的当场景包含非常不同尺寸的人时，这是特别成问题的，例如从婴儿到成人。为了解决这个问题，我们需要几件事。首先，我们开发了一种新的方法来推断姿势和深度在一张图片中的多个人。虽然以前的工作，估计多个人这样做的推理在图像平面，我们的方法，称为BEV，增加了一个额外的想象鸟瞰图表示，以明确的原因有关的深度。BEV原因同时关于身体在图像和深度中的中心，并且通过组合这些，估计3D身体位置。与先前的工作不同，BEV是端到端可微分的单次方法。其次，身高随年龄而变化，使得在不估计图像中的人的年龄的情况下不可能为了做到这一点，我们利用了一个3D身体模型空间，让BEV推断从婴儿到成人的形状第三，为了训练BEV，我们需要一个新的数据集。具体来说，我们创建了一个“相对人类”（RH）数据集，其中包括图像中的人之间的年龄标签和相对深度关系。在RH和AGORA上的大量实验证明了模型和训练方案的有效性。BEV在深度推理、子形状估计和对遮挡的鲁棒性方面优于现有方法。代码1和数据集2是出于研究目的发布的。*这项工作是在孙宇在探索学院京东的†通讯作者。1https://github.com/Arthur151/ROMP2https://github.com/Arthur151/Relative_Human132441. 介绍在这篇文章中，我们专注于同时估计RGB图像中所有人的3D姿势和形状以及他们的相对深度。在回归单个（裁剪）人的3D姿势和形状方面也取得了快速进展[22][4，15，16，18，19，26，29，35，44，45，47，49]作为组的直接回归[11，34]。这两类方法都没有明确地推理人的深度在场景中。这种深度推理对于更深入地理解场景和其中的多人交互至关重要。为了解决这个问题，我们提出了一种统一的方法，联合回归多个人和他们的相对深度关系在一个镜头从RGB图像。虽然以前的多人方法在受约束的实验环境中表现良好，但它们难以应对严重的遮挡、不同的身体大小和外观、单眼深度的模糊性以及野外情况[11，25，38，48]。这些挑战导致在拥挤场景中的不令人满意的性能，包括检测失误、对重叠的人的相似预测以及具有相似高度的所有预测。我们观察到导致这些失败的两个相互关联的限制首先，回归网络的架构与2D图像密切相关，而人们实际上居住在3D空间中。我们用一个新的架构来解决这个问题，这个架构可以在3D中进行推理。其次，由于图像中人的高度未知，深度估计从根本上是模糊的，并且难以获得具有地面真实高度和深度的图像的训练为了解决这个问题，我们提出了一个新的数据集和新的损失，允许在没有度量深度的情况下进行训练。我们观察到，拥挤的场景包含了丰富的信息，人与人之间的相对关系，这可以被利用的训练和验证的深度reasoning。然而，我们仍然缺乏一个强有力的代表性，从这些情况下学习。已经提出了一些基于学习的方法来推理预测的身体网格的深度[11]或3D姿势[25，38，48]。不幸的是，他们都通过2D表示来推理深度，例如RoI对齐的特征[11，25]或2D深度图[38，48]。这些基于回归的2D表示对于表示3D世界具有固有的缺点。网络中缺乏明确的3D表示使得这些方法难以处理人在不同深度重叠的拥挤场景。因此，我们认为，一个明确的3D表示是必要的。为了实现这一目标，我们开发了BEV（鸟瞰图），这是一种统一的单目重建和多个我们从ROMP [34]中获得灵感，ROMP是一种单阶段、多人回归方法，可直接估计多个2D正视图，用于2D人体检测、定位和网格参数回归，而无需深度推理。使用ROMP，网络只能推理人在网络中的2D位置。图像平面。为了超越这一点，我们还需要使网络能够有效地推理深度。为此，我们引入了一个新的假想的2D需要明确的是，BEV只拍摄一张2D图像;俯视图是推断的，而不是观察的。BEV使用强大而高效的定位管道，并行执行基于鸟瞰视图的粗检测和细定位。我们采用2D热图从正面（图像）和鸟瞰图进行粗略检测BEV将这些热图组合起来以获得3D热图，如图所示。二、通过同时学习正面和鸟瞰图，BEV明确地模拟了这使得BEV能够从可用的2D和3D注释中学习BEV还使用新的3D偏移图来细化初始粗略检测。从这些粗略和精细的地图中，我们获得场景中所有人的3D平移BEV将这些预测从潜在的3D中心地图空间转换为显式的以相机为中心的3D空间。给定这些3D平移预测，BEV从预测的网格特征图中采样所有人的特征，并回归最终的SMPL [23]参数。区分不同深度的人使BEV能够估计多个人，即使有严重的闭塞，如图所示。1.一、即使有一个强大的3D表示，我们也需要一个适当的训练方案来确保泛化。主要原因是在不知道物体高度的情况下，我们缺乏有效的约束来减轻透视投影下特别是，身高随年龄而变化，这使得在不估计图像中人的年龄的情况下无法解析深度这种模糊性导致对儿童和婴儿的不正确的深度估计，限制了现有方法的推广。不幸的是，现有的多人3D数据集在身高和年龄方面的多样性有限，因此无法用于改进或评估泛化。由于在野外收集地面实况3D数据很困难，因此我们使用野外图像的具有成本效益的弱标签来训练BEV。具体来说，我们收集了一个名为“相对人类”（RH）的数据集此外，我们提出了一个弱监督训练计划（WST），以有效地学习这些弱监督信号。例如，我们使用分段损失函数，该函数利用深度层来惩罚不正确的相对深度顺序。利用年龄信息来限制身高是很棘手的。虽然年龄和身高是相关的，但同一年龄组的身高可能会因此，我们开发了一个模糊兼容的混合损失函数，该函数鼓励身体形状的高度在每个年龄组的适当范围内。我们在三个多人数据集上评估BEV13245野生使用2D RH数据集和3D使用真正的CMU Panoptic[13]和合成AGORA [28]数据集。在RH上，与以前的方法[11，25，38，48]相比，BEV在相对深度推理和姿态估计方面更准确。在CMU Panoptic上，BEV在3D姿态估计方面优于先前的方法[6，11，34，42，43]。在AGORA上，BEV显著改善了检测，并在网格重建误差方面实现了“AGORA kids”的最新结果此外，以弱监督方式微调RH显著改善了所有年龄组的结果，特别是年轻人。本文的主要贡献是：（1）通过将前视表示与假想鸟瞰图相结合，构造了一种三维表示方法，以减轻单目深度模糊(2)我们收集了具有弱注释的相对人类数据集，这有利于在多人场景中训练和评估单目深度推理。 (3)我们开发弱监督训练方案，用于从弱深度注释中学习并利用年龄信息。2. 相关工作从自然场景的单目3D网格回归。在这里，我们专注于使用SMPL等参数模型从单个RGB图像回归3D人体网格大多数方法可分为多阶段或单阶段方法。对于一般的多人情况，大多数现有方法[4，15，19，26，29]都是基于典型的两阶段框架，首先检测人，然后分别估计每个人的参数。最近的方法集中在探索各种监督[33]信号，如时间相干性[16]，轮廓对齐[7，31，39]，自适应，接触[27]、地面约束[32，40]或全球人类轨迹[41]，以增强几何/动态一致性。然而，对于场景中所有人的深度推理，这些多阶段方法并不理想。对单个裁剪人物的处理不能利用场景上下文或关于深度排序的原因。一些单阶段方法[24，34]同时估计多个3D人。给定单个图像，ROMP [34]分别输出2D人体中心热图、相机图和参数图，用于2D人体检测、定位和网格参数回归。在从2D身体中心热图解析的位置处，ROMP从相机和参数图采样最终网格参数。这些一阶段方法享有图像的整体视图然而，它们是基于二维表示的，并不代表深度。像大多数方法一样，它们对成年人（使用SMPL）进行建模，对成年人的图像进行训练，因此只能预测成年人。为了解决其2D表示和年龄偏见的局限性，我们提出了BEV及其学习约束身高的年龄先验的训练方案。单目深度推理。大多数先前的方法通过后处理将主体深入放置。由于他们基于2D的管道和缺乏不同年龄组的身高先验，他们的结果并不令人满意。一些基于学习的方法，如3DMPPE [25]和CRMH [11]，解决了多阶段深度推理。3DMPPE使用图像特征来细化基于边界框的深度预测。CRMH从实例分割中学习，以区分重叠人群之间的然而，实例分割是昂贵的，并且不能促进在没有重叠的情况下的深度关系SMAP [48]和HMOR [38]采用2D深度图来表示每个像素处的3D姿态的根深度。然而，在拥挤的场景中，这些2D表示是模糊的。与此相反，BEV采用了一种新颖的基于鸟瞰最近，Ugrinovic et al.[36]提出了一种基于优化的方法来细化估计的人体网格的3D平移它们将3D人体网格拟合到检测到的2D姿势，并迫使脚接触地面。相比之下，我们基于学习的一阶段框架更高效、更灵活，可以适应更多场景，比如跳跃。Albiero等人 [2]通过回归他们的6DoF姿势，在一个镜头中估计人群中所有面部的深度;它们不处理形状变化或接合。3. 方法3.1. 概述总体框架如图所示。二、BEV采用多头架构。给定单个RGB图像作为输入，BEV输出5个图。对于从粗到精的局部化，我们使用前4个图，它们是前视图和鸟瞰图中的身体中心热图和局部化偏移图。我们首先在深度/高度上扩展前视图/鸟瞰图，然后将它们组合以生成3D中心/偏移图。对于粗检测，我们从3D中心图中提取人的粗略3D位置。对于精细定位，我们在相应的3D中心位置处对来自3D偏移图的偏移矢量进行添加这些给出3D平移预测。对于3D网格参数回归，我们使用估计的3D平移（xi，yi，di）和网格特征图。3D平移的深度值di被映射到深度编码。在（xi，yi）处，我们从网格特征图中采样特征向量，并将其添加到深度编码以用于最终参数回归。最后，我们使用SMPL+A模型将估计的参数转换为体网格。3.2. SMPL+A：适用于所有年龄段的SMPL [23]和SMIL [9]模型被开发用于将成人和婴儿的3D身体网格参数化为13246∈∈∈∈J∈J·∈···图2.概况.给定RGB图像，BEV首先通过合成前视图和鸟瞰图预测来估计场景中所有人的3D平移。然后在三维平移的指导下，我们对每个人的网格特征进行采样，以回归其年龄感知SMPL+A参数。参见第3.1详情低维参数最近，AGORA [28]进一步扩展了SMPL，通过线性混合SMIL和SMPL模板形状与权重来支持儿童α[0，1]，我们称之为“年龄偏移”。在混合模板以解决成人和儿童之间的比例和比例差异的同时，AGORA使用成人形状空间而不考虑年龄。此外，AGORA没有解决婴儿的代表性问题。我们做了一个很小但很重要的改变，以更好地支持所有年龄段的人。遵循SMPL [23]的符号，SMPL+A模型定义分段函数B=M（θ，β，α），其将3D姿态θ、形状β和年龄α映射到3D人体网格BR6890×3。姿态参数θθR6×22，corr-响应SMPL的前22个身体关节的6D旋转[50]。形状参数βεR10是SMPL性别中性形状空间或SMPL性别中性形状空间的前10个PCA系数。或者SMIL形状空间。AGORA的成人形状空间产生的形状变形对于婴儿身体来说太大，导致在摆姿势时网格变形。因此，当年龄偏移α高于阈值tα时，我们对婴儿使用SMIL。当α> tα ， M （ θ<$ ， β<$ ， α ）是 SMIL 模型 MI（θ<$，β<$）。当年龄偏移量α≤tα时，我们使用AGORA公式图3.带有弱注释的相对人类（RH）数据集的示例图像：深度层（DL）和年龄组分类。例子是a）不同DL的成年人，和b）相同DL的不同年龄组的人。SMIL templateTI.α越大，网格模板高度越低输出网格的3D关节J通过以下公式来定义：其中RK×6890是一个稀疏权重矩阵，它将顶点B线性映射到K个身体关节。为了监督具有2D关键点的3D关节J，回归方法[15，34]通常采用弱透视相机模型将J投影到图像平面中。为了更好地进行深度推理，我们使用透视相机模型来执行投影;参见Sup。Mat. 了解我们相机型号的详细信息M（θ，β，α）=W（TA（θ，β，α;T，TI），J（β），θ，W），TA（·）=（1−α）T+αTI+BS（β）+BP（θ），（一）3.3. 相对人类数据集现有的野外数据集缺乏具有注释的重叠人群。自从获取了其中W（·）使用权重W执行线性混合蒙皮，以将T-姿态网格TA（·）转换为基于S-姿态关节J（·）的目标姿态θ。T- 定位网格TA（）是模板（T，TI）的加权和，形状依赖变形BS（）和姿态依赖变形BP（）。年龄偏移α[0，1]用于在成人SMPL模板T和婴儿SMPL模板T之间进行内插。大量的人群是具有挑战性的，我们利用更具成本效益的弱注释。我们收集了一个新的数据集，名为相对人类（RH），以支持在野外单目人类深度推理。这些图像从多个来源收集，以确保年龄，种族，性别和场景的多样性。大多数图像是从现有的2D姿态数据集收集的[20，21，46]。13247C∈∈O∈图4.预定义的3D相机锚点贴图。他们包含很少的婴儿，所以我们收集额外的开源家庭照片从Pexels [1]，然后注释他们的二维姿势。如图3、对图像中所有人之间的相对深度关系进行标注我们处理深度差小于一个体宽（γ=0. 3米）的人在同一层。然后，我们将所有人分类到不同的深度层（DL）。与先前的工作不同，它标记了个体关节对之间的顺序关系[5]，DL捕获了多个人的深度顺序。此外，我们将人们分为四个年龄类别：成人、青少年、儿童和婴儿。我们总共收集了大约7.6K的图像，其中弱注释超过24.8K人。超过21%的受试者是年轻人（5.3K），包括青少年，儿童和婴儿。更多分析请参考Sup。Mat.3.4. 表示图2给出了BEV表示的概述热图：我们建立在来自ROMP的身体中心热图表示上[34]。大小为R1×H×W的前视图热图与像素空间对齐，并使用高斯内核表示身体以2D位置为中心的可能性。我们超越ROMP来添加大小为R1×D×W的第二个2D热图，其表示不可见的鸟瞰该热图表示个人在某个深度点处的可能性;然而，该图并不表示度量深度。BEV将这两个图组合并细化为3D热图，M3DR1×D×H×W，其用3D高斯核表示检测到的人体中心的3D位置map用作映射函数，以将3D中心图的坐标转换为预定义的透视相机空间中的3D位置。建立一个从正方形中心地图到金字塔形摄像机空间的一对一映射，如图所示。4、我们对相机空间进行体素化。每个体素中心对应于中心图中的离散化3D坐标。体素中心的3D位置向量（x，y，d）是3D相机锚点图的锚点值。相等深度的体素形成深度平面，对应于3D相机锚点图的2D（x-y）切片。在推理过程中，在3D中心图的相同坐标处对3D相机锚点图进行采样，以获得对应检测的粗略3D平移。网格特征图：MFR128×H×W在每个2D位置包含128- D网格特征向量。这些特征在像素级与输入2D图像对齐在基于3D中心的采样过程之后，相关特征用于SMPL+A参数的回归。3.5. Bev为了有效地建立三维表示，前视图和鸟瞰独立地估计两个平行视图的地图将不可避免地导致未对准，从而导致基于3D热图的检测失败。为了连接这两个视图，我们估计以正视图为条件的鸟瞰图（即，中心和偏移贴图）。具体地，为了估计鸟瞰图，我们将前视图图和主干特征图的前视图2D以身体为中心的热图被用作对图像中的人的鲁棒关注的形式，这有助于模型在鸟瞰视图估计期间专注于探索深度然后，我们扩展并合成来自前视图和BEV视图的2D图以生成3D图。为了整合来自两个视图的2D特征并增强3D一致性，我们进一步对合成的3D图执行3D卷积以进行细化。接下来，我们从估计的3D地图中提取3D平移，M3D，M3D.高置信度3D位置C O偏移映射：离散化的中心热图粗略地定位了身体，但我们希望网络产生更精确的估计。为了提高3D局部化的粒度，我们使用额外的地图，在每个位置上，添加估计的偏移矢量来细化粗检测。尺寸为R3×H×W的前视图偏移贴图包含 3D 偏移矢量。鸟瞰图的M3DR3×D×H×W 对应于3D中心贴图并且在每个3D位置处包含3D偏移矢量。3D相机锚点图：3D中心图中的每个离散坐标对应于一组相机参数，表示其在世界中的3D位置。锚3D中心贴图是我们从3D偏移贴图中采样3D偏移矢量的地方。从3D相机锚点地图中的相同3D位置（图4），我们得到了三维锚值，它是对应的三维中心体素在相机空间中的位置。将3D偏移向量添加到3D锚值，得到3D平移作为输出。最后，我们将估计的3D平移（xi，yi，di）和网格特征映射MF用于参数回归。我们在M F的（xi，yi）处对像素级网格特征向量进行采样。受位置嵌入的启发[37]，我们学习了一个嵌入空间来区分不同深度的人，特别是对于重叠的情况。预测的深度值di经由编码向量映射到128-dim编码向量。13248LLLLLQ−ijijijLLL−L负值为0。H是用来判断L（α−αkg）2，否则。ulmu···嵌入层我们总结了深度编码和网格特征向量，以区分不同深度的人的特征，从而实现对不同主题的个体估计。然后我们估计SMPL+A参数，ters（θ，β，α）通过一个全连通块。输出体网格由M（θ_∞，β_∞，α）得到。3.6. 损失函数我们的损失函数分为两组，如图所示。2：相对损耗（金色）和标准网孔损耗（黑色）。BEV由所有损失项目的加权和监督首先，我们引入了两个弱监督训练（WST）的相对损失分段深度层损失深度。深度被设计为通过对象i、j的深度层ri、rj来监督对象i、j的预测深度di、dj，(di−dj)2,ri=rj其他损失。按照以前的方法[15，34]，我们采用标准网格损失来监督输出图和回归SMPL+A参数。cm是前视图身体中心热图的焦点损失[34在相同的模式中，我们进一步使用3D焦点损失Lcm3D通过将LcmLpm由三部分组成，Lθ、Lβ和Lp rio r 。 Lθ和Lβ分别是SMPL+A姿态θ和形状β参数相对于轴向的L2损失。 Lprior是θ r上的高斯姿势先验混合[4，23]。为了监督3D身体关节J，我们使用Lj3d，它由Lmpj和pmpj。mpj是3D关节J的L2损失。为了减轻训练数据集之间的域间隙，我们遵循 [34 ， 35] 来计算在Procrustes与地面实况对齐之后预测的3D关节的L2损失Lpmpj。Lpj2 d是3D关节J的2D投影的L2损失。最后，W（. ）表示这些损失的相应权重log（1+edi−dj）（（dd）γ（r r）），rrlog（1+edj−di）Q（γ（ri−rj）−（di−dj）），ri>rj，（二）4. 实验4.1. 实现细节其中，Q是关于映射的二值化函数培训详情。对于基本训练，我们使用两个3D姿势数据集（Human3.6M [10]和MuCo-3DHP [24]）和四个BEV预测与深度关系一致地面实况DL。如果预测的深度差在可接受的范围内，则深度为0;也就是说，大于DL差和体宽γ的乘积。另一方面，深度将鼓励模型实现它.先前的顺序深度损失[5，30]鼓励模型尽可能扩大不同深度层的人之间的深度差异。相比之下，L深度的惩罚被控制在一定范围内。这有助于2D姿势数据集（COCO [21]，MPII [3]，LSP [12]和CrowdPose [20]）。我们还使用伪SMPL注释[14]和WST对RH。RH中的大多数样本是从2D姿势数据集收集的[20，21，46]。为了公平比较，我们只使用在比较方法中也用于训练的样本[11，18，19，25，34 ，48] 。与[18 ，28] 相比，我们进一步微调了AGORA上的模型和ROMP年龄偏移的阈值被设置为t = 0。8. 年龄偏移范围（αk，αk，αk）避免把遥远的物体推得太远。αlm u模糊兼容的年龄损失年龄。年龄类别（婴儿、儿童、青少年、成人）的分类本质上是模糊的，特别是对于青少年和儿童。此外，虽然身高与年龄相关，但人们很容易找到比一些成年人高的孩子。因此，我们制定了一个模糊兼容的混合损失年龄。我们不是直接监控身高，而是监控控制SMIL婴儿身体和SMPL成人身体之间融合的α参数。为此，我们定义了每个年龄组的α值范围;即（下限、中间、上限）。我们使用每个年龄段的身高统计数据来进行计算，然后将这些数据与α值的范围相关联。形式上，范围是（αk，αk，αk），k=1 4，其中k是注释的年龄类数;见第4了解详情。然后，BEV被训练来预测每个人的体型以及α值。给定预测的α和真实年龄类别kg，损失L年龄定义为：.0，αkgα≤αkg年龄M是：成人（0. 0500 15），青少年（0. 15，0。3，0。45），儿童（0. 45，0。6，0。75），和婴儿（0. 75，0。9，1）。参见Sup。Mat.的双曲余切值。评价基准。我们在三个多人数据集 RH ， CMUPanoptic [13]和AGORA [28]上评估BEV，其中包含257个儿童扫描和显著的人-人遮挡。评价矩阵。为了评估深度推理的准确性，我们采用正确深度关系的百分比（PCDR0。2），并将等深度的阈值设置为0。2m.为了评估RH上投影的2D姿态的准确性，我们还报告了正确关键点的平均百分比（mPCK0.6）、将匹配阈值设置为0。头部长度的6此外，根据AGORA [28]，我们在考虑错过检测的同时评估了3D姿态/网格估计的准确性。为了评估检测准确率，我们报告了精确度，召回率和F1评分。对于匹配的检测，我们报告平均每关节位置误差（MPJPE）和平均顶点误差（MVE）。惩罚错过和虚假报警检测，我们规范化的MPJPE和MVE，L（α）=（三）13249HLLLL赞菲尔等al. [四十三]141.4152.3145.0162.5150.3MSC [42]140.0165.9150.7156.0153.4CRMH [11]129.6133.5153.0156.7143.2ROMP [34]110.8122.8141.6137.6128.23DCrowdNet [6]109.6135.9129.8135.6127.3Bev90.7103.7113.1125.2109.5表1. 相对深度关系的精度（PCDR 0. 2）和投影2D姿态（mPCK 0.（6）RH。†使用地面实况边界框。表2.与MPJPE中CMU Panoptic结果来自原始文件。方法Kid子集全套检测↑匹配↓全部↓检测↑匹配↓全部↓F1分数精准召回MVE MPJPENMVE NMJEF1分数精准召回MVE MPJPENMVE NMJE价格调整汇率[17]0.550.440.74186.4193.9338.9352.50.840.960.75140.9146.2167.7174.0[28]第二十八话0.310.210.60186.7191.7602.3618.40.770.910.67148.9153.4193.4199.2规格[18]0.520.400.73163.2171.0313.8328.80.840.960.74106.5112.3126.8133.7ROMP [34]0.500.370.80156.6159.8313.2319.60.910.950.88103.4108.1113.6118.8BEV（不带WST）0.580.440.86146.0148.3251.7255.70.930.960.90105.6109.7113.5118.0Bev0.550.410.85125.9129.1228.9234.70.930.960.90100.7105.3108.3113.2表3.SOTA方法在AGORA测试集上的比较所有方法都在AGORA训练集或合成数据上进行微调[18]，生成方式与AGORA相同我们使用公共实现微调ROMP [34];结果来自AGORA排行榜。F1评分，以获得归一化平均联合误差（NMJE）和归一化平均顶点误差（NMVE）。4.2. 与最先进方法的单目深度推理。我们首先在Tab中评估BEV1使用RH数据集。选项卡中的结果。1是使用比较方法的官方实现获得的。BEV使用与[34]相同的训练样本来执行WST。我们首先比较了最具竞争力的方法[11，25，48]，这些方法解决了单目图像中的深度关系。我们还与ROMP [34]进行了比较，用于一期多人补片恢复。它们的3D平移结果是通过求解它们的3D姿态和投影的2D姿态预测之间的Pestrian算法（RANSAC [8]）获得的如Tab.所示。1，BEV在深度推理和投影的2D姿态的准确性方面都大大优于所有这些方法。单目检测和网格回归。我们还在AGORA和CMUPanpotic上运行 BEV，以评估检测和3D网格精度。我们比较了最先进的（SOTA）多阶段方法[6，11，17，18，28，42，43]和一阶段ROMP [34]。在回忆中 3、BEV比SOTA方法的检测精度高5. 2%和2. F1分数为2%孩子和完整的子集，分别。这证明了3D表示有助于减轻拥挤场景中的深度模糊性。在kid子集上，BEV在网格重建方面明显优于以前的方法特别是，与ROMP [34]相比，BEV降低了错误超过196%和26. 9%，表明BEV有效地减少了使用WST的年龄偏差。如Tab中所示。2，在CMU Panpotic上，BEV将3D姿态误差显著降低了13。9%，与多人SOTA方法相比。对于定性结果，见图。1和图五、4.3. 消融研究不带为了进一步测试BEV的3D表示的有效性在选项卡中的RH 1，与CRMH [11]相比，BEV w/o WST的深度推理准确率高4.1%（PCDR0. 2所有）。BEV w/oWST优于基于2D表示的网络ROMP [34]。这些结果表明，我们的3D表示处理单眼深度模糊的有效性。在AGORA上，如Tab.3，BEV w/o WST在所有检测度量中显著优于ROMP。此外，3D表示的强大检测能力使BEV w/o WST在NMVE和NMJE方面优于SOTA方法[18，28，34]弱监督训练（WST）损失，深度和年龄。选项卡中的结果。1表明，执行WST显着提高了深度推理的准确性，特别是对年轻群体。所以，Tab。1表明，分别使用深度或年龄使BEV产生比BEV w/o WST更好的深度推理，并且，当使用两个术语时，BEV表现最好。方法PCDR 0. 2（%）↑mPCK 0.6↑H婴儿孩子青少年成人所有方法哈格尔黑手党终极披萨是说3DMPPE† [25]39.3351.4260.9157.9557.47-CRMH [11]34.7448.3759.1155.4754.830.781SMAP [48]31.5840.2947.3541.6541.55-ROMP [34]30.0848.4151.1255.3454.810.866BEV（不带WST）34.2750.8154.3457.4357.170.850BEV（无L深度）BEVw/oLageBEV43.6149.0960.7751.5556.5567.0950.8860.9266.0757.2762.4769.7155.9761.4768.270.7940.8100.88413250LLL方法Dist. ↓X↓Y↓深度↓有序损失[38] 0.608 0.153 0.184 0.509分段L深度（我们的）0.518 0.128 0.166 0.423图5.AGORA、RH和互联网图像的定性结果[1]。注意儿童和成人是如何正确地放置在深度。方法相对人AgoraPCDR 0. 2mPCK 0. 6HF1NMVENMJEBev68.270.8840.93108.3113.2无FVC67.990.8800.89118.9123.0不含OM60.760.6200.87126.6130.7表4. RH和AGORA上正视图条件（FVC）和3D偏移图（OM）的消融研究。表5. AGORA验证集上的3D平移错误，具有不同的深度损失。用于3D定位的3D偏移标测图（OM）和前视图条件。FVC将前视图2D以身体为中心的热图作为鲁棒的注意力信号，以在鸟瞰视图估计期间探索检测到的人的深度选项卡中的结果4验证了OM和FVC显著改善了3D定位的粒度。逐段深度层损失深度与深度损失[38]。与有序深度损失不同，深度使惩罚保持在合理的范围内（见第二节）。3.6）。如Tab.所示。5、在AGORA验证集上，深度训练减少了3D翻译误差，尤其是深度训练。5. 结论、局限性、伦理、风险在本文中，我们介绍了BEV，一个统一的单目回归和深度推理的多个三维人的一个阶段的方法。通过引入一种新的鸟瞰利用身高和深度之间的相关性，BEV通过利用相对深度关系和年龄组分类从复杂的野外场景中学习深度推理。我们提供了一个野外数据集来促进训练-在野外进行单目深度推理的测试和评估。消融研究指出了网络中3D表示和细粒度定位的价值、我们训练方案的重要性以及收集数据集的价值。BEV是探索3D世界中复杂的多人关系的初步尝试，我们希望该框架将成为未来进展的简单而有效的基础。局限性。虽然BEV超越了当前的方法以覆盖更多样化的年龄，但其未被训练以捕获不同的体重、性别、种族等。BEV还假定恒定焦距。然而，我们的标记方法表明，弱标记可以产生强结果;即改进的度量精度。请注意，BEV没有经过训练或设计来处理大量的100道德和数据。我们从一个免费的照片网站[1]收集了RH图像，该网站遵循允许共享的知识共享许可协议。我们努力拥有一个在年龄、种族和性别上多样化的数据集。此外，我们的弱注释不包含任何个人信息，注释者本身是匿名的，没有被研究。潜在的负面社会影响。用于单目3D姿态和形状估计的方法可能用于自动监视、跟踪和行为分析，这可能侵犯人们为了帮助防止这种情况，BEV仅用于研究。鸣谢：本课题得到了国家重大科技攻关项目“重大&科技攻关项目”的资助。2020AAA0103800。披露：MJB已收到Adobe，Intel，Nvidia，Facebook和Amazon 的研究资金，并在 Amazon ， DatagenTechnologies和Meshca- pade GmbH拥有经济利益。在这个项目期间，他在亚马逊兼职，他的研究完全在马克斯普朗克进行。13251引用[1] Pexels https://www.pexels.com网站。五、八[2] Vitor Albiero，Xingyu Chen，Xi Yin，Guan Pang，andTal Hassner. img2pose：通过6dof进行人脸对齐和检测，人脸姿态估计。在CVPR中，第7617-7627页，2021年。3[3] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。CVPR，第3686-3693页，2014。6[4] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。SMPL：从单个图像自动估计3D人体姿势和形状。ECCV，第561-578页，2016年。二、三、六[5] 陈伟峰，赵甫，杨大伟，邓佳。在野外的单一图像深度感知。在NeurIPS，第730- 738页，2016年。五、六[6] 崔洪锡，文景植，朴俊奎，李启武.从拥挤的野外场景中学习估计健壮的三维人体网格。在CVPR，2022年。三、七[7] Sai Kumar Dwivedi，Nikos Athanasiou，Muslimed Ko-cabas，and Michael J.黑色. 学习使用微分语义渲染从图像中回归身体在ICCV中，第11250-11259页，2021年。3[8] Martin A Fischler和Robert C Bolles。随机样本一致性：一个范例模型拟合与应用程序的图像分析和自动制图。Communications of the ACM，24（6）：381-395，1981.7[9] Nikolas Hesse，Sergi Pujades，Javier Romero，Michael JBlack，Christoph Bodensteiner，Michael Arens，UlrichG Hofmann，Uta Tacke，Mijna Hadders-Algra，RaphaelWein-berger，et al.从rgb-d数据中学习婴儿身体模型以进行精确的全身运动分析。在MICCAI，第792-800页，2018年。3[10] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6M：大规模数据集和预测方法，用于自然环境中的3D人体感知TPAMI，36（7）：1325-1339，2013. 6[11] Wen Jiang ， Nikos Kolotouros ， Georgios Pavlakos ，Xiaowei Zhou，and Kostas Daniilidis.从单个图像相干重建多个人在CVPR中，第5579二三六七[12] 山姆·约翰逊和马克·埃弗林汉姆从不准确的注释中学习有效的人体姿态估计。在CVPR，第1465-1472页，2011年。6[13] Hanbyul Joo 、 Hao Liu 、 Lei Tan 、 Lin Gui 、 BartNabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio：用于社交运动捕捉的大规模多视图系统。在ICCV，第3334-3342页，2015年。三、六[14] Hanbyul Joo，Natalia Neverova，and Andrea Vedaldi.针对3D人体姿势拟合的示例性微调朝向在ECCV，2020年。6[15] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在CVPR中，第7122-7131页，2018年。二三四六13252[16] Muhammed Kocabas 、 Nikos Athanasiou 和 Michael JBlack。VIBE：人体姿势和形状估计的视频推理。在CVPR中，第5253-5263页，2020年。二、三[17] Muhammed Kocabas ， Chun-Hao P Huang ， OtmarHilliges，and Michael J Black. PARE：用于3D人体估计的部分注意力回归器。在ICCV中，第11127-11137页，2021年。7[18] 放大图片作者： Muhammed Kocabas ， Chun-Hao P.Huang ， Joachim Tesch ， LeaMüller ， OtmarHilliges ，andMichaelJ. 黑色 . 规格：用估计的相机在野外看到人。在ICCV中，第11035

下载后可阅读完整内容，剩余1页未读，立即下载