COCO-MEBOW：单眼在野外的身体方向估计

30 浏览量更新于2023-10-25 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3451√MEBOW：在野外吴晨燕1，2陈玉坤1罗佳佳2苏哲春2阿努贾·达瓦内2比克拉姆约特·汉兹拉2邓卓2刘碧兰2詹姆斯·Z.王1郭正浩21宾夕法尼亚州立大学大学园区2亚马逊实验室126{czw390，yzc147，jwang}@ psu.edu{lujiajia，ccsu，adawane，hanzrabh，zhuod，liubila，chkuo}@ amazon.com摘要身体方向估计在许多应用中提供了关键的视觉当3-D姿态估计由于图像分辨率差、遮挡或不可区分的身体部位而难以推断时，我们提出了COCO-MEBOW（MonocularEstimationofBodyOorientationintheWild），这是一个新的大规模数据集，用于从单个野外图像中进行方向估计。使用高效且高精度的注释流水线，从COCO数据集的55K图像中收集了约130K人体的身体方向标签我们还验证了数据集的好处。首先，我们证明了我们的数据集可以大大提高人体方向估计模型的性能和鲁棒性，该模型的发展以前受到可用训练数据的规模和多样性的限制。此外，我们提出了一种新的三源解决方案的三维人体2500020000150001000050000（一）（b）第（1）款姿势估计，其中3-D姿势标签，2-D姿势标签和我们的身体方向标签都用于联合训练-ing.我们的模型显着优于最先进的双源解决方案的单眼3-D人体姿态估计，其中训练只使用3-D姿势标签和2-D姿势标签。这证实了MEBOW用于3-D人体姿态估计的重要优势，这是特别有吸引力的，因为身体取向的每个实例标记成本远低于3-D姿态。这项工作证明了MEBOW在解决涉及理解人类行为的现实世界挑战方面的巨大潜力。关于这项工作的进一步信息可在https://chenyanwu.github.io/MEBOW/ 上查阅。1. 介绍人体方向估计（HBOE）的目的是为了这项工作主要是在Chenyan Wu在Ama-zon Lab 126实习时完成的图1.MEBOW数据集概述（a）分发数据集和示例中的身体方向标签。(b)计算我们的数据集和TUD数据集的捕获人体实例分辨率的分布[6]。x轴表示（W×H），其中W和H分别是人体实例边界框的宽度和高度（以像素为单位）。估计人相对于摄像机视角的方位这对于许多工业应用是重要的，例如，与人互动的机器人和自动驾驶车辆在拥挤的城市地区巡航。给定预测的3D人体姿势，通常以具有数十个关节的骨架的形式，可以推断身体取向。因此，人们可能会认为，HBOE是一个更简单的任务相比，3-D人体姿态估计和直接解决使用姿态估计模型。尽管如此，HBOE值得作为一个独立的问题来解决，原因有三。首先，由于图像分辨率差、遮挡或无法区分，30255075 100 125 150 175 200 225 250 275 300 325 350 375 400 425 450 475 500 525 550 575 600 625 650H WDTUW博我图像数量3452这些都是在野外图片中普遍存在的。第二，在某些场景下，身体的朝向已经足以作为下游预测或规划任务的线索第三，与3-D模型相比，身体取向模型的计算成本大大降低，这使得它对设备上部署更具吸引力此外，身体取向估计和3-D姿态估计在解决涉及理解人类行为的现实世界挑战方面可以是互补的HBOE近年来已被研究[6，8，10，14，18，19、27、33、45、53、54]。然而，一个主要的瓶颈是缺乏大规模，高精度，多样化的背景数据集。此前，TUD数据集[6]一直是HBOE使用最广泛的数据集。但是它只有大约5000幅图像，并且方向标签的精度很低，因为它们被量化为8个bin/类。Hara等人。 [18]用连续的方向标签重新标记了TUD数据集，但未解决尺度限制。我们通过实验验证，与我们在这里提供的更大的数据集相比，在其上训练的模型对野生图像的生成要差得多因为可以从3-D姿态标签（以预定义关节的3 -D坐标列表的形式）推断身体取向，所以3-D人类姿态数据集，例如，Human3.6M，经过必要的预处理后，可用于训练然而，这些数据集通常仅在室内记录（由于运动捕捉系统的约束），具有干净的背景，几乎没有遮挡问题，并且用于有限数量的人类主体。所有这些限制使得在现有3-D姿态数据集上开发的身体取向模型不太可能很好地鉴于大规模数据集在推进视觉研究方面取得了巨大成功，例如ImageNet [13]用于图像分类，KITTI [15]用于光流，COCO [26]用于对象识别和实例分割，我们认为创建大规模，高精度数据集对于HBOE模型的开发至关重要，特别是那些数据饥渴的深度学习。基础的。在本文中，我们提出了COCO-MEBOW（MonocularEstimation of Body Orientation in the Wild）数据集，该数据集由来自COCO的55K图像中的130K人类实例的高精度身体方向标签组成数据集[26]。我们的数据集使用72个bin来划分360个bin，每个bin只覆盖5个bin，这要精细得多-比以前的所有数据集都要细，认知极限在我们的数据集中，所收集的方向标签和一些示例人体裁剪图像的分布如图所示第1（a）段。细节和创建过程将在第二节中介绍。3.2.为了简洁起见，我们将在本文的其余部分将我们的数据集称为MEBOW为了证明我们数据集的价值，我们进行了两组实验。 The first set of experiments fo- cused onHBOE itself.我们首先为HBOE提供了一个强大但简单的基线模型，该模型能够在TUD数据集上优于先前的最先进模型[53]（具有连续方向标签）。然后，我们在四种设置下比较了基线模型的性能：TUD培训与MEBOW评估、MEBOW培训与TUD评估、TUD培训与TUD评估、MEBOW培训与MEBOW评估。我们观察到，在 MEBOW 上训练的模型可以很好地推广到TUD，但反之亦然。第二组实验重点展示了通过使用我们的数据集作为额外的、相对低成本的监督来源来提高估计性能的可行性。我们的模型是基于现有的工作，弱监督的三维人体姿态模型，使用二维姿态数据集和三维姿态数据集作为监督源。我们模型的核心是一种新的方向损失这使我们能够利用身体方向数据集作为额外的监督来源。我们在SEC演示。4.2我们的三源弱监督学习方法可以比基线双源弱监督学习方法带来显着的性能提升这表明我们的数据集不仅适用于HBOE，而且适用于其他视觉任务，其中在本文中展示了3我们的主要贡献总结如下。1. 我们提出了MEBOW，一个大规模的高精度人体定向数据集。2. 我们为HBOE建立了一个简单的基线模型，当用MEBOW训练时，它的表现明显优于在现有数据集上训练的最先进的模型。3. 我们使用我们的数据集作为三个监督源之一，开发了第一个用于3-D人体姿势估计的三源解决方案，并且它显著优于用于3-D人体姿势估计的最先进的双源解决方案。这不仅进一步证明了我们的数据集的有用性，而且还指出并验证了通过使用显著低成本的标签（即，身体取向）。2. 相关工作人体方向数据集。 TUD多视图行人数据集[6]是用于对HBOE模型进行基准测试的最广泛使用的最新的HBOE算法，例如，[6，18，19，53]，将其用于培训和评估。这个数据集由5228张户外拍摄的图像组成，每张包含一个或多个行人，每个行人都用边界框和身体方向标记。身体方位标签只有8个格，3453即，{前，后，左，右，对角前，对角后，对角左，对角右}。这种标记是相当粗粒度的，并且许多图像是灰度图像。年龄后来的工作[18]通过提供连续的方向标签来增强TUD数据集，每个方向标签都是从五个不同标签收集的方向标签中平均的。还有一些其他较少使用的HBOE数据集。然而，它们的局限性使它们仅适用于高度受限设置下的HBOE，而不适用于野外应用。例如，3DPes数据集[7]（1，012张图像）和CASIA步态数据集[41]（捕获20名受试者的19，139它们的身体方向标签分别是基于8-bin和基于6-bin的，它们也是粗粒度的。此外，这两个数据集的图像中的MCG-RGBD数据集[28]具有更广泛的姿势多样性，并且除了RGB图像之外还提供深度图但所有的图像都是在室内拍摄的，而且只有11个对象。由于可以在给定完整的3D姿势骨架的情况下计算人类方向，因此我们可以将人类3D姿势数据集转换为例如，Human3.6M数据集[20]，用于HBOE研究的身体方向数据集。然而，由于运动捕捉系统的约束，那些-10的3D姿态数据集仅覆盖室内场景，并且仅是针对少数主体的采样视频帧。这些约束使它们在上下文信息和背景的多样性方面都不如我们基于COCO [26]Human3.6M数据集的大小[20]（10K帧）也比MEBOW（130K）小得多。人体估计算法。受限于上述现有数据集的相对小的尺寸和粗粒度方向标签（基于8-bin或基于6-bin），基于特征工程和传统分类器的方法[6，45，14，33，10，54，8]，例如，，SVM，一直受到HBOE的青睐。基于深度学习的方法[42，12]也将HBOE视为分类问题。例如，[42]中的方法使用14层分类网络来预测给定输入的8个不同bin中的哪个bin表示方向;[12]中的方法使用4层神经网络作为分类网络。这些方法都使用简单的网络架构，由于小规模的可用数据集的训练。该模型只适用于某些高度约束的环境，类似于用于收集训练图像的环境。鉴于[18]为TUD数据集提供的连续方向标签，最近的一些工作[18，19，53]试图解决更细粒度的身体方向预测。最值得注意的是，Yu等人。[53]利用另一个2-D姿态模型的关键点检测作为连续方向预测的额外提示尽管如此，基于深度学习的方法仍然受到缺乏大规模HBOE数据集的阻碍从图像中直接预测身体取向是有效的，因为不仅标记训练数据集更简单，而且通过直接解决取向估计问题可以实现更好的作为支持证据，[16]表明，基于CNN和Fisher编码的方法从2-D图像中提取的特征优于基于3-D信息的最先进方法（例如，3-D CAD模型或3-D地标）用于多个对象取向估计问题。三维姿态估计。缺乏覆盖不同设置的大型训练数据是鲁棒3- D姿态估计的主要问题。努力[52，30，43，55，49，48]已经通过使用附加的监视源来解决这个问题，主要是2-D姿态数据集（例如，，MPII [5]）。总体思路是为具有弱标签（2-D姿态）的数据设计一些新的损失，以惩罚那些具有更多样化的人类主体和背景变化的附加数据上的不正确的3-D姿态预测我们的工作显示了这条研究路线的新方向，即使用我们的大规模，高精度，高性价比的身体方向数据集作为弱监督的新来源。与上述用于改进3 -D姿态估计的想法互补的一些其他想法包括：（1）强制执行额外的先验知识，例如参数化的3-D人体网格模型[17，24，9，23，22，35，38]，顺序深度[36]和时间信息（例如相邻帧一致性）[25，39];以及（2）利用从不同视图同时捕获的图像[40，21]，主要用于在高度受限的环境中收集的室内数据集（例如，，Human3.6M）。3. 述的方法3.1. 身体方向图像平面图2.身体方向的定义。包括TUD在内的先前数据集都假设人体方向从图像中是自解释的，这对于具有一致相机视角的小数据集是足够的。对于包含各种人体姿态和摄像机视点的野外图像的大数据集，人体方向的形式化定义对于注释和建模都是必要的。所示3454在图 2 中，不失一般性，我们将人体方位 θ∈[0° ，360°）定义为胸部朝向方向（C）在y-z平面上的投影向量与z轴方向之间的角度，其中x，y，z向量为由图像平面和照相机的方向限定给定3D人体姿势，胸部面向方向C可以通过C = T×S计算，其中S是由从右肩到右肩的向量定义的肩部方向。左侧，T是由从左和右肩关节的中点到左和右髋关节的中点的向量定义的躯干方向。3.2. MEBOW数据集创建出于以下原因，我们选择COCO数据集[26]作为方向标记的图像源。首先，COCO数据集具有丰富的上下文信息。COCO数据集中捕获的人体实例在姿势、光照条件、遮挡类型和背景方面的多样性使其适合于开发和评估用于野外身体取向估计的模型其次，COCO数据集已经有了人类实例的边界框标签，这使得身体方向标签变得更容易。为了使我们的数据集大规模，在忽略不明确的人类实例后，我们在总共540，007个人类实例中标记了所有合适的133，380个人类实例。年龄，其中51，836个图像（与127，844个人类实例相关联）用于训练，2，171个图像（与5，536个人类实例相关联）用于测试。据我们所知，MEBOW是最大的HBOE数据集。的在我们的数据集中，标记的人类实例的数量大约是TUD的27倍。为了使我们的数据集具有高精度，我们选择了72-bin标注方案，这不仅比其他HBOE数据集使用的8-bin或6-bin标注更细粒度，而且还考虑了人类标注者的认知限制和不同标注者之间的标签图图1（a）显示了我们的方向标签的分布，以及一些人类实例。可以看出，我们的数据集涵盖了所有可能的身体方向，周围有一个高斯峰180度，这是自然的，因为与人类的照片往往从正面抓住主要人物。另一个优点我们的数据集的一个特点是，标记的人类实例的图像分辨率比以前所有的数据集都要多样化得多，如图所示。第1段（b）分段。这对于训练实际应用中的模型特别有帮助，在实际应用中，可以捕获高分辨率和低分辨率的人类实例，因为相机和对象之间的距离以及天气条件都可能变化。我们在表3.2中总结了MEBOW相对于以前的HBOE数据集的主要优势注释工具。我们用于标注身体方向的注释工具如图所示附录A的A1数据集受试者数量箱数多样性闭塞TUD [6]5K8CC3DP [7]1K8✗✗[第41话]19K6✗✗MEBOW十三万72CCCCCC表1.以前的HBOE数据集与MEBOW的比较。TUD的连续身体方向标签由[18]提供人体实例显示在顶部。关联的裁剪的人类实例显示在底部，标记者可以通过鼠标点击从该底部选择要标记的人类实例。在中间，显示所选择的裁剪的人实例右边在另一侧，提供了一个滑块，用于在[0°，360°）（default0°，stepsize5°）的范围内调整方向标签，以及一个时钟状圆圈和一个红色箭头，用于显示当前标记为方向。贴标机可以首先鼠标调整滑块以进行粗粒度的方向选择，然后点击顺时针++或逆时针++按钮（或使用相关联的键盘快捷键）以进行细粒度的调整。红色箭头用作视觉参考，以便贴标机可以将其与中间的人体进行比较，以确保最终方向标签是他/她理解的准确记录。为了最大化标签一致性，在右下角，标签器可以参考已经用标签器当前选择的相同取向标记的一些示例人体实例。评价方法。考虑到我们的高精度72-bin注释，我们建议添加准确度-5，准确度-15和准确度-30作为新的评估指标，其中准确度-X定义为从地面实况方向用薄X预测的样本的百分比正如[18]中所讨论的，平均绝对误差（MAE）角距离的大小会受到几个较大误差的强烈影响。然而，Accuracy-X检验对异常值的敏感性较低，因此作为一种评价方法值得更多关注标准3.3. 基线HBOE模型就像HBOE之前的大多数工作一样，我们的基线模型假设人类实例已经被检测到，并且输入是一个裁剪的人类实例。裁剪可以基于地面实况或预测的边界框。为了便于实验，我们在所有实验中使用了COCO数据集提供的地面实况边界框。我们的基线模型的整体网络架构如图所示。3（a），可以端到端进行培训。首先通过主干网络作为特征提取器对对象的裁剪图像进行处理。然后，提取的特征被连接并由几个剩余层处理，其中一个完全连接层和softmax层位于末尾。输出在左侧，数据集中的一个图像包含有72个神经元，p =[p0，p2，...，第71页]（71i=0时p i= 1。0），重复-3455+FC正+ +HRNet单位ResNet单元ˆ2σˆ脊柱头（一）00270度180度（b）第（1）款这可以解释为HRNet及其预训练模型也是在COCO图像上训练的，并且是为一个更密切相关的任务-2-D姿态估计而设计的。3.4. 增强三维姿态估计使用现有技术获得3-D联合标签是非常困难的，因此在室内3-D图3.我们的基准HBOE模型。（a）网络结构。我们采用HRNet和ResNet单元分别作为骨干网络和头网络。中间特征表示被组合以馈送到头部网络中。(b)72个方向箱（黑色刻度）的图示和我们将p回归到表示每个可能的方位仓是表示输入图像的身体方位的最佳方位仓的概率。更具体地说，pi表示身体方向θ在第i个区间内的概率，图3（b），即，在[i·5<$− 2. 5分，i·5分+2。5分]。至于模型的目标函数，我们的方法与以前的方法不同，以前的方法要么直接回归方位参数θ（方法1和2或将方向估计视为纯分类问题（[19]和[18]的方法3），其中每个仓是不同的类。相反，我们从姿势数据集对野外图像（如COCO图像）的泛化能力很差。已经有人尝试[47，48]利用2-D姿态数据集（如MPII和COCO）作为第二个监督源，以增强3-D姿态模型的性能和鲁棒性。我们相信我们基于COCO的数据集中的方向标签可以补充2-D姿势标签，并提供额外的监督。为此，我们开发了一种用于3-D姿态估计的三源弱监督解决方案，其核心是利用方向标签的身体方向损失我们选择[48]作为构建模型的基础。按照他们的表示法，我们将p =[px，py，pz]（px∈[1，W]，py∈[1，H]，pz∈[1，D]）表示为任意位置的坐标，并且Hk（大小为W×H×D）表示为骨干网络输出的联合k的归一化热图然后，关节k的预测位置是：热图回归思想，这在关键点估计[34，46]中非常重要，并让损失ΣD ΣHJk=ΣWp·Hk（p）.（三）函数p是：L= Σ71i=0时（pi−φ（i，σ））2，（1）pz=1py=1px=1N e xt，L2lossL3D=||Jk−Jk||2可用于监督具有3-D姿态标签的图像的网络。对于具有2-D姿态标签的图像，1-Dx热向量和y热向量计算为：其中φ（i，σ）是“圆形”高斯概率，如图所示。3（b）（红色曲线）：x100WJhk =ΣDp·ΣH（4）第一次世界大战（1999φ（i，σ）=φ1 e2019 - 02 - 22 01：01：02（|i−lgt|i− lgt|i−lgt2|））、（二）px=1pz=1py=1.Σ（2π）σyHJhk=p·ΣD ΣWHk（p）.（五）而Lgt是地面实况定向仓。基本上我们正在回归以地面实况方向箱为中心的高斯函数。直觉告诉我们和L损耗Lpy=1pz=1px=1100x2Y222D=||Jhk−Jk|| +的||Jhk−Jk||可以定向箱越接近地面实况定向箱标签LGT，模型应该与其匹配的概率就越高。我们发现这种方法大大简化了神经网络的学习过程。值得注意的是，我们尝试使用标准分类损失函数，例如 p和由一个热向量表示的地面真值之间的交叉熵损失，但该损失不能收敛。选择网络架构。我们还考0541890度363456虑用于监督具有2-D姿势标签的图像的网络。让我们为带有方向标签的图像定义损失函数。为了便于记法，我们使用Jls、Jrs、Jlh和Jrh分别表示左肩、右肩、左髋和右髋的预测坐标，通过等式3.第三章。然后，所估计的肩部向量S和躯干向量T可以由以下方面代表：ResNet-50和ResNet-101（从为ImageNet分类任务训练的模型）是S=Jrs— J·J·S、（6）我们的网络架构。我们观察到HRNet+ Head在实验中提供了更好的性能。这T=1（J2lh +Jrh— Jlh— Jrh ），（7）3457根据SEC的定义。2和图2。并且胸部面向方向可以通过下式计算：4.1. 身体方向估计首先，我们验证了我们在C=T×S||2||2、（8）秒3.3.具体来说，我们在TUD数据集上训练它，并将其性能与文献中报道的其他最先进的模型进行比较。结果示于表2中。哪里||·||2是欧几里得范数。由于在图1中定义的（估计的）取向角θe2可以通过计算将C投影到y-z平面上，我们知道以下机翼我们的模型在MAE，准确度-22方面明显优于所有其他模型。精度-45，这是TUD数据集上的标准指标。可能是在-方程成立：cos（θθ）=Cz，（9）sin（θε）=Cε y.（十）我们的新损失函数回归了目标我们将方向损失定义为：Lori=||Cz−cos（θ）||2个以上||Cy−sin（θ）||第二章，（十一）其中θ是地面实况方向标签。最后，L2D、L3D和Lori可以在它们之间具有适当权重的情况下联合使用，使得三个监督源，即，2-D姿态标签、3-D姿态标签和取向标签都可以用于训练鲁棒的3-D姿态估计模型。4. 实验结果建议的MEBOW数据集已在两组实验中进行了测试，以证明其有用性。节中4.1，我们展示了MEBOW如何通过使用我们在第4.1节中提出的基线模型来帮助推进HBOE。3.3.节中4.2，我们展示了MEBOW如何通过使用第4.2节中描述的三源弱监督解决方案来帮助改善3D身体姿势估计。三点四分。实施. 实验中使用的所有代码都是用PyTorch实现的[1]。对于第二节中的HBOE实验，4.1，ResNet主干基于公共代码[2]，并从ImageNet预训练模型 HRNet 主干基于公共代码[3]，并从用于COCO2-D姿态估计的预训练模型初始化。对MEBOW和TUD数据集采用相同的输入图像预处理步骤，包括将输入图像归一化为256×192，以及翻转和缩放增强。我们使用Adam optimizer（学习率=1e−3）来训练网络80时代对于所描述节中4.2我们的代码基于公共代码[4]。网络从ImageNet预训练模型初始化。输入图像标准化为256×256。旋转、翻转和缩放用于增强Human3.6M和MPII。为了避免取向的变形，我们不对MEBOW中的图像进行旋转增强该网络被训练了300个epochs。亚当是优化器。学习率仍然是1 e-3。0.9390.7 99.3表2. TUD数据集上的HBOE评价（带有连续方向标签）。我们的是在TUD训练集上训练的，并在其测试集上进行评估。我们将连续方向标签转换为72-bin方向标签，如图所示。3.第三章。为了显示MEBOW在多样化背景和丰富的野外环境方面优于TUD，我们在四种设置下训练我们的基线模型，以比较在TUD和MEBOW上训练的相同架构（我们提出的基线模型）的泛化能力。我们的实验结果示于表3中。可以看出，当在MEBOW测试集上与在TUD测试集上进行评估时，在TUD训练集上训练的基线模型的性能下降远高于在MEBOW训练集上训练的相同模型在TUD测试集上与在MEBOW测试集上进行评估时的性能下降。这表明，改进的多样性，以及在MEBOW中包含更具挑战性的案例（与TUD相比）实际上有助于提高模型的鲁棒性埃尔斯我们观察到，对于我们的模型，MEBOW甚至在TUD对比MEBOW。我们还观察到，仅在MEBOW上训练的模型的性能（第4行，表3）甚至可以超过TUD上的先前最先进的结果（第3行，表2）。类似的方式和动机的实验已经在SEC进行。7（表。[26]中的1），以证明COCO数据集的优势。培训测试MaeAcc.- 二十二岁5◦Acc.- 45◦TUDTUD8.495.199.7TUDMEBOW三十二2+ 23。8四十九7-45。4七十七。5 -22。2MEBOW8.493.998.2方法MaeAcc.- 二十二岁5◦Acc.-45◦[18]第十八话34.768.678DCNN [19]26.670.686.1[第53话]15.375.796.8我们8.495.199.7人类[18]3458MEBOW TUD十四岁三加五。9七十七。3-16。6九十九。0 +0。8表3.比较在TUD和MEBOW上训练的同一模型的泛化能力。3459至于网络结构和参数σ的选择，我们对它们进行了消融实验，结果总结在表4中。HRNet+ Head（使用COCO2-D姿态估计任务的预训练权重进行初始化）提供了比ResNet-50或ResNet-101更好的结果。设σ=4。0导致性能最佳的模型。因此，我们使用HRNet + Head和σ=4的模型。0用于与表2和表3相关的实验。图中给出了该模型的一些定性预测实例. 4.第一章Acc.- 5.根据15年-30◦表4.消融研究的网络结构的选择和不同的影响，在方程。二、在MEBOW上进行评价图4.由我们的基线模型生成的HBOE结果（以HRNet为主干，σ= 4。0）在MEBOW（第2行，用于第1行中的相应图像）和TUD数据集（第5行，用于第3行中的相应图像）上。第4行是[18]的预测结果，它们直接从原始论文中裁剪出来。红色箭头：地面实况;蓝色箭头：预测。4.2. 增强的3D人体姿态估计数据我们用人类三号6M数据集（3-D姿态）、MPII数据集（2-D姿态）、COCO数据集（2-D姿态）和我们的MEBOW方向标签。我们训练我们在SEC中提出的三源弱监督模型。3.4和两个双源弱监督基线模型。这两个基线模型都是使用[48]的重新实现进行训练的，它使用L2D+L3D的组合（在第二节中定义）。第3.4段）。不同的是基线-1只使用人类3。6M数据集（3-D姿态）和MPII数据集（2-D姿态），而基线-2在第一基线之上使用COCO数据集（2-D姿态）。我们的方法利用我们的MEBOW数据集上的第二个基线的方向标签，并使用L2D+L3D+Lori的组合。按照[48]的实践，在随机训练期间的一个批次中，我们从Human 3中采样了相同数量的图像。6、MPII和COCO数据集。我们从定量和定性两个方面对我们的模型和两条基线进行了评估和比较首先，我们遵循[48]中的协议II，并使用每个关节位置误差的平均值（MPJPE）作为度量标准，在Human 3的测试集上对其进行评估。6M数据集。评价-结果与评价我们已经尽了最大努力训练基线-1，但仍然无法获得性能与[48]中报告的一样好的模型然而，这并不妨碍我们在基线1、基线2和我们的模型之间进行公平的比较从表 5 中，我们可以看出，通过添加MEBOW作为第三（弱）监督源并使用我们提出的定向损失Lori，我们可以实现比基线1和基线2显著更好的平均MPJPE。如果我们将MPJPE度量分解为不同的运动类别，则我们的方法在大多数（16个中的12个）运动类别中也实现了最佳MPJPE度量我们还根据表6中的不同接头和接头坐标的X、Y、Z部分对MPJPE度量进行了细分分析对于几乎所有的关节，我们的方法取得了显着更好的结果。该方法对改进关节坐标的Y、Z部分是积极的，而对改进关节坐标的X部分是中性的这并不令人惊讶，因为我们的取向损失只考虑了C在图1中投影到y-z平面后的Y和Z部分二、我们的模型的3D姿态估计的一些定性示例，以及两个基线模型的地面实况和预测显示在图中。五、其次，我们进行评估的3-D姿态预测COCO测试集。由于COCO数据集的地面实况3-D姿态是未知的，因此我们后退一步，通过将根据预测的3-D姿态计算的方位与MEBOW数据集提供的地面实况方位标签进行比较来进行定量评估如表7所示，我们的模型明显优于基线1和基线2，这表明我们的三维姿态估计模型更好地推广到野外图像。图图6示出了在COCO测试集上的3-D姿态预测的一些定性结果5. 结论我们介绍了一个新的基于COCO的大规模，高精度数据集的人体方位估计，架构σMae4.第四章04.第四章010.46510.33166.967.888.388.294.694.71 .一、08.57969.389.696.4二、08.52969.691.096.6人力资源网+主管3. 08.42769.390.696.74.第一章08.39368.690.796.93460方法指导Dis.吃吧格雷电话Pose Pur.坐下 Smo. Phot 等 WalkD. WalkP. 平均Chen等人[第十一届]89.997.690.0107.9 107.3 139.293.6136.1 133.1 240.187.0114.190.6114.2Tome等人[50个]65.073.576.886.486.3一百一十点七68.974.8110.2 172.9 85.0八十五点八86.371.473.188.4Zhou等人[56个]87.4109.3 187.1 103.2 116.2 143.3106.999.8107.4 118.1114.279.497.779.9Metha等人[30个] 59.769.760.668.876.485.459.175.096.2122.9 70.868.554.482.059.874.1Pavlakos等人[37]第三十七届58.664.663.762.466.970.857.762.576.8103.5 65.761.667.656.459.566.9Moreno等人[32个]69.580.278.287.0100.8 102.776.069.7104.7 113.9 89.798.582.479.277.287.3Sun等人[47个]52.854.854.254.361.853.153.671.786.761.567.253.447.161.653.459.1Sharma等人[第四十四届]48.654.554.255.762.672.050.554.370.078.358.155.461.445.249.758.0Moon等人[三十一]50.555.750.151.753.946.850.061.968.052.555.949.941.856.146.953.3Sun等人[48个]47.547.749.550.251.443.846.458.965.749.455.847.838.949.043.849.6基线-1个月44.447.449.067.750.041.845.659.992.948.857.165.438.750.542.253.4基线-2个月46.147.849.166.348.043.546.759.385.047.054.061.938.650.149.752.4-1。0我们四十四点六47.146.060.547.741.846.057.882.347.256.056.738.049.541.850.9-2。5表5. 使用平均每个关节位置误差（MPJPE）对Human3.6M数据集进行三维人体姿势估计评估。我们的基线是Sun等人的重新实现。[48]，接受过Human3.6M + MPII培训，如原始论文所述。我们的基线2是Sun等人的重新实现。[48]，在Human3.6M + MPII+ COCO（2-D Pose）上训练。最好的和第二好的用颜色标记。方法Hip+膝盖+脚踝+躯干脖子头鼻子肩关节+肘关节+腕关节+XYZ（深度）基线-124. 649.0 73.840.651.955.656.952.5 66.8 84.8 14.619.439.823.第二十三章. 五比一一百四十九7+ 0。七七二。六比一236八比三八块五四比一553. 0-2 6496-7 351. 0-1 5 66岁。0-0 887六加二。八点十四三比零3182- 12398+ 0。0我们的 21. 六比三045七比三368九比四九点三十五2- 5。447. 九比四0511-4 5523-4 6496- 2。9 六十五九比零987. 六加二。八点十四7+0。1171- 23390-0 8表6.使用每个关节位置误差的平均值（MPJPE）对Human3.6M数据集进行每个关节评估的三维人体姿势估计。+误差是左关节和右关节的平均值。输入G。T.基线1基线2我们的输入G。T.基线1基线2我们的投入基准1基线2我们的投入基线1基线2我们的图5.Human3.6M数据集上的示例3-D姿态估计结果（G.T.是Ground Truth的缩写。）更多示例结果可参见附录E。野外通过大量的实验，我们证明了我们的数据集可以非常有用的身体方向估计和3-D姿态估计。同时，我们提出了一个简单而有效的人体方向估计模型，它可以作为使用我们的数据集开发未来HBOE模型的基线并提出了一种新的方向损失，利用人体方向标签作为第三监督源。在未来，探索如何使用我们的数据集将是有趣的图6. COCO数据集上的示例3-D姿态估计结果。更多示例结果可参见附录F。对于其他视觉任务，例如人再识别（ReID）和身体表达的情感识别[29]。致谢一部分计算使用了极端科学和工程发现环境（XSEDE），这是一个由国家科学基金会支持的基础设施。3461方法MaeAcc.-5◦Acc.-15◦Acc.-30◦美国国家科学基金会（NSF）授权号ACI-1548562[51]。J. Z. 王基准线26.23934.763.777.7由NSF资助。1921783。基线2例13.88831.974.586.8我们11.02344.883.494.2表7.测试部分的三维人体姿态估计评估的MEBOW。3462引用[1] https://pytorch.org网站。6[2] https://github.com/pytorch/vision/blob/master/\protect\penalty-\@Mtorchvision/models/resnet.py. 6[3] https://github.com/leoxiaobin/deep-high-resolution-net.pytorch. 6[4] https://github.com/JimmySuen/integral-human-pose. 6[5] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议论文集，2014年6月。3[6] Mykhaylo Andriluka Stefan Roth和Bernt Schiele单目3D姿态估计和检测跟踪。在IEEE计算机视觉和模式识别会议论文集，第623-630页IEEE，2010。一、二、三、四[7] Davide Baltieri 、 Roberto Vezzani 和 Rita Cucchiara 。3DPeS：用于监视和取证的3D人员数据集。在人类手势和行为理解的联合ACM研讨会上，第59-64页。ACM，2011年。三、四[8] Davide Baltieri、Roberto Vezzani和Rita Cucchiara。利用随机树上的混合包裹分布进行人的方位识别。在欧洲计算机视觉会议集，第270Springer，2012.二、三[9] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。SMPL：从单个图像自动估计3D人体姿势和形状。欧洲计算机视觉会议论文集，第561-578页。施普林格，2016年。3[10] Cheng Chen，Alexandre Heili，and Jean-Marc Odobez.监控视频中位置和人体姿态的联合估计。 IEEEInternational Conference on Advanced Video and SignalBased Surveillance（AVSS），第5-10页。IEEE，2011年。二、三[11] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在IEEE计算机视觉和模式识别会议论文集，第7035-7043页，2017年。八、十二[12] Jinyoung Choi，Beom-Jin Lee，and Beth-Tak Zhang.

下载后可阅读完整内容，剩余1页未读，立即下载