2D和3D人体感知的深度多任务架构

107 浏览量更新于2023-10-16 收藏 1.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于集成2D和3D人体感知的深度多任务架构Alin-Ionut Popa2分，Mihai Zanfir2分，Cristian Sminchisescu1分，2分alin. imar.ro，mihai. imar.rocristian. math.lth.se1隆德大学2罗马尼亚科学院摘要我们提出了一个深度的多任务架构，用于全自动2D和3D人体感知（DMHS），包括单目图像的识别和重建。该系统计算图形-背景分割，在像素级语义识别人体部位，并估计人的2D和3D姿态。该模型支持通过多任务损失的方式对所有组件进行联合训练，其中早期处理阶段递归地馈送到高级处理阶段，以实现日益复杂的计算、准确性和鲁棒性。该设计允许我们利用多个数据集来绑定一个完整的训练协议，否则这些数据集将仅限于覆盖一些模型组件：没有身体部位标记并且没有相关联的3D地面实况的复杂2D图像数据，或者具有有限的2D背景可变性的复杂3D数据。在基于几个具有挑战性的2D和3D数据集（LSP，HumanEva，Human3.6M）的详细实验中，我们评估了模型的子结构，各种类型的训练数据在多任务丢失中的影响，并证明了在所有处理级别都可以实现最先进的结果。我们还表明，在野外，我们的单眼RGB架构是感知竞争的最先进的（商业）Kinect系统的基础上RGB-D数据。1. 介绍人类的视觉分析具有多种应用，如自动驾驶车辆、机器人、人机交互、虚拟现实和数字图书馆等。这个问题是具有挑战性的，因为人类的姿势和身体比例，遮挡，以及场景的多样性，观察角度和人类被描绘的背景单目的情况，这是内在的许多情况下，如分析照片或视频在网络上提供，增加了复杂性，因为深度信息是失踪的三维重建。这导致几何*作者平均贡献模糊性和遮挡，这对于存在多个摄像机的情况是难以解决的在2D和3D水平上的详细分析进一步揭示了对测量和先验知识的需求，以及可以联合执行所有任务的模型内的分割、重构和识别之间的必要相互作用。这是我们的目标之一。由于培训是必不可少的，主要困难也是当前数据集的有限覆盖：2D仓库，如LSP[18]或MPI-II [3]展示了具有挑战性的背景、人体比例、服装和姿势，但提供了单视点，仅提供了近似的2D关节位置基础事实，并且不携带人体分割或身体部位标记信息。按照今天的深度学习标准，它们的大小也相对较小相比之下，像HumanEva [39]或Human3.6M[16]这样的3D数据集人类的3.6M也是大规模的。然而，在室内捕获时，3d数据集通常缺乏背景和服装可变性，这表示在野外捕获的2d数据集的强度，尽管情况稍微更微妙。一些 3D 数据集（例如， Hu-man3.6M）带有混合现实训练设置，其中适度逼真的图形角色被放置在一个真实的场景中，具有几何正确的设置，并使用人体动作捕捉进行动画。然而，可以说，一个包含精确的2d和3d信息的完全真实的训练环境仍然是难以捉摸的。一个悬而未决的问题是如何利用现有2D和3D数据集的各自优势来训练模型，这些模型可以在chal-challening图像中运行，并提供准确的识别和重建估计。在本文中，我们提出了一个这样的深度学习模型，给定单目RGB图像，它能够完全自动地在多个细节层次上感知人类：图形-背景分割，像素级的身体部位标记通过在不同的递归处理阶段（人体关节检测和2D姿态估计）设计多任务损失函数，62896290语义身体部位分割、3D重建），我们能够通过利用多个数据集来绑定完整的、真实的训练场景，否则这些数据集将限制性地仅覆盖一些模型组件训练（没有身体部位标记且没有相关联的3D基础事实的复杂2D图像数据，或具有有限的2D背景可变性的复杂3D数据），导致协变量移位和缺乏模型表现力在广泛的实验中，包括使用代表性的 2D 和 3D 数据集（如 LSP 、HumanEva或Hu-man 3. 6 M）进行的消融研究，我们说明了该模型，并表明可以实现语义身体部位分割和3D姿态估计的最新结果。2. 相关工作这项工作涉及2D和3D单目人体姿态估计方法以及使用完全可训练的深度处理架构的语义分割。由于先前的工作在每个子领域都很全面[36]，我们将在这里主要介绍与我们的方法直接相关的一些关键技术，重点是旨在集成不同级别的2D和3D处理的深层架构和方法2D人体姿势估计的问题最初已经使用图像结构和可变形部分模型来处理，其中人体的运动树结构提供自然分解[11，19，7，49，29，12]。近年来，深度学习对最先进的姿态估计模型产生了巨大的影响，其中不同的分层特征提取架构与人体部位之间的空间约束相结合[46，10，45，20，30，28，23，8，13，9，43，27，24]。最近的深度架构是通过级联具有类似结构但不同参数的处理阶段来获得的，其中系统将早期层的输出与使用学习的特征提取器直接从图像中提取的新信息相结合。这种用于2d姿态估计的递归方案出现在[33，48，9]的工作中，而将3d估计反馈到2d推理层中的类似早期想法出现在[15，41]中。请注意，[33，15]的迭代处理框架并不深入，分别构建在基于部件的图形模型和随机森林上。有大量关于单目3D人体姿态估计的文献，包括与3D姿态相关的运动学模糊性的分析[42，5]，以及用于学习和推理的生成和判别方法[35，37，4，1，26，38，14，30]。最近，已经采用了深度卷积架构，以便直接从图像[21，22，34，51]中估计3d姿态，主要与3d人体运动捕捉数据集（如Hu- manEva，Human3.6M）有关，其中姿态具有挑战性，但背景相对简单。也有兴趣结合2D和3D估计方法，以获得能够进行多任务并能够在真实成像条件下操作的模型[41，32，47，2]。最新的方法[6，34]依赖于先验3d模型，该模型拟合到从由深度处理架构（如[13]或[45]中的一个）产生的初始2d姿态估计获得的解剖身体关节数据。该方法依赖于一个国家的最先进的歧视性的人检测和2d姿态估计，并引入一个生成拟合组件，以搜索空间的可容许的身体比例变化。这两种方法都使用一个或多个视图以及来自2D人体姿势估计的关节分配约束来将统计体形和运动学模型拟合到数据。这些方法使用[6，34]提供的3d到2d解剖标志分配作为3d推断的初始化。虽然这是有效的，但如在几个具有挑战性的评估场景中所示这在原则上仍然倾向于局部最优，因为单目3D人体姿态估计成本是非线性的和非凸的，即使在完美的3D到2D模型到图像分配下也是如此[42]。我们与[41，15，6，34]分享构建集成2D和3D推理的模型的兴趣。我们提出了一个完全可训练的判别模型，用于二维和三维水平的人类识别和重建。我们不估计人体形状，但我们估计图形-背景分割，人体部位的语义分割，以及2D和3D姿态。该系统是可训练的，端到端的，通过多任务损失，可以利用现有的2d和3d人类数据集的互补属性。该模型是全自动的，因为人体检测和身体部位分割以及2D和3D估计都是在同质、易于理解和计算高效的架构中处理的该方法是对[6，34]的补充：我们的模型可以从最终的基于优化的细化中受益，并且对于估计人体形状是有用的相比之下，[6，34]可以从人体部位的语义分割中受益，用于其形状拟合，并且可以使用我们产生的准确的全自动2D和3D姿态估计作为其3D到2D细化过程的初始化。3. 方法在本节中，我们将介绍我们的多任务多级架构。使用多个阶段的循环前馈处理的想法受到了像[33，48]这样的架构的启发然而，我们提出了一个统一的架构，联合二维和三维处理，没有以前的方法覆盖。我们对多任务丢失的选择也使得利用不同数据集的复杂优势成为可能6291JJLz，BzzBJJ从概念上讲，我们的每个处理阶段都会产生识别和重建估计，并受到特定训练损失的限制。具体地，每个阶段t被分成语义处理St和3D重建Rt（参见图1）。同时，语义模块ST是双-在后续阶段，网络还考虑了从前一阶段Jt-1馈送的置信图中的信息，其中图像特征函数x'略有不同，定义为一组四个卷积和三个池化层，如[48]所示。这些特点是通过一个分类转换分为两个子任务，一个集中于2D姿态估计，另一个是身体部位标记和图形背景作用函数ct函数ct来预测身体关节置信图Jt。由一系列的五个卷积分割，Bt（见图2）。第一个（即Jt）馈入第二个（即 Bt），而语义阶段则进入重构阶段。每个任务由总共六个循环阶段组成，其将图像、相同类型的先前阶段的结果（除了第一阶段之外）以及来自其他阶段的输入（2D姿态估计馈送到语义身体部位分割中，并且两者都馈送到语义身体部位分割中）作为输入。层，前三层的形式为（11 × 11 × 128），然后是（1× 1 × 128）卷积和输出J t的最终（1 × 1 × NJ）卷积。每个阶段的损失函数t最小化预测置信图和真实置信图之间的平方欧几里德距离，Jt和Jt：约翰·肯尼迪3D姿态重建）。每个阶段的输入通过卷积网络进行单独处理和融合，不Jk=1 z∈Z<$Jt（z，k）−J（z，k）<$2（1）以产生相应的输出。图1. 识别和重建架构的阶段t：图形-背景分割、2D姿态估计和身体部位的语义分割（全部由（S）表示），以及3D重建（R）。语义任务在图1中详细描述。图2和图3中详细描述了3D重建任务。4.第一章在实践中，模型的这个组件可以用来自2d和3d数据集的数据来训练，比如LSP，其中手动获得地面实况，或者HumanEva和Hu-man 3. 6 M，其中基于解剖标记自动获得地面实况。3.2. 语义人体部位分割在语义身体部位分割（身体部位标记）中，我们为每个图像位置（u，v）∈ Z ∈R 2分配NB个解剖身体部位标记（包括用于背景的附加标记）之一b1，其中l∈{1。. . NB}。在每个阶段t，网络预测每个像素位置的每个身体部位的存在概率，Bt∈Rw×h×NB。与上一个任务不同，我们现在的目标是-每个像素的位置，不仅要识别身体关节。使用的损失函数从平方欧几里德变为多项式逻辑：t1B=−|Z|Σlog（Bt）z∈Z）（2）图2.语义任务的阶段t，包括2d联合检测（J），以及标记身体部位（B）。3.1.二维人体关节检测2D姿态估计任务基于类似于[48]的递归卷积架构给定RGB图像其中，B是每个图像位置z=（u，v）.在处理的第一阶段，我们使用基于图像的卷积表示（一系列卷积以及将层x与§3.1）和2d姿态置信图J1相关联的参数进行池化，以便预测当前身体标签B1.对于以下每个阶段，我们还使用了在连续阶段Bt−1的主体标签中存在的信息，并依赖于一系列四个卷积I∈Rw×h×3，我们试图正确地预测层ct 学习将堆栈获得的输入组合起来-NJ解剖学定义的人体关节pk∈Z <$R2，B图像特征x和Bt−1。函数ct共享其中k ∈ {1。. . NJ}。在每个阶段t ∈ {1. . . T}，其中T为总的阶段数，网络输出为线性映射Jt∈Rw×h×NJ. 预处理的第一阶段仅对图像证据进行操作（一组七个卷积和三个池化层产生特征x），但与ct中的前四个卷积相同的结构，但是在与当前2d姿态置信图Jt融合之后应用（1×1×NB）卷积形式的分类器，为了获得语义概率图Bt。我们的架构以及主要依赖关系的概述如下LL=6292R.在图3中给出。最后，我们使用一个额外的反卷积层[25]，大小为16×16×NB，使得损失可以ΣTL=（ Lt+ Lt+Lt）（4）在输入图像I的全分辨率下计算。在实践中，用于训练该损失分量的现实数据不像2d身体关节位置那样容易获得。Human3.6M提供了这样的训练数据，但我们也能够为LSP自动（近似）生成它（§4）。3.3. 三维姿态重建该模型组件被设计用于从单个单目图像I对表示为NR个3d骨架关节的集合的3d人体配置进行逐阶段、循环重建。该估计是从内部表示Rt获得的。3d重建模块利用由2d语义组件St提供的信息，结合关节和身体部位标记特征图Jt和Bt。此外，我们在图像特征上插入一个可训练函数ct，其定义类似于ct，JB Rt=1损失允许我们方便地训练所有模型组件参数，用于不同的任务，基于注释具有挑战性的数据集，或者注释完全缺失的数据集，因为具有不同覆盖范围的数据集有助于损失的各种组件。每当我们使用部分覆盖的数据集进行训练时，我们可以冻结我们没有地面实况的模型组件。我们还可以同时训练所有参数，使用部分和完全覆盖的数据集：我们在所有级别上都具有基础真值的那些示例将有助于每个损耗分量，而我们具有部分基础真值的示例将仅有助于它们相应的损耗。D B为了获得身体重建特征图Dt。该模块遵循与前几个模块类似的流程：它重复使用早期处理阶段的估计值Rt−1以及St和Dt，以预测重建特征图Rt。该模块的处理阶段和依赖关系4.第一章在程序上，我们首先融合St和Dt，然后应用一系列单（3×3×128），（3×3×64），（1×1 ×64）卷积，然后是池化层（3×3）和（1×1×16）卷积。输出与Rt−1连接，并由一个（1×1×16）内核卷积，该内核学习组合两个分量，产生估计Rt。然后，通过全连接层将特征图变换为3D人体骨架的期望维度。损失Lt表示为每个关节位置误差的平均值（MPJPE）： ‚波伦河Σ3tt 224. 实验为了评估我们的方法，我们使用了3个著名的数据集，利兹体育数据集（LSP）[18]，HumanEva[39]和人类3.6M [16]。LSP数据集由描绘进行体育运动（田径、羽毛球、棒球、体操、跑酷、足球、网球、排球）的人的2D姿态注释的RGB图像组成。我们使用包含1000个训练和1000个测试图像的原始版本，以及包含额外10000个图像的扩展训练版本。我们还使用HumanEva-I数据集，在实验室中通过精确的3D运动捕捉系统获得三个受试者总共执行六个动作作为标准程序[40，4，50，44]，我们在训练集上训练我们的模型，并在验证集上报告结果，其中我们只考虑序列行走，慢跑和盒子的每第5所有三个主题和一个单一的正面相机的看法。Human80K是一个80，000个样本子集，LR=i=1、j=1（f（R，i，j）−R（i，j））+f（三）更大的360万人类姿势数据集Human3.6M [16]。数据集在实验室环境中捕获，其中，Rt是3d地面真实人体关节位置，f（·）是应用于R t的全连接层，并且 f（·）是使损耗可微分的小常数。这个损失分量可以用来自Hu- manEva和Human3.6M的数据来训练，但不能用LSP或其他2D数据集来训练，因为这些数据集缺乏3D地面实况信息。尽管HumanEva和Human3.6M中的背景不像LSP中的背景那样具有挑战性，但使用多任务损失使得完整的2D和3D模型不仅在实验室中而且在野外都具有竞争力（§4和图10）。（五）。3.4. 集成多任务多阶段丢失考虑到前面几节提供的信息，我们现在能够定义模型的完整多任务、多阶段损失函数，如下所示：动作捕捉设置，并包含日常活动和交互场景（提供方向，讨论，吃饭，坐着时的活动，问候，拍照，摆姿势，购物，吸烟，等待，走路，坐在椅子上，讲电话，遛狗，走路，gether）。这些动作由11名演员表演，并由4台RGB摄像机拍摄。该数据集是完全注释的，包含RGB数据，2D身体部位标记地面实况掩模以及精确的2D和3D姿态重建。Human80K由来自Human3.6M的55，144个训练样本和24，416个测试样本选择来自每个原始捕获的样本，使得在3d空间中彼此之间的距离不超过100mm。我们在Caffe中实现我们的模型[17]。完整的识别和重建管道需要大约6293图3. 我们的多任务多级2D语义模块St，结合语义身体部位标记Bt和2D姿态估计Jt。图4. 我们的多任务多级3D重建模块Rt，结合3D处理与语义模块St的信息。在测试中，在Nvidia TITAN X（Pascal）12GB GPU上，每帧400毫秒我们评估的识别（2D身体部位标记）和我们的架构的3D重建能力我们在我们的架构中为每个子任务组件模型（联合检测，语义分割，3D重建）使用T=6个阶段，并仅报告每个子任务的最后阶段的结果，因为它是根据验证的最佳4.1. 身体部位标签为了评估 2D 身体部位标记任务，我们使用Human80K和LSP数据集。我们为LSP引入了额外的注释，因为它们不适用于仅提供2D解剖关节的原始版本。我们通过使用注释的2D骨架关节和运动树创建LSP的人体部位注释。我们为骨骼关节生成圆形，为单个关节生成椭圆形。6294身体部位我们将长轴设置为相应关节之间的线段的大小增加LSP的原因是为了增强除了H3.6M中可用的那些之外的人类外观、身体比例和背景的可变性。对于Human80K的评价，我们将其与[15]的结果进行了比较，这些结果代表了该数据集上该任务的最新技术水平[15]的作者假设人的轮廓（图形-背景分割）是给定的，并且仅在前景掩模上执行身体部位标记作为总共24个标签上的推理问题与此不同的是，我们没有做这个假设，而是将背景视为一个额外的类，从而构建了一个预测25个类的模型为了扩展LSP上的评估，我们考虑了多个场景：（a）在Human80K上训练，（b）在LSP上微调，以及（c）同时在LSP和Human80K上训练我们的架构，并在Human80K和LSP上测试。在我们的设置中，仅使用LSP进行训练是不可行的，因为在多个实验中，网络没有收敛。随机初始化标记参数（阶段B），而对应于2d联合检测分量J的参数则使用[48]中给出的网络值初始化，在MPI-II和LSP上训练。我们的人体部位标记模型对于Human80K和LSP的性能在表1和表2中给出。我们使用与[ 15 ]中相同的评估指标，即包含在地面实况轮廓内的像素的平均精度和类归一化平均精度。由于这两个度量仅适用于前景类，因此我们还计算所有像素（背景和前景）的平均准确度以及类归一化平均准确度。从表1（Human 80 K测试）中可以注意到，即使我们解决了一个更难的问题（通过额外估计图形-背景分割），类归一化平均精度也大大提高，对于在（a）Human 80 K和（b）Human 80 K上训练的模型，(c)Human80K与LSP合作然而，用在Human80K上训练的参数初始化但在LSP上微调的模型（b）似乎具有由LSP主体标签注释的低质量引起的性能下降在这种情况下，正如预期的那样，在Human80K上训练的模型获得了最佳性能，这可能是因为未经修改的Human80K训练集更好地捕获了测试集分布。在LSP上测试时并非如此，如表2所示。在Human80K和LSP上联合训练的模型获得了最佳性能。该模型能够将Hu-man 80 K的姿势可变性和部分标记注释质量与LSP的背景和外观可变性相结合，使其适用于实验室设置和针对具有挑战性的背部拍摄的人的图像场. 1针对2D身体部位标记任务提出的模型使用10 - 10的初始学习率进行训练，每5个epoch减少一个因子γ=0。三十三岁。在学习过程中，训练数据通过以[-40° C，+40° C]之间的角度随机旋转，以范围[0. 五一2]和水平翻转，以提高训练集的多样性。定性结果在挑战性图像中的语义身体部分分割的结果在图1中示出。五、4.2. 三维人体姿态重建对于3D姿态重建的评估，我们使用HumanEva-I和Human3.6M，因为它们都是包含互补姿态的数据集，并提供准确的3D姿态注释。在所有的实验中，根据标准实践，我们使用与我们比较的其他方法相同的3d评估指标。对于下面的实验，请注意，我们的2d语义模块组件是在LSP和Human80K的数据上训练的，而模块的3d组件是使用Human80K进行预训练的。对于我们的3D网络，我们使用设置为10−7的初始学习率，并每5个epoch将其降低一个常数因子γ=0。66岁。我们报告了Human80K测试集的结果，并研究了每个输入特征J、B和D对3D重建任务的影响（见表4）。请注意，使用“D -流水线”进行3D重建部分的模型我们观察到，我们完全集成的系统DMHS R（J，B，D）实现了63的最低误差。除了对计算附加的详细语义人类表示的兴趣之外，可以看出，通过馈送来自其他任务的结果- 误差大大减少，从77。56mm（用于基于前馈处理和推断附加2D关节位置信息的模型）到63。35mm。还请注意，我们相对于之前在Human80K上的最新结果有了显著的增益，如[15]所报告的。对于HumanEva-I，我们使用在Human 80 K上训练并微调了几个时期的DMHSR（6）基于HumanEva-I训练数据。我们使用包含4，637个样本的训练集的子集。对HumanEva-I执行微调步骤，以补偿对于相对于Hu-man 80 K的标记定位的差异，并且为了说明相对于Hu-man 80 K的不同姿态分布。人类80K 在表3中，我们比较了1当训练和测试分布不移动时（例如，Human80K）来自不同分布的额外数据不一定有帮助。但是在实验室收集的额外数据在野外也有帮助。6295Avg. Acc. （%）DMHSB-Human80KDMHSB- LSP（ft）DMHSB- Human80K LSP[第十五条]每像素（fg）79.0053.3175.8473.99每像素（fg + bg）91.1583.3089.92-每类（fg）67.3543.4064.83-每类（fg + bg）68.5645.6166.1353.10表1. Human80K测试集的身体部位标签结果。我们报告了我们的网络的性能，在Human80K，LSP和两个数据集上联合训练。请注意，对于LSP，网络是在Human80K上预先训练的，因为它无法单独在LSP上训练我们还与[15]进行了比较，其中比较仅适用于在人物前景上计算的准确度，因为[15]的模型不能预测背景标签。我们的模型能够预测背景类，因此我们报告整个图像（包括背景类）的性能以及轮廓内的性能（对于与人体部位相关的类）。请注意，在Human80K上训练的网络在Human80K上获得了最佳性能，这可能是由于LSP中添加了噪声注释，以及Human80K的训练和测试分布自然更相似。Avg. Acc. （%）DMHSB-Human80KDMHSB- LSP（ft）DMHSB- Human80K LSP每像素（fg）50.5260.5461.16每像素（fg + bg）85.5891.0891.09每类（fg）36.4644.7345.91每类（fg + bg）38.7746.8848.01表2. LSP数据集的身体部位标记结果。所有模型都在Human80K数据集上初始化，因为仅使用LSP训练的网络无法收敛。在这种情况下，在Human80K和LSP上联合训练的模型产生了最好的结果。这示出了具有准确的身体部位标记注释的重要性，该准确的身体部位标记注释是在简单的成像场景中但是针对复杂的身体姿势获得的，结合不太准确的注释但是具有更复杂的前景和背景外观变化。方法步行Avg.慢跑Avg.框Avg.所有[第四十届]65.148.673.562.474.246.632.251.0-----[4]美国45.428.362.345.3355.143.237.445.242.564.069.358.649.7[50个]35.832.441.636.646.641.435.441.1-----[第四十四届]37.525.149.237.3----50.561.757.556.6-DMHSR（J，B，D）27.118.439.528.337.628.927.631.430.545.848.041.533.7表3. HumanEva-I数据集上的3d平均关节位置误差，在使用刚性变换对齐后，在我们的预测关节和地面实况之间计算。与其他竞争方法的比较表明，DMHS实现了最先进的性能。几种最先进的方法我们遵循[40，4，50，44]中的标准评估程序，并从步行、慢跑和拳击活动的验证集中采集样本数据我们用一个摄像头。与HumanEva上以前的最先进方法相比，我们获得了相当大的性能增益，尽管我们只使用了可用训练集的一小部分。我们还在Human3.6M的官方测试集上进行了评估，使用仅在H80K上训练的模型，没有额外的参数验证，获得了73mm的平均误差。2我们的方法的定性结果可以在图中看到。5和6.模型Avg. MPJPE（mm）[第十五条]92.00DMHSR（J）128.05DMHSR（D）77.56DMHSR（J，B）118.68DMHSR（J，D）72.00DMHSR（J，B，D）63.35表4. Human80K数据集上的3d平均关节位置误差。我们模型的不同组成部分与[15]进行了比较2请访问www.example.com human3.6m/ranking.php查看排行榜http://vision.imar.ro/（测试集H36M NOS10）。62965. 结论我们提出了一种基于单目图像的全自动2D和3D人体感知（DMHS）的深度多任务架构，包括识别和重建。我们的系统估计人体的图形-背景分割，检测人体关节，语义识别身体部位，并重建人的2D在多个处理阶段的递归多任务损失函数的设计支持不同2D和3D数据集的优势的原则性组合，而不受其不同弱点的限制。在实验中，我们进行了消融研究，评估了各种类型的训练数据在多任务丢失中的效果，并证明了在所有处理级别都可以实现最先进的结果。我们表明，即使在野外，我们的单目RGB架构在感知上与最先进的商业RGB-D系统相比也具有竞争力。致谢：这项工作得到了欧洲研究理事会整合者资助种子， JRP-RO-FR-2014-16 下的 CNCS-UEFISCDI ，欧盟地平线 2020 资助 #688835 （ DE-ENIGMA）和SSF的部分支持。6297图5.Human3.6M和LSP图像的识别和重建结果对于每个图像，我们展示了2d姿态估计，身体部位的语义分割和3d姿态估计。注意背景和姿势的难度，以及2d和3d模型泛化良好的事实。请注意，在我们的架构中，在处理的早期阶段（2D姿态估计）期间的错误可以在稍后进行校正，例如，语义身体部位分割或3D姿态估计。图6. 我们的RGB模型（顶行）和Xbox One系统的商业RGB-DKinect模型（底行）之间的分割和重建的定性比较。我们的模型产生准确的图形-背景分割，身体部位标记，并为一些具有挑战性的姿势进行3d重建。6298引用[1] A. Agarwal和B. Triggs从单目图像中恢复三维人体姿态。PAMI，28（1）：44-58，2006. 2[2] I. Akhter和M. J.布莱克。三维人体姿态重建的姿态条件关节角度限制。CVPR，2015。2[3] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。1[4] L. Bo和C.斯明奇塞斯库结构预测的孪生高斯过程。IJCV，87（1-2）：28-52，2010年。二四七[5] L.博角，澳-地Sminchisescu，A. Kanaujia和D. Metaxas大规模条件三维预测的快速算法。CVPR，2008。2[6] F. Bogo、A.金泽角放大图片，P. Gehler，J. Romero和M.J.布莱克。保持它smpl：由单一影像自动估计三维人体位姿与形状。在ECCV，2016年。2[7] L. Bourdev，S. Maji，T. Brox和J.马利克使用相互一致的poselet激活来检测人。ECCV，2010年。2[8] A. Bulat和G.齐米罗普洛斯通过卷积部分热图回归的人体姿势估计。在ECCV，2016年。2[9] J. Carreira，P. Agrawal，K. Fragkiadaki和J.马利克基于迭代误差反馈的人体姿态估计在CVPR，2016年。2[10] X. Chen和A. L.尤尔。通过具有图像相关成对关系的图形模型的在NIPS，2014。2[11] P. F. 费尔岑斯瓦尔布河B. Girshick，D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。PAMI，32（9）：1627-1645，2010. 2[12] A. Her na'ndez-贝拉，S。 Sclaro f f和S. 埃斯卡雷拉基于Poselet的上下文重评分用于通过图像结构的人体姿态估计。IJCV，118：49-64，2016。2[13] E. 因萨富季诺夫湖皮舒林湾Andres，M.安德里卢卡，B.席勒Deepercut：一个更深、更强、更快的多人姿势估计模型。在ECCV，2016年。2[14] C.约内斯库湖Bo和C.斯明奇塞斯库结构支持向量机用于视觉定位和连续状态估计。ICCV，2009年。2[15] C. Ionescu，J. Carreira，and C.斯明奇塞斯库用于3d人体姿态估计的迭代二阶标签敏感池CVPR，2014。二六七[16] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库胡-曼3.6M：自然环境中三维人体感知的大规模数据集和预测方法。PAMI，2014年。1、4[17] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构 arXiv 预印本 arXiv ：1408.5093，2014。4[18] S. Johnson和M. Everingham用于人体姿态估计的离散姿态和非线性外观模型在BMVC，2010年。1、4[19] S. Johnson和M. Everingham用于人体姿态估计的离散姿态和非线性外观模型在BMVC，2010年。2[20] M. Kiefel和P. V. Gehler基于零件场的人体姿态估计。2014年，在ECCV。2[21] S. Li和A. B.陈基于深度卷积神经网络的单目图像三维人体姿态估计。InACCV，2014. 2[22] S. Li，W. Zhang和A. B.陈使用深度网络进行最大间隔结构化学习，用于3d人体姿势估计。在ICCV，2015年。2[23] X. Liang，C.Xu，X.Shen，J.Yang，S.刘，J.唐湖，澳-地琳一S.燕. 使用上下文化卷积神经网络的人类解析。在ICCV，2015年。2[24] I. Lifshitz，E.Fetaya和S.乌尔曼使用深度一致性投票的人体姿态估计在ECCV，2016年。2[25] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。4[26] G. Mori和J. Malik。利用形状上下文恢复三维人体轮廓PAMI，28（7）：10522[27] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。2[28] T. Pfister，J. Charles，and A.齐瑟曼。用于视频中人体姿态估计的流动卷积网。在ICCV，2015年。2[29] L. Pishchulin，M.安德里卢卡山口Gehler和B.席勒姿态-let制约的图像结构。CVPR，2013。2[30] G. Pons-Moll，D. J. Fleet和B.罗森哈恩用于单目人体姿态估计的Posebits。CVPR，2014。2[31] 答：I.波帕湾Zanfir和C.斯明奇塞斯库用于集成2d和3d人体感知的深度多任务架构。 arXiv 预印本 arXiv ：1701.08985，2017年。[32] V. Ramakrishna，T. Kanade和Y.酋长由二维影像地标重建三维人体位姿。ECCV，2012年。2[33] V. Ramakrishna，D.穆尼奥斯，M。Hebert，J. A. Bagnell和Y.酋长姿势机器：通过推理机的关节姿态估计。2014年，在ECCV。2[34] H. Rhodin ， N.Robertini ， D. 卡萨斯角 Richardt ， H.P.Seidel和C.希奥博尔特使用体积轮廓线索的一般自动人体形状和运动在ECCV，2016年。2[35] R. Rosales和S. Scaroff通过特殊地图学习身体姿势。NIPS，2001年。2[36] B.罗森哈恩河Klette和D. Metaxas，编辑。人类运动，理解，建模，捕捉和动画，卷36。Springer Verlag，2008年。2[37] G. Shakhnarovich，P. A. Viola和T.达雷尔。使用参数敏感散列的快速姿态估计载于ICCV，2003年。2[38] L. Sigal，A. Balan和M. J.布莱克。组合的判别式和生成式关节姿态和非刚性形状估计。NIPS，2007年。2[39] L. Sigal，A. O. Balan和M. J.布莱克。Humaneva：同步视频和运动捕捉数据集和基线算法，用于评估关节式人体运动。IJCV，87（1-2）：4-27，2010. 1、4[40] E. Simo-Serra，A.夸托尼角Torras和F.莫雷诺-诺格。从单幅图像进行2d和3d姿态估计的联合模型。CVPR，62992013。四、七6300[41] C. Sminchisescu，A. Kanaujia和D. Metaxas学习联合自上而下和自下而上的三维视觉推理过程。见CVPR，第2卷，第1743-1752页。IEEE，2006年。2[42] C. Sminchisescu和B. Triggs单目三维人体跟踪的运动学跳跃过程。在CVPR，2003年。2[43] S.唐湾Andres，M. Andriluka和B.席勒基于多分割和深度匹配的多人跟踪。在ECCV，2016年。2[44] B. Tekin，A.罗赞采夫河谷Lepetit和P.呸从运动补偿序列直接在CVPR，2016年6月。四、七[45] J. J. Tompson，A.Jain，Y.LeCun和C.布莱格勒卷积网络和图形模型的联合训练用于人体姿势估计。在NIPS，2014。2[46] A. Toshev和C.赛格迪Deeppose：通过深度神经网络进行人体姿势估计。CVPR，2014。2[47] C. Wang，Y.Wang，Z.Lin，L.L. Yuille和W.高. 由单一影像之三维人体位姿稳健估计CVPR，2014。2[48] S. Wei ， V. Ramakrishna ， T. Kanade 和 Y. 酋长Convolutional pose machines. 在 CVPR ， 2016 年 6 月。二、三、六[49] Y. Yang和D.Ramanan 具有部件的灵活混合的铰接式人体检测PAMI，35（12）：2878-2890，2013. 2[50] H. Yasin，U.伊克巴尔湾Kruger、A.Weber和J.胆从单幅图像估计三维姿态的双源方法在CVPR，2016年6月。四、七[51] X. Zhou，M. Zhu，S. Leonardos，K. Derpanis和K.丹尼-小精灵。稀疏与深度的结合：从单目视频中估计三维人体姿态在CVPR，2016年。2

下载后可阅读完整内容，剩余1页未读，立即下载