三维人体模型：TRB网络及其应用

194 浏览量更新于2023-10-13 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1TRB：一种新的三维人体模型段浩东1，林冠怡2，盛进2，刘文涛2，陈倩2，欧阳万里31中大-商汤科技联合实验室2商汤科技集团有限公司3悉尼大学，SenseTime计算机视觉研究小组，澳大利亚摘要人体姿态和形状是二维人体的两个重要组成部分。然而，如何有效地表示这两者在图像中仍然是一个悬而未决的问题。在本文中，我们提出了三重体表示（TRB）- 紧凑的2D人体表示，具有捕获人体姿势信息的骨架关键点和包含人体形状信息的轮廓关键点。TRB不仅保留了骨架关键点表示的灵活性，而且包含了丰富的姿态和人体形状信息。因此，它具有更广泛的应用前景，如人体形状编辑和条件图像生成。我们进一步介绍了具有挑战性的问题，TRB估计，联合学习的人的姿势和形状是必需的。我们构建了几个大规模的TRB估计数据集，基于流行的 2D姿态数据集： LSP，MPII，COCO。为了有效地解决TRB估计问题，本文提出了一种两分支网络（TRB-net），该网络采用了X结构（Xs）、方向卷积（DC）和成对映射（PM）三种新技术，以加强联合特征学习的多级消息传递我们评估我们提出的TRB网络和几个领先的方法对我们提出的TRB数据集，并通过广泛的评估证明我们的方法的优越性。1. 介绍一个全面的2D人体表示应该捕捉人体姿势和形状信息。这样的表示是有前途的应用程序以外的平原关键点定位，如图形和人机交互。然而，如何建立这样的二维人体表示仍然是一个悬而未决的问题。当前主流的2D人体表示不能同时捕获这两种信息。基于骨架关键点的表示[2，17，21]很好地捕捉了人体姿势。然而，这样的表示丢失了对于人体理解至关重要的2D人体形状信息。逐像素人类解析表示[19，6，15]包含2D人类形状线索。然而，这种类型的表示缺乏准确的关键点定位信息。因为一个部分中的所有像素共享相同的语义标签。同时，它们操作起来不灵活，贴标签的成本也很高。本文的目的是发现一种新的表示更全面地了解人体。为此，引入了一种新的三重体表示它由骨架和轮廓关键点表示组成，同时捕获精确的姿势定位和丰富的语义人类形状信息，同时保持其灵活性和简单性。由于不存在用于定量评估TRB估计的数据集，因此我们基于三个姿态估计数据集（LSP [17]、MPII [2]和COCO [21]）提出了几个具有挑战性的TRB数据集。我们定量评估了几个国家的最先进的2D骨架为基础的关键点检测器的性能建议TRB数据集。我们的实验表明，他们不能有效地解决更具挑战性的TRB估计任务，这需要的方法，不仅要理解的概念，人体姿势和人体形状的同时，但也利用它们之间的潜在关系。为了有效的表示学习，我们设计了一个称为TRB-Net的两分支多任务框架，它联合解决了骨架关键点估计和轮廓关键点估计。这两项工作密切相关，相互促进。因此，我们设计了一个消息传递模块来实现信息交换。从另一分支接收的消息将充当当前分支的指导以产生更精细的估计结果。由于这两个分支的特征图具有不同的模式，因此空间特征变换对于特征对齐和更有效的消息传递方案是必要的因此，我们提出了一个特定于任务的方向卷积运算器，以利用骨架和轮廓特征图之间的由内向外和由外向内的空间关系。为了防止骨架和轮廓分支的预测不一致，我们明确地实施成对映射约束。通过这些技术，我们提高了TRB估计性能，超越了最先进的水平。对于骨架和轮廓关键点估计，误差分别减少了13.3%和15.1%（第二节）。5.3）。我们的贡献有三个方面：（1）我们建议94799480提出了一种新的三重体表示方法TRB，它包含了人体的姿态和形状信息。我们将TRB应用于条件图像生成任务，并显示其在处理姿势/形状引导的图像生成和人体形状编辑的有效性。（2）提出了一个具有挑战性的TRB估计任务，建立了一个基准，并在TRB估计的背景下评估了各种主流的位姿估计方法。（3）设计了联合学习骨架和轮廓关键点表示的TRB-网络。提出了三种有效的消息传递和特征学习技术。大量的实验表明，我们所提出的方法的有效性。2. 相关工作人体表现。在2D人体表示方面，早期最流行的是图像结构（PS）[12，3]，它使用一组矩形来表示铰接的人体肢体。可变形结构[45]和轮廓人[13]通过使用密集轮廓点而不是刚性矩形进一步改进了PS，从而获得更好的形状拟合。然而，这些表示太复杂而无法注释，并且只能通过能量最小化来优化。最近，研究人员使用骨架关键点[2，17，21]作为2D人体姿势表示，因为其简单性，可行性和有效性。人工化的关键点表示具有丰富的语义含义，但缺乏人体形状或轮廓信息。逐像素标记可以包括语义人类解析表示[19，6，15]和保持人类形状的基于3D表面的DensePose [1然而，这些表示缺乏准确的关键点定位信息并且具有高的标记成本。还有其他3D身体模型，包括SMPL [24]和SCAPE[4]，它们可以表示姿势和形状。然而，野外的3D人体注释难以获得，这使得难以利用这些模型用于2D人体理解和2D图像编辑。在这项工作中，我们扩展了广泛使用的骨架关键点表示，并提出了一种新的三元组表示的二维人体理解，它不仅捕捉准确的关节定位信息，但也包含丰富的语义人体形状信息。随着深度学习的蓬勃发展，基于CNN的模型已经在单人和多人姿势估计问题[35，36，9，5，41，33，34，28，16]。DeepPose [37]首先提出利用CNN特征直接回归人类关键点坐标。然而，这样的关键点坐标表示是高度抽象的，并且对于利用视觉线索是无效的，这鼓励研究人员探索更好的表示[29，38，10，40]。CPM[38]探索了卷积架构的顺序组成，这些架构直接对从先前阶段到间接阶段的信任图进行操作图1. 示例注释。我们将标记图像的一些样本可视化。红点表示骨架关键点。绿点表示横向轮廓关键点。蓝点表示内侧轮廓关键点。人体骨架使用红线表示，而属于同一三元组的轮廓关键点使用白线连接。明确地学习用于人体姿势估计空间关系堆叠沙漏[29]使用重复的自下而上，自上而下的处理结合热图的中间监督来提高性能。Chu等人提出了一种多上下文注意力[10]方案，以利用多级结构信息并实现更鲁棒和准确的预测。Yang等建议在堆叠沙漏网络的底部构建金字塔残差模块，通过学习特征金字塔来增强深度模型的尺度不变性[40]。这些方法只关注于2D骨架关键点定位，而我们将其扩展到骨架和轮廓关键点估计，以更好地理解2D人体。多任务学习[26，44]被广泛用于人类分析，不同任务之间的知识转移可以使两者受益。在[14]中，动作检测器、对象检测器和HOI分类器被联合训练以准确地预测人类对象关系。在[31，30]中，动态卷积用于两个任务之间的消息传递。在动态卷积中，从一个任务学习动态卷积参数，而在另一个任务上执行卷积。在[25]中，姿势估计与下游应用动作识别联合训练。考虑到人体骨架估计和轮廓估计之间的自然空间关系所提出的模块适合的任务的性质，以及使2个任务之间的消息传递更有效，在我们的实验中所示。3. 三重体表示法3.1. TRB的概念近年来，骨架关键点表示以其简单、可行和有效的特点成为最流行的人体表示方法。但这种9481一种表示法不能捕获人体形状信息。由于缺乏形状信息，2D人体表示在许多现实世界应用中的潜力没有得到充分开发。一些人建议使用像素级的人类解析注释来保留人类形状。然而，缺少精确的定位信息和关键点语义信息在这项工作中，我们提出了一种新的表示为二维人体姿势和形状，称为三重表示身体（TRB）。我们设计了一个紧凑的表示，其中轮廓关键点位于人体边界代表人的形状，骨架关键点保留了人类的关节结构。我们提出的表示是更可行的，更容易标记，同时保留丰富的人体边界信息和准确的关键点定位信息。具体地，人体由一组三联体描述符表示。每个关键点三元组由位于人体边界上的骨架关键点和两个附近的轮廓我们将轮廓关键点分类为内侧轮廓与外侧轮廓关键点，以避免语义歧义。如图1，在每个三元组中，两个轮廓关键点之一位于内侧（蓝色），而另一个位于外侧（绿色）。两个轮廓关键点被预定义为具有清晰和明确的语义含义，同时保留强有力的视觉证据。通过引入TRB，我们以一种有效的方式统一了2D姿态和形状的表示，这有利于下游应用，如人体解析，人体形状编辑等。此外，作为副作用，额外的轮廓关键点还为骨架关键点定位提供边界线索，反之亦然。3.2. TRB估计任务、数据集和评价在本节中，我们将介绍TRB估计任务。TRB估计任务是从单个RGB图像估计每个人的TRB关键点三元组的整个集合（包括骨架和轮廓关键点两者它比先前的2D骨架关键点定位任务更具挑战性，因为它需要对人体的更全面的理解，包括姿势、形状及其关系。我们基于MPII [2]，LSP [17]和COCO [21]构建了三个TRB数据集，分别表示为MPII trb，LSP trb和COCOtrb。MPII和LSP是流行的单人姿态估计数据集，它们分别包含大约40K和12K个人注释姿态。我们在MPII和LSP的所有训练值数据上标注轮廓关键点一整套骨架和轮廓三元组。COCO是一个更大的数据集，大约有15万人。对于COCO，我们随机注释了一半的train-val数据，以形成COCO trb数据集。图2显示一些TRB和-图2. 形状可视化。（a）身体部位的颜色编码。（b）MPII中的人体轮廓变化性（与同一中心对齐的随机40人（c）每个部分的人体轮廓可变性。在MPII数据集上的符号，高度可变的人体形状强调了在2D人体表示中捕获人体形状的重要性所提出的TRB数据集与其对应的2D姿态数据集兼容。例如，根据2D姿态数据集的标记协议来处理具体地，对于MPII和LSP数据集，所有被遮挡的轮廓关键点都用估计的位置来标记。对于COCO，只有当对应的骨架关键点被注释时，被遮挡的关键点才被注释TRB估计任务采用与常见2D骨架关键点估计任务相同的评估度量。4. TRB-Net我们提出了TRB-Net来共同解决骨架和轮廓关键点估计的问题。我们的总体框架如图所示. 3.第三章。TRB-Net遵循广泛使用的多堆栈框架来产生从粗到细的预测。在每个堆栈中，模型由用于骨架关键点预测的骨架分支和用于轮廓界标预测的轮廓分支组成。在这两个分支中，多尺度特征提取块（MS块）被用于有效的特征学习。我们还提出了X结构的消息传递块（MP块），以加强这两个分支之间的相互作用（见第4.1节，图4（a））。为了有效的空间变换，我们进一步设计了一种新的卷积操作，即定向卷积（DC），它鼓励在特定方向上传递消息（见第 4.2 节，图 4（b））。最后，我们提出了成对映射（PM）模块，以加强骨架和轮廓预测的一致性（第4.3节，图4（c））。我们增加了几个中间监督（LS，LC和LP）来训练模型。L_S、L_C、L_P分别表示骨架损失、轮廓损失和成对损失。LS和LC测量预测热图和真实热图之间的L2距离成对损失度量成对映射的不一致性（第4.3节）。4.1. X结构化消息传递块如上所述，我们的模型由骨架分支和轮廓分支组成考虑到强大的空间-9482LS……LC堆1轮廓热图MS块提取器MP块特征MS块热图骨架图3. 框架. 我们提出的TRB-网络的框架，关节轮廓和骨架关键点估计。消息传递（MP）块表示用于增强分支之间的消息传递的插件模块，包括X结构（Xs）、定向卷积（DC）和成对映射（PM）模块。LS、LC分别表示骨架和轮廓损失，用作中间监督。骨架分支轮廓分支(a)（b）第（1）款图4. 消息传递模块。示出了三个插件消息传递模块。(a)表示X结构（Xs）消息传递块，其中由一个分支产生的热图被传递到另一个分支以进行信息交换。（b）表示定向卷积单元（DC），其中散射卷积和聚集卷积用于有效的消息传递。（c）表示成对映射单元（PM），其中引入成对约束以提高预测的一致性，并且采用细化单元以获得更精细的结果。虚线框表示要装配在图1中的MP块中的部分。3 .第三章。为了解决骨架和轮廓关键点之间的信息交换问题，我们设计了一个X结构的消息传递（MP）块，以显式地加强信息交换（见图1）。（见第4（a）段）。如图在图3中，X结构化模块使得能够在不同的特征学习阶段进行消息传递，以获得针对两个任务的更好的特征表示。通过引入X结构的MP块，骨架分支能够从轮廓分支获得指导以进行更准确的局部化，反之亦然。由于关键点热图包含清晰的语义含义和丰富的空间信息，因此其可以用作关键点定位的强先验。因此，我们选择变换的热图作为要在分支之间传输的以骨架分支为例，粗骨架热图首先利用变换模块映射到轮廓的空间。然后，将变换后的热图作为消息发送到轮廓分支。最后，粗轮廓热图和接收到的消息被自适应地融合以产生更精细的轮廓热图预测。在我们的实现中，变换模块使用1x1卷积执行特征映射，融合模块连接两个源热图并将它们与1x1卷积融合。4.2. 方向卷积在上一节中，我们使用一个简单的Transform模块将骨架热图映射到轮廓空间。然而，骨骼支的激活往往集中在骨骼上，而轮廓支的激活往往分布在骨骼周围（见图1）。（五）。需要特定于任务的局部空间变换以在消息传递之前更好地对齐激活图为此，我们设计了一种新的迭代卷积算子，称为方向卷积。它可以明确和有效地在特征级的定向空间变换。我们首先考虑一个定向特征融合问题定义在一个小的子区域，并试图解决这个子问题。方向卷积算子T由K个迭代卷积步骤组成。有效的方向卷积应满足以下要求。（1）在每个步骤中，仅更新一组像素。（2）在最后一次迭代之后，所有像素应当被更新一次并且仅被更新一次。一特征函数序列F={F}K是kk=1LSLC栈，栈轮廓热图MS块MP块MS块热图骨架LSLSLCLCLSLCLSLCLP（精制装置扭曲的结果成对的左点轮廓热图成对的右翘曲骨架热图整经评估骨架热图融合轮廓热图变换融合轮廓热图变换散射卷积骨架热图骨架热图聚集卷积融合轮廓热图变换融合骨架热图变换轮廓热图9483123413223111不同分区（0，0）散射（2，0）（0，2）收集（一）（二、二）（b）第（1）款（c）第（1）款图5. 方向卷积(a)5x5块上的方向卷积。对于散射卷积和聚集卷积，更新以由内而外或由外而外的顺序进行。相关的特征图是可视化的，其中已经更新的区域用蓝色着色。(b)具有不同网格分区点的8x8特征图的四个不同分区（红线）红点表示网格划分点，其相对位置写在左侧。(c)在特征图的不同分区上并行进行方向卷积。散射卷积和聚集卷积的相对中心用红点标记使用自适应自注意方案的结果进行融合划分点，我们给出了特征上的4种划分（它们构成划分集P ={p，p，p，p}）(a)(b)（c）第（1）款图6. 特征函数示出了在具有网格大小5的聚集和散射卷积中使用的一组示例特征函数(a)表示F聚集或F分散，（b）地图网格大小4、特征图大小8的一个示例是在图中示出5（b）。我们将每个分区上的聚集卷积表示为Gpi。因此，高级Gathering卷积的最终结果G为：表示F聚集或F分散，（c）表示F聚集或F分散。[Wp，…WP]= σ（W·[Gp（X），…Gp（X）]+b）。（二）以控制像素的更新顺序。函数Fk的输入是热图上的像素的位置，而输出是1或0。Fk表示是否更新ΣG=Wpi·Gpi（X）。（三）pi∈P第k次迭代。具体来说，我们只更新Fk= 1的区域，而保持其他区域不变。第i迭代的更新可以公式化为：T i（X）= F i·（W × T i−1（X）+b）+（1 − Fi）·T i−1（X）。（一）其中T0（X）=X。X表示方向卷积的输入特征图，W和b表示迭代卷积中的共享为了明确地处理骨架和轮廓特征图对齐的任务，我们专门化了一对对称方向卷积算子，即散射卷积和聚集卷积（参见图1）。（六）。如示于图如图5（a）所示，聚集和散射卷积更新分别具有由外向内和由内向外的特征。大小为n的网格上的收集和散射卷积包括n/2次迭代。我们已经解决了子区域特征融合任务，这里我们介绍如何将一组特征图在空间上划分为子区域。为了充分利用不同位置的空间信息，我们使用几个不同的分区的一组特征图，以捕捉的多样性。方向卷积在这些分区上并行进行（见图11）。5（c））。以自适应方式合并所有输出斑点以产生最终的卷积特征。以格网大小为4的Gathering卷积为例，使用点（0，0），（0，2），（2，0），（2，2）作为格网其中σ表示S形函数[. ]表示con-在级联运算中，Wpi是来自每个分区的特征的估计权重我们将有向变换问题转化为路径搜索问题的优化过程。不同分区上的卷积表示空间变换可能采取的不同路径，并且加权方案表示这些路径之间的路由过程。图示在图1中提供第5（c）段。从数据中学习路由，使得边界和骨架之间的分散和聚集过程成为可能。输出G随后用作另一分支的输入方向卷积因其高效性和灵活性而成为常规卷积的一种更好的替代方案。普通卷积在特征提取方面有较好的性能，但在空间变换方面没有特殊的设计。然而，在我们的方向卷积模块中，迭代卷积被设计为是方向性的，这满足了显式设置消息流方向的需要。冗余计算和参数将在每次迭代期间保存。此外，卷积权重在方向卷积块中共享。因此，与正常卷积相比，使用相同数量的参数，该模块可以实现更大的接收场。4.3. 成对映射为了更好地保持骨架点和轮廓点之间的一致性，我们提出了骨架点和轮廓点之间的成对映射。融合...自适应加权激活......收集111111000110001100010000001110010100111000000000000000000100000001111100000散射nn9484S1Fs1作为作为一F1F2一1 2一一FF12S2FsFs32一个3 F3F6作为S3作为A SS4F4F5一个4一个5外部轮廓关键点内部轮廓关键点右手腕的地面真实值右手腕预测错误细化经纱经纱（一）（b）第（1）款图7. 成对映射。在（a）中，右手腕的粗略预测是错误的，但后来被其两侧的两个正确预测的地标校正。在（b）中，密集成对项（左）和我们的重要标志对（右）之间的差异。我们的定义仍然是丰富的结构信息，而不失简单。相邻关键点对。我们首先构建一个图来模拟人体结构（见图1）。（见第8（e）段）。图中的节点表示骨架和轮廓关键点，而边表示消息传递路由。我们-损失这被公式化为：ΣnLP=（||W arp（Li，Flowi）−Ri||2i=1（四）签署三种类型的联合关系之间：（1）邻居-轮廓关键点，（2）骨架关键点及其相邻轮廓关键点，（3）相邻骨架关键点。我们沿着图中的边执行消息传递，如图所示8（c）（d）。与Chu等人的工作相比。[8]，我们使用特征扭曲来建模关键点之间的成对关系，而不是使用有向核。此外，新的成对关系，因为我们已经考虑到轮廓点。S1S1A SFA S+的||W arp（Ri，RevFlowi）−Li||2）的情况。其中n表示选择的重要关键点对的数量。每一对的预测热图由（Li，Ri）表示，Flowi表示从Li到Ri的学习映射，而RevFlowi表示从 Ri到 Li的学习映射。Warp（H，Flow）函数指示使用Flow扭曲热图H的操作。1在成对映射损失的情况下，鼓励网络联合学习关键点位置和关键点对之间的映射偏移集，并尝试做出一致的预测。翘曲热图表示由其它相关关键点支持的一个关键点位置的证据。一A1F1FA2一个2一个6一个31F2S2F2F3一个6设计了一个融合模块，用于对粗热图进行为A S3 S3FAS为6FA SS由网络预测和扭曲的热图亲-一个4一个5（a）（b）（c）（d）（e）图8. 消息传递。（a）是具有注释地标的人物图像。(b)是具有轮廓关键点的树形结构的人体模型。（c，d）示出了在图的一部分上以不同方向传递的消息。（e）展示成对身体界标之间的消息传递由翘曲模块引起。在我们的实现中，融合模型由两个1x1卷积层组成通过整合位置的证据，我们的网络产生更准确的预测。成对映射的功效的一个实例在图1中展示。7 .第一次会议。如图3.我们的整体学习目标可以表述如下：为了在相邻地标对（Li，Ri）的热图上添加成对映射，我们调整特征扭曲ΣL=L堆叠i=我Σ（LS+LC+LP），（5）我我们的战略框架。首先，在每个阶段的中间，我们添加一个新的分支来估计双向特征流 Flow 和RevFlow。特征流估计网络利用来自轮廓和骨架分支的特征来估计它们之间的映射。然后，使用估计的特征流来将热图从源域扭曲到目标域（例如，通过Flow将L1扭曲到R1的域）。整经操作在两个方向上进行理想地，在扭曲之后，扭曲的源热图应当与目标热图相同为了达到这种效果，引入了一个损失函数来惩罚扭曲热图和目标热图之间的差异，我们称之为成对其中LS、LC、LP表示骨架损失、轮廓损失和成对损失分别。5. 实验5.1. 实验细节对于LSP和MPII的实验，我们采用[22]中的双栈网络作为我们的基线，除了原始论文中的复杂CJN模块。对于COCO上的实验，由于[22]1特征流的详细定义可以在我们的补充材料中找到FSSFF4 59485我们在COCO上执行自顶向下的多人姿势估计。基于特征金字塔网络[20]的检测器用于生成人类边界框提案（人类检测AP约为51），然后沙漏网络用于估计每个框提案的人类姿势。对于数据增强，以目标人物为中心裁剪图像，并将其大小大致调整为相同的比例以适合256x256的输入大小。在生成训练图像时，我们随机旋转（±40°）并翻转图像。还执行随机重新缩放（0.7-1.3）。所有实验的数据增加设置均一致。补充材料中提供了更多细节。5.2. TRB估计结果我们首先评估几种流行的骨架关键点估计方法在TRB估计任务上的性能，即4堆栈沙漏[29]，简单基线[39]和级联AIOI [22]。TRB估计任务的定量结果示于表1中。我们发现，轮廓估计比骨架估计更具挑战性，导致关键点精度较低我们提出的TRB-Net优于所有最先进的方法，表明其有效性的骨架关键点和轮廓关键点的联合学习表1.与MPII trb val最新方法的比较头昭Elb.Wri.髋膝谢谢谢谢Con. 是说[29]第二十九话96.895.289.285.287.483.981.589.085.386.6简单基线[39] Res-5096.294.888.583.086.282.980.088.083.985.4简单基线[39] Res-15296.595.288.283.087.884.580.988.585.886.8[22]第二十二话96.695.088.483.187.883.980.388.485.486.5TRB-Net（我们的）97.195.690.285.689.386.483.590.187.288.25.3. 消融研究为了彻底研究所提出的TRB和消息传递组件的有效性，我们对MPII TRB验证集进行了广泛的消融研究。方向卷积与仅使用骨架关键点（Skeleton）或轮廓关键点（Contour）进行训练的基线相比，联合学习骨架和轮廓标志点（Multitask）的两个分支网络取得了更好的效果。在此基础上，探讨了不同工艺条件对植物生长发育的影响用于促进骨架分支和轮廓分支之间的特征级消息传递的查询。我们表明，添加 X结构的消息传递单元（Xs）提高了骨架和轮廓关键点的预测精度。然后我们发现，由于其效率和灵活性，定向卷积（DC）可以是更好的替代，在我们的实验中，DC在TRB的平均PCKh中击败Xs 0.6%。为了进一步分析DC的功效，我们比较了具有相同参数大小的DC单元和正常卷积。结果表明，DC以0.9%的大幅度击败Normal Conv。在多径方向卷积融合（DC-Ada）中，我们也去掉了自适应权值，使融合效果下降了0.3%。它表明自适应加权方案对于DC工作是重要的。DC在骨架和轮廓关键点上分别比基线提高了1.4%和2.1%，这表明我们提出的消息传递方案的有效性。表. 图2呈现了上面讨论的不同消息传递方案的消融结果。表2.定向回旋的消融研究接入\方法骨架轮廓多任务XS正常ConvDC- AdaDC谢谢88.0-88.688.988.789.189.4Con.-84.184.885.685.385.986.2是说--86.286.886.587.187.4成对映射。成对映射策略进一步加强了显式三元组表示的一致性。通过将成对映射模块添加到具有轮廓注释（Contour）的多任务基线，我们获得了平均PCKh的1.0%改善。我们进一步证明了效率，ficacy的成对映射集成到姿态估计，通过检查中间结果。在每个堆栈中，我们首先得到粗略估计（-c）。然后，我们用数据学习变形来变形它们，以加强表示一致性。最后，我们融合原始热图和扭曲热图以生成更精细的估计结果（-f）。我们发现，成对映射和融合一致地提高TRB估计结果。在成对映射和融合之后的TRB估计结果始终优于原始粗略估计，在网络的早期堆栈中，改进非常大。通过结合方向卷积与成对映射（DC + PM），整体性能进一步提高到87.6%。详细结果列于表3中。表3.成对标测的消融研究接入\方法stack1-cstack1-fstack2-cstack2-f多任务下午DC + PM谢谢86.287.288.989.188.689.289.6Con.83.284.285.486.184.886.186.5是说84.385.386.687.286.287.287.65.4. 用于形状编辑的TRBTRB包含丰富的人体形状信息，可以在各种应用中利用。使用TRB进行条件图像生成和照片编辑的前景是有希望的。在本节中，我们将展示其在人体形状编辑上的应用。在[11]之后，我们开发了一个用于人类生成和基于人类姿势和形状的风格转移条件的可变u-网我们在DeepFashion上进行实验[23]。一些结果显示在图中。9，其中我们编辑轮廓点以改变大腿和上身的形状，同时保持姿势和外观固定。具体来说，当编辑腿部形状时，我们沿着由同一三元组中的两个轮廓点定义的轴移动内侧轮廓点。除此之外，当生成更强的上身时，两个侧向肩部轮廓点之间的距离增加。9486累计工程908580757065图10. COCO验证结果。 “sub”表示仅使用一半的数据进行训练。通过单尺度测试和翻转获得结果。表5. MPII测试集的定量结果（PCKh@0.5）图9. 基于轮廓点的图像生成。我们编辑大腿和上臂的轮廓点，生成不同体型的人体。第一行和第三行表示我们用于生成的外观。第一行按强到细的顺序，第三行按细到强的顺序。The edited contour key- points are highlighted in white.第2行和第4行表示生成的图像。TRB是一个紧凑而强大的形状表示，它使人类形状编辑可能只给出少数语义关键点。语义解析提供像素级人体部位信息。然而，由于缺乏准确的定位信息，它不能直接用于形状编辑。像Dense- Pose [1]这样的3D表示可以用于形状编辑[27]，但它们不支持任意的2D形状操作。与DensePose相比，我们的编辑要轻得多，不需要繁重的中间表示。5.5. 骨架估计数据集表4.LSP测试集的定量结果（PCK@0.2）头肩膀肘手腕髋膝脚踝是说AUCChu等人CVPR98.193.789.386.993.494.092.592.664.9Yang等人ICCV98.394.592.288.994.495.093.793.968.5Ning等人TMM98.294.491.889.394.795.093.593.969.1Chou等人arxiv98.294.992.289.594.295.094.194.069.6Zhang等人[43 ]第43话98.494.892.089.494.494.893.894.0-Liu等人AAAI98.194.091.089.093.495.294.493.6-我们98.595.392.690.693.895.895.594.569.9LSP。表4呈现了我们的方法和先前方法在LSP数据集上的实验结果。在[42]的设置之后，使用百分比正确关键点（PCK）度量进行评估，其中标准距离是图像上人的左肩和右髋之间的距离的0.2倍我们的方法实现了94.5%的PCK，并且始终优于最先进的技术。特别是，我们的方法超过了以前的方法，ods的硬关键点，如手腕和脚踝相当大的利润率。我们在局部定位上的成功证实了肢体周围边界信息的益处MPII。表5显示了MPII数据集的结果。根据[2]，选择PCKh作为测量值。在该度量下，测量精度的距离阈值是头部尺寸的一半。注意，Nie et al.使用额外的数据集LIP [15]进行训练，其中包含50000张带有逐像素注释的语义人体部位标签的图像，以及Zhang等人。使用额外的数据集LSP（其包含更具挑战性的姿势）进行训练。通过利用人体轮廓的视觉证据，我们的模型优于仅使用MPII进行训练的最先进的方法，并且与使用外部数据的方法竞争。可可COCO中的150000个人类实例中有一半是用TRB注释的。我们按照[18]中的设置进行实验。我们的基线经过微调，与[18]中报告的结果相比具有更高的准确性（71.9 v.s. 70.9）。图图10示出了在强基线之外进行了相当大且一致的改进。与使用所有数据的基线相比，使用一半的数据，我们的方法（hg 2-ours sub）达到了有竞争力的性能，这说明了我们设计的轮廓关键点的效率有关COCO测试开发的结果，请参见补充资料。6. 结论在这项工作中，我们提出了TRB，一个新的身体表示，包括二维人体姿势和形状。轮廓关键点被包括作为超出传统骨架标志的2D形状的紧凑表示我们为新提出的TRB估计任务设置了一个基准，在新的设置中比较我们进一步提出了一个有效的多任务网络来学习人体骨骼和轮廓联合。使用基于TRB的条件人体图像生成，我们说明了所提出的表示的有效性和明确性。89.688.588.987.580.37978.4 78.476.777.275.374.273.671.471.970.169.268.768.166.3APAPAP50AP75APMAPLHg2 subhg2-ours sub hg2汞汞头肩膀肘手腕髋膝脚踝是说AUCNing等人，TMM98.196.392.287.890.687.682.791.263.6Chu等人，CVPR98.596.391.988.190.688.085.091.563.8Nie等人，CVPR’1898.696.993.089.191.789.086.292.465.9Zhang等人[43 ]第43话98.697.092.888.891.789.886.692.5-Liu等人AAAI98.496.492.087.890.788.385.391.664.6我们98.596.692.688.391.689.286.592.265.49487引用[1] RızaAlpGuüler、Nat a liaN ev er ov a和IasonasKokkinos。密度：野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第7297-7306页，2018年。二、八[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在 Proceedings of the IEEE Conference oncomputer Vision and Pattern Recognition，第3686-3693页一二三八[3] Mykhaylo Andriluka Stefan Roth和Bernt Schiele重新访问图片结构：人物检测和关节姿态估计。在2009年IEEE计算机视觉和模式识别上，第1014IEEE，2009年。2[4] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。景观：人的形体完成与动画在ACM图形交易，第24卷，第408-416页中ACM，2005年。2[5] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。arXiv预印本arXiv：1611.08050，2016年。2[6] Xianjie Chen，Roozbeh Mottaghi，Xiaobao Liu，SanjaFi-dler，Raquel Urtasun，and Alan Yuille.检测您可以：使用整体模型和身体部位检测和表示对象。在IEEE计算机视觉和模式识别会议论文集，第1971- 1978页，2014年。一、二[7] Chia-Jung Chou ， Jui-Ting Chien ， and Hwann-TzongChen.人体姿态估计的自对抗训练。arXiv预印本arXiv：1707.02439，2017。8[8] Xiao Chu，Wanli Ouyang，Hongsheng Li，and XiaogangWang.用于姿态估计的结构化特征学习。在IEEE计算机视觉和模式识别会议论文集，第4715-4723页，2016年。6[9] Xiao Chu，Wanli Ouyang，Xiaogang Wang，et al. crf-cnn：人体姿态估计中的结构化信息建模。神经信息处理系统进展，第316-324页，2016年2[10] Xiao Chu，Wei Yang，Wanli Ouyang，Cheng Ma，AlanL Yuille，and Xiaogang Wang.用于人类姿态估计的多上下文注意。arXiv预印本arXiv：1702.07432，1（2），2017。二、八[11] Patri c kEsse r，EkaterinaSutte r，andBj oürnOmme r. 用于条件外观和形状生成的可变u-网在IEEE计算机视觉和模式识别会议论文集，第8857-8866页7[12] Pedro F Felzenszwalb和Daniel P Huttenlocher。用于物体识别的图形结构。国际计算机视觉杂志，61（1）：55-79，2005。2[13] Oren Freifeld ， Alexander Weiss ， Silvia Zuffi ， andMichael J Black.轮廓人物：二维人体的参数化模型。在2010年IEEE计算机协会计算机视觉和模式识别会议上，第639-646页IEEE，2010。2[14] GeorgiaGkioxari ， RossGirshick ， PiotrDolla'r ，andKaimingHe.检测和识别人机交互。在IEEE计算机视觉和模式识别会议论文集，第8359-8367页2[15] Ke Gong ， Xiaodan Liang ， Dongyu Zhang ， XiaohuiShen，and Liang Lin.看人：自我监督结构敏感学习和人类解析的新基准。在IEEE计算机视觉和模式识别会议论文集，第932-940页一、二、八[16] Sheng Jin，Wentao Liu，Wanli Ouyang，and Chen Qian.具有空间和时间嵌入的多人铰接式跟踪。在IEEE计算机视觉和模式识别会议论文集，第5664- 5673页，2019年。2[17] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。2010. 一、二、三[18] Wenbo Li，Zhicheng Wang，Binyi Yin，Qixiang Peng，Yum- ing Du，Tianzi Xiao，Gang Yu，Hongtao Lu，Yichen Wei，and Jian Sun.重新思考用于人体姿态估计的多级网络arXiv预印本arXiv：1901.00148，2019。8[19] Xiaodan Liang，Chunyan Xu，Xiaohui Shen，JianchaoYang，Si Liu，Jinhui Tang，Liang Lin，and ShuichengYan.使用上下文化卷积神经网络的人类解析在IEEEInter

下载后可阅读完整内容，剩余1页未读，立即下载