没有合适的资源?快使用搜索试试~ 我知道了~
1107学习相关部位的特定特征有助于人体姿势估计吗唐伟和吴英西北大学2145 Sheridan Road,埃文斯顿,IL 60208{wtt450,yingwu}@ eecs.northwestern.edu摘要人体姿态估计(HPE)本质上是一个同构的多任务学习问题,每个身体部位的定位是一个不同的任务。最近的慧与方法普遍学习所有部件的共享表示,并从中线性回归它们的位置。然而,我们的统计分析表明,并非所有部分都相互关联因此,这种共享机制可能导致负迁移,并降低性能。这个潜在的问题促使我们提出一个有趣的问题.我们是否可以识别相关部分并学习它们的特定特征以改进姿势估计?由于不相关的任务不再共享高水平的表征,我们希望避免负迁移的负面影响。此外,更明确的结构知识,例如,脚踝和膝盖高度相关,被纳入模型,这有助于解决HPE中的模糊性。为了回答这个问题,我们首先提出了一种数据驱动的方法,根据它们共享的信息量对相关部件进行分组。然后引入基于零件的分支网络(PBN)来学习每个零件组的特定表示。我们进一步提出了一个多阶段的版本,这个网络反复完善中间的功能和姿态估计。消融实验表明,学习特定特征可显著改善闭塞部位的定位,从而使HPE受益。我们的方法在两个基准数据集上的性能也优于所有最先进的方法,在发生遮挡时具有突出的优势。1. 介绍人体姿态估计(HPE)旨在从输入图像1中定位身体部位。它是一些实际应用的基本工具,如人机交互[27]、人员重新识别[34]和动作识别[46]。早期的工作试图通过手工制作的特征和图形模型来解决这个问题[10,30,32,36,1我们专注于从RGB图像进行2D单人姿势估计。图1.上图:以前的方法利用CNN来学习所有身体部位的完全共享特征,并以空间坐标或热图的形式线性回归它们的位置。中间:每个部件位置的互信息右脚踝的位置下图:我们的统计分析(第二节)。3.1)表明并非所有部分都相互关联。基于共享不相关任务的表示可以提高其性能的事实,本文试图识别相关部分并研究学习它们的特定特征是否有助于提高姿态估计。41、53]。然而,他们未能表现出良好的情况下,严重的身体变形,遮挡,混乱的背景和不同的观点。为了解决这些困难,最近和最先进的HPE系统[18,38,49,50,5,6,35,3,28,48,51,45]1108普遍建立在卷积神经网络(CNN)上[11,21,20],因为它们能够直接从数据中学习图像和空间上下文的鲁棒特征表示。Toshev和Szegedy [45]使用级联CNN以整体方式回归身体关节的空间坐标。 Wei等[48]设计一个多级网络,以递归地细化零件位置的置信图。Newell等人[28]通过新颖的沙漏网络整合所有尺度的特征,以捕捉与身体相关的各种空间关系。Tang等人[38]利用CNN来学习人体的组成性[39],以解决高级姿势预测中的低级模糊性。这些方法的一个共同点是,它们学习一个共享的表示来线性回归所有零件位置(以空间坐标或热图的形式),如图1的上半部分所示。1.一、这比针对不同部分学习不同网络更有效,因为HPE本质上是一个同构多任务学习(MTL)问题[33],每个部分的本地化都是不同的任务。在相关任务之间共享表示可以产生更紧凑的模型和更好的泛化能力[4,33]。具体来说,CNN的前几层学习低级特征,如Gabor滤波器和颜色斑点,这对许多数据集和任务都是通用的[54]。高级语义,例如,身体部位,出现在更深的层次[56,54]。某些部分的提示,例如,膝盖,提供了重要信息和对定位其它相关部件的约束,例如,脚踝,这是很难学习,如果表示不共享[4,33]。然而,由于铰接体的柔性,并非所有部件都彼此相关。例如,左手腕或右手腕的线索提供的右脚踝位置的信息1.一、正如MTL文献[4,33,19,17]中所研究的那样,那些不相关或弱相关任务的共享特征可能会降低其绩效虽然相关部分的提示为定位模糊或遮挡部分提供了可靠的指导,但来自不相关特征的回归使模型强制记忆它们并导致过拟合[8]。这种分析促使我们提出一个有趣的问题。我们能识别相关的部分,并学习他们的具体特征,以提高姿态估计?这个想法是说明在图的下部。1.一、在卷积网络的较浅层中学习的表示是通用的[54,56],因此可以在所有部分之间安全地共享。由于不相关的任务不再共享高层次的特征,我们希望避免负迁移的负面影响。此外,更明确的结构知识,脚踝和膝盖是高度相关的,是暴露的,这鼓励模型利用相关部分的提示来解决HPE中的模糊性。本文旨在对这一问题进行全面的研究。我们从两个策略开始,以确定重新-零件第一个是手工制作的,基于人体结构[41,38,59]。直觉上,自然界中相互联系的部分是相关的。第二种策略是数据驱动的,将每个零件的位置视为随机变量.我们从公共数据集[1]中估计它们的概率分布,并根据它们的互信息对相关部分进行然后介绍了一种基于部分的分支网络(PBN)。它由一个主干和一些后续分支组成,主干用于学习对所有身体部位通用的共享表示,后续分支用于学习特定于每组相关部位的高级特征。最后,我们提出了一个多阶段的版本,这个网络反复完善中间的功能和姿态估计。我们的消融研究表明,(1)数据驱动的部件分组策略通常比手工制作的策略效果更好,(2)学习这些特定特征显著改善了闭塞部件的定位,从而使HPE受益。两个基准测试的实验结果表明,该方法优于所有国家的最先进的方法,具有明显的优势时,发生遮挡。总之,本文的贡献如下。• 之前所有基于CNN的HPE方法都认为,所有机构都应该完全共享功能,零件.据我们所知,我们是第一个发现这种做法的问题,并通过一个简单有效的基于零件的分支网络来解决它。• 这是第一次尝试利用概率分布的零件位置和他们的互信息组相关的零件。我们证明它更有效而不是基于人体结构的替代方法• 我们的模型在定位遮挡部分方面具有突出的优势,这是前-筛选方法。我们还报告了两个著名的基准数据集上的最新结果。2. 相关工作基于CNN的HPE。与所有以前的基于CNN的HPE方法不同[18,38,49,50,5,6,35,3,28,48,51,45],这些方法学习所有身体部位的完全共享表示,本文旨在全面研究学习相关部位的特定特征是否有助于HPE。此外,我们提出了不同的策略,以确定相关的部分,并测试其有效性。MTL。通过使用共享表示并行学习任务,MTL [4,58,13,26]利用相关任务的训练信号中包含的域信息作为归纳偏差来提高泛化能力。它期望每个任务所学到的东西可以帮助其他任务更好地1109近年来,MTL已成功地应用于路标检测. Zhang等人[57]优化面部标志检测以及异质但微妙相关任务,即,头部姿态估计和面部属性推断。Ranjan等人[31]设计一个统一的深度MTL框架,用于同时进行人脸检测、地标定位、姿态估计和性别识别。Li等[22]在深度神经网络中同时学习姿势关节回归器和滑动窗口身体部位检测器。所有这些方法都将所有地标的定位视为单个任务,并为联合训练引入一些辅助任务。相比之下,我们只专注于HPE,并明确将每个部件的本地化视为不同的任务。此外,当我们学习相关部分的特定特征时,它们共享所有地标的表示。一些早期的工作[19,17]试图通过施加一些结构性先验来解决负迁移问题,例如,稀疏性,模型参数。然而,它们专注于具有预定义特征的线性模型。最近,Yanget al. [52]利用张量分解在全连接和卷积层中灵活地共享 Lu等人[24]提出了一种贪婪和动态的策略来构建MTL网络。然而,它们侧重于网络建设,并将其范围限制在其产出没有结构化的分类任务上。相比之下,我们是第一个发现在HPE环境中共享所有身体部位表示的问题这也是第一次研究是否学习相关部分的特定功能,提高姿态估计。此外,我们还提出了一种新颖而有效的策略图2.(a)每对身体部位之间的归一化互信息(b)通过将谱聚类应用于(a)中的矩阵而获得的五组相关部分。身体部位可分为六组:(1)头顶、上颈和胸部,(2)左腕、左肘和左肩,(3)右腕、右肘和右肩,(4)左膝和左踝,(5)右膝和右踝,(6)左髋、右髋和骨盆。第二种策略将每个部分的位置视为随机变量lm∈L,m∈ {1,.,M},其中L是空间域,M是感兴趣的身体部位的总数。测量两个随机变量之间的相关性或相互依赖性的一种自然方法是计算它们的互信息[25]:ΣΣp(lm,ln)通过测量它们的相互信息来识别相关部分第相关部分。 几条研究路线使得I(lm,ln)=lm∈Lln∈Lp(lm,ln)logp(lm)p(ln)(一)使用相关部件为HPE构建分层图形模型[10,16,29,30,41,47]或网络架构[38]。我们的方法与他们的不同之处在于:(1)他们对所有身体部位使用完全共享(手工制作或学习)的特征,而我们则学习相关部位的特定特征;(2)他们基于身体结构手动定义相关部分,而我们也考虑基于互信息的数据驱动方法。3. 我们的方法我们首先介绍两种策略来识别相关的身体部位(第二节)。第3.1节)。然后,提出了一个基于部件的分支网络来学习它们的特定特征(第二节)。3.2)。最后,我们提出了一个多阶段版本的网络,以反复完善中间特征和部分定位(第二节)。3.3)。3.1. 相关身体部位识别相关部位的最直接方法是利用人体结构。直觉上,自然界中相连的部分是相关的。[38,41],16其中p(·)和p(·,·)分别表示整数,联合概率分布它量化了通过观察另一个随机变量而获得的关于一个随机变量的信息。 I(lm,ln)的高值指示与部分m强烈相关的特征也提供部分n的信息线索,反之亦然。因此,让他们有一个高级别代表应该是有益的。与衡量两个随机变量之间线性关联强度的皮尔逊相关性相比,互信息在这里是一个更合适的度量,因为它同时考虑了线性和非线性关联,并且当且仅当两个随机变量独立时为零我们估计分布的部分位置的数据在一个非参数的方式。这里采用MPII人体姿势数据集[1]是因为(1)它有25k个带有高质量注释的训练样本,例如,人体姿势、比例和中心,以及(2)它涵盖了广泛的日常人体活动和各种各样的全身姿势。我们缩放姿势并将它们集中在标准化的空间域中,即,一个16×16的格子低分辨率是必要的,因为(1)使得统计估计对小姿态具有鲁棒性1110扰动和(2)样本的总数是有限的。然后我们使用直方图来估计p(lm,ln),其中m,n ∈ {1,., M}。图2(a)可视化了在每对身体部位之间计算的互信息。为了关注不同部分之间的相关性,我们删除了对角元素,并对所有剩余条目进行了在[0,1]范围内。很明显,有些部分,右脚踝和左脚踝比其它的更相关,例如,右脚踝和左手腕最后,我们将{I(lm,ln)}m,n∈{1,.,M}作为亲和矩阵,并使用谱聚类[9]对相关部分进行分组。例如,将群集编号设置为5将导致在图1所示的部件分组中,第2段(b)分段。我们可以看到,同一组中的大多数部分都连接在身体中,这与我们的直觉一致。唯一的例外是由紫色圆点表示的脚踝和膝盖组。这个结果从图中很容易理解。2(a):它们彼此之间共享高的互信息值。即使群集编号增加1,这四个部件仍将在同一组中。相反,头部和颈部将与肩部和胸部分离。3.2. 基于部件的分支网络(PBN)如示于图3、基于部分的分支网络(PBN)是由两个顺序阶段组成的CNN架构:一个主干用于学习对所有身体部位通用的共享表示,一些分支用于学习特定于每组相关部位的高级特征。遵循单人姿势估计的标准协议[6,18,28,38,50],其输入是围绕目标人裁剪并缩放到固定大小的RGB图像,例如,256 ×256。该网络首先使用卷积和最大池来产生具有减小空间维度但增加通道数量的特征图,这是最近CNN架构中采用的做法[14,28,38,50]。具体来说,它始于三个3×3卷积层(64通道)和一个2×2池化层(第一次卷积后),然后是残差块2(128通道)和另一轮池化,将分辨率从256×256降低到64×64。在两个后续的残差块(128和256通道)之后,我们得到分辨率为64×64的256通道特征图,即,图中的第一个黄色矩形。3 .第三章。接下来是一个沙漏网络[28],以加强共享表示。它使用残差块和最大池来处理输入特征到非常低的分辨率,即,四乘四。在每个最大池化步骤中,网络2瓶颈残差块[14]在整个网络中使用。它由三层组成,1×1、3×3和1×1卷积。1×1层负责减少然后增加(恢复)维度,使3×3层成为具有较小输入/输出维度的瓶颈图3.HPE基于部件的分支网络(PBN)的图示灰色和蓝色矩形分别表示输入图像和预测热图。黄色和绿色矩形分别代表共享和特定功能。通道编号包含在每个彩色矩形中。MSE损失被应用于将预测的热图与地面实况热图进行比较。分支并以原始的预合并分辨率应用一个或多个剩余块当达到最低分辨率时,它开始自上而下的上采样和逐元素添加序列,以跨尺度组合特征。在输出分辨率下的后续残差块之后,网络输出与其输入相同大小的特征图。这里的所有残差块输出256通道特征。这里采用沙漏网络有两个原因。首先,通过处理和合并多尺度的特征,它捕获输入特征图中的各种空间关系和上下文。其次,八层沙漏网络及其最近的变体[6,50,18,38]在标准基准点上取得了最先进的结果。因此,它可以作为一个合适的基线来测试学习相关部分的特定特征是否有助于改善姿势估计。最后,网络使用一组分支来学习相关部件的特定特征,如图所示。3.第三章。对于每个部件组,我们首先应用1×1卷积来减少特征尺寸从256到W,例如,W=64。在D个后续残余块之后,例如,D=1时,用另一个1×1卷积来回归每个部分的热图,组热图的每个像素表示部件在相应坐标处存在的概率。这里W和D是两个超参数,分别控制特定特征层的宽度和深度[14]。我们将使用烧蚀实验来研究它们如何 影响HPE性能 。在 训练阶 段, 应用均 方误 差(MSE)损失来将预测的热图与由以部件位置为中心的2D高斯(std= 1像素)组成的地面实况热图进行比较。由于不相关的任务不再使用完全共享的表征来学习,PBN可以减少负迁移的不利影响。与对不同的部件使用不同的分支或对所有部件使用一个分支相比,我们的方法包含了更明确的结构知识,1111图4. 堆叠多个PBN的图示。 图中的符号三是在此重用。每个PBN预测一组热图,即,蓝色的长方形。MSE损失使用相同的地面真值(图中省略)应用于它们。橙色和绿色虚线表示将共享或特定特征传播到下一个PBN的两个选项。在实践中,我们发现前者的效果更好。表1. MPII测试集上PCKh@0.5评分的比较。例如,踝关节和膝关节高度相关,杨,ICCV头97.4昭 Elb. Wri. 髋96.2 91.1 86.9 90.1膝86.0谢谢83.9是说91.0并引导其利用相关部分的提示来解决am-Tang,ECCV97.4 96.2 91.0 86.9 90.6 86.884.591.2姿态估计中的模糊性。我们97.596.5 91.7 87.7 91.187.785.291.83.3. 堆叠PBN最近的研究[28,50,6,38]表明,端到端顺序堆叠多个CNN模块,将一个模块的输出作为下一个模块的输入,可以在整个图像中反复优化初始估计和中间特征。这促使我们将我们的网络扩展到如图所示的多阶段版本。4.第一章Newellet al. [28],三个特征图通过elementwise addi融合选项:(1)来自当前沙漏输入的身份映射,(2)通过1×1卷积重新映射的热图预测,以匹配中间特征的通道编号,以及(3)沙漏后的共享特征,图中橙色虚线所示。4.第一章然后,融合结果直接用作下一个PBN的输入,其生成另一组预测。MSE损失应用于使用相同地面实况的所有堆叠PBN的预测。我们还考虑了将特定特征而不是共享特征传播到随后的PBN,如图中的绿色虚线所4.第一章然而,我们实际上发现这会给学习过程带来困难,增加训练和验证损失,并降低HPE的性能。4. 实验我们的方法基于两个慧与基准数据集进行评估:MPII人体姿势[1]和利兹运动姿势(LSP)[16]。MPII数据集由大约25k图像和40k注释样本组成(28k用于训练,11k用于测试)。在[43,28,38]之后,将3k个样本作为验证集,以调整超参数并进行消融研究。LSP数据集及其扩展训练集包含来自体育运动的表2.MPII验证集上PCKh@0.5评分的比较活动作为一种常见的做法[48,6,38],我们通过包含MPII训练样本来训练网络。根 据 之 前 的 工 作 , 我 们 使 用 Cor-rect Keypoints(PCK)[1]的百分比它计算落在地面实况的归一化距离内的零件定位的百分比对于LSP,距离通过躯干尺寸标准化,对于MPII,通过头部尺寸的分数(称为PCKh)标准化。4.1. 实现细节根据标注的身体位置和比例在目标人周围裁剪每个输入图像然后将它们调整为256×256像素,然后输入网络。训练数据通过随机缩放(+/-0.25)、旋转(+/-30度)、剪切(+/-0.5)、水平(+/-0.5)和水平(+/-0.5)来增强。图像翻转和颜色抖动。我们的实现基于Torch [7]。我们通过RMSProp优化网络[42]对于250个epochs,批量大小为16。学习率初始化为2。5×10−4,然后在第170和220个历元下降了10倍。最终预测是由最后一个PBN估计的每个热图的最大激活位置4.2. 基准测试结果我们使用八栈PBN进行基准评估。具有64个输入/输出通道的一个残差块,即,D=1和W=64,用于学习图中所示的每个零件组的特定特征。第2段(b)分段。测试是在具有翻转的六尺度图像金字塔上进行的[50,38]。MPII。选项卡. 1比较了我们的网络和最新HPE方法在MPII测试集上的性能。头昭Elb. Wri.髋膝谢谢 是说Bulat,ECCV97.995.1 89.9 85.3 89.4 85.781.789.7Gkioxary,ECCV96.293.1 86.7 82.1 85.2 81.474.186.1[ 15 ]第十五话96.895.2 89.3 84.4 88.4 83.478.088.5[ 23 ]第二十三话97.893.3 85.7 80.4 85.3 76.670.285.0纽厄尔,ECCV98.296.3 91.2 87.1 90.1 87.483.690.9Belagiannis,FG97.795.0 88.2 83.0 87.9 82.678.488.1Chu,CVPR98.596.3 91.9 88.1 90.6 88.085.091.5陈,ICCV98.196.5 92.5 88.5 90.2 89.686.091.9[ 37 ]第三十七话97.594.3 87.0 81.2 86.5 78.575.486.4[ 35 ]第三十五话98.196.2 91.2 87.2 89.8 87.484.191.0杨,ICCV98.596.7 92.5 88.7 91.1 88.686.092.0Ke,ECCV98.596.8 92.7 88.4 90.6 89.486.392.1Tang,ECCV98.496.9 92.6 88.7 91.8 89.486.292.3我们98.797.1 93.1 89.4 91.990.186.792.71112校长Elb. Wri.髋膝关节平均值Yang,ICCVTang,ECCV'18 [ 38 ] -90.5 74.5 62.9 84.2 68.862.2 76.7我们的-92.0 76.2 64.670.363.278.2表3. MPII验证集中不可见部分的PCKh@0.5Bulat,ECCV头97.2昭92.1Elb.88.1Wri.85.2髋92.2膝91.4谢谢88.7是说90.7[ 15 ]第十五话97.492.7 87.5 84.4 91.5 89.987.290.1[ 23 ]第二十三话96.889.0 82.7 79.1 90.9 86.082.586.7Yu,ECCV87.288.2 82.4 76.3 91.4 85.878.784.3Chu,CVPR98.193.7 89.3 86.9 93.4 94.092.592.6陈,ICCV98.594.0 89.8 87.5 93.9 94.193.093.1[ 35 ]第三十五话97.993.6 89.0 85.8 92.9 91.290.591.6杨,ICCV98.394.5 92.2 88.9 94.495.093.793.9Tang,ECCV97.595.0 92.5 90.1 93.7 95.294.294.0我们98.695.4 93.3 89.8 94.3 95.794.494.5表4.LSP测试集上PCK@0.2评分的比较校长Elb. Wri.髋膝关节平均唐,ECCV 98.395.9 93.5 90.7 95.0 96.695.795.1我们的98.796.4 94.3 90.6 95.297.295.7九十五点四表5.校正LSP测试集上PCK@0.2评分的比较我们的方法实现了总体PCKh@0.5得分92.7%,这是一个新的最先进的结果。它也优于所有以前的方法对每个单独的身体部位。选项卡. 2比较了我们的模型在MPII验证集上的性能与两种最先进的方法3的性能。我们的网络在所有方面都获得了最高分。MPII数据集还为每个部件(头部除外)提供可见性注释这使我们能够评估不同的模型上的不可见部分的子集,并研究其鲁棒性的闭塞。结果见表。3 .第三章。请注意,这三个网络都没有利用视觉标签进行训练。比较选项卡。如图2和图3所示,我们可以观察到阻塞显著恶化了所有方法的性能。高精度的姿态估计仍然是一个巨大的挑战。然而,针对相关部件学习的特定特征提供了关于被遮挡部件的位置的信息提示和约束,这导致比最先进的方法好得多的性能。特别是,与MPII数据集上表现最好的方法[38]相比,我们的模型在肩部、肘部、手腕、臀部、膝盖和脚踝上分别实现了1.5%、1.7%、1.7%、1.9%、1.5%和1.0%的改善LSP。选项卡. 4比较了我们的模型和最新HPE方法在 LSP 测 试 集 上 的 性 能 。 我 们 的 方 法 实 现 了 总 体PCK@0.2评分94.5%,优于所有最先进的方法。Tang等人3在选项卡中。2和3,[50,38]对MPII验证集的预测由其各自的作者发布。[38]发现LSP数据集中的一些注释在错误的一侧,并手动更正它们。选项卡. 5将他们的方法与我们的方法在校正的测试集上进行了比较,结果表明我们的网络具有更好的整体性能。4.3. 消融研究我们在MPII验证装置上进行了烧蚀实验。10个硬接头的平均PCKh@0.5,即,脚踝、膝盖、臀部、手腕和肘部被用作评估度量。我们在所有的实验中使用单尺度测试。特定要素图层的深度和宽度。图5(a)比较了使用D=1和D=2残余块来学习每组相关部分的特定特征我们可以看到,使用更多的残差块通常会降低姿态估计,而不管通道数量如何。我们也尝试了D=3,得到了同样的结果。这可能是由于过拟合,因为增加D总是导致较低的训练损失。因此,我们在剩余的烧蚀实验中设置D=1图5(b)示出了特定特征层的宽度如何影响性能。使用更多的功能通道并不总是导致性能的提高。W=64是准确性和复杂性之间的一个很好的平衡。特定的要素图层是否有帮助?我们试图对学习相关部件的特定功能是否有助于提高HPE进行严格的研究。我们首先通过从我们的网络中重新移动分支并添加线性层来预测所有部分的热图来构建基线。图5(c)显示它的性能比我们的原始模型差得多。为了排除较大模型容量带来的优势,我们还考虑了深基线(表示为深BS)。它是通过将我们的分支替换为256通道的残差块,然后是用于热图回归的线性层来构建的图5(c)显示,我们的网络具有更少的参数和更低的计算复杂度,明显优于这个深度基线。我们进一步比较了八堆栈PBN,这已被用于基准评估,其深基线。选项卡. 6表明,我们的方法可以实现更好的整体性能与较小的模型容量。学习特定的特征而不是完全共享的表示导致遮挡部分的总体改善1.3%,同时保留可见部分的高精度选项卡. 7表明,我们的模型分别实现了2.02%,1.85%和1.91%的改善闭塞的手腕,臀部和脚踝,这被认为是最具挑战性的部分被检测。部件分组策略。 我们考虑了两种策略来确定第二节中的相关部件。第3.1条它们分别基于人体结构(表示为Body)和统计分析(表示为Stat),即,部件之间的相互图5(d)显示,无论特定特征层的宽度如何,所提出的数据驱动方法总是优于手工方法1113图5.使用三叠PBN变体的消融研究。(D,W)表示特定特征层的深度和宽度。除非另外说明,否则具有64个输入/输出通道的一个残差块,即,D= 1和W= 64,用于学习图1所示五个部件组中每个部件组的特定特征。第2段(b)分段。参见第4.3详细分析。不可见部分 可见部分 总体参数深BS(8个堆栈)70.29 93.2287.7427.22M我们的(8叠)71.5993.3188.1426.69M表6.八叠PBN和其在MPII验证集上的深基线的比较报告了10个硬关节的平均PCKh@0.5Elb.Wri.髋膝关节平均深度BS(8个堆栈)75.0562.1083.4369.3061.57 70.29我们的(8叠)75.14六十四点一二八十五点二八六十九点九二六十三点四十八分 七十一点五九表7.通过八叠PBN及其深度基线在MPII验证集中不可见部分获得的PCKh@0.5评分的比较报告了10个硬接头的结果零件组的数量。我们通过在Sec中设置集群数来研究组数对HPE性能的影响。3.1至2、5、8或16。结果示于图5(e). 虽然将组数从2增加到5可以提高性能,但使用5个以上的组几乎无法进一步提高性能。重叠的群体。我们在第二节中确定的部件组。3.1是不相交的集合,即,没有共同元素的。仔细看看图。2(a),我们发现存在共享重要互信息但不在同一组中的部分,例如,左(右)肘和左(右)肩。这促使我们学习特定的功能,重叠零件组。 对于每个中的相关部分,组,我们仍然使用残差块和线性层来回归他们的热图。如果来自不同分支的多个热图对应于同一部分,我们使用它们的平均值作为最终预测。图5(f)报告了使用重叠组获得的结果。左(右)肩分为两组:它的原始组由图中的黄点表示。2(b)和左(右)肘和左(右)腕的组。我们可以看到使用重叠组并不能提高性能。堆叠PBN中的特征融合。 我们发现传播共享功能沿主干的网络,即, 图中的橙色虚线4,通常比将特定特征与共享特征融合更好地工作,即,图中的绿色虚线。4.第一章对于三层网络,前者和后者的PCKh@0.5分数分别为87.30%和87.21%。他们的训练损失是分别为1。95×10−3和1。99 ×10−3。对于八叠PBN,该间隙更显著:PCKh@0.5分和4分时分别为88.14%和87.68%。99×10−3对5。11×10−3训练损失。负转移。我们发现,从沙漏网络的任务中移除脚踝通常会改善上身部位的局部化(0。30%),但降低了下半身的结果(0.45%)。这表明(1)学习相关的身体部位是有益的,(2)在不相关的部位之间共享特征可能是有害的。1114图6.通过我们的方法在MPII数据集(顶部两行)和LSP数据集(底部两行)上获得的人类姿势估计结果图7.示例显示我们的方法可以处理自遮挡(顶行)和其他遮挡(底行)。4.4. 定性结果图6示出了通过我们的方法在MPII数据集和LSP数据集上获得的一些姿态估计结果。图7提供了一些示例,显示我们的方法可以处理自遮挡和其他遮挡。图8显示了我们的方法能够纠正由于遮挡而通过最先进的方法[38]获得的一些错误的图8.示例显示我们的方法(底行)能够纠正由于遮挡(顶行)而通过最先进的方法[38]获得的一些错误的部分定位(由绿色圆圈突出显示)。5. 结论通过大量的基准实验和消融研究,我们得出结论,学习相关身体部位的特定特征显着提高了遮挡部位的定位,从而有利于人体姿态估计。谢谢。 这项工作得到了部分支持美国国家科学基金会资助IIS-1619078、IIS- 1815561和陆军研究办公室ARO W 911 NF-16- 1-0138。1115引用[1] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新的基准和最先进的分析。CVPR,2014。二三五[2] Vasileios Belagiannis和Andrew Zisserman。周期性人体姿态估计.在FG,2017年。5[3] Adrian Bulat和Georgios Tzimiropoulos通过卷积部分热图回归的人体姿势估计在ECCV,2016年。一、二、五、六[4] 瑞奇·卡鲁阿纳多任务学习。机器学习,1997年。2[5] Yu Chen , Chunhua Shen , Xiu-Shen Wei , LingqiaoLiu,and Jian Yang.对抗性posenet:用于人体姿态估计的结构感知卷积网络。InICCV,2017. 一、二、五、六[6] Xiao Chu,Wei Yang,Wanli Ouyang,Cheng Ma,AlanL Yuille,and Xiaogang Wang.用于人类姿态估计的多上下文注意。在CVPR,2017年。一二四五六[7] RonanCollobert,KorayK a vukcuoglu和Cl e'mentFarabet。Torch7:类似matlab的机器学习环境在NIPS研讨会,2011年。5[8] 邓侃。Omega:基于内存的在线通用系统分类器。博士论文,卡内基梅隆大学,1998年。2[9] Inderjit S Dhillon,Yuqiang Guan,and Brian Kulis.核k-均值:谱聚类和归一化切割。见SIGKDD,2004年。4[10] Kun Duan,Dhruv Batra,and David J Crandall.一种用于人体姿态估计的多层复合模型在BMVC,2012年。第1、3条[11] 福岛邦彦Neocognitron:不受位置变化影响的模式识别机制的自组织神经网络模型。生物控制论,1980年。2[12] Georgia Gkioxari Alexander Toshev和Navdeep Jaitly。使用卷积神经网络的链式预测在ECCV,2016年。5[13] Michelle Guo , Albert Haque , De-An Huang , SerenaYeung,and Li Fei-Fei.多任务学习的动态任务优先级排序。在ECCV,2018。2[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。4[15] Eldar Insafutdinov、Leonid Pishchulin、Bjoern Andres、Mykhaylo Andriluka和Bernt Schiele。Deepercut:更深、更强、更快的多人姿势估计模型。在ECCV,2016年。五、六[16] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。在BMVC,2010年。三、五[17] Zhuoliang Kang,Kristen Grauman,and Fei Sha.学习在多任务特征学习中与谁共享。InICML,2011. 二、三[18] Li peng Ke , Ming-Ching Chang , Honggang Qi , andSiwei Lyu.用于人体姿态估计的多尺度结构感知网络。在ECCV,2018。一、二、四、五[19] Abhishek Kumar和Hal Daume III。多任务学习中的学习任务分组与重叠。arXiv预印本arXiv:1206.6417,2012年。二、三[20] Yann LeCun,Yoshua Bengio,and Geoffrey Hinton.深度学习Nature,2015. 2[21] YannLeCun,Le'onBottou,YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。IEEE会议录,1998。2[22] Sijin Li,Zhi-Qiang Liu,and Antoni B Chan. 使用深度卷积神经网络进行人体姿势估计的异构多任务学习。2014年CVPR研讨会。3[23] 伊塔·利夫希茨伊森·费塔亚和西蒙·厄尔曼。使用深度一致性投票的人体在ECCV,2016年。五、六[24] Yongxi Lu , Abhishek Kumar , Shuangfei Zhai , YuCheng,TaraJ a vidi,andRo ge'rioSchmidtFeris. 多任务网络中的完全自适应特征共享及其在个人属性分类中的在CVPR,2017年。3[25] David JC MacKay和David JC MacKay。信息理论、推理和学习算法。剑桥大学出版社,2003。3[26] Youssef A Mejjati,Darren Cosker和Kwang In Kim。通过最大化统计相关性的多任务学习在CVPR,2018年。2[27] Thomas B Moeslund和Erik Granum。基于计算机视觉的人体运动捕捉综述。计算机视觉与图像理解,2001年。1[28] Alejandro Newell,Kaiyu Yang,and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在ECCV,2016年。一、二、四、五[29] Seyphilian Park,Xiaohan Nie,and Song-Chun Zhu.用于人体姿势、部件和属性的联合解析的属性和或语法。PAMI,2017年。3[30] Leonid Pishchulin,Mykhaylo Andriluka,Peter Gehler,and Bernt Schiele.波塞莱制约的图像结构。CVPR,2013。第1、3条[31] Rajeev Ranjan , Vishal M Patel , and Rama Chellappa.Hy-表面:用于人脸检测、地标定位、姿势估计和性别识别的深度多任务学习框架。PAMI,2017年。3[32] Brandon Rothrock,Seyphoon Park和Song-Chun Zhu。整合语法和分割人体姿态估计。CVPR,2013。1[33] 塞巴斯蒂安·鲁德。深度神经网络中的多任务学习概述arXiv预印本arXiv:1706.05098,2017。2[34] Chi Su,Jianing Li,Shiliang Zhang,Junliang Xing,Wen Gao,and Qi Tian.用于个人重新识别的姿势驱动的深度卷积模型。InICCV,2017. 1[35] Ke Sun,Cuiling Lan,Junliang Xing,Wenjun Zeng,Dong Liu,and Jingdong Wang.使用全局和局部归一化的人体姿态估计。InICCV,2017. 一、二、五、六[36] Min Sun和Silvio Savarese用于关节对象检测和姿态估计的基于关节部件的模型。见ICCV,2011年。1[37] 小孙、尚嘉祥、双亮、卫奕辰。合成人体姿势回归。InICCV,2017. 51116[38] 魏唐、裴禹、英武。用于人体姿势估计的深入学习的合成模型在ECCV,2018。一二三四五六八[39] Wei Tang,Pei Yu,Jiahuan Zhou,and Ying Wu.面向视觉模式建模的统一组合模型。InICCV,2017. 2[40] Zhiqiang Tang,Xi Peng,Shijie Geng,Lingfei Wu,Shaoting Zhang,and Dimitris Metaxas.用于有效地标定位的量化密集连接u网。在ECCV,2018。6[4
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功