快速人体姿态估计的学习策略及效益

125 浏览量更新于2023-10-19 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3517快速人体姿态估计张峰1朱夏田2毛野11{zhangfengwcy，cvlab.uestc}@ gmail.com，计算机科学与工程学院，中国电子科技大学2eddy@visionsemantics.com，Vision Semantics Limited摘要现有的人体姿态估计方法往往只考虑如何提高模型的泛化性能，而忽略了显著的效率问题。这导致开发的重型模型在实际使用中具有较差的可扩展性和成本效益。在这项工作中，我们调查了研究不足，但实际上关键的姿态模型效率问题。为此，我们提出了一种新的快速姿态蒸馏（FPD）模型学习策略。具体地，FPD训练能够以低计算成本快速执行的轻量级姿态神经网络架构。它是通过有效地转移一个强大的教师网络的姿势结构知识。广泛的评估表明，我们的FPD方法在两个标准的基准数据集，MPII人体姿势和利兹运动姿势的模型成本效益方面的优势，在广泛的国家的最先进的姿态估计方法1. 介绍人体姿态估计已经从各种深度CNN模型的快速发展中获得了显著的进步[30，8，10]。这是因为深度神经网络在近似从任意人物图像到关节位置的复杂和非线性映射函数方面很强，即使在存在不受约束的人体外观、观看条件和背景噪声的情况下。然而，模型的性能优势伴随着训练和部署具有大深度和宽度的资源密集型网络的成本。这导致低效的模型推理，需要数十个浮点运算（FLOP）的每图像计算成本，因此可扩展性差，特别是在资源有限的设备（例如智能手机和机器人）上。最近有一种尝试，即提高网络参数以加快模型执行速度[7]，但其模型生成能力明显较弱在这项研究中，我们考虑的问题，姿态估计效率没有模型性能降级，但保持相当的精度结果。我们观察到，用于最先进的人类姿势网络（如Hourglass [19]）的基本CNN构建块在建立小型网络时并为了克服这些障碍，我们设计了沙漏网络的轻量级变体，并以知识蒸馏的方式提出了一种更有效的小姿态网络训练方法我们称该方法为快速姿态蒸馏（FPD）。与性能最佳的替代姿势方法[32，10]相比，所提出的FPD方法能够以极小的模型大小实现更快和更经济的模型推理，同时达到相同水平的人体姿势预测性能。我们的贡献总结如下：(i) 我们研究了未充分研究的人体姿势模型效率问题，与现有的尝试相反，现有的尝试主要集中在以高成本的模型推理来单独提高精度性能。这是将现有的深度姿态估计方法扩展到实际应用中需要解决的关键问题。(ii) 我们提出了一种快速姿态蒸馏（FPD）模型训练方法，能够更有效地训练非常小的人体姿态CNN网络。这是基于知识蒸馏的思想，该思想已成功地用于诱导对象图像分类深度模型。特别地，我们开发了姿势知识提取学习目标，以将潜在知识从预先训练的较大教师模型转移到微小的目标姿势模型（在测试时部署）。这旨在追求最佳的模型性能，给出非常有限的计算预算，仅使用类似强替代方案所需成本的一小部分（小于20%）。(iii) 我们设计了一个轻量级的沙漏网络，能够构建更具成本效益的姿态估计CNN3518i=11K模型，同时保留足够的学习能力，以允许令人满意的准确率。这是通过广泛检查现有最先进的姿势CNN架构设计的冗余度来在评估中，我们进行了广泛的经验比较，以验证所提出的FPD方法在两个常用基准数据集MPII HumanPose [1]和Leeds Sports Pose [15]上的模型推理效率和预测性能的平衡方面优于各种最先进的人体姿势估计方法的有效性和优越性。2. 相关工作人类姿势估计过去五年，在深度学习机制中，人类姿势估计取得了巨大进步[30，28，6，31，19，11，32，20，22]。尽管明显的性能增加，但是这些现有工作仅集中于通过使用复杂且计算昂贵的模型来提高姿态估计准确度，而在很大程度上忽略了模型推断成本问题。这严重限制了它们在实际应用中的可扩展性和可部署性在一个实施例中，已经尝试了一个阶段的在线知识蒸馏，其具有更有效的优化[37，16]和更有效的学习[16]的附加优点。此外，知识蒸馏已被用于将易于训练的大型网络转换为难以训练的小型网络[25]。虽然这些过去的工作上面传递类别级的判别知识，我们的方法传递更丰富的结构信息的密集联合置信图。更类似的工作是最新的基于无线电信号的姿势模型，也采用了知识蒸馏的思想[38]。然而，这种方法的目标是使用无线传感器来解决遮挡问题，而不是像我们在这里所相信的那样模型效率。3. 快速人体姿态估计人体姿态估计的目的是预测给定图像中人体关节的空间坐标。为了以监督的方式训练模型，我们通常可以访问N个人图像的训练数据集{Ii，Gi}N，每个人图像标记有在图像空间中定义的K个关节，如下所示：Gi={gi，.，gi} ∈ RK×2，（1）特别是在计算能力非常有限的情况下预算可用。在文献中，有一些最近的作品，旨在提高模型的效率。例如，Bulat和Tz-imiropoulos构建了参数二进制CNN模型，以适应资源有限的平台[7]。但这种方法导致性能急剧下降，因此不能满足可靠使用。在大多数情况下，需要高准确率。Rafi等人利用良好的通用实践来提高模型效率，而没有提出新的算法[24]。此外，该方法没有提供对模型之间的权衡的定量评估其中H和W表示图像高度和宽度，re-k。通常，这是图像像素级的回归问题。目标损失函数对于姿势模型训练，我们经常使用基于均方误差（MSE）的损失函数[29，19]。为了表示地面实况联合标签，我们通过将高斯核集中在每个单个联合k（k∈ {1，···，K}）周围来生成置信图mk。标记位置zk=（xk，yk）。更具体地说，高斯置信图mk，第k个联合标记被写为：效率和效力。与以往的方法相比，本文系统地研究了在约束条件下姿态估计的效率问题mk（x，y）=1exp2πσ2. −[（x − x k）2+（y −y k）2]2σ2（二）保持模型性能速率的条件，使得所得到的模型在真实世界应用场景中更有用和可靠其中（x，y）指定像素位置，并且超参数σ表示预先固定的空间方差。的MSE损失函数则得到如下：知识蒸馏知识蒸馏的目标是关注具有不同能力的不同神经网络之间的信息传递[5，13，3]。Lmse=1ΣKKk=1阿姆克-m2k2（三）例如，Hinton et al.成功地使用了一个经过良好训练的大型网络来帮助训练一个小型网络[13]。基本原理是利用教师模型的额外监督，以类概率[13]，特征表示[3，25]或层间流[35]的形式表示。该原理最近也被应用于加速大规模分布式神经网络的模型训练过程[2]，在多层[17]或多个训练状态[18]之间传输知识。与传统的基于离线训练的两阶段训练相比，其中，m=k是指第k个关节的预测置信度图然后，标准SGD算法可以用于通过在小批量中递增地反向传播训练数据上的MSE误差来优化深度CNN姿势模型。现有的姿势方法严重依赖于大型深度神经网络来最大化模型性能，同时忽略了推理效率。我们通过建立轻量级CNN架构并提出下面详细描述的有效模型学习策略来解决这种3519图1.提出的快速姿态蒸馏模型学习策略的概述。为了建立一个高性价比的人体姿态估计模型，我们需要建立一个紧凑的骨干，如（a）一个轻量级的沙漏网络。为了更有效地训练一个小的目标网络，我们在姿态估计上下文中采用知识蒸馏的原则。这需要（b）预先训练一个强大的教师姿势模型，例如最先进的沙漏网络或其他现有的替代方案。教师模型被用来提供额外的监督指导（c）姿势知识蒸馏过程中，通过建议的模仿损失函数。在测试时，小目标姿态模型可实现快速且经济高效的部署。计算上昂贵的教师模型最终被放弃，因为其判别知识已经转移到目标模型中，因此在部署中使用（而不是浪费）。阶段构建块一、二、三、四每层表1.小姿势CNN模型的结构3.1. 紧凑型网络架构人体姿势CNN模型通常由具有相同结构的多个重复构建块组成[8，31，19，11，32，20，22]。其中，沙漏是最常见的积木单元之一[19]。然而，我们观察到，现有的设计是不具有成本效益的，由于部署了大量的通道和块在整个架构中，因此导致一个次优的权衡之间的表示能力和计算成本。例如，[19]提出了一种CNN架构，它有8个沙漏阶段，每个阶段有9个残差块，每层有256个通道。因此，我们希望最大限度地减少现有CNN架构的成本，以实现更快的模型推理。通过仔细的实证研究，我们惊讶地发现，一半的阶段（即。4个沙漏模块）足以在大规模MPII基准上实现超过95%的模型概化能力。此外，还发现每层通道高度冗余，并且减少一半数量（128）仅导致小于1%的性能下降（表5）。基于这些分析，我们构建了一个非常轻的CNN架构，用于姿态估计，计算成本仅为原始设计的六分之一。有关目标CNN架构规范，请参见表1和图1。备注虽然部署运行成本低且速度快的微小姿态网络很有吸引力，但从经验上讲，训练它们并不容易，尽管理论上浅网络具有类似的表征能力，以近似目标函数的学习更深的同行[3，26]。在目标图像分类中，通过知识蒸馏策略也出现了类似的问题，即：让目标小网络模拟一个更大的教师模型的预测[13]。然而，仍然不清楚这种类似的方法在密集像素空间中的广告结构化人体姿势估计中将如何工作。为了回答这个问题，我们提出了一种姿态结构知识提取方法。3.2. 用姿态蒸馏法模型训练管道我们采用知识蒸馏的通用模型训练策略：1. 我们首先训练一个大的教师姿势模型。在我们的实验中，默认情况下，我们选择原始的沙漏模型[19]，因为它的设计简洁，模型训练简单。可以考虑其他更强的模型而没有任何限制。2. 然后，我们训练一个目标学生模型与教师模型学习的知识的帮助下。知识的升华就发生在这一步.学生模型的结构如表1所示。整个训练过程的概述如图1所示。知识提取的关键是设计一个合适的模仿损失函数，能够有效地提取教师的知识并将其转移先前的蒸馏函数是针对对象分类[3，13]的上下文中基于单标签的softmax交叉熵损失而设计的，并且不适合在2D图像空间中传输结构化姿态知识。3520KK为了解决上述问题，我们设计了专用于姿态蒸馏损失函数的联合置信度图，其被公式化为：5. 另一方面，教师1ΣKL=ms−mt（四）在学习每一项训练时都要考虑到在知识蒸馏过程中取样。pdKkk2k=1总之，所提出的模型能够处理其中ms和mt指定k的置信度图。错误的姿势关节注释，例如当预先训练好的第th联合预测的预先训练的教师模型和在训练学生的目标模型，分别。我们选择MSE函数作为蒸馏量来测量学生模型和教师模型之间的分歧，以便最大化与姿势监督学习损失（等式（3））的可比性整体损失函数我们将用于训练期间的姿态结构知识提取的整体FPD损失函数公式化为：Lfpd=αLpd+（1−α）Lmse（5）其中α是两个损失项之间的平衡权重因此，目标网络学习通过Lmse预测训练样本的标记的地面实况注释，并匹配预测强教师模型的结构。进一步说明与仅在标记数据上进行训练相比，为什么所提出的姿态补偿损失函数可能有助于训练更通用的目标模型？许多原因可以在姿态估计的上下文中解释这一点。1. 由于在手动注释过程中定位真实位置的难度很高，身体关节标签很可能是错误的。在这种情况下，教师模型可能能够通过统计学习和推理减轻一些错误，从而减少错误标记的训练样本的误导影响（图3行（A））。2. 考虑到困难的训练情况，例如具有混淆/杂乱背景和随机遮挡位置，教师预测可以通过用模型推理解释这些硬样本来提供软化的学习任务（图3行（B））。3. 教师模型可以提供比原始注释更完整的联合标记，因此不仅提供额外的更准确的监督，而且减轻了丢失联合标记的误导（图3行（C））。4. 与对齐教师的预测相比，学习匹配地面实况置信图可能更难。这是因为教师模型为每个训练样本传播了一些推理不确定性，无论是难以处理还是易于处理。教师预测更准确的关节比手动错误和丢失的标签。由于地面实况标签和教师模型的预测的联合使用，我们的模型是容忍的错误，但不是共现的。这减轻了训练数据中标签错误的危害，而现有方法通常盲目信任所有给定的标签。3.3. 模型训练和部署所提出的FPD模型训练方法包括两个阶段：（i）我们通过传统的MSE损失（Eqn（3））训练教师姿势模型，以及（ii）通过所提出的损失（Eqn（5））训练目标学生模型，其中从教师模型到目标模型的知识蒸馏在每个小批次中并且贯穿整个训练过程进行。在测试时，我们只使用小目标模型，以实现高效和成本效益的部署，同时抛弃了繁重的教师网络。目标模型已经提取了教师4. 实验4.1. 实验装置我们使用了两个人体姿势基准数据集，MPII [1]和利兹运动姿势（LSP）[15]。MPII数据集是从YouTube视频中收集的，其中包含各种人类活动和事件。它有25K的场景图像和40K的注释人（29K用于训练，11K用于测试）。每个人有16个标记的身体关节。我们采用了标准的训练/有效/测试数据分割[28]。接下来[29]，我们从训练集中随机抽取了3K个样本进行模型验证。LSP基准包含来自许多不同体育场景的自然人图像。它的扩展版本提供了11K的训练样本和1K的测试样本。LSP中的每个子具有14个标记关节。性能测试我们使用了标准的正确关键点百分比（PCK）测量，该测量量化了错误阈值τ内正确预测的分数[34]。具体地，量τ针对任一躯干的大小进行归一化（τ=0. 2个LSP，即PCK@0。2）或头部（τ =0. MPII为5，即 PCKh@0。（五）。我们分别测量每个单独的关节，并将其平均值作为整体指标。使用不同的τ值，我们得到了PCK曲线。因此，曲线下面积（AUC）可以作为不同深度的整体测量值获得3521方法头昭埃尔博Wri.髋膝谢谢是说 AUC#参数部署成本Rafi等人，[24]第二十四话97.2 93.9 86.4 81.3 86.8 80.673.486.357.356M28GBelagiannis Zisserman，FG97.7 95.0 88.2 83.0 87.9 82.678.488.158.817M95GInsafutdinov等人，[14]第十四话96.8 95.2 89.3 84.4 88.4 83.478.088.560.866M286GWei等人，[31]第三十一话97.8 95.0 88.7 84.0 88.4 82.879.488.561.431M351GBulat Tzimiropoulos，ECCV97.9 95.1 89.9 85.3 89.4 85.781.789.759.676M67GNewell等人，[19]第十九话98.2 96.3 91.2 87.1 90.1 87.483.690.962.926M55GNing等人，TMM'17[21]98.1 96.3 92.2 87.8 90.6 87.682.791.263.674M124GChu等人，CVPR'17[11]98.5 96.3 91.9 88.1 90.6 88.085.091.563.858M128GPeng等人，[22]第二十二话98.1 96.6 92.5 88.4 90.7 87.783.591.5-26M55GYang等人，[32]第三十二话98.5 96.7 92.5 88.7 91.1 88.686.092.064.228M46GNie等人，[20]第20话98.6 96.9 93.0 89.1 91.7 89.086.292.465.926M63G[27]第二十七话-------88.1-16M6GFPD98.3 96.4 91.5 87.4 90.9 87.183.791.163.53M9G表2. PCKh@0。MPII测试数据集上的AUC（%）率。男/女：106/109。方法头昭埃尔博Wri.髋膝谢谢是说 AUC#参数部署成本Tompson等人，[29]第二十九话90.6 79.2 67.9 63.4 69.5 71.064.272.347.3--Fan等人，CVPR'15[12]92.4 75.2 65.3 64.0 75.7 68.370.473.043.2--Carreira等人，CVPR'16[8]90.5 81.8 65.8 59.8 81.6 70.662.073.141.5--[9]第二届中国国际汽车工业展览会91.8 78.2 71.8 65.5 73.3 70.263.473.440.1--Yang等人，[33]第三十三话90.6 78.1 73.8 68.8 74.8 69.958.973.639.3--Rafi等人，[24]第二十四话95.8 86.2 79.3 75.0 86.6 83.879.883.856.956M28GYu等人，[36]第三十六话87.2 88.2 82.4 76.3 91.4 85.878.784.355.2--Peng等人，[22]第二十二话 98.695.3 92.8 90.0 94.8 95.394.594.5-26M55GFPD97.3 92.3 86.8 84.2 91.9 92.290.990.864.33M9G表3. PCK@0。2和LSP测试数据集上的AUC（%）率。男/女：106/109。临界值为了衡量模型在训练和测试中的效率，我们使用了FLOPs。我们在Torch中实施了以下所有实验。我们根据提供的位置和比例裁剪了所有的训练和测试图像，并将其调整为256×256像素。作为典型的随机缩放（0.75-1.25）、旋转（±30度）和水平进行翻转以增加训练数据。我们采用RMSProp优化算法。我们将学习率设置为2。5×10-4，最小批量大小为4，MPII和LSP基准的历元数分别为130和70。对于网络架构，我们使用原始的Hourglass作为教师模型，并使用cus-深度和宽度较小的分割沙漏（表1）作为目标模型。4.2. 与最新技术水平方法的我们通过与MPII和LSP上最近的人体姿势估计深度方法进行广泛比较来评估所提出的FPD方法。MPII表2中的结果比较了PCKh@0。5最新方法和所提出的FPD在MPII测试数据集上的准确性结果。可以清楚地观察到，所提出的FPD模型是非常有效和紧凑的，因此实现了更便宜的部署成本。重要的是，该优点是在不明显损害模型泛化能力的情况下获得的，例如，达到91.1%。具体来说，与表现最好的[20]相比，FPD模型只需要14个。3%（9/63）的计算成本，但在平均PCKh准确度方面获得了 96.4% （63.5/65.9 ）的性能。这导致6.7%×（96.4/14.3）的成本效益优势与最有效的替代竞争产品[24]相比，我们的模型效率高2.9×（26/9），同时实现了4.8%（91.1-86.3）的平均PCKh增益。这些证据清楚地表明，我们的方法比其他替代方法具有成本效益优势。在姿态估计中，0.8%的改进指示显著增益，特别是在具有挑战性的MPII上，其具有针对杂乱背景的变化的姿态。此提振3522图2. LSP和MPII上的人体姿态估计示例。图3.提出的FPD模型在MPII上的位姿估计实例。列（1）：输入图像。列（2）：地面实况联合置信图。列（3）：教师模型预测的联合置信度图。专栏（4）：地面实况和教师每一行表示一种姿势知识转移。行（A）：“地面实况”注释中的右腿踝关节的错误标记行（B）：由于高度复杂的人体姿势，软化的教师信心图具有比地面实况更大的行（C）：教师模型发现了缺失的关节标签。LSPMPII3523FPD头昭埃尔博Wri.髋膝谢谢是说AUC✗97.496.090.285.888.284.380.689.461.4✓97.596.391.487.389.485.682.090.462.4表4.建议FPD方法的一般化评价度量：平均PCKh@0。5、AUC。#舞台#通道是说AUC#参数部署成本825691.963.726M55G425691.463.913M30G225690.563.07M17G125686.458.33M10G425691.463.913M30G412890.162.43M9G46487.959.50.95M4.5G43283.454.90.34M3.1G表5.沙漏模式的成本效益分析。度量：PCKh@0。5、AUC。男/女：106/109。姿态蒸馏是说AUC✗90.162.4✓90.963.3表6.提出了知识升华的效果构成。Metric：平均PCKh@0。5和AUC（%）。比其他最先进的收益更大，例如，91.2% [21]与90.9%[19]中的+0.3%; 91.5%进一步+0.3%[23]。更具体地说，给定所有163，814个测试接头，每增加0.1%意味着校正163个接头。LSP表3中的结果比较了PCK@0。我们的FPD模型和现有方法在LSP测试数据上具有最高报告性能的2个比率。与MPII相比，深度学习模型对该基准的评估较少，部分原因是训练数据的大小较小总的来说，我们观察到了类似的比较。例如，我们的FPD比最具竞争力的替代产品[24]并且除了在所有比较的方法中实现最佳的姿态预测准确率之外，还消耗少得多的训练能量为了提供视觉测试，图2示出了LSP和MPII上的定性姿态估计评估据观察，这样的小FPD模型仍然可以在具有各种背景杂波、不同的人姿态和观看条件的任意野外图像4.3. 消融研究对MPII的验证FPD通用化评估除了使用状态-当整合到提议的FPD框架中时，测试了更新的模型[32]。特别是，我们采用原始网络作为教师模型，并构建了一个轻量级变体作为学生（目标）模型。轻量级模型的构造与表1类似，因为它也基于沙漏设计：将级的数目减少到4，并且将每个模块中的通道数目减少到128。表4中的结果表明，我们的FPD方法在0时达到1.0%的平均PCKh。5增益，类似于沙漏情况。这表明所提出的方法在产生具有成本效益的姿态估计深度模型方面具有良好的泛化能力。Hourglass的成本效益分析我们从成本效益的角度广泛地研究了最先进的Hourglass神经网络模型[19]的架构设计。为此，我们在设计中测试了两个维度：深度（层数）和宽度（通道数）。有趣的是，我们在表5中揭示了重新移动半级（层）和半通道只会导致非常有限的性能下降。这表明原来的沙漏设计是高度冗余的，成本效益差。然而，这在很大程度上被忽略了在以前的作品，由于他们的典型重点是追求模型的准确性性能，而忽略了重要的模型效率问题。这一系列的CNN架构检查帮助我们正确地制定了一个轻量级的姿势CNN架构，与最先进的设计相比，计算成本仅为16%（9/55），但获得了98%（90.1/91.9）的模型性能，为构建紧凑而强大的人类姿势深度模型奠定了良好的基础。姿势知识提取的效果我们测试了使用我们的姿势知识提取对以先进的沙漏网络为骨干，我们也轻量级沙漏网络。与所有其他3524损失函数头昭埃尔博Wri.髋膝谢谢是说AUCMSE97.796.491.887.689.786.683.990.963.3交叉熵97.696.291.587.689.086.583.690.763.0表7.通过不同类型的损失函数提出知识的提炼度量：平均PCKh@0。5、AUC。α00.050.10.50.950.99是说90.190.890.890.990.790.7AUC62.463.263.263.363.063.0表 8. 姿态蒸馏学习重要性参数的性能分析度量：平均PCKh@0。5和AUC（%）。方法，模型[23]还受益于模型训练中的辅助数据集MPII。表6显示，教师知识转移带来了0.8%（90.9-90.1）的平均PCKh准确性提高。这表明知识蒸馏的一般原理在结构化姿态估计上下文中也是有效的，超出对象分类。为了进一步验证这究竟是如何发生的，我们在图3中可视化了三个姿态结构转移示例。它表明，建议模仿损失对教师的预测是可能构成额外的信息的情况下，错误的标签，硬训练图像，和丢失的注释。5. 结论在这项工作中，我们提出了一种新的快速姿态蒸馏（FPD）学习策略。与大多数现有的人体姿态估计方法相比，FPD旨在解决研究不足和实际重要的模型成本效益质量，以便将人体姿态估计模型扩展到现实中的大型部署这是通过开发一个轻量级的人体姿势CNN体系结构和设计一个有效的姿势结构知识蒸馏方法，从一个大的教师模型到一个轻量级的学生模型。与现有的模型压缩技术如网络参数二值化相比，该方法实现了高效的人体姿态模型，而不需要精确性能的比较。我们对两个人体姿势基准数据集进行了广泛的比较评估。结果表明，我们的FPD方法的优越性相比，广泛的国家的最先进的替代方法。此外，我们还对模型组件进行了一系列消融研究，以提供有关模型成本收益的详细分析和见解-最后评价了损失函数选择对姿态知识库的第为此，我们进一步测试了基于交叉熵测量的损失。具体地，我们首先将整个置信度图归一化，使得所有像素置信度分数的总和等于1，即，L1正常化。然后，我们使用交叉熵标准测量预测和地面实况置信度图之间的差异表7中的合理的原因是，MSE也是传统监督损失（等式（3））的公式，因此更兼容。损失平衡的参数分析我们评估了传统MSE损失和所提出的姿势知识蒸馏损失之间的平衡重要性，如等式（5）中的α所表8显示了同等重要性（当α=0. （5）是最佳设置。这表明两个损失项在相同的数值尺度下具有相似的显著性另一方面，我们发现，这个参数设置是不敏感的，具有广泛的令人满意的值。这表明教师信号离地面实况标签不远（见图3第（4）列），可能提供替代监督作为原始联合置信图标签的替代有效性6. 确认本工作得到了国家自然科学基金（61773093）、国家重点研究发展计划（2003）的部分资助&（2018-YFC 0831800）、成都市重大科技创新项目（2018-YF08 -00039-GX）、四川省科技厅研究项目（2016-JY0088、17 ZDYF 3184）。毛晔为主要通讯作者。引用[1] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议上，2014年。[2] Rohan Anil，Gabriel Pereyra，Alexandre Passos，RobertOr- mandi，George E Dahl，and Geoffrey E Hinton.大规模分布式神经网络的在线训练.在2018年学习代表国际会议[3] 吉米·巴和里奇·卡鲁阿纳深网真的需要深吗？神经信息处理系统进展，2014年。3525[4] Vasileios Belagiannis和Andrew Zisserman。周期性人体姿态估计.2017年。[5] 克里斯蒂安·布西卢阿、里奇·卡鲁阿纳和亚历山德鲁·尼古列斯库 - 米齐尔。模型压缩。 ACM SIGKDDInternational Conference on Knowledge Discovery andData Mining，2006.[6] Adrian Bulat和Georgios Tzimiropoulos通过卷积部分热图回归的人体姿势估计在2016年的欧洲计算机视觉会议[7] Adrian Bulat和Georgios Tzimiropoulos二进制卷积地标定位器，用于有限资源下的人体姿态估计和人脸对齐IEEEInternational Conference on Computer Vision ，2017。[8] Joao Carreira ，Pulkit Agrawal，Katerina Fragkiadaki，and Ji- tendra Malik.迭代误差反馈人体位姿估计。在IEEE计算机视觉和模式识别会议上，2016年。[9] Xianjie Chen和Alan L Yuille.通过具有图像相关成对关系的图形模型的铰接姿态神经信息处理系统进展，2014年。[10] Yu Chen ， Chunhua Shen ， Xiu-Shen Wei ， LingqiaoLiu，and Jian Yang.对抗性posenet：用于人体姿态估计的结构感知卷积网络。在2017年IEEE国际计算机视觉会议[11] 肖楚，杨伟，欧阳万里，马成，李伟。 Yuille 和Xiaogang Wang.用于人类姿态估计的多上下文注意。IEEE计算机视觉和模式识别会议，2017年。[12] 范小川，康正，林跃伟，王松。结合局部外观和整体视图：用于人体姿势估计的双源深度神经网络。IEEE计算机视觉和模式识别会议，2015。[13] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。arXiv，2015.[14] Eldar Insafutdinov、Leonid Pishchulin、Bjoern Andres、Mykhaylo Andriluka和Bernt Schiele。Deepercut：更深、更强、更快的多人姿势估计模型。2016年欧洲计算机视觉会议[15] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。英国机器视觉会议，2010年。[16] 徐澜，朱夏天，龚少刚。通过即时本地集成进行知识蒸馏。神经信息处理系统的进展，第7528-7538页，2018年。[17] 徐澜，朱夏天，龚少刚通过多尺度匹配进行人员搜索2018年欧洲计算机视觉会议[18] 徐澜，朱夏天，龚少刚。自我参考深度学习。2018年亚洲计算机视觉会议。[19] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络在欧洲计算机视觉会议上，2016年。[20] 聂学成、冯佳石、左一鸣、严水城。基于解析诱导学习器的人体姿态估计。在IEEE计算机视觉和模式识别会议上，2018年。[21] G. Ning，Z.zhang和Z.他外用于人体姿势估计的知识引导深度IEEE Trans- actions on Multimedia，PP（99）：1[22] 刘晓波，刘晓波. Feris和Dimitris Metaxas。共同优化数据扩充和网络培训：人体姿态估计中的对抗性数据增强。在IEEE计算机视觉和模式识别会议上，2018。[23] Xi Peng，Zhiqiang Tang，Fei Yang，Rogerio S Feris，and Dimitris Metaxas.共同优化数据扩充和网络培训：人体姿态估计中的对抗性数据增强。在IEEE计算机视觉和模式识别会议论文集，第2226- 2234页[24] Umer Rafi ， Bastian Leibe ， Juergen Gall ， and IlyaKostrikov.一种用于人体姿态估计的高效卷积网络。2016年英国机器视觉会议[25] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。Fitnets：薄而深的网的提示。arXiv电子版，2014年。[26] Frank Seide，Gang Li，and Dong Yu.使用上下文相关深度神经网络的会话语音转录2011年国际语音通信协会第十二届年会[27] 关井大树网络提案提案。在欧洲计算机视觉会议（ECCV）上，2018年9月。[28] Jonathan Tompson、Ross Goroshin、Arjun Jain、YannLeCun和Christoph Bregler。使用卷积网络的高效对象定位。IEEE计算机视觉和模式识别会议，2015。[29] Jonathan J Tompson ， Arjun Jain ， Yann LeCun ， andChristoph Bregler.用于人体姿势估计的卷积网络和图形模型的联合训练。神经信息处理系统进展，2014年。[30] 亚历山大·托舍夫和克里斯蒂安·塞格迪。Deeppose：通过深度神经网络进行人体姿势估计。在IEEE Conferenceon Computer Vision and Pattern Recognition，2014年。[31] Shih-En Wei，Varun Ramakrishna，Takeo Kanade，andYaser Sheikh.卷积姿势机器。2016年在IEEE计算机视觉和模式识别会议上发表[32] Wei Yang，Shuang Li，Wanli Ouyang，Hongsheng Li，and Xiaogang Wang.用于人体姿势估计的学习特征金字塔。IEEEInternational Conference on Computer Vision，2017。[33] Wei Yang ， Wanli Ouyang ， Hongsheng Li ， andXiaogang Wang.可变形部件混合物的端到端学习和用于人体姿势估计的深度卷积神经网络2016年在IEEE计算机视觉和模式识别会议上发表[34] Yi Yang和Deva Ramanan具有部件的灵活混合的铰接式人体检测。IEEE Transactions on Pattern Analysis andMachine Intelligence，35（12）：2878-2890，2013.3526[35] Junho Yim，Donggyu Joo，Jihoon Bae，and Junmo Kim.知识升华的礼物：快速优化、网络最小化和迁移学习。2017年在IEEE计算机视觉和模式识别会议上发表[36] 项羽、冯周和曼莫汉·钱德拉克。用于目标界标定位的深度变形网络。欧洲计算机视觉会议，第52-70页。施普林格，2016年。[37] Ying Zhang，Tao Xiang，Timothy M Hospedales，andHuchuan Lu.深度相互学习。在IEEE计算机视觉和模式识别会议集，第4320-4328页[38] MingminZhao ， TianhongLi ， MohammadAbuAlsheikh ， Yonglong Tian ， Hang Zhao ， AntonioTorralba，and Dina Katabi.使用无线电信号的穿墙人体姿势估计。在IEEE计算机视觉和模式识别会议上，2018年。

下载后可阅读完整内容，剩余1页未读，立即下载