没有合适的资源?快使用搜索试试~ 我知道了~
11740基于在线知识提取的有效位姿估计郑莉1、叶静文2、宋明莉2、黄颖1、潘志庚1*1杭州师范大学、2浙江大学lizheng1@stu.hznu.edu.cn,{yejingwen,brooksong} @ zju.edu.cn,{yw52,zgpan} @hznu.edu.cn摘要现有的最先进的人体姿态估计方法需要大量的计算资源来进行准确的预测。一个有前途的技术,以获得一个准确的,但轻量级的姿态估计是知识蒸馏,蒸馏的姿势知识从一个强大的教师模型,一个少参数化的学生模型。然而,现有的姿态蒸馏工作依赖于一个沉重的预先训练的估计器来执行知识转移,并需要一个复杂的两阶段学习过程。在这项工作中,我们研究了一种新的在线KnoproteinD蒸馏框架,通过一个阶段的方式,以保证蒸馏效率的人类的结构知识,称为OKDHP。具体而言,OKDHP训练单个多分支网络,并从每个网络获取预测的热图,然后由特征聚合单元(FAU)将其组装为目标热图,以反向教导每个分支。代替简单地平均热图,由具有不同感受野的多个并行变换组成的FAU利用多尺度信息,从而获得具有更高质量的目标热图具体而言,利用逐像素Kullback-Leibler(KL)发散来最小化目标热图与预测热图之间的差异,这使得学生网络能够学习隐式关键点关系。此外,本文还提出了一种非平衡OKDHP方案,用于定制不同压缩率的学生网络我们的方法的有效性证明了广 泛 的 实 验 上 两 个 常 见 的 基 准 数 据 集 , MPII 和COCO。1. 介绍人体姿态估计的目标是在单个RGB图像中识别和定位所有人体解剖关键点。它是高级视觉任务的基本技术,例如动作识别[11],虚拟现实[44]和人机交互。自DeepPose发明以来[55],深度神经网络一直是*通讯作者图1.为了获得有效的4-Stack网络,(a)FPD [66]采用来自静态预训练的8-Stack网络的两级蒸馏方案。所提出的OKDHP在一个阶段中利用(b)平衡和(c)不平衡架构来提取姿态结构知识。教师与FAU在线建立。Inant解决方案,用于人体姿态估计,基于此,方法[57,61,52]专注于利用具有顺序架构的更丰富然而,这种基于深度学习的方法的收益通常伴随着训练和部署过度参数化模型的成本,这限制了在资源密集型移动设备中的部署为了降低计算成本并提高模型效率,许多努力已经致力于直接设计轻量级和实时网络,例如,[27][28][29][29][29]作为另一个在速度和准确性之间实现良好平衡的强大工具,知识蒸馏[19]遵循师生范式。传统的蒸馏利用一个两阶段的计划,开始与一个累赘-一些预先训练的教师模型,然后蒸馏知识到一个紧凑的学生模型。在姿态估计领域,最近的作品[66,22]采用了传统的离线蒸馏方案,该方案将来自大型预训练姿态估计器(教师)的知识蒸馏为轻量级姿态估计器(学生),如图所示。第1(a)段。然而,训练这样一个沉重的教师模型是耗时的,11741高容量模型并不总是可用。因此,提出了在线对应物[67,68]以将蒸馏过程简化为一个阶段,从而减少对预先训练的教师模型的需求。在ONE [68]中,在运行中建立了一个强大的教师模型,所有学生通过对具有可学习权重的所有分支的预测进行平均来共享相同的目标分布。以往的研究主要集中在分类任务上,忽略了像素级任务中有价值的结构知识因此,我们的工作重点是更具挑战性的像素级任务,并提出了第一个在线构成蒸馏框架。现 有 的 像 素 级 蒸 馏 工 作 [66 , 22]使 用 均 方 误 差(MSE)作为蒸馏损失,这对于知识转移是弱的。它不能有效地测量两个概率分布之间的相对熵。此外,MSE被用作特定于任务的监督项和蒸馏项两者的损失函数这两个损失项具有不同的优化目标,一个是地面实况热图,另一个是由教师生成的预测热图。两个损失项之间的冲突将使优化变为次优情形。为了减轻这些限制,我们研究了一种在线姿态蒸馏方法,用于有效的姿态估计。所提出的方法具有两个重要方面的效率。一种是我们将蒸馏过程简化为一个阶段。另一个是,该方法显着提高了位姿估计精度相比,原来的网络。 整个框架由一个特征聚合单元(FAU)和多个辅助分支构成,其中每个分支被视为一个学生。student分支可以是相同的或异构的架构,分别构成OKDHP-平衡和OKDHP教师是由所有学生通过FAU的预测的加权集合建立的。这里的FAU捕获多尺度信息以获得更高质量的目标热图。此外,为了传递姿态结构知识,利用逐像素KL发散损失来最小化目标热图与预测热图之间的差异。在最终的部署中,目标单分支网络通过简单地从训练好的多分支网络中去除冗余辅助分支来获得,这本文的主要贡献如下。• 据我们所知,我们是第一个提出在线姿态蒸馏方法,它在一个阶段的方式提取的• 介绍了OKDHP的平衡版本和非平衡版本,可以定制不同压缩率的目标网络。• 大量的实验验证了我们提出的方法在两个流行的基准数据集上的有效性:MPII和COCO。2. 相关工作人体姿态估计经典的人体姿态估计方法主要采用图像结构[14,2,23,45,46]和图形模型[50,49,7,10]的技术。随着深度卷积神经网络的快速发展[28,51,17],基于CNN的方法在最近几年变得流行[54,57,12,39,52,3]。Toshev等人提出的DeepPose [55]是第一次尝试直接回归身体部位的坐标,并且表现出比经典方法更优越的性能。Tompson等[54]通过联合优化convnets和图形模型来学习身体结构CPM [57]将卷积网络并入姿势机器框架中,用于人类姿势估计任务,并直接在热图上执行姿势匹配。Newell等人。 [38]堆叠了几个沙漏模块来迭代地完善预测。中间监督还用于产生准确的中间热图并防止梯度消失。沙漏模块与conv- deconv架构高度相关[35,48]。该模块中的特征首先被汇集到低分辨率,然后被上采样并与高分辨率特征融合。 Chu等人。 [12]试图将沙漏网络与注意力机制相结合,以学习和推断上下文表示。Yang等人。 [61]通过使用金字塔残差模型进一步改进了其性能。除了用于高精度姿态估计的重网络之外,还研究了高效的姿态估计网络以满足实际应用的需要 Cao等人[4]介绍了一种具有两个分支的实时估计网络,其中一个分支生成热图预测,而另一个分支生成部分亲和场,然后使用贪婪算法将关节分组到相应的人。Kocabas等人。 [27]提出了姿态残差网络,该网络将关键点和人员检测作为输入,然后执行关键点分配。MultiPoseNet实现了与Mask-RCNN类似的准确性[16],同 时 至 少 快 4 倍 。 基 于 OpenPose [4] , [42] 使 用MobileNet [21]作为骨干网络,并采用轻量级细化阶段以降低计算成本。知识蒸馏最初由Hinton等人引入。 [19],知识蒸馏通过学习过程以软预测的形式将知识从大型且计算昂贵的模型转移到单个计算有效的模型。在训练目标学生模型时,该方法充分利用了教师模型软输出提供的额外监督信号在FitNet [47]中,学生被迫模仿11742·图2.概述了建议的在线知识蒸馏人体姿势估计(OKDHP)。每个分支用作独立的姿态估计器。FAU学习集成所有分支,以建立更强大的教师模型。 L kl表示中间热图与系综热图之间的KL散度损失。为了简单起见,我们省略了传统的均方误差损失Lmse。教师的中间特征表示AT [64]尝试将教师的注意力地图转移到学生身上。Kim等人。 [25]介绍了释义器和翻译器网络,以协助知识转移过程。在FSP [63]中,学生模仿教师的流矩阵,这些流矩阵被计算为来自两个层的特征图之间的内积。传统的蒸馏方法总是从一个强大而繁琐的教师模型开始,并向紧凑的学生模型进行单向知识转移。在线知识蒸馏[67,68]通过减少对预先训练的教师模型的需求来简化复杂的两阶段过程。ONE [68]构建单个多分支网络,每个分支从集成结果中学习。Chen等人 [5]引入了两级蒸馏框架,并使用自注意机制来构建多样化的对等网络。Li等人 [32]通过增强分支多样性对这种基于分支的网络进行了进一步改进知识蒸馏方法已广泛用于许多视觉任务,包括物体检测[30,6,13],线检测[20],语义分割[62,18,34]和人体姿势估计[66,40,56,58]。DOPE [58]提出将2D和3D姿势从三个独立的身体部分专家模型提取到单个全身姿势检测模型。 Nie等人 [40]通过以一次性前馈方式利用来自前一帧的时间线索来提取姿态内核。Wang等人在弱监督学习中从运动中的非刚性结构中提取3D姿势知识。FPD [66]采用经典的蒸馏方法,并将知识从8-Stack沙漏网络转移到轻量级的4-Stack沙漏网络。在上述工作中存在两个缺点。一个高容量的教师模型并不总是可用的,这种复杂的两阶段学习将使蒸馏效率低下。3. 方法在这一节中,我们首先介绍了知识蒸馏的简要介绍,然后我们描述了我们提出的在线知识蒸馏框架,有效的人体姿态估计。最后,我们介绍了我们提出的OKDHP的不平衡版本。3.1. 师生学习知识蒸馏[19]作为主要的模型压缩技术之一[59,37],遵循经典的师生学习范式。通过将预先训练好的重网络作为教师模型,知识蒸馏旨在通过从教师转移知识来学习轻量级学生模型,该模型这样的蒸馏程序可以被公式化为:Lkd=d(mstu,mtea),(1)其中d()表示距离损失函数,测量两个概率分布之间的差异。m_stu和m_tea分别表示由学生和教师生成的结果对于特定于任务的监督损失L任务,整个损失函数被给出为:Ltotal=Ltask+λLkd,(2)其中λ是用于平衡两个损失项的超参数。香草知识蒸馏是一个两阶段的过程,首先训练和固定繁琐的教师模型,然后将知识蒸馏为紧凑的学生模型。该过程增加了训练复杂性,使得蒸馏过程效率低下。11743×≤≤·Cpred=aS⊗SMSECGTpred2∈t=0c =13.2. 在线人体姿态蒸馏为了解决香草蒸馏方法中存在的问题,我们提出了一个在线知识蒸馏框架,用于有效的姿态估计。所提出的框架的概述示于图1中。2. OKDHP的体系结构包括一个多分支网络作为主网络和一个FAU模块,用于建立教师在线。我们采用沙漏网络[38](HG)作为我们在拟议框架中的基本构建块,是最常见的块中使用的许多国家的最先进的作品[12,24,29]。3.2.1主网主网络是多分支架构,其由具有相同网络配置(相同数量的HG模块)的T也就是说,总共T个姿态估计器被聚集在主网络中,每个姿态估计器共享前n个HG模块并且被视为学生。每每个分支的分数。但由于自然场景中存在的人体尺度变化问题,简单的conv块不能有效地处理这个问题需要多尺度信息在这项工作中,我们专注于有效地捕获多尺度信息,以生成具有更高质量的目标热图受以前工作的启发[31,15],我们提出了FAU,它由具有不同感受野的多个并行变换组成。如图3所示,FAU中的多个卷积块具有不同的接收场,并且并行排列我们将包含更多原始信息的主网络Conv块之后的特征作为输入卷积运算从较小的内核大小3开始,然后在以下分支中不断增加(大小为3,5,7)。在我们的网络中,附加的11卷积主要用作降维方法以节省计算资源。我们进一步结合原始输入的平均池化以获得更丰富的表示。然后我们连接所有的分裂并获得中间向量v,表示为:1t T,分支-t具有nt个单独的HG模块。到为了使方法更清晰,我们首先给出了OKDHP-平衡的详细情况,其中n1= n2=... = n T.v=[v avg,g([vConv3,vconv5,vconv7])],(4)因此,给定单个RGB图像,人体姿态估计估计每个人体解剖关键点的热图,其将关键点位置表示为高斯峰。为了训练多分支主网络,我们最小化来自每个分支的预测热图m_pred与地面实况热图m_gt之间的均方误差(MSE):其中g()表示全局池化函数。V转换为3,v_conv_5、v_conv_7分别表示来自内核大小为3、5和7的卷积路径的结果。Vavg表示来自平均池化路径的结果。对于任何输入特征图,该配置创建具有每个卷积路径的多尺度特征,这些卷积路径被聚集以捕获局部和全局字段的更丰富的信息我们将中间向量v通过完全T C 连接层FC以融合来自不同层的信息。L=1ΣΣmc−m(t)2, (3)其中C表示人类关键点的总数,即热图通道和T表示网络分支的总数。是来自第c个通道处的分支t的预测热图。注意,我们的网络是通过堆叠多个沙漏模块构建的,监督不仅应用于最终输出,而且还应用于来自每个HG模块的网络分支,对于第c个热图,我们有a1,c+a2,c+a3,c=1,(5)其中c=1,2,…C.最后,我们经由逐元素求和来融合来自多个分支的预测以获得加权目标热图mtar:3.2.2FAU模块特征聚合单元(FAU)学习组合来自T个分支的所有预测的热图以建立特征聚合单元。米塔尔不t tSt=1强大的教师模式。FAU模块由多个其中at=[a1,a2,…a c]t,mt =[m1,m2,.,m c]t和s s s s利用不同的感受野进行并行变换,利用局部和全局信息来获得准确的目标热图。所提出的FAU的架构3.第三章。以前的图像分类工作[68]使用一个简单的conv块作为门模块来生成重要性MtRH′×W′×C.这里,at是第t个分支的权重,mt是由第t个分支生成的热图,并且是指at和mt之间的通道乘法。我们的实验(见第4.4节)证明FAU生成的权重可以实现更好的蒸馏性能。路径。然后,应用逐信道softmax算子以获得软注意力向量a、t、c。如果是三个11744≤--I=2i=1联系我们i=1S联系我们1ΣΣ̸ ̸图3.提出该模块以有效地利用可以获得具有更高质量的目标热图的多尺度信息表示来自第i个分支的预测热图。通过所有单独分支的热图的加权和来获得最终的总体热图。请注意,网络中的所有conv块都是由规则卷积、批量归一化和ReLU激活函数依次组成3.2.3逐像素蒸馏合适的蒸馏损失函数对整个训练过程至关重要。因为热图上的像素值指示属于关键点的像素的概率我们将学生模型生成的热图与目标热图对齐。通过FAU获得的目标热图在我们的方法中扮演教师模型的角色,以教导每个分支模型(学生)。为了传递姿态结构知识,像素级Kullback-Leibler(KL)算法1在线人体姿态蒸馏输入:标记的训练数据集D;训练时期数;分支数T;网络结构S∈S平衡,S不平衡输出:训练的目标姿态估计网络θ1和其他辅助估计器{θi}T初始化:时期e=1;随机初始化{θi}T一曰: 而edo第二章:计算所有分支的热图预测发散损失被用来最小化发散。I Ti=1 根据S;在教师模型和学生模型的热图之间,如下所示:不L=KL(qi,q(t)i),(7)KL3:用等式1计算目标热图m_t。(6)通过FAU;4:用等式1计算MSE损失L_mse(3);5:用方程计算蒸馏损失Lkl(7);6:用等式1计算总损失函数。(8);--W′×H′i∈Mt=0焦油7:更新模型参数θiT;8:e=e+1;其中W’和H’表示热图第九章: end while伊塔尔以及q(t)i表示第i个像素从模型部署:使用目标姿态估计器θ1;由教师模型和学生生成的热图模型,分别。M=1、2、…W’H’表示所有像素。为了更好地理解我们的方法,我们在算法1中描述了整个训练过程。对于所提出的在线人体姿态蒸馏方法,整个目标函数由用于姿态估计的常规均方误差损失L_mse和用于在线知识蒸馏的另一损失项L_klL total=αL mse+ βL kl。(八)其中α和γ是平衡这两个损失的超参数3.3. 不平衡架构为了实现更好的蒸馏性能,需要更强大的教师模型。但在我们的平衡架构中,一旦我们建立了目标网络,教师就固定了。这里,引入不平衡变量以使用不同的压缩率自定义学生模型,如图所示。第1段(c)分段。对于非平衡OKDHP体系结构,每个分支具有不同数量的HG模,其中n1=n2=…=nT.例如,对于3分支不平衡网络,如果最终部署需要4堆栈HG网络,则其他两个分支可以Q11745××方法头昭Elb.Wri.髋膝谢谢是说Newell等人(HG)[ECCV98.296.391.287.190.187.483.690.9Ning等人 [TMM'17 [41]]98.196.392.287.890.687.682.791.2Chu等人 [CVPR'17] [12]98.596.391.988.190.688.085.091.5Chen等人 [ICCV98.196.592.588.590.289.686.091.9Yang等人 [ICCV98.596.792.588.791.188.686.092.0Ke等人 [ECCV98.596.892.788.490.689.386.392.1Tang等人 [ECCV98.496.992.688.791.889.486.292.3[66]第66话98.396.491.587.490.987.183.791.1OKDHP98.296.692.388.091.088.584.591.7表1.在MPII测试集(PCKh@0.5)上评估我们提出的OKDHP可以设置为6栈和8栈网络。与平衡结构相比此外,另一个好处是,我们可以在一个训练过程中同时获得三个性能相当的不同网络这种网络设置可以根据实际需要自定义为其他设置。我们在表3中证明了不平衡结构的有效性,并在表5中给出了详细结果。4. 实验为了验证我们提出的方法的有效性,我们对两个流行的人体姿势数据集MPII [1]和COCO [33]进行了几次实验。4.1. 实现细节MPII数据集包括大约25K张图像,其中包含超过40K个带有注释的身体关节的受试者,其中29K个受试者用于训练,11K个受试者用于测试。这些图像是使用YouTube视频中人类日常活动的既定分类法我们采用了与[66]中相同的训练/有效/测试分割MPII中的每个人实例具有16个标记的关节。COCO关键点数据集[33]自然呈现具有各种姿态的挑战性图像数据。它包含超过20万张图像和25万个带有关键点标签的人物实例。在评估中,我们遵循常用的train/val/test分割。每个人实例标记有17个关节。我们实现了Py- Torch [43]中的所有方法。对于MPII,我们将裁剪的图像调整为256 256像素。然后我们随机增加数据,旋转角度为[-30◦,30◦],缩放因子为[0.75,-1.25]和水平翻转。对于COCO,我们将裁剪后的图像调整为256 192像素。然后我们应用随机水平翻转,以[-40◦,40◦]和随机标度,因子为[0.7,1.3]。我们跟着-OKDHP网络头昭埃尔博Wri.髋膝谢谢PCKh@0.5✓×2-堆叠HG96.795.389.284.087.883.979.588.696.795.489.984.189.084.781.189.2✓×4-堆叠HG96.795.689.784.588.684.380.989.297.096.190.885.989.585.481.690.0✓×8-堆叠HG96.995.990.686.089.886.082.590.297.396.191.286.889.986.983.190.6表2.MPII验证集上我们提出的OKDHP的PCKh@0.5评分方法PCKh@0.5TrainCost基线89.214FPD89.766OKDHP-Balance90.047OKDHP-不平衡90.264表3.基于MPII验证集上的4-Stack沙漏网络比较不同的蒸馏方法。TrainCost:培训成本,单位为GFLOPS。所有图像的标准数据处理方案如下[66]。Adam [26]被用作优化器,我们将初始学习率设置为2.5e-4,权重衰减为1 e-4。在总共150个训练时期的90和120处,学习率除以10。我们通常在等式8中设置α=1和β=2。对于网络架构,我们将共享HG模块的数量设置为总堆栈数量的一半。 在4栈OKDHP网络的情况下,我们有两个共享的HG模块和每个分支的两个单独的HG模块。我们将分支大小设置为默认值3我们使用OKDHP平衡体系结构作为我们的默认方案在下面的实验,除非我们指定。在所有实验中,我们采用官方沙漏配置作为我们的基线方法。评 估 指 标 我 们 使 用 标 准 的 正 确 关 键 点 百 分 比(PCK)指标,该指标报告正确关键点的年龄百分比位于地面实况的归一化距离内。对于MPII数据集,我们使用PCKh@0.5,其指的是股骨头直径的50%的阈值 。 对 于 COCO , 我 们 使 用 对 象 关 键 点 相 似 性(OKS)作为我们的评估指标,它定义了不同的人体姿势之间的相似性11746OKDHP网络APAP50AP75APMAPLARAR50AR75ARMARL✓×2-堆叠HG71.790.578.469.075.874.691.980.671.679.272.891.579.569.977.175.692.581.572.580.3✓×4-堆叠HG73.691.680.670.878.076.592.682.873.581.274.892.581.672.178.577.493.183.674.581.9✓×8-堆叠HG75.391.682.673.079.178.092.984.075.282.376.292.683.773.480.278.893.685.275.983.3表4.在COCO val2017数据集上评估我们提出的OKDHPOKDHP-不平衡网络PCKh@0.5分支-1(目标)4-堆叠HG90.2分支-2(辅助)6-堆叠HG90.3分支-3(辅助)8-堆叠HG90.5表5.MPII验证集上的3分支OKDHP-不平衡(两个共享HG模块)网络的详细结果4.2. MPII数据集我们在MPII数据集上评估我们的方法。表1比较了MPII测试集上最先进方法和我们提出的OKDHP的PCKh@0.5准确度结果。表2报告了三个不同容量的网络训练的传统方法和我们提出的OKDHP的比较。我们可以清楚地观察到,所有网络都受益于我们的OKDHP训练方法,特别是对于实现大性能增益的小型网络具体来说,我们的方法改善了各种基线网络,范围从0.3到0.8。考虑到许多最先进的姿态估计网络的性能在PCKh分数中从0.1%提高到0.3%,我们的性能实际上与先前的工作相比是显著的。用OKDHP训练的2-StackHG网络实现了与原始4-Stack HG网络相似的性能,但它只需要HG模块数量的一半。与传统的蒸馏方法相比,不需要大量的预先培训的教师。我们在图中提供了可视化的姿态结果。4.第一章我们将我们的方法与先前最先进的蒸馏工作FPD [66]进行了比较,并在表3中展示了我们提出的平衡和不平衡结构的性能比较。教师网络是一个8栈HG网络,FPD得分为90.2PCKh@0.5。我们可以清楚地观察到,OKDHP平衡和非平衡架构都非平衡结构的性能比平衡结 构 高 0.2% , 但 FLOPS 增 加 了 36% ( 17/47 ) 。OKDHP-Balance的训练代价最小,证明了该方法是最有效的姿态提取方法。我们在表5中提供了我们提出的OKDHP-不平衡架构的详细结果存在三个分支图4. MPII数据集上的可视化结果。损失头昭埃尔博Wri.髋膝谢谢PCKMSE96.995.889.984.889.384.981.589.5我们97.096.190.885.989.585.481.690.0表6. MPII验证集(PCKh@0.5)上不同蒸馏损失函数的比较。我们的网络第一个是用于部署的目标4堆栈沙漏网络。另外两个分支起辅助作用,帮助目标分支取得更好的绩效。4.3. COCO数据集表4显示了基线方法和我们提出的OKDHP在MSCOCO关键点数据集上的结果在测试中,应用了两阶段自上而下的范式,与[60,9,65]相同我们在COCOval2017上使用检测AP 56.4的检测器进行人员分类从该表中,我们可以观察到,与独立学习相比,OKDHP方法产生更通用的模型这表明我们的方法仍然可以有效地应用于大规模数据集4.4. 消融研究损失函数蒸馏损失函数在整个学习过程中起着至关重要的作用我们比较了11747不同蒸馏损失函数的性能如表6中所示。FPD使用均方误差(MSE)损失作为蒸馏项,其与特定于任务的监督项相同。我们在我们提出的框架中测试MSE损失在表6中,该结果表明,与MSE相比,我们提出的逐像素KL散度是更好的选择。我们的方法可以有效地提取的姿态结构知识,以提高蒸馏性能。分支大小我们评估了分支大小对基于分支的在线姿态调整框架的性能的影响。表7示出了具有范围从2到5的不同分支大小的MPII验证集我们省略了分支大小n=1的情况,因为一个分支不能形成系综结果。基线方法不加任何修改地描述了vanilla2-Stack网络。我们可以清楚地观察到,OKDHP与如果在训练期间允许更大的分支大小,则可以进一步改进更多的分支和2栈OKDHP。分支尺寸PCKh@0.5#参数基线88.6 13.0M289.2 15.5百万389.2 18.6百万489.3 21.7百万589.424.7百万表 7. 2-Stack OKDHP 框 架 的 分 支 大 小 对 MPII 验 证 集(PCKh@0.5)的影响。在主实验中,我们为4栈OKDHP网络设置 ns=2和ni=2,这表明我们有两个共享HG模块和每个分支的两个单独HG模块表8显示了单个HG编号对MPII验证集的影响。从这个表中,我们可以看到,如果很少的HG模块被共享,性能将迅速下降。这为这种基于分支的网络带来了分支多样性的概念,如[5,32]中所述。随着个体HG模块数量的减少,多样性将受到损害,这将限制组内知识转移的有效性。我们通常将共享模块和单个模块的数量设置为总堆栈数量的一半,以实现准确性-效率权衡。单个HG编号1234PCKh@0.589.890.090.190.2FLOPs41G47G53G59G表8. 4堆栈OKDHP网络的单个HG模块的数量对MPII验证集的影响(PCKh@0.5)。表9展示了我们提出的框架的性能如何受到等式8中超参数β从这一点来看-ble,我们可以看到,我们的方法仍然具有针对范围从0.5到5的不同β值的鲁棒β0.512345PCKh@0.589.2489.2089.2889.1989.2089.18表9. MPII验证集(PCKh@0.5)上2-Stack OKDHP网络对β的FAU的目标是通过来自所有辅助分支的加权集合热图来生成准确的目标热图。为了评估我们提出的FAU的有效性,我们基于如表10所示的4-堆叠HG网络对MPII验证集进行各种消融研究。我们比较以下实验的性能。(1)基线:没有任何修改的vanilla 4-Stack HG网络。(2)平均值:应用简单平均值来聚合所有分支的热图(3)门:ONE [68]中用于分类任务的简单注意力模块。它最初被提出用于图像分类。我们重新实现了这个模块,使其可以直接用于姿态估计网络。(4)FAU:我们提出的模块。我们可以看到,FAU分别比Mean和Gate高出0.3%和0.2%。这证实了FAU的有用性。基线平均门控FAU89.2 89.7 89.890.0表10. MPII验证集(PCKh@0.5)上4-堆叠HG网络的FAU模块消融研究。5. 结论在本文中,我们提出了一种新的在线知识蒸馏框架提取人体姿势结构知识(OKDHP)在一个阶段的方式。在该框架中利用具有多个分支的网络,其中每个分支是独立的位姿估计器并且被视为学生。FAU模块将多个分支的学生整合到一个教师中,然后反向优化学生分支。与OKDHP,效率显着提高,降低蒸馏的复杂性和改进的模型性能。此外,还引入了非平衡OKDHP方案,以实现具有不同压缩率的目标网络的定制。实验验证了我们提出的OKDHP在两个流行的基准数据集的有效性致谢本工作得到国家重点研究发展项目(批准号:2017YFB1002803)和国家自然科学基金(批准号:62072150)的资助。11748引用[1] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新的基准和最先进的分析。IEEE/CVF计算机视觉和模式识别会议论文集,2014年6月。[2] Mykhaylo Andriluka Stefan Roth和Bernt Schiele重新访问图片结构:人物检测和关节姿态估计。在Proceedings ofthe IEEE/CVF Conference on Computer Vision and PatternRecognition,第1014-1021页中。IEEE,2009年。[3] 布鲁诺·阿尔塔乔和安德烈亚斯·萨瓦基斯。Unipose:在单个图像和视频中统一人体姿势估计。在IEEE/CVF计算机视觉和模式识别会议的论文集,第7035-7044页[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议论文集,第7291-7299页[5] 陈德芳,梅建平,王灿,闫峰,陈春。与不同的同行进行在线知识蒸馏。在AAAI人工智能会议论文集,第3430-3437页[6] 陈国斌,崔元根,项羽,韩东,和曼-莫汉·钱德拉克.学习有效的目标检测模型与知识蒸馏。第31届神经信息处理系统,第742-751页,2017年[7] Xianjie Chen和Alan Yuille。通过具有图像相关成对关系的图形模型的铰接姿态估计。arXiv预印本arXiv:1407.3399,2014。[8] Yu Chen , Chunhua Shen , Xiu-Shen Wei , LingqiaoLiu,and Jian Yang.对抗性posenet:用于人体姿态估计的结构感知卷积网络。在IEEE计算机视觉国际会议论文集,第1212-1221页[9] Yilun Chen,Zhicheng Wang,Yuxiang Peng,ZhiqiangZhang,Gang Yu,and Jian Sun.用于多人姿态估计的级联金字塔网络。在IEEE计算机视觉和模式识别会议论文集,第7103-7112页[10] Anoop Cherian , Julien Mairal , Karteek Alahari , andCordelia Schmid. 混 合 人 体 部 分 序 列 的 姿 态 估 计 。IEEE/CVF计算机视觉和模式识别会议论文集,第2353-2360页,2014年[11] Gui l hemChe'ron,I v anLapt ev,andCordeliaSchmid. P-cnn : 用 于 动 作 识 别 的 基 于 姿 势 的 cnn 特 征 。 在IEEE/CVF International Conference on Computer Vision的Proceedings,第3218-3226页[12] Xiao Chu,Wei Yang,Wanli Ouyang,Cheng Ma,AlanL Yuille,and Xiaogang Wang.用于人类姿态估计的多上下文注意。在IEEE/CVF计算机视觉和模式识别会议集,第1831-1840页[13] Jiajun Deng,Yingwei Pan,Ting Yao,Wengang Zhou,Houqiang Li,and Tao Mei.关系蒸馏网络用于视频对象检测。在IEEE/CVF计算机视觉国际会议论文集,第7023- 7032页[14] Pedro F Felzenszwalb和Daniel P Huttenlocher。用于物体识别的图形结构。国际计算机视觉杂志,61(1):55[15] Shanghua Gao,Ming-Ming Cheng,Kai Zhao,Xin-YuZhang , Ming-Hsuan Yang , and Philip HS Torr.Res2net : 一 种 新 的 多 尺 度 骨 干 网 架 构 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,2019。[16] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。IEEE/CVF计算机视觉和模式识别会议论文集,第770-778页,2016年[18] Tong He , Chunhua Shen , Thi Tian , Dong Gong ,Changming Sun,and Youliang Yan.知识适应有效的语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集,第578-587页[19] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。[20] Yuenan Hou , Zheng Ma , Chunxiao Liu , and ChenChange Loy.自注意蒸馏法学习轻量级车道线检测。在IEEE/CVF国际计算机视觉会议集,第1013[21] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861,2017。[22] Dong-Hyun Hwang , Suntae Kim , Nicolas Monet ,Hideki Koike,and Soonmin Bae.使用师生学习的轻量级3d人体姿势估计网络训练。在IEEE/CVF计算机视觉应用冬季会议论文集,第479-488页[23] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。在bmvc,第2卷,第5页。Citeseer,2010.[24] Li peng Ke , Ming-Ching Chang , Honggang Qi , andSiwei Lyu.用于人体姿态估计的多尺度结构感知网络。在欧洲计算机视觉会议(ECCV)的会议记录中,第713-728页[25] Jangho Kim、SeoungUK Park和Nojun Kwak 。复杂网络:通过因子转移进行网络压缩arXiv预印本arXiv:1802.04977,2018。[26] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[27] Muhammed Kocabas、Salih Karagoz和Emre Akbas。多个标签:基于姿态残差网络的快速多人姿态估计。欧洲计算机视觉会议论文集(ECCV),第417-433页,2018年11749[28] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展,第1097-1105页,2012年[29] 李佳,文殊,王增福。简单姿势:重新思考和改进多人姿势估计的自下而上方法。在AAAI人工智能会议论文集,第34卷,第11354-11361页[30] Quanquan Li,Shengying Jin,and Junjie Yan.模仿非常有效的网络进行对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集,第6356-6364页[31] 李翔、王文海、胡小林、杨剑。选择性内核网络。在IEE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功