没有合适的资源?快使用搜索试试~ 我知道了~
相互学习以适应联合人体解析和姿势估计聂学成1[0000−0003−2433−5983]、冯佳石1、严水成1、 21新加坡国立大学幼儿教育系网址:niexuecheng@u.nus.edu,elefjia@nus.edu.sg2奇虎360人工智能研究院,北京,中国yanshuicheng@360.cn抽象。 本文提出了一种新的相互学习适应模型(MuLA)的联合人体分析和姿态估计。它有效地利用了双方的利益,同时提高了他们的表现。与现有的基于后处理或多任务学习的方法不同,MuLA通过循环利用来自其并行任务的指导信息来预测动态任务特定模型参数。因此,MuLA可以快速适应解析和姿势模型,通过合并来自其对应物的信息来提供更强大的表示,从而提供更强大和准确的结果。MuLA使用卷积神经网络实现,并且是端到端可训练的。基准LIP和扩展PASCAL-个人部分的综合实验证明了所提出的MuLA模型的有效性,具有优越的性能,以及建立的基线。关键词:人体姿态估计·人体解析·相互学习1介绍人体解析和姿态估计是单目图像中人体形态分析的两个关键而又具有挑战性的任务,其目的分别是近年来,由于其广泛的应用,例如,它们引起了越来越多的关注。、人类行为分析[22,9]、个人识别[29,20]和视频监控[14,30]。虽然从不同的角度分析人体,这两个任务是高度相关的,可以为对方提供有益的线索。人体姿态可以为人体部位分割和标注提供结构信息,而人体句法分析可以为人体部位的分割和标注提供便利。在困难的场景中定位身体关节。图1给出了其中考虑两个任务之间的这种相互指导信息可以有利地校正标记和定位误差的示例,如图1中突出显示的。1(b),并改善解析和姿态估计结果,如图1(b)所示。第1段 (c)分段。受上述观察的激励,已经做出了一些努力[26,12,8,25,24,10]来提取和使用这样的指导信息来提高性能。2X. Nie,J.Feng和S. 严(a)(b)(c)图1.一、说明我们的动机联合人类解析和姿态估计。(a)输入图像。(b)独立模型的结果(c)所提出的MuLA模型的结果MuLA可以利用人类解析和姿势估计之间的相互指导信息来提高这两项任务的性能,如突出显示的身体部位和关节所示最好在颜色这两项任务相互配合。然而,现有的方法通常单独训练特定于任务的首先,它们严重依赖于从一个任务的输出中提取的手工特征,以临时的方式帮助另一个任务。第二,他们只利用指导信息的推理过程中,未能提高模型的能力在训练过程中。第三,它们是一站式解决方案,过于僵化,无法充分利用增强模型并迭代改进结果。最后但并非最不重要的是,模型不是端到端可学习的。针对这些缺点,我们提出了一种新的相互学习适应(MuLA)模型,充分和系统地利用人类解析和姿态估计之间的相互指导特别是,我们的MuLA具有精心设计的交织架构,可以实现有效的任务间合作和相互学习。此外,MuLA引入了一种学习适应机制,而不是像现有工作那样简单地融合来自两个任务的学习特征,其中一个任务的指导信息可以有效地转移到修改其他并行任务的模型参数,从而增强表示和更好的性能。此外,MuLA能够通过将估计结果转换到表示空间来循环地执行模型自适应,因此可以基于先前迭代中的增强模型来连续地细化语义部分标签和身体关节位置。具体地,MuLA模型包括表示编码模块、相互适应模块和分类模块。表示编码模块将输入图像编码为初步表示,分别用于人类解析和姿态估计,同时为模型自适应提供指导。利用这样的指导信息,相互适应模块学习动态地预测模型参数,以通过结合从其他任务学习的有用的先验知识来增强表示,从而实现模型训练中的有效任务间交互和合作简介用于联合人体解析和姿态估计的3使用这样的相互适应模块改进了一个任务的学习过程,使另一个任务受益,从而提供了任务之间容易传递的信息。此外,这些动态参数根据不同的输入以一次性方式有效地学习,从而导致快速和鲁棒的模型自适应。MuLA以残差的方式将相互定制的表示与初步表示融合,以产生增强表示,用于通过分类模块进行最终预测。MuLA还允许通过将估计结果变换到表示空间来进行迭代模型自适应和改进,表示空间用作下一阶段的增强输入。所提出的MuLA使用深度卷积神经网络实现,并且是端到端可学习的。我们在Look into Person(LIP)[10]和扩展的PASCAL-Person-Part [24]基准上评估了所提出的MuLA模型实验结果很好地证明了它的优越性比现有的方法在利用相互指导信息联合人体解析和姿态估计。我们的贡献概括为四个方面。首先,我们提出了一种新的端到端的可学习模型,用于联合学习人类解析和姿势估计。其次,我们提出了一种新的相互适应模块的动态交互和合作的两个任务之间。第三,所提出的模型是能够反复利用相互指导信息,以不断提高两个任务的性能。第四,我们在LIP数据集上实现了新的最先进的技术,并且在扩展的PASCAL-Person-Part数据集上的联合人体解析和姿势估计方面优于以前的最佳模型。2相关工作由于它们的密切相关性,最近的工作已经利用人类解析(人类姿势估计)来辅助人类姿势估计(人类解析)或利用它们的相互益处来共同提高两个任务的性能。在[12]中,Ladicky等人提出利用身体部位作为姿态估计模型的附加约束。给定所有关节的位置,他们引入了一个身体部位遮罩组件来预测属于每个身体部位的像素标签,这可以与整个模型一起优化在[25]中,Xia等人提出利用姿态估计结果来通过利用关节位置来提取用于语义部分的分段建议来引导人类解析,所述语义部分使用与或图来选择和组装以输出对人的解析。在[10]中,Gong等人提出通过用联合结构损失对分割损失进行加权,以自监督结构敏感的方式利用姿态估计来改进人类解析。 [10]如:(1),(2),(3),(4)。 [28]提出通过从全局角度考虑人体姿势结构来改进人体解析,以用于考虑不同位置的重要性的特征聚合。 Yamaguchi等 [26]提出了优化人体解析和姿势估计,并以一种替代方式提高两项任务的性能:利用姿势估计结果生成人体解析的身体部位位置,然后利用人体解析结果更新姿势估计模型中的外观特征。4X. Nie,J.Feng和S. 严i=1姿态损失姿势分类器姿态损失姿势分类器代表性编码模块编码模块图像相互Adap模块M站相互Adap模块M站表示编码模块表示编码模块解析损失解析分类器解析损失解析分类器图二. 所提出的用于联合人类解析和姿态估计的相互学习适应模型(MuLA)的整体架构的图示。给定一幅输入图像,MuLA利用新的相互适应模块,以迭代的方式在解析和姿态估计模型之间建立动态的交互和协作,充分利用它们的共同利益,同时提高它们的性能用于细化接头位置。 Dong等人 [8]提出了一种混合解析模型,用于在And-Or图框架下统一人体解析和姿势估计。他们利用身体关节,以协助人类解析,通过构建混合的关节组模板的身体部位表示,并利用身体部位,以改善人体姿势估计,通过形成parselets约束的位置和共同出现的身体关节。 在[24]中,Xia et al. 提出利用深度学习模型进行联合人体解析和姿势估计。他们利用手工制作的特征的解析结果,通过考虑身体关节和部位的关系来辅助姿势估计,然后利用生成的姿势估计结果来构建关节标签图和骨架图,以改进人类解析。凭借强大的深度学习模型,它们实现了优于以前方法的性能。尽管先前取得了成功,但现有方法受到依赖于用于利用指导信息来改进对应模型的估计结果的手工特征相比之下,所提出的相互学习以适应模型可以相互学习以快速适应一个任务的模型,该模型以另一个任务的表示为条件以用于特定输入。此外,MuLA在训练和推理阶段都利用指导信息进行联合人体解析和姿势估计。此外,它是端到端可学习的,通过使用CNN实现。3所提出的方法3.1制剂对于一个R_G_B_i∈R_H×W×3,其中H和W是两个整数,我们用S={s}H×Wii=1表示I的人工解析结果,其中si∈{0,. . .,P}是语义第i个像素的部分标签,P是语义部分类别的总数。特别地,0表示背景类别。我们使用J={(xi,yi)}N用于联合人体解析和姿态估计的5φφ∗∗∗∗∗∗e表示I中的人体实例的身体关节位置,其中(xi,yi)表示第i个身体关节的空间坐标,N是关节类别的数量。我们的目标是设计一个统一的模型,同时预测人类解析S和姿势J,通过充分利用他们的相互利益,以提高这两个任务的性能。现有的联合人类解析和姿态估计的方法通常提取手工制作的功能,从一个任务的输出,以协助其他任务在后处理。它们既不能提取强大的特征,也不能增强模型。针对这些限制,我们提出了一个相互学习适应(MuLA)模型,充分利用人类解析和姿势估计的相互利益,在下文中,我们使用g[ψ,ψ*](·)和h[φ,φ*](·)来精确地确定这些参数,并且使用下标中指定的参数来确定具体地,φ1和φ2表示可适应于另一任务的参数。然后,我们提出的MuLA被公式化为以下循环学习过程:S(t)=g(t)(F(t)),其中eψ(t)=h′(F(t),J),[(t),]SJ(一)J(t)=h(t)(F(t)),其中φ(t)=g′(F(t),S),[φ(t),φ*]J*S其中,S(t)和F(t)表示针对输入图像I的解析和不解析的提取特征,并且F(t)和F(t)S J姿态预测。注意,在开始时,F(1)= F(1)= I。S J上述公式在Eqn.(一)突出最大特色从现有的方法MuLA:MuLA显式地适应一个任务的一些模型参数(例如,解析模型参数ψ*)到另一个任务的指导信息为k(e. G. 通过在h′(·,·)和g′(·,·)上自适应函数来确定位置。在这种情况下,自适应向量ψ(t)和φ(t)在形式上被编码使用。并行任务。利用这些参数,MuLA模型可以通过更灵活和有效地利用交互和协作来学习互补表示并提高人类解析和姿态估计任务的性能。在另一个例子中,MuLAbasesψ(t)anddφ(t)onthee输入图像。不同的输入将动态地修改模型参数,使得模型对各种测试senarios具有此外,MuLA具有通过循环学习过程迭代地利用两个任务之间的相互指导信息的能力,从而不断改进两个模型。MuLA的整体架构如图所示。二、具体而言,MuLA呈现交织架构,由三个组件组成:表示编码模块、相互适配模块和分类模块。两个编码ES(t)(·)的预编码模块的持续时间ψe和EJ(·)对于将输入F(t)和F(t)形式化为高水平的近似(t)律政司司长用于人类解析和姿势估计的表示。在自适应参数ψ(t)和φ(t)处的自适应增量中的累积自适应量要从ES(t)(·)和EJ中自动生成预处理的特殊预处理(·)通过简单的调整(吨)ψe e6X. Nie,J.Feng和S. 严ψ(t)φ(t)eφ(t)ψ(t)不ES(F(t))∗SψaSψ(t)[ψ(t),ψ(t)]SJφ(t)[φ(t),φ(t)]JE(t)(t)[2014 - 05 -23],ψ]的一种(F(t)),S+βLJJφ(t) EJ(t)(t)[φ,φ]的一种(F(t)),JJφJ来自并行任务的辅助引导信息灵感来自于tionsg′(·,·)andh′(·,·),我们表示两个可自适应函数A和A(t)(·)ψaφ a来学习预测这些自适应参数。用于可靠和稳健的参数在此之前,我们将从ES(t)(·)和EJ中获取更高级别的副本(·)作为相互指导信息。即ψe(t)(·)和A(t)(·)t表示ES(吨)e(F(t))和ψaφa(吨)eEJ(F(t))作为输入并且输出Φ(t)和Φ(t)。通常,(t)* *ef(t)=h′(F(t),J(t)):=A(t).EJ(F())Σ,不†Jφaφ(t)=g′(F(t),S():=A(吨)(吨)eΣψS(二)He_e(t)和d_φ(t)可以通过y_e(t)和d_e(t)来进行任意或任意的预处理。阿吉耶(吨)e更好的人类解析和姿态估计通过利用他们的mu-实际指导信息。我们利用通过以下方法提取的定制表示:ψ(t)和dφ(t)与hψ(t)和dφ(t)相结合,以进行精细预处理,并使用e eES(t)(t)(·)和EJ(t)(t)(·)以避免在MuLA中出现已恢复的自适应编码。[ψe,ψ*][φe,φ*]相互适应模块允许动态交互和合作在MuLA内的两个任务之间充分利用他们的共同利益。MuLA使用两个分类器CSW (·)和CJW(·)满足以下的肌肉适应性-tionmodulefororpredictinghumanparsingS(t)andposeJ(t). Spec(t),[ψ(t),ψ(t)]和[φ(t),φ(t)],分别表示了Eqn中的ψ(t)和φ(t)。(1)、w e w分别为了迭代地利用相互指导信息,我们设计了两个映射模MSM (·,·)和M JM(·,·)从ES(t)(t)(·)和EJ(t)(t)(·)将最新的预处理结果S(t)和J(t)记录到[ψe,ψ*][φe,φ*]输入F(t+1)和F(t+1)用于下一级。即SF(t+1)=MSJ. ES(F(t)),S(t)Σ和F(t+1)=MJ.EJ(F(t)),J(t)Σ.m e*m e*(三)根据Eqn中的定义(3)、F(t)和F(t)提供初步表示S J在下一个阶段的开始,避免在每个阶段从头开始学习在此外,S(t)和J(t)为生成更好的预测结果提供了额外的指导信息,并减轻了后续阶段的学习困难[23,15]。为了实现MuLA,我们在SandJ上添加了一个备份,以供人类使用和姿态估计,并定义以下损失函数:Σ。..ΣΣ.SΣΣΣJt=1w e*w e*(四)其中T_d_n不是Mu_a中的i_t_a_n的总数目,L_s(·,·)和L_J(·,·)分别表示用于人类解析和姿态估计的损失函数,并且β是用于解析L_s(·,·)和L_j(·,·)的系数。我们将在附件中提供有关实施MuLA的详φψφφCC.(吨)eL=LSSψ(t)S.用于联合人体解析和姿态估计的7细信息。8X. Nie,J.Feng和S. 严Sφe参数调适器3x32x23x32x23x3256Max22561Max22561200101卷积池(b)第(1)款图三. (a)CNN在一个阶段实施MuLA。给定输入F(t)和F(t),解析和姿态编码器生成初步表示R(t)J S和R(t)。然后,参数适配器预测动态参数φ(t)和φ(t),J通过动态卷积学习互补表示R(t)和R(t),其S*J *被利用来经由以残差方式的加法来定制初步表示pro du cinggrefined d表示R´(t)和R´(t)。最后,MuLAfeed dsR¯(t) andR¯(t)tooS J S J分别用于解析和姿态估计的分类器(b)网络结构的参数适配器,由三个卷积和两个池化层。对于每一层,从上到下指定内核大小、通道/池类型的数量、步幅和填充大小3.2执行我们使用深度卷积神经网络(CNN)实现MuLA,并在图中显示架构细节。第3(a)段。表示编码模块该模块由两个编码器组成ES(·)和EJ(·),将编码输入F(t)和F(t)的值增大到最小值,(吨)e(t)律政司司长用于估计解析和姿态结果的V表示R(t)和R(tS J作为提供自适应并行处理的方法。WeimentES(t)(·)andEJ(·)与h(吨)ψe e两种不同的最先进的架构:VGG网络[19]和沙漏网络[15]。VGG网络是广泛应用于各种视觉任务的通用架构[18,5]。我们利用其具有16层的完全卷积版本,称为VGG 16-FCN,用于这两个任务。此外,我们修改VGG 16-FCN通过删除最后两个最大池层将总步幅从32减少到8,旨在扩大特征图以提高零件标记和关节定位精度。沙漏网络具有U形架构,其最初被设计用于人体姿势估计。我们将其扩展到解析,使输出层的目标是语义部分标记,而不是联合置信回归。沙漏网络的其他配置完全遵循[15]。注意,配对和姿态编码器不需要具有相同的架构,因为它们彼此独立。姿势分类器相互 适配模块姿势(t)编码器RJR(t)J姿势参数适配器解析参数适配器f(t*动态卷积R(t)J*y(t)*动态卷积R(t)S*解析(t)编码器RSR(t)S(解析分类器ψφ用于联合人体解析和姿态估计的9φφSψφ˜˜S*J*˜˜J∗∗一一∗∗MuualAdaptationMduleThsmoleincldestwoadaptersA(t)(·)and一A(t)(·)来操作适应于所有使用的向量ψ(t)和φ(t)阿吉亚p(t)和p(t)的最小值。在特定情况下,我们执行At(·)()下一页S Jψa和A(t)(·),其具有用于以下的预编码核的相同的CNN一对应模型,如图。3(b)款。适配器网络采用R(t)和R(t)作为约束,输出s或sφ(t)∈Rh×h×c,ψ(t)∈Rh×h×c作为约束J核,其中h是核大小,c=ci×co是具有输入和输出信道号分别为C1和C0然而,由于较大的规模,直接预测所有卷积核是不可行的。通过自适应A(t)(·)来减少核的数目一和A(t)(·),我们遵循W[2]来使用算法来使用SVD进行分解一parameters(t)anddφ(t)via(吨) (吨)(吨)(吨)(吨) (吨)(吨)(吨)ψ∗ =美国 VS和φ* =UJ VJ,(5)其中,表示卷积运算,表示逐通道卷积运算,U(t)/U(t)和V(t)/V(t)是独立的卷积运算,并且可以被S J S(吨)Jh×h×c(吨)h×h×casparameterb ases,anddarknes ∈Rianddφ~* ∈Ri是实际参数-由Aφ(t)(·)和Aψ(t)(·)表示。在这种情况下,许多出版物参数可以减少一个数量级。为了用自适应参数来定制初步表示,我们使用动态卷积层来将ψ(t)和dφ(t)直接应用于duct在R(t)和R(t)上的卷积运算,其通过仅替换S J静态卷积核与传统卷积核中预测的动态卷积卷积层:(吨)(吨)(吨) (吨)(吨) (吨)(吨)RS*=ψ*RS =美国⊗ψ˜∗VSRS,(吨)(吨)(吨)(吨)(吨)(吨)(吨)(六)RJ*= φ*RJ = UJ ⊗φ˜∗cVJ RJ,其中R(t)R(t)和R(t)是从引导学习的动态表示任务对应方的信息,克服了现有方法的缺点根据估算结果手工制作的特征此外,R⑴和R⑴是S*J *以一次性方式高效地生成,避免了耗时的迭代更新方案所使用的传统方法的表示学习。我们用1×1的卷积来实现U(t)/U(t)和V(t)/V(t),并应用它们S(吨)J(吨)S J(吨)(吨)(吨)(吨)togetherwithi thψ*/φ*在RS/RJ上的序列号 为了给RS/RJ写。通过利用人类解析和姿态估计之间的相互益处信息,R(t)和R(t)可以提供强大的互补线索来定制R(t)S*J *S和R(t),用于更好地标记语义部分和定位身体关节。我们融合互补表示和初步的,通过添加在一个剩余为最终预处理的所有预处理项R´(t)和R ´(t)进行管理:S JR¯(t)=R(t)+R(t)且R¯(t)=R(t)+R(t)。(七)S.S.S.J.J. J.10X. Nie,J.Feng和S. 严ψ(t)φ(t)ψ(t)φ(t)JClasif icationModuleGivenreenrentationsR<$(t)andR<$(t),我们应用两种方法-S J耳分类器CSW (·)和CJW(·)用于生成简单的部件性能映射S⑴和身体关节置信度图J⑴。特别地,我们使用1×1卷积层实现分类器。在得到S(t)和J(t)之后,映射模块MM (·,·)和M JM(·,·)转换器会自动将所有R(t)和R(t)转换为输入F(t+1)S J S和F(t +1)用于下一阶段。 在[15]之后,我们在S(t)上使用1×1卷积和J(t)来将预测映射到表示空间中。我们也应用1×1在R¯(t)和R¯(t)上进行复制,以映射预存的高级别副本S J阶段为下一阶段的初步陈述我们整合这些通过加法得到F(t +1)和F(t +1)的两个表示。S J训练和推断如在等式10中的损失函数中所展示的。(4),我们在每个相互学习阶段应用解析和姿势监督来训练MuLA模型。特别是,我们利用交叉熵损失和均方误差损失的解析和姿势模型分别。MuLA可通过梯度反向传播进行端到端训练在推理阶段,MuLA在一次向前传递中同时估计输入图像的解析和姿态来自MuLA的最后阶段的语义部分概率图S(T)和身体关节置信度图J(T)用于最终预测。特别地,对于人类解析,在S(T)的每个位置处具有最大概率的类别被输出作为语义部分标签。对于姿态估计,在单人情况下,我们将J(T)中每个置信度图的最大置信度位置作为每种类型的身体关节的位置;在多人情况下,我们对J(T)中的每个置信度图执行非最大值抑制(NMS)以生成关节候选。4实验4.1实验装置我们在两个基准上评估所提出的MuLA模型,用于同时的人类解析和姿势估计:Look into Person(LIP)数据集[10]和扩展PASCAL-Person-Part数据集[24]。LIP数据集包括从各种现实场景中收集的50,462张单人图像,为19类语义部分提供了像素级注释,并为16种身体关节提供了位置注释。具体而言,LIP图像被分成30,462个用于训练,10,000个用于验证,10,000个用于测试。扩展的PASCAL-Person-Part是一个具有挑战性的多人数据集,包含14个身体关节和6个语义部分的注释总共有3,533张图像,分为1,716张用于训练,1,817张用于测试。数据增强我们进行了以前的作品中常用的数据增强策略[28,3],用于人类解析和姿势估计,包括[-40,40]中的随机旋转,[0. 八,一。5],随机种植用于联合人体解析和姿态估计的11表1. 基于VGG 16-FCN的LIP确认集表2. 基于沙漏网络的LIP验证集方法PCKMiouVGG16-FCN 69.1 34.5VGG16-FCN-Add 69.7 36.5VGG 16-FCN-LA-解析66.5 40.0VGG16-FCN-MuLA76.040.2方法PCK mIOUHG-0s-1u-MuLA 78.8 38.5HG-1s-1u-MuLA 82.2 43.5HG-2×1u 80.841.3HG-2s-1u-MuLA(第1阶段)82.8四十五点五HG-2s-1u-MuLA(第二阶段)83.1四十五点六分HG-2s-1u-MuLA 84.4 46.9HG-3s-1u-MuLA 85.0 47.8HG-4s-1u-MuLA 85.1 48.9HG-5s-1u-MuLA85.4 49.3基于人物中心,平移偏移量为[−40px,40px],并进行随机水平镜像。我们调整并填充增强的训练样本为256×256作为CNN的输入。实现我们从头开始为LIP和扩展的PASCAL- Person-Part数据集分别使用自己的训练样本训练MuLA。对于扩展PASCAL-Person-Part数据集上的多人姿态估计,我们遵循[16]中提出的方法。它通过MuLA姿势模型中的密集回归分支将联合候选人划分为相应的人,用于将联合候选人转换到质心嵌入空间中。我们使用PyTorch [17]实现MuLA,并使用RMSProp [21]作为优化器。我们将初始学习率设置为0.0025,并在第150、170、200和230个时期将其乘以0.5。我们总共训练MuLA 250个epoch。我们进行多尺度测试,以产生最终的预测人类解析和姿态估计。我们的代码和预训练模型将提供。遵循惯例,Mean Intersection-over-Union(mIOU)[10]用于评估人类解析性能。我们分别使用PCK [27]和平均精度(mAP)[11,16]来测量单人和多人姿势估计的准确度。4.2LIP数据集消融分析我们评估了建议的MuLA模型与两种骨干架构,即。,VGG 16-FCN和沙漏网络,用于人类解析和姿态估计,如第2节中所述。3.2.首先,我们使用基于VGG 16- FCN的模型(表示为VGG 16-FCN-MuLA)对LIP验证集进行消融实验,以研究MuLA在利用相互指导信息同时提高解析和姿势性能方面的功效。结果示于表1中。为了证明MuLA学习的自适应表示的有效性,我们与直接融合来自并行模型的表示的流行策略进行了比较,我们将这些基线分别表示为VGG 16-FCN-Add/Multi/Concat。要评估的优势VGG16-FCN-Multi69.435.8VGG16-FCN-Concat69.536.1VGG16-FCN-MTL65.331.2VGG16-FCN-Self69.836.1VGG16-FCN-LA-Pose75.032.110X. Nie,J.Feng和S. 严结合MuLA的交织架构,我们还将其与传统的用于联合人体解析和姿势估计的多任务学习框架进行了比较,通过在单个VGG 16-FCN上添加解析和姿势监督来实现,表示为VGG 16-FCN-MTL。为了研究残差架构的影响,然后是自适应模块,我们通过用传统的卷积层替换动态卷积层来消除任务之间的相互这样的变体表示为VGG 16-FCN-Self。为了验证在两个任务之间双向利用引导信息的优点,我们通过交替地去除解析和姿势适配器来简化MuLA,从而产生单向适配模型,表示为VGG 16-FCN-LA-Pose和VGG 16-FCN-LA-Parsing。从表1中,我们可以看到,所提出的VGG 16-FCN-MuLA在人类解析和姿势估计两者上都大幅提高了基线VGG 16-FCN的性能,分别从34.5%提高到40.2%mIoU和从69.1%提高到76.0%PCK。这些结果清楚地显示了MuLA在利用互利共同提高模型性能方面的功效我们还可以观察 到 来 自 两 个 模 型 的 表 示 的 直 接 融 合 , 因 为 VGG 16-FCN-Add/Multi/Concat不能充分利用指导信息,导致非常有限的性能改进。与这些朴素融合策略相比,VGG 16-FCN-MuLA可以通过动态适应参数来学习更强大的表示。传统的多任务学习框架VGG 16-FCN-MTL遭受性能下降的解析和姿态估计,由于其绑定的架构,试图学习单一的表示为两个任务带来的限制。相比之下,MuLA为每个任务学习单独的表示,为多任务学习提供了灵活有效的模型。向适配模块添加残余架构仅略微提高了这两个任务的性能,揭示了性能增益不仅仅来自网络架构工程。相反,MuLA确实学习了有用的互补表示。适应变体VGG 16-FCN-LA-姿势/解析的单向学习可以成功地利用解析(或姿势)信息来适应姿势(或分别解析)模型,从而导致性能改进。这验证了我们提出的学习自适应模块在开发并行模型的制导信息方面然而,我们也可以观察到“源”t的这种单向线性特征形式为k s,这是由于在“大小”t上的转换为k s。它确定了更有效地提高人工解析和姿态估计性能的必要性。为了评估MuLA在迭代地利用人类解析和姿态估计之间的相互益处上的能力,我们进一步用基于沙漏的模型执行消融研究。结果总结在表2中。我们使用HG-ms-nu-MuLA表示包含m个阶段的模型,每个阶段具有n个单位深度(每个沙漏模块每单位深度32层是[15]中的基本配置)。特别地,HG-0 s-1u-MuLA表示独立的沙漏网络(没有相互学习来适应)用于这两个任务。我们有目的地使所有阶段具有相同的架构,以解决架构变化对性能的影响特别地,HG-2s-1u-MuLA(第一/第二12X. Nie,J.Feng和S. 严表3. 与LIP在人体姿态估计任务中的最方法PCK混合姿势机器77.2BUPTMM-POSE 80.2金字塔流网络82.1Chou等人 [7]87.4我们的型号87.5表4. LIP在人类句法分析任务中的应用方法PixelAcc MeanAcc mIoU阶段)表示HG-2s-1u-MuLA的消融病例,其中仅第1或第2阶段包含相互学习以适应的模块。我们用HG-k×nu表示由k个具有n-单位深度的Hourglass模堆叠而成的标准Hourglass网络.从表2中,我们可以观察到,将MuLA中的阶段数量从0增加到5可以持续提高两个任务的性能,人类解析的mIoU从38.5%提高到49.3%,姿势估 计 的 PCK 从 78.8%提高到 85.4%。 通 过 比 较 HG-2s-1u-MuLA和 HG-2×1u,我们可以发现所提出的MuLA模型可以从模型对应物中学习有价值的表示,而不是从堆叠沙漏模块中受益。将HG-2s-1u-MuLA与HG-2s-1u-MuLA(第一/第二阶段)进行比较,我们可以看到,在任何阶段去除相互学习过程总是会损害解析和姿态估计的性能,这表明所提出的自适应模块在利用相互指导信息方面是有效的,并且有此外,我们发现使用超过5个阶段的MuLA不会带来明显的改善。因此,为了效率,我们设置T=5我们将我们的模型HG-5s-1u-MuLA与LIP数据集上的人类解析和姿势估计的最新技术进行了结果示于表3和4中。对于人体姿态估计,[7]中的方法在第一届LIP挑战赛中赢得了人体姿态估计轨道它广泛地利用了对抗性训练策略。金字塔流网络引入自上而下的路径和横向连接来组合不同级别的特征以用于循环地细化联合置信度图。BUPTMM-POSE和Hybrid Pose机器是结合了沙漏网络和卷积姿势机器。从表3中,我们可以发现我们的模型在所有这些强基线上都实现了卓越的准确性它在LIP数据集上实现了最新的87.5%PCK。表4示出了与人类解析的最新技术的比较。除了mIoU,我们还报告了像素准确度和平均准确度,遵循惯例[10,28,5]。特别地,[10,28]中的方法利用人类姿势信息作为额外的监督,以通过基于身体关节位置引入结构敏感损失来辅助人类解析。我们可以观察到,我们的模型在所有评估指标上始终优于所有以前的方法。它提供了最先进的88.5%像素精度,60.5%平均精度和49.3% mIoU。这表明我们的学习适应模块确实提供了一个更SegNet [1]69.024.018.2FCN-8s [13]76.136.828.3DeepLabV2 [4]82.751.641.6注意事项[5]83.454.442.9[10]第十话84.454.944.7SS-NAN [28]87.656.047.9我们的模型88.560.549.3用于联合人体解析和姿态估计的13表 5. 用 于 人 体 姿 态 估 计 的PASCAL- Person-Part数据集上的结果表6. PASCAL的结果-用于人类分析的个人-部分数据集方法mAPChen and Yuille [6] 21.8Insafutdinov等人 [11]28.6Xia et at. [24]39.2我们的基线(不含MuLA)38.6我们的型号39.9方法mIoU注意+SSL [10] 59.4[28]第二十八话Xia等人 [24] 64.4我们的基线(不含MuLA)62.9我们的型号65.1这是一种利用人类姿势信息来指导人类解析的有效方式,而不是其他复杂的策略,如[10,28]中的结构敏感损失。定性结果图图4(a)示出了定性结果,以直观地说明MuLA在相互促进人类解析和姿态估计方面的功效。我们可以观察到,MuLA可以利用来自人类解析的身体部位信息来约束身体关节位置,例如,从第一和第二实施例。另一方面,MuLA可以使用人类姿势来提供结构信息,以通过提高语义部分标记的准确性来有益于人类解析,如第三和第四示例所示。此外,我们可以看到MuLA同时提高了所有示例的解析和姿势质量。4.3PASCAL-Person-Part数据集与LIP数据集不同,扩展的PASCAL-Person-Part数据集由于多人的存在而提出了更具挑战性的姿态估计问题如第4.1中,我们利用[16]中的模型作为MuLA中的姿势模型我们利用基于MuLA的沙漏网络进行了5个阶段的实验。结果示于表5和6中。我们可以看到,我们的基线模型在多人姿势估计和人类解析方面实现了38.6%的mAP和62.9%的使用所提出的MuLA模型,两个任务的性能可以分别提高到39.9%mAP和我们还观察到,我们的模型实现了优越的perfor-曼斯比以前的方法,这两个任务。特别地,[24]通过利用来自估计结果的手工制作的特征作为后处理,提出了用于联合人类解析和姿势估计的最新模型。我们的模型优于[24]的性能进一步证明了学习适应相互指导信息的有效性,以增强用于联合人类解析和姿势估计的模型我们将人类解析和多人姿态估计结果可视化在图1B中。第4(b)段。我们可以看到,MuLA可以使用身体关节信息来恢复丢失的检测部分,例如在第一示例中为左侧人的左臂,在第二示例中为右侧人的右臂。此外,MuLA还可以利用语义部分信息来约束身体关节位置,例如,关节位置。在第一示例中为右侧人的右膝,在第二示例中为左侧人的左踝。14X. Nie,J.Feng和S. 严(a)(b)第(1)款见图4。(a)LIP和(b)扩展PASCAL-Person-Part数据集的定性结果。对于每一列,前两行是基线模型HG-5×1u的结果,没有利用相互指导信息,最后两行是建议的模型HG-5s-1u-MuLA的结果。最好在颜色5结论在本文中,我们提出了一种新的相互学习适应(MuLA)模型,以解决具有挑战性的联合人类解析和姿态估计问题。MuLA使用一种新的交织架构来利用它们的相互指导信息,同时提高它们的性能。特别是,MuLA实现了这两个任务之间的动态交互和合作,通过相互学习,以适应并行模型的参数,通过注入来自另一个的信息来定制它们的初步表示。MuLA可以迭代地编织相互指导信息,以不断提高两项任务的性能它有效地克服了以前的作品,利用两个任务之间的相互利益,通过在后处理中使用手工制作的功能的局限性。基准上的综合实验已经清楚地验证了MuLA用于联合人类解析和姿态估计的功效特别是,MuLA在LIP数据集上实现了人类解析和姿态估计任务的新的最先进技术,并且优于所有以前致力于在PASCAL-Person-Part数据集上联合执行这两个任务的方法。确认Jiashi Feng得到NUS IDS R-263-000-C67-646、ECRA R-263-000-C87-133和MoE Tier-II R-263-000-D17-112的部分支持。用于联合人体解析和姿态估计的15引用1. Badrinarayanan,V. Kendall,A.,Cipolla,R.:Segnet:用于图像分割的深度卷积编码器-解码器架构。IEEE传输模式分析Mach。 我告诉你。39(12),24812. 贝尔蒂内托湖Henriques,J.F.,Valmadre,J.,Torr,P.,Vedaldi,A.:学习前馈一次性学习器。In:NIPS(2016)6,83. Cao,Z.,Simon,T.Wei,S.E.,Sheikh,Y.:利用局部仿射场进行实时多人二维姿态估计在:CVPR(2017)94. Chen,L.C.,帕潘德里欧,G.,科基诺斯岛墨菲K Yuille,A.L.:Deeplab:使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。载于:ICLR(2015)125. Chen,L.C.,杨,Y.,王杰,徐伟,Yuille,A.L.:注意秤:尺度感知的语义图像分割。In:CVPR(2016)7,126. 陈旭,Yuille,A.:用灵活的成分解析闭塞的人。在:计算机视觉和模式识别(CVPR),2015年IEEE会议(2015)137. Chou,C.J.,简J.T. Chen,H.T.:人体姿态估计的自对抗训练。在:CVPR研讨会(2017)128. 董,J.,陈昆,沈,X.,杨杰,Yan,S.:走向统一的人类解析和姿态估计。见:CVPR(2014)1,49. Gan,C.,Lin,M.,杨,Y.,de Melo,G.,Hauptmann,A.G.:概念并不孤单:探索零拍摄视频活动识别的成对关系。In:AAAI(2016)110. Gong,K.,梁湘,沈,X.,Lin,L.:看人:自我监督结构敏感学习和人类解析的新基准。纳入:CVPR(2017)1、3、9、10、12、1311. Insafutdinov,E.,P
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功