没有合适的资源?快使用搜索试试~ 我知道了~
8929基于类型化部分-关系推理的层次化人类句法分析Wengguan Wang1,2 Yuan,Hailong Zhu3 Yuan,Jifeng Dai4,Yanwei Pang3†,Jianbing Shen2,LingShao21瑞士苏黎世联邦理工学院2阿联酋Inception Institute of Artificial Intelligence3天津大学电气与信息工程学院脑启发智能技术天津市重点实验室4商汤科技研究wenguanwang.ai @gmail.comhlzhu2009@gmail.comhttps://github.com/hlzhu09/Hierarchical-Human-Parsing摘要人工解析是针对像素级的人工语义理解。由于人体是分层结构的,如何对人体结构进行建模是这项任务的中心主题。 围绕这一点,我们寻求同时利用深度图网络和分层人类结构的表示能力。特别是,我们提供以下两个贡献。第一,三种部分关系,即,分解、合成和依赖性,第一次被三个不同的关系网络完整而精确地描述。这与以前的解析器形成了鲜明的对比,以前的解析器只关注关系的一部分,一种类型不可知的关系建模策略。通过在关系网络中显式地施加参数以满足不同关系的特定特征,可以捕获更多的表达性关系信息。其次,以前的解析器在很大程度上忽略了对循环人类层次结构上的近似算法的需求,而我们则通过将通用消息传递网络与其边缘类型的卷积对应物相近似来通过这些努力,我们的解析器为更复杂和灵活的人类关系推理模式奠定了基础。五个数据集的综合实验表明,我们的解析器设置了一个新的国家的最先进的每一个。1. 介绍人体分析涉及将人体分割成语义部分,例如,头、臂、腿等。它在文献中引起了极大的关注,因为它能够实现细粒度的人类理解,并发现了广泛的以人为中心的应用,例如人类行为分析[50,58,14],人机交互[16]等。人体呈现出高度结构化的层次结构,身体各部分固有地相互作用。作为*前两位作者对本书的贡献相当†通讯作者:庞彦伟。图1:我们的分层人工解析器的图示。 (a)投入形象。(b)(a)中的人类层级,其中指示依赖关系,并且是分解/组合关系。(c)在我们的解析器中,设计了三个不同的关系网络,以适应不同部分关系的具体特征,即,、、和分别代表分解关系网络、组合关系网络和依赖关系网络。执行迭代推理()以获得更好的近似。为了视觉清晰,省略了一些节点。(d)我们的层次分析结果。示于图1(b),部分之间存在不同的关系[42,60,49]:分解和组成关系(实线:)在组成部分和整个部分之间(例如,{上半身,下半身}和全身),以及依赖关系(虚线:)在运动学上连接的部件之间(例如, 手和手臂)。 因此垂直于中心人工解析中的问题是如何对这种关系建模。最近,已经提出了许多结构化的人类解析器[65,15,22,64,47,74,61,20]。他们的无表成功确实证明了在这个问题上利用结构的好处。然而,三个人--但人体结构建模仍存在一些不足。(1)所利用的结构信息通常是弱的,并且所研究的关系类型是不完整的。大多数有效方法[65,15,22,64,47]直接将人体姿势信息编码到解析模型中,导致它们受到琐碎结构信息的影响,更不用说需要额外的姿势注释。此外,以前的结构化解析器只关注上述部分关系中的一个或两个例如,[20]仅考虑8930依赖关系,依赖于分解关系。(2)只学习一个关系模型来处理不同类型的关系,而没有考虑它们本质的、不同的几何约束。这种关系建模策略过于笼统和简单;似乎没有很好地描述不同部分的关系。(3)根据图论,由于人体产生复杂的循环拓扑,因此需要迭代推理以获得最佳结果近似。然而,现有技术[22,64,47,74,61]主要建立在即时前馈预测方案上。为了应对上述挑战,并使人类结构的更深入的理解,我们开发了一个统一的,结构化的人类解析器,精确地描述了一个更完整的部分关系,并有效地原因结构与棱镜的消息传递,反馈推理计划。针对前两个问题,我们首先对分解、组合、依存三个基本关系进行了深入而全面的分析。 三个不同的关系网络(、得双曲正弦值.在图1(c))是精心设计和强加明确满足特定的,内在的关系约束。然后,我们将解析器构建为树状的端到端可训练图模型,其中节点表示人体部位,边缘建立在关系网络上。对于第三个问题,修改的关系型卷积消息传递过程(图1)。1(c))是在人类层次结构上执行的,使我们的方法能够从全局视图获得更好的解析结果。所有部件,即,部分节点、边(关系)函数和消息传递模块是完全可区分的,使得我们的整个框架能够是端到端可训练的,并且反过来,便于学习关于部分、关系和推理算法。更重要的是,我们的结构化人类解析器可以被视为消息传递神经网络(MPNN)的基本变体[19,56],但在两个方面有显着(1)大多数以前的MPNN是边缘类型不可知的,而我们的地址关系型结构reason,具有更高的表达能力。(2)通过将基于多层感知器(MLP)的MPNN单元替换为卷积单元,我们的解析器获得了空间信息保持特性,这对于这种逐像素预测任务是期望的。我们在五个标准的人类解析数据集上广泛评估了我们的方法[22,64,44,31,45],在所有这些数据集上都实现了最先进的性能(§4.2)。此外,随着对我们的每种基本成分的消融研究,解析器(§4.3),发现了三个关键的见解:(1)探索存在于人体上的不同关系对于人类句法分析是有价值的。 (2)明确和明确地建模不同的,不同类型的关系可以更好地支持人类结构推理。(3)基于消息传递的反馈推理能够增强解析结果。2. 相关工作人工解析:在过去的十年中,积极的研究一直致力于像素级人类语义理解。早期的方法倾向于利用图像区域[35,68,69],手工制作的功能[57,7],部分TEM-板[2,11,10]和人体关键点[67,35,68,69],并通常在CRF [67,28]中探索人体配置[3,11,10]的某些特性,模型[68,11],语法模型[3,42,10]或生成模型[13,51]框架。最近的进展是由深度学习架构的简化设计推动的。一些开创性的努力重新审视经典的模板匹配策略[31,36],解决局部和全局线索[34],或使用树LSTM收集结构信息[32,33]。然而,由于超像素[34,32,33]或HOG特征[44]的使用,它们是不完整且耗时的。因此,对比尝试遵循更优雅的FCN架构,解决多层次线索[5,63],特征聚合[45,72,38],对抗学习[71,46,37]或交叉学习[71,46,37知识领域[37,66,20]。为了进一步探索内在的结构,许多方法[65,72,22,64,15,47]选择直接将姿态信息编码到解析器中,然而,依赖于现成的姿态估计器[18,17]或附加注释。其他一些人认为自上而下[74]或多源语义[61]信息比分层的人类布局更重要。虽然令人印象深刻,但它们忽略了迭代推理,很少解决显式关系建模,容易遭受弱表达能力和次优结果的风险。随着这些作品的普遍成功,我们朝着更精确地描述人体上的不同关系又迈进了一步,即,分解,组合,和依赖,并解决迭代,空间信息保持推理人类层次。图神经网络(GNN):GNN有着丰富的历史(可以追溯到[53]),并在过去几年中成为研究界真正的爆炸[23]。GNN以端到端的方式有效地学习图形表示,并且通常可以分为两大类:图卷积网络(GCN)和消息传递图网络(MPGN)。前者[12,48,27]直接将经典CNN扩展到非欧几里德数据。它们简单的架构促进了它们的普及,同时限制了它们对复杂结构的建模能力[23]。MPGN [19,73,56,59]参数化了图学习中的所有节点、边和信息融合步骤,从而产生了更复杂但更灵活的架构。我们的结构化人类解析器属于第二类,可以被视为在人类解析领域探索GNN的早期尝试。相对于传统的MPGN,这主要是基于MLP和边缘类型不可知的,我们提供了一个空间信息保持和关系类型感知的图学习计划。8931l=1u,vu,vl=12u,vV3{h(t)}v∈V3Y3(tY3V2h(0m(tvv宽×高×宽×高|V|Y (吨)h(t−12Y2V1vhv(吨)G{h(t)}v∈V2(吨)宽×高×宽{hv}v∈VY1Y1{h(t)}v∈V1(等式。第一章(等式。十三、(等式。14)(等式。第十五章)(等式。第十六章)图2:在训练阶段,我们用于分层人工解析的结构化人工解析器的图示中主要成分流程图由(a)-(h)标记更多详情请参阅§3最好用彩色观看3. 我们的方法3.1. 问题定义形式上,我们表示人类的语义结构作为一个有向的,层次图G=(V,E,Y)。如图所示。图2(a)中,节点集合V=V3V1表示三个不同语义层中的人体部分,包括叶节点V1(即,最细粒度的部分头、臂、手等)这通常在普通的人类解析器中被考虑,两个中层节点V={上半身,下半身},v. 大多数以前的结构化人类解析器[74,61]以边类型不可知的方式工作,即,利用一个统一的共享关系网R:RW×H×c×RW×H×c→RW×H×c,捕捉所有的关系:hu,v=R(hu,hv).这种战略可能失去个体关系类型的可辨别性并且不具有对建模几何和解剖学约束的明显偏向。相比之下,我们以关系类型的方式Rr来公式化hu,v:hu,v=Rr(Fr(hu),hv),(2)二、VΣ一个根V3={full-body}1。 边集E∈代表人体部分(节点)之间的关系,即,有向边e=(u,v)∈ E将节点u链接到v:u→v。每个节点v和每条边(u,v)与特征向量相关联:hv和hu,v。y v∈Y表示部分(节点)v的地面实况分割图,并且地面实况图Y也以分层方式组织:Y=0.3Y1。我们的人类解析器是在一个图学习方案中训练的,使用来自现有人类解析数据集的完全监督。对于一个测试样本,它能够有效地推断节点和边缘表示推理人体结构的各个部分及其关系的水平,并迭代融合人体结构上的信息3.2. 结构化人类解析网络节点嵌入:作为初始步骤,使用可学习的投影函数将输入图像表示映射为节点(部分)特征,以获得足够的表达能力。形式上,让我们将输入图像特征表示为RW×H×C,来自类似DeepLabV3 [6]的背部,骨 网 络 ( 图 1 ) 2 ( b ) ) , 投 影 函 数 为 P :RW×H×C→RW×H×c×|V|得双曲余切值.|V|表示节点的数量。节点嵌入{hv∈RW×H×c}v∈V由(图1)初始化第2(d)段):{hv}v∈V=P(x),(1)其中每个节点嵌入hv是编码完整空间细节的(W,H,c)维tenor(图11)。第2段(c)分段)。其中r∈{dec,com,dep}。Fr(·)是一种基于注意力的关系自适应操作,通过处理几何特征,关系R的特征注意力机制在这里受到青睐,因为它允许可训练和灵活的特征增强,并明确编码特定的关系约束。从图论[53]中的信息扩散机制来看,如果存在将起始节点u连接到目的地v的边(u,v),则这指示v应该接收-即将到来的信息(即,hu , v )fromu.因此,我们使用 Fr(·)以使HU更好地适应目标V。RR是边-该方法针对具体类型,采用更易处理的关系特征 Fr(hu)代替hu,从而得到更有表达力的关系特征hu,vforv,进一步有利于最终的句法分析结果.通过这种方式,我们了解到人体内更复杂和令人印象深刻的1)分解关系建模:分解关系(实线:在图2(a)中)由从人类层次G中的父节点开始到对应的子节点的那些垂直边表示。例如,父母节点全身可以分为{上半身,下半身,身体},上半身可以分解为{头,躯干,上臂,下臂}。形式上,对于节点u,让我们将其子节点集表示为Cu。我们的分解关系网络Rdec旨在学习将u“分解”为其组成部分C u的规则3):hu,v=Rdec(F dec(hu),hv),v∈ Cu,类型化人体部位关系建模:基本上,边嵌入hu,v捕获节点u和Fdec(hu)= hu attdec(hu).(三)1作为图模型的经典设置,V中也有一个由于它不与其他语义人类部分(节点)交互,为了概念清晰,我们省略了这个节点。‘⊙’而attdec(hu)∈[0,1]W×H产生一个注意力图。对于u的每个子节点v∈Cu,attdec(hu)定义为:8932vu,vu,vuvuvvu,vuv∈Cu.v uuv父节点Fcom(hu′)Fcom(hu)ATTCOMhu,vvu′Cv当量胡胡hu,v=Rcom(Fcom(hu),hv)(一)[hu′,hu]图3:我们的分解关系建模的说明。(a)上半身节点之间的分解关系(u) 及其成分(Cu)。(b)通过分解注意力{attdec(h)},Fdec学习如何“分解”上身节点,并为其组成部分生成更易于处理的特征。 在关系适应特征Fdec(hu)中,响应从背景和其他不相关的部分被抑制。图4:我们的组合关系建模的图示。(a)下半身节点之间的组成关系(v) 及其组成部分(CV)。(b)成分注意力attcom([h ′,h])从所有成分C收集信息,并让Fcom增强Cv的所有下半身相关特征。对于每个父节点v∈ V2<$V3,其基础真值宽×高映射yv∈ {0,1},其所有的合成注意力DecDecexp(φdec(hu))子节点Cv通过最小化以下损失来训练attu,v(hu)=PSM([φv(hu)]v∈C)= v,(4)uΣ网φ′exp(φdec(h))Lcom=LCEattv ([hu′]u′∈Cv),yv . (七)v∈Cuv′uv∈V2<$V3其中PSM(·)表示逐像素软max,' [ · ]'表示逐通道级联,并且φ de c(h u)∈ R W × H计算一个特定的重要性图f或v。通过使3)依赖关系建模:在G中,依赖关系表示为水平边缘(虚线:在图2(a))中,描述成对的运动学连接是-attdec=1,{attdec(hu)}v∈C构成一个分解,v∈Cuu,vu,vu人体各部位之间,如(头,躯干),(大腿,小腿,位置注意机制,即,分配不同的注意力,关于HU概括地说,分解注意力,条件是hu,让u将单独的高级信息传递给不同的子节点Cu(见图1)。第3(b)段)。在这里,attdec(·)是节点特定的,并且针对V2和V3中的三个完整节点(即全身、上半身和下半身)单独学习。添加下标u,v来解决这一点。在腿)等。两个运动学上连接的人体部分在空间上相邻,并且它们的依赖关系本质上解决了上下文信息。对于一个节点u,其运动学上连接的兄弟节点Ku,一个依赖关系网络Rdep被设计为(图1)。5)、hu,v=Rdep(F dep(hu),hv),v∈ Ku,.Σ(8)此外,对于每个父节点u,地面实况映射Fdep(hu)=F(hu)attdepF(hu),YCu ={yv}v∈Cu ∈{0,1}W×H×| Cu|所有子节点Cu可以用作监督信号来训练其分解,其中F(hu)∈RW×H×c用于提取常规注意力{attdec(h)}∈[0,1]W×H×|Cu|:U和ATTDEP. F(h)n∈[0,1]W×H是一个依赖项,u,v uv∈Cuu,vuΣDec引起对每个兄弟节点v的注意的注意,Ldec=u∈V2 <$V3LCE{attu,v(hu)}v∈Cu,YCu、(五)条件是u 具体来说就是受到启发其中LCE表示标准交叉熵损失。2)组合关系建模:在人类层次G中,组成关系由垂直向下的边缘表示。为了解决这种关系,我们...对一个组成关系网络R进行符号表示,如图所示。4):h= Rcom(Fcom(h),h),u∈ C,[55]第55话,不经意间,将模块F设计为:F_∞(h_u)=ρ(x_A_∞)∈R_W×H×c,A=h′<$Wx′∈R(WH)×(WH),(9)其中h′∈R(c+8)×(WH)和x′∈R(C+8)×(WH)是节点(部分)网u,vu v网v(六)u以及用空间信息增强的图像表示,F(hu)= hu ∈v([hu′]u′ ∈Cv).图,分别,扁平化成矩阵格式。 最后一Hereattcom:RW×H×c×| Cv |›→ [0,1]W×H是一个合成的八脉和x′编码空间坐标信息,注意,由1×1卷积层实现。的这种设计背后的基本原理是,对于父节点v,attcom收集所有子节点Cv的统计数据,并用于增强每个子节点特征hu。由于att_com本质上是合成的,与h_u相比,其增强特征F_com(h_u)对父节点v更因此,在本发明中,Rcom能够通过考虑组合结构来生成更具表达力的关系特征(见图11)。第四条(b)款)。父节点胡最低工资u,vhu,vCu当量3:hu,v=Rdec(Fdec(hu),hv)(一)(b)第(1)款Fdec(hu).Σ8933u[25]第一个六个维度是正常的。最后两个维度是特征的归一化宽度和高度信息,1/W和1/H。W∈R(c+8)×(C+8)被学习为基于线性变换的节点到上下文投影函数。节点特征h′用作查询词,重新提取参考图像特征x′的上下文信息。结果,亲和度矩阵A存储注意力8934vvH+H+h,vu,vvu,vL {att(h)}vHl=1Σlvv∈V llY={y}ing进程递归地收集信息(消息)mv从邻居Nv中丰富节点嵌入hv:Σm(t)=M(h(t−1),h(t−1)),vu∈Nvu v(十二)h(t)=U(h(t−1),m(t)),v v v图5:我们的依赖关系图示做模特。( a)上半身节点之间的依赖关系其中h(t)代表v递归神经网络通常用于解决更新函数U的迭代性质。受以前的消息传递算法的启发,我们的迭代算法被设计为(图1)。(第2(e)-(f)段):(u) 和. 其兄弟姐妹(Ku)。 (b)第(1)款 的 依赖性注意{attdepF(hu)}v∈K,从u的上下文信息导出Σm(t)= u∈PvΣ(t−1)u,vu∈CvΣ(t−1)u,vu∈K(t−1)u,vu,vuF(hu),赋予不同兄弟姐妹Ku不同的重要性。联系我们分解联系 我们组合物`vx依赖(十三)h(t)=UconvGRU(h(t−1),m(t)),(14)在特定空间v vv位置,考虑视觉和空间信息。然后,u矩阵A_∞:xA_∞∈RC×(W_H). 采用基于1×1卷积的线性嵌入函数ρ:RW×H×C<$→RW×H×c进行特征维数压缩,即,使海峡不同边缘嵌入的尺寸一致。其中,初始状态h(0)由等式(1)获得。1.一、这里,消息聚合步骤(Eq. 13)是通过每边缘关系函数项来实现的,即,节点V通过吸收沿着不同关系的所有输入信息来更新其状态Hv对于等式中的更新函数U,14,我们使用convGRU [54],它用卷积运算取代了原始基于MLP的GRU中的全连接单元,对于每个兄弟节点v∈Ku对于u,att_dep被定义为:描述其重复激活行为,并解决附件部门F.DEPΣ(十)人类解析的像素级本质。Com-u,v(hu)=PSM [φ v (hu)]v∈Ku.与以前的解析器不同,以前的解析器通常基于提要,这里φdep(·)∈RW×Hgi是v的重要性映射,使用1×1对流层。通过像素级软最大值前向架构,我们的消息传递推理本质上提供了一个反馈机制,鼓励有效,PSM(·)操作,我们执行v∈Kuattdep=1,leading循环人类等级系统上的有效推理G.依赖性注意机制分配exclu-损失函数: 在每个步骤t中,为了获得预测,在F_n(h_u)上,对于相应的兄弟节点K_u,这种依赖性注意力是通过以下方式学习的:在第l层节点V的Y_n(t)={y_n(t)∈[0,1]W×H} 中,我们应用一个共旋读出函数O:RW×H×c→RW×HLdep= Σu∈V1<$V2.DEPCEu,vuv∈Ku,YKuΣ、(11)在{h(t)}v∈V上(图中2(g))和逐像素soft-max(PSM)对于标准化:其中YKu∈[0,1]宽×高×| Ku|代表地面实况地图(t)(t)lvv∈Vl.(t)Σ=PSM [O(v)]v∈Vl.(十五){yv}v∈u的所有兄弟节点Ku。给出分层人工解析结果{Yt(t)}3l l=1人类等级的迭代推理人体和相应的基本事实{Yl}3学习任务呈现层次结构。根据图论,近似推理算法应该用于这样的在迭代推理中,可以被假定为以下损失的最小化(图1)。(第2(h)段):环状结构G. 然而,以前的结构化人类解析器通过以下方式直接产生最终的节点表示hv:(吨)解析Σ3=L(t)(Y∈(t),Yl). (十六)l=1CEl或者简单地解释来自模型的信息考虑方程。5、7、11和16,总损失定义为:ent nodeu [74]:hv←R(hu,hv),其中v∈ Cu;或从ΣT-是的L=L(t)+α(L(t)+L(t)+L(t)))的情况下,它的邻居Nv[61]:hv←u∈NvR(hu,hv).他们...t=1解析网DecDEP在这样一个结构化的环境中,是一个复杂的系统。迭代算法提供了一个更有利的解决方案,即,节点表示应该通过聚集来自其邻居的消息来迭代地更新;经过几次迭代后,该表示可以近似最佳结果[53]。在图论的说法中,迭代算法可以通过参数消息传递过程来实现,该参数消息传递过程根据消息函数M和节点更新函数U来定义,并且运行T步。对于每个节点v,消息传递-同级节点ATTDEPu,vF(hu)Fdep(hu)Ku当量第八章:hu,v=Rdep(F dep(hu)(一)胡X(b)第(1)款L8935其中系数α根据经验被设置为0。1.一、我们设置总推理时间T=2,并在§4.3中研究性能如何随推理迭代次数而变化。3.3. 实现细节节点嵌入:DeepLabV3网络[6]作为骨干架构,产生256通道图像表示,其空间维度是输入图像的1/8。 投影函数P:RW×H×C<$→RW×H×c×|V|由方程式1由3×3卷积层实现,8936v总iterReLU非线性,其中C=256,|V|(即,节点的数量)根据不同的人类解析数据集中的设置来设置。我们设置节点特征的通道大小c=64以保持高计算效率。关系网络:每个类型的关系网络Rr在等式中。2连接来自源节点u的关系适应特征Fr(hu)和目的地节点v的特征h v作为输入,并输出关系表示:hu ,v=R r([Fr(hu),hv]). 实现了Rr:RW×H×2c→RW×H×c通过具有ReLU非线性的3×3迭代推理:由方程式14,更新函数UconvGRU由具有3×3卷积核的卷积GRU实现。Eq. 15在特征预测投影上应用1×1卷积运算此外,在将节点特征h(t)发送到O之前,我们使用轻量级解码器(使用对节点特征进行上采样并将其与骨干网络的低级特征合并的原理来构建),其输出具有输入图像的1/4空间分辨率的分割掩码如图所示,我们的解析器的所有单元都建立在卷积运算上,从而实现了空间信息的保存。4. 实验4.1. 实验设置数据集:2五个标准基准数据集[22,64,44,31,45]用于性能评估。LIP [22]包含50,462张单人图像,这些图像是从现实场景中收集的,并分为30,462张图像用于训练,10,000张用于验证,10,000张用于测试。逐像素注释覆盖19个人体部分类别(例如,面部、左臂/右臂、左腿/右腿等)。PASCAL-Person- Part[64]包括3,533张具有不同姿势和视点的多人图像每个图像都用六个类(即,头部、躯干、上臂/下臂和大腿/小腿)。它分为1,716和1,817个图像用于训练和测试。ATR [31]是一个具有挑战性的人类解析数据集,它有7,700个单人图像,具有超过17个类别的密集注释(例如,面部、上衣、左臂/右臂、左腿/右腿等)。分别有6,000、700和1,000张图像用于训练、验证和测试。PPSS [44]是来自171个监控视频的3,673个单个行人图像的集合,并提供头发,面部,上部/下部衣服,手臂和腿的像素级注释。它提出了各种现实世界的挑战,例如,姿态变化、照明变化和遮挡。分别有1,781和1,892张图像用于训练[ 45 ] FashionClothing [45] 有 4 , 371 个 图 像 来 自 Colorful FashionParsing [35] 、 Fashion- ista [68] 和 Clothing Co-Parsing[69]。 有17件衣服2由于数据集提供了不同的人体部位标签,我们对人体层次结构进行了适当的修改。对于一些不传递人体结构的标签,如帽子、太阳镜等,我们将其视为孤立节点。方法pixAcc.平均加速平均IoUSegNet [1]69.0424.0018.17[41]第四十一话76.0636.7528.29DeepLabV2 [4]82.6651.6441.64注意事项[5]83.4354.3942.92[22]第二十二话84.3654.9444.73DeepLabV3+[6]84.0955.6244.80[43]第四十三话--45.41[22]第二十二话--46.19[46]第四十六话85.2457.6046.93[72]第七十二话87.5956.0347.92HSP-PRI [26]85.0760.5448.16[47]第四十七话88.560.549.3PSPNet [70]86.2361.3350.56CE2P [39]87.3763.2053.10[第40话]87.6066.0954.42CNIF [61]88.0368.8057.74我们89.0570.5859.25表1:LIP值上像素准确度、平均准确度和mIoU的比较[22]。†表示使用的额外姿态信息类别(例如,头发、裤子、鞋子、上衣等)并且数据分割遵循用于训练的3,934和用于测试的437。训练:ResNet101 [24],在ImageNet [52]上预先训练,用于初始化我们的DeepLabV3 [6]主干。其余层随机初始化。我们训练我们的模型分别对上述五个数据集及其各自的训练样本进行分析。按照常见的做法[39,21,61],我们随机增加每个训练样本,缩放因子为[0.5,2.0],裁剪大小为473×473,水平翻转。 为了优化,我们使用标准SGD解算器,动量为0.9,重量衰减为0.0005。 为了调度学习率,我们使用多项式退火过程[4,70],其中学习率乘以(1-iter)幂,幂为0。9 .第九条。测试:对于每个测试样本,我们将长边设置为图像为473像素,并保持原来的纵横比。如[70,47]所示,我们对不同尺度的五个尺度图像金字塔的解析结果进行平均,即,比例因子为0.5至1.5(间隔为0.25)。重现性:我们的方法在PyTorch上实现,并在四个NVIDIA Tesla V100 GPU(每张卡32GB内存)上训练。所有的实验都在一个NVIDIA TITAN Xp 12GBGPU上进行。提供全部细节我们的代码将被公开。评估:为了公平比较,我们遵循每个数据集的官方评估协议。对于LIP,遵循[72],我们报告了像素准确度、平均准确度和平均交并比(mIoU)。对于PASCAL-Person-Part和PPSS,遵循[63,64,46],性能根据mIoU进行评估。对于ATR和时尚服装,如[45,61]所示,我们报告了像素准确度,前景准确度,平均精度,平均召回率和平均F1分数。4.2. 定量和定性结果LIP [22]:LIP是人类解析的黄金标准基准表1报告了与16种状态的比较结果。8937方法pixAcc.F.G. Acc.预处理召回F-1山口县[68]81.3232.2423.7423.6822.67[第67话]87.1750.5945.8034.2035.13DeepLabV2 [4]87.6856.0835.3539.0037.09注意事项[5]90.5864.4747.1150.3548.68TGPNet [45]91.2566.3750.7153.1851.92CNIF [61]92.2068.5956.8459.4758.12我们93.1270.5758.7361.7260.19表 2 : PASCAL-Person- Part 测 试 中 mIoU 的 每 类 比 较[64]。方法pixAcc.F.G. Acc.预处理召回F-1山口县[68]84.3855.5937.5451.0541.80[第67话]88.9662.1852.7549.4344.76M-CNN [36]89.5773.9864.5665.1762.81ATR [31]91.1171.0471.6960.2564.38DeepLabV2 [4]94.4282.9378.4869.2473.53PSPNet [70]95.2080.2379.6673.7975.84注意事项[5]95.4185.7181.3073.5577.23DeepLabV3+[6]95.9683.0480.4178.7979.49[34]第三十四话96.0283.5784.9577.6680.14LSTM [33]96.1884.7984.6479.4380.97TGPNet [45]96.4587.9183.3680.2281.76CNIF [61]96.2687.9184.6286.4185.51我们96.8489.2386.1788.3587.25表3:ATR测试的准确度、前景准确度、平均精确度、召回率和F1分数的比较[31]。关于LIP Val.我们首先发现,一般的语义分割方法[1,41,4,6]往往比人类解析器执行得更差。这表明推理人体结构在这个问题中的重要性。此外,虽然最近的人类解析器获得了令人印象深刻的结果,我们的模型仍然远远优于所有的竞争对手。例如,在pixAcc方面,平均Acc.,和平均IoU,我们的解析器分别以1.02%,1.78%和1.51%的幅度大大超过性能最好的方法CNIF [61]。我们还想提一下,我们的解析器不使用ad-pose [22,72,47]或edge [39]信息。PASCAL-Person-Part [64]:在表2中,我们使用IoU评分将我们的方法与PASCAL-Person-Part测试的18种最新方法进行了比较。从结果中,我们可以再次看到,我们的方法实现了更好的性能与所有其他方法的兼容性;特 别 是 在 mIoU 方 面 , CNIF 为 73.12% , PGN 为70.76%[61]和68.40%[21]。考虑到对该数据集的改进非常具有挑战性,这样的性能增益特别令人印象深刻。ATR [31]:表3列出了ATR测试中与14种先前方法的比较。我们的方法为所有五个指标设置了新的最先进的技术,优于所有其他方法,表4:时尚服装测试中像素准确度、前景像素准确度、平均精度、平均召回率和平均f1分数的比较[45]。方法头面部U形布臂L形布腿B.G.Ave.[44]第四十四话22.0 29.157.310.646.112.968.635.2DDN [44] 35.5 44.168.417.061.723.880.047.2[43]第四十三话51.7 51.065.929.552.820.383.850.7[46]第四十六话53.1 50.269.029.455.921.485.752.1LCPC [9] 55.6 46.671.930.958.824.686.253.5CNIF [61] 67.6 60.880.846.869.528.790.660.5我们 68.8 63.281.749.370.832.091.465.3表5:PPSS测试中mIoU的比较[44]。大幅度削减消耗臭氧层物质。例如,我们的解析器在F-1分数方面提供了相当大的性能增益,即,分别比目前排名前两位的方法CNIF [61]和TGPNet [45]高1.74%和5.49%时尚服装[45]:表4总结了与六个竞争对手在时尚服装测试中的定量比较结果。 我们的模型得出的F-1分数60.19%,而Attention [5],TGPNet [45]和CNIF [61]的比例这再次证明了我们的卓越性能。PPSS [44]:表5比较了我们的方法与PPSS测试集上的六种著名方法。评估结果表明,我们的人类解析器实现了65.3%的mIoU,比第二好的CNIF [61]和第三好的LCPC [9]分别获得了4.8%和11.8%的大幅收益。运行时比较:由于我们的解析器不需要额外的预/后处理步骤(例如,[64]中使用的人体姿势,[32,30]中的过分割和[64]中的CRF),它实现了12 fps的高速(在PASCAL-Person-Part上),比大多数同行更快,例如Joint [64](0.1fps),Attention+SSL [22](2.0fps),MMAN [46](3.5fps),SS- NAN [72](2.0fps)和LG-LSTM [33](3.0fps)。定性结果:PASCAL-人-部分测试的一些定性比较结果如图所示。六、我们可以看到,尽管存在罕见姿势(第2行)和遮挡(第3行),但我们的方法比其他竞争对手输出更精确的解析结果[6,21,72,61]此外,由于对人体结构的更好理解,我们的解析器得到了更健壮的结果,并消除了背景(第一行)的干扰最后一行给出了一个具有挑战性的案例,在这个案例中,我们的解析器仍然正确地识别出中间那个人的混淆部分。方法头躯干 U-Arml臂u腿L型腿 B.G.Ave.HAZN [63] 80.79 59.11 43.0542.7638.99 34.46 93.59 56.11注意事项[5] 81.47 59.06 44.1542.5038.28 35.62 93.65 56.39LSTM [33] 82.72 60.99 45.4047.7642.33 37.96 88.63 57.97[22]第二十二话 83.26 62.40 47.8045.5842.32 39.48 94.68 59.36[46]第四十六话 82.58 62.83 48.4947.3742.80 40.40 94.92 59.91图LSTM [32] 82.69 62.68 46.8847.7145.66 40.93 94.59 60.16SS-NAN [72] 86.43 67.28 51.0948.0744.82 42.15 97.23 62.44结构LSTM [30] 82.89 67.15 51.4248.7251.72 45.91 97.18 63.57联合国[64] 85.50 67.87 54.7254.3048.25 44.76 95.32 64.39DeepLabV2 [4]-------64.94MuLA [47]84.668.357.554.149.646.495.665.1PCNet [74] 86.81 69.06 55.3555.2750.21 48.54 96.07 65.90整体[29] 86.00 69.85 56.6355.9251.46 48.82 95.73 66.34[第15话] 87.15 72.28 57.0756.2152.43 50.36 97.72 67.60DeepLabV3+[6] 87.02 72.02 60.3757.3653.54 48.52 96.07 67.84SPGNet [8] 87.67 71.41 61.6960.3552.62 48.80 95.98 68.36PGN [21] 90.89 75.12 55.8364.6155.42 41.57 95.33 68.40CNIF [61] 88.02 72.91 64.3163.5255.61 54.96 96.02 70.76我们 89.73 75.22 66.8766.2158.69 58.17 96.94 73.128938v(a) 图片(b)地面实况(c)我们的(d)DeepLabV 3 +[6](e)PGN [21](f)SS-NAN [72](g)CNIF [61]图6:PASCAL-人员-部件测试的目视比较。与其他著名的方法相比,我们的模型(c)生成更准确的预测[6,21,72,61](d-g)。我们的解析器改进的标记结果用红框表示最好用彩色观看4.3. 诊断实验为了说明分析器中的各个组件对分析器性能的贡献,我们在PASCAL-Person-Part测试中进行了一系列的消融实验。特定类型的关系建模:本文首先探
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功