面向人工句法分析的部分感知上下文网络

15 浏览量更新于2023-10-20 收藏 822KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8971面向人工句法分析的部分感知上下文网络小梅张莹莹陈冰可朱金桥王铭唐中国科学院自动化研究所模式识别国家重点实验室，北京100190，中国科学院大学中国人工智能学院，北京100049{张晓梅，陈莹莹，朱炳科，王建奎，唐明}@ nlpr.ia.ac.cn摘要最近的工作已经取得了显着的进展，人类解析利用丰富的上下文。然而，人类分析仍然面临着如何为不同大小和形状的人体部位生成自适应上下文特征的挑战。在这项工作中，我们提出了一个部分感知上下文网络（PCNet），一种新颖而有效的算法来应对这一挑战。PCNet主要由三个模块组成，即零件类模块、关系聚集模块和关系分散模块。Part类图像地面实况预测中的错误标记改善预测模块从分类的角度提取每个人类部分的高级表示。我们设计了一个关系聚合模块，通过挖掘人体部位的关联语义来获取具有代表性的全局上下文，从而自适应地增加人体部位的上下文。我们提出了一个关系离散模型，通过离散人体各部分的亲和度，生成具有区分性的有效局部语境和不受干扰的局部语境。关系分散模块确保同一类中的特征将彼此接近而远离不同类中的特征。通过融合关系聚合模块、关系分散模块和骨干网络的输出，我们的PCNet为不同尺寸的人体部位生成自适应的上下文特征，提高了解析的准确性。我们在三个具有挑战性的人类解析数据集上实现了新的最先进的分割性能，即，PASCAL-Person- Part、LIP和CIHP。1. 介绍人工解析的目的在于将图像中的每个像素分类为预定义的部件或衣服类别之一（例如，头部、躯干等）。它已被广泛应用于各种具有挑战性的领域，如人的重新识别[9]，人类行为分析[40]，服装风格识别和检索[44]，服装类别分类[38]。随着电子商务的迅速发展，图1.人类解析的挑战的例子那个...原始图像和地面实况来自PASCAL-Person-Part数据集[5]。人体各部分有不同的比例和形状。第三列：CE2P [27]无法使用预定义的固定上下文提取下臂、上臂和大腿。第四列：我们的方法通过自适应上下文在提取三个部分时具有更好的性能线购物，人类解析吸引了很多关注[37，42，43，14，20，22，24，15，47，31，27]。但由于人体部位的大小和形状不同，为不同的人体部位生成自适应上下文特征仍然是一项具有挑战性的任务。解决上述问题的最广泛使用的方法[25，31，14，27]是从预定义的固定区域聚合各种上下文然而，由预定义的固定上下文表示的语义上下文不能满足密集预测任务的要求.另一种方法是应用注意力机制[4，41]，在不同的通道或位置上分配然而，注意力模型有一个主要的缺点，他们专注于局部模式的部分，忽略了部分之间的关系，这限制了他们的能力，以捕捉全球范围内。如图1所示，由于缺乏针对具有各种尺度和形状的人体部位的自适应上下文特征，下臂、上臂和大腿不能被正确分类与上述方法不同，我们认为，不同的人体部位需要一个适应性的背景。在这8972本文提出了一种基于局部感知的上下文网络（PCNet），利用全局和局部上下文信息，自适应地为具有不同尺度和形状的人体部位生成合适的上下文特征。为了利用每个人体部分的高级表示具体而言，一个类别的高级表示是通过聚类属于该类的所有位置的特征来提取的。此外，我们设计了一个关系聚合模块，通过利用具有全局上下文的动态卷积内核来生成全局特征，如图2（b）所示。通过在所有人体部分的相同图形结构内逐步细化图形表示来生成全局上下文。因为神经元处理信息揭示了神经元是自适应处理器，根据行为上下文[12]改变其功能，并且一些方法[16，7]验证了特定卷积层的输出由其内核内容指导因此，将具有全局上下文的动态卷积核应用于从骨干网络生成的原始特征，以自适应地生成人体部位的全局特征。为了减轻全局上下文中冗余或干扰信息的负面影响，我们开发了一个关系分散模块，该模块通过应用具有区分性局部上下文的动态卷积核来生成区分性和有效的局部特征，如图2（c）所示。具体地说，通过使人体部分的亲和力分散和增强每个人体部分的区分度来生成区分性局部上下文（亲和力分散）。通过度量人体各部位特征之间的相似性，可以得到各部位的相似系数系数越小，说明这两部分的关系越密切然后将零件的特征与其亲和系数相乘，使亲和系数离散而零件本身保持不变，称为亲和系数离散。我们将所有人体部位的亲和力分散连接起来作为动态卷积核。应用于骨干网络的原始特征的核生成用于人体部位的区分性和有效的局部特征。我们融合了关系聚合模块、关系分散模块和骨干网络的输出，以获得适合不同人的部分的上下文特征。 PCNet的总体结构如图所示在图2中在三个流行的基准上进行的广泛实验表明，我们的网络在三个公共基准上一致地达到了新的最先进水平，PASCAL-Person- Part [5]，LIP [15]和CIHP[14]。总之，我们的控制-bitions是在三个折叠：1. 设计了一种新的局部感知上下文网络（PCNet），专门用于生成具有不同尺度和形状的人体部位的自适应上下文特征。2. 该PCNet由3个模块组成，其中部分类模块利用人体各部分的高级表示，关系聚合模块捕获具有代表性的全局上下文，关系分散模块生成有区别的有效局部上下文，忽略干扰上下文。3. 拟议的PCNet实现了新的国家的最先进的结果一致的三个公共人类解析基准。具体而言，我们的方法在 mIoU方面分别在 PASCAL-Person-Part，LIP和CIHP上优于最佳竞争对手3.25%，2.63%和0.43%。2. 相关工作人类解析。许多研究工作已经被投票给人类解析[42，43，15，20，22，24，47，45，31，27]。Chen等人[4]提出了一种注意力机制，该机制学会了在每个像素位置上柔和地加权多尺度特征Xia等人[42]提出了一种基于HAZN的物体部件分析方法，该方法通过检测方法适应物体和部件的局部尺度。然而，[4，42]忽略了人的部分的关系。在本文中，我们的PCNet捕获的全球范围内的人体部位挖掘其相关的语义。人体姿态估计和语义部分分割是两个互补的任务[21]，其中前者在规则化部分片段之前提供对象级别的形状Ke等人[13]提出了Graphonomy，它在传统的解析网络上结合了层次图迁移学习来预测所有标签。Wang等人[39]将神经网络与人体的组成层次相结合，用于完整的人体解析。这些方法都集中在如何捕捉人体不同部位之间的关系，而忽略了如何生成有区别的语境表征。与上述方法不同的是，我们的PCNet可以产生一个显着的上下文表示人类解析。上下文建模。在句法分析网络中，增强上下文聚合有两种主流。一种是连接或求和多尺度特征以分割人体部位[22，14，27，10]，Liang等人。[22]提出了一种上下文化的卷积神经网络，通过对人类解析的下采样过程的特征进行求和来整合图像的跨层上下文。Gong等[14]和Liuet al. [27]使用金字塔池模块来连接多尺度特征。另一个是[4，11]提出了一个注意力模型来输出一个权重图，该权重图对每个尺度的像素特征进行加权，并在同一尺度的所有通道中共享。然而，所有上述方法的k-核在训练之后是固定的。D-8973H重塑FM1M2P（b）关系聚合模块Fr Fd F骨干网组11转换卷积整形……辅助损失NHWNHWN DCHWS1，CB（a）零件类别模块（c）关系分散模块亲和力色散图2.部分感知上下文网络（PCNet）。输入图像通过骨干网络生成其原始特征。附加部件类模块以提取每个人体部件的高级表示。然后，关系聚合模块和关系分散模块分别自适应地生成全局上下文和区分性局部上下文。通过融合关系聚合模块、关系分散模块和骨干网的输出PCNet可以适应不同尺度的人体部位，生成具有丰富特征的特征。表示卷积运算，表示级联运算。与上述方法不同的是，我们的内核可以根据输入动态地生成条件。此外，Dinget al. [7]提出了一种形状可变的上下文模型，对不同形状和规模的上下文进行建模，大大增强了网络的建模能力Wang等人[36]通过加权组合在以每个位置为中心的预定义区域内重新组装特征，其中权重以内容感知的方式生成。虽然[7，36]有丰富的上下文，但它们不能突出区分性和有效的局部特征。在本文中，我们的关系分散模块可以增强区分和有效的本地功能。3. 部件感知上下文网络3.1. 总体框架我们的网络的整体框架，部件感知上下文网络（PCNet），如图2所示。我们的骨干网络是ResNet-101 [17]（在ImageNet上预训练 [34]）。在PSPNet [46]之后，分类层和最后两个池化层被移除，并且在移除池化层之后卷积层的膨胀率分别设置为因此，网络的输出步幅被设置为8。我们的PCNet由三个模块组成，包括零件类模块、关系聚合模块和关系分散模块。部件类模块将主干网络的原始特征作为输入，并从分类的角度利用人体部件的高级表示然后将部件类模块和骨干网的输出分别送入关系聚集模块和关系分散关系聚合模块根据关联的se自适应地生成全局特征人体器官的修复关系离散度模块自适应地生成有区别的局部特征。最后，将具有代表性的全局特征、具有区分性的局部特征和原始特征进行聚合，得到人体部位的自适应上下文特征。3.2. 零件类模块所提出的部分类模块从分类的角度利用每个人体部分如图2（a）所示，部件类模块该算法通过1×1卷积对原始特征进行通道缩减操作，以减少通道数，从而得到 M1∈RN×H ×W ，并在GroundTruth分割的监督下学习为了减少计算量，我们用一个群卷积层将M1∈RN×H ×W压缩成M2∈RN×h ×w我们将M2∈RN×h ×w整形为P∈RN×D，其中N是类别数，D=hw，D是特征每个类别的尺寸。节点的数量N通常对应于数据集的目标标签的数量3.3. 关系聚合模块提出了关系聚合模块，通过捕捉人体部位之间的高阶关联语义，自适应地生成全局特征。提出了关系聚集模块，以利用人体部位的图形表示来生成动态全局感知卷积核。根据高级别代表a-在P∈RN×D的情况下，我们利用人体结构知识的语义约束来进化全局图推理的上下文。一个节点表示数据集的一个类别。我们引入人体部分之间的连接来编码两个节点之间的关系，8974副本A我AIGSI组卷积ND（N-1）D（N-1）DNDΣ头vi上臂低臂躯干减去小腿(a)（b）第（1）款图3. (a)定义了人体各部位之间的连接实例，为编码图中两个语义节点之间的关系进行推理奠定了基础如果两个节点由黑线连接，则它们是相关的。（b）全球网络的框架。如图3（a）所示。例如，头通常与躯干一起出现，因此这两个节点是链接的，而头节点和小腿是断开的，因为它们没有任何相关性。继图卷积 [19] 之后，我们在所有节点的表示P∈RN×D上执行如图3（b）所示，我们将相关的语义表示为图G（V，E），其中V是顶点集，E是边集。特别地，V是人类部分集，E是关系集。G的邻接矩阵A∈RN×N定义为：exp（ri，j）图4.人体部位的亲和力分散的示例。表示逐元素乘法运算。在[35]之后，我们通过使用可学习的投影矩阵将H∈RN×D（部件感知全局上下文）转换为H′∈RD×h×h然后，H′经过卷积-al层增加通道数到C，得到θ′∈Rci× h × h。注意，ci=C，C是原始特征的通道数。在[33]之后，这里h=7是卷积核的大小。在[1]之后，我们对θ′执行以下操作以生成卷积核θ∈Rh×h×ci×co：θ=U<$θ′<$cV，（5）其中，k表示卷积运算， k表示逐通道卷积运算，U∈R1×1×ci×co和V∈R1×1×ci×ci是用于学习卷积核的辅助参数。对于卷积核θ，我们采用卷积层，不同于传统的卷积层，Ai，j=mi=1 exp（ri、j、（1））其中在输入的条件下动态地生成核权重。其中，ri，j计算语义关系be的得分通过函数p在两个人体部分之间，即，内积：ri，j=p（νi，ν（i，j）），（2）Fr=σ（θ<$F），（6）其中F是骨干网络的输出，Fr是其中νi∈R1×D是人体的一部分，（i，j）∈R1×D是一个hu-关系聚合模块的输出。从上述公式可以看出，与ν i，j ∈ [1，2，.， m]，m是vi的邻居数一般来说，ri，j∈R表征了人与人之间语义关系的重要性第vi和vj部分。例如，一个部分可能对共享人体的固有结构更感兴趣，而另一个部分可能更关心部分的外观。G的下一步是将人类的部分vi它的邻居：Ai，j=Ai，j+In，（3）其中In是单位矩阵。最后，图卷积层的输出计算为：H=σ（A<$PW），（4）其中W是可训练参数矩阵，并且σ是诸如ReLU的非线性函数。v（i，2）（h）a（i，2）v（i，1）（h）a（i，vi（h+1）a（i，3）v（i，3）（h）迭代h+1vi（h）8975不同的尺寸可以自动地增加具有部分关系表示的人体部分的上下文的通过我们的设计，关系聚集模块可以根据全局上下文生成全局特征3.4. 关系离散模块全局特征是人类句法分析必不可少的特征，但由于全局特征难以区分相邻的外观相似但语义标签不同的块，可能会带来冗余或干扰信息的负面影响为了学习具有鉴别力和有效性的局部特征，我们提出了关系离散模块。该模块可以确保同一类中的特征彼此靠近，远离不同类中的特征，如图2（c）所示。为了自适应地增强局部特征，我们分散人体部位的亲和力，如图4所示具体地说，我们首先测量人体特征之间的相似性，8976我我零件.例如，人体部位νi和其他人体部位νp的相似度通过矩阵减来计算，得到ip：aip=νi−νp，（7）其中，ν i∈R1× D，ν p∈R1× D，p∈[1，2，.，N-1]，N是类别数。注意，aip越小，表明人体部位νi的特征与人体部位νp的特征然后，将组卷积层应用于Ai∈R（N−1）×D生成Aig∈R（N−1）×D。我做了刺激-4. 讨论在这里，我们讨论了PCNet和动态滤波器[18]以及可变形卷积[6]之间的关系，它们具有相似的设计理念，但侧重点不同。动态过滤器。动态滤波器根据网络的输入生成特定于实例的卷积滤波器，然后将预测滤波器应用于输入。动态过滤器和PCNer都是内容感知算子，但它们之间的根本区别在于它们的内核生成过程。具体地，动态过滤器的内容彼此不相关，而其中Aig∈R（N−1）×D生成S′∈R（N−1）×D。′我们PCNet的内容是全球感知内容或本地内容-根据νi的初始位置，将其置于Si上，生成Si∈RN×D.我们将所有的Si连接起来，即：S′=Aigνi，感知内容。变形卷积网络（DCN）。 DCN也采用了学习几何变换的思想，并将其与常规卷积层相结合.它预测B=cat（{S}N（八））的情况下，核偏移，而不是使用网格卷积核。它ii=1其中，k表示逐元素乘法运算，cat（·）表示级联函数，B表示通过级联Si得到的结果。我们在B∈RN×N×D上应用卷积层来生成ω′∈Rc×h×h，并使用等式：5在ω′上生成ω∈Rh×h × c × co.对于内核ω，我们采用了一个卷积层，与传统的卷积层不同。内核是以输入为条件动态生成的：Fd=σ（ω<$F）（9）其中Fd是关系色散模块的输出。可以看出，我们的关系离散度模块可以通过类特定的内聚和样本特征间的分离来学习具有区分性和有效性的局部特征。课3.5. 损失函数继PSPNet [46]之后，PCNet采用了两种深度辅助损耗，即softmax交叉熵损耗，一种位于图2所示的部件类部件，另一种应用于ResNet101第四阶段的第二十二个模块之后，即，res4b22剩余模，它们分别被命名为Laux1和Laux2。在我们的方法结束时的损失被命名为Lsoftmax。总损失可以用公式表示为：L=λLsoftmax+λ1Laux1+λ2Laux2，（10）其中我们固定超参数λ= 0.6，λ1= 0.1，λ2= 0.3在我们的实验中。我们分别将辅助损失权重λ1和λ2设置在0和1之间进行实验。然后，我们尝试将方法结束时的损失设置为λ在0和1之间。λ= 0.6、λ1= 0.1和λ2= 0.3产生最佳结果。也已知对参数初始化敏感。5. 实验5.1. 数据集PASCAL-Person-Part数据集[5]，在无约束环境中有多个人的外观。每个图像有7个标签：背景、头部、躯干、上臂、下臂、大腿和小腿。最初，我们只使用包含人类的图像进行训练（1716张图像）和验证（1817张图像）。LIP数据集[15]总共包含50，462张图像，其中30，362张用于训练，10，000张用于测试，10，000张用于验证。LIP定义了19个人体部位（衣服）标签，包括帽子、头发、太阳镜、上衣、连衣裙、外套，袜子、裤子、手套、围巾、裙子、连身衣、脸、右臂、左臂、右腿、左腿、右脚鞋和左脚鞋，以及背景类。我们用它的训练集来训练我们的网络，用它的验证集来测试我们的网络。CIHP数据集[14]是人类解析任务的新的大规模基准，包括38，280个图像，其中19个语义部分标签上具有像素级注释这些图像是从真实世界的场景中收集的，包含人-的出现具有挑战性的姿势和观点，严重的闭塞，并在广泛的决议。在基准测试之后，我们使用28，280张图像进行训练，5，000张图像用于验证，5，000张图像用于测试。评估我们在这三个数据集上的实验中评估我们的网络的平均像素交集（mIoU）。此外，我们采用CIHP数据集的平均准确度（Mean Acc）。5.2. 实现细节至于基线，我们使用类似于FCN的ResNet- 101 [17]（在ImageNet上预先训练[34]）。在PSP- Net [46]之后，分类层和最后两个池化层8977#基线部分课程（我们的）RAM-mult（我们的）RAM-conv（我们的）D-gcn（我们的）T-gcn（我们的）RDM-concat（我们的）RDM-conv（我们的）DAMSmIoU（%）1C66.612CC67.403CCC68.534CCC69.415CCCC70.126CCCC70.527CCCCC71.088CCCCC72.269CCCCCC73.3210CCCCCCC74.59表1.我们的网络PCNet的消融研究。在PASCAL-Person-Part [5]的验证集上获得结果。基线是ResNet-101。Part-class表示我们的部件类模块。RAM表示我们的关系聚合模块。RDM表示我们的关系分散模块。RAM-mult表示全局上下文H和来自主干的原始特征在我们的关系聚合模块中以通道方式相乘RAM-conv表示全局上下文H作为核应用于我们的关系聚合模块中的原始特征。D-gcn表示在我们的关系聚合模块中应用了对偶图卷积层。T-gcn表示在我们的关系聚合模块中应用了三个图卷积层。RDM-concat表示B和原始特征在我们的关系分散模块中连接。RDM-conv表示将B作为核应用于我们的关系分散模块中的原始特征。DA表示在训练阶段使用多尺度输入的数据增强，MS表示多尺度测试。并且在移除的池化层之后的卷积层的膨胀率分别被设置为2和4。因此，如果未指定，则输出特征比输入图像小8倍此外，我们以端到端的方式训练该方法。在关系中的节点数，根据人体部位的类别数设置分类聚合模块 Pascal-Person- Part数据集N=7，LIP数据集N=20，CIHP数据集N=20。每个语义节点的特征维度D为128。关系聚合模块有两个带有ReLU激活功能的图卷积层。我们使用随机梯度下降（SGD）求解器训练所有模型，动量为0.9，权重衰减为0.0005。对于这三个数据集（PASCAL-Person-Part，LIP和CIHP），我们将图像大小调整为512×512，473×473，输入尺寸分别为512 × 512;的批量分别为8、12和8;三个数据集的历元分别是100，120，120。我们不使用OHM。对于数据增强，我们在训练过程中应用随机缩放（从0.5到1.5）和左右翻转。在推理过程中，我们在多尺度上测试图像以获得多尺度上下文。所有网络都在具有12 GB内存的NVIDIA GTX TITAN X GPU上训练。5.3. 消融研究我们使用ResNet-101作为主干网络进行所有消融研究实验，并仅使用PASCAL-个人-部件确认集上的单尺度测试报告所有性能首先，我们评估基线的性能，如表1中的#1结果。应该注意的是，我们所有的实验都使用辅助的su-sort。透视部件类模块的消融。为了验证部件类模块的效果，我们首先删除图2中的关系聚合模块和关系分散模块。对P∈RN×D进行上采样和整形，RN×H ×W。然后，上采样的P∈RN×H ×W和骨干网的原始功能是连贯的，得到了较好的分割结果。实验结果示于表1（#2）中。此修改将PASCAL-Person- Part验证集上的性能提高到66.61%（0.79↑），其中附加参数可忽略不计。关系聚合模块的消融。我们进一步评估的关系聚集模块的作用。至于关系聚合模块，我们将其卷积层命名为RAM-conv（在等式中描述）。6)使用名为RAM−mult的通道乘法，该操作可以用公式表示如下：Fr′=F·H，（11）其中F是骨干网的输出，Fr′是关系聚合模块的输出。实验结果示于表1（#3）中。与baseline+partclass的实验（#2）相比，#3将PASCAL-Person-Part验证集的性能从67.40%提高到68.53%，而使用RAM−conv的#4实现了69.41%的性能。较基线，改善是显著的。在下面的实验中，我们使用关系聚合模块，默认使用卷积层策略RAM−concat。注意#4和#5应用一个图形卷积层。8978方法mIoU（%）FLOPs内存参数ResNet-10166.61190.3G2.601G42.4MDeeplabV368.32+62.9G+64M+15.2MCE2P69.22+60.9G+59M+20MPCNet（我们的）74.59+42.2G+30.1M+11.4M表2. PASCAL VOC与基线（ResNet-101）和DeeplabV 3的详细比较，单位为 mIoU（%）。所有结果都是使用主干ResNet-101和输出stride 8实现的。FLOP和内存是用512 ×512的输入大小计算的。（一）（c）第（1）款图像基线PCN（我们的）地面实况方法头部躯干U形臂L形臂U形腿L形腿背景mIoU（%）头躯干上臂下臂大腿小腿图5. PASCAL- Person-Part[5]数据集上PCNet结果的定性比较。在第一行中，我们的方法从杂乱的场景中提取更完整的前景。在最后两行中，我们的方法更准确地分割了不同的人体部位，如上臂和下臂。表3.在PASCAL-Person-Part [5]上与最先进方法的平均像素交集（mIoU）（%）方面的性能比较。为了充分传播全局上下文，我们采用了不同数量的这种图卷积。从表1中的#4，#5和#6结果中，我们可以发现三个图卷积具有最佳权衡。关系离散模块的消融。我们还评估了关系分散模块的作用。我们替换名为RDM-conv的卷积层（在等式中描述）。9)利用级联运算RDM-concat，该运算可以公式化为如下，F d′=concat（F，B），（12）其中F是骨干网络的输出，B被上采样到F的大小，F d'是关系聚合模块的输出实验结果示于表1中。与#6的实验相比，#7将PASCAL-Person-Part验证集的性能从70.52%提高到71.08%，而#8达到了72.26%。与基线相比，改善是显著的。在以下实验中-在这种情况下，我们使用RDM−conv策略作为默认策略。我们采用多尺度输入的数据增强，在测试过程中进行训练阶段和多尺度测试我们的PCNet实现了74.59%的性能。危险因素[42]LIP [15]80.76 60.5083.26 62.4045.6547.8043.1145.5841.2142.3237.7439.4893.7894.6857.5459.36（d）其他MuLA [32]- ------65.1PCNet [47]86.81 69.0655.3555.2750.2148.5496.0765.90整体性[20]- ------66.3WHP [8]87.15 72.2857.0756.2152.4350.3697.7267.60PGN [14]90.89 75.1255.8364.6155.4241.4795.3368.40[26]第二十六话-----68.6学习[39]88.02 72.9164.3163.5255.6154.9696.0270.76[13]第十三话-----71.14DPC [2] 88.81 74.5463.8563.7357.2454.5596.6671.34PCNet（我们的）90.0476.8969.1168.460.7860.1496.7874.598979计算的消融。我们在PASCAL-Person-Part的验证集上彻底地将 PCNet与两个模型进行了比较，包括DeeplabV 3和CE 2 P [27]。我们报告mIoU，FLOPS，内存成本和参数数，在表2中。我们的PCNet在使用ResNet-101的网络中实现了74.59%的最佳性能，并且比强竞争力网络（CE 2 P）的性能高出5.37%，这一点非常重要，因为该基准非常具有竞争力。此外，它实现了与基于一些更大的骨干的方法相媲美的性能。我们可以看到PCNet的性能大大优于两种方法。此外，PCNet在计算和内存方面要轻得多。定性比较。 PASCAL-Person-Part [5]结果的定性比较如图5所示从第一行中，我们发现，与基线相比，我们的方法在从杂乱场景中提取前景方面具有更好的性能，因为我们的关系聚合模块可以生成具有代表性的全局特征来区分前景和背景，而我们的关系离散模块可以生成具有鉴别性的局部特征来分割人体部位。在第二行中，基线错过了人体的一些部位，只能分割出少数部位，而我们的网络可以分割出大部分部位。对于最后一行的大腿和小腿，我们的算法在与基线匹配的图像中的这些小部分和大部分上表现良好。8980方法帽子头发手套唱凝块裙子外套袜子裤西装围巾裙子脸左臂L形腿r型腿L-shr-shbkgmIoU（%）[29]第二十九话39.79 58.965.323.0849.08 12.36 26.82 15.66 49.416.480.002.16 62.65 29.78 36.63 28.12 26.05 17.76 17.70 78.0228.29DeepLabV2 [3]56.48 65.33 29.98 19.67 62.44 30.33 51.03 40.51 69.00 22.38 11.29 20.56 70.11 49.25 52.88 42.37 35.78 33.81 32.89 84.5341.64注意事项[4]58.87 66.78 23.32 19.48 63.20 29.63 49.70 35.23 66.04 24.73 12.84 20.41 70.58 50.17 54.03 38.35 37.70 26.20 27.09 84.0042.92DeepLab-ASPP[3]56.48 65.33 29.98 19.67 62.44 30.33 51.03 40.51 69.00 22.38 11.29 20.56 70.11 49.25 52.88 42.37 35.78 33.81 32.89 84.5344.03LIP [15]59.75 67.25 28.95 21.57 65.30 29.49 51.92 38.52 68.02 24.48 14.92 24.32 71.01 52.64 55.79 40.23 38.80 28.08 29.03 84.5644.73[30]56.92 64.34 28.07 17.78 64.90 30.85 51.90 39.75 71.78 25.57 7.97 17.63 70.77 53.53 56.70 49.58 48.21 34.57 33.31 84.0145.41MMAN [31]57.66 66.63 30.70 20.02 64.15 28.39 51.98 41.46 71.03 23.61 9.65 23.20 68.54 55.30 58.13 51.90 52.17 38.58 39.05 84.7546.81JPPNet [21]63.55 70.20 36.16 23.48 68.15 31.42 55.65 44.56 72.19 28.39 18.76 25.14 73.36 61.97 63.88 58.21 57.99 44.02 44.09 86.2651.37CE2P [27]65.29 72.54 39.09 32.73 69.46 32.52 56.28 49.67 74.11 27.23 14.19 22.51 75.50 65.14 66.59 60.10 58.59 46.63 46.1253.10[第28话]66.872.042.532.169.833.757.449.074.932.419.327.274.965.567.960.259.647.447.988.054.4PCNet（我们的）69.32 73.08 44.72 34.21 72.59 36.02 60.84 51.03 76.66 38.78 31.60 33.94 76.65 67.07 68.74 60.22 60.16 47.65 48.67 88.6857.03表4.LIP上最先进方法的平均像素交集（mIoU）（%）性能比较[15]。方法平均准确度（%）mIoU（%）PGN [14]64.2255.80[13]第十三话66.6558.58[27]第二十七话-59.50[第28话]-60.62PCNet（我们的）67.0561.05表5.在CIHP上采用最先进方法的平均像素交集（mIoU）（%）方面的性能比较[14]。5.4. 与最新技术PASCAL-Person-Part数据集上的结果。我们将我们的方法与几种人类解析方法进行了比较，包括HAZA[42]，LIP [15]，MMAN [31]，Graph LSTM[23]，SE LSTM [22]，Joint [43]，PCNet [47]，MuLA[32]，[20]，[21]，[22]，[23]，[24]，[25]，如表3所示，我们可以观察到我们的PCNet在PASCAL-Person-Part的所有类别上都优于其他方法。此外，我们的PCNet实现了最先进的性能，74.59%，比前一个最好的表现高出3.25%。LIP数据集上的结果。在本小节中，我们在LIP数据集上进行实验，以验证我们的方法的有效性。根据以前的工作[15，31，21，21]，多尺度输入和多尺度数据增强测试被使用。我们将我们的方法与验证集上的先前网络进行比较，这些网络是FCN-8 s [29]，Attention [4]，DeepLab-ASPP[3]，LIP [15]，MMAN [31]，JPPNet [21][27]第27话，如表4所示，我们的方法优于所有先验。我们提出的框架在LIP上的mIoU方面产生57.03%与最佳方法相比，本方法的平均回收率提高了2.63%。CIHP数据集上的结果。在CIHP数据集上评估的人类解析结果报告在表5中。先前的工作在mIoU这个具有挑战性的数据集上实现了60.62%的高性能。我们的PCNet提高了结果达到61.05%，表明了该方法的优越性，能够充分利用全局特征和局部特征的区别性，提高人工句法分析的性能。总体而言，我们的PCNet在不同的数据集上始终获得了有希望的结果，这清楚地表明了它的优越性能和强大的通用性。这也将我们的模型与之前几个最先进的深度人类解析器区分开来，例如[15，32，43]，因为它在训练期间不使用额外的姿势注释。6. 结论在这项工作中，我们提出了一个部分感知上下文网络（PCNet），这显着提高性能的人类解析。PCNet由三个模块组成：零件类模块、关系聚合模块和关系分散模块。部分类模块从分类的角度从原始特征中提取每个人体部分的基于零件类模块和主干网络的输出，关系聚集模块通过挖掘关联语义来获取人体零件的全局特征，关系分散模块则为一个人体零件选择有区别的、有效的局部上下文，忽略干扰最后，大量的实验表明，我们的方法显着提高了基线模型在三个数据集上的性能。在三个数据集上的这些结果证明，我们的框架在不同类型的数据集上都能很好地工作，包括具有少量身体部位的简单数据集和具有各种人体部位的复杂数据集。谢谢。国家自然科学基金项目（No.61976210，61772527，61806200，61702510和61876086），广东省重点领域研发项目（编号：2020B010165001、2019B010153001）。8981引用[1] 卢卡·贝尔蒂内托，约翰·阿托·F·恩里克斯，杰克·V·阿尔马德雷，菲利普·托尔和安德烈·韦达尔迪。学习前馈一次性学习器。神经信息处理系统进展，第523-531页，2016年[2] 陈良杰、麦克斯韦·柯林斯、朱玉坤、乔治·帕潘德里欧、巴雷特·佐夫、弗洛里安·施洛夫、哈特维格·亚当和乔恩·施伦斯。寻找用于密集图像预测的高效多尺度架构。在NeurIPS，第8699- 8710页[3] Liang Chieh Chen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义在IEEE TPAMI，40（4）：834[4] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在IEEE计算机视觉和模式识别会议论文集，第3640-3649页[5] Xianjie Chen，Roozbeh Mottaghi，Xiaobao Liu，SanjaFidler，Raquel Urtasun，and Alan Yuille.检测您可以：使用整体模型和身体部位检测和表示对象。在CVPR中，第1979-1986页[6] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页[7] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.语义相关性促进了形状变化的上下文分割。在IEEE计算机视觉和模式识别会议论文集，第8885-8894页[8] 方浩树、卢冠松、方小林、谢建文、戴玉荣、卢策武。通过姿势引导知识转移的弱和半监督人体部位解析。arXiv预印本arXiv：1805.04310，2018。[9] M.法伦泽纳湖Bazzani，A. Perina、V.Murio和M.克里斯塔尼通过局部特征的累积进行人员重新识别。在CVPR，第2360-2367页，2010年。[10] 傅军，刘静，李勇，鲍勇军，严伟鹏，方志伟，卢汉青.用于语义分割的上下文去卷积网络。模式识别，第107152页，2020年。[11] 傅军，刘静，王宇航，李勇，鲍勇军，唐金辉，卢汉青.用于场景解析的自适应上下文网络。在IEEE计算机视觉国际会议论文集，第6748-6757页[12] 查尔斯D吉尔伯特和吴莉。自上而下影响视觉加工。Nature Reviews Neuroscience，14（5）：350-363，2013.[13] 龚克，高一鸣，梁晓丹，沈小虎，王梦，林亮。Graphonomy ： Universal hu

下载后可阅读完整内容，剩余1页未读，立即下载