宏-微对抗网络用于人类分析

127 浏览量更新于2023-10-13 收藏 1.38MB PDF 举报

句法分析

不一致性

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

宏-微对抗网络用于人类分析罗亚伟1、 2、郑哲东2、郑良2、 3、关涛1、于俊青1、杨毅21华中科技大学计算机科学与技术学院{royalvane，qd gt，yjqing} @ hust.edu.cn2CAI，悉尼科技大学3新加坡科技与设计大学{zdzheng12，liangzheng06，yee. i. yang} @ gmail.com抽象。在人类句法分析中，逐像素分类损失在其低级局部不一致性和高级语义不一致性方面具有缺点对抗网络的引入使用单个鉴别器解决了这两个问题。然而，这两种类型的解析不一致是由不同的机制产生的，因此很难用一个单独的语法分析器来解决这两种问题。为了解决这两种不一致性，本文提出了宏微对抗网（MMAN）。它有两个鉴别器。一个鉴别器，宏D，作用于低分辨率标签图并且惩罚语义不一致，例如，放错地方的身体部位另一鉴别器Micro D聚焦于高分辨率标签图的多个块以解决局部不一致性，例如，模糊和洞。与传统的对抗网络相比，MMAN不仅能显式地增强局部和语义一致性，而且避免了对抗网络在处理高分辨率图像时收敛性差的问题。在我们的实验中，我们验证了这两个鉴别器是互补的，彼此在提高人类的解析精度。所提出的框架能够产生与现有技术的方法相比具有竞争力的解析性能，即，在LIP和PASCAL-Person-Part上，mIoU分别为46.81%和59.91%。在相对较小的数据集PPSS上，我们的预训练模型表现出令人印象深刻的泛化能力。代码可在https://github.com/RoyalVane/MMAN公开获得。关键词：人工句法分析，对抗网络，不一致性，宏微观1介绍人类解析的目的是分割成多个语义部分的人类图像。这是一个像素级的预测任务，需要在全局和局部两个层面上理解人类图像。人类解析可以广泛应用于人类行为分析[9]，姿势估计[34]和时尚合成[40]。2Y. Luo等人图像基线GT(a) 局部不一致图像基线GT(b) 语义不一致帽子围巾毛裙手套面L形臂太阳镜u-clothesr-arm裙子L形腿外套r型腿袜子L形鞋裤子R形鞋连体裤背景图1：逐像素分类损失的缺点。(a)局部不一致，导致手臂上有一个洞。（b）语义不一致，这导致不合理的人类姿势。不一致性由红色箭头指示。人类解析和语义分割的最新进展[19，34，10，23，37，36]主要探索了卷积神经网络（CNN）的潜力。基于CNN架构，通常使用逐像素分类损失[19，34，10]，其惩罚每个像素的分类错误。尽管提供了有效的基线，但被设计用于每像素类别预测的逐像素分类损失具有两个缺点。首先，逐像素分类损失可能导致局部不一致，诸如孔洞和模糊。原因是它仅仅惩罚每个像素上的错误预测，而没有明确地考虑相邻像素之间的相关性。为了说明，我们用像素分类损失训练了一个基线模型（见3.2节）如图图1（a）中所示的一些像素，其特征在于，这些像素被基线“配置”为或被基线“更新”。这是不期望的，但是这是基线损失的局部不一致性的结果。其次，逐像素分类丢失可能导致整体分割图中的语义不一致，诸如不合理的人体姿势和身体部位的不正确空间关系。与局部不一致相比，语义不一致是从更深的层产生的。当仅查看局部区域时，所学习的模型不具有对身体部位的拓扑学的整体意义。就像在电影里一样。图1（b）中，“臂”与相邻的“腿”重合，指示不正确的零件拓扑（三个腿）。因此，逐像素分类损失没有明确地考虑语义一致性，使得可能无法很好地捕获长程依赖性为了解决不一致问题，可以采用条件随机场（CRF）[17然而，CRF通常由于成对电位而在非常有限的范围（局部）内处理不一致性，并且在初始分割结果不佳的情况下甚至可能生成更差的标签图。作为CRF的替代方案，最近的工作提出使用对抗网络[24]。由于对抗性损失通过许多标签变量的联合配置来评估标签图是真的还是假的，因此它可以强制执行更高级别的一致性，这无法通过成对项或每像素分类损失来实现。现在，越来越多的作品采用这种套路宏-微对抗网络用于人类分析31.2 1.210.80.60.40.20LossD（real）LossD（fake）LossG10.80.60.40.20LossD（real）LossD（fake）LossG(a)良好收敛（b）差收敛图2：对抗网络训练中的两种收敛类型。LossD （real）和LossD（fake）分别表示鉴别器在真实图像和伪图像上的对抗损失，LossG表示生成器的损失。(a)良好的收敛性，其中LossD（real）和LossD（fake）收敛到0.5，LossG收敛到0。这表明对抗性网络训练成功，其中 G 能够欺骗 D 。 (b) 收敛性差，其中 LossD （ real ）和 LossD（fake）收敛到0，LossG收敛到1。它代表一种不平衡的对抗网络训练，其中D可以很容易地将生成的图像与真实图像区分开来。将交叉熵损失与对抗性损失相结合，以产生更接近地面真实的标签图[5，27，12]。然而，以前的对抗网络也有其局限性。首先，单个鉴别器仅向生成器反向传播一个对抗性损失然而，局部不一致是从顶层产生的，而语义不一致是从深层产生的。两个目标层不能仅在一个对抗性损失的情况下离散地训练。第二，单个鉴别器必须查看整个高分辨率图像（或其大部分）以监督全局一致性。如大量文献[7，14]所述，生成器很难在高分辨率图像上欺骗伪影结果，单个鉴别器总是反向传播最大对抗损失，这使得训练不平衡。我们称之为差收敛问题，如图所示。二、本文的基本目标是提高人工句法分析中标签映射的局部一致性和语义我们采用对抗训练的思想，同时旨在解决其局限性，即，在提高句法一致性方面的能力较差，存在单一对抗损失和收敛性差的问题。具体来说，我们介绍了宏微对抗网（MMAN）。MMAN由一个双输出发生器（ G ）和两个鉴别器（ D ）组成，分别命名为 MacroD 和MicroD。这三个模块构成了两个对抗网络（宏AN，微AN），分别解决语义一致性和给定输入人类图像，基于CNN的生成器输出具有不同分辨率水平的两个分割图，即，低分辨率和高分辨率。宏D的输入是低分辨率分割图，并且输出是语义一致性的置信度得分MicroD的输入是高分辨率分割结果，其输出是4Y. Luo等人双输出发生器（G）假的真假的真假房假房假房假房图像CNN（基线）+ MicroD + MacroD+宏D+微D（MMAN）GT头躯干上臂下臂大腿小腿背景图3：顶部：MMAN的简短管道。两个鉴别器被附接到基于CNN的生成器（G）。MacroD在低分辨率标签图上工作，并且具有全局接受域，专注于语义一致性。MicroD聚焦于多个斑块，并且在高分辨率标签图上具有小的感受野宏（微）鉴别器在智能（局部）鉴别器被检测到的情况下是“假的”，或者被赋予“真实的”。底部：分别使用MacroD、Micro D和MMAN的定性结果。我们观察到，宏D和微D纠正语义不一致（绿色虚线圆圈）和局部不一致（橙色虚线圆圈），分别，和MMAN具有两者的优点。是局部一致性的置信度得分。拟议框架的简要流程如图所示。3.第三章。这是在两个关键方面，曼离开以前的作品。首先，我们的方法显式地处理局部不一致和语义不一致的问题，分别使用两个特定于任务的对抗网络。其次，我们的方法不使用大尺寸的高分辨率图像的FOV，所以我们可以避免收敛性差的问题。第3.5节中提供了对拟议网络优点的更详细描述。我们的贡献总结如下：– 我们提出了一个新的框架，称为宏微对抗网络（MMAN）的人类解析。宏AN和微AN分别关注语义和局部不一致性，并以互补的方式工作以提高句法分析质量。– 在我们的框架中的两个鉴别器实现了局部和全局监督的标签地图与小视场（FOV），这避免了高分辨率图像所带来的收敛性差的问题。宏D的全局FOVMicroD的局部FOV宏-微对抗网络用于人类分析5– 所提出的对抗网络在LIP和PASCAL-Person-Part数据集上实现了非常有竞争力的mIoU，并且可以在相对较小的数据集 PPSS上很好地推广。2相关作品我们的评论集中在与我们的工作最相关的三行文献，即，基于CNN的人类解析，条件随机场（CRF）和对抗网络。人工分析。人类句法分析的最新进展是由于两个因素：1）大规模数据集的可用性[10，19，25，4]。与小数据集相比，大规模数据集包含了人们共同的视觉变化，并提供了一个全面的评价。2）端到端学习模型。人类解析要求在像素级别上理解人最近的工作应用卷积神经网络（CNN）以端到端的方式学习分割结果。在[34]中，预先提取人体姿势并将其用作强结构线索以指导解析。在[21]中，四个与人类相关的上下文被集成到一个统一的网络中。[29]提出了一种新的人类相关语法，它联合推断人体姿势和人体部位使用像素分类损失，CNN通常忽略像素之间的微观上下文和语义部分之间的宏观上下文条件随机场（CRF）[17，22，18]是在输出标签图中强制空间连续性的常用方法之一。作为图像分割的后处理程序，CRF进一步微调输出图。然而，最常用的CRF是成对电位[2，26]，其参数非常有限，并且在小范围内处理低水平高阶势[16，18]也被观察到在加强语义有效性方面是有效的，但是相应的能量模式和团形式通常难以设计。总之，在CNN中上下文的利用仍然是一个开放的问题。对抗性网络对抗网络已经证明了图像合成的有效性[13，28，30，39，38]。通过最小化对抗损失，鉴别器引导生成器产生高保真图像。在[24]中，Luc等人为训练语义分割添加了对抗性损失，并产生了竞争性结果。类似的想法然后已经应用于街道场景分割[12]和医学图像分割[5，27]。同时，越来越多的文献[7，14]报告了在高分辨率图像上训练对抗网络的困难鉴别器容易识别伪高分辨率图像，导致训练不平衡。发电机和稳压器容易卡在局部最小值。MMAN与上述对抗式学习方法的主要区别在于，我们明确地赋予了对抗式训练宏观和微观子任务。我们观察到这两个子任务是互为补充的6Y. Luo等人图图4：MMAN有三个组件：一个双输出发生器（蓝色虚线框）、一个宏控制器（绿色虚线框）和一个微控制器（橙色虚线框）。给定大小为 3× 256× 256 的输入图像，生成器 G 首先生成一个低分辨率（8192× 16× 16）张量，从中生成一个低分辨率标签图（C×16× 16）和一个高分辨率标签图（C×256× 256），其中C是类别的数量最后，对于每个标签映射（例如，大小为C ×16×16），我们将其与第一轴（通道数）上的RGB图像（大小为3×16×16）连接起来，并将其输入相应的鉴别器。其他的是以单一的对抗性损失来实现优于基线的解析准确性，并且能够降低训练不平衡的风险。3宏微对抗网络图4展示了所提出的宏微对抗网络的架构。该网络由三个部分组成，即，双输出发电机（G）和两个任务特异性鉴别器（DMa和DMi）。给定一个大小为3× 256×256的输入图像，G输出两个大小分别为C×16× 16和C×256×256的标签映射DMa监督C×16× 16的整个标签图，DMi分别关注大小为C×256×256的标签图的补丁，从而惩罚全局和局部不一致性。在第3.1节中，我们说明了培训目标，然后在第3.2、3.3和3.4节中说明了结构。建议的网络的优点在3.5节中讨论。3.1培养目标给定形状为3×H×W的人体图像x和形状为C×H×W，其中C是包括背景、副本发生器3*256*256GT1024*16*168192*16*16concat3*256*2561024*16*16512*32*32(512+512）*32*32C*256*256C*256*256256*64*64(256+256）concatGT64*128*128(64+64）3*16*16C*16*16C*16*16C*16*16副本3*16*16宏鉴别器微鉴别器张量转移从中选择64*8*8128*4*41... 1真实：⁝⋱⁝1... 10... 0假的：⁝⋱卷积256*1*11* 1*1 与真实值：1RGB图像假：0vs反卷积128*64*641*64*64标签图（3 + C）64*128*128（3 + C）*256*256扩张卷积FOV/潜在特征调整宏鉴别器微鉴别器宏-微对抗网络用于人类分析7马传统的逐像素分类损失（多类交叉熵损失）可以公式化为：Lmce（G）=HΣ×WΣC−yiclogyic，（1）i=1c =1其中，所述元素不具有所述类的复制能力。表示类别c在第i个像素上的地面真值概率。如果第i个像素属于类别c，则y_ic= 1，否则y_ic= 0。为了加强空间一致性，我们将像素分类损失与对抗损失相结合。它可以被公式化为：Lmix（G，D）=Lmce（G）+λLadver（G，D），（2）其中λ控制逐像素分类损失和对抗损失的相对重要性具体地，对抗性损失Ladver（G，D）为：Ladver（G，D）=Ex，y[logD（x，y）]+Ex[log（1 −D（x，G（x））].（三）如图4，所提出的MMAN采用“交叉熵损失+对抗损失”来监督来自生成器G的底部和顶部输出两者：LMMAN（G，DMa，DMi）=Ladver（G，DMa）+λ1Lmcel（G）+λ2Ladver（G，DMi）+λ3Lmceh（G），（4）其中，L_mce_l（G）提供低分辨率输出与小尺寸目标标签图之间的交叉熵损失，而L_mce_h（G）是指高分辨率输出与原始地面实况标签图之间的交叉熵损失。类似地，Ladver（G，DMa）是聚焦于低分辨率地图的对抗性损失，并且Ladver（G，DMi）基于高分辨率地图。超参数λ1、λ2和λ3控制四个损失的相对重要性。MMAN的培训目标是：G*、D**= argminMiGMaxDMa，DMaLMMAN（G，D Ma，D Mi）. （五）我们求解Eq。通过在优化G、DMa和DMi之间交替，L_MMAN（G，D_Ma，D_Mi）收敛。3.2双输出发电机对于生成器（G），我们利用具有ResNet-101的DeepLab-ASPP [2]框架[11]在ImageNet数据集[6]上预训练的模型作为我们的起点，因为它的简单性和有效性。我们用级联的上采样层来增强DeepLab-ASPP架构，并将它们与早期层跳过连接，这是得双曲余切值.8Y. Luo等人类似于U-net [31]。此外，我们添加了一个旁路来从底层输出深度小尺寸的标签图与来自顶层的原始尺寸的标签图并行地作为第二输出。我们将增强的双输出架构称为Do-DeepLab-ASPP，并将其作为我们的基线。对于双输出，我们用原始大小的地面实况标签图监督顶层的交叉熵损失此外，我们使用调整大小的标签图来监督底层的交叉熵损失，即，原来尺寸的1/16倍。缩小的标签地图更加关注粗粒度的人体结构。同样的策略也适用于对抗性损失。我们连接的尊重标签地图与相应大小的RGB图像沿类通道作为一个强有力的条件，鉴别。3.3宏鉴别器宏鉴别器（DMa）的目的是引导生成器产生符合高层次人体特征的真实感标签图，例如合理的人体姿势和正确的身体部位空间关系。DMa附着在G的底层，专注于一个整体的低分辨率标签图。它由4个卷积层组成，内核大小为4×4，步长为2。每个卷积层之后是一个实例范数层和一个LeakyRelu函数。给定G的输出标签图，D Ma将其下采样到1× 1，以实现对它的全局监督。D Ma的输出是语义一致性的置信度得分。3.4微鉴别器微鉴别器（DMi）被设计用于增强标签映射的局部一致性。我们在设计D Mi时遵循了“PatchGAN”[ 13 ]的思想与在（收缩的）标签图上具有全局感受野的DMa不同，DMi仅在图像块的尺度上惩罚局部错误DMi的核大小为4× 4，步长为2。MicroD具有3个卷积层的浅层结构，每个卷积层后面是一个实例范数层和一个LeakyRelu函数。DMi的目标是分类高分辨率图像中的每个22×22块是真还是假，这适合于加强局部一致性。在标签图上卷积地运行DMi之后最后，我们对所有响应求平均，以提供DMi的最终输出。3.5讨论在基于CNN的人工解析中，卷积层深入提取部分级别的特征，而去卷积层将深度特征带回像素级别的位置。将MacroD安排到更深层以监督高级语义特征，将MicroD安排到顶层以关注低级视觉特征，这似乎是直观的然而，除了直观的动机，我们可以从这样的安排中受益更多。从四个方面总结了移动城域网的优点。宏-微对抗网络用于人类分析9宏D和微D的功能专业化。与试图单独解决两个层次的不一致性的单个的一致性模型相比宏D和微D被指定用于解决两个一致性问题中的一个以MacroD为例。首先，宏D附着到G的深层。因为语义不一致最初是从深层生成的，所以这样设计的宏D允许损失更直接地反向传播到G第二，宏D作用于低分辨率标签图，该低分辨率标签图保留语义级别的人体结构，同时过滤掉像素级别的细节。它强制宏D集中在全局不一致性上，而不受局部误差的干扰同样的道理也适用于MicroD。在第4.5节中，我们验证了MMAN始终优于具有单一对抗损失的对抗网络[24，5]。宏D和微D的功能互补。如[35]中所述，监督早期深层中的分类丢失可以为稍后的顶层提供良好的相应地，减少顶层的损失可以用细粒度的视觉细节来弥补粗糙的语义特征。我们假设，对抗性损失具有相同的特点，工作在互补模式。我们在4.4节中阐明了我们的假设。小FOV以避免差的收敛问题。越来越多的文献报道[7，14]，现有的对抗网络在处理复杂的高分辨率图像方面存在缺陷在我们的框架中，宏D作用于低分辨率标签地图，而微D在高分辨率标签地图上具有多个但小的FOV。因此，MacroD和MicroD都避免使用大FOV作为实际输入，这有效地降低了由高分辨率引起的收敛风险。我们在第4.5节中展示了这一益处。效率与单个对抗网络[24，5]相比，MMAN通过两个更浅的识别器实现了对整个图像的监督，这些识别器具有更少的参数。这也归因于鉴别器的小FOV。第4.5节的变体研究显示了MMAN的有效性。4实验4.1数据集LIP [10]是最近引入的大规模数据集，在严重的姿势复杂性、严重的遮挡和身体截断方面具有挑战性。它总共包含50，462张图像，其中30，362张用于训练，10，000张用于测试，10，000张用于验证。LIP定义了19个人体部分（衣服）标签，包括帽子、头发、太阳镜、上衣、连衣裙、外套、袜子、裤子、手套、围巾、裙子、连身裤、脸、右臂、左臂、右腿、左腿、右脚鞋和左脚鞋，以及背景类。PASCAL-Person-Part [4]注释人体部位分割标签，是PASCAL-VOC2010 [8]的子集PASCAL-Person-Part包括1，716个用于训练的图像和1，817个用于测试的图像。在该数据集中，图像可以包含具有不受约束的姿势和环境的多个人。六个人体部分类和背景类被注释。10Y. Luo等人PPSS [25]包括3，673个带注释的样本，这些样本被分为1，781个图像的训练集和1，892个图像的测试集。它定义了七个人体部分和一个背景类。该数据集采集了171段监控视频，能够反映真实场景中的遮挡和光照变化。评价指标。对每个类的人类解析准确率进行了测量在像素交并（IoU）方面。通过对所有类的IoU求平均值来计算平均交集。我们使用每个类的IoU和mIoU作为每个数据集的评估指标4.2实现细节在我们的实现中，输入图像被调整大小，使得其短边固定为288. 从图像或其水平翻转版本中随机采样256×256裁剪从裁剪的图像中减去每像素平均值。我们在每次卷积后采用实例归一化[32]。对于Eq.4，我们设置λ1=25，λ2=1和λ3=100。对于生成器的下采样网络，我们使用ImageNet [6]预训练网络作为初始化。网络其余部分的权重使用标准偏差为0.001的高斯分布从头开始初始化。我们使用Adam优化器[15]，小批量大小为1。我们设β 1 = 0。9，β 2 = 0。999，weightdecay =0。0001.学习率从0.0002开始。在LIP数据集上，学习率在15个epoch后除以10，模型训练30个epoch。在Pascal-Person-Part数据集上，学习率在25个epoch之后除以10，并且模型被训练了50个epoch。我们在反卷积层中使用dropout，遵循[13]中的实践。我们交替优化D和G。在测试期间，我们在多个尺度下对每个像素的分类得分进行平均，即，将测试图像的大小调整为其原始大小的{0.8，1，1.2}4.3与最新方法的在本节中，我们将我们的结果与上的最新方法进行比较。三个数据集。首先，在LIP数据集上，我们将MMAN与表1中的五种最先进的方法进行了比较。所提出的MMAN产生46.65%的mIoU，而五种竞争方法的mIoU为18.17%[1]，28.29%[23 ]，28.29% [24]。42.92% [3]、44.13% [2]和44.73% [10]。为了公平比较，我们进一步在我们的基线上实现ASN [24]和SSL [10]，即Do-Deeplab-ASPP。在相同的基线上，MMAN在mIoU方面分别比ASN [24]和SSL [10]高出+1.40%和+0.62%。它清楚地表明我们的方法优于现有技术。每类IoU的比较表明，改善主要来自与人体姿势密切相关的类，如手臂，腿和鞋。特别地，MMAN能够区分左/右臂改善+2.5%，左/右腿改善超过+10%，左/右鞋改善超过+5% 该比较意味着MMAN能够强制执行语义级特征的一致性，即，人类姿势。宏-微对抗网络用于人类分析11表1：LIP验证集上每类IoU和mIoU的方法比较。方法帽子头发手套宋服连衣裙外套袜子裤子套装围巾裙子脸l-armr-arml-legr-legl-shr-shbkgavgSegNet[1]26.6044.010.010.0034.460.0015.973.5933.560.010.000.0052.3815.3024.2313.8213.179.266.4770.6218.17[23]第二十三话 39.7958.965.323.0849.0812.3626.8215.6649.416.480.002.1662.6529.7836.6328.1226.0517.7617.7078.0228.29注意事项[3]58.8766.7823.3219.4863.2029.6349.7035.2366.0424.7312.8420.4170.5850.1754.0338.3537.7026.2027.0984.0042.92[10]第十届中国国际汽车工业展览会Do-DeepLab-ASPP56.4865.3329.9819.6762.4430.3351.0340.5169.0022.3811.2920.5670.1149.2552.8842.3735.7833.8132.8984.5344.0359.7567.2528.9521.5765.3029.4951.9238.5268.0224.4814.9224.3271.0152.6455.7940.2338.8028.0829.0384.5656.1665.2828.5320.1662.5429.0451.2238.0069.8222.6210.6319.9469.8851.8353.0145.6846.0835.8234.7283.47宏AN57.2465.2828.8719.5664.0227.5151.3938.1370.1122.819.0519.3568.6054.1956.2950.5751.2237.1537.4283.2545.60微AN57.4765.0528.6616.9363.9531.4551.1139.6470.8525.586.8718.9668.8953.6256.6949.8149.4235.3535.6584.4645.52ASN[24]56.9264.3428.0717.7864.9030.8551.9039.7571.7825.577.9717.6370.7753.5356.7049.5848.2134.57SSL[10]58.2167.1731.2023.6563.6628.3152.3539.5869.4028.6113.7022.5274.8452.8355.6748.2247.4931.8029.9784.6446.19MMAN57.6665.6330.0720.0264.1528.3951.9841.4671.0323.619.6523.2069.5455.3058.1351.9052.1738.5839.0584.75表2：在PASCAL-Person-Part测试集上，使用五种最先进的方法进行每类IoU的性能比较方法头躯干U形臂L形臂u腿L形腿BKGavgDeeplab-ASPP [2]81.3360.0641.1640.9537.4932.5692.8155.19HAZN [33]80.7959.1143.0542.7638.9934.4693.5956.11注意事项[3]81.4759.0644.1542.5038.2835.6293.6556.39LSTM [20]82.7260.9945.4047.7642.3337.9688.6357.97[10]第十话83.2662.4047.8045.5842.3239.4894.6859.36Do-Deeplab-ASPP81.8259.5344.8042.7938.3236.3893.9156.79宏AN82.0161.1945.2444.3039.7336.7593.8957.58微AN82.4461.3544.7943.6838.4136.0593.9357.23MMAN82.4661.4146.0545.1740.9338.8394.3058.45关注+MMAN82.5862.8348.4947.3742.8040.4094.9259.91其次，在PASCAL-Person-Part上，比较如表2所示。我们应用LIP数据集上使用的相同模型结构来训练PASCAL- Person-Part数据集。我们的模型在测试集上产生58.45%的mIoU。它比大多数比较方法高，仅略低于“A tten t ion + SS L”[ 10 ]，比0. 百分之九十一这可能是由于该数据集中的人类差异，这可以通过中提出的注意算法来解决。[10][11][12][13][14]因此，我们在模型中添加了一个即插即用模块，即，注意力网络[3]。特别地，我们采用多尺度输入，并使用注意力网络来合并结果。最终模型“Attention+MMAN”将mIoU提高到59.91%，高于当前最+0.55%。当我们查看每个班级的IoU分数时，我们有与LIP相似在手臂和腿部可以观察到最大的改善。与最新技术水平方法[10，20，3]相比，上臂的改善超过+0.6%，下臂的改善超过+1.8%，大腿的改善超过+0.4%，小腿的改善超过比较表明，我们的方法是非常有竞争力的。第三，我们将在LIP上训练的模型部署到PPSS数据集的测试集，而无需任何微调。我们的目标是评估所提出的模型的泛化为了使LIP和PPSS数据集中的标签一致，我们将LIP的细粒度标签合并到PPSS中定义的粗粒度人体部位标签12Y. Luo等人表3：PPSS数据集上人类解析准确性的比较[25]。最佳性能以蓝色突出显示。方法头脸上布武器罗布腿BKGavg[25]22.029.157.310.646.112.968.635.2DDN [25]35.544.168.417.061.723.880.047.2ASN [24]51.751.065.929.552.820.383.850.7MMAN53.150.269.029.455.921.485.752.1图像基线+宏D+微D全MMAN GT头躯干上臂下臂大腿小腿背景图5：Pascal-Person-Part数据集上的定性解析结果。评价结果报告于表3中。MMAN产生52.11%的mIoU，显著优于DL [25]DDN [25]和ASN [24]+16.9%、+4.9%和+1.4%。因此，当直接在具有不同图像风格的另一个数据集上进行测试时，我们的模型仍然具有良好的性能。在图5中，我们提供了分别通过基线（Do-Deeplab-ASPP）、基线+宏D、基线+微D和全MMAN获得的一些分割示例。还显示了地面实况标签地图。我们观察到，基线+微D显着减少了模糊和噪声，并有助于生成清晰的边界，基线+宏D纠正了不合理的人体姿势。全MMAN方法综合了宏AN和微AN的优点，具有更高的解析精度。我们还在图中展示六、4.4消融研究本节介绍了我们的方法的消融研究。由于涉及两个组件，即，宏D和微观D，我们一次移除一个以分别评估它们的贡献。LIP和PASCAL-Person- Part数据集的结果分别见表1和表2。宏-微对抗网络用于人类分析13面毛上衣手臂下衣腿鞋子背景图6：PPSS数据集上的定性解析结果RGB图像和标签图成对显示。在LIP数据集上，当从系统中移除MacroD或MicroD时，与完整的MMAN系统相比，mIoU将分别下降1.21%和1.29%同时，与基线方法相比，单独使用MacroD或MicroD可使平均IoU提高+0.88%和+0.80%在PASCAL-Person-Part数据集上也可以进行类似的观察。为了进一步评估两个不同鉴别器的各自功能，我们添加了两个外部实验：1）对于宏D，我们使用低分辨率分割图计算另一个mIoU，其过滤掉像素细节并保留高层次的人体结构。因此，这种新的mIoU更适合于评估MacroD。2）对于MicroD，在高分辨率分割图中存在“孤立像素”，其反映了诸如“孔”的局部不一致性。“隔离像素”（IP R）可作为评估Micro D的最佳技术。我们从表4中看到，MacroD在改善“mIoU（低分辨率）”方面优于MicroD。证明MacroD擅长保存高级人体结构我们还看到MicroD在降低IPR方面优于MacroD，这表明MicroD专门用于提高结果的局部一致性。4.5变更研究我们进一步评估了MMAN的三种不同变体，即，LIP数据集上的单AN、双AN和多AN表5详细说明了参数数量、全局FOV（g.FOV）和局部FOV（l.FOV）大小以及每个变体的最后给出了原MMAN的计算结果，并与原MMAN的计算结果进行了比较.单AN是指传统的只有一个区分者的对抗网络鉴别器附着在顶层，在256× 256标签图上如结果所示，单个AN在平均IoU中产生45.23%，其略高于基线但低于MMAN。该结果表明，采用宏D和微D优于单个宏D。14Y. Luo等人表4：IPR和mIOU表5：MMAN的变体研究。变体arch.g.FOVl.FOV #par PC.MiouSan256× 256-3.2M √ 45.23丹256× 256 22 ×223.8M √ 46.15人16 ×1622 ×221.8M-46.9716× 1622× 22 1.2M-46.81鉴别器，这证明了第3.5节中分析的正确性。什么更多的是，我们在训练单个AN时观察到差收敛（pc）问题。这是由于在高分辨率标签图上采用了大FOV双AN与MMAN具有相同数量的鉴别器不同之处在于双AN将宏D附加到顶层。与双AN相比，MMAN显著提高了0.82%的结果。结果说明了宏D和微D的互补效果：宏D作用于深层，并为稍后的顶层提供了良好的粗粒度初始化，而微D有助于用细粒度的视觉细节来补救粗糙的语义特征。多个AN被设计为当采用多于两个鉴别器时评估解析准确性。为此，我们附加了一个额外的鉴别器到G.特别是，鉴别器具有与microD相同的架构，并专注于64× 64标签图上的22×如表5所示，采用三个鉴别器带来平均IoU的非常轻微的改善（0.16%），但导致更复杂的架构和更多的参数。5结论在本文中，我们介绍了一种新的宏-微对抗网络（MMAN）的人类解析，这显着减少了语义不一致，例如。、错位的人体部分以及局部不一致性，例如：，模糊和孔，在解析结果。我们的模型实现了与在两个挑战人类解析数据集上的最先进的方法，并且在其他数据集上具有良好的泛化能力。这两个对抗性损失是互补的，并且优于采用单个对抗性损失的先前方法此外，MMAN实现了全局和局部的监督与小的感受野，这有效地避免了对抗网络在处理高分辨率图像的收敛性差谢谢。本工作得到国家自然科学基金（No. 61572211）。我们感谢Data to Decisions CRC（D2D CRC）和合作研究中心计划为本研究提供资金。方法知识产权mIoU（低分辨率）mIoU（高分辨率）基线5.6250.6644.72+宏D4.2355.7945.60+微D2.8153.6045.52+CRF1.5352.7745.45宏-微对抗网络用于人类分析15引用1. Badrinarayanan，V.Kendall，A.，Cipolla，R.：Segnet：用于图像分割的深度卷积编码器-解码器架构IEEE transactions on pattern analysisand ma chineintellige nce39（12），24812. Chen， L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。arXiv预印本arXiv：1606.00915（2016）3. Chen，L.C.，杨，Y.，王杰，徐伟，Yuille，A.L.：注意尺度：尺度感知的语义图像分割。在：IEEE计算机视觉和图形处理会议论文集中。pp. 364 04. 陈旭，Mottaghi河Liu，X.，中国科学院院士，Fidler，S.，Urtasun河Yuille，A.：尽可能检测：使用整体模型和身体部位检测和表示对象。IEEE计算机视觉和模式识别会议论文集pp. 19715. 戴，W.道尔J梁湘，张洪，Dong，N.，李，Y.，Xing，E.P.：扫描：用于胸部 X 射线器官分割的结构校正对抗网络 arXiv 预印本 arXiv ：1703.08770（2017）6. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：计算机视觉和模式识别，2009年。CVPR2009。 IEEEConfencen。pp. 248-255 02The Dog（2009）7. Denton，E.L.，Chintala，S.，费格斯河等：使用对抗网络的拉普拉斯金字塔的深度生成图像模型在：神经信息处理系统的进展。pp. 14868. Everingham，M.凡古尔湖威廉姆斯，C.K.I.，Winn，J.，齐瑟曼，A.：PAS-CALVisualObjectClassesChallenge2010 （ VOC2010 ）我http://www.pascal-network.org/challenges/VOC/voc2010/workshop/index.html9. Gan，C.，Lin，M.，杨，Y.，de Melo，G.，Hauptmann，A.G.：概念并不孤单：探索零拍摄视频活动识别的成对关系。在：AAAI。第3487页（2016年）10. Gong，K.，梁湘，沈，X.，Lin，L.：看人：自我监督结构敏感学习和人类解析的新基准。arXiv预印本arXiv：1703.05446（2017）11. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：IEEE计算机视觉和模式识别会议论文集pp. 77012. Hung，W.C.，蔡永宏，Liou，Y.T.，林宇宇Yang，M.H.：半监督语义分割的对抗学习arXiv预印本arXiv：1802.07934（2018）13. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。ArXiv预印本（2017）14. Karras，T.，Aila，T.Laine，S.，Leht

下载后可阅读完整内容，剩余1页未读，立即下载