边缘、姿势与解析相结合的人体解析方法

50 浏览量更新于2023-10-25 收藏 12.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

89000将边缘、姿势与解析相结合0Ziwei Zhang 1 , Chi Su 2 � , Liang Zheng 3 , Xiaodong Xie 101 北京大学电子工程与计算机科学学院，2 金山云，3 澳大利亚国立大学0{ ziwei.zh,donxie } @pku.edu.cn, suchi@kingsoft.com, liang.zheng@anu.edu.au0摘要0根据现有研究，人体边缘和姿势是人体解析的两个有益因素。通过将高级特征（边缘和姿势）与解析特征进行连接，每个特征的有效性得到了确认。在这些洞察的驱动下，本文研究了人体语义边界和关键点位置如何共同改善人体解析。与特征连接的现有做法相比，我们发现揭示这三个因素之间的相关性是利用边缘和姿势提供的关键上下文线索的一种更优方式。为了捕捉这种相关性，我们提出了一种使用异构非局部块的相关解析机器（CorrPM），以发现边缘、姿势和解析的特征图之间的空间亲和性。所提出的CorrPM使我们能够在三个人体解析数据集上报告新的最先进的准确性。重要的是，比较研究证实了特征相关性优于连接的优势。01. 引言0本文研究人体解析，旨在将人体图像分割为包括身体部位和服装在内的语义区域。由于服装的复杂纹理和风格、可变形的人体、不同类别的尺度多样性等原因，直接应用通用的语义分割方法进行人体解析可能会导致不令人满意的结果，这在两个方面得到了体现。首先，相邻部位之间的边界可能定位不准确。当相邻部位具有相似外观时，系统可能会对边界上的像素感到困惑。其次，分割部位的语义可能与人体结构不一致，如果我们不考虑不同部位之间的关联性。这导致了错误的标记。0*通讯作者。代码可在以下网址获取：https://github.com/ziwei-zh/CorrPM。0图1. 解析错误和我们的动机示例。 (a) 给定的图像。 (b)解析基线的结果[4]。 (c) 解析和人体边缘特征的融合。 (d)解析和人体关键点特征的融合。 (e) 我们方法的结果。 (f)真实标签。从(b)中，我们观察到解析错误是由于边界模糊（白框）和人体结构不一致（红框）引起的。边界特征（c）或关键点特征（d）的融合可以减轻这两种错误中的一种。在(e)中，这两种错误明显减轻，因为我们利用了边界和关键点的优势，通过学习它们与解析的相关性。通过比较，我们提出的策略优于常见的连接或后处理方法。0当上下文线索不明显时，人体边缘检测和姿势估计可以潜在地解决上述两个问题。对于第一个问题，即边界混淆，人体边缘检测有助于区分两个相邻的类别[3,33]。对于第二个问题，即语义不一致，姿势估计提供关键点来强制使解析结果在语义上与人体结构一致[38, 28,34]。因此，当前研究[3, 33, 37,29]将人体边缘和姿势识别为改善解析性能的互补线索。如图1(b)所示，当直接使用通用分割方法进行人体解析时，上衣的一些像素被预测为裤子：网络错误地定位了两个类别之间的边缘。此外，由于缺乏人体语义约束，左右手臂、左右鞋子被错误地识别。在图1(c)中，添加边缘后，上衣和裤子的边界得到了更好的定位，左右手臂和左右鞋子也被正确识别。89010通过观察边界像素的位置，我们可以准确地定位它们。此外，在图1(d)中利用姿势特征提供的身体部位线索时，左臂的错误预测不再存在，并且左鞋清楚地与右鞋区分开来。尽管迄今为止的改进，利用边缘/姿势来改善解析的现有研究还没有充分利用它们的潜力。通常只使用单个因素，即姿势或边缘，这可能有助于解决上述单个问题。此外，现有方法通常执行特征串联或后处理以进行解析的细化。我们指出，这种做法可能不够好。如图1(c)和(d)所示，当仅关注单个因素用于解析系统时，手臂和服装区域仍然存在模糊和空洞，并且左/右鞋的预测不准确。因此，简单的融合或后处理可能不足以处理细节区域，例如不同部位的边缘。为了解决这个问题，我们探索了边缘、姿势和解析之间的相关性，并发现同时集成边缘、姿势和解析是更好的选择。在本文中，我们提出了一种相关解析机器（CorrPM），利用人体语义边缘和姿势特征来改善人体解析。与执行特征串联或后处理不同，我们学习了这三个任务之间的相关性。CorrPM具有三个编码器，并具有异构非局部（HNL）模块。编码器分别计算人体边缘、姿势和语义的向量表示。HNL将这三个特征混合成混合表示，并探索这个混合特征与解析特征图在所有位置上的空间关联性。因此，我们的方法可以有效地感知人体边缘并保持语义区域的完整性，解决不准确的边界定位问题。同时，通过感知身体关键点，我们的方法改善了身体部位几何的一致性。例如，如图1(e)所示，我们的方法纠正了手臂区域的错误标记，并正确分割了上衣和裤子之间以及裙子和手臂之间的边界。总之，我们的贡献有三个方面。1）我们提出使用异构非局部（HNL）结构来捕捉三个密切相关因素之间的相关性。2）我们证明了当人体边缘和姿势同时集成在相关解析机器（CorrPM）中时，对解析任务带来了显著的改进。3）使用简单的边缘检测和姿势估计模型，我们在三个人体解析数据集上报告了非常有竞争力的解析准确性。02. 相关工作0语义分割。人体解析是一种细粒度的语义分割，对所有对象进行逐像素预测。由于其在应用中的巨大前景，人体解析已经成为计算机视觉领域的研究热点。0在过去几年中，语义分割在计算机视觉领域变得越来越重要。FCN [25, 5, 42]在这个任务上表现良好，它对整个图像应用全卷积来为每个像素生成标签。受此启发，许多研究者 [31, 1, 32]开始利用编码器-解码器结构，通过下采样提取特征，然后使用上采样将其恢复到原始分辨率。为了扩大感受野，DeepLab [4]设计了空洞卷积核，强制网络感知更大的区域并减少预测错误。赵等人 [41]提出了一个金字塔场景解析网络，聚合多尺度对象线索，使分割更加精确。在 [36]中，夏等人提出了“自动缩放网络”，可以自动“缩放”具有不同尺度的对象和部分。0人体解析。在语义分割的主要方法中，人体解析的早期研究主要通过手工特征和条件随机场（CRF）的后处理来贡献于这个领域 [11, 23]。董等人 [9]使用各种由“And-Or”子树组装的解析器来联合解析人体标签和关键点位置。随着卷积神经网络（CNN）的发展，特别是在提出ResNet[17]之后，许多深度学习方法在这个领域取得了很大进展。在 [22]中，梁等人提出了一个Co-CNN框架，捕捉跨层的局部和全局上下文信息，提升了解析性能。龚等人 [15]引入了一个新的大规模基准LIP和一种新颖的自监督结构敏感学习方法。李等人 [20]通过自底向上的方式为人物生成全局解析图来解决人体解析问题。0利用边缘或姿势进行解析。为了在人体解析任务中获得更准确的预测，最近的工作[10, 29, 14, 15, 37, 13, 7, 19,30]利用边缘或姿势信息作为指导。陈等人[3]提出了一种边缘感知滤波方法，用于捕捉两个相邻部分之间准确的语义轮廓。阮等人[33]将边缘图与解析特征融合，可以保留人体部位的边界，以改善人体解析。龚等人[14]以共享两个特征的中间表示的方式进行语义部分解析和边缘检测。夏等人[37]训练两个FCN分别预测姿势和部位，然后通过全连接条件随机场（FCRF）进行融合以进行细化。聂等人[29]观察到姿势和解析可以通过训练两个并行模型并调整相互参数来同时提升彼此的性能。尽管有所改进，现有方法仅执行特征串联或姿势处理以改善解析结果，这不如引导解析模型学习上下文线索。我们的框架同时集成了边缘、姿势和解析表示，并有效地89020Res20Res30Res40Res5 ASPP0部0FA0FA0FA0�� 0�� 0EdE PaE0PoE0HNL0输入0输出0: 连接0: 上采样0: 反卷积0FA0图2.提出网络的概述。PaE：解析编码器。EdE：边缘编码器。PoE：姿势编码器。HNL：异构非局部模块。FA：特征聚合。f*：解析/边缘/姿势特征。经过三个编码器提取后，解析、姿势和边缘特征被输入到HNL中，以探索它们之间的相关性，以改善人体解析任务。0利用这三个表示之间的关联。非局部网络。人体解析与语义边缘信息和人体姿势信息密切相关。HNL利用并应用它们之间的关系，该网络是从非局部网络修改而来。非局部网络源自非局部均值算法[2]，在许多方法中被利用来捕捉长距离依赖关系[43,40]。Wang等人[35]提出了非局部块，它是每个位置关系的加权求和，并在视频分类中表现出良好的性能。尽管非局部网络在许多任务中取得了巨大的成功，但现有方法仅寻求特征本身的关系。与现有的自注意机制不同，提出的异构非局部模块将解析、边缘和姿势因素聚合在一起，并学习解析与其他两个特征的关联。03. 提出的方法0如图2所示，提出的关联解析机（CorrPM）利用人体关键点和语义边界信息来改善人体解析。我们首先在第3.1节介绍了我们框架的整体表达式。三个特征编码器在第3.2节中表示，并且我们提出了一个异构非局部0模块（HNL）来关联第3.3节中的这三个因素。然后，第3.4节解释了提出的HNL与传统非局部网络之间的区别。整体的训练目标在第3.5节中说明。03.1. 表达式0给定大小为M×N的输入图像I∈R3×M×N，我们的任务是预测每个像素的标签并生成一个分割掩码P∈RM×N，利用三种信息：人体部位类别P∈{0,1,...,Q}M×N，语义边界B∈{0,1}M×N和人体关键点位置K={(xi,yi)}Ji=1。J和Q是身体关节和部位类别的数量。(xi,yi)是点i的坐标，属于边界的像素标记为1，否则为0。我们的目标是设计一个统一的框架，同时利用这三个因素，并揭示它们之间的相关性，以更好地利用关键的上下文线索。03.2. 特征编码0人体解析、姿势估计、边缘检测是互补且密切相关的，因此它们的特征可以通过共享的基础模型Θ（例如ResNet101[17]）来学习。基础模型的较低阶段特征保留了高分辨率的结构，并被输入到边界编码器中以捕获物体的边界边界fb。而较高阶段的特征保留了丰富的语义信息，进一步用作解析特征f p和关键点特征fk。解析编码器。我们采用解析流水线首先预测粗分割图。在许多先前的语义分割工作[41,4]中，利用上下文信息是很重要的，人体解析也不例外。给定基础模型Θ的解析特征，我们观察到仅对其进行密集像素级预测会导致错误标记。因此，我们添加了Atrous空间金字塔池化（ASPP）[4]来扩大感受野并获得更多有用的上下文线索。同时，人体解析中的一些对象具有相当低的分辨率，例如太阳镜和袜子，因此在下采样过程中可能会丢失细节。我们使用基础模型Res2的特征，并将ASPP模块的输出上采样到与Res2相同的尺度，并将它们连接为fp。从解析编码器中提取的特征fp获得了粗糙的语义表示，并将进一步输入到异构非局部模块以获得姿势和边缘引导。姿势编码器。为了获得人体结构线索，我们设计了一个姿势编码器来获取关节位置。许多现有的姿势估计方法[37, 29,28]采用复杂的CNN来获得更准确的关键点位置。例如，Hourglass[28]执行重复的下采样和上采样过程以捕获多尺度的关键点信息。与它们不同，我们只部署了两个𝑁 × 𝐶𝑁 × 𝐶𝒇𝒃𝒇𝒑S𝒇𝒑𝟏𝒇𝒑𝟐SSoftmax𝒇𝒉𝑨fh = Wa(fp ⊕ fb ⊕ fk),(1)S = softmax(A · B)(2)fp2 = Wb(S · fp1) + fp,(3)89030卷积卷积0卷积0卷积0卷积 � �0矩阵乘法串联元素求和0图3.异构非局部（HNL）模块的结构。它将解析、边缘和姿势特征聚合成混合特征f h，并计算f h与f p之间的相关性。0转置卷积层[38]用于提取人体关键点结构，因为姿势估计任务也可以从解析任务中获益。因此，共享特征被上采样4倍，生成姿势特征f k。它与解析特征fp具有相同的尺度。在捕获姿势表示fk后，我们从中回归出热图。根据[34]的方法，我们在每个标注关键点坐标上应用以7像素为标准差的二维高斯滤波器，并生成作为姿势编码器监督的地面实况热图。边界编码器。在人体解析任务中，语义边界的模糊性仍然需要解决。两个相邻语义部分的边界像素可能被错误预测，特别是当它们具有相似的外观时。因此，我们提出了一个边界编码器来学习具有边界意识的特征fb。观察到神经网络的较低阶段保持高分辨率，而较高阶段的特征获取了详细的语义信息。如图2所示，我们利用Res2、Res3和Res4的特征，它们保留了大的空间细节和语义一致性。通过线性插值，将特征图上采样到与Res2相同的大小。然后，将它们连接起来，并输入到一个1×1卷积层中生成边界特征图fb。边界编码器通过两个相邻类别之间的边界信息进行监督，并将特征进一步输入到异构非局部相关块中。03.3. 异构非局部0许多现有的研究证明，边缘或姿势对解析任务都是有益的因素。然而，它们采用的融合策略不能充分利用上述两个因素。最近，相关模块被用于通过自注意力[12,18]捕捉长程上下文信息或探索两个特征之间的关系[43]。然而，如果我们按照这种操作，相关计算的成本很高（O（n^2），n是特征图的数量），整体模型很难收敛。因此，我们提出了一种异构非局部（HNL）块，以充分利用边界和姿势提供的上下文线索，我们认为这种方法更加有效和高效。0如图3所示，我们首先通过在通道维度上将这三个因素进行连接来聚合它们，然后通过一个由W_a参数化的卷积层将其转换为混合特征f_h，其维度与f_p的维度相同，f_p ∈ R C× H × W：0其中⊕表示连接操作。我们将标准非局部块中的自注意力替换为混合特征f_h和解析特征f_p之间的相关性。首先，将f_h和f_p输入到两个卷积层中生成两个新特征A和B，然后将它们分别重塑为大小为N×C和C×N的矩阵，其中N =H×W表示每个通道的像素总数。我们通过A和B的矩阵乘积计算关系图S ∈ R N ×N，并通过softmax操作对关系图进行归一化。0其中S中的点（i，j）衡量了混合特征f_h中第i个像素与解析特征f_p中第j个像素之间的关系亲和度。然后，我们将解析特征f_p输入到另一个卷积层中生成f_p1 ∈ R C × H ×W，并将其重塑为R N ×C，然后将其与S相乘，将像素相关性线索整合到解析特征中。得到的特征再经过由W_b参数化的最终卷积层，并与f_p进行逐元素相加，得到最终的解析特征f_p2。整个过程可以表示为：0其中W_b初始化为0。通过这种方式，混合表示有效地将解析、边缘和姿势信息聚合在一起。并且方程3中的经过改进的解析特征f_p2是混合特征和解析特征中每个位置的加权求和。因此，它获得了两个边界部分之间的边缘信息，并保持与人体的语义一致性，从而得到更合理的解析结果。03.4. 讨论0异构非局部块是非局部神经网络[35]的扩展。然而，与传统的只计算一个特征的关系作为自注意力机制的非局部操作不同，所提出的网络具有三个优点。首先，它将人体解析、姿势估计和边缘检测任务整合到一个统一的模型中，并计算三个不同特征表示之间的相关性。其次，与传统的非局部结构相比，HNL不会增加太多的计算复杂性，同时保持了相同的性能。89040非常有竞争力的准确性。最后，对于其他与人体解析相关的任务，有可能将其整合到混合表示中，并通过仅增加一点计算复杂性（由相应的编码器引入）来建模它们之间的关系。03.5. 训练目标0除了解析监督外，还利用人体关键点位置和语义边缘信息来训练整个模型。总的训练目标是：0L = Lp2 + Lp + αLb + βLk，(4)0Lp2或Lp是解析结果fp2或fp与解析注释之间的损失；Lb表示预测的边缘图fb与边缘注释之间的损失；Lk是身体关节预测fk与地面真实坐标之间的损失。值得注意的是，边缘注释是通过找到两个不同语义部分之间的掩码边界来获得的，不需要额外的注释。采用交叉熵损失作为Lp2、Lp和Lb，采用均方误差损失作为Lk。整个框架是端到端训练的。04. 实验04.1. 实验设置0数据集和指标。我们在三个人体解析数据集上评估所提出方法的性能：LIP[15]是一个大规模的基准数据集，专注于人体部位和服装标签的语义理解。它包含16个身体关键点的坐标和20个语义人体部位（包括一个背景标签）的像素级注释。总共有50,462张图像，进一步分为训练/验证/测试集，分别包含30,462/10,000/10,000张图像。ATR[22]包含18个人体部位标签，包括脸、太阳镜、帽子、围巾、头发、上衣、左/右臂、腰带、裤子、左/右腿、裙子、左/右鞋、包、连衣裙和背景。根据[22]，我们使用16,000张图像进行训练，1,000张进行测试，700张进行验证。CIHP[14]提供了38,280张图像，包含20个类别。它包含28,280张训练图像，5,000张验证图像和5,000张测试图像。由于ATR和CIHP中没有人体姿势注释，我们利用在COCO[24]上训练的姿势估计器[38]获取人体关键点位置作为地面真实值。在训练过程中，我们首先利用MaskR-CNN[16]生成每个人的掩码，并将其应用于多人图像上生成单人图像。总共获得93,213张训练图像。在推理过程中，以与训练相同的方式将单个人物从背景中分割出来，并使用提出的网络进行解析，最后将它们合并到原始图像中。0[33] � 特征拼接 ++ [14] � 特征拼接 ++ [29] � 参数互学习 ++[15] � 损失约束 + [37] � 后处理 +0我们的 � � 相关性 +++0表1.不同融合方法的比较。EA表示边缘模糊，BI表示边界不一致。现有方法在解析中使用边缘或姿势来解决单个问题。与它们不同的是，我们聚合了解析、边缘和姿势特征，并探索了它们之间的相关性，显示了在准确性上的优势。0我们报告了在数据集上评估解析性能的准确性、mIoU、精确度、召回率和F-1分数。训练细节。我们从头开始训练CorrPM，共进行150个时期，并采用在ImageNet上预训练的ResNet101[17]作为基础模型Θ。在训练过程中，384×384的输入图像会被随机旋转（从-60°到60°），翻转和调整大小（从0.75到1.25）。fp，fk和fb的大小与C×H×W相同，其中C=512，H=W=96。我们使用SGD作为优化器，学习率初始设置为1e-3。根据之前的工作[44]，我们采用“poly”学习率策略，学习率乘以(1-iter/total iter)的值。0totaliter)的值。我们将动量设置为0.9，权重衰减设置为5e-4。边缘损失权重α和姿势损失权重β分别为2和70。测试阶段。在推理过程中，忽略姿势和边缘分支的输出，使用fp2来预测最终的解析掩码P。推理过程在一台12GB的TITANV上执行，以与其他方法进行公平的速度比较。与直接拼接相比，我们的模型并没有增加太多的复杂性，因为基础模型（ResNet-101）消耗了大部分计算量。CorrPM的速度为11fps，比Attention+SSL [15]（2fps）和MuLA[29]（5fps）更快。04.2. 与相关方法的比较04.2.1 融合策略比较0表1列出了一些利用姿势或边缘信息辅助人体解析任务的现有研究。对于边缘模糊问题，[14]和[33]提取边缘特征并将其与解析特征连接起来，以感知部分边界的有用线索。但是这种融合策略无法充分获得语义边界的完整性。为了解决身体不一致性问题，[29]进行了两个并行的人体姿势估计和人体解析网络，并相互学习参数。然而，训练过程有些复杂。同时，[37]采用FCRF作为后处理的方式，[15]添加了使用姿势信息的联合损失来约束部分分割。上述融合方法只使用单一因素，仅处理单一问题。相比之下，DeepLabV2 [4]82.6651.6441.64Attention [5]83.4354.3942.92Attention+SSL [15]84.3654.9444.73SS-NAN [42]87.5956.0347.92MuLA(Hourglass) [29]88.5060.5049.30JPPNet [21]86.3962.3251.37CE2P [33]87.3763.2053.10DeepLabV2 [4]94.4282.9369.2478.4873.53Attention [5]95.4185.7181.3073.5577.23CoCNN [22]96.0283.5784.5977.6680.14TGPNet [26]96.4587.9183.3680.2281.76PGN [14]ResNet10155.80Parsing R-CNN (R50) [39]ResNet5057.50Graphonomy [13]DeepLabV3+58.58Parsing R-CNN (X101) [39]ResNeXt10159.8089050方法像素准确率平均准确率 mIoU0我们† 87.36 66.37 54.43 我们 87.68 67.21 55.330表2.LIP数据集验证集上不同方法的比较。†表示在公式4中去除Lp。0方法准确率前景准确率精确度召回率 F-1得分0我们 97.12 90.40 89.18 83.93 86.120表3.ATR测试集上准确率、前景准确率、精确度、召回率和F-1得分的比较0我们的CorrPM将解析与姿势和边缘信息相结合，实验还表明，探索这三个因素之间的相关性是一种优越的特征融合策略，优于其他最近的方法。04.2.2 单人数据集上的性能0LIP。我们在LIP验证集上展示了所提出模型与其他方法的性能比较。如表2所示，所提出的CorrPM在mIoU方面取得了55.33%的最佳性能，明显优于其他方法。具体而言，JPPNet和MuLA将姿势监督作为人体解析的约束条件。CE2P添加了边缘信息来改进解析结果。他们的实验结果表明，姿势和边缘线索有助于获得更好的性能。然而，姿势或边缘信息并未充分利用。通过探索这三个因素之间的相关性，HNL使CE2P的mIoU提高了2.23%，MuLA的mIoU提高了6.03%。即使去除损失Lp，54.43%的mIoU也高于其他方法，这表明解析编码器的直接监督是必要的，我们的框架有效地利用了姿势和边缘特征来辅助人体解析。此外，我们网络中的姿势编码器仅由两个反卷积层组成，比MuLA[29]采用的hourglass简单得多。因此，如果使用更强大的网络，性能可能会更高。ATR。表3报告了在ATR上与四种最新方法的结果和比较。所提出的方法在每个指标上都取得了显著的性能提升。特别是，我们的模型在F-1得分上提高了4.36%。这个增加证实了姿势和边缘因素对解析的有效性，而相关模块具有将姿势和边缘信息与解析特征结合的强大能力。尽管F-1得分在0方法骨干网络 mIoU0我们的ResNet101 60.180表4. 在CIHP验证集上的性能比较。0[13]的mIoU比我们的高，它采用了更复杂的骨干网络DeepLabV3+，比ResNet101更复杂，并且输入尺寸512×512比我们的384×384更大。在从姿势估计器[38]的输出中获得人体关节标签的基础上，这说明了所提出的系统具有灵活性，并且在没有额外姿势注释成本的情况下具有低复杂性可部署。04.2.3 多人数据集上的性能0CIHP。在CIHP数据集上，我们将实验结果与其他方法进行了比较，结果显示我们的模型在mIoU方面取得了60.18的成绩。之前的工作[14]通过同时进行人体解析和边缘检测获得了55.80%的mIoU。Parsing R-CNN[39]使用ResNet50进行训练，图像大小为512×864，其mIoU为57.50%。即使将骨干网络更换为ResNeXt101，我们的性能仍比ParsingR-CNN高出0.38%的mIoU。与使用图卷积模型和采用强大的骨干网络DeepLabV3+ [6]的Graphonomy[13]相比，我们的结果高出1.6%的mIoU。这表明我们的解析方法在姿势和边缘的辅助下具有优势，并且将解析与姿势和边缘相关联可以引入上下文线索到人体解析任务中。04.3. 每个组件的评估0我们在表格6中分析了模型的参数敏感性，并在表格5中验证了每个组件的效果。不同分支的损失权重对模型非常重要。在表格6中，我们测试了四个α值{0, 1, 2, 10}和六个β值{0, 1,10, 50, 70, 80}。α = 0或β =0表示基准模型，即从我们的模型中移除边缘分支或姿势分支。观察到将边缘或姿势信息添加到解析网络中会显著提升基准模型的性能。当α = 2且β =70时，模型达到最高的mIoU，我们选择这个作为最终的损失权重。姿势和边缘线索的效果。首先，我们训练了一个只包含解析分支的基准模型P。在表格5中，没有来自姿势和边缘特征的上下文线索，基准模型的mIoU为48.67%。然后，我们向基准模型添加了一个边缘/姿势分支，并将解析与边缘/姿势特征连接起来进行预测，分别表示为P+B和P+K。与基准模型相比，这两个模型的性能都有显著提升。0110507080048.7252.0852.7753.1053.9853.59150.9851.1552.0351.5453.7853.13253.0853.5254.0854.0155.3354.451053.1253.4653.5753.2453.4553.5389060方法帽子头发手套眼镜上衣裙子袜子裤子连衣裙大衣袜子裤子围巾裙子脸左臂右臂左腿右腿左鞋右鞋背景平均0注意力[5] 58.87 66.78 23.32 19.48 63.20 29.63 49.70 35.23 66.04 24.73 12.84 20.41 70.58 50.17 54.03 38.35 37.70 26.20 27.09 84.00 42.92 DeepLabV2 [4] 56.48 65.33 29.9819.67 62.44 30.33 51.03 40.51 69.00 22.38 11.29 20.56 70.11 49.25 52.88 42.37 35.78 33.81 32.89 84.53 44.03 MMAN [27] 57.66 65.63 30.07 20.02 64.15 28.39 51.98 41.4671.03 23.61 9.65 23.20 69.54 55.30 58.13 51.90 52.17 38.58 39.05 84.75 46.81 SS-NAN [42] 63.86 70.12 30.63 23.92 70.27 33.51 56.75 40.18 72.19 27.68 16.98 26.41 75.3355.24 58.93 44.01 41.87 29.15 32.64 88.67 47.92 JPPNet [21] 63.55 70.20 36.16 23.48 68.15 31.42 55.65 44.56 72.19 28.39 18.76 25.14 73.36 61.97 63.88 58.21 57.99 44.0244.09 86.26 51.37 CE2P [33] 65.29 72.54 39.09 32.73 69.46 32.52 56.28 49.67 74.11 27.23 14.19 22.51 75.50 65.14 66.59 60.10 58.59 46.63 46.12 87.67 53.100P 63.61 69.18 36.25 27.68 67.23 31.80 53.69 43.45 71.75 28.76 14.33 24.39 72.33 57.76 60.74 47.80 47.38 34.18 34.90 86.22 48.67 PP 62.60 68.47 35.78 27.36 65.16 27.78 51.5041.60 70.42 29.60 17.11 21.50 71.69 59.46 62.11 50.80 50.75 37.76 40.03 85.69 48.86 P+B 65.11 70.71 38.38 30.04 68.65 32.60 55.13 46.31 73.37 31.94 17.51 28.36 73.51 60.6863.52 51.50 51.37 39.75 39.78 87.09 51.27 P+K 64.30 70.24 39.10 28.85 68.03 33.10 55.16 46.74 72.99 27.57 16.59 28.44 73.03 60.60 63.34 51.22 51.42 38.68 39.40 86.90 50.79P+B+K 65.01 71.13 40.30 29.14 69.47 33.91 55.78 47.82 73.85 31.98 18.81 28.94 74.12 61.93 63.95 52.35 51.99 40.19 40.81 87.23 51.93 PB 65.43 71.77 40.69 26.00 69.32 32.8256.33 46.61 74.52 30.87 23.46 27.51 74.28 64.23 66.68 57.64 56.72 44.80 44.80 87.77 53.11 PK 66.16 72.06 40.52 31.15 69.74 33.97 56.81 49.22 74.74 32.56 20.19 27.81 74.7865.48 67.45 59.48 58.41 45.41 45.95 87.72 53.98 PBB 66.14 72.42 41.04 27.81 70.12 34.91 57.01 47.21 75.03 31.38 22.99 28.21 74.39 64.92 67.58 58.33 57.64 45.51 46.10 87.4653.82 PKK 66.15 72.26 40.78 31.34 69.94 34.02 57.40 49.41 74.91 32.19 21.77 28.11 74.98 65.38 67.55 59.66 58.62 45.58 46.01 87.32 54.17 我们的（CorrPM） 66.20 71.56 41.0631.09 70.20 37.74 57.95 48.40 75.19 32.37 23.79 29.23 74.36 66.53 68.61 62.80 62.81 49.03 49.82 87.77 55.330表5.在LIP验证集上的每类IoU比较。P：仅解析特征；PP：对解析特征进行自相关；P+B/P+K：将解析特征与边缘/姿势特征串联；P+B+K：将解析特征、边缘和姿势特征串联；PB/PK：将解析特征与边缘/姿势特征相关；PBB/PKK：将解析特征与两个边缘/姿势特征相关。CorrPM优于现有方法，达到55.33%的mIoU。0α β0表6. 在LIP数据集上讨论方程4中α和β值的参数。0P，简单的串联分别提高了2.6%和2.12%的mIoU。特别是在融合边缘和解析特征之后，通常相邻且外观相似的一些类别（例如上衣和裤子）的性能提高了近1.5%的mIoU。这些结果证明了边缘和姿势因素对解析任务的有效性。模型P+B+K表示将边缘和姿势特征与解析特征串联起来。与P+B相比，它仅提高了0.66%的mIoU，这表明即使姿势和边缘因素对于解析是必要的，但将所有三个因素串联起来并不是充分利用上下文线索的理想方法。自相关的效果。为了研究非局部操作的效果，我们在基线模型的末尾添加了一个传统的非局部自注意模块，表示为PP。从表5可以看出，在计算解析特征本身内部的关系时，改进很小（0.09%的mIoU），并且一些类别的性能下降，如帽子、连衣裙和上衣。这表明仅仅利用解析特征的自相关是不够的，我们需要来自姿势和边缘的更多关键因素来提高解析性能。解析、边缘和姿势之间的相关性的效果。我们进行了两个异构的非局部相关实验，一个是解析和边缘因素之间的相关性，表示为PB，另一个是解析和姿势因素之间的相关性，表示为PK，以验证相关模块对解析任务的好处。如果利用所提出的异构0非局部模块，使得基线模型P的mIoU提高了4.44%和5.31%。与P+B和P+K相比，相关模块带来了1.84%和3.19%的mIoU增益。即使只使用姿势或边缘特征，结果也比三个特征的串联P+B+K高出1.18%的mIoU。还观察到与人体关节密切相关的一些类别在mIoU方面有了显著的改进，提高了约10%。这表明我们的HNL能够充分利用边缘和姿势信息准确地定位语义边界并保持身体部位的几何形状。多任务整合的效果。聚合来自多个任务的特征图将增加通道数，以与解析特征进行融合。因此，进行实验研究其有效性。在表5中，PBB（PKK）演示了在HNL中沿通道维度融合两个边缘（姿势）特征图与解析特征的结果。PBB/PKK与CorrPM具有相同的通道数，但mIoU比它低1%以上。这表明改进来自于多任务的整合，而不是通道数的增加。04.4. 定性结果0姿势和边缘的两个问题的解决方案。如第1节所述，人体解析任务存在两个问题：相邻部分之间的边界定位不准确和分割类别的语义不一致性。图4展示了几个图像和子关系图，以展示所提出的HNL从姿势和边缘信息中学习到的好处。第3.3节中提到的关系图S的大小为HW×HW。因此，对于图像中的某个位置（在图4中标记为红点），其相应的子关系图的大小为H×W。如图4左半部分所示，右臂中的一些像素被错误地预测为左臂，而该区域没有语义边界。在第二行中，89070不同融合方法的可视化结果. 这些图像展示了边缘/姿势信息对解析任务的好处. 符号的含义与表5相同.0图5. 在LIP数据集上不同方法的可视化结果.提出的CorrPM获得了更平滑的边缘预测和更合理的身体结构结果.0外套和鸟的外观相似，因此基线模型无法区分它们.在将边缘与解析特征连接后，错误像素的数量减少，但边界仍不清晰. 当利用相关模块时，所有语义边缘都被正确预测.因此，将边缘与解析因子相关联可以解决不准确的边界定位问题.从图4的右侧部分可以看出，在下采样过程中，鞋子区域丢失了很多细节，因此没有被正确分类.将姿势与解析特征连接后，模型可以缓解这个问题.在与解析特征相关联之后，模型可以正确地分割鞋子类别，因此，将姿势与解析因子相关联可以解决语义不一致的问题.0与先前方法的比较. 我们在图5中展示了与DeepLabV2[4]、MMAN [27]相比的质量结果.我们的模型优于其他方法并0预测更加精确.例如，在第一行中，其他方法中缺少了人的头部和右臂，而我们的模型在背景复杂的情况下正确预测了它们.此外，借助边缘信息，我们的框架成功地定位了第二行中衣服和腿部的语义边界，并保持了上衣类别之间的语义一致性.我们还观察到从第三行中，通过添加姿势信息，模型可以学习到人体的全局结构，并准确识别出左右鞋子，而不是腿部.因此，提出的HNL有效地利用了边缘、姿势和解析特征之间的关系，并在人体解析任务上输出了更合理和更精确的结果.05. 结论0在本文中，我们提出了一种相关解析机器（CorrPM），以利用语义边缘和人体关键点特征.针对人体解析任务中的两个问题，我们的方法利用语义边缘来区分相邻类别的边界，并利用人体关键点来强制分割类别与身体部位一致.借助异构非局部（HNL）模块，所提出的模型探索了边缘、姿势和解析因子之间的关系，并为人体解析任务提供了上下文线索. 整个模型是可端到端学习的.在三个基准测试上的实验证明了所提出方法的有效性.此外，所提出的系统灵活且易于部署，即使没有姿势注释也可以使用.0致谢.本工作部分得到北京市重大科技项目的支持，合同号为Z191100010618003，以及中国国家重点研发计划的支持，合同号为2016YFB0402001.我们感谢金山云提供的有益讨论和免费GPU云计算资源支持.我们还感谢澳大利亚政府资助的澳大利亚研究理事会发现早期职业奖（DE200101283）的获得者Liang Zheng博士.89080参考文献0[1] Vijay Badrina

下载后可阅读完整内容，剩余1页未读，立即下载