通过图迁移学习的通用人类解析

81 浏览量更新于2023-10-19 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1Graphonomy：通过图迁移学习的通用人类解析龚克1，2 <$，高一鸣1 <$，梁晓丹1，沈晓辉3，王梦4，林亮1，21中山大学2DarkMatter AI研究3字节跳动AI实验室4合肥工业大学kegong936@gmail.com，www.example.com，gaoym9@mail2.sysu.edu.cn，xdliang328@gmail.comshenxiaohui@gmail.com，wangmeng@hfut.edu.cn，linliang@ieee.org摘要现有的高度调整的人工句法分析模型往往适合于特定领域中的每个数据集或具有不一致的标签粒度，并且在没有大量重新训练的情况下几乎不能适应其他的人工句法分析任务。在本文中，我们的目标是学习一个单一的通用人类解析模型，可以解决各种人类解析需求通过统一来自不同域或在各种粒度级别的标签注释。这就提出了许多基本的学习挑战，例如：在不同的标签粒度中发现潜在的语义结构，在不同的图像域中执行适当的迁移学习，以及在相关任务中识别和利用标签冗余。为了解决这些问题，我们提出了一种新的通用人工句法分析代理“Graphonomy”，它在传统句法分析网络的基础上结合层次图迁移学习，对底层标签语义结构进行编码，特别是，Graphonomy首先通过图内推理在一个数据集内的标签之间学习和传播紧凑的高级图表示各种图转移依赖性（例如，相似性、语言学知识）进行分析和编码，以增强图形传输能力。通过将通用语义图表示提取到每个特定任务，Graphon- omy能够在一个系统中预测所有级别的解析标签实验结果表明，Graphonomy在三个人工句法分析基准上均取得了较好的结果，并具有较好的通用人工句法分析性能。1. 介绍人类的视觉系统能够在每一个单一的一瞥上完成整体的人类理解，†同等贡献。* 通讯作者。图1.由于语义标签粒度和数量的巨大差异，人工解析被隔离为多个级别的任务，这阻碍了模型生成能力和数据注释的利用。例如，一个数据集上的头部区域被进一步注释到另一个数据集上的几个细粒度概念中，如帽子、头发和脸。然而，不同的语义部分仍然有一些内在的和层次的关系（例如，头包括脸。Face紧挨着hair），可以将其编码为图内和图间连接，以实现更好的信息传播。为了缓解标签差异问题并充分利用它们的语义相关性，我们引入了一个通用的人类句法分析代理，命名为子图像，例如，将人与背景分离、理解姿势以及识别人穿的衣服尽管如此，最近关于人类理解的研究工作已经致力于为每个单独的应用开发许多高度特异性和独特的模型，例如。前景人体分割任务[8，15]、粗衣服分割任务[25，28]和细粒度人体部位/衣服解析任务[14，39]。尽管有共同的潜在人类结构和共同的内在自我，7450头低- 武器低- 腿上- 腿躯干上- 武器头躯干图内连接图间连接帽子面部毛发上-衣服左-臂对了-腿头发对了-鞋裤子脸上衣服裤子左-鞋帽子对了-臂左-腿帽T-衬衫…毛衣…马球衫毛衣外套衬衫头盔头饰单线态夹克…7451智能信息（例如，上衣可以解释为外套或衬衫），这些高度调整的网络通过仅适合每个数据集域和不一致的标签粒度而牺牲了泛化能力。很难将在一个数据集上训练的模型直接适应另一个相关任务，因此需要冗余的繁重数据注释和大量计算来训练每个特定模型。为了解决这些现实的挑战，并避免训练相关任务的冗余模型，我们第一次尝试研究一个通用的人类解析代理，该代理在不同的粗粒度到细粒度级别上处理人类解析任务1.一、通用人类解析的最直接的解决方案是将其视为多任务学习问题，并将多个分割分支集成到一个共享的骨干网络上[2，14，22，25，28]。这一研究路线只考虑了暴力特征级的信息共享，而忽略了底层的共同语义知识，如标签层次结构，标签视觉相似性，以及语言/上下文相关性。最近，一些技术被探索来通过诉诸复杂的图形模型来捕获人体结构信息（例如，条件随机场（CRF））[2]，自我监督损失[14]或人类姿势先验[9，12，23]。然而，他们没有明确地对不同身体部位和服装配件的语义相关性进行建模，并且对于罕见的细粒度标签仍然显示出不令人满意的结果设计通用人类解析代理的一个关键因素是在不同的人类解析任务之间进行适当的迁移学习和知识集成，因为不同数据集之间的标签差异[6，13，14，39]在很大程度上阻碍了直接的数据和模型统一。在本文中，我们通过显式地将人类知识和标签分类法结合到超越局部卷积的中间我们的Graphonomy通过图迁移学习来学习多个领域中的全局和公共语义一致性，以解决多层次的人类解析任务，并使它们相互受益。利用几何深度学习[19，20]，我们的Graphonomy简单地集成了两个用于图迁移学习的合作模块。首先，我们引入图内推理来逐步细化同一图结构中的图表示，其中每个图节点负责分割出数据集中一个语义部分的区域。具体来说，我们首先将提取的图像特征投影到一个图中，其中具有相似特征的像素被分配到相同的语义顶点。我们精心设计了邻接矩阵来对语义关系进行编码，以人体结构的连接为约束，如图所示。3.在通过图卷积进行消息传播之后，更新的顶点被重新投影以使视觉特征图对于像素级分类更有此外，我们建立了一个图间传输模块，专注地提取相关的语义从一个域/任务的图为了增强图的传递能力，我们首先利用不同数据集之间的各种图传递依赖关系。我们通过计算两个语义顶点的特征相似度以及用语言知识封装的语义相似度来对来自不同图的两个语义顶点之间的关系进行我们对三个包含不同语义的身体部位和衣服的人类句法分析基准进行了实验实验结果表明，通过图内推理和图间传输实现信息的无缝传播，我们的Graphonomy能够关联和提取由不同数据集构建的高级语义图表示，有效地提高了多层次的人类句法分析任务.我们的贡献概括在以下几个方面。1)我们首次尝试使用一个通用的模型来处理所有级别的人类解析任务特别地，我们引入了Graphonomy，一种新的通用人类解析代理，它在传统的解析网络上引入了分层图迁移学习，以预测一个系统中的所有标签，而不会增加复杂性。2）我们探索了各种图传递依赖关系，以丰富图传递能力，这使得我们的Graphonomy能够提取通用语义图表示，并增强每个标签图的个性化表示。3)我们证明了Graphonomy在通用人类解析上的有效性，表明它在三个人类解析数据集上达到了最先进的结果。2. 相关工作人类解析。人类解析最近吸引了随着深度卷积神经网络和大规模数据集的发展，引起了大量的兴趣，并取得了很大的进展。大多数先前的工作都集中在开发新的结构和辅助信息指导，以改进一般特征表示，例如扩张卷积[2，38]，LSTM结构[24，26，27]，编码器-解码器架构[3]和人体姿势约束[12，23，36]。虽然这些方法在每个人类解析数据集上都显示出了良好的结果，但它们直接使用一个平面预测层来分类所有标签，这忽视了概念之间的内在语义相关性，并且以低效的方式利用注释。此外，经过训练的模型在没有大量微调的情况下无法直接应用于另一个相关任务。在本文中，我们通过图迁移学习研究通用人类解析7452其中，每个图编码分类中的一组概念，并且从不同数据集构造的所有图都按照传输依赖性连接，以实施语义特征传播。多任务学习。为了开发能够为输入同时提供多个输出的系统，多任务学习已经取得了很大的进展[8，10，13，23，36，37]。例如，Gong等人[13]共同以端到端的方式优化语义部分分割和实例感知边缘检测，并使这两个相关任务互惠互利。Xiao等[37]介绍了一种多任务网络和训练策略来处理用于统一感知场景解析的异构注释。然而，这些方法只是为不同的任务分别创建几个分支，而没有探索相关任务之间的显式关系。与现有的多任务学习流水线相比，本文通过图迁移学习对不同标签集之间的关系进行建模，并提取出一个统一的结构，用于通用的人类句法分析。知识引导的图形推理。最近，许多研究工作将领域知识建模为用于挖掘图像中的标签或对象之间的相关性的图，这在许多任务中已被证明是有效的[5，19，20，29、35]。例如，Chenet al.[5]利用基于局部区域的推理和全局推理来促进对象检测。Liang等人[29]通过结合语义概念层次结构来显式地构造语义神经元图网络。另一方面，有一些关系的顺序推理模型[4，21]。在这些工作中，通常考虑固定图，而我们的Graphonomy从外部知识嵌入到图表示转移做了进一步的努力。迁移学习。我们的方法也与迁移学习有关[32]，它将不同的领域或任务连接起来，以减轻手动标记的负担LSDA [17]通过域自适应程序将整个图像分类参数转换为Hu等人[18]考虑将从边界框检测学到的知识转移到实例分割。我们的方法转移高层次的图形表示，以减少不同的数据集之间的标签差异。3. 字形学为了统一来自不同资源的各种标注，并在一个系统中处理不同层次的人类句法分析需求，我们的目标是在传统的句法分析网络上显式地引入语义图迁移学习图2给出了我们提出的框架的概述。我们的方法可以嵌入到任何现代人类解析系统，通过增强其起源，通过图迁移学习来实现最终图像特征首先通过图内推理在一个数据集内学习和传播紧凑的高级语义图表示，然后通过显式层次语义标签结构驱动的图间传输在多个数据集之间传输和融合语义信息3.1. 图内推理给定来自卷积层的局部特征张量，我们引入图内推理来增强局部特征，通过利用全局图推理与外部结构化知识。为了构建图，我们首先将提取的图像特征汇总为图节点的高级与特定语义部分相关的视觉特征（例如，面）被聚集以描述其对应图节点的特性。首先，我们定义了一个无向图G=（V，E），其中V表示顶点，E表示边，N为|V|.形式上，我们使用特征映射X∈RH×W×C作为模块输入，其中H、W和C为特征图的高度、宽度和通道号我们首先生成所有N个顶点的高级图表示Z∈RN×D，其中D是每个v∈V所需的特征维数，节点数N通常对应于数据集的目标部分标签数因此，在本发明中，投影可以用公式表示为函数φ：Z=φ（X，W），（1）其中W是用于将每个图像特征xi∈X转换为维度D的可训练变换矩阵。基于高级图特征Z，我们利用se-从人体结构知识中提取智能约束，通过图推理进化出全局表示。我们引入人体各部分之间的连接来编码两个节点之间的关系，如图3所示。例如，头发通常与面部一起显示，因此这两个节点是链接的。而hat节点和leg节点是断开连接的，因为它们没有任何关联。在图卷积[19]之后，我们使用矩阵乘法在所有部分节点的表示Z上执行图传播，从而得到演化特征Ze：Ze=σ（Ae ZWe），（2）其中We∈RD×D是可训练的权重矩阵，σ是非线性函数。根据（v，v′）∈E中的边连接定义节点邻接权av→v ′∈ Ae，它是一个规范化的对称邻接矩阵. 为了满足-为了有效地传播全局信息，我们多次使用这种图卷积（实践中为3次）。最后，演化的全局上下文可以用来进一步提高图像表示的能力类似7453再投影再投影…深ConvNets投影再投影…图卷积两个之间的连接数据集中的语义节点等级关系跨不同数据集图内推理图间转移图2.图示我们的Graphonomy，通过图迁移学习来解决通用的人类解析，以实现多层次的人类解析任务和更好的注释利用率。将深度卷积网络提取的图像特征投影到具有根据主体结构定义的语义节点和边的高级图表示。全局信息通过图内推理传播并重新投影，以增强视觉特征的可区分性此外，我们通过层次标签相关性驱动的图间转移来转移和融合在训练过程中，我们的Graphonomy利用了具有不同粒度的注释数据。对于推理，我们的通用人类解析代理生成不同级别的人类解析结果，以任意图像作为输入。濨瀃瀃濸瀅激濴瀅瀀瀆濄澵濇澷澵激澡濄濙濦濧濣濢澡濄濕濦濨濛濸濴濷濟瀂瀊濸瀅激濴瀅瀀瀆濥濼濺濻瀇激濴瀅瀀濧瀂瀅瀆瀂濨瀃瀃濸瀅激濿濸濺瀆濥濼濺濻瀇激濿濸濺濟瀂瀊濸瀅激濿濸濺瀆濥濼濺濻瀇激瀆濻瀂濸濙濴濶濸澵濈濆濛濴濼瀅濨瀃瀃濸瀅激濶濿瀂瀇濻濸瀆濟濸濹瀇激濴瀅瀀濦濾濼瀅瀇濟濸濹瀇激濿濸濺濟濸濹瀇激瀆濻瀂濸努力探索不同标签集之间的各种图形传递此外，考虑到不同语义标签之间的复杂关系很难从有限的训练数据中捕获我们将这些不同类型的关系编码到网络中，以增强图传输能力。设Gs=（Vs，Es）表示源图，Gt=图3.每两个人体部位，这是对图中两个语义节点之间的关系进行编码以进行推理的基础。如果两个节点通过白线连接，则它们被定义为相关。投影操作（Eq. 1），我们再次使用另一个变换矩阵来将图节点重新投影到图像特征。我们应用残差连接[16]来进一步增强原始特征图X的视觉表示。图像特征的更新是通过图中每个节点的加权映射来实现的，这些节点代表了语义部分的不同特征。3.2. 图间传输为了将相关语义从一个源图提取到另一个目标图，我们引入了Inter-Graph Transfer来桥接来自不同数据集的所有语义标签。虽然不同层次的人类句法分析任务具有不同的不同部分标签，但它们之间存在显式例如，数据集中的躯干标签包括另一数据集中的上衣和裤子，并且上衣标签可以由更细粒度的类别组成（例如，外套，T恤和毛衣）在第三个数据集，如图所示1.一、我们（Vt，Et）表示目标图，其中Gs和Gt可以具有不同的结构和特征。我们可以将一个图表示为矩阵Z∈RN× D，其中N=|V|并且D是每个顶点v∈V的维数。图Transformer可以配制为：Zt=Zt+σ（Atr Zs Wtr），（3）其中Atr∈RNt×Ns是用于将图形表示从Zs映射到Zt的转移矩阵。 Wtr∈RDs×Dt是一个可训练的权矩阵。我们寻求找到更好的图转移依赖性Atr=ai，j，i=[1，Nt]，j=[1，Ns]，其中ai，j表示来自第j个语义节点的转移权重将源图的第i个语义节点映射到目标图的第i个我们考虑和比较四个方案的传输矩阵。手工关系。考虑到两个语义部分之间的内在联系，我们首先定义关系矩阵为硬权重，即，{0，1}。当两个节点具有从属关系时，为1，否则为0。例如，头发是头部的一部分，因此目标图的头发节点和源图的头部节点之间的边值为1。可学习矩阵。通过这种方式，我们随机初始化7454- 传递矩阵Atr，其可以在训练期间用整个网络学习特征相似性。还可以通过计算源图节点和目标图节点之间的相似度来动态地建立传递矩阵，源图节点和目标图节点已经编码了高级语义信息。转移权重ai，j可以计算为：exp（sim（vs，vt））使用图迁移学习和联合训练策略，我们可以动态地添加和修剪用于不同目的的语义标签（例如，添加更多数据集），同时保持网络结构和先前学习的参数。4. 实验在本节中，我们首先介绍实现细节和相关数据集。然后，我们报告定量比较-ai，j=Σi j ，（4）用几种最先进的方法来制作。此外，委员会认为，exp（sim（vs，vt））j i j其中sim（x，y）是x和y之间的余弦相似度。vs是第i个目标节点的特征，vt是目标节点的特征我们进行消融研究，以验证我们的Graphonomy的每个主要组成部分的有效性，并提出了一些定性的结果，知觉比较。我第j个源节点。J4.1. 实验设置语义相似性。除了视觉信息，我们进一步探索语言知识，转移矩阵我们使用word2vec模型[34]将标签的语义词映射到词嵌入向量。然后，我们计算源图Vs的节点与目标图Vt的节点之间的相似度，其可以公式化为：exp（sij）我们使用DeepLab v3+提供的基本结构和网络设置[3]。在[3]之后，我们使用在COCO [31]上预训练的Xception [7]作为我们的网络骨干，输出步幅= 16。图中节点的数目根据数据集的类别数目来设置，即，Pascal-Person-Part数据集N= 7，ATR数据集N= 18，CIHP数据集N= 20。每个seman的特征尺寸Dai，j=ΣJ exp（sij、（五））节点是128。图内推理模块具有三个图形卷积层，具有ReLU激活功能。其中Sij表示单词em之间的余弦相似度第i个目标节点和第j个源节点的床向量利用定义良好的转移矩阵，目标图特征和源图知识可以通过图推理再次组合和传播，与等式2相同3.第三章。此外，转移的方向是灵活的，即，两个图可以从彼此联合转移。因此，不同标签集的层次信息可以通过图内推理和图间传输的合作来关联和传播，这使得整个网络能够生成更具区分性的特征以执行细粒度的逐像素分类。3.3. 通用人类解析如图2，除了通过利用从其他图传递的信息来提高一个模型的性能之外，我们的Graphonomy还可以自然地用于训练通用的人类解析任务，用于组合不同的解析数据集。由于不同的数据集有很大的标签差异，以前的解析工作必须为每个数据集调整高度特定的模型，或者使用几个独立的分支执行多任务相比之下，通过提出的图内推理和图间传输，我们的图学能够以端到端的方式减轻标签差异并稳定联合训练期间的参数优化。我们的Graphonomy的另一个优点是能够以在线方式扩展模型容量。受益于对于图间转移，我们使用源数据集上的预训练模型，并随机初始化目标图的权重然后，我们在目标数据集上对整个网络进行端到端的联合训练。在训练过程中，512x512输入随机重新调整大小在0.5和2 之间，裁剪和翻转的图像。初始学习率为0.007。在[3]之后，我们采用了“策略”学习率策略。我们采用SGD optimomentum= 0。9，重量衰减为5e−4。为了稳定的预测，我们执行推断的平均-左右翻转图像和多尺度输入的老化结果，尺度从0.50到1.75，增量为0.25。我们的方法是通过扩展Pytorch框架[33]来实现的，我们复制了DeepLab v3+[3]，遵循其论文中的所有设置。所有网络都在四个TITAN XPGPU上训练。由于GPU内存的限制，批量大小设置为12。对于每个数据集，我们在相同的设置下训练所有模型100个epoch，以获得良好的收敛性。为了稳定推理，每个输入的分辨率与原始图像一致。代码和模型可以在https：//github上找到。com/Gaoyiminggithub/Graphonomy.数据集和评估指标我们在三个具有不同标签定义和注释的人类解析数据集上评估了我们的Graphonomy的性能，包括PASCAL-Person-Part 数据集 [6] ， ATR 数据集 [28] 和Crowd Instance-Level Human Parsing（CIHP）数据集[13]。其中的部分标签是层次相关的，标签粒度由粗到细。参照7455方法平均IoU（%）LIP [14] 59.36结构演化LSTM [24] 63.57DeepLab v2 [2] 64.94Li等[22] 66.3Fang等人[12] 67.60PGN [13] 68.4[30]第30话Bilinski等人[1] 68.6DeepLab v3+[3] 67.84多任务学习68.13图形学（CIHP）71.14Graphonomy（通用人类解析）69.12表1.在PASCAL-Person-Part数据集上比较人类解析性能与几种最先进的方法[6]。知识和标签分类转化为中间图表示，然后由层次标签关联驱动全局信息的传播和更新。ATR数据集[28]旨在用18个标签预测每个像素：脸部、太阳镜、帽子、围巾、头发、上衣、左臂、右臂、腰带、裤子、左腿、右腿、裙子、左脚鞋、右脚鞋、包和衣服。数据集中总共包含17，700张图像，其中16，000张用于训练，1，000张用于测试，700张用于验证。我们在表2中报告了ATR数据集上的人类解析结果，并与最先进的方法进行了比较。“Graphonomy(PASCAL)” denotes the method that trans- fer一些先前的作品[24，26，27]使用LSTM架构来改进证明性能。相反，我们使用图结构-方法总体准确度（%）F-1评分（%）[27]第二十七话97.6686.94图LSTM [26]98.1489.75结构演化LSTM [24]98.3090.85DeepLab v3+[3]97.3084.50多任务学习97.4090.16图形学（PASCAL）98.3290.89Graphonomy（Universal HumanParsing）97.6990.16表2.ATR数据集上的人类解析结果[28]。真正传播和更新高级信息。实验结果表明，该方法具有较强的学习和增强特征表示的能力。CIHP数据集[13]是人类解析任务的一个新的大规模基准，包括38，280个像素的图像，智能标注19个语义部分标签。图像被从真实世界的场景中收集，包含以具有挑战性的姿势和观点出现的人，严重的遮挡，以及在宽范围的分辨率中。在基准测试之后，我们使用了28，280张图像进行训练，5，000张im-表3.与CIHP数据集上最先进方法的性能比较[13]。对于他们的数据集论文，我们使用了包括准确性、标准交并（IoU）标准和平均F-1分数在内的评价指标。4.2. 与最新技术水平的比较PASCAL-Person-Part数据集[6]是PASCAL-VOC-2010[11]的一组附加注释。它超越了原来的PASCAL对象检测任务，提供了六个人体部位，即，头，躯干，上臂，下臂，大腿，小腿。数据集中有3，535张带注释的图像，分为包含1，717张图像的单独训练集和包含1，818张图像的测试集。我们在表1中报告了与最先进方法一些以前的方法实现了超过68%的平均IoU的高性能，这要归功于雨刷或更深的架构[1，30]和多任务学习[13]。虽然我们的基本网络（DeepLab v3+[3]）不是最好的，但我们的图转移学习（graph transfer learning）提高了性能，它明确地将人类用于验证的年龄和用于测试的5，000个图像。在CIHP数据集上评估的人类解析结果报告于表3中。以前的工作[13]通过使用多任务学习，在这个具有挑战性的数据集中实现了55%的平均IoU的我们提出的PASCAL语法将结果提高了58.58%，这表明了它的优越性和充分利用语义信息来提高人类句法分析性能的能力4.3. 通用人类解析为了充分利用人类句法分析资源，统一不同领域、不同粒度的标注，我们训练了一个通用的人类句法分析模型，以统一不同资源的标注，解决不同层次的人类句法分析问题，我们称之为我们结合了来自三个数据集的所有训练样本，并从同一数据集中选择图像，在每一步构建一个批次。如表1，2，3所示，我们的方法在所有数据集上都取得了良好的性能。我们还将我们的Graphonomy与多任务学习方法进行了比较，该方法通过在主干上附加三个并行分支，每个分支分别预测一个数据集的标签优于多任务学习，我们的Graphonomy能够提取通用语义图表示，并增强每个标签图的个性化表示。方法平均准确度（%）平均IoU（%）PGN [13]64.2255.80DeepLab v3+[3]65.0657.13多任务学习65.2757.35图形学（PASCAL）66.6558.58Graphonomy（Universal HumanParsing）65.7357.787456#基本网络[3]邻接矩阵Ae图内推理关于CIHP的图间转移平均IoU（%）手工艺关系可学习矩阵特征相似度语义相似度1J-------67.842J-J-----67.893JJJ-----68.344J--J----70.335JJJJ----70.476JJJJJ---70.227JJJJ-J--70.948JJJJ--J-71.059JJJJ---J70.9510JJJJ--JJ71.1411JJJJ-JJJ70.8712JJJJJJJJ70.69表4.PASCAL-Person-Part数据集上的消融实验[6]。部分数据集[6]。图内推理。如表4所示，通过对人体结构信息进行编码以增强语义图表示和传播，我们的帧内表5.在PASCAL-Person-Part数据集[6]上训练不同数量的数据时，我们的Graphonomy的评估结果，以平均IoU（%）表示。图4.由我们的通用人工解析代理Graphonomy生成的不同级别的人工解析结果的示例。我们还提出了定性的通用人类解析结果在Fig. 4.我们的Graphonomy能够通过提取每个特定任务的通用语义图表示来为不同级别的人类解析任务生成精确和细粒度的结果，这进一步验证了我们的Graphonomy的合理性，该假设基于在深度卷积网络上结合分层图迁移学习可以捕获跨数据集的关键信息，以实现良好的性能。单一的人工解析。4.4. 消融研究我们进一步讨论并验证了我们的PASCAL-Person上的Graphonomy的主要组件与基本网络相比，图推理获得了0.50%的改进（#1 vs#3）。为了验证邻接矩阵A e的重要性，该邻接矩阵Ae是根据人体部位之间的连接性定义的，并且能够实现语义消息传播，我们比较了我们的方法有和没有Ae（#2 vs #3）。比较结果表明，人类的先验知识比图卷积带来的额外网络参数具有更大的一致性。图间传输。为了利用来自其他数据集的注释数据，以前的人工解析方法必须在其他数据集上进行预训练，并在评估数据集上进行微调，如表4中的#4结果我们的Graphon- omy提供了一个图间传输模块，以更好地实现跨域信息共享。我们进一步比较了3.2节中介绍的差分图转移依赖有趣的是，据观察，根据手工关系（#6）转移使性能变差，而特征相似性（#8）是最强大的依赖性。合理的解释是，人类句法分析任务的多层次标注不一致性不能通过简单的手工定义关系来解决，而由特征相似度和语义相似度编码的层次关系此外，我们还比较了不同的迁移方法组合的结果，这带来了更多的改进。在我们的Graphonomy中，我们将特征相似性和语义相似性结合起来用于图间转移，因为更多的组合不能有助于更多的改进。不同数量的训练数据。利用语义标签之间的内在联系，并在传统的人类句法分析网络上引入层次图迁移学习我们进行了大量的实验，训练数据微调字形学百分之五十68.4570.03百分之八十70.0270.26百分百70.3371.147457（a）（b）（c）（d）（e）（f）（g）（h）图像PGNDeepLab v3+字形学图5.PASCAL-Person-Part数据集[6]（左）和CIHP数据集[13]（右）上人类解析结果的可视化比较该模型在CIHP数据集上预训练为PASCAL-Person- Part数据集。我们使用不同的注释数据在训练集上随机抽样进行训练，并在整个测试集上对模型进行评估如表5中所总结的，简单地微调预训练模型而不使用我们提出的图间转移获得了所有训练数据的70.33%平均IoU。然而，我们完整的Graphonomy架构只使用了50%的训练数据，并实现了相当的性能。使用100%的训练数据，我们的方法甚至可以在平均IoU中超过0.81%的微调基线。这种卓越的性能证实了我们的Graphonomy的有效性，它无缝地桥接了来自不同数据集的所有语义标签，并实现了数据注释的最佳利用。4.5. 定性结果PASCAL-Person-Part数据集[6]和CIHP数据集[13]的定性结果在图中可视化。5.可以看出，我们的方法输出更语义有意义和精确的预测比其他两种方法，尽管存在大的外观和位置变化。以（b）和（e）为例，当解析衣服时，其他方法受到奇怪的时尚风格和衣服上的大标志的影响，这导致对一些小区域的错误预测。然而，由于有效的语义信息传播的图推理和转移，我们的Graphonomy成功地分割出大的衣服区域。此外，该方法还利用了不同来源的高层次图表示方法，得到了更好的鲁棒性结果，并消除了遮挡和背景的干扰此外，我们还提出了一些失败的情况（g）和（h），并发现，重叠的部分和非常小的人不能被精确地预测，这表明更多的知识需要被并入到我们的图结构中以处理具有挑战性的情况。5. 结论在这项工作中，我们向前迈进，以解决所有级别的人类解析任务使用一个通用的模型，以减轻标签的差异，并利用数据注释。我们提出了一个新的通用人类解析代理，命名为Graphonomy，它结合了传统的解析网络的层次图迁移学习，在一个系统中预测所有的标签，而不会堆积的复杂性。我们的Graphonomy在所有数据集上的坚实和一致的人类解析改进证明了我们所提出的方法的优越性。有利的通用人类解析性能进一步证实了我们的Graphonomy足够强大，可以统一来自不同资源的各种标签标注，并解决不同层次的人类解析需求。在未来，我们计划将Graphonomy推广到更一般的语义分割任务，并研究如何将更复杂的语义关系自然地嵌入到网络设计中。6. 确认本研究得到了中山大学创业基金项目的资助。76160-18841201，部分由中国国家重点研究与发展计划批准号：2018 YFC 0830103，部分国家高层次人才特别支持计划（万人计划），部分国家自然科学基金（NSFC），批准号：61622214和61836012。7458引用[1] 彼得·比林斯基和维克多·普拉萨卡留。用于单遍语义分割的密集解码器捷径连接。在CVPR，2018年6月。[2] Liang-Chieh Chen，George Papandreou，Iasonas Kokki-nos，Kevin Murphy，and Alan L Yuille. Deeplab：使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。arXiv预印本arXiv：1606.00915，2016。[3] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Flo- rian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。arXiv预印本arXiv：1802.02611，2018。[4] 陈新蕾和Abhinav Gupta。用于对象检测中上下文推理的空间记忆InICCV，Oct 2017.[5] Xinlei Chen，Li-Jia Li，Li Fei-Fei，and Abhinav Gupta.超越卷积的迭代视觉推理。在CVPR，2018年6月。[6] XianjieChen ，Roodahh Mottaghi ，Xiaobao Liu ， SanjaFidler，Raquel Urtasun，et al.检测您可以：使用整体模型和身体部位检测和表示对象。CVPR，2014。[7] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习。在CVPR，2017年7月。[8] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在CVPR，2016年。[9] Jian Dong ， Qiang Chen ， Xiaohui Shen ， JianchaoYang，and Shuicheng Yan.走向统一的人类解析和姿态估计。CVPR，2014。[10] Nikita Dvornik，Konstantin Shmelkov，Julien Mairal，and Cordelia Schmid. Blitznet：用于场景理解的实时深度网络。InICCV，Oct 2017.[11] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，2010年。[12] 方浩树、卢冠松、方小林、谢建文、戴玉荣、卢策武。通过姿势引导知识转移的弱和半监督人体部位解析。在CVPR，2018年6月。[13] Ke Gong，Xiaodan Liang，Yicheng Li，Yimin Chen，Ming Yang，and Liang Lin.通过部件分组网络的实例级人工解析。在ECCV，2018年9月。[14] Ke Gong ， Xiaodan Liang ， Dongyu Zhang ， XiaohuiShen，and Liang Lin.看人：自我监督结构敏感学习和人类解析的新基准。在CVPR，2017年。[15] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面具R-CNN。InICCV，2017.[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[17] Judy Hoffman 、 Sergio Guadarrama 、 Eric S Tzeng 、Ronghang Hu 、 Jeff Donahue 、 Ross Girshick 、 TrevorDarrell和Kate Saenko。Lsda：通过自适应进行大规模检测。在NIPS，2014。[18] Ronghang Hu ， Piotr Dollr ， Kaiming He ， TrevorDarrell，and Ross Girshick.学会把每一件事都分割开来。在CVPR，2018年6月。[19] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。[20] 李中伟、方伟、叶志宽、王玉强。使用结构化知识图的多标签零射击学习。在CVPR，2018年6月。[21] 李嘉楠，魏云超，梁晓丹，董健，徐廷发，冯佳世，严水城。用于对象检测的注意上下文。 IEEETransactions on Multimedia，19（5）：944[22] Qizhu Li，Anurag Arnab，and Philip HS Torr. 整体的、实例级的人工解析。arXiv预印本arXiv：1709.03612，2017。[23] 梁晓丹，龚克，沈晓辉，林亮。看人：关节体解析&姿态估计网络和一个新的基准。TAPAMI，2018年。[24] Xiaodan Liang，Liang Lin，Xiaohui Shen，Jiashi Feng，Shuicheng Yan，and Eric P.邢可解释的结构-演化的lstm。在CVPR，2017年。[25] Xiaodan Liang，Si Liu，Xiaohui Shen，Jianchao Yang，Luoqi Liu，Jian Dong，Liang Lin，and Shuicheng Yan.使用主动模板回归进行深度TPAMI，2015。[26] 梁晓丹，沈晓辉，冯佳诗，林良，严水城。语义对象解析图。在ECCV，2016年。[27] 梁晓丹、沈晓晖、向东来、冯佳诗、林良、严水城。具有局部-全局长短期记忆的语义对象分析在CVPR，2016年。[28] Xiaodan Liang，Chunyan Xu，Xiaohui Shen，JianchaoYang，Si Liu，Jinhui Tang，Liang Lin，and ShuichengYan.使用上下文化卷积神经网络的人类解析在ICCV，2015年。[29] 梁晓丹，周鸿飞，邢伟。动态结构语义传播网络。在CVPR，2018年6月。[30] Guosheng Lin ，Anton Milan，Chunhua Shen，and IanReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在CVPR，2017年。[31] 作者：Michael Maire，Serge J.卢博米尔？罗斯？布尔德夫 Girshick ， James Hays ， Pietro Perona ， DevaRamanan ， PiotrDol la'r ， andC.劳伦斯 · 齐特尼克。MicrosoftCOCO ：上下文中的通用对象。 CoRR ，abs/1405.0312，2014。[32] Sinno Jialin Pan，Qiang Yang，et al.迁移学习研究综述。 IEEETransactionsonknowledgeanddataengineering，22（10）：1345[33] Adam Paszke、Sam Gross、Soumith Chi

下载后可阅读完整内容，剩余1页未读，立即下载