没有合适的资源?快使用搜索试试~ 我知道了~
2937基于布局图推理的服装标志检测于伟江1、梁晓丹1、2、龚克1、2、江晨涵1、农晓1、梁琳1、21中山大学、2DarkMatter AI Researchweijiangyu8@gmail.com、www.example.com、xdliang328@gmail.com、kegong936@gmail.com、jchcyan@gmail.comxiaon6@sysu.edu.cn、linliang@ieee.org摘要服装密集特征点检测作为服装分析的基础技术,因其巨大的应用潜力而受到越来越多的研究关注。然而,由于缺乏基于地标之间的语义布局约束的建模,现有的工作通常检测到一个人身上的多件重叠衣服地标节点特征(一)预测在本文中,我们提出了无缝地执行结构布局之间的关系地标的中间表示,通过多个堆叠的布局图推理层。我们将布局图定义为一个分层结构,包括根节点、身体部分节点(例如,上半身、下半身)、粗糙的衣服部分节点(例如,衣领、袖子)和叶界标节点(例如,左领,右领)。每个布局图推理(LGR)层的目标是自底向上推理自顶向下推理消息传播将要素表示映射到结构图节点地标服装配件身体部位根节点预测通过一个映射到节点模块,执行推理结构,节点特征节点特征节点特征(b)特点图节点可以经由布局图推理模块来实现全局布局一致性,并且然后经由节点到映射模块将图节点映射回以增强特征表示。布局图推理模块集成图聚类操作以生成中间节点的表示(自下而上推理),然后集成整个图上的图去卷积操作(自上而下在两个公共时尚地标数据集上的实验证明了该模型的优越性。此外,为了推进细粒度服装地标研究以支持更全面的服装生成和属性识别,我们贡献了第一个细粒度服装地标数据集(FFLD),其包含13种服装类型的20万张图像,最多标注有32个关键点。* 通讯作者图1:(a)传统的DCNN [25]由于缺乏结构约束和常识知识,在面对人类和衣服嵌套的严重重叠时,性能下降很大(例如女士的左腰围和右袖子在孩子身上的预测是错误的(b)我们的LGR在地标之间提供基于图形的推断,利用对称和分层关系来约束地标1. 介绍服装标志点检测的目标是定位服装功能区域的关键点(例如:领,腰围),吸引了研究的关注和大量的需求,推动了电子商务的繁荣,如服装检索[36,30,5,16],服装生成[10,21]和时尚图像分类[36,27,8]。为了支持这些综合性的高级应用,地标检测器需要有效地处理任意的服装外观,多样的服装布局和风格,多人……2938姿势,不同的灯光和背景杂波。最近关于时尚地标检测的研究工作[18,26,36,31,14,32,19]主要致力于设计更先进的深度特征表示[18,36],注意力机制[31],金字塔模块[32]等。这些模型局限于将时尚地标检测视为一个端到端的回归问题,忽略了不同地标之间丰富的语义布局关系,如对称关系(例如,左/右衣领)、从属关系(例如,左领属于衣领)和人类常识(例如,一件衣服通常具有一对袖子)。因此,如图1(a)所示,可能会产生偏离人体和衣服布局的不合理的检测结果。然而,一些研究已经求助于外部指导来增强CNN的解释[24,2,33,27,15,20]。例如,Yanget al. [33]引入公司内部的领域知识,以明确地促进更好的本地化功能。Wang等人[27]提出了服装视觉理解的语法模型,并采用双向递归神经网络进行信息传递。时尚地标自然存在于一个底层的语义结构中,该结构包括不同层次的语义节点(例如:身体部分节点、衣服部分节点和叶子界标节点)。然而,他们使用简单的图结构来表示知识,而忽略了界标的内在层次和多级布局,以更好地挖掘从属关系。为了解决上述所有问题,我们建议赋予深度网络结构图推理的能力,以便从全局角度使检测到的时尚地标与人体和服装布局一致。我们定义了一个分层的布局图,它编码了人类身体部位布局和衣服部位布局方面的先验常识知识,由根节点、身体部位节点(例如,上身、下身),粗糙的衣服部分节点(例如,领、袖)和叶界标节点(例如,左领,右领)。然后,我们提出了一种新的布局图推理(LGR)层,该层能够显式地执行分层的人体服装布局约束和语义关系的时尚地标的深度表示,以促进地标检测。我们的LGR层是一个通用且灵活的网络层,可以在任何卷积层之间堆叠和注入,包含三个模块:1)映射到节点模块,其将卷积特征映射到每个图叶节点; 2)布局图推理模块,用于在结构图节点上执行层次图推理以实现全局布局一致性; 3)Node-to-Map模块,用于学习演进的图叶节点与卷积特征之间的适当关联,这进而通过全局推理增强局部特征表示。给定叶子的图节点表示 地标节点,我们的布局图推理模块首先执行图聚类操作,以自底向上推理的精神生成中间节点的表示,即从(叶界标节点)→(衣服部分节点)→(身体部分节点)→(根节点)。然后是一个图形反卷积操作,以在更高层次的结构节点,即(根节点)→(身体部分节点)→(衣服部分节点)→(叶子界标节点)。受益于集成图聚类和图反卷积操作,我们的LGR层能够实现全局结构一致性,并有效增强每个地标节点表示,以实现更好的预测。此外,现有的时尚地标数据集[36,19,31]注释了所有服装的最多8个地标。为了推进细粒度领域知识在时尚地标检测研究中的发展,我们贡献了一个新的细粒度时尚地标数据集,该数据集包含13种服装类型的20万张图像,最多标注了32个关键点,命名为FFLD。关于FFLD的更多细节见补充材料。我们的贡献概述如下:1) 我们提出了一个通用的布局图推理(LGR)层,并将多个LGR层合并到深度网络中,以无缝地执行中间表示上的服装地标之间的结构布局关系,以实现全球结构的一致性。2) 我们将布局图定义为一种层次结构,用于挖掘从特定节点到抽象节点的上下文图语义信息图聚类和图反卷积操作集成到每个LGR层的层次图推理。3) 我们构建了第一个细粒度的时尚地标数据集(FFLD),为不同的衣服类型提供更全面的地标注释。4) 我们的模型在两个公共时尚地标数据集(例如,[19]第36话:2. 相关工作时尚地标检测与定位。 最近,许多研究工作致力于联合定位和地标检测[18,35,7,26,29,33,28、31、36、19、27、22]。Newell等人[22]提出了一种人体姿态估计模型,该模型使用重复的下采样和上采样过程来学习分辨率的空间分布。Liu等[19]提出了使用伪标签方案来增强时尚地标的可变性的深时尚离子对准Wang等人[27]捕获服装标志的运动学和对称语法,用于挖掘标志之间的几何关系。他们2939将建模的语法消息传递处理作为双向卷积递归神经网络,用于以端到端的方式进行训练上面的深度学习模型展示了神经网络的强大表示。很少有人考虑以分层的方式将知识引导信息与由Rothrocket al。[24,12,34],我们构建了一个分层架构来对全球-本地时尚地标相关性进行建模,以促进每个地标的上下文信息。图中的知识引导信息。 最近,一些研究工作将领域知识建模为图,用于挖掘图像中标签或对象之间的相关性,这在许多任务中已被证明是有效的[12,3,23,34,13,20,24,1,4,6]。Li等[13]提出了一种基于子图的场景图生成模型,该模型采用自底向上的图像对象关系推理。Liang等人[15]使用语义神经元图来建模语义相关性,用于在传播期间显式地合并语义概念层次Yang等[33]建立了一个先验知识指导图的身体部位的位置,很好地考虑全球的姿态配置。据我们所知,目前还没有工作考虑模型化的布局图在所有规模和层次的布局中的时尚地标。通过布局图推理层将跨层图关系、低层图关系和高层图关系合并为一个统一的模型,该模型由Map-to-Node模块、布局图推理模块和Node-to-Map模块组成。时尚理解数据集。 许多以人为中心的应用依赖于可靠的时尚形象理解。DeepFashion [17]是一个大规模的服装数据集,标记有服装类别,属性,最多8个服装地标和边界框。FLD [19]是一个具有较大姿态和尺度变化的模糊地标数据集(FLD),最多使用8个地标和边界框进行注释。Yan等人[31]贡献了一个无约束的地标数据集(ULD),它包括30k个图像,最多8个时尚地标注释。为了推进细粒度时尚地标领域知识的描述,我们针对第一个细粒度时尚地标检测任务提出了一个大规模数据集,该数据集包含13个服装类别的20万张图像,最多标注了32个关键点。3. 该方法3.1. 概述考虑到时尚地标的布局,我们建立布局图推理模型,以从全局角度强制检测到的时尚地标与人体和服装布局一致。我们提出了一个模型,无缝地执行,强制布局之间的关系,地标的内部,通过多个堆叠的布局图推理(LGR)层来调解特征,如图2所示。每个LGR层旨在经由映射到节点模块将深度卷积特征映射到结构图节点,经由布局图推理模块在多级布局图节点上执行推理以实现全局布局一致性,然后经由节点到映射模块将演进的图节点映射回增强的卷积特征最后一个信号-使用moid函数和1×1卷积生成时尚地标的热图。 灵感来自Yangetal. [32],我们通过金字塔模块增强中间特征,并通过残差加法[9]降低数据偏差。3.2. 布局图定义我们将布局图定义为一个层次结构,用于挖掘不同时尚地标之间的语义相关性和约束。具体地说,我们定义了一个布局图,它由表征地标类别的图节点构成(例如.右领、左袖)和表示空间布局的图形边缘(例如,右领属于左领,大、领、袖属于上身),记为G=(V,E)。 图节点V由叶节点集合V叶(例如,叶界标节点)和中间节点V 中 间(例如,衣服部分节点、身体部分节点 、 根 节 点 ) 。我 们 定 义 叶 节 点 表 示 为Xleaf∈RNleaf×d,它是通过映射到节点模块生成的。定义中间节点表示为Xmiddle∈ RNmiddle× d,由布局图推理模块生成。N叶和N中部是叶节点和中间节点的数量,d表示每个节点的特征维数。边E由一组叶边E叶组成,以表示每个叶节点之间的连接(例如,右领和左领)和中间边E中间,以表示每个中间节点之间的连接( 例 如 衣 领 和 袖 子 ) 。 叶 节 点 邻 接 权 矩 阵Aleaf∈{0,1}Nleaf×Nleaf根据E叶中的边连接进行初始化,如图3所示,其中0表示断开,1表示连接。同样地,我们将中间节点邻接权矩阵定义为A中间。在实现中,我们按照[12]对所有A进行归一化,以获得归一化的邻接权矩阵。A对于嵌入在时尚接合布局中的布局图信息至关重要,以有利于逐点时尚地标检测,其可以根据关于时尚布局的人类常识容易地设计,如补充材料的第2节所示。3.3. 布局图推理层LGR层旨在通过布局图推理来增强卷积特征。每个LGR层由三个模块组成:1)映射到节点模块,用于将卷积特征映射到结构图叶节点;2940W A XWp...1x1Conv,Relu元素加法金字塔特性图2:我们的模型的图示,其中包含用于特征提取的基本卷积网络和用于结构图推理的堆叠残差加法处理和金字塔特征后处理附加在每个堆叠架构之间,以减少偏差并在多个尺度上捕获丰富的表示。使用sigmoid激活函数的1×1卷积来产生最终时尚地标热图。为了更好地查看本文中的所有数字,请参阅原始放大的彩色pdf文件。右套圈左套圈右肩中心轴环右下头部左下头部右腰围右袖右下摆左腰围左袖左下摆右腋下右胸右外肘右外套筒右内套筒右内肘右腰围右套圈左领左肩左腋下左胸左内肘左外肘左腰围左外套筒左内套管裆右内膝关节右外膝关节右侧外部底部左内膝关节左外膝关节左内下左外下其他数据集FFLD右下摆左下摆右内底图3:不同时尚地标数据集的布局图定义每个叶节点(红色圆圈)表示一个服装标志的位置和类型。每个叶边缘(黑线)指示界标点之间的相关性。图形推理模块,用于对用于特征增强的全局-局部服装地标相关性进行建模,包括图形聚类操作和图形去卷积操作; 3)节点到映射模块,用于将进化的叶节点表示映射回增强特征表示。3.3.1映射到节点模块该模块用于将卷积特征映射无缝地映射到图形节点表示。给定维数变换后的输入卷积特征图(F∈RH×W×C→F∈RHW×C,其中H,W和C表示-发送的高度,重量和通道),该模块产生节点)。然后,在自顶向下的推理精神下,通过图反卷积操作来演化由更高级别的结构节点引导的底层节点的表示,即(根节点)→(身体部分节点)→(衣服部分节点)→(叶界标节点)。受益于整合图形聚类和图形去卷积操作,该模块实现了全局结构一致性。图聚类操作。该操作通过图聚类生成中间节点表示。对于不同级别的自底向上推理,聚类图节点和图边的变化如图4所示每一层的图聚类操作是相似的。这里我们以以X叶→X中为例来说明集群-图的叶节点表示Xleaf∈RNleaf×d。的ing操作。给定输入X叶和叶 ,这次行动-配方为:X叶=σ(Φ(FWm)TFWt),(1)A-N生成中间节点表示X_middle和中间节点邻接权重矩阵A_middle,其被公式化为:其中Wm∈RC×Nleaf和Wt∈RC×d是可训练的.X中间=σTΣp′leafleafh 、(二)抽样矩阵Φ表示归一化函数软-max来将所有行求和为1,并且σ表示非线性函数Relu。A中间=σ.ΣWTAleafWp、(3)3.3.2布局图推理模块通过映射到节点模块给定图叶节点表示X叶,我们的布局图推理模块首先执行图聚类操作以按照自底向上推理的精神生成中间节点的表示, 即, 从(叶界标)节点)→(衣服部分节点)→(身体部位节点)→(根基本网络LGR层LGR层1x1Conv,S形LGR层2941p其中Wp′∈RNleaf×Nmiddle和Wp∈RNleaf×Nmiddle都是可训练的聚类矩阵。Wh∈Rd×d是一个可训练的权矩阵。 我们使用图卷积,[12]对于图推理,使用W h在X叶和A叶上执行以更新叶图节点表示。然后,我们利用Wp′将更新后的Xleaf聚类为Xmiddle,其公式为等式2。我们使用Wp来聚类A叶以生成A中间,其被公式化为等式3。Wp是置换矩阵,并且服从WTWp=2942图聚类图聚类图反卷积图反卷积图聚类图反卷积卷积产品特点增强卷积特征卷积跳过连接跳过连接跳过连接映射到节点布局图推理模块节点到地图可学习邻接矩阵节点表示图聚类图反卷积加权样本图4:我们的布局图推理(LGR)层的插图,其中包含映射到节点模块,布局图推理模块和节点到映射模块。在映射到节点和节点到映射模块中,加权样本操作通过加权样本将所有卷积特征(进化的叶界标节点)投票给叶界标节点(增强的卷积特征)在布局图推理模块中,通过图聚类和图推理将图从叶子节点传播到根节点根节点通过图反卷积和图推理再次传播回来,以产生进化的叶界标节点。我们使用[12]中的图卷积来进行具有监督邻接矩阵的图推理。采用跳跃连接来限制聚类和反卷积操作的一致性。I.我们使用图推理在Xmiddle和Amiddle上执行更新聚类图节点表示Xmiddle∈ RNmiddle× d。图形反卷积操作。此操作将演化底部节点的表示,更高级别的结构节点在自顶向下的推理精神,再次,我们以X中间→X叶作为例子来说明反卷积运算。给 定 输 入 的 中 间 节 点 表 示 Xmiddle 和 邻 接 矩 阵Amiddle,我们利用类似等式2和等式3的公式来产生叶节点表示X叶和叶节点邻接权矩阵A叶。此外,为了整合高级和低级结构信息,我们在聚类之前和去卷积之后对节点表示进行矩阵加法,然后进行图形推理以更新进化的叶节点表示X叶。3.3.3节点到地图模块我们通过Node-to-Map模块将进化的图节点映射到增强的卷积特征。给定输入的卷积特征F和进化的叶节点表示Xleaf,该模块旨在生成增强的卷积特征表示Fr。首先对F ∈RHW×C→F∈RHW×N×C 和Xleaf ∈RNleaf×d →Xleaf ∈RHW×N叶×d.然后我们将F和X叶连接到Xa∈RHW×Nleaf×(C+d),用于更丰富的特征表示。我们将该模块公式化为:Fr=σ(Φ(XaWm′)σ(XleafWt′)),(4)等式4是将节点表示Xleaf∈RNleaf×d映射到增强的卷积特征Fr∈RHW× C,其中Wm′ ∈ RC+d是具有C + d维度的向量,Wt′ ∈Rd× C是可训练的采样矩阵。4. 实验4.1. 实验设置网络架构。遵循[36,19,31,27]的基线,我们使用VGG16 [25]和四个堆叠的LGR层进行特征提取和布局图推理。每个LGR层包含映射到节点模块、布局图推理模块和节点到映射模块。我们通过Map-to-Node模块将卷积特征映射到图叶节点表示。在DeepFashion和FLD上,我们设置了8个叶子节点(例如,左衣领,右下摆),6个中间节点,包括4个衣服部分节点(衣领,下摆)和2个身体部分节点(例如,上半身、下半身)和1个根节。在FFLD上,我们设置32个叶子节点(例如,左肩、胯部),包括12个衣服部分节点的14个中间节点(例如,袖子,膝盖)和2个身体部分节点(例如,上半身、下半身)和1个根节。 节点布局的更多细节可以在补充材料中看到。然后,我们通过布局图推理模块对时尚地标的布局图进行建模,以进化图节点表示,2943如图3所示,通过定义的图形相关性Node-to-Map模块将演化的图节点表示映射到卷积特征中,以增强特征表示,其结果被馈送到具有sigmoid激活的1×1卷积中以获得预测。残余加法和金字塔特征后处理附加在每个LGR层之间,以减少偏差并在多尺度上捕获丰富的表示。三个基准和评估。我们评估并报告了三个数据集的结果和比较。Deep- Fashion [36]是迄今为止最大的时尚数据集,包含289,222张用边界框和最多8个地标注释的FLD [19]是一个时尚地标数据集,具有更多样化的变化(例如,姿态、比例、背景),其包含123,016个图像,每个图像最多注释8个界标和边界框。FFLD是我们贡献的细粒度时尚地标数据集,其中包含20万张图像,最多注释了13个服装类别的32个关键点在[27]之后,209,222个时尚图像用于训练; 40,000张 图 片 用 于 验 证 , 其 余 40 , 000 张 图 片 用 于DeepFashion测试。根据FLD [19]中的方案,83,033张图像和19,992张时尚图像用于训练和验证,19,991张图像用于测试。在FFLD中,我们使用120K图像作为训练集,40K图像作为验证集,40K图像作为测试集。采用归一化误差(NE)度量[19]进行评估。我们利用l2函数来计算归一化坐标空间(即,由图像的高度和宽度归一化)。培训策略与目标功能。我们使用LGR层分别在FLD[19],Deep-Fashion [36]和FFLD上进行时尚地标检测,而无需任何预训练模型。在[27]之后,我们首先使用标记的边界框裁剪每个图像,将裁剪后的图像调整为224× 224,并提取用于图形推理的特征。通过缩放、旋转和翻转来增强训练数据。我们使用随机梯度下降训练所有模型,批量大小为16张图像,由Adam optimizer [11]优化,初始学习率为1.e-3,11 GB NVIDIA 1080Ti GPU。亚当的贝塔系数从0.9到0.999。在FLD上,我们每20个epoch将学习率线性下降10倍。在DeepFashion和FFLD上,我们每10个epoch将学习率线性降低10倍。当验证集没有改进时,我们停止训练。我们将均方误差(MSE)方程设置为最终预测热图和地面实况之间的目标函数。4.2. 与最新技术水平的比较与PyraNet [32],FashionNet [36],DFA [19],DLAN[31]和BCRNN [27]相比,LGR在两个大型数据集上实现了明显的改进。注意PyraNet是一个两阶段的人体姿态估计模型。我们按照与[32]相同的策略训练PyraNet。我们的LGR在FLD上的 表 现 优 于SOTA , 为 0.0419 , 在 DeepFashion 上 为0.0336,远低于最接近的竞争者(0.0583和0.0484),如表1所示与传统的DCNN [36]和语法模型[27]相比,我们进一步对布局图推理进行建模,以从全局角度强制检测到的时尚地标与人体和服装布局一致通过对服装标志的层次结构进行联合推理,使SOTA的性能在现有模型的基础上有了较大的提高。请注意,我们的模型在DeepFashion上的所有地标中一致地减少NE。4.3. 消融研究不同的堆栈编号。有六个实验来显示不同堆叠LGR层的性能,其在表2的第一列表中示出。VGG16在没有任何图推理的情况下,平均NE达到0.0871,这是与其他知识引导模型相比最差的结果。通过比较不同阶段的预测变量,发现随着堆栈的增加,预测性能逐渐变好,这是一个由粗到精的过程,不断地对预测变 量 进 行 细 化 。 五 层 堆 叠 的 LGR 获 得 最 佳 性 能(0.0405 NE),但在训练/验证/测试过程中需要更多的GPU内存和时间。五叠和四叠之间的所有地标的间隙都是封闭的。受设备和时间的限制,我们选择了四个堆栈在我们的立场模型,并将其应用到所有广泛的实验。不同的图形层。在表2的第二个列表中,我们在FLD和DeepFashion上构建了不同正常图形层的消融研究。为了证明图聚类和图反卷积的优越能力,我们用一个没有图聚类和反卷积的图层代替LGR层,该图层被呈现为单层。利用图推理,两个图层可以获得最佳性能,但随着图层深度的增加,性能有被破坏的趋势。二层:0.0471,八层:0.0954)。增加图的层数并不能简单地获得更好的性能,但所花费的时间也随着模型大小的增加而增加LGR通过图聚类和图反褶积的方法,克服了上述缺点,并随着层数的增加而得到更好的性能。LGR层与普通图层相比,8个图层的聚类性能要差于3个聚类(0.0954和0.0419)。请注意,与八个图层(例如,0.00379s和0.00357s)。由于LGR层包含了图聚类、图反卷积和图推理等操作,与同样大小的普通图层相比,LGR层的处理过程更多。不同数目的图的聚类和解卷积。 在表2的第三个列表中,我们探索了效果-2944表1:使用NE指标在FLD测试集和DeepFashion测试集上与最先进的模型进行比较FLD方法L.CollarR.CollarL.SleeveR.SleeveL.WaistlineR.WaistlineL.HemR.HemAvg.时尚网[36].0784.0803.0975.0923.0874.0821.0802.0893.0859PyraNet [32].0341.0341.0610.0620.0920.0921.0314.0291.0723DFA [19].048.048.091.089--.071.072.068DLAN [31].0531.0547.0705.0735.0752.0748.0693.0675.0672BCRNN [27].0463.0471.0627.0614.0635.0692.0635.0527.0583LGR(我们的).0423.0152.0502.0735.0195.0512.0452.0393.0419DeepFashion方法L.CollarR.CollarL.SleeveR.SleeveL.WaistlineR.WaistlineL.HemR.HemAvg.时尚网[36].0854.0902.0973.0935.0854.0845.0812.0823.0872PyraNet [32].0343.0343.0602.0613.0920.0931.0308.0291.0719DFA [19].0628.0637.0658.0621.0726.0702.0658.0663.0660DLAN [31].0570.0611.0672.0647.0703.0694.0624.0627.0643BCRNN [27].0415.0404.0496.0449.0502.0523.0537.0551.0484LGR(我们的).0270.0116.0286.0347.0307.0435.0160.0162.0336LGRw.oLGRw.oVGG16PyraNet集群/LGR(我们的)GTVGG16PyraNet集群/LGR(我们的)GT反卷积反卷积图5:VGG 16 [25],PyraNet [32],LGR w.o聚类/去卷积(两个图形层,没有图形聚类和去卷积)以及DeepFashion(第一行),FLD(第二行)和FFLD(底行)上的LGR检测到的地标(红色圆圈)是在不同的变化,如遮挡和复杂的背景下执行的。请看放大的彩色pdf文件。LGR层中不同数量的图聚类操作和图反卷积操作的效果,如图6所示。随着作战深度的增加,更丰富的人体部分布局和衣服部分布局将单聚类两聚类三聚类从而更好地指导学习过程。 实验-实验结果表明,三个聚类的性能优于一个聚类(FLD上分别为0.0419和0.0488,DeepFashion上分别为0.0336和0.0403)。不同的注入层。表2的第四个列表比较了将四个堆叠的LGR层注入VGG16的不同卷积块(ConvBlock)[25] 在 FLD 。 在 区 块 之 前 注 入 堆 叠 的 LGR 层 。 在VGG16 的 Block3 之 后 添 加 LGR 层 的 性 能 比 在ConvBlock5之后添加LGR层的性能差。我们展示了可能的原因,即更深的层可以编码更语义的高级特征表示,这更适合于布局。图推理层图聚类图反卷积图6:图聚类和图反卷积的不同结构。每个图推理层中的节点数量标记在顶部。请看放大的彩色pdf文件。图推理4.4. 定性结果结果显示了传统DC-NN [25],PyraNet [32],没有图聚类和反卷积的正常图推理以及LGR的不同能力。我们选择最佳结构(两层)的正常图层恶魔-8 844884422884421122945表2:使用NE指标对FLD和DeepFashion进行的消融研究(平均值)。图6中示出了具有不同数量的图聚类和解卷积的结构。我们还提出了不同数量的正常图卷积层,取代图聚类和反卷积产生的结果我们还比较了测试的平均执行时间(Time)。不同的堆栈编号不同的图形层FLDDeepFashion方法Avg.时间(s)Avg.时间(s)单层.0531.00241.0482.00237两层.0471.00273.0437.00266四层.0639.00279.0562.00271六层.0644.00289.0638.00300八层.0954.00357.0779.00341不同数目的图聚类与反卷积FLDDeepFashion方法Avg.时间(s)Avg.时间(s)单聚类.0488.00267.0403.00261两聚类.0443.00302.0372.00336三聚类.0419.00379.0336.00352不同注入层FLD方法Avg.VGG16 ConvBlock1.0811VGG16 ConvBlock3.0574VGG16 ConvBlock5.0419如上所述在图5中,对于复杂的背景,不同的服装布局和风格,多个尺度和视图,纯DCNN,姿势估计模型[32]和正常图形层无法检测正确的时尚地标。LGR利用层次结构对地标之间的布局图关系进行建模,挖掘布局图的语义一致性,增强地标之间的语义关联和约束(如:衣领和袖子属于上身)。在自底向上、自顶向下的推理过程中,LGR覆盖了困难的方差,并在布局图推理的指导下生成合理的结果例如,LGR可以通过在复杂背景中将时尚地标约束在一件衣服上来检测正确的结果(图5中的第一行)。4.5. 精细粒度时尚地标数据集(FFLD)与现有的时尚地标数据集[36,19,31]相比请注意,FFLD是最接近的时尚地标数据集,表3:不同模型对FFLD的评价。方法Avg. NE时尚网[36].2031PyraNet [32].1423GCN [12].1272BCRNN [27].1226LGR(我们的).1180真正的应用。更多关于FFLD的详细定义和统计数据见补充材料。我们在表3中显示了对FFLD进行评估的四种现有方法,以全面执行FFLD。FashionNet [36]和BCRNN [27]是用于时尚地标检测的SOTA方法,PyraNet [32]是用于人体姿势估计的SOTA方法之一。我们利用VGG16[25]堆叠了两个图卷积层,这是考虑(GCN)[12]是一个典型的基于图的方法,VGG16在本评估中。基于图3所示的先验布局图,在FFLD上评估了具有四个堆栈的布局图推理。如表3 所示,LGR 在FFLD 上实现了0.118的平均NE,这与FLD(0.0419 NE)和DeepFashion(0.0336NE)相比是更差的性能,这是由于更多的消费者图像、更多的细粒度时尚地标、更多的挑战视图和背景。为了证明FFLD对其他模型的挑战,我们在FFLD上执行时尚地标检测模型(FashionNet [36]和BCRNN[27]),人体姿势估计模型(PyraNet [32])和正常图形层(GCN [12]),以实现0.2031 NE,0.1226 NE,0.1423 NE和0.1272 NE。我们执行FFLD上的BCRNN遵循[27]的设置,FFLD的时尚地标文法由运动学文法和对称文法组成。更详细的FFLD时尚语法可以在补充材料中看到5. 结论在本文中,我们提出了布局图推理(LGR),其中包括三个模块的时尚地标检测无缝地利用结构图推理的分层方式。我们使用LGR来实现SOTA性能超过最近的方法。我们贡献了一个细粒度的时尚地标数据集,以推进知识图的发展,时尚地标研究。6. 确认这项工作得到了中山大学创业基金会的部分资助。76160-18841201,部分由中国国家重点研究发展计划批准号:2018 YFC 0830103,国家高层次人才特别支持计划(万人计划)部分资助,国家自然科学基金部分资助,批准号:61622214和61836012。FLD方法Avg.平均值时间(s)Time(s)VGG 16 [25].0871.0452.00065.00314一个堆叠.0711.0292.00155.00224两个堆叠.0535.0116.00236.00143三个堆叠件.0529.0110.00346.00033四个堆叠.0419-.00379-五层碎.0405.0014.00472.000932946引用[1] P. W. Battaglia,J. B. Hamrick,V. Bapst,A. Sanchez-Gonzalez , V. 赞 巴 迪 湾 Malinowski , A. 塔 凯 蒂 D.Ra-poso,A.桑托罗河福克纳等人关系归纳偏差、深度学习和图网络。arXiv预印本arXiv:1806.01261,2018。[2] X. Chen和A.尤尔。通过具有图像相关成对关系的图形模型的在NIPS,2014。[3] M. Defferrard,X.布列松和P。范德海恩斯具有快速局部谱滤波的图上卷积神经网络。In D. D.李,M。Sugiyama,U.诉卢森堡I. Guyon和R. Garnett,编辑,《神经信息处理系统进展》29,第3844-3852页。Curran Associates,Inc. 2016年。[4] J. Deng,N.丁氏Y.Jia,中国茶条A.Frome,K.Murphy,S.本吉奥Y. Li,H. Neven和H. Adam.使用标签关系图的大规模对象分类。在ECCV中,第48-64页。Springer,2014.[5] W. 迪角,澳-地Wah,A.巴德瓦杰河Piramuthu和N.孙德尔先生。风格查找器:细粒度服装风格检测与检索。在CVPR研讨会,第8-13页[6] C.甘,M。Lin,Y. Yang,G. de Melo和A. G.豪普特-曼。概念并不孤单:探索零拍摄视频活动识别的成对关系。在AAAI,2016。[7] K.龚,X. Liang,L. Zhang,X. Shen和L.是林书看人:自我 监督 结构 敏感 学习 和人类 解析 的新 基准 。在CVPR,2017年。[8] X. 汉,Z.Wu,P.X. Huang,X.Zhang,M.Zhu,Y.李鹏说,Y. Zhao和L. S.戴维斯自动空间感知服装概念发现。InICCV,2017.[9] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。[10] J. Huang,R. Feris,Q. Chen和S.燕.基于双属性感知排名网络的跨域图像检索。在ICCV。IEEE,2015年。[11] D. P. Kingma和J. BA. Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[12] T. N. Kipf和M。威林基于图卷积网络的半监督分类。国际学习表征会议(ICLR),2017年。[13] Y. Li,W. Ouyang、B. Zhou,Y. Cui,J. Shi,and X.王.Factorizable net:一个基于子图的场景图生成框架arXiv预印本arXiv:1806.11538,2018。[14] X. Liang,K.龚,X. Shen和L.是林书查看每个人:联合体解析&姿态估计网络和一个新的基准。T-PAMI,2018年。[15] X. Liang,H.Zhou和E.邢动态结构的语义传播网络。在CVPR,第752-761页[16] S. Liu,Z.宋,G. Liu,C. Xu,H. Lu和S.燕. 街道到商店:通过部件对齐和辅助集实现跨场景服装检索。在CVPR,第3330-3337页[17] Z. Liu,P. Luo,S. Qiu,X. Wang和X.唐Deepfashion:支持强大的服装识别和检索与丰富的注释。在CVPR,2016年。[18] Z. Liu,P. Luo,X. Wang和X.唐在野外深度学习人脸属性。在ICCV,2015年。[19] Z. Liu,S.Yan,P.Luo,X.Wang和X.唐时尚地标的野外探测。在ECCV。施普林格,2016年。[20] C.卢河,巴西-地克里希纳,M。Bernstein和L.飞飞视觉关系检测与语言先验。参见ECCV,第852-869页。施普林格,2016年。[21] S. L. A. C. B. T. L. B. M. Hadi Kiapour,Xufeng Han.在哪里购买:在网上商店匹配街头服装照片。在ICCV,2015年。[22] A. Newell,K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。在ECCV。施普林格,2016年。[23] M.尼佩特湾Ahmed和K.库茨科夫学习图的卷积神经网络。在ICML,第2014- 2023页[24] B.罗斯洛克和S. C.竹使用随机与或语法和丰富外观的人工解析。见ICCV,第640IEEE,2011年。[25] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014。[26] G. Trigeorgis,P.斯内普M. A. Nicolaou,E.安东纳科斯,S. Zafeiriou.记忆下降法:用于端到端面对齐的循环过程。在CVPR,第4177-4187页[27] W. Wang,Y. Xu,J. Shen和S.- C.竹用于服装标志点检测和服装类别分类的注意力服装文法网络。在CVPR中,第4271[28] S.- E. Wei,V.Ramakrishna,T.Kanade和Y.酋长卷积姿态机器。在CVPR,2016年6月。[29] W.吴角,加-地Qian,S.扬角,澳-地Wang,Y. Cai和Q.舟看边界:一种边界感知的人脸对齐算法。在CVPR中,第2129-2138页[30] K. Yamaguchi,M. H.基亚普尔湖E. Ortiz和T. L. 伯格。检索相似的样式来解析服装。T-PAMI,37(5):1028[31] S. Yan,Z. Liu,P. Luo,S. Qiu,X. Wang和X.唐基于分层回流Transformer网络的无约束时尚地标检测.在2017年ACM多媒体会议上。ACM
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功