没有合适的资源?快使用搜索试试~ 我知道了~
基于弱监督多尺度属性特定定位
4997基于弱监督多尺度属性特定定位唐楚峰1卢胜2张兆祥3胡小林11智能技术与系统国家重点实验室,清华大学北京国家信息科学技术研究中心计算机科学与技术系人工智能研究所2北京航空航天大学软件学院3中国科学{tcf18@mails,xlhu @ mail}. tsinghua.edu.cnlsheng@buaa.edu.cnzhaoxiang. ia.ac.cn摘要行人属性识别是视频监控领域的一个新兴研究课题。为了预测一个特定属性的存在,需要对与该属性相关的区域进行局部化。但是,在此任务中,区域注释不可用。 如何划分这些属性相关区域仍然是一个难题。(一)(b)第(1)款(c)第(1)款(d)其他事项拉长现有的方法采用属性不可知的视觉注意或启发式的身体部位定位机制来增强局部特征表示,而忽略了使用属性来定义局部特征区域。我们提出了一个灵活的属性定位模块(ALM),以自适应地发现最具歧视性的地区,并学习区域功能,为每个属性在多个级别。此外,还引入了一个特征金字塔架构,以增强在低级别的属性特定的本地化与高层语义指导。所提出的框架不需要额外的区域注释,并且可以通过多级深度监督进行端到端的训练。大量的实验表明,所提出的方法实现了国家的最先进的结果上的行人属性数据集,包括PETA,RAP和PA-100 K。1. 介绍行人属性的识别,例如性别、年龄和服装风格,由于其在视频监控应用中的巨大潜力,如人脸验证[10]、人物检索[2,27]和人物重新识别[11,22,30],引起了广泛的关注最近,基于卷积神经网络(CNN)[6,8]的方法通过从图像中学习强大的特征,在行人属性识别方面取得了巨大成功一些现有的作品[13,28]*通讯作者。图1.识别属性Longhair时不同方法产生的注意区域。(a)原始输入图像。(b)我们提出的方法,这确实是本地化到一个头部相关的区域产生的属性特定的区域。(c)由属性不可知的注意力方法生成的注意力掩码[20,24,37],覆盖广泛的区域,但不具体长头发。(d)通过基于部分的方法生成的身体部位[15,19,34,35],从这些身体部位提取特征。将行人属性识别视为多标签分类问题,并仅从整个输入图像中提取特征表示。这些整体方法通常依赖于全局特征,但区域特征对于细粒度属性分类更有意义。直观地说,属性可以定位到行人图像中的一些相关区域如图1(b)所示,在识别长毛时,关注与头部相关的区域是合理的最近的方法试图利用注意定位来促进学习用于属性识别的鉴别特征。一个流行的解决方案[20,24,37]是采用视觉注意力机制来捕捉最相关的特征。这些方法通常从特定的层生成注意力模板,然后将其相乘到相应的特征图,从而提取注意力特征。然而,它是模糊的掩码编码一个给定的属性如图1(c)所示,学习的注意力掩模关注一个广泛的区域,4998并不特定于所需的属性Longhair。另一种方法是利用预定义的刚性部件[39]或外部部件定位模块[15,19,34,35]。一些作品应用身体部位检测[35],姿势估计[15,34]和区域建议[19]来学习基于部位的局部特征。如图1(d)所示,这些方法从定位的身体部分(例如,头、躯干和腿)。然而,大多数方法只是将基于零件的特征与全局特征相融合,仍然不能表示属性与区域的对应关系,而且需要额外的计算资源来进行复杂的零件定位。与这些方法不同的是,我们提出了一个灵活的属性定位模块(ALM),可以自动发现的歧视性区域,并提取基于区域的特征表示在一个特定的属性的方式。具体而言,ALM由一个微小的通道注意力子网络组成,以充分利用输入特征的通道间依赖性,然后是一个空间变换器[9],以自适应地定位属性特定区域。此外,我们在不同的特征层次嵌入多个ALM,并引入了一个特征金字塔架构,通过整合高层语义,以加强在低级别的此外,不同特征级别的ALM由相同的属性监督集训练,称为深度监督[12,32],其中通过投票方案获得最终预测,以输出不同特征级别的最大响应。该投票方案将建议最佳预测发生在具有最准确属性区域的一个特征水平中,而不会受到来自不适当区域的负面特征的干扰所提出的框架是端到端可训练的,并且只需要图像级注释。这项工作的贡献可以总结如下:• 我们提出了一个端到端的可训练框架,该框架在多个尺度,以弱监督的方式发现最具鉴别力的属性区域。• 我们提出了一个特征金字塔结构,通过杠杆老化的低层次细节和高层次语义以相互验证的方式增强多尺度属性定位和基于区域的特征学习。多尺度属性预测进一步融合的有效投票计划。• 我们对三个公开的行人属性数据集(PETA [1],RAP[16]和PA-100 K [20]),并且相对于先前的现有技术方法实现了显著的改进。2. 相关作品行人属性识别。早期的行人属性识别方法[1,11,38]依赖于手工制作的特征,如颜色和纹理直方图,并单独训练。然而,这些传统的表现传统的方法远远不能令人满意。近年来,基于卷积神经网络的行人属性识别方法取得了巨大的成功。Wang等人[31]对这些方法作一简要回顾。Sudowe等人[28]提出一个整体CNN模型来共同学习不同的属性。Li等[13]将行人属性识别问题转化为多标签分类问题,提出了一种改进的交叉熵损失函数。然而,这些整体方法的性能是有限的,由于缺乏考虑的属性中的先验信息。最近的一些方法试图利用属性之间的空间关系和语义关系来进一步提高识别性能。这些方法可分为三个基本类别:(1)以人为本:一些作品[29,36]利用语义关系来帮助-致敬表彰Wang等人[29]提出了一个基于CNN-RNN的框架,以利用属性之间Zhao等人[36]将属性分为几组,并尝试探索组内和组间的关系。然而,这些方法需要手动定义的规则,例如,预测顺序、属性组等在实际应用中难以确定的问题。(2)基于注意:一些研究者[20,24,25,37]介绍了属性识别中的视觉注意机制。Liu等[20]提出了一个多方向的注意力模型来学习多尺度的注意特征,用于行人分析。Sarafianos等人[24]扩展空间规则化模块[37]以学习多尺度的有效注意力地图。虽然识别精度得到了提高,但这些方法是属性不可知的,没有考虑到属性的特定信息。(3)基于零件的方法通常从局部化的人体部位提取特征。Zhu等[39]将整幅图像划分为15个刚性块,并融合不同块的特征Yang等[34]和Liet al. [15]杠杆年龄外部姿态估计模块定位身体部位。Liu等[19]也以弱监督的方式探索属性区域,同时他们将属性区域分配给EdgeBoxes [41]预先生成的一些固定建议,这不是完全自适应和端到端可训练 的 。 这 些 方 法 依 赖 于 预 定 义 的 刚 性 部 件 或Sophisticated部件定位机制,其对姿态变化的鲁棒性较低相比之下,所提出的方法本地化的最具区分性的区域在一个属性特定的方式,这是没有考虑在大多数现有的作品。弱监督注意力定位 除了行人属性识别之外,在其他视觉任务中也广泛研究了在没有区域注释的情况下执行注意定位的想法Jaderberg等人[9]提出了著名的空间 变 换 器 网 络 ( Spatial Transformer Network , 简 称STN),它可以以端到端的可训练方式提取具有任何空间变换的4999256× 12832×16...16× 8...8× 4...12属性第1Concat1上×2第2Concat2上×21993年(1994年)3400万ℒ4逐元素最大值12定位模块属性.........CIMM预测12ℒ1M^112ℒ2M^212ℒ3M^3图2.拟议框架概览。输入的行人图像通过自下而上和自上而下的路径被馈送到主网络中。从不同级别组合的特征被送入多个属性定位模块(图3),这些模块执行特定于属性的定位和基于区域的特征学习。来自不同分支的输出通过深度监督进行训练,并通过元素最大运算进行汇总以进行推理。M是属性的总数。最好用彩色观看。图3.建议的属性定位模块(ALM)的细节,它包括一个微小的通道注意力子网络和一个简化的空间Transformer。ALM采用组合的特征Xi作为输入并产生属性特定的预测。每个ALM仅在单个级别上提供一个属性。3. 该方法拟议框架的概述如图2所示。如图所示,所提出的框架包括一个具有特征金字塔结构的主网络和一组应用于不同特征级别的属性定位模块(ALM)。首先将输入的行人图像馈送到主网络中,而无需额外的区域注释,并且在自底向上路径的末端获得预测向量。ALM的细节如图3所示。每个ALM只执行属性本地化和基于区域的特征学习的一个属性在一个单一的特征级别。以深度监督的方式训练不同特征级别的ALM。形式上,给定输入行人图像I及其对应的at-最近的一些作品[14,17]采用了局部化的身体-Σ12MT致敬标签y= y,y,.. . ,y其中,M是总和用于人员重新识别的部件Fu等人[3]试图递归地学习用于细粒度图像识别区分区域。Wang等人[33]使用多标签分类和LSTM搜索有区别的区域,而不是以特定于标签的方式。该方法的灵感来自于这些作品,但可以自适应地定位每个属性的个人信息区域。功能金字塔架构。 有几个作品利用自上而下或跳过连接,包括跨层次的功能,例如。U-Net [23],Stacked hour-glass network [21].所提出的特征金字塔架构类似于特征金字塔网络(FPN)[18],已在各种对象检测和分割模型[26,40]中进行了研究据我们所知,这项工作是第一次尝试采用这些想法,本地化的行人属性识别的注意区域。数据集中属性的数量和y m,m∈1,. . .,M是一个二进制标记,如果y m=1,则表示第m个属性的存在,否则y m=0。我们采用BN-Inception [8]架构作为我们框架中的骨干网络。原则上,骨干可以更换任何其他CNN架构。实施细节见补充材料。3.1. 网络架构这项工作的核心思想是执行属性特定的本地化,以提高属性识别。众所周知,较深CNN层中的特征具有较粗的分辨率。尽管我们可以基于语义上更强的特征精确地定位特征区域,但由于一些更精细的细节可能会消失,因此仍然难以提取基于区域的区分特征。与此相反,12M...属性本地化模块足球俱乐部......^m我Mul Add吉吉空间Transformer... ... .........全局池1×1转换ReLU1×1转换乙状FC5000XX我我我我我较低层中的特征总是捕获丰富的细节,但较差的上下文信息,导致不可靠的属性本地化。显然,低级细节和高级语义是互补的。因此,我们提出了一个特征金字塔架构,灵感来自FPN相似模型[18,40],以相互验证的方式增强属性定位和基于区域的特征学习。如图2所示,所提出的功能金字塔架构由自下而上的路径和自上而下的路径组成自底向上路径由BN-Inception网络实现,由具有不同特征级别的多个初始块组成。在本文中,我们使用从三个不同级别生成的自底向上特征进行属性本地化:分别为incep_3b、incep_4d和incep_5b块,其中它们的步长为{8,16,32}像素。 的选定的起始块都在其对应的阶段,其中相同阶段的块保持相同的特征图分辨率,因为我们相信最后一个块应该具有最强的特征。给定输入图像I,我们表示从当φi(I)∈RHi×Wi×Ci,i∈ {1,2,3}.对于256×128的 RGB 输 入 图 像 , 空 间 尺 寸 Hi×Wi 分 别 等 于32×16、16×8和8×4此外,自上而下的路径包含三个横向连接和两个自顶向下连接,如图2所示。横向连接只是用来重新-属性特定的本地化。如图1(c,d)所示,属于不同属性的关注区域混合在一起,这与缩小关注区域以提高属性识别的初衷不一致。我们认为,属性特定的定位是一个更好的选择,因为它可以解开混乱的注意面具到几个单独的区域,其中每个区域为一个特定的属性。此外,由于我们可以直观地观察到属性-区域对应关系,因此我们需要的是一种机制,可以学习一个单独的边界框,代表判别区域,在一个给定的属性的特征图。众所周知的RoI池技术[4]是不合适的,因为它需要区域注释,而这在行人属性数据集中不可用。 受最 近 成 功 的 Spa-tial Transformer Network ( SPA-tialTransformer Network)[9]的启发,我们提出了一个灵活的属性定位模块(ALM),以弱监督的方式自动发现每个属性的判别区域。所提出的ALM的概述如图3所示。如 图 所 示 , 每 个 ALM 包 含 源 自 WLAN 的 空 间Transformer层。空间变换是一个可微分的模块,它能够对特征图进行空间变换,例如,裁剪、平移和缩放。在本文中,我们采用了一种简化版本的边界条件,因为我们将属性区域视为一个简单的边界框,这可以通过以下变换来实现:将自下而上特征的维数减少到d,其中d=256在我们的实现中。 更高层次的fea-.sΣΣI=sx0tx我是说,yt(3)tures是通过自上而下的连接传输的,同时进行上采样操作。之后,来自相邻级别的特征按以下方式连接Xi={f(φi(I)),g(Xi+1)},i∈{1,2},(1)其中f是用于降维的1×1卷积层,g是指使用最近邻插值的上采样由于最高级别的功能没有自顶向下的连接,我们只对φ3(I):X3= f(φ3(I)).(二)对于i∈ {1,2,3},Xi的信道大小等于d,2d,3d。组合特征Xi用于属性特定的局部化。3.2. 属性本地化模块如第1节所述,几种现有的方法试图通过属性不可知的视觉注意、预定义的刚性部件或外部部件局部化模块来提取局部特征然而,这些方法不是最佳解决方案,因为它们忽略了s0syyi1其中sx、sy是缩放参数,并且tx、ty是平移参数,可以通过这四个参数来获得期望的边界框(xs,ys)和(xt,yt)是第i个像素的源坐标和目标坐标。在某种程度上,这种简化的空间Transformer可以被视为可微分的RoI池,它是端到端可训练的,无需区域注释。为了加速收敛,我们简单地将sx,sy约束为(0,1),tx,ty约束为(-1,1)分别由sigmoid和tanh激活此外,我们还引入了一个微小的通道--注意力子网络,如图3所示。如上所述,ALM将从相邻级别组合的特征作为输入,其中更精细的细节和强语义都占相同的比例(都有d通道),这意味着它们对属性本地化的贡献相等。然而,预期的比例应该因属性而异。例如,在识别更精细的属性时,应支付更多的细节。因此,我们引入了这个通道注意力子网络,类似于SE-Net [7],以调节通道间的依赖性。具体而言,输入要素Xi通过一系列y5001我我我我线性和非线性层,产生一个权重向量,用于跨通道的特征重新校准。通过将权重向量与Xi逐通道相乘来获得重新加权的特征,并且应用额外的残余链接来保留互补信息。随后,应用全连接层来估计变换。矩阵,表示为R,然后使用双线性插值采样的基于区域的特征作为属性分类. 我们简单地公式化预测属于第i层的第m个属性为:y=ALM m(Xi)。(四)3.3. 深度监督如图2所示,从三个ALM组和一个全局分支获得四个单独的预测我们应用深度监督[12,32]机制进行训练,其中四个单独的预测直接由地面实况标签监督。在推理过程中,多个预测向量通过一个有效的投票方案进行聚合,在不同的特征水平上产生最大的响应。直觉是-分成三个子集:9,500人用于培训,1,900人用于核查,7,600人用于测试。选取阳性率大于5%的35个属性进行评价。(2)RAP数据集[16]包含从26个室内监控摄像机收集的41,585张图像,其中每张图像都用72个细粒度属性进行注释。根据官方协议[16],我们将整个数据集分为33,268张训练图像和8,317张测试图像。只有51个阳性率大于1%的二元属性被选中进行评价。(3)PA-100 K数据集[20]是迄今为止最大的行人属性识别数据集,其中包含从室外监控摄像机收集的总计100,000张行人图像每幅图像都标注了26个常用属性。根据官方设置[20],整个数据集被随机分为80,000张训练图像,10,000张验证图像和10,000张测试图像。我们采用两种类型的指标进行评估[16]:(1)标签:我们计算平均准确度(mA)作为每个属性的正准确度和负准确度的平均值。mA标准可以用公式表示为:1微米。TP TN在这种设计之后,每个ALM应该直接将MA=I+I、(6)关于局部区域是否准确的反馈。如果我们只保留融合预测的监督(最大值或平均值),则梯度对于每个级别如何执行没有足够的信息,使得一些分支训练不足。最大投票方案被应用于选择最好的预测,从不同的水平与最准确的属性区域。具体来说,我们在每个阶段采用加权二进制交叉熵损失函数[13],公式如下:2Ni=1Pi Ni其中N是示例的数量,M是属性的数量;Pi和TP i分别为第i个属性的正例数和正确预测正例数;N i和TN i的定义类似。(2)基于实例:我们采用四个众所周知的标准:准确率、精确率、召回率和F1分数,细节省略。4.2.关键组件的有效性如表1所示,从BN-先启开始,1Li(y<$i,y)=−MΣMm=1γm(ymlog(σ(y<$m))(五)在基线上,我们逐渐附加每个组件和平均值,同时将其与几个变体进行比较。(1)属性本地化模块:我们首先评估+(1−ym)log(1−σ(y<$m),其中γm=e−am是第m个属性的损失权重,am是第m个属性的先验类分布,M是属性的数量,i表示第i个分支,其中i∈ {1,2,3,4},σ表示S形激活。的总的训练损失是通过对四个通过在最终层(incep_5b)嵌入ALM来简化ALM(没有信道注意力子网络)。mA和F1分数的增加证明了属性特异性定位的有效性。基于这一事实,我们进一步在不同的特征层(incep_3b,4d,5b)嵌入多个ALM,并且实现了更大的改进(3. 1%和1. mA和F1分别为3%单个损失:L=4. 实验4i=1 李岛考虑到模型的复杂性,我们在我们的框架中将层次的数量限制为三个。(2)自上而下的指导:其次,我们评估了拟议的4.1. 数据集和评估指标所提出的方法在三个公开可用的行人属性数据集上进行评估:(1)PETA数据集[1]由19,000张图像组成,具有61个二进制属性和4个多类属性。在大量工作[1,25]之后,整个数据集被随机划分特征金字塔结构,并与三种不同的蚂蚁,这是不同的,在如何结合来自不同层次的功能。第一种是通过逐元素添加来自不同级别的特征来实现的,如原始FPN [18],但性能下降。结果表明,如果我们忽略特征不匹配问题,一些重要的信息可能会消失。的5002❵❵表1.当逐渐将每个建议的组件添加到基线模型时,RAP数据集上的性能比较(最后一行除外)。同一组分的变体属于同一组。粗体表示我们最终框架中采用的设置。10.90.80.70.60.5图4.我们提出的方法和基线模型之间的RAP数据集上的属性方面的mA比较根据两个模型之间较大的mA,将条形图按降序排序。我们可以在一些细粒度属性上观察到显著的改进,例如. 光头,帽子和消声器。改进的级联版本实现了更好的结果(改进1. 0%,单位mA),这表明了高水平自上而下指导的成功此外,引入的通道注意子网络进一步将mA提高到80。61%通过调节通道间依赖性。(3)深度监督:如第3.3节所述,输入1级2级3级输入1级2级3级仅监督融合预测的梯度是没有足够的信息来说明每个级别是如何执行的,而一些分支的训练不足。针对这一问题,对不同级别的资产负债表进行了深入的监督机制培训。对于推理,实验结果表明,元素的最大值是一个更好的集成方法比平均,因为一些较弱的存在被忽略的平均。移除所有ALM而保持其他ALM不变导致显著下降(表1中的最后一行),这进一步证实了ALM的有效性。与基线模型相比,最终模型的性能得到了显著提高,提高了6. 1%和1. mA和F1指标分别为9%。图4显示了所提出的方法与RAP数据集上的基线模型之间的属性方面的mA比较。如图所示,所提出的方法在许多属性上实现了显著的改进,特别是一些细粒度属性,例如。23.第二十三章1%)、帽子(12. 4%)和消音器(13. 5%)。这些属性的准确识别表明了所提出的特定属性定位模块的有效性。4.3. 属性定位通过上述定量评价,我们可以观察到一些细粒度属性的显著改进。在本小节中,我们从不同的特征水平可视化本地化的属性区域进行定性分析。在我们的实现中,属性区域位于特征图内,而特征图像素和图像像素之间的对应关系不位于特征图内。(a) 背包(b)塑料袋(c)帽子(d)光头(e)文员(女)图5.不同特征级别的属性本地化结果的可视化最好用彩色观看。独特.对于相对粗糙的可视化,我们只需将特征级像素映射到输入图像上的感受野中心,如SPPNet [5]。如图5所示,我们显示了属于六个不同属性的几个示例,包括抽象和具体属性。正如我们所看到的,所提出的自适应层模型可以成功地定位这些具体的属性,例如。背包,塑料袋,帽子,进入相应的信息区域,尽管极端occlu-sions(a,c)或姿势差异(e)。在识别更抽象的属性Clerk和BodyFat时,ALM倾向于探索更大的区域,因为它们通常需要来自整个图像的高级语义。此外,还提供了一个故障情况,如图5(d)所示。当识别光头时,ALMs未能定位两个较低水平的预期区域。我们相信这个问题-我们的基线简体中文产品中心马F1基线75.7678.20单级ALM(5b)77.4579.14多层次的资产负债管理(3b、4d、5b)78.8979.50自上而下(添加)78.5179.42自上而下(级联)79.9379.91自上而下(渠道注意力)80.6179.98深度监督(平均化)80.7080.04深度监督(最大)(我们的)81.8780.16Oursw/o ALM78.9179.555003LEM起源于高度不平衡的数据分布,其中仅0. 4%的图像在RAP数据集中被标注为Bald- Head尽管这些局部化属性区域相对粗糙,但是对于重新识别属性来说仍然是可接受的,因为它们确实捕获了具有大重叠的这些最具区别性的区域。4.4. 不同的属性特定方法联系我们联系我们马F1刚性部分76.5678.84注意力面具78.3579.51属性区域81.8780.16表2.在RAP数据集上评估的不同属性特定本地化方法的实验结果。这项工作最重要的贡献是为每个属性定位一个单独的信息区域的想法,我们称之为属性特定的,在以前的作品中没有得到很好的研究。在这一小节中,我们进行实验,以证明我们提出的方法的优势,通过与其他特定属性的本地化方法,如视觉注意力和预定义的部分进行比较与图1中所示的属性不可知的注意力掩码和身体部位不同,我们将它们扩展到特定于属性的版本进行比较。首先,我们用一个空间注意力模块替换了所提出的ALM,同时保持其他模块不变,以便进行公平的比较。详细地说,我们为每个人生成单独的注意力掩码通过全局交叉通道平均层和3×3卷积层,如HA-CNN[17]。 为了一个-输入属性区域注意力遮罩刚性部件其他比较模型,我们将整个图像分为三个刚性部分(头、躯干和腿),并使用RoI池化层提取基于部分的特征,然后手动定义属性-部分关系,例如,仅从头部识别帽子。有关比较方法的更多细节见补充材料。实验结果列于表2中。正如预期的那样,所提出的方法大大优于其他两种方法(改进5。3%和3。5%(mA)。为了更好地理解差异,我们将其可视化,这些定位结果如图6所示。可以看出,由自适应层模型生成的属性区域是最准确、最有鉴别力的。虽然基于注意力的模型取得了不错的结果,但生成的注意力掩模可能会涉及不相关或有偏见的区域。在识别Box时,注意掩模不能覆盖预期的区域,并且我们还观察到,无论Box在哪里,它们都倾向于定位几乎相同的区域相比之下我们在补充材料中提供了更多的可视化结果。在某种程度上,依赖注意力面具和刚性部件的方法是两个极端。前者试图以高度自适应的方式完全覆盖信息像素,但大多数情况下失败,因为我们只有图像级注释。后者只是完全丢弃了自适应因素,这是不太强大的姿态变化。因此,所提出的方法试图实现这两个极端之间的平衡,通过约束的注意力区域的几个边界框,这相对粗糙,但更多图6.针对三种不同属性的不同属性特定本地化方法的案例研究:靴子(上),眼镜(中),和盒子(下).与图1不同的是,注意力遮罩和身体部位以特定于属性的方式应用可解释和可控制。4.5. 与现有技术方法的在本小节中,我们将我们提出的方法与几种最先进的方法进行了性能比较。如第2节所述,我们将这些方法 分 为 四 类 : ( 1 ) 整 体 方 法 , 包 括 ACN [28] 和DeepMar [13],首先采用CNN来联合学习多个属性。(2)基于语义的方法包括JRL [29]和GRL [36],它们都通过基于CNN-RNN的模型利用语义关系。(3)基于注意力的方法,包括依赖于多尺度注意力机制的HP-Net [20]和DIAA [19],以及通过粗略视图预测器执行视图特定属性预测的VeSPA [25]。(4)基于部件的方法包括最近提出的PGDM [15]和LG-Net [19],它们依赖于外部姿态估计或区域建议模块。表3和表4显示了三个不同数据集的比较结果。结果表明,我们提出的方法在所有三个数据集上的基于标签和基于实例的指标下都取得了优于现有工作的性能。与之前依赖于属性不可知注意或部分外定位机制的方法相比,该方法可以在所有数据集上实现显著的改进,50048数据集PETA说唱联系我们联系我们马AccuPrec召回F1马AccuPrec召回F1#PGFLOPS[第28话]81.1573.6684.0681.2682.6469.6662.6180.1272.2675.98--[13]第十三话82.8975.0783.6883.1483.4173.7962.0274.9276.2175.5658.5M0.72JRL [29]85.67-86.0385.3485.4277.81-78.1178.9878.58--JRL*[29]82.13-82.5582.1282.0274.74-75.0874.9674.62--GRL [36]86.70-84.3488.8286.5181.20-77.7080.9079.29>50M>10[20]第二十话81.7776.1384.9283.2484.0776.1265.3977.3378.7978.05--VeSPA [25]83.4577.7386.1884.8185.4977.7067.3579.5179.6779.5917.0M>3[24]第二十四话84.5978.5686.7986.1286.46-------PGDM [15]82.9778.0886.8684.6885.7674.3164.5778.8675.9077.3587.2M≈1[19]第十九话-----78.6868.0080.3679.8280.09>20M>4BN-inception82.6677.7386.6884.2085.5775.7665.5778.9277.4978.2010.3M1.78我们86.3079.5285.6588.0986.8581.8768.1774.7186.4880.1617.1M1.95表3.与PETA和RAP数据集上先前方法的定量比较我们将这些方法从上到下分为四类:整体方法、基于关系的方法、基于注意力的方法和基于部分的方法JRL* 是JRL的单一模型查准率和查全率指标在类不平衡的数据集中不太可靠,而mA和F1得分更有说服力。最佳结果以粗体显示。对于RAP数据集,我们进一步提供了参数数量(#P)和复杂度(GFLOPs)的比较。RAP数据集上的不同方法(表3中最右边的列)。 对于参数的数量,理论上,2是每个ALM中的全部(C+4C)可训练参数:4C82表4.PA-100 K数据集的定量比较证明了属性特定本地化的有效性尽管在PETA数据集上实现的mA得分略低于基于关系的方法GRL,但由于其更 强 大 的 Inception-v3 骨 干 网 络 ( 参 数 是 我 们 的 两倍),我们仍然可以在其他指标和数据集上胜过它们。在更具挑战性的数据集PA-100 K上,所提出的方法大大优于所有以前的工作,提高了3。7%和1。4%,mA和F1,分别超过第二个最好的结果。值得注意的是,所提出的方法超越了基线模型,具有显著的裕度,特别是在基于标签的度量mA(3. 6%,6. 1%,3。三个数据集分别为2%)。值得注意的是,所提出的方法往往达到较低的准确率,但较高的召回率,而这两个指标并不那么可靠,特别是在类不平衡的数据集。而且,这两个度量是逆相关的,即,一个度量的增加总是导致另一个度量的减小(例如,通过调制损失函数中的类权重)。mA和F1指标更适合测量属性识别模型的性能。我们的方法始终在这两个指标中获得最佳结果。我们提供了计算成本的比较,来自所述通道注意模块的C,其中C是输入通道的数量。如图所示,所提出的模型具有比以前的模型少得多的可训练在模型复杂度方面,即使有51个属性,所提出的模型仍然是轻量级的,因为只有0.17GFLOPs被添加到骨干网络。原因是ALM仅包含FC层(或1×1 Conv),其涉及的FLOP比3×3Conv层少得多 总的来说,整个模型要高效比以前的模型。5. 结论我们提出了一个端到端的框架,行人属性识别,它可以自动定位的属性特定的区域在多个特征水平。此外,我们应用了一个特征金字塔架构,以一种相辅相成的方式来增强属性定位和基于区域的特征学习。在PETA、RAP和PA-100 K数据集上的实验结果表明,该方法的性能明显优于大多数现有方法。大量的分析表明,该方法可以成功地定位最具信息的区域,为每个属性在弱监督的方式。致谢本工作部分得到了中国国家重点研究发展计划基金2017YFA0700904的支持,部分得到了中国国家自然科学基金基金61836014和61620106010的支持。数据集PA-100K方法马AccuPrec召回F1[13]第十三话72.7070.3982.2480.4281.32[20]第二十话74.2172.1982.9782.0982.53PGDM [15]74.9573.0884.3682.2483.29VeSPA [25]76.3273.0084.9981.4983.20[19]第十九话76.9675.5586.9983.1785.04BN-inception77.4775.0586.6185.3485.97我们80.6877.0884.2188.8486.465005引用[1] Yubin Deng,Ping Luo,Chen Change Loy,and XiaoouTang.远距离行人属性识别。在Proceedings of the 22 ndACM International Conference on Multime-dia , 第 789-792页[2] Rogerio Feris , Russel Bobbought , Lisa Brown , andSharath Pankanti.基于属性的人员搜索:从实际监测系统中吸取的经验教训。国际多媒体检索会议集,第153-160页,2014年[3] 傅建龙,郑和良,陶梅。看得更近些,看得更清楚:用于细粒度图像识别的递归注意卷积神经网络。在IEEE计算机视觉和模式识别会议集,第4438-4446页[4] 罗斯·格希克。快速R-CNN。IEEE国际计算机视觉会议论文集,第1440-1448页,2015年[5] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。IEEE Transactions on Pattern Analysis and MachineIntelligence,37(9):1904[6] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,第770-778页[7] 杰虎,李申,孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集,第7132-7141页[8] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少 内 部 协 变 量 偏 移 来 加 速 深 度 网 络 训 练 。 在International Conference on Machine Learning , 第 448-456页[9] Max Jaderberg,Karen Simonyan,Andrew Zisserman,Koray Kavukcuoglu.空间Transformer网络。在神经信息处理系统的进展中,第2017-2025页[10] Neeraj Kumar,Alexander C Berg,Peter N Belhumeur,and Shree K Nayar.用于人脸验证的属性和特征分类器在IEEE计算机视觉国际会议论文集,第365-372页[11] Ryan Layne,Timothy M Hospedales,Shaogang Gong,and Q Mary.按属性重新识别人员。2012年英国机器视觉会议论文集[12] Chen-Yu Lee , Saining Xie , Patrick Gallagher ,Zhengyou Zhang,and Zhuowen Tu.深度监督网络。人工智能和统计,第562-570页[13] Dangwei Li,Xiaotang Chen,and Kaiqi Huang.多属性学习在监控场景行人属性识别中的应用。IAPR亚洲模式识别会议论文集,第111-115页,2015年[14] Dangwei Li,Xiaotang Chen,Zhang Zhang,and KaiqiHuang. 在身体和潜在部位上学习深度上下文感知特征,用于人员重新识别。在IEEE计算机视觉和模式识别会议论文集,第384-393页[15] Dangwei Li,Xiaotang Chen,Zhang Zhang,and KaiqiHuang.用于监控场景中行人属性识别的姿势引导深度模型 。 IEEE International Conference on Multimedia andExpo,2018。[16] Dangwei Li , Zhang Zhang , Xiaotang Chen , HaibinLing,and Kaiqi Huang.一个用于行人属性识别的丰富注释数据集。arXiv预印本arXiv:1603.07054,2016。[17] Wei Li,Xiatian Zhu,and Shaogang Gong.和谐的关注网络,人的再认同。在IEEE计算机视觉和模式识别会议论文集,第2285-2294页[18] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集,第2117-2125页[19] Pengze Liu,Xihui Liu,Junjie Yan,and Jing Shao.行人属性识别的定位引导学习。在英国机器视觉会议论文集,2018年。[20] Xihui Liu,Haiyu Zhao,Maoqing Tian,Lu Sheng,JingShao , ShuaiYi , JunjieYan , andXiaogangWang.Hydraplus-net:用于行人分析的细心的深度特征。在IEEE计算机视觉国际会议论文集,第350-359页,2017年[21] Alejandro Newell,Kaiyu Yang,and Jia Deng.用于人体姿态估计的堆叠沙漏网络。欧洲计算机视觉会议论文集,第483- 499页,2016年[22] Peixi Peng , Yonghong Tian , Tao Xiang , Y
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功