基于图像级监督的多标签图像分类-空间正则化深度神经网络

157 浏览量更新于2023-10-16 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1输入图像云湖天阳......大洋岩日落水标签注意力地图CNN学习空间正则化云：0.803天空：0.945云：0.880天空：0.973湖泊：0.685太阳：0.339湖泊：0.679太阳：0.519海洋：0.974 日落：0.908岩石：0.405水：0.958海洋：0.966 日落：0.903岩石：0.526水：0.963基于图像级监督的空间正则化多标签图像分类朱峰1、2、李洪生2、欧阳万里2、3、余能海1、王晓刚2、1中国科技大学3、悉尼大学2、香港中文大学电子工程系zhufengx@mail.ustc.edu.cn，{hsli，wlouyang，xgwang}@ ee.cuhk.edu.hk，ynh@ustc.edu.cn摘要多标签图像分类是计算机视觉中一项基本而又具有挑战性的任务。近年来，对词与词之间语义关系的研究取得了很大进展然而，常规方法不能对多标签图像中的标签之间的潜在空间关系进行建模，因为通常不提供标签的空间注释。在这篇文章中，我们提出了一个统一的深度神经网络，它利用标签之间的语义和空间关系，只有图像级的监督。给定一个多标签图像，我们提出的空间正则化网络（SRN）为所有标签生成注意力图，并通过可学习的卷积捕获它们之间的潜在关系。通过将正则化的分类结果与ResNet-101网络的原始结果相结合，可以持续提高分类性能。整个深度神经网络仅使用图像级注释进行端到端训练，因此不需要在图像注释上进行额外的工作。在3个具有不同类型标签的公共数据集上的广泛评估表明，我们的方法显着优于最先进的技术，并具有很强的泛化能力。对学习后的SRN模型的分析表明，该模型能够有效地捕捉标签的语义和空间关系，提高分类性能。1. 介绍多标签图像分类是计算机视觉中的一项重要任务，具有各种应用，例如场景识别[4，30，31]，多对象识别[25，19，18]，人类属性识别[24]等。与已被广泛研究的单标签图像分类[6，7，12]相比，多标签问题更具实用性和挑战性，因为真实世界的图像通常与多个标签（如对象或属性）相关联。二进制相关性方法[34]是一种扩展单标签算法以解决多标签分类的简单方法，它只需为每个标签训练一个二进制分类器空间正则化网初始置信度正则化置信度图1.使用我们提出的空间正则化网络（SRN）来改进多标签图像分类的说明SRN学习语义和空间标签关系，从标签atten-tion地图，只有图像级的监督。在[11]中研究了各种损失函数。为了解决标签可能与整个图像上的不同视觉区域相关的问题，提出了基于提议的方法[38]，将多标签分类问题转换为多个单标签分类任务。然而，这些现有的单标签算法的修改忽略了标签的语义关系。多标签图像分类的最新进展主要集中在捕捉标签之间的语义关系。这种关系或依赖性可以通过概率图形模型[23，22]，结构化推理神经网络[16]或递归神经网络（RNN）[36]来建模。尽管通过利用语义关系实现了很大的改进，但现有方法不能捕获标签的空间关系，因为它们的空间位置没有被在本文中，我们建议通过统一框架中的空间正则化网络来捕获标签的语义和空间关系（图1），该框架可以仅使用图像级超视图进行端到端训练，因此不需要额外的注释。55135514近年来，深度卷积神经网络（CNN）[21，33，32，13]在单标签图像分类方面取得了巨大成功由于其在学习判别特征方面的强大然而，特征表示对于具有多个标签的图像可能不是最佳的，因为地面实况标签可能在语义上仅与图像的小区域相关多标签图像内容的多样性和复杂性使得学习有效的特征表示和分类器变得困难。受到最近在许多视觉任务中注意力机制的成功的启发[40，43，15]，我们提出了一种用于多标签分类的深度神经网络，它由一个子网络空间正则化网络（SRN）组成，用于学习仅具有图像级监督的标签之间的空间正则化SRN学习每个标签的注意力地图，将相关的图像区域与每个标签相关联。通过对所有标签的注意力图执行可学习的卷积，SRN捕获标签之间的潜在语义和空间关系，并充当多标签分类的空间正则化。本文的贡献如下。1)我们提出了一个用于多标签图像分类的端到端深度神经网络，它通过在标签的注意力图上训练可学习的卷积来利用标签的语义和空间关系。这种关系只能通过图像级别的监督来学习。实验结果表明，该模型能够有效地捕捉标签的语义和空间关系。2)我们提出的算法具有很强的泛化能力，并且可以很好地处理具有不同类型标签的数据。我们在3个公开可用的数据集上全面评估了我们的方法，NUS-WIDE [5]（81个概念标签），MS-COCO [25]（80个对象标签）和WIDER-Attribute[24]（14个人类属性标签），显示了对最先进方法的显著改进。2. 相关工作多标签分类在许多领域都有应用，例如文档主题分类[29，10]、音乐标注和检索[35]、场景识别[4]和基因功能分析[2]。一般多标签分类方法的全面综述见[34，44]。在这项工作中，我们专注于使用深度学习技术的多标签图像分类方法。将现有的单标签方法适应多标签的一种简单方法是为每个标签学习一个独立的分类器[34]。最近成功的深度学习特征[21]用于单标签图像分类，提高了多标签分类的准确性。基于这种深层特征，Gonget al. [11]评估了各种损失函数，发现加权近似排名损失在CNN中效果最好。基于建议的方法在对象检测中表现出有前途的性能[8]。类似的想法也被探索用于多标签图像分类。Weietal. [38]将多标签问题转换为一组关于区域建议的多类问题。整个图像的分类Yang等[42]将图像视为一个实例/建议包，并解决了一个多实例学习问题。上述方法忽略了多标签图像中的标签关系。还提出了学习捕获标签关系的方法Read等[28]通过训练二元分类器链扩展了二元相关性方法，其中每个分类器基于图像特征和先前预测的标签进行预测。一种更常见的方式建模标签关系的方法是使用概率图模型[20]。也有确定标签关系图的结构的方法。Xue等人[41]直接对标签相关矩阵进行阈值化以获得标签结构。Li等[23]使用标签互信息矩阵上的最大生成树来创建图。Li等[22]提出基于图形Lasso框架学习图像相关的条件标签结构[27]。最近，深度神经网络也被探索用于学习标签关系。Hu等人[16]提出了一种结构化推理神经网络，可以跨多个概念层传输预测。Wang等人[36]将多标签分类视为序列预测问题，并通过递归神经网络（RNN）解决标签依赖性。虽然通过学习标签的语义关系可以大大提高分类精度，但上述方法未能探索标签之间的注意力机制被证明在许多视觉任务中是有益的，例如视觉跟踪[3]、对象识别[26，1]、图像字幕[40]、图像问题回答[43]和分割[15]。当使用空间相关标签训练深度网络时，空间注意力机制自适应地聚焦于图像的相关区域本文利用注意力机制对多标签图像分类进行改进，捕捉标签间的空间关系，为最终的分类结果提供空间正则化。3. 方法我们提出了一种用于多标签分类的深度神经网络我们方法的总体框架如图2所示。主网具有与ResNet-101相同的网络结构[13]。提出的空间正则化网络（SRN）将主网的视觉特征作为输入，并学习正则化标签之间的空间关系。基于针对多个标签的学习的注意力图来利用这样的关系来自主网和SRN的标签置信度被聚合以生成最终分类置信度。整个网络是一个统一的框架，并以端到端的方式进行训练5515i、ji、jCLSCLSi、ji、j7×7主力净特征图：X最终预测CLS1414Y轴Res-2048逐元素y此外注意地图：AC14按元素相乘日14置信度图：SCy汇总attS形丢失空间正则化网14元素方面14乘法图2.我们方法的总体框架主网络遵循ResNet-101的结构，并为每个标签学习一个独立（下）所提出的SRN利用注意力机制捕获虚线表示注意力地图的弱监督预训练。3.1. 多标签分类的主网络主网络遵循ResNet-101的结构[13]，该结构由具有不同功能的重复构建块组成以使用注意力机制利用图像级监督来预测每个标签的这种相关图像区域。学习的注意力地图可以用来学习spa-不同的输出尺寸。具体来说，块结构建议[14]。 14×14特征图（用于标签的正则化给定输入视觉特征X∈R14× 14×1024从层224×224输入图像）“为每个单独的标签生成标签关注值，在我们的实验中学习空间正则化令I表示具有地面实况标签的输入图像，[y1，y2，.，其中y1是二进制指示符。yl=1，如果Z =f att（X;θatt）的情况下，Z∈R14×14×C，（3）图像I用标号l标记，否则yl=0。C是数据集中所有可能标签的数量。主网对C个标签中的每一个进行二进制分类，其中Z是由f a t t（·）得到的未归一化标签注意力值，每个通道对应于一个标签。下面[40]，Z用softmax函数空间归一化以获得最终标签注意力图A，X =f CNN（I;θ）CNN），X∈R14×14×1024，（1）aL=Σexp（zl）、A∈R14×14×C，（4）y∈cls=fcls（X;θcls），y<$cls∈RC，（2）i、ji、j exp（zl）其中X是来自层“res4b22 relu“的特征图ycls=[y1···，yC]T是预测的标签置信度，其中zl和l代表了非正常化和正常化-主网。主网的预测误差是基于y_s和地面实况标签y来测量的。建议的SRN由两个连续的子网络，其中第一子网络fatt（X;θatt）学习具有图像级监督的标签注意力图（第3.2节），第二子网络fsr（U;θsr）基于学习的标签注意力图捕获标签的空间正则化（第3.3节）3.2. 图像级监督多标签图像是由多个图像区域组成的图像，这些图像区域与不同的标签在语义上相关。Al-对于标签l，在（i，j）处的化注意值。直观，如果标签L被标记到输入图像，与则应该为其分配更高的关注值。注意力估计器 fatt（·）被建模为3个卷积层，分别具有512个1×1核、512个3×3核和C个1×1核。ReLU非线性操作在前两个卷积层之后执行。由于注意力地图的地面实况注释不可用，因此仅使用图像级多标签监督来学习fatt（X; θatt）。设xi，j∈ R1024表示X的位置（i，j）处的视觉特征向量.在原ResNet，视觉特征是一个跨越所有空间的视觉特征，尽管区域位置通常不由分类为1i、j1× 1×1024conv1Res-2048法阿特Res-2048步幅：2fcnnfsrF5516xi，j. 因为我们期望当预测一个标签每个标签的注意力图A1具有更高的值，存在，希望更多地关注标签相关区域的用户，以及i、jli，j对于所有的l=1，相关区域。在我们的工作中，我们的神经网络学习注意力地图可以用来加权平均一5517L每个标签的视觉特征X为，Σ男：0.82长发：0.10墨镜：0.85vl=i、jxi，jli，j，vl∈ R 1024.（五）与原始的所有标签共享的平均视觉特征相比L. 每个这样的特征向量然后被用于学习线性用于估计标签L的置信度的分类器帽子：0.07T恤：0.02长袖：0.96正式：0.87拉特 =W1v1+b1，（6）其中W和B是标签L的分类器参数。为L l1C T短裤：0.01牛仔裤：0.04长裤：0.98裙子：0.01所有标签，yatt=[yatt，···，yatt]. 只使用图像-水平监督y的训练，注意力估计器pa-参数是通过最小化y_tt和y之间的交叉熵损失来学习的（参见图2中的虚线）。注意力估计器网络fatt（·）可以有效地学习每个标签的注意力地图。学习注意力地图在图3中示出了用于图像的方法。实验结果表明，弱监督注意模型能够有效地捕捉到每个标签的相关视觉区域。例如，否定标签也集中在合理的区域，例如，为了有效地学习注意力地图，请记住，面掩模：0.01徽标：0.05条纹：0.02图3. 从WIDER- Attribute数据集学习注意力地图的示例。红色标签是地面实况标签。我们有i、jli，j=1，Eq. （6）可以改写为Σ注意力置信度（等式（8））。att=i、jli，j（W lxi，j+ bl）。（七）其中，σ（x）=1/（1+e−x）是连续的sigmoid函数，该等式可以被视为在特征图X的每个位置处应用标签特定线性分类器，然后基于注意力图在空间上聚合标签置信度。在我们的实现中，线性分类器被建模为具有大小为1×1的C内核的卷积层（此图层的输出为置信图 S ∈R14×14×C，其中它的第l个是Sl=Wl<$X+bl，其中n表示卷积运算。标签注意力图A和置信度图S是逐元素相乘，然后进行空间求和verts将置信度S标注为范围[0，1]，而verts表示元素乘法加权注意力图U对每个标签的局部注意力置信度和全局可见度进行编码，如图3所示。给定加权注意力图U，需要标签正则化函数来基于来自U的标签空间信息估计标签置信度，y∈sr=fsr（U;θsr），y∈sr∈RC，（9）其中y=r=[y=1，y=2，...，预测的标签符合SR SR SR以获得标签置信度向量y=t t。这个公式导致一个易于实现的网络学习标签在-张力，并生成置信度图，用于在SRN中对注意力图进行加权。3.3. 注意力地图的空间规则化标签注意图编码了标签的丰富空间信息它们可用于为标签生成更鲁棒的空间正则化。然而，每个标签的注意力地图总和总是1（见图3），这可能会突出错误的位置。从标签不存在的注意力地图学习可能会导致错误的空间规则化。因此，我们建议从加权注意力图U ∈R14×14×C中学习空间正则化，U =σ（S）A，（8）加权注意注意加权注意注意加权注意注意加权关注关注加权注意注意加权注意注意加权注意注意加权注意注意加权关注关注加权关注关注加权关注关注加权注意注意加权注意注意一加权注意注意y一y一5518通过标签正则化函数。由于所有标签的加权注意力图都是空间对齐的，因此很容易通过堆叠卷积操作来捕获它们的相对关系。卷积应该有足够大的感受野来捕捉标签之间的复杂空间关系。然而，简单的实现可能会有问题。如果我们只用一个卷积层有2048个大小为14 × 14的滤波器，那么附加参数的总数将为0。4C百万。对于具有80个不同标签的数据集，附加参数的实际数量将为3200万，相比之下，原始ResNet-101仅包含约4000万个参数。如此大量的附加参数将使得网络难以训练。我们建议在不同的卷积层中解耦语义关系学习和空间关系学习的5519C14141414日14 14直觉是，一个标签可能仅在语义上与少量其他标签相关，并且测量与那些不相关的注意力图的空间关系是不必要的。fsr（U;θsr）实现为三个具有ReLU非线性的卷积层，后面是一个全连接层，如图4所示。前两层使用2层1×1卷积捕获标签的语义关系，第三层使用2048个14×14内核探索空间关系。第三卷积层的滤波器被分组，每组4个内核对应于输入特征图的一个特征通道。四个人--加权注意力地图：Uconv2512个过滤器1x1xCconv3512过滤器1x1x512conv42048过滤器14x14x1组：512每个组中的通道独立地卷积相同的特征通道。一组中的不同内核捕获语义相关标签的不同空间关系。实验结果表明，该方法仅需增加约600万个参数，就能有效地基于标签的语义和空间关系对分类结果进行正则化.3.4. 总体网络和培训计划最终的标签置信度是主网络和SRN的输出的聚合，y=αycls+（1−α）ysr，其中α是加权因子。虽然因子也可以学习，但我们固定α = 0。5、不观察性能下降。整个网络是用交叉熵损失和地面真值标签y训练的，ΣCFloss （y ，y）=yllogσ （ yl ）+（1−yl ） log（1−σ（yl））。l=1（十）我们在多个步骤中训练网络。首先，我们只对目标数据集上的主网进行微调，该主网是在ImageNet数据集的1000分类任务上进行预训练的[6]。fcnn（I;θcnn）和fcls（X; θcls）都是通过交叉项损失Floss（y，ycls）学习的。其次，我们修复fcnn和fcls，并专注于训练fatt（X;θatt）和“conv 1”（见图2中的虚线），损失为F l os s（y，y ≤ t t）。第三，我们通过固定所有其他子网络来训练具有交叉入口损失Floss（y，y∈sr）的fsr（U;θ最后，利用损耗Floss（y，yt）+Floss（y，ytt）对整个网络进行联合微调。我们的深度神经网络是用Caffe li实现的[17]。为了避免过度拟合，我们采用了[37]中建议的图像增强策略。首先将输入图像的大小调整为256×256，然后在四个角和中心进行裁剪裁剪面片的宽度和高度从集合{256，224，192，168，128}中随机选择。Fi-最后，裁剪的图像都被调整为224×224。我们采用随机梯度下降算法进行训练，批量大小为96，动量为0.9，重量衰减为0.0005。初始学习率设置为10−3，当验证损失饱和时，将其降低到前一个值的1/10，直到10−5。我们训练我们的模型 4个NVIDIA Titan X GPU。对于MS-COCO，所有步骤的培训时间约为16小时。为了测试，我们简单地调整将所有图像调整为224×224，并进行单次裁剪评估。图4. 从加权注意力图学习空间正则化的f sr（·）的详细网络结构。前两层（ev-ery 4滤波器通过“conv 3”与相同的特征通道卷积4. 实验我们的方法使用三个具有不同类型标签的基准数据集进行评估：NUS-WIDE [5]有81个概念标签，MS-COCO [25]有80个对象标签，WIDER-Attribute [24]有14个人类属性标签。实验结果表明，我们的方法在所有三个数据集1上的性能明显优于现有技术，并且对不同类型的标签具有很强的泛化能力。对学习的深度模型的分析表明，我们提出的方法可以有效地捕获标签的语义和空间关系。4.1. 评价指标和比较方法评估指标。多标签分类评价指标的综合研究见[39]。我们采用宏观/微观精度，宏观/微观召回，宏观/微观F1-措施，和平均平均精度（mAP）的性能比较。对于精确度/召回率/F1度量，如果任何标签的估计标签置信度大于0.5，则标签被预测为阳性。宏观精度（表示为“P-C”）通过平均每类精度来评估，而微观精度（表示为“P-O”）是对所有类上的所有图像的真实预测进行计数的总体度量。同样，我们还可以评估宏观/微观回忆（“R-C”/“R-O”）和宏观/微观F1测量（“F1-C”/“F1-O”）。Mean Average Precision是每类平均精度的平均值。上述度量不需要每个图像的固定数量的标签。一般情况下，mAP、F1-C和F1-O是比较重要的。为了与最先进的技术进行公平比较，我们还在每个图像都用前3个标签预测的约束下评估了精确度，召回率和F1度量。为了在我们的方法中获得这样的前3个标签，获得具有最高置信度的3个标签1代码和训练模型可在https://github.com/zhufengx/SRN_multilabel上获得。5520方法所有前3地图F1-CP-CR-CF1-OP-OR-OF1-CP-CR-CF1-OP-OR-OKNN [5]-------24.332.619.347.642.953.4[第11话]-------33.531.735.653.948.660.5CNN-RNN [36]-------34.740.530.455.249.961.7ResNet-101 [13]59.855.765.851.972.575.969.547.046.956.861.755.869.1ResNet-10759.555.665.452.272.675.570.046.946.756.861.855.969.2ResNet-101-语义60.154.969.348.672.676.968.847.046.455.361.855.969.2ResNet-SRN-att61.856.967.552.573.276.570.147.747.457.762.256.269.6ResNet-SRN62.058.565.255.873.475.571.548.948.258.962.256.269.6表1. 我们提出的ResNet-SRN的定量结果和NUS-WIDE数据集上的比较方法。在求平均值之前，针对每个类别评估“mAP”、“F1-C”、“P-C”和“R-C”。“F1-O”, “P-O”, and “R-O” are averaged over all sample-label即使它们的置信度值低于0.5.然而，我们认为，为每个图像输出可变数量的标签对于现实世界的应用程序更实用因此，我们报告了有和没有top-3标签约束的结果。比较方法。对于NUS-WIDE和MS-COCO数据集，我们比较了数据集上的最先进方法，包括CNN-RNN[36]，WARP [11]和KNN [5]。CNN-RNN探索了标签的语义关系，而其他方法没有。对于WIDER属性数据集，比较了 RCNN [8] ， R*CNN [9] 和 DHC [24] 。R*CNN和DHC都探索了围绕人类边界框的空间上下文。对于我们的方法（表示为它被表示为我们还设计了三种基线方法来进一步验证我们提出的空间正则化网络的有效性。第一个基线是在每个数据集上微调的原始 ResNet-101 （简称为 “ResNet-101”）。对于第二个基线，由于与ResNet-101相比，所提出的SRN具有大约600万个额外参数，这大约等于具有2048个输出特征通道的两个ResNet构建块，因此我们在ResNet-101的最后一个块（层“res 5c relu”）之后添加两个这样的残差块对于第三个基线，我们研究了基于ResNet-101的初始标签置信度的标签语义关系的学习。初始置信度与来自“pool5”层的视觉特征连接两个2048-神经元和一个C-神经元全连接层尝试从级联特征中捕获标签语义关系在我们的实验中，我们将此模型称为4.2. 实验结果NUS-WIDE[5].该数据集包含来自Flickr的269，648张图像和相关标签。该数据集由81个概念手动注释，平均每个图像具有2.4个概念标签。这些概念包括事件/活动（例如，“swimming”“ocean”“animal”我们训练我们的方法来预测81个概念标签。使用正式的列车/试验划分，即：161，789张图像用于训练/验证，107，859张图像用于测试。该数据集的实验结果如表 1 所示。我们提出的ResNet-SRN及其变体ResNet-SRN-att优于所有最先进的和基线模型。随着深度网络结构的进步，即使是我们的基线ResNet-101也取得了比现有最先进技术更好的性能。这主要是由于ResNet-101具有深度可学习层的学习能力。当添加更多层以匹配我们提出的SRN的参数大小时，ResNet-107显示出与ResNet-101非常接近的性能，这表明ResNet-101的容量在NUS-WIDE上是足够的，并且添加更多参数不会导致性能增加。利用预测标签作为上下文（ResNet-101-semantic）并不能提高该数据集的性能相反，通过探索-通过分析标签的空间和语义关系，我们提出的ResNet-SRN模型比所有基线方法的性能高出0.2%。这表明，学习的标签空间关系为多标签图像分类提供了良好的正则化fication.我们的ResNet-SRN相对于ResNet-SRN-att的性能增益表明，加权注意力图U比未加权注意力图A在学习空间正则化方面提供的信息更多。强制算法为每个图像预测固定数量的标签（在最先进的方法中提出k=3）可能无法完全反映算法的实际性能。当去除约束时（第4. 1节），我们可以观察到显著的性能改进（例如，从48.9对于ResNet-SRN的F1-C度量为58.5）。MS-COCO[25].该数据集主要是为场景理解背景下的对象识别任务而构建的。训练集由82，783幅图像组成，其中包含场景中的常见对象。这些对象被分为80类，每幅图像大约有2.9个对象标签由于测试集的真实标签不可用，我们在验证集（40，504张图像）上评估了所有方法每个图像的标签数量在此MS-COCO上变化很大在[36]之后，当使用前3个标签预测进行评估时，我们用概率5521方法所有前3地图F1-CP-CR-CF1-OP-OR-OF1-CP-CR-CF1-OP-OR-O[第11话]-------55.759.352.560.759.861.4CNN-RNN [36]-------60.466.055.667.869.266.4ResNet-101 [13]75.269.580.863.474.482.268.065.984.357.471.786.561.3ResNet-10775.469.780.963.774.582.168.266.184.457.671.886.461.4ResNet-101-语义75.569.981.163.874.882.168.666.284.357.772.086.361.8ResNet-SRN-att76.170.081.263.375.084.167.766.385.857.572.188.161.1ResNet-SRN77.171.281.665.475.882.769.967.485.258.872.987.462.5表2. 我们提出的ResNet-SRN的定量结果和MS-COCO验证集上的比较方法。“mAP”, “F1-C”, “P-C”, and对于每个图像，小于0.5，因此图像可以返回小于k=3个标签。MS-COCO的定量结果见表2。比较结果与NUS-WIDE上的结果相似。基于ResNet-101网络，所有基线模型的性能优于最先进的方法。ResNet- 107显示了比ResNet-101的微小改进。由于每个图像有更多的标签（MS-COCO上有3.5个标签，NUS-WIDE上有2.4个标签），通过ResNet-101-semantic探索标签语义关系是有帮助的，但是改进是有限的（例如，从75.2到75.5（按mAP计算）。ResNet-SRN和ResNet-SRN-att都显示出优于基线模型的性能，而从加权注意力图学习的空间正则化表现更好（例如，ResNet-SRN将mAP提升到77.1，与ResNet-SRN-att的76.1相同）。WIDER属性[24].该数据集包含13，789张图像和57，524个人类边界框。该任务是预测每个注释的人的14个人类属性的存在。每个图像还被标记为来自30个事件类的事件标签，用于上下文学习。在我们的方法中，基于边界框标记从完整图像中裁剪出人，然后用于训练和测试。培训/验证和测试集分别包含28，340和29，177人。WIDER-Attribute 还包含未指定的标签。我们在训练过程中将这些未指明的标签视为阴性标签在[24]的设置之后，未指定的标签被实验结果示于表3中。所有ResNet模型都优于最先进的R-CNN [8]，R *CNN [9]和DHC [24]，并且我们提出的ResNet-SRN表现最好。值得注意的是，R*CNN和DHC通过将完整图像和人类边界框作为输入来探索目标人类周围的视觉上下文与每个图像相关联的事件标签也用于DHC中的训练。相比之下，我们的方法和基线只有uti-裁剪图像补丁，而不使用事件标签。尽管如此，ResNet-SRN和ResNet-SRN-att显示出与最先进的基线方法相比的一致改进。这一结果表明，所提出的SRN可以捕获与图像级监督的人类属性的空间关系，这些学习的空间正则化可以帮助预测人类属性。方法所有地图F1-CF1-OR-CNN [8]80.0--R*CNN [9]80.5--卫生署署长[24]81.3--ResNet-101 [13]85.074.780.4ResNet-10785.074.880.6ResNet-101-语义85.174.880.5ResNet-SRN-att85.474.980.8ResNet-SRN86.275.981.3表3. 我们提出的ResNet-SRN的定量结果和WIDER属性数据集上的比较方法。“mAP”and “F1-O” is aver- aged over allsample-label4.3. 可视化和分析我们的方法的有效性已经在表1，2和3中进行了定量评估，我们可视化并分析了来自SRN的conv4层的学习神经元，以说明其学习标签空间正则化的能力。我们观察到，学习神经元捕获两种类型的标签空间信息。一种类型的神经元捕获单个标签的空间位置，而另一种类型的神经元仅在几个标签具有特定的相对位置模式时才被激活我们计算了学习神经元响应与图像中标签位置之间的相关性，发现一些神经元与单个标签的空间位置高度相关。在图5中，我们展示了两个这样的例子。在（a）中，SRN中的神经元#425对在（b）中，“conv4”的神经元#1199的激活它表明，这两个神经元专注于某些标签的空间位置。在图6中，我们示出了来自WIDER-属性数据集的三个图像，其在SRN中的“conv 4”的神经元#786上具有最高激活图像具有共同的标签（这表明这个神经元被训练来捕捉四个标签的语义和空间关系，并倾向于它们之间的特定相对位置5522激活：0.87激活：0.87激活：0.87激活：1.35激活：0.76激活：0.68高活化低活化高活化低活化....................................WIDER-属性，神经元：“conv 4”的#425与垂直位置的相关性：0.72NUS-WIDE，Neuron：“conv 4”与垂直位置的相关性：0.71(a)（b）第（1）款图5.神经元激活和标记位置之间的相关性。这两个神经元对相应标记的位置变化敏感。激活：6.19男长袖正式长裤太阳镜激活：4.64男长袖正式长裤太阳镜激活：4.57男长袖正式长裤太阳镜图6. 来自WIDER-属性数据集的“conv 4”的神经元#786的前3个激活的图像真阳性标记用红色标记。四个标签（“Male”、“longSleeve”、“formal”、“longPants”）之间的强空间和语义关系我们还分析了COCO中所有课程的AP改进。如图7所示，我们的方法对于在相同图像中具有更多共存标签的类更有效，因此可以更好地利用空间关系来正则化结果。对于类烤面包机，由于训练样本数量有限，它没有得到5. 结论在本文中，我们的目标是提高多标签图像分类，通过探索标签的空间关系。这是通过仅使用图像级监督来学习所有标签的注意力图，然后基于加权注意力捕获标签的语义和空间关系来图7. 上图：COCO中每个班级AP的提高。Bot- tom：每个类别的真阳性图像的并发标签的平均数量所有这些都是根据AP的改进进行排序的。地图对NUS-WIDE、MS-COCO和WIDER-Attribute数据集的广泛评估表明，我们提出的空间正则化网络显著优于最先进的网络。学习模型的可视化也表明，我们的方法可以有效地捕获标签的语义和空间关系。6. 确认这项工作得到了国家自然科学基金61371192号基金的支持，商汤科技集团有限公司的支持，香港研究资助局的一般研究基金的支持，基金编号：CUHK14213616，CUHK14206114，CUHK14205615，CUHK419412，CUHK14203015，中大14239816及中大14207814，部分由香港创新及科技支援计划ITS/121/15 FX资助，部分由博士学位授予人中国博士后科学基金项目资助20130185120039，部分项目资助2014M552339。激活：6.14激活：5.53激活：5.06激活：-3.66激活：-3.96激活：-4.20激活：6.28激活：5.83激活：5.64激活：-4.15激活：-4.18激活：-4.315523引用[1] J. Ba、V. Mnih和K. Kavukcuoglu多目标识别与视觉注意。ICLR，2015年。2[2] Z.巴鲁特库奥卢河E. Schapire和O. G.特洛伊斯卡娅基因功能的高效多标记预测。Bioinformatics，22（7）：830-836，2006. 2[3] L. Bazzani，H.拉罗谢尔河谷Murino，J.- a. Ting和N. D.弗雷塔斯学习注意力策略，用于使用深度网络跟踪和识别视频。InICML，2011. 2[4] M. R. Boutell，J. Luo，X. Shen和C. M.布朗学习多标签场景分类。Pattern recognition，37（9）：1757-1771，2004. 一、二[5] T.- S. Chua，J. Tang，R. Hong，H. Li，Z. Luo和Y.郑Nus-wide：来自新加坡国立大学的真实网络图像数据库。在2009年ACM图像和视频检索国际会议。二、五、六[6] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。一、五[7] L.费费河Fergus和P.佩洛娜从几个训练示例中学习生成视觉模型：增量贝叶斯方法测试101对象类别。计算机视觉与图像理解，106（1）：59-70，2007。1[8] R.娘娘腔。快速R-CNN。在ICCV，2015年。二六七[9] G.基奥沙里河Girshick和J.马利克使用r*cnn进行上下文动作识别。在ICCV，2015年。六、七[10] S. Godbole和S. Sarawagi多标记分类的判别方法。2004年太平洋-亚洲知识发现和数据挖掘会议。2[11] Y. 贡，Y.贾氏T.Leung、黄毛菊A.Toshev和S.约菲多标签图像注释的深度ICLR，2014年。一、二、六、七[12] G. Griffin，A. Holub，和P.佩洛娜加州理工256目标分类数据集。2007. 1[13] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。二三六七[14] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。在ECCV，第630-645页，2016年。3[15] S.洪，J。哦，B。Han和H.李你用深度卷积神经网络学习语义分割的可传递知识。CVPR，2016年。2[16] H. Hu，G.- T. Zhou，Z.邓氏Z. Liao和G.森学习结构化推理神经网络与标签关系。CVPR，2016年。一、二[17] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构 arXiv 预印本 arXiv ：1408.5093，2014。5[18] K. 康，H.Li，J.Yan，X.曾湾，澳-地Yang，T.肖氏C.张先生，Z. 王河，巴西-地Wang，X.wang等人T-cnn：Tubelets与卷积神经网络用于视频对象检测。arXiv预印本arXiv：1604.02532，2016年。1[19] K.康，W。欧阳，H. Li和X.王.用卷积神经网络从视频tubelets中检测目标在IEEE计算机视觉和模式识别会议论文集，第817-825页1[20] D. Koller和N.弗里德曼概率图形模型：原理与技术。MIT Press，2009. 2[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。2[22] Q. Li，M.乔，W. Bian和D.涛.用于多标签图像分类的条件图形套索。在CVPR，2016年。一、二[23] X. Li，F. Zhao和Y.小郭。基于概率标签增强模型的多标签图像Proc. Uncertainty in Artificial Intell，2

下载后可阅读完整内容，剩余1页未读，立即下载