多标签卷积神经网络的高效端到端学习及交互式学习方法

129 浏览量更新于2023-10-25 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1使用部分标签的东北大学huynh. husky.neu.eduEhsan Elhamifar东北大学eelhami@ccs.neu.edu摘要我们解决了多标签卷积神经网络（CNN）在训练具有部分标签的图像上的高效端到端学习问题使用部分标签训练CNN我们引入了一个新的损失函数，该损失函数用一个成本函数来规范交叉熵损失，该成本函数测量数据流形上图像的标签和特征的平滑度。鉴于在CNN参数上优化新的损失函数需要学习标签和图像之间的相似性，这本身取决于知道CNN的参数，我们开发了一个有效的交互式学习框架，其中相似性学习和CNN训练的两我们的方法学习CNN参数，而不需要将所有训练数据保存在内存中，允许仅为每个小批量中的图像学习一些信息相似性，并处理不断变化的特征表示。通过在Open Images、CUB和MS-COCO数据集上的实验，验证了该方法的有效性。特别是，在大规模Open Images数据集上，我们在5，000个类的mAP得分中将最先进的水平提高了1.02%。1. 介绍在图像中找到所有标签，称为多标签识别[1，2，3]，是一个基本的学习问题，具有广泛的应用，包括自动驾驶汽车，监控系统和辅助机器人。虽然深度卷积神经网络（CNN）在单标签图像分类方面表现出了很好的性能，但它们对多标签识别的适应性面临着重大挑战，特别是在具有大量标签的实际问题中。首先，训练多标签CNN需要为大量图像收集多标签注释，这比单标签注释要困难得多[4]。事实上，许多现有的多标签数据集，如MS-COCO [5]，YahooFlickr[6]和Open Images [7]，包含只有图像的小部分标签。因此，假设可以访问图像的完整标签的多标签学习方法[8，9，10]不适用。此外，通过将缺失的标签视为否定来训练CNN[2，11，12，13，14，15]会导致显着的性能下降，因为许多真实的正标签被错误地标记[16，17]。另一方面，通过简单地将其转换为多个单标签分类问题并通过排名[18]或交叉熵[19]损失进行训练，使CNN适应多标签分类无法对标签之间的依赖关系进行建模，这对于处理部分标签特别重要。最后，使用低秩学习[20，21，22，23]或半监督学习[24，25]处理部分标签的多标签学习方法通常不允许端到端训练，因为它们需要知道和固定图像的特征表示来学习分类器参数，或者需要解决内存中所有训练数据的代价高昂的优化问题。在本文中，我们通过学习和利用交互式方案中标签和图像之间的依赖关系，开发了一个有效的框架，用于我们引入了一个新的损失函数，该损失函数用一个成本函数来规范标准的二进制交叉熵损失，该成本函数测量数据流形上图像的标签和特征的平滑度。考虑到在CNN参数上优化新的损失函数需要学习标签和图像之间的相似性，这本身取决于知道CNN的参数，我们开发了一种有效的交互式学习方案，其中相似性学习和CNN训练的两个步骤相互作用并提高彼此的性能，见图1。更具体地说，修复CNN，我们通过最小化平滑损失来学习标签和图像依赖性固定依赖关系，我们优化CNN参数的总损失，并重复这两个步骤，直到收敛。我们的方法允许以端到端的方式学习CNN，而无需将所有训练数据保存在内存中。不像昂贵的基于图的学习算法，需要建立和操作整个图的邻接或拉普拉斯[22，25，23]，我们的方法允许学习一些信息相似性，只有图像在每个94239424图1：左：我们提出的半监督多标签识别框架由CNN分类器和自适应相似性学习器组成，它们在训练过程中相互作用并提高彼此的性能。右：通过与以下各项的交互来可视化所学习的图像和标签相似性图在Open Images数据集上训练CNN 我们展示了通过初始CNN（t = 0）学习的图像和标签相似性以及在最后一个交互学习步骤（t=Tf）学习的最终相似性。minibatch和处理不断变化的特征表示。我们的方法借鉴了半监督学习的思想，然而，与半监督多标签学习不同，它允许更新图像的特征表示并使用部分标签处理训练数据。通过大量的实验，我们表明我们的框架优于现有技术，特别是，在5,000个标签上，大规模Open Images数据集上的mAP得分提高了1.02%。2. 相关工作多标签学习的第一步工作将每个标签预测视为独立的二进制分类问题[26]。然而，当标签数量很大时，它是不可扩展的，将丢失的标签视为负面的，这导致性能下降，并且忽略了标签之间的依赖关系为了克服最后一个挑战，大多数现有的多标签学习工作都试图将标签之间的依赖关系结合起来。特别是，几种方法使用图形模型[8，9，10]，通过使用马尔可夫随机场学习标签出现和共现势函数。然而，它们需要知道训练数据的完整标签，并且难以处理大量标签，因为要学习的参数数量将变得非常大。为了处理部分标签，一些作品将缺失的标签视为负标签[2，11，12，13，14，15，27]。However, this could result in significantperformance drop since many ground- truth positive labelsare falsely annotated [16].另一方面，半监督多标签学习假设访问具有完整标签的图像子集以及大量没有标签或具有部分噪声标签的图像[28，24]。当图像和标签依赖性通过标签-标签图和图像-图像图合并时[29]，这些方法需要数据的已知和固定的特征表示，这不允许CNN的特征学习或微调。虽然[30]学习了用于标签传播的自适应图，但由于其转导性质，它无法推广到新图像，并且无法扩展到大型数据集。此外，具有带有完整标签的图像子集的假设可能是限制性的，这也是困难的。不同于本文中考虑的部分标签设置，其中所有训练图像仅包含地面真实标签的子集。课程学习，自我训练，也称为自举[31，32，33，34]试图通过使用可用的注释为每个标签学习二进制分类器和添加未注释的图像之间的交替来增加标签的数量。[3]进一步结合了图神经网络和课程学习，以在利用未标记数据的同时捕获标签识别。然而，课程学习和一般的自我训练遭受语义漂移，因为接收不正确标签的未注释图像为了缓解这个问题，约束自举[32]在标签之间引入了正相关和负相关。然而，它需要在图像和属性分类器之间建立完整的图，当处理大量的标签和图像时，很难获得和训练。为了有效地处理部分标签，[22]通过混合图编码标签依赖网络，而[4，14]学习标签之间的相关性以预测一些缺失的标签。另一方面，[23]将线性相关假设推广到结构化语义相关。几种方法通过概率模型将缺失标签视为隐藏变量，并通过后验推理预测缺失标签[35，36，37]。[38]中的工作将缺失的标签建模为负数，并通过学习对标记偏差建模的多标签分类器的输出进行变换来纠正引起的错误。与这些方向正交，[39，40，41]利用标签之间和图像之间的相关性，使用稀疏/低秩正则化来完成图像标签矩阵，而[20]将问题公式化为低秩经验风险最小化。然而，这些工作中的大多数不能用于学习深度CNN，因为它们需要了解和修复图像的特征，需要将所有训练数据保存在内存中，或者需要解决无法扩展到大型数据集的昂贵优化。在本文中，我们开发了一个框架，允许使用部分标签进行有效的端到端CNN训练，并且可扩展到大量标签和图像。9425j，ij=1Wjj=1CSj，ij，ii注1请注意，[42，43]中关于部分多标签学习的工作，假设所有缺失的标签都是负的，而正标签的子集是真的，这与本文研究的部分标签设置不同，其中缺失的标签可以是正的或负的。3. 交互式多标签CNN学习我们考虑通过CNN的多标签识别问题，其目标是找到图像的所有标签。由于-N，我们有N个训练图像I1，. . .，IN，对于每个，我们观察到一些积极和消极的标签，许多标签的值丢失。设C是所有标签的集合。为一个图像i，我们用下式表示它的观测标签集：由{ y o } j∈C和观察到的标签的值，其中yo∈ {−1，+1} 表示图像 i 中标签 j 的存在（ +1 ）或不存在（−1）。我们的目标是找到完整的标签向量y i∈{−1，+1}| C|并有效地训练一个多标签CNN，每个标签的正图像和负图像的数量令w表示CNN的参数，直到特征3.1.1标签和图像相关平滑度损失给定部分标签和每个标签的少量注释因此，我们通过考虑损失函数Ls（·）来正则化训练，该损失函数根据标签之间的依赖性和相似性将预测约束为平滑的，在图像之间。标签依赖平滑度。我们首先使用一个结构已知的标签图，捕捉标签之间的依赖关系，但它的连接权重将被学习。为此，我们测量训练集中每对标签的共现率对于每个标签，我们选择k个最常出现的标签来连接。我们利用图的结构来约束由边连接的分类器的训练对，同时通过我们的框架学习连接权重。具体来说，让yj，i=yo，j∈i，yj，i=2pj，i−1，j∈/i，（3）其中我们conv ertpj，i∈[0，1]，这是提取层（最后一层之前的层）和{θ j}| C|表示具有标签j到y的图像ij，i∈[−1，+1]。换句话说，参数|C| Logistic回归模型在最后我们使用CNN估算缺失的标签标签-标签CNN的层我们用f i表示，fw（Ii）特征矩阵A，[aj′，j]∈R|×| C|C|，其非零支持度为图像的向量i.3.1. 拟议框架我们提出了一个有效的框架，用于使用部分标签进行多标签CNN学习，该框架由两个组成部分组成：多标签CNN分类器和自适应模拟器。表示依赖强度，但其权重{aj′，j}j，j′∈C是未知的。设Qj表示图上标签j的邻居的集合，即，与标签相关标签集J.我们提出了一个模型，其中每个标签的图像可以确定的语义相似的图像的相关标签。更具体地说，我们认为模型larity学习者。相似性学习利用CNN的现有知识发现标签之间和图像之间的依赖性。我们使用学习到的相似性来定义一个预测平滑损失，使训练规则化. Σyj，i=tanhi′ci′，iΣj′∈Qjaj′，jyj′，i′Σ、（四）CNN通过标准的二进制交叉熵损失，可用标签。更具体地说，为了学习参数，.Σ网络的，w，{θ}| C| ，我们建议尽量减少其中图像i的标签j由直线确定，相邻标签j′的耳组合（具有系数aj′，j）在语义上相关的图像i′（具有系数跟随损失函数ci′，i）.这里，ci′，i表示语义相似的程度minΣL（i）.w，{θ}|C|Σ+L（i）.Σw，{θ} |C|、伊伊正切双曲函数tanh映射结果为[-1，+1]。例如，如果图像i'con-w，θ1，...，θ| C|C我jj=1sjj=1（一）标记“灌篮高手”类似于图像i，我们期望“灌篮高手”及其相关的标记，例如“篮球”其中L（i）是针对im的交叉熵分类损失年龄i，其由观察到的图像标签{y0;i=也出现在i。因此，我们将标签平滑度损失定义1、. - 是的- 是的，N，j ∈ {i，j}为j，i¨（i），. Σ-tanhc′艾Σ¨2（5）ΣL（i），−yo log（pj，i）+（1−yo）log（1−pj，i），（2）义我，我我¨i′2Cj∈ij，ij，i以测量与（4）相关联的误差，其被重写矢量形式。其中pj，i是分类器j针对图像i的输出。对另一方面，L（i）是平滑损失，其根据可学习的标签和图像，强制图像i的预测标签和学习特征在数据流形9426相似之处，我们接下来讨论。图像相关平滑度。作为对标签平滑损失的补充，我们还定义了一个特征平滑损失来增强图像流形上的平滑性我们假设包含许多共享/相似标签的相似图像具有相似的视觉特征。更具体地说，我们9427j，iiSi=1i=1j=1S每个图像的特征向量也可以近似算法1：交互式多标签CNN学习被写为语义相似图像的特征向量的线性组合，并且定义输入：训练集.（Ii，{yo}j∈N）Σi =1，…N|C|(i)¨Σ¨2布拉夫，<$f i−c<$i′，if i′<$2.（六）i′系数{c′i，i}表示图像特征之间的相似性而相似系数ci′，i和ci′，i取不同的值，它们都必须导致选择与图像i语义相似的相同图像，即，它们必须具有相同的非零支持。我们定义平滑损失函数，1：初始化CNN参数w，{θj}j=12：重复3.自适应相似性学习：4：修复CNN5：通过算法2求解（7）中的相似度{ci′，i，c′i′，i}6：通过梯度下降求解（7）中的标签权重{aj′，j}7：约束CNN学习：8：修复图像和标签的相似性9：通过损失函数的反向传播训练CNN（1）。10：直到收敛输出：最佳CNN参数（w，{θ} |C|）、标签和IM-（5）和（6）中的损失，年龄相似度{αj′，j}，{ci′，i，c<$i′，i}jj=1L（i）.w，{θ j}|C|Σ ， minλy<$（i）+λf<$（i）（七）sj=1{ci′，i，c′i′，i}∈Ryf{aj′，j}这需要对图像进行优化，从而学习图像，{ci′，i，c′i，i}和标记{aj′，j}相似性。这里，λy，λf≥0是正则化参数（因为我们添加了平滑-3.2. 交互式学习算法通过（1）的最小化来学习CNN的参数并不简单，因为计算每个L（i）需要求解标签和图像相似性系数，对于（1）中的交叉熵损失，我们使用两个正则化参数）。最小化必须考虑到反过来，需要知道所有标签{yi}N{fi}N的图像，这是未知的。和特征考虑到每个图像i的相似图像必须相同。因此，我们将约束集R定义为为解决这个问题，我们建议尽量减少（1）中的损失函数经由交替优化方案，，Σ。¨Σ但是，这导致交互式地学习CNN参数，R，cj，i，c<$j，i≥0，JI？j，i，c？j，i？≤k，ni，j、（8）随着时间的推移提高相似性，参见算法1。更具体地，在自适应相似性学习步骤中，给出当前CNN参数，我们计算丢失的标签其中，I（·）是指示函数，当其为rgu时为1元素为非零，否则为零。Giv enthatcj，i，c<$j，i是相似的，我们强制它们是非负的。第二个约束强制每个图像选择最多k个其他图像作为相似图像。这里，k是一个超参数。学习相似性。为了找到标签相似性，我们对（7）的目标函数关于{aj′，j}执行梯度下降。为了找到图像相似性，考虑到R中的约束，我们通过推广正交匹配追踪（OMP）算法[44]开发了一个新的框架，求出（7）的解，找出相似之处。给定学习到的标签和图像相似性，在约束CNN训练步骤中，我们通过（1）中的新损失函数的反向传播来训练CNN的参数我们在两个步骤之间交替，直到成本函数收敛或验证误差不减小。请注意，我们通过交互式算法在每个小批量上求解（1因此，相似性图仅针对当前小批量中的图像进行学习，并且我们不需要处理整个图。在我们的实验中，我们初始化分类器参数提出了一个单一的向量稀疏恢复，联合{θj}| C|通过在可用图像不需要使用OMP来找到{ci′，i}和{c′i′，i}。算法-公式2显示了步骤（参见补充材料对于算法的推导对于每个点i，该算法通过初始化活动集S=1和两个残差向量ry=yi和rf=fi（步骤2）开始，在数据集中挑选与这两个向量联合最佳相关的点i'（步骤4）并将其添加到S。然后，我们通过在S中的系数上最小化Wy和Wf来求解相似性值，并将它们阈值化为零（步骤9和10），并相应地更新残差（步骤11和12）。注意，我们使用L（i）中的双曲正切函数的一阶近似，即tanh（x）x，以有效地求解图像和标签相似性（参见补充材料，以了解更多详情）。9428注释并使用最先进的卷积网络初始化w，在我们的情况下， ResNet-101 [45] 用于 Open Images 和 CUB 实验，VGG-16 [46]用于MSCOCO实验（详见实验部分）。备注2我们的交互式学习框架允许通过将标签图中的一些连接的权重设置为零来删除它们，并且通过在训练期间为它们设置不同的权重来减少/增加一些连接。此外，值得注意的是，我们不一定要求每个标签都有连接;当标签独立时，我们可以将标签图设置为标识（如在CUB上的实验中）。94292算法2：通过联合非负OMP进行相似性学习MS-COCO。我们遵循[38]中的实验设置，其中我们使用大约80K图像进行训练，N N输入：{fi}i=1，{yi}i=1，标签相似度{a j′，j}，非零条目数k，正则化参数λ y，λ f。1：对于i = l，. - 是的- 是的，N do2：初始化残差ry=yi，rf=fi，相似性集合S=f i3：对于t = l，. - 是的- 是的，k do20k图片测试1000个最常见的单词将选项视为训练标签。对于每个图像，我们生成一个1000维向量，指示图像标题中标签是（ry，Ay′2（r，f′）24.2.基线和模型变量4：s = argmax ′ λyi2+λ fFI2我爱你阿夫伊奇5：如果ry，ys或rf，fs≤0，则6：休息7：如果结束我们选择了Logistic回归模型，该模型对应-响应于最小化我们在（1）中的损失函数，其中λy=λf= 0，使用图像中的可用标签我们微调8：S ← S {s}.9：{ci′，i}=max0。，argminyi−Σ2Σ<$i′∈Sci′，iAyi′<$2<$在图像中的可用标签上进行端到端网络连接。我们使用这个基线来初始化我们实验中的所有方法10：{c′i′，i}=max0，argminfi−11：ry←yi−i′∈Sci′，i（Ayi′）i′∈Sc′i′，ifi′≠2我们与Wsabie[49]进行了比较，Wsabie [49]通过测量类语义之间的内积来对标签12：rf←fi−13：结束14：结束i′∈Sc′i′，ifi′tics和图像特征，以及CNN-RNN[2]，它使用递归神经网络对高阶标签相关性进行建模，并根据所有当前标签预测下一个标签。输出：相似度{ci′，i，c<$i′，i}注释3与传统的基于图的半监督方法不同，在我们的框架中，这两个组件随着时间的推移相互作用并提高彼此的性能。与课程标记和自训练不同，我们的框架不固定所选未标记数据的标签，这可能会传播预测错误，相反，它将预测规则化为在训练图像中全局一致4. 实验我们评估了我们提出的多标签识别框架在多个数据集上的性能，包括大规模Open Images [7]，CUB-200-2011 [47]和MS-COCO [5]数据集。4.1. 数据集打开图像。Open Images数据集（第3版）包含900万张训练图像以及分别用于验证和测试的41，620和125，436张图像该数据集有5,000个可训练类，每个类至少有100个样本。考虑到大量的图像、类以及每个图像只有几个标签的事实，我们使用这个数据集来证明我们的框架在处理大型数据集上的有效性。我们使用数据集中提供的训练，验证和测试分割来进行所有方法的训练，超参数调整和测试。CUB-200-2011。为了系统地评估我们的方法作为缺失标签分数的函数的性能，我们使用CUB数据集，这是200种不同鸟类的细粒度图像数据集。数据集中的每个图像都有一个312维的属性向量，指示图像中属性的存在（1）或不存在（-1）我们遵循[48]进行培训、验证和测试。出租目前的标签。我们还与Fast0Tag[50]进行了比较，Fast0Tag学习从图像特征到语义空间的非线性变换。在使用部分标签训练CNN的最新进展之后，我们使用具有分数阈值策略的课程标签1[3]作为强基线，它在具有高预测置信度的未标记数据和更新的训练集上重新训练分类器我们包括Latent Noise[38]，它通过同时训练相关性分类器，对人类标签偏见进行建模，以及无偏见的视觉分类器来学习纠正与缺失标签相关的偏见。最后，我们使用LSEP[51]，它使用可微的对数和-指数成对损失，比多标签学习的传统排名损失更容易优化。我们的方法。对于我们的交互式多标签CNN学习（IMCL）方法，我们使用每个数据集的验证集来调整超参数，即λy，λf，（7）和（8）中的k 这导致设置λy= 1，λf= 0。5，对于开放图像，k = 5，λc= 2，λf= 0。5，对于CUB，k= 5，λy=λf= 0。5，对于MS-COCO，k= 3。对于Open Images和MS-COCO，我们设置ka= 50来构建标签图，即，我们将每个标签连接到训练集中其前50个共同出现的标签（使用类似值不会改变结果，因为我们的方法可以在需要时将权重设置为零），而对于CUB，我们将标签图设置为identity，给定属性（标签）的独立性4.3. 实现细节为了进行公平的比较，对于每个数据集，我们使用相同的CNN架构作为所有方法的特征提取器在OpenImages 和 CUB 上，我们分别使用在 OpenImage 和ImageNet在MS- COCO上，我们遵循[38]并使用预训练的VGG-16，1我们测量所有5000个标签的性能，[3]仅使用600个标签。9430模型组1组2组3第4第5所有类Logistic69.4770.2974.7979.2385.4975.85潜在噪声（相关性）69.14（69.25）69.93（69.75）74.60（74.57）78.89（78.85）85.37（85.29）75.59（75.54）潜在噪声（视觉）69.37（69.50）70.41（70.32）74.79（74.78）79.20（79.22）85.51（85.47）75.86（75.86）CNN-RNN68.76（68.85）69.70（69.56）74.18（74.02）78.52（78.55）84.61（84.47）75.16（75.09）LSEP69.49（69.49）70.23（70.23）74.80（74.81）79.18（79.19）85.47（85.47）75.83（75.84）Fast0Tag69.74（69.58）70.65（70.41）75.42（75.01）79.81（79.41）86.06（85.73）76.34（76.03）瓦萨比69.77（69.23）70.87（70.10）76.03（75.06）80.25（79.42）86.04（85.50）76.59（75.86）课程标签70.37（69.77）71.32（70.86）76.23（75.45）80.54（79.62）86.81（85.91）77.05（76.32）IMCL（我们的）70.95（69.91）72.59（71.36）77.64（75.94）81.83（80.15）87.34（86.32）78.07（76.72）表1：在Open Images数据集的测试集上，具有端到端训练和固定特征表示（括号中）的所有方法的mAP得分（%）ImageNet.我们在Tensorflow中实现所有方法，并使用RMSProp [52]进行优化，学习率为0。001在OpenImage和0. 01在CUB和MS-COCO上。我们使用0的指数学习率衰减。8每当验证性能下降时。在MS-COCO上，我们将学习率降低到0。001后两个时代我们使用逻辑模型权重初始化所有方法，并在Open Images和CUB以及MS-COCO上分别使用批次大小为32，32，1的1，3，4个epoch对其进行细化我们还将从[-1，+1]到[-0]的范围内的y值。5，+1]，使得相似性学习将更多地关注每个图像中的正标签而不是大多数负标签。4.4. 评估指标为了评估多标签学习的不同方法的性能，我们测量了每个类的平均精度（AP）和数据集的平均AP，类似于[28]。对于每个类，AP计算为标签，我们相对于训练集中每个类别的可用注释数量以升序对所有类别进行排名，并将它们分成5个大小相等的组，其中组1对应于具有最少数量的可用注释的1000个标签，组5对应于具有最多数量的注释的1000个标签。表1显示了每组和所有标签的开放图像测试集括号前的数字显示端到端训练时的mAP，括号内的数字显示仅学习分类器参数时的性能。正如预期的那样，所有方法的性能从第1组到第5组都得到了改善，因为每个标签的训练图像数量增加了。虽然Logistic、LSEP和潜在噪声的视觉分类器在整个数据集上的表现类似，因为它们只利用了标记数据，但Wsabie和Fast0Tag的表现略好，因为它们利用了标记相关性。课程标签比其他基线表现得更好，因为它利用了未标记的数据，1APc=NΣN精密度（k，c）·相对于（k，c），（9）识别. 另一方面，我们的方法没有代表性-感知学习提高了数据集上的mAP得分ck=1where Nc is the number of images containing class c,Precision(k, c) is the precision for class c when retrievingk best predictions and rel(k, c) is the relevance indicatorfunction that is 1 iff the class c is in the ground-truth oftheimage at rank k.我们还使用平均平均精度（mAP）计算所有类的性能，定义为mAP= 1/|C|cAPc，其中|C|是类的数量。4.5. Open Images数据集上的结果我们做了两个实验。在第一个实验中，我们为所有方法固定了特征提取器fw（·），使得数据表示在训练期间不会像在经典设置中那样改变。在第二个实验中，我们训练所有的模型-el端到端。通过交互式学习，我们的模型利用了数据表示流形中的变化，这显著提高了性能。训练图像数量的影响。为了更好地分析每个图像的可用图像数量的影响，94310.4%，这要归功于使用未标记的数据以及自适应学习适当的图像和标签相似性图以学习不同类别的更好视觉模型的当对所有模型进行端到端训练时，与基线相比，我们的方法获得了最大的改进，这表明我们的交互式学习的有效性。请注意，CNN-RNN将缺失的标签视为不存在，其性能低于其他基线。总体而言，我们的方法获得1.02%的改善，相对于第二个最好的方法，课程标签。正则化参数的影响。表2显示了超参数λy、λf、k对验证集的mAP评分的影响，我们使用该评分来选择最佳值。请注意，对于固定的λf（以及类似的λc），mAP得分随着我们增加正则化参数而提高实际上，最好的得分是针对（λc= 1，λf= 0）获得的。5），证明了（7）中使用标签和特征向量进行相似性学习的两个术语的有效性还9432图2：不同算法在Open Images测试集的多个图像上进行多标签识别的定性结果。如果地面实况标签在图像的前50个最高预测中，则该标签被视为已识别。我们根据有多少方法能够识别它们来对标签进行排名，其中顶部标签表示所有方法中最难识别的。我们的方法设法识别经常被其他人忽略的小物体，如第一幅图像中的Arm或Mircophone和第二幅图像中的Surfboard我们的方法还通过利用未标记的数据来更好地正则化稀有标签的预测，从而不断提高图像中的标签召回率组12345所有wiki69.7971.3576.0380.2286.3276.74wiki+wordnet69.8171.1776.0280.2786.2476.72共现69.9171.3675.9480.1586.2376.72表2：我们的方法（没有端到端训练）的mAP得分（%）作为λ y，λ f（k = 5）和Open Images验证集上k的函数。表中显示了我们的方法相对于k联合非负OMP算法外部知识的影响。虽然我们使用标签共现信息来构建标签依赖图的结构，但重要的是要研究我们是否可以通过使用外部知识（如Web或WordNet上的数据）来实现改进。因此，我们研究两种替代方法。首先，我们使用Wikipedia来构建标签图的结构（我们仍然使用我们的方法来学习它的权重）。我们通过在维基百科文章的介绍部分挑选每个标签的50个最常见的概念来构建标签图。由于我们在没有监督的情况下从网络中提取标签，因此我们的标签图通常包含噪声连接。然而，我们的方法可以通过改变图的权重来学习删除坏连接。其次，我们结合维基百科和WordNet [53]，这是一个英语词汇数据库，包含175，979个同义词组中的155，327个单词。如果一个标签在WordNet中，我们使用WUP相似度[54]计算该词与其他词之间的相似度，并选择前50个相似词作为邻居（结果不会因相似值而改变）。当一个标签不在WordNet中时，我们像以前一样使用维基百科。表3示出了在Open Im测试集上的结果表3：我们提出的方法（没有端到端训练）在Open Images测试集上的 mAP 得分（ % ），使用 wikipedia vs 使用wikipedia+wordnet vs从数据本身估计共现以构建标签图。比wiki+wordnet稍好。这是因为WordNet中的相似性并不反映真实图像中标签的共同出现。例如，“狗”和“猫”在图像中不太频繁地同时出现，但根据WordNet，它们的相似性高于在许多图像中同时出现的“狗”和“人”。对于我们的同现标签图，我们观察到具有最少注释的类的高性能，因为从图像标签中提取信息比从这些类的Web中提取信息的噪声更小。总的来说，结果表明，我们的同现方法建立的图形是有效的，使用外部噪声知识在网络上。另一方面，如表4所示，不使用同现标签图并固定其权重的效果不如使用它。消融研究。表4显示了我们的方法通过固定或移除不同组件的消融研究结果。由于具有很少注释图像的标签也很少有测试图像，这使得mAP改进在统计上意义不大，因此我们报告了具有最多注释图像的第5组的性能。请注意，无论是否有固定的相似性图，我们的方法都与课程标签（85.91%）[3]相当，这表明了我们的互动学习方案的重要性。由于从有限的标记数据中学习到的连接的噪声性质，使用没有细化的固定噪声标签图会导致低性能。最后，交互式没有表征学习的年龄。请注意，所有方法的性能都是相似的，仅相差不到0。02%，当使用所有标签时。然而，wiki在图像和标记图上的学习（学习两个相似的）在不同的图构造策略上获得最佳性能如最后一行所示，λy00的情况。512mAP（λ f= 0.第五章）78岁1278岁3778岁4478岁40λf00的情况。512mAP（λy=1）78岁4078岁4478岁3878岁179433图3：mAP改善（%）作为CUB数据集中缺失属性百分比的函数。图像相似性标签相似性地图不使用不使用85.49固定了解到85.83了解到固定85.99了解到共现（Co-occurrence）86.26了解到学习（wiki）86.32表4：Open Images数据集上的消融研究。标签图可以将外部知识嵌入到学习阶段，其性能略优于同现。定性结果。图2显示了测试集的定性结果。我们的方法可以捕获图像中的小对象，如麦克风，冲浪板，甚至头发，由于使用相关的标签语义相似的图像。然而，我们的方法可能很难找到抽象的概念，如祖父母或音乐家。我们推测这样的标签依赖于图像本身的上下文，并且很难仅基于图像相似性进行转移。4.6. CUB数据集为了系统地评估我们的框架的性能作为所有图像中缺失标签的百分比的函数，我们考虑属性预测的问题我们在CUB数据集上进行了实验，CUB数据集是一个包含200种不同鸟类的细粒度数据集中的每个图像都有一个312维的二进制属性向量。我们在每幅图像中均匀随机地选择ρ分数的属性我们使用我们提出的框架来学习属性分类器来预测图像中丢失的属性。为了研究使用来自同一类的图像的效果，我们采用每个部分观察的属性向量，并将其与相关联的类标签的独热编码向量连接，其非零元素的幅度为a。这将只用于我们的平滑损失droxy，在（5）中定义。较大的a有利于通过相似性学习器从同一类中选择相似的这是我们的方法的一个优点，它很容易合并边信息，这在其他方法中是不直接的。我们将标签相似性设置为身份，因为属性通常是独立的。图3显示了属性预测的不同方法相对于Logistic方法的mAP得分改善，作为不同缺失注释百分比的函数（为了清楚起见，我们没有显示潜在噪声和Ws-图4：关于MS-COCO数据集上的逻辑回归，不同方法的mAP评分（%）的改善。比其他基线表现更差的abie）。请注意，在缺失90%属性的情况下，我们的方法比其他方法高出CNN-RNN将缺失的注释视为缺失的标签，这导致大部分缺失属性的性能较差。随着观察到的属性的百分比增加，方法性能的差距减小。总的来说，我们观察到我们的框架在大量缺失属性的情况下表现良好，这要归功于流形正则化，这对防止过拟合至关重要（更多详细结果请参见补充材料）。最后，我们的框架a= 10的性能优于a= 1，这表明使用同一类的图像进行属性学习可以获得更准确的结果。4.7. MS COCO数据集上的结果图4显示了不同方法的mAP评分相对于逻辑回归基线的改善我们观察到，所有可以处理部分标签的方法都比逻辑基线有显着的增益，而需要干净标签的方法没有显着的改善。此外，CNN-RNN即使与logistic相比也具有较低的性能，因为它将缺失的标签视为负数。这表明有限的和嘈杂的注释不足以学习好的分类器。请注意，我们的方法优于课程标记和潜在噪声0。38%，0。分别为88%。5. 结论我们解决了大规模数据上部分标签的高效端到端多标签CNN学习问题我们开发了一个交互式学习框架，该框架由多标签CNN分类器和自适应相似学习组件组成，它们相互作用并提高彼此的性能。通过在大规模Open Images数据集以及CUB和MS-COCO数据集上的广泛实验，我们表明我们的框架改进了使用部分标签的多标签学习的最新技术水平。确认这项工作得到了 DARPA 青年教师奖（ D18 AP00050 ）， NSF （ IIS-1657197 ）， ONR （ N000141812132）和ARO（W 911 NF 1810300）的部分支持。9434引用[1] D. Huynh和E.Elhamifar，1[2] J. Wang，Y. Yang，J. Mao，Z.黄角Huang和W. Xu，“Cnn-rnn：多标签图像分类的统一框架”，2016年IEEE计算机视觉和模式识别会议（CVPR），2016年。一、二、五[3] T. Durand，N. Mehrasa和G. Mori，一、二、五、七[4] J. Deng，O. 鲁萨科夫斯基克劳斯，M. S. 伯恩斯坦A. Berg和L. Fei-Fei，一、二[5] X. Chen，H. Fang，T. Y. 林河，巴西-地 Vedantam、S. 古普塔P.Dollar和C. L. Zitnick，“Microsoft coco captions：数据收集和评估服务器， ”arXiv 预印本， arXiv ：1504.00325，2015年。一、五[6] B. Thomee，D.A. Shamma，G.弗里德兰湾Elizalde，K.倪D.波兰，D。Borth和L. J. Li，“Yfcc 100m：多媒体研究中的新数据，“ACM通信，2016年。1[7]A. Kuznetsova，H. Rom，N. Alldrin，J.于伊林斯岛克拉辛J.图塞特桥，S.卡马里，S.波波夫M. Malloci，A. Kolesnikov，T. Duerig和V.法拉利，“打开图像数据集v4：统一的图像分类，目标检测，和视觉关系检测在规模上，International Journal of Computer Vision，2016。一、五[8] S. Behpour，W. Xing和B. D. Ziebart，“Arc：Adversar-ialrobustcutsforsemi-supervisedandmulti-labelclassification ， ”AAAI Conference on Artificial Intelligence，2018. 一、二[9] Y. Guo和S. Gu，一、二[10] X. 薛，W.张，J.张湾，澳-地Wu，J.Fan和Y.Lu，一、二[11] D.马哈詹河Girshick，V. Ramanathan，K.他，M。帕鲁里Y. Li，长穗条锈菌A. Bharambe和L. van der Maaten，一、二

下载后可阅读完整内容，剩余1页未读，立即下载