深度ConvNet用于部分标签多标签分类的研究

10 浏览量更新于2023-10-17 收藏 791KB PDF 举报

多标签分类

图像分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

647学习深度ConvNet用于部分标签西蒙弗雷泽大学@sfu.camori@cs.sfu.ca摘要深度 ConvNets 在单标签图像分类（例如，ImageNet），但有必要超越单标签分类任务，因为日常生活的图片本质上是多标签的。多标签分类比单标签分类更困难，此外，收集干净的多标签注释比单标签注释更难以扩大。为了降低标注成本，我们建议使用部分标签来I.E.每个图像只有一些标签是已知的。我们首先实证地比较不同的标记策略，以显示在多标签数据集上使用部分标签的潜力然后，为了使用部分标签进行学习，我们引入了一种新的分类损失，该损失利用了每个示例中已知标签的比例。我们的方法允许使用相同的训练设置，当学习与所有注释。我们进一步探讨了几种基于课程学习的策略来预测缺失标签。在三个大规模多标签数据集上进行实验：MS COCO、NUS-WIDE和Open Images。1. 介绍最近， Stock 和 Cisse [46] 提出了经验证据，即ImageNet [44]上最先进的分类器的性能在很大程度上被低估了-与ImageNet不同，多标签数据集（例如，MS COCO [35]，Open Images [32]）包含更复杂的图像，这些图像表示具有多个对象的场景（图1）。然而，与单标签注释相比，收集多标签注释更难扩大规模[13]。作为一种替代策略，可以使用部分标签;收集部分标签很容易，并且可以通过众包平台进行扩展。在这项工作中，我们研究了学习的问题，ING一个多标签分类与部分标签每图像。两个主要的（和互补的）战略，以提高-[a][b][c]汽车配件个人简介船锚熊宝宝苹果树图1.带有所有注释[a]、部分标签[b] 和嘈杂/网络标签[c]。在部分标记的设置中，一些注释缺失（人、船和苹果），而在网络标记的设置中，一个注释错误（人）。证明图像分类的性能是：（i）设计/学习更好的模型架构[41，21，47，63，15，57，50，14，43，64，36，16]和（ii）学习更多的标记数据[48，37]。然而，与收集单个标签数据集相比，收集多标签数据集更困难且可扩展性更低[13]，因为为每个图像收集一致且详尽的标签列表需要付出大量努力。为了克服这一挑战，[48，34，37]使用网络监督自动生成标签。但是这些方法的缺点是注释是嘈杂的并且不是详尽的，并且[62]表明使用损坏的标签进行学习可能导致非常差的泛化性能。为了对标签噪声更加鲁棒，已经提出了一些方法来学习噪声标签[53]。正交策略是使用部分注释。研究界正在积极追求这一方向：最大的公开可用的多标签数据集用部分干净标签表示[32]。对于每个图像，某些类别的标签是已知的，但其余的标签是未知的（图1）。例如，我们知道图像中有一辆汽车，但没有熊，但我们不知道是否有一个人，一艘船或一个苹果。放松对穷举标签的学习要求为创建大规模数据集提供了更好的机会。众包平台，如亚马逊机械土耳其人1和谷歌图像标签2或网络服务，如reCAPTCHA3可以扩展-1https://www.mturk.com/2https://crowdsource.google.com/imagelabeler/category网站3https://www.google.com/recaptcha/648能够收集大量图像的部分标签。据我们所知，这是第一个研究在大规模数据集上学习具有部分标签的多标签图像分类器的挑战性任务的工作。在大规模数据集上使用部分标签进行学习提出了新的挑战，因为现有方法[52，58，56，59]不可扩展，并且不能用于微调ConvNet。我们通过引入新的损失函数和修复缺失标签的方法来解决这些关键技术挑战。我们的第一个贡献是经验比较多标签数据集的几种标签策略，以突出使用部分标签进行学习给定一个固定的标签预算，我们的实验表明，部分注释所有图像比完全注释一个小的子集。作为第二个贡献，我们提出了一种可扩展的方法来学习具有部分标签的ConvNet。我们引入了一个损失函数，推广标准的二进制交叉熵损失利用标签比例信息。这种损失自动适应每个图像的已知标签的比例，并允许使用与使用所有标签学习时相同的训练设置。我们的最后一个贡献是一个方法来预测失踪的标签。我们表明，学习的模型是准确的，可以用来预测丢失的标签。由于ConvNets对噪声敏感[62]，我们提出了一个基于课程学习的模型[2]，该模型逐步预测一些缺失的标签并将其添加到训练集中。为了改进标签预测，我们开发了一种基于图神经网络（GNNs）的方法来显式地对类别之间的相关性进行建模。在多标签设置中，并非所有标签都是独立的，因此关于观察到的和未观察到的部分标签之间的标签相关性的推理是重要的。2. 相关工作使用部分/缺失标签学习。多标签任务通常涉及不完整的训练数据，因此已经提出了几种方法来解决缺失标签的多标签学习（MLML）问题第一种简单的方法是将缺失的标签视为负标签[49，3，38，55，48，37]。MLML问题就成为一个完全标记的学习问题.这种解决方案用于大多数网络监督方法[48，37]。标准的假设是只存在查询的类别（例如图1中的汽车），所有其他类别都不存在。然而，性能下降，因为许多地面实况正标签被初始化为负标签[26]。第二种解决方案是二进制相关性（BR）[52]，它将每个标签视为独立的二进制分类。但是当类别数量增加时，这种方法是不可扩展的，并且它忽略了标签之间和实例之间的相关性，这可能有助于识别。与BR不同，我们提出的方法允许使用部分标签学习单个模型。为了克服第二个问题，一些工作提出利用来自训练数据的标签相关性来传播来自所提供的标签的标签信息缺少标签。[4，58]使用矩阵完成算法来填充缺失的标签。这些方法利用标签-标签相关性和实例-实例相关性，在标签矩阵上进行低秩正则化以完成实例-标签矩阵。类似地，[61]引入了低秩经验风险最小化，[56]使用混合图来编码标签依赖关系的网络，[38，13]学习了类别之间的相关性来预测一些缺失的标签。与大多数假设相关性是线性和非结构化的现有模型不同，[59]提出了学习结构化语义相关性。另一种策略是将缺失标签视为概率模型中的潜在变量。缺失的标签通过后验推断来预测。[27，54]使用基于贝叶斯网络的模型[23]而[10]提出了一种基于变分自动编码器框架的深度顺序生成模型[29]，该框架也允许处理未标记的数据。然而，这些作品中的大多数不能用于学习深度ConvNet。它们需要使用内存中的训练集来解决优化问题，因此不可能使用mini-batch策略来微调模型。这是有限的，因为众所周知，微调对于转移预训练的架构很重要[30]。一些方法也是不可扩展的，因为它们需要解决凸二次优化问题[56，59]，这对于大规模数据集来说是与这些方法不同，我们提出了一个模型，是可扩展的和端到端的学习。为了训练我们的模型，我们引入了一个新的损失函数，它可以根据每个示例中已知标签的比例进行自适应调整。类似于一些MLML方法，我们还探索了几种策略，通过使用学习的分类器来填充缺失的标签。使用部分标签的学习与半监督学习不同[6]，因为在半监督学习设置中，只有一个子集的示例被标记有所有标签，其他示例未被标记，而在部分标签设置中，所有图像都被标记，但只有一个标签子集。请注意，[12]还引入了部分标记学习问题（也称为模糊标记学习），但这个问题是不同的：在[12]中，每个示例都用多个标签注释，但只有一个是正确的。课程学习/永不结束的学习。为了预测缺失的标签，我们提出了一种基于课程学习的迭代策略[2]。课程学习的思想受到人类学习方式的启发：从简单的样本/子任务开始学习，然后逐渐增加样本/子任务的难度但是，在使用课程学习的主要问题是测量一个例子的难度。为了解决这个问题，[31]使用了定义。649C1yC1CW容易的样本是其正确输出可以容易地预测的样本。他们引入了迭代自定步学习（SPL）算法，每次迭代同时选择简单的样本并更新模型参数。[24]通过引入不同的自定进度函数，将SPL推广到不同的学习方案而不是使用人类设计的教学法，[25]提出了MentorNet，一种从嘈杂数据中学习课程的方法。与我们的工作类似，[20]最近引入了CurriculumNet，这是一个通过课程学习方法从大规模嘈杂的网络图像中学习的模型。然而，该策略是为多类图像分类而设计的，并且不能用于多标签图像分类，因为它使用基于聚类的模型来度量示例的难度。我们的方法也与永不结束的学习（NEL）范式有关[39]。NEL的关键思想是使用以前学到的知识来改进模型的学习。[33]提出了一种交替学习对象类模型和收集对象类数据集的框架。[5，39]引入了永不结束的语言学习，从数亿个网页中提取知识类似地，[7，8]提出了永不结束的图像学习器来发现结构化的视觉知识。与这些使用先前学习的模型从Web数据中提取知识的方法不同，我们使用学习的模型来预图2.对于具有约束g（0. 1）= 5。γ控制相对于标签比例py的归一化行为。3.1. 部分标号的二元交叉熵训练多标签分类模型的最流行的损失函数是二进制交叉熵（BCE）。为了独立于类别的数量，BCE损失由类别的数量归一化这成为部分标记数据的缺点，因为反向传播的梯度变小。为了克服这个问题，我们提出了部分BCE损失，它通过已知标签的比例来规范损失：dict缺少标签。g（p） Σ。Σn（x，y）=yC1[yc=1] 日志11+exp（−x）（一）3. 使用部分标签我们在本文中的目标是训练ConvNets，c=1+1[yc=−1] 日志C.ΣΣexp（−xc）1+exp（−xc）标签我们首先引入一个损失函数来学习与部分标签，概括了二进制交叉熵。然后，我们扩展模型与图形神经网络的原因观察到的和未观察到的部分标签之间的标签相关性。最后，我们使用这些贡献来学习一个准确的模型，它是用来预测缺失的标签与基于课程的方法。记法。我们用C表示类别的数量，N表示训练样本的数量。我们通过D ={（I（1），y（1）），. . . ，（I（N），y（N））}，其中I（i）是第i个图像，并且y（i）= [y（i），. . .，y（i）]∈ Y <${−1，0，1}C是标号向量。对于给定的考试-ple i和category c，y（i）= 1（resp. -1和0）表示类别存在（分别。缺席和未知）。 y = [y⑴;. . . ;y（N）]∈{−1，0，1}N×C是训练集标签的矩阵。fW表示具有参数的深度ConvNet其中py∈[0，1]是y中已知标签的比例，g是关于标签比例的归一化函数。注意，部分BCE损失忽略了cat-未知标签的egories（yc= 0）。在标准BCE损失中，归一化函数为g（py）= 1。与标准BCE不同，部分BCE独立于已知标签的数量对每个示例给予相同的重要性，这在每个图像的标签比例不固定时是有用的。这种损失使其自身适应已知标签的比例。我们现在解释如何设计正规化函数g。归一化函数g. 函数g相对于标签比例归一化损失函数。我们希望部分BCE损失与所有标签都存在时的BCE损失具有相同的行为，即。g（1）= 1。我们建议使用以下归一化函数：g（py）=αpγ+β（2）W. x（i）=[x（i），. . . ，x（i）]= f（I（i））∈RC是输出其中α，β和γ是允许生成的超参数（在sigmoid之前）图像I（i）上的深度ConvNetfW。实现几个标准函数。例如，α= 1，650vvCvvuv vvv vvβ= 0且γ= −1，该函数对每个示例的权重与标签的比例成反比。这相当于通过已知类而不是班级的数量。给定γ值和给定比例的权重（例如， g（0. 1）= 5），我们可以找到满足这些约束的超参数α和β。补充材料中提供了更多信息。消息更新功能M. 我们使用以下消息更新函数：超参数γ控制关于标签比例的正规化的行为。在图2中，我们显示了在给定条件下不同γmt=1v|Ωv|ΣfM（ht）（5）u∈v应变g（0. 1）= 5。当γ= 1时，归一化与标签比例成线性比例，而当γ= −1时，归一化值与标签比例成反比。分析了SEC中4.第一章这种正常化有一个类似的目标，批量归一化[22]，其对每个小批量的层输入的分布进行归一化。3.2. 基于GNN的为了对类别之间的交互进行建模，我们在Con- vNet之上使用了图神经网络（GNN）[19，45我们首先介绍GNN，然后详细介绍如何使用GNN进行多标签分类。GNN。对于GNN，输入数据是图G={V，E}，其中V（resp. （1）是一组节点。边）。对于每个节点v∈V，我们用h t表示输入特征向量xv及其描述节点在时间步t的状态的隐藏表示我们使用nav来表示v的相邻节点的集合。节点使用来自其中fM是多层感知器（MLP）。该消息通过首先将隐藏状态馈送到MLP fM，然后在邻域上取平均值来计算。隐藏状态更新函数F. 我们使用以下隐藏状态更新函数：ht+1=GRU（ht，mt）（6）它使用门控递归单元（GRU）[9]。隐藏状态基于传入消息和先前隐藏状态更新。3.3. 未知标签的预测在本节中，我们提出了一种方法来预测一些缺失的标签与课程学习策略[2]。我们基于自定进度模型[31，24]制定了我们的问题，目标是优化以下目标函数：更新其隐藏状态。更新分为两个步骤：消息更新和隐藏状态minW∈Rd，v∈{0，1}N×CJ（w，v）=β<$wn2+G（v;θ）（7）更新. 消息更新步骤根据下式将发送到节点v的消息组合成单个消息向量m_t：mt=M（{ht|u ∈ v}）（3）1ΣN+ Ni=11摄氏度Cc=1vicc（fW（I）），y（i））Cv u，其中vi∈ {0， 1}，vc是c类的损失是一其中M是更新消息的函数。在隐藏状态更新步骤中，基于消息m_t根据下式更新图中每个节点处的隐藏状态h_t：ht+1=F（ht，mt）（4）其中F是更新隐藏状态的函数。M和F是前馈神经网络，不同的时间步长。请注意，这些更新函数规范-将图中信息的传播模型化。GNN用于多标签分类。对于多标签分类，每个节点表示一个类别（V={1，. . . ，C}），并且边表示连接，在类别之间我们使用一个全连通图来所有类别之间的模型相关性。节点隐藏状态由ConvNet输出初始化。我们现在详细介绍我们模型中使用的GNN函数该算法651向量来表示第i个样本的选定标签vic= 1（resp. vic= 0）意味着第i个示例的第c个标签被选择（分别未选择）。函数G定义了课程，由θ参数化，其定义了学习方案。在[31]之后，我们使用交替的al-出租m，其中w和v交替地最小化，一次一个，而另一个保持固定。算法在算法1中示出。最初，模型仅使用干净的部分标签来学习。然后，该算法使用学习的模型逐步添加新的噪声）标签，然后使用干净和弱标签来继续模型的训练。我们分析了添加新标签的不同策略：[a] 得分阈值策略。这种策略使用分类分数（即，ConvNet）来估计一对范畴的例子。一个简单的例子有很高的绝对分数，而一个困难的例子有接近0.我们使用部分标签上的学习模型来预测652C只有当分类得分大于阈值θ >0时，才丢失标签。当w是固定的时，最优v可以由下式导出：vic=1[x（i）≥θ]+1[x（i）−θ]（8）<算法1课程标签输入：训练数据D1：使用已知标签初始化v第二章：初始化w：学习带有部分标签c c3：重复预测的标签是y（i）= sign（x（i））。4：更新v（修复w）：查找容易丢失的标签C c[b] 分数比例策略。这个策略类似于策略[a]，但不是标记高于阈值的对类别，而是标记每个小批次的固定比例θ为了找到最优的v，我们按照绝对得分的降序对示例进行排序，并仅标记缺失标签的前-θ[c] 仅预测阳性标签。由于注释的不平衡，我们仅用策略[a]预测正标签。当w是固定的时，最优v可以由下式导出：vic=1[x（i）≥θ]（9）[d] 集成分数阈值策略。该策略类似于策略[a]，但它使用模型的集合来估计置信度得分。我们平均每个模型的分类得分，以估计最终的置信度得分。该策略比策略[a]更稳健当w是固定的时，最优v可以由下式导出：5：更新y：预测容易丢失的标签6：更新w（修正v）：使用干净简单的弱注释7：直至停止标准指标. 为了评估性能，我们使用几个指标：平均精度（MAP）[1]，0-1精确匹配，Macro-F1 [60]，Micro-F1[51]，每类精度，每类召回，整体精度，整体召回。这些指标是标准的多标签分类指标，并在补充资料的第A.3小节我们主要显示的MAP度量的结果，但其他度量的结果显示在补充。实作详细数据。我们聘请ResNet-Weldon[16]作为我们的分类网络。我们使用ResNet-101vIC =1[E（I（i））c≥θ]+1[E（I（i））c<−θ]（10）[21]在ImageNet上进行预训练作为骨干架构，但我们展示了在哥本哈根的其他建筑的结果其中E（I（i））∈ RC是模型集合的向量得分。预测的标签是y（i）=sign（E（I（i）。特里。这些模型是用PyTorch实现的[42]。部分BCE损失函数的超参数是ccα = −4。45，β = 5。45（即 g（0. 1）= 5）且γ =1。预-[e] 贝叶斯不确定性策略而不是使用如[a]或[d]中的分类得分，我们估计[28]各有各的特色。一个简单的配对类别示例具有小的不确定性。当w是固定的时，最优v可以由下式导出：vic=1[U（I（i））c≤θ]（11）其中U（I（i））是第i个示例的类别c这个策略类似于策略[d]。除了它使用分类分数的方差而不是平均值来估计难度。4. 实验数据集。我们在几个标准的多标签数据集上进行实验：Pascal VOC 2007 [17]，MS COCO[11][15][16][17][18]对于每个数据集，我们使用分别在[17]，[40]和[18]中引入的标准训练/测试集（更多详细信息请参见补充资料的第A.2从这些完全标记的数据集中，我们通过随机删除每个图像的一些标签来创建部分标记的数据集已知标签的比例在10%（90%的标签缺失）和100%（所有标签存在）之间。我们还在部分注释的大规模Open Images数据集[ 32 ]上进行了实验：0的情况。9%的标签在培训期间可用。653dict缺失标签，我们使用θ=0的baidu不确定性策略。3 .第三章。4.1. 注释数据集的最佳策略是什么在第一组实验中，我们研究了三种注释多标签数据集的策略。我们的目标是回答这个问题：用固定预算的干净标签注释数据集的最佳策略是什么我们探讨以下三种情况：• 部分标签。这就是本文所采用的策略。在此设置中，使用所有图像，但每个图像只有标签的子集是已知的。已知的凯特-每个图像的图像都不同。• 完整的图像标签或密集标签。在这个场景中，只有图像的一个子集被标记，标记的图像具有用于所有类别的注释。这是半监督学习的标准设置[6]，除了我们不使用半监督模型。• 嘈杂的标签。所有图像的所有类别都有标签，但有些标签是错误的。这种情况是类似于webly监督学习场景[37]，其中一些标签是错误的。654Pascal VOC 2007 MS COCO NUS-WIDE图3.第一行显示不同标记策略的MAP结果。在第二行，我们显示了BCE和部分BCE的比较。x轴显示干净标签的比例。为了公平地比较这些方法，我们使用BCE损失函数进行这些实验。不同比例的清洁标签的结果如图3所示。对于每个实验，我们使用相同数量的干净标签。100%意味着所有标签在训练（标准分类设置）期间是已知的，10%意味着只有10%的标签在训练期间是已知的。90%的其他标签对于部分标签和完整图像标签场景是未知标签，并且对于噪声标签场景是与[48]类似，我们观察到性能根据标签的比例呈几何级数增长。从第一个实验中，我们可以得出以下结论：（1）给定固定数量的干净标签，我们观察到使用部分标签的学习比使用密集注释的子集的学习更好。当标签比例减少时，改善增加。一个原因是在部分标签策略中训练的模型(2)使用干净标签的一个小子集学习比使用带有一些不正确标签的大量标签更好。部分标签和完整的图像标签的情况下，都优于嘈杂的标签的情况下。例如，在MS COCO上，我们观察到只有20%的干净部分标签的学习优于80%的干净标签和20%的错误标签的嘈杂的Web标签。从多标签数据集生成噪声数据集的另一个策略是对每个图像仅使用一个阳性标签。这是一个标准的假设时，收集数据从网络[34]，即。图像中存在的唯一类别是查询的类别。从干净的MS COCO数据集，我们通过仅保留一个正LA来生成噪声数据集（命名为noisy+）模型清洁部分10%噪音+清洁/嘈杂标签100 /010 /097.6/2.4平均动脉压（%）79.2272.1571.60表1.与MS COCO上的网络监督策略（噪声+）的比较。清洁（或有噪声的）表示干净的百分比（相应地，噪声）标签。贝尔每图像。如果图像有多个正标签，我们从正标签中随机选择一个正标签表1中报告了三种样品的结果：干净（所有训练标签都是已知的和干净的），10%的部分标签和噪声+场景。我们还显示了每个实验中清洁和嘈杂标签的百分比。噪声+方法生成一小部分噪声标签（2.4%），相对于干净基线，性能下降约我们观察到，仅使用10%的干净标签训练的模型略优于使用嘈杂标签训练的模型。该实验表明，在大多数网络监督数据集中所做的标准假设对于复杂场景并不好/多标签图像，因为它会生成显着降低泛化的噪声标签。4.2. 使用部分标签在本节中，我们比较了标准BCE和部分BCE，并分析了GNN的重要性。BCE与部分BCE。图3显示了三个数据集上不同比例的已知标签的MAP结果。对于所有数据集，我们观察到使用部分BCE显著提高了性能：655重新贴标地图0-1宏F1微型F1标签属性TPTNGNN2个步骤（无课程）-1.496.422.321.9910082.7896.40✓[a]评分阈值θ= 20.3411.154.334.2695.2985.0098.50✓[b]得分比例θ= 80%0.178.403.703.2596.2484.4098.10✓[c]仅阳性-评分θ= 50.31-4.58-1.92-2.2312.0179.07-✓[d]包围评分θ= 20.2311.314.164.3395.3384.8098.53✓[e]贝叶斯不确定性θ= 0。30.3410.154.373.7277.9161.1599.24[e]贝叶斯不确定性θ = 0。10.362.711.911.2219.4538.1599.97✓[e]贝叶斯不确定性θ= 0。20.3010.764.874.6657.0362.0399.65✓[e]贝叶斯不确定性θ= 0。30.5912.075.114.9579.7468.9699.23✓[e]贝叶斯不确定性θ= 0。40.4310.994.884.4690.5170.7798.57✓[e]贝叶斯不确定性θ= 0。50.4510.083.933.7894.7974.7398.00✓表2.Pascal VOC 2007 val set上缺失标签的标记策略分析对于每个指标，我们报告相对分数，对于不标注缺失标签的模型。TP（分别为TN）表示真阳性（或真阴性）率。对于策略[c]，我们报告标签准确度而不是TP率。BCE部分-BCE GNN +部分-BCE MAP（%）79.01 83.05 83.36表3.打开图像上的MAP结果。标签比例越低，改善越好。我们观察到其他指标的相同行为（补充资料的子节A.6）。在表3中，我们显示了Open Images数据集的结果，我们观察到部分BCE比标准BCE好4个点。这些实验表明，我们的损失比BCE学习得更好，因为它在训练过程中利用了标签比例信息。它允许有效地学习，同时保持与所有注释相同的GNN。我们现在分析GNN的改进，以了解类别之间的关系我们在图4中显示了MS COCO的结果。我们观察到，对于每个标签比例，使用GNN可以提高性能。Open Images实验（表3）表明，即使标签比例很小，GNN也能提高性能。该实验表明，即使在部分标签的情况下，对类别之间的区分进行建模也很重要。然而，我们也注意到，ConvNet隐式地学习了类别之间的一些相关性，因为一些学习的表示被所有类别共享。4.3. 预测缺失标签的最佳策略是什么？在本节中，我们分析了3.3小节中介绍的标签策略，以预测缺失的标签。在训练epoch 10和epoch 15之前，我们使用学习的分类器来预测一些丢失的标签。我们在表2中报告了Pascal VOC 2007验证集（标签占10%）上不同指标的结果。我们还报告了最终的比例图4.对于部分BCE和GNN，+ 部分BCE。0表示使用标准BCE训练的模型的结果。标签，预测标签的真阳性（TP）和真阴性（TN）率其他结果见补充资料第A.9小节首先，我们展示了一个2步策略的结果，该策略一次性预测所有缺失的标签总的来说，我们观察到这种策略比基于策略的策略更糟糕（[a-e]）。特别是，2步策略降低了MAP评分。这些结果表明，一次预测所有缺失的标签引入了太多的标签噪声，降低了泛化性能。在基于阈值的策略中，我们观察到阈值策略[a]优于比例策略[b]。我们还注意到，使用模型集合[d]并不能显著提高单个模型[a]的性能。只预测积极的标签[c]是一个糟糕的策略。不确定性策略[e]是最好的策略.特别是，我们观察到GNN对于这种策略很重要，因为它降低了标签的不确定性，并允许模型656公元前微调部分BCEGNN重新贴标地图0-1精确匹配宏F1微型F1✓66.2117.5362.7467.33✓✓72.1522.0465.8270.09✓✓75.3124.5167.9471.18✓✓✓75.8225.1468.4071.37✓✓✓75.7130.5270.1373.87✓✓✓✓76.4032.1270.7374.37表4.MS COCO的消融研究（含10%的已知标记）。图5.分析标记比例为10%（即，g（0. 1））。（x轴对数标尺）对超参数θ是鲁棒的4.4. 方法分析在本节中，我们分析部分BCE的超参数，并对MSCOCO进行消融研究。部分BCE分析。为了分析部分BCE，我们只使用训练集。该模型在大约78k张图像上进行训练，并在剩余的5k张图像上进行评估。我们首先分析了如何选择归一化函数的值给定的标签比例为10%，即。g（0. 1）（可以选择其他标签比例）。结果见图5。注意，对于g（0. 1）= 1时，部分BCE等于BCE，损失由类别数归一化。我们观察到归一化值g（0. 1）= 1给出最差结果。最好的对于约20的归一化值获得Score，但是对于G（0. 1）∈[3，50].使用较大的值会降低性能。该实验表明，所提出的归一化函数是重要的和鲁棒的。这些结果是独立的网络archi-结构（附录A.7小节给定约束g（0. 1）= 5和g（1）= 1时，我们分析了超参数γ的影响。此超参数控制规范化的行为，标签比例。对于较大的标签比例，使用高值（γ= 3）比使用低值（γ= −1）更好，但图6. MS COCO超参数γ对于小标签比例来说稍微差一点。我们观察到，使用与已知标签的数量成比例的归一化（γ= 1）比使用归一化更好。与已知标签的数量成反比（γ=−1）。消融研究。最后，为了分析每种贡献的重要性，我们对MS COCO进行了消融研究，标签比例为10%，见表4。我们首先注意到微调很重要。它验证了构建端到端可训练模型以在缺少标签的情况下学习的重要性。部分BCE损失函数增加了针对每个度量的概率，因为它在训练期间利用了标签比例信息我们证明了使用GNN或重新标记可以提高性能。特别是，重新标记阶段显著增加了0-1精确匹配评分（+5pt）和Micro-F1评分（+2.5pt）。最后，我们认为，我们的贡献是相辅相成的。5. 结论在本文中，我们提出了一种可扩展的方法来学习一个多标签分类器的部分标签。我们的实验表明，我们的损失函数显着提高，证明性能。我们证明，我们的课程学习模型使用贝叶斯不确定性是一个准确的策略，以标记缺失的标签。在未来的工作中，可以将多个具有共享类别的数据集组合起来，利用更多的训练数据进行学习。657引用[1] 里卡多贝萨-耶茨和贝蒂埃·里贝罗-内托。现代信息检索1999. 5[2] YoshuaBengio ， Je´ ro meLouradour， RonanCollobert ，andJa-son Weston. 课程学习。国际机器学习会议（ICML），2009年。二、四[3] S. S.布卡克河Jin和A. K.贾恩。不完整类分配的多标签学习。在IEEE计算机视觉和模式识别会议（CVPR），2011年。2[4] Ricardo S.放大图片创作者：Carrie P.科斯泰拉和亚历山大·贝尔纳迪诺。多标签图像分类的矩阵完备化。神经信息处理系统进展（NIPS），2011年。2[5] Andrew Carlson，Justin Betteridge，Bryan Kisiel，BurrSet-tles，Estevam R.小赫鲁施卡汤姆M。米切尔迈向无止境语言学习的架构。在 2010 年的人工智能会议（AAAI）上。3[6] Olivier Chapelle、Bernhard Schlkopf和Alexander Zien。半监督学习2010. 二、五[7] X. Chen，中国山核桃A. Shrivastava和A.古普塔。从网络数据中提取视觉知识。IEEEInternational Conferenceon Computer Vision（ICCV），2013年。3[8] Xinlei Chen，Abhinav Shrivastava，and Abhinav Gupta.通过对象发现和分割来丰富视觉知识库在IEEE计算机视觉和模式识别会议中，2014年。3[9] KyunghyunCho ， BvanMerrienboer ， DzmitryBahdanau，and Yoonge Bengio.关于神经机器翻译的特性：编码器-解码器方法。在第八次工作坊上，统计翻译中的语义和结构，2014年。4[10] 朱宏民是啊和王玉强用于弱监督多标签分类的深度生成模型。在欧洲计算机视觉会议（ECCV），2018。2[11] Tat-Seng Chua ， Jinhui Tang ， Richang Hong ， HaojieLi，Zhiping Luo，and Yantao Zheng.NUS-WIDE：新加坡国立大学的真实世界网络图像数据库ACM图像和视频检索国际会议（CIVR），2009年。5[12] 本·萨普和本·塔卡。从部分标签中学习。Journal ofMachine Learning Research（JMLR），2011。2[13] 放大图片作者：Jia Deng，Olga Russakovsky，JonathanKrause，Michael S.伯恩斯坦，亚历克斯·伯格，李飞飞。可扩展的多标签注释。在SIGCHI计算机系统人为因素会议上，2014年。一、二[14] Thibaut Durand，Taylor Mordan，Nicolas Thome，andMatthieu Cord.WILDCAT：用于图像分类、逐点局部化和分割的深度ConvNets的弱监督学习在IEEE计算机视觉和模式识别会议，2017。1[15] Thibaut Durand ， Nicolas Thome ， and Matthieu Cord.WEL- DON：深度卷积神经网络的弱监督学习。在IEEE计算机视觉和模式识别会议（CVPR），2016年。1[16] Thibaut Durand，Nicolas Thome，and Matthieu Cord. 利用深层潜在结构模型的否定证据在IEEE Transactions onPattern Analysis and Machine Intelligence（TPAMI），2018年。一、五[17] M. Everingham，S. M. A.埃斯拉米湖凡古尔角，澳-地K.I.威廉斯，J. Winn和A. 齐瑟曼。Pascal Visual ObjectClasses挑战：回顾。International Journal of ComputerVision（IJCV），2015年。5[18] 龚云超，贾扬青，梁志华，杜雪夫，艾菲.多标签图像标注的深度卷积排序。2014 年国际学习表征会议（ICLR）。5[19] Marco Gori，Gabriele Monfardini，and Franco Scarselli.一种新的图域学习模型。 IEEEInternational JointConference on Neural Networks，2005。4[20] Sheng Guo ， Weilin Huang ， Haozhi Zhang ， ChenfanZhuang，Dengke Dong，Matthew R.斯科特和黄定龙Cur- riculumNet：从大规模Web图像中进行弱监督学习。在欧洲计算机视觉会议（ECCV），2018。3[21] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR），2016年。一、五[22] Sergey Ioffe和Christian Szegedy。批次归一化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议（ICML），2015。4[23] Finn V. Jensen和Thomas D.尼尔森贝叶斯网络和决策图。2007. 2[24] Lu Jiang，Deyu Meng，Qian Zhao，Shiguang Shan，andAlexander G Hauptmann.自主学习课程。在2015年的人工智能会议（AAAI）上。三、四[25] Lu Jiang，Zhengyuan Zhou，Thomas Leung，Li-Jia Li，and Li Fei-Fei. MentorNet：在损坏的标签上学习数据驱动的非常深的神经网络课程。2018年国际机器学习会议（ICML）3[26] Armand Joulin，Laurens van der Maaten，Allan Jabri，and Nicolas Vasilache.从大型弱监督数据中学习视觉特征。欧洲计算机视觉会议（ECCV），2016年。2[27] Ashish Kapoor，Raajay Viswanathan和Prateek Jain。基于贝叶斯压缩感知的多标签分类。神经信息处理系统进展（NIPS），2012年。2[28] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？神经信息处理系统进展（NIPS），2017年。5[29] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。在国际学习代表会议（ICLR），2014年。2[30] Simon Kornblith，Jonathon Shlens和Quoc V.乐Bet- terImageNet模型的迁移更好吗2018. 2[31] M. P. Kumar，Benjamin Packer，and Daphne Koller.潜变量模型的自定进度学习。神经信息处理系统进展（NIPS），2010年。二、四658[32] Alina Kuznetsova 、 Hassan Rom 、 Neil Alldrin 、 JasperUi-jlings 、 Ivan Krasin 、 Jordi Pont-Tuset 、 ShahabKamali、Stefan Popov、Matteo Malloci、Tom Duerig和Vittorio Ferrari。开放影像数据集V4：统一的图像分类，对象检测

下载后可阅读完整内容，剩余1页未读，立即下载