空间一致性损失的训练方法对多标签图像分类有效

96 浏览量更新于2023-10-15 收藏 2.33MB PDF 举报

数据扩充

多标签分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1训练的空间一致性损失单标签标注Thomas Verelst1*Paul K.Rubenstein2 Marcin Eichner2 Tinne Tuytelaars1 Maxim Berman21ESAT-PSI，KU Leuven，Belgium2 Apple{firstname.lastname}@ esat.kuleuven.be摘要样品数据扩充类输出多标签图像分类比单标签分类更适用然而，用每个感兴趣的对象详尽地注释图像是昂贵且耗时的。我们从数据集中训练多标签分类器，其中每个图像仅用单个阳性标签进行注释。由于所有其他类的存在是未知的，我们提出了一个预期的负损失，除了注释之外，还照片由S。Cozybncbn输入骨干类输出EMA积极的。该集合基于预测一致性来确定，通过对连续训练时期的预测进行平均来构建鲁棒目标。此外，“裁剪”数据增强通过裁剪出单个注释对象而导致额外的标签噪声。我们新的空间一致性损失改进了监督，并通过维护每个训练图像的每类运行平均热图来确保空间特征图的一致性。我们使用MS-COCO，Pascal VOC，NUS-WIDE和CUB-Birds数据集来证明预期负损失与一致性和空间一致性损失相结合的收益。我们还使用ReaL多标签验证集在ImageNet-1 K上演示了改进的多标签分类mAP。1. 介绍在过去的十年中，由于大规模数据驱动的机器学习的出现，有了足够的注释数据，机器感知在许多困难的任务中已经达到或超过了人类的准确性，特别是单标签图像分类[43]。然而，获得大量带注释的数据仍然是一个挑战，特别是在更细粒度的对象识别任务中，如多标签分类，对象检测或实例分割。详细注释-*在Apple实习期间完成的工作。图1.我们从单标签图像的数据集训练多标签分类器在这个例子中，只有zebra被注释。我们使用指数移动平均来建立标签估计，导致我们预期的负二进制交叉熵损失。此外，我们引入了一个空间一致性损失标签来解决由数据增强引入的标签噪声：由于随机数据增强，斑马被裁剪掉，单个标签不再与图像匹配。该损失确保了（i）网络的输出分类图（ii）这些输出图在连续训练时期上的指数移动平均值（EMA）之间的空间一致性大规模地搜索图像中的所有对象是耗时且容易出错的。为了降低注释成本，一些大规模数据集，如OpenImages [28]，只为数据集中的每个图像注释对象类的子集在这种情况下，注释过程产生保证在图像中的一组正标签、保证不存在于图像中的一组负标签以及不提供信息的一组未知标签。一个更极端的设置，其大大减少了注释效果，是每个图像的单个正标签的注释这种类型的注释对于单标签分类任务是合理的，其中单个注释旨在表示感兴趣的主要对象。然而，很明显，大多数自然图像包含不止一个对象。例如，已经证明用于图像分类的ImageNet数据集[10]包含具有注释类别的多个对象的图像3879标签：斑马更新一致性EMA损失...长颈鹿斑马...长颈鹿斑马作物13880Gories [58]，平均每个图像1.22个阳性标记。结合这种特定类型的标签噪声使用正则化，或者通过隐式，例如，随机优化或明确地通过使用标签平滑技术[47，52]，可以提高准确性，并可能帮助分类器学习有用的映射，而不管固有的标签噪声。其他工作承认，单标签数据集（如ImageNet）的图像在这样的设置中，单标记数据集可以被认为是弱标记的多标记分类数据集，每个图像具有单个正注释。一种常见的策略是将所有未注释的标签视为阴性[9]，并结合二进制交叉熵损失，通过将未注释的阳性标签视为阴性来引入标签噪声和不正确的监督。我们的方法建立了一组预期的积极和预期的消极标签，使用鲁棒的标签得分，通过跟踪指数移动平均值（EMA）的网络输出在训练时期估计。这种获得稳健估计的方法类似于集成方法[29]。然后选择预期的阳性作为最高评分的标签。虽然类似于伪标记[30]，但我们表明，忽略二进制交叉熵损失是取得好结果的必要条件。分数估计自然会导致一致性损失（CL）的应用然而，我们观察到，当训练分类器结合图像裁剪作为数据增强技术时，单个正注释标签也可能是标签噪声的来源。裁剪图像有删除与地面实况注释对应的对象的风险，如图1所示误导优化。因此，我们在空间域中扩展了一致性损失，引入了空间一致性损失（SCL）。通过在连续训练时期内对网络的空间输出进行EMAs，我们获得了空间热图，这些热图定位了图像中的对象，超出了单个地面真实标签。SCL使用这些空间移动平均值作为自我监督的额外来源，这进一步提高了网络的准确性。本工作的贡献如下：• 我们的预期阴性（EN）方案通过构建一组预期的未注释阳性和预期阴性，从单个阳性标签注释中训练多标签分类器。期望的正性在二进制交叉熵损失中被忽略，这对于良好的性能是必不可少的;• 我们引入了空间一致性损失（SCL），扩展了空间域中的CL，改善了多标签准确性，并与无处不在的“重新调整大小+裁剪”数据增强协同作用• 我们测量了我们在MS-COCO，Pascal VOC，NUS-WIDE和CUB-Birds上的贡献所带来的收益，以及使用多标签注释评估的ImageNet-1 K。2. 相关工作部分注释。在大量类别和图像上收集详尽的多标签分类注释可能是棘手的，这就是为什么许多大型数据集采用部分注释的原因[34]。例如，对于OpenImages[28]和LVIS [17]中的每个图像，只有一小部分标签被注释。收集大量部分标记的数据有时会比收集少量完全注释的数据带来更好的性能[13]。当在具有不相交标签空间的多个数据集的组合上训练模型时，部分标签也可以自然发生[56，60]。具有缺失标签的多标签学习可以被框定为一个转换学习问题，其中一个目标是解释性地恢复与所提供的部分注释一致的完整注释[54]。图神经网络[53，7，13，50，35，22，31]或对抗训练[57]可以用于预测缺失的标签，有注释的。标签共现分析可用于估计标签的置信度[3，23]。处理缺失标签的一种简单方法是将其视为负数[46，4]。然而，这由于标签噪声而使性能恶化。[25]表明高容量模型可能会记住嘈杂的标签。在损失函数中忽略未注释的类可以缓解这个问题[13]，但是当注释只包含正的时候，这是不适用的[9]。使用单个正标签的训练可以被认为是单标签学习[39，12，21]和正无标签学习[11，1]的组合。Cole等人[9]比较几个基线，并提出了一个正则化的在线标签估计（ROLE）的方法，估计在训练过程中丢失的标签，通过联合优化标签估计器和图像分类器。一个的输出作为另一个的基础事实，直觉上两者都更有可能收敛到相同的解决方案。其他方法根据样本的损失值重新加权样本[59，42]。Large Loss Matters [25]将具有大损失值的元素标记为错误标记，并忽略或重新加权这些元素。半监督学习半监督学习除了使用完全标记的样本之外，还使用一组未标记的数据样本，并且是部分注释的特殊情况[16]。将未标记样本纳入训练过程的一种方法是鼓励在不同时期或增强中对这些样本的预测保持一致[44，24]。梯形网络[40]鼓励3881∅∈L̸∅Σ−·∈{}Σ−n=1∅∅联系我们标准分支和损坏分支的去噪预测之间的一致性。[29]提出了一种新的扰动模型，在同一样本的两个扰动版本之间强制执行一致性。此外，他们还提出了自集成，通过对不同训练时期的输出进行平均来建立共识预测。我们在第3.4节和第3.5节中的一致性损失将类似的想法直接应用于训练集，而不是未标记图像的保留数据集。其他方法使用伪标记来利用未注释的图像。[30]使用得分最高的类作为未标记数据的真实标签。FixMatch组合伪标签一致性正则化[45]。然而，伪-在图像中;图像中不存在负标签;由编码的缺失标签可以存在或不存在。在单正设置中，对于每个图像存在单个正标签i，使得z ni= 1;所有其他标签j=i被假定为未知（z nj=）。给定一个图像xn，神经网络分类器预测L标记概率fn[0，1]L。在训练时，网络参数被优化以最小化训练集上的经验风险，用损失函数测量。一种常见的多标签分类损失是二进制交叉熵（BCE）损失L标签容易出现概念漂移和确认偏差，早期错误标记的样本会导致累积的错误，LBCE（fn）= 1[zL妮i=1= 1] log（fni）+错误课程标签[5]使用精细的培训策略减轻了这一点。Noisy student [55]在ImageNet [27]上展示了最先进的结果，通过迭代重新标记数据和使用越来越大的学生模型，在大量未标记图像上进行自我训练和相比之下，我们选择忽略我们识别为可能的正面的标签（第3.3节），而不是将它们合并到正面注释中，以避免概念漂移。数据扩充和实例区分。我们的CL和SCL损失在随后的训练时期内加强了网络的一致性，这有利于网络输出对数据增强的不变性。这可以连接到最近的自我监督学习趋势，例如区分，确保实例的数据增强版本的嵌入更接近[zni=0] log（1−fni）（1）其中[ ] 0，1的艾弗森括号等于1iff。条件成立。对于不完整的注释，缺少的标签（其中zni=）在等式中被忽略。(1)因此不受惩罚。虽然很自然，但这种建模不适合仅使用正注释标签进行训练，例如我们考虑的单个正设置。在这样的设置中，没有什么可以阻止网络预测所有L个类别，而不考虑输入，因为不存在对误报的惩罚。3.2.假定阴性损失（AN）处理单正标签的一个简单策略是假设所有未知标签都是负数。这导致了假设负（AN）损失函数[9]L在嵌入空间比嵌入不同的stances [48，36，18，20，6]。在完全注释的多-LAN（fn）= 1[zL妮i=1= 1] log（fni）+标签图像分类设置，[15]鼓励图像的两个数据增强之间的网络空间激活的一致性，类似于模型的空间扩展[29]。在半监督单标签设置中，我们的SCL第3.5节使用了类似的en-鼓励空间类输出的一致性，但是在不同的训练时期上使用时间集合来这样做，而不是在单个训练迭代期间直接比较数据增强副本的输出。3. 方法3.1. 问题陈述我们陈述了具有部分注释标签的多标签分类问题，类似于[9]。我们的目标是学习从图像xn到指示向量yn0，1L的类包含在图像中，L是- ing类的数量我们使用一个数据集（xn，zn）N，其中每个输入图像xn具有部分注释zn∈{0，1，n}L. 由1编码的阳性标签包含在[z ni∈ {0，n}] log（1−f ni）.（二）在这种情况下，未观察到的标签（其中zni=）被视为负数。这是合理的，因为图像中存在的对象的数量通常很小，导致监督中只有少数假阴性，与正确监督的许多真阴性然而，AN损失的假阴性可能对准确性有很大影响。我们的解释是，当预测缺失正标签的高分时，网络被因此，AN中缺失的正标签导致大量不正确的监督，这可能主导来自真负的损失的贡献。3.3.预期负损失（EN）我们设计了一种策略，通过跟踪一组我们期望为每个类的负数的样本，来忽略Assume Negative损失中噪声标签的大的不正确成分。为此，我们建立了鲁棒的得分估计，3882nΣn=1nnininini×nnnnLnnnpi = KN·n=1ni=KnLninininiΣn nn联系我们×∈∈不Σ即使移动平均值为t提供强大的LA-每个未注释的标签，并将高分标签视为预期阳性，将其他标签视为预期阴性。我们使用一个超参数K，它设置了每个图像的预期阳性标签的数量。对于大小为损失，这通常用于无注释样本的半监督方法[29，44，45，24]。一致性损失（CL）由预测的st和移动平均值ft之间的距离给出：n nN，具有类别的地面真值阳性的预期数量i由下式给出N[z =1]Nn=1LCL（f t）=1。（六）3.5.空间一致性损失（SCL）假设注释标签贝尔分数，他们导致标签噪音的额外来源Nn=1 [zni=1]/N类似于未知的真实分布。当训练多标签分类器时，对象可能在使用流行的“裁剪”时，N .行动，行动，行动用于确定pi最可能未注释的阳性标签的得分估计值通过保持每个标签的运行平均估计值来获得，类似于一致性损失[29，44，45，24]。在连续的训练时期，网络看到图像的不同数据增强版本;在这些不同的增强上保持模型输出的运行平均值会导致更鲁棒的标签估计。在训练时期t，估计的分数st用网络输出ft更新为在训练中增强。出于这个原因，我们在空间维度上扩展了移动平均值，使用分数热图来跟踪图像每个空间位置的平均分数。这种空间一致性损失（SCL）确保了多个预测的一致性，即使图像被随机裁剪。我们考虑一个典型的分类器网络架构，它具有卷积骨干，对特征的平均池化操作和完全连接的分类层。nEMAst=µst−1+（1−µ）ftn（四）为了获得空间局部化的类特定预测，我们修改网络架构，（i）将全连接层解释为1×1卷积，（ii）应用它的势头。分数s0被初始化为1，积极的标签，即如果zni= 1，则s 0 = 1，否则为0。在每个时期t的开始，我们识别顶部pi运行平均得分估计（s t）n=1. N可能对应于积极的地面实况标签。我们设置zt0，1，其中1是预期阳性标记的指示符，0是预期阴性标记的指示符。在第一个训练时期，如果z ni = 1，则初始化zn0=1，否则初始化0。我们在Sec中显示4.2仅仅考虑预期可能由于那些伪标记的标记漂移，将阳性作为阳性导致不令人满意的结果，其中早期错误标记的样品导致累积误差[5]。我们的期望负（EN）仅适用于二进制交叉熵在池化操作之前而不是之后。假设输入图像为正方形，这种改进产生空间分数图Fn[0，1]G×G ×L，其中G G为特征图的空间维数。将全连接层应用于特征图的每个空间位置会增加训练时的计算量。然而，由于分布特性，平均池化和11个卷积层的顺序可以颠倒，而不影响网络输出，如附录J中所解释的因此，我们的修改导致在推理过程中没有计算惩罚。对于每个图像n，我们保留得分热图Ht[0，1]W×W×L，其中包含在时期t的输出得分图Ft的移动平均。热图大小W是在注释的阳性和预期的阴性集合上的损失倍数nG，允许将细节存储在热图中，注意，忽略损失中预期的积极标签。这导致以下损失函数：1LLE N（f）=−[z=1]lo g（f）+[z=0]lo g（1−f）.i=1比分数图更精细的分辨率;实际上，我们使用W=2G。当将输入xn馈送到网络时，我们记录在数据增强中使用的空间变换Tt鉴于这种反-形成，只有热图Ht是向上的-（五）用EMA标注日期：分数图Ft的大小用与AN损失相反，EN并不假设所有未注释的标签都是阴性的，而只是假设那些不是预期阳性样本的一部分的标签。3.4.一致性损失（CL）由于预期负损失为未注释的样本构建了强大的目标，我们尝试使用这些目标作为额外的监督。这导致了一种一致性N[zni=1]，（3）3883n双线性插值以适合裁剪区域，并在需要时进行翻转。从输入中裁剪出来的热图区域不会更新。与CL方法类似，热图对于带注释的地面实况初始化为1，对于其他类初始化为0空间一致性损失（SCL）是得分热图与网络输出之间的距离输入增强变换Tt首先应用于3884n×--××--×nLnnn运行平均热图。然后将结果重新缩放以匹配Ft的尺寸。SCL由下式给出：LSCL（Ft）=<$Ft− resize（T t（Ht−1））<$1。（七）在我们的实验中，我们将EN损失与CL或SCL结合使用，并使用加权参数γ：L=LEN+ γL（S）CL。（八）4. 实验4.1. 结果和比较数据集、设置和指标。我们使用MS-COCO 2014[33]、Pascal VOC 2012 [14]、NUS-WIDE [8]和Caltech-UCSD Birds-200-2011（CUB）[49]作为多标签分类的基准。为了测试我们的贡献，我们使用[9]共享的代码来模拟一个单一的正注释设置，并复制他们的训练，验证和测试样本。验证和测试分割是完全注释的，训练样本通过随机选择每个图像的单个地面真实阳性标签来获得单个标签。详情见附录K。我们使用对应于最佳验证mAP的历元报告测试分割的平均精度（mAP）。来自torchvision [38]的ResNet-50 [19]模型以448 448的分辨率进行训练，如[9]所示。我们使用随机作物扩增（面积尺度0.25至1）和随机水平翻转;详细信息和刻度消融见附录A。我们使用Adam优化器[26]，批量大小为8。使用ImageNet-1 k预训练[43]，最终的线性层以10− 3的学习率训练5个epoch，然后以10−5的学习率和余弦退火对整个网络进行25个epoch的微调。当从头开始训练时，模型以10−4的学习率和余弦退火训练100个我们与相关工作ROLE [9]和Large[25]第25话失去此外，我们通过培训设置重新培训以下基线：假设负（AN），具有标签平滑（LS）的AN，其中最佳标签平滑参数选自0. 1，0。2，弱假设负（WAN）[9]，在损失中降低负权重。我们使用[9]共享的代码库来报告ROLE在我们的设置中的性能。与[59]的比较见附录B，因为它使用了不同的数据分割，其中还包括部分标记实验，其中标记了40%或75%的阳性而不是仅单个阳性。SCL/CL实施细节。给定448448个输入，网络输出14个得分图。分数热图以8位无符号整数格式存储，大小为28 28。在线性预训练之后，我们根据等式使用CL和SCL与EN结合（八）、均线动量设置为µ=0。8.在0中搜索损失重量γ。1，1，我们根据验证结果测试最佳模型。没有其他实验特定的超参数搜索与相关工作相比，[9，25]。我们设定基于验证集注释的预期阳性数量K（见附录K）：MS-COCO 2.9，VOC 1.5，NUS-WIDE 1.9，CUB 31.5。结果表1将我们的方法与其他基线和相关工作进行了比较[9，25]。结果表明，通过避免对未注释的阳性标签的惩罚，预期阴性（ EN ）损失优于假定阴性（AN）。由于EN使用EMA分数来确定被忽略的标签，因此与一致性损失（CL）相结合很简单由于本地化的自我监督，SCL进一步改善了结果，在除VOC之外的所有数据集上显著优于相关工作 Large LossMatters [25]，在除NUS-WIDE之外的所有数据集上优于ROLE [9]（尽管在使用我们的设置复制时得分较低）。4.2. 分析和消融消融实验在MS-COCO上进行，使用ImageNet预训练，设置与第4.1节相同;我们报告了验证分割的最佳结果。空间热图空间热图的一些定性示例如图所示二、我们显示了阳性注释类的热图，以及未注释类的选定热图热图展示了图像中许多对象的局部化，而这些对象不存在于单标签地面实况中。图3显示了培训过程中的进度。图4比较了具有和不具有SCL的热图（设置γ=0），并且示出了SCL更精确地定位对象，避免了对负类的错误预测附录H给出了另一个例子，附录I包含了未经策划的热图，显示了观察结果的普遍性。偏向于单一的积极预测。图5a显示了所有验证图像上每种方法的前1个分数的分布。最高4分的扩展版本见补充材料（附录F）。与完全注释的基线相比，单阳性数据集与AN损失相结合导致低评分预测。EN + SCL损耗（等式(8))减少了假阴性标签的数量，并导致更类似于完全注释情况的分布。在表2中，我们比较了避免偏向单一阳性预测的策略。在EQ中的EN损失。(5)忽略预期的阳性样本。相比之下，预期正损失LEP使用这些作为超级市场中的额外正损失。3885Σ1−niniL方法监督无预培训IN1K预培训VOC12 MS-COCO VOC12 MS-COCO NUS CUB全注释oracle（BCE）all pos + all neg 53.1 66.1 90.0 79.4 53.7 33.2AN +标签平滑[9]<$1 pos/img--86.5 69.2 44.9 17.9作用（在[9]中报告）<$1 pos/img--88.2 69.051.016.8LL-R（在[25]中报告）†1 pos/img--89.471.9 49.1 21.5LL-Ct（在[25]中报告）<$1 pos/img--89.3 71.6 49.6 21.8LL-Cp（在[25]中报告）<$1阳性/img--89.3 71.0 49.4 21.4假设为负数（AN）1 pos/img 46.5 49.1 86.0 69.0 45.5 21.1AN +标签平滑1 pos/img 46.0 46.1 87.6 70.3 46.7 16.0WAN [9]（我们的培训时间表）1 pos/img 44.4 45.1 86.4 69.3 45.6 21.3角色[9]（我们的培训计划）1 pos/img 45.0 51.9 87.8 69.9 47.8 20.3预期阴性（EN）1 pos/img 47.5 53.4 88.1 71.8 49.1 22.3EN +稠度损失（CL）1 pos/img 49.155.088.3 71.9 49.0 22.1中文+空间一致性（SCL）1 pos/img51.454.0 88.873.250.322.5表1.在Pascal VOC 2012 [14]和MS-COCO 2014 [33]、NUS-WIDE [8]和CUB [49]的测试集上获得的平均精密度（mAP）ImageNet-1 K [43]预训练将线性层预热5个epoch。用†表示的结果由相关工作报告图像热图注释类热图未注释的类（选择）瓶花瓶书盆栽汽车总线交通灯卡车一种人用夹层汽车餐桌图2.ResNet-50在MS-COCO上最后一个训练阶段生成的热图，带有ImageNet预训练（最佳彩色视图愿景：LEP（fnL）=[zniLi=1=1zt+[z]t= 1] log（fni）=0] log（1 − fni）.预测概率之和对估计的阳性数量K。通常，LEN与LCL或LSCL组合在竞争方法中表现最好。EMA动量参数图5b比较了µ值的验证mAP。其中μ=1。0，热图不是我们发现EP 表现不佳我们认为不正确的预期积极因素通过引入概念漂移来干扰训练进程我们还将EN损失与[9]的预期正回归损失LEPR进行了比较根据预测进行更新。在验证集上，我们在实验中使用μ=0。图8对应于更新热图和构建精确的对象定位之间的最基线我们相关工作图片来源：ProimosCB图片来源：WaferboardCB图片来源：InformationCB3886×××Σ--Epoch 0Epoch 10 Epoch 25图3.训练期间运行平均热图的进展ing和50K验证图像。与第4.1节一样，我们使用在ImageNet上预训练的ResNet-50网络。我们比较了微调时获得的精度与AN损失（等式1）。（2）），和EN损失结合CL或SCL（等式2）。（8））。我们使用亚当优化器[26]，权重衰减为10−4。线性分类层以10− 4的学习率训练5个epoch，然后以余弦学习率衰减对整个网络进行25个epoch的微调。我们使用[19]中的标准裁剪和翻转增强。我们使用224 224个输入，导致SCL中大小为7 × 7的得分图和大小为14 × 14的热图。为了限制内存使用，我们只保留了10个得分最高的类的热图在SCL的预热阶段后（详情见附录G）。我们报告了ImageNet验证集上的前1名验证准确率我们还使用ReaL [2]的重新标记的多标签注释，包含46837个验证图像的注释，K=1。平均每个图像有22个阳性标记。在ReaL集合上，我们报告了top-1精度[2]N带注释的正类、未注释的正类和负类（最好用彩色观看）。1top-1ReaL=N[argmax（fnn=1）∈ {i|伊尼=1}]，（9）方法损失mAP假设负（AN）LAN69.4预期阴性（EN）LEN72.3假设负+CLLAN+LCL70.1预期阴性+CLLEN+L CL72.4预期阳性和阴性。 + CLL EP + L CL65.8预期正回归[9]+ CL L EPR [9]+ L CL七十一点七假设负+SCLLAN+L SCL70.2预期阴性+SCLLEN+L SCL73.7预期阳性和阴性。 + SCLL EP + L SCL64.6预期正回归[9] + SCLLEPR[9] +LSCL72.3表2.避免单位置的方法偏倚（MS-COCO值分割）。超参数K 图5c探索了超参数K的不同值。最佳值为K=2。五、在我们的实验中，我们只使用2。根据验证集统计确定的9。图5d比较了当将评估限制为包含1，2，、7真正的正面标签我们看到K调的趋势是分类器预测更多或更少的阳性结果。补充材料还包括附录E中的距离函数和权重γ的研究，附录C中的裁剪增强和附录D中的小目标尺寸SCL的改进。4.3. ImageNet-1 K上的多标签分类我们应用我们的方法在ImageNet-1 K [10]上训练多标签分类器，其中多标签地面真实值不可用。这个单标签数据集有120万个火车-以及平均精度（mAP），以及具有k=1，2，3，4+标签的图像子集。我们在微调结束时结果详见表3。如先前的工作[52]所观察到的，使用AN进行微调已经提高了网络的单标签top-1准确性当添加CL和SCL损失时，我们观察到多标签度量的进一步改进。我们注意到，当在具有k=1或k=2标签的图像上查看mAP时，这些方法带来了AN的最大改进，这些标签构成了96%的验证集。在给定超参数K = 1的情况下，这是可以预期的。2，这有利于具有1或2个标签的图像超过具有更多标签的图像。4.4. 限制的方法存储在8位无符号整数格式中的空间热图使用NLW2字节的存储器，对于MS-COCO（N=112K，L=81，W=28）大约为8 GB对于较大数据集，可以通过保留top-kheatmaps在预训练后，如我们在4.3节中所做的那样，或者通过异步I/O将heatmaps卸载到磁盘。与[9]一样，我们的实验使用来自注释样本的统计数据，使用每个图像K集的预期阳性数量的oracle值此值取决于数据集的数据收集程序：例如ImageNet主要包含具有一个对象的图像，而MS-COCO图像包含许多对象。因此，根据数据集和分类器所需的属性，预期该值的一些校准。长颈鹿（未注释位置）奶牛（无注释阴性）斑马（注释位置）照片由S。Cozybncbn3887热图注释类热图未注释的类（选择）图像公共汽车汽车卡车人空间一致性预期阴性（无SCL）图4.在有和没有空间一致性损失的情况下，在最终训练时期生成的热图的比较12.510.07.55.02.50.00.00.20.40.60.81.0评分7372710.00.20.40.60.81.0空间热图动量μ74737271701 2 3 45K（预期阳性数量/img）75706560550123456 7#annotated positives/img(a) 前1名分数分布(b) 动量µ(c) 超参数K(d) # annot.阳性评分箱图5.使用ImageNet预训练的ResNet-50对MS-COCO验证集进行消融top-1输入值top-1真实mAP真实k =所有k = 1 k = 2 k = 3 k≥ 4Num. 样品50，000 46，837 46，837 39，394 5，408 1，319 716ResNet-5076.183.066.370.653.036.122.5ResNet-50 + AN76.983.181.488.060.036.821.8ResNet-50 + EN带CL77.183.481.788.460.536.621.7ResNet-50 + EN带SCL77.183.982.388.561.938.122.5表3.我们用AN，一致性损失（CL）或空间一致性损失（SCL）微调ResNet-50我们报告了ImageNet-val（单标签）和ReaL（多标签）的前1验证准确度;以及ReaL的平均精度（mAP）在所有图像（k =全部）上或在具有k = 1、2、3、4+注释标签的图像子集上报告mAP。5. 结论我们研究了每个图像只使用单个正标签来训练多标签分类器的问题，使用空间一致性损失来提高准确性。此外，我们发现标准训练策略会导致对负面预测的偏见，并提出了一种方法来构建一组预期的正面标签，这些标签不会在训练损失中受到虽然我们已经把我们的努力集中在无处不在的单阳性标记设置，我们的工作可以自然地扩展到其他部分注释设置。除了图像作物，其他数据增强，如仿射变换，可以类似地利用选择或掩蔽来强制神经网络的特征图在训练时期之间的一致性。最后，我们注意到，我们的方法的扩展也可能有益于其他数据模态，这些数据模态利用类似于随机裁剪或掩蔽的数据增强，例如文本分类中的单词删除[51]或音频数据的频率掩蔽[37]。确认这项工作部分是在苹果实习期间完成的，部分由KULeuven C1项目Macchina资助。公元前一个EN + SCL密度K=1K=2.9K=4地图地图摄影：ScalinoCBN地图3888引用[1] 洁莎·贝克和杰西·戴维斯从正面和未标记的数据中学习：一个调查。机器学习，109（4）：719[2] LucasB e ye r ， Ol ivierJHe´na f f ， Al e xanderKolesnikov，Xi- aohuaZhai，andA？ronvandenOord.我们完成了Imagenet吗arXiv预印本arXiv：2006.07159，2020。[3] Wei Bi和James T Kwok。具有标签相关性和缺失标签的多标签分类。AAAI人工智能会议论文集，第7页，2014年。[4] Serhat Selcuk Bucak，Rong Jin，and Anil K Jain.不完整类分配的多标签学习。参见CVPR 2011，第2801-2808页。IEEE，2011年。[5] Paola Cascante-Bonilla ， Fuwen Tan ， Yanjun Qi ， andVi- cente Ordonez.课程标签：半监督学习中的伪标记。在AAAI人工智能会议集，第35卷，第6912-6920页[6] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。[7] Zhao-Min Chen ， Xi-Shen Wei ， Peng Wang ， andYanwen Guo.用图卷积网络进行多标记图像识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第5177-5186页[8] Tat-Seng Chua ， Jinhui Tang ， Richang Hong ， HaojieLi，Zhiping Luo，and Yantao Zheng.NUS-WIDE：新加坡国立大学的真实世界网络图像数据库。在2009年ACM图像和视频检索国际会议论文集，第1-9页[9] Elijah Cole，Oisin Mac Aodha，Titouan Lorieul，PietroPerona，Dan Morris，and Nebojsa Jojic.从单个正标签进行多标签学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第933-942页[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页[11] Marthinus C Du Plessis ， Gang Niu ， and MasashiSugiyama. 从正的和未标记的数据中学习的分析。AdvancesinNeuralInformationProcessingSystems（NeurIPS），2014年，第27期。[12] 段俊宏，李晓宇，穆德俊。从单标签学习多标签--一种极弱标签学习算法。武汉大学自然科学学报，24（2）：161[13] Thibaut Durand，Nazanin Mehrasa，and Greg Mori. 学习深度ConvNet用于带有部分标签的多标签分类2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），第647美国电气与电子工程师协会。[14] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn和A.齐瑟曼。PASCAL可视化对象类挑战 2012 （ VOC2012 ）结果。 http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊[15] 郭浩，郑康，范小川，于宏凯，王松。图像变换下多标签图像分类的视觉注意一致性在IEEE/CVF计算机视觉和模式识别会议论文集，第729-739页[16] Yuhong Guo和Dale Schuurmans。半监督多标签分类。在关于数据库中的机器学习和知识发现的欧洲联合会议上，第355-370页。Springer，2012.[17] 阿格里姆·古普塔、彼得·多尔·阿尔和罗斯·B·娘娘腔。LVIS：用于大词汇实例分割的数据集IEEE/CVF计算机视觉和模式识别会议（CVPR），第5351-5359页[18] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。IEEE/CVF计算机视觉和模式识别会议论文集，第770-778页，2016年[20] 奥利维尔·海纳夫具有对比预测编码的数据高效图像识别。国际机器学习会议，第4182-4192页。PMLR，2020年。[21] 胡亨通，谢灵犀，杜泽伟，洪日昌，齐天。一位监督图像分类。 Advances in Neural Information ProcessingSystems，33：501[22] Dat Huynh和Ehsan Elhamifar。使用部分标签的交互式多标签CNN学习。2020年IEEE/CVF计算机视觉和模式识别会议（CVPR），第9420-9429页，美国华盛顿州西雅图，2020年6月。美国电气与电子工程师协会。[23] 卡里姆湾Ibrahim，Elena V. Epure，Geoffroy Peeters，and Ga eilRichard. 基于置信度的加权损失的标签缺失多标签分类。在多媒体检索国际会议论文集，第291-295页ACM。[24] Jisoo Jeong ， Seungeui Lee ， Jeesoo Kim ， and NojunKwak.基于一致性的对象检测半监督学习。神经信息处理系统进展，32，2019。[25] 金英旭，金在明，赤田泽尼普，李正宇。在弱监督多标签分类中，损失较大是一个重要问题.在IEEE/CVF计算机视觉和模式识别会议论文集，第14156-14165页[26] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。在Yoshua Bengio和Yann LeCun，编辑，第三届学习表征国际会议，ICLR 2015，美国加利福尼亚州圣地亚哥，2015年5月7日至9日，会议跟踪会议，2015年。[27] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的3889工程. 神经信息处理系统进展（NeurIPS），25：1097[28] Alina Kuznetsova ， Hassan Rom ， Neil Alldrin ， JasperUijlings ， Ivan Krasin

下载后可阅读完整内容，剩余1页未读，立即下载