小规模标注+无监督学习：减少噪声数据对深度卷积神经网络的影响

126 浏览量更新于2023-10-16 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

839以最少的监督∗Andreas Veit1，Neil Alldrin2Gal Alkhik2Ivan Krasin2Abhinav Gupta2，3Serge Belongie11康奈尔大学康奈尔理工学院计算机科学系2谷歌公司，3卡内基梅隆大学摘要我们提出了一种方法，有效地使用数百万的图像与嘈杂的注释结合一个小的子集，干净的注释图像学习强大的图像表示。将干净数据和噪声数据结合起来的一种常见方法是首先使用大型噪声数据集预训练网络我们表明，这种方法并没有充分利用包含在干净集的信息。因此，我们演示了如何使用干净的注释来减少大型数据集中的噪声，然后使用干净的集合和减少噪声的完整集合来微调网络。该方法包括一个多任务网络，共同学习清洁嘈杂的注释和准确地分类图像。我们在最近发布的Open Images数据集上评估了我们的方法包含1900万个图像、每个图像多个注释对于小干净集我们使用四分之一的验证集，40k图片。我们的结果表明，所提出的方法在OpenImage数据集中的所有主要类别的类毛皮-因此，我们的方法对于注释中具有大范围噪声（20-80%假阳性注释）的大量类别特别有效1. 介绍深度卷积神经网络（ConvNets）在当前的机器视觉中蓬勃发展。扩展他们的学习的最大瓶颈之一是需要大量和干净的图像语义注释集合。时至今日，即使ImageNet取得了五年的成功[8]，仍然没有公开可用的数据集包含数量级更干净的标记数据。为了解决这个瓶颈，已经探索了其他训练范例，旨在绕过对具有昂贵的手动收集的注释的训练的需要例如，无监督学习（unsupervised learn）在Google Research实习期间完成的工作来自Open Images验证集的蔬菜番茄卡普雷兹沙拉肉mozzarella意大利熏火腿运输战车辆罐士兵暴力黑白的图像噪声注释的子集。预测视觉存在该结构是隐式的，用于通过我们的方法学习的Open中的每个类图像数据集。香肠？卡普雷塞沙拉？坦克？车辆？现代艺术技术车辆绘画船海沉船船？现代艺术？图1. 来自“打开图像”验证集的示例图像和注释，说明了各种图像和注释中的噪声我们关心的任务是训练一个强大的多标签图像分类器的噪声注释。虽然图像注释是简单的类列表，但我们的模型隐式地学习标签空间中的结构为了说明的目的，该结构被描绘成一个带有绿色和红色边缘的图，表示强的正关系和负我们所提出的方法既产生了一个干净的版本的数据集，以及一个强大的图像分类器。[2019- 12- 19]从嘈杂的注释[6，23]。这些方法中的大多数都假设所有注释都是噪声，并且没有干净的数据可用。实际上，典型的学习场景更接近于半监督学习：图像具有噪声或丢失的注释，并且一小部分图像还具有干净的注释。例如，当从网络上挖掘带有噪声注释的图像时，然后将一小部分发送给昂贵的人工验证。840噪声标号集标签清洗网络CNN 作为特征提取器清洁标号集视觉特征包含图像和噪声标签的多标记分类器监督美食，菜肴，食品，点心食品，小笼包美食，菜，产品，椰子，食品，点心食品，甜点，小笼包图2. 我们的方法的高层次概述。有噪声的输入标签被清除，然后用作最终分类器的目标。标签清洗网络和多标签分类器是联合训练的，并共享来自深度convnet的视觉特征。清理网络由干净注释的小集合（未示出）监督，而最终分类器利用干净数据和大得多的噪声数据两者在本文中，我们将探索如何有效地利用少量干净的注释与大量嘈杂的注释数据，特别是训练卷积神经网络。一种常见的方法是用噪声数据预训练网络，然后用干净的数据集对其进行微调，以获得更好的性能。我们认为，这种方法并没有完全杠杆年龄的干净的注释中包含的信息。我们提出了一种替代方法：我们不是使用小的干净数据集来直接学习视觉表示，而是使用它来学习噪声和干净注释之间的映射。我们认为，这种映射不仅可以学习噪声的模式，还可以捕获标签空间中的结构。噪声和干净注释之间的学习映射允许清理噪声数据集，并使用具有降低噪声的干净和完整数据集来所提出的方法包括一个多任务网络，该网络联合学习以清除噪声注释并准确地对图像进行分类，图2。特别是，我们考虑的图像分类问题的注释图像与图像中存在的所有概念的目标。在考虑标签噪声时，有两个方面值得特别注意。首先，许多多标签分类方法假设类是相互依赖的。然而，标签空间通常是高度结构化的，如图1中的示例所示。因此，我们将标签清洗网络建模为条件依赖于所有噪声输入标签。其次，许多类可以有多种语义模式。例如，类别coconut可以被分配给包含饮料、水果甚至树的图像为了区分这些模式，需要考虑输入图像本身因此，我们的模型通过使学习的清洁网络有条件地依赖于图像特征来捕获注释噪声对输入图像的依赖性我们在最近发布的大规模开放图像数据集上评估了该方法[16]。结果表明所提出的方法相对于传统的微调方法显著地提高了性能。此外，我们表明，直接微调有时会损害性能时，只有有限的额定数据。相比之下，我们的方法提高了整个标签噪声水平范围内的性能，并且对于训练集中具有20%到80%假阳性注释的该方法在一系列类别中表现良好，在开放图像的所有八个高级类别（车辆，产品，艺术，人物，体育，食品，动物，植物）中显示出一致的改进本文做出了以下贡献。首先，我们介绍了一个半监督学习框架的多标签图像分类，方便了小套干净的注释与大量的嘈杂的注释。其次，我们提供了第一个基准上最近发布的开放图像数据集。第三，我们证明，所提出的学习方法是更有效地利用小标记数据比传统的微调。2. 相关工作本文介绍了一种算法，利用一个大的语料库的噪声标记的训练数据结合一个小的干净的标签集来训练一个多标签图像分类模型。因此，我们将此讨论限制在从图像分类中的噪声注释中学习。关于标签噪声分类和噪声鲁棒算法的全面概述，我们参考[11]。从噪声标记数据中学习的方法通常可以分为两组：第一组中的方法旨在直接从噪声标签中学习，并且主要关注噪声鲁棒算法，例如，[3，15，21]，以及用于去除或校正错误标记的数据的标记清除方法[4]的文件。通常，这些方法面临着区分困难和错误标记的训练样本的挑战。其次，半监督学习（SSL）方法通过将噪声标签与一小组干净标签相结合来解决这些缺点[33]。SSL方法使用la-贝尔传播，如约束自举[7]或基于图形的方法[10]。我们的工作遵循半监督范式，但专注于学习噪声和干净标签之间的映射，然后利用映射来训练深度神经网络。在训练深度神经网络领域，有三个与我们的工作相关的研究流首先，已经提出了各种方法来显式地用神经网络对标签噪声进行建模。 Natarajan 等人 [23]Sukhbaatar et al. [27]这两个模型都是有条件地独立于输入图像的噪声这种假设没有考虑输入图像，因此不能有效区分不同的视觉模式和相关的噪声。在这一研究流中最接近的工作是从肖等人。[32]这是一个形象化的841传奇卷积层线性层图3.线性降维图层线性增维层来自人工评级标签训练样本来自只有噪声标签的d维向量，包含每个类的{0，1}中的标签概述我们的方法来训练图像分类器从一个非常大的训练样本集与噪声标签（橙色）和另外还进行了人工验证的小样本集（绿色）。该模型包含一个标签清理网络，该网络学习将嘈杂的标签映射到干净的标签，以Inception V3 ConvNet的视觉特征为条件标签清理网络由人类验证的标签监督图像分类器共享相同的视觉特征，并学习直接预测由（a）标签清理网络的输出或（b）人类评级标签（如果可用）监督的干净标签。噪声模型他们的目标首先是预测每个样本的噪声类型（从一小组类型中：无噪声、随机噪声、结构化标签交换噪声），然后尝试去除它。我们提出的模型也是以输入图像为条件的，但与这些方法不同的是，它没有明确地对特定类型的噪声进行建模，并且是针对每个图像的多个标签而设计的，而不仅仅是单个标签。也相关的是米斯拉等人的工作[22]他们对缺失的噪声进行虽然他们的方法以输入图像为条件，并且针对每个图像的多个标签而设计，但它并没有利用干净的标签，并且他们的重点是缺失的标签，而我们的方法可以解决不正确和缺失的标签。其次，迁移学习已经成为现代计算机视觉中的常见做法。在那里，网络在标记图像的大型数据集上进行预训练，例如ImageNet，然后通过对特定任务的小数据集进行微调，用于不同但相关的任务，例如图像分类和检索[26]和图像字幕[30]。与这些工作不同，我们的方法旨在使用嘈杂的标签从头开始训练网络，然后促进一小组干净的标签来微调网络。第三，所提出的方法与学生-教师模型和模型压缩具有表面相似性，其中学生或压缩模型学习模仿通常具有较高容量或具有特权信息的教师模型[2，5，14，20]。在我们的框架中，我们训练了一个ConvNet，上面有两个分类器，一个清洗网络和一个图像分类器，其中清洗网络的输出是图像分类器的目标。清洁网络有除了视觉特征之外，还可以访问嘈杂的标签，这可以被认为是特权信息。在我们的设置中，两个网络在一个联合模型中训练。3. 我们的方法我们的目标是训练一个多标签图像分类器使用一个大的数据集与相对嘈杂的标签，其中的ad-despite一小部分的数据集有人类验证的标签可用。当从网络上收集图像时，只有一小部分图像可以由专家验证，自然会出现此设置。形式上，我们有一个非常大的训练数据集T，包括有噪声标签的元组y和图像I，T={（yi，Ii），. }，以及由经验证的标签v、噪声标签y和图像I组成的三元组的小数据集V，V={（vi，yi，Ii），... {\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 这两个集合的大小明显不同，|不| ≫ |V|.例如，在我们的实验中，T超过V三个数量级。每个标签y或v是稀疏d维向量，其具有用于d个类别中的每一个的二进制由于T中的标签包含显著的标签噪声，而V太小，无法训练ConvNet，因此我们的目标是设计一种高效的方法来利用V中标签的质量和T的大小。3.1. 多任务标签清洗体系结构我们提出了一种多任务神经网络架构，该架构可以联合学习以减少T中的标签噪声，并使用准确的标签来注释图像。模型体系结构的概述如图3所示。该模型包括一个完全卷积神经网络[12，18，19]f，具有两个类带有人工评级标签的标签清洗网身份跳接清洁标签噪声标签验证标签仅含噪声标签的+噪声标签concatenate低维嵌入无梯度传播卷积网络图像分类器预测标签线性线性线性线性乙状线性线性线性线性842因子g和h。第一分类器是标记为g的标签清理网络，其对标签空间中的结构进行建模，并以输入图像为条件学习从噪声标签y到人类验证标签v的映射我们将g输出的干净标签表示为c，使得c=g（y，I）。这是...第二分类器是表示为h的图像分类器，其学习通过使用G的预测作为地面实况目标来模仿第一分类器 G 我们将 h 输出的预定标签表示为 p，使得 p=h（I）。图像分类器h被示出在图1的底行中。图3. 首先，通过卷积网络处理样本图像以计算高级别图像特征。然后，这些特征通过全连接层w其次是S形σ，h=σ（w（f（I）。图像分类器输出p_d，d维向量[ 0，1] d，d维向量[0，1]d对d个类别中的每一个的视觉存在的可能性进行标签清洁网络g在图3的顶行中示出。为了对图像上的标签结构和噪声进行建模，网络具有两个单独的输入，即噪声标签y和视觉特征f（I）。稀疏噪声标签向量被视为一个词袋并被投影到编码标签集合的低维标签嵌入中。视觉特征类似地被投影到低维嵌入中。结合表1. 按高级类别对开放影像数据集验证集中的地面实况注释进行细分该数据集涵盖了从人造产品到个人活动以及粗粒度和细粒度自然物种的广泛日常类别。高级类别独特标记注释车辆944240,449产品850132,705艺术10341,986人40955,417体育44665,793食品862140,383动物1064187,147植物51787,542别人1388322,602标签清洗网络由人类评级集合V中所有样本i的已验证标签监督。清除损失基于清除后的标签c_i和对应的地面实况验证标签v_i之间的差异，Σ在这两种模态中，嵌入向量被级联并用隐藏线性层进行变换，L清洁=i∈V|（二）|(2)投影回到高维标签空间。标签清洗网络的另一个关键细节是一个身份跳过连接，它将来自训练集的噪声标签添加到清洗模块的输出中。跳跃连接的灵感来自He等人的方法。[13]但不同之处在于残留物清洁模块具有作为侧面输入的视觉特征。由于剩余连接，网络只需要学习噪声和干净标签之间的差异，而不是回归整个标签向量。这简化了优化，并使网络能够从一开始就预测合理的输出当没有人工评级数据可用时，我们选择绝对距离作为误差度量，因为标签向量非常稀疏。其他测量方法，如平方误差，倾向于平滑标签。对于图像分类器，监督依赖于训练样本的来源。对于来自噪声数据集T的所有样本j，分类器由标签清洗网络产生的清洗标签cj为了sam有人工评级的情况下，i∈V，监督直接来自验证的标签Vi。允许多-对于每个图像的三个注释，我们选择交叉熵作为分类损失，以捕获预测的标签P和目标标签之间的差异。网络默认为不改变噪声标签。随着更多当经过验证的groundtruth变得可用时，网络优雅地完全适应并清理标签。保持有效Lclassify=− ΣΣj∈TΣcjlog（pj）+（1−cj） log（1−pj）标签空间的输出被裁剪为0和1。将剩余清洗模块表示为g′，标签清洗网络g计算清洗后的标签ΣΣ−i∈Vvilog（pi）+（1−vi）log（1−pi）Σ（3）c=clip（y+g′（y，f（I）），[0，1]）（1）3.2. 模型训练为了训练所提出的模型，我们用公式表示两个损失，我们使用随机梯度下降联合最小化：标签清除损失Lclean，其捕获已清除标签c的质量;以及分类损失Lclassify，其捕获预测标签p的质量。损失项的计算如图3右侧所示。值得注意的是，绝大多数训练示例来自集合T。因此，等式3中的第二求和支配模型的总损失为了防止简单的解决方案，其中清洗网络和分类器都学习预测全零的标签向量cj=pj={0}d，分类损失仅传播到pj。清洁的标签cj被视为关于分类的常数清洁的损失。8431061051041031021类频率1.00.80.60.40.2注释质量主类别及其在验证集上的统计信息除了类的不均匀分布之外，数据集的另一个关键区别是注释噪声。训练地面实况来自类似于Google CloudVision API1的图像分类器。由于自动注释过程，训练集包含相当数量的噪声。使用验证集来估计注释质量，我们观察到26.6%的自动注释1001000 2000 3000 4000 5000 6000类别索引0.001000 2000300040005000 6000类别索引被认为是假阳性。各班之间的质量差别很大图4（b）显示了(a) （b）注释质量图4. Open Images数据集的标签统计信息。类分别按频率和注释质量排序。(a)类在注释数量方面严重倾斜，例如，“vehicle”出现了90多万次，而“honda nsx”只出现了70次。(b)类别在注释质量方面也有很大差异，注释质量是指用类别标记的图像实际上包含该类别的概率。总体而言，超过70%的数据集中的1080M注释是正确的，常见类往往具有更高的注释质量。为了联合训练清洗网络和图像分类器，我们对包含T和V的样本的训练批次进行采样，比例为9：1。这使我们能够利用T中的大量样本，同时对V的清洁网络进行足够的监督。4. 实验4.1. 数据集我们在最近发布的Open Images数据集上评估了我们提出的模型[16]。该数据集是唯一适合我们的任务，因为它包含了一个非常大的集合的im-自动标注的质量。虽然有些类只有正确的注释，但其他类没有任何注释。然而，噪声不是随机的，因为标签空间是高度结构化的，参见图1的示例。对于我们的实验，我们使用训练集作为仅具有噪声标签T的大型图像主体。此外，我们将验证集分为两部分：大约4万个图像中的四分之一被用于我们的清洁方法中，提供噪声和人工验证的标签V。剩下的四分之三只用于验证。4.2. 评价任务和评价方法我们使用多标签图像分类来评估我们的方法，即，预测每个类-图像对的分数，所述分数指示由所述类描述的概念存在于所述图像中的可能性。对于Open Images数据集的分类，目前还没有标准的评估程序。因此，我们选择广泛使用的平均精度（AP）作为衡量性能。每个类别c的AP为RENPrecision（k，c）· rel（k，c）具有相对嘈杂的注释的年龄和具有人工验证的小验证集数据集是多标签的APc=k=1阳性数量（四）并且在每个图像包含多个注释并且词汇表包含几千个唯一类的意义上是大量多类的特别地，训练集包含9，011，219个图像，总共79，156，606个注释，平均每个图像8.78个注释。价值-数据集包含另外167，056张图像，其中，Precision（k，c）是当检索k个注释时c类的精度，rel（k，c）是一个为1的指示函数，当c类的地面真值和秩k处的图像为正时。N是验证集的大小。我们报告平均平均精度（MAP），它取所有d，6012，类的AP的平均值，MAP=2，047，758条注释，平均每条Σdc=1 APC. 此外，因为我们更关心形象该数据集包含6012个唯一类，每个类类在整个数据集上至少有70个注释。与其他数据集的一个关键区别是Open Images中的类不是均匀分布的。一些高级类，如“本田NSX”只出现70次。图4（a）显示了验证集上的类频率分布。此外，许多类彼此高度相关。为了区分语义上接近我们还报告了一个与类无关的平均精度，APall。该方法通过将每个注释视为来自一个类来平等地考虑它们。Open Images上的评估伴随着通过验证自动生成的注释来收集验证集的挑战。因此，人类验证仅存在于每个图像的类的子集。这就提出了一个问题，即如何在没有验证的情况下对待类。一种选择是考虑缺失的类类，我们根据它们的属性对类进行分组。高级别类别。表1概述了1https://cloud.google.com/vision/Open Images数据集中的注释数经积极核实1/d84410%最常见的类10%最不常见类表2. 在开放图像验证集的保留子集上比较AP和MAP模型。我们的方法优于竞争方法。有关指标和模型变体的更多详细信息，请参见第4.2节和第4.3节。型号AP所有MAP基线Misra et al.[22]视觉分类器83.5561.85Misra et al.[22]相关性分类器混合标签的微调使用干净标签进行我们的预培训方法87.6862.36我们的方法联合培训87.6762.382.52.01.51.00.50.01.0(a) 上课频率对成绩非常罕见中等非常常见按频率(b) 注释质量对性能人类验证作为负面的例子。然而，我们观察到，大量的高排名的注释可能是正确的，但没有验证。将它们视为否定将惩罚与用于注释数据集的模型有很大不同的模型。因此，我们选择在我们的度量中忽略没有人工验证的类。这意味着所有方法在完全召回时的测量精度非常接近注释的精度0.80.60.40.20.0高噪声介质按注记质量非常干净模型的PR曲线见图6（a）。4.3. 基线和模型变量作为我们评估的基线模型，我们只在训练集中的噪声标签上训练网络。我们将此模型称为基线，并将其用作所有其他变体的起点。我们比较以下方法。使用干净的标签进行微调：一种常见的方法是直接使用干净的标签来监督最后一层。这种方法收敛很快，因为用于微调的数据集非常小;然而，许多类具有非常少的训练样本，使得其易于过拟合。使用干净和嘈杂标签的混合进行微调：这解决了有限训练样本的缺点。我们用来自小的干净和大的嘈杂集合的训练样本的混合（以1比9的比例）微调最后一层。我们使用预训练的清洗网络的方法：我们比较了我们方法的两种不同变体。两者均按照第3.2节所述进行培训。它们仅在初始化方面有所不同。对于第一个变体，我们最初只在人类评级数据上训练标签清洗网络。然后，随后我们联合训练清洗网络和分类层我们的方法是联合训练的：为了减少预训练清理网络的开销，我们还训练了第二个变体，其中清理网络和分类层从一开始就联合训练。Misra et al. 最后，我们比较Misra等人的方法。[22]第20段。正如预期的那样，我们的方法表现得更好，因为他们的模型没有利用干净的标签和它们的噪声图5.我们的方法在以下方面的性能增益一个类的常见程度以及它的注释在数据集中的噪声我们沿着x轴对类进行排序，将它们分成10个大小相等的组，并计算每组内基线上的MAP增益。(a)最有效的是我们的方法，经常发生的类。(b)我们的方法提高了所有注释质量级别的它显示了具有20%至80%错误注释的类的最大增益，这些类在人类评级集中包含足够的负面和正面示例。模型只关注缺失的标签。4.4. 培训详细信息对于我们的基础模型，我们使用Inception v3网络架构[28]，使用TensorFlow [1]实现，并使用RMSprop [29]进行优化，学习率为0。045和0的指数学习率衰减。每2个时期94个。作为对架构的唯一修改，我们将最终的softmax替换为6012路sigmoid层。该网络是supervised与二进制交叉熵损失。我们使用Open Images训练集中的噪声标签在50个NVIDIA K40 GPU上训练基线模型。我们在4900万个小批处理（每个小批处理32张图像）后停止了该网络是所有模型变体的起点。四种不同的微调变体分别针对大约400万个批次进行训练最后一个分类层的学习率被初始化为0。001。对于清洁网络，它被设置为更高的0。015，因为它的权重是随机初始化的。对于具有预训练的清洁网络的方法，它首先以0的学习率进行训练。015直到收敛，然后设置为0。001一旦训练好MAP改进MAP改进845表3. 根据开放图像数据集的高级类别分组的类的平均精度。我们的方法consistently在所有类别中表现最好。模型车辆产品艺术人体育食品动物植物基线56.9261.5168.2859.4662.8461.7961.1459.00使用混合标签进行57.0061.5668.2359.4963.1261.7761.2759.14使用干净标签进行56.9360.9468.1258.3962.5661.6061.1858.90我们的预培训57.1562.3168.8960.0363.6061.8761.2659.45我们的方法联合培训57.1762.3168.9860.0563.6161.8761.2759.361.00精确召回曲线-所有类别1.0精确召回曲线-产品1.00精确回忆曲线-动物0.950.900.850.800.750.700.650.90.80.70.60.950.900.850.800.750.700.600.0 0.2 0.4 0.6 0.81.0召回(a) 所有类0.50.0 0.2 0.4 0.6 0.81.0召回(b) 产品0.650.0 0.2 0.4 0.6 0.8 1.0召回(c) 动物图6. 所有方法在所有注释上测量的精确度-召回率曲线以及产品和动物的主要类别。一般来说，我们的方法表现最好，其次是使用干净标签进行微调，使用干净和嘈杂标签的混合进行微调，以及基线模型。在所有类别中，我们看到所有置信水平的改进。对于产品，主要的改进来自高置信度的注释。对于动物，我们主要观察到在较低置信度范围内的收益。值得注意的是，预训练清理网络和联合学习它之间几乎没有区别。与分类器一起。为了平衡损失，我们我用0. 1和L分类为1。0的情况。4.5. 结果我们首先分析所提出的方法的整体性能表2显示了平均精度以及类不可知的平均精度。通常，在APall方面的性能高于MAP，表明普通类的平均精度高于稀有类。同等考虑所有注释，AP所有，我们看到所有变体在基线上的明显此外，所提出的方法的两个变体执行非常相似，并表现出显着的领先直接微调。MAP方面的结果显示了不同的画面。对干净数据进行微调，而不是提高性能，甚至直接损害性能。这意味着AP的改进都是由于一些非常常见的类，但大多数类的性能都会下降。对于许多类，干净标签集中有限数量的注释对干净和有噪声的注释进行微调消除了过拟合的问题，但是，以整体性能为代价。另一方面，我们的方法不面临过拟合的问题。同样，我们的两个变体的性能非常相似，在基线和直接微调上有显著改进在所有的一个符号和所有类的一致的改进表明，我们的方法显然是更有效的直接微调，从干净的标签集提取的信息。具有和不具有预训练的清洗网络的变体的类似性能表明不需要预训练图7显示了验证集的示例结果。4.5.1标签频率和注释质量的影响我们仔细研究了类频率和注释质量如何影响我们方法的性能。图5（a）显示了我们的方法相对于基线的性能改进，这与类的常见程度有关。X轴显示了6012个独特的类别，从罕见到常见的递增顺序。我们沿着轴将类分成10个大小相等的组。结果表明，我们的方法能够在几乎所有频率水平上实现性能我们的模型是最有效的非常常见的类，并显示所有的改善，但一小部分罕见的类。令人惊讶的是，对于非常罕见的类，主要是细粒度的对象类别，我们基线微调混合标签微调清洁标签我们与预培训我们共同培训基线微调混合标签微调清洁标签我们的预培训我们的联合培训基线通过预训练我们共同精度精度精度846来自验证集的超集Top 5预测来自验证集的超集Top 5预测来自验证集的超集Top 5预测体育运动员个人运动肌肉人体动作球类运动团队运动图7. 来自Open Images验证集的保留部分的示例。我们展示了基线模型的前5个最有信心的预测，直接对干净的标签和我们的方法进行微调，以及预测是否正确。我们的方法始终如一地消除了基线模型做出的错误预测。例如，在左上角删除了“团队运动”，并回忆起了“肌肉”。这是一个非常典型的例子，因为大多数运动图像在数据集中都标注了“球类运动”和“团队运动”。直接微调会产生混合的结果。有时它的表现类似于我们的方法，并删除错误标签，但对于其他人来说，它甚至会召回更多的错误标签。这说明了直接微调的过拟合的挑战。再次观察到改进。图5（b）显示了注释质量方面的性能改进。X轴以从非常嘈杂的注释到总是正确的注释的递增顺序示出了类。我们的方法提高了所有注释质量级别的性能。最大的增益是针对具有中等注释噪声水平的类。对于注释非常干净的类，性能已经非常高，限制了进一步提高的潜力。对于非常嘈杂的类，几乎所有自动生成的注释都是不正确的。这意味着标签清洗网络几乎没有收到任何关于阳性样本的监督具有中等注释质量的类在人类评级集中包含足够的负面和正面示例，并且具有改进的潜力。4.5.2Open Images数据集现在我们评估Open Images数据集中类的主要子类别的性能。表1所示的类别范围从人造物体（如车辆、人员和活动）到自然类别（如植物）。表3显示了平均精密度。我们的方法明显优于基线和直接微调。对于类无关平均精确度也得到了类似的结果，其中我们还在图6中显示了主要类别的产品和动物的精确度-召回率曲线。对于产品，主要的改进来自高置信度标签，而对于动物，我们主要观察到较低置信度制度的收益。5. 结论如何有效地利用一小部分干净的标签来处理带有噪声标签的海量数据集？我们表明，使用干净的标签直接微调在嘈杂的标签上训练的网络，并不能充分利用干净的标签集中包含的信息。我们提出了一种替代方法，其中使用干净标签来减少大型数据集中的噪声，然后使用干净标签和具有减少噪声的完整数据集我们在最近发布的Open Images数据集上进行了评估，结果表明我们的方法在所有主要类别的类中都优于直接微调。未来的工作有几个有趣的方向。我们设置中的清洁网络将标签和图像模态与串联和两个完全连接的层相结合。未来的工作可以探索更高容量的交互，如双线性池。此外，在我们的方法中，清洁网络的输入和输出词汇表是相同的。未来的工作可能旨在学习一个域中的嘈杂标签到另一个域中的干净标签的映射，例如Flickr标签到对象类别。确认我们要感谢Ramakrishna Vedantam提供的有见地的反馈，以及康奈尔理工学院的AOL连接实验室这项工作的部分资金来自谷歌重点研究奖。音乐家音乐表演娱乐人吉他手唱歌地质现象大气暗红色夜间车辆截图运动海红色夜彩灯光建筑房间截图寺庙舞台植物园植物学树土地植物花园后院基线直接微调干净的标签我们的方法服装时尚黑色黑暗灯光舞台娱乐表演艺术基线直接微调干净的标签我们的方法基线直接微调干净的标签我们的方法847引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C.西特罗湾S. Corrado，A. Davis，J. Dean，M. Devin等人Tensorflow：异构分布式系统上的大规模机器学习。arXiv预印本arXiv：1603.04467，2016。[2] J. Ba和R.柯拉纳深网真的需要深吗？CoRR，abs/1312.6184，2014年。[3] E. Beigman和B. B.克列巴诺夫使用注释噪声学习。见ACL/IJCNLP，2009年。[4] C. E. Brodley和M.A. 弗里德尔识别错误标记的训练数据。CoRR，abs/1106.0219，1999年。[5] C. 布西卢河Caruana和A.尼古列斯库-米兹尔模型压缩。在第12届ACM SIGKDD知识发现和数据挖掘国际会议的会议记录中，第535-541页ACM，2006年。[6] X. Chen和A.古普塔。卷积网络的Webly监督学习在ICCV，2015年。[7] X. Chen，中国山核桃A. Shrivastava和A.古普塔。从网络数据中提取视觉知识。InICCV，2013.[8] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。[9] C.多尔施A. Gupta和A.埃夫罗斯通过上下文预测的无监督视觉表示学习。在ICCV，2015年。[10] R. Fergus，Y.Weiss和A.托拉尔巴半监督学习在巨大的图像集合。神经信息处理系统的进展，第522-530页，2009年[11] B. 弗雷奈和M. 你好。存在标签噪声时的分类：调查。IEEEtransactions on neuralnetworksandlearningsystems，25（5）：845[12] K. 福岛Neocognitron：不受位置变化影响的模式识别机制的自组织神经网络模型。Biological cybernetics，36（4）：193[13] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。[14] G. E. Hinton，O. Vinyals和J. Dean.从神经网络中提取知识。CoRR，abs/1503.02531，2015。[15] A.茹林湖vanderMaaten，A. Jabri和N.瓦西拉凯从大型弱监督数据中学习视觉特征。欧洲计算机视觉会议，第67-84页。施普林格，2016年。[16]I. Krasin，T. Duerig，N. Alldrin，A. Veit，S.阿布·艾尔·哈伊贾S. Belongie，D.蔡氏Z.Feng，V.费拉里Gomes，A.古普塔D.纳拉亚南角孙，G. Chaihik和K.墨菲打开-图像：用于大规模多标签和多类别图像分类的公共数据集。数据集可从https://github.com/openimages获得，2016年。[17] Q. V. Le，M.兰扎托河蒙加M. Devin，G. S. Corrado，K.Chen，J. Dean，and A. Y. Ng.使用大规模无监督学习构建高级特征。CoRR，abs/1112.6209，2012年。[18] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278[19] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集（Proceedings of the IEEEConference on Computer Visionand PatternRecognition），第3431-3440页[20] D. 洛佩斯-帕兹湖Bottou，和Y。 v. BernhardSc hoülkopf和Vladimir Vapnik，期刊= CoRR。统一蒸馏和特权信息。[21] N. Manwani和P. S. Sastry风险最小化下的噪声容限。CoRR，abs/1109.5231，2013年。[22] I.米斯拉角L. Zitnick，M. Mitchell和R. 娘娘腔。看穿人类的报告偏见：从嘈杂的人类为中心的标签视觉分类器。在CVPR，2016年。[23] N.纳塔拉詹岛S. Dhillon，P. Ravikumar，and A. Tewari用嘈杂的标签学习。在NIPS，2013年。[24] L. Pinto、D. Gandhi，Y.汉，Y.- L. Park和A.古普塔。好奇的机器人：通过物理交互学习视觉表征。在ECCV，2016年。[25] P.I. Richard Zhang和A. A.埃夫罗斯彩色图像着色。在ECCV，2016年。[26] A. Sharif Razavian，H.阿兹普尔J. Sullivan和S.卡尔-儿子。Cnn的特色现成的：一个令人震惊的认可基线在CVPR研讨会，第806-813页[27] S. Sukhbaatar，J.布鲁纳M.帕卢里湖Bourdev和R.费格斯。使用噪声标签训练卷积网络。载于ICLR，讲习班，2015年。[28] C. 塞格迪河谷Vanhoucke，S.Ioffe，J.Shlens和Z.沃伊纳重新思考计算机视觉的初始架构。arXiv预印本arXiv：1512.00567，2015。[29] T. Tieleman和G.辛顿讲座6.5-rmsprop：将梯度除以其最近幅度的运行平均值。COURSERA：Neural Networksfor Machine Learning，4（2），2012。[30] O. Vinyals，A. Toshev，S. Bengio和D.二汉Show andtell：A neural image caption generator. CVPR，2015。[31] X. Wang和A.古普塔。使用视频的视觉表示的无监督学习在ICCV，2015年。[32] T. 肖氏T.Xia，Y.杨角，澳-地Huang和X.王. 从大量带噪标记数据中学习图像分类。CVPR，2015。[33] X.竹半监督学习文献综述。2005.

下载后可阅读完整内容，剩余1页未读，立即下载