没有合适的资源?快使用搜索试试~ 我知道了~
部分注释多标签分类的类别感知选择性损失方法
47640使用类别感知选择性损失的部分注释多标签分类0Emanuel Ben-Baruch Tal Ridnik Itamar Friedman Avi Ben-Cohen Nadav Zamir Asaf Noy Lihi Zelnik-Manor 10DAMO Academy, Alibaba Group0{emanuel.benbaruch, tal.ridnik, itamar.friedman, avi.bencohen, nadav.zamir, asaf.noy}0@alibaba-inc.com 1 lihi@ee.technion.ac.il0摘要0大规模多标签分类数据集通常是部分注释的,这可能是不可避免的。也就是说,每个样本只有一小部分标签被注释。处理缺失标签的不同方法会对模型产生不同的性质并影响其准确性。在这项工作中,我们分析了部分标注问题,然后提出了基于两个关键思想的解决方案。首先,未标注的标签应根据整个数据集中的类别分布和给定数据样本的特定标签可能性进行选择性处理。我们提出使用专用的临时模型来估计类别分布,并展示了它相对于使用数据集的部分注释计算的朴素估计的改进效果。其次,在目标模型的训练过程中,我们通过使用专门的不对称损失强调注释标签对原始未标注标签的贡献。通过我们的新方法,在OpenImages数据集上实现了最先进的结果(例如,在V6上达到了87.3mAP)。此外,在LVIS和模拟的COCO上进行的实验证明了我们方法的有效性。代码可在https://github.com/Alibaba-MIIL/PartialLabelingCSL获得。01. 引言0最近,在多标签分类方面取得了显著进展[4, 8, 17, 32]。[2,6,30]中提出了专用的损失函数,以及基于transformers的方法[5, 17, 21, 26]。在许多常见情况下,例如[7, 9, 12, 15,16,18],随着数据中样本和标签的数量增加,完全注释每个图像变得不切实际。例如,OpenImages数据集[16]包含900万个训练图像和9600个类别。一个详尽的注释过程将需要注释超过860亿个标签。因此,在现实的大规模多标签分类任务中,部分标记的数据是不可避免的。部分标记的图像被注释为0图1.部分注释中的挑战。(1)“Lip”和“Yellow”在左图中明显存在,但未被注释为正标签。中间和右边的图像分别被注释为“Yellow”和“Lip”,但它们不是这些图像中的主要标签。(2)正标注的不足是一个关键挑战:频繁出现在图像中的类别(例如“Black”,“Lip”)可能与不频繁出现的类别(“Flower”,“Guitar”)相比,被标注得少。(3)大多数标签都未被注释。在训练目标模型时,如何利用临时模型对未标注的标签进行预测?0一个正标签的子集和一个负标签的子集,其余未标注的标签被视为未知(图1)。通常,大多数标签都是未标注的。例如,平均而言,Open-Images中的一张图片只被标注了7个标签。因此,如何处理众多未标注的标签可能对学习过程产生重大影响。处理未标注标签的基本训练模式是简单地在损失函数中忽略它们的贡献,如[7]中所提出的。我们将这种模式称为“忽略”。虽然忽略未标注的标签是一个合理的选择,但它可能导致决策边界不佳,因为它只利用了数据的一部分,参见图2(b)。此外,在典型的多标签数据集中,标签为负的概率非常高。因此,将未标注的标签视为负标签可能会提高判别能力,因为它可以利用整个数据集[15]。然而,这种训练模式被称为“负”47650图2. 处理部分标记的训练模式示例。(a)在部分标记的数据集中,只有部分样本对于给定类别进行了标记。(b)忽略模式仅利用样本的一个子集,这可能导致决策边界受限。(c)负面模式将所有未标注的标签视为负样本。它可能产生次优的决策边界,因为它添加了未标注的正样本的噪声。此外,已标注和未标注的负样本对优化过程的贡献相似。(d)我们的方法通过选择性地调整每个标签的训练模式来减轻这些缺点。0负面模式具有两个主要缺点:向训练中添加标签噪声,以及在负样本和正样本之间引发高度不平衡[2],参见图2(c)。0将未标注的标签视为负样本对于许多类别可能是有用的,但它可能会严重影响那些在图像中出现频率较高但未被充分标记的标签的学习。例如,在OpenImages[16]中,颜色类别仅在少数样本中进行了标记,例如类别“Black”在1,688个样本中进行了标记,仅占样本的0.02%,而它们可能存在于大多数图像中(见图1中的示例)。因此,这些类别将使用许多错误的负样本进行训练。因此,首先识别数据中的频繁类别并相应地处理它们是值得的。在完全标记的多标签数据集(例如MS-COCO[20])中,可以通过计算其注释数量来直接推断类别频率。在部分标记的数据集中,这并不直观。计算每个类别的正样本注释数量是误导性的,因为这些数字通常与真实类别频率不成比例。在OpenImages中,假设不频繁的类别如“Boat”和“Snow”在超过100,000个样本中进行了标记,而颜色等频繁类别仅在约1,500个图像中进行了标记。因此,需要从数据中估计类别分布。0在本文中,我们提出了一种选择性方法,旨在减轻主要训练模式(图2)引发的弱点。特别地,我们将针对每个标签单独选择一个主要模式(忽略或负面),利用两个概率条件(标签似然度和标签先验)。标签似然度量化了特定图像中标签存在的概率。标签先验表示数据中标签存在的概率。为了获得可靠的标签先验,我们提出了一种估计类别分布的方法。为此,我们使用忽略模式训练一个分类模型和0在评估我们的方法时,我们使用了一个代表性的数据集。然后,在训练最终模型时,为了处理高负正样本不平衡,我们采用了非对称损失[2],它能够侧重于难样本,同时控制正样本和负样本的影响。我们进一步建议将损失中已标注和未标注项的关注级别解耦,以强调已标注负样本的贡献。我们在三个数据集上进行了大量实验:OpenImages[16](V3和V6)和LVIS[9],它们是具有9,600和1,203个类别的部分标记数据集。此外,我们还模拟了部分标记的MS-COCO[20]版本,以探索和验证我们的方法。结果和比较证明了我们提出的方案的有效性。特别地,在OpenImages(V6)上,我们实现了87.34%的mAP得分,达到了最先进的水平。本文的贡献可以总结如下:0•引入一种处理部分标记数据的新型选择性方案,根据两个概率量(标签似然度和标签先验)单独处理每个未标注的标签。我们的方法在几个部分标记的基准测试中优于先前的方法0•我们确定了部分标记数据的一个关键挑战,即使用注释计算类别分布的不准确性,并提供了一种从数据中估计类别分布的有效方法。0•提出了一种部分非对称损失,以动态控制已标注和未标注负样本的影响。02.相关工作0已经提出了几种方法来解决部分标注的挑战。[7]提供了一种部分二元交叉熵(CE)损失,根据比例对每个样本进行加权。L(x) =�c∈PxL+c (x) +�c∈NxL−c (x) +�c∈UxLuc (x)(1)47660已知标签的比例,其中未标注的标签在损失计算中被简单地忽略。在[15]中,他们建议在损失中还涉及未标注的标签,将它们视为负面,并通过在其Sigmoid函数中引入一个温度参数来平滑它们的贡献。[12]中提出了一种交互式方法,其损失由注释标签的交叉熵和一个平滑项作为正则化组成。[7]中还使用了课程学习策略来完成缺失的标签。与为所有类别使用相同的训练模式不同,本文提出了为每个类别单独调整训练模式的方法,可以是 忽略 或 负面,依赖于基于概率的条件。此外,我们引入了部分标注中的一个关键挑战,即无法直接从注释数量推断类别分布,并提出了一种估计过程来处理这个问题。[29、31、33]中还提出了其他方法来应对部分标签,例如通过低秩经验风险最小化[33]或通过学习结构化语义相关性[31]。然而,它们不适用于大型数据集,并且它们的优化过程不适用于深度神经网络。正样本未标记(PU)也与部分标注相关[1、10、13]。不同之处在于PU学习方法仅使用正样本和未标注标签,没有任何负面注释。03.从部分注释中学习03.1.问题表述0给定一个部分标注的多标签数据集,其中有C个类别,每个样本x ∈ X对应于一张特定的图像,并由一个标签向量y = {y c } C c =1进行注释,其中y c ∈{−1,0,1}表示类别c在图像中的存在(‘1’),不存在(‘−1’)或未知(‘0’)。对于给定的图像,我们将正标签和负标签的集合分别表示为P x = { c | y c = 1 }和N x = {c | y c = −1 }。未标注标签的集合表示为U x = { c | y c = 0}。请注意,通常有 |P x ∪ N x | � |U x|。部分标注的多标签分类损失的一般形式可以定义如下,0其中 L + c ( x ) , L − c ( x ) 和 L u c ( x ) 分别是样本 x的正标签、负标签和未标注标签的损失项。给定一组 N个标记样本 { x i , y i } N i =1 ,我们的目标是训练一个由 θ参数化的神经网络模型 f ( x ; θ ),以预测给定输入图像中每个类别的存在或缺失。我们用 p= { p c } C c =1 表示由模型计算得到的类别预测向量: p c= σ ( z c ) ,其中 σ ( ∙ ) 是Sigmoid函数,z c是对应于类别 c 的输出逻辑值。0例如,应用二元交叉熵损失时,只考虑已标注的标签,将损失项设置为 L + c ( x ) = log( p c ) , L − c ( x ) = log(1 −p c ) 和 L u c ( x ) = 0 。03.2.如何处理未标注标签?0通常,未标注标签的数量远远超过已标注的标签。因此,如何处理未标注的标签可能对学习过程产生重大影响。在此,我们将首先定义两种主要的训练模式,并详细介绍它们的优势和局限性。然后,根据这些见解,我们将提出一种可能更好地处理未标注标签的类感知机制。模式忽略。处理未标注标签的基本方案是简单地忽略它们,正如[7]中建议的那样。在这种模式下,我们设置 L u c ( x ) = 0。这样,训练数据不会受到错误注释的污染。然而,它的缺点是只能使用数据的一个子集。例如,在OpenImages数据集中,对于“Cat”类别,具有正面或负面注释的样本数量仅占训练数据的约0.9%。当已注释的负标签不足以覆盖负类别空间时,这可能导致次优的分类边界。请参见图2(b)的示例。模式负面。在典型的多标签数据集中,特定标签在图像中出现的机会非常低。例如,在完全注释的MS-COCO数据集[20]中,一个标签被注释为负面的概率约为0.96。基于这个先验假设,一个合理的选择是将未标注的标签视为负面,即设置 Lu c ( x ) = L − c ( x )。这种工作模式也在[15]中提出过。虽然这种模式使得整个数据集能够被利用,但它存在两个主要限制。首先,它可能错误地将正标签注释为负标注,给训练中添加标签噪声。其次,这种模式固有地引发负样本和正样本之间的高度不平衡。例如,通过降低负样本的贡献来平衡它们可能会减弱有价值的已注释负样本的影响。这些弱点在图2(c)中有所说明。选择哪种模式没有明确的答案。它取决于各种条件,并可能源于使用的注释方案。在第5.1节中,我们将展示不同的部分注释过程可能会偏好不同的损失模式(参见图6)。此外,正如下一节所讨论的,使用的模式可能会对每个类别产生不同的影响,这取决于数据中类别存在的频率和可用注释的数量。03.3. 部分标注中的类别分布0如前所述,在多标签数据集中,大多数标签仅出现在数据的一小部分中。对于LF(pc, γ) = (1 − pc)γ log pc(2)47670图3.提出的方法。首先,通过使用以“忽略”模式训练的临时网络来执行类别分布估计阶段,以获得可靠的标签先验。然后,使用“选择性”方法训练目标模型,根据其估计的先验和可能性为每个标签分配“负面”或“忽略”模式。0例如,在MS-COCO中,89%的类别出现在少于5%的数据中。因此,将所有未标注的标签视为负面可能会提高许多类别的区分能力,因为训练中涉及更多真实的负样本,而添加的标签噪声可以忽略不计。然而,这可能会严重影响那些在数据集中的正面注释数量远低于它们实际出现的样本数量的类别的学习。以MS-COCO中的“人物”类为例。它出现在55%的数据中(45,200个样本)。现在,假设只有1,000个正面注释的子集可用,并且其余的都被转换为负面。这意味着在训练过程中,大多数预测错误都是由于错误的注释。在这种情况下,优化将受到损害,网络的置信度将大大降低。因此,首先识别频繁的标签并在损失中以不同方式处理它们将是有益的。03.3.1 正面注释不足0为了识别频繁的标签,我们需要可靠地获取它们在数据中的分布。在完全标注的数据集中,可以通过计算每个类别的注释数量并通过样本总数进行归一化来轻松获得分布。但是,在部分标注的数据集中,这并不直接。虽然有人可能建议计算每个类别的正面注释数量,但所得到的数字是误导性的,通常与真实类别频率不成比例。例如,在OpenImages(V6)中,我们发现许多常见和通用的类别在图像中的正面注释非常少。例如,“白天”,“事件”或“设计”等通用类别仅在1,709、1,517和1,394张图像(共900万张)中进行了标注。在图像中大量出现的颜色类别也很少被注释。例如,“黑色”和“白色”类别分别仅在1,688和1,497张图像中进行了标注。我们可以假设“白天”或“白色”等类别在更多的图像中出现0少于0.02%的样本。类似地,在LVIS数据集中,“人物”和“衬衫”类别仅在1,928和1,942个样本中进行了注释,而它们实际上出现在更多的图像中(请注意,在与LVIS共享相同图像的MS-COCO中,“人物”类别出现在55%的样本中)。请注意,标签的注释不一定按照它们在图像中的占主导地位进行。在图1中,我们展示了三个图像及其对应的“嘴唇”和“黄色”类别的注释示例。可以看到,左侧的图像既没有被注释为“嘴唇”也没有被注释为“黄色”,尽管这些标签在其中存在且占主导地位。此外,“嘴唇”仅在1,121个图像中进行了注释,这在“人脸”类别在327,899个图像中进行了注释的情况下是非常不足的。根据上述观察,正面注释的数量不能用于测量部分标注数据集中的类别频率。在第4.2节中,我们将提出一种简单而有效的方法来估计数据中的类别分布。04. 提出的方法0在本节中,我们将介绍我们的方法,旨在缓解训练部分标注数据中出现的问题。所提出的方法如图3所示。为了缓解高负正样本不平衡问题,我们采用了[2]中提出的非对称损失(ASL)作为多标签分类任务的基本损失。它能够动态地关注困难样本,同时控制从正负样本传播的贡献。首先,让我们用给定类别c的焦点损失[19]的基本项来表示:0其中 γ是聚焦参数,调整易样本的衰减率。然后,我们定义部分标注损失如下:L(x) =�c∈PxLF(pc, γ+)+�c∈NxLF(1 − pc, γ−) +�c∈UxωcLF(1 − pc, γu)(3)P(yc = 1|x; θ);∀c ∈ Ux(4)ΩL =�c ∈ Ux | c ∈ TopK({pc})�(5)P(yc = 1);∀c ∈ Ux.(6)(7)(9)47680如下所示,计算已标注损失:0其中 γ + 、 γ − 和 γ u是正样本、负样本和未标注标签的聚焦参数,ω c是选择性参数,它在第4.1节中引入。通常设置 γ + < γ−,以比负样本更低的速率衰减正样本项,因为正样本相对于负样本来说是不频繁的。此外,对于给定的类别,负样本已经经过验证的真实标签,我们有兴趣保留它们对损失的贡献。因此,我们建议将已标注的负样本标签的聚焦参数与未标注的负样本标签分离,允许我们为已标注的负样本标签设置较低的衰减率:γ − < γu。这样,已标注的负样本对于建立每个类别的分类边界的影响更大(见图2(d))。我们将这种形式的不对称损失称为部分-ASL(P-ASL)。04.1. 类别感知选择性损失0如第3.1节所述,忽略和负样本模式都对部分标注问题的假设不足。在本节中,我们提出了一种选择性方法来调整每个类别的模式。核心思想是检查每个未标注标签在给定样本 x中存在的概率。怀疑为正样本的未标注标签将被忽略,其他标签将被视为负样本。为此,我们定义了两个概率值:标签似然度和标签先验,并在以下部分详细介绍它们的使用。这两个量是互补的。标签似然度通过检查图像的视觉内容,动态地忽略给定图像中标签的损失贡献。标签先验从数据中提取估计类别频率的有用信息,并无论具体图像内容如何使用。标签似然度。定义为未标注标签 c在给定图像和模型参数下为正样本的条件概率,即0在训练过程中,可以通过网络预测 { p c } c ∈U x简单估计它。高的 p c 可能意味着未标注的标签 c出现在图像中,将其视为负样本可能会导致错误。因此,应该忽略标签 c。在实践中,我们允许忽略具有最高预测值的K 个未标注标签,即0图4.使用标签似然度。具有最高网络置信度的未标注标签可能与图像中的正样本相关。因此,在损失计算中忽略它们。0其中 TopK ( ∙ ) 运算符返回输入向量中前 K个元素的索引。算法方案如图4所示。请注意,此实现使我们能够在“负样本”和“忽略”模式之间连续地“切换”。设置 K = 0对应于“负样本”模式,因为没有未标注的标签被忽略。设置 K = C对应于“忽略”模式,因为所有未标注的标签都被忽略。标签先验。定义为标签 c在图像中存在的概率。它也可以看作是数据中实际的标签出现频率。我们对未标注的标签的标签先验感兴趣,0根据第3.3节,标签先验应该从数据中估计,因为在部分注释的数据集中,类别分布是隐藏的。在下一节(4.2节)中,我们将介绍估计标签先验的方案。同时,让我们用ˆPr(c)表示类别c的标签先验估计器。我们有兴趣禁用具有高先验值的标签的损失贡献。这些标签由以下集合正式定义:0Ω P = � c ∈ Ux |ˆPr(c) > η �0其中η∈[0,1]表示决定忽略一个标签所需的最小数据比例。最后,我们将损失贡献被忽略的标签的集合定义为先前计算的两个集合的并集:0Ω Ignore = Ω L ∪ Ω P. (8)0因此,我们将方程(3)中的参数ωc设置如下:0ωc =0� 0c ∈ Ω Ignore 1c∈ ΩIgnore0请注意,我们已经探索了其他实现损失函数中标签先验的替代方法。特别是,在附录B中,我们比较了一种通过设置ωc=exp(-αˆPr(c))来整合标签先验的软方法,并展示了使用硬决策机制(如方程(9)中提出的)产生更好结果的情况。5.1. Impact of Annotation SchemesAs aforementioned in section 3.2, the scheme used forannotating the dataset can substantially induce the learn-0.00.20.40.60.81.0Label frequencyColorPhotographImageWhiteBlackLightWorldBlueGreenShapeDaytimeBrownFawnIvory (Color)RedAtmosphere of earthAzureLineTints and shadesMan-made ObjectFigure 5. Estimating the class distribution in OpenImages. Top20 frequent classes estimated by the Ignore model. Top classes areall related to common labels such as colors or general concepts.ing process. Specifically, the choice of how to treat theun-annotated labels is highly influenced by the annotationscheme. To demonstrate that, we simulate two partial anno-tation schemes on the original fully annotated MS-COCOdataset [20]. MS-COCO includes 80 classes, 82,081 train-ing samples, and 40,137 validation samples, following the2014 split. The two simulated annotation schemes are de-tailed as follows:Fixed per class (FPC). For each class, we randomly samplea fixed number of positive annotations, denoted by Ns, andthe same number of negative annotations. The rest of theannotations are dropped.Random per annotation (RPA). We omit each annotationwith probability p. Note that this simulation preserves thetrue class distribution of the data.In Figure 6, we show results obtained using each oneof the simulation schemes for each primary mode (Ignoreand Negative) while varying Ns and p values. As can beseen, while in RPA (Figure 6(a)), the Ignore mode consis-tently shows better results, in FPC (Figure 6(b)), the Neg-ative mode is superior. Note that as we keep more of theannotated labels (by either increasing Ns or decreasing p),the gap between the two training modes is reduced, catch-ing the maximal result. The phenomenons observed in thetwo case studies we simulated are also related in real practi-cal procedures for partially annotating multi-label datasets.While in the FPC simulation, the class distribution is com-pletely vanished and cannot be inferred by the number ofpositive annotations (Ns for c = 1, ..., C), the RPA schemepreserves the class distribution.5.2. Estimating the Label PriorTo demonstrate the estimation quality of the class dis-tribution obtained by the approach proposed in section 4.2,we follow the FPC simulation scheme applied on the MS-COCO dataset (as described in section 5.1), where a con-stant number of 1,000 annotations remained for each class.Because MS-COCO is a fully annotated dataset, we cancompare the estimated class distribution (i.e. the label prior)476904.2. 估计类别分布0我们的目标是估计代表性数据集X中的类别分布。为此,我们首先需要评估数据中每个图像中每个类别的存在情况,即我们希望首先近似类别c在图像x∈X中存在的概率:P(yc=1|x)。为此,我们建议训练一个由θ参数化的模型,用于预测给定图像中的每个类别,即P(yc=1|x;θ)。然后,将该模型应用于样本集X(例如训练数据)。然后可以通过计算期望值来估计标签先验概率:0P(yc=1;θ) = 1 |X|0x ∈X P(yc=1|x;θ). (10)0为了估计标签先验概率,我们在Ignore模式下训练模型。虽然Negative模式对于大多数标签的区分能力可能更强,但对于具有少量正向注释的常见类别来说,它可能无法提供可靠的预测值。从错误的负向注释中传播的梯度误差的丰富性将降低对这些类别的预期返回预测,并且无法近似P(yc=1|x)。因此,我们建议的类别分布估计如下:0ˆPr(c) = P(yc=1;θIgnore), (11)0其中θIgnore表示在Ignore模式下训练的模型参数。在第5.2节中,我们将通过实验证明Ignore模式在对类别频率进行排序方面的有效性,以及Negative模式在这方面的不适用性。为了定性地展示估计的有效性,我们在图5中展示了我们提出的方法估计的OpenImages(V6)中前20个常见类别。请注意,所有的前20个类别通常都出现在图像中,比如颜色(“白色”,“黑色”,“蓝色”等)或者一般类别,比如“照片”,“光线”,“白天”或者“线条”。在附录D中,我们展示了下一个60个估计类别。此外,在附录E中,我们提供了LVIS数据集中估计的前20个常见类别。05. 实验研究0在本节中,我们将通过在特定案例研究中模拟部分注释来验证和展示我们方法的有效性,主要利用完全注释的MS-COCO数据集[20]。实验中使用的评估指标是平均精度均值(mAP)。训练细节在附录A中提供。0.20.40.60.81.0Portion of annotated labels606570758085mAP Score[%]IgnoreNegative(a)0500010000 15000 20000 25000 30000Maximum annotated labels per class606570758085mAP Score[%]IgnoreNegative(b)Figure 6. Impact of annotation schemes (COCO). mAP resultsobtained using the RPA (a) and the FPC (b) simulation schemesfor each primary mode. While in RPA, Ignore mode consistentlyshows better results, in FPC, the Negative mode is superior.1020304050607080TopK classes (sorted by true fre `)−0.4−0.20.00.20.40.60.8Spearman correlationIgnoreNegFigure 7. Spearman correlation between the true class distri-bution and the estimated distribution (COCO). Unlike the Neg-ative mode, training a model using Ignore mode is well suited forestimating the class distribution.to the true class distribution inferred by the original numberof annotations. In particular, we measure the similarity be-tween the original class frequencies and the estimated onesusing the Spearman correlation test. In figure 7, we showthe Spearman correlation scores while varying the numberof top-ranked classes. We also show the results obtainedwith Negative mode as a reference. Specifically, the Spear-man correlation computed over all the 80 classes, with theestimator obtained using the Ignore mode is 0.81, demon-strating the estimator’s effectiveness. In the next section, wewill show how it benefits the overall classification results.Also, in appendix C we present the top frequent classesmeasured by our estimator and compare them to those ob-tained by the original class frequencies in MS-COCO.477006. 基准结果0在本节中,我们将报告我们在部分标注的多标签数据集OpenImages [16]和LVIS[9]上的主要结果。MS-COCO数据集的结果在附录C中呈现。我们将与处理部分标注的先前方法进行比较,以及多标签分类中的其他基线方法。实验中使用的评估指标是平均精度(mAP)。特别地,我们报告了每类的标准mAP(mAP(C))和整体mAP(mAP(O)),后者考虑了每个类别中的样本数量。提供了实验的训练细节和使用的损失超参数,详见附录A。0方法 mAP(C) mAP(O)0CE,忽略 85.38 93.150wCE [7],忽略 85.22 93.050CE,负样本 85.35 91.140SE(LS) [15],负样本 85.70 91.200ASL [2],负样本 85.85 91.290P-ASL,负样本 86.28 92.340P-ASL,选择性(ΩL)86.36 93.250P-ASL,选择性(ΩP)86.46 93.270P-ASL,选择性(Ω忽略)86.72 93.570表1.OpenImages(V6)结果。选择性方法与P-ASL改进了mAP(C)和mAP(O)分数。0骨干网络 mAP(C) mAP(O)0OFA-595 [3] 85.40 92.870ResNet-50 [11] 86.15 93.160TResNet-M [25] 86.72 93.570TResNet-L [25] 87.34 93.770表2.不同骨干网络的OpenImages(V6)结果。使用TResNet-L模型,我们在OpenImagesV6上取得了最佳结果。0精度(mAP)。特别地,我们报告了每类的标准mAP(mAP(C))和整体mAP(mAP(O)),后者考虑了每个类别中的样本数量。实验中使用的训练细节和使用的损失超参数,详见附录A。06.1. OpenImages V60OpenImagesV6是一个大规模的多标签数据集[16],包含900万个训练图像,41,620个验证样本和125,456个测试样本。它是一个部分标注的数据集,有9,600个可训练类别。在表1中,我们呈现了我们提出的选择性方法获得的mAP结果,并将其与其他方法进行了比较。有趣的是,忽略模式产生的结果比负样本模式更好,因为OpenImages包含许多标注不完整的常见类别,如颜色和其他通用类别(见图5)。使用负样本模式会引入大量标签噪声,损害许多常见类别的学习。在表2中,我们呈现了不同网络架构的结果。具体来说,使用TResNet-L[25],我们获得了87.34的mAP分数,达到了最先进的结果。为了展示在P-ASL中解耦注释和未注释损失项的聚焦参数对结果的影响,我们变化了负样本聚焦参数γ-,同时固定γu=7。结果如图8所示。γ- = 7表示标准ASL[2]。可以看出,随着降低γ-,mAP分数增加,直到2。这表明降低负样本的衰减率可以增强它们的贡献。在图9中,我们展示了在等式(5)中定义的前K个最高似然类别的mAP分数。注意,设置K = 0等效于使用负样本。85.685.886.086.286.486.086.186.286.386.486.586.686.747710方法组1 组2 组3 组4 组5 所有类别0潜在噪声(视觉)[23] 69.37 70.41 74.79 79.20 85.51 75.860CNN-RNN [28] 68.76 69.70 74.18 78.52 84.61 75.160课程标注[7] 70.37 71.32 76.23 80.54 86.81 77.050IMCL [12] 70.95 72.59 77.64 81.83 87.34 78.070P-ASL,选择性(我们的方法)73.19 78.61 85.11 87.70 90.61 83.030表3. OpenImages(V3)的结果。比较使用我们的选择性方法与之前的多标签分类方法获得的mAP分数。01 2 3 4 5 6 7 负样本聚焦(γ-)0mAP得分[%]0γ u = 70图8. 解耦聚焦参数的影响(OpenImages)。我们设置γ u =7,并改变负面聚焦γ -。00 10 25 50 100 200 300 600 1000 3000 K顶级可能性标签0mAP得分[%]0可能性 + 先验可能性0图9.选择性方法组件的消融研究(OpenImages)。显示了不同数量的顶级可能性标签K的mAP结果。我们展示了仅具有可能性条件ΩL的结果,以及具有可能性条件Ω L ∪ Ω P的结果。0模式。使用足够高的K进行训练与使用忽略模式类似。最高的mAP结果是通过可能性和先验条件同时获得的。06.2. OpenImages V30为了与先前发布的结果兼容,我们使用包含5,000个可训练类别的OpenImages V3。我们遵循[ 12]中描述的比较设置。此外,为了公平比较,我们使用在ImageNet数据集上预训练的ResNet-101 [ 11]骨干网络。在表3中,我们展示了使用先前方法获得的mAP得分结果,并将其与我们的选择性方法进行了比较。如图所示,我们的方法在处理部分注释时明显优于先前的方法。0方法 mAP(C) mAP(O) 人物-AP0CE,忽略74.49 95.70 99.810wCE [ 7 ],忽略74.15 95.20 99.800CE,负面77.82 96.66 97.200SE [ 15 ],负面77.81 96.60 97.280
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ExtJS 2.0 入门教程与开发指南
- 基于TMS320F2812的能量回馈调速系统设计
- SIP协议详解:RFC3261与即时消息RFC3428
- DM642与CMOS图像传感器接口设计与实现
- Windows Embedded CE6.0安装与开发环境搭建指南
- Eclipse插件开发入门与实践指南
- IEEE 802.16-2004标准详解:固定无线宽带WiMax技术
- AIX平台上的数据库性能优化实战
- ESXi 4.1全面配置教程:从网络到安全与实用工具详解
- VMware ESXi Installable与vCenter Server 4.1 安装步骤详解
- TI MSP430超低功耗单片机选型与应用指南
- DOS环境下的DEBUG调试工具详细指南
- VMware vCenter Converter 4.2 安装与管理实战指南
- HP QTP与QC结合构建业务组件自动化测试框架
- JsEclipse安装配置全攻略
- Daubechies小波构造及MATLAB实现
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功