没有合适的资源?快使用搜索试试~ 我知道了~
165480LaSO:用于多标签少样本学习的标签集合操作网络0Amit Alfassy � 1, 3, Leonid Karlinsky �, Amit Aides �, Joseph Shtok, Sivan Harary, RogerioFeris 1 IBM研究院人工智能0Raja Giryes 2 Tel-Aviv大学 Alex M. Bronstein 3Technion0摘要0示例合成是解决少样本学习问题的主要方法之一,其中每个类别只有少量样本可用。然而,当前的合成方法只处理每个图像的单个类别标签的情况。在本文中,我们提出了一种新颖的技术,用于合成具有多个标签的样本,以解决(尚未处理的)多标签少样本分类场景。我们提出将特征空间中的给定示例配对,使得生成的合成特征向量对应于通过对应输入对的标签集合进行某些集合操作而获得的示例。因此,我们的方法能够生成包含两个输入样本中的标签集合的交集、并集或差集的样本。正如我们所展示的,这些集合操作可以推广到训练期间未见过的标签。这使得能够对新类别的示例进行增强,从而促进多标签少样本分类器的学习。我们进行了大量实验,展示了所提方法在标签集合操作能力方面的有希望的结果,包括直接使用分类和检索指标以及在进行多标签少样本学习的数据增强方面。我们为这个新的具有挑战性的任务提出了一个基准,并且展示了我们的方法与所有常见基线方法相比的优势。01. 引言深度学习在创建信息丰富且具有区分性的特征空间方面表现出色,例如自然图像[13, 14,17]。在现代计算机视觉中,期望在深度特征空间中对图像进行表示,该表示将编码所有感兴趣的语义内容,无论是图像中存在的对象类别[14]、它们的视觉属性[9]还是它们的位置[13]。通常,这些特征空间是使用大量针对任务定制的标记数据进行训练的[20,31]。然而,在许多实际应用中,只有少数示例可用于0* 作者对本文的贡献相同0图1.在特征空间中运行的LaSO网络。这些网络的目标是从输入向量对中合成新的特征向量,使得合成向量的语义内容与源向量的标签集合上的预定操作相匹配。0目标任务;这种情况被称为少样本学习[37]。在少样本学习中,特征空间通常是从其他任务中转移过来的,可以直接转移,也可以通过元学习来生成这些空间(请参见第2节中这些技术的综述)。少样本学习的一种流行方法是生成方法[12, 25, 32,44]:从给定的少量训练样本中生成所选择特征空间中的许多新样本;然后使用这些合成样本来改进少样本任务的泛化能力。尽管少样本学习越来越受欢迎,但目前所有关于少样本分类的工作都处理每个数据点的单个(类)标签(例如C(Img)=dog),而不是多标签情况(例如C(Img)={dog, leash, person,forest})。在本文中,我们提出了一种新型的生成方法来进行少样本学习。它明确地针对多标签样本;更重要的是,通过其任务定义,它针对的是标签不一定是明确定义的先验情况。请考虑图2中所示的情况作为一个说明性的例子。假设您希望构建一个65490图2。LaSO概念:通过对(少量)数据的语义内容进行操作,以更好地推广到原始观察之外的情况。操作基于数据本身,在特征空间中执行。有关我们的方法在真实图像上执行A \(B∩C)操作的实际示例,请参见图4d。0(多标签)野生动物分类器。您去动物园并拍摄每只动物的几张照片(因此学习任务是少样本)。但不幸的是,所有动物都被关在笼子里(图2(a)),这个经过少样本训练的分类器可能在对野生动物的泛化上遇到一些困难(图2(c))。请注意,在这种情况下,“关在笼子里”这个标签甚至不是手动注释所使用的标签词汇的一部分(这里的词汇只包含动物)。为了解决这个问题,我们提出了可以通过示例在特征空间中操纵样本的“语义内容”的神经网络(例如,在特征向量中抑制与另一个特征向量对应的标签元素)。例如,考虑一个模型Mint,它可以在某个特征空间中接受两个带有关在笼子里动物的图像(图2(b)),并产生表示它们共同语义内容的特征向量。由于这里的共享(隐含)概念是“笼子”,它应该得到一个表示“关在笼子里”的特征向量(如果我们有一个“关在笼子里”的分类器,它会在这个向量上触发),但不再表示原始交叉图像中出现的任何关在笼子里的动物(在这种情况下是公鸡和兔子)。然后考虑另一个模型Msub,它可以在特征空间中隐式地从一个样本中删除另一个样本中存在的概念。然后,我们可以将Msub应用于关在笼子里的老虎和用Mint获得的表示“关在笼子里”的特征向量,从而有效地获得一个表示“野生老虎”的特征向量。图4(d)显示了使用我们的方法在真实图像上执行的A\(B∩C)操作的示例。凭借这个概念,我们提出在特征空间中构建和训练一套完整的基于样本的内容操作模型,即用于标签集交集操作的Mint,用于标签集并集操作的Muni,以及用于标签集减法操作的Msub。我们将这些模型称为标签集操作网络(或简称为LaSO网络)。图1给出了一个示意图。进入系统的图像对使用某个骨干网络转换为特征向量,然后由任何前述的操作网络之一处理,以产生具有相应标签集的特征向量。在第4节(结果)中,我们展示了我们的方法的结果。0具有推广到未见过(未标记)概念的能力,使我们能够将LaSO网络应用于以前观察到的标签集中不存在的语义概念(如前面示例中的“关在笼子里”标签)。在我们的实验中,LaSO网络在处理训练期间未见过的标签时表现出远超过随机水平的成功率。这反过来使我们的方法能够应用于多标签少样本场景,通过操纵训练期间未见过的新类别生成合成示例。总结起来,我们的主要贡献有三个。首先,我们提出了一种少样本多标签学习任务的方法,这是少样本学习研究中迄今为止未涉及的新方向。其次,我们提出了一种在特征空间中通过示例操纵标签集的新概念,允许通过组合其他样本生成新的多标签样本。在我们的方法中,对组合样本的标签的操作由样本本身的语义内容定义,因此不一定需要对所有可能的期望操作进行显式的监督预训练。第三,我们为少样本多标签学习任务提供了社区的第一个基准,并附带一组性能评估和基准比较。本文的组织结构如下。第2节回顾了少样本学习和训练样本增强领域的相关工作。第3节解释了我们提出的方法的技术细节。第4节回顾了各种实验和结果。最后,第5节提出了我们的结论和未来工作的建议。02. 相关工作 最近,少样本学习的问题在计算机视觉领域引起了广泛关注。在元学习(或学习到学习)方法中[10, 19, 23,29, 33, 37,43],分类模型的训练不是基于单个标注样本,而是基于少样本学习任务的实例,包括一个小的训练集和一些查询样本。元学习的目标是学习一个模型,该模型可以为任何这样的少样本任务生成模型,通常不需要(或只需要短时间的)微调。另一种少样本学习的方法是通过使用数据增强和数据合成技术来丰富小的初始训练数据集。简单的图像变换(水平翻转、缩放、平移)从机器学习社区的开始就被广泛应用。[28]中的工作通过学习一系列用户定义的(黑盒)变换及其参数,使对象保持可识别,将这种类型的增强推到了一个新的水平。在合成方法中,根据提供的少量标记样本生成新的样本(以样本外的方式)。一些工作使用几何变形[25]或CNN[7,34]来生成合成样本;具体而言,使用生成对抗网络(GAN)[8, 11, 15, 16, 22, 27, 30,44]生成样本的强烈趋势。在其他工作中,样本合成是通过使用附加的语义信息[4,41]、同一类别元素在特征空间中的相对线性偏移[12]、学习提取和应用同一类别示例对之间的非线性变换[32],或者在闭环中端到端地训练增强和分类模块[39]来完成的。本文中采用的样本合成方法依赖于生成与两个输入样本中的标签的交集、并集或差集相对应的新样本,这些标签可以是存在于输入样本中的对象或属性。这些集合操作仅在多标签场景中是非退化的,即每个图像包含多个对象(例如MS-COCO数据集)或一个对象具有多个属性(例如CelebA数据集)。一些关于多标签分类的先前工作通过学习图像中的标签相关性来改进每个标签的独立分类器的直接方法(详见[38]的广泛评论)。然而,在少样本领域,这些信息无法用于包含未见类别的新任务。在[2]中,解决了少样本多标签文本分类的任务,依赖于文本特定的标签空间结构。在[18]中,探索了多标签零样本分类,在[40]中,通过外部数据爬取增加了罕见的结构化数据组合。据我们所知,没有先前的多标签少样本视觉类别分类的工作不使用外部数据。在对象组合领域,[24]将属性建模为运算符,学习一个明确将属性与其伴随的对象分离的语义嵌入,以识别未见的属性-对象组合。在[3]中,提出了一种整合两个视觉对象的流程,用于生成由两个对象组成、空间组合的图像(在合成数据上进行测试)。这个任务与我们想要解决的任务非常不同,因为:(1)对象的空间组合需要学习遮挡;(2)组合发生在ized by enriching the small initial training dataset using dataaugmentation and data synthesis techniques. Simple imagetransformations (horizontal flips, scaling, shifts), have beenexploited in the machine learning community from the be-ginning. The work in [28] takes this type of augmentationto the next level by learning a sequences of user-defined(black-box) transformations, along with their parameters,that keep the objects recognizable.In the synthesis approaches, new examples are generatedbased on the few provided labeled ones (in out-of-samplemanner). Some works render synthetic examples using ge-ometric deformations [25] or CNNs [7, 34]; specifically, astrong recent trend is to generate examples using Genera-tive Adversarial Networks (GANs) [8, 11, 15, 16, 22, 27,30, 44]. In other works, the example synthesis is done us-ing additional semantic information [4, 41], relative linearoffsets between elements of the same category in featurespace [12], learning to extract and apply a non-linear trans-formation between pairs of examples of the same category[32], or training augmentation and classification modulesend-to-end in a closed loop [39].The approach for sample synthesis taken in this work re-lies on generating new samples corresponding, on the levelof semantic labels, to intersection, union or subtraction ofthe labels present in two input samples. These labels maybe objects or attributes that are present in the input samples.The set operations are non-degenerate only in the multi-label scenario, either when each image contains multipleobjects (e.g. MS-COCO dataset) or a single objects withmultiple attributes (e.g., CelebA dataset).Some prior works on multi-label classification improveupon the straightforward approach of having an indepen-dent classifier per label by learning label correlations withinimages (see [38] for an extensive review). Yet, in the few-shot domain, this information cannot be exploited for a newtask, which contains unseen categories. In [2], the task offew-shot multi-label text classification is addressed, relyingon the structure of the label space specific to text. In [18]multi-label zero-shot classification is explored and in [40]rare structured data combinations are being augmented byexternal data crawling. To the best of our knowledge, thereis no prior work of multi-label few-shot visual categoriesclassification without using external data.In the domain of object composition, [24] models at-tributes as operators, learning a semantic embedding thatexplicitly factors out attributes from their accompanying ob-jects, in order to recognize unseen attribute-object composi-tions. In [3], a pipeline for integrating two visual objects isproposed, for the purpose of generating images composedof the two objects, spatially combined (tested on syntheticdata). This task is very different than the one we would liketo address, as: (1) a spatial combination of objects requiresto learn occlusions; and (2) the composition takes place in65500我们的方法与现有方法不同,我们的方法是在图像空间而不是特征级别上进行操作。后者更容易使用现有的特征提取器(如Inception [35]或ResNet[14]),这对于少样本分类更适用。03. 方法我们的方法在图3中以示意图的形式展示。输入图像X和Y,每个图像都有对应的多个标签集合L(X),L(Y),分别在联合特征空间F中表示为FX和FY。我们在实验中使用了InceptionV3 [35]和ResNet-34[14]作为骨干特征提取器。三个LaSO网络M int、Muni和Msub接收连接的FX和FY,并被训练以合成相同空间F中的特征向量。正如名称(int=交集)所示,Mint的目标是合成一个特征向量,0M int (F X, F Y) = Z int ∈ F0它对应于一个假设的图像I,使得B(I) = Z int且L(I) =L(X)∩L(Y)。换句话说,这意味着如果一个人观察和标记I,它将接收L(X)∩L(Y)作为其标签集。类似地,M uni和Msub输出Z uni、Zsub∈F,预期对应于标签集合L(X)∪L(Y)的并集和标签集合L(X)\L(Y)的差集。请注意,尽管我们在训练我们的模型时使用了预定义的标签集L,但我们可以期望在训练过程中,网络也能推广到不属于L的标签。这是可能的,因为LaSO网络在输入时不接收任何显式的标签信息(无论是在训练过程中还是在使用过程中)。它们被迫通过观察FX和FY作为输入,隐式地学习合成与所需标签集相对应的向量,而不是明确地给出它们的标签。在第4节(结果)中,我们测试了我们的网络推广到新类别的能力。源特征向量FX和FY以及LaSO网络的输出,即Z int、Z uni和Zsub,被馈送到分类器C中。我们使用二元交叉熵(BCE,又称Sigmoid-交叉熵)多标签分类损失来训练C和LaSO网络:0BCE(s, l) =−∑ililogσ(si)+(1−li)log(1−σ(0i l i log σ(si)+(1−li)log(1−σ(si))0(2)使用sigmoid σ(x) =(1+exp(x))−1,向量s是分类器得分,l是期望的(二进制)标签向量,i是类别索引。为了训练分类器C,我们仅使用源特征向量的损失组合:0C损失 = BCE(C(FX), L(X)) + BCE(C(FY), L(Y))(3)其中C(∙)表示分类器C的输出得分向量。LaSO网络使用以下方法进行训练: 65510特征提取器骨干(InceptionV3)0连接0多标签分类损失(BCE)0重建损失(MSE)0交集0并集0减法0L(X)={人,羊,狗}0X0Y0L(Y)={人,狗,猫}0分类器0损失0图3. LaSO模型:所提出方法的所有组件的示意图(包括训练损失)。0LaSO损失 = BCE(C(Z int), L(X) ∩ L(Y))0BCE(C(Z uni), L(X)∪L(Y)) +BCE(C(Z sub), L(X)\L(Y))0对于LaSO更新,分类器C保持不变,仅用于向后传递梯度。注意,所使用的损失将训练C和LaSO网络分离。此外,我们的模型包括一组基于均方误差(MSE)的重建损失。第一个损失用于强制对称性,用于对称的交集和并集操作。该损失R sym loss是通过MSE计算Z int = M int (F X, F Y)、Z uni= M uni (F X, FY)与以相反顺序输入的相应网络获得的向量之间的差异:0R sym lo= 10n ∥ Z int − M int ( F Y , F X ) ∥ 2 + (5)01 n ∥ Z uni − M uni ( F Y , F X ) ∥ 20请注意, M int ( F X , F Y ) 和 M int ( F Y , F X )调用的是同一个 M int实例。对于我们的构造中多次调用的任何LaSO网络,情况也是如此。第二个损失用于减少模式崩溃的可能性,模式崩溃可能导致每个可能的标签集组合的半固定输出。例如,在模式崩溃的情况下,我们可能会观察到网络 M int对具有相同共享标签集的许多不同图像对的非常相似的输出。与模式崩溃相关的重构损失 R mc loss 是由 F X , F Y和产生一些LaSO网络组合的简单表达式的输出之间的均方误差损失实现的0特征向量应该通过集合论考虑与原始标签集 L ( X ) 和 L ( Y) 对应:0R mc los= 10n ∥ F X − M uni ( Z sub , Z int ) ∥ 2 2 + (6)01 n ∥ F Y − M uni ( M sub ( F Y , F X) , Z int ) ∥ 2 2 ,0其中 n 是 F X 的长度。3.1.实现细节我们使用 PyTorch 1.0[ 26 ] 实现了我们的方法。InceptionV3 和 ResNet-34特征提取器骨干网络是从头开始预训练的,使用了相应的训练集,如第 4 节(结果)所述。LaSO网络是实现为由 3 或4个块组成的多层感知机(MLP)。每个块包含一个全连接层,后面是批量归一化、泄漏ReLU和dropout。未来的工作可能会探索LaSO网络的其他架构,例如编码器-解码器和残差架构。在训练过程中,我们使用批量大小为16,初始学习率为0.001,学习率在损失平台上降低0.3倍。优化使用Adam优化器[ 6 ]进行,参数为 (0.9,0.999)。代码可在此处获得。04.结果一张图像通常包含多个物体实例,可以转化为一组唯一的类别标签。目标检测和分割数据集是多物体标签的重要来源。事实上,通过丢弃边界框和分割掩码,只保留唯一的类别标签集,我们可以将任何这样的数据集转化为 PersonFrisbeePersonFrisbeeDogFrisbeeDogGiraffeGiraffebirdGiraffeZebraZebraDonutCat BowlDonutPersonCarChairDining tableTruckDonutPerson CarPerson CarSheepPerson BusTruckMotorcycleSheepDogTVSheepDog 65520(a) (b)0(c) (d)0牙刷0人0卡车0牙刷0人0沙发0床0牙刷0人0三明治0热狗0刀0三明治0热狗0人披萨0碗0叉子0餐桌0三明治0热狗0人0雨伞0人0雨伞0卡车0椅子0人0雨伞0人0人0手机0人0人0船0狗0人0船0马0狗0人0手提包0人0手提包0斑马0长颈鹿0斑马0长颈鹿0鸟0长颈鹿0长颈鹿0鸟0飞盘0狗0飞盘0人0飞盘0狗0人0人0牙刷0牙刷0水槽0人0水槽0牙刷0狗0沙发0猫0猫0狗0沙发0猫0椅子0猫0厕所0猫0厕所0图4.使用检索测试LaSO网络:A和B特征向量作为LaSO网络的输入,特征空间中与输出特征向量最近的邻近图像显示在每对图像下方。对于每种操作,我们展示了三个成功的示例和一个错误示例,错误的标签用红色标出。最佳观看效果为彩色。(a)交集检索示例;(b)差集检索示例;(c)并集检索示例;(d)A \ B ∩ C检索示例。0多标签分类。在我们的实验中,我们使用了流行(且具有挑战性)的MS-COCO [20]数据集作为多对象标签的来源。0一个对象,例如一个人脸,可以用其各种属性标签来描述。为了在基于属性的多标签数据操作任务上测试我们的方法,我们使用了CelebA[21]数据集。在CelebA实验中,我们使用了其40个面部属性注释作为标签。04.1. MS-COCO实验0对于MS-COCO实验,我们使用了COCO2014的训练集和验证集。80个COCO类别被随机分为64个“已见”类别和16个“未见”类别。未见类别包括:自行车、船、停车标志、鸟、背包、飞盘、滑雪板、冲浪板、杯子、叉子、勺子、西兰花、椅子、键盘、微波炉和花瓶。我们过滤了COCO训练集,只保留不包含这16个未见类别标签的图像,并使用这个过滤后的数据集来训练我们的特征提取器骨干(InceptionV3)和LaSO模型(如第3节所述)。在与LaSO模型联合训练之前,特征提取器骨干首先作为多标签分类器在过滤后的训练集上对64个已见类别进行预训练,使用标准的BCE分类损失。064个已见类别 16个未见类别0交集 77 48 并集 81 61 差集 43 140未操作的特征向量 75 790表1.使用LaSO网络合成的特征向量在COCO验证集上对64个已见和16个未见的COCO类别进行分类性能评估(以mAP%表示)。每种操作后,根据预期的标签集进行分类。原始特征向量的性能是用于分类的特征空间容量的度量。04.1.1评估LaSO网络的标签集操作能力我们使用COCO验证集测试LaSO模型在标签集交集、并集和差集操作上的性能。我们使用了两种方法进行评估,一种是使用分类,另一种是使用检索。在分类测试中,我们使用在特征空间F上(由骨干特征提取器模型生成)预训练的分类器来测试LaSO网络。为此,我们随机配对了所有验证集图像,并在每对图像上测试每个LaSO操作网络。对于任意一对图像X和Y,及其对应的特征向量FX和FY,将M o (FX, FY),其中o∈{uni, int,sub}的结果输入到分类器中,并计算其top-1top-3top-5top-1top-3top-56553064个已知类 16个未知类0交集 0.7 0.79 0.82 0.47 0.71 0.78 并集 0.61 0.71 0.74 0.44 0.64 0.71 减法 0.190.32 0.4 0.21 0.4 0.510非操作特征向量(上限)0.56 0.72 0.76 0.56 0.75 0.810表2.使用LaSO网络合成的特征向量在64个已知和16个未知MS-COCO类别(第4.1.1节)上进行检索性能评估。检索质量是根据每种操作后的预期标签集来衡量的。所有测试都在MS-COCO验证集上进行,未用于训练。数字是检索样本的标签集与预期标签集之间的平均交并比(mIoU),平均值是在不同查询上取得的。top-k对最近的k个检索样本中获得的最大IoU进行平均。非操作特征向量的检索性能衡量了特征空间F进行检索的能力,因此为LaSO检索性能提供了上限。0通过将操作o应用于L(X)和L(Y)得到的预期标签集,评估了生成的类别分数与预期标签集之间的一致性。我们进行了两个单独的评估,一个针对已知类别,另一个针对未知类别。在每个测试中,计算每个类别的平均精度(AP),并报告每个(已知/未知)集合中的平均AP(mAP)。0用于在64个已知类别上进行LaSO评估的64路分类器是与骨干模型B一起训练的(生成特征空间F的模型)。用于16个未知类别评估的16路分类器是在COCO训练集中包含这16个类别实例的图像上训练的。对于其训练,我们使用了由我们的(冻结的)骨干B生成的相同特征空间F(在LaSO训练过程中训练)。原因是训练的LaSO网络只能在这个空间中操作。分类评估实验的结果总结在表1中。在已知类别集合上,对于交并操作,LaSO网络成功学习到合成特征向量,通过分类器的视角看,这些合成特征向量被视为与原始非操作的特征向量相当(甚至稍微更好)。在未知类别上仍有改进的空间。然而,即使在那里,结果也远高于随机猜测,表明尽管在训练过程中没有观察到任何未知类别,LaSO标签集操作成功地超越了原始训练标签。这为下面在未知类别集合上进行多标签少样本实验打开了大门(第4.1.4节)。0在检索测试中,我们直接评估了合成的特征向量,而没有使用任何分类器。我们在具有真实图像和真实标签的大量特征向量中进行最近邻搜索。为此,与分类测试一样,验证图像被随机配对,并通过LaSO网络传递,从而生成具有预期标签集的合成特征向量(根据操作)。合成特征向量的0然后使用探测器在验证集中检索前k个最近邻(NNs)。请参见图4,其中显示了不同LaSO网络的输入示例以及相应的检索到的NNs。对于每个检索到的NN,计算其与合成向量的期望标签集之间的交并比(IoU)。然后在前k个NNs中计算最大IoU。在表2中,我们报告了在合成向量的整个集合上计算的平均IoU,对于不同的k∈{1, 3,5}以及分别针对已知和未知类别的集合。作为特征空间F对检索的上限,我们还对原始非操作特征向量进行了上述的检索评估。从结果可以看出,就检索而言,LaSO网络合成的特征向量在交并操作上与原始非操作的特征向量表现相当。在已知类别集合上,某些k的性能稍微更好,在未知类别上则非常接近。这再次证明了LaSO网络在泛化到未知类别方面的能力,并支持其用于执行少样本多标签训练的增强合成(第4.1.4节)。04.1.2 集合操作的解析近似0使用特征向量F在标签空间中的(天真的)解释,我们可以考虑对特征向量对进行解析操作,这些操作模拟了标签空间中的集合操作的效果。这使得我们的方法更简单,不涉及学习的LaSO网络,但仍然生成可以为多标签少样本分类器训练做出贡献的合成特征,如第4.1.4节所示。0将LaSO网络的输入表示为FX,FY∈F,如图3所示,我们定义并评估了以下一组解析LaSO替代方案:65540运算符表达式1 表达式20并集FX + FY max(FX, FY) 交集FX ∙ FY min(FX,FY) 减法FX - FY ReLU(FX - FY)0我们从DCGAN论文[27]中得到灵感,定义了这组替代方案,该论文提出了在GAN随机种子空间中操纵图像的有趣可能性。在我们的情况下,我们不假设我们的多标签数据有一个(良好)训练的GAN,并且探索了一个更简单的变体,直接操纵特征向量F。表4总结了在COCO和CelebA数据集上,顶级解析和学习到的LaSO变体之间的比较。在两个实验中,最佳的解析表达式分别是并集的max(FX,FY),交集的min(FX, FY),减法的ReLU(FX -FY)。可以看出,学习到的LaSO网络在几乎所有情况下都优于更简单的解析替代方案,但在某些情况下,解析版本并不落后太多,这表明它们是用于少样本多标签实验中的合成增强的额外好选择,详见第4.1.4节。0数据集方法减法交集并集0MS-COCO解析29.0 74.7 76.5 学习到的43.0 77.0 81.00CelebA解析37.0 52.0 47.0 学习到的69.0 48.0 750表3.将学习到的运算符与解析替代方案进行比较。所有数字均以mAP%表示。04.1.3重建损失的消融研究为了测试LaSO训练中使用的不同重建损失(R�损失)的效果,我们对“已见”分类mAP指标进行了消融实验(表4)。我们发现添加两种重建损失对所有操作都有3%至9%的增益,平均改进了6%。此外,为了验证Rmc损失在改善LaSO操作输出的多样性方面的效用,我们检查了使用和不使用Rmc损失训练的LaSO操作的样本多样性。结果表明,使用Rmc损失训练在已见类别上提高了5%的样本多样性,在未见类别上提高了9%的样本多样性(在3个LaSO操作的平均值上)。这些收益在通过一组30,000个查询检索的样本上计算的两个多样性度量中是一致的:(i)检索到的唯一样本的总数量;(ii)每个样本的平均重复次数。0交集并集平均0没有Rsym损失和Rmc损失0.72 0.78 0.34 0.61 +Rsym损失0.76 0.81 0.39 0.65 + Rmc损失(最终模型)0.770.81 0.43 0.670表4. 使用分类mAP评估的消融实验,评估了64个“已见”COCO类别的重建损失。04.1.4多标签少样本分类实验在本节中,我们探索了标签集合操作概念的一个有趣应用-作为训练多标签少样本分类器的(学习到的)增强合成方法。与研究良好的单标签少样本分类不同,多标签少样本场景中不同类别的示例仅以组的形式提供。这使得现有的少样本分类技术不适用,据我们所知,此问题以前没有得到解决。因此,我们提出了自己的基准和第一组针对此问题的结果,将我们的方法与多个自然基线进行比较。基线包括:(A)直接在小的标记集上进行训练,(B)在小的标记集上进行基本图像增强,(C)使用mixUp[42]增强技术。我们将这些基线与学习到的LaSO网络和第4.1.2节中讨论的解析替代方案进行了比较。01个样本 5个样本0B1:无增强 39.2 49.4 B2:基本增强 39.252.7 B3:mixUP增强 40.2 54.00解析交集增强 40.7 55.4 解析并集增强 44.555.60学习减法增强 40.0 54.1 学习交集增强 40.557.2 学习并集增强 45.3 58.10表5.在MS-COCO的16个未见类别上的多标签少样本mAP(以%表示)。特征提取器和LaSO网络在剩余的64个MS-COCO类别上进行训练。报告了10次运行的平均值,测试整个MS-COCO测试集。MixUP基线使用[42]的原始代码。0作为我们的基准,我们提出了在训练过程中未见过的16个COCO类别的集合。我们为1个样本(每个类别1个示例)和5个样本(每个类别5个示例)的情况生成了10个随机episode(少样本训练集选择)。相同的episode用于所有方法:LaSO的变体和所有基线。在构建episode过程中,我们维护了一个标签计数的直方图,确保在1个样本的情况下每个类别的episode中出现总共1个示例,在5个样本的情况下出现5个示例。当然,由于episode的随机性质,这种平衡并不总是可能的,因此在某些episode中,每个类别的标签数量可能超过1或5(在大多数情况下只多1个)。但由于所有比较的方法都使用相同的episode,因此比较是公平的。整个COCO验证集(仅考虑16个未见类别的注释)用于测试在每个episode上训练的分类器。所有训练和验证图像都转换为由我们的特征提取器创建的相同特征空间F。65550在 F的基础上,对骨干网络进行了训练和增强(除了将图像应用于标准增强并通过骨干网络转换为 F之外)。从小型(1个或5个样本×16个类别)训练集中随机选择示例对进行标签集操作。对于所有增强基线和我们方法的所有变体,每个训练周期都会合成相同数量的样本。在所有比较的方法中,每个episode上训练的分类器使用40个SGD周期进行训练(经过实验证明,所有分类器在40个周期之前都会收敛)。该实验的结果报告在表5中。所有结果都以mAP%表示,计算在整个COCO验证集的16个未见类别上。从结果可以看出,对于1个和5个样本的情况,标签集操作分别获得了5.1和4.1个mAP点的稳定增益。这表明了LaSO网络在泛化到未见标签方面的能力,同时也展示了我们的标签集操作方法在学习如何增强训练多标签少样本分类器的数据方面的普遍效用(COCO中的挑战性现实场景)。04.2.CelebA实验我们使用CelebA数据集[21]来测试我们在不同类型的多标签数据(即对象属性)上的方法。CelebA数据集包含约20万张根据40个面部属性进行标记的图像。我们在CelebA数据集的训练样本上对特征提取器骨干(基于ResNet-34)进行了多标签分类器的预训练。然后,我们在相同的训练数据上训练了Muni、Mint和Msub来执行相应的基于属性的多标签集合操作。我们重复了在第4.1节中描述的基于分类的评估实验和消融研究。CelebA数据集的测试样本用于评估性能。基于分类的评估结果在表6中以mAP%表示,计算在CelebA的40个属性上。并集和差集的LaSO网络获得了相对较高的mAP,而交集网络得分较低。这可以归因于交集网络训练的不平衡性和对负属性的偏好(大多数属性被关闭),而精确度计算更受到准确预测正标签的能力的影响。消融研究的结果在表4中给出。05. 总结与结论
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功