没有合适的资源?快使用搜索试试~ 我知道了~
640零样本多标签分类的语义多样性学习Avi Ben-Cohen Nadav Zamir Emanuel Ben Baruch Itamar Friedman Lihi Zelnik-ManorDAMO Academy,阿里巴巴集团{avi.bencohen,nadav.zamir,emanuel.benbaruch,itamar.friedman,lihi.zelnik}@ alibaba-inc.com摘要训练用于识别与图像相关联的多个标签(包括识别看不见的标签)的神经网络模型是具有挑战性的,特别是对于描绘许多语义上不同的标签的图像尽管这项任务具有挑战性,但它是一项重要的任务,因为它代表了许多现实世界的情况,例如自然图像的图像检索。我们认为,使用一个单一的嵌入-丁向量来表示一个图像,作为通常的做法,是不足以排名相关的可见和不可见的标签准确。本研究介绍了一种端到端的多标签零拍摄学习模型训练,支持图像和标签的语义多样性。我们建议使用具有使用定制的损失函数训练的主嵌入向量的嵌入矩阵。此外,在训练期间,我们建议在呈现更高语义多样性的损失函数图像样本中增加权重,以鼓励嵌入矩阵的多样性。大量的实验表明,我们提出的方法提高了基于标签的图像检索实现SoTA结果在几个常见的数据集(NUS-Wide,COCO,OpenImages)的零拍模型1. 介绍识别描述图像中的对象或场景的所有相关标签是计算机视觉现实世界应用中的基本任务。随着在线存储的照片的不断增加,越来越需要更好的图像标记和基于标记的检索,以用于各种用例,如搜索,组织或数据收集。最近的数据集在这个方向上取得了进展,包括大量的类与注释,它们的存在,在每个图像。然而,注释许多图像的大量类(每个具有高语义多样性)对于现实世界的应用可能是非常耗时的并且实际上是不可行的。虽然目前的传统多标签分类方法可以处理大量的类别,但它们仍然受到标注(seen)的图1:我们的模型提取了一组用作变换矩阵Ai的主嵌入向量,其中每行基于它们的相关性为词向量空间中的标签设置排名主方向通过使用多个方向,它可以处理多个不同的图像语义概念。此外,我们建议,与语义多样性较低的图像(底部图像)相比,具有较大语义多样性的图像(顶部图像)在训练过程中应该被向上加权随数据集提供的标签。另一方面,用于多标签分类的Zero-shot(ZS)学习增加了从在训练期间不存在(未看到)的附加类别中识别标签的能力这通常通过在可见和不可见标签之间传递知识来完成。在大多数情况下,文本模型[5,32,36]用于使用词向量来传递此知识。然后,训练视觉模型,学习视觉空间和词向量标签空间之间的变换。关于ZS分类的大多数研究集中在单个标签问题上,即,识别每个图像中的单个不可见标签[1,11,14,25,29,34,50,57,53,51,52]。但是,在这方面,每个图像的单个标签不能提供完整的描述641它的,通常是不实际的现实世界的应用程序。其他研究试图解决ZS多标签分类问题。[35]使用预测得分在所看到的类和这些类的线性组合词向量上基于该代表性向量,通过计算与其词向量的相似性来对未见过的标签进行排名。[58]训练一个网络以输出每个图像一个单一的主方向,该主方向将相关的标签排列得比不相关的标签高。然而,这种方法面临的困难与图像,包括多个标签具有高语义多样性。在这些情况下,所提取的主方向需要对相关标签的词向量中的高可变性具有例如,类 随着图像中注释类的数量增加,每个图像中可能的语义多样性也会增加。这种高语义多样性问题需要特殊处理,这是很难实现使用一个单一的主方向。几项工作已经使用预先训练的对象检测器和学习选择可见或不可见标签的边界框来解决图像中标签的高语义多样性的问题[3,37,38,39]。然而,这些方法需要带注释的边界框作为基础事实,使得其对于大量标签不可扩展。可选择地,[21] 使用注意力技术来基于预先训练的模型的特征估计相关区域。然而,这通常需要一个大型的预训练模型来获得丰富的区域特征(VGG-19)和一个复杂的损失函数。在本文中,我们提出了一种方法,其目的是适当地应付和利用每个图像中的标签的语义多样性,通过允许多个主方向,构造为损失函数中的变换矩阵。此外,具有较大语义多样性的样本图像在损失函数中被向上加权,因为这些图像被认为是硬示例。因此,我们的模型学习提取旨在处理图像标签多样性挑战的每图像变换(图1)。我们相信,通过这样做,我们学习了一种更适合于理解和识别图像中的多个可见和不可见标签的模型。我们进一步展示了我们如何实现与SotA相当或优于SotA的结果,同时使用我们建议的损失函数保持相对简单的端到端训练方案。本研究提出的主要贡献包括:• 一种针对ZS多标签分类问题的损失函数.• 我们表明,更高的se-mantic多样性的上加权样本进一步提高了模型的一般化。• 一种高效的ZS模型端到端训练方案的提出,达到SotA的结果在基于标签的图像检索,同时保持高性能的图像标记的几个数据集(NUS-Wide,开放的图像,和MS-COCO)与较少的模型参数相比,其他方法。2. 相关工作最近关于多标签分类的研究报告了通过图神经网络利用标签之间的依赖关系来表示基于先验知识的标签关系或词嵌入的成功[6,7,13,46]。其他方法尝试使用attentional regions [16,47,54,56]对图像部分进行建模。尽管这些方法显示出有希望的结果,但它们通常包括复杂的体系结构,并且其他方法使用具有高级损失修改的更常规的训练流报告了类似的甚至更好的结果[4]。虽然这些方法中的大多数对于图像是有效的,包括它们被训练的可见零拍摄学习的主要目标是克服这一挑战,并为每个图像提取可见和不可见的标签。这通常使用语义标签信息来完成,如属性[22]或词向量表示[14,2]。中心概念是使用相似性度量将视觉特征与表示每个标签的语义词向量相基于相似性,可以对看不见的标签进行分类[50,42,48]。大多数用于零拍摄学习的方法都集中在寻找图像中最主要的标签[49,50,43]。尽管它们取得了巨大的成功,但这些解决方案不能很好地推广到零镜头多标签分类的问题,并且不能解决其中包括的多标签多样性挑战。与零激发单标签分类任务相比,在零激发多标签分类任务中,多个可见/不可见标签被分配给图像解决这个问题的研究数量有限。[35]提出了一个有趣的概念,其中在所看到的标签上训练的分类器的预测在单词嵌入空间中线性组合,以形成该图像的语义嵌入,以解决零拍摄单标签分类问题。这种语义嵌入后来被用来根据它们的词向量与嵌入向量的相似性对看不见的标签[28]通过提出分层语义嵌入来扩展他们的工作,以使标签嵌入更能代表多标签任务。[15]提出了一种转导学习策略,以促进从可见类学习的回归模型很好地推广到不可见类。在Fast0Tag方法[58]中,作者通过估计图像的主方向提出了一种快速零拍摄标记方法。他们表明,在给定的图像中,相关标签的词向量沿着图像中的这个主方向排在不相关标签642SU----UC S ∪ U×个C词向量空间[27]提出的另一种方法是使用结构化知识图来描述来自语义标签空间的多个标签之间的关系由于仅使用全局特征难以区分图像中的多个实例,一些研究试图通过利用区域建议方法来识别图像中包括相关标签的重要子区域[40,37]。在最近的工作中,[21]提出了一种用于多标签零射击学习的共享多注意力模型,该模型可以专注于相关区域,从而避免了对对象检测或区域建议网络的需求。VGG-19主干用于提取丰富的区域特征,并形成4项损失函数以应对训练过程中遇到的多种挑战。然后使用导出的模型来提取投影到联合视觉标签语义嵌入空间中的多个注意力,以确定它们的标签。虽然这种方法通过使用多个注意力特征与可见和不可见标签进行比较来解决多样性挑战,但它包括一个复杂的损失函数,该损失函数由排名损失和3个正则化项组成,这些正则化项需要在训练期间进行仔细的参数调整,而图像标签多样性最后,在我们提出的方法中,我们在训练过程中直接使用图像语义标签多样性来改进我们的模型,并将其更好地推广到不同的图像。据我们所知,这是第一个工作来分析零镜头语义多样性问题,并提供了一种方法来利用这种信息在一个新的损失函数。此外,我们的端到端培训流程不需要大型骨干模型或对象建议进行培训,同时仍能获得最先进的结果。3. 语义多样性学习在本节中,我们将介绍我们提出的用于训练多标签零触发模型的方法问题和网络架构将首先提出,下面我们的语义多样性为基础的损失函数的详细描述。3.1. 问题设置让我们用和来表示可见和不可见的集合标签,其中“看见的”标签代表在训练期间已经看见的标签,并且整个标记集由 =.令(I n,Y n);n=1,2,…,N表示训练数据其中In是第n个图像,Yn是对应的集合看到的标签。我们假设每个标签将由语义词向量vcc∈C表示。基于这些注释,我们将多标签零触发学习的任务定义为给定的图像Ii,以及广义多标记零激发学习为为给定图像Ii分配相关的可见或不可见标签yi。3.2. 网络架构所提出的网络架构如图2所示。我们使用TResNet-M[41]卷积神经网络(CNN)作为我们视觉模型的主干。TResNet-M是一个GPU优化的模型,在几个有竞争力的计算机视觉数据集上报告了高精度使用高效的模型设计使我们能够以端到端的方式轻松训练。通过修改其最后一个完全连接的层,视觉模型被训练以输出M dw线性变换矩阵,其中dw是词向量的长度,并且M是表示主方向向量的数量的我们的架构的参数。该矩阵提供了依赖于图像的单词排名。在[55]中提出了一个类似的概念用于多标签分类,其中每个图像都学习了变换并进行了优化,以达到词向量的线性组合,从而使其能够区分相关标签和非相关标签。然而,在我们的实验中,简单地使用[55]中提出的损失进行零射击学习任务,结果模型未能很好地推广未见过的标签。因此,我们提出了一个更适合这项任务的损失函数。3.3. 损失从视觉模型提取的每图像线性变换A应当为所有相关标签提供高排名,即使在它们的词嵌入表示中存在大的差异因此,我们设计我们的损失函数来处理零镜头多标签学习中的语义多样性问题。也就是说,我们想要为正的词向量Pj提供更高的秩,并且为负的词向量nk提供更低的秩ujk=max(Ank)-max(Apj)(1)最大函数的使用对于此目的是至关重要的,因为它允许矩阵中的每一行(主方向)在与其他行不同的方向上被优化。在该公式中,一个矩阵行足以正确地对标签进行排名,从而使其他行集中在附加的相关标签上,并为所有这些标签输出高分。如果图像中存在高语义多样性,这使得变换矩阵中的单行难以处理多个和不同的标签集,在多类支持向量机(SVM)[9]中呈现了类似的直觉,其中正确标签的置信度值被优化为比分配给其余标签的置信度大一定裕度否则,我们得到的损失与正确标签的置信度与以下各项中的最大值之间的差成线性比例:643Σ¨dωn¯| |Σ1L=Σ| |||||| |图2:我们用于多标签零触发学习的端到端训练方案概述使用CNN模型来提取包括若干主方向的每图像矩阵变换A1L秩损失将Ai推向将正标签排名高于负标签,并且Lreg正则化其主方向。其他唱片公司的信任此外,通过在比较特定的正标签和负标签对时使用最大运算,我们允许梯度仅通过这些情况定义为Dw厄米厄因此,不修改每个标签对的整个矩阵,这允许Lreg=m=1var(A)¨1(四)每行集中于不同的语义概念。考虑到这一点,我们受[58]的启发,将排名损失定义如下:该正则化项对矩阵行施加约束,以防止其过于多样化。在实践中,减少行之间的变化鼓励学习已知在多标签集合中有用的标签之间的相关信息。L秩=ω1ΣΣlog(1+eujk)(2)丁[7]。该正则化项在某种程度上类似于多类SVM正则化[9]。然而,通过观察JK其中ωn=PP¯,而P是单个图像的地面实况标签集合的大小,P是非相关标签集合的大小。除以ωn用作归一化。带有大量标签的图像将与具有少量标签的那些相同地对待。我们认为具有高标签多样性的图像更困难,因为它们需要我们的模型学习如何将几个不同的语义概念排名高于其他概念。因此,我们希望在此期间对这些示例进行更多关注。在方差处,我们忽略矩阵中每列的均值,使其对平移不变。这与多类SVM中使用的标准l2范数正则化主要原因是我们的损失函数是在一个给定的词向量空间上优化的,其特征是不标准化的。因此,使用方差作为正则化而不是标准的l2范数更适合我们的用例。我们的最终损失函数定义为训练我们用ωd表示每图像语义多样性权重(SDW)。SDW向上加权更多样化的图像(硬样本),从而增加了我们损失中对它们的关注N最终Ni=1Σ(1−λ~)Lrank(Ai,yi)+λ~Lreg(Ai)Σ(五)功能我们将ωd定义为图像中相关标签集的方差之和:Dwωd= l +var(Pi)(3)i=1我们注意到,我们的排名损失函数在学习变换矩阵时提供了很高的灵活性,这有利于学习每个图像的不同标签。然而,在大型和噪声数据集上训练时,应该控制这种灵活性。矩阵行可能会变得过于多样化,从而使其对离群值敏感,并在大型和嘈杂的数据集上训练时无法很好地泛化。因此,我们添加一个正则化项来处理其中λ~设置正则化权重。在实践中,我们使用λ=λ〜P’作为正则化参数,其与每个图像的负标签的数量不同。4. 实验通过几个实验分析和评价了我们的零次多标签分类方法。在第4.2节中,我们将我们的方法与该领域的其他最先进的作品进行了比较。为了更好地理解每个组件接下来,为了可视化转换矩阵使用我们的644联系我们表1:NUS-WIDE和Open Images数据集上ZSL和GZSL任务的最新技术水平比较。我们报告了mAP,以及精确度(P),召回率(R)和F1分数的结果,在K3,5 NUS-WIDE和K10,20开放图像。最佳结果以粗体显示。NUS-WIDE(#seen / #unseen = 925/81)开放图像(#seen/#unseen = 7186/400)方法任务CON标签EM [2]快速标签[58]每个标签一个注意事项[23]LESA(M=10)[21]我们的(M=7)K =3P RF1PK = 5RF1地图K =10P RF1PK = 20RF1地图表2:MS COCO数据集的最新技术水平比较,该数据集分为48个可见类和17个不可见类。我们报告了ZSL和GZSL任务的精确度(P)、召回率(R)和K=3方法任务PRF1ZSL 11.4 28.3 16.2广州市23.8 28.8 26.1ZSL 24.7 61.4 25.3广州市38.5 46.5 42.1ZSL 26.5 65.9 37.8广州市43.2 52.2 47.3ZSL 26.3 65.3 37.5粤ZSL 59.0 60.8 59.9方法,一组定性的结果,并在第4.5节讨论。由于我们的方法旨在处理语义多样性挑战,我们希望分析我们在更多样化的图像集上的结果,如第4.6节所讨论的。最后,在4.7节中,我们使用变换矩阵中不同数量的主方向来讨论和分析我们的结果。4.1. 设置数据集:使用三个数据集来评估我们提出的方法。NUS-WIDE[8]数据集包括270K图像,其中81个人类注释的类别用作不可见类,此外还有一组从Flickr用户标签自动获得的925个标签用作可见类。MS COCO[30]数据集被分为训练集和验证集,分别有82,783和40,504张图像,重新定义为:分别为。该数据集通常用于多标签零激发对象检测[3,19],并且还用于多标签零激发分类的近期工作[37]。我们遵循[3],将我们的分割为可见和不可见标签,基于它们在语义空间和WordNet层次结构中的集群嵌入,产生48个可见和17个不可见类[33]。我们使用所提供的图像列表,包括73,774(在移除不可见类之后为44,154)个仅具有可见对象的图像用于训练,以及6,608个包含可见和不可见对象的图像用于测试。Open Images(v4)[26]数据集由900万张训练图像、41,620张验证图像和125,456张测试图像组成。该数据集引入了几个挑战:与NUS-WIDE或MS COCO相比,该大规模数据集的数量级更大,并且其图像仅部分注释,其中并非所有标签都被验证为每个图像中的真阳性或阴性与[21]类似,我们使用7,186个标签,每个可见类的训练集中至少有100个训练数据中不存在的最频繁的400个测试标签被选择为看不见的类。评估指标:我们遵循[21]并在每个图像中的前K个预测中使用平均平均精度(mAP)和F1得分mAP评估基于标签的检索的准确性,即,它回答了我们的模型在为每个给定标签对图像进行排名方面有多好的问题,而前KF1得分则捕获了它对图像标记的准确性,衡量了它在为每个图像对相关标签进行排名方面有多好。实施详情:除非另有说明,否则所有实验均采用以下训练配置进行。我们使用TResNet-M作为骨干,在ImageNet数据集上进行预训练[10]。该模型使用Adam优化器[24]和1周期余弦退火策略[45]进行微调我们用的是断路器CONSE [35]我们的快速标签[37]第三十七SE [35]ZSL17.528.0二十一点六十三点九三十七点零20.2 9.40.27.30.40.211.30.340.4GZSL11.5 5.1 7.0 9.67.18.12.12.42.82.61.73.92.443.5ZSL15.625.019.213.435.719.57.10.28.70.50.215.80.440.5GZSL15.56.89.513.49.811.32.24.85.65.23.78.55.145.2ZSL22.636.227.818.248.426.415.10.312.60.70.321.30.641.2GZSL18.88.311.515.911.713.53.714.817.316.09.321.512.945.2ZS20.933.525.816.243.223.610.4-------GZSL17.97.910.915.611.513.23.7-------ZSL25.741.131.619.752.528.719.40.725.61.40.537.41.041.7GZSL23.610.414.419.814.616.85.616.218.917.410.223.914.345.4ZSL24.241.330.518.853.427.825.96.147.010.74.468.18.362.9GZSL27.713.918.523.019.321.012.135.340.837.823.654.532.975.3645--联系我们快速标签[58]Orig 实施 基地一BCDF我们SDWM=2✓✓✓✓✓✓✓✓✓✓✓✓Reg.(0.1)M=7✓Reg.(0.3)✓mAPGZS3.79.79.510.2 10.6 11.0 12.2 11.812.1ZS15.121.620.622.7 22.2 23.8 25.1 25.825.9表3:消融研究显示了与Fast 0 Tag中呈现的损失相比,我们的训练方案中不同组件的贡献,显示了原始实施结果,使用我们的训练框架的实施结果以及NUS-Wide测试集的基线。[12]概率为0.5,真权重衰减[31]为3e-4和标准ImageNet增强。正则化参数λ被设置为0。3 .第三章。我们分别为 NUS-Wide/Open Images/MS-COCO 训 练 了 7/7/20 个epoch和192/96/32个批次大小对于我们的标签嵌入表示,我们使用FastText预训练模型[17],向量大小为dw= 300。词向量被2归一化。在推断时,我们的训练模型将图像I1作为输入,并提供对应的变换矩阵A1作为输出。令T=t,j表示表示标签集中的每个标签的词向量的集合。 对于图像标记,我们针对每个可见/不可见标签计算r ij=max(A i t j),并对它们进行排名,使得较高的值表示更相关的标签。 对于基于标签的图像检索,对于查询标签,我们类似地计算所有给定图像的rij,并将它们从最相关到最不相关进行排名。基线:我们使用集成在我们的训练框架中的Fast0Tag[58]损失函数作为我们的方法实现的基线。 此外,我们还将我们的方法与具有多个主方向(M=7)的基线进行比较,用类似于[55]的l2范数替换等式(1)中的最大函数,并去除我们的正则化项和SDW。4.2. 与最新技术水平的表1示出了我们提出的方法与NUS-WIDE和OpenImages上的其他最先进方法我们的方法在两个数据集的mAP方面优于所有其他方法。除了F1得分外,我们还提供了前K名的请注意,我们为NUS-WIDE使用了K3,5,为Open Images使用了K 10,20,因为其中有大量可用的标签。与最近引入的基于共享多注意力的方法(LESA)[21]相比,我们在开放图像上实现了更好的性能。在F1中,我们将零激发/广义零激发学习任务的结果提高了9.3%/20.4%,7.3%/18.6%和21.2%/29.9%(K= 0.001)。10)、F1(K=20)和mAP。至于NUS-WIDE,虽然LESA方法在零拍摄学习的F1方面表现出适度的性能改善,但我们提出的方法在零拍摄和广义零拍摄的mAP方面表现出更高的增益,提高了6.5%。此外,我们的方法取得了改善的结果,在F1的广义零射击的4.1%和4.2%的F1(K=3),F1(K=5)分别。在本文的写作过程中在这种方法中,作者提出了两个单独的分类器,一个集中在零杆学习任务,另一个广义零杆学习任务。这与我们的问题公式不同,因为我们希望有一个单一的模型,该模型针对零射击和广义零射击任务进行训练。在我们的研究中使用的公式似乎更适合于现实世界的应用,即,在同一工作点下为两个任务评估一个单一模型MS-COCO数据集与NUS-Wide和Open Images有很大不同,因为它包含相对少量的可见和不可见标签。在表2中,我们与[37]中提出的基于目标检测模型的方法进行了比较。相比之下,我们的模型实现了略低的结果为零杆学习显着改善广义零杆度量。如图2所示,我们的框架不包括任何额外的模块,如对象检测器,区域建议或注意层,仍然可以实现高质量的结果。注意,对于COCO,我们使用M=2。我们将在4.7节中讨论其动机。在我们的实验中,我们使用TResNet-M [41]作为我们的视觉模型的骨干,而大多数作品使用其他骨干架构,如VGG 19 [44]或ResNet 50 [20]。我们还探讨了这些流行的主干在补充材料中的用法646----图3:定性结果,显示了使用我们提出的方法和基线的转换矩阵中每行最相关的标签。使用我们提出的方法,我们可以看到,不同的语义概念正在学习矩阵中的不同行。(一)(b)第(1)款图4:作为λ和M的函数的零激发多标签分类质量=三、七 在转换矩阵中。(a)NUS-wide测试(b)与(a)类似,表示F1(K=3)。4.3. 消融研究为了更好地理解每个组件 我们与Fast0Tag [58]方法进行比较,该方法使用每个图像的单个主方向作为起点。我们还在我们的框架中实现了Fast0Tag,以进行公平的比较,与原始论文相比,它已经显示出更好的结果。然而,具有附加主方向的基线在mAP方面显示出较低的性能,这表明主方向的简单添加不足以提高模型性能。当与[58]中提出的损失一起使用时,SDW的添加已被证明可以改善结果。它还改进了我们提出的方法的结果(我们的第四列),表明SDW对于可以支持每个样本加权的不同方法和损失函数可以是有益的。此外,正则化项已经显示出在使用M=2时改善结果,而对于M=7,更高的正则化在ZS mAP方面显示出更高的性能,同时在GZS mAP方面保持相同的结果。4.4. 正则化参数等式(4)中呈现的正则化项提供对矩阵变换行的多样性的控制。图4显示了使用M=3、7的不同λ值在NUS范围测试集上的mAP和F1(K=3)结果。正则化项的贡献对于不同数量的行是明显的。然而,对于更大数量的行(M=7),更强的正则化提供更好的性能。一个可能的原因是,矩阵中的大量行可能导致实际上所有行的利用率降低使用我们提出的正则化,我们更好地利用矩阵中的不同行,从而更好地推广测试集。特别是对于零镜头学习,模型的泛化性对于检索具有不可见标签的图像是至关重要的。647----表4:在NUS-Wide测试集上的前10个检索到的标签的精度(P)、召回率(R)和F1方面,对于具有多于6个不可见标签的样本,在变换矩阵中具有M=7方法PRFl基线31.744.837.1我们不含SDW36.251.242.4我们36.651.942.94.5. 定性评估我们提出的方法侧重于语义多样性学习使用矩阵变换。该矩阵中的每一行可以被描述为负责一组相关标签的主方向。在图3中,我们将我们的方法结果与基线模型进行了比较。对于每个图像,我们在检索到的前10个标签中显示最相关的结果。图中的数字表示为相应的标记集提供最高分数的最占优势的行在这些示例图像中的几个中,我们可以看到使用我们的方法学习的标签是基于其主要概念分离的,例如,在左上图像中,手和手属于同一行,而对于基线,它们是分开的。此外,使用我们的方法,我们可以看到在某些情况下发现了更相关的标签,例如,在右下角的图像中,学习理解图像中的这个概念的同一行发现了诸如“clothing”和“dress”的附加标签4.6. 在不同图像由于我们的方法旨在学习图像中的不同概念,因此我们希望评估其在数据集中更多样化的样本上的性能。由于不同的图像通常包括更多的标签,我们进行了一个实验,以评估我们的图像标记方法的图像样本,包括超过6个标签从零拍和generalized零拍集。表4呈现了使用基线和我们提出的方法(M=7)的结果。由于SDW在损失函数中增加了更多样化的图像,因此与基线相比,我们显示了有和没有它的结果。我们的方法优于没有SDW的基线,并且在训练期间添加它时取得了更高的结果,证明了其管理不同样本的有效性4.7. 矩阵主方向每图像变换矩阵A的大小由定义其具有的主方向的数量的参数M在图5中,针对矩阵中的不同数量的行,使用固定的一组参数(例如,正则化参数= 0。1)在NUS-图5:在NUS-Wide测试集上,对于零激发和广义零激发任务 ,与M=1相比, 变换矩阵中具 有不同行数(M)的mAP改善广泛的测试集。值得注意的是,行数的增加改善了广义零激发结果。当所使用的主方向的集合增加时,模型更容易学习图像中所看到的标签并改善广义零拍摄性能。至于零激发学习,虽然当将M增加到7 × 8行时有改进,但是行数的进一步增加导致mAP的减小。这表明当使用太多的主要方向时,模型不能很好地推广对此的可能解决方案将是增加正则化参数。在我们的实验中,我们发现,与NUS范围和开放图像的其他选择相比,M=7而对于标记数量小得多的MS-COCO,实验发现M=2显示出优异的结果。5. 结论零次多标签分类任务引入了识别图像中多个不同标签的挑战,包括在训练过程中看不到的类别。对于具有高语义多样性的图像,该任务甚至更具挑战性在这项研究中,我们提出了一个端到端的训练方案,包括一个新的损失函数量身定制的语义多样性在零射击学习。我们的损失函数包括一个语义多样性权重更多样化的图像,利用多个主方向,使专业化的主向量在不同的语义概念和矩阵方差正则化项,以提高模型的一般化,izability看不见的标签。大量的实验表明,我们提出的损失函数提高了零拍摄模型648引用[1] Zeynep Akata、Mateusz Malinowski、Mario Fritz和BerntSchiele。具有强监督的多线索零触发学习。在IEEE计算机视觉和模式识别会议论文集,第59-68页,2016年。一个[2] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid 。 用 于 图 像 分 类 的 标 签 嵌 入 IEEEtransactionsonpatternanalysisandmachineintelligence,38(7):1425-1438,2015. 二、五[3] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa和Ajay Divakaran。零镜头物体检测。在欧洲计算机视觉会议(ECCV)的会议记录中,第384-400页,2018年。二、五[4] Emanuel Ben-Baruch,Tal Ridnik,Nadav Zamir,AsafNoy,Itamar Friedman,Matan Protter,and Lihi Zelnik-Manor.多标签分类的非对称损失arXiv预印本arXiv:2009.14119,2020。二个[5] Piotr Bojanowski,Edouard Grave,Armand Joulin,andTomas Mikolov.用子词信息丰富词向量。arXiv预印本arXiv:1607.04606,2016。一个[6] Zhao-Min Chen,Xin Jin,and Yanwen Guo.联合类别感知地图解缠和标签相关嵌入的多标签图像识别。在2019年IEEE多媒体和博览会国际会议(ICME),第622-627页。IEEE,2019。二个[7] Zhao-Min Chen , Xi-Shen Wei , Peng Wang , andYanwen Guo.用图卷积网络进行多标记图像识别。 在IEEE计算机视觉和模式识别会议论文集,第5177- 5186页,2019年。二、四[8] Tat-Seng Chua , Jinhui Tang , Richang Hong , HaojieLi,Zhiping Luo,and Yantao Zheng.Nus-wide:新加坡国立大学的真实网络图像数据库在2009年的CIVR五个[9] 科比·克莱默和约拉姆·辛格基于多类核的向量机的算法实现Jour- nal of machine learning research,2(Dec):265三、四[10] J. 邓,W。东河,巴西-地索赫尔湖J. Li,K.Li和L.飞飞ImageNet:一个大规模的分层图像数据库。2009年CVPR09中。五个[11] Shay Deutsch ,Soheil Kolouri,Kyungnam Kim,YuriOwechko,and Stefano Soatto.通过多尺度流形正则化的零射击学习。在IEEE计算机视觉和模式识别会议论文集,第7112-7119页,2017年。一个[12] 作者声明:Dr.Taylor. 改进卷积神经网络的正则化与剪切,2017。6[13] Thibaut Durand,Nazanin Mehrasa,and Greg Mori.学习用于具有部分标签的多标签分类的深度卷积网络。在IEEE计算机视觉和模式识别会议论文集,第647-657页二个[14] Andrea Frome 、 Greg S Corrado 、 Jon Shlens 、 SamyBengio 、 Jeff Dean 、 Marc'Aurelio Ranzato 和 TomasMikolov 。 Devise : 一 个 深 度 视 觉 语 义 嵌 入 模 型 。InAdvances神经信息处理系统,第2121-2129页,2013年。一、二[15] Yanwei Fu , Yongxin Yang , Tim Hospedales , TaoXiang,and Shaogang Gong.转导多标签零激发学习。arXiv预印本arXiv:1503.07790,2015。二个[16] 高彬彬和周洪宇。具有多类别注意区域的多标记图像识别。arXiv预印本arXiv:2007.01755,2020。二个[17] Edouard Grave , Piotr Bojanowski , Prakhar Gupta ,Armand Joulin,and Tomas Mikolov.学习157种语言的单词向量。语言资源与评估国际会议(LREC 2018),2018年。6[18] Akshita Gupta、Sanath Narayan、Salman Khan、FahadShah-baz Khan、Ling Shao和Joost van de Weijer。 生成式 多 标 签 零 触 发 学 习 。 arXiv 预 印 本 arXiv :2101.11606,2021。六个[19] Nasir Hayat、Munawar Hayat、Shafin Rahman、SalmanKhan、Syed Waqas Zamir和Fahad Shahbaz Khan。合成零拍摄对象检测的在ACCV,2020。五个[20] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。六个[21] Dat Huynh和Ehsan Elhamifar。多标签零激发学习的共享多注意力框架。在IEEE/CVF计算机视觉和模式识别会议论文集,第8776-8786页,2020年。二三五六[22] Dinesh Jayaraman和Kristen Grauman具有不可靠属性的零 炮神 经 信 息 处 理 系 统 的 进 展 , 27 : 3464-3472,2014。二个[23] Jin-Hwa Kim,Jaehyun Jun,and Byoung-Tak Zhang.双耳注意力网络。NeurIPS,2018。五个[24] Diederik P. Kingma和Jimmy Ba。Adam:A method forstochastic optimization,2017. 五个[25] Elyor Kodirov,Tao Xiang,and Shaogang Gong.用于零触发学习的语义自动编码器在IEEE计算机视觉和模式识别会议集,第3174-3183页,2017年。一个[26] Alina Kuznetsova , Hassan Rom, Neil Alldrin , JasperUijlings , Ivan Krasin , Jordi Pont-Tuset , ShahabKamali,Stefan Popov,Matteo Malloci,Tom Duerig,et al.开放图像数据集v4:统一的图像分类,对象检测,并 在 规 模 视 觉 关 系 检 测 。 arXiv 预 印 本 arXiv :1811.00982,2018。五个[27] 李中伟、方伟、叶志宽、王玉强。使用结构化知识图的多标签零射击学习。在IEEE计算机视觉和模式识别会议论文集,第1576- 1585页,2018年。三个[28] Xirong Li,Shuai Liao,Weiyu Lan,Xiaoyong Du,andGang Yang.基于层次语义嵌入的零镜头图像标注第38届信息检索研究与开发国际ACM SI-GIR会议论文集,第879-882页,2015年。二个649[29] Yanan Li,Donghui Wang,Huanhang Hu,Yuetan Lin,and Yueting Zhuang.使用双重视觉-语义映射路径的零射击 识 别 。 在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,第3279-3287页一个[30] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。2014年,在ECCV。五个[31] 伊利亚·罗希洛夫和弗兰克·哈特。去耦合权重衰减正则化,2019年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功