没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文面向部分标签多标签识别的结构化语义迁移陈天水1,陶璞2,吴合峰2,谢元2,梁林2*1广东工业大学、2中山大学tianshuichen@gmail.com,putao3@mail2.sysu.edu.cn,wuhefeng@gmail.com,phoenixsysu@gmail.com,linliang@ieee.org摘要多标签图像识别是一个基本而实际的任务,因为现实世界的图像固有地具有多个标签。人,交通灯,卡车,汽车,公共汽车行人交通灯卡车马语义标签然而,由于输入图像和输出标签空间的复杂性,很难收集大规模的多标签注释。为了降低标注成本,我们提出了一个结构化语义转换(SST)框架-长颈鹿总线车厕所能够训练具有部分标签的多标签识别模型的工作,即,只有一些标签是已知的,行人交通灯卡车每个图像的其它标签丢失(也称为未知标签)。该框架由两个互补的传输模块组成,它们探索图像内和图像间的语义相关性,以将已知标签的知识传输到生成器。人,交通灯,卡车,汽车,公共汽车马长颈鹿总线车厕所将伪标签用于未知标签。具体地,图像内语义转移模块学习图像特定标签共生矩阵,并基于该矩阵将已知标签映射到补充未知标签。同时,交叉图像传送模块学习类别特定特征相似性,并帮助补充具有高相似性的未知标签。最后,使用已知的和生成的标签在MicrosoftCOCO、Visual Genome和Pascal VOC数据集上进行的大量实验表明,所提出的SST框架获得了优于当前最先进算 法 的 性 能 。 代 码 可 在 https://github.com/HCPLab-SYSU/HCP-MLR-PL上获得。介绍最近,许多努力(Chenet al. 2019c,a,2020)被用于多标签图像识别的任务,因为它有利于从基于内容的图像检索和推荐系统到监视系统和辅助机器人的各种应用。尽管取得了令人印象深刻的进展,目前领先的算法(陈等。2019c,a,2020)介绍了数据饥饿的深度 卷 积 网 络 ( Heetal.2016;SimonyanandZisserman2015)来学习区分特征,因此它们依赖于收集大规模干净和完整的多标签数据集。然而,为每个图像收集一致且详尽的标签列表非常耗时,这使得收集干净且完整的多标签注释更加困难。*陈天水和陶璞对这部作品的贡献相当,并分享了第一作者。通讯作者为梁琳。版权所有© 2022,美国人工智能情报(www.aaai.org)。All rights reserved.图1:两个带有部分标签的图像示例(未知标签以红色突出显示我们可以挖掘图像内和图像间的相关性,以帮助补充未知的标签。邪教和不太可扩展。相比之下,它是容易和可扩展的为每个图像注释部分标签,这可以被认为是解决上述问题的可选方式。在这项工作中,我们的目标是解决学习多标签识别模型与部分标签(MLR-PL)的任务。目前的算法主要把多标签识别看作是一个多个二进制分类任务。 将未知标签视为缺失或阴性标签是调整这些算法以解决MLR-PL任务的直观方法(Sun等人,2017;Joulin等人,2016)。然而,它会导致明显的性能下降,因为它会丢失一些数据,甚至会导致一些嘈杂的标签。幸运的是,在每个图像内和跨不同图像存在强语义相关性,并且这些相关性可以有效地帮助传递已知标签的语义知识以构建未知标签:i)标签同现在真实世界图像中广泛存在,例如,桌子倾向于与椅子共存,汽车可能与道路共存;ii)不同图像中的相同类别的对象可能共享相似的视觉外观,因此具有相似视觉特征的图像可能具有相同的标签。在这项工作中,我们探索挖掘这些相关性,以帮助补充未知的标签,一个新的结构化语义转移(SST)框架。它由两个互补的模块组成,这两个模块学习图像特定的同现,以帮助在每个图像和类别特定的特征相似性内转移语义标签,以转移语义标签。arXiv:2112.10941v3 [cs.CV] 2022年3+v:mala2255获取更多论文标 签 在 不 同 的 图 像 。 尽 管 之 前 的 工 作 ( Huynh 和Elhamifar2020)也注意到了标签/图像依赖性,但它只是引入了统计同现和图像级相似性来规范训练。相反,SST框架旨在学习细粒度图像特定的同现和类别特定的特征相似性,这可以帮助为未知标签构建准确的伪例如,在图1中,卡车的特征向量在两个不同的图像中是相似的,我们可以使用上面图像的注释卡车来帮助补充下面图像的未知卡车同样,交通灯与汽车具有很高的共现概率,我们可以根据共现概率来完成这个未知标记。SST框架建立在语义感知表示学习(SARL)模块的基础上,该模块结合了类别语义,以帮助学习特定于类别 的特征表 示。然后 ,设计 了图像内 语义迁移(IST)模块,用于学习每幅图像的所有类别之间的共现矩阵,并映射已知的标签以基于学习的同现来补充一 些未知的 标签。同 时,引 入跨图像 语义转换(CST)模块来衡量属于同一类别的不同图像的特征表示的相似性。然后,它转移语义已知的标签,以帮助补充一些未知的高相似性的标签。最后,利用已知标签和补充标签监督训练多标签识别模型。这项工作的贡献总结为三倍。首先,我们引入了一个结构化的语义转换框架,同时挖掘图像内和图像间的相关性,以帮助补充未知的标签。第二,两个互补模块(即,图像内和图像间语义转移)被合并以转移每个图像内和跨不同图像的语义,从而准确地生成伪标签。最后,我们在不同的数据集上进行了广泛的实验,以证明所提出的SST框架的有效性。为了更好的理解,我们还相关作品多 标 签 图 像 识 别 受 到 越 来 越 多 的 关 注 ( Wei etal.2016;Chen et al.2020),因为它比单标签图像识别更实用和必要。为了解决这一问题,许多研究致力于通过目标增强算法发现可区分的局部区域以进行特征增强(Weiet al. 2016;Yanget al. 2016)或视觉注意机制(Ba,Mnih和Kavukcuoglu2014;Chenet al. 2018年b)。另一系列工作提出捕获标签依赖性以正则化训练多标签识别模型,从而提高其性能(Wanget al. 2016,2017;Chen et al. 2019年c,a)。这些工作要么引入RNN/LSTM 来 隐 式 地 捕 获 标 签 依 赖 关 系 ( Wang etal.2016,2017),要么以结构化图的形式显式地对标签 依 赖 关系 进 行 建 模 , 并利 用 图 神 经 网 络( Li etal.2016)来自适应地捕获标签依赖关系。最近,Chenet al.(Chen et al.2019 a)通过使用语义解耦来获得不同类别标签的语义感知特征,在几个多标签数据集上展示了最先进的结果,我们在这项工作中使用其语义解耦模块来学习特定于类别的特征。然而,尽管取得了显著的进步,但所有这些方法都依赖于数据饥渴的深度神经网络(Simonyan和Zisserman2015;He et al. 2016)来学习区别性特征表示,并且因此需要大规模和干净的 数 据 集 ( 例 如 , Visual Genome ( Krishna et al.2016 ) 、 MS-COCO ( Linet al. 2014) 和 Pascal VOC(Everinghamet al. 2010))来训练深度神经网络。然而,为每个图像注释完整的标签列表是耗时且劳动密集的,使得收集大规模且完整的多标签数据集不太实用和可扩展。为了降低标注成本,一些工作提出学习具有部分标签的多标签识别模型,即,只有一些标签是已知的(Durand,Mehrasa和Mori2019;Huynh和Elhamifar2020 ) 。 为 了 处 理 这 个 任 务 , 一 些 作 品( Bucak , Jin 和 Jain2011;Wang et al.2014;Sun etal.2017)简单地将未知标签视为负标签,并使用类似的方案训练模型 对于完全标记的设置。这些方法可能会遭受严重的性能下降,因为许多阳性标签可能会被错误地注释为阴性。其他一些作品(Tsoumakas和Katakis2007)将多标签识别视为多个独立的二进制分类。但是,它忽略了在多标签识别中起关键作用的标签依赖性。为了克服这个问题,一些作品利用标签依赖性来转移已知标签以帮助补充未知标签(Xu,Jin和Zhou2013;Yu 等 人 2014 ) 。 Cabral et al. ( Cabral etal.2011)引入了低秩正则化来利用标签相关性和完整的 未 提 供 标 签 , 而 Wu et al. ( Wu , Lyu 和Ghanem2015)类似地采用了低秩经验风险最小化。在(Wu,Lyu和Ghanem2015)中还利用混合图来编码标签 依 赖 性 的 网 络 。 在 ( Kapoor , Viswanathan , andJain2012)中,缺失的标签被视为概率模型中的潜在变量,并使用贝叶斯网络通过后验推理进行预测。这些工作中的大多数依赖于解决需要加载整个训练集的优化问题,该训练集无法集成到深度网络中进行批量训练 。 这 些 限 制 导 致 性 能 较 差 最 近 , Durand et al.(Durand,Mehrasa和Mori2019)提出了一种归一化的BCE损失,以利用标签比例信息,并使用它来训练具有 部 分 标 签 的 模 型 Huynh 等 人 ( Huynh andElhamifar2020)引入了统计标签共现和图像级特征相似性来正则化训练网络。与这些方法不同的是,所提出的框架引入了两个互补模块,其中第一模块学习图像特定的标签同现映射以在同一图像内转移所提供的标签以补充未知标签,第二模块学习类别级特征相似性相关性以在不同图像之间转移所提供的标签以补充未知标签。这两个模块可以无缝集成,+v:mala2255获取更多论文已知标签fn1fn埃克尔斯2预测主干SARL学者fn伪标签CIn埃克塞特伪标签ISTCST0 1 -1. . . 0已知标签1pn2pn3C11,1,pnCC2CC1,sm,nsm,n12sm,nC共现估计pn1pn二,一,二,三pn2所述pnpnpnC加入1C、2C、3P内1伪标签伪标签CSTIST[001 pdf 1st-31files]Jn1·2C我Ji、j我 J12C图2:所提出的结构化语义转换框架的总体说明。上半部分是由IST和CST模块组成的整体管道,用于生成伪标签,然后将其用于监督训练多标签识别模型。下半部分是IST和CST模块的详细实现。IST模块首先预测标签共生矩阵,然后映射已知标签以补充未知标签。CST模块首先学习不同图像之间的类别级特征相似性,然后进行映射以生成伪标签。移植到现有的深度神经网络模型中进行多标签识别,并以端到端的方式进行训练。结构化语义迁移在本节中,我们将介绍所提出的SST框架,该框架挖掘图像内和图像间的相关性,以帮助补充未知标签。它采用了一个语义感知的表示学习模块来提取每个图像的类别特定的特征向量。IST模块首先学习每个类别对的共现概率,然后为每个图像构造共现矩阵。然后,它转移的语义知识的已知标签,以补充一些未知的标签的基础上学习的同现矩阵。同时,CST模块学习来自不同图像的同一类别的特征向量之间同样,我们也可以利用已知标签来补充一些未知标签,神经网络(Chen et al. 2019 b,2018 a,2021)和线性分类器,随后是S形函数以计算概率得分向量pn。图像内语义迁移真实世界图像中的语义标签之间存在着很强的共现相关性,这些相关性可以有效地指导已知标签的语义知识转化为未知标签的伪标签目前的工作(Huynh和Elhamifar2020)应用了一级统计相关性来实现这一目标。然而,统计相关性并不适用于每一幅图像,因此不可避免地会产生一些错误的标签。为了避免这个问题,IST模块被提出来学习特定于图像的共生矩阵,并应用该矩阵来补充对应图像的未知标签。给定in的语义特征向量[fn,fn,···,fn]学习相似性。通过这种方法,我们可以准确地获得未知标签的伪标签,并使用已知标签和伪标签来训练多标签模型。一个把图像输入n,我们需要计算同现概率,每个类别对的能力。对于类别i和j,我们首先连接特征向量fn和fn,然后将图2给出了总体说明。记法。在 这里,我们介绍一下符号连接的特征来计算它们的同现概率,能力,公式化为在纸上使用 我们将训练集表 示 为D=pn=φintra([fn,fn]),(1){(I1,y1),., (I N,yN)},其中N是列车的数量-取样。yn={yn,···,yn}∈ {−1,0,1}C是标签哪里intn(·)是由几个堆叠的完全控制,1n的向量C是标签号。n是连接层。我们计算所有对的概率,-th样本和Cc得到一个共生矩阵Pn∈RC×C.然后我们如果标签c存在于第n个图像中,则分配给1,如果不存在,则为-1;如果未知,则为0。语义感知表示学习帧内基于所述协方差估计未知标签的伪标签。出现矩阵和已知标签。对于未提供的类别i,我们可以通过以下方式计算其伪标签:给定一个输入图像In,我们首先利用骨干网络提取全局特征映射fn,然后遵循最近的工作(Chen et al.2019 a)采用语义解码。ni{j|n=1}ni,j·y(j)≥θ帧内 ]、(2)···我们用一个门控图其中1[ ]是一个指示函数,如果参数为正,则其值为1,否则为0。θintra是阈值1 0 0. . . 11 0 0. . . 10 0 0. . . 10 1 -1. . . 00 0 0. . . 1p+v:mala2255获取更多论文NΣDΣCD{|}D·已知的标签,得到n={yn,yn,···,yn}。CCC12Cln,(3)Cc=1 |yn|CCli,j=i、ji、jCCC|Dc|CC除其他12ΣΣC这有助于排除不太可能的标签。我们计算所有未知标签的伪标签,并将其与12C哪里. 1−sn,m1 +sn,myn=1,ym=1否则,请执行以下操作。形式上,可以考虑共现预测作为二进制分类任务,我们可以使用二进制交叉熵(BCE)损失来训练它。然而,它是非常困难的,因为积极和消极的对是非常不平衡的,以训练共现预测。为了解决这个问题,我们引入了非对称损失(本巴鲁克C优化我们沿用先前的工作,使用部分二进制交叉熵损失作为目标函数。具体地,给定预测的概率分布pn={pn,pn,· · ·pn},并且等2020),动态地降低重要性简单负对,定义为在地面实况中,目标函数可以定义为:Cl(pn,yn)=1isti、j[1(yn=1)logg(pn)]Cc=1CCn=1{i,j}+1(y n= −1)log(1 − p n)]。哪里n. (1−pn)γ1log(pn) {i,j}∈Dnnγnn我们为图像内和图像间语义nnn(pi,j−m)2logg(1−pi,j){i,j}∈/D.传送模块,即, l(p,n,y)和l(p,n,y). 还有那个...这里,n是在图像In中共同出现的标签对的集合。γ1、γ2和m是用于平衡损失的参数,并且它们根据经验被设置为1、2和0.05。跨图像语义迁移直观地,不同图像中的相同类别的对象共享相似的视觉外观。换句话说,如果两个图像具有相似的视觉特征,它们往往具有相同的标签。在多标签图像的上下文最终分类损失被定义为对所有样本的三个损失进行求和,公式为:NLcls=(l(pn,yn)+l(pn,yn)+l(pn,yn)).(十)n=1最终损失可以定义为分类损失、图像内损失和图像间损失的L=Lcls+λ1List+ λ2Lcst。(十一)难以通过图像级特征相似性来挖掘标签相关性。在这项工作中,我们设计的CST模块,在此,λ1和λ2是确保学习类别级特征相似性,并转移具有高相似性图像的已知标签,以帮助补充未知标签。对于图像In和Im的每个类别c,我们使用余弦距离来计算它们的相似性,公式为:nmfn· fm三种损失具有可比性,因此我们设置λ1实验中λ2分别为10.0和0.05实验实验设置数据集。我们遵循以前的作品(杜兰德,梅赫拉萨,s n,m= cosine(f,fc)=nccm.(五)Cc和Mori2019)在MS-COCO上进行实验||FC||·||FC||假设图像In中缺少类别c的标签,我们选择图像集c=mym=1,其中每个图像都有正标签c。我们首先计算fn和对应的特征向量之间的平均相似度sn,( Lin et al.2014 ) 、 Visual Genome ( Krishna etal.2016)和Pascal VOC 2007(Everinghamet al. 2010)数据集进行评估。MS-COCO包含约12万张图像,涵盖80个日常生活类别。它被进一步分为约80k图像的训练集和约40k图像的验证集。c中的图像,然后估计类别c通过Visual Genome包含108,249张图像,涵盖80,138个类别。由于大多数类别的样本很少,我们yn=1[(1sn,m·ym)≥θ]。(六)仅考虑200个最常见的类别,类似地,1[ ]是指示函数,θinter是阈值。我们还估计了所有未知标签的伪标签,并将其与已知标签相结合,得到了伪标签n={yn,yn,···,yn}.nMPascal VOC 2007是多标签评估中使用最广泛的数据集。它包含来自20个对象类别的大约10k个图像,分为大约5,011个图像的训练集和4,952个图像的测试集。预计fc和fc之间的相似性趋于如果图像In和Im具有相同的正标记c,则相似性应该高,否则相似性应该低。因此,它可以被公式化为一个排名任务,我们引入一个成对损失进行训练,公式化为因为这三个数据集都有完整的注释,我们运行了-domly删除一些标签以创建带有部分标签的训练集在这项工作中,丢弃标签的比例从10%到90%不等,导致90%到10%的已知标签。评估指标。 为了公平的比较,我们遵循cur-N N C租赁工程(Durand,Mehrasa和Mori2019;Huynh和ln,m=(八)CL=(九)(四)n{m∈Dc}在VG-200子集中。我们随机选择10,000张图像作为测试集,其余98,249张图像作为训练集。+v:mala2255获取更多论文CL cst =100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000Elhamifar2020)采用所有类别的平均精密度(mAP),以在不同比例下进行评价n=1m =1c =1+v:mala2255获取更多论文·L×××--···数据集方法百分之十百分之二十百分之三十百分之四十百分之五十百分之六十百分之七十百分之八十百分之九十Ave. 地图SSGRL62.570.573.274.576.376.577.177.978.474.1GCN-ML63.870.972.874.076.777.177.378.378.674.4MS-CocoKGGR课程标签66.626.771.431.873.851.576.765.477.570.077.971.978.474.078.777.479.178.075.660.7部分BCE61.670.574.176.377.277.778.278.478.574.7我们68.173.575.977.378.178.979.279.679.976.7SSGRL34.637.339.240.140.441.041.341.642.139.7GCN-ML32.037.838.839.139.640.041.942.342.539.3公司简介KGGR课程标签36.012.140.019.141.225.141.526.742.030.042.531.743.335.343.636.843.838.541.528.4部分BCE27.438.140.240.941.542.142.442.742.739.8我们38.839.441.141.842.742.943.043.243.541.8SSGRL77.787.689.990.791.491.892.092.292.289.5GCN-ML74.587.489.790.791.091.391.591.892.088.9Pascal VOC 2007KGGR课程标签81.344.788.176.889.988.690.490.291.290.791.391.191.591.691.691.791.891.989.784.1部分BCE80.788.489.990.791.291.892.392.492.590.0我们81.589.090.391.091.692.092.592.692.790.4表1:我们的SST框架和MLR-PL的当前最先进竞争对手在MS-COCO、VG-200和Pascal VOC 2007数据集上的性能最佳结果以粗体突出显示。已知的标签比例设置为10%、20%、90%。我们还计算了所有比例的平均平均值。整体和每类精度、召回率、F1度量也被广泛用于评估多标签图像识别(Chenet al.2019 a),我们也采用这些指标进行更全面的评估。由于篇幅限制,我们在补充材料中介绍这些结果实施细节。为了与现有算法进行公平比较,我们遵循以 前 的 工 作 ( Durand , Mehrasa 和 Mori2019;Chen etal.2019 a),采用101层ResNet(He et al. 2016)作为主干来提取特征FN。然后,我们使用完全相同的解耦模块来学习特定于类别的语义表示,并使用门控图神经网络来学习上下文化的特定于类别的特征向量(Chenet al. 2019年a)。共现估计函数φintra()由下式实现:三个完全连接的层,其中第一层映射1024-第二层将512维向量映射到1,024,后面也跟着ReLU函数,最后一层映射到指示同现概率的分数。使用如 等式11中所 示的损失 来训练所 提出的 框架。ResNet-101的参数由在ImageNet上预先训练的参数初始化(Deng et al. 2009)数据集和所有其他层的参数被随机 初 始 化 。 该 模 型 使 用 ADAM 算 法 ( Kingma 和Ba2015)进行训练,批量大小为32,动量0.999和0.9,重量衰减为5 10−4。原始学习率被设置为0.00001,并且对于每10个时期除以10。它总共训练了20个epoch在训练过程中,输入图像的大小调整为512 512,我们从512、448、384、320、256中随机选择一个数字作为作物斑块的宽度和高度。最后,将裁剪的补丁进一步调整大小为448 448。然后我们执行随机水平翻转并执行归一化。θintra和θinter是控制生成的伪标签的准确性的两个关键参数。在训练过程中,在前5个epoch期间将参数设置为1,以避免导致任何伪标签。然后,它们在epoch 6处被设置为0.95,并且对于每个epoch减小0.025,直到它们分别达到最小θintra和θinter。基于实验结果,最小θintra和θinter均被设置为0.75。在推理过程中,去除了图像内和图像间的语义传递模块,并将图像大小调整为448×448进行评估。为了评估所提出的SST框架的有效性,我们将其与以下算法进行比较,这些算法可以可以分为三个折叠:1)SSGRL(Chenet al. 2019a)、GCN-ML(Chen et al. 2019 c)和KGGR(Chen et al.2020)引入图神经网络来对标签依赖性进行建模,并且它们在传统的多标签图像识别任务上实现了最先进的性能。我们采用这三种方法来解决部分标签的多标签识别,通过用部分BCE损失代替损失2)课程标记(Durand、Mehrasa和Mori2019)交替标记具有高证据的未知标签,以更新训练集,并使用更新的训练集重新训练模型我们还将其视为解决这一任务的强有力的基线3)部分BCE(Durand,Mehrasa和Mori2019)是为解决这一任务而提出的最新算法。它引入了归一化的BCE损失,以更好地利用部分标签来训练多标签模型。我们也包括这个算法进行比较。为了公平比较,我们采用相同的ResNet-101网络作为主干,并遵循相同的train/val拆分设置。在MS-COCO上的性能我们在MS-COCO数据集上提供了比较结果,如表1所示。我们发现传统的多标签识别方法SSGRL和GCN-ML在已知标签比例较高时(例如,70%-90%),但当比例降低时,性能下降明显。部分BCE在比例降至30%时仍能达到竞争优势。通过+v:mala2255获取更多论文方法百分之十百分之二十百分之三十百分之四十百分之五十百分之六十百分之七十百分之八十百分之九十Ave. 地图SSGRL62.570.573.274.576.376.577.177.978.474.1Ours IST w/stat55.362.365.970.371.872.773.574.675.269.1我们的IST64.171.374.575.977.277.778.278.879.175.2Ours IST w/oList61.970.973.275.076.376.877.678.278.674.3我们的CST64.272.574.476.277.177.978.478.979.375.4我们的CST(不含Lcst)63.071.773.874.476.376.977.678.378.674.5Ours w/SAM67.873.275.377.578.378.679.079.479.776.5我们68.173.575.977.378.178.979.279.679.976.7表2:基线SSGRL的mAP的比较,我们的框架仅使用具有统计共现的IST(Ours IST w/ stat),我们的框架仅使用IST(Ours IST),我们的框架仅使用IST而不损失List(Ours IST w/oList),我们的框架仅使用CST(Ours CST),我们的框架仅使用CST而不损失Lcst(Ours CST w/oLcst),我们的框架使用SAM而不是SD(Ours w/ SAM)和我们的框架(Ours)在MS-COCO数据集上。引入图像内和图像间相关性,78我们的IST73我们的IST生成伪标签,我们的SST框架获得了最佳性能的所有设置的不同比例的77.5我们的CST7772.57271.5我们的CST已知标签具体而言,其获得了68.1%、73.5%、75.9%、77.3%、78.1%、78.9%、79.2%、79.6%、79.9%在10%-90%已知标签的设置上,76.5760.5 0.55 0.6 0.65 0.7 0.750.87170.5700.5 0.55 0.6 0.65 0.7 0.75 0.8第二好的KGGR算法分别提高1.5%、2.1%、2.1%、0.6%0.6%、1.0%、0.8%、0.9%、0.8%。值得注意的是,当已知标签较小时,SST可以实现更明显的性能改进,例如,当已知标记物比例为10%和20%时,mAP分别提高1.5%和2.1%VG-200上的性能VG-200是一个更具挑战性的数据集,涵盖了更多的类别,我们还提供了比较结果。如表1所示,我们的SST框架在所有比例设置上获得最佳性能。具体而言,其平均mAP为41.8%,优于第二好的KGGR算法0.3%。此外,当已知标签为10%时,它比领先的多标签方法SSGRL和Pascal VOC 2007的性能Pascal VOC是多标签识别中使用最广泛的数据集,我们也在表1中列出了结果。由于该数据集仅覆盖20个类别,并且它比Visual Genome和MS-COCO更简单,因此当前算法在保持一定比例的已知标签(例如,超过40%)。但当比例降低到10%和20%时,它们的性能急剧下降我们的SST框架也遭受性能下降,但它始终优于目前的方法,为所有的比例设置。具体而言,它优于多标记方法(即,SSGRL和GCN-ML ) 分 别 降 低 3.8% 和 7.0% , 部 分 BCE 降 低0.8%,而已知标签仅为10%。消融研究如上所述,SSGRL可以被视为基线方法,我们强调与SSGRL的比较,以验证结构化语义转换模块的贡献。如表2所示,SSGRL获得74.1%的平均mAP。通过引入结构化语义转换模块来补充未知标签,SST将平均mAP提高到76.7%,提高了2.6%。SST在不同比例设置下的性能也始终优于基线SS-GRL方法。图 3 : “Ours IST” 和 “Ours CST” 在 50% ( 左 ) 和 20%(右)已知标签设置下具有不同最小阈值的性能SST框架依赖于语义感知表示学习(SARL)模块来学习语义感知表示。在这项工作中,我们使用(Chenet al.2019 a)中提出的语义解耦算法来实现该模块,因为它实现了多标签识别任务的最新性能。值得注意的是,我们也可以使用其他算法来学习语义感知表示。为了验证这一点,我们用(Yeet al. 2020年),以产生具体类别的代表性。如表2所示由于SST由两个互补模块组成,即,图像内语义转移(IST)和图像间语义转移(CST)模块,下面我们将进行更多的剥离实验来详细分析这两个模块的单独贡献。图像内语义迁移(IST)阈值θ intra的影响。θintra是控制伪标签准确率和召回率将其设置为较小的值可能会召回一些假阳性标签,而将其设置为较大的值可能会错过一些真阳性标签。我们进行实验,最小θ内变化,0.5到0.8,并在具有20%和50%已知标记的设置上呈现性能变化。如图3所示,它表明将最小θintra从0.8降低到0.75会导致性能改善,但进一步降低会导致两种设置的性能下降因此,我们将最小θintra设置为0.75。IST模块的贡献。然后,我们评估的实际贡献的IST模块通过比较的per-percent与没有这个模块。如表2所示,我们发现它达到了明显的mAP+v:mala2255获取更多论文长颈鹿,汽车个人卫生间车卡车长颈鹿总线长颈鹿,汽车汽车,人,摩托车,卡车,交通灯行人交通灯卡车马人,汽车,公共汽车,卡车,人,汽车,公共汽车,卡车,交通灯长颈鹿总线车厕所交通灯图4:图像特定同现矩阵和补充标签的示例:输入图像和标签(左)、图像内同现的部分图(中)和伪正标签(右)。缺失的标签以红色突出显示。具有高共现概率的两个类别由实线连接,其他情况下由虚线连接。与基线SSGRL相比,即,平均mAP改善1.1%。此外,损失List有助于学习准确的共生矩阵。为了评估其有效性,我们进行了实验,以消除这种损失进行比较(即我们的IST w/oList)。如表2所示,它进一步使平均mAP降低0.9%。在这里,我们学习特定于图像的共生矩阵来生成伪标签。为了证明它的有效性,我们进行了实验,使用在训练数据集上计算的统计共现矩阵来生成伪标签,即如表2所示,其遭受显著性能下降。具体地,平均mAP仅为69.1%,比使用图像特异性共生矩阵的平均mAP差6.1%这种现象的一个原因是统计同现并不适用于每一幅图像,因此可能会对不合适的图像产生许多假阳性标签。为了深入研究IST模块,我们在图4中可视化了特定于图像的共生矩阵的一些示例以及这些矩阵如何生成伪标签。如图所示,它可以捕获经常同时出现的类别对,如第二个示例中的汽车和人。它还可以为很少共存的对分配高同现概率,例如,长颈鹿和汽车在第一个例子中。这也表明,学习特定于图像的同现可以更好地捕获每个图像的标签相关性,从而有助于生成更准确的伪标签。跨图像语义迁移(CST)阈值θ inter的影响。θinter执行与θinter类似的角色,但它控制CST模块生成的标签。在这里,我们还进行了实验,在20%和50%已知标签的设置上将最小θinter 结果如图3所示。当最小θ inter从0.8减小到0.75时,在20%和50%已知标签的设置下,mAP从71.2%增加到72.5%和从76.8%增加到77.1%,如果进一步减小最小θ inter,mAP明显下降。因此,在实验中将最小θinter设置为0.75。国家技术服务小组模块的贡献。在本节中,我们将CST模块添加到基线SSGRL中,即0.77 0.83 0.860.82 0.76 0.920.91 0.85 0.77高相似度汽车、人、摩托车,轻型交通卡车图5:类别特定特征相似性和补充标签的示例:输入图像和 标签(顶 部)、类 别特定 特征向量 (顶部中部)、具有给定图像缺失的已知标签的其他图像的类别特定特征向量(框中中部)以及生成的伪标签(底部)。缺失的标签以红色突出显示。CST”方法,并与基线法进行比较,验证CST方法的贡献。如表2所示,其显示添加CST模块将平均mAP从74.1%提高到75.4%,提高了1.3%。在这个模块中,损失Lcst在学习特定类别的特征相似性中起着重要的作用.在这里,我们还通过进行消除这种损失的实验(即我们的CST w/oLcst)来评估其贡献。观察到平均mAP从75.4%降低到74.5%。如上所述,CST模块测量来自不同图像的相同类别的类别级特征相似性以帮助补充未知标签。在这里,我们还可视化了一个丢失了car、person和truck标签的示例(图5)。 我们可以看到,属于同一类别但来自不同图像的特征具有非常高的相似性,这有助于回忆丢失的标签。结论在这项工作中,我们的目标是解决多标签图像识别与部分标签的任务,通过设计一种新的结构化语义转换框架,它包括一个图像内语义转换模块,挖掘图像特定的标签共现和跨图像语义转换模块,挖掘类别级的特征相似性,转移已知的标签语义,以补充未知的标签模型训练。我们在各种多标签数据集上进行了广泛的实验(例如,MS-COCO,VG-200,车人卡车+v:mala2255获取更多论文和Pascal VOC)来证明其优越性。确认本 工 作得 到 了 国 家自 然 科 学 基金 ( No.61876045,61836012 , 62002069 ) 、 广 东 省 自 然 科 学 基 金( No.2017A030312006 ) 和 广 东 省 基 础 研 究 计 划(No.2017A030312006)的资助102020369)。引用Ba,J.;Mnih,V.;和Kavukcuoglu,K.2014年。多目标识别与视觉注意。arXiv预印本arXiv:1412.7755。Ben-Baruch,E.;Ridnik,T.;Zamir,N.;Noy,A.;弗里德曼,我。Protter,M.;和Zelnik-Manor,L. 2020.多标签分类的非对称损失。arXiv预印本arXiv:2009.14119。Bucak,S. S.的;金河;和Jain,A. K. 2011.不完整类分配的多标签学习。在CVPR 2011,2801卡布拉尔河S.的; Torre,F.; Costeira,J. P.;和Bernardino,A.2011.多标记图像分类的矩阵完备化。神经信息处理系统的进展,190Chen,T.;林,L.;陈,R.;吴,Y.;和Luo,X. 2018年a。用于细粒度图像识别的知识嵌入表示学习。InIJCAI,627Chen,T.;林,L.;Hui,X.;陈,R.;和Wu,H.2020年。知识引导的一般图像识别的多标记少镜头学习IEEE模式分析与机器智能.Chen,T.;Pu,T.;吴,H.;Xie,Y.;刘,L.;和Lin,L.2021年跨领域面部表情识别:统一的评估基准和对抗图学习。IEEETransactions on Pattern Analysis and Machine Intelligence.C
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功