没有合适的资源?快使用搜索试试~ 我知道了~
缺失特征和标签的多标签学习及其在文本分类中的应用
智能系统与应用14(2022)200086缺失特征和标签的多标签学习及其在文本分类郝秀艳a、黄俊a、b、刘晓波、冯勤a、萧铮a、ba安徽工业大学计算机科学与技术学院,马鞍山,243032,中国b合肥综合性国家科学中心人工智能研究所,合肥,230088,中国Ar ticlei n f o ab st ract文章历史记录:2021年11月28日收到2022年4月3日修订2022年4月27日接受2022年4月28日在线提供关键词:缺少要素缺少标注多标记学习在多标签学习中,研究人员通常假设训练数据集是完整的。然而,这种假设在实际应用中并不总是成立,例如,某些数据示例缺少特征或标签。现有算法主要关注标签缺失问题,而忽略了特征缺失问题。本文提出了一种新的多标记学习算法MMFL,具有缺失特征和标签的多标签学习,可以同时处理缺失特征和标签的问题。首先,我们尝试通过矩阵分解来恢复特征和标签的缺失值,然后从潜在特征空间到潜在标签空间学习分类模型。其次,为了克服矩阵分解中的尾标签问题,我们为稀疏的尾部标签。此外,流形正则化技术被用来保持流形结构的实例相似性和标签相关性。我们所提出的方法的有效性是通过将其与8个多标签基准数据集上的最先进方法进行© 2022作者由Elsevier Ltd.发布。这是一个CCBY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)1. 介绍近年来,作为机器学习领域的研究热点,多标签学习引起了Gibaja and Ventura(2015);Herrera et al.(2016);Tsoumakas etal.(2010);Zhangand Zhou(2014)的广泛关注,并得到了广泛的研究在现实生活中,如文本分类McCallum(1999)、图 像 自 动 分 类 Boutell 等 。 ( 2004 ) , videoannotationDembczyn'skiet al.(2012).对于多标签学习问题,研究者们提出了许多先进的算法,大致可以分为两大类。一种是另一个是∗通讯作者。电 子 邮 件 地 址 : hxy_Ahut@163.com ( X.Hao ) , huangjun. ahut.edu.cn ( J.Huang),fqin@ahut.edu.cn(F.Qin),xzheng@seu.edu.cn(X.Zheng)。现有的单标签学习算法倾向于直接处理多标签数据,如基于k-最近邻算法的ML-kNN(Zhang and Zhou(2007))、基于决策树算法的ML-DT(Clare and D.King(2001))以及基于SVM的Rank-SVM(Elisseeff and Jason(2001))。通常,在多标签学习中,研究人员假设训练数据的标签信息是完整的。然而,在这方面,在实际应用中,由于人工标记Ma and W.S.Chow(2019)的耗时和高成本以及注释者Huang etal.(2015)的知识限制,收集的标记结果往往不完整。为了解决这一问题,研究者们提出了许多先进的算法,大致可以分为两大类。一是“两步走”战略,即,这些算法恢复丢失的标签,然 后 使 用 恢 复 的 标 签 信 息 来 训 练 模 型 , 例 如 Cai et al.(2010);Tan et al.(2018 b);Xuet al.(2013)。“两 步 ” 策 略依 赖 于 恢 复 的 标 记 矩 阵 , 并 且 存 在 错 误 传 播 问 题 。另一种策略是将缺失标签的恢复和模型构建整合到一个统一的框架中,例如Guo et al.(2018);Huang et al.(2019);Wang etal.(2020);Zhu et al.(2018)。然而,由于标签矩阵的缺失值,直接从标签矩阵计算标签相关矩阵可能不准确,这降低了多标签分类模型的性能。https://doi.org/10.1016/j.iswa.2022.2000862667-3053/© 2022作者。出版社:Elsevier Ltd这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表智能系统及其应用期刊主页:www.elsevier.com/locate/iswaX. Hao,J.Huang,F.Qin等智能系统与应用14(2022)2000862此外,对于大多数现有的处理标签缺失的多标签学习方法,一个共同的假设是特征信息是完备的,而标签信息是不完备的。然而,在实际应用中,这一假设可能不成立。在数据采集的过程中,可能有很多原因导致特征的缺失。特征的缺失将给标注带来更多的困难,即,缺少特征将导致缺少标签。例如,在医疗诊断中,医生通常先为患者进行一些身体检查,然后再进行基于检查结果的诊断Lim et al.(2005).而患者可能会选择性地做一些检查而忽略其他检查。因此,所收集的特征是不完整的,而被忽略的特征可能是判断某种疾病的关键特征。因此,有效的解决丢失的特征和标签变得非常重要。已经提出了一些方法来同时关注标签和特征空间。例如,iMVWLTan等人(2018 a)考虑了缺失特征对缺失的影响。ing标签,利用非负矩阵分解技术恢复特征的缺失值,在异构不完整视图中寻找共享子空间,建立一个鲁棒的弱标签分类器.然而,iMVWLTan et al. (2018a)旨在多视图多标记学习。LEDM LiandYang(2020)使用低秩矩阵分解技术和HSIC Gretton et al.(2005,2008)来联合学习特征和标签的嵌入空间,然后恢复缺失值标签。然而,LEDMLi and Yang(2020)并未考虑缺少特征的问题。此外,在矩阵分解中存在隐秩假设。在一些实际应用中,许多标签只出现在个别示例中。这样的标签被称为尾部标签Bhatia et al.(2015),并破坏了标签空间上的低秩假设。SLEECBhatia et al.(2015)采用嵌入方法来捕获非线性标签相关性,以迭代地处理尾部标签。在Wei和Li(2019)中,提出了一种低复杂度的大规模多标签学习算法,旨在通过自适应地修剪尾部标签来促进快速预测和紧凑模型。RERANKWei等人(2021)通过消除标签先验的影响来调整预测得分从而提高尾部标签的性能。 ProXMLBabbar和Scholkopf(2019)通过4个1-范数优化了适合尾部标签的损失函数。REMLXu et al.(2016)提供了一种处理尾标签的简单方法,该方法将原始标签空间分解为稀疏尾标签空间和低秩标签空间。虽然上述方法提高了尾部标签的性能,但它们没有考虑丢失特征和标签的问题。而且,现有的多标签学习研究主要集中在标签缺失问题上,而忽略了特征缺失问题。为了有效缓解特征和标签缺失的影响,提出了一种新的多标签分类方法,该方法能够同时处理特征和标签缺失问题。其框架如图1所示。首先,矩阵因子化应用于恢复特征和标签的缺失值。其次,为了克服矩阵分解中的尾标签问题,我们为稀疏尾标签构建了一个额外的分类器。此外,流形正则化技术被用来保持流形结构的实例相似性和标签相关性。本文的主要贡献归纳如下。• 与现有的大多数多标签分类算法只关注缺失标签的问题不同,该算法同时考虑了特征和标签• 矩阵分解技术用于恢复特征和标签的丢失值。此外,为了克服矩阵分解中的尾部标签问题,为稀疏尾部标签构建了• 在8个多标签基准数据集上的实验表明,该方法在特征和标签缺失的多标签学习本文的其余部分组织如下。第二节回顾了多标签学习中缺失数据的研究。第3节介绍了我们提出的方法的细节。实验结果和分析见第4节。最后,我们在第5结束了本文。2. 相关作品2.1. 缺失标签为了解决标签缺失的问题,研究人员提出了许多构造良好的算法。这些算法大致可以分为两类。一种是增加一个预处理阶段来完成标签的缺失值,然后构造基于完整标签信息的分类模型。例如,McWLTan et al.(2018 b)整合了来自多个视图的特征信息,并通过矩阵补全来完成标签的缺失值,然后使用图结构的思想和内核目标依赖技能来融合来自多个视图的图信息,以辅助分类器的学习。MaxideXu et al.(2013)假设标签矩阵和边信息矩阵共享相同的隐藏子空间,类似于单向量阈值方法Cai et al.(2010),其通过特征矩阵、观察标签矩阵和边信息矩阵来完成标签的缺失值。另一种方法是同时恢复标签的缺失值和构造分类器。为举例来说, ML-MGWu et al.(2015)通过构建一个混合图来处理丢失的标签,该混合图结合了实例级相似性、类同现和语义标签层 次 。基 于 ML-MGWu 等 人 ( 2015 ) , MLMG-SLWu 等 人(2018)将稀疏和低秩分解模型,并将新的标签依赖嵌入到高阶全局标签依赖中,从而建立了一种新的混合图模型。LRMLGuoet al.(2018)通过从特征空间和低秩映射导出的拉普拉斯流形正则化来恢复丢失的标签,并隐式地利用标签相关性并分析判别子空间中的高维数据。GLOCAL Zhu等人(2018)通过学习潜在标签 表 示 和 优 化 标 签 流 形 来 探 索 全 局 和 局 部 标 签 相 关 性 。JLCLSWang et al.(2020)使用标签完成方法来丰富标签矩阵信息,并结合标签特定特征来执行多标签分类任务。LSMLHuang等人(2019)提出了一种新的补充标签矩阵,该矩阵从通过学习高阶标签表示来学习不完整的标签矩阵,并为每个类别标签学习特定于标签的数据表示。LSLC-MLZiwei and Ziwei(2020)通过结合特定于标签的特征选择、缺失标签以及正负标签相关性来处理多标签分类任务。 WML- LSCSun等人(2020)将观察到的特征矩阵分解为一个理想的特征矩阵和一个离群矩阵,并限制前者是低秩的,后者是稀疏的。 此外,采用线性自恢复模型,利用标签相关性重构不完整的标签分配矩阵。上述方法考虑了标签相关性。 然而,由于标签项的缺失,直接从标签矩阵计算标签分解矩阵可能是不准确的。此外,本发明还提供了一种方法,标签相关性通常被认为是线性关系,即,标签矩阵被认为是低秩的。然而,尾部标签的存在破坏了低秩假设Tan et al.(2018 a)。与低秩假设相比,X. Hao,J.Huang,F.Qin等智能系统与应用14(2022)2000863--Fig. 1. 我们提出的方法MMFL的框架。将原始标号矩阵分解为稀疏尾部标号矩阵和低秩标号矩阵的方法更实用。虽然上述方法在一定程度上缓解了标签缺失的问题,但它们都忽略了缺失特征可能影响缺失标签的事实。如果将缺失的特征也考虑进去,模型的性能会有一定程度的提高。2.2.缺失的功能在以往的多标记学习中,几乎所有关于缺失问题的多标记算法都认为存在缺失标记,且特征是完整的。事实上,在许多应用中,由于各种原因,只能收集部分特征信息,导致不完整的特征信息Liu和Motoda(1999)。当使用严重缺失的特征训练模型时,性能会严重恶化。因此,有学者针对特征缺失问题提出了相应的解决方案.不同于传统的部分多标签学习方法,如Sun et al.(2019);Xie and Huang(2018);Yu et al.(2018),NATAL Lyu et al. (2021)将部分多标记学习的任务解释为特征完成问题,其认为标记信息是精确的,而特征信息是精确的。假设缺失,并且期望的预测模型可以可 以 直接从完整的 特 征 连 同 所 有 候 选 标 签 中 导 出 。 主 动 学 习 方 法AFASMCHuang et al.(2018)通过联合执行主动特征查询和监督矩阵完成,以最小的获取成本训练有效的分类模型。它根据前一次迭代的方差主动选择一小批具有最高不确定性和最大信息量的特征,2.3.缺少要素和标签高度不完整的训练信息是多标签学习的一大挑战Han et al.(2018)。在这种不完整的数据集上进行训练将大大降低模型的性能。目前,已有学者对这一问题进行了研究。例如,iMVWLTan等人(2018 a)使用非负矩阵分解技术从具有弱标签的不完整视图中学习共享子空间,同时学习局部标签相关性和该子空间中的预测器。然而,iMVWLTan等人(2018 a)针对的是多视图多标签学习,不能直接应用于多标签学习问题。基于协作嵌入的思想,ColEmbed Han et al.(2018)提供了一个灵活的框架,通过在联合优化框架中耦合重建缺失特征和弱标签分配的过程,在转换和归纳模型中进行有效的多标签分类。然而,ColEmbedHan等人(2018)是一个PU(积极的未标记学习,即,仅标记来自肯定类的少量实例,并且不使用剩余数据的标记)方法。它忽略了负样本对模型性能的影响,只关注正类中的少量实例,因此不能直接应用于多标签学习。本文提出一种新的分类方法,可以直接应用于多标签学习,它可以处理丢失的特征和标签相似。3. 该方法3.1. 符号在多标签学习中,训练数据表示为D={(xi,yi)}n有n个实例,其中xi∈Rd是第i个实例,=查询所述特征值,从而提出双目标优化方法。i∈{I10, 1}q是对应的标签向量,d是维度。用于成本感知主动选择的量化方法。然而,这些方法单独处理丢失的特征不能保证在实际应用中。当大量特征缺失时,很难收集完整的标签集。尽管NATALLyu等人(2021)假设标签集是完整的,但这种方法可能会产生误导,即,不应该出现在标签集中的标签被认为是相关标签。因此,有必要同时考虑缺失的特征和标签。其中,q代表数据集的大小,q代表类别标签的数量。为了简单起见,我们将训练数据的特征表示表示为特征矩阵X=[x1,x2,. . . ,xn] T∈ Rn×d,训练数据对应的类标号记为标号矩阵Y =[y1,y2,. . . ,yn] T∈ 0,1 n×q. 特征矩阵X和标签矩阵Y未被完全观察到,并且零用于指示缺失值。 具体来说,xij=0表示缺少第i个实例的第j个功能。与许多既往研究相似,Huang等人(2019);Ma和W.S.Chow(2019);ZiweiX. Hao,J.Huang,F.Qin等智能系统与应用14(2022)2000864223TT1222(t)(t)(t)(t)2C、 D、U、 VFFFFΔ20141FLxr−xrLSΔ的解可以通过最小化QL(Δ,Δ(t))来获得,Δt=arg minQL(Δ,Δ(t))223TT222Fs s F2F22S和Ziwei(2020),yij=0表示对应的标签缺失或不属于该实例。3.2.缺少特征和标签的多标签学习低秩矩阵分解是数学完备化中的一种众所周知的技术,Liand Yang(2020);Wen et al.(2012)。在本文中,我们尝试使用它来处理多标签学习中的特征和标签丢失问题。 特征矩阵X∈Rn×d 标号矩阵Y∈{0,1}n×q 被分解成潜在空间具体地说,X=CD,其中C∈Rn×m表示潜在特征空间,D∈Rm×d表示系数。其中,Yri表示初步恢复的标记矩阵的第i列。3.3.构建分类器基于学习的潜在空间,构建了两个分类模型用于标签预测。从潜在特征空间C到潜在标签空间U构建一个模型。为了求解尾部标签,从潜在特征空间C到稀疏尾部标签空间Ys构建另一模型。因此,最终优化目标函数定义为- 是的Y=UV,其中U∈Rn×l表示潜在标签空间,12 2λ12V∈Rl×q表示与该方程相关的系数矩阵,minW, Ws, C, D,U, V, Ys2012年10月2日(||CW − U<$F+<$CWs− Ys<$F)+2 ||X-CD转换器帐篷标签空间和原始类别标签空间。为了对这两个问题建模,我们可以设计以下目标函数最小λ1<$X−CD<$2+λ2<$Y− UV<$2。(一)低秩矩阵分解模型有一个前提,即待分解的矩阵是线性相关的。然而,由于尾部标签的存在,这种低秩假设不适用于标签矩阵。为了克服这一限制,我们将标签矩阵分解为描述标签相关性的低秩部分和捕获尾部标签的稀疏部分,即,Y=Yr+Ys,其中Yr表示低秩类别标签矩阵,Ys表示尾部标签矩阵。由于尾标记只出现在个别实例中,因此使用41-范数来约束尾标记矩阵Ys的稀疏性。结果,下面的目标函数(1)可以重写为λ λ+2Y−UV−YsF+2(tr(U L0U)+tr(VL1V))1 1+λ4(λYsλ1+2λWsλF+2λWsλF),(6)其中λ1、λ2、λ3和λ4都是非负权重参数,W∈Rm×l 和WS∈Rm×q是模型系数矩阵。3.4.优化对于优化目标函数(6),由于存在在41-范数中,它是凸的但不光滑。因此,在本页中- 我们使用Beck和Teboulle(2009)的加速近端梯度方法来解决它。为了简化演示,我们使用Δ表示所有模型系数(即,W 、Ws、C、D、U、V和Ys)问题(6),它可以重新表示为minλ1<$X − CD<$2 + λ2<$Y − UV − Ys<$2 +λ4<$Ys<$1。(二)min{F(Δ)=f(Δ)+g(Δ)},(7)在多标签学习中,如果两个样本在特征空间中相似,则它们将在标签空间或潜在标签空间中具有相似的输出。此外,如果两个标签具有强相关性,则这两个标签的所有数据实例的标签结果在标签空间中将非常相似。为了提高潜在标签空间U和系数矩阵V的质量,利用流形正则化技术分别保持U和V中的实例相似性和标签相关性的然后,我们有以下目标函数哪里(1)A= 0(||CW − U<$2 +<$CW − Y <$2)+λ1 ||X-CD 100λ λ+2Y−UV−YsF+2(tr(U L0U)+ tr(VL1V))1 1+λ4(2WF+2WsF)(8)minλ λX−CDg(Δ)= λ4<$Ys<$1。(九)C、D、U、V、Ys2楼2楼λ3(tr(UTL U)+tr(VL VT))+λY,(3)其中L0∈Rn×n是实例相似度这里f(Δ)是凸的,g(Δ)是凸的但不光滑。 对于任何L>0,我们定义QL(Δ,Δ)=f(Δ)+(Δf(Δ),Δ−Δ)矩阵S∈Rn×n,L1∈Rq×q是标号相关矩阵G∈Rq×q的Laplace矩阵.L+2Δ−Δ(t)F+g(Δ)(10)在本文中,实例相似性矩阵S通过以下公式计算:基于初步恢复特征对任意L≥L,有Q(Δ,Δ(t))≥F(Δ)Beck and Teboulle空间通过NATAL Lyu等人提出的特征完备化方法得到初步恢复的特征空间。(2021年)。(2009),其中Lf是Lipschitz常数。 而不是迷你-直接对原始目标函数F(Δ)进行最小化,每个元素sij.sij=exp(−定义如下我2σ2J梯度算法最小化可分二次近似于F(Δ)。设G(t)=Δ(t)−1<$f(Δ(t)),则(四)C、 D、U、 V、 YsX. Hao,J.Huang,F.Qin等智能系统与应用14(2022)2000865(t)2不1−Δ2其中Nk(xri)表示第i个实例的k个最近邻,xri表示初步恢复的特征空间的第i个在本文中,我们设置k=100和σ=1。ΔL=arg min g(Δ)+Δ−G(十一)标签相关矩阵G是通过计算协相关矩阵G来获得的。正弦相似度的基础上初步恢复的标签矩阵,这是由标签完成方法LSML黄对于序列αt,通过满足α2t+1更新-αt+1≤α2,Δ(t)可以是等人(2019年)。每个元素gij定义如下Δ(t)=Δ+αt−1−1(Δ−Δ不α),(十二)t t1不gij=yriyrj、(五)其中Δt是Δ在第t次迭代时的结果),xrj∈N( xri)或 xri∈N( xrj)0,否则,1X. Hao,J.Huang,F.Qin等智能系统与应用14(2022)2000866t+1U(VW2F2FD2FW2SSF2SFV2F21st+1‹SSSV23S不αt不t−1T TT3.4.1.更新W通过固定Ws、C、D、U、V和Ys,问题(6)简化为:3.4.5.更新D在固定W、Ws、C、U、V和Ys的情况下,问题(6)简化为:min 1<$CW−U<$2+ λ4<$W<$2。(十三)最小λ1<$X−CD<$2(二十六)因此,W的梯度可以通过以下公式获得因此,D的梯度可以通过以下公式获得T TWf(Δ)= C CW + λ4W − C U。(十四)因此,W的封闭形式解被获得为:Wt+1=(CTC+λ4I)−1CTU,(15)其中I∈Rm×m是一个单位矩阵,其主对角线上为1,其它地方为0。3.4.2.正在更新W % s在W、C、D、U、V和Y固定的情况下,问题(6)简化为:ΔDf(Δ)= λ1(CTCD − CTX)。(二十七)因此,获得D的封闭形式解为:Dt+1=(CTC)−1CTX,(28)其中I∈Rm×m是一个单位矩阵,其主对角线上为1,其它地方为0。3.4.6.更新使用最小值1<$CW−Y<$2+λ4<$W<$2(十六)在固定W、Ws、C、D、V和Ys的情况下,问题(6)简化为:然后,W的梯度可借以下方法取得min1<$CW−U<$2+λ2<$Y−UV−Y<$2+λ3tr(UTL U)(29)S穆拉,U2F2s F20因此,U的梯度可以通过以下方式获得:Wsf(Δ)=CCWs+λ4Ws−CYs(17)结果,得到Ws的封闭形式解如下Ws=(CTC+λ4I)−1CTWs,(18)式Uf(Δ)=U−CW+λ2(UVV-YV+YsV)+λ3L0U(30)其中I∈Rm×m是主对角线上为1的单位矩阵然后,U可以通过以下方式更新:其他地方都是零Ut+1(t) 1= −LUf(U(t),C,W,W,V,Ys),(31)3.4.3.正在更新Y%s其中U(t)=U+αt−1−1(U − U)。通过固定W、Ws、C、D、U和V,问题(6)被简化为:最小值1<$CW−Y<$2+λ2<$Y−UV−Y<$2+λ4<$Y <$。 (十九)tαt3.4.7.更新Vtt−1Ys2s sF2sF2s1在固定W、Ws、C、D、U和Ys的情况下,问题(6)简化为:然后,Ys的梯度可以通过下式获得,对于-λ λmulaYsf(Δ)=λ2(UV−Y+Ys)−CWs+Ys(20)因此,Ys可以通过以下方式更新:最小值2Y−UV−Ys2+3tr(VL VT)(32)因此,V的梯度可以通过以下公式获得(t) 1Y=近端Y−f(U,V,Y(t),C,W)),(21)Δf(Δ)=λ(−UTY+UTUV+UTYs)+λVL(三十三)其中Y(t)=Ys+αt−1−1(Ys−Ys)的。 正则化与重-然后,V可以被更新为gard到Ys是41-范数,可以通过逐单元求解软阈值算子Vt+1(t) 1= −LVf(V(t),C,W,W,V,Ys),(34SLYs1X. Hao,J.Huang,F.Qin等智能系统与应用14(2022)2000867T T T TTCαtCt−12FSSF2FFFαt对于所提出的方法,分类器是基于)prox<$(ysij)=(|ysij|−<$)+sig n(ysij),(22)其中re(·)+=max(·,0)。3.4.4.更新C通过固定W、Ws、D、U、V和Ys,问题(6)可以简化为:min1(λCW − U<$2 + λCW − Y <$2)+ λ1λX − CD<$2。(二十三)其中V(t)=Vt+αt−1−1(Vt− V)。算法1总结了所提出的方法MMFL的总体优化步骤。一旦所有模型系数都被学习,它们就可以用来预测新示例的可能标签3.5.预测然后,可以根据以下公式计算CCf(Δ)= CWW − UW + CWsW − YsW + λ1(CDD − XD)。在低维特征空间上。因此,在测试阶段,数据表示应转换到与训练阶段相同的低维特征空间中本文主要通过最小化minPJ1=,学习一个有限映射矩阵P∈Rd×mS s(二十四)因此,C可以通过以下方式更新:XP−C然后,给定特征表示Xt∈Rnt×d,则可得到关于最优模型参数Wnt,Wnt,Vnt和Wnt的预确定值f(Xt,Pnt,Vnt,Wnt,Wnt)∈Rnt×q。(t) 1C= −f(C(t),D,U,Y,W,W),(25)在培训阶段的Pt+1LCs sα−1−f(Xt,P,V,W,Ws)=XtPWV+XtPWs其中C(t)=Ct+ t 1(Ct− Ct−1)。X. Hao,J.Huang,F.Qin等智能系统与应用14(2022)2000868--,1+ 4α+1关于我们0--00--算法1:MMFL的优化输入:特征矩阵:X∈Rn×d,标签矩阵:Y∈Rn×q,以及参数λ1,λ2,λ3,λ4,m和l;输出:模型系数:W、Ws、C、V;1π:W0,W1←rand(m,l);Ws0,Ws1← rand(m,q);α0,α1←1;表1数据集的描述2Ys,Ys←zeros(n,q);C0,C1←X(:,1:m),第一个m0 1T−1TX的列;D0,D1←(C0C0)Y的前l列;C0X;U0,U1←Y(:,1:l),V0,V1<$(UTU0)−1(UTY−UTYs);计算L0和L1;重复3通过等式更新W。(15);4通过等式更新Ws(18);5通过等式更新Ys(21);6通过等式更新C。 (25);7通过等式更新D。(28);8更新U方程。(31);9通过等式更新V。(34);4. LSMLHuang et al.(2019)3:它使用标签特定的特征和标签相关性到重建的标签矩阵到处理丢失的标签。 所有的参数都调好了 10 - 510 -4... ,10 3.5. NATALLyu et al. (2021):它认为部分多标签学习-将问题作为特征完成任务。 的参数210αt+1←2α和λ在{10{10 −7,.,10 −3}。-3,10-2,. ,10 3},并且β被调谐到11t←t+1;6. MMFL:提出的方法。 参数λ,λ12Δt←{Wt,Wst,Yst,Ct,Dt,Ut,Vt};−5 −4 2123413通过等式更新Δ(t)(十二);14直到收敛;15W<$Wt,Ws<$Wst,C<$Ct,V<$Vt;16个字母为W、Ws、C、V;3.6. 复杂性分析在算法1中,一步一步是最耗时的步骤,我们需要计算所有模型参数的梯度。因此,对于我们提出的方法,总时间复杂度为和λ被调谐到 10 ,10、、...... ,10. m=pd和l=pq,其中d是特征的维度,q是数据集的标签数量,p在{90%,80%,. . .,40%}。4.2. 数据集该实验在八个多标签基准数据集上进行,其细节总结在表1中,其中Card表示标签基数并指示每个实例的平均标签数,Domain表示特定数据集的域。222q3时间复杂度为O(t(nql+nqm+ndm+n l+n m+n d+n+l)),其中n是实例数,d是特征的维数,q是实例数。ber,m是低维特征空间中的特征维度,l是低维标签空间中的类别标签的数量,t是迭代的数量,并且md和lq。4. 实验4.1. 比较算法为了验证我们所提出的方法的有效性,我们将所提出的方法与五种最先进的多标签学习算法进行了比较。比较方法的参数设置总结如下。1. BRBoutell et al.(2004):Binary Relevance.它将多标签学习问题转化为q独立的二进制分类问题。2. Glocal Zhu et al.(2018)1:它使用全局和局部标签相关性来处理缺失标签。 在10 − 5,10 − 4,.中搜索参数λ=1,λ1至λ5。,k被调谐为0。1升,0. 2l,. . . ,0. 6l,g调成5,10, 15, 20.3. JLCLSWang et al.(2020)2:使用标签补全方法丰富标签矩阵信息,结合标签-执行多标签分类任务的特定功能。 参数α和β在{2 -10,. . .,210}。γ∈{0。1, 1, 10},θ=2−4。1代码:http://lamda.nju.edu.cn2代码:http://www.github.com/chengyshaq/;不数据集nDQ卡域医疗9781449451.245文本BibTeX739518361592.402文本Stackex_理念39718422332.270文本Stackex国际象棋16755852272.410文本雅虎艺术5000462261.636文本(网络)雅虎健康5000612321.662文本(网络)雅虎科学5000743401.451文本(网X. Hao,J.Huang,F.Qin等智能系统与应用14(2022)20008694.3. 评估指标在 本 文 中 , 五 个 常 用 的评 价度 量Gibaja and Ventura(2015);Herrera et al.(2016);Tsoumakas et al.(2010);Zhang andZhou(2014)在多标签学习中用于评估比较算法的性能。汉明损失评估实例标签对被错误分类的次数,即,不预测属于实例的标签或者实例被错误地标记。基于实例的F1是每个实例的精确度和召回率的综合版本。 平均精度评估排名高于特定标签的相关标签的平均分数。Ranking Loss评估排序后的标签对的分数,即不相关标签的排名高于相关标签。Macro AUC评估所有类别标签的平均AUC。对于汉明损失和排序损失,值越小,分类器的性能越好。对于其他的,值越大,分类器的性能越好4.4. 实验结果对于每个数据集,其中80%是随机生成的,作为训练部分,其余20%作为测试部分,重复五次。每个数据集的特征和标签的缺失率分别设置为10%至30%和10%至60%,步长为10%。为了避免没有正标签和特征信息的实例,我们假设每个实例至少包含一个特征和一个正标签。所有比较方法的参数调整都基于对每个数据集的训练数据的5倍交叉验证。3代码:http://www.escience.cn/people/huangjun/index.htmlX. Hao,J.Huang,F.Qin等智能系统与应用14(2022)20008610图2. MMFL在医学、艺术和bibtex数据集上与其他比较算法的比较结果(特征的缺失率为30%,标签的缺失率从10%变化到60%,步长为10%)。X. Hao,J.Huang,F.Qin等智能系统与应用14(2022)20008611图三. MMFL在Stackex_philosophy和Stackex_chess数据集上与其他比较算法的比较结果(特征缺失率为30%,标签缺失率从10%变化到60%,步长为10%)。X. Hao,J.Huang,F.Qin等智能系统与应用14(2022)20008612见图4。 MMFL在科学、健康和商业数据集上与其他比较算法的比较结果(特征的缺失率为30%,缺失率为20%)。标签率从10%变化到60%,步长为10%)。X. Hao,J.Huang,F.Qin等智能系统与应用14(2022)20008613图五. MMFL在医学、艺术和bibtex数据集上与其他比较算法的比较结果(特征矩阵是完整的,标签从10%- 60%变化,步长为10%。)X. Hao,J.Huang,F.Qin等智能系统与应用14(2022)20008614见图6。MMFL在Stackex_philosophy和Stackex_chess数据集上与其他比较算法的比较结果(特征矩阵是完整的,标签的缺失率从10%- 60%变化,步长为10%。X. Hao,J.Huang,F.Qin等智能系统与应用14(2022)20008615见图7。 MMFL在科学、健康和商业数据集上与其他比较算法的比较结果(特征矩阵是完整的,标签从10%-60%变化,步长为10%。)X. Hao,J.Huang,F.Qin等智能系统与应用14(2022)20008616、临界差CD=qαk(k+1)。对于Nemenyi检验,qα= 2。851在图8. MMFL(对照算法)与其他比较算法的比较(采用Nemenyi检验)。分类器组与M M F L (α= 0时)。05)连接。表2Friedman统计FF(k=6,N= 144)和每个评价指标的临界值总结(k:#比较算法;N:#数据集)。度量FF临界值(α= 0. 05)汉明损耗92.462620.62837F1482.5081平均精度329.201排序损失156.02AUC122.2834.4.1.缺少特征和标签的多标签学习每个比较算法在八个基准数据集上的五个评估指标的平均结果如图2至图4所示。由于页面的限制,我们只显示特征缺失率为30%的结果。为了更好地评估比较方法之间的性能差异,我们使用Friedman testDemšar(2006)进行性能分析。 由于特征的缺失率是标 记 缺 失 率 为 10%~ 60% , 步 长 为 10% , 标 记 缺 失 率 为10%~30%,共144个(3 ×6×8)点。表2总结了弗里德曼统计F F和每个评价指标的相应临界值。如表2所示,在显著性水平α=0.05时,所有比较算法的性能等同的零假设显然是在每个评价指标方面都被拒绝。因此,我们采用Nemenyi测试Demšar(2006)来测试我们提出的方法MMFL是否实现了与比较算法相比的竞争性能,其中MMFL被认为是控制算法。如果两个分类器的平均排名相差至少一个,rics的实验结果表明,该方法在处理同时存在特征和标签缺失的多标签学习问题时是有效的。• LSMLHuang et al. (2019 ),GLOCALZhu et al. (2018 )和JLCLSWang et al.(2020)都是处理缺失标签问题的多标签学习算法。实验结果表明,MMFL算法在大多数评价指标上都优于这些比较算法。 当特征缺失率固定时,随着标签缺失率的增加,MMFL算法在大多数评价指标上的性能都优于其他比较算法,表明MMFL算法在处理标签缺失的多标签学习中的有效性.• NATAL Lyu et al.(2021)可视为一种处理缺失特征的多标签学习算法。BRBoutell et al.(2004)是一种传统的多标签学习算法,没有考虑任何缺失问题。从实验结果来看,MMFL的性能优于NATAL和BR,验证了MMFL在解决特征和标签缺失的多标签学习问题上的有效性。4.4.2.缺失标签为了验证我们所提出的方法在解决多标签缺失标签问题上的有效性,我们假设特征矩阵是完整的,但标签矩阵是不完整的。具体而言,每个数据集的特征矩阵X被完全观察到。对于标签标记,缺失率从10%变化到60%,步长为10%。实验结果如图5至图7所示。实验结果表明,MMFL算法在大多数评价指标上都优于其他算法,表明MMFL算法在处理标签缺失的多标签学习问题6N显著性水平α = 0 。05 ,因此CD = 0 。62837 ( k= 6 ,N=144)。图8示出了每个评估度量的CD图。在每个子图中,其平均排名在一个CD内的任何比较算法都是连接的。否则,任何未连接的算法都被认为在它们之间具有显著不同的性能。根据这些实验结果,可以得到以下观察结果。• 所提出的方法MMFL在统计上优于其他比较方法,在几乎所有的评估满足。4.5. 消融研究为了进一步验证MMFL的有效性,我们进行了消融研究。特别是,我们比较了所提出的方法MMFL与它的四个变体,即,MMFL-W、MMFL-N、MMFL-L和MMFL-B。MMFL-W忽略尾部标签的建模,MMFL-N仅考虑预处理步骤的MMFL-L仅考虑LSMLHuang et al.(2019)方法的标签相关性的预处理过程,MMFL-B不考虑X. Hao,J.Huang,F.Qin等智能系统与应用14(2022)20008617见图9。 MMFL及其变体在不同特征和标签缺失率下的比较结果。(L表示标签缺失率,M表示缺失特征率X. Hao,J.Huang,F.Qin等智能系统与应用14(2022)20008618图10个。 参数敏感性分析(特征缺失率30%,标签缺失率60%)。图十一岁M M F L 的 函数值是bibtex和Stackex_chess两个数据集上的迭代
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功