极端多标签文本分类指导网络GUDN：标签语义强化极端多标签文本分类指导网络

156 浏览量更新于2024-01-16 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报GUDN：一种带标签强化策略的极端多标签文本分类指导网络q，qqQing Wang，Jia ZhuJiang，Hongji Shu，Kwame Omono Asamoah，Jianyang Shi，Cong Zhou浙江师范大学浙江省智能教育技术与应用重点实验室，浙江金华阿提奇莱因福奥文章历史记录：收到2022年2023年3月16日修订2023年3月17日接受2023年3月24日在线提供保留字：极端多标签神经网络文本分类标签语义长文本A B S T R A C T极端多标签文本分类（XMTC）是自然语言处理中一个新兴的重要任务它的目标是从大量的标签中检索与文本最相关的标签，同时平衡时间和准确性。虽然大规模的预训练模型为这项任务带来了新的视角，但应该更多地关注有价值的微调方法以及文本和标签之间的显著语义差距。在本文中，我们提出了一种新的指导网络（GUDN），具有基于标签语义的标签实验结果表明，GUDN在Eurlex-4k上的性能优于最先进的方法，并在其他流行的数据集上取得了有竞争力的结果。此外，在另一个实验中，我们发现无意义的标记会损害基于transformer的模型我们的结论是，GUDN是有效的存在坚实的语义。我们的源代码可以在www.example.com上找到https://t.hk。年/月。版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍极端多标签文本分类（XMTC）的目标是在合理的时间内从极大的标签集中准确地召回给定文本的一些最相关的标签这个问题无处不在，从电子商务平台到术语搜索网站。图 1描述了维基百科上的一篇介绍人工智能的文章，其中包含许多与该主题相关的标签。例如，在维基百科上，*通讯作者单位：浙江师范大学，No.金华市迎宾大道688号，邮编321004。电子邮件地址： wq2481@zjnu.edu.cn （ Q.Wang ）， jiazhu@zjnu.edu.cn ，stanford.edu（J.Zhu），shj451148969@zjnu.edu.cn（H.Shu），koasamoah2014@gmail.com（K.O. Asamoah），shijianyang@zjnu.edu.cn（J. Shi），zhoucong@zjnu.edu.cn（C. Zhou）。沙特国王大学负责同行审查制作和主办：Elsevierq本文件是由美国国家科学基金会资助的研究项目的结果。qq这张纸币没有数字。在本工作中，我们证明了一种新型极化激元Y_1在氧化亚铜平板和置于其上的聚苯乙烯微球之间的界面上的形成。dia，这些标签或术语的数量可以达到数十万。单击这些标签可访问相关文章。随着标签数量的不断增加，需要XMTC方法来有效地匹配物品和标签XMTC的核心挑战是如何准确有效地将这些标签与文本进行已经强调，极端多标签文本分类（XMTC）不同于多类或多标签文本分类。在XMTC任务中，标签的数量可以达到数十万甚至更多，这损害了预测精度并增加了计算时间。充足但稀疏的标签空间使“长尾”分布变得明显，导致某些样本的准确性较差。在这种情况下，文本的长度也很长，需要大量的记忆和训练时间。XMTC由于其广泛的下游应用，如广告，用户配置文件和Web搜索，在过去的十年中吸引了许多研究兴趣。许多传统的机器学习方法，包括FastXML（Prabhu和Varma，2014），Bloom Filters（Cisse等人， 2013），KarimiJafarbigloo和Danyali，2021和Dismec（Babbar和Shoelkopf，2016）已经被提出来解决XMTC问题，在某些方面取得了相对令人印象深刻的结果。然而，这些方法中的许多方法通常依赖于某些特定的设置，效率较低。例如，布隆过滤器仅在标签矩阵为低秩时可行。此外，它们通常使用稀疏特征，如TF-IDFhttps://doi.org/10.1016/j.jksuci.2023.03.0091319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comQ. Wang，J.Zhu，H.Shu等人沙特国王大学学报162图1.一、XMTC的一个例子摘自https://en.wikipedia.org/wiki/Artificial_intelligence。而词袋（BOW）作为输入，缺乏语义信息，难以优化。他们需要突破传统方法的局限性，以达到较高的预测精度。近年来，深度学习方法在XMTC任务中蓬勃发展。代表性方法的一个实例是C2AE（Yeh等人，2017），它使用稀疏线性网络来探索文本和标签之间的潜在空间。RankAE（Wang等人，2019）进一步改进了C2AE，并将其推广到极端的多标签文本分类。一些最近的工作，如DECAF（Mittal等人，2021 a），表明标签元数据，如标签结构和描述，是有帮助的XMTC。有效地提取描述性标签语义特征可以提供立即的性能提升。然而，C2AE和RankAE忽略了标签元数据，使用多热标签表示向量来探索文本和标签之间的潜在空间。此外，需要的不仅仅是使用稀疏线性层来寻找潜在空间。DXML（Zhang等人，2018）使用标签结构来构建一个图，并揭示文本和标签之间的潜在关系。LAHA（Huang等人，2019）进一步引入了标签嵌入的注意机制。尽管DXML和LAHA考虑了标签的元数据，但图结构隐藏了标签的原始特征。此外，DXML和LAHA没有解决文本和标签之间的语义鸿沟。从自然语言的角度看，文本的语义与标签之间必然存在着某种联系。然而，这些连接没有被精确地利用，导致未解决的问题。此外，需要更多地关注文本和标签之间的实质性语义差距。最近的工作采用了大规模的预训练模型作为骨干网络，并驯服它们以获得高预测精度。X-Transformer（Chang等人，2019），其使用预训练的模型，如BERT（Devlin et al.，2018），有效地从原始文本中提取特征，以显着提高准确性。但是，X- Transformer在计算成本方面可能更有效。LightXML（Jiang等人，2021）在X- Transformer的基础上进行了改进，使其更轻、更快，并实现了最先进的效果。但是，LightXML和X-Transformer可以通过有效的微调策略进一步改进。此外，他们需要考虑容易找到的关键标签语义探讨标签语义的重要性，对发现潜在空间至关重要。对于基于Transformer的模型，需要考虑有价值的微调方法。为了解决这个问题，我们设计了一个特征提取器，它使用一个改进的基于Transformer的模型作为文本特征的骨干网络。基于transformer的模型已经证明了提取单词级和句子级特征的能力，使其成为特征提取的合适候选者。此外，我们提出了一种新的指导网络（GUDN），它与特征提取器协同工作以提高XMTC任务的性能。GUDN为文本功能提供了一个直接的指导（微调），减少了不相关的信息。鉴于文本和标签之间存在巨大的语义差距，这增加了预测难度，我们开发了一种标签强化策略来帮助完成这项任务。我们工作的主要贡献概述如下：提出了一种新的导引网络（GUDN），它包括两个导引模块和两个损失函数。GUDN帮助微调基于transformer的模型，以捕获标签感知功能，从而提高性能。GUDN从标签语义的角度出发，以实用而简洁的标签增强策略考虑原始标签语义，并结合精细的深度预训练模型来提取预测准确性的特征。本文的其余部分结构如下：第2节回顾了该领域的相关工作。第3节提供了所提出的方法的详细描述，包括基于Transformer的特征提取器，新的指导网络（GUDN），和标签加固策略。我们在第4节中介绍了实验结果。最后，我们在第5节中总结了本文并提出了未来的工作。2. 相关工作多年来，已经提出了许多方法来解决XMTC问题，其可以大致分为两组。第一组包括传统的方法，可以进一步分为三类：基于嵌入的，基于树的，和一对所有（OVA）的策略。第二组包括深度学习方法，最近流行起来。在下一节中，我们将简要概述这些方法。基于嵌入的方法：基于嵌入的方法旨在减少低秩假设下的标签冗余，从而减轻存储和计算开销。这种行为也可以标签嵌入的低维理论最早由Hsu et al.（2009）提出。为了非线性地捕获标记物重叠并减少所需标记物的数量，SLEEC（Bhatia等人， 2015）对数据进行聚类以加快训练阶段。基于SLEEC，（Xu等人，2016年）完善了优化策略，取得了良好的效果。AnnexML（Tagami，2017）还通过解决不合理的数据划分，间接目标函数和缓慢的预测速度来改进SLEEC。然而，过拟合已被确定为基于嵌入的方法性能差的主要原因（Guo等人，2019年）。作为回应，GLaS被开发出来以减少过拟合。然而，由于嵌入和去嵌入的过程，标签信息不可避免地丢失。此外，标签分布的基于树的方法：基于树的方法通过创建标签树为标签集划分提供了一种分层方法。当树是平衡的，预测时间变得亚线性，甚至对数。FastXML是基于树的方法的一个典型实例，它优化了排序损失函数。 SwiftXML（Prabhu等人， 2018a）使用标签功能，并采用热启动策略以提高性能。Wydmuch等人（2018）引入了分层softmax方法来减少训练时间，而Parabel（Prabhu等人，2018 b）改进了概率标签树（PLT）（Liu等人， 2013年）。 CRAFTML（Siblini等人， 2018）使用修改的随机森林算法快速划分标签树。虽然树的结构减少了●●Q. Wang，J.Zhu，H.Shu等人沙特国王大学学报1632fg2½]OVA方法：OVA方法为每个标记创建二元分类器，例如PPDSparse（Yen等人，2017）、Slice（Jain等人，2019）、Dismec和Bonsai（ Khandagale 等人， 2020 年），导致预测准确性的显著提高。PPDSparse使用一种新的损失函数来扩展训练，而Slice采用负采样来有效地解决XMTC挑战。Dismec的层并行化策略和Bonsai的标号树结构在一定程度上减小了模型大小和计算复杂度，克服了OVA方法的局限性。然而，这些技术可能仍然是不适合现实世界的应用程序，由于其资源要求。深度学习方法：考虑到需要大量计算资源的OVA方法，依赖于低秩标签假设的基于嵌入的方法和导致降低的准确性和大模型尺寸的基于树的方法突出了对解决这些挑战的高级方法的需要。深度学习（DL）方法最近在XMTC任务中蓬勃发展。自从引入第一种DL方法XML-CNN以来，研究人员提出了许多基于DL的解决方案。目前的趋势表明，DL正在逐渐主导这一领域，我们提出的方法是基于DL。为了减少计算时间，APLC-XLNet引入了一种新的标签划分方法，称为概率标签集群。与此同时， Niculescu-Mizil 和 Abbasnejad（2017）提出了一个标签过滤器来加速标签预测。Jasinska等人（2016）提出了稀疏概率估计以降低计算成本，Jain等人（2016 a）改进了损失函数，使其更加合理。此外，Babbar和Schölkopf（2019）专注于解决“长尾”分布的问题C2AE首先提出了标签与文本之间存在潜在空间的假设，并进行了初步的探索。同时，RankAE提出了一种基于边缘的排序损失和双注意机制，在文本和标签特征之间建立了一个共同的潜在空间。DXML还旨在发现潜在的空间，并集成标签结构信息和元数据来连接文本和标签。最后，LAHA利用注意力机制和标签共存图来整合标签和文本语义。然而，在LAHA和DXML中，由于隐藏语义的图结构，标签的语义信息被显著减少。RankAE需要一个更强大的标签特征提取器，而不是稀疏线性神经网络。最近的研究（Mittal等人，2021 a; Mittal等人，2021 b）强调了标签元数据（如标签结构或标签文本）的重要性说明. 在我们的方法中，我们充分考虑了标签的语义，并使用一个深度的预训练模型直接从原始标签中提取特征。受深度预训练模型在自然语言处理中的成功启发，X-Transformer利用预训练的基于Transformer的模型来处理XMTC任务。然而，考虑到X-Transformer的计算复杂度和模型大小，LightXML被提出来获得轻量级和更快的模型。虽然LightXML 已经达到了高级水平，但X-Transformer和LightXML仍然需要探索更好的微调方法，因为它们只依赖于最终的目标函数，这对于极端分类仍然具有挑战性。为了解决这些问题，我们提出了一种新的指导网络，以进一步指导基于transformer的模型提取标签语义。3. 该方法本节详细描述了所提出的方法，GUDN，一个端到端和易于扩展的模型，由三个部分组成：特征提取器，指导网络和排名分类器。在提取过程之前，对标签输入应用标签增强策略以改善语义信息。在提取过程中，特征提取器首先提取文本和标签的特征，然后将其输入到指南网络中，以建立它们之间的密切关系。从这种关系的反馈被用来优化的特征提取器不断。最后，排名分类器利用从指南网络获得的准确语义信息来执行分类。图2示出了所提出的框架，并且上部分示出了GUDN的训练阶段。3.1. 预赛设D1/f=1;y1= 1;y2 =2;y2=1。 . . ;xn;yng 用n个样本表示训练数据集，其中x i2R d是原始文本的输入，y i0; 1L表示真标签的多热向量。属于样本文本的真实语义标签也是训练阶段输入的一部分。请注意，每个原始文本长度等于d，标签数之和为L。我们要找一个函数f来映射x ， i和y ， i。如果yij1/41，则函数f将输出高分，其中j1;L。映射函数f可以表示如下：fxi;kWkBxi; 1图二、GUDN：一种用于极端多标签文本分类的新型标签强化引导网络图的下半部分包括标签强化策略、特征提取器、排名分类器和损失模块。Q. Wang，J.Zhu，H.Shu等人沙特国王大学学报164ð Þn2ni¼1XX其中B xi表示从编码器B生成的第i个文本特征，W是分类器，通常是全连接层。f输出第k个标签的得分。如果分数很高，则标签很可能属于文本。3.2. 特征提取器GUDN建立在X-Transformer和LightXML的成功基础上，利用精心设计的BERT来提取基本特征，在各种自然语言处理任务中表现出令人印象深刻的性能。然而，以前的方法只利用稀疏线性网络中的标签多热点向量，缺乏足够的语义信息来捕捉标签和文本之间的潜在空间。GUDN在其特征提取器中结合了原始标签语义信息来解决这个问题。如图2所示，特征提取器由编码器层（BERT）、级联层、丢弃层、ReLU层和MLP层组成。具体地说，GUDN采用了一个自适应的BERT12层和768隐藏的维度来提取原始文本的特征，而标签与文本共享相同的BERT，以获得各自的特征。分享BERT可以显著降低模型的大小和复杂性，加速收敛。虽然文本和标签特征在训练阶段是异步提取的，但它们会一起用于计算损失。为了防止过拟合，GUDN采用了一个高辍学率的辍学层。由于标签描述通常比文本具有更少的语义信息，因此我们将“[CLS]”令牌的最后八层的输出连接起来，以表示提取的文本特征。此外，我们增加了两个（经验参数）额外的层标签功能，以增强其语义信息。在dropout层之后，ReLU激活函数和MLP层细化特征。因此，特征提取器F可以被公式化如下：E<$WerDfbe;2图三. 指南网。第一个指导是指导BERT从文本特征中学习最具代表性的标签特征，允许网络发现文本和标签语义之间的有效潜在空间。具体地，从特征提取器获得的文本和标签特征通过全连接（FC）层。但是，在连接之前，文本要素需要通过形状图层以匹配标签要素的形状。另一个指南负责在标签特征和真实标签之间建立直接的映射关系，这有助于减轻排名分类器的压力。为了简单起见，我们分别使用Et和El来表示文本和标签特征。指南网络最终使我们能够链接文本和标签。我们利用两个损失函数，即L功能和L链接，作为坚实的桥梁，在指导网络。前者允许文本空间和标签空间混合，而后者连接标签和标签特征。损失函数可以表示如下：LfeatureEt;El1XkEti-Elik2;3nL其中f表示来自编码器的拼接特征，D是dropout层，r是ReLU。We和be是MLP1的参数。特征提取器的输出是文本特征Et和标签特征E1。3.3. 之道网仅仅依靠一个简单的分类网络来将文本与标签联系起来，就好比在没有指南的情况下迷失在海上-它是不稳定和不确定的。一个简单而有效的解决方案是为标签和文本创建一个指导机制来解决这个问题。该概念受到CLIP中使用的对比学习方法的启发（Radford等人，2021）和MICoL（Zhang等人，2022b）来处理文本。在GUDN中，文本和标签被视为视觉和文本输入。以前的工作，如C2AE和RankAE，试图通过找到一个潜在的空间与稀疏的线性网络训练，以指导分类，建立文本和标签之间的桥梁。然而，这种方法只适用于固定的标签语义。为了实现合理的标签表示，指南网络必须足够规范，以包含原始标签语义。DXML和LAHA构造了一个标签图结构用于预测。然而，这种方法忽略了标签元数据，并部分掩盖了原始标签语义。因此，我们提出了指导网络作为解决这些问题的特征提取器用于提取语义粒度的特征，而引导网络提供文本和标签之间的映射机制。如图3所示，引导网络具有简单的结构。然而，其有效性取决于两个关键组成部分。Llinky;y^-yijlogy^ij-1-yijlog1-y^ij：4联系我们当量（3）是从标签特征 Et和文本特征 El计算的均方误差损失（MSE）。当量（4）是从真实标记y和预测标记y（1）计算的二进制交叉熵损失（BCE）。不是从文本特征而是从标签特征产生的。向导网络L向导的总损耗是L特征和L链路之和，其描述如下：L导轨¼L特征线L链接：105mm理论上，最小化L引导可以使特征提取器和排序分类器独立于引导网络，这意味着在测试阶段不需要标签信息。这是因为特征提取器和排名分类器已经学会了单独找到从文本到正确标签的路径，在培训过程中的指导网络的指导本文提出的指导网络并不限于在这项工作中描述的分类问题。它可以应用于更一般的情况，包括多标签和多类别分类。此外，该网络3.4. 排序分类器排名分类器，如图2的下半部分所示，由MLP层、Softmax层和分类器组成。它的主要任务是对候选标签进行排序，并输出最终的分类结果。排序分类器的公式可以表示如下：Q. Wang，J.Zhu，H.Shu等人沙特国王大学学报165XXKP@k¼Xy;109mm@¼X;Þy0¼Wchhh hW1Eth h hb1;h h6网络为L导，分类损失为L类。总损失函数在等式中给出。（八）、其中W1和b1是MLP2的参数;h表示软-max层，Wc表示分类器。对于中型数据集Loverall 1/4L导轨BRL级：180Eurlex-4K，AmazonCat-13 K和Wiki 10 - 31 K，我们不改变排名分类器的原始输出空间。然而，对于大规模数据集Wiki-500 K，我们遵循LightXML采用动态负采样策略。从输出空间中选择具有最高召回概率的k个标签聚类。然后从聚类中选择候选标签。在大规模数据集Wiki-500 K中，提出的动态负抽样策略从输出空间中选择召回概率最高的k个标签聚类。然后从这些聚类中选择候选标签，得到包含所有阳性和许多“硬阴性”样本的最终候选集。这种有效的策略不仅压缩了输出空间，而且提高了精度。虽然在动态负采样之前通常需要根据词袋（BOW）进行标签聚类，但X-Transformer提供了新的见解，例如正实例特征聚合。然而，在这项工作中，我们选择使用BOW来简化。二进制交叉熵（BCE）损失被用作分类损失，并且可以表示如下：我们将指南网络产生的两个损失与分类损失合并，因为它们都是GUDN不可或缺的。损失之间的相互作用是实现最佳预测精度的关键。虽然优化具有挑战性，但GUDN在训练阶段，我们利用标签语义与标签强化策略。首先，我们使用特征提取器从文本和标签特征中提取最基本和最关键的语义信息。随后，我们将文本和标签特征馈送到指导网络中，该网络采用特征损失作为指导来训练特征提取器和排名分类器。在引导过程之后，仅保留特征提取器和排序分类器，从而产生更轻的模型，其非常适合于时间敏感的用户应用。最终，GUDN提供快速准确的预测结果。4. 实验我们在Linux（Ubuntu 20.04.1）上进行实验实验-nLiments使用四个Nvidia GeForce RTX 3090 GPU和Intel（R）XeonL类sy;y0-yijlogy0ij-1-yijlog1-y0ij;7联系我们其中yi是基础真值，y0i是文本信息预测的标签。它们都是L维多热向量。3.5. 标签强化策略我们观察到一个显着的差距，在长度和语义之间的长文本和短标签序列在极端的文本分类方案。虽然标签的数量可能超过几千个，但每个样本的整个标签序列非常短，导致在标签输入的末尾添加了无意义的标记，如“Padding”。另一方面，长文本可能有数万个字符，这使得匹配具有挑战性为了解决这个问题，我们提出了一个增强的标签输入方法的GUDN。我们设计了两种标签组合方法，以显着改善我们的方法而（Zhang等人， 2022a）可能有类似的战略，但它们的目标不同。Zhang等人（2022 a）呈现用于将关键字添加到输入以改进标签描述的方法。然而，关键词提取的计算成本非常高。我们的方法是一个简单而有效的方法，丰富标签语义。我们采用两种标签加固标准：有序标签填充方法和无序标签填充方法。对于有序标签填充方法，我们复制特定样本的标签序列并将其添加到原始序列的末尾我们重复这个操作，直到序列长度达到512。对于无序标签填充方法，我们使用随机抽样方法。对于与样本相关的每个标签集，我们打乱每个标签的位置并将该集合添加到原始序列的末尾。这种随机采样过程遵循正态分布，导致序列由无序的令牌组成。3.6. 训练过程在构造了特征提取器、引导网络和排序分类器之后，最终实现了GUDN。目标函数Loverall包含两个损失：Lguide和Lclass，GUDN使目标函数L o v erall最小.指南造成的两次损失之和（R）Gold 6254 CPU@3.10 GHz并行计算。每个GPU内存为24 GB，但训练阶段占用不到20 GB。我们在整个训练阶段使用不同的全局随机数重复每个实验三次。本文的结果是这三次实验的平均值4.1. 数据集和评价指标用于实验的数据集收集自http：nikvarma.org/downloads/XC/XMLRepository.html （ Bhatia 等人，2016年）。Eurlex-4K、AmazonCat-13 K、Wiki 10 - 31 K和Wiki-500 K是四个代表性的数据集。Eurlex-4K是关于欧盟法律的文本数据，包含根据EU-ROVOC描述符形成的近4000个标签。Amazon-13 K是一个产品到产品推荐数据集，标签是该数据集中的产品类别。 Wiki10 - 31 K和Wiki-500 K是维基百科条目的摘录，分别包含约31，000和50万个标签。表1可以提供关于四个数据集的详细信息。值得注意的是，这些数据集中的文本非常长。通常，它们的长度随着标签编号的增加而增加。例如，Wiki-500 K 中的文章比 Eurlex-4K 中的文章长Merrillees和Du（2021）提出了一种分割策略，使数据样本具有新的分布，这对于测试来说是有希望的。我们在XMTC任务中使用了三个广泛使用的度量标准。其中之一是一个简单但直观的评估指标，称为顶部精度性能（P@k）。P@k的计算公式如下：1我i2rankky^其中k是常数，通常为1、 3或5。我们对预测结果，y，y，y，y概率进行排序，然后选择具有最高概率的前k如果k个索引具有对应于标签向量位置的更多1值，则P@k另一个指标是归一化的贴现累积增益nDCG@k，其定义如下：DCG kyi10i2rankky^logi1Q. Wang，J.Zhu，H.Shu等人沙特国王大学学报166X@¼X;Þ表1数据集的具体描述训练集和测试集编号表示为分别为TRN和TST。LBL指的是标签的数量。SPL代表每个标记的平均样品，LPS代表每个样品的平均标记4.3.实验与讨论我们一共做了三个实验。第一个实验测试GUDN的准确性以进行比较。第二个实验数据集TRN TST LBL SPL LPS维基百科-500 K 1813391 783743 501070 23.62 4.89是为了证明GUDN每一部分的有效性。最后一个实验用于研究标签强化策略及其对分类精度的影响。P@k;nDCG和PSP@k的实验结果示于图10中。表2我们用四个数据集进行实验，将GUDN的结果与七种有代表性的方法进行比较。这些模型的P@k数据由最小值k;jjy jj0iDCG@k¼1/1DCG@k1logi1原始文件。我们尽可能参考AttenationXML的nDCG@k和PSP@k结果的公开实验数据（You等人， 2018年）和LightXML，虽然它是不完整的。与有代表性的方法比较：我们使用了复制的，nDCG@k¼iDCG@k：12μm除了前面提到的两个指标外，第三个指标是顶部的倾向评分性能（PSP@k）（Jain等人，2016年b）。此度量允许避免通常，在XMTC的设置中，“尾标签”的数量然而，P@k和nDCG@k的度量总是忽略这一现象。因此，使用PSP@k来评估模型似乎更客观。PSP@k可以定义如下：PSP k1yi13ki2rankky^pi其中pi是某个标签的倾向分数4.2. 实验设置我们将输入文本的长度限制为512，以符合BERT当标签很短并且不能达到512时，我们将它们作为一个整体对待，并将整个标签序列馈送到特征提取器。然而，标签强化策略可以将标签序列增加到512。如果文本长度超过512，我们会选择保留头部、尾部或中间部分，这可能会导致一些信息丢失，但我们只使用前512个单词。关于训练时期，我们为Eurlex-4K和Wiki 10 - 31 K设置了40个时期，为数据集Wiki-500 K和AmazonCat-13 K设置了20个时期，因为它们的样本数量很大。对于所有数据集，训练批量为8，测试批量为16。在最具代表性的模型中，DXML和RankAE类似于C2AE，因为它们旨在找到文本和标签之间的潜在空间，这也是GUDN的目标之一。尽管他们的成就已经被超越，但他们的思想仍然鼓舞人心。相比之下，GUDN使用了一个深度的、预先训练好的基于transformer的模型来直接提取原始标签语义，这更有利于发现潜在空间。据我们所知，XML-CNN是第一种使用深度网络进行XMTC任务的方法。AttentionXML的结果表明，与XML-CNN相比，准确率有了显著提高。KTXMLC（Prajapati和Thakkar，2022）是一种基于树的方法，具有强大的性能。GUDN的主要竞争对手是X-Transformer和LightXML，两者都基于预先训练的模型来编码文本，并且曾经是最先进的。像X-Transformer和LightXML一样，GUDN也使用BERT作为骨干网络。以特征丢失为准则，在带有标签强化策略的引导网络的指导下，GUDN也取得了显著的效果。经过训练后，这三种损失都大大减少了。在三种损失中，特征损失下降最大，类损失次之，链路损失最不明显。消融研究还表明，当分别学习时，这三种损失是多么重要。XMTC的核心挑战之一是准确性。表2显示GUDN在Eurlex-4K上实现了最先进的性能，尤其是对于P@5。GUDN在AmazonCat-13K、Wiki-500 K和Wiki 10 - 31 K上也有一些优势。但据表2使用P@k，我们将实验结果与Eurlex-4K，AmazonCat-13 K，Wiki 10 - 31 K和Wiki-500 K上的几种代表性方法进行了比较。粗体字体表示最佳分数，下划线字体表示次佳分数。"数据集P@kXML-CNN（Liu等人，DXML（Zhang等人，AttentionXML（You等人，RankAE（Wang等人，X-Transformer（Chang等人，LightXML（Jiang等人，KTXMLC（Prajapati和GUDN差异（2017年）2018年）2018年）2019年度）2019年度）2021年）Thakkar，2022年）P@175.32-87.1279.5287.2287.6382.0288.13+0.50Eurlex-4KP@360.14-73.9965.1475.1275.8969.1177.06+1.17P@549.21-61.9253.1862.9063.3657.8565.49+2.13P@193.26-95.92-96.7096.7793.9796.71-0.06AmazonCat-13KP@377.06-82.41-83.8584.0279.8584.19+0.17P@561.40-67.31-68.5868.7065.0967.96-0.74P@181.4186.4587.4783.6088.5189.4585.689.75+0.30Wiki10-31KP@366.2370.8878.4872.0778.7178.9673.4578.58-0.38P@556.1161.3169.3762.0769.6269.8564.3469.86+0.01P@1--76.95-77.2877.78-77.89+0.11Wiki-500KP@3--58.42-57.4758.85-59.15+0.30P@5--46.14-45.3145.57-46.01-0.13Eurlex-4K155393809399325.735.31AmazonCat-13K118623930678213330448.575.04Wiki10-31K141466616309388.5218.64Q. Wang，J.Zhu，H.Shu等人沙特国王大学学报167表3nDCG@k在Eurlex-4K、AmazonCat-13 K、Wiki 10 - 31 K和Wiki-500 K上的实验结果将GUDN与其他两个重要模型进行了比较。由于nDCG@1等于P@1，因此我们不列出它们。粗体字体表示最高分。EURLex-4K AmazonCat-13K Wiki10-31K Wiki-500KnDCG@3nDCG@5nDCG@3nDCG@5nDCG@3nDCG@5nDCG@3nDCG@5AttentionXML（You等人， 2018年）77.4471.5391.1789.4880.6173.7976.5674.86LightXML（Jiang等人， 2021年）78.0071.8791.7790.5881.8174.6774.7172.19GUDN78.1972.7591.9890.0681.3874.6375.1673.78表4PSP@k在Eurlex-4K、AmazonCat-13 K、Wiki 10 - 31 K和Wiki-500 K上的实验结果将GUDN与其他两个重要模型进行了比较。粗体字体表示最高分。见图4。语义上缺乏或混淆的标签的例子取自Wiki-500 K和Wiki 10 - 31 K。每一行代表一个标签。值得注意的是，GUDN 在AmazonCat-13 K、Wiki 10 - 31 K和Wiki-500 K上的性能不如在Eurlex-4K上的性能。由于行业应用的多样性，XMTC方法需要考虑训练和预测效率。GUDN由于硬件的限制，我们无法复制一些模型，因此我们无法获得这些模型的训练时间和内存使用情况进行比较。但是，我们提供了GUDN的训练时间和模型大小具体实验数据见表5标签强化策略的性能：我们使用GUDN作为基本模型对标签强化策略进行了实验。图5比较了两种标签加固标准的结果。这些改进是基于GUDN的最佳性能。与基本GUDN相比，标签增强策略提高了0.03%到0.3%的匹配性能，无论是有序还是无序。此外，在无序的情况下，改进更加明显，因为标签序列在现实世界中没有任何顺序。另一方面，基于转换器的模型认为输入具有上下文关系。因此，通过一个无序的标签序列，我们可以让GUDN学习更多关于标签及其语义的特征详细分析：在本节中，我们对实验数据进行了深入分析，以探索为什么GUDN在Eurlex-4K以外的数据集我们的研究表明，Eurlex-4K中的标签设置更符合自然语言的语义。这些标签具有强大的语义特征，并准确地表示其对应的表5该表显示了GUDN的模型大小（GB）和当前实验设置下每个训练时期所需的时间（分钟）。短信了然而，AmazonCat-13 K、Wiki 10 - 31 K和Wiki-500 K中的许多标签在语义上缺乏或令人困惑。我们称之为符号标签。图4提供了符号标签的示例，诸如albums'和'+-.'一些标签由低级语义字符组成。相比之下，另一些具有完整语义的单词被无效字符打断因此，我们得出结论，GUDN是敏感的语义信息，不利地影响其性能的弱标签语义数据集。然而，这对于具有强标签语义的数据集上的GUDN是有益的。我们通过烧蚀实验进一步证实了这一结论。标签强化策略实验也支持类似的结论。消融研究：我们进行了实验来测试引导网络在提高BERT具体来说，我们测试了三个模型：一个单一的BERT模型，BERT与特征指南（这有助于识别潜在空间），和BERT与链接指南（这减少了排名分类器的压力）。这些实验在单独进行时，也强调了三种损失的重要性：特征损失，链接损失和分类损失。虽然链路损耗的减少相对轻微，但其影响仍然显著。值得注意的是，虽然GUDN在使用单个BERT模型时等同于LightXML，但我们无法达到相同的准确度。表6显示了不同模块对准确度的影响。表7显示了原始标签和多热点向量对准确度的影响。结果表明，采用引导网络的模型优于单一BERT模型，表明引导网络有助于微调BERT以捕获文本和标签中的标签感知特征，建立紧密联系，并找到潜在空间。表6还显示，指南网络对标签语义敏感，Eurlex-4K数据集的准确性得到了最显著的改善。我们发现，特征引导和链接引导都有助于准确性，并且是不可缺少的。功能指南比链接指南更有助于提高准确性。当两者协同工作时，模型表现最好。此外，我们从图6中观察到，在四个数据集上使用原始标签语义能够比多热载体。与此同时，损失减少得更多。数据集模型大小训练时间Eurlex-4K 2.66 1.50AmazonCat-13K 2.71 62.16Wiki10-31K 2.83 3.47维基百科-500 K 3.12 95.43原始标签更符合自然语言规范，提供了更丰富的语义信息，以探索文本和标签之间的潜在空间敏感性分析：为了探索GUDN对标签语义的敏感性，我们进行了一系列深入的实验。PSP@kAttentionXML（You等人，2018年）LightXML（Jiang等人，2021年）GUDNPSP@142.3142.1843.89EURLex-4KPSP@349.1748.9750.61PSP@552.1953.9954.98PSP@153.7654.8854.69AmazonCat-PSP@368.7270.2170.9813KPSP@576.3876.5477.04PSP@115.5716.0015.99Wiki10-31KPSP@31

下载后可阅读完整内容，剩余1页未读，立即下载