基于并行聚类算法的KTXMLC对极端多标签分类性能的改进

67 浏览量更新于2024-01-27 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报基于并行聚类算法的K-way树构造对极端多标签分类性能的改进Purvi Prajapatia，Amit ThakkarbaSmt. Kundanben Dinsha Patel Chandubhai S Patel技术学院信息技术系，Charotar University of Science and Technology（CHARUSAT），CHARUSAT Campus，Changa 388421，Gujarat，IndiabDepartment of Computer Science and Engineering，Chandubhai S Patel Institute of Technology（CSPIT），Charotar University of Science and Technology（CHARUSAT），CHARUSAT Campus，Changa388421，Gujarat，India阿提奇莱因福奥文章历史记录：收到2020年2021年2月24日修订2021年2月28日接受2021年3月11日网上发售保留字：机器学习多标签分类极致分类推荐系统A B S T R A C T极限多标签分类（XMLC）是多标签分类的特殊情况，它处理极大量的标签。其主要目标是学习极端分类器，从极大的标签空间中提取相关标签的子集。在极端环境中，一个大问题是处理极端数量的特征，标签和实例，这会影响分类器的性能。高维的特征空间和标签空间使得现有的方法在数据可扩展性、数据稀疏性、训练和预测成本等方面具有很大的优势。适当的输入表示技术可以用来保持标签之间的相互依赖性和特征空间与标签空间之间的相关性。提出的方法被称为KTXMLC使用并行聚类算法构造多路多树，这导致了快速的计算成本。KTXMLC在六个名为Delicious，Mediamill，Eurlex-4K，Wiki 10 - 31 K，AmazonCat-13 K，Delicious-200 K的数据集上基于排名的措施方面优于现有的基于树的分类器版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍现代科技世界处理大量互联网上的数据，机器学习被用来从高维数据空间中提取相关信息。广义上，机器学习算法分为监督学习和无监督学习。监督学习算法分为训练和测试两个阶段。训练阶段使用标记的数据来生成模型，测试阶段使用训练的模型来预测未知实例。监督学习算法的示例是分类和回归。分类问题生成分类输出，而*通讯作者。电子邮件地址：www.example.compurviprajapati.it@charusat.ac.in（amitthakkar.it @charusat.ac.in（A. Thakkar）。沙特国王大学负责同行审查制作和主办：Elsevier回归问题产生连续的输出。另一类机器学习算法是无监督学习，其中算法对未标记的数据进行操作，其中期望的输出是未知的。无监督学习算法被进一步分类为聚类和关联问题，其目标是从未标记的数据中找到隐藏的模式。最广泛使用的无监督学习技术是聚类，它根据特征相似性将数据分组。另一方面，关联用于从数据中发现关联规则，描述数据之间有趣的关系。在高维环境中，主要的挑战是处理大的特征空间，大的标签空间和大量的实例。极限多标签分类（XMLC）是机器学习领域中一个正在发展的研究领域，它处理的是极高维的特征空间和标签空间。主要目标是建立一个极端的多标签分类器，从高维的标签空间中提取一个子集的相关标签。这种极限多标签分类超出了传统多标签分类（MLC）方法的范围，MLC方法无法处理大的标签空间。在涵盖大规模分类https://doi.org/10.1016/j.jksuci.2021.02.0141319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comP. Prajapati和A.Thakkar沙特国王大学学报6355问题以及机器学习的其他领域，例如排名、推荐、标记和信息检索相关问题（Agrawal等人，2013; Prabhu等人，2018 b; Prabhu和Varma，2014; Yu等人， 2014年）。存在如下几种应用：从社交媒体中可用的图像中识别人，这可能对安全、监视或社交网络分析有用;预测维基百科文档/网页的类别/标签;向用户推荐在线产品，其中每个产品被视为单独的标签;在搜索引擎中推荐在线广告的查询集合;在语音识别或语言建模中预测下一个单词;细粒度分类等。（Agrawal等人，2013; Babbar和Schölkopf，2019; Bi和Kwok，2013; Jain等人，2019，2016; Prabhu和Varma，2014）。由于高维环境的存在，极端环境下的分类算法面临着许多挑战，包括计算复杂度和统计保证、数据的可扩展性和稀疏性、分布式和并行学习的大规模分类、标签相关性、一词多义和同义词处理、对数训练和预测成本、倾斜标签分布和高度不平衡的数据、零触发学习（zero-shotlearning）等。极端设置的性能测量;处理交叉模态数据等（Agrawal等人， 2013; Akbarnejad 和 Baghshah ， 2016;Babbar 和 Schölkopf ，2019; Jasinska 和 Karampatziakis ， 2016;Prabhu 等人， 2018 b;Prabhu和Varma，2014）。基本上有三种方法可以解决极端的多标签分类问题，例如One-Against-All（OAA）方法（Babbar和Schölkopf，2017; Hariharan等人，2012; Yen等人， 2016）、基于树的方法（Agrawal等人，2013;Babbar和Schölkopf，2019; Prabhu等人，2018 a，2018 b; Prabhu和Varma，2014; Siblini等人，2018;Weston等人，2013）和基于嵌入的方法（Babbar和Schölkopf，2017; Bhatia等人， 2015;（Bi和Kwok，2013）Gupta等人，2019年; Xu等人，2016年; Yu等人， 2014年）。OAA方法的计算复杂度随着标签数量的增加而线性增长;对于大标签空间，它变得难以处理第二种方法是基于树的极端分类器，其中性能取决于以树结构形式的输入数据表示（特征和标签表示）第三种基于嵌入的方法在训练阶段使用某种压缩机制将输入空间的高维降低到低维空间。在预测阶段，执行解压缩机制以将低维空间映射到导致信息丢失的高维输入空间（Babbar和Schölkopf，2017; Bhatia等人，2015; Gupta等人，2019年; Xu等人，2016年; Yu等人， 2014年）。这里基于树的极端分类器的不同之处在于基于输入表示和输入空间之间的层次关系的不同分裂标准通过对不同方法的比较研究和分析，基于树的方法以层次结构的形式保持了相关性。与其他方法相比，它在精度和计算成本方面具有更好的性能（Prabhu和Varma，2014; Prajapati和Thakkar，2019）。这项工作的目的是发展极端树基于分类器，可以自动推荐最相关的子集的标签从大的标签空间。我们在六个标准极端分类数据集上进行了实验，这些数据集名为Delicious、Mediamill 、 Eurlex-4K 、 Wiki 10 - 31 K 、 AmazonCat-13 K 和Delicious-200 K（Bhatia等人，n.d.）。我们的主要贡献是该方法使用基于特征标签的输入表示机制来保持特征和标签之间的相关性。使用并行聚类算法生成多路树。在并行环境下使用Scalable K-means++聚类算法构建多叉树，导致对数训练和预测成本。论文的其余部分概述如下。第二节介绍了基于树的极端分类器的相关工作第3介绍提出的方法与提出的算法。第四部分给出了实验结果和讨论。最后一节给出了结论和未来的范围所提出的方法。2. 相关工作LPSR（Weston等人，2013）具有针对给定输入空间的基于加权分层k均值聚类算法的标签划分机制。通过基于排名函数计算标签得分来对每个partition执行标签分配，该排名函数优化了k处的精度。该方法主要集中在通过基于聚类的误差优化来减少给定标签空间的线性预测时间，但与 OVA 算法相比，该算法需要更多的训练时间。 MLRF（Agrawal等人，2013）是用于极端多标签学习的基于随机森林的分类器，与LPSR和其他基于排名的技术相比，它提供了对数预测成本。这里，树的划分是基于每个节点处的基于基尼指数的多标签变体的优化。该MLRF分类器生成多个树并使用集成方法，其中树构建需要高成本，并且在高维特征空间和标签空间中，每个节点处的基尼指数的优化成本更高（Agrawal等人， 2013年）。FastXML（Prabhu和Varma，2014）引入了一种新的方法，通过优化基于排名的nDCG（归一化贴现累积增益）度量来划分特征空间而不是标签空间，该度量用于预测具有尽可能高排名的相关标签。通过使用一种新的节点划分方法，FastXML生成平衡的树结构，与LPSR 相比，该树结构实现了对数预测成本和更高的准确性（Weston等人， 2013）和MLRF （Agrawal 等人，2013年）。Pfas-treXML（Jain等人， 2016）分类器构造与FastXML架构相同的树结构。在这里，作者使用基于倾向加权分数的nDCG来优化排名损失，并在标签预测期间提供重新排名机制。因此，与最先进的基于树的分类器相比，它以更高的准确度保留对数预测，并且它改进了尾部标签的预测。SwiftXML（Prabhu等人，2018 a）是PfastreXML的扩展，PfastreXML是第一个通过联合使用两个超平面（如特征向量和标签向量）来处理热启动应用程序的分类器。它还使用热启动方案处理具有标签相关性的隐式特征比喻（Prabhu et al.，2018 b）是最新的基于树的分类器，它使用平衡2-均值++算法和基于标签空间的分区方法构建平衡树。作为最先进的基于树的FastXML（Prabhu和Varma，2014）分类器，其具有带有弱叶节点分类器的五十棵树的大集合，该Parable分类器具有带有三棵树和对数训练预测成本的强一对其余叶节点分类器。它的预测在尾标签的情况下更差，因为它构造了一个平衡二叉树。CRAFTML（Siblini等人，2018）是基于聚类的随机森林方法，用于极端多标签分类。该算法通过随机投影对特征和标签进行随机约简来获得多样性。在这里，森林的决策树构造使用的特征空间和k-means划分机制用于节点的分区。在预测过程中，新实例通过根节点到达叶节点，并且叶节点包含平均标签向量。最后聚合森林的所有叶子节点，预测。表1总结了各国基于树的极端分类器。最近的基于树的方法工作在二叉树上，将特征空间或标签空间作为根节点的输入。其中一个挑战是将特征-标签空间关联起来，并提供多路树结构，以保持输入空间的多样性。另外，在基于树的方法中提供快速训练和预测策略也是一个研究方向。●●P. Prajapati和A.Thakkar沙特国王大学学报6356I¼！Lfg ¼¼表1各种基于树的极端分类器的比较。算法节点分区#树的类型应用程序域关键贡献的优势和局限性基于聚类算法的LPSR标签划分基于MLRF特征空间FastXML特征空间基划分PfastreXML特征空间基划分SwiftXML特征和基于标号空间联合超平面基于Parabel标签空间的聚类划分算法CRAFTML聚类为基础的方法单个二叉树多个二进制树多个二进制树多个二进制树多个二进制树二叉树的分类多个多-路树排名和推荐网页广告主出价短语的推荐基于排名的应用程序推荐、标记、排名推荐、标记、排名动态搜索广告标签和建议输入分区和标签得分（排名）技术用于优化预测基于随机树的集成方法与基于基尼指数的特征空间划分。在叶节点处应用对数预测成本的排序。通过优化基于nDCG的排序损失函数，学习具有节点划分的树的集成使用倾向加权损失函数处理标签缺失问题，使用重排序方法处理长尾标签问题。通过合并特征和标签空间来处理热启动应用程序。部分显示的标签用于预测。使用平衡2均值++聚类算法对标签进行聚类使用分层多标签软最大模型有效地学习标签平衡树。基于聚类的随机森林技术，随机减少特征标签空间，以获得多样性和随机选择与随机投影，以保持更多的信息。与基于NLP的技术相比，提高了性能与LPSR和MLRF相比，提高了性能使用基于倾向的极端损失函数变体使用paratiallyrevelled标签提高预测通过输入空间获得分集基本分类器应用于整个标签集，因此计算成本很高。对于大量的特征和标签，每个节点的基尼指数计算需要很高的成本。偏向于处理缺失的标签预测精度低，模型尺寸适用于热启动场景尾部标签降维聚类用于将数据划分为组或簇，以最大化簇内的同质性和与其他簇的异质性。形成多个聚类，以使用给定的输入空间在特征标签空间方面构建多路树（Sellah和Hilaire，2019）。这些聚类是用不同的方法形成的：基于分区的，分层的和基于图的。每种方法都有不同的聚类算法来查找聚类。近年来，基于群体智能的聚类算法是解决高维数据最优解问题的一个开放的研究方向。swarm的意思是一群鸟、动物或昆虫，它们表现出合作的行为。他们的共同努力被用来解决复杂的问题，这代表了他们的群体智慧。研究人员和科学家们开发了许多算法，通过观察自然界中这些群体的行为来解决复杂的现实问题。群智能算法的示例包括蚁群优化（ACO）、人工蜂群（ABC）、遗传算法（GA）、粒子群优化（PSO）、搜索算法（CSA）、差分进化（DE）、萤火虫群优化（GSO ）等（ Figueiredo 等人， 2019;Janani和 Vijayarani， 2019;Nayar等人，2019; Paniri等人，在极端分类领域，基于群智能的算法在训练和预测成本方面增加了算法的复杂性，其中算法需要处理大的输入维度。所提出的方法工作在基于树的极端分类器，其在训练阶段期间构造多个树。最初，根节点包含具有特征和标签的整个数据集作为联合表示。基于并行聚类算法进行节点划分。这个划分过程是递归执行的，直到指定数量的标签在叶节点。在预测阶段，一个新的实例从根节点传递到树的叶节点。在叶节点处，采用线性分类器对相关标签集进行次图3示出了关于利用所提出的算法的所提出的方法的更多细节。3. 该方法所提出的方法该方法使用基于树的极端分类器和基于多路聚类的划分机制来解决本节介绍了算法：KTXMLC中概述的建议方法的问题陈述和详细描述3.1. 问题陈述对于给定的训练集fxi;yigN1，其中D维实值特征向量xisRD和L维标签向量yis0; 1关于Y IL 1如果标签l是相关的并且y il 0如果标签对于实例i是不相关的。构建基于树的极端分类器，该分类器可以从一个超大的标签集合中使用前k个相关标签集合来注释数据点极端多标签分类器的目标是从训练数据中训练预测器f：X Y，从而可以相应地预测测试数据集的标签。所提出的方法针对每个实例i将xi和yi相关。该相关输入被给予树T根的根节点，并且并行K个聚类器被用于构造多路树。3.2. 该模型在所提出的模型中，输入数据被提供为特征向量Xi和标签向量Yi的联合表示，如P. Prajapati和A.Thakkar沙特国王大学学报6357I¼23236767¼6Y7图1（a）.该联合表示Zi是特征向量表示的形式，其中活动标签的所有训练实例的总和计算如下：Zi<$ YiT Xi推荐算法：KTXMLC（基于K路树的极端多标签分类器）输入：训练数据X =fxi;yigN1/4fx1;y1;fx2;y2;· · ·· · ····K =簇数，Depmax=最大深度，树N=树X11 X21 *X1DX21 X22 *X2D67Y11Y21 *1升Y21Y22 *Y2L6 7输出：K- way树操作步骤：：Xi¼：六四：：--：--：--* *我* *七五四：·····：·····：- -：5ð1Þ1. Troot← NewNode//所有实例2. Dep root ←0 //根节点的深度为零3. XND← f1;2;········· Dg//特征集XN1XN 2：XNDYN1 YN2 * *YNL4. YNL← f1;2;···： Lg//标签集5. Z LD← X ND，Y NL//等式（一）其中，Xi是N× D特征向量，Yi是N× L标签向量，i是从1到N的实例数。该Zi表示被给出作为树T根的根节点的输入以用于树构造。图1（a）表示所提出的模型的训练阶段。在训练阶段，使用聚类算法Tree Construction来执行树构建，Tree Construction是一个聚类算法，它是 Troot;Depmax;Kroot 。下面的部分表示所提出的算法 -KTXMLC的步骤。下一节将详细介绍节点划分、最优簇选择和叶节点分类器。6. T根 ←ZLD7. 为 j←1到树N8. Tj←Tree Construction树结构Troot;Depmax;K9. 返回Tj树结构：Troot;Depmax;K1. 可缩放K意味着可缩放Tz;K//K1;K2···K使用ScalableK-Means++聚类的（接下页）Fig. 1. 提出的模型。P. Prajapati和A.Thakkar沙特国王大学学报63581/1BðþÞbB.Σ令Zi<$fzB···· ·zng是D中的一组观测值，在Eq. （3），其中y是实际的地面真值，by <$fwb<$xi是XX算法2. for i← 1to K//parallel for loop3. Ni← node//空节点4. Ni← Ki5. DepNi←Dep Ni-116. 如果 Ni 是非叶节点//如果Dep<$Ni< $ ≤Depmax是非叶节点NiC←树构造<$Ni;Depmax;K<$//递归地增长树7. 其他图 1（b）表示模型的测试阶段，其中Wikipedia文档作为输入实例（“最近邻搜索”）传递，并且所提出的模型预测类别列表，例如“近似算法、分类算法、数据挖掘、机器学习、数学优化和搜索算法”。在预测期间，新的实例从根节点遍历到叶节点，并且在叶节点处，应用线性分类器最后，结合所有树的叶节点的平均概率，最后，基于最高排名分数预测标签。Ni←叶节点分类器8.第八条。返回NiK3.3. 节点划分根据Eq。（1）、向量Zi最初被赋予根节点Troot并递归地将其划分为多个节点。此分区由可扩展的K-means++聚类（K-means）执行||）（Bahmani等人，2012），其中K个簇。重复这个递归过程，直到叶子上的标签数量有限。对聚类的选择，使得当前选定的中心集将随机地偏向下一个中心的选择。采样概率由点到中心的距离决定。下面的细节说明了这个集群概念。1;z2;3.6.性能分析表 2 表示最先进的（ FastXML 和 Parabel ）基于树的算法和KTXMLC的计算复杂度。KTXMLC遵循两个主要步骤，一个是输入表示，第二个是基于多路聚类的分区。KTXMLC的培训成本为O ZKlogw其中Z是输入表示向量（特征向量和标签向量），K是聚类的数量，logw是聚类机制的迭代次数。KTXMLC的预测成本是OwHD，其中w是用于正则化的线性分隔符，H是树的高度从根节点遍历到叶节点，并且D是每个文档的活动特征的平均数量。KTXMLC生成平衡的树结构，其中对于k个聚类，Hlog kN，最终预测成本为Owlog gKLDb。在表1中， D是特征的数量，N是实例的数量，L是维欧氏距离设kzi-zjk表示zi和zj之间的欧氏距离.设C^c1;c2;·····ck为K个中心。可扩展的K均值++聚类（Bahmani等人， 2012）挑选初始聚类并计算聚类的初始成本。然后，它继续进行logw（初始聚类的成本）迭代。在每次迭代中，对于cur-租金中心C，它以概率ld2<$z0;C<$z对每个z进行采样，并获得uZC一个新的中心抽样中心被添加到C，数量更新了/Z 2012年）。3.4. 最优聚类选择在基于聚类的K-way树构造中，“聚类数（K）”的选取是一个肘方法（Yuan和Yang，2019）是最佳聚类选择方法之一，它基于数据集特征工作。该肘形方法使用平方距离之和（distzi;Ci2），如等式（1）所示（2）考虑所有聚类Ci中的每个数据点zi及其各自的质心。实验部分给出了基于不同数据集的最优聚类值的结果。CKzn第二区C1zi2C标签，L是每个数据点的相关标签的平均数量，D是每个文档的活动特征的平均数量。性能分析表明，与FastXML和Parabel相比，KTXMLC的训练时间和预测时间复杂度都有所改善。4. 实验分析实验在Delicious 、Medi-amill 、Eurlex-4K、 Wiki 10 - 31 K 、AmazonCat-13 K和Delicious-200 K六个数据集上进行。数据集的特征如表3所示。极端多标签分类的数据集可从“极端分类库”（Bhatia等人，n.d.）。在极端多标签分类领域，检索测试实例相关标签的子集是必不可少的。因此，基于排名的评估措施是重要的检索最相关的标签。我们已经在Intel Core i5处理器上进行了实验，该处理器具有四个核心和16 GB RAM。在极端环境下，重要的是要关注积极的标签而不是消极的标签。我们已经使用了基于排名的测量精度@k和nDCG@k，如等式（1）所示。（4）Eq.（6）分别对所提出的方法进行了实验。根据Eq。（4），precision@k计算cor-前k个正预测的正确预测3.5. 叶节点分类器精度@k¼1XyLð4Þkl2rankkby一旦构建了K路树，就在叶节点处应用One-vs-All SVM分类器。平方铰链损失函数应用于线性SVM的优化。铰链损失函数（fy;y）为：其中rankk（y）返回y的k个最大索引，按降序排列。预测，w是正则化项。正则化用于稳定目标函数的最小化。n表2算法的时间复杂度算法训练时间预测时间最小D X1-yi fwxikjjwjj2ð3Þ复杂性Complexityw2R21/1fastXML（Prabhu and Varma，2014）快速XML（Prabhuand Varma，2014）Parabel（Prabhu等人，2018 b）ONlog2 LDOwlog2 LDKTXMLCOZKlogwbbOwlogKLDbP. Prajapati和A.Thakkar沙特国王大学学报6359表3数据集统计。训练样本的数据集数量测试次数数量的特征标记物数目每个标签的每个点的美味12，920 3185 500 983 311.61 19.03中磨30，993 12，914 120 101 1902.15 4.38EURLex- 4K15，539 3809 5000 3993 25.7 5.3维基百科10 - 31 K 14，146 6，616 101，938 30，938 8.52 18.64AmazonCat-13K 1，186，239 306，782 203，882 13，330 406.77 5.04美味-200 K 196，606 100，095 782，585 205，443 72.29 75.54nDCG@k是贴现累积增益（DCG）的归一化版本，如等式（1）所示。（五）、DCG表示最后出现在搜索列表中的高度相关的实例应该被惩罚，因为分级的相关性值与结果的位置成比例地减少。nDCG@k（归一化的Dis计数累积增益）用于基于实例的分级相关性对于所提出的方法的mal聚类。以下是基于所提出的方法的实验：4.1. 实验1：树木数量的变化DCG@k¼Xylð5Þl2rankkbylog1l在Eurlex-4K、Wiki 10 - 31 K、AmazonCat-13 K三个不同变异的nDCG@k¼PDCG@kminkjj yjj01ð6Þ树木的数量。图3表示在精度@k方面的结果。在这个实验中，树的类型是二叉树，l¼1log1l考虑两个集群。实验结果表明，KTXMLC提出的方法进行了评估的基础上不同的实验。图 2表示实验的工作流程。根据图中所示的流程。 2、通过实验验证了该方法在不同树数下的性能。下一个实验代表不同数量的集群，以创建多路树，第三个实验选择最佳的，对于树的不同变异（如T = 2，3，4，5），其性能几乎相同。表示树的变化不影响分类器的性能，因为线性分类器应用于叶节点，并且基于平均概率检索标签。KTXMLC将树的数量3（T = 3）作为默认超参数用于进一步的实验。图二. 实验流程P. Prajapati和A.Thakkar沙特国王大学学报6360图三. 不同树数的精度表现。4.2. 实验2：树数等于3使用三棵树和不同的变化的集群表示在图。 4在精度方面@k。KTXMLC工作在集群- ING基于分区，这是更多的数据依赖，因为较小的集群（尾标签）在一个单独的集群处理多路树划分是基于聚类的数量（K）来执行的。在这里，聚类的选择是K-路树构造的重要参数之一4.3. 实验3：应用最优聚类选择方法图5显示了Eurlex-4K数据集上用于选择聚类的最佳值的肘方法结果。聚类选择基于每个聚类k的总的聚类内平方和（WSS）。该肘形方法基于WSS的最小值执行聚类的选择。对于Eurlex-4K数据集，肘形方法生成6个聚类作为最佳值。图6表示KTXMLC在精度@k方面的性能，并将该性能与四个基于树的极端分类器（fastXML、PfastreXML、CRAFTML和Parabel）进行比较。第一个基于树的算法，fastXML工程的排名为基础的损失函数与二叉树的建设，而KTXMLC建设，结构树使用并行聚类的方法，在树的建设提供多样性。KTXMLC使用肘方法进行聚类选择，其中Wiki10 - 31 K和AmazonCat-13 K数据集分别选择K = 10和K = 5个聚类，如图 5 所示，用于 Eurlex-4K 数据集。与基于聚类的算法（CRAFTML）图五. Eurlex-4 K数据集上的肘形方法。和Parabel）是使用Scalable K-Means++聚类算法的并行实现的多路树构造。表4表示使用precision@k的KTXMLC的性能，并与基于树的方法、基于嵌入的方法和其他方法进行比较。现有技术的基于嵌入的方法，例如SLEEC （ Bhatia 等人， 2015 ）、 LEML （ Yu 等人，2014）、ExMLDS（Gupta等人，2019）和其他方法，如1-vs-All（Hariharan等人，2012）、PD-Sparse（Yen等人， 2016）、PPD-稀疏（Yen等人，2017），DisMEC（Babbar和Schölkopf，2017）被认为是表4中的比较。图图7示出了各种基于树的算法上的nDCG@k的结果。KTXMLC的性能在nDCG@k方面是一致的见图4。针对不同数量的聚类（Hyper参数T = 3）的精度性能。P. Prajapati和A.Thakkar沙特国王大学学报6361图六、KTXMLC与最先进的基于树的算法的性能比较对于Delicious，Mediamill和Eurlex-4K数据集，而Wiki 10 - 31 K数据集优于其他基于树的算法。考虑到簇的不同变化，所提出的方法KTXMLC生成平衡的树结构，并显着提高了最先进的基于树的算法的性能。根据数据集统计，Wiki 10 - 31 K数据集存在尾标签问题，KTXMLC根据实验结果处理了其他基于树的分类器。表5表示使用nDCG@k的KTXMLC、基于嵌入的方法和其他方法的结果。4.4. 实验4：相同环境将KTXMLC和Parabel算法在同一环境下运行，并与最新的Parabel算法进行训练时间比较。根据图8，KTXMLC在训练时间方面执行得很快。KTXMLC的训练时间是基于三个数据集的聚类的最佳值计算的：Eurlex- 4K，K = 6，Wiki 10 - 31 K，K = 10和AmazonCat-13 K，K= 5。这里K是每个数据集的最佳聚类值表4使用precision@k（其中k = 1，3，5）比较KTXMLC与最先进的极端分类算法的性能数据集度量基于嵌入的方法其他基于树的方法SLEEC LEMLExMLDS1对所有PD-稀疏PPD-稀疏DiSMEC快速XML PfastreXMLCRAFTML抛物线KTXMLC（拟议）办法）美味P@167.5965.6767.9465.0151.82–69.6167.1370.26 67.4470.83P@361.3860.5561.3558.8844.18–64.1262.3363.98 61.8365.23P@556.5656.0856.353.2838.95–59.2758.6259 56.7561.37Mediamill P@187.8284.0187.4983.5781.86–84.2283.9885.86 83.9184.51P@373.4567.272.6265.662.52 39–67.3367.3769.01 67.1268.81P@559.1752.858.4648.5745.11–53.0453.0254.65 52.9954.69Eurlex-4 K P@179.2663.477.5579.8976.43 83.8382.471.3675.4578.81 81.7382.02P@364.350.3564.1866.0160.37 70.7268.559.962.765.21 68.7869.11P@552.3341.2852.5153.849.72 59.2157.750.3952.5153.71 57.4457.85Wiki10-31 K P@185.8873.4786.82––85.283.0383.5785.19 84.3185.6P@372.9862.4374.3––74.667.4768.61七三一七七二五七73.45P@562.754.3563.68––65.957.7659.163.27 63.3964.34AmazonCat-13 K P@190.53–93.05–90.693.493.1191.7592.78 93.0393.97P@376.33–79.18–75.1479.178.277.9778.48 79.1679.85P@561.52–64.54–60.6964.163.4163.6863.58 64.5265.09美味-200 K P@147.8540.7347.7–34.3745.543.0741.7247.87 46.9747.92P@342.2137.7141.22–29.4838.738.6637.8341.28 40.0842.29P@539.4335.8437.98–27.0435.536.1935.5836.6339.81P. Prajapati和A.Thakkar沙特国王大学学报6362图7.第一次会议。KTXMLC与最先进的基于树的算法的比较表5比较KTXMLC与使用nDCG@k（其中k = 1，3，5）的其他方法的性能基于数据集测量嵌入的方法其他KTXMLC（建议的方法）SLEECLEML1对所有PD-稀疏DiSMEC美味nDCG@167.5965.6765.0251.82–69.81nDCG@362.8761.7760.4346–66.04nDCG@559.2858.4756.2842.02–61.88梅迪亚米尔nDCG@187.8284.0183.5781.86–85.13nDCG@381.575.2373.8470.21–75.37nDCG@579.2271.9668.1863.71–72.28Eurlex-4KnDCG@179.2663.479.8976.4382.482.49nDCG@368.1353.5669.6264.3172.573.07nDCG@561.648.4763.0458.7866.766.33Wiki10-31 KnDCG@185.8873.47––84.185.78nDCG@376.0264.92––77.176.11nDCG@568.1358.69––70.470.32P. Prajapati和A.Thakkar沙特国王大学学报6363其为极端分类器竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用见图8。模型训练时间的比较（以秒为单位）。4.5. 实验总结从三个实验结果来看，KTXMLC在precision @k和nDCG@k方面与现有算法相比表现良好，KTXMLC有效地学习了平衡树结构，并使用基于聚类的划分将二叉树构造扩展到K路树构造。K-way（K > 2）树划分在树构建期间提供多样性，其为尾部标签创建单独的聚类。KTXMLC在并行环境下构造多棵K-way树，导致对数训练和预测开销。5. 结论和今后的工作极端多标签分类器从标签空间的高维度中提取标签的子集KTXMLC采用基于并行聚类的树构造方法，保持特征空间和标签空间之间的相关性。我们通过在三个文本内容数据集上的大量实验，实证性地验证了KTXMLC的性能与最先进的基于树的极端分类器相比，通过选择特征子集而不是所有特征，可以提高模型的精度。本文重点研究了基于聚类的特征-标签联合选择算法，该算法根据输入数据的性质将数据组织成不同的类。在机器学习领域中，高维环境要求对可能由各种特征组成的大数据集进行高效、准确的划分。这表明了极端环境下的相关聚类技术。特征选择是从高维数据空间中选择特征子集，减少数据量的技术之一。基于群体智能的聚类方法是解决高维环境下复杂优化问题的一种技术。由于目前在极端多标签分类问题上的群智能研究较少，因此在高维环境中使用群算法进行特征选择是一个开放性的研究课题。在未来，基于多标签群的聚类机制可以被开发，以获得高维环境中的最优解在未来，传统的深度学习架构可以探索极端的多标签分类问题与联合嵌入的特征空间和标签空间。未来可以使用深度典型相关分析（DCCA）架构将高维特征空间和标签空间相互关联阿格拉瓦尔河古普塔，A.，Prabhu，Y.，Varma，M.，2013.使用数百万个标签的多标签学习：为网页推荐广告商出价短语11.Akbarnejad，A.，Baghshah，M.S.，2016.一个有效的大规模半监督多标签分类器能够处理丢失的标签。arXiv：1606.05725 [cs，stat]。巴巴尔河，Schölkopf，B.，2019.数据稀缺性、鲁棒性和极端多标签分类。MachLearn 108，1329-1351. https://doi.org/10.1007/s10994-019-05791-5巴巴尔河，Schölkopf，B.，2017年。DiSMEC：Distributed Sparse Machines forExtreme Multi-label Classification，收录于：第十届ACM Web搜索和数据挖掘国际会议论文集- WSDM发表于第十届ACM国际会议，ACM出版社，剑桥，英国，pp。721-729. 10.1145/3018661.3018741Bahmani，B.，Moseley，B.，Vattani

下载后可阅读完整内容，剩余1页未读，立即下载