基于机器学习的阿拉伯语多标签文本分类模型研究

22 浏览量更新于2023-12-09 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志22（2021）225HMATC：使用机器学习的分层多标签阿拉伯语文本分类模型Nawal Aljedani，Reem Alotaibi，Mounira Taileb沙特阿拉伯吉达21589阿卜杜勒阿齐兹国王大学计算机和信息技术学院信息技术系阿提奇莱因福奥文章历史记录：收到2020年2020年8月4日修订2020年8月29日接受2020年9月22日网上发售保留字：文本分类多标签分类分层分类机器学习阿拉伯语自然语言处理A B S T R A C T多标签分类同时为每个文档分配多个标签。许多现实世界的分类问题往往采用高维标签空间，它可以自然地在层次结构。在这种类型的问题中，每个实例可能属于多个标签，并且标签以分层结构组织。它提出了一个比平面分类更复杂的问题，因为分类算法必须考虑标签之间的层次关系，并且能够预测同一实例的多个标签很少有研究调查阿拉伯语的多标签文本分类这些研究大多集中在平面分类，而忽略了层次结构。因此，本文在阿拉伯语的背景下，探讨层次多标签分类。提出了一种基于机器学习的层次化多标签阿拉伯语文本分类模型。特征选择方法和特征集维度对分类性能的影响也进行了研究。此外，通过考察不同的多标签分类器集合、聚类算法和不同数目的聚类，对多标签分类器层次（HOMER）算法进行了优化此外，这项研究有助于现有的研究，介绍了分层多标签阿拉伯语数据集在适当的格式分层分类，并使其公开。结果表明，所提出的模型优于所有的模型在实验中考虑的计算成本，消耗较少的成本（2小时）相比，其他评估模型。此外，与最先进的模型（Fatwa模型）相比，它在汉明损失（0.004）、分层损失（1.723）、多标记准确度（0.758）、子集准确度（0.292）、微平均精确度（0.879）、微平均召回率（0.828）和微平均F-测量（0.853）。©2020 THE COUNTORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍网页、在线存储提供商和社交媒体网络的快速增长导致可用电子文本文档的数量显著增加根据国际数据公司，“互联网上的数字数据将从2005年的130 EB增长到2020年的有效地管理和分类这些数据需要一个准确的自动文本分类模型。因此，文本分类仍然是一个重要的研究领域一般来说，TC可以用于-*通讯作者。电子邮件地址：naljedani0026@stu.kau.edu.sa（N. Aljedani），ralotibi@kau.edu.sa（R. Alotaibi），mtaileb@kau.edu.sa（M. Taileb）。开罗大学计算机和信息系负责同行审查。Mally定义为一种监督机器学习技术，它根据给定实例的内容自动将其分配给预定义的标签[2]。分类模型使用训练数据进行训练，训练数据包括实例及其对应标签（类别）的集合[3]。以前的研究使用了两种方法进行分类。一方面，单标签分类是传统的分类，它只为每个实例分配一个预定义的标签。单标签分类可以是二分类，也可以是多分类.另一方面，多标签分类（MLC）同时为每个实例分配一组预定义的标签[4]。通常，仅用一个标签对每个实例进行分类是不够的，因为多个标签可以同时描述其内容[5]。例如，被分配到“教育”标签的新闻文章https://doi.org/10.1016/j.eij.2020.08.0041110-8665/©2020 THE COURORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.comN. Aljedani等人埃及信息学杂志22（2021）225226MLC分为两种分类类型：平面分类和层次分类。在平面分类中，对一组预定义的标签进行分类，而不考虑标签之间关系的层次[6]。相比之下，在分层多标签分类（HMC）中，单个实例可以同时具有多个标签，并且这些标签以层次结构进行结构化[7]。这种类型的分类提出了比平面分类更复杂的分类问题，因为分类算法必须考虑标签之间的层次关系，并且能够预测同一实例的多个标签HMC任务在许多应用中变得重要，例如网页分类、数字图书馆、电子图书、专利和报纸文章。使用机器学习来进行HMC是一种很好的方法，可以方便地进行文档分类和检索，搜索，并轻松有效地请求信息[8]。几项研究已经对英语进行了MLC然而，很少有研究已经进行了阿拉伯语，在这一领域的研究往往集中在平面多标签分类，并没有考虑HMC深入。阿拉伯语是3.8亿人的母语[9]，也是其中之一。联合国使用的六种正式语文[10]。它包含28个字母，25个辅音和3个长元音。它也有大量的词汇和复杂的形态[11]。阿拉伯语在电子网站和社交媒体网络上的大量使用，特别是近年来，导致需要开发一种自动文本分类技术，该技术可以有效地组织和分类大量的电子阿拉伯文本文档。因此，本文提出了一种层次多标签阿拉伯文本分类模型（HMATC），该模型能够处理阿拉伯文本的层次结构，从而解决了阿拉伯语背景下的HMC问题。该模型对HOMER算法进行了优化，提高了分层分类的效率.具体而言，本文的主要贡献可归纳如下：提出了基于HOMER算法的HMATC模型。采用不同的多标签分类器集、聚类算法和不同的聚类数对HOMER算法的基本参数进行了优化。深入了解特征选择方法和特征集维度对拟议模型的影响采用适当格式的多标签阿拉伯语数据集进行分级分类，并在网上公开提供。出于可重复性的目的，HMATC 实现中使用的源代码可以在GitHub页面上在线访问。1本文的其余部分组织如下：第二节总结了不同的MLC方法，并讨论了相关的研究，已经进行了MLC的阿拉伯语文本。第3节介绍了HMATC模型，并描述了其开发所需的步骤。然后，第4节通过描述数据集统计、评估方法和实验设置来讨论实验。第5节讨论结果。最后，第6节给出了结论和未来的研究方向.2. 相关工作在下面的部分中，我们将对多标签文本分类进行广泛的回顾，以深入了解现有MLC技术和相关的研究，侧重于阿拉伯文文本。2.1. 多标签分类方法MLC可分为平面分类和层次分类。平面分类可以使用问题转换（PT）或算法自适应技术进行。PT技术简单地将MLC问题转化为单标签问题，然后使用传统的单标签分类算法来执行分类任务。算法自适应技术是指采用单标记分类算法直接处理MLC问题。这种技术的示例包括多标签惰性学习（ML-kNN）算法[12]和多标记决策树（ML-DT）算法[13]。PT技术包括两种一般方法。第一个是将多标签问题转化为一组二进制分类问题。这种方法的示例包括二进制相关性（BR）[14]，分类器链（CC）[15]和成对比较排名（RPC）[16]。第二种方法将多标签问题转化为多类分类问题。这种方法的例子包括标签幂集（LP）[17]，修剪集（PS）[18]和随机k-标签集（RAk EL）[19]。另一方面，HMC被认为是MLC的扩展或变体，其中在多标签上考虑分层结构。对于给定的多标签问题，分类算法的输出是一组以层次结构构造的标签[7]的文件。分层多标签问题通常被分类为树层次或有向无环图（DAG）[8]。一般来说，HMC提出的分类算法更能够处理大的标签集比平面分类提出的。已经为HMC提出了几种算法，例如：分层决策树[20]，分层k-最近邻算法[6]，分层分类的增量算法[21]，分层支持向量机[22]，使用完全关联集成学习的HMC[23]，HOMER算法[24]，基本分类算法（BCA）和百分比差异分类（PDC）算法[25]。2.2. 阿拉伯语文本通常，用于英语的MLC方法也可以应用于阿拉伯语，但区别基本上在于预处理阶段。以下部分介绍了对阿拉伯语文本中MLC进行的现有研究的回顾Ahmed等人。[26]使用几个多标签分类器对二进制和多类分类转换方法进行了研究。他们使用MEKA2工具将阿拉伯语数据的MLC转换为单标签分类，以实现LP，BR和基于阈值（RT）的方法。用作基本分类器的标准单标签机器学习算法是：支持向量机（SVM）、k-最近邻（k-NN）算法、朴素贝叶斯（NB）方法和决策树（DT）。评估所收集的数据集包括10，000篇新闻文章，分为五个标签（体育，艺术，经济，政治和科学）。评估结果表明，使用支持向量机作为基础分类器与LP方法实现了最好的ML准确度为71%。Taha和Tiun[5]使用BR方法开发了一种新的MLC模型。该研究的主要目的是通过采用基于以下的BR方法来解决阿拉伯数据集的MLC问题：1https://github.com/NawalJed/HMATC。2http://waikato.github.io/meka/。●●●●●N. Aljedani等人埃及信息学杂志22（2021）225227不同的单标签机器学习分类器集合，包括SVM、NB和k-NN。使用[26]中收集的相同数据集进行评价性实验。实验结果表明，使用由多组单标签分类器（SVM，NB和k-NN）组成的BR方法取得了最好的结果。Shehab等人[27]进行了一项研究，重点是阿拉伯语新闻文章。三个多标签分类器被适配为处理MLC问题：随机森林（RF），DT和k = 5的k-NN（5-NN）。研究人员在收集的10，997篇新闻文章的数据集上进行了实验，这些文章被分类为多个标签，如经济，体育，世界，中东，科学技术和杂项。评价结果表明，DT分类器取得了更好的性能比RF和5-NN分类器。Hmeidi等人。[28]提出了一种基于词典的多标签阿拉伯语文本分类模型。他们从BBC新闻网站上收集了4720篇阿拉伯语文章，有35个标签。为了对多标签阿拉伯语数据集进行分类，他们在多标签问题中使用了每个标签的lexi-cons组合。标签预测是通过将存储在词典中的每个标签的术语与给定实例的术语向量进行匹配并根据术语频率对其进行分类来实现的。然后预测具有最大计数值的前五个标签。最后，进行了几个实验，结果表明，基于词典的模型的性能优于基于语料库的方法在多标签精度（ML精度）。Al-Salemi等人[1]进行了一项研究，旨在通过对PT方法中使用的最常见MLC算法（如BR、CC、LP）和成对比较校准排序（CRPC）[29]进行深入比较来研究 MLC问题。这些方法使用三个基本分类器（SVM，kNN和RF）进行训练。四个算法自适应技术也进行了评估。这些是：ML-kNN，RFBoost[30]，二进制相关性kNN（BRkNN）[31]和基于实例的多标签逻辑回归学习（IBLRML）[32]。这些算法使用RTA新闻数据集3进行评估，该数据集是一个多标签阿拉伯语数据集，包含分布在40个类别中的23，837篇阿拉伯语新闻进行了比较，以调查在MLC任务中引入的数据集（RTA新闻）的有效性。实验结果表明，RFBoost和LP与SVM的性能优于其他MLC算法。此外，算法自适应方法执行速度比其他PT算法，除了LP方法。Elnagar等人。[33]进行了一项研究，为单标签和多标签文本分类任务引入了两个新的阿拉伯语数据集。SANAD（单标签阿拉伯语新闻文章数据集）和NADiA（阿拉伯语多标签新闻文章数据集）。这两个数据集都是从新闻来源收集的，可以在Mendely上在线获得。4此外，他们对几种深度学习模型进行了广泛的比较，以调查引入的数据集在阿拉伯语文本分类任务上的有效性。结果表明，所有模型在SANAD数据集上都取得了良好的效果，CGRU（卷积门控递归单元）的准确率最低，为91.18%，而HANGRU（分层注意网络门控递归单元）的准确率最高，为96.94%。对于NADiA数据集，HANGRU的总体准确率最高，为88.68%。Zayed等人[34]构建了一个层次多标签分类模型来解决阿拉伯语中的HMC问题，该模型使用HOMER算法将收到的伊斯兰请求（Fatwa）分类为最合适的层次类别。他们使用默认分类器（BR）训练HOMER算法3https://data.mendeley.com/datasets/322pzsdxwy/1。4https：//doi.org/10.17632/57zpx667y9.1; https：//doi.org/10.17632/hhrb7phdyx.1。和NB分类器），并在收集的分层多标签阿拉伯语数据集上进行实验。预处理前的数据集包含大约100，000个带有830个标签的文本实例。它是用标准的预处理方法处理的，包括文本清理、停止词删除和词干提取。使用Light10词干分析器对单词进行词干分析，并使用BR和卡方特征选择方法选择特征。在处理数据集，删除空实例（没有特征或标签的实例），并删除少于20个实例的标签之后，数据集的最终版本包括约15，539个文本实例，这些实例被分配给310个组织为树形结构层次结构的多个标签。作者重点比较了HOMER分类器与平面BR-NB多标签分类器。研究结果表明，与BR-NB分类器相比，在Fatwa请求的分层分类中使用HOMER及其变体实现了更有效的预测性能，BR-NB分类器仅对每个标签进行独立分类。表1总结了使用机器学习将MLC方法应用于阿拉伯语文本的相关研究。它显示了每项研究中研究的MLC方法的类型。它还确定了每个研究的数据集大小和数据集源。先前研究报告的作者指出的主要挑战是，缺乏对阿拉伯文化背景下的MLC的研究，这些挑战是：缺乏大型和公开可用的多标签阿拉伯语数据集以及阿拉伯语的庞大词汇和复杂形态。值得注意的是，以前的大多数研究主要集中在平面MLC方法上，据我们所知，只有一项研究研究使用机器学习来处理阿拉伯语文本中的HMC问题。本研究[34]采用了HOMER算法及其默认分类器（BR和NB分类器）。该研究没有调查经验的影响，功能选择方法和功能集的尺寸模型。此外，该研究中使用的数据集尚未在线发布因此，在我们的工作中，我们专注于解决HMC问题的背景下，阿拉伯语提出的HMATC模型。我们使用不同的多标签分类器集、聚类算法和不同的聚类数目来优化HOMER算法的基本参数，以提高分层分类。我们进一步提供了一个洞察特征选择方法和特征集尺寸对所提出的模型的影响。此外，我们引入了一个层次化的多标签阿拉伯语数据集，以适当的格式进行分层分类，并使其在线提供给研究界。在[34]中提出的模型，被称为“法特瓦模型”，包括在本文进行的评价比较中，它被应用在同一领域。3. 层次多标签阿拉伯文本分类模型所提出的HMATC模型的总体架构如图1所示，图1说明了模型开发的各个阶段。该模型的主要目的是将阿拉伯文文本（Isla- mic Fatwa请求）自动分类为以适当的层次结构组织的多个标签。该模型通过利用训练数据中的标签相关性来考虑标签依赖性。该方法结合了预处理技术和特征选择方法，并采用不同的多标记分类器和聚类算法对HOMER算法的基本参数进行优化，以获得一个具有竞争力的阿拉伯语层次多标记分类模型。N. Aljedani等人埃及信息学杂志22（2021）225表228228使用机器学习将MLC方法应用于阿拉伯语文本的相关研究总结。参考年份MLC数据集大小数据集来源扁平HMCp[1]2019年p23，837从“今日俄罗斯”阿拉伯语新闻门户网站获得。Fig. 1. HMATC模型的体系结构。HMATC模型在本研究中使用分层多标签阿拉伯语数据集进行训练然后使用专用于多标签分类的评估指标对其进行评估。下面的小节描述了模型开发的主要阶段3.1. 数据集准备阶段由于本研究的目的是解决阿拉伯语中的HMC问题，因此在多标签阿拉伯语数据集上进行实验，其中标签被组织成树结构的层次结构。缺乏公开提供的多标签阿拉伯文数据集，特别是具有层次多标签的数据集。为此，本研究中使用的数据集是从Zayed等人[34]进行的研究中获取的原始分层多标签阿拉伯语数据集，该数据集应用于相同领域。该数据集是与伊斯兰领域相关的原始数据集，并以现代标准阿拉伯语（MSA）编写。它存储在三个主要的数据库表中。第一个是法特瓦表，其中包含约100，000个文本实例（伊斯兰法特瓦请求），如表2所示。第二个表是Categories表，其中包含830个与定义其层次结构的父ID相关联的标签，如表3所示。第三个表是Fatwa-Categories表，它包含一组实例Ides'和标签Ides'，并为每个实例定义了相关的标签。第三个数据库表用于将每个实例分配给其标签集，第二个表用于跟踪每个标签的父ID以定义标签的层次结构。本研究中面临的主要挑战之一是通过基于第三个上述数据库表（Fatwa-Categories表）为每个实例分配其自己的标签集来准备数据集，并确保标签具有用于分层分类的适当格式（它们满足分层约束）。在移除空实例（没有特征或标签的实例）并将每个文本实例分配给其分层多标签之后，数据集减少到26，484个文本实例，如表4所示。该表显示，例如，实例1用两组分层多标签标记。这些在父标签方面是相似的（一般类别，Jurispru-“恩，恩在叶（VES）标签（天课条件-）和（天课规则-）方面在标记过程之后，使用布尔词袋（{0，1}表示）基于它们的出现来识别分层多标记问题。为了满足分层约束，每当实例在特定节点上被标签标记时，该节点的所有父标签都由{1}表示，包括根节点，否则，它们由{0}表示。识别的标签总数为830，这是一个很大的数字，会增加计算成本。因此，通过移除数据集中很少使用的标签（例如，与两个实例或更少实例相关联的标签），使得当稀有标签是与文本实例相关的唯一标签时，我们删除与这些标签相关联的文本实例。在其他情况下，当有其他标签与文本实例相关联而不是这些罕见的标签时，我们保留文本实例。去除的稀有标记通常是叶子标记，留下578个用于实验的剩余标记。图2显示了伊斯兰教法特瓦请求数据集中标签的树结构层次结构的示例。3.2. 文本预处理阶段为了使用机器学习算法对任何文本文档进行分类，应该对原始文本进行预处理。预处理是阿拉伯语中的一项挑战性任务，但由于阿拉伯语的丰富性，其对所用模型的分类性能影响最大，阿拉伯语包含比其他语言更复杂的形态学[35在这个阶段，准备原始文本并将其转换为适合分类算法应用的表示[11]。向量空间模型是用于文档表示的最著名的方法根据这种方法，每个文本实例都由包含不同特征（单词）列表的向量x表示[39]。在本研究中应用词频-逆文档频率（tf-idf）加权方案[40，41]来识别模型的特征，从而使用术语权重的向量来表示每个实例在预处理阶段对本研究的数据集应用以下程序[42，43]：[三十四]2015[26]2015年p[五]《中国日报》2016年p[27日]2016年p15,539由埃及Dar al-Ifta提供。10,000摘自BBC新闻网站。10,000摘自[26]中进行的研究。10,997来自CNN阿拉伯语新闻网站。N. Aljedani等人埃及信息学杂志22（2021）225229表2来自伊斯兰教法令请求数据集的数据库表的法令请求（问题）示例，其中实例#表示实例的数量，ID表示数据库中此表的主键表3Islamic Fatwa请求数据集的类别（标签）数据库表示例，其中Label #表示标签数量，ID表示数据库中此表的主键。表4来自伊斯兰法特瓦请求数据集的文本实例示例，使用其分层多标签进行标记图二、在伊斯兰法特瓦请求数据集的标签中发现的层次结构的示例N. Aljedani等人埃及信息学杂志22（2021）225230代币化。也称为文本分割，标记化旨在将文本分割为一组特征，即标记，基于特定的标记，如逗号，空格，句号等，停用词删除。停用词去除的目的是去除不重要的词。停用词是文本中经常出现的词，不携带有用的这些包括介词、连词、代词等。词干。词干化的目的是将派生的特征词干化或返回到它们的根或词干。将语义相似的特征转换为它们的根形式减少了特征空间，降低了单词的形态方差，并提高了模型的分类性能[44，45]。在目前的研究中，研究人员对数据集进行了预处理，并通过删除数字，非阿拉伯字母，标点符号和特殊字符（$，%，@，）来清理原始文本实例。在文本清洁之后，应用上述三个步骤。首先，使用空格作为文本填充符来应用标记化。然后，准备一个停用词列表，并从所有实例中删除已识别的单词。其中包括介词（from，to，（一）、（二）、（三）、（四）、（五）、（六）、（七）、（），虽然停用词有重要意义在伊斯兰背景下，如斋月，期间，之前和之后被保留。此外，阿拉伯人名（如Khaled，Ahmed，Sara，Amal最后，使用Snowball词干提取器进行词干提取。Snowball是一种用于创建词干算法的小型文本处理语言，它支持包括阿拉伯语在内的多种语言。它旨在通过剥离常见前缀（例如，）和suf-修复（例如，）在预处理阶段之后剩余的特征数量为11 000个特征。在完成数据集准备、实施预处理阶段以及去除未标记实例和稀有标签之后，数据集的最终版本包含总共用578个分层多标签标记的26，470个文本实例表5将数据集呈现为向量空间模型，其中每个实例被表示为包含使用tf-idf加权方案表示的不同特征的列表的向量x数据集是不平衡的，这意味着与实例相关联的标签数量不是均匀分布的。一般来说，根节点和父节点中的高级标签通常与大量实例相关联，而叶节点中的低级标签与少量实例相关联。3.3. 特征选择阶段预处理阶段产生一组词干特征。然而，特征总数和不必要特征的数量仍然很高，这将影响分类，表5处理数据集的向量空间模型的示例。通过增加计算复杂度来提高性能。因此，需要一种额外的特征选择方法，通过选择最相关和最高等级特征的子集来减少特征数量使用这种方法有效地降低了数据集的维数，通过删除不相关或冗余的功能，而不降低分类性能。因此，它可以改善学习过程并降低计算复杂度[43]。然而，与单标签数据不同，单标签数据可以直接使用传统的特征排名方法（如卡方（v2）[46]，信息增益（IG）[47]，增益比（GR）和relieF（RF））根据其与标签的相关性对特征进行评分，然后选择最相关的特征，多标签数据中特征选择的标准方法，如Spolaor等人所示[48]，是基于应用PT分类器（例如，LP，BR，CC），将MLC问题转化为单标签问题，然后采用传统的特征排序方法进行特征选择。多标签文本分类最常见的方法之一-问题是使用BR方法来确定与每个标签相关的每个特征的区分能力，而不依赖于其余的标签。在此之后，计算的分数被聚合以获得[49]第在MLC上下文中，PT分类器和特征排序方法的每个组合被认为是单独的特征选择方法。因此，本研究使用PT分类器的缩写，然后是特征排序方法缩写，一个连字符符号表示多标签分类上下文中的特征选择方法。例如，LP-IG指的是分别由LP分类器和IG特征排序方法组成的独立特征选择方法。通过调查不同的特征选择方法集和检查不同的高级别特征集来检查特征选择阶段该阶段的详细信息见结果和讨论章节（见第5.1节和第5.3节）。3.4. 分类阶段本文研究了应用HOMER算法在一个域中的一个大的标签集，如伊斯兰背景。HOMER算法是一种有效的分层多标签分类器，使用分治方法[24]。它可以有效地处理具有大量标签的MLC问题，通过构造一个树形层次的简单MLC问题。首先，HOMER自动将大量标签组织成树形层次结构。这是通过应用一个集群算法，重复分区的标签集到一个数目的节点（集群）。然后，它采用多标签分类器（例如，BR），其中每个分类器可以处理少量的标签，而不是处理大的标签集。HOMER算法有三种变体，基于标签分发任务中应用的聚类算法。第一种变体是HOMER-K，其使用k均值聚类算法基于标签相似性将标签分配到k个聚类中，而对聚类的大小没有任何约束。这里的动机是研究均匀标签分布的好处●●●N. Aljedani等人埃及信息学杂志22（2021）225231M.ΣMX-1/4jfk：k2D;k\DÞ ¼/gjð Þ iiiiX-1/4X1234567899 10 11 12 13 1415 161718 191919MQ我我mi¼1jZijmi¼1jYij在集群之上。然而，[24]的作者提出了一种新的聚类算法，称为平衡k均值聚类算法，其中标签均匀分布到k个平衡聚类中。这定义了HOMER的第二个和默认变体HOMER-B，其中包括构造具有相等大小的簇第三种HOMER变体称为HOMER-R，均匀但随机地将标签聚类成k个聚类。HOMER-R的动机是研究在均匀标签分布之上图3示出了HOMER算法中的树层次结构，该树层次结构用于对具有九个标签的简单MLC问题进行分类（一般类别、法理学、礼拜、天课、斋戒、斋戒有效性、斋戒、天课条件、天课规则-）. 这些标签代表了伊斯兰教法特瓦请求数据集的分层多标签，如图2所示。每个内部节点包括其子节点的元标签l的并集，并且根节点包括树中所有节点的标签。对每个节点采用多标签分类器S来预测其子节点的元标签。HOMER算法的默认结构通过采用BR-NB多标签分类器和平衡k均值聚类算法来实现。其中缩写BR-NB是指使用NB基础分类器实现的BR多标记分类器。为了预测一个看不见的实例e的标签（假设在图3所示的示例中，根节点处的多标签分类器S1将转发实例e到多标签分类器S2，只有当l2在预测的S1分类器的标签。通过遵循递归过程，分层分类结局（见第5.2节和第5.4节）。3.5. 评估指标MLC模型使用MLC领域常用的评估指标进行评估[49]。提出了几种多标签评价指标，分为两种主要方法：基于示例（基于实例）和基于标签的指标[3]。第一种方法是对每个测试实例进行测量，然后对所有测试实例进行平均。而第二种方法是对每个标签进行测量，然后对所有标签进行平均。3.5.1. 基于示例的度量下面描述了用于评估MLC模型的最常见的基于示例的度量假设：m表示测试数据集中的实例总数，i表示实例在的测试数据集（Where1 6i6m），L1/4kj：j1/4. q是标签的集合，其中q是标签的总数，Zi和Yi分别指预测的和实际的标签。汉明损失。它计算在实例-标签对中发现的错误的平均数，对所有实例取平均值，如图所示由方程式（一）. 其中因子1用于获得归一化的阿克什[0，1]和M中的值定义了预测标签和实际标签之间的对称差异。汉明损耗1X1jZMYj1/1预测将是恰好高于对应叶（VES）节点的所有预测标签的联合。关于实例e，这个实例的预测标签将是一般类别，管辖权，崇拜，天课，天课条件，天课规则. 这意味当实例E被分配给特定节点处的标签时（例如，天课的条件，天课的规则），则应满足层次约束并且因此应该被分配给包括根节点的这些节点的所有父标签（例如，一般类别，法理学，崇拜，天课如果没有标签，指令，该算法将返回一个空的标签集等级损失。它采用标签的层次结构考虑到[21]。它遵循自上而下的方法来检查基于现有标签层次结构的预测标签因此，每当标签被预测错误时，在损失计算中不考虑以该节点为[49]如图所示（二）、其中anc（k）是指标签k的所有祖先节点（子树）。H损失1Y Z和Y Z2mi¼1ML-准确度。它被称为多标签准确性或Jaccard指数.它计算正确预测的标签与标签总数的比率，如等式2所示。（三）、MTsoumakas等人。[24]通过采用BR-NB多标签分类器评估HOMER算法及其变体。结果ML精度1jZi\Yijmi<$1j子[义jð3Þ结果表明，基于相似性分布的HOMER算法采用BR-NB分类器，降低了计算复杂度，提高了预测性能。基于相似性的分布的好处是它使属于每个节点的标签尽可能相似。这意味着只有相关的元标签被预测，而子树的其余部分在测试阶段被停用，这降低了总的计算成本。均匀标签分布的另一个优点是，它通过尝试将标签分布到一组平衡的簇中来避免类不平衡问题;因此，每个多标签分类器处理更均衡的分布子集精度。它也被称为精确匹配率或分类-精确度[50]。这是一个非常严格的度量，用于测量与其对应的实际标签集精确匹配的预测标签的比率，如等式（1）所示。（4）、其中I（true）= 1，I（false）= 0。M子集精度I子仪4mi¼1精度这个指标给了我们正确分类的标签的比率如等式中所示的预测标签的验证。（五）、M在每个节点上都有积极的实例精密度<$1 XjZi\Yijð5ÞHMATC模型的主要贡献之一是HOMER算法的基本参数（多标记分类器、聚类算法和记得了该度量的计算如等式（1）所示。（6）计算正确预测的标签与实际标签的比率。M聚类）使用不同的多标签分类器集合，并且聚类-ing算法以及不同数量的集群，以提高调用¼1XjZi\Yijð6Þ●●●●●●N. Aljedani等人埃及信息学杂志22（2021）225232MX-1/4XQ.XQQQQBmacro¼XB宏tp;fp;tni;fn宏8个图3. MLC问题的分类任务示例，使用HOMER算法对所用数据集进行九个标签● F测量。它表示精度之间的调和平均值卡盘1XjYj10我回忆。它的计算如Eq.（七）、Mmi¼1F测度1 2jZi\Yijmi<$1jZi j jYi jð7Þ将标签基数除以标签的数量（q）获得标签基数的归一化版本，称为密度[49]，并且它的计算方法如等式所示。（十一）、本节中描述的所有基于示例的指标都表明1mjYij具有最高值的度量具有更好的性能，除了汉明损失和H损失度量之外，这些度量的值越小，则表示性能越好。3.5.2. 基于标签的指标齿数1/4米1/14.2. 方法q11二进制评估度量（例如，查全率、查准率和F-measure）可以基于两种计算平均值的方法（宏观平均方法或微观平均方法）针对所有标签来计算这些指标被广泛用于测量召回率，精度和F-测量的令B（tp，tn，fp，fn）为基于真阳性（tp）、真阴性（tn）、假阳性（fp）和假阴性（fn）的数量计算的标签i的二进制评估度量。B（tp，tn，fp，fn）的宏观平均和微观平均度量的表达式在等式（1）中示出（8）Eq. （9）分别。1我我我1/1本研究的主要目的是将预处理技术、特征选择方法和HOMER算法相结合，以获得一个具有竞争力的阿拉伯语HMC模型。因此，进行了几个实验，其主要集中于研究特征选择方法和所选特征集的维度对模型的分类性能的影响。此外，HOMER参数（多标签分类器，聚类算法和聚类数）对模型性能的影响也进行了检查。最后，在使用在每个阶段获得最佳性能的方法构建HMATC模型之后，然后将其与其他四个模型进行比较，其中两个模型是基线模型和其他两个是最先进的模型QB微¼B1/1tpi; Xi¼1fpi; Xi¼1tni; Xi¼1fni！ð9Þ- BR、LP、CC和Fatwa模型[34]。这些实验的结果在第5节中进行了说明和讨论。4.3. 实验环境4. 实验装置以下小节描述了本研究中使用的数据集统计、4.1. 数据集统计数据最终版本的数据集大小为26，470个标记文本实例，其中包括11，000个特征。标签总数为578个，标签组总数为6107个。标签集是与每个实例关联的活动标签集，在向量空间模型中由{1}表示。多标签数据的其他基本度量是标签基数（Card）和密度（Dens）。标签基数表示每个实例的标签集（活动标签）的平均数量，并且它的计算方法如等式2所示（十）、其中i是数据集中的任何实例在与大量标签相关联的大型数据集上进行了不同的实验。因此，实验需要大的存储器和更大的计算资源。因此，所有实验都是使用“Aziz”高性能计算中心（HPCC）进行的。5Aziz支持并行处理，由496个计算节点组成有4个登录服务器除了几个服务器，提供不同的系统- tem服务.计算节点根据这些计算节点的物理特性所有节点运行Unix操作系统（CentOS 6.4）。实验是在“Fat Queue”上进行的，它包含112个这些是并行化实验的重要特性，并降低了评估过程的总计算成本。5倍交叉验证集用于评估（16i6m），q和Y是指标签和标签集的数量，（49）。5https://www.hpcc-kau.com/aziz-super-computer。N. Aljedani等人埃及信息学杂志22（2021）225233模型的预测性能。所有MLC方法都是使用MULAN多标签学习工具[51]实现的，这是一个支持多标签学习的开源Java库。该数据集以ARFF文件格式编制，并附有与MULAN工具兼容的XML文件由于本研究的目的是解决缺乏可用的多标签阿拉伯语数据集的问题，因此实验中使用的数据集的处理版本已在线公开它由分布在578个分层多标签上的26，470个文本实例组成。它还包含不同的高排名特征集（1000，.. . ，8000）以及定义标签分层结构的XML文件5. 结果和讨论根据第3.5节中描述的专用于多标签学习的四个基于示例的度量（汉明损失、H损失、ML准确度、子集准确度）和三个基于标签的度量（微平均召回率、微平均精确度、微平均F测量）来评估所有进行的实验。根据使用的七个指标对评估方法进行排名，并计算平均排名[52]以比较方法的有效性，其中获得最佳结果的方法排名为1。进行了几个实验，从不同的角度探索模型5.1. 特征选择方法第一个实验研究了特征选择方法对模型预测性能的影响。应用了第3.3节中先前描述的标准多标签特征选择方法。两种最常见的PT方法-LP和BR -与四种特征排序方法（v2、GR、RF、IG）一起使用;因此，评价的方法为：BR-v2、BR-GR、BR- IG、BR-RF、LP-v2、LP-GR、LP-IG和LP-RF。每种特征选择方法用于从特征总数（11，000）中选择一个高级别特征子集。因此，使用通过每种特征选择方法选择的2000个特征来评估分类模型。此外，HOMER使用其默认的多标签分类器（BR-NB）和具有四个聚类的平衡k均值算法表6列出了所有评价的特征选择方法的结果。它还报告了每个方法在所有评估指标中的平均排名。如表所示，BR-v2方法获得了汉明损失、H损失、ML准确度、微平均精确度、微平均召回率和微平均F测量的最佳结果。同时，BR-GR在子集准确性方面表现更好（0.0394）。就平均排名而言，BR-v2表现最好，其次是BR-IG（分别为1.29和2.29）。这表明，使用BR方法，它将MLC问题转化为几个单标签的问题，以确定每个标签的区别性特征，独立于其他标签，比LP方法，它将MLC问题转化为一个多类分类问题，获得更好的结果。以下是顶部十高级特征超过所有标签（离婚，血钱，份额，继承人，杀人，离婚，祈祷，per-missible，taraweeh）。6https://data.mendeley.com/datasets/rxhpvwwmbz/1。5.2. 多标签分类器第二个实验试图通过研究不同的多标签分类器集合来优化HOMER算法，以检查它们对模型的预测性能的影响。采用三种PT方法作为多标记分类器，因为它们是PT技术中最广泛使用的方法。它们是：BR、CC和LP分类器。PT方法与三个基本分类器（NB，SVM和J48）。因此，用每个不同的多标记分类器组（BR-NB、BR-J 48、BR-SVM、CC-NB、CC-J 48、CC-SVM、LP-NB、LP-J 48和LP-SVM）运行HOMER。实验使用BR-v2特征选择方法进行，因为它在第一次实验中获得了最好的结果。我是说。它被用来选择2000高排名的功能。HOMER算法采用四类平衡k均值聚类算法实现.所有评价的多标记分类器的结果见表7。如表所示，当使用LP-SVM多标签分类器在所有评估度量上运行HOMER时获得最佳结果，平均等级为1，其次是BR-SVM和CC-SVM，其分别实现平均等级2和3。据观察，与PT方法（LP，CC，BR）一起使用的SVM基础分类器比其他基础分类器（NB和J48）实现了更好的预测性能。这表明SVM是一种更有效的分类算法，可以提高分类性能[24]。5.3. 功能集尺寸第三个实验是使用特征选择方法和多标签分类器进行的，在前两个实验中得到了最好使用LP-SVM多标签分类器和具有

下载后可阅读完整内容，剩余1页未读，立即下载