改进的随机森林文本分类算法-机器学习特征排序与决策树优化

131 浏览量更新于2024-01-27 收藏 832KB PDF 举报

机器学习模型

特征约简

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于特征排序和最优树Nasir Jalala，Arif Mehmooda，Gyu Sang Choib，Mr. Shan，Imran Ashrafb，a巴基斯坦巴哈瓦尔布尔伊斯兰大学计算机科学与信息技术系，巴哈瓦尔布尔63100b信息和通信工程，岭南大学，庆山38541，大韩民国阿提奇莱因福奥文章历史记录：收到2021年2022年3月10日修订2022年3月10日接受2022年3月31日在线提供保留字：改进的随机森林文本分类特征排序决策树优化机器学习特征约简A B S T R A C T在过去的几年中，基于机器学习的模型，如随机森林（RF），已被广泛部署在不同的领域，如图像处理，医疗保健和文本处理等。RF是一种处理不平衡数据的突出技术，由于其并行架构，其性能明显优于其他机器学习模型。本文提出了一种改进的随机森林文本分类算法，称为改进的随机森林文本分类算法（IRFTC），该算法同时结合了Bootstrap和随机子空间方法。IRFTC删除不重要的（不太重要的）功能，在每次迭代时在森林中添加一些树，并监视RF的分类性能。分类精度是相对于定义IRFTC的最佳树数的树的数量来确定的。使用树中的分裂质量来确定特征排名。建议的IRFTC应用在四个不同的基准数据集，二进制和多类，以验证其性能在这项研究中。结果表明，IRFTC优于传统的RF，以及其他机器学习模型，如逻辑回归，支持向量机，朴素贝叶斯和决策树。©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY许可下的文章（http://creativecommons.org/licenses/by/4.0/）。1. 介绍在过去的十年中，由于在线生成的数据的规模不断增加，文本分类已经获得了足够的兴趣。通过社交媒体和其他平台上的PB级数据，这些数据的分类和分析可以提供有关公共利益、意见和趋势的丰富信息。由于文本准确性、高维度、不平衡分布等，文本分类有可能对数据产生有价值的见解，因此提出了若干挑战（Xu等人，2012年）。作为响应，大量的文本分类模型，例如逻辑回归（LR）（Hosmer等人，2013年）、支持向量机（SVM）（Noble，2006年）、朴素贝叶斯（NB）（Murphy，2006年）及其扩展变体，如集成模型（Mehmood等人，2017; Khalid等人，2020; Umer等人， 2021年）。随机森林（RF）是广泛用于回归和分类任务的最佳分类器之一。算法的简单性使其成为文本分类的一个有吸引力的选择。此外，其处理高维数据的能力和在不平衡数据集下的高性能是优于其他机器学习模型的显著优势（Luo等人，2015; Paul and Mukherjee，2015;*通讯作者。https://doi.org/10.1016/j.jksuci.2022.03.012Khoshgoftaar等人，2007; Liu等人，2008年; Dietterich，2000年）。基于“群众的智慧”，RF利用大量的决策树进行决策。为了做出最终决策，它使用决策树输出的平均值或均值，从而提供比决策树更准确的结果。除了文本分类之外，目前，RF广泛用于许多领域，包括图像处理、医疗保健部门的数据分析、农业部门、犯罪检测等（Ashraf等人，2018年;Criminisi和Shotton，2013年）。RF用于处理非线性分类任务。与传统的 RF 一起，还提出了几种变体（ Quadrianto 和Ghahramani，2014），这些变体随着树的数量的增加而增强其分类性能（Breiman，2001）。然而，实验表明，在添加超过某些限制的树的情况下，性能不能进一步提高（Oshiro等人，2012年）。在这方面，研究（Latinne等人，2001; Cuzzocrea等人，2013年）致力于寻找最佳树，以实现RF的最佳性能。提出了一种改进的随机森林算法，该算法同时增加了特征选择方法和最优树数。IRF从少量的树开始，并找到各种各样的特征。然后在每个阶段，选择重要的特征，并使用特征丢弃不重要的特征1319-1578/©2022作者。由Elsevier B.V.代表沙特国王大学出版。这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comN. Jalal，A. Mehmood，Gyu Sang Choi等.沙特国王大学学报2734重要性标准。此外，IRF将特征分布在不同的类别中，例如重要和不重要的特征。根据这些特征，可以估计出各阶段森林中所需增加的树木数量的上限IRF在图像处理应用中改进随机森林的工作可以在Paulet al.（2018）中找到。这项研究作出了以下主要贡献。这项研究扩展了Paul et al.（2018）在文本分类中的应用，并将其命名为改进的随机森林文本分类（IRFTC）。在所提出的IRFTC中，树的数量不像以前的方法是预定义的IRFTC对于许多类型的工业应用来说是快速和有用的与传统的RF相反，建议IRFTC遵循一个迭代的过程，关于特征约简。在每次迭代中，最不重要的特征被自动删除。IRFTC使用最佳数量的树，而传统的RF推断，增加树的数量自动增加的准确性，这是不是很实用。IRFTC通过考虑两个因素提高了性能：特征和树的最优性。它删除了不重要的（不太重要的）功能，增加了一些树在森林中，每次迭代，并监测分类性能的RF。实验结果表明，增加树的数量满足上界，以及，提高分类精度。因此，建议的IRFTC提供最佳的分类精度方面，除了树木和减少的功能。本文其余部分的结构如下。第二部分讨论了与本研究相关的几个重要研究工作。第3节描述了拟议的IRFTC模型及其相关机制第4节对结果进行了讨论，最后，第5节给出了结论。2. 相关工作鉴于互联网上产生的大量数据，文本分类已成为一个重要的研究领域。RF显示出更好的文本分类性能（Xu等人，2012; Paul等人，2018年）。它可以处理与文本相关的挑战，例如噪声、稀疏性、数据不平衡等（Chaudhary等人，2016; Jacob，2015）。因此，已经提出了对RF的几种修改和扩展（ Paing 和 Choomchuay ， 2018; Kalaiselvi 和Thangamani，2020）。例如，Paul等人（2018）提出了一种从不同类型的历史图像中检测有丝分裂的方法。此外，它可以进行癌症的组织病理学分级，有助于制定个人治疗计划。有丝分裂计算在使用分级系统的乳腺癌分级中起重要作用。传统上，这种分级是由病理学家使用手动检查每个患者的数千张图像来执行的。因此，自动寻找有丝分裂像是一项重要而又具有挑战性的任务。研究结果表明，RF可将分叶细胞分为有丝分裂和无丝分裂两类。仿真结果表明，使用所提出的RF分类器可以获得12%的F1分数的改善。类似地，Quadrianto和Ghahramani（2014）提出了一种新的方法来生成RF，该方法在分布之前对许多树进行随机采样，并结合预测概率。所提出的方法甚至在查看数据之前执行决策树的采样。因此，每个树使用贝叶斯方法进行预测，以使贝叶斯RF具有安全性。结果表明，该方法在精度和速度方面都有很好的效果。研究Nugroho等人（2019）使用RF来检测仇恨言论和攻击性词语，并将其性能与AdaBoost和神经网络（NN）进行比较。实验结果表明，与Ada-Boost和NN相比，RF具有更好的分类精度.特征选择是RF用于改善其性能的基本部分，并且（Kou等人，2020）研究了使用多准则决策（MCDM）方法的特征选择方法，因为单个度量不足以评估特征。基于性能、稳定性和效率对特征选择进行评估。为了解决特征冲突问题，本文利用MCDM方法解决了特征冲突问题，实验结果表明，在特征选择的评价中，需要多个评价标准。为了克服特征选择的过程和树的最佳数量，（Paul等人，2018）介绍了IRF，它同时实现了特征约简和树的添加。IRF算法提供了最佳的分类精度方面的条款和特征约简。这项研究没有计算森林中树木的数量。它在袋外估计的帮助下找到特征的局部和全局权重。在计算权重之后，IRF基于全局权重找到重要和不重要的特征。结果表明，IRF去除了不重要的特征，以及，动态地控制森林的大小，并动态地给出最佳性能。沿着同样的思路，Feng et al.（2020）提出了基于特征选择的RF（FSRF）来改进随机森林的文本分类。为了避免RF由于决策树数目固定而导致的过拟合问题，FSRF使用特征选择来获得最佳性能。FSRF使用三种特征选择方法，即过滤器方法、嵌入式方法和包装器方法来选择特征。仅考虑那些增加分类性能的特征以生成特征子集。同时引入稀疏矩阵投影对随机森林的生成过程进行了改进。实验结果表明，FSRF降低了模型的复杂度，避免了过拟合，提高了分类精度。该研究使用改进的RF对大数据进行分类（Lakshmanaprabu等人，2019年）的报告。为了选择最佳特征，使用改进的搜索算法（IDA）算法。使用MapReduce框架执行大小缩减。实验结果表明，该方法在准确率、查准率和查全率等方面都优于传统方法。类似地，使用具有TFIDF特征的RF和NB来研究新闻文本分类（Parida等人，2021年）。实验结果证明了RF在新闻分类中的优越性Xuet al.（2012）提出了一种改进的用于文本分类的RF分类器。虽然，它也使用随机子空间方法和树优化，但相关性是在特征值和不同的标签值之间进行的。另一方面，目前的研究发现了树对之间的相关性，并假设森林中异质的树木具有更好的准确性。此外，Xu等人（2012）中的树选择是有偏见的，因为它将前70%的树与改进的RF中的高袋外准确度相结合。3. 材料和方法IRFTC模型的提出受到Paul等人的启发。（2018）应用RF分割图像。所提出的模型IRFTC是一个迭代过程。在每次迭代中，最不重要的特征将自动删除。该模型包括预处理、特征排序、区分重要特征和不重要特征以及寻找最佳树数。这些模块将在以下各节中单独讨论。●●●●●●N. Jalal，A. Mehmood，Gyu Sang Choi等.沙特国王大学学报2735¼-我不知ﬃﬃﬃﬃﬃ3.1. 预处理IRFTC的预处理包括三个步骤。首先，它将数据集作为一个文本文件，如表1所示。其次，对数据集进行预处理，包括标记化、大小写转换、标点符号删除、数字删除、停用词删除和词干提取。执行这些步骤是为了删除不必要的单词和同义词，这些单词和同义词对学习过程没有贡献。预处理后的数据用于模型训练的特征提取本研究使用词频-逆文档频率（TFIDF）作为特征提取方法。为了显示预处理的影响，在预处理之前和之后使用来自原始数据的两个样本进行TFIDF提取。分为两组：重要和不重要的特征。该过程从随机森林中的树的基数开始。对于每次迭代，随机森林都会更新新的重要和不重要的特征。以下五个核心步骤涉及我们的IRFTC算法。首先，我们为每个特征分配权重。其次，基于阈值分离重要特征和不重要特征。第三步，对特征进行排序，然后在第四步中找到最大数量的树。最后，森林收敛，并从IRFTC中获得最优结果。对于每次迭代，应用相同的策略，并重复在森林中添加树的过程，直到实现最佳分类。IRFTC的总体机制如图所示。1 .一、ing. TFIDF使用以下TF和IDF公式计算我不是TF¼di1其中ti是唯一项，而di示出文档d中的项的数量。算法1：IRFTC算法。1：初始化随机森林Uo、随机树To和特征向量Fo2：使用H查找全局权重，并使用（4）对它们进行排名3：对特征进行排序，并在BI中放置最高I/O权重IDF¼ LogDð2Þ4：Uo Fo IoputUo in BU5：初始化n = 06：当Un>f时，最后，将TF-IDF特征向量乘以TF和IDF如下TFIDF<$TF×IDF1000这个例子中使用的文本是，最初，TF是为两个样本文本计算的，如表2所示。类似地，表3中给出了示例文本的计算出的IDF。最后将TF和IDF相乘得到TFIDF特征。表4示出了在没有预处理步骤的情况下提取的TFIDF，而预处理后的结果在表5中给出。3.2. IRFTC算法我们引入IRFTC来寻找最佳的树数，并减少强度饱和的特征。因此，增加森林中树木的数量旨在进一步增加相关性，而不是准确性。为方便起见，表6描述了本文中使用的特征约简和树的数目增加是同时进行的。IRFTC从重要和不重要的特征包中选择森林的特征，这减少了忽略重要特征的机会。IRFTC中的每个决策树都是使用自助样本构建的。设F是自举样本中的特征数，则选择f个特征用于构造决策树，其中fF。<对于每个节点分裂，从F中选择特征的子集f。从K组特征中只选择一个特征用于节点分裂。在IRFTC中，树是递归添加的。研究Paul等人（2018）观察到，并非所有特征都具有相同的权重，因此特征表1从数据集中采样原始文本。文本类不，我7：根据BUn计算ln和rn8：从BUn计算Rn9：从BUn，找到Hj，其中Hj>minBIn10：Fn=1/4Fn-Rn11：BIn1BnAn，BUn1BUn-Rn-An12：In1<$BIn1Un1<$BUn1DI<$In1-InDU<$Un1-Un13、从Eq （26）DT，Tn1TnDT14：增长/n1，树和特征向量的数量为Tn +115：找到H并对Fn中的所有特征进行16：n的增量第17章：结束IRFTC的步骤顺序见算法1。我们用初始随机森林/0移动，它有To棵树。Fo是特征向量的初始集合功能排名后我们将最高I/O特征标记为重要特征。在这个阶段，我们有两袋特色的BO和BO 。在B o中，我们把重要的特征放在B 0 o中，而其余的特征（不重要的特征）放在B0o中。设lo和ro为B 0 o中存在的权重的平均值和标准差，然后从B0o中计算lo-2ro，并删除所有全局权重小于lo-2ro的此类特征并放入新的BagRo 中。在从B0o中移除特征之后，我们更新我们的特征向量，即F11/4Fo-Ro。在更新特征向量之后，我们观察U和I的变化。根据DU，DI;PU;PI和l，我们计算DT更新我们的森林U1更新特征向量和森林的过程由n个步骤/迭代组成。最后一步将是Fn <$1 <$$> Fn-Rn，类似地，我们的最终森林Un随着Tn<$DT增长树的数量和Fn 1特征向量。特征的过程排序、树的最佳数目和迭代的集合在以下部分中给出。3.3. 用于文本分类的我马上就回家了今晚我不想再谈这些了，好吗？我紧急！您赢得了我们的100，000美元大奖的1周免费会员资格！Txt这个词：要求不。81010 T C WIN！WINNER！！作为一个有价值的网络客户，您已被选中获得900美元的奖品奖励！如需索赔请致电090617014。火腿肉设F为所有特征，f为所选特征的集合特征排序是在树（T）的每个节点（j）上的分裂质量矩阵、特征（H）的权重和袋误差估计（e）。整个排名过程描述在图二、N. Jalal，A. Mehmood，Gyu Sang Choi等.沙特国王大学学报2736XX1-X2Xð ÞHT6表2未处理示例文本的词频车呼叫信用B免费到2.50磅对我信看到得到的我0.1250.0000.0000.1250.0000.0000.0000.0000.1250.1250.1250.1250.0000.1250.1250.0000.1430.1430.0000.1430.1430.1430.1430.0000.0000.0000.0000.1430.0000.000表3反转未处理示例文本的文档频率车呼叫信用B免费到2.50磅对我信看到得到的我0.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.3010.301表4TFIDF从未经预处理的原始文本。车呼叫信用B免费到2.50磅对我信看到得到的我0.0380.0000.0000.0380.0000.0000.0000.0000.0380.0380.0380.0380.0000.0380.0380.0000.0430.0430.0000.0430.0430.0430.0430.0000.0000.0000.0000.0430.0000.000表5从预处理后的原始文本中提取TFIDF。呼叫磅信免费看到车信用得到0.0000.0000.0380.0000.0380.0380.0000.0000.0430.0430.0000.0430.0000.0000.0430.043假设我们在决策树的开发过程中有一个初始特征向量为F的数据集。在决策树中，我们使用基于熵的节点分裂。我们表示决策树的节点jT.在节点K处的类标签l的概率表示为Pl。我们将该节点j的熵定义为：为了分割节点j，我们从初始特征向量FO中选择f个特征而不进行替换。设节点j被特征j分割，左、右节点的熵分别记为El和Er，则定义了节点j被特征j分割的质量KE P l log1普什尔ð4ÞQSj;jHT1ð5Þ表6符号及其说明。符号描述QS分割质量树中的单个节点树中的T单树T森林中的所有树木H树的重量e包装袋外错误一、重要特征U不重要特征BI重要功能不重要功能的BUl-2r阈值P良好分割我们选择提供分裂QS的最高质量的特征j。现在我们计算树T的特征j的局部权重。当量（五）H T的最高值表示树T中特征j的分割质量更好，但是我们必须使用袋外误差来计算所有树的权重。设eT是树T的袋外误差，现在代表out计算树T的袋误差归一化权我们试图通过计算树的归一化权重来减少袋外误差1=eT¼MAXT1=eT分类误差和HT之间的关系是相反的，因为HT的高值指示树j的低分类误差，使用等式（5）和（6）我们发现特征j的全局权重为XHTjHTQ不好分割F数据集中的所有要素初始特征向量第n次迭代后的HujiangT7MAXj HT j HT不f功能示例k特征集（重要和不重要）森林的Cf/森林Sf森林强度森林分类的精度H j的高值指示特征j的重要性。使用特征j的全局权重，我们对所有有助于区分重要和不重要特征的特征进行我们开发了一种最先进的策略来区分重要和不重要的特征。从排行榜上的KÞN. Jalal，A. Mehmood，Gyu Sang Choi等.沙特国王大学学报2737--ð Þ1/4-@我@UFig. 1. IRFTC中遵循的操作顺序特征，我们选择顶部I特征作为重要特征，其余特征作为不重要特征。在区分了重要性和不重要性之后，我们将重要特征BI和不重要特征在BU的功能。我们固定一个阈值l 2 r，其中l和r是BU的平均值和标准差。从BU中，权重小于l2 r的特征将从BU中移除并放入R中，其中BU在每次迭代时更新。我们删除R中存在的特性。如果一个不重要的特征的全局权值Hj大于重要特征的最小权值，那么我们将这些特征放入重要特征的袋子中，进一步减少了忽略重要特征的情况。Hj>jMINHj08现在，我们通过在BI中添加一个新特性并从BU中删除一个特性来更新重要和不重要的特性。在每次施工过程中，我们都会更新袋子，以便观察BU和BI的变化。DUui1-ui9DI¼BIi1-BIi10使用U;I;DU和DI，我们可以找到IRFTC中将添加多少棵树。而强度和相关性取决于良好分裂的概率，如图所示。3.第三章。3.4.1. 劈得好如果节点被重要特征分割，则存在良好分割的可能性。如果在一组特征中至少存在一个重要特征，我们可以从中随机选择特征进行节点分割，则会发生良好的分割。如前所述，RF的性能（分类精度）取决于树的强度和相关性，而强度和相关性取决于良好分裂的概率。设P是树中节点分裂时至少存在一个重要特征的概率，q-gp 1p是所有节点中没有一个重要特征完成分裂的概率. 一个分裂是说是好的，如果分裂是由一个重要的功能. 如果P是在单个节点（j）处良好分裂的概率，则PK是树T中所有节点K的良好分裂概率。一个好的分割会在树中创建一个同构的子节点现在，我们求出特征集中存在至少一个重要特征的概率p，其中q是特征集中不存在重要特征的概率，即q/1 -p. U3.4. 寻找最佳的树为了找到森林中的最佳树数，假设树中的平均节点数保持不变，q<$1-p<$4F. 乌丸11Þ如果我们增加森林中树木的数量，情况也是如此。我们想以提高随机森林的分类精度。正如Paul等人（2018）指出的那样，分类精度取决于多个因素，包括树的强度和相关性如果Uf，则意味着至少有一个重要特征始终<存在于一组特征中，因此必须选择一个重要特征。所以当uf时，我们有p<$1和q<$0。<设我们的森林由T棵树组成，记为PI^@p和PU^@p。FN. Jalal，A. Mehmood，Gyu Sang Choi等.沙特国王大学学报2738@我@U@U¼I¼ -U图二. IRFTC中用于特征排序的模块在取Eq.的偏导数之后，11，我们得到PI¼-@q，P U¼-@q。我们求出-@q的近似值通过把部分q对I和U的导数，DQPI¼-IDIT;u=12mmPI！你好！F别-别！你好！ð13ÞDQPU¼-DUT;I14PU-1！你好！如果我操！你好！ðI þ UÞð15Þ从Eqs。在图11和15中，我们看到PI>0和PU0。<现在，借助P，我们计算强度和相关性。在计算强度和相关性之前，我们先计算每棵树的平均节点数根据Paul et al. （2018），每棵树的平均节点数与森林中的树数无关。图三. 增加树木数量的标准N. Jalal，A. Mehmood，Gyu Sang Choi等.沙特国王大学学报27393.4.2. 强度森林的强度被定义为单个树的最小精度（Oshiro等人， 2012年）。设Navg是每棵树的平均节点数由于在单个节点处良好分裂的计算概率为p，对于N为vg数，N. Jalal，A. Mehmood，Gyu Sang Choi等.沙特国王大学学报2740NaVTgUðÞDIDuÞ ÞDU1-qDUqT1-q=-¼daff-f节点的良好分裂概率为P。分类精度与PNavg成正比。由于我们的森林由T棵树组成，我们使用二项分布来计算森林的强度。森林的强度是森林中所有节点的概率，其中至少一棵树具有良好的分裂，如等式2所示。十六岁dA必须为正以提高分类精度。因此，对PI>0，PU0，l>0和DU0的分类方法进行了改进.<0，22、我们有Sf¼1- 1-P16在计算了森林的强度之后，我们发现了树与树之间的距离.jUDTjjqPIDIPUDUjjDTjjq<<要找到DT，就得找到PIPIDIPU。根据Paul et al.3.4.3. 相关性如前所述，树中的节点应该是同质的，而森林中的树应该尽可能是异质如果我们的森林由T棵树组成，则森林中存在T=2对树设T1和T2分别是由两个不同的特征集k1和k2建立的一对树我们可以找到可能的-其中至少一个特征是来自K1和K2组功能.（2018），据观察，增加更多的树木在森林中肯定增加了分类精度，因此基于上述论证，我们采用n次迭代集合以获得最佳结果。3.5. 迭代的包围我们的重要目标是减少U，U

下载后可阅读完整内容，剩余1页未读，立即下载