基于频繁项集的特征选择和文档聚类的RiderMoth搜索算法研究-沙特国王大学学报

178 浏览量更新于2024-01-18 收藏 2.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于频繁项集的特征选择和Rider Moth搜索算法的文档聚类Madhulika Yarlagaddaa，b， P.Gangadhara Raoc，A.斯里克里希纳ba印度安得拉邦Kakinada JNTUK计算机科学与工程系b印度安得拉邦Guntur（Dt）Chowdavaram RVRJC工程学院信息技术系c印度安得拉邦贡图尔Acharya Nagarjuna大学计算机科学与工程系阿提奇莱因福奥文章历史记录：收到2019年2019年8月10日修订2019年9月4日接受在线发售2019年保留字：文档聚类蛾类搜索算法Rider频繁项集停止词去除A B S T R A C T近年来，文档聚类在海量文档的检索、导航和摘要等方面受到了广泛的关注。通过更好的文档聚类方法，计算机可以自动将文档语料库组织成有意义的簇，以实现语料库的高效导航和浏览。文档导航和浏览是对信息检索技术不足的一种有价值的补充。本文介绍了基于Modsup的频繁项集和基于Rider优化的飞蛾搜索算法（Rn-MSA）对文档进行聚类。首先对输入文档进行预处理，然后基于TF-IDF和Wordnet特征进行抽取。提取完成后，基于频繁项集进行特征选择，建立特征知识。最后，本文将Rider优化算法（ROA）与飞蛾搜索算法（MSA）相结合，提出了Rn-MSA算法，并利用该算法对文档进行聚类。基于建议Modsup + Rn-MSA的文档聚类的性能进行评估的精度，召回率，F-测量，和准确性。本文提出的文档聚类方法的最大准确率为95.90%，最大召回率为96.41%，最大F-Measure为96.41%，最大准确率为95.12%，显示了其优越性。©2019作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍万维网（WWW）的迅速增长增加了可在线查阅的文件数量。无法计算网络上可用文件的数量。常见的文本文档有研究文章、技术报告、报纸、期刊论文、博客等。在线提供的文件及其类别是独立的，数量众多，庞大的，并且更有价值和有用（ Farahat 和Mohamed，2011; Manning等人，2009; Zhang等人，2006年）。通过使用网络搜索引擎，个人可以很容易地找到和浏览文档。由于WWW的发展，*通讯作者：印度安得拉邦Kakinada JNTUK计算机科学与工程系。电子邮件地址：madhulika. gmail.com（M. Yarlagadda）。沙特国王大学负责同行审查制作和主办：Elsevierweb查询处理的复杂性已经增加，并且从大型文本存储库中定位相关文档已经成为web搜索引擎的设计者和互联网用户的挑战（Forsati，2013;Pera和Ng，2010）。当通过WWW搜索文档时，搜索引擎提供多个文档。在这里，大多数文件都适用于该主题，有些文件由质量有限的不相关文件组成。聚类在将从搜索引擎返回的大量文档组织成集群方面起着非常重要的作用（Jensi和Wiselin Jiji，2013）。文档聚类是搜索引擎中用于查找相似文档的技术之一（Pamba等人，2019年; Gharib和Fouad，2012年）。通过将类似的文档组织在一起，可以轻松地导航、浏览和组织庞大的文档集合。文档聚类在知识表示、商业应用等领域都有着重要的应用。文档聚类是一种数据分析技术，它利用相似性度量将文档划分为相同对象的组，使得相似的对象位于同一个簇内，不相似的对象位于簇外它用于模式识别、机器学习和统计（Berkhin，2006; Onan等人，2017年）。聚类对于分类非常有用，一组https://doi.org/10.1016/j.jksuci.2019.09.0021319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comM. Yarlagadda等人/沙特国王大学学报10991/4fgJ文档和主题检测（Manning等人，2009; Sharma，2019）。文档聚类与数据聚类密切相关（Xie and Xing，2013）。文档聚类的基本原理是满足人们对信息检索和理解的兴趣。文档聚类没有考虑单词之间的关系（Kiran和Shankar，2010）。目前，所有的纸质文档都是以电子形式存在的，这是因为电子文档存取速度快，存储空间小。因此，从大型数据库中检索相关文档是主要问题。文档聚类的挑战性问题是高维、大容量和复杂语义。1.1. 文献综述开发了几种用于文档聚类的方法，由于文档语料库的高度稀疏性，这些方法的性能不佳（ Sumathi Rani 和 China Babu ， 2019;Gulnashin等人，2019年）。Pei和Chen（2016）开发了具有自适应邻居的概念因子分解（CFAN），以提高文档聚类的性能。该框架用于提取保持数据邻域结构的表示空间。通过将ANs正则化与CF模型相结合，建立了图权矩阵的邻域。该方法无法自动找出簇的数目。Pamba等人（ 2019 ）开发了基于频繁模式增长的动态模糊粒子群优化（FPDFPSO）来对文档进行聚类。该框架解决了管理多样性、局部连接、参数依赖性和收敛速度等问题。该方法不适用于寻找较好的聚类质心，但也可以使用DFPSO找到最佳解。该方法的鲁棒性更好，但它依赖于大数据集。Gulnashin等人（2019）提出了一种用于初始化球形k均值的确定性方法。球形k-means被认为是一个最好的方法聚类的文件，并考虑余弦相似性的文件，以找到最合适的文件。该方法需要很长时间才能收敛。Karpagam和Saradha（2019）基于用于文档聚类的答案生成器模型开发了语义词。利用该模型，系统缩小了用户查询的搜索间隔，并基于Word-net对句子进行了回答。该框架由明确的单词串距离，词序，句子相似度和单词的语义相似度组成。在此基础上，从一个大的语料库建立知识库，并进行聚类的基础上进行分组领域上下文。该方法没有考虑其他技术来提高系统性能。表1显示了基于作者、年份、使用的技术、现有方法的优点和缺点的文献综述。在分析现有文档聚类方法的基础上，可以看出，文本聚类领域还存在许多问题，需要解决。因此，本文发展了提出了一种基于Modsup和Rn-MSA的文档聚类技术，试图解决现有文档聚类方法中存在的问题。本文提出的文档聚类的总体过程包括预处理、特征提取、特征知识建立和文档聚类四个步骤。首先，基于停用词去除和词干提取技术对文档进行预处理。然后，使用TF-IDF和wordnet特征进行特征提取。根据提取的特征，使用频繁项集进行特征选择，以建立特征知识。然后，使用所提出的Rn-MSA，这是通过集成ROA和MSA开发的文档聚类。使用两个数据集，即Charter数据库和20个新闻组数据库，所提出的文档聚类方案的性能进行分析。从分析中可以看出，该方法的最大查准率、查全率、F测度和准确率分别达到95.90%、96.4%、96.4%和95%，表明了该方法的优越性该研究论文的主要贡献是开发了一种文档聚类方法，使用建议的Modsup + Rn- MSA对基于相似性的文档进行聚类，这种方法对于文档检索相关的应用是有效的。论文的组织结构是：第2节讨论了使用Modsup + Rn-MSA进行文档聚类。第3节介绍了所提出的方法的结果和讨论，最后，第4节总结了论文。2. 基于Modsup频繁项集和Moth-Rider优化算法的文档聚类本节介绍使用Moth-Rider优化算法的文档聚类方法。图1给出了Modsup频繁项集和Moth-Rider文档聚类优化算法的原理图。首先，将文档中的关键字提供给预处理步骤，以使用停止词去除和词干提取从数据中去除冗余和不必要的词。在预处理之后，使用TF-IDF和wordnet特征进行特征提取，从文档中找到关键字。利用提取的特征，建立基于频繁数据集的特征知识。最后，使用所提出的Rn-MSA执行文档聚类，其中标准Rider优化算法（ROA）（Binu等人，2018）和蛾搜索算法（MSA）（Wang，2016）集成。2.1. 预处理文档聚类的第一步是文本的预处理.输入数据库包含不必要的单词或短语，这可能会影响聚类过程。假设D是数据库的集合，它由n个文档组成在的数据库和是表示作为Dd i; 1 6i6n .因此，预处理被考虑用于去除从文本数据库中删除冗余词预处理的两个主要步骤是：（1）停止词去除，（2）词干提取。停止词删除：停止词只是文本文档中存在的不必要的词，如an，a，the，in等。词干提取：在这一步中，词干提取技术将那些不可避免地不是有意义的词的术语转换为来自语言的词根。数据库中的文档数量D表示为，dinwi;16j6mio1其中，mi表示从第i个文档中提取的词。提取关键词后，得到W个唯一关键词，W¼ fbl;16x6kg2其中，k表示字典中的单词总数或来自文档的唯一关键字。因此，从预处理步骤获得字典词，然后从字典词提取特征。2.2. 基于TF-IDF和WordNet的在预处理步骤之后，通过基于TF-IDF和WordNet特征从文档中提取关键字来进行特征提取。本工作中进行的特征提取步骤简要说明如下：1100M. Yarlagadda等人/沙特国王大学学报L表1文献综述。作者年方法优势缺点卡帕加姆和萨拉达（2019）居尔纳申20192019基于语义词的答案生成器模型确定性初始化技术（Duwairi该系统减少了用户查询的搜索间隙更好的性能这种方法没有考虑其他技术来提高系统性能这种方法需要很长时间才能收敛。等人（2019年）Pamba等人2019Abu-Rahmeh方法）基于频繁模式增长的动态模糊最小收敛速度和最小需要更多的迭代（2019年）裴与陈2016粒子群优化算法提出了一种新的概念因子分解（CF）方法，简称CF均方剩余误差非常迅速地此方法无法确定（2016年）Agrawal等1993自适应邻居（CFAN）修剪技术修剪技术减少了一个非常大的集群数量自动过度修剪影响性能（一九九三年）Havana等人2003基于本体的文档聚类项集的分数而不测量它们。特定领域的本体改进了精度低（2003年）克里希纳普拉姆2001模糊c-中心点（FCMDD）和鲁棒模糊c-中心点聚类在Web挖掘应用程序高复杂度等人（2001年）Wu等人2019中心点（RFCMdd）多重优化粒子群实现良好的稀疏有时候没有达到更好的效果，（2019年）崔和朴2019自适应密度优化算法主题树数据集性能优越，运行时间更容易出现抽样误差（2019年）时间Fig. 1. 使用Modsup频繁项集和Moth-Rider优化算法进行文档聚类的示意图。2.2.1 TF-IDFTF用于计算文档中每个单词的出现率。IDF用于计算文档中IDF的表达式表示为，2.2.2 WordNet功能从单词文档中提取的下一个重要特征是WordNet特征。WordNet本体（Elberrichi等人，2008）解释了关于两种语义关系，它们是同义关系和上下义关系。WordNet的使用Q/b;D/l/lognLð3Þ本体，用于查找单词的语义关系，帮助jfd 2D：bl 2d gjQ=bl;D=数据库D中第b个单词的IDF，bl表示文档中的单词，d表示文档，n表示文档的集合。提取过程中的三个方面。1)找到所需金额从Word文档中提取词汇释义; 2）寻找词汇化的语义网; 3）为文档生成库，从而为文档建立领域本体。创建WordNet本体框架，实现对Word文档M. Yarlagadda等人/沙特国王大学学报1101ω.ΣXvkF;C kIJ. Xð Þ（f ;16i6nA！使用同义词来产生释义。此外，它还决定了两个同义词在特定上下文中的可重复性WordNet本体方案可以被认为是数据处理源，具有同义词集的集合。同义词集是指收集具有相似意义的主题的同义词的集合。WordNet本体方案从文档中提取两种类型的特征，如同义词和下义词。同义关系是指由任何两个相似的词组成的词之间的对称关系，使得组合词的替换不影响上下文的实际意义。例如，word文档中的关键字bl的同义词和下位词表示为，Cbl和Bbl。在提取每个关键词的同义词和下义词后，词典将保留3k个关键字。使用这些关键字，矩阵是通过识别TF、IDF、下义词频率和同义词创建的提取的特征表示为，F¼fij;16i6n; 16j6g其中，n表示文档的总数，g是指使用下位关系、TF、同义关系和IDF提取的特征的维度的总数。2.3. 基于Modsup频繁项集的特征选择本节简要介绍了所提出的基于频繁项集的特征选择.在提取特征后，使用建议的频繁项集进行特征选择，以大幅降低文档的维数。提出的模态支持减少了过拟合，这意味着它删除了冗余数据。此外，它提高了准确性，减少了训练时间。特征数据库F只包含提取的关键字的TF被赋予频繁项集挖掘。该特色数据库可以表示为，D输入¼。di;j;16i6n; 16j6k其中，n表示全部文档，并且缩减特征被表示为y。2.4. 基于Moth-Rider优化算法的文档聚类本节简要介绍了所提出的用于文档聚类的Moth-Rider优化算法。这里，特征选择数据库F_select被给予建议Rn的输入MSA是通过集成标准的Rider Opti-Pro开发的混合算法（ROA ）（Binu等人，2018 ）和蛾搜索算法（MSA ）（Wang，2016）。MSA的灵感来自飞蛾的猎物搜索行为，并且基于其位置变化来执行解更新。蛾的行为取决于两个基本特征，如趋光性和飞行。蛾的位置运动受光源位置的影响。MSA能有效地搜索最优解，提高了精度。此外，该算法还能协商复杂的操作，因此，MSA的执行是简单和灵活的。ROA概念适于基于相对于时间已经发生的过去事件来更新解决方案。因此，ROA的概念纳入MSA是为了寻找最佳区域。a) 解表示令v为待计算的质心的数目，其表示基于质心的数目的解的大小在每个质心中，呈现g-y特征，并且因此，解向量的维度的大小为1×1/2vω[g-y]。b) 适应度评估基于在所选数据点和质心之间估计的距离度量来评估适应度函数。适应度应保持最小，并选择具有最小距离值的解作为较好的解。适应度计算为，其中，dij表示在第i个文档中存在第j个单词这个数据库D 输入现在经受Apriori算法以挖掘频繁项集。Apriori算法基于支持度阈值挖掘长度为1的频繁项集。挖掘出频繁项集后，进行特征选择n适合度;f¼1/1 kX1/4i2k选择ijvð8Þ从D输入使用本文设计的建议的模块支持。用于找到重要特征的mod支持表示为，其中，F_select是数据点，C_v表示第v 个中心。MSA的优化过程如下：Mod：Support1Lli¼1ZiTi×ið6Þ1) 初始化作为第一步，蛾的位置是随机初始化的。这里，解表示位置，因此，其中，l表示频繁项集的长度，Zi表示在第i个长度的序列中被fi覆盖的项目集总数解空间有f个飞蛾。MS算法的解表示如下：第i个长度序列的总长度表示为T，A 被我我fi在第i个长度序列中的平均支持度YYj;16j6f9在找到每个关键字或功能的mod支持后，特征是选择基于对的条件Mod_sup_i>阈值。表示所选的特征（关键字）及其对应的TF、IDF、同义词和下位词在选定的数据库中，该数据库现在被提供给文档聚类处理。用于文档聚类的特征选择数据库表示为，其中，Yj表示解空间中的第j个蛾，取值范围为1/2;f]，f表示解空间中的蛾总数2) 适应度评估适应度函数是使用方程计算的个人解决方案。（8）为了更好的效果。输出具有改进的拟合-F选择¼选择ij0;16j6g-yð7ÞNess值被认为是最佳输出。最佳解决方案是在前一次迭代中确定的，因为每个解决方案都渴望获得更好的位置。）1102M. Yarlagadda等人/沙特国王大学学报Y轴为Pj;k我Yj¼Yjþe:LðzÞð10Þj;kω@j;kj;kj;k最j;kj;kj;k3) 使用levy航班Yi1“1-kb#¼k-kbYið21Þj;k1π cosπPiπ ω@ij;k在评估适应度之后，解决方案基于Levy航班更新进行位置更新，并且它被称为j;kj;k如下所示：21号公路。Pikω@ik-kb3第一章1我i1iYj;k 41j;j;公司PiΣi5¼k-kbYj;k22其中，Yi指定在迭代i时蛾的位置，我一个墨西哥人。Piω@ihiJ术语Lz表示由于征费的变动而提取的步骤飞行参数e表示比例因子，并表示为I1j;kj;k一个墨西哥人。Piω@ij;k-kbk-kbð23Þ其中，表示第k坐标中的第jeWmaxI2ð11Þ我j;k，第j骑手在第k坐标中行进的距离为其中，Wmax是指最大步距。然后，征税分配-部分L′z′表示为，a-1pa-1表示为@i。比例因子表示为k，并且加速度因子表示为k。测量因子表示为b。距离的测量基于是关断时间和速度的乘积。以Eq。（23）、蛾的位置更新可以是Lz2paað12Þ¼þ因为，M. Yarlagadda等人/沙特国王大学学报1103最Yj;kj;kj;k最j;k最j;kj;kj;kj;kj;k最获得，使用飞蛾在其先前迭代中的位置光吸收系数、吸引力和距离其中，a大于0：Cy是伽马函数。4) 直线飞行1104M. Yarlagadda等人/沙特国王大学学报蛾的位置也受光源的影响，升级方案表示如下：是的。Yi 布：。Yi-Yi13M. Yarlagadda等人/沙特国王大学学报1105Σ Σ2j;kj;k¼在飞蛾之间。5) 找到最佳解决方案1106M. Yarlagadda等人/沙特国王大学学报更新飞蛾的位置后，解空间进行适应性评价。在这里，最优解是M. Yarlagadda等人/沙特国王大学学报1107算法1：.所提出的Rn-MSA算法的伪代码通过识别提供最小适应度的位置来获得。后在适应度评估中，最佳解决方案替换较旧的解决方案。在重新排列上述等式之后，6）终止Yi1¼Yi1108M. Yarlagadda等人/沙特国王大学学报kkbYi-kYð14Þ在某个迭代限制之后，算法终止，并且M. Yarlagadda等人/沙特国王大学学报1109j;kj;kj;kj;k最好1110M. Yarlagadda等人/沙特国王大学学报j;k最优解在过程结束时被保留算法M. Yarlagadda等人/沙特国王大学学报1111蛾j的最终位置表示为，Yi1¼Y i k-kb1112M. Yarlagadda等人/沙特国王大学学报ð15ÞM. Yarlagadda等人/沙特国王大学学报11131描述了所提出的Rn-MSA算法的算法步骤1114M. Yarlagadda等人/沙特国王大学学报其中，Yi指示蛾的最佳位置，而另一个指示蛾的最佳位置。M. Yarlagadda等人/沙特国王大学学报1115项B和A表示加速因子，以及比例因子，分别在飞行直线运动期间，1116M. Yarlagadda等人/沙特国王大学学报蛾的行为受到光源位置的影响这里加速常数影响算法的收敛速度M. Yarlagadda等人/沙特国王大学学报1117Rithm。在某些情况下，飞蛾的位置超出了位置-光源的作用。然后是EQ。（18）修改了ROA

下载后可阅读完整内容，剩余1页未读，立即下载