文本聚类中的主成分分析算法在阿拉伯语文本降维中的应用

22 浏览量更新于2023-12-09 收藏 621KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志21（2020）1一种有效的阿拉伯语文本A.A. 穆罕默德沙特阿拉伯王国萨塔姆·本·阿卜杜勒阿齐兹王子大学阿提奇莱因福奥文章历史记录：收到2018年2019年3月12日修订2019年5月17日接受在线预订2019年保留字：聚类简化PCASVDNMF阿拉伯语NLPA B S T R A C T文本聚类是自然语言处理中的一个具有挑战性的任务，因为这个过程会产生非常高维的空间（即维数灾难问题）。由于这些文本包含相当数量的歧义和冗余，它们产生不同的噪声效果。对于一个高效准确的聚类算法，我们需要通过消除噪声和降低数据的高维数来提取文本的主要概念。本文比较了三种著名的文本聚类降维算法，即主成分分析（PCA），非负矩阵分解（NMF）和奇异值分解（SVD），以显示每一个的优点和缺点。提出了一种有效的基于主成分分析的阿拉伯语文本聚类降维算法。为此，一系列的实验已经进行了使用两个语言语料库为英语和阿拉伯语，并从聚类质量的角度分析的结果。实验结果表明，PCA提高了聚类过程的质量，对阿拉伯文和英文文档的聚类过程，它能以更少的时间给出更好的结果。©2019 Elsevier B.V.制作和托管代表开罗计算机和信息学院大学这是一篇CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍降维技术是聚类过程中非常重要的一步;由于数据的高维性，这不是一个容易的问题。这种高维空间损害了聚类过程的有效性（即，维度问题的诅咒）。这些技术背后的思想是通过将现有特征转换为新的低维特征空间来降低维度[1诸如PCA、NMF和SVD的降维技术是该领域的最新技术[5本文比较了这三种文本聚类算法，即PCA，NMF和SVD，以显示每一个的优缺点。在文本挖掘和模式识别中，聚类分析是指将数据集划分为若干主题。每个主题（也称为聚类）包含与自身相似但与其他组中的点不同的数据点类似地，文档聚类任务将一组文档收集到电子邮件地址：dr_ashrafa@yahoo.com开罗大学计算机和信息系负责同行审查。制作和主办：Elsevier组或主题。近年来，由于其在数据抽取和海量文本文档检索领域的重要性，许多研究者对该领域进行了研究。在聚类过程中，没有信息提供的重要标签，所以任务是聚类一个给定的数据集到有意义的主题。聚类将给定的部分集合划分为M个主题（聚类），使得每个主题的部分聚类方法分为以下几种：分层技术，分区技术，基于网格的技术，基于密度的技术和基于模型的技术[10在现实世界中，聚类过程有许多应用，如搜索引擎，社区检测和推荐系统。例如，在社区检测系统中，主要挑战是帮助用户发现复杂网络中的社区[16]，而在新闻推荐系统中，主要挑战是找到有趣的新闻文章阅读。因此，根据主题对新闻文档进行聚类是必不可少的一部分，因为大多数读者只关心特定主题的新闻。在本文中，我使用了分区方法。分区方法通过将数据点分解为给定数量的互斥聚类来构造各种我使用k-mean聚类算法来创建通过各种特征提取方法表示的文档k-means是一种用于文档聚类的著名聚类技术。由于它的简单和高效，在许多文献中被频繁使用在这个算法中，有一个https://doi.org/10.1016/j.eij.2019.05.0021110-8665/©2019制作和主办由Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com2A.A. 穆罕默德/埃及信息学杂志21（2020）1XPP2FðÞ一组聚类中心，将每个点标记到最近的聚类中，并更新每个聚类的中心位置[10本文的研究安排如下：第二节介绍了传统的机器学习和深度学习，第三介绍了降维的算法。第4节介绍了阿拉伯语预处理。第5描述了评价指标第6节解释了数据集和实验设置。第7节显示了获得的结果，并讨论了这些结果。最后，第8节给出了结论和对未来研究的建议2. 传统机器学习与深度学习学习算法可以分为三大类：（1）监督学习，（2）无监督学习和（3）半监督学习。在监督学习中，该算法构建了一组包含输入和期望输出的数据的数学模型。分类算法和回归算法是监督学习的类型。在无监督学习中，该算法建立一组数据的数学模型，该模型只包含输入而不包含期望的输出。无监督学习算法用于发现数据的聚类。矩阵分解算法，如SVD，NMF和PCA，被称为盲源分离（BSS），是无监督学习算法[2半监督学习算法从不完整的训练数据中开发数学模型，其中部分样本输入缺少所需的输出。诸如Word 2 vec的深度学习算法是一种自然语言模型，其使用半监督机器学习算法，因为它使用反向传播来处理反馈误差以学习神经网络（NN）[17从计算的角度来看，深度学习与传统机器学习最重要的区别在于前者性能的本质随着数据规模的增加。当数据很小时，深度学习算法的性能就不会那么好。这是因为深度学习算法需要大量的数据才能完全理解它。在这项研究中，我使用了无监督代数降维算法，这是该领域的最新技术[53. 降维与文本聚类建立一个准确高效的文本聚类算法需要使用精确的降维技术来解决高维问题。由于高维数会产生不同的噪声，影响聚类算法的准确性.任何有效的聚类算法都需要通过消除噪声和降低数据的维数来降维技术降低了数据的维数，技术和特征提取器。SVD允许我们使用酉矩阵将矩阵Xm×n变换为对角形式它将文档的矩阵Xm ×n分解为三个矩阵：Um ×m矩阵、Vn ×n矩阵和对角矩阵Rm× n[2，20]因此：X¼UXVT 1¼diagðr1r2···:ri······:rrÞ ð2ÞR矩阵（对角矩阵）包含X矩阵的奇异值，并且奇异值具有以下性质：r1≥r2≥···≥rk≥rk1··rr0 3从SVD中提取的特征基于使用VT作为基矩阵（即研究人员将其用作聚类算法中的简化特征空间而不是X矩阵）。3.2. 主成分分析PCA是一种众所周知的降维方法。数学技术使用正交线性变换将相关变量的集合转换成称为主成分的新的不相关变量的集合。PCA将Xm×n矩阵变量线性转换为包含原始数据集的大部分信息的基本上较小的不相关变量集[3，21，22]。通过计算数据矩阵X的协方差矩阵的本征分解来完成从数据矩阵X计算主成分的方法。但最快的算法是利用奇异值分解将矩阵X分解为UrrVTr，从而得到k个样本的主成分作为UTk在X数据矩阵上的投影。该投影空间在应用PCA变换将方差归一化为1以去除任何噪声之后给出PCA。本文使用PCA提取的特征（即，在聚类算法中使用经PCA变换后的投影空间）[3]。3.3. 非负矩阵分解许多数据具有非负的性质，并且如果数据的隐藏成分具有正的值，则它们具有物理意义。矩阵分解方法如SVD和PCA可以允许在因子化矩阵中给出负值的负项，这没有物理解释。在NMF算法中，非负矩阵XRm×n可以分解为两个矩阵因子W和H，通过求解方程（1）中的优化问题，从而得到一个新的非负矩阵矩阵。4[23]。NMF产生的语义特征向量比SVD等其他方法产生的语义特征向量稀疏[16，24]。LW;HjjX-WHjj2通过从原始特征中创建一组新的特征来从建筑模型中消除非特征特征，这被称为特征变换过程。有许多代数s：t：W;H≥0XWHð4Þ作为降维技术使用的方法，这取决于基于矩阵分解，如SVD和NMF，或者它们可以取决于特征值分解，如PCA[2在下面的小节中，我将介绍三种常见的代数降维技术（即状态艺术在现场）。3.1.奇异值分解奇异值分解（SVD）是一种矩阵分解算法和特征变换技术，它从原始特征中产生新的特征。奇异值分解也被用作降维其中Frobenius范数表示为||.||. 注意这个物体-有向函数L W; H只在W或只在H中凸。设X是词项-文档矩阵，将其分解为Wm×k（特征矩阵），Hk×n（加权或系数矩阵）和k min（m，n）。在这项研究中，从NMF中提取的特征是基于加权矩阵H（即，在聚类算法中使用H矩阵作为缩减的4. 阿拉伯语预处理阿拉伯语文本预处理是为计算分析准备文本的过程它包括四个主要步骤：分段-A.A. 穆罕默德/埃及信息学杂志21（2020）13Σ02P¼PJJJJ. Σ.ΣIJIJ2 niACi¼NJprk;k0.ΣC..0ΣΣ;Ktokenizer，Stop list removal和stemmer。将给定的文本剥离成其组成句子的过程称为互信息McI公式代替MI：细分之后，每个句子都被拆分成其组成部分M I.K′8Þ这就是所谓的tokenization。在“停止列表”删除步骤中，从“通用词”列表中移除所有通用词从文本中。提取每个词的词干term通过消除后缀和前缀叫做词干提取[24、25]。研究人员使用了Light Stemmer（Light10Stemmer），其性能优于其他Stemmer[26]。4.1. 表征阶段研究者使用术语-文档矩阵表示语料库文档.这个矩阵中的每一列代表一个给定的文档，而一行代表一个唯一的术语。我们用文档中的术语向量来表示语料库的文档。第j个文档由向量Xj = [w 1 j，w 2j，. .其中，wij是词项权重，并且语料库中的词项的数量是m。4.2. 4.2术语权重公式（TFIDF）在本文中，TFIDF被用作术语权重公式：TFIDF¼TF日志。N5MIK; K¼´ð最大HK;H K6. 数据集和实验6.1. 数据集在这项研究中，我使用了两个不同的数据集（即两个语言语料库）进行所有的实验。阿拉伯语语料库由10个手工制作的主题组成;英语语料库由路透社21，578的10个主题组成。1) 阿拉伯语数据集（Corpus）是10个类别的约7232个新闻文档（13，271个独特单词）的集合，主题从计算机，科学到政治谈话。2) 路透社21，578数据集由路透社新闻专线的集合组成该语料库包含135个主题的21，578个文档。我从这个语料库中选择了10个类别，并删除了超过一个主题的任何文档，7293个文档（18933个唯一字），分为10个类别。其中TFij是如我们在上面的预处理步骤中所提到的项频率。之后，可以根据上述公式计算术语重量。文档i中的项权重等于（wij）= TFIDF ij。其中N表示语料库文档的数量，ni是包含术语i的文档的数量。使用向量模型，数据集由矩阵X RM×N表示，其中语料库中唯一术语的数量为M，并且该矩阵的元素由下式表示：wij[24，25]。5.评估指标两个评价标准：聚类算法的准确性（AC ）和归一化互信息（MI）。设文档di，聚类标签为li，真值标签为li。我们可以这样定义AC：PN1p. li;Imageli图像我对阿拉伯语语料库和英语语料库应用了常用的预处理方法，如停用词过滤，使用词干提取器（即阿拉伯语的light词干提取器和英语的Porter词干提取器）和TFIDF术语加权公式来形成每个语料库的术语文档矩阵。6.2. 实验在本文中，我使用K-Means算法作为聚类算法的原始数据（未降维）和转换后的数据（通过NMF，PCA和SVD降维后）。集群的数量被认为等于10。我们认为NMF算法得到的基矩阵H、SVD算法得到的约简空间VT和PCA对这些分量进行Whiting变换后得到的PRIN-NR分量（Zpc）作为潜在约简空间。然后对变换后的术语-文档矩阵应用K-Means聚类算法，并使用余弦相似度作为距离公制其中，数据集中的文档数量为N，p（u，v）函数在u = v时取值为1，否则取值为0，Image是一个匹配函数，它为每个聚类和相应的地面真值标签提供最佳映射。在这项研究中，匈牙利算法[27]用于搜索最优映射。MI公式可以写成：.0ΣX.斯普河ki;k0MI K; K¼：log聚类过程可以概括为以下步骤：1. 对原始文档集进行预处理，并为每个语料库建立术语-文档矩阵X。2. 对X矩阵进行NMF或PCA或SVD，以获得潜在约简空间矩阵（H，Zpc和VT）。3. 在原始空间上应用K-means聚类算法，潜在的缩减空间。它们是由上面的算法来获得每个文档的聚类标签kisK;k0sK0我J2p rki：p r.k04. 使用二分匹配算法（即匈牙利算法）[27]以获得所有文档的正确聚类标签。其中，所选文档属于聚类K或K0的概率分别为和属于K的指定文档的概率而K0是prki;k0. MI（K，K0）项取一个介于0和max之间的值（H（K），H（K0）），而K和K0的熵分别为H（K）和H（K0）[20]。为了简化MI值，我使用了标准化的5. 计算每个算法的准确度和归一化互信息。7. 结果在本节中，我比较了基于NMF、SVD和PCA的K-means算法的结果，ð6Þð7Þ4A.A. 穆罕默德/埃及信息学杂志21（2020）1..cc降维方法与应用K-均值算法得到的结果没有降维方法。如上所述，我使用两个语言语料库（路透社21578语料库和阿拉伯语语料库）进行这些实验。结果示于表1和表2以及图1和图2中。 1和2的英语语料库和表3和4和图。 3和4为阿拉伯语语料库。表1显示了不同算法在Reuters 21，578上的性能。表3显示了不同算法在阿拉伯语语料库上的性能。从上表可以清楚地看出：1) PCA结果在准确性（AC = 0.667，AC = 0.352）和归一化互方差信息MI：0： 700;MI： 0： 337分别使用阿拉伯语语料库和路透社21，578语料库表3使用阿拉伯文文档数据集比较聚类算法的性能。K-means SVD NMF PCA不含增白剂含增白剂MI 0.686 0.6720.671 0.6640.7000.649 0.646 0.640 0.6420.667表4使用阿拉伯语语料库比较聚类算法的运行时间（毫秒）。K-means SVD NMFPCA聚类时间（毫秒）461047 38 43表1使用Reuters 21578比较聚类算法的性能K-meansSVDNMFPCA不含增白剂含增白剂MI 0.3370.3130.3040.3110.337AC 0.3450.3260.3280.3110.352表2使用Reuters 21578比较聚类算法的运行时间（毫秒）。K-meansSVDNMFPCA群集时间（毫秒）650777085图三.使用阿拉伯文文档数据集比较聚类算法的性能。Fig. 1. 使用路透社的聚类性能比较21，578.700PCASVDNMFK-means5000450040003500300025002000150010005000600图四、使用Arabic Corpus的聚类过程所用的时间（毫秒）5004002)实验结果表明，主成分分析法优于传统的300用于阿拉伯语和英语文本聚类的K-means算法PCAA.A. 穆罕默德/埃及信息学杂志21（2020）15SVDNMFK-means2001000关于以毫秒为单位的聚类时间（对于阿拉伯语语料库为43毫秒，对于英语语料库为85毫秒）与在原始空间中聚类所消耗的时间（对于阿拉伯语语料库为4610毫秒，对于英语语料库为650毫秒）的比较。3) SVD和NMF算法在准确性、归一化互信息和使用阿拉伯语语料库和Reu进行聚类的耗时图二、使用Reuters 21，578的聚类过程所用的时间（毫秒）21，578个语料库。6A.A. 穆罕默德/埃及信息学杂志21（2020）14) NMF是以毫秒为单位的更快的聚类算法（阿拉伯语语料库为38毫秒，英语语料库为70毫秒）。8. 结论在这项研究中，我介绍了三个著名的降维算法（即，该领域的最新技术，即PCA，SVD和NMF），并在阿拉伯语文本的聚类中比较它们实验表明，PCA作为降维技术，在准确性和归一化互信息方面给出了更好的结果在语义潜在结构的意义上，主成分分析在紧凑的表示方面产生了更好的结果，这表明主成分分析能够区分文本。PCA能够很容易地识别阿拉伯语和英语文档文本数据中的潜在结构从研究者结合Whiting变换和PCA算法，通过去除噪声，提高了算法的性能，最终降低了误差值。虽然有许多代数算法的文本聚类，一直以来，研究人员最后，也许数据集的类型和大小以及再处理技术仍然影响降维算法的效果然而，我给了读者一些有用的和有益的参考，为未来的研究聚类阿拉伯语文本。对于未来的工作，实验可能会扩展到包括其他语言模型，如词嵌入向量与三种算法（NMF，SVD和PCS）合作，以提高阿拉伯语文本的聚类。引用[1] 刘欢，本田弘。特征选择的计算方法。查普曼&大厅/CRC 。Taylor& FrancisGroup，LLC; 2008年。[2] Zarzour Hafed，Al-Sharif Ziad，Al-Ayyoub Mahmoud，Jararweh Yaser.一种基于降维和聚类技术的协同过滤推荐算法。2018第九届信息与通信系统国际会议（ICICS）; 2018。p. 102- 6[3] Kale Archana Pritam Sonavane Shefali PF-FELM：一种用于模糊极限学习机的鲁棒PCA特征选择。IEEE J Select Top SignalProcess 2018：1.[4] Austin W，Anderson D，Ghosh J.全监督非负矩阵分解特征提取。IGARSS 2018 -2018 IEEE 国际地球科学与遥感研讨会; 2018年。p. 5772- 5[5] Allab Kais，Labiod Lazhar，Nadif Mohamed.一个半NMF-PCA数据聚类统一框架。IEEE Trans. Knowledge Data Eng. 2017;29（1）：2-16.[6] 光达，朱在古，朴海宣。交互式主题建模和文档聚类的非负矩阵分解。在：分区聚类算法.施普林格; 2015年。p.215- 43[7] Alghamdi Hanan，Selamat Ali.主题建模用于改进阿拉伯语网页聚类。2015年云计算国际会议（ICCC）。 p. 1比6[8] 放大图片作者： Hosseini-Asl Ehsan 文档聚类的非负矩阵分解：综述。在：Rutkowski L，编辑. ICAISC 2014，第二部分，LNAI 8468。p. 726- 37[9] Klinczak Marjori NM，Kaestner Celso AA.基于聚类算法的Twitter主题识别研究。拉丁美洲计算智能大会（LA-CCI）; 2015年。p.1比6[10] 杨伟杰，李晓梅，李晓梅.分类分析手册ISBN ：9781466551893 。New York ，USA：CRC Press;2015.[11] 克里斯多夫·特龙·迈克尔。基于自组织和群体智能的投影聚类。由SpringerVieweg出版; 2017年。 ISBN 978-3-658-20539-3。[12] Aggarwal CC，Zhai C.文本聚类算法综述。在：挖掘文本数据。Springer; 2012.p. 77比128[13] Arbelaitz O，Gurrutxaga I，Muguerza J，Pérez JM，Perona I.聚类有效性指数的广泛比较研究。模式识别。2013年1月;46（1）：243-56。[14] 安德鲁斯不，福克斯EA。文档聚类技术的最新发展。众议员TR-07-35计算机科学弗吉尼亚理工大学;2007年。[15] 放大图片创作者：P.聚类对相似性度量的表征与评价。知道。通知。Systems2009;19（3）：361-394p.[16] 秦瑶瑶，贾采妍，李雅芳。基于正交约束的非负矩阵分解的社区检测。第八届高级计算智能国际会议，泰国清迈，2016年。p. 49比54[17] Collobert R，Weston J.，《自然语言处理的统一架构：具有多任务学习的深度神经网络》。第25届机器学习国际会议论文集。ACM; 2008年。p. 160比7[18] Soliman Abu Bakr，Eissa Kareem，El-Beltagy Samhaa R. AraVec：一套用于阿拉伯语NLP的阿拉伯语单词嵌入模型。第三届阿拉伯计算语言学国际会议。迪拜，阿拉伯联合酋长国：ACLing; 2017. p.256比65[19] Salamaa Rana Aref，Youssefb Abdou，Fahmya Aly.用于阿拉伯语的形态词嵌入。第四届阿拉伯计算语言学国际会议。迪拜阿拉伯联合酋长国：ACLing; 2018. p. 83比93[20] Taufik Fuadi Abidin，Bustami Yusuf和Munzir Umran，[21] 若利夫岛主成分分析。 Wiley Online Library; 2005.[22] Combesa C，Azemab J.使用主成分分析进行聚类，用于老年人的身体残疾。DecisSupport Syst2013;55（2）：578-86.[23] 侯弥晓，高颖莲，刘金星。基因组数据聚类的非负矩阵分解方法比较。ICIC 2016Part II，LNCS2016;9772：290-9.[24] 穆罕默德AA。基于NMF的阿拉伯文文档自动文摘初探。2016年第11届计算机工程&系统国际会议（ICCES）。p. 235比40[25] 穆罕默德AA。一种改进的基于阿拉伯文本特征的信息隐藏算法：一种unicode方法。埃及Inf J 2014;15：79-87.[26] 放大图片作者：Margaret E.用于阿拉伯语信息检索的光词干。收录：阿拉伯语计算形态学基础知识和经验方法、文本、语音和语言技术丛书。荷兰：Springer; 2007。第221- 243页。[27] 库恩HW。指派问题的匈牙利方法。Nav Res LogistQuat 1955;2：83-97.

下载后可阅读完整内容，剩余1页未读，立即下载