阿拉伯语网页聚类研究的特征选择与减少数据维度的挑战

173 浏览量更新于2024-01-14 收藏 1014KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

制作和主办：Elsevier沙特国王大学学报阿拉伯语网页聚类综述哈南·MAlghamdia，Alghamdi，Ali Selamatba沙特阿拉伯Alqunfudah Umm Al-Qura大学Alqunfudah计算机学院计算机科学系b马来西亚科技大学计算机系，UTM，Johor Bahru，Johor 81310，Malaysia阿提奇莱因福奥文章历史记录：2017年1月27日收到2017年5月22日修订2017年6月12日接受2017年6月17日在线发布关键词：特征选择特征约简K-均值审查文本聚类阿拉伯文网页A B S T R A C T聚类是将包含相关信息的Web页面分组到簇中的方法，这有助于相关信息的分配。聚类性能主要取决于文本特征阿拉伯语有一个复杂的形态和高度曲折。因此，选择适当的功能会积极影响聚类性能。许多研究已经解决了阿拉伯语内容的网页聚类问题。将文本聚类应用于阿拉伯语网页内容有三个主要挑战第一个挑战涉及通过考虑隐藏的知识来识别表示原始内容的重要术语特征的困难第二个挑战是在不丢失基本信息的情况下减少数据维度第三个挑战是如何设计一个合适的模型，用于聚类阿拉伯语文本，能够提高聚类性能。本文介绍了现有的阿拉伯语网页聚类方法的概述，澄清存在的问题，并检查解决聚类困难的特征选择和reduc-tion技术的目标。根据本研究的目标和范围，本研究是一项共同努力，以改善功能选择和矢量化框架，以提高目前的文本分析技术，可以应用于阿拉伯文网页。©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.介绍22.文本聚类22.1.文本聚类的应用2.2.文本聚类中的相关工作2.3.阿拉伯语Web文本聚类技术相关作品42.4.使用聚类分析进行阿拉伯语网页分析的挑战63.特征选择方法63.1.文件频率（DF）73.2.信息增益（IG）73.3.卡方（CHI）73.4.术语强度（TS）73.5.定期缴款（TC）83.6.特征选择方法的局限性84.减少重复性的方法84.1.主成分分析（PCA）8*通讯作者。电子邮件地址：hmhghamdi@uqu.edu.sa（H.M. Alghamdi），aselamat@utm.my（A. Selamat）。沙特国王大学负责同行审查http://dx.doi.org/10.1016/j.jksuci.2017.06.0021319-1578/©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com2H.M. Alghamdi，A.Selamat/ Journal of King Saud University4.2.概率潜在语义分析（PLSA）84.3.潜在语义分析（LSA）94.4.降维方法的局限性。................................................................................................................................................................................................................................95.特征杂交方法106.结论11鸣谢. 11参考文献111. 介绍目前在万维网上以电子形式提供了大量的阿拉伯文本。这些文本数据中的无组织信息（Elarnaoty等人，2012年）鼓励各种新的研究来管理这一庞大的信息，对相关数据进行分类，并相应地加强万维网上可用文本的组织。文档聚类是将包含相关信息的文档分组到簇中的方法之一，这有助于相关信息的分配。该技术可以有效地增强检索系统的搜索过程（ Alsulami 等人， 2012 ），帮助识别犯罪模式的过程（ Nath ，2006），帮助从文档中提取犯罪类型（Alruily等人，2010），并且可以便于确定社交网络内隐藏的或未知的隶属关系（Qi等人，2010年）。聚类是一种将具有相似特征的数据项分组的方法，而不同组中的样本是不相似的。一个有效构建的聚类算法必须使用文档表示模型将自由运行的文本转换为结构化数据。向量空间模型（VSM）是用于此目的的最广泛使用的方法，并采用词袋（BOW）来表示文本。使用VSM，文本内容表示为矢量，使用字索引的特定特征空间，其中每个向量值对应于所选特征的出现或不出现。VSM中最常用的特征是单词，而其他技术则使用字符和短语作为特征（Zhang和Zhang，2006）。尽管已经发表了大量关于阿拉伯语网页分类的研究，但与阿拉伯语网页聚类相关的已发表研究很少（Abuaiadah，2016; Froud等人，2013 a;Ghanem，2014）。阿拉伯语是一种形态丰富（Al-Khalifa和Al-Wabil，2007）和高度曲折的语言（Beseiso等人，2011）;因此，许多为英语开发的聚类算法在应用于阿拉伯语时表现不佳（Abuaiadah，2016）。为阿拉伯语开发一个机器可理解的系统涉及到区分和深层语义处理。因此，对阿拉伯语言处理的研究兴趣一直在增加。在文本聚类中，根据文档之间识别的内容相似性将输入文档组合成组。文本聚类有助于导航、汇总和组织大量无组织信息的过程，也有助于从未知文本中查找内容（Ahmed和Tiun，2014）。因此，回顾这方面的研究，分析阿拉伯语文本聚类领域所做的工作是有意义的。这将有助于确定阿拉伯文文本聚类文献中的空白。对阿拉伯文网页进行聚类的基本挑战包括确定最具信息量的特征，以最好地代表原始内容，并设计特征区分向量，以分析大量非结构化的阿拉伯文文本。基于文本的系统的性能高度依赖于文本在输入空间中的表示（Leopold和Kindermann，2002; Lewis，1990）。一些研究已经完成，以解决这些困难与阿拉伯文网页聚类，并提出解决方案。本文旨在回顾这些研究，并解释适用于克服各自的困难的解决方案。因此，拟议的工作提出了一个审查的网页聚类的基础上阿拉伯语文本。本文根据先前研究中讨论的基于Web页面聚类的主要挑战进行划分阿拉伯文文本。这些挑战涉及术语表示、维度缩减和提高聚类性能。每一节都对每个挑战和解决方案任务进行了文献综述。本文的组织如下：第2节提供了一个总体概述的文本聚类问题和应用程序，以及阿拉伯语文本聚类的相关工作以及挑战。第三节阐明了基于文本聚类的特征选择方法，以解决术语表示问题。第4节说明了降维问题。第5节考虑了设计一个合适的聚类阿拉伯语文本的模型，能够提高聚类过程的性能。2. 文本聚类文本挖掘是内容挖掘的一部分。Web文本挖掘技术涉及处理Web文本集合并在非结构化数据中定位相同类型的知识（Backialakshmi，2015）。内容挖掘涉及如何利用以合适的机器可理解的形式存储在文本中的数据进行自动处理（Kamde和Algur，2011）。因此，文本挖掘的目的是转换非结构化文本数据，从文本中提取有意义的数值，从而使文本中包含的信息可用于各种数据挖掘技术应用程序（Backialakshmi，2015）。文本挖掘领域的研究涉及不同的主题，例如信息提取、文本摘要、文本表示、文本分类和文档聚类。文本聚类是将一组待聚类的文本文档按照相似性进行组织的过程。其目的是发现自然的文档分组，因为文本聚类实现了语料库中的类或主题的概述（Steinbach等人，2000年）。在聚类中使用的自然启发算法的应用包括天气识别（DjangelDIlmi等人， 2017;Zhang等人，2017），电子邮件垃圾邮件过滤（Alsmadi和Alhami，2015; Sahoo等人，2017 a; Zhiwei等人，2017年）、短信垃圾邮件检测（Nagwani和Sharaff，2015年）、股市预测（Astudillo例如，2016年; Bansal，2017年; Bohavanish，2016年），在线客户评论检查（Sahoo等人，2017 b; Stoica和Özyirmidokuz，2015; Yakut等人，2015）、科学文章索引（Wang和Koopman，2017）、文件种类识别（Lee等人，2017; Nuovo等人， 2017），等等。聚类方法在模式分析、分组、决策、机器学习、图像分割、数据挖掘、模式分类和文档检索等领域都有重要的应用价值。由于输入数据的可用信息很少，聚类方法适合于发现数据点之间的关系以评估数据。H.M. Alghamdi，A.Selamat/ Journal of King Saud University3Fig. 1. 聚类阶段。因此，单个聚类包含的文本文档彼此之间的相似度要比不同聚类中的文档高得多。聚类是一个无监督的学习过程，因为它的属性或类成员是未知的（安德鲁斯和福克斯，2007年）。典型的文本聚类算法包括以下阶段（图1）（Jain和Dubes，1988）：i 阶段1：文档表示作为一个选项，包括特征提取或选择方法。ii 阶段2：确定和计算文档相似性度量。iii 阶段3：应用聚类或分组规则。图1显示了聚类步骤的顺序，包括反馈路径，因为分组过程的结果可能会影响一致性特征的选择或提取以及相似性计算（Jain和Murty，1999）。文档表示描述了聚类算法中涉及的所有输入，这些输入是（i）聚类的数量，（ii）要聚类的文档的数量，以及(iii)有助于聚类过程第一阶段是使用特征选择或提取技术。特征选择的目的是确定有效的一组呈现的特征，包括在聚类，如DF，IG，TC等。特征提取的目的是通过使用PCA和LSI等方法来减少输入在文本聚类中，使用特征选择或特征提取的目标是通过去除不相关和噪声项（特征）来优化聚类能力和计算效率，这些项（这些技术中的一种或两种都可以用于获取用于聚类的适当特征集（Jain和Murty，1999）。第二阶段需要测量输入文档之间的相似性。文档相似性是通过计算文档对之间的距离函数来度量的分组步骤可以通过用于不同文档分类阶段的不同算法来完成最后一个阶段是使用通过特征选择和提取选择的最佳特征子集来构建输入文本的聚类模型，并评估性能。聚类算法分为硬聚类、软聚类和模糊聚类。在硬聚类中，每个文档只属于一个聚类，这意味着一个文档不能被分配到两个不同的聚类。硬聚类的一个例子是k-均值聚类。另一方面，软聚类将每个文档的隶属度分配给输出聚类。在这种情况下，一个文档可以根据其成员级别属于多个集群。软聚类的示例是模糊C均值和期望最大化（EM）算法。2.1. 文本聚类集群被发现是非常有益的，在几个方面和学科。因此，由于其实用性，它被广泛应用作为探索性数据分析的一个步骤聚类的应用如下：Web页面聚类：可用的Web页面数量正在迅速增长，因此需要一种有效和自动组织信息的方法。聚类方法可以自动将网页分类为不同的主题类（Thanh和Yamada，2011）。当网页基于相似的类组合时，搜索引擎更容易将搜索限制在包含所需信息的类中（Gourav，2011）。文档摘要：这是构建整个文档的抽象表示的过程（Froud等人，2013年a）。对于人类来说，手动总结大型文本文档非常困难。介绍了一种自动摘要系统，它可以减少工作量，减少时间消耗.聚类的任务是选择和检索相关的句子，并在文档摘要过程中删除冗余（Fejer和Omar，2015）。情感分析：情感分析的目的是确定作者对特定主题的情感极性（李和吴，2010）。聚类方法需要一些来自领域专家或任何语义库的领域信息，以根据相似的主题类对输入文本进行分组（Turney和Pantel，2010）。在这种情况下，计算并分配给每组文本的情感值（Gryc和Moilanen，2010）。因此，文档聚类可以用于提取文本内容的背景知识（Sun等人， 2011年）。2.2. 文本聚类为了创建一个有意义的聚类算法，需要利用文档表示模型将无限的运行文本转换为结构化信息。VSM被广泛用于这类目标，它接收BOW，通过BOW来表达单词。使用此方法，文本内容表示为一个向量，具体地具有一个空间使用一个词的索引，从而每个不同的向量值对应于一个场合，甚至缺乏一个选定的功能。与VSM相关的最常用的特征是词，而其他系统可能使用字符和短语作为特征（Zhang和Zhang，2006）。为输入数据表示选择最相关和最合适的特征可以极大地影响聚类精度的提高（Shaban，2009; Turney和Pantel，2010）。丰富的表示方案应该揭示概念之间的现有关系，并协助准确的相似性度量，以获得更好的聚类性能。Gabrilovich（2006）提出了一个特征生成器，它借助维基百科来分析输入文档并将其映射到相关概念上，从而改进文档表示。在另一项研究中，Shaban（2009）采用基于意义的文本表示来表示输入文档并测量文档之间的相似性。表示方案需要收集句法和语义特征，它更明确地说明了文档之间的共性空间。Gharib等人（2012年）建议，4H.M. Alghamdi，A.Selamat/ Journal of King Saud University改进了一种语义文档聚类方法，该方法涉及使用WordNet词汇类别的一部分以及自组织映射（SOM）神经网络。最终目标是在VSM中表示更多的相关特征，提高文档聚类的性能。聚类需要具有良好性能的特征选择方法来克服选择不相关特征来表示文本数据的问题（Patel 和Zaveri ，2011; Said 等人， 2009年）。在最近的研究中（ Antony 等人， 2016; Chen ， 2015;Sutar，2015）研究人员建议使用特征选择方法来获得导致聚类改进的显著特征。Sutar（2015）在特征选择方法中添加了相关技术，以去除数据集中不相关和冗余的特征Chen（2015）提出了一种无需探索输入数据的特征选择方法该算法只使用基于最近邻和最远邻的互信息准则来识别相关特征，而不是逐个访问所有可能的特征子集的空间Li and Zhang（2012）提出的基于特征选择的混合模型（DF，MI，IG，CHI）旨在将不同特征选择模型的兴趣点结合起来，以增强文本聚类。然而，他们没有承认术语之间的语义相似性，也没有确定如何通过特征选择来巩固这些相似性。文本聚类方法的问题之一是由于文本聚类中涉及的变量数量巨大而导致的高维性。在聚类过程中包含数据集中发现的所有术语会导致文档的向量表示中的大量维度。因此，高维数据降低了聚类方法的效率，并利用了执行时间。许多研究已经提出了一种低维VSM算法，该算法旨在使用诸如主成分分析（PCA）（例如，Farahat和Kamel，2011; Napoleon和Pavalakodi，2011）或特征选择技术，诸如CHI或互信息（MI）（例如，Li和Zhang，2012年）。Napoleon和Pavalakodi（2011）通过利用PCA提出了k-均值算法在高维数据集中的精确性;然而，他们还没有全面准备好包括术语之间的语义相似性有趣的是，对于Farahat和Kamel（2011），使用GVSM混合向量表示的术语之间发生了语义关系的误用，由此他们将术语之间的统计关系映射到潜在空间（潜在成分索引（LSI）或PCA）。通过他们的策略，聚类功能过程的可行性得到了提高;然而，与VSM相比，大规模数据集因此需要分布式实现语义内核的复杂计算。Isa等人提出了一种混合分类技术（Isa等人，2008，2009 a; Lee等人，2012）通过利用文档中类别的概率分布来降低维度。类别是用于表示文档的向量，然后鼓励分类器接受这些分布。他们的模型在准确性方面实现了相对有价值的警觉性，这主要是由于从根本上消除了所花费的时间。此外，贝叶斯方程作为一个加权方案包含一些不足之处，主要是未能提供足够的能力来识别类别。由于缺乏识别正确类别和包含文档信息的能力，该过程处理具有大量公知关键字的类别的能力受到限制（Zhou等人，2010年）。此外，各个文档中的术语的概率分布的种类未被识别（Guru等人， 2010年）。尽管在文献研究中报道了背景知识（Gharib等人，2012年; Hu等人，2008; Jing等人，2011年：公园和Lee，2012; Thanh和Yamada，2011）关于文档聚类有效性的改进，存在一些局限性。基于维基百科的方法在处理同义词和一词多义的情况时并不是很容易使用，事实上，在将初始文本映射到正确的概念时是很困难的。此外，基于WordNet的策略的无能为力的焦点可以归因于噪声的存在，以及在一个特定区域的文档无关的数据。这是因为它是一个通用的词汇，并且使用了偶尔代表文档的常用词。上述算法具有一些或更少的缺点。一些这样的算法可以消除不相关的特征，但不能处理高维特征，而另一些算法可以去除不相关的特征，并保留高维特征。文本聚类对于许多应用和不同的语言是有用的技术（Amine等人，2013; Froud等人，2013 a; Gharib等人，2012;Jing 等人， 2010; Liu 等人， 2011; Sharma and Gupta ，2012;Thanh and Yamada，2011）. 下一节讨论了与阿拉伯文网页聚类技术有关的工作和问题2.3. 阿拉伯语Web文本聚类技术具有大量文本的阿拉伯语网页的增长，这些文本包含无组织的信息数据，这促使有必要采用解决方案来明智地管理这些文本数据（Elarnaoty等人，2012年）。由于这些文本的非结构化特征，机器无法有效地理解有价值的知识。与大量可用英语的研究作品和资源相比，阿拉伯文文档中的高维数据和缺乏相关特征的问题研究得少得多（Froud等人，2012，2013 a;Harrag等人，2010; Karima等人，2012; Sahmoudi等人， 2013年）。表1列出了以前发表的关于阿拉伯语文本聚类的研究。表1包含五个主要栏：“研究”、“应用”、“聚类方法”、“评价”和“综合方法”。“研究”列表示研究参考，“应用”解释了实施的研究领域，“聚类方法”象征着在研究中用于聚类阿拉伯文本的方法，“综合方法”列表示在研究中用于增强聚类的方法。“评价”分为四个子栏，包括“精密度”、“召回”、“F-测量”和“纯度”测量。这些子列显示每个研究中使用的评估度量，以及每个数据源使用一些结构和内容挖掘技术执行的评估度量。使用阿拉伯语中的单词或短语结构可以增强文档聚类。预处理和词干提取方法（例如基于根的词干提取器或轻词干提取器）可用于获得相关特征（Al-Anzi 和 AbuZeina，2015;Ashour 等人，2012; Bsoul和Mohd ， 2011; Ghanem ， 2014;Harrag 等人， 2010 年）。Bsoul和Mohd（2011年）研究了使用具有不同相似性度量的基于阿拉伯词根的词干分析器（ISRI）的影响，并建议使用ISRI进行词干分析可以提高聚类质量。与他们的研究类似，Ashour等人，（2012）、Ahmed和Tiun（2014）以及Ghanem（2014）对轻堵塞、基于根的堵塞和无堵塞进行了比较研究。研究表明，轻词干比基于根的词干或没有词干使用精度和召回评估措施更合适。预处理步骤对于消除噪声和仅保留有用信息以增强文档聚类性能是必要的（ Ahmed 和 Tiun ， 2014;Al-Omari ，2011）。另一方面，一些研究人员报告说，使用词干提取来识别阿拉伯语文本聚类的相关特征可能会对聚类结果产生负面影响（Froud等人，20 1 3 年a;H.M. Alghamdi，A.Selamat/ Journal of King Saud University5表1阿拉伯语文本聚类的相关工作总结研究应用聚类方法评价综合方法精度召回F测量纯度03The Dog（2005）分层k均值（HKM）p分层初始集Fejer和Omar（2015）文本摘要K-均值与层次聚类p关键词提取Amine等人（2013）Web pages clusteringK-meanspPre-processing（Stemming，停用词删除）pLSAp p p词干pStemmingSahmoudi等人（2013）网页聚类层次聚类算法p关键词提取Al-Sarrayrih和02 The Dog（2009）文档聚类和浏览基于频繁项集的层次聚类pN元语法Ghanem（2014）Web pages clusteringK-meansp p pPreprocessing（term修剪、词干提取和标准化）Abuaiadah（2016）Web pages clusteringK-means，Bisectk- Meansp预处理（词干提取，停用词删除）Al-Anzi和AbuZeina（2016）文档聚类EM、SOM和k-均值p pLSIAlruily等人（二零一零年）文档聚类SOM基于规则的方法（不及物动词和命题）Ashour等人，2012; Amine等人， 2013年）。特别是，阿拉伯语词干合成器往往会产生高词干错误率（Al-Shammari和Lin，2008年）。基于词根的词干分析器产生过词干分析错误，因为阿拉伯语是高度屈折和复杂的形态学语言（Ashour等人， 2012年），而轻茎（ Larkey 等， 2007 年，他犯了错误。根据 Al-Anzi 和 AbuZeina（ 2015 年， 2016 年）， Al-Omari （ 2011 年）和 Said et al.（2009）词干提取对于基于阿拉伯语文本的任务并不总是有益的，因为许多术语可能与相同的根形式组合。此外，可以在文本表示模型中为具有相同含义的不同单词创建多个条目（ Awajan ，2015a）。此外，仅在聚类中应用词干提取是低效的，因为文档必须根据类别彼此区分其他研究人员（ Fejer 和 Omar ， 2015; Froud 等人， 2013b;Sahmoudi等人，2013;El-beltagy，2006）已经建议使用基于后缀树（ST）数据结构的关键短语提取算法，以通过识别适当的特征来改善聚类结果。然而，当涉及大量网页时，手动分配关键词可能非常耗时（Ali和Omar，2014）。此外，每个生成的关键短语可以附加到作为该特定关键短语的一部分的多个关键短语，并且在选择最相关的关键短语时会出现困难（Sahmoudi和Lachkar，2016）。已经推荐了其他方法来解决阿拉伯语文本的传统聚类算法中的高维问题（ Al-sarrayrih 和 Al-Shalabi ， 2009; Awajan ， 2015 a ，2015 b）。这个问题是由于文本聚类方法中涉及大量的变量。在文档中找到的所有术语都包括在聚类过程中，这导致文档向量表示中的维度非常多。因此，高维数据降低了聚类算法的效率，并最大限度地提高了执行时间。Al-sarrayrih和Al-Shalabi（2009）提出了一种新的方法FIHC（Frequent Itemset-based Hierarchical Clustering），用于获取聚类中他们使用基于单词级别和字符的N元语法字符级别的Trigrams和Quadrams来提取最频繁的项目集。他们使用基于阿拉伯语文本单词级聚类的N-gram获得了令人满意的结果。然而，FIHC方法的一个问题是文档中出现的单词数量作为聚类标准的一部分（Backialakshmi，2015）。Alruily等人（2010年）将信息提取与SOM聚类方法相结合，以帮助从犯罪领域的文档中提取犯罪类型。他们利用一些不及物动词和介词之间的依存关系，将这种方法与基于规则的方法结合起来。他们证明了所提出的方法具有基于句法原则提取关键字的能力。在一些文献中，推荐使用概率主题模型进行文本表示以改进阿拉伯语聚类（ Amine 等人， 2013; Froud 等人， 2013a;Al-Anzi 和AbuZeina，2016）。主题建模的主要目的是实现Web文本内容的机器可理解和语义解释，以便提取知识而不是无关信息。主题模型是基于估计文档中多个主题在一组单词上的概率分布。有许多概率主题模型，如潜在语义分析（LSA），概率潜在语义分析（PLSA）和潜在狄利克雷分配（LDA）。这些模型捕捉语料库中的相关词与一组低维的多项式分布称为“主题”，并提供简短的描述文件。因此，研究人员使用此类模型从大型文本中提取重要主题（Ayadi et al.，2014年; Lu等人，2011;Sriurai，2011）。此外，Amine等人（2013）推荐LDA作为处理阿拉伯语的形态和句法特征的合适模型。Amine et al. （2013）强调了阿拉伯语的形态句法特征对文档聚类性能的影响。他们通过在一组阿拉伯文档上应用LDA和k均值聚类技术来比较LDA和k作者认为，使用概率主题模型（如LDA）比k-means提供了实质性的性能改进 Froud等人（2013 a）应用LSA生成用于在VSM中表示文档的阿拉伯语摘要，并对它们进行聚类，以增强阿拉伯语文档聚类（Froud等人， 2010年）。Froud等人（2013年a）文本摘要K-均值Ashour等人（2012年）文档聚类K-均值03 The Dog（2011）文档聚类K-均值6H.M. Alghamdi，A.Selamat/ Journal of King Saud UniversityAl-Anzi和AbuZeina（2016）利用潜在语义索引（LSI）将相似的未标记文档分组为预定数量的主题。他们比较了三种不同的聚类方法：期望最大化（EM），自组织映射（SOM）和k-均值算法。根据他们的研究，LSI被推荐用于标记文档以及改善聚类结果。Awadalla和Alajmi（2011）建议使用同义词合并来保留特征语义，作为解决特征选择过程中特征同义词排除问题的一种方式。由于阿拉伯语单词和句子的复杂形态特征，阿拉伯语文本分析具有挑战性（ Al-Khalifa 和 Al-Wabil ， 2007 ）（ Beseiso 等人， 2010;Zitouni等人，2010年）。此外，对大量Web文档的深入分析也具有挑战性（SAM，2009），因此需要适当的特征约简和选择技术。此外，错误选择和歪曲相关特征始终是阿拉伯语文本分析技术的一个问题（Awajan，2015 b）。换句话说，阿拉伯语文本聚类的基本挑战在于选择最能代表输入文本的特征，以及设计能够根据特定聚类方法所需的预定义信息进行区分的特征向量模型（Ghanem，2014）。到目前为止，通过协调语义关系和减少高度维度和运行时利用率来增强阿拉伯语内容聚类的文档表示模型的工作是相当稀缺的，而结果存在一定的局限性。因此，一个更好的技术聚类阿拉伯语文本数据与合适的功能选择和减少设计是非常需要的。下一节解释了使用聚类方法分析阿拉伯文网页的主要问题和挑战。2.4. 使用聚类分析阿拉伯语网页的挑战在将文本聚类应用于阿拉伯语网页内容方面存在三个主要挑战。第一个挑战涉及通过考虑隐藏知识来识别重要术语特征以表示原始内容的困难。在输入文本中发现隐藏的知识，如语义信息和类别关系。阿拉伯语具有复杂的形态学并且是高度曲折的（Ashour等人，2012年）。因此，选择适当的功能会积极影响聚类性能。为了进一步澄清术语表示问题，基于文本聚类的特征选择方法将在Sect. .3.第二个挑战是在不丢失基本信息的情况下减少数据维度。在线文本数据数量众多，包含多个维度的特征，这导致了整个聚类过程的复杂性。因此，采用适当的方法从文本文档中自动发现必要的信息可以提供正确的功能，以优化聚类精度。在整个文本分类中，通过估计概率分布来矢量化文档是一种成功的降维方法，用于节省处理时间（Isa等人，2008，2009 a，b; Lee等人，2012年）。为了进一步说明降维问题，基于文本聚类的特征提取方法在Sect. .4.第三个挑战是如何设计一个合适的模型来聚类阿拉伯语文本，能够提高聚类过程的性能。聚类性能主要取决于特征只有当适当的特征选择和特征约简与适当的聚类方法相结合时，网页聚类技术才是有效的（Ghanem，2014）。然而，提高聚类性能需要计算算法，适应适当的，使用成熟的聚类方法进行特征选择或减少方法，能够获得更高的性能（Jain和Murty，1999）。根据表1，不同的方法已被应用于聚类阿拉伯语文本。大多数列出的研究报告使用 k 均值（ Froud 等人， 2013 a; Amine 等人， 2013;Ashour等人，2012;Ghanem，2014）。Ghanem（2014）强烈建议将k-means用于阿拉伯语文本聚类。然而，Said et al. s（2009）的研究表明，如果采用适当的特征选择和提取方法，阿拉伯语文本聚类性能可以进一步提高。为了确定最合适的聚类方法，一些基于文本聚类的可用方法在第0.53. 特征选择方法有三种类型的特征：不相关的，强相关的和弱相关的特征（Ghwanmeh，2005）。不相关的特征可以在不影响聚类性能的情况下被消除，而强相关的特征包含有用的信息，去除这些特征会降低聚类性能。弱相关特征包含对聚类有价值的信息，尽管它们不一定与其他词相关。特征选择方法旨在消除不相关或冗余的特征，并将包含可靠有用信息的特征保留在语料库内（Seo等人，2004年）。特征选择是非常有益的，因为它减少了聚类方法的操作时间。当删除不必要的特征时，这会导致小尺寸的数据集。此外，它还提高了聚类精度通过去除无意义的特征并保留聚类文本文档中的重要特征。所识别的特征有助于数据聚类最大化聚类之间的距离和最小化聚类内的距离（Chen，2015）。因此，处理语料库所需的机器内存大小被最小化。特征选择已经成功地应用于许多实际应用中，例如用于无人机图像的基于对象的土地覆盖制图的模式识别（Ma等人， 2017年），或提高数字病理学地面实况数据集的质量（Marée，2017年），在文本分类中正确识别学生数据集（Rajeswari和Juliet，2017年）或识别恐怖主义相关文件（Choi等人，2014; Sabbah等人，2016 a），在股票预测等投资决策中（Tsai和Hsiao，2010），在疾病早期诊断的图像处理中（Adeli等人，2017; Yang等人， 2017），等等。特征选择算法分为两大类：基于过滤器模型的算法和基于包装器模型的算法（Yu and Liu，2004）。过滤器模型取决于根据输入文本的共同特征来估计和选择特征子集，而不涉及任何其他算法。在特征选择中考虑相关性度量（Chen，2015），其中特征要么依赖于（相关，恒定，可靠，重要或有帮助）客观类别，要么暂时独立于其他特征。滤波器方法被广泛使用在文本聚类字段中，通过文档频率（DF）、信息增益（IG）、互信息（MI）、卡方（CHI）和术语强度（TS）等得分矩阵来选择特征。另一方面，包装器模型需要预先指定的学习算法来训练和搜索特征。它的目标是成功地访问所有可能的特征子集的空间，以选择最佳的特征子集，从而提高性能。特征选择方法已经被证明对于文本分类和聚类是有价值的（Dong等人，2006年; Mesleh，H.M. Alghamdi，A.Selamat/ Journal of King Saud University7X吉吉ð ÞCHICHI2½]2007 a，b，2008; Simanjuntak等人， 2010年）。A feature selectionMM由Abbasi et al. 2008年，他表示，IGt-Xpci：logpciP tXpcijt：logpcijt在意见分类中的文体和句法特征的对比。1/ 1M1/ 1作者证明，使用这种方法可以改进用于每个情感类的主要特征的识别。阿拉伯语文本聚类经常使用的特征选择方法有DF、IG、CHI、TS和TC。DF、IG和CHI在提取文本分类的任何重要术语方面被证实是相关的（Yang和Pedersen，1997）。根据无监督特征选择的比较研究，TS和TC在文本聚类中优于DF（Liu et al.，2003年）。TC作为无监督的特征选择方法表现出更多的优点（Liu等人，2005年）。下面详细介绍每种特征选择方法3.1. 文件频率（DF）DF被认为是具有文本分类功能的更有效的特征选择方法之一（Dong等人，2006年）。DF是最简单的方法，成本较低，但其性能水平与CHI和IG特征选择方法相似（Yang和Pedersen，1997）。DF获取语料库中包含特定术语的文档，并排除所有文档登录注册登录注册1/1其中pci是文档变量d与类ci，pcijt是类ci的概率，给定文档d不包含项t，而p ci t是当文档d包含项t时类ci的概率。3.3. 卡方（CHI）CHI方法用于评估与文本特征和文本类别相关的独立性的缺乏。当使用CHI与SVM时，高阿拉伯语文本分类有效性是明显的（Mesleh，2007 a，b; Thabtah等人，2009年）。从本质上讲，CHI特征选择被证明是一个合适的方法分类阿拉伯语文本。卡方的数学定义在等式中给出。（2）（Mesleh，2008），其中t表示一个术语，c表示一个类别，Pc计算为与类别c无关的文档数除以训练文档总数不包含指定的术语。这意味着该术语是N2根据其出现的频率加权，语料库的单个文档。因此，如果集合有10个文档，而术语A出现在4个文档中，则术语A的权重为4。这种技术遵循一个基本假设，即不常见的术语要么对预测类别没有信息，要么在整体表现中不重要（Xu：Pt;c：Pt;c Pt;cPt;cÞ¼PðtÞPðtÞPðcÞPðcÞ3.4. 术语强度（TS）ð2ÞChen，2010）。如果某些项与较低的预定义DF阈值不匹配，则将其删除。基于此假设，具有较低DF的项被认为是对文档表示的噪声，并且对聚类过程没有价值3.2. 信息增益IG方法根据文档d中没有出现项t来计算类别预测的信息ci数（Xu和Chen，2010）。结合文档频率和信息增益的混合方法在阿拉伯语文本的KNN分类器所使用的术语选择中表现最好（Syiam和Fayed，2006）。此外，IG用于增强支持向量机（SVM）学习算法，如Chen（2008）所做的那样，并且超过了标准SVM模型。对于每个类别，i1;M，其中M是语料库中的类别数量项t的IG在等式中定义。（1）（Mesleh，2008年）：TS方法首先由Wilbur和Sirotkin（1992）引入，用作文本检索中的停止词减少手段。后来，Yang（1995）将TS应用于文本分类。当与大量文档一起使用时，TS可能具有高计算复杂度，这可能导致参数调整的困难（Liu等人， 2003年）。这种方法是基于估计术语强度，其中强术语相对信息丰富，并为相关文献所共享（Do和Hui，2006）。该方法包括两个步骤：i 使用两个文档的余弦相似性度量值sim（di，dj）计算语料库中所有文档的相似性如果sim（di，dj）超过预定义阈值，则di和dj被认为是相似的。ii 术语t的术语强度根据术语t出现在文档dj中时出现在文档di中的条件概率计算如下：表2单一和混合特征选择方法的总结参考特征选择方法组合方法应用Wang等人（2007年）词类区分能力和IG类别区分后的IG中文文本情感分类Chantar and Corne（2011）BPSO和KNN基于BPSO的阿拉伯文文档分类Habib等人（ 2006）DF和IGIG后DF阿拉伯文文件分类Sabbah等人。（2016 b）TF，DF，IDF，TF-IDF，Glasgow和Entropy联合和对称差分

下载后可阅读完整内容，剩余1页未读，立即下载