基于语义类特征的阿拉伯语新闻网页聚类研究

188 浏览量更新于2024-01-14 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Journal of King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com基于语义类特征的哈南·MAlghamdia，b，*， Ali Selamatb，c， Nor Shahriza Abdul KarimdaUmm Al-Qura大学计算机科学系，沙特阿拉伯Al-Gunfdhb马来西亚科技大学计算机系，UTM，Johor Bahru，Johor 81310，MalaysiacUTM-IRDA Digital Media Center of Excellence，Universiti Teknologi Malaysia，UTM，Johor Bahru，Johor 81310，Malaysiad沙特阿拉伯利雅得Rafha街66833号苏丹王子大学计算机信息科学系，邮编115862014年9月28日在线发布摘要有效地管理阿拉伯语网页上的大量数据，并对相关信息进行分类是非常重要的研究问题。关于情感文本挖掘的研究在阿拉伯语中非常有限，因为它们需要深入研究语义处理因此，在本文中，我们的目标是检索机器可理解的数据的帮助下，Web内容挖掘技术，以检测这些数据中的隐藏知识。我们提出了一种方法来实现聚类与语义相似性。该方法将k-means文档聚类、语义特征提取和文档矢量化相结合，根据语义相似度对阿拉伯语网页进行分组，并给出语义标注。文档矢量化有助于将文本文档转换为语义类别概率分布或语义类别密度。为了达到语义相似性，该方法提取的语义类特征，并将它们集成到相似性加权模式。利用纯度和平均类内距离（MICD）评价指标对聚类结果的质量进行了评价。我们已经评估了一套共同的阿拉伯语新闻网页上的建议的方法。我们已经获得了良好的聚类结果，有效地减少了MICD，扩大纯度和降低运行时间。2014年沙特国王大学。制作和主办：Elsevier B.V.All rights reserved.*通讯作者：马来西亚科技大学计算机系，UTM，Johor Bahru，Johor 81310，Malaysia。电子邮件地址： hanani. gmail.com （ H.M.Alghamdi ），aselamat@utm.my（A.Selamat），nshahriza@pscw.psu.edu.sa（N.S.Abdul Karim）。沙特国王大学负责同行审查1. 介绍阿拉伯文网页的增长和其中包含的大量文本（其包含无组织的信息数据）促使有必要采用能够明智地管理这些文本数据的解决方案（Elarnaoty等人，2012年）。由于这些文本的非结构化特征，机器无法有效地理解有价值的知识。已经进行了许多研究，对相关信息进行分类，并支持对互联网上现有文本的操纵文档聚类是最常见的http://dx.doi.org/10.1016/j.jksuci.2014.06.0021319-1578年< $2014年沙特国王大学。制作和主办：Elsevier B.V.All rights reserved.制作和主办：Elsevier关键词k-均值;语义相似度;文本聚类;阿拉伯语网页阿拉伯文网页聚类与标注389用于将包含相关信息网页分类为一组的技术（Froud等人，2013年）。这种技术加快了分配具有相似信息的文档的过程。此外，由文本内容识别的语义元数据的产生似乎是揭示隐藏知识的一种方式（Faria等人，2013年）。提取语义特征有助于基于它们之间的语义相似性捕获对给定文档的更多理解（Chang和Lee，2011）。语义标注被定义为从文档中索引和检索有价值的信息这个过程的目的是提供人类和机器都能理解的数据。在本文中，我们的目标是检索机器可理解的数据的帮助下，Web内容挖掘技术，以检测这些数据中的隐藏知识。此外，我们试图找到网页之间的语义相似性和聚类的基础上的相似性。我们在Arabic VerbNet1（Mousser，2010）的帮助下提取语义注释，以产生Malik和Rizvi（2011）所建议的关于所包含知识的图片。通过使用这种技术，我们将能够根据在其内容中找到的语义特征来注释结果聚类。本文的组织结构如下：第二部分，介绍了相关的工作.第3节讨论了所提出的模型。第4节解释了研究设置。第5节给出了实验结果。最后，第六节给出了结果2. 相关作品当前的网页分析技术根据所使用的分类级别（句子，短语或文档级别）或所使用的技术所考虑的特征类型而有所不同。根据Abbasi等人（2008年），观察到的特征类型是（1）句法，其涉及单词的结构，其中考虑单词的语义取向，以及（2）文体，其关注单词风格（Abbasi等人，2008年）。情感文本挖掘的研究在很大程度上局限于阿拉伯语（Farra等人，2010年）。由于阿拉伯语单词和句子的形态特征，对阿拉伯语文本的分析具有挑战性（Al-Khalifa和Al-Wabil，2007; Beseiso等人，2011年）。为阿拉伯语开发一个机器可理解的系统涉及到区分和深层语义处理。Farra等人认为，阿拉伯语文本情感挖掘方法有两个方面，即，句子层次和文档层次。在他们的研究中，他们使用句子的识别极性来对文档的一般极性进行分类（Farra etal.， 2010年）。Abbasi等人一起使用句法和文体特征来对多语言（英语和阿拉伯语）网络论坛中的意见进行分类（Abbasi等人，2008年）。然而，在分类过程中没有考虑语义特征.Froud等人（2010年）研究了词干提取对阿拉伯语文本文档聚类的影响（Froud等人， 2010年）。研究结论是，1VerbNet可从http://ling.uni-konstanz.de/pages/home/mousser/files/Arabic_verbnet.php下载。文档和预处理可以使文档更小，聚类速度更快。其他研究集中于根据语义相似性对文档进行分类的方法，但与阿拉伯语以外的语言。Shaban（2009）提出了一种通过确定文档之间的相似性来根据语义信息对文档进行聚类的方法。该方法是由语义组件，以提供一个准确的文档之间的相似性度量。因此，该方法可以用来解决文档聚类问题。最终，该方法产生有效的文档聚类，能够识别文档中文本的含义和结构。语义标注可以指导对文档的理解和分类，揭示信息性知识。在Nguyen et al.（2009）和Park and Lee（2012）中，作者提出了一个用于聚类和标记Web文档隐藏主题的框架。通过揭示隐藏的主题并为注释聚类做好准备，可以产生更有意义的聚类，并且聚类的质量可以完善据我们所知，根据语义相似性对文件进行分类，以便从阿拉伯文网页中检索信息是有限的。在这项研究中，我们打算提取阿拉伯语网页的语义特征，并根据这些特征的相似性，这些网页聚类。我们认为，一个词，携带很强的语义信息可以揭示隐藏的知识。在所提出的方法中，我们没有使用任何机器翻译工具，这些工具可能会导致意义的损失或由于错误的单词和语言模型选择而导致的一些语义扭曲（Larkey 等人， 2004年）。相反，我们使用阿拉伯语文本的可用词汇资源来处理阿拉伯语，如阿拉伯语VerbNet。该工具提供了系统的调查语义/句法方面的形态系统。根据Hawwari等人（2013年）的研究，阿拉伯语动词网是阿拉伯语动词的词汇资源之一，它为阿拉伯语动词分类提供了大量覆盖面，并具有形态系统的语义方面。Mousser（2010）的工作基于英语VerbNet项目（Kipper等人，2008年），是一个代表莱文的语法修改成阿拉伯语。在这项研究中，我们使用阿拉伯语VerbNet来寻找网页之间的语义相似性。这个资源通过应用动词类的概念给出了关于阿拉伯语动词的语法和语义的基本信息。Mousser（2010）工作的当前版本有202个类，填充4707个动词和834个框架。这些框架考虑动词可能出现的变化。每个类都是一个语法结构，提供有关动词的句法和语义信息，并将它们预先分配给子类。3. 该模型如图1所示，该模型利用阿拉伯语网页的语义相似度进行聚类，并借助阿拉伯语VerbNet词法分析工具，根据语义特征（密度或概率分布）生成文档向量化，然后对聚类结果进行语义标注。它包括两个主要阶段：（1）抽取语义特征和文档矢量化，对阿拉伯语网页进行分组390H.M. Alghamdi等人语义标注WebPageText基于语义类特征阿拉伯文语义标注聚类标注文档矢量化语义特征提取图1提出的模型。根据语义相似度进行语义标注;（2）给出语义标注。该方法分为三个步骤：（1）语义类特征提取，（2）文档向量化，（3）聚类与标注。该模型的工作原理如下：该模型采用未注释的文档（待分类），它将通过使用语义特征提取来识别所有的意见词，然后它将聚合所有的词来为文档提供语义注释。3.1. 语义类特征特征提取的任务是找到一个或多个语义类和文档之间的语义对应例如，考虑如图2所示的文档内容和语义类存储库。此任务必须提取在文档中找到的语义类的属性/值方面的特征因此，它组合并细化文档对于每个文本，动词被提取并基于语义类分组在一起。该过程遵循Al-Shalabi和Kanaan（2004）构建的基于规则的POS标记。每个单词条目都被标记为名词、动词或停用词。在本研究中，动词将只用于分配语义类。在阿拉伯语VerbNet（Mousser，2010）中，动词可以使用基于lex-icon的任务（Ahmed，2009）与其语义类相关。在这个任务中，每个语义类都有一组与之相关的动词如果找到动词，则为文档中提取的单词或术语分配适当的类。在此任务结束时，它将使用单词和语义类作为向量。因此，每个提取的文档可以具有多于一个的语义类。3.1.1. 使用阿拉伯语VerbNet为了从输入动词生成语义特征，分析器被实现为我们的模型的一部分，以自动生成这些特征。阿拉伯语VerbNet框架包含每个动词的句法和语义信息的描述。动词的语义意义，如原因，情绪状态，运动和由，与每个框架相关联（Mousser，2011）。分析器将提取阿拉伯语动词网络中的动词以及与这些动词相关的语义框架，一个本地帧数据库，用于我们的模型。在提取的帧上发现的语义信息将被用作我们模型中的语义类。因此，语义类将根据从阿拉伯语VerbNet中提取的局部框架与动词相关联。动词的语义类别可以定义为这个动词的语义特征对于从POS标记产生的每个动词，分析器将在本地框架数据库中查找该动词，并将该动词与适当的语义类相关联。由于一词多义，每个动词可以与一个以上的语义类。3.2. 文档矢量化文档矢量化任务如图3所示，其使用从先前步骤提取的语义类特征来表示文档。术语“语义类”是指从VerbNet获得的动词类。该任务执行文档矢量化，将每个文档文本转换为通过利用语义类密度或概率分布来表征所包含的语义类特征的矢量。W1cls1doc1W2cls2W5W3cls3W（cls|doc21 1W4图2语义类特征提取过程。图3文档矢量化。阿拉伯文网页聚类与标注391Pj不X该任务使用语义类特征来提供一系列概率，可以根据基于语义类特征提取的预先指定的语义类集合来将文档分配到这些概率。该方法利用向量化技术，将文本文档转化为向量空间中的语义类概率分布或语义类密度。因此，这些矢量化可以用来计算网页之间的语义相似度3.2.1. 语义类密度语义类在网页内的分布可以提供额外的隐式知识。语义类密度假设语义类相关文档具有与语义类大致相同的密度。3.2.2. 语义类概率分布每个文档都可以用其在语义类上的概率分布表示为一个特征向量空间。贝叶斯公式可用于计算根据预先定义的类别集合可将文档分配到的概率。我们计算每个语义类（cls 1，cls 2，cls 3，. . clsx）使用等式（3）（Isa等人，2008; Mohammad等人，2007年）。如果将文档doc d分配给语义类cls 1的概率值计算为P（cls1|doc d），则每个文档doc d具有x个概率分布P（cls 1|docd），P（cls 2|doc d），P（cls 3|doc d），.. . P（cls x|doc d）如表1所示。在Isa等人（2008）中给出了贝叶斯向量化的详细描述，如下所示：语义类密度是一个语义类的平均出现频率PclsjwPwtjclsiωPclsið3Þ我不类的集合。在这一步中，文档DOCD中的语义类CLSI被计算为Pwt将每个语义类的类频率与所有语义类的总频率合并得到类的总权重（clsi）的公式如下：奥什科尔斯岛其中wt是从文档docd中提取的单词，z是指DOCD、CLSI中的单词总数是指语义类编号I，而X是可用语义类的总数。W clsi docd%s文档% dOakcls酒店1楼3.3. 聚类和功能分析其中，Oclclsi是文档（docd）中类（clsi）的总出现次数，并且它被计算为所有单词上的频率之和，如下所示：OakclsiFwe ）we2clsiandwe2docd2如果文档doc中语义类cls 1的密度值计算为W（cls 1| docd）则每个文档doc d具有语义类的x个权重，其将表示（文档向量化）DV（doc d）= W（cls 1| doc d），W（cls 2|docd），W（cls 3|doc d），.. . W（cls x| doc d）。文档矢量化被设计为用于分类目的的k均值聚类的输入。在该模型中，文档矢量化任务被用作文本表示模型，其中文档矢量化将文本表示为可理解的机器矢量，并有助于创建分析和分类系统。聚类步骤的结果是具有语义信息数据的聚类，这些语义信息数据可用于向所得到的聚类添加语义注释。表1语义类概率分布计算。文档d矢量第1页jdocdPnt1/2P联系我们1不Pnt1/2P clsj w我不X文件编号Xdoc1P cls1j w5P cls1j w2P cls1j w13Pclsijw3Pclsijw2·····zP cls1j doc1;： P clsij doc1doc2P cls1j w3P cls1j w1 P cls1j w2P cls1j w54Pclsijw3Pclsijw1·····zP cls1j doc2;： P clsij doc2docdP cls1j w1 P cls1j w2P cls1j w43Pclsijw1Pclsijw2······zPcls1jdocd;：Pclsxjdocd392H.M. Alghamdi等人XJJ¼3.3.1. 聚类在聚类步骤中，平方欧几里德距离（Cha，2007; Deza和Deza，2006）用于表示目标文档与所选聚类的接近程度或分离程度。使用平方欧几里德距离度量的聚类比使用常规欧几里德距离的聚类更快（Fabbri等人，2008年）。两个分布P（di）和P（dr）之间的平方欧几里德距离在等式中计算。（4）如下：SIM卡Di;r1Pð4Þ4. 实验设置和评价之后，k-means将向量化的文档d聚类为基于语义类的概率分布或密度，包含相似属性的合适聚类。在每个聚类中发现的文档根据每个聚类中识别的语义类的相似性进行聚集。4.1.1. 语义标注语义标注可以定义为在文档中插入语义标签的过程，该过程允许文档由人类或使用自动化软件代理进行处理。阿拉伯文网页的语义注释是根据最高的语义特征相关性分数分配的，作为一种方式来产生关于所包含的知识及其在域中的语义的图片（Malik和Rizvi，2011）。从第一个任务中提取的特征有助于指定最相关的语义注释。为了注释相关的聚类，聚类中发现的每个语义特征的适当性得分是有限的。然后，聚类的注释是得分最高的五个主题的混合。因此，具有高分的聚类表明文档与该主题的语义含义更相关（Deng，2011）。为了测量聚类k和语义主题Stj之间的相关性得分，使用基于聚类k之间的平均得分和语料库之间的平均比率的两种方法（Smith和Tesic，2006）。这些方法解释如下：聚类k中的平均得分：该方法计算语义主题权重的平均值以确定该主题与聚类k的关系。结果，权重比聚类k的平均值强的那些语义主题是该聚类的最重要的主题，该聚类按权重从最重要到最不重要排序。假设语义主题j的平均值属于聚类k，如等式（1）中所示。其中，lSt是语料库中语义主题j该评估旨在找出推荐模型的效果，旨在找出网页之间的语义相似性，并提取语义注释对聚类质量和性能的影响默认的聚类数被设置为与数据集中预先分配的类别数及其倍数相同。当我们执行测试时，我们需要为分类算法准备收集的网页。预处理阶段旨在收集和提取相关的网页，并减少噪声项（内容中不需要的项），以简化测量特征权重的技术。此阶段包括使用Web提取器代理收集网站的URL种子作为数据集，以及包含标记化和规范化、标记和词干的文本预处理阶段。Alghamdi和Selamat（2012）清楚地描述了预处理阶段。本节的其余部分阐明了评价标准和试验结果。4.2. 数据集在这项研究中，我们收集了语料库的档案在线阿拉伯语报纸，因为没有共同的阿拉伯语数据集可用于测试所提出的模型。这些报纸是《消息报》2、《生活报》3、《Aldostor报》4、《Gomhuria在线报》5、《消息报》Alarab.Net6、《利雅得报》7和《沙特时报》8。这些在线报纸通常用于与阿拉伯语文本语言相关的许多应用（Alsaleem，2011，2013;Karima等人，2012年; Saleh和Al-Khalifa，2009年）。所收集的数据集包含753个文档，这些文档具有不同的单词长度。如表2所示，这些文件属于六个类别。我们采用了Web提取器代理（Easy Web Extract版本2.79）从这些网页中提取文本数据。SLk¼lStk5语料库间平均比率（MRAC）：这种方法基于测量语义主题对语料库中所有其他文档的重要性得分（Smith和Tesic，2006）。假设语义主题j的主要比率属于聚类k，如等式（1）所示。其中，lSti是语料库中语义主题jlStk2Al-Akhbar在线新闻可查阅http://www.al-akhbar.com/。3Alhayat在线新闻可查阅http://alhayat.com/。4Aldostor在线新闻可在http://dostor.org/查阅。5Gomhuria在线版，可查阅http://www.gomhuriaonline.com/。6Akhbar Alarab.Net在线新闻，可查阅http：rab.net/。7Alriyadh在线报纸，可查阅http://www.alriyadh.com/section.home.html。SLkjjlStjð6Þ8《沙特时报》在线报纸，可在http://www.saudi-times.net/Default.aspx。9Easy Web Extract网页（http://webextract.net/）。●●2表2阿拉伯语数据集。类别名称文件数量政治新闻194经济新闻133体育新闻126社会新闻60文化新闻101技术科学新闻139总753阿拉伯文网页聚类与标注393X2（）下一页我N我我4.3. 评价标准1KDBI ¼k最大值j/1···k;j- idiamcidiamcjkl-lkð9Þ使用上述数据集的聚类结果的质量使用三个评价度量来评价，即纯度度量、平均聚类内距离（MICD）和DaviesBouldin指数（DBI）。这些措施被广泛用于评估-评估无监督分类算法1 2 3 4 5 6 7 8 910 11 12 13 14 15 16 17 19其中，簇的直径定义为：直径为1Xkc-1k2mm10mmixsci（ Chawla 和 Gionis ， 2013; Forsati 等人， 2013; Huang ，2008;Rana等人，2013年）。这些评价措施计算如下：其中，diam（ci）和diam（cj）是聚类i和j中的所有数据向量到它们各自的聚类质心在等式（10）中，L1是聚类C1的中心，N个点和kl-lk2 是两个点之间纯度测量：该测量用于估计结果聚类的相干性。我们的方法评估的程度，一个集群包围文件从一个parttic-ular类别。大小为ei的单个簇Ci的纯度在等式中正式定义。（七）：ii j这些中心。强结构和良好的聚类具有较小的MICD（相似的数据向量被分组在一起），较小的BDI（良好分离的紧凑聚类）和高纯度。纯度：≤1最大eh我ð7Þ爱喜5. 结果其中maxheh表示聚类Ci中的主类别，hi应用所提出的模型的结果来自ei对应于集群中的文档数量注释到类别h的Ci。在由来自单个类别的组文档组成的最优聚类中，其纯度率为1（Huang，2008）。平均聚类内距离（MICD）：该度量是数据向量与其聚类中心之间的距离，其中低MICD表示紧凑的聚类，而高 MICD 表示松散的聚类（ Rana 等人， 2013 年）。MICD计算公式如下：（八）：两个实验。进行第一个实验以显示与标准k均值相比所提出的解决方案的适合性。第二个实验是为了说明语义标注过程的输出，在那里我们可以标记得到的聚类。图4展示了使用纯度评估的所提出的方法的结果。使用k-均值的文档向量化（语义类概率分布或语义密度）足以创建更连贯的聚类，MICD¼Xkci-lKkcisC Kð8Þ在类别上划分得很好。文档矢量-使用k-均值的化意味着聚类具有高纯度成绩.Davies–Bouldin index (DBI): This measure aims to彼此分离紧密的星系团它在聚类向量内考虑聚类中心之间的方差和距离（Demiriz等人， 1999年）。DBI值越小，聚类结果越好已经发现它是最好的指数之一（ Arbelaitz 等人， 2013 年 ;Rend o'n 和Abundez，2011年）。 DBI计算公式如下：（9）：图5示出了基于MICD评估的比较结果。MICD的值较低意味着聚类中的所有点都彼此靠近。使用向量化（语义类概率分布或语义密度）和k-均值得到的聚类似乎更紧凑。提出的模型往往优于标准的k-均值。基于DBI评估的比较结果如图所示。六、DBI的较小值意味着，6 12 18 24 30 36 42 48 54聚类数图4纯度结果。语义类别概率和k-均值语义类别密度和k-均值k-means纯度●●●NK394H.M. Alghamdi等人语义类概率与kmeans语义类密度与kmeansk-means语义类概率与kmeans语义类密度与kmeansk-means6 12 18 24 30 36 42 48 54聚类数图5平均聚类内距离（MICD）结果。12 18 24 30 36 42 48 54聚类数图6Davies-Bouldin指数（DBI）结果。6 12 18 24Num30ber of3C6lusters42 48 54图7消耗的时间是聚类之间的良好分离距离，并且聚类中的点与其中心之间的距离很小。使用k-均值对语义类概率分布或语义密度进行向量化得到的聚类似乎具有较小的DBI值，这意味着所提出的方法优于标准k-均值。比较方法所消耗的时间如图7所示，其中经过的时间以秒为单位测量。我们可以看到，运行时间逐渐上升，当集群的数量增加。标准k-均值的运行时间比其他两种解决方案所消耗的时间要长得多。相比之下，使用文档语义类概率与k-means使用kmeans的时间（秒）平均群内距离（MICD）Davies-Bouldin指数（DBI）阿拉伯语网页聚类和注释395图8使用k-means语义类密度矢量化的语义标注示例图9使用k-means语义类概率分布矢量化的语义标注示例利用K均值的向量化（语义类概率分布或语义密度）实质上更短。使用该解决方案，具有语义密度的矢量化花费85秒将753个文档简单地分类为54个聚类图8和图9中示出了当使用具有k均值的（语义类密度或语义类概率分布）向量化时的聚类号6的语义注释。 9，分别。每个聚类由五个最高和相关的语义特征以及它们各自的百分比表示相关性得分基于两个变量：主题在聚类k中的平均得分和主题在语料库中的平均比率。6. 讨论和结论计算结果表明，本文提出的方法具有合理的精度和快速性.通过本文提出的k-means文档矢量化解决方案，我们成功地提高了文档的纯度，降低了MICD和BDI与标准的k-means算法相比。此外，我们设法降低运行时间使用所提出的解决方案。接下来，使用所提出的具有k-均值的文档矢量化，文档的维数从753· 4681减少到753· 131。因此，在我们的方法中，文档矢量化有助于将文本文档转换为向量空间中的语义类概率分布或语义类此外，文档矢量化允许我们根据语义类特征来表示网页，这些特征随后用于计算网页之间的语义相似度。这些网页中的语义注释揭示了关于这些网页中使用的通信的信息性阐述。如图 8和图 9，我们可以看到，根据每个聚类中发现的动词，每个聚类可以被标记为五个不同百分比的语义特征。因此，建议的解决方案能够显示在一个集群中分组在一起的相似网页之间共享的语义特征。396H.M. Alghamdi等人我们相信，使用所提出的方法是一个很有前途的技术，分类阿拉伯文网页之间的语义相似性，根据它们与低运行时间和准确率的该方法旨在增强基于语义相似性的文本聚类的文档表示模型。对于未来的工作，我们计划利用所提出的方法来提取与恐怖主义和极端主义有关的阿拉伯语网页致谢作者要感谢马来西亚教育部、Vot 03H02下的马来西亚技术大学（UTM）、乌姆库拉大学（UQU）和沙特阿拉伯高等教育部对本研究的支持引用Abbasi，A.，陈洪，Salem，A.，2008.多种语言的情感分析：网络论坛中意见分类的特征选择。ACM Trans. Inf. Syst. 26，1-34.Ahmed，Z.，2009.面向语义标注的领域特定信息提取。布拉格查理大学，捷克共和国和南希大学，法国。Alghamdi，H.M.，Selamat，A.，2012.基于改进向量空间模型的阿拉伯语Dark网站主题检测。第四届数据挖掘与优化会议（DMO）马来西亚兰卡威，第100页。6-11.Al-Khalifa，H.，Al-Wabil，A.，2007.阿拉伯语和语义网：挑战和机遇。参加：第一届计算机和阿拉伯语言展览国际研讨会，沙特阿拉伯利雅得。Alsaleem，S.，2011.使用SVM和NB的阿拉伯文文本自动分类。Int.阿拉伯河电子技术2，124-128.Alsaleem，S.M.，2013.阿拉伯文文本自动分类的类神经网路。在：计算机应用技术国际会议（ICCAT），页。1比6Al-Shalabi河，Kanaan，G.，2004.阿拉伯语自动词典的构建。Int.J. Comput. INF. Sci. 2，114-128.Arbelaitz，O.，古尔鲁茨加岛，Muguerza，J.，佩雷兹，J.M.，佩罗纳岛，2013年。聚类有效性指数的广泛比较研究。模式识别。46，243-256.Beseiso，M.，Ahmad，A.R.，伊斯梅尔河，2011.一个用于语义网的阿拉伯语框架。在：语义技术和信息检索国际会议。IEEE，Putrajaya，Malaysia，pp.7比11Cha，S.，2007.概率密度函数之间的距离/相似性度量的综合调查。国际数学模型与方法应用科学杂志。1，300-307。张，Y.，李，K.，2011年。稀疏主题模型的贝叶斯特征选择IEEE International Workshop on Machine Learning for SignalProcessing（IEEE信号处理机器学习国际研讨会）IEEE，中国北京，pp. 1比6Chawla，S.，Gionis，A.，2013. K-Means：聚类和离群点检测的统一方法。第13届SIAM国际数据挖掘会议。Austin，Texas，USA，pp. 189-197.Demiriz，A.，Bennett，K.，Embrechts，M.，1999.基于遗传算法的半监督聚类。人工神经网络工程（ ANNIE-99 ） ASMEPress，pp. 809- 814Deng，X.，2011.通过在Twitter对话中包含潜在语义分析来衡量影响力。阿格德尔大学。Deza，M.- M.，Deza，E.，2006.第14章概率论中的距离在：距离的字典Elsevier，pp. 176-188.Elarnaoty，M.，AbdelRahman，S.，Fahmy，A.，2012.阿拉伯语中意见持有者抽取的机器学习方法。Int. J. 第内特尔Appl. 3，45-63。法布里河，科斯塔，L.D.F.，Torelli，J.C.，布鲁诺，天啊，2008.二维欧氏距离变换算法。ACM计算监视器401-44法里亚湖Akbik，A.，Sierman，B.，Ras，M.，2013.利用网络信息抽取的自动保存观察：自然语言语义抽取用于数字保存的案例研究。第十届数字对象保存国际会议，葡萄牙里斯本。法拉，N.，Challita，E.，Assi，R.A.，哈吉，H.，2010年。阿拉伯语文本的句子级在：IEEE国际会议数据挖掘研讨会，IEEE计算机协会，页。1114-1119福尔萨蒂河，Mahdavi，M.，Shamsfard，M.，Meybodi，M.R.，2013. 用于文档聚类的有效随机算法。信息科学220，269-291.弗劳德，H.，Benslimane河，Lachkar，A.，Ouatik，S.A.，2010.用于阿拉伯文文档聚类的词干和相似性度量。第五届I/V通信和移动网络国际研讨会（ISVC），IEEE，pp。一比四弗劳德，H.，萨赫穆迪岛Lachkar，A.，2013.一种基于新的关键词提取算法的阿拉伯文文档聚类改进方法。Comput.科学， 243-256Hawwari，A.，Zaghouani，W.，O'Gorman，T.，Badran，A.，Diab，M.，2013.建立阿拉伯语形态模式的词汇语义资源。在：国际会议上通信，信号处理，及其应用（ICCSPA），IEEE，pp。1比6Huang，A.，2008.文本文档聚类的相似性度量。在：新西兰计算机科学研究学生会议（NZCSRSCIsa，D.，Lee，L.H.，卡利马尼副总裁RajKumar，R.，2008.文本文档预处理，使用贝叶斯公式进行分类，使用支持向量机。Trans. Knowl. Data Eng.20，1264-1272。Karima，A.，Zakaria，E.，Yamina，T.G.，2012.阿拉伯语文本的语义化：不同表征模式的比较研究。J. Theor.应用信息技术38，1-5。Kipper，K.，Korhonen，A.，Ryant，N.，帕尔默，M.，2008.英语动词的大规模分类。浪资源。Eval. J. 42，21-40。L.S. 的 Larkey ， Feng ， F. ，中国农业科学院，康奈尔， M. ，Lavrenko，V. 2004.多语言主题跟踪中的语言特定模型。信息检索特别兴趣小组（SIGIR）ACM，Sheffield，UK，pp. 402-409Malik，S.K.，Rizvi，S.，2011.使用网页使用挖掘、网页抓取与语意注解进行资讯撷取。在：计算智能和通信网络国际会议，IEEE计算机协会，pp。465-469Mohammad ， S. ， Resnik ， P. ，赫斯特， G. ， 2007. TOR ，TORMD：用于无监督词义消歧的概念分布轮廓。在：第四届语义评估国际研讨会的会议记录，Stroudsburg，PA，pp。326-333Mousser，J.，2010.阿拉伯语的大覆盖率动词分类。第七届国际语言资源和评估会议（LREC'10），瓦莱塔，马耳他，pp。2675-2681。Mousser，J.，2011.使用兄弟类对阿拉伯语动词进行分类。在：计算语义学国际研讨会。Oxford，UK，pp. 355-359Nguyen，C.，Phan，X.，Horiguchi，S.，2009.网络搜索聚类与隐藏主题标注。ACM亚洲语言信息翻译过程。八，三十七。公园，S.，Lee，S.R.，2012.使用语义术语的文本聚类。Int. J.Hybrid Inf. Technol. 5，135拉纳，S.，Jasola，S.，库马尔河，巴西-地2013.一种用于数据聚类的边界约束自适应粒子群优化算法。Int. J. Mach. 学习.赛博恩4，391-400。阿拉伯语网页聚类和注释397Rend o'n，E.，阿本德兹岛2011年。内部与外部群集验证索引。国际计算机Commun. 五、Saleh，L.M.B.，Al-Khalifa，H.，2009. AraTation：一个阿拉伯语语义注释工具。在：第11届信息集成和基于Web的应用程序和服务国际会议论文集，ACM，pp。447-451Shaban，K.，2009.一种基于语义的文档聚类方法。J. 软件。4，391-404.史密斯，J.R.，Tesic，J.，2006.多媒体内容簇的语义标记。在：多媒体和博览会国际会议。 IEEE， Toronto ，Canada ， pp.1493-1496年。

下载后可阅读完整内容，剩余1页未读，立即下载