形式概念分析在阿拉伯语搜索结果聚类中的应用：有效性研究和比较

181 浏览量更新于2024-01-14 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于形式概念分析的阿拉伯语搜索结果聚类Issam SahmoudiAbdul，Abdelmonaime Lachkar部电子和计算机工程，ENSA，USMBA，非斯，摩洛哥阿提奇莱因福奥文章历史记录：2016年1月31日收到2016年6月30日修订2016年9月19日接受2016年9月28日在线发布保留字：阿拉伯语形式概念分析网页搜索结果聚类A B S T R A C T最近，阿拉伯语已成为网络上最常用的语言之一。然而，大多数现有的解决方案，以提高Web使用没有考虑到这种语言的特点。搜索结果的浏览过程是传统Web搜索引擎的主要问题之一，尤其是在歧义查询时。使用排名列表作为特定用户请求的返回结果是耗时的，并且浏览风格似乎对用户不友好。在本文中，我们提出了研究如何整合和适应形式概念分析（FCA）作为一个新的系统，阿拉伯语的Web搜索结果聚类基于他们的层次结构。我们所提出的系统的有效性说明了实验研究，使用阿拉伯语的全面的一套文件从开放式目录项目层次结构为基准，在那里我们比较我们的系统与其他两个：后缀树聚类（STC）和Lingo。比较了不同系统的聚类结果和标签质量。这表明我们的系统优于其他两个系统。©2016作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍2013年按语言分类的互联网世界用户统计数据显示，互联网上讲阿拉伯语的用户增长令人印象深刻，达到1.356亿用户。1此外，因特网上提供的阿拉伯文文件数量正在迅速增加。因此，帮助阿拉伯语用户在网络中找到他们需要的响应成为一个有趣的研究课题。事实上，使用排名列表作为特定用户请求的返回结果来浏览搜索结果的过程是耗时的，并且浏览风格似乎对用户不友好，特别是对于模糊查询。通常，大多数用户只查看显示在第一页中的查询结果，因此可能会错过相关文档。此外，网上的大多数阿拉伯文文件不含任何附加符号，从而扩大了用户需求与首页显示的结果之间的差距。在这种情况下，Web搜索结果聚类（WSRC）对于相似文档的在线分组以改进*通讯作者。电子邮件地址：issam. gmail.com（I. Sahmoudi）1http://www.internetworldstats.com/stats7.htm。沙特国王大学负责同行审查并且便于以更紧凑和更自动的形式浏览网页。在过去的几年里，提出了许多商业解决方案，如iBoogie，2yippy，3Kartoo，4Dogpile。5然而，这些解决方案是专门针对其正交性基于拉丁字母或使用从阿拉伯语到英语的跨语言映射的面临的挑战是创建一个新的系统，阿拉伯语网页搜索结果聚类。该系统将为辅助搜索引擎返回的网页片段建立不同的标记集群，以满足阿拉伯语用户的需求。在本文中，我们提出了一个新的系统的Web搜索结果聚类阿拉伯文Web文档的基础上的形式概念分析（FCA）（Wille，2005）。FCA是一种基于概念聚类的Web搜索结果它被集成在许多系统中，以解决网络浏览问题，特别是欧洲语言的网络浏览问题（Carpineto和Romano，2004年; Mrsarrán等人，2004;Zhang 和 Feng ， 2008 ）。据我们所知， FCA 从未用于阿拉伯文WSRC，以解决阿拉伯文互联网用户的浏览问题此外，阿拉伯语有自己的属性，这是非常不同的欧洲语言，所以使用任何现有的欧洲网页搜索结果聚类模型直接可以产生负面影响的聚类结果（Moukdad和大型，2001年）。本文的贡献在于研究FCA如何2http://iboogie.com/3http://yippy.com/第http://fr.kartoo.com/http://www.dogpile.com/http://dx.doi.org/10.1016/j.jksuci.2016.09.0041319-1578/©2016作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comI. Sahmoudi，A.Lachkar/ Journal of King Saud University197可以应用于阿拉伯语，并集成到一个新的系统中，阿拉伯文WSRC。本文的其余部分组织如下。在第二节中，我们讨论了相关的工作。在第3节中，我们介绍了FCA理论的基础而在第4节中，我们建议将FCA整合到一个新的计划中，以使Web越来越适应阿拉伯语。实验和评价在第5节中进行。最后，我们在第6节中给出了结论和未来的工作。2. 相关工作Web搜索结果聚类（WSRC）的目的是将具有相同主题的网页片断组织到同一个类中，并形成相应的标签进行描述。近年来，解决Web浏览问题已成为研究的热点之一，提出了许多解决方法，主要分为以数据为中心的方法和以描述为中心的方法。更多细节参见（Carpineto等人， 2009年）进行调查。2.1. 数据为中心的方法以数据为中心的方法重新组合了一组基于经典聚类算法的WSRC系统，例如Hierarchical（Kaufman和Wauseeuw，2005），K-means（ Hartigan 和 Wong ， 1979 ）和 Spectral （ Planck 和 Luxburg ，2006），这些算法适用于对搜索结果进行分组，并且通常稍微调整以产生有意义的聚类描述。该类别包含许多系统的示例，例如 Lassi（Maarek等人， 2000）、CIIRarchies（Lawrie和Croft，2003）、Armil（Geraci等人，2006）和Scatter/ Gather（Cutting，1992）。一般来说，这类方法中最关键的问题是集群的标签质量。事实上，当聚类搜索结果中优先考虑聚类的标签质量时，第二个类别变得更加重要，以便产生具有可理解标签的组，这些标签不是随机选择的，但它们必须与研究的主题相关。2.2. 描述中心法该类别中的第一种方法由Zamir等人提出，并被命名为Grouper（Zamir等人，1999年）。它是一种基于后缀树数据结构的在线聚类技术，对搜索结果进行聚类，并使用后缀树数据结构发现后缀树数据结构适用于我们以前的阿拉伯语WSRC系统，称为AWSRC（Sahmoudi和Lachkar，2013）。这一类别中的另一种解决方案，FCA是由RudolfWille在1984年引入的数学理论，已经被集成到WSRC的许多系统中，例如 JBreanDead （ JBreanDead ）（ JBrearrán 等人， 2004 ）、Credo （ Carpineto and Romano ， 2004 ）和 CHC （ Zhang andFeng，2008）。虽然FCA已成功地用作概念聚类技术，以克服WSRC的问题，描述每个聚类以使分组更可解释，其主要缺点是当应用于大的文档集合和丰富的索引术语集时，所生成的概念格可能是不可管理的（Ch等人，2015; Cheung和Vogel，2005; Dias和Vieira，2010，2015; Li等人，2012年）。在本文中，我们研究了如何将FCA集成到一个新的系统中，为阿拉伯WSRC。3. 形式概念分析理论使用FCA模型的基本思想是首先探索搜索引擎返回的排序项目的结果片段之间的形式背景，然后构造概念格作为新片段的表示。在这一部分中，我们通过给出一些重要的定义和一些说明性的例子来介绍形式概念分析理论。3.1. 形式背景（G，M，I）形式上下文（G，M，I）由一组对象G、一组属性M组成，并且I由数据集中的对象G和属性M之间的二元关系定义，该二元关系将对象与属性的值相关联。表1显示了形式上下文的一个示例3.2. 形式背景的形式概念（G，M，I）形式上下文（G，M，I）的形式概念是一组共享相似特征的对象。使用Rudolf Wille给出的数学定义，形式概念被定义为：一对（A，B），其中A<$ G，B<$ M，A =BI，B =AI。A和B分别被称为形式概念的范围和意图（A，B）（Wille，2005）。其中：AI½fm2 Mj gIm8 g2 AgBI¼fg2 Gj gIm8 m2 BgAI是A的导子，BI是B的导子.3.3. 概念格（G，M，I）概念格（G，M，I）是形式背景（G，M，I）的所有形式概念的有序层次结构从形式背景中构造概念格的算法很多。它们可以分为两类：(a) ：开发算法以增强生成概念集的性能，如Ganter（2003）;（b）：开发算法以增强构建整个格的性能，如Godin 图 1显示了对应于表3中所示的形式上下文的概念格。表1形式背景的例子捷豹捷豹Jaguar/汽车配件汽车配件/产品型号/体育运动/动物园动物/Leopard/豹皮G11100000G21101000G30100100G41000010G51010000G61100000G70011000G81000011G91100100198I. Sahmoudi，A.Lachkar/ Journal of King Saud Universitynn图1. 从表3中的形式上下文生成的概念格的示例。在下面的部分中，我们将详细描述我们提出的系统，阿拉伯语Web搜索结果聚类的基础上形式概念分析。此外，为了说明我们提出的系统的不同步骤，将给出一个例子4. 基于FCA理论阿拉伯语是互联网上第四大语言，随着网络上阿拉伯语文档数量的指数级增长，研究人员提出适合阿拉伯语用户的新信息检索系统以帮助他们找到相关的阿拉伯语网络文档已经变得在本节中，我们提出了我们建议的阿拉伯语Web搜索结果聚类系统，以帮助阿拉伯语用户找到更多的相关信息与他们相应的查询。4.1. 流程图我们提出的新系统可以通过图2中所示的流程图来描述，并通过以下步骤来总结：1. 从Google和Bing上传片段。2. 文本预处理。3. 概念格构造。4. 集群选择。5. 集群4.2. 形式语境建构阿拉伯语用户使用Web界面以阿拉伯语指定他/她的查询。查询将使用Google API6和Bing API提供的服务发送到Google和Bing Web搜索引擎。7返回的结果列表是以Snippets的形式出现的，为了使我们的实现简单易行，对于每个Snippets，我们将关联以下四个标签（ID，URL，Body和Title），如图所示。3.第三章。其中：● ID：文档6https://developers.google.com/custom-search/docs/start7https://datamarket.azure.com图2.我们提出的基于FCA（AWSRC-FCA）的Web搜索结果聚类阿拉伯语系统的流程图。图3. 一个阿拉伯文网页文档片段的例子● URL：链接到访问文档内容。● 正文：Sniffy● 标题：页面每个Snirons都通过删除阿拉伯语停止词，拉丁语单词和特殊字符（如，（/，#，$等）来清理。. ）.处理文本挖掘应用的事实使我们确认名词术语是文档内容中最具鉴别力的术语。因此，我们建议添加语法模式，以便仅从片段的内容中选择名词术语提取I. Sahmoudi，A.Lachkar/ Journal of King Saud University199P●吉吉拉吉表2冗余信息去除过程的说明性示例名词术语，我们使用在Safar平台中实现的Al-khalil阿拉伯语形态句法分析系统（Boudlal和Lakhouaja，2010）。8之后，将对每个术语进行词干分析以找到相应的最后，获得的词干表示属性集，而Snippets表4示出了使用“SPORT”、“体育运动”作为用户的查询而获得的形式上下文的示例。在我们的例子中，我们定义形式上下文组件如下：对象：是从Google和Bing返回的没有冗余的片段，它们由相应的ID表示。属性：是从每个片段中提取的一组根。关系：是一个二元关系，定义如下：a. Trueb. False4.3. 冗余信息去除这一步的主要目的是消除形式背景中的冗余信息，产生一个同构于原始概念格为此，我们建议采用属性约简方法。例如，如果一个属性与另一个属性具有完全相同的对象，则该属性是冗余然后消除较低频率的属性表2给出了冗余信息去除过程的说明性4.4. 概念格的构建与聚类选择所得到的形式背景被用来构建概念格。图4示出了使用“运动”、"体育运动“作为用户的查询生成的概念格的示例在我们的例子中，我们使用名为ToscanaJ的免费Java API，9它集成了Ganter后者代表了一组以层次结构组织的概念，其中每个概念重新组合了一组文档，8http://sibawayh.emi.ac.ma/safar/download.php9http://toscanaj.sourceforge.net/段（由形式上下文行中的片段ID表示的对象请注意，在使用FCA进行聚类过程时，此概念表示聚类（Carpineto和Romano，2004年; Czarrán例如，2004; Zhang和Feng，2008）。在这项工作中，我们建议使用所获得的概念，发生在第一和第二层次的概念格层次结构作为选定的集群。事实上，我们只选择第一和第二个级别，以获得具有更多描述性标签的更多分离的聚类。此外，为了方便用户为此，我们已经开发了一个简单而有效的图形用户界面，其中所获得的clusters排名考虑到他们的相关性，用户通常，聚类相关性排名的问题是估计对应概念与用户查询的相关性为了克服这个问题，Zhang等人提出了一种新的方法，从概念格中构造两个约简层次。该方法基于两个数学度量（Zhang和Feng，2008）：第一个是概念重要性度量，用于指示概念的重要性。该度量与范围中的文档数量和该概念的后代概念的数量第二个度量是概念相似度，它是基于Jaccard的相似系数，它将用于合并过程中，以构建一个两级层次的用户浏览。Zhang和Feng（2008）的系统基于使用从片段中提取的所有术语因此，有必要通过过滤或分组相似的概念来减少大量不重要的生成的聚类。另一方面，我们使用词干化的名词术语，而不是使用没有词干的所有术语，因此减少了不必要的步骤。事实上，每个片段中的名词术语数量很少。此外，它们还与相应文档内容的主题相关。然而，为了促进用户的浏览过程，估计对应概念与用户的查询的相关性正如我们上面提到的，一个概念的特征是由两个组成部分：范围和意图。因此，在这项工作中，我们提出了我们的新概念相关性措施，考虑到以下两个组成部分：● 范围中的文档数● Intent中每个单词的权重我们将我们提出的相关性S（Ci）定义为概念Ci的度量如下：范围权重X范围TF：IDF意图权重i意图权重=j意图权重i意图权重范围权重ω意图权重其中：● |范围（Ci）|：范围中的文档数。● Nbr_Total_Bit：语料库中的代码段总数TF： IDF Intent Ci= Intent Ci：Intent在相应概念中的●●●200I. Sahmoudi，A.Lachkar/ Journal of King Saud University图4. （Sport，体育运动）查询的概念格。4.5. 集群集群标签生成是关键的一步，因为无意义或误导性的标签可能会导致用户检查错误的集群。此外，标签应使用户更容易理解，并准确描述文件的内容。为此，我们建议在相应概念的Intent中找到每个项目的原始术语，而Cluster然后，用户可以简单地单击生成的集群在这一步中，我们消除了形式上下文表4中的冗余信息。表5给出了冗余信息去除过程后的形式上下文。表5中给出的形式背景将用于构建概念格。这在图4中呈现，并且将用于聚类选择，聚类选择以具有不同级别的分层结构呈现。正如我们在图4中观察到的，在第一级中有三个概念是更一般的聚类：（2，3，4，5，6;体育，新闻/体育，新闻），（1，5;体育，新闻/体育，maktoob）和（7;体育，新闻/体育，俄罗斯）。用户可以选择在第一级中的任何一个集群内浏览通过点击他们的标签（体育，体育，新闻），（体育，体育，新闻，体育），（体育，体育，新闻）/sport，maktoob），（，俄罗斯体育报）。然后，用户可以4.6. 说明性示例接下来，我们给出一个说明性的例子来进一步解释我们的系统是如何工作的。为了简单起见，由于返回页面的数量很大，我们使用来自Google和Bing返回的第一个结果页面的七个片段，使用（Sport，体育运动）作为查询（表3）。通过删除停用词来清理每个片段。然后，对Snirobe中的每个术语进行词干分析以找到相应的词干。获得的术语将Formal上下文中的属性集表示为列，而Snippets表4示出了对应于（Sport，体育运动）查询的这七个片段的所获得的形式上下文。表3使用（Sport，体育运动）查询返回结果的七个页面标题的示例在第二层访问更多主题。为了帮助阿拉伯语用户找到他/她的信息需求，将根据其权重对聚类进行排名和显示，如图所示。图5示出了对应于体育查询的所获得的层次结构的第一级中的三个聚类。此外，所有集群的标签都与由逗号分隔的集群中的初始项完全对应。请注意，第一个聚类（标记为（News，Sport，新闻，体育））实际上与查询（Sport，体育，体育）最相关。5. 实验结果及讨论在本节中，我们提出了一个我们提出的系统和其他两个基线之间的比较研究：STC和Lingo。STC是基于后缀树数据结构和Lingo的经典WSRCSniffy1234567阿拉伯语和英语的片段哇哦！收获2012年体育ﺍﺧﺒﺎﺭﺍﻟﺮﻳﺎﺿﺔﻭﻣﺒﺎﺭﻳﺎﺕﺍﻟﻴﻮﻡﻣﻦﻳﻮﺭﻭﺳﺒﻮﺭﺕﻋﺮﺑﻴﺔ今日新闻、体育和比赛Arab Eurosportﺍﺧﺒﺎﺭﺍﻟﺮﻳﺎﺿﺔﻭﻛﺮﺓﺍﻟﻘﺪﻡ新闻，体育和足球ﺃﺧﺒﺎﺭﺍﻟﺮﻳﺎﺿﺔ_ﺭﻳﺎﺿﺔﺩﻭﺕﻛﻮﻡ体育新闻网请选择你的状态《Yahoo！- - |ﻣﻜﺘﻮﺏﺍﻟﺮﻳﺎﺿﻲ|ﺁﺧﺮﺍﻷﺣﺪﺍﺙﺍﻟﺮﻳﺎﺿﻴﺔ体育新闻|书面体育|最新体育赛事-雅虎！Maktoob你好，我是来找你的半岛电视台体育：新闻ﺍﻟﺮﻳﺎﺿﺔSports – Russia是学术界著名的WSRC算法两个系统-项目被集成在Carrot 210平台中，该平台是一个开源搜索结果聚类引擎。请注意，carrot2的3.2.0版引入了对阿拉伯语内容聚类的实验性支持。本研究比较了不同系统的聚类结果和产生标签的质量。Open Directory Project（ODP）是最大、最具规模的人工编辑目录。这是网络，有组织的。它是由一个充满激情的全球志愿编辑社区构建和维护的。它是一个可搜索的基于网络的多语言目录，由几百万个预先分类和组织成树的网页组成。对于阿拉伯语，ODP包括4781个片段，这些片段被预先分类为459个类别，第10http://project.carrot2.org/I. Sahmoudi，A.Lachkar/ Journal of King Saud University201Þ ¼M02. . . 作为聚类结果，NMI和NCE定义如下：我表4（Sport，体育运动）的形式上下文作为查询。收获/ﺣﺼﺎﺩ体育/ﺍﻟﺮﻳﺎﺿﺔMaktoob/ﻣﻜﺘﻮﺏ新闻/ﺍﻟﺨﺒﺮ阿拉伯人/ﻋﺮﺑﻴﺔ欧洲体育/ﺑﺮﻭﺭﻭﺳﺒﻮﺭﺕ球/ﻛﺮﺓ脚/ﺍﻟﻘﺪﻡ天空/ﺳﻜﺎﻱ点/ﺩﻭﺕ最新/ﺍﺧﺮ活动/ﺍﻻﺣﺪﺍﺙ半岛电视台/ﺍﻟﺠﺰﻳﺮﺓ俄罗斯/ﺭﻭﺳﻴﺎ111100000000000201011100000000301011011100000401010000010000501110000001100601010000000010701000000000001表5去除冗余信息后的形式背景。收获/ﺣﺼﺎﺩ体育/ﺍﻟﺮﻳﺎﺿﺔMaktoob/ﻣﻜﺘﻮﺏ新闻/ﺍﻟﺨﺒﺮ阿拉伯人/ﻋﺮﺑﻴﺔ欧洲体育/ﺑﺮﻭﺭﻭﺳﺒﻮﺭﺕ球/ﻛﺮﺓ点/ﺩﻭﺕ最新/ﺍﺧﺮ半岛电视台/ﺍﻟﺠﺰﻳﺮﺓ俄罗斯/ﺭﻭﺳﻴﺎ111100000000201011100000301011010000401010001000501110000100601010000010701000000001图5. 我们的系统的屏幕截图（体育，体育赛事）查询.一群人类专家。因此，ODP代表了一个良好的NMIC;C02XXPC;c0logPC;c0为我们的比较研究提供基础数据5.1. 聚类结果质量其中：logjCkC0jc2Cc02C0PcPc0Pcjcj;Pc0jc0j;Pc;c0jcj \jc0j通常，任何聚类系统的聚类结果的质量可以通过它能够正确地将一组预先分类的片段重新分类为完全相同的猫-N N nNECC;C0Xjc0ijNCEC;c0不知道原始类别分配的egories聚类结果的质量可以用归一化互信息（NMI）和归一化自相关（COM）两个指标来衡量。补充熵（NCE）。Geraci采用这些指标其中：1/1 n0的2 X我Pcj;c0iPcj;c0i等人，以比较不同WSRC算法（Geraci等人，2006年）。对于给定的在C={c， c，. . . ， c}的集合C0={c0 、日本电气株式会社C;c0i1-logjCjM-第1页PcjlogPcj12 Nc、1N0¼Xjc0jn1/1202I. Sahmoudi，A.Lachkar/ Journal of King Saud University0.80.70.60.50.40.30.20.10A-NMI@KK=10K=20所有我们提出的系统0.290.410.68Lingo0.140.240.34STC0.150.220.35图6.比较研究：A-NMI@K。A-NCE@K0.70.60.50.40.30.20.10图7. 比较研究：A-NCE@K。NMI是为非重叠聚类而设计的，因此NMI值越高表示聚类质量越好。NCE的范围在区间[0，1]内，并且是为了考虑重叠而设计的，NCE的值越大意味着聚类越好Zhang和Feng（2008）表明，这些指标存在偏差，原因如下：1- 在初始类别一定的情况下，某一WSRC算法生成的聚类数越多，NMI和NCE值越高。2- 如果需要比较的聚类是固定的，则原始类别中的组越多，获得的NMI值越高。3- 当比较由两种不同的WSRC算法与NCE和NMI生成的结果聚类时，如果使用不同的原始类别，则性能可能会恢复为了克服这两个指标的上述偏差，他们提出了两个改进的指标：A-NMI@K和A-NEC@K，其中A表示所使用类别的每个结果的平均值，K表示为实验选择的聚类数。改进的度量的使用考虑了当改变类别时实验结果的变化，并且可以提供关于用于实验的系统的性能的全局想法。在该比较研究中，我们仅使用K = 10、K = 20和K = all，因为我们认为10是用户所看到的最小聚类数，而20是最大聚类数。此外，对于K = 5和K= 15，结果保持相同。图 6给出了A-NMI@10，A-NMI@20和A-NMI@ALL三个系统的非重叠聚类质量度量：我们的系统，STC和Lingo。很明显，我们的系统优于其他两个系统，并提供了两个更好的改善方面的其他两个系统。图 7 给出了重叠聚类质量度量的A-NCE@10 ， ANCE@20 和 A-NCE@ALL，它表明我们的系统优于其他两个系统。5.2. 集群本小节的主要目标是比较三个系统的集群事实上，研究WSRC的最新技术水平揭示了集群标签质量评估中的一个严重问题。一般来说，由于缺乏人力资源，使用人类专家评估并不总是可能的。此外，人类专家可能无法评估数千个查询，特别是使用诸如WSRC的在线系统。因此，我们建议只使用两个查询来了解每个系统的集群标签的质量。第一个是（商业，商业），第二个是（教育，教育）。图 8和9显示了我们的系统、Lingo和STC为两个查询生成的10个聚类的标签。根据我们的团队，我们认为作为专家，标签生产的三个我们提出的系统LingoSTC图8. 聚类的（Commerce，商务）查询结果。K=10K=20所有我们提出的系统0.340.420.61Lingo0.290.360.59STC0.160.30.46I. Sahmoudi，A.Lachkar/ Journal of King Saud University203我们提出的系统LingoSTC图9.聚类的系统是可读的和信息丰富的。然而，由Lingo或STC生成的每个聚类仅由几个文档组成，由每个标签后面的数字指示的数字，这意味着许多文档没有被分组到Lingo和STC的10个聚类另一方面，我们的系统产生的标签不是基于短语，而是基于关键字。每个标签由一个或多个关键字组成。它提供了在结果集中保持的单词之间的因果关联的发现一般来说，在两个查询的结果证明了我们的系统相比，其他的有效性。6. 结论浏览搜索结果是跨平台网络搜索引擎（Google，Yahoo和Bing）的主要问题之一，适用于英语，欧洲和任何其他语言，特别是阿拉伯语将阿拉伯文网页搜索结果组织成群组，便于阿拉伯文用户浏览网页在本文中，我们提出了使用形式概念分析在一个新的系统WSRC为阿拉伯语。该系统能够自动地将搜索结果聚类为具有层次结构的高质量聚类，并提供描述性的聚类标签。进行了一系列实验：使用Google搜索和Bing搜索API呈现主观和客观评价所获得的结果是非常令人鼓舞的，并说明了我们所提出的系统的效率。在未来的工作中，我们相信有可能通过整合一些外部知识资源，如阿拉伯语Word-Net和阿拉伯语维基百科，以提高我们提出的系统的性能。引用Bordat，J.，一九八六年伽罗瓦理论的实用计算数学Sci. Hum. 数学Soc. Sci. 96，31-47.Boudlal，A.，Lakhouaja，A.，2010年。 Alkhalil morpho SYS1：一个阿拉伯语文本的形态句法分析系统。国际阿拉伯会议信息技术，第1-6页Carpineto，C.，罗马诺湾，2004.利用CREDO挖掘概念格的信息检索潜力。 J. 宇宙Comput. Sci. 10，985-1013。Carpineto，C.， Osin'ski，S.，罗马诺湾，Weiss ，D.，2009 年Web集群引擎综述ACM计算监视器41，1-38。http://dx.doi.org/10.1145/1541880.1541884.Ch，A.K.，Dias，S. M.，新泽西州维埃拉，2015.形式背景下使用非负矩阵分解的知识约简。数学。计算。你好109，46-63.得双曲正切值.doi.org/10.1016/j.matcom.2014.08.004网站。张国祥，Vogel，D.，2005年基于格的信息检索中的复杂度降低Inf. Retr.波士顿8，285-299. http://dx.doi.org/10.1007/s10791-005-5663-y.J.M.，Gonzalo，J.，Peñas，A.，Verdejo，F.，2004.通过形式概念分析浏览搜索结果：属性的自动选择。Concept Lattices 2961，201http://dx.doi.org/10.1007/b95548 网站。卡丁，D.R. ，1992. Scatter/Gather： A Discrete Based Approach to Browsing LargeDocument Collections 1 Introduction 2 Scatter/Gather Browsing.Dias，S. M.，Vieira，N.，2010年。减少概念格的大小：JBOS方法。In：Cla 2010，pp. 80比91Dias，S. M.，新泽西州维埃拉，2015.概念格约简：定义、分析与分类。专家系统应用42，7084-7097。http://dx.doi.org/10.1016/j的网站。eswa.2015.04.044网站。Ganter，B.，2003. Ch1 Ch2：上下文、概念和概念格。Form.概念肛门。方法应用计算机Sci.Geraci，F.，Pellegrini，M.，Maggini，M.，Alftiani，F.，2006. Web片段的聚类生成和聚类标记：快速准确的分层解决方案。字符串进程。 Inf. Retr. 13， 25-36。http://dx.doi.org/10.1007/BF02959914网站。戈丁河，米萨维河Alaoui，H.，一九九五年基于伽罗瓦格的增量式概念形成Comput.内特尔11，246-267。http://dx.doi的网站。org/10.1111/j.1467-8640.1995.tb00031.x。Hartigan ， J.A. ，黄，硕士， 1979. K-means 聚类算法 J. R. Stat. Soc.28 ， 100-108.http://dx.doi.org/10.2307/2346830网站。考夫曼湖， P.J. ， 2005. 在数据中发现组：聚类分析导论。重症监护病房 33368http://dx.doi.org/10.1007/s00134-006-0431-z.劳里，DJ，Croft，W.B.，2003.为Web搜索生成分层摘要。输入：程序26周年Int. ACMSIGIR会议Res. Dev. 信息检索 http://dx.doi.org/10.1145/860435.860549网站。李杰，Mei，C.，Lv，Y.，2012.真实决策形式背景下的知识约简。INF.Sci. (Ny)189，191-207。http://dx.doi.org/10.1016/j.ins.2011.11.041网站。Maarek，Y.S.，费金河，本肖尔，I.Z.，Pelleg，D.，2000.用于web应用程序的短暂文档聚类。IBM Res. Rep. RJ 10186，1-26. http://dx.doi.org/10.1007/s00417-013-2383-7.Moukdad，H.，Large，A.，2001年从阿拉伯语全文数据库中检索信息Libri 51，63-74. 得双曲正切值. doi.org/10.1515/LIBR.2001.63网站。努里内湖，Raynaud，O.，2002.一种快速的增量式网格生成算法。J. Exp. Theor.第内特尔14，217-227。http://dx.doi.org/10.1080/09528130210164152.普朗克，M.，勒克斯堡大学Von，2006.谱聚类教程谱聚类教程. Stat. Comput. 17，395-416。http://dx.doi.org/10.1007/s11222-007-9033-z.萨赫穆迪岛Lachkar，A.，2013.聚类网页搜索结果，以实现有效的阿拉伯语浏览。国际自然语言学杂志2，31-43. http://dx.doi.org//ijnlc.2013.2202.威尔河，2005年形式概念分析是概念和概念层次的数学理论Form.概念肛门。1-33.http://dx.doi.org/10.1007/11528784_1.Zamir，O.，Etzioni，O.，1999年Grouper：一个动态的网络搜索结果聚类接口。输入：程序 WWW8.张玉，冯，B.，2008.基于形式概念分析的搜索结果聚类。INF.Technol.http://dx.doi.org/10.1109/FSKD.2008.140.

下载后可阅读完整内容，剩余1页未读，立即下载