维基KNN表示的Web搜索结果聚类方法对WSRC性能的显着改进

155 浏览量更新于2024-01-17 收藏 853KB PDF 举报

聚类方法

查询扩展

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于wiki的k-最近邻表示的Web搜索结果聚类Ali Sabah Abdulameer，Sabrina TiunTan，Nor Samsiah Sani，Masri Ayob，Adil Yaseen Taha马来西亚Kebangsaan大学信息科学与技术学院人工智能技术中心（CAIT），43600 Bangi，Selangor，Malaysia阿提奇莱因福奥文章历史记录：收到2019年2020年2月3日修订2020年2月16日接受2020年2月22日在线提供关键词：聚类方法Web搜索结果查询扩展A B S T R A C T由于网络上的信息量过大，信息检索是一个困难的过程。如今，搜索结果响应用户查询有太多的结果，虽然只有少数是相关的。因此，现有的聚类方法，未能聚类的网页摘要（短文本），由于低频率的文档术语应深入研究。可以用来解决这个问题的方法之一是扩展的文档术语与语义相似的条款。因此，必须建立一个具有最接近和准确的语义相似词（词表示）的术语列表。本研究旨在设计与开发一个新的架构，以提升网页搜寻结果分群的效能。该研究还提出了一种新的无监督分布式单词表示方案，其中每个单词由其语义相关单词的向量表示;例如方案扩展了片段和用户查询。所提出的框架包括几个活动，例如（1）用于评估大多数引用数据集作品的搜索结果聚类算法的各种标准数据集（开放目录项目[ODP]-239和MORESQUE），（2）文本预处理，(3)文档表示基于一个新的基于维基的k-最近邻居（KNN）表示方法，（4）所提出的模型对传统的聚类方法（k-means，k-medoids，single-linkage，和complete-linkage）的WSRC的性能的影响，和（5）所提出的方法的评估阶段。结果表明，增强的聚类方法，根据新的维基KNN为基础的表示方法与基线方法相比，在WSRC显示出显着的改善。此外，新的数据表示方案提高了聚类方法的整体性能。©2020作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍由于网络上信息的泛滥，信息检索是一个困难的过程如今，搜索结果已经成为从网络中检索信息的重要工具。然而，搜索结果响应用户查询的结果太多，其中只有少数是相关的。搜索结果返回一个结果列表，这些结果按照与查询的相关性排序网络用户通常浏览搜索引擎推荐的一系列网页结果。用户从列表顶部开始*通讯作者。电子邮件地址：sabrinatiun@ukm.edu.my（新加坡）Tiun）。沙特国王大学负责同行审查制作和主办：Elsevier并且每次检查一个结果，直到找到所寻求的由于许多原因，大多数结果与用户无关，其中一个词可以用于多种目的。从清单中选择相关信息既困难又耗时。在网络搜索中，用户经常面临着从潜在的海量搜索结果中选择自己最需要的信息的问题对Web搜索结果进行聚类是一种可能的解决方案，但传统的基于内容的聚类方法忽略了网页的许多独特特征，因而存在不足。Web搜索结果聚类（WSRC）是将检索结果组织成连贯的有意义的组的等效方法然而，聚类方法的部署仍然是大多数搜索引擎必不可少的已经提出了通过采用聚类技术的几项研究工作（Wahid等人，2016年）。然而，现有的聚类技术存在一些缺陷.这些缺点是由于这些聚类技术的静态机制而出现的。WSRC带来了几个有趣的挑战https://doi.org/10.1016/j.jksuci.2020.02.0031319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA.S. Abdulameer等人/Journal of King Saud University841. Σ（Acharya等人，2014; Wahid等人，2016年）。摘要（短文本）聚类是自然语言处理（NLP）中一项艰巨的任务;现有的聚类方法由于相似性度量所需的统计信息不足而无法对Web搜索结果进行聚类。因此，一个可以捕获句法和语义特征的深度表示是构建相似性度量所必需的。有效的短文本聚类方法应该考虑文本表示，丰富语义空间和词之间的关系（Xu et al.，2017; Bentrcia等人， 2018年）。本研究的主要动机来自于信息检索中涉及的学术和科学社区对网络搜索结果聚类的兴趣日益增加（Cobos等人，2016; Carpineto等人，2009; Alam和Sadaf，2015）。网络上巨大且不断增加的信息量给该领域的研究人员带来了许多挑战（Sontag等人，2012; Sah和Wade，2013，Kumar和Ashraf，2015）。互联网和网络数据的使用大量增加;因此，网络分析发挥着重要作用。聚类是将Web数据分组到一组聚类中的基本过程。然而，由于众多因素起着重要作用，Web数据的聚类分析是一个具有挑战性的问题。本文研究了WSRC上传统聚类模型的性能，并致力于克服现有聚类技术背后的缺陷和WSRC面临的挑战。本文的主要工作如下：首先，研究了WSRC的传统聚类模型，即k-means、k-medoids、single-linkage（SL）和complete-linkage（CL）。目的是找到最佳的聚类模型WSRC。其次，针对短文本聚类和有限的片段数问题，设计了一种新的无监督分布式词表示方案，每个词由其语义相关词的向量表示。第三，本研究使用新的和无监督的分布式单词表示方案来扩展片段和用户查询。最后，本研究设计以分散式文字表示来强化丛集模式。本工作的其余部分总结如下：第2介绍了相关研究的简要概述，第3描述了搜索结果聚类问题的描述，第4节解释了使用的方法，第5描述了实验结果和讨论，第6提供了一个总结性的结论。2. 相关研究Web文档聚类一直是一个有趣的研究课题。现有的聚类技术已被广泛用于对web搜索结果进行分组。层次聚类方法可以产生很好的结果，但时间复杂度为On2或更高。因此，聚类web搜索结果（其通常是返回的网页的一千多个片段）通常是不可行的。最关键的部分是确定一个最佳的通用停止标准的所有查询的用户。一些研究人员提出了集群技术，可以解决传统的集群技术的问题，可以应付WSRC的挑战。在本节中，我们将概述与网络搜索结果相关的研究。Goyal等人（2018）提出了一种称为分裂-合并算法（SM）的双层聚类后处理技术，该算法可用于从其他查询上下文感知的文档聚类算法中生成软主题文档聚类的聚类。SM汇编了文档的优点和相关的主题文档聚类技术。SM包括两个步骤：分裂和合并，其中第一阶段的集群是重新组合的基础上获得的主题细化网络搜索结果，并转换为统一的集群。第二阶段涉及合并相同的集群。SM已被验证的结果的基础上，两个分类查询上下文感知的文档聚类算法的帮助下，各种数据集，如TREC会话跟踪2011年数据集。主题聚类是在数据流中通过前进的方式在增量方法的基础上更新的。Rani等人（2019）提出了一种新的文档聚类原型，它可以产生比其他现有算法更好的聚类结果该原型的另一个优点是，信息定期更新，以满足分布式环境。然而，这种原型具有很高的计算成本。该系统已被验证对其他现有的- ING聚类算法，生成查询和文档集群。此外，Moreno等人（2014）提出了一种称为Dual C-Means的新算法。这个名字表明，现有的流行的k-means算法已经通过添加双表示空间得到了增强。具体来说，该算法的存在，因为竞争发生在各种表示空间中的聚类和相当大的标签获得最佳质量。 Morenoet al.（2014）还表明，引入查询日志作为外部信息，可以确保标记的质量并增强聚类过程。Vijayalakshmi和Jena（2015）提出了基于个体分类和聚类方法的网络搜索。该方法利用频繁模式挖掘和多层关联规则对聚类数据进行分类，并根据用户兴趣和导航站点对Web使用进行聚类，以实现个性化。此外，Abualigah等人（2016）提出的多目标方法被称为多目标k均值，旨在增强文本聚类过程。这种方法由两个评估参数组成，在几种情况下被认为是合适的替代品.然而，文本聚类领域的多目标性并没有得到广泛的认可，从而成为影响其效率的瓶颈。多目标函数已被vali- dated通过k-均值文本聚类技术，从而前者准确地标记所有的文本文件相关的集群的基础上，他们的相似性和距离。Wahid et al.（2016）研究了当前文本聚类方法的界限。在分析研究结果的基础上，他提出了以下五种新的文本聚类方法：（i）查询意义聚类（QSC），（ii）Dirichlet加权K-means（DWKM），（iii）多视图多目标进化算法（MMOEA），（iv）多目标文档聚类（MDC）和（v）多目标多视图包围聚类（MOMVEC）。这些方法使用生动的属性，使他们能够超越现有的传统文本聚类方法。生动的属性的使用在确定文档的相似性方面做出了积极的贡献，并在提高聚类质量方面发挥了至关重要的作用分析结果表明，与其他传统算法相比，语义特征加权概念产生具有最佳质量的聚类，并产生Xu等人（2017）提出，由于文本描述不足，短文本聚类是必需的。在这方面，被称为STC 2的无监督自学习神经网络框架可以被认为是一种解决方案。该框架可以集成可以增强短文本聚类的附加有益语义特征。在这种方法中，原始文本的属性最初通过无监督降维方法集成到算法中。随后，识别嵌入的单词并将其输入卷积842A.S. Abdulameer等人/Journal of King Saud University！1/4 f···g1/4 f···g··1/4 f···g用于理解深层特征的解释的神经网络。输出外设用于在训练过程中选择适当的预训练二进制码为了获得最佳聚类k-means，必须使用一种算法来对学习的表示进行分组。然而，最佳的语义特征的选择和整合Hu et al.（2015）强调了用适当的标签对大量消息进行聚类的重要性，他提出了迎合用户需求的内容概要。然而，聚类和附加适当的标签，从微博消息是困难的任务，由于短的消息长度比其他正常的文本文档。一般来说，微博消息不提供足够的信息来掌握相关的语义内涵。在这方面，已经发现现有的传统文本表示模型在微博消息聚类中是无效的。因此，作者提出了一种通过嵌入语义知识库（即，Wikipedia和Wordnet）。将实际的独立文本与语义表示联系起来，从而增强了短文本聚类和标注的有效性就web文档而言，聚类许多方法是基于词袋（BOW）或特征袋模型，这两者都通过细化用于聚类和分类的常规文档的描述而产生了足够的结果（Hu等人，2015年）。已经发现这些模型在增强文本表示方面是有效的，这主要是由于语义知识的集成（Hu等人，2008;Song等人， 2011年）的报告。另一项研究检查了某些文档，并从维基百科和ODP中识别出相关概念，从而引入了一组特征，最终增强了标准BOW模型（Gabrilovich和Markovitch，2005）。根据Ling et al. （2017），研究人员开始关注NLP领域中将文本表示为常数向量。尽管其吸引人的方面，这一领域仍然面临着某些瓶颈，特别是在短文本聚类方面，主要是因为NLP的代表性不足（Xuet al.，2017年）。由于相似性度量所需的统计信息不足，现有的聚类方法无法对网络搜索结果进行聚类（Rani和Babu，2019;Acharya等人，2014;Wahid等人，2016年; Alghamdi和Selamat，2017年）。然而，大多数以往的研究网络搜索文档不能完全捕捉准确的语义相似性，这是重要的，深入捕捉额外的语义证据之间的关系。因此，我们的研究提出了一种新的方法，如何提高聚类模型与分布式词表示。3. 搜索结果聚类问题描述WSRC带来了几个有趣的挑战（Acharya等人，2014; Wahid等人，2016年）。摘要（短文本）的聚类在自然语言处理（NLP）中是一项费力的任务;现有的聚类方法由于相似性度量所需的统计信息不足而无法聚类web搜索结果。因此，一个可以捕获句法和语义特征的深度表示对于构建相似性度量是必要的。有效的短文本聚类方法应该考虑文本表示并丰富语义空间和词之间的关系（Xu et al.，2017; Bentrcia等人， 2018年）。搜索结果聚类是一种将来自用户查询的搜索结果分组为语义一致的动态组的技术。该技术还将组的描述性摘要呈现给用户。此外，搜索结果聚类允许用户识别搜索结果的所需子集，所述子集也可以依次被聚类以识别窄的子集此外，该技术帮助用户在互联网上搜索所需的信息。整体WSRC，其中包括几个过程，如图所示。1.一、(i) 搜索结果获取。给定用户查询Q作为输入，搜索引擎搜索web并检索查询结果，一般作为搜索结果QR的列表r1;;r m关于ri，i1个;;m.这些搜索结果包括一个URL、一个标题和一个网页的片段（描述或查询偏向摘要）(ii) 搜索结果处理。给定搜索结果列表QRr1;rm;，应用预处理步骤和片段表示步骤。(iii) 此阶段的输出是搜索结果文档或片段是表示作为数值向量V svs1;vs m.(iv) 搜索结果聚类。给定聚类方法C和V svs1;;vs m ，聚类方法将QR中的每个片段分配给一个或多个聚类以形成n个聚类的集合。其中cj;j<$1;···;n;表示簇。聚类任务是诱导聚类f：QRC. 的输出搜索结果聚类方法是一组聚类和表示不同聚类的聚类标签。用户通常选择聚类标签以查看与特定聚类标签相关的搜索结果的列表。WSRC的性能被定义为四个因素的函数：搜索引擎及其结果ser，数据表示dr，聚类模型cm和实验设计ed（见等式2）。① ①）。WSRC¼fn测量器;dr;cm;ed测量值 1基于等式（1）本研究旨在基于第二个因素，即数据表示dr，来提高WSRC的性能。本研究设计了一种新的无监督分布式词表示方案，其中每个词由语义相关的词的向量表示，通过处理短文本聚类和片段中文本数量有限的问题来假设增强聚类模型。4. WSRC的增强群集模型提出了一种新的方法来增强WSRC模型与分布式词表示，结果表明，聚类性能显着不同的每个数据集。因此，本研究的重点之一是比较所有数据集上的基线和增强模型结果的行为。首先，聚类模型，即，k-means，k-medoids，SL，CL与传统的WSRC表示进行了研究。其次，介绍了一种基于wiki的KNN数据表示方法。其目的是找到最佳的聚类模型，并显示新的基于维基的KNN数据表示方法如何增强WSRC的所有聚类方法。本节旨在设计一种新的方法来增强WSRC模型的分布式单词表示，结果显示，聚类性能显着不同的每个数据集。该方法是通过比较基线和增强模型结果在所有数据集上的行为来完成的，并设计用于Web搜索聚类的基线和增强聚类模型。这一阶段集中于框架工作，包括实现最初可行的web数据聚类模型等阶段决定：(i)收集数据集的过程，（ii）预处理任务，(iii)数据表示;（iv）聚类方法。图2描述了WSRC的初始Web数据聚类模型的实现框架。拟议框架包括若干活动。第一阶段是数据选择步骤，A.S. Abdulameer等人/Journal of King Saud University843搜索结果数据集查询检索结果取得聚类构造JJ表示Snippet110001小片段1001100Snippet2100110Snippet3110001Snippet4001100Snippet5100110snippet6110001snippet7001100Snippet8101110snippet9011001预处理片段Snippet小片段1Snippet2Snippet3Snippet4Snippet5snippet6snippet7Snippet8snippet9聚类结果ing群组0狙击手1狙击手4狙击7第1组鼻涕0狙击手3狙击手6狙击手9第2组狙击手2狙击手5狙击手8Fig. 1. WSRC的整体流程必须被使用的被识别和选择。用于验证的数据集已广泛用于验证聚类方法的许多过去的研究中（Carpineto和Romano，2010; Navigli和Crisafulli，2010; Moreno等人，2014; Moreno和Dias，2014; Saha等人， 2018年）。一系列的黄金标准已被用来检查搜索结果聚类算法，其中ODP-239和MORESQUE是相当流行的。第二阶段是应用数据集的预处理方法。首先，本研究调查传统的聚类模型，即，k-means，k-medoids，SL和CL WSRC。本文的目的是为WSRC找到最佳的聚类模型。其次，针对短文本聚类和片段数量有限的问题，提出了一种新的无监督的分布式词表示方法，每个词用语义相关词的向量表示。第三阶段使用新的无监督分布式单词表示方案来扩展片段和用户查询。最后，本研究设计了具有分散式词汇表示的增强型聚类模型。4.1. 预处理预处理阶段涉及应用各种NLP技术。此阶段包括四个步骤：标记化、规范化、停用词删除和词干提取。所有的Web文档进行预处理，以避免错误的聚类和删除噪声字符。4.2. 文档表示根据从文档中提取的特征的种类，存在不同的文档表示。WSRC带来了几个有趣的挑战（Acharya等人，2014; Wahid等人，2016年）。摘要（短文本）聚类是自然语言处理中一项艰巨的任务，现有的聚类方法由于相似性度量所需的统计信息不足而无法对Web搜索结果进行聚类。一个能够捕捉语法和语义特征的深度表示对于构造相似性度量是必要的。有效的短文本聚类方法应该考虑文本表示并丰富语义空间和词之间的关系（Xu et al.，2017; Mustafa等人， 2019年）。因此，研究了两种数据表示，即（i）传统数据表示和（ii）增强数据表示。4.2.1. 传统文档表示在传统的数据表示中，使用具有传统的TF-IDF方法的BOW表示，其中片段被表示为向量Sj^i;w1;w2;：;wjsj;其中wi是片段中的词i的权重。S是由所有单词的集合组成的，所有片段忽略停止词，并在应用Porter的词干算法之后。在文本聚类中，文档由特征向量（术语）及其权重值（称为属性和属性值）描述。基于TF-IDF为每个单词（特征）分配一个共同的权重（Tiun，2017; Salton和McGill，1983;Luhn，1957; Taha和Tiun，2016）。TF-IDF可以识别文档中的重要单词或短语。文档中的单词通过使用等式（1）来分配它们的TF- IDF。（二）、844A.S. Abdulameer等人/Journal of King Saud University阶段1：WSRC数据集ODP-239和MORESQUE数据集第二阶段：预处理阶段3：增强的文档表示/权重第四阶段：Web搜索聚类方法评价1)1)TF-IDF2)2) 一一种种新的基于小波变换的KNN数据表示方法..ΣΣn..ΣΣ图三. 基于维基百科的KNN表示。聚类方法k-means（基于半径）k-medoids（基于半径）SLCL图二.初步基线和增强的网络搜索聚类模型的拟议实施框架。wi1/4 TF-ID F i1/4t fiA^·log.N-[2-（2-甲基-2-苯基）-2-（2-其中TFi是文档d中的术语频率。IDF是这个词在文档中出现的次数，显示这个词提供了多少信息。4.2.2. 建议的增强文档表示：基于维基的KNN数据表示搜索结果聚类包括短文本相似性的测量，其旨在确定两个短文本之间的相似性，这两个短文本可能共享共同的词或使用不同的词典来表示相同的想法。然而，由于两个语义相关的句子可能不包含任何共同的单词，因此很难测量短文本之间的相似性。传统的数据表示方法由于文档词的使用频率较低而无法对Web文档进行聚类。因此，一个有效的搜索结果聚类的片段（短文本）的相似性方法，应考虑有效的文本表示和丰富的语义空间和词之间的关系。该阶段的主要目的是设计一种新的基于wiki的KNN数据表示方法，该方法自动创建单词表示表（WRT），该表可用于扩展查询和片段。查询和片段中每个单词的扩展是基于其语义相似的单词（如图所示）。 3）。4.2.2.1. 词表抽取与语料库统计。在这个阶段中，通过以下步骤生成词汇列表提取和语料库统计信息。维基百科2017年条目被分成句子。其次，将每个句子建模为BOW，以从每个句子中获取单字（单词）。最后，获得包含所有Wikipedia 2017单词的单词列表，用于生成高质量的语义相似单词。为了扩展片段和用户查询，维基百科用于处理短文本聚类和片段数量有限的问题。在从所有wiki文档生成单词列表之后，计算语料库统计数据第一次统计信息到被获得是的term频率对于列表中的每个单词和单词对，f_w_i_j和f_w_i_w_j。第二个获得的统计信息是整个语料C中的句子频率fswi和fs wi wj以及包含词wi和词对wi wj4.2.2.2. 共现矩阵构建。排除从先前步骤生成的单词列表中未能超过频率阈值的所有单词。实验确定了频率阈值最佳阈值是在阈值范围内选择的（增量为1）。Firth（1995）提出了分布表征的概念，并说一个词的含义是由它所保持的公司定义的。共现度量一个词与它的每一个共现（与该词出现在同一上下文中的词）之间的关联。共现指的是词与它们的共现有多强的关联，以将一起出现并有一定系统关系的词分开。词的共现行为通常从非常大的语料库中获得，例如Wikipedia，其中共现发生多次。然而，具有相似同现的单词被认为是相似的，因为它们保持相同的公司，并且可以相互替换（同义关系的常见测试）。例如，在大型语料库中，可以发现术语保留剩余的单词以供进一步处理。在在这一步骤中，在单词之间创建共现矩阵，以找到它们之间的隐含关系。隐性关系，即词与词之间的共现关系。基于这些关系，可以捕获单词的不同含义并用于摘录和查询扩展。语境词对目标词的信息量特别目标词和上下文词之间的关联的常见度量是逐点互信息（PMI）（ Church 和 Hanks ， 1990;Jurafsky 和 Martin ， 2014; Abd 和Mohd，2018）。共现统计是使用PMI统计指标计算的在每个单词i（行i）和单词j（列j）的同现矩阵中，使用两个单词之间的PMI计算值。两个词之间的关联的度量计算如下（等式10）。（3））：A.S. Abdulameer等人/Journal of King Saud University845我←←←←←[PP2nkvv我k 1 ij4J2PwiωP. wj我我我.Σ我JPMI。w;w/1/4logP.wi;wjð3Þ4.2.2.4.片段扩展。如前所述，snip的集群-pets（短文本）是自然语言处理中最困难的任务之一，因为现有的聚类方法无法有效地聚类Web文档。因此，图1所示的共生矩阵。 4是构建了从同现矩阵中的每个词wi（行），只有前n个同现词被认为是这个词的向量。词向量V i<$v 1;v2;：;v n从所提取的单词列表中为每个单词wi获得。每个向量值v j 表示词w i的词w i之间的同现值的值。4.2.2.3. KNN表示k-近邻算法是最重要、最灵活、最流行的算法之一。该算法能够处理非常复杂的数据集，以找到类似的项目，这是由于其简单的实现和高效率（Bressan和Vitria，2003年; Borra等人，2019; Karaa等人，二〇一六年;这主要是由于相似性测量所需的统计信息不足。这项工作扩展了查询和片段中的单词，以捕获查询的不同含义，并丰富了构建相似性度量的特征。扩展算法以如下方式工作。在算法1步骤（5）中，将查询或片段分割成句子，然后生成BOW。在步骤（6）中，从其创建单词列表，随后，在步骤（7）中构建共现矩阵，并且在步骤（8）中构建WRT。在算法1步骤（9-17）中，从查询或片段生成的所有单词中，仅保留出现在构造的WRT中的单词，并且丢弃其余单词。该方法利用KNN语义相似词集对词表中的每个词进行扩展。在算法1中示出了扩展方法的伪代码。Karaa和Dey，2017年）。KNN的基本思想是，查询相同，通过简单多数投票，ple属于其k-最近邻中频率最高的类别Gou et al（2019）。在这项工作中，KNN表示意味着每个词由其最相似的K个词表示，即，在同现矩阵中与该词具有最高语义相似度值的前K个词。共现矩阵是稀疏的，因此这项工作只使用最K相关的词。该矩阵还用于良好的表示和样品之间的距离测量。采用KNN方法构建WRT，如图5所示。还确定每个词的KNN语义相似词集。KNNWi是词wi的KNN个词的集合，其为如果它们的向量之间的余弦相似度大于阈值e，则将其分配给词wi的KNN集合。鉴于共同-出现矩阵，每个词都有它的共现向量。如图 5、共现矩阵中的每个单词w i（row）具有向量Vi^hv1;v 2;：;v Ki。每个向量值v s表示算法1：查询和片段扩展方法1. 输入：共现矩阵（CM），其中W =共现词; WL =词列表，并且TSSW =顶部语义相似词。2. 输出：扩展查询或片段//EX-WD3. WD = Web文档//扩展查询或片段4. 开始5. WDBOW←Spilt（WD）6. WL生成单词列表（WDBOW）7. CMBuild_Co-occurrence_matrix（WL，Wiki）8. WRTGenerate_KNN_Representation（CM） //WRT9. //开始扩展10. 对于WL中的每个单词W，11.开始12.SSw←Get_semantic_similar_words _set（W，WRT）我我我i13.TSSw←获取前K个semantic_similar_words_set词wi之间的同现值对应于词ws。词wi和wj之间的余弦相似度通过使用等式（1）计算它们的向量Vi(4)（Korenius等人，2007; Tan等人，2014年; Taha和Tiun，2016年）。.Pn vk：vk（SSw）14.WL W TSSw15.端16.EX-WD Expand_ WD（WL）17. 端18. 端因为Vi;Vjsn。你知道吗？你好，我是说，2如图5所示，对于每个单词，仅保留n个最近的（具有最高余弦相似性的单词）单词。这个阶段的结果是WRT，其中每个单词都有一行包含它的n个（n被实验性地设置为10）最相似的单词（具有非常相似的同现的单词）。在这个阶段，使用不同类型的聚类方法，即，k-均值、k-中心点、SL和CL，以生成不同的聚类解决方案。这个阶段的目标是找到最佳的聚类模型（WSRC）。使用多个见图4。共生矩阵表示。k¼1·k¼14.3.聚类方法846A.S. Abdulameer等人/Journal of King Saud UniversityCP和8CP和8x图五. KNN表示：WRT。聚类方法有：i）没有单一的聚类算法可以在所有数据集上实现最佳性能，ii）表明新的基于wiki的基于KNN的数据表示可以增强所有聚类算法的性能。4.3.1. K-Means聚类最流行和最广泛使用的算法是k-means。这种流行可以归因于其易于实现和收敛。注意，k均值是根据所选的初始解和时间消耗来界定的（Madhulatha，2012; Jain和Dubes，1988; Huang，1998;Han和Kamber，2006;Abdulameer等人，2015; Mousavi等人，2015年）。以下是K-means聚类算法的步骤。算法2：K-means聚类算法1. 设置聚类数k。2. 第一步是从m个项目的样本大小中选择一组K个实例作为聚类的中心。每个实例由n个属性组成。3. 该算法考虑每个实例并将其分配到最近的集群。4. 在整个重新分配周期或每个实例分配之后，将重新计算簇质心。5. 重复迭代过程，直到质心不再改变。算法3：K-Medoids算法输入：K：集群D：包含n个对象的输出：一组k个聚类，最小化所有对象与其最近中心点的相异之和。方法：在D中随机选取k个对象作为初始代表对象;重复：将每个剩余对象分配到具有最近medoid的聚类;随机选择一个非medoid对象Orandom;C计算交换点Oj与Orandom的总点数S，若S为0，则将Oj与Orandom交换，形成新的k中心点集;直到没有变化。4.3.3. SL该算法根据两个聚类之间的空间确定数据点集之间的最小距离假设Cp和Cq是集群，并且这两个集群DCpCq之间的SL距离由（Murtagh和Contreras，2012; Zadeh和Ben-David，2009）如下定义（等式2）。（5））：4.3.2. K-Medoids聚类k-medoids聚类算法的基本方法是在n个对象中随机选取代表对象（medoids）来确定k个聚类。所有其他DCpCq¼8x2minx2Cp4.3.4. CLdx;x：5可以用最相同的k-中心点对对象进行聚类。此外，k-中心点方法利用代表性对象作为引用节点，而不是考虑对象在聚类中的平均值。输入参数k，这是必须在一对n个对象之间聚类的聚类的数量，由该方法接收。一种独特的k-中心点聚类算法基于中心点或中心对象（Madhulatha，2012; Huang，1998; Han和Kamber，2006; Jain和Dubes，1988）。以下是k-medoids聚类算法的步骤。该算法根据两类之间的空间确定数据点集之间的最大距离，对每个类都不取任何值。令Cp和Cq是聚类器，并且这两个聚类器DCpCq之间的CL 距离由（ Murtagh 和 Contreras ， 2012; Zadeh 和 Ben-David ，2009）如下定义（等式110）。（6））：DCpCq¼8x2max2Cpdx;x;6其中d<$x;x<$x通常是数据点之间的欧几里得距离A.S. Abdulameer等人/Journal of King Saud University847波什基¼波什基¼-1/45. 实验结果5.1. 数据集从根本上说，WRSC算法被广泛用于聚类搜索引擎，它聚类文档并呈现隐喻簇数精度C精度i¼1number 个集群集群召回数C召回数i¼1number 个集群ð9Þð10Þ这有助于用户有效地获得预期的结果。现有的基准模型已经过开源现在，f-测度可以计算如下：与其他聚类模型相比，文本数据集。用于验证的数据集已广泛用于先前的几项研究中以验证聚类方法（Moreno et al.，2014;Moreno和Dias，2014; Saha等人， 2018年）。一系列的黄金标准-f测量2×精确度×召回率精确度和召回率ð11Þ本文对ODP-239和MORESQUE两种常用的搜索结果聚类算法进行了研究。在ODP-239（Carpineto和Romano，2010）中，文档由标题和网络概要描述，子主题选自DMOZ 6的最顶层。或者，MOR-ESQUE中的子主题遵循正态分布，因为这些子主题是根据维基百科的模糊性定义的（Navigli和Crisafulli，2010）。因此，大多数与查询相关的sanities都包含在子主题中当然，并非所有的查询都与维基百科相关，也不是模糊的（例如，尽管搜索结果中会生成一些单词杯运动，但维基百科中的查询因此，搜索结果可能因数据集而异。使用这些数据是因为它们是网络搜索结果的标准数据集（Mitra等人，2018; Moreno等人，2014; Moreno和Dias，2014; Saha等人，2018; Wahid等人， 2014），并且所有搜索结果都是片段（短文本）。两个数据集的总结如表1所示。本节介绍了传统（基线）方法的评估和WRSC的拟议方法。的主要目标该评估是为了评估所提出的基于wiki的基于KNN的表示在处理WRSC中的词之间的不同术语分布方面的质量和有效性。5.2. 评估指标常见的信息检索度量精度、召回率和f-度量将用于评估聚类方法（Karaa等人，2016; Zaw和Mon，2013; Larsen和Aone，1999;Leung等人， 2008; Durairaj和 Vijitha ，2014; Agichtein 等人，2006年）。Precision的目标是根据检索到的查询总数中正确检索到的实例的数量来评估集群。而召回的目的是基于数据集中正确实例总数中正确检索实例的数量来评估集群。每个聚类都被视为查询的结果，每个类都被视为查询所需的文档因此，要计算每个给定查询的该聚类的查准率和查全率，如下所示：5.3. 基于ODP-239的传统和增强型WSRC的结果数据集此阶段将展示传统聚类方法的结果，即针对具有ODP- 239数据集的WSRC的k-means、k-medoids、SL和CL表2显示了使用ODP-239的基线方法的精确度、召回率和F测量的结果表2还显示，使用ODP- 239数据集，对于WSRC，k-medoids优于其他三种基线传统聚类方法。该阶段揭示了聚类方法的结果，即k均值、k中心点、SL和CL与所提出的基于wiki的基于KNN的表示方法，有助于克服WSRC中的短文本问题与ODP-239数据集。表3显示了使用ODP-239的增强方法的精确度、召回率和F测量的结果。表3还显示，对于ODP-239数据集的WSRC，k-中心点优于其他三种聚类方法。表3和图6的实验结果表明，使用基于维基百科的基于KNN的表示方法获得的结果明显比使用所有基线聚类算法获得的结果改进得更多。此外，当处理短数据相似性问题时，可以改善Web搜索结果，并且新的数据表示方法被结合到聚类过程中。因此，文本丰富和扩展有助于填补短文本相似度的空白，提高（WSRC）的性能。5.4. 基于MORESQUE数据集的传统和增强WSRC结果实验进行了获得的结果，传统的聚类方法，即，k-means，k-medoids，SL，和CL WSRC与MORESQUE数据集。表4显示了使用MORESQUE数据集的基线方法的精确度、召回率和F测量结果。表4显示，对于使用MORESQUE数据集的WSRC，k- medoids优于其他三种基线传统聚类方法结果精密瓷数量 correct instance of cluster群集的正确实例cigiven a query共计数量集群 CI实例表5和表4表明，基线传统聚类方法在MORESQUE数据集上的结果优于ODP-239数据集。当与召回词#of correct instance of cluster群集的正确实例cigiven a query共计数量实例吉文查询ð8Þ四种基线的传统聚类方法，四种聚类方法的聚类结果因数据集而异。此外，没有优越的聚类方法被发现所有的数据集。此外，k-中心点表1对黄金标准数据集的搜索结果进行聚类。表2使用ODP-239数据集的WSRC的k均值、k中心点、SL和CL的性能聚类方法精确召回率F-测度数据集数量子主题数量平均/代码片段数k-means73.873.6673.73最小/最大K-medoids78.0778.7378.4ODP-239 239 10/10/10 25，580莫雷斯克114 6.7/2/38 11，402SL71.8371.471.61CL75.4674.8475.15848A.S. Abdulameer等人/Journal of King Saud University表3在ODP-239数据集上使用基于wiki的KNN表示WSRC的k-means，k-medoids，SL和CL的性能。表5在MORESQUE数据集上使用基于wiki的KNN表示WSRC的k-means，k-medoids，SL和CL的性能。聚类方法精度召回F-measure聚类方法精度召回F-measurek-means81.8283.2682.53k-means84.7786.1385.44K-medoids85.1384.3584.74K-medoids87.6686.4887

下载后可阅读完整内容，剩余1页未读，立即下载