名词短语驱动的检索结果多层聚类方法
需积分: 27 80 浏览量
更新于2024-08-12
收藏 508KB PDF 举报
"该文提出了一种基于名词短语的检索结果多层聚类方法,旨在提高搜索引擎返回结果的浏览效率和聚类质量。通过提取名词短语作为类别标签,结合候选标签分布生成基础类,并利用一趟聚类算法进行多层聚类。实验证明,该方法在类别标签的可读性、有效性及聚类性能上优于基于命名实体、STC和Lingo等传统算法。"
在信息技术领域,信息检索是一个至关重要的环节,而搜索引擎在其中扮演着核心角色。为了帮助用户更高效地处理大量的检索结果,检索结果的聚类成为了一种有效的解决方案。论文“一种基于名词短语的检索结果多层聚类方法”详细阐述了一种新的聚类策略,该策略特别关注了类别标签的质量,包括其主题表达能力和可读性。
首先,该方法通过分析文档内容,提取出名词短语作为潜在的类别标签。名词短语通常包含关键的信息实体,能够简洁地概括文档的主题。这种方法区别于传统的基于单一词汇或命名实体的聚类方式,旨在提高类别标签的表达能力。
接下来,根据提取出的名词短语在检索结果中的分布情况,生成初步的基础类别。这些基础类别是聚类过程的第一层,它们反映了不同主题的初步划分。
然后,论文提出了一个具有线性时间复杂度的一趟聚类算法来对这些基础类进行多层次的聚类。这种算法能够在保证效率的同时,进一步优化类别结构,使得聚类层次更加清晰,用户可以逐级深入地查看和理解检索结果。
实验对比显示,该基于名词短语的多层聚类方法在多个方面优于传统的基于命名实体、Single Text Clustering (STC) 和 Lingo 算法。尤其是在类别标签的可读性和有效性方面,这意味着用户更容易理解和接受这些聚类结果。同时,聚类性能的提升意味着用户可以更快地找到自己感兴趣的信息,从而提升了信息检索的用户体验。
这项研究为信息检索和文本聚类领域提供了一个创新的工具,对于改善搜索引擎的性能和用户满意度具有实际意义。通过将复杂的检索结果组织成易于理解的多层次结构,用户可以更有效地探索和利用网络上的海量信息。
2019-09-08 上传
2019-09-13 上传
2021-05-31 上传
2021-05-26 上传
2021-05-09 上传
2021-05-26 上传
2012-06-25 上传
2021-03-08 上传