TS-FIC: 基于频繁项集的搜索引擎聚类浏览算法提升信息检索精准度

需积分: 9 0 下载量 72 浏览量 更新于2024-08-11 收藏 344KB PDF 举报
本文档探讨了一种名为"TS-FIC"的基于频繁项集的搜索引擎聚类浏览算法,发表于2011年的广西师范大学学报自然科学版。该算法在解决网络信息爆炸带来的问题上具有创新性,旨在帮助用户更有效地在搜索引擎返回的结果中找到他们感兴趣的信息。 TS-FIC算法的核心思想是利用关联规则挖掘出的频繁项集作为类标签,这些项集反映了用户搜索行为中的潜在兴趣点。首先,算法通过频繁项集构建初始聚类,这些聚类代表一组具有相似查询行为的文档。接着,它利用频繁项集之间的语义关系,将这些初始聚类组织成一个层次结构,类似于树状结构,以便更好地展现文档之间的语义关联。 在形成最终聚类时,算法引入了语义相似度作为衡量类之间相似度的重要指标。这有助于减少由于查询词多义性导致的信息分散,使聚类更加精准。通过这种方式,算法可以更精确地确定每个类的主题,提供更具针对性的搜索结果。 论文作者沙贝贝和谢丽聪强调了新排序方案的重要性,这种方案考虑了类的语义相似度,确保了用户感兴趣的查询结果更易被发现,避免了用户因结果过多而错过关键信息的情况。实验结果显示,TS-FIC算法不仅在理论上具有可行性,而且在实际应用中显示出良好的效率和聚类精度,提高了搜索引擎的用户体验。 关键词包括“聚类”、“关联规则”、“语义相似度”和“类标签”,这些都是理解该算法的关键概念。该研究的中图分类号为TP391,表明其属于信息技术领域的信息检索和数据挖掘范畴。文章编号1001-6600(2011)02-0151-05,强调了其在学术期刊上的位置和发表时间。 这篇文章对于当前搜索引擎优化和用户体验提升具有重要的理论价值和实践意义,为搜索引擎聚类浏览技术的发展提供了新的思路和方法。