基于用户兴趣的STC聚类算法改进

需积分: 5 0 下载量 149 浏览量 更新于2024-08-13 收藏 582KB PDF 举报
"一种基于用户兴趣的STC改进算法 (2015年)" STC算法,全称为Streaming Text Clustering,是一种适用于大规模在线文本数据流的聚类算法。该算法在处理实时、高流量的数据流时表现优秀,因为它能够在接收到新数据时即时进行聚类,而无需对整个数据集进行重新计算。然而,原始的STC算法在满足用户个性化需求方面存在局限性,不能很好地适应用户的特定兴趣和偏好。 骆绍烨在2015年的论文中提出了一种针对STC算法的改进策略,旨在增强聚类结果的用户个性化特性。这一改进主要体现在两个方面:增加基类选择因子和改善基类合并规则。 首先,增加基类选择因子意味着将用户兴趣模型纳入到聚类过程中。用户兴趣模型通常基于用户的浏览历史、搜索行为等数据,构建一个反映用户独特兴趣的模型。通过结合这个模型,算法可以在聚类过程中更优先考虑与用户兴趣相符的文档,从而形成更符合用户需求的聚类结果。 其次,改善基类合并规则是提高聚类质量的关键。传统的STC算法可能过于简单地合并相似的类,而忽视了用户的个性化需求。改进后的算法在合并基类时,不仅考虑类间的相似度,还会权衡合并是否有助于更好地反映用户兴趣。这种调整使得聚类结果更加精细化,能够更好地匹配用户的不同兴趣领域。 实验结果证实了改进后的STC算法在准确性和效率上的提升。通过对比传统STC算法,改进版本在保持快速响应的同时,提高了聚类的准确性,更好地反映了用户个性化的需求。这对于提升搜索引擎的用户体验、推荐系统的精准度以及信息检索系统的效率具有重要意义。 这篇论文针对STC算法的改进,不仅在理论上丰富了文本聚类的研究,还在实践中提供了优化在线文档聚类的有效方法。这种用户中心的聚类策略对于现代信息检索系统的设计具有深远的指导价值。