基于用户兴趣的STC聚类算法改进

需积分: 5 149 浏览量更新于2024-08-13 收藏 582KB PDF 举报

"一种基于用户兴趣的STC改进算法 (2015年)" STC算法，全称为Streaming Text Clustering，是一种适用于大规模在线文本数据流的聚类算法。该算法在处理实时、高流量的数据流时表现优秀，因为它能够在接收到新数据时即时进行聚类，而无需对整个数据集进行重新计算。然而，原始的STC算法在满足用户个性化需求方面存在局限性，不能很好地适应用户的特定兴趣和偏好。骆绍烨在2015年的论文中提出了一种针对STC算法的改进策略，旨在增强聚类结果的用户个性化特性。这一改进主要体现在两个方面：增加基类选择因子和改善基类合并规则。首先，增加基类选择因子意味着将用户兴趣模型纳入到聚类过程中。用户兴趣模型通常基于用户的浏览历史、搜索行为等数据，构建一个反映用户独特兴趣的模型。通过结合这个模型，算法可以在聚类过程中更优先考虑与用户兴趣相符的文档，从而形成更符合用户需求的聚类结果。其次，改善基类合并规则是提高聚类质量的关键。传统的STC算法可能过于简单地合并相似的类，而忽视了用户的个性化需求。改进后的算法在合并基类时，不仅考虑类间的相似度，还会权衡合并是否有助于更好地反映用户兴趣。这种调整使得聚类结果更加精细化，能够更好地匹配用户的不同兴趣领域。实验结果证实了改进后的STC算法在准确性和效率上的提升。通过对比传统STC算法，改进版本在保持快速响应的同时，提高了聚类的准确性，更好地反映了用户个性化的需求。这对于提升搜索引擎的用户体验、推荐系统的精准度以及信息检索系统的效率具有重要意义。这篇论文针对STC算法的改进，不仅在理论上丰富了文本聚类的研究，还在实践中提供了优化在线文档聚类的有效方法。这种用户中心的聚类策略对于现代信息检索系统的设计具有深远的指导价值。

第

卷第

期

2015

年

月

江南大学学报(自然科学版)

Journal

Jiangnan

University(

Natural

Science

Edition)

一种基于用户兴趣的

STC

改进算法

骆绍烨

(背田学院信息工程学院，福建背田

351100

)

No.l

Feb. 2015

摘

要:作为一种常用的在线文档聚类算法，

STC

算法聚类结果在用户个性化方面存在不足。改进

后的算法结合用户兴趣模型，通过增加基类选择因子和改善基类合并规则来进行改进，实现基于

用户兴趣特征的个性聚类效果。实验表明，改进后的算法具有较好的准确性和效率。

关键词:

STC

算法;用户兴趣模型;文本聚类

中图分类号

:TP

391

文献标志码

文章编号

:1671

-7147(2015)01

0085

A New

STC

Algorithm

ßased

User

Interest

LUO

Shaoye

(College of Information Engineering, Putian University ,Putian 351100, China)

Abstract:

STC

algorithm is an online document clustering algorithm commonly used. There are some deficiencies in

users'personalization of the clustering results. The improved algorithm combined with the

users' interest model can

implement the characteristic clustering results

increasing the base class selection factor and improving the merge

rules of the base class. The experiments show that the improved algorithm has better accuracy and efficiency.

Key

words:

STC

algorithm, user interest model , text clustering

在浩大复杂的互联网中，各种资源信息充斥其

间，搜索已成为不可或缺的最重要的网络应用之

一。根据

CNNIC

的最新统计，搜索引擎的网民使用

率达到了

80.3%

，仅次于即时通信排在了所有的网

络应用中的第

位

[IJ

。然而，搜索引擎仅只是对结果

按照一定规则进行排序，用户一般只看搜索结果的

前几条记录，无法全面了解搜索结果，而聚类技术

则可以解决这一问题。

传统的文本聚类主要是对一个或若干个文档

集进行离线的聚类分析，文档数量格式等相对固

定。而在网页数据聚类分析时，网页的内容和格式

等相对繁杂，并且要求在线完成聚类分析。目前，

STC

算法是

WEB

挖掘中使用最广泛的在线聚类分

收稿日期

:2014

- 09 - 10;

修订日期

:2014

析算法之一。

经典

STC

算法

后缀树

(Suffix

tree)

起源于

Weiner

在

1973

年

提出的一种数据结构[幻，主要用于字符串处理，能

快速高效地解决字符串匹配和查询问题。后缀树的

构造方法较多，比较常用的是

Okkonen's

算法

[3J

。

该算法具有较好的时间性和空间性，且容易理解。

其基本思想是:假设

. i - 1

]的后缀树已经建

好了，那么在

T[O.

卜

]的每个后缀

T[O.

卜

]，

. i - 1 ] ,. . T[j. . i - 1 ]

i -

1..

i -

,""

(空字符串)的后面加上字符

就可以得

到

的后缀树[

。

基金项目:福建省教育厅

类科技项目

2175)

;甫田市科技项目

(2014GI6)

;青田学院教育教学改革研究项

目(J

G2012001

)。

作者简介:骆绍烨(1

982-)

，男，福建甫田人，讲师，工学硕士。主要从事

WEB

挖掘及

WEB

应用研究。

Email:LsyI23@163.com

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38746166

粉丝: 8
资源: 960

基于用户兴趣的STC聚类算法改进

STC跟踪算法matlab仿真源码

STC算法及代码文档说明

Spiral-STC算法

机器人在线覆盖 Spiral-STC算法

机器人 Spiral-STC算法

stc89c52巡线pid算法

基于通过pid算法控制stc32的pwm输出

基于stc51风摆控制系统

机器人在线覆盖 Spiral-STC算法 python

基于stc15的万年历

最新资源