IncreaseK-Means算法在Blog相似度分析中的应用

需积分: 5 121 浏览量更新于2024-08-11 收藏 283KB PDF 举报

"这篇论文是2009年发表在《厦门大学学报(自然科学版)》第48卷第2期的一篇自然科学类论文，由吴海华、李绍滋、林达具、柯迫和曹冬林共同撰写。论文主要探讨了一种新的聚类算法——IncreaseK-Means，旨在解决传统K-均值算法预先设定聚类数量以及仿射传播(Affinity Propagation)计算复杂度过高的问题。IncreaseK-Means算法被应用于Blog内容的相似度聚类分析，以支持社区发现和话题跟踪。通过对比实验，该算法在时间效率上接近K-均值，而在精度上可与仿射传播媲美，适合于大规模网络文本的分析。" 这篇论文针对Blog的社区发现需求，提出了一个改进的聚类算法IncreaseK-Means。传统的K-均值算法需要预先设定类别的数量，这在面对动态变化的网络文本数据时可能不适应。同时，仿射传播虽然在聚类效果上表现出色，但其计算复杂度较高，对于处理大量Blog文本来说，效率较低。为了克服这些问题，作者设计了IncreaseK-Means算法，它在保持相对高效运行的同时，能够自动调整聚类的数量，从而更灵活地适应数据的特性。博客(Blog)作为一种基于RSS技术的信息平台，促进了用户之间的互动交流。通过社区发现，可以挖掘出具有相同兴趣的群体，便于话题追踪和市场推广。然而，随着Blog数量的急剧增加，手动划分社区变得不切实际，因此自动化的社区发现技术显得至关重要。论文重点研究了基于内容的社区分析，尤其是文本聚类阶段。论文中提到的文本聚类方法主要包括基于划分、基于层次和仿射传播三种。鉴于Blog文档数量庞大，基于层次的方法由于计算复杂度高而被排除。因此，研究主要集中在基于划分的方法（如K-均值）和仿射传播。IncreaseK-Means算法在实验中表现出了良好的时间和精度平衡，这表明它在处理大规模网络文本聚类时，既保留了K-均值的效率，又在一定程度上达到了仿射传播的准确性。这篇论文为网络文本分析提供了一个有效工具，即IncreaseK-Means算法，该算法有望在社区发现和话题跟踪领域得到广泛应用，特别是在处理大量Blog数据时，能以较高的效率和准确度完成聚类任务。

第

卷第

期

2009

年

月

厦门大学学报(自然科学版)

No.2

Mar.

2009

Journal

Xiamen

University

(Natural

Science)

基于新型聚类算法

Increase

岳

Means

的

Blog

相似度分析

吴海华，李绍滋\林达具，柯

迫，曹冬林

(厦门大学信息科学与技术学院，福建厦门

361005)

摘要:针对现有聚类算法

K-

均值存在事先指定聚类类数及仿射传播存在计算复杂度偏高的缺陷，提出了一种新型的聚

类算法

lncrease

K-

Means.

并将其应用到

内容的相似度聚类分析中，较好地满足了社区发现和话题跟踪的需求.仿

真结果表明

在

Blog

文本聚类分析中

.lncrease

K-

Means

在时间上与

K-Means

相近，在精度上与仿射传播接近，适用于

大规模网络文本的分析处理.

关键词

lncrease

K-

Means; K-

Means;

仿射传播;聚类;特征提取

中固分类号

:TP

391

文献标识码

文章编号

:0438-0479(2009)02-0194-04

是

Web

Log

的简称，是一种基于

RSS

技术

的信息交互平台，是一种作者与读者以日志形式进行

交流的中介.有相同兴趣、爱好的作者具有共同的话

题，常常在固定的网络社区中进行交流.有了社区发现

后，可以实现话题发现与跟踪、产品推广等.由于Bl

数目之多，社区数量之大，考虑采用人工发现社区明显

不可取.因此，需要自动或半自动的社区发现技术

[IJ

社区发现目前公认的主要有两种途径，一种是对链接

进行分析，另一种是对

Blog

内容进行分析问.本文着

眼于对Bl

内容进行分析.

一般基于内容的社区分析主要分为两个步骤，首

先依据文本之间的相似度对文本进行聚类分析，然后

依据相似度组织成一定的话题社区.本文主要研究了

社区分析的第一步，如何通过文本获得Bl

之间的相

似度关系.目前，文本聚类主要有

种方法，一种是基

于划分的方法，一种是基于层次的方法时，还有一种是

2007

年

Science

上提出的仿射传播

CAffinity

propaga-

tion)

方法∞.由于

Blog

的文档数量繁多，层次聚类计

算量巨大，不适合.因此，本文主要研究基于划分的方

法和仿射传播方法.实验结果表明:在Bl

文本聚类

分析中，本文提出的新型聚类算法

lncrease

K-

Means

在时间上与

K-Means

相近，在精度上与仿射传播方法

接近，适合于大规模网络文本分析处理.

相关基础研究

收稿日期:

2008-10-17

基金项目:国家自然科学基金

(60803078)

资助

普通讯作者:

szlig@xmu.

edu.

1.1

文本特征抽取

在文本聚类中，主要采用向量空间模型

CVSM)

来

表示文本.目前文本分析的最大困难之一是特征空间

的高位性.寻求一种有效的特征选择方法，降低特征空

间的维数，提高聚类的效率和精度，成为文本聚类中需

要首先面对的重要问题.目前，文本特征抽取的常用方

法有倒排文档

CTFIDF)

、信息增益

CIG)

、互信息

l)、

统计

(CH

1)、期望交叉情

(CE)

和词组强度

CTS)

等[气考虑到

Blog

文挡的数量繁多，本文采用最经典

的

TFIDF

方法抽取特征，并进行规格化处理.

log

CN/DF

(1)

~[TF

log

CN/DF

)]2

'=1

其中

，

为第

个词的权重

;TF

为第

个词在该文档中

出现的次数

为总的文档数

;DF

，

为所有文档中，出

现第

个词的文档个数.

已提出来的特征向量有两种表示法:1)传统的向

量空间表示法

;2)

稀疏的向量空间表示法∞.

传统的向量空间表示法表示文档

，叫，

W2'

…,

，

切

n);

稀疏的向量空间表示法表示文档

，

叫，

W2'

…, T

n).

其中

为所有文档中，总共出现的不同单词个数.

虽然这两种方法在本质上是一样的，考虑到存储

空间的关系，本实验采用稀疏的向量空间表示法.

做了文档特征抽取后，特征集还是相对粗糙的，还

需要做一些预处理:句首大写字母转换成小写字母、去

除标点符号和单个字母的词、词性还原、去除停用词.

针对Bl

这一特定对象，还将代表出自同一个B1

的

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38610870

粉丝: 1
资源: 912

IncreaseK-Means算法在Blog相似度分析中的应用

论文研究-对聚类算法K-means的研究与改进 .pdf

聚类算法K-means

聚类算法K-means实现

k-means 聚类,k-means聚类算法,Python

k均值聚类算法k-means

k-means聚类算法：执行k-means聚类算法的一步-matlab开发

聚类算法讲解--.pdf

聚类分析K-means算法综述 (2).pdf

聚类算法 --2018.12.24

Web文档聚类中k-means算法的改进

最新资源