遗传算法优化的自适应文本模糊聚类研究

需积分: 11 49 浏览量更新于2024-08-11 收藏 344KB PDF 举报

"基于遗传算法的自适应文本模糊聚类研究是2008年的一篇工程技术论文，探讨了在文本聚类中的FCM（模糊C均值）聚类算法存在的问题，即对初始聚类中心敏感且聚类数C难以确定。作者提出了一种新的解决方案，利用遗传算法的全局优化特性，结合FCM算法的优点，设计了一种自适应的文本模糊聚类方法。这种方法通过可变长染色体编码策略，随机选择文本向量作为初始聚类中心，以避免局部最优解并优化聚类数量和结果。实验结果证明该算法在文本聚类中表现出高精度和效率。关键词包括遗传算法、FCM聚类、文本聚类和模糊聚类。" 本文深入研究了在文本挖掘领域，特别是聚类分析中的一个关键问题。传统的模糊C均值（FCM）聚类算法在处理大量文本数据时，往往受到初始聚类中心选择和聚类数量确定这两个难题的困扰。为了克服这些限制，研究人员提出了基于遗传算法的自适应文本模糊聚类方法。首先，论文介绍了向量空间模型，这是文档表示的一种常见方式，将每篇文档转化为由词频或TF-IDF值构成的向量。这种表示方式有助于捕捉文档之间的语义相似性。接着，文章引入了可变长染色体编码方案，这是一种创新性的方法，用于构建遗传算法的染色体结构。不同于固定长度的编码，可变长编码允许根据实际需求动态调整，使得算法更具灵活性。通过随机选取文本向量作为初始聚类中心，构建了染色体，这确保了聚类中心的多样性。在优化过程中，遗传算法与FCM算法相结合。遗传算法以其强大的全局搜索能力，能够探索多种可能的聚类配置，避免陷入局部最优。而FCM算法则以其高效的迭代过程，能逐步细化聚类结果。两者协同工作，既优化了聚类数量，又改进了聚类质量，从而解决了FCM算法的局限性。实验部分，作者通过对比实验验证了新算法的有效性和优越性，表明这种方法在文本聚类任务上实现了更准确和高效的分类结果。这一研究对于后续的文本聚类算法开发和优化提供了理论基础和实践指导，具有重要的学术价值和应用潜力。总结来说，基于遗传算法的自适应文本模糊聚类研究为解决FCM聚类算法的不足提供了一种新的思路，通过结合两种算法的优势，实现了更智能和灵活的文本聚类，这对于大数据时代的文本挖掘和信息组织有着重要的意义。

计算机科学

2008Vo

35NQ.

于遗传

法的自适应文本模糊

类研究祷)

戴文华

焦翠珍

何婷婷

(咸宁学院计算机系

咸宁

437100)1

(华中师范大学计算机科学系

武汉

430079)2

摘要

针对

FCM

聚类算法对初始聚类中心的选择敏感，以及聚类数

难以确定的问题，提出一种基于遗传算法的

自适应文本模糊聚类方法。该方法首先将文档集合表示成向量空间模型，并采用一种新型的可变长染色体编码方案，

随机选择文本向量作为初始聚类中心形成染色体，然后结合

FCM

算法的高效性和遗传算法的全局优化能力，通过遗

传进化，有效地避免了局部最优解的出现，同时得到了优化的聚类数目和聚类结果。实验表明该算法是一种精确高效

的文本聚类方法。

关键词

遗传算法，

FCM

聚类，文本聚类，模糊聚类

臼倒

rch

Adaptive

Text

Fnzzy

Clustering

Based

oetic

Algorithm

DAI

Wen-hua

]IAO

Cui-zhengl

Ting-ting

(De

partment of

mputer, Xianning

llege,Xianning 437100 ,China)1

(De

partment of

mputer

ience,

ntral China Normal University,Wuhan

430079

，

China

沪

Abstract

zzy C-means

Clusteri

鸣Alg

orithm

邵阳l8

itive

the

choice

the

initial cluster centers and i

5 difficult to

detennine

the

cluster number,

pro

阳

sed

皿

Adaptive

Text F

zzy Clustering

thod

Based

Gen

etic

gorit

hm.

Aα

:or

ding

the

principle

Vector

归

Mxl

el, documents

were

陀

presented

vecto

rs.

Then we adopted a new strategy

variabl

ler

略

enα

对

ing

缸Id

randonùy chose initial clustering

centersωforrn

chromosαnesamo

咱

∞四

nent

，仅

rs.

bining

the

efficiency

Zzy

C-m

四

Algorithm

with

the

global optimization ability

Gen

etic

Alg

orithm

the

local optimal

solution

was avoided and

the

optimum number

and

the

optimum result

cluster were obtained

means of genetic evolution

羽Jerim

ents

indicated

that

也

algorithm was efficient and

accurat

巳

Keywor

由Ge

netic

algorithm

Fuzzy

C-means

clustering

Text

clustering

Fuzzy

clustering

引言

文本聚类是一种有效的文本挖掘方法。典型的文本聚类

方法有多种，其中

FCM

算法

[1.2J

因其简单和高效性，且具有

模糊分类功能，在文本聚类中占有重要地位。由于

FCM

算

法在聚类中心和模糊分类矩阵的计算过程中采用了启发式方

法，因而有效地降低了算法复杂度，提高了运算速度。也正是

因为这样的原因，使得该算法对初始聚类中心的选择较为敏

感，易于陆人局部最优解。

同时，传统的

FCM

算法是在聚类数

确定的前提下进行

的，然而实际聚类问题中

值的确定往往非常困难，只能根据

经验大致确定。这种估值方法必将带来算法精确度的下降。

为了避免文本聚类对初始聚类中心选择的敏感性和聚类

数

难于确定的问题，我们提出一种基于遗传算法的自适应

文本模糊聚类方法。通过该方法，我们能在达到文本聚类目

的的同时得到经过优化的聚类数目，因此聚类的精确度也将

得到极大改善。

文本表示

在文本聚类之前，首先应将文本转换为易被计算机理解

的形式，然后通过判断文本间的相似性，将文档集合划分为不

同的簇。

文本聚类问题中常采用向量空间模型(

Vector

Space

Model

VSM)

[3J

进行文本表示。在该模型中，文本空间被看

作一组正交特征向量组成的向量空间，每个文档

均被映射

成文本特征的权重向量

v(d

)=(

叫

)

，

叫

)

，

…，w"以))

(1)

其中

表示文本特征抽取时所选用的特征数，叫

)

表示第

个文本特征在文档

中的权重。在向量空间模型中，文本

特征权重的计算一般采用以

idf

方法问:

Wj(di)=t

j;;

祷

logz(N/N

十

0.01)

(2)

其中

tfij

为第

个文本特征在文档

中出现的频次

，

为文

档集合中的总丈档数，

为文档集合中出现第

个文本特征

的文档数。为了减小文档长度差异对文本相似度计算的影

响，通常将每个向量归一化到单位向量，最后得到文本特征权

重的计算公式如下

叫

-t

f;;

铃

log2

(N/N

十

0.0

)

一

(3)

、

I~Z-l

f.)2

赞[l

ogz

(N/N.

+0.

FCM

囊类方法

对于

个

维数据样本

{XI'

巧，…

，

XN}

，

如果要将

它们划分成

C(2<'C

ζN)

个类别，我们可以采用

FCM

聚类方

法进行聚类，具体步骤如下:

①选定

个初始聚类中心

Z={ZI'

功，…

，Zc}

，

设置终止

祷)国家自然科学基金

(No.60442005

，

No.60673040)

，国家社会科学基金

(No.

06BYY029)

，教育部重点研究项目

CNo.

105117)

湖北省教育厅科

研重点项目

CNo.

D200728002)

。戴文华副教授，硕士。

•

134

•

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38747216

粉丝: 5
资源: 882

遗传算法优化的自适应文本模糊聚类研究

遗传算法优化的模糊聚类分析及应用研究

遗传算法优化的文本聚类技术：一种动态方法

自适应模糊聚类算法：降噪与提高聚类效率

用于彩图分割的自适应谱聚类算法* (2008年)

基于并行遗传算法的K-means聚类研究*) (2008年)

基于MATLAB的自适应蚁群聚类算法研究与仿真.pdf

基于遗传算法的模糊聚类研究及其应用

基于蚁群聚类算法的文本模糊聚类方法 (2007年)

论文研究-基于遗传算法的多维快速聚类算法研究.pdf

基于遗传模拟退货的聚类算法.zip_fuzzy clustering_模糊 算法_模糊聚类_遗传算法 聚类_遗传算法聚类

最新资源

基于遗传模拟退货的聚类算法.zip_fuzzy clustering_模糊算法_模糊聚类_遗传算法聚类_遗传算法聚类