蚁群算法在数据挖掘中的应用：K-means改进与组合策略

需积分: 10 34 浏览量更新于2024-08-11 收藏 3.25MB PDF 举报

"基于蚁群算法的数据挖掘方法研究 (2007年)" 本文主要探讨了基于蚁群算法的数据挖掘技术，特别是在聚类分析领域的应用。作者首先回顾了基本的蚁群聚类模型和信息素的概念，同时也分析了几种经典的聚类算法，包括K-means算法。K-means算法虽然广泛应用，但存在一些不足，如对初始中心点的选择敏感，容易陷入局部最优等。针对K-means算法的局限性，作者提出了一种基于信息素的K-means改进算法。该算法引入信息素的概念，利用信息素的转移概率作为判断标准来指导聚类过程，这不仅简化了算法的参数设置，还提高了聚类的速度。通过这种方式，算法能够更有效地探索全局最优解，减少了对初始条件的依赖。此外，作者还深入研究了基于信息熵的LF（Liu and Fu）改进算法，并在此基础上设计了一种蚁群聚类的组合策略。这种组合算法策略融合了不同算法的优点，旨在进一步提升聚类的质量和效率，以适应更复杂的数据集。蚁群算法自1991年被提出以来，已在多个组合优化问题中展现出强大的解决问题的能力，如旅行商问题（TSP）、二次分配问题（QAP）和作业调度问题（JSP）。其核心在于能够利用正反馈、启发式信息和约束机制来求解问题。近年来，国内外学者对蚁群算法进行了大量研究，特别是将其应用于聚类分析领域，K-means算法就是其中之一。 K-means算法是一种划分方法，由MacQueen首次提出，它需要预先设定聚类数量k，并通过迭代优化寻找最佳聚类中心。基于划分的聚类算法的目标是找到一个划分，使得聚类内部的相似度最大化，而聚类间的差异性最小化。该研究致力于利用生物启发式算法——蚁群算法来改进传统的数据挖掘技术，以解决传统算法的局限性，提高数据聚类的精度和效率，为大数据分析和挖掘提供了新的思路。通过这种创新性的方法，可以更好地应对复杂、高维度数据集的挑战，对于理解和挖掘隐藏在数据中的模式和结构具有重要意义。

第

卷第

期

Vol.

No.2

湖北工业大学学报

2007

年

月

Apr.2007

Journal or Hubeí Uníversíty or

Technol

呗~

[文章编号

1003-4684(200

7) 02-0005-05

基于蚁群算法的数据挖掘方法研究

张群，熊英，黄庆炬

(湖北工业大学计算机学院，湖北武汉

430068)

[摘

要]在研究了基本蚁群聚类模型、信息铺以及几个经典的聚类分析算法的基础上，针对传统

K-means

算

法的不足，首先提出了一种基于信息素的

k-means

改进算法，该算法以基于信息素的转移概率为判断标准来

进行聚类，减少了算法的参数个数，加快了聚类的进程.在深入研究了基于信息娟的

改进算法的基础上，

提出了一种蚁群聚类组合算法策略.

[关键词]数据挖掘

蚁群算法

K-means

算法

[中图分类号

TP31

自从

1991

年

Dorigo

等人首先提出蚁群算

法以来，吸引了许多研究人员对该算法进行研究，并

成功地运用于解决组合优化问题，如:

TSP

(Trave-

ling

Salesman

Problem);

QAP

(Quadratic

Assign-

ment

Problem)

JSP

ob-shop

Scheduling

Prob-

lem)

等.蚁群算法可用于解决许多组合优化问题，只

要能做到用一个图表来阐述将要解决的问题，能定

义一种正反馈过程(如

TSP

问题中的残留信息)

.问

题结构本身能提供解题用的启发式信息(如

TSP

问

题中城市间游历的花费)

.能建立约束机制(如

TSP

问题中已访问城市的列表).自从

1991

年

rigo

等人提出蚁群算法以来，许多相关算法的框架被提

出来.

近十几年来，国外一些学者对蚁群算法的研究

做出了贡献，其中

K-means

算法是应用最为广泛的

聚类算法之一.

K-means

算法

K-means

算法由

MacQueen

首先提出，属于聚

类方法中一种基于划分的方法，它是一种已知聚类

类别的聚类算法，也是最简单的一种迭代最优化方

法

[IJ

基于划分的聚类算法通常描述为

已知

一维

空间儿，在凡中定义一个评价函数

{X:

豆

→

R+

为每个聚类作一个量化的评价，输入凡中的

[收稿日期

2006

一

05-29

[文献标识码

对象集合

和一个整数

要求输出

的一个划分

岛

，

•

…，马，这个划分使得目标价值函数

最小

化.其中:

] =

(SJ.

(1)

使用不同的评价函数将得到不同的聚类结果.

最常用的是以各类中任意两个对象间的欧式距离平

方总和作为聚类评价函数，即

C(Si)

2: 2:

(x...

.xù).

(2)

其中.

代表划分形成的簇.

I Si

表示簇中对象的

个数，鸟

，

Xis

分别为

中的第

个和第

个对象，

d(x....xù)

为对象

x...

与对象

之间的欧式距离.

而在

K-means

算法中，是以各样本对象与其中

心之间的欧式距离平方总和作为评价函数的.每个

聚类乱的中心，也就是聚类

中对象的平均值，在

每一次聚类过程完成后被重新计算出来作为新的聚

类中心进入下一轮聚类，直至聚类中心不再发生变

化为止.

K-means

算法中实际使用的评价函数如

C(Si)

三

<.X

"x...).

(3)

r=l

其中，二为聚类

的中心，其他符号的含义同式

K-means

算法描述如下t1)随机选择是个对象

作为初始的聚类中心

;2)

计算各个对象到聚类中心

的距离，将对象归到离它最近的那个聚类中心所在

的类

;3)

对调整后的新类计算新的聚类中心，即重新

计算每个类中对象的平均值，用对象均值点作为新

[侍者简介]张

群(1

977

一)

，女，湖北石首人，湖北工业大学讲师，研究方向

计算机网络.

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38746018

粉丝: 8
资源: 942

蚁群算法在数据挖掘中的应用：K-means改进与组合策略

蚁群算法在数据挖掘中的应用及特性

基于蚁群算法的拣选作业优化问题研究

蚁群算法在Java实现的数据挖掘源码解析

基于蚁群算法的挖掘式装载机工作装置优化设计

基于蚁群算法转移概率的研究

基于蚁群算法车辆路径问题研究

基于蚁群算法的数据挖掘在第三方物流中的应用.pdf

高校云数据中心基于蚁群算法的资源调度研究

基于蚁群算法的足球机器人避障方法 (2007年)

论文研究-基于改进蚁群算法的乒乓球数据挖掘研究.pdf

最新资源