]152
北京师范大学学报(自然科学版)
Journal of Beijing Normal University (Natural Science)
2009 04
45(2)
基 于 人 工 免 疫 网 络 的 k‐平 均 聚 类 算 法 的 研 究
倡
梁雪芳 别荣芳
报
段季芳 付增梅
(北京师范大学信息科学与技术学院 ,100875 ,北京)
摘要 以人工免疫网络理论结合 k‐平均算法 ,尝试了一种聚类分析的新的解决方案 .对 k‐平均算法中每一次迭代求
平均值来确定聚类中心的方式进行改进 ,采用人工免疫网络中克隆选择和变异机制对聚类中心进行操作 ,选取最优抗体
作为下一次迭代的聚类中心 ,克服了 k‐平均算法中对孤立点敏感的缺点 ,从而大大减少了迭代次数 .通过对 4 组标准数
据的实验 ,结果表明 ,该算法具有很好的自适应性 ,收敛速度快 ,提高了聚类性能 .
关键词 人工免疫网络 ;聚类 ;k‐平均
倡 国家自然科学基金资助项目(10001006 ,60273015)
报 通信作者
收稿日期 :2008‐11‐10
0 前言
人工免疫算法是基于自然免疫系统通过对病原物
质的特殊提取 、识别 、响应 、自适应调节 、学习和记忆等
能力 ,排斥抗原 ,维护生物体内环境稳定的机能 .有
Jerne 的独特型网络理论 ,Perelson 的动态免疫理论 ,
Timmis 的资源有限人工免疫系统理论的支持 ,人工
免疫算法得到极大的发展 ,并广泛应用到多目标优化
问题 、模式识别 、多模态优化 、聚类等多种领域
[1‐3]
.
数据挖掘(data mining)是从大量的 、不完全的 、有
噪声的 、模糊的数据集中抽取出潜在的 、有价值的知识
(模型或规则)的过程
[4]
.聚类是数据挖掘的主要任务
之一 ,聚类分析(clustering)就是将数据对象分组成多
个类或簇 ,在同一个簇中的对象间具有高相似度 ,而不
同簇中的对象差别较大
[5]
.
本文在经典聚类算法 k‐平均算法的基础上 ,结合
人工免疫的算法思想 ,提出一种新的聚类算法 ,经实验
证明 ,该算法有很好的自适应性 ,在较大数据集上的性
能有较好的体现 .
1 人工免疫系统原理的介绍
1 .1 自然免疫系统 自然免疫系统是一个复杂的自
适应系统 ,可保护人体不受外部病原体侵害 ,并把体内
所有的细胞或分子分成或者属于自己的种类(自体细
胞) ,或者属于外部来源的非自体分子种类 .免疫系统
不依靠任何中心控制 ,具有分布式任务处理能力 ,具有
在局部采取行动的智能 ,也通过起交流作用的化学信
息构成网络 ,进而形成全局观念
[6]
.
免疫系统分成 2 个主要部分 :固有免疫系统和自
适应免疫系统 .固有免疫系统是抵抗抗原感染的第一
道防线 ,抗原多数在这里被阻止 .如果固有免疫系统被
攻破 ,则自适应免疫系统针对特定感染病原体开始发
挥作用 .自适应免疫系统能够记住入侵的抗原特征 ,预
防下一次袭击 .免疫系统具有 2 种应答方法 :初次应答
和二次应答 .初次应答发生在免疫系统遭遇第一次遇
到过的抗原并对其反应的时候 .免疫系统能够学习抗
原 ,该机制产生免疫记忆 ,这样为身体再次遇到同样的
抗原时产生二次应答
[7‐8]
.
1 .2 人工免疫系统 人工免疫系统已经用于解决许
多不同的工程问题 .日本学者 Ishida
[9]
在 1990 年利用
免疫系统解决传感器网络故障诊断问题 ,这是目前可
查的最早的免疫系统在工程领域的研究成果 .随后 ,美
国学者 Forrest
[10 ]
在 1994 年首次将免疫系统手段用
于计算机安全和病毒检测 .此后 ,越来越多的人注意到
Perelson 、Bersini 和 Varela 等理论免疫学家在 1989 、
1990 年做的早期研究工作的重要性 ,他们尝试建立免
疫系统的模型 ,以期为生物计算智能提供新的方法 ,人
工免疫系统的应用领域由此不断得到扩大 .
1 .3 基于人工免疫网络的聚类算法 人工免疫系统
被初始化成为 B 细胞的一个网络 ,称为人工免疫网
络 ,这是数据集的一个部分 ,剩下的数据组成训练数
据 ,或者叫抗原数据 .抗原集中的每一个元素与人工免
疫网络中的每个 B 细胞相匹配 ,相似度用欧氏距离计
算 .B 细胞被匹配过程和网络中的 B 细胞所刺激 ,如 :
L
s
=
1
+
n
+
d
p
-
2
∑
n
x
=
0
d
x
式中 d
p
表示标准数据空间中的 2 个元素之间的距离 ,
0 ≤ d
p
≤ 1 ,d
x
表示 B 细胞的第 x 个邻居的距离 .因此