C omputer Engineering and Applications计算机工程与应用2015,51(17)
1 引言
伴随着计算机应用在全球各个领域的普及,网络正
以其独特的方式改变着人们的学习、工作和日常生活。
然而,随着网络利用率的不断提升,威胁网络安全的手
段也越来越多样化,网络安全问题已经成为当今世界的
重要议题之一。与此同时,静态安全技术无法满足当代
网络安全需求的问题日趋严重,因此一种能够检测入侵
[1]
行为且积极主动的安全防卫技术
—
—入侵检测系统
[2]
(Intrusion Detection System,IDS)应运而生。
目前,J.B.MacQueen 提出的传统 K-means 聚类算法
是应用于入侵检测系统中最常见的聚类算法之一。传
统 K-me ans 聚类算法在给定
K
值的情况下,反复迭代直
到平方误差准则函数收敛,输出
K
个聚类结果集。该
算法是相对可伸缩且高效的,在处理大型数据集方面效
力显著,是解决聚类问题的经典算法之一
[3]
。但是,该算
法在聚类簇形状发现和高维数据处理等方面有其不可
回避的缺点与不足。众多研究者针对传统 K-means 的
不足提出了一系列的改进算法
[4-7]
。其中文献[7]提出了
一种新的基于数据样本点密度选择初始聚类中心的改
进 K-means聚类算法,虽然该算法在检测效果上有很大
的进步,但仍然无法回避产生聚类结果集的随机性。
本研究以基于数据挖掘技术在入侵检测系统中应
改进 K-mea ns算法在入侵检测中的应用研究
王 茜,刘胜会
WANG Qian, LIU She ng hui
重庆大学 计算机学院,重庆 400044
College of Compute r Science, Chongqing Un iversity, Chongqing 400044, China
WANG Qian, LIU Shenghui. Application rese arch of improved K-means algorithm in intr usion detection. Computer
Eng ineering and Applications, 2015, 51(17):124-127.
Abstract:An imp roved K-means clustering alg orithm is put forward on basis of the split-m erge method for the purpose
of remedying defects both in determination of value in K and in selection of initial cluster centre of traditional K-means
clustering. The concept of independence degree of date is incorporated into the exp erimental date subset construction theory,
using independence degree to evaluate the importance of nature. The database is merged into several classes in respect of
density of date points, the combination of the minimum spanning t ree algorithm and traditional K-means clustering alg o-
rithm is conducive to the achievement of splitting. The KDD Cup99 database is applied to conduct simulation experiment
on the application of the improved algorithm in intrusion detection. The results indicate tha t the improved algorit hm pre-
vails over traditio nal K-me ans algorithm in detection rat e and false alarm rate.
Key words:intrusion detection; data mining; clustering algorithm; K-means clustering; minimum spanning tree
摘 要:为了弥补传统 K-means聚类算法在 K值确定和初始中心选择难等方面的不足,基于“合并与分裂”思想,提出
一种改进的 K-means聚类算法。将数据独立程度概念引入实验数据子集构造理论中,利用独立程度评价属性的重要
性;根据点密度将数据集合并为若干类,结合最小支撑树聚类算法与传统 K-means 聚类算法实现分裂;使用 KDD
Cup99数据集对改进算法在入侵检测中的应用进行仿真实验。结果表明,改进算法在检测率和误报率方面均优于传
统 K-means 算法。
关键词:入侵检测;数据挖掘;聚类算法;K-means 聚类;最小支撑树
文献标志码:A 中图分类号:TP391 doi:10.3778/j.issn.1002-8331.1309-0161
基金项目:科技部国家科技支撑计划重点项目(No.2011BAH25B04)。
作者简介:王茜(1964—),女,博士,副教授,主要研究领域为信息安全、电子商务、远程教育课件工具;刘胜会(1 988—),女,硕士
研究生,主要研究领域为信息安全、数据挖掘。E-mail:liushenghui87@163.com
收稿日期:2013-09-12 修回日期:2013-11-15 文章编号:1002-8331(2015)17-0124-04
CNKI网络优先出版:2014-02-13, h ttp://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1309-0161.html
124