武汉科技大学硕士学位论文
4
由此可以看出,算法能够对任何数据集都能做出处理才是最理想的。
(4)对数据集中孤立点的处理。无论是在理论还是在现实应用中,几乎所有的
数据集都包含了孤立点,他们可能是未知数据或者错误的数据,在入侵检测中,也
是一种异常数据。有些聚类算法受到这种孤立点的影响很大,一旦随机到了这些孤
立点作为了输入参数,会使聚类的结果非常的不理想。
(5)特殊条件下的聚类。例如在入侵检测中,可能需要统计满足某个条件下,
是否存在异常行为,因此,如何选择这个约束条件以及避开这些条件的干扰而且保
证聚类结果的较高正确率也是需要进一步的研究。
(6)算法的效率问题。入侵检测对算法的效率有比较高的要求,当有异常行为
的时候,入侵检测系统需要最快的做出反应并提供预警。因此,对于算法复杂度的
研究和分析,是决定该方法能否应用到实际检测中的关键。
(7)聚类结果的可视性。对于计算机管理员来说,希望能够得到最直观的结果
来帮助其做出决策和判断。客户需求也是入侵检测系统所需要重视的。
以上所述的研究方向,都是旨在将聚类的方法较好的与入侵检测结合起来并使
之发挥重要作用,也是是目前主要的研究思路。
1.3 本文的主要工作
本文的主要研究内容为,通过对聚类算法的改进和在 KDD99 数据集中入侵检测
方法的研究,分析出目前入侵检测中检测率过低,误报率过高的原因,并针对分析
的原因提出解决方案。主要工作如下:
(1)以 KDD99 数据集为例,通过对入侵检测中所需要检测的数据集进行分析
研究,寻找这类数据集的特点。该数据集是模拟一个真实的网络环境中的数据集。
分析该数据集的整体结构,发现两个问题:第一,数据集在空间几何中的形状并不
是呈现出近似于球状,而是有很大的未知性;第二,大部分异常数据在整个数据集
中异常特征比较明显,有的异常数据甚至形成了孤立点,基于此可以做一种推断,
孤立点可能是左右聚类结果关键点之一。
(2)分析相关聚类算法,在入侵检测的数据聚类分析阶段,k-means 算法作为
一种非常实用的分析方法而被应用,其优缺点都非常明显,优点在于简单快速,迅
速形成聚类;最大的缺点在于聚类结果受到每个初始聚类中心的选取的影响,对于
IDS 而言,影响到最终检测的正确率和误报率。因此,需要对算法本身进行改进,使
其能够适应于目前的入侵检测技术。
(3)针对以上的分析,得出的结论是要想提升 IDS 的整体检测性能,必须从数
万方数据