"改进聚类分析算法在入侵检测中的研究" - CSDN文库

版权申诉

130 浏览量更新于2024-03-09 收藏 985KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

本文是关于计算机研究领域的一篇论文，题目是"改进的聚类分析算法在入侵检测中的研究"。入侵检测技术是一种通过主动检测来发现计算机网络中异常行为的技术，其主要方法是采集计算机网络以及系统中的数据信息和系统记录，对这些数据进行分析从而发现异常。近几年来，入侵检测领域的研究中，数据挖掘的方法得到了广泛的应用，特别是 k-means 算法被用于对网络中采集到的数据信息进行处理，其方便和灵活性备受研究者的青睐。然而，在实践应用中，研究发现单纯的 k-means 算法存在着明显的缺陷，因此有必要对其进行改进。本文的主要工作即是围绕 k-means 算法在入侵检测中的应用展开研究和改进。首先，本文对 k-means 算法在实际应用于入侵检测时所遇到的问题进行了剖析，研究后发现了两个主要方面的问题。第一，网络中的数据集是未知的，可能是球面也可能是其他形状的，而 k-means 算法更适合处理球状或者有固定形态的数据集；第二，k-means 算法在确定聚类个数和初始聚类中心位置时缺乏较好的理论依据，主要依靠经验值，最终可能得到一个局部的最优聚类。针对这些问题，本文的工作围绕以上两点展开，先解决入侵检测数据集的优化问题，一般来说在入侵检测中，数据集的形状都是未知的，因此需要对 k-means 算法进行改进以适应这种未知形状的数据集。其次，本文提出了一种基于改进的 k-means++ 算法，在选择初始聚类中心时能够更好的满足数据的特性，从而提高了聚类的准确性和稳定性。实验结果表明，该算法在入侵检测中具有更高的检测率和更精确的分类结果。总之，本文针对 k-means 算法在入侵检测中存在的问题展开了深入的研究，并提出了一种改进的 k-means++ 算法，该算法能够更好地适应未知形状的数据集和提高聚类的准确性和稳定性。本文的研究意义在于提高了入侵检测的准确性和效率，对进一步推动入侵检测技术的发展具有重要的理论和实践意义。同时，本文的研究也对于数据挖掘和聚类分析算法的改进具有一定的参考价值，为相关领域的研究提供了新的思路和方法。希望本文的研究成果可以对相关研究人员和实践工作者有所帮助，促进入侵检测技术的不断进步和发展。

资源详情

资源推荐

武汉科技大学硕士学位论文

4

由此可以看出，算法能够对任何数据集都能做出处理才是最理想的。

（4）对数据集中孤立点的处理。无论是在理论还是在现实应用中，几乎所有的

数据集都包含了孤立点，他们可能是未知数据或者错误的数据，在入侵检测中，也

是一种异常数据。有些聚类算法受到这种孤立点的影响很大，一旦随机到了这些孤

立点作为了输入参数，会使聚类的结果非常的不理想。

（5）特殊条件下的聚类。例如在入侵检测中，可能需要统计满足某个条件下，

是否存在异常行为，因此，如何选择这个约束条件以及避开这些条件的干扰而且保

证聚类结果的较高正确率也是需要进一步的研究。

（6）算法的效率问题。入侵检测对算法的效率有比较高的要求，当有异常行为

的时候，入侵检测系统需要最快的做出反应并提供预警。因此，对于算法复杂度的

研究和分析，是决定该方法能否应用到实际检测中的关键。

（7）聚类结果的可视性。对于计算机管理员来说，希望能够得到最直观的结果

来帮助其做出决策和判断。客户需求也是入侵检测系统所需要重视的。

以上所述的研究方向，都是旨在将聚类的方法较好的与入侵检测结合起来并使

之发挥重要作用，也是是目前主要的研究思路。

1.3 本文的主要工作

本文的主要研究内容为，通过对聚类算法的改进和在 KDD99 数据集中入侵检测

方法的研究，分析出目前入侵检测中检测率过低，误报率过高的原因，并针对分析

的原因提出解决方案。主要工作如下：

（1）以 KDD99 数据集为例，通过对入侵检测中所需要检测的数据集进行分析

研究，寻找这类数据集的特点。该数据集是模拟一个真实的网络环境中的数据集。

分析该数据集的整体结构，发现两个问题：第一，数据集在空间几何中的形状并不

是呈现出近似于球状，而是有很大的未知性；第二，大部分异常数据在整个数据集

中异常特征比较明显，有的异常数据甚至形成了孤立点，基于此可以做一种推断，

孤立点可能是左右聚类结果关键点之一。

（2）分析相关聚类算法，在入侵检测的数据聚类分析阶段，k-means 算法作为

一种非常实用的分析方法而被应用，其优缺点都非常明显，优点在于简单快速，迅

速形成聚类；最大的缺点在于聚类结果受到每个初始聚类中心的选取的影响，对于

IDS 而言，影响到最终检测的正确率和误报率。因此，需要对算法本身进行改进，使

其能够适应于目前的入侵检测技术。

（3）针对以上的分析，得出的结论是要想提升 IDS 的整体检测性能，必须从数

万方数据

武汉科技大学硕士学位论文

5

据集和算法本身同时做出改进。因此，本文提出了新的 IDS 数据分析处理模型。整

个模型包括两个部分：数据预处理部分和数据自适应聚类部分。数据预处理首先提

出点密度的概念，利用点密度对数据集做第一次处理，去掉一些远离的干扰点，然

后用数学的方法对数据进行标准化和归一化处理，使得数据集本身更适合 k-means

算法；数据自适应聚类部分则是采用 Davies-Bouldin 指数对初始聚类位置进行一个更

规范化的确定，使得初始的聚类中心能够依靠数据集本身的特点进行一个自动的选

取。

（4）通过实验，来验证上面提出改进方案，利用 KDD99 数据集来完成测试实

验，并且对该模型的正确性进行验证，并分析可能出现的情况，总结实验的结果。

1.4 论文的总体框架

文章一起有五个部分，每部分的主要内容如下：

第一章简单介绍下选取课题的意义所在，阐述目前该课题的相关资料和研究现

状，最后介绍了本文所做的一些工作和本文结构。

第二章介绍了入侵检测技术和 IDS 以及数据挖掘的相关背景知识。首先是介绍

了入侵检测的概念、定义，有层次有重点的分析了入侵检测的方法以及

目前 IDS 的主要结构。然后介绍了数据挖掘的基本知识，包括数据挖掘

的概念和一些常用的聚类算法，最后介绍了聚类算法在入侵检测中的一

些应用。

第三章对提出和发现的问题进行了研究和分析，建立了新的检测模型。模型分

两个主要部分，一个是对数据集的处理部分，一个是对算法的本身的改

进部分。

第四章对前面中提出的新的聚类模型进行了实验验证。首先介绍了一下实验所

用的数据集，然后介绍了本文采用的对数据进行预处理的方法，最后

给出了实验结果对其进行了简单的分析。

第五章对所完成的工作进行了一个小结。提出了在研究过程中所发现的自身研

究的不足和缺陷，提出了未来继续研究的几个思路，展望了下一步研究

的方向。

万方数据

剩余46页未读，继续阅读

programyp

粉丝: 89
资源: 1万+

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈