机器学习应用：KDD CUP99入侵检测与数据分析实战

需积分: 0 90 浏览量更新于2024-06-30 3 收藏 2.14MB PDF 举报

"这篇教程详细介绍了如何使用机器学习进行入侵检测和攻击识别，以KDD CUP 99数据集为例。作者强调了反对利用技术进行非法活动，并希望通过分享网络安全知识来促进防护意识。教程涵盖了数据预处理、KNN算法应用以及入侵检测的优化步骤。" 在网络安全领域，机器学习已经成为一种强大的工具，用于识别和预防潜在的攻击。本教程以KDD CUP 99数据集为研究对象，这是一个广泛使用的入侵检测数据集，包含正常连接和各种类型的攻击实例。通过对这个数据集的分析，我们可以学习如何利用机器学习模型来区分正常行为和异常行为。首先，教程介绍了数据预处理的重要性，特别是将字符特征转换为数值特征，这是机器学习模型能够理解输入的关键步骤。接着，数据标准化和归一化被讨论，这些过程可以确保所有特征在同一尺度上，从而提高模型的性能。 KNN（K-Nearest Neighbors）是一种简单的监督学习算法，常用于分类任务。在这个教程中，KNN被应用于入侵检测，通过寻找最近邻的方法来判断新的网络连接是否属于攻击类型。作者还展示了如何实现KNN算法，并解释了其在入侵检测中的应用。为了优化入侵检测的效果，教程进一步探讨了数值标准化和归一化技术，这两种方法可以帮助减少特征之间的差异，使得模型在处理不同尺度的特征时表现更佳。最后，通过绘制ROC曲线（Receiver Operating Characteristic），可以评估KNN模型在检测入侵时的性能，这有助于理解模型的真阳性率和假阳性率。此外，教程还提到了其他网络流量统计特征，如基于时间的网络流量统计和基于主机的网络流量统计，这些都是构建有效入侵检测系统时需要考虑的重要因素。这篇教程为初学者提供了一个深入理解机器学习在网络安全应用的起点，特别是入侵检测。作者的目标是通过分享一系列的基础教程，帮助读者逐步掌握网络安全知识，并鼓励动手实践。对于想要进入网络安全领域的学习者，这是一个宝贵的资源，可以让他们了解如何利用机器学习技术来保护网络环境。

2020/2/21 写文章-CSDN博客

https://editor.csdn.net/md/?articleId=103189405 6/33

下面展现了其中3条记录，总共有42项特征，最后一列是标记特征（Label），其他前41

项特征共分为四大类。

TCP连接基本特征（共9种，序号1～9）

TCP连接的内容特征（共13种，序号10～22）

基于时间的网络流量统计特征（共9种，序号23～31）

基于主机的网络流量统计特征（共10种，序号32～41）

0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,1

9,19,1.00,0.00,0.05,0.00,0.00,0.00,0.00,0.00,normal.

0,icmp,ecr_i,SF,1032,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,511,511,0.00,0.00,0.00,0.00,1.00,0.00,

0.00,255,255,1.00,0.00,1.00,0.00,0.00,0.00,0.00,0.00,smurf.

0,tcp,private,S0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,52,13,1.00,1.00,0.00,0.00,0.25,0.10,0.00,2

55,13,0.05,0.07,0.00,0.00,1.00,1.00,0.00,0.00,neptune.

接下来按顺序解释各个特征的具体含义，这是进行数据分析之前非常必要的一个环节。

1.TCP连接基本特征（共9种，序号1～9）

基本连接特征包含了一些连接的基本属性，如连续时间，协议类型，传送的字节数等。

(1) duration - 连接持续时间，以秒为单位，连续类型。范围是 [0, 58329] 。它的定

义是从TCP连接以3次握手建立算起，到FIN/ACK连接结束为止的时间；若为UDP

协议类型，则将每个UDP数据包作为一条连接。数据集中出现大量的duration = 0

的情况，是因为该条连接的持续时间不足1秒。

(2) protocol_type - 协议类型，离散类型，共有3种：TCP, UDP, ICMP。

2020/2/21 写文章-CSDN博客

https://editor.csdn.net/md/?articleId=103189405 7/33

(3) service - 目标主机的网络服务类型，离散类型，共有70种。’aol’, ‘auth’, ‘bgp’,

‘courier’, ‘csnet_ns’, ‘ctf’, ‘daytime’, ‘discard’, ‘domain’, ‘domain_u’, ‘echo’, ‘eco_i’,

‘ecr_i’, ‘efs’, ‘exec’, ‘finger’, ‘ftp’, ‘ftp_data’, ‘gopher’, ‘harvest’, ‘hostnames’, ‘http’,

‘http_2784′, ‘http_443′, ‘http_8001′, ‘imap4′, ‘IRC’, ‘iso_tsap’, ‘klogin’, ‘kshell’,

‘ldap’, ‘link’, ‘login’, ‘mtp’, ‘name’, ‘netbios_dgm’, ‘netbios_ns’, ‘netbios_ssn’,

‘netstat’, ‘nnsp’, ‘nntp’, ‘ntp_u’, ‘other’, ‘pm_dump’, ‘pop_2′, ‘pop_3′, ‘printer’,

‘private’, ‘red_i’, ‘remote_job’, ‘rje’, ‘shell’, ‘smtp’, ‘sql_net’, ‘ssh’, ‘sunrpc’, ‘supdup’,

‘systat’, ‘telnet’, ‘tftp_u’, ‘tim_i’, ‘time’, ‘urh_i’, ‘urp_i’, ‘uucp’, ‘uucp_path’, ‘vmnet’,

‘whois’, ‘X11′, ‘Z39_50′。

(4) flag - 连接正常或错误的状态，离散类型，共11种。’OTH’, ‘REJ’, ‘RSTO’,

‘RSTOS0′, ‘RSTR’, ‘S0′, ‘S1′, ‘S2′, ‘S3′, ‘SF’, ‘SH’。它表示该连接是否按照协议要求

开始或完成。例如SF表示连接正常建立并终止；S0表示只接到了SYN请求数据包，

而没有后面的SYN/ACK。其中SF表示正常，其他10种都是error。

(5) src_bytes - 从源主机到目标主机的数据的字节数，连续类型，范围是 [0,

1379963888]。

(6) dst_bytes - 从目标主机到源主机的数据的字节数，连续类型，范围是 [0.

1309937401]。

(7) land - 若连接来自/送达同一个主机/端口则为1，否则为0，离散类型，0或1。

(8) wrong_fragment - 错误分段的数量，连续类型，范围是 [0, 3]。

(9) urgent - 加急包的个数，连续类型，范围是[0, 14]。

2.TCP连接的内容特征（共13种，序号10～22）

对于U2R和R2L之类的攻击，由于它们不像DoS攻击那样在数据记录中具有频繁序列模

式，而一般都是嵌入在数据包的数据负载里面，单一的数据包和正常连接没有什么区

别。为了检测这类攻击，Wenke Lee等从数据内容里面抽取了部分可能反映入侵行为的

内容特征，如登录失败的次数等。

(10) hot - 访问系统敏感文件和目录的次数，连续，范围是 [0, 101]。例如访问系统

目录，建立或执行程序等。

(11) num_failed_logins - 登录尝试失败的次数。连续，[0, 5]。

(12) logged_in - 成功登录则为1，否则为0，离散，0或1。

(13) num_compromised - compromised条件出现的次数，连续，[0, 7479]。

(14) root_shell - 若获得root shell 则为1，否则为0，离散，0或1。root_shell是指

获得超级用户权限。

(15) su_attempted - 若出现”su root” 命令则为1，否则为0，离散，0或1。

剩余32页未读，继续阅读

刘璐璐璐璐璐

粉丝: 36
资源: 326

机器学习应用：KDD CUP99入侵检测与数据分析实战

基于机器学习的KDD-CUP99网络入侵检测数据集的分析.pdf

入侵检测数据集KDDCUP99研究_张新有1

python实现基于KDD-CUP99数据集的网络攻击检测项目源码+全部资料（高分项目）.zip

网络安全自学篇之基于机器学习的入侵检测和攻击识别——以kdd cup99数据集为例

机器学习在入侵检测和攻击识别中的应用——以kdd cup99数据集为例

kddcup99数据集合集

tf.kdd cup 99数据集

kddcup99数据集介绍

类似kddcup99的数据集

cnn kddcup99

最新资源