机器学习驱动的攻击检测系统：SQL注入与特征提取

需积分: 0 121 浏览量更新于2024-08-05 收藏 774KB PDF 举报

"红日AI安全的项目是利用机器学习技术构建一个攻击检测系统，主要关注SQL注入和多类型攻击的识别。系统采用TF-IDF和自编码特征结合机器学习算法，如逻辑回归、KNN、SVM和朴素贝叶斯进行训练。此外，还探索了卷积神经网络（CNN）在提取局部特征方面的应用。数据集来源于GitHub上的payload集合、secrepo的http.log数据以及HTTPDATASETCSIC2010数据集。" 在构建基于机器学习的攻击检测系统中，有几个关键知识点： 1. **SQL注入检测**：这是一种常见的网络安全威胁，攻击者通过输入恶意SQL代码来获取未经授权的数据或操作数据库。系统通过训练模型来识别这类攻击的特征。 2. **特征提取**：特征提取是机器学习模型的基础，文中提到了两种方法。**TD-IDF**（Term Frequency-Inverse Document Frequency）用于衡量一个词对于文档的重要性，它考虑了词在单一文档中的频率和在整个语料库中的频率。**自编码特征**可能是指通过自编码器（Autoencoder）学习数据的非线性表示，以捕获更复杂的信息。 3. **数据集获取**：攻击数据集来自GitHub上的payload集合，包含恶意请求；正常请求数据来自secrepo的http.log和HTTPDATASETCSIC2010，后者包含了大量正常和恶意请求。 4. **机器学习算法**：首先尝试了**逻辑回归**，这是一种常用的分类算法，适合处理二分类问题。随后还尝试了**KNN（K近邻算法）**、**SVM（支持向量机）**和**朴素贝叶斯**，这些也是常见的分类算法，适用于不同类型的数据和任务。 5. **卷积神经网络（CNN）**：CNN在图像处理和自然语言处理领域表现出色，能够捕捉局部特征，因此在特征提取中被考虑用于提升模型性能。 6. **数据预处理**：包括对请求进行分割，提取单词，以利用TF-IDF进行特征表示。`split_url`函数将字符串按照一定长度分块，可能用于创建更抽象的特征表示。 7. **模型评估**：通过交叉验证和得分来评估模型的性能，例如，逻辑回归模型达到了98.9%的准确率。在实际应用中，构建这样的系统需要大量的数据清洗、特征工程、模型选择和调优。通过不断迭代和优化，可以提高攻击检测的准确性，降低误报和漏报的可能性，从而增强网络安全防护。

基于机器学习的攻击检测系统

之前读到一片freebuf的文章中利用机器学习来进行XSS的检测

，从中得到启发，可以利用机器学习完成其他类型

攻击的检测。

问题

攻击的特征如何进行的提取？

攻击数据集的获取

采用什么样的算法进行训练？

前期准备

文中是利用TF-IDF来进行的特征提取。

字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

首先采用文中的方法进行特征提取，其次，在观察特征时，发现对于正常的请求其很大概率是可读的字符串，所以

对请求进行分割，获取其单词构成。

数据集包括了三个部分，一部分是GitHub上的payload集合，另一部分是secrepo上的http.log数据作为正常请

求。第三部分是HTTP DATASET CSIC 2010数据集，其中包括36000条正常请求和25000条恶意请求。

在选择算法上，首先利用文中使用的逻辑回归进行实验，然后选择其他常见的分类算法进行实验，如knn，svm，

朴素贝叶斯等。

在这里，考虑到CNN网络对提取局部的特征有比较好的效果，将数据放进CNN网络中进行实验。

复现

首先对文章进行复现，复现中最麻烦的一步是数据的特征提取，这里无法做到和文中完全一致，利用我对TF-IDF的

理解进行复现。

这里选用的数据集为：恶意数据为GitHub上的payload，正常数据为http.log中的请求。

在获得特征矩阵后，就可以选择适当的算法进行训练。

def split_url(data_set,num = 3):

 data_str= []

 for s in data_set:

   s = s.strip()

   s = " ".join([s[i:i+num] for i in range(len(s)-2)])

   data_str.append(s)

 return data_str

下载后可阅读完整内容，剩余6页未读，立即下载

琉璃纱

粉丝: 20
资源: 298

机器学习驱动的攻击检测系统：SQL注入与特征提取

[红日安全]AI安全Day1-机器学习算法在web安全中的应用1

红日安全-wp1

(14条消息) 红日安全vulnstack-ATT&CK实战系列 红队实战(一)_Ys3ter的博客-CSDN博客.html

内网渗透实战——红日ATT&CK系列靶场（一）学习笔记_红日靶场1攻略-CSDN博客.html

医疗器械行业运动医学研究之一：行业概览，红日初升-20200406-国金证券-29页.pdf

「安全认证」红日Web安全新手入门专刊 - 信息安全.zip

asp红日文章管理系统 v3.0-ASP源码.zip

ASP实例开发源码-asp红日文章管理系统 v3.0.zip

[红日安全]代码审计Day3 - 实例化任意对象漏洞.pdf

红日Web安全新手入门专刊.pdf

最新资源

(14条消息) 红日安全vulnstack-ATT&CK实战系列红队实战(一)_Ys3ter的博客-CSDN博客.html