基于人工神经网络的恶意网络流量检测方法的研究

145 浏览量更新于2024-01-04 收藏 688KB PDF 举报

计算机安全

网络流量分析

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝⃝可在www.sciencedirect.com上在线ScienceDirectICT Express 4（2018）95www.elsevier.com/locate/icte基于人工神经网络的Alex Shenfielda， David Dayb，Aladdin Ayeshba英国谢菲尔德哈勒姆大学工程与数学系b英国莱斯特德蒙福特大学计算机系接收日期：2018年2月6日;接受日期：2018年2018年5月1日在线发布摘要本文提出了一种新的方法来检测恶意网络流量，使用人工神经网络适用于基于深度包检测的入侵检测系统。使用一系列典型的良性网络流量数据（图像，动态链接库文件和其他杂项文件，如日志，音乐文件和文字处理文档）和恶意外壳代码文件的实验结果来自在线漏洞和漏洞库exploitdb [1]，表明所提出的人工神经网络架构能够准确区分良性和恶意网络流量。所提出的人工神经网络架构获得了98%的平均准确度，0.98的接收器操作者特征曲线下的平均面积，以及在重复的10倍交叉验证中小于2%的平均假阳性率。这表明所提出的分类技术是鲁棒的，准确的，精确的。本文提出的恶意网络流量检测的新方法有可能显着提高入侵检测系统的效用，适用于传统的网络流量分析和网络流量分析的网络物理系统，c2018韩国通信与信息科学研究所（KICS）。Elsevier B.V.的出版服务。这是一个开放获取CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：机器学习;入侵检测系统;计算机安全;人工智能1. 介绍网络入侵检测系统（NIDS）在现代计算基础设施中是必不可少的，以帮助监视和识别不期望的和恶意的网络流量（例如未经授权的系统访问或配置不良的系统）。大多数商业NIDS都是基于签名的，其中使用一组规则来通过监视流量中的模式来确定什么构成了不期望的网络流量。虽然这样的系统对已知威胁非常有效，但是当攻击向量未知或已知攻击被修改以绕过这样的规则时，基于特征的检测失败[2]。除了难以识别未知或修改的威胁外，在现实世界中，基于特征的NIDS检测*通讯作者。电子邮件地址：a. shu.ac.uk（A.申菲尔德），www.example.comdavid.day @ dmu.ac.uk（D. 日），aayesh@dmu.ac.uk（A. Ayesh）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2018.04.003场景经常受到误报的困扰。这在检测恶意外壳代码时尤其成问题，恶意外壳代码是一种例如，在为Shop DirectGroup（英国）担任网络安全顾问时，使用网络入侵检测工具。Sguil和Snort从基于Debian的Linux发行版SecurityOnion中发现，设计用于匹配shellcode的签名通常也匹配其他非shellcode二进制文件，例如DLL以及jpg图像文件。这些误报的频率这种基于shellcode和签名的系统的误报问题非常常见，Microsoft讨论了2405-9595/c2018韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。96A. Shenfield等人/ICT Express 4（2018）95这在他们的专利中详细描述了检测恶意shellcode的方法，减少了内存中的误报[3]。Shellcode经常被用作系统安全工具中的有效载荷，因为它们为攻击者提供了增强的访问和进一步的利用[4]。本文提出了一种基于人工神经网络的非签名恶意外壳代码检测机制。结果表明，这种新的分类方法能够检测shellcode具有极高的准确性和最小数量的误报。所提出的方法进行了验证，使用重复的10倍交叉验证，然后测试相对于创建一个大型数据集的典型网络流量文件内容的误报警报（实现小于2%的误报率）。本文的其余部分组织如下：第2节提供了入侵检测系统和人工神经网络的背景，在第3节提供了一个简短的介绍，激发了这个系统的创建和所提出的基于人工智能的入侵检测系统所取得的成果的特定情况。第四部分总结了本研究的主要成果和进一步工作的潜在途径2. 背景和以前的工作2.1. 入侵检测系统入侵检测系统（IDS）的主要目的是识别何时有罪犯试图危害系统的运行。也就是说，导致系统以一种它没有设计的方式运行。这可能会损害系统及其存储和控制的数据的机密性、可用性和完整性。系统可以是主机、服务器、物联网（IoT）设备、路由器或其他中间设备[5]。传统上，在最高级别，入侵检测系统分为以下两类之一，基于主机的入侵检测系统（HIDS）和基于网络的入侵检测系统（NIDS）。前者是一个单独的设备检测到一个妥协，后者检测到一个妥协在网络上传输[6]。NIDS可以进一步分为基于异常和基于签名的系统。基于签名的系统形成了商业网络入侵检测系统的支柱，基于异常的系统在很大程度上仍然是一个研究概念[7]，只有少数实际的供应商支持的示例。通过IDS生成的警报和其他事件信息越来越多作为安全信息和事件管理（SIEM）系统的源，与其他日志和源一起，允许更完整地查看要记录的潜在事件。2.2. 人工神经网络人工神经网络（ANN）是一种机器学习算法，其灵感来自大脑和中枢神经系统中生物神经元的行为[8，9]。ANN的输入通常被馈送到人工神经元在一个或多个隐藏层中，它们被加权，处理以决定到下一层的输出。ANN利用“学习规则”（通常是基于梯度下降的误差反向传播），允许自适应地调整隐藏层和输出层神经元的权重和偏置集。这种自适应性质意味着ANN能够在没有先验知识的情况下捕获因变量和自变量之间的高度复杂和非线性关系[10]。人工神经网络已被用于许多应用领域的各种分类与传统的分类方法（如逻辑回归和判别分析）相比，这些方法需要很好地理解产生数据的系统的概率模型的基本假设，人工神经网络是一种能够适应底层系统模型的这使得它们在诸如隐蔽武器检测的决策支持[12]，互联网流量的预测和分类[13]和签名验证[14]等领域特别有用，其中它们适应数据的能力，特别是在高维数据集中，克服了与传统分类技术（如决策树和k-最近邻算法[15]）相关的模型构建中的许多困难。人工神经网络也被用于几个计算机安全领域，包括软件设计缺陷分析[16]和计算机病毒检测[17]。ANN方法检测多种类型的网络攻击也被证明是有效的[18]，尽管它们在检测shellcode中的应用没有被考虑。3. 复杂网络流量3.1. 问题域检测复杂网络流量中的shellcode对网络入侵检测系统提出了许多挑战，这是由于底层代码（通常是机器代码），小尺寸和经常混淆的性质。这是进一步复杂的观察，基于签名的检测方法，在外壳代码中的二进制模式往往看起来与许多其他形式的良性网络流量难以区分。本文中提出的工作是出于作者之一的经验，作为一个主要的英国在线零售商的网络安全顾问。使用传统的网络入侵检测工具，如Snort [19]和Sguil [20]来提供NIDS警报的事件驱动分析，会产生高水平的误报-其中许多警报是由良性的二进制文件和图像文件产生的。误报的一个常见罪魁祸首是通过Windows Update传递DLL等文件。3.2. 人工神经网络设计来自所使用的网络流量数据集的字节级数据被转换成整数值以馈送到人工神经网络中。注意避免文件开头经常出现的A. Shenfield等人/ICT Express 4（2018）9597图1.一、三种不同文件类型的字节值数据：顶部：图像，中间：DLL，底部：shellcode。表1恶意文件内容检测的结果。准确度0.98（0.01）精密度0.97（0.01）灵敏度0.95（0.04）（特别是在设计混淆的shellcode时）。提取1000字节的连续数据并用作ANN的输入（必要时使用零填充对数据的初步探索和可视化显示了不同文件类型中的明确模式（如图1所示），尽管同一类文件之间存在相当大的差异。这些实验的ANN使用MATLAB（2016 b）神经网络工具箱[21]实现。人工神经网络的最佳结构是通过网格搜索过程找到的，具有最佳结构（在分类精度方面）的人工神经网络被发现是一个多层感知器（MLP）与两个隐藏层的30个隐藏的神经元。ANN结构优化使用重复的10倍交叉验证来评估分类器设计。最终优化的分类器设计的概述如图2所示。弹性反向传播学习策略（使用0.01的默认学习率和最多1000个epoch的训练）用于训练神经网络，Xavier Glorot初始化[22]用于设置权重的初始值。3.3. 结果将上述第3.2使用重复的10倍交叉验证来确保分类器很好地概括看不见的数据。表1显示了重复10倍交叉验证的1000次迭代获得的准确度、精密度和灵敏度的平均值（粗体）和标准差。图二. 最终人工神经网络设计。图三. 恶意文件内容检测的接收者-操作者特征曲线。图3显示了使用重复的10倍交叉验证过程的所有1000次迭代的数据生成的接收者-操作者特征（ROC）曲线。ROC曲线通常用于分析不同分类阈值下分类器的灵敏度和特异性之间的权衡。ROC曲线下面积（在表2中报告）可用于验证分类模型的总体区分度（ROC曲线下面积的值越高，表明分类器在区分两个不同类别方面图3中的蓝色粗线表示重复10倍交叉验证的所有1000次迭代的平均ROC曲线红色虚线表示98A. Shenfield等人/ICT Express 4（2018）95表2ROC曲线下面积（AUC）。平均AUROC0.98AUROC标准差0.02最大AUROC1.00最小AUROC0.82见图4。完全不可见测试数据的混淆图。随机选择文件属于哪个类的分类器（这被认为是“最坏情况”分类性能的基线图4显示了一个性能最好的训练人工神经网络设计在一个完全看不见的测试集上的性能（该数据集中的文件内容既没有用于训练，也没有用于交叉验证过程）。正如您所看到的，性能最好的训练分类器已经正确识别了测试集中100%的恶意文件内容，没有任何误报！还测试了最佳训练分类器在候选网络流量数据内容的极大数据集上标记误报的性能一个关键的驱动因素是，如果网络入侵检测系统标记如果有太多的误报，它就会变得毫无用处，因为任何真正的恶意代码都会被错误识别的良性流量淹没。为了测试这一点，来自40万个随机文件的数据（包括文本文件、日志文件、压缩和未压缩的音乐、可执行文件、办公文档和其他杂项文件数据的混合）被提取成与人工神经网络预期的相同格式，分类器在这些良性数据上运行。在这个大规模数据集中，分类器错误识别了7337个样本（约占所有数据样本的1.8%4. 结论和进一步的工作本文提出的智能入侵检测系统利用人工神经网络分类器识别网络中的外壳代码模式，大大提高了基于特征的检测方法的性能交通基于ANN的分类器不仅在测试数据集上实现了完美的灵敏度（识别所有shellcode实例），而且还具有出色的精度（最大限度地减少识别出的误报数量）。然后，通过对一组非常大的（400，000个样本）良性网络流量文件内容进行测试，进一步评估了所提出方法的误报率性能，其中所提出的方法实现了小于2%的误报率。最小化误报率是网络入侵系统在现实世界中的应用的主要关注点，因为高水平的误报导致极差的信噪比并且通常使系统无用。本文介绍的研究描述了一种离线方法来检测数据中的shellcode模式。目前正在进行的工作是将本文提出的方法集成到在线网络入侵检测系统中，并对实时网络数据进行测试，进一步实时优化实时网络流量是一个活跃的发展领域。确定的另一个需要进一步工作的领域是将这里概述的入侵检测智能方法应用于网络安全的其他领域，例如检测跨站点脚本攻击和Web应用程序上的SQL注入攻击利益冲突作者声明，本文中不存在利益冲突引用[1] 利用数据库。//www. exploit-db. com/shellcode/，访问时间：2017-11-30。[2] D. Stiawan，A.H.Abdullah，M.Y.Idris，入侵防御系统网络的趋势，2010年第二届教育技术与计算机国际会议，卷。2010年6月4日，pp.V4-217-V4-221[3] J. Shin，J.J. Lambert，J. Lackey，Evaluating shellcode findings，Apr.2 2013.美国专利8，413，246。[4] M. Polychronakis，K.G.Anagnostakis，E.P.Markatos，真实世界多态代码注入攻击的实证研究，在：LEET，2009年。[5] R. 辛格，H.Kumar，R.K.辛格拉Ketti，互联网攻击和入侵检测系统：文献综述，在线通知。Rev. 41（2）（2017）171-184。[6] H.- J. Liao，C.-H.R. 林，Y.-C. Lin，K.-Y. 董，入侵检测系统：一个全面的审查，J。网络Comput. Appl. 36（1）（2013）16[7] J.M.维达尔，A.L.S. Orozco，L.J.G. Villalba，基于异常的nids的警报相关性的定量标准，IEEE Latin Amer.Trans.13（10）（2015）3461-3466。[8] W.S. McCulloch，W.皮茨，神经活动中不可或缺的概念的逻辑演算，布尔。数学。生物物理学。5（4）（1943）115-133.[9] F. Rosenblatt，感知器：大脑中信息存储和组织的概率模型，Psychol.Rev.65（6）（1958）386-408。[10] J.V. Tu，使用人工神经网络与逻辑回归预测医疗结果的优点和缺点，J. Clin.Epi-Escherol。49（11）（1996）1225-1231。[11] G.P. Zhang ， Neural networks for classification ： A survey ， IEEETrans. Cybern系统C 30（4）（2000）451-462.[12] S. Rostami，D. O'Reilly，A. Shenfield，N. Bowring，一种新的进化多目标优化偏好衔接算子秘密武器检测的分类器，通知Sci. 295（2015）494-520。[13] T. Auld，A.W. Moore，S.F. Gull，贝叶斯神经网络用于互联网流量分类，IEEE Trans. 神经网络18（1）（2007）223A. Shenfield等人/ICT Express 4（2018）9599[14] K. Huang，H.严，基于几何特征提取和神经网络分类的离线签名验证，模式识别。30（1）（1997）9-17。[15] S.德赖塞特尔湖Ohno-Machado，Logistic回归和人工神经网络分类模型：方法学评论35（5[16] A. Adebiyi，J. Arreymbi，C. Imafidon，一种基于神经网络的安全工具，用于分析软件，在：计算，电气和工业系统博士会议，施普林格，2013年，pp. 80比87[17] G. Liu，F.胡，W. Chen，基于神经网络集成的计算机病毒检测方法，2010年计算机、机电一体化、控制与电子工程国际会议391-393.[18] J. Wu，D.彭，Z.利湖，加-地Zhao，H.Ling，基于改进的人工免疫算法优化的一般回归神经网络的网络入侵检测，PLOS ONE 10（3）（2015）1-13。[19] 哼//www. snort。或g/。访问时间：2017-11-30。[20] Sguil：用于网络安全监控的分析员控制台，http：//bammv。github.IO/SGUIL/INDEX. 2017-11-30.[21] 数学作业。 Matlab神经网络工具箱。 https ： //uk. 我在工作。com/products/neural-network. html，2016.[22] X.格洛洛特岛Bengio，理解训练深度前馈神经网络的难度，在：Y.W. Teh，M. Titterington（Eds.），Proceedings of the ThirteenthInternational Conference on ArtificialIntelligence and Statistics，in：Proceedings of Machine Learning Research，vol. 9，PMLR，2010，pp. 5月13日至15日，意大利撒丁岛，249-256 Chia Laguna度假村。

下载后可阅读完整内容，剩余1页未读，立即下载