收稿日期:20181115;修回日期:20181213 基金项目:国家自然科学基金资助项目(61572144);广州市教育系统创新学术团队资助
项目(1201610027)
作者简介:柳毅(1976),男,江苏连云港人,教授,博士,主要研究方向为网络与信息安全(yiliu@gdut.edu.cn);阴梓然(1995),男,湖南岳阳
人,硕士研究生,主要研究方向为信息安全;洪洲(1979),男,江西东乡人,教授,博士,主要研究方向为物联网机器人.
基于堆稀疏自编码的二叉树集成入侵检测方法
柳 毅
1
,阴梓然
1
,洪 洲
2
(1.广东工业大学 计算机学院,广州 510006;2.广州城市职业学院 科研处,广州 510405)
摘 要:为了解决大规模入侵数据的分类问题,提出了堆稀疏自编码的 lightGBM(lightgridientboostingmodel)
二叉树算法。首先将类别标签分为五类,构造成二叉树结构;然后通过上采样方法解决数据分布的不平衡问题,
以上处理可以将大规模的数据分解开来以便之后分开训练;再采用稀疏自编码器网络进行特征降维,采用该种
降维方法可以保证在原始数据中抽取出更深层特征的基础上节省降维时间;最后通过 lightGBM集成算法进行
分类,而采用 lightGBM模型相比其他模型可以在保证分类性能的情况下节省训练时间。实验利用 NSLKDD数
据集测量了所提方法的准确率、精确率、召回率,并且综合评价指标 F
1
在五类分类上平均分别达到了 87.42%、
98.20%、91.31%,优于对比算法,且明显节省了运算时间。
关键词:入侵检测;堆稀疏自编码网络;lightGBM算法;不平衡数据;NSLKDD数据集
中图分类号:TP393.08 文献标志码:A 文章编号:10013695(2020)05038147404
doi:10.19734/j.issn.10013695.2018.11.0827
Binarytreeensembleintrusiondetectionmethodbasedonstackedsparseautoencoder
LiuYi
1
,YinZiran
1
,HongZhou
2
(1.SchoolofComputerScience&Technology,GuangdongUniversityofTechnology,Guangzhou510006,China;2.OfficeofAcademicRe
search,GuangzhouCityPolytechnic,Guangzhou510405,China)
Abstract:Inordertosolvetheproblemofclassificationoflargescaleintrusiondata,thispaperproposedlightGBMbinarytree
algorithmbasedonstackedsparseautoencoder.Firstly,itdividedthecategorylabelsintofivecategoriesandconstructedinto
binarytreestructures.Thensolvedtheimbalanceofdatadistributionbytheuppersamplingmethod
,theaboveprocessingcould
separatethelargescaledata,sothattheycouldbetrainedseparately.Next,itusedthesparseautoencodernetworktoreduce
thefeaturedimension.Usingthismethodcouldensurethattimeofdimensionreductioncouldsaveonthebasisofextracting
deeperfeaturesfromtheoriginaldata.Finally
,itusedthelightGBM ensemblealgorithm toclassify.Andcomparedtoother
models,usingthelightGBM modelcouldsavetrainingtimewhileensuringclassificationperformance.ItusedtheNSLKDD
datasettomeasuretheaccuracy,precision,recall.AndcomprehensiveevaluationindexF
1
oftheproposedmethod,which
reachedanaverageof87.42%,98.20% and91.31% infiveclassification,respectively.Itissuperiortothecomparisonalgo
rithmandobviouslysavesthecalculationtime.
Keywords:intrusiondetection;stackedsparseautoencodernetwork; lightGBM algorithm;imbalanceddata; NSLKDD
dataset
0 引言
入侵检测是信息安全的重要组成部分,只有正确检测入
侵,才能实现后续反应和恢复。入侵检测分为误用检测和异常
检测,误用检测通过建模并利用攻击的鲜明特征来检测入侵.
误用检测对于已知的入侵具有较高的检测率,但无法检测到新
的入侵。异常检测是基于正常行为的模型,任何偏离所构造的
正常行为模型的行为都被认为是异常
[1]
。由于很难对所有正
常行为进行精确建模,异常检测很容易将正常行为错误地归类
为攻击。随着移动互联网和物联网的不断发展,网络攻击日益
智能化和复杂化,使得恶意入侵的检测更加困难。为了应对这
些挑战,机器学习方法在入侵检测中得到了广泛的应用,包括
决策树、朴素贝叶斯、随机森林、K均值聚类算法、支持向量机。
传统的浅层结构机器学习方法表达复杂函数的能力有限,泛化
能力较弱,因此不能很好地处理复杂的分类问题。
近年来,深度学习已成为机器学习中的一个热门话题,并
且在人脸识别、语音识别、图像识别等领域得到了广泛的应用。
同时,在入侵检测中也采用了深度学习方法。文献[2]提出了
基于
PCA降维 KNN作为分类器的入侵检测方法,实验表明,
在应对多分类问题时,对于少数类的检测率明显不高,由此可
以看出在应对大规模数据时,对于少数类的处理尤为重要。文
献[
3]提出了一个半监督约束玻尔兹曼机器(DRBM)模型,它
可以检测未知的入侵事件,并在网络异常检测中的准确率达到
了 96%,但应对大规模数据时,噪声对其模型的影响较大,因
此此方法缺乏去噪策略。文献[4]提出了 DBN和 SVM的组合
方法,
DBN用于降低输入数据集的维度,SVM用于分类。这一
组合取得了良好的效果,然而,没有考虑类别不平衡问题,这对
于大规模且种类繁多的入侵数据的侦测性能是致命的。文献
[5]表明,堆去噪自编码网络能够很好地区分恶意和非恶意软
件,作者构建了三个隐藏的深层神经网络,这个模型只使用了
在 SDN环境中容易获得的六个基本特征,对于特征的考虑过
少,容易丢失信息,不适用于入侵检测在数据规模大而繁杂的
情况下使用。文献[6]使用一个隐藏层的 RBM来进行无监督
的特征降维。权重被传递给另一个 RBM产生一个 DBN。预
先训练的权重被传递到一个精细的调节层,由一个逻辑回归分
类器(用 10个迭代来训练)与 softmax层组成。使用 KDDCUP
第 37卷第 5期
2020年 5月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol37No5
May2020