第 !" 卷#第 $ 期 #
!"#$!"# %"$$ #
计 算 机 工 程
&"'()*+,-./0.++,0./
##
%&'( 年 $ 月
123 %&'(
!人工智能及识别技术!
文章编号" !"""#$%&'#&"!($")#"&" % #"P * * * 文献标志码" +* * * 中 图 分 类 号 " ,-$".
基金项目"贵州省科学技术基金# 贵黔合 TS字 *%&'! +( *"! 号(黔科合 D字*%&'% +%"%) 号$ &
作者简介"马林进#'++''$ (男(硕士研究生(主研方向为网络安全监测%万# 良(教授%马 绍 菊 )杨 # 婷 (硕士研究生&
收稿日期"%&'*>'&>%* # # 修 回 日 期 "%&'* >'% >&* # # /#0123"'2L0.() -'%*$@"'
基于词袋模型聚类的异常流量识别方法
马林进!万#良!马绍菊! 杨#婷
# 贵州大学 计算机科学与技术学院(贵阳 $$&&%$ $
摘# 要" 针对现有异常流量检测方法的识别准确率低且快速识别需要确定阈值等问题(基于词袋模型聚类(提出一
种改进的网络异常流量识别方法& 通过对已有的异常流量和正常流量进行 9>'+2.I均值聚 类(得到网 络 流量中 的
流量关键点(将网络流量转化映射到相应流量关键点后建立直方图(并采用半 监 督学习 方 式对异 常 流量进 行 检 测&
实验结果表明(与基于朴素贝叶斯)支持向量机等的识别方法相比(该方法具有更好的异常流量识别效果&
关键词" 词袋模型%机器学习%聚类%数据挖掘%异常流量识别
中文引用格式"马林进(万#良(马 绍 菊(等$基于 词 袋模型聚类的 异 常 流 量 识 别 方 法 * D+ $计 算 机 工 程(%&'((!"#$$,
%&!>%&+$
英文引用格式"12T0.L0.(<2. T02./(127K2"L)(+*2#$4=.",'2#;,2JJ0@HC+.*0J0@2*0" . 1+*K"C A2I+C ". A2/ "J<",CI
1"C+#&#)I*+,0./* D+ $&"'()*+,-./0.++,0./(%&'((!" #$$ ,%&! >%&+$
+E:89013,91@@2<4H5:?2@2<1?28:L5?B8HV1;5H8:
V16 8@]89H;L8H53\3O;?592:6
14 T0.L0.(<4% T02./(14 7K2"L)(84%N ;0./
# &"##+/+"J&"'()*+,7@0+. @+2.C ;+@K."#"/3(N)0XK") O.0P+,I0*3(N)032./ $$&&% $ (&K0.2$
- +E;?91<?. H. P0+Q "J*K+(,"=#+' *K2**K+2@@),2@3 "J2=.",'2#*,2JJ0@0C+.*0J0@2*0". 0I#"Q 2.C J2I*0C+.*0J0@2*0". 0I
C+(+.C+.*". *K+*K,+IK"#C(2. 2=.",'2#*,2JJ0@0C+.*0J0@2*0". '+*K"C =2I+C ". A"<# A2/ "J<",CI$ '"C+#@#)I*+,0./ 0I
(,"("I+C$A3 '+2.I"J9>'+2.I'+2. @#)I*+,0./ J",+?0I*0./ 2=.",'2#*,2JJ0@2.C .",'2#*,2JJ0@(0*J0.CI*K+U+3 ("0.*I"J
.+*Q",U *,2JJ0@$;K+",0/0.2#*,2JJ0@0I*,2.J",'+C 2.C '2((+C *" *K+@" ,,+I(".C0./ *,2JJ0@@,0*0@2#( "0.*I2.C *K+.
K0I*"/,2' 0I+I*2=#0IK+C$4=.",'2#*,2JJ0@0IC+*+@*+C =3 )I0./ I+'0>I)(+,P0I+C #+2,.0./$;K++?(+,0'+.*2#,+I)#*IIK"Q
*K2**K0I'+*K"C K2I=+**+,,+@"/.0*0". +JJ+@*"J2=.",'2#*,2JJ0@@"'(2,+C Q0*K 0C+.*0J0@2*0". '+*K"C =2I+C ". %20P+
A23+I
# %A$ (7)((",*!+@*",12@K0.+# 7!1$ 2.C "*K+,I$
- F5= G89H;. A2/ "J<",CI# A"<$ '"C+#%'2@K0.+#+2,.0./%@#)I*+,0./%C2*2'0.0./%2=.",'2#*,2JJ0@0C+.*0J0@2*0".
DI4,'&$"+*+ RL$0II.$'&&& >"!%) $%&'( $&$ $&""
"*概述
随着网络技术的快速发展(互联网中流量迅速增
加(充斥各种 协议的网 络环境变 得 越来越 复 杂(而 网
络异常流量分析在网 络管理中 至 关重要& 在大量涌
入的流量中(若能够 准确)及时地检 测网络流 量 的异
常行为(减轻异常 流量对网 络 及其承 载 业务的危 害(
保证网络有效运行(则对提高网络的可用性和可靠性
具有非常重要的意义(同时也是学术界和工业界共同
关注的前沿课题之一& 由于网络攻击的复杂化)自动
化和大规模化
(依靠传统的人工响应方式已经远不能
满足异常流量 检测和分 析需求(因此将 机 器学习)数
据挖掘等方法应用到大容量的 网络流量 数 据的检测
识别中
(已成为 研究的热 点 之一& 为此(本文基 于 机
器学习方法(提出一种基于流量关键点# 7*,+2' F"0.*(
7F$ 的词袋聚类异常流量识别方法& 对归一化后的网
络流量 进 行 特 征 提 取( 将 提 取 的 特 征 向 量 进 行 9>
'+2.I均值聚类计算聚类中心(聚类结 果为流量关键
点& 使训练集特征 向量映射 到最近流 量关键点 上 计
算关键点直方图
(经均衡处理得到词袋关键点训练模
型& 将测试集映射 到流量关 键点中获 得测试集 关 键
点直方图
(通过分类器识别异常流量&