改进的网络异常流量识别：词袋模型聚类法

需积分: 0 78 浏览量更新于2024-08-05 收藏 1.16MB PDF 举报

本文主要探讨了一种改进的网络异常流量识别方法，针对现有技术在识别准确率和快速响应方面的不足。传统的异常流量检测往往依赖于确定阈值，这可能导致误报或漏报。作者提出的方法利用词袋模型聚类算法来解决这些问题。词袋模型是一种文本处理技术，它将文本视为一系列独立的词语，而不考虑它们的语法结构。在这个研究中，作者将网络流量视为一系列的数据包或特征向量，将其转换成词袋模型中的“词汇”集合。通过收集大量的正常流量数据，对其进行均值聚类，可以找出流量分布中的关键点，这些关键点代表了网络流量的正常行为模式。接下来，网络流量被转化为这些关键点的表示，并构建直方图来可视化数据分布。这种方法的优势在于，即使在没有明确阈值的情况下，也能通过对比流量的分布情况来识别潜在的异常行为。作者采用了半监督学习策略，这意味着部分数据用于标注（训练）而部分数据保持未标记（测试），这样可以在较少的标注信息下提高异常流量的识别能力。实验结果表明，与基于朴素贝叶斯和支持向量机等传统的异常检测方法相比，基于词袋模型聚类的方法在识别精度上有所提升，能够在实时监控中更有效地捕捉到网络流量中的异常情况。因此，这种方法对于保障网络安全、防止恶意攻击和维护网络稳定具有重要意义。关键词包括词袋模型、机器学习、聚类、数据挖掘以及异常流量识别，这些都是本文研究的核心技术手段。此外，作者还强调了跨学科的应用背景，如人工智能和识别技术，以及具体的基金资助信息和作者的学术背景，显示了研究的严谨性和实际应用价值。这篇文章提供了一种创新的网络异常流量识别方法，通过词袋模型聚类结合半监督学习，优化了异常检测的准确性和效率，为网络安全领域的研究人员和实践者提供了新的思考角度和技术工具。

第 !" 卷#第 $ 期 #

!"#$!"# %"$$ #

计算机工程

&"'()*+,-./0.++,0./

%&'( 年 $ 月

123 %&'(

!人工智能及识别技术!

文章编号" !"""#$%&'#&"!($")#"&" % #"P * * * 文献标志码" +* * * 中图分类号 " ,-$".

基金项目"贵州省科学技术基金# 贵黔合 TS字 *%&'! +( *"! 号(黔科合 D字*%&'% +%"%) 号$ &

作者简介"马林进#'++''$ (男(硕士研究生(主研方向为网络安全监测%万# 良(教授%马绍菊 )杨 # 婷 (硕士研究生&

收稿日期"%&'*>'&>%* # # 修回日期 "%&'* >'% >&* # # /#0123"'2L0.() -'%*$@"'

基于词袋模型聚类的异常流量识别方法

马林进!万#良!马绍菊! 杨#婷

# 贵州大学计算机科学与技术学院(贵阳 $$&&%$ $

摘# 要" 针对现有异常流量检测方法的识别准确率低且快速识别需要确定阈值等问题(基于词袋模型聚类(提出一

种改进的网络异常流量识别方法& 通过对已有的异常流量和正常流量进行 9>'+2.I均值聚类(得到网络流量中的

流量关键点(将网络流量转化映射到相应流量关键点后建立直方图(并采用半监督学习方式对异常流量进行检测&

实验结果表明(与基于朴素贝叶斯)支持向量机等的识别方法相比(该方法具有更好的异常流量识别效果&

关键词" 词袋模型%机器学习%聚类%数据挖掘%异常流量识别

中文引用格式"马林进(万#良(马绍菊(等$基于词袋模型聚类的异常流量识别方法 * D+ $计算机工程(%&'((!"#$$,

%&!>%&+$

英文引用格式"12T0.L0.(<2. T02./(127K2"L)(+*2#$4=.",'2#;,2JJ0@HC+.*0J0@2*0" . 1+*K"C A2I+C ". A2/ "J<",CI

1"C+#&#)I*+,0./* D+ $&"'()*+,-./0.++,0./(%&'((!" #$$ ,%&! >%&+$

+E:89013,91@@2<4H5:?2@2<1?28:L5?B8HV1;5H8:

V16 8@]89H;L8H53\3O;?592:6

14 T0.L0.(<4% T02./(14 7K2"L)(84%N ;0./

# &"##+/+"J&"'()*+,7@0+. @+2.C ;+@K."#"/3(N)0XK") O.0P+,I0*3(N)032./ $$&&% $ (&K0.2$

- +E;?91<?. H. P0+Q "J*K+(,"=#+' *K2**K+2@@),2@3 "J2=.",'2#*,2JJ0@0C+.*0J0@2*0". 0I#"Q 2.C J2I*0C+.*0J0@2*0". 0I

C+(+.C+.*". *K+*K,+IK"#C(2. 2=.",'2#*,2JJ0@0C+.*0J0@2*0". '+*K"C =2I+C ". A"<# A2/ "J<",CI$ '"C+#@#)I*+,0./ 0I

(,"("I+C$A3 '+2.I"J9>'+2.I'+2. @#)I*+,0./ J",+?0I*0./ 2=.",'2#*,2JJ0@2.C .",'2#*,2JJ0@(0*J0.CI*K+U+3 ("0.*I"J

.+*Q",U *,2JJ0@$;K+",0/0.2#*,2JJ0@0I*,2.J",'+C 2.C '2((+C *" *K+@" ,,+I(".C0./ *,2JJ0@@,0*0@2#( "0.*I2.C *K+.

K0I*"/,2' 0I+I*2=#0IK+C$4=.",'2#*,2JJ0@0IC+*+@*+C =3 )I0./ I+'0>I)(+,P0I+C #+2,.0./$;K++?(+,0'+.*2#,+I)#*IIK"Q

*K2**K0I'+*K"C K2I=+**+,,+@"/.0*0". +JJ+@*"J2=.",'2#*,2JJ0@@"'(2,+C Q0*K 0C+.*0J0@2*0". '+*K"C =2I+C ". %20P+

A23+I

# %A$ (7)((",*!+@*",12@K0.+# 7!1$ 2.C "*K+,I$

- F5= G89H;. A2/ "J<",CI# A"<$ '"C+#%'2@K0.+#+2,.0./%@#)I*+,0./%C2*2'0.0./%2=.",'2#*,2JJ0@0C+.*0J0@2*0".

DI4,'&$"+*+ RL$0II.$'&&& >"!%) $%&'( $&$ $&""

"*概述

随着网络技术的快速发展(互联网中流量迅速增

加(充斥各种协议的网络环境变得越来越复杂(而网

络异常流量分析在网络管理中至关重要& 在大量涌

入的流量中(若能够准确)及时地检测网络流量的异

常行为(减轻异常流量对网络及其承载业务的危害(

保证网络有效运行(则对提高网络的可用性和可靠性

具有非常重要的意义(同时也是学术界和工业界共同

关注的前沿课题之一& 由于网络攻击的复杂化)自动

化和大规模化

(依靠传统的人工响应方式已经远不能

满足异常流量检测和分析需求(因此将机器学习)数

据挖掘等方法应用到大容量的网络流量数据的检测

识别中

(已成为研究的热点之一& 为此(本文基于机

器学习方法(提出一种基于流量关键点# 7*,+2' F"0.*(

7F$ 的词袋聚类异常流量识别方法& 对归一化后的网

络流量进行特征提取( 将提取的特征向量进行 9>

'+2.I均值聚类计算聚类中心(聚类结果为流量关键

点& 使训练集特征向量映射到最近流量关键点上计

算关键点直方图

(经均衡处理得到词袋关键点训练模

型& 将测试集映射到流量关键点中获得测试集关键

点直方图

(通过分类器识别异常流量&

下载后可阅读完整内容，剩余5页未读，立即下载

江水流春去

粉丝: 50

改进的网络异常流量识别：词袋模型聚类法

基于词袋模型的分布式拒绝服务攻击检测.pdf

Python（机器学习 人工智能 区块链）项目列表 2023-2024.pdf

Python非监督学习：聚类、降维的算法与技巧

社交网络聚类分析：Birch算法的用户行为分析与实时数据流策略

GRU在异常检测中的应用：识别异常事件与模式，保障数据安全

【异常检测的奥秘】：在文本数据中识别并处理异常模式

图像识别与半监督学习：创新应用案例分析

深入理解模式识别：第四版习题集，全面详解与实践案例！

跨模态学习新策略：多源数据融合的关键方法

大数据分析流程：从清洗到部署机器学习模型

最新资源

Python（机器学习人工智能区块链）项目列表 2023-2024.pdf