没有合适的资源?快使用搜索试试~ 我知道了~
首页基于深度学习的加密恶意流量检测研究
基于深度学习的加密恶意流量检测研究
635 浏览量
更新于2023-05-29
评论
收藏 1.07MB PDF 举报
随着网络安全防范意识增强,加密通信占据主流,加密流量快速增长。流量加密在保护隐私的同时,也掩饰非法企图,改变威胁形式。深度学习作为机器学习领域的重要分支,是流量分类的有力工具。近年来,将深度学习方法应用于入侵检测的研究不断深入,取得良好效果。在深入调研文献的基础上,将加密恶意流量检测的步骤总结归纳为“六步法”的一般检测框架模型,结合模型对数据处理及检测算法进行回顾总结,指出各类算法模型的优缺点,并对未来研究方向进行展望,以期为下一步研究提供帮助。
资源详情
资源评论
资源推荐

2020 年 6 月 Chinese Journal of Network and Information Security June 2020
第 6 卷第 3 期 网络与信息安全学报
Vol.6
No.3
基于深度学习的加密恶意流量检测研究
翟明芳,张兴明,赵博
(国家数字交换系统工程技术研究中心,河南 郑州 450002)
摘 要:随着网络安全防范意识增强,加密通信占据主流,加密流量快速增长。流量加密在保护隐私的同
时,也掩饰非法企图,改变威胁形式。深度学习作为机器学习领域的重要分支,是流量分类的有力工具。
近年来,将深度学习方法应用于入侵检测的研究不断深入,取得良好效果。在深入调研文献的基础上,将
加密恶意流量检测的步骤总结归纳为“六步法”的一般检测框架模型,结合模型对数据处理及检测算法进行
回顾总结,指出各类算法模型的优缺点,并对未来研究方向进行展望,以期为下一步研究提供帮助。
关键词:加密流量;恶意流量检测;深度学习;数据处理
中图分类号:TP391.1
文献标识码:A
doi: 10.11959/j.issn.2096−109x.2020034
Survey of encrypted malicious traffic detection
based on deep learning
ZHAI Mingfang, ZHANG Xingming, ZHAO Bo
National Digital Switching System Engineering and Technological Research Center, Zhengzhou 450002, China
Abstract: With the increasing awareness of network security, encrypted communication dominates and encrypted
traffic grows rapidly. Traffic encryption, while protecting privacy, also masks illegal attempts and changes the form
of threats. As one of the most important branch of machine learning, deep learning performs well in traffic
classification. For several years, research on deep-learning based intrusion detection has been deepened and achieved
good results. The steps of encrypted malicious traffic detection were introduced to be a general detection framework
model named “six-step method”. Then, discussion and induction of data processing and detection algorithms were
carried out combined with this model. Both advantages and disadvantages of various algorithm models were given as
well. Finally, future research directions were pointed out with a view to providing assistance for further research.
Key words: encrypted traffic, malicious traffic detection, deep learning, data processing
收稿日期:2019−11−07;修回日期:2020−01−21
通信作者:翟明芳,1353382456@qq.com
基金项目:高安全等级网络基础设施关键装备核心芯片及软件研发项目(2017ZX01030301)
Foundation Item: High Level Security Network Infrastructure Key Equipment Core Chip and Software Development Funding
Project (2017ZX01030301)
论文引用格式:翟明芳, 张兴明, 赵博. 基于深度学习的加密恶意流量检测研究[J]. 网络与信息安全学报, 2020, 6(3):
59-70.
ZHAI M F, ZHANG X M, ZHAO B. Survey of encrypted malicious traffic detection based on deep learning[J]. Chinese Journal
of Network and Information Securit
y
, 2020, 6(3): 59-70.

第 3 期 翟明芳等:基于深度学习的加密恶意流量检测研究 ·67·
1 引言
当今社会,信息通信技术飞速发展,网络安
全问题日益突出,隐私泄露风险加剧。根据中国
消费者协会测评报告
[1]
,有超过九成 App 涉嫌过
度收集用户个人信息。2018 年 3 月,Facebook 公
司大规模数据泄露且被恶意利用;我国发生了十
几亿条快递公司用户信息泄露
[2]
等事件。频发的
安全事件使隐私保护成为焦点,加密流量也呈飙
升态势。Gartner 报告
[3]
称:2019 年有超过 80%的
流量为加密流量。图 1
[4]
显示了火狐网页访问中
HTTPS 流量占比的增长趋势。
图 1 火狐网页访问中 HTTPS 流量占比
Figure 1 Proportion of HTTPS traffic in Firefox Web page access
流量加密在保护用户隐私的同时,给不法分
子以可乘之机。恶意移动应用普遍采用加密流量
(如 HTTPS 等)传输网络数据以躲避检测
[5]
。赛
伦( Cyren)
[6]
安全研究发现,有 37%的恶意软件
使用 HTTPS,每个主要的勒索软件家族都曾通过
HTTPS 进行传播。因此,对加密的恶意流量进行
检测刻不容缓。
实际入侵检测过程中,加密与非加密恶意流
量的差异主要表现在以下 4 方面。① 特征差异。
二者的流量特征明显不同,部分非加密流量识别
方法很难适用于加密流量,如 DPI 方法
[7]
。② 复
杂性差异。加密协议多样(如 SSL/TLS、SSH、
P2P 等),缺少普适识别方法,常需要针对不同加
密协议采取特定的识别方法,或采用多种识别策
略集成的方法。③ 技术差异。恶意加密常采用流
量伪装技术(如协议混淆和协议变种
[8]
),把加密
流量特征变换成普通流量特征。④ 精细化差异。
目前,加密恶意流量识别研究主要集中于二分类
或少数几类攻击的识别,实现加密恶意流量精细
化识别还存在一定的难度
[9]
。
深度学习作为机器学习的一个重要分支,
已经在图像处理
[10]
、机器翻译
[11]
、语音识别
[12]
、
情景分析
[13]
等领域显示出优越的性能。目前,
已有诸多研究
[14-18]
将深度学习应用于入侵检
测,并取得良好的效果。业界也投入大量人力、
财力应用深度学习进行加密恶意流量检测。思
科
[19-20]
针对 TLS 协议,采用逻辑回归和十折交
叉验证进行加密恶意流量识别,精度达到 90%
以上。国内观成科技
[21]
分析提取了 4 类 54 个子
类共计 1 000 多个数据特征,通过对比实验,
得出随机森林精度最高,并获得了 99.95%的检
出率。
本文在深入查阅现有研究的基础上,对各种
检测方法进行归类总结,归纳出基于“六步法”
的加密恶意流量检测的一般框架。结合模型重点
讨论数据处理、算法模型等加密恶意流量检测关
键环节,指出各类方法的优势和不足,并对未来
发展方向进行展望。
本文的贡献有以下几点:
1) 归纳总结“六步法”的加密恶意流量检测
一般框架模型,为问题研究提供帮助;
2) 对现有数据集进行整理归类,指出各个数
据集的优缺点和适用场景,更加方便研究者应用;
3) 讨论加密恶意流量检测中深度学习算法
模型的应用和限制,提出算法改进方向。
2 加密恶意流量检测框架
加密恶意流量检测的本质是学习数据特征,
将流量数据进行正确归类。加密成本的日益低廉
使攻击者很容易利用加密协议隐藏非法企图。由
于负载信息不再可见,识别加密网络流量中包含
的威胁构成了一组独特的挑战。为鉴别恶意流量,
研究者提出多种基于机器学习的检测方法,如文
献[22-24]等。综合文献,本文将加密恶意流量检
测归纳为“六步法”,模型如图 2 所示。
图 2 中,蓝色箭头表示加密恶意流量检测的
步骤流程,红色箭头表示后续步骤对先前处理的
影响作用。

·68· 网络与信息安全学报 第 6 卷
图 2 “六步法”模型
Figure 2 “Six-step method” model
Rezaei 等
[25]
提出了流量识别的一般框架,将
流量识别分为 7 个步骤。尽管该框架适用于大多
数算法模型,但未能涵盖新颖的流量识别方法。
Wang 等
[26]
提出一维 CNN 分类模型,此模型未进
行数据特征提取,仅对流量数据进行剪切处理,
而后输入 1D-CNN 自行学习特征,进行分类。
与上述框架相比,“六步法”框架模型将数据
预处理、特征提取等步骤整合为数据处理,可以
很好地阐释各类不同的检测模型,因此,适用范
围更广,能够涵盖绝大多数现有研究。另外,虽
然“六步法”框架是针对加密恶意流量检测问题
的,但对于普通的流量识别问题仍然适用,这也
体现出该框架的普适性。
本文将对各个步骤逐一进行讨论,重点是数
据收集、数据处理和模型选择。
3 研究目标定位
研究建立加密恶意流量分类器的第一步是
定位研究目标。加密恶意流量检测是流量识别
的一个子类。流量识别的目标是用相应的类来
标记每条流。对于不同的研究目的,所针对的
研究对象、收集的数据、提取的特征以及构建
分类器算法均不相同。流量通常由 5 元组决定:
源 IP、目标 IP、源端口、目标端口和协议
[27]
。
可按以下方面对流量进行分类。
1) 协议,如 SSH、SSL/TLS。
2) 应用,如微信、滴滴出行、百度地图。
3) 服务,如聊天、购物。
4) 网站,如谷歌、百度。
5) 用户行为,如浏览,下载、上传。
具体就加密流量识别而言,通常分为加密与
未加密识别、加密协议识别、加密服务识别和恶
意流量检测。图 3 给出了更为细致的分类。
加密与未加密识别主要将流量区分为加密
流量和非加密流量。文献[27-29]对此进行了相
关的研究,提出各种不同的方法进行流量识别。
尽管取得不错的效果,但随着流量分析需求的
提高,仅仅识别流量是否加密已经不能满足要
求。加密与未加密识别通常是作为更加精细化
识别的基础步骤,如在检出加密流量的基础上,
进一步区分流量的应用程序或服务类型。
加密协议识别是根据协议的不同对加密流
量进行归类。Jain
[30]
研究了由不同优化器训练的
卷积神经网络对协议识别的影响;Karagiannis
等
[31]
提出了一种叫作 BLINC 的协议识别方法。
目前的研究大多针对某类或者某几类协议,尚
没有对所有协议进行分类的研究,且基于协议
的流量识别仍然存在不够细粒度的问题。
加密服务识别是将流量按特征、服务类别或
者应用程序进行分类。Gil 等[32]针对 VPN 流量检测
问题,提出了一组与时间相关的特征,采用 C4.5 与
KNN 两种算法进行实验,精度超过 80%。Wang 等
[33]
提出基于 CNN 的加密流量分类方法,将数据截取
为 784 byte,输入 CNN 自行学习数据特征进行分
类,克服了人工提取特征困难的问题。Lotfollahi
等
[34]
提出一维 CNN 与 E AV 相结合的框架对原始数
据进行自动编码、分类,得到较好的结果。加密服
务识别问题主要集中在对多类型识别,即同时对多
种应用程序进行识别,以及提升识别的精度。
异常流量检测的目的在于检测出隐藏在加密
流量之中的 DDoS、APT、Botnet 等恶意流量,是
保障网络安全的重要手段。随着隐私保护重要性
日益凸显,基于有效负载的传统识别方法
[35]
不再
适用,现在研究主要聚焦于不解密识别加密恶
意流量,如基于统计特征、基于用户行为的方
法。Nychis 等
[36]
研究了基于熵的多个流分布相
关,分析流头特征和行为特征的分布,提出使
用时间序列进行异常检测更加有效。Koch 等
[37]
使用基于行为的检测方法,利用命令序列以及
剩余11页未读,继续阅读

















weixin_38741531
- 粉丝: 6
- 资源: 946
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
最新资源
- Xilinx SRIO详解.pptx
- Informatica PowerCenter 10.2 for Centos7.6安装配置说明.pdf
- 现代无线系统射频电路实用设计卷II 英文版.pdf
- 电子产品可靠性设计 自己讲课用的PPT,包括设计方案的可靠性选择,元器件的选择与使用,降额设计,热设计,余度设计,参数优化设计 和 失效分析等
- MPC5744P-DEV-KIT-REVE-QSG.pdf
- 通信原理课程设计报告(ASK FSK PSK Matlab仿真--数字调制技术的仿真实现及性能研究)
- ORIGIN7.0使用说明
- 在VMware Player 3.1.3下安装Redhat Linux详尽步骤
- python学生信息管理系统实现代码
- 西门子MES手册 13 OpcenterEXCR_PortalStudio1_81RB1.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制

评论0