第
53
卷第
9
期
2013
年
9
月
电讯技术
Telecommunication
Engineering
doi: 10.
3969/j.
issn.
1001
-
893x.
2013.
09.
017
基于
AdaBoost
的组合网络流量分类方法*
赵小欢
1
,咐,夏靖波
1
,连向磊
2
,李巧丽
3
(1.
空军工程大学信息与导航学院,西安
710071;2.
解放军
71155
部队,山东威海
264200;
3.
解放军
94326
部队,济南
250023)
Vol.53 No.9
Sep.
2013
摘
要:针对羊一分类方法在训练样本不足的情况下对于小样本网络流分类效果差的特点,通过自适
应增强(
A
也
ptive
Boosti
吨,
A
出
Boost
)算法进行流量分类。算法首先使用
CFS(
Correlation-based Feature Se-
lection
)特征选择方法从大量网络流特征中提取出少量高效的分类特征,在此基础上,通过
AdaBoost
算
法组合决策树、关联规则和贝叶斯等
5
种单一分类方法实现流量分类。实际网络流量数据测试表明,
基于
AdaBoost
的组合分类方法的准确率在所选的几种算法中是最高的,其能够达到
98.92%
,且相对于
羊一的分类算法,组合流量分类方法对于小样本网络流的分类效果具有明显提升。
关键词:网络流;流量分类;相关特征选择;自适应增强算法;组合分类器
中图分类号:
T
凹
93
文献标志码:
A
文章编号:
1001-
893X(2013)09
- 1207 -
06
Ensemble Classification Overnetwork Traffic Based on AdaBoost
ZHAO
Xiao-huan1,
XIA
Jing-bo1,
LIAN
Xiang-lei2,
Ll
Qiao-li3
( 1.
Institute
of
Information
and
Navigation,
Air
Force
Engineering
Universi
吵,
Xi'an
71
即
77,
Clrina;
2.
Unit
71155
of
PLA,
Weihai
264200, Clrina;3.
Unit
94326
of
PLA,Jinan 250023,
Clrina)
Abstract:
To cope
wi
白白
e
凹
or
performance
of
single classification algorithms on minority flows when
the
train
dataset is
deficient
,出
e
AdaBoost (Adaptive Boosting) algorithm is introduced to classify network traffic. On the
basis
of
selecting few
but
effective classification features
wi
出
CFS
(Correlation-based Feature Selection) method
from a
v
缸
ie
悖。
f
flow' s features, the AdaBoost algorithm is used to combine five single classification algorithms
which belong to Decision
Tree,
Rules
and
Bayes respectively for
the
sake
of
traffic
classification.
咂
ie
experi-
ment over real network traffic shows that the AdaBoost algorithm
M
出
e
highest precision
up
to
98.
92
9
毛
among
the selected classification algorithms. Moreover, the AdaBoost algorithm achieves great improvement on
the
per-
formance
of
minori
句
r
flows' classification compared with single classification algorithms.
Key
words:
network traffic; traffic classification; correlation-based feature selection; adaptive boosting algo-
rithm; ensemble classifier
网络的可控可管性变得越来越差。由于不同的网络
1
引言
应用对于带宽、时延等指标的需求不同,不同等级用
随着近年来互联网的不断发展,社交网络、在线
户占用的网络资源不同,仅通过网络层和传输层流
视频、电子商务、即时通信、微博、
P2P
应用等多种新
量实现网络流量管理是不够充分的,而需要将网络
兴业务不断涌现并迅速占据互联网中主流应用位
流量映射到特定的业务,根据网络业务实现网络流
置,互联网流量在组成和性质上发生了较大的变化,
量的精细划分、分级管理和差异化服务。同时,精确
来
收稿日期:
2013
-
04
-
09
;修回日期:
2013
-
06-
18
Received
date:2013
-
04-
09;
Revised
date:2013
-
06-
18
基金项目·陕西省自然科学基础研究计划重点项目(
2012JZ8005)
Foundation
Item:
The
Natural
Science
Basic
Re"earch
P
叫回
t
of
Shaanxi
Province(2012JZ8005)
阳通讯作者:
zxhzxh_2012@163.com
Corr
四
ponding
author:
zxhzxh_
2012@163.com
1207
•
第
53
卷第
9
期
2013
年
9
月
电讯技术
Telecommunication
Engineering
doi: 10.
3969/j.
issn.
1001
-
893x.
2013.
09.
017
基于
AdaBoost
的组合网络流量分类方法*
赵小欢
1
,咐,夏靖波
1
,连向磊
2
,李巧丽
3
(1.
空军工程大学信息与导航学院,西安
710071;2.
解放军
71155
部队,山东威海
264200;
3.
解放军
94326
部队,济南
250023)
Vol.53 No.9
Sep.
2013
摘
要:针对羊一分类方法在训练样本不足的情况下对于小样本网络流分类效果差的特点,通过自适
应增强(
A
也
ptive
Boosti
吨,
A
出
Boost
)算法进行流量分类。算法首先使用
CFS(
Correlation-based Feature Se-
lection
)特征选择方法从大量网络流特征中提取出少量高效的分类特征,在此基础上,通过
AdaBoost
算
法组合决策树、关联规则和贝叶斯等
5
种单一分类方法实现流量分类。实际网络流量数据测试表明,
基于
AdaBoost
的组合分类方法的准确率在所选的几种算法中是最高的,其能够达到
98.92%
,且相对于
羊一的分类算法,组合流量分类方法对于小样本网络流的分类效果具有明显提升。
关键词:网络流;流量分类;相关特征选择;自适应增强算法;组合分类器
中图分类号:
T
凹
93
文献标志码:
A
文章编号:
1001-
893X(2013)09
- 1207 -
06
Ensemble Classification Overnetwork Traffic Based on AdaBoost
ZHAO
Xiao-huan1,
XIA
Jing-bo1,
LIAN
Xiang-lei2,
Ll
Qiao-li3
( 1.
Institute
of
Information
and
Navigation,
Air
Force
Engineering
Universi
吵,
Xi'an
71
即
77,
Clrina;
2.
Unit
71155
of
PLA,
Weihai
264200, Clrina;3.
Unit
94326
of
PLA,Jinan 250023,
Clrina)
Abstract:
To cope
wi
白白
e
凹
or
performance
of
single classification algorithms on minority flows when
the
train
dataset is
deficient
,出
e
AdaBoost (Adaptive Boosting) algorithm is introduced to classify network traffic. On the
basis
of
selecting few
but
effective classification features
wi
出
CFS
(Correlation-based Feature Selection) method
from a
v
缸
ie
悖。
f
flow' s features, the AdaBoost algorithm is used to combine five single classification algorithms
which belong to Decision
Tree,
Rules
and
Bayes respectively for
the
sake
of
traffic
classification.
咂
ie
experi-
ment over real network traffic shows that the AdaBoost algorithm
M
出
e
highest precision
up
to
98.
92
9
毛
among
the selected classification algorithms. Moreover, the AdaBoost algorithm achieves great improvement on
the
per-
formance
of
minori
句
r
flows' classification compared with single classification algorithms.
Key
words:
network traffic; traffic classification; correlation-based feature selection; adaptive boosting algo-
rithm; ensemble classifier
网络的可控可管性变得越来越差。由于不同的网络
1
引言
应用对于带宽、时延等指标的需求不同,不同等级用
随着近年来互联网的不断发展,社交网络、在线
户占用的网络资源不同,仅通过网络层和传输层流
视频、电子商务、即时通信、微博、
P2P
应用等多种新
量实现网络流量管理是不够充分的,而需要将网络
兴业务不断涌现并迅速占据互联网中主流应用位
流量映射到特定的业务,根据网络业务实现网络流
置,互联网流量在组成和性质上发生了较大的变化,
量的精细划分、分级管理和差异化服务。同时,精确
来
收稿日期:
2013
-
04
-
09
;修回日期:
2013
-
06-
18
Received
date:2013
-
04-
09;
Revised
date:2013
-
06-
18
基金项目·陕西省自然科学基础研究计划重点项目(
2012JZ8005)
Foundation
Item:
The
Natural
Science
Basic
Re"earch
P
叫回
t
of
Shaanxi
Province(2012JZ8005)
阳通讯作者:
zxhzxh_2012@163.com
Corr
四
ponding
author:
zxhzxh_
2012@163.com
1207
•