J o u r n a l o f C o m p u t e r A p p l i c a t i o n s
计算机应用,2 0 1 9 , 3 9 ( 1 ) : 2 2 7 - 2 3 1
I S S N 1 0 0 1 - 9 0 8 1
C O D E N J Y I I D U
2 0 1 9 - 0 1 - 1 0
h t t p: / / w w w . j o c a . c n
文章编号 :1 0 0 1 - 9 0 8 1 ( 2 0 1 9 ) 0 1 - 0 2 2 7 - 0 5 D O I :1 0 . 1 1 7 7 2 / j . i s s n . 1 0 0 1 - 9 0 8 1 . 2 0 1 8 0 5 1 1 1 8
基于词法特征的恶意域名快速检测算法
赵 宏 ,常兆娬'王乐
( 兰州理工大学计算机与通信学院,兰 州 730050)
( * 通信作者电子邮箱1510998508@ qq. com)
摘要:针对互联网中恶意域名攻击事件频发,现有域名检测方法实时性不强的问题,提出一种基于词法特征的
恶意域名快速检测算法。该算法根据恶意域名的特点,首先将所有待测域名按照长度进行 正则化处理后赋予权 值;
然后利用聚类算法将待测域名划分成多个小组,并利用改进的堆 排序算法按照组内权 值总和计算各域名小组优先
级,根据优先级降序依次计算各域名小组中每一域名与黑名单上域名之间的编辑距离;最后依据编辑距离值快速判
定恶意域名。算法运行结果表明,基于词法特征的恶意域名快速检测算法与单一使用域名语义和单一使用域名词法
的恶意域名检测算法相比,准确率分别提高1 . 7 % 与 2 . 5 % , 检 测 速率分别提高1 3 . 9 % 与 6 . 8 % , 具有更高的准确率和
实时性。
关键词:恶意域名;词法特征;检测算法;编辑距离;实时性
中 图 分 类 号 :T P 3 9 1 ; T P 3 9 3 . 0 8 文 献 标 志 码 : A
Fast malicious domain name detection algorithm based on lexical features
ZHAO Hong, CHANG Zhaobin*, WANG Le
( School of Computer and Communication, Lanzhou University of Technology, Lanzhou Gansu
730050,
China)
Abstract: A i m i n g a t t h e p r o b l e m t h a t m a l i c i o u s d o m a i n n a m e a t t a c k s f r e q u e n t l y o c c u r o n t h e I n t e r n e t a n d e x i s t i n g
d e t e c t i o n m e t h o d s a r e n o t e f f e c t i v e e n o u g h i n p e r f o r m a n c e o f r e a l t i m e , a f a s t m a l i c i o u s d o m a i n n a m e d e t e c t i o n a l g o r i t h m b a s e d
o n l e x i c a l f e a t u r e s w a s p r o p o s e d . A c c o r d i n g t o c h a r a c t e r i s t i c s o f m a l i c i o u s d o m a i n n a m e , a ll d o m a i n n a m e s t o b e t e s t e d w e r e
fi r stl y n o r m a l i z e d a c c o r d i n g t o t h e i r l e n g t h s a n d t h e w e i g h t s w e r e g i v e n t o t h e m i n t h e a l g o r i t h m . T h e n a c l u s t e r i n g a l g o r i t h m
w a s u s e d t o d i v i d e d o m a i n n a m e s t o b e t e s t e d i n t o s e v e r a l g r o u p s , a n d t h e p r i o r i t y o f e a c h d o m a i n g r o u p w a s c a l c u l a t e d b y t h e
i m p r o v e d h e a p s o r t i n g a l g o r i t h m a c c o r d i n g t o t h e s u m o f w e i g h t s i n g r o u p , t h e e d i t i n g d i s t a n c e b e t w e e n e a c h d o m a i n n a m e i n
e a c h d o m a i n n a m e g r o u p a n d t h e d o m a i n n a m e o n b l a c k l i s t w a s c a l c u l a t e d i n t u r n . F i n a l l y , m a l i c i o u s d o m a i n n a m e w a s
q u i c k l y d e t e r m i n e d a c c o r d i n g t o t h e e d i t i n g d i s t a n c e v a l u e . T h e r u n n i n g r e s u l t s o f a l g o r i t h m s h o w t h a t c o m p a r e d w i t h t h e
m a l i c i o u s d o m a i n n a m e d e t e c t i o n a l g o r i t h m o f o n l y u s i n g d o m a i n n a m e s e m a n t i c s a n d t h e a l g o r i t h m o f o n l y u s i n g d o m a i n n a m e
l e x i c a l f e a t u r e s , t h e a c c u r a c y o f f a st m a l i c i o u s d o m a i n n a m e d e t e c t i o n a l g o r i t h m b a s e d o n l e x i c a l f e a t u r e s is i n c r e a s e d b y
1 . 7 % a n d 2 . 5 % r e s p e c t i v e l y , t h e d e t e c t i o n r a t e is i n c r e a s e d b y 1 3 . 9 % a n d 6 . 8 % r e s p e c t i v e l y . T h e p r o p o s e d a l g o r i t h m h a s
h i g h e r a c c u r a c y a n d p e r f o r m a n c e o f r e a l - t i m e .
Key words: m a l i c i o u s d o m a i n n a m e ; l e x i c a l f e a t u r e ; d e t e c t i o n a l g o r i t h m ; e d i t i n g d i s t a n c e ; p e r f o r m a n c e o f r e a l t i m e
互联网技术的快速发展给人们的工作和生活带来许多便
利 ,同时 ,出于不同目的的恶意网络攻击事件也层出不穷。
域名系统(Dom ain Nam e System , D N S )作为互联网中实
现网络域 名 与 I P 地 址 相 互 转 换 的 一 种 服 务 ,得到了广 泛应
用 ,几乎所有的互联网应用都需要使用D N S 提供的服务对域
名进行解析,实现资源的定位。互 联 网 中 的 各 D N S 服务器分
布在不同的地理位置,记录所属域中主机域名与I P 地址的对
应关系,全 球 所 有D N S 服务器构成一棵D N S 树 ,因此,要实现
一个域名解析任务,经常需要 将任务在不同的D N S 服务器间
进 行 多次转 发 ,直 到 到 达 目 的 域 的 D N S 服务器实现 域名解
析 ,域名解析结果再经过多次转发,原路返回到请求主机。恶
意域名攻击正是利用D N S 域名解析的特点,随机产生大量不
存在的域名并发出域名解析请求,恶意域名解析请求在DNS
服务器间进行多次转发,最 终 因 找 不到对应的D N S 服务器被
丢 弃 ,同时,域名解析失败原因再经过多次转发,原路返回给
请求主机。大量恶意域名解析任务和域名解析失败原因在于
D N S 服务器间的多次转发 ,增加了网络带宽占用,给 D N S 服
务器带来沉重的额外负载,严重影响了正常域名解析任务的
执行。如 果 D N S 服务器因恶意域名攻击而宕机,则依托于域
名解析的所有互联网服务就会停止,其结果将是灾难性的。
国 家 互 联 网 应 急 中 心 (N a t i o n a l I n t e r n e t E m e r g e n c y
C e n t e r , C N C E R T ) 发布的2 0 1 8 年 第 1 3 期《网络安全信息与动
态 周 报 》[1 ]显示,C N C E R T 监测 发 现 境内 约 1 7 万 个 D N S 服务
器受到恶意域名的攻击,与前期相比增长5 0 . 2 % 。
如何快速检测恶意域名,提前防范恶意域名网络攻击,对
于保障互联网正常运行具有重要意义。
1 研究现状
从检测特征角度看,目前恶意域名检测方法主要包括域
名 查 询 行 为 分 析 ^5]和域名自然语言统计分析方法[6_9]两大
收稿日期: 2 0 1 8 - 0 5 - 3 0 ; 修回日期 : 2 0 1 8 - 0 8 - 0 1 ; 录 用日 期: 2 0 1 8 - 0 8 - 0 3 。
基金项目:国家自然科学基金资助项目(5 1 6 6 8 0 4 3 ) ; 赛尔网络下一代互联网技术创新项目(N G 1 1 2 0 1 6 0 3 1 1 ,N G 1 1 2 0 1 6 0 1 1 2 )。
作者简介 :赵宏(1 9 7 1 — ),男 ,甘肃西和人,教 授 ,博士 ,C C F 会 员 ,主 要 研究方向:并 行 与 分布式处理 、自然语言处理、深 度 学 习 ; 常兆斌
( 1 9 9 5 — ),男 ,甘 肃会宁人,硕士研究生,C C F 会 员 ,主要研究方向:自然语言处理、空间网络安全、深 度 学 习 ; 王 乐 (1 9 9 4 一 ),女 ,甘肃玉门人 ,
硕士研究生,C C F 会 员 ,主要研究方向:自然语言处理、深度学习、情感分析。