提升DGA恶意域名检测精度：统计与N-Gram特征与机器学习方法

需积分: 0 196 浏览量更新于2024-08-05 收藏 431KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

本文主要探讨了DGA（Domain Generation Algorithm，域名生成算法）恶意域名检测方法中的挑战与改进。随着恶意软件技术的发展，DGA恶意域名的数量逐年增长，它们通常通过动态生成难以追踪的域名来逃避传统的安全检测。当前的检测方法在计算量大和精确率方面存在问题。作者蒋鸿玲和戴俊伟针对这些问题，提出了一种新的DGA恶意域名检测框架。他们首先对域名的统计特征和N-Gram模型特征进行了深入分析。统计特征关注的是域名字符的频率、模式和分布，而N-Gram模型则通过分析连续字符序列来捕捉潜在的模式和规律，这有助于区分正常和恶意域名。在特征提取阶段，作者选取了具有高区分度的域名特征组合，确保模型能够有效地识别恶意域名。接着，他们使用正常域名和DGA恶意域名的数据集训练了多种机器学习模型，包括朴素贝叶斯（Naive Bayes）、多层感知器（Multilayer Perceptron，MLP）以及XGBoost（ Extreme Gradient Boosting）模型。这些模型各有优势，朴素贝叶斯简单易解释但可能精度稍低，而XGBoost则在处理大量数据时表现出色，但可能会有较高的误报率。实验结果显示，使用N-Gram模型特征的检测方法在精确率和召回率上表现优于统计特征，这表明N-Gram模型能够更有效地捕捉到恶意域名的动态生成模式。多层感知器在检测精确性上表现出色，误报率较低，这可能是由于其强大的非线性建模能力。同时，多层感知器的AUC值（Area Under Curve，ROC曲线下的面积，用于评估二分类模型性能）也超过了朴素贝叶斯和XGBoost模型，这进一步证实了其在DGA恶意域名检测上的有效性。该研究提出的新框架和特征选择策略有助于提升DGA恶意域名检测的效率和准确性，为网络安全防护提供了有价值的方法。未来的研究可以继续优化模型参数和特征工程，以应对不断演变的恶意软件威胁。

资源详情

资源推荐

第

卷第

期

2019

年

月

北

京信息科技大学学报

Journal of Beijing Information Science ＆ Technology University

Vol．34 No．5

Oct．2019

文

章编号

： 1674

－

6864（ 2019） 05

－

0045

－

06 DOI： 10. 16508 /j ．cnki ．11

－

5866 /n．2019. 05. 009

DGA

恶意域名检测方法

蒋

鸿玲

，

戴俊伟

（

北京信息科技大

学信息管理院

，

北京

100192）

摘要

：

针

对目前

DGA（ domain generation algorithm）

恶意域名检测方法计算量较大

、

检

测精确率不高等问题

，

提出了

DGA

恶意域名检测框架

。

首先对域名的字符统计特征和

N-Gram

模

型特征进行分析

，

提取出区分度大的域名特征组合

；

然后利用正常域名和

DGA

恶意域名数据集训

练不同的机器学习模型

，

如朴素贝叶斯

、

多层感知器和

XGBoost （ extreme gradient boosting）

模型

，

再

用训练好的模型检测恶意域名

。

实验结果表明

，

采用域名的

N-Gram

模型特征的精确率和召回率

都优于统计特征

，

多层感知器的精确率较高

，

误报率较低

，

其

AUC（ area under curve）

值高于朴素贝

叶斯和

XGBoost

模型

。

关键词

： DGA；

统计特征

； N-Gram；

朴素贝叶斯

；

多层感知

；

极端梯度

中图分类号

： TP 393

文献标志码

： A

DGA malicious domain name detection method

JIANG Hongling，DAI Junwei

（ School of Information Management，Beijing Information Science ＆ Technology University，Beijing 100192，China）

Abstract： To solve the problems of large computation and low detection accuracy of DGA （ domain

generation algorithm） malicious domain name detection method，a framework of DGA malicious domain

name detection is proposed． First，the statistical features of domain names and N-Gram model features

are analyzed，and the features of domain names with large discrimination are extracted． Then，different

machine learning models，such as Naive Bayesian，Multilayer Perceptron and XGBoost （ extreme

gradient boosting） Model，are trained using normal domain names and DGA malicious domain names

data set． Then malicious domain names are detected by the trained model． The experimental results show

that the accuracy and recall rate of N

－

Gram model of domain name are better than statistical features．

The accuracy rate of multi

－

layer perceptron is higher and the false alarm rate is lower． The AUC （ area

under curve） value of N-Gram model is higher than those of Naive Bayesian model and XGBoost model．

Keywords： DGA； statistical feature； N-Gram； naive Bayesian； multilayer perceptron；

extreme gradient

收

稿日期

： 2019-06-08

基金项目

：

北京信息科技大学学校校科研基金

（ 1925023）

第一作者简介

：

蒋鸿玲

，

女

，

博士

，

讲师

。

引

言

近年来恶意程序的数量呈现逐年递增的趋势

，

并

且越来越高级和复杂

［1］

。

因

为域名系统

（ domain

name system，DNS）

在所有网络中都存在

，

并且通常

不会被防火墙过滤

［2］

，

攻

击者常使用

DNS

来隐藏其

恶意行为

，

维护恶意网络自身的健壮

。

恶意程序在感染了主机后

，

通常和远程的命令

与控制服务器连接

，

攻击者可以直接控制命令与控

制服务器

。

如在高级持续性威胁攻击

（ advanced

persistent threat，APT）

［3］

和

僵尸网络中

，

被感染的主

机会通过与远程的

C＆C

服务器

（ command and

control server）

连接

，

下载最新的恶意程序

，

或者获取

恶意指令

［4］

；

信

息窃取等恶意程序会将窃取的信息

发送给远程服务器等

；

垃圾邮件依赖

DNS

重定向网

页

［5］

。

这

些恶意程序常通过域名来访问远程服务

下载后可阅读完整内容，剩余5页未读，立即下载

赶路的稻草人

粉丝: 28
资源: 330

提升DGA恶意域名检测精度：统计与N-Gram特征与机器学习方法

基于融合CNN与LSTM的DGA恶意域名检测方法.docx

基于深度学习对dga恶意域名检测研究

什么是dga域名检测

dga域名检测技术一个检测任务中，多个模型的检测结果如何集成，除了简单的投票外是否还有其他策略，在代码中实现

dga域名检测技术中一个检测任务中，多个模型的检测结果如何集成，除了简单的投票外是否还有其他策略，在代码中实现

传统的DGA油浸式变压器故障诊断方法的优缺点

No module named 'dga_classifier'

变压器的DGA的传统方法有哪些？

dga判断变压器正常临界值是多少

dga解决变压器故障matlab代码

如何下载IETC10中DGA数据库

libreoffice rpm安装

电力变压器dga数据集

传统的DGA油浸式变压器故障诊断方法主要有三比值法、Rogers法、大卫三角法，大卫五角星法的优缺点

三维装箱算法matlab,三维装箱遗传算法matlab程序

diploid遗传算法

linuxoracle11g安装教程

fpga中能够调幅和调频的元件

deap数据集支持向量机python

最新资源