词向量驱动的恶意代码分类模型及其高效识别

22 浏览量更新于2024-08-31 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"本文介绍了一种基于词向量的恶意代码分类模型，旨在提升大规模恶意代码分类任务的准确性。该模型结合自然语言处理中的词向量技术，提取恶意代码函数的语义特征，并运用textCNN神经网络进行分类。实验结果显示，此模型在微软BIG2015恶意代码分类比赛中达到了98.78%的预测准确率，相比于传统方法有显著提升。" 在当前信息化、数字化和网络化的时代，网络安全的重要性日益凸显。随着恶意代码的反分析和变异手段不断进化，恶意软件的数量呈爆炸性增长，对恶意软件的识别和分析提出了更高要求。传统的恶意代码分类技术难以应对这种高流量、高质量的恶意软件挑战。因此，发展高效、准确的恶意代码分类模型成为了研究的热点。本文提出的模型借鉴了自然语言处理领域的词向量技术，这是一种能够捕获词汇语义的表示方法。在恶意代码分析中，词向量被用来表示代码函数的语义特征，这使得模型能够理解代码行为的本质，而不仅仅是表面的特征。通过使用textCNN（文本卷积神经网络），模型能够学习和理解这些语义特征，并进行有效的分类。 textCNN是一种应用于文本分类的神经网络结构，它利用卷积层和池化层来提取文本中的关键信息。在恶意代码场景中，textCNN可以捕捉到代码中的关键函数序列和模式，从而提高分类的准确性。实验表明，该模型在微软的BIG2015数据集上取得了98.78%的预测准确率，相比传统方法如特征码提取、灰度图特征、源码字节序列和操作码等，其性能有了显著提升，准确率提高了0.91%至3.16%。近年来，研究人员尝试了多种恶意代码分类方法，如基于深度神经网络的二进制样本分类、动态特征聚类、循环神经网络的API序列分类以及基于word2vec的汇编指令特征分类。尽管这些方法在一定程度上提高了分类效果，但词向量技术的引入为理解恶意代码的语义行为提供了新的视角，使得模型的分类能力得到了进一步增强。基于词向量的恶意代码分类模型通过提取代码的语义特征，利用textCNN进行深度学习，提高了大规模恶意代码分类的准确性和效率。这种方法对于应对当前恶意软件的快速演进和复杂性具有重要的实用价值，为恶意代码分析和防御提供了新的策略。

资源详情

资源推荐

电子设计工程

Electronic Design Engineering

第 28卷

Vol.28

第 6期

No.6

2020年 3月

Mar. 2020

收稿日期：2019-11-06 稿件编号：201911049

基金项目：国家重点研发计划（2016YFB0801400）

作者简介：刘恒讯（1995—），男，云南昆明人，硕士。研究方向：网络安全。

信息化、数字化、网络化发展逐步成熟的今天，

小到个人工作生活，大到国家政治经济，都已离不开

互联网的支持，同时这也给了攻击者更多的可乘之

机。在恶意代码反分析、变异手段越发成熟的情况

下，近年来恶意软件数量呈现出爆发式增长的趋势，

对恶意软件的识别、分析也越发困难，传统的恶意代

码分类技术已经不足以应对海量的、高质量的恶意

软件，根据 AV-TEST Security Report

[1]

，恶意代码增长

速度极快，为恶意代码检测造成了很大的压力。根

据 cybersecurity-sam-engagement-kit

[2]

，大规模恶意

代码检测已经成为恶意代码检测领域的一项挑战。

所以如何进行大规模的恶意软件检测，已然成为恶

意代码分析研究方向的一大挑战。

2015 年 SAXE

[3]

等人基于深度神经网络将恶意

代码二进制样本本身作为特征进行分类；2015 年

GIANNELLA

[4]

等人利用恶意代码调用图等动态特征

进行聚类；2015 年 PASCANU

[5]

等人基于循环神经网

络将恶意代码动态执行指令的 API 作为特征进行分

类；2016 年 Fan

[6]

等人基于神经网络使用指令序列模

式匹配的方法进行分类；2017 年 POPOV

[7]

基于

word2vec 将汇编指令作为特征进行分类；2018 年

CAKIR

[8]

等人使用与 POPOV

[7]

相似的特征提取方法，

使用 GBM 进行分类。

当前恶意代码分类的主要问题在于所提取的特

征不能对恶意代码特征进行有效地描述，传统恶意

代码分类模型所使用的恶意代码特征提取方法中，

特征码提取、灰度图及相关纹理特征、源码字节序

列、操作码等特征提取方法对恶意代码行为没有语

义层面的表示，无法解释恶意代码行为本质上的区

一种基于词向量的恶意代码分类模型

刘恒讯

，艾中良

（1. 华北计算技术研究所北京 100083；2. 中国司法大数据研究院北京 100083）

摘要：为提高大规模恶意代码分类任务的分类准确率，提出基于词向量的恶意代码分类模型，引入

NLP 中表达语义含义的词向量概念，提取恶意代码函数语义特征，使用 textCNN 神经网络对其进行

分类。实验结果表明，该模型在微软公司提供的 BIG2015 恶意代码分类比赛的训练集上能实现

98.78%的预测准确率，相较几种传统方法准确率分别提高 0.91%~3.16%。

关键词：恶意代码；分类；词向量；CNN

中图分类号：TN081 文献标识码：A 文章编号：1674-6236（2020）06-0010-07

DOI：10.14022/j.issn1674-6236.2020.06.003

A word⁃vector based malware classification model

LIU Heng⁃xun

，AI Zhong⁃liang

（1. North China Institute of Computing Technology，Beijing 100083，China；

2. China Justice Big Data Institute CO.，Ltd，Beijing 100083，China）

Abstract：In order to improve the classification accuracy of large ⁃scale malware classification tasks，a

word⁃vector based malware classification model is proposed. The word vector concept which expressing

semantic meaning in NLP is introduced to extract the semantic features of malware functions，and textCNN

neural network is used for classification. The experimental results show that the model can achieve

98.78% prediction accuracy on the training set of BIG2015 malware classification challenge provided by

Microsoft Corporation，which is 0.91%~3.16% higher than the accuracy of several traditional methods.

Key words：malware；classification；word⁃vector；CNN

-- 10

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38659646

粉丝: 3
资源: 941

词向量驱动的恶意代码分类模型及其高效识别

基于汇编指令词向量与卷积神经网络的恶意代码分类方法研究.pdf

SEMBeF：一种基于分片循环神经网络的敏感高效的恶意代码行为检测框架.pdf

词向量的特征提取模型

写一段关于FastText在已分词文本上生成词向量的代码

一种基于词向量的文学作品创作年代判定方法

利用词袋、TF-IDF、LDA、词向量分别建立文本分类模型、评估模型、并对结果进行分析

bert模型可以输入词向量

你知道基于ngram 的恶意代码检测么

写一FastText在已分词文本上生成词向量的代码

Android手机定位恶意代码,基于动态特征的Android恶意代码检测和定位方法

写一段关于FastText生成词向量的代码

微博文本词向量表示代码实现

基于神经网络的词向量是什么意思？

写一段关于Fasttext生成词向量的代码

有相关的词向量训练实例吗

gpt用什么模型生成词向量

基于机器学习的安卓恶意代码检测

给每个用户生成词向量的代码

自然语言处理词向量构建

最新资源