Android应用程序中的恶意软件检测使用深度学习模型

5 浏览量更新于2023-12-06 收藏 997KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

网络安全和应用1（2023）100014深度学习模型检测Android应用程序中的恶意软件Elliot Mbungea，b，Bunda，Benhildah Muchemwaa，John Batanic，Nobuhle Mbuyisaaa斯威士兰大学科学与工程学院计算机科学系，私人包4夸卢塞尼，斯威士兰b南非德班科技大学会计和信息学院信息技术系，邮政信箱1334，德班4000cBotho大学工程技术学院，Maseru 100，莱索托aRT i cL e i nf o保留字：恶意软件Android应用程序检测深度学习智能手机a b sTR a cTAndroid应用程序是促进通信、健康监测、规划、数据共享和同步、社交互动、商业和金融交易的不可或缺的资源。然而，智能手机普及率的快速增长导致了网络攻击的增加。智能手机应用程序使用权限允许用户使用不同的功能，使他们容易受到恶意软件（恶意软件）。尽管Android应用程序的使用和网络攻击有所增加，但使用深度学习（DL）模型来检测Android应用程序中的新兴恶意软件仍处于萌芽状态。因此，本文试图解释用于检测Android应用程序中恶意软件的DL模型，探索其性能，并确定新出现的研究差距，并为未来的工作提出建议本研究采用系统性综述和荟萃分析（PRISMA）指南的首选研究表明，卷积神经网络、门控递归神经网络、深度神经网络、双向长短期记忆、长短期记忆（LSTM）和基于深度学习的LSTM是Android应用程序中最突出的恶意软件检测模型。这些发现表明，深度学习模型正日益成为Android应用程序中实时恶意软件检测的有效技术。然而，由于恶意软件和人类行为的不断发展的性质，监视和跟踪信息流和恶意软件行为是一项艰巨的任务。因此，培训移动应用程序用户和共享更新的恶意软件数据集对于开发检测模型至关重要。还需要在下载移动应用程序之前检测恶意软件，以提高Android智能手机的安全性1. 介绍移动电话普及率的提高促进了移动应用在各个领域的开发和部署[1]。移动电话，特别是智能手机，促进通信[2]，健康监测[3，4]，支持教学，规划，数据共享和同步，社交互动，商业和金融交易。随着智能手机变得无处不在和普及，它们也变得容易受到网络攻击和恶意用户的攻击。举例而言，于二零一六年至二零二零年期间，约有2，180亿个移动应用程序（“应用程序”）被下载，较二零一六年的1，407亿个移动应用程序下载量这包括Android，Blackberry，iPhone和Symbian应用程序等。在其他平台中，基于Android的移动应用程序的下载量最高，于二零二一年安装于超过15亿部移动设备上[6]。官方Android Play商店目前拥有至少260万个应用程序，可以下载和安装，用于不同的目的。pose[7]. 然而，移动应用程序使用的增加使移动电话容易受到网络攻击和威胁，如恶意软件（特洛伊木马，病毒，蠕虫和间谍软件等）。此类威胁会破坏数据完整性、系统或设备可用性以及数据机密性[6]。由于受欢迎程度，第三方代码和开放性，Android应用程序往往容易受到各种类型的恶意软件的攻击。例如至少3.25 2016年有100万个Android应用程序感染了恶意软件[8]。为了应对这些攻击，包括动态污点分析机制在内的几种方法已被应用于检测恶意软件。动态污点分析在运行时监控和跟踪信息流泄漏[9]。这种方法容易出错，因为更有可能遗漏一些重要的安全漏洞和出现恶意软件变体。这些方法使用特征提取分析、静态、混合分析方法和动态分析来检测恶意软件。静态分析通过使用VMprotect和UPX等打包工具收集Android应用程序的功能，并分析功能以检测恶意软件，而无需执行Android包工具包文件[10]。Gener-*通讯作者。电子邮件地址：mbungeelliot@gmail.com（E. Mbunge）。https://doi.org/10.1016/j.csa.2023.100014接收日期：2022年4月14日;接收日期：2022年12月13日;接受日期：2023年2月11日在线预订2023年2772-9184/© 2023作者。由Elsevier B.V.代表KeAi Communications Co.出版，这是一篇CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表网络安全和应用期刊首页：http://www.keaipublishing.com/en/journals/cyber-security-and-applications/E.姆邦格湾Muchemwa，J. Batani等人网络安全和应用1（2023）1000142此外，Android软件包工具包文件包含操作系统API调用、操作码和网络地址等信息。使用静态分析来检测使用动态代码加载的恶意软件是困难的[11]。然而，一些学者通过跟踪执行阶段的信息流来应用动态分析来监控恶意软件行为[12]。这种方法遇到了一些障碍，例如监控进程和信息流所需的高计算开销[10]，以及在执行用户为了提高恶意软件检测的准确性，一些学者结合静态和动态分析来开发混合恶意软件检测方法[11]。尽管混合分析具有出色的准确性，但在提取恶意软件行为、监控信息流和从APK文件中收集恶意软件的静态特征为了减轻与经典恶意软件检测方法相关的挑战，包括[13-[16-18] 进行的几项综述研究提取的特征包括静态特征、所需权限、敏感应用程序编程接口（API）、静态数据流、可疑行为和网络流，以检测恶意软件[19]。然而，机器学习算法包含浅层结构化架构，可以解决简单且约束良好的分类和聚类问题[20]。恶意软件应用程序一直在迅速增加，这使得很难检测使用机器学习技术由于其先进性和复杂性，攻击和威胁的程度。这就需要创新、主动和自适应的解决方案来识别和检测Android应用中恶意软件的新变种1.1. 研究报告的贡献随着人类对手机依赖的增加，网络攻击呈指数级增长[22]。由于各种因素，使用机器学习模型准确检测Android应用程序中出现的恶意软件越来越困难，这些因素包括（i）有限或过时的数据集[19]，（ii）恶意软件的复杂性和多样性[23]，以及（iii）次优特征提取[23]。恶意软件应用程序一直在不断发展，由于攻击和威胁的复杂性和复杂性，很难使用经典的保护机制进行检测。此外，恶意软件应用程序是异构的，也就是说，攻击根据目标、类型、服务利用，传播源，和焦油的位置，得到[24]。因此，恶意软件检测模型的准确性取决于各种因素，包括算法的适当训练、特征提取、对抽象行为的理解以及攻击模式。这需要强大的基于智能的恶意软件检测模型，例如具有高度结构化架构的深度学习，可以从各种大型数据集中学习和分析恶意软件模式和行为的较长序列[20]。深度学习模型可以通过更高层次的抽象和语义知识学习来提取有意义的见解并分析庞大的数据集。然而，使用深度学习模型来检测Android应用程序中的新兴恶意软件仍处于萌芽状态。因此，这一全面的审查有助于这一新兴的研究领域，旨在：(i) 识别并解释Android应用程序中基于DL的恶意软件检测模型。(ii) 分析用于检测Android应用程序中恶意软件的DL模型的性能。(iii) 识别用于检测Android应用程序中恶意软件的数据集源。(iv) 确定Android应用程序中基于深度学习的恶意软件检测模型的新兴研究差距。第二部分讨论了本研究所采用的材料和方法。第3节介绍了基于深度学习的恶意软件检测模型及其各自的性能以及模型上使用的数据集的来源。第4节讨论了在Android应用程序中检测恶意软件的建议。最后，第5节提出了研究结论。2. 材料和方法研究人员采用PRISMA方法[25]来搜索和选择相关论文。使用各种检索关键词从不同的在线公共知识库检索相关出版物。研究人员从不同的知名数据库中检索论文，并应用纳入和排除标准选择相关论文，如图1所示。2.1. 搜索策略该研究应用了搜索关键词，如“深度学习”或“深度学习技术”或“深度神经网络”和“恶意软件检测”或“检测恶意软件”或“恶意软件”和“Android恶意软件检测”，或“Android应用程序”或“Android应用程序中的相关论文检索自不同的在线资源库，如Web of Science GoogleScholar、Scopus、IEEE Xplore、Science Direct和Springer Link。2.2. 入选和排除标准本研究纳入了所有英文撰写或有英文翻译的论文/文章。本研究不考虑评论、给编辑的信和预印本。文章的发表期限于2016年1月至2022年3月期间，包括。如果使用的恶意软件检测模型不是深度学习模型，则排除文章。所有重复的文件都没有考虑。2.3. 筛选过程如图1所示，对文章的标题、摘要和内容进行筛选。从所选文章中提取的数据包括参考文献、应用于检测恶意软件的深度学习、性能指标、数据集来源以及限制或未来工作（见表1）。图1显示了PRISMA在各种著名电子数据库中检索文献并根据上述纳入和标准选择相关论文的步骤。共选择了二十五（25）篇论文，如表1所示。3. 结果表1总结了研究结果，显示了已识别的深度学习模型、性能、数据集来源以及每篇综述文章的局限性/未来工作。已识别的深度学习模型包括深度信念网络、GRU、CNN、Bi-LSTM、LSTM、深度神经网络和神经网络LSTM。a) 深度学习模型用于检测Android应用程序深度学习（DL）技术已成功用于各种领域，包括欺诈检测[21]，安全[47]，对象识别和检测[48]以及恶意软件检测等。深度学习是机器学习的一个子集，主要用于图像处理、文本分类和语音处理[49]。深度学习模型具有许多层次和深度结构化架构，其中包含多个连接的人工神经元E.姆邦格湾Muchemwa，J. Batani等人网络安全和应用1（2023）1000143Fig. 1. PRISMA导航图。处理数据[50]。深度神经网络的每一层都由许多人工神经元组成，每个神经元都有自己的权重和潜在的激活功能，这些功能可能与其他层上的功能不同[51，52]。虽然权重可以不同，但初始权重可以随机设置，或者在初始化期间可以在所有权重中设置相同的权重[53]，之后模型将根据误差值相应地调整它们。深度学习的突出特点是它能够自动提取和抽象特征，从而消除了手动和繁琐的特征提取的需要，从而自动识别复杂和更有用的高阶特征[41，54]。许多深度学习模型可以并且已经被应用于检测Android应用程序中的恶意软件。表1显示了已识别的DL模型，它们在检测Android应用程序中恶意软件时的性能，以及所使用的数据集的来源。图图2示出了应用于检测恶意软件的各种DL模型。这些模型包括深度信念网络、门控递归单元（GRU）、CNN、DNN、LSTM、双向LSTM、Cubic LSTM和混合模型。i 深度信念网络根据[6]，深度信念网络的支持者是2006年的Ge-o-Hinrey Hinton。深度信念网络是一种基于概率的生成模型，由多层随机[55]、潜在变量组成，顶部两层之间具有非定向和对称链接[56]。模型的较低层与上面的层有直接的链接，箭头指向数据最近的层。深度信念网络的训练分为两个阶段：预训练阶段优化（Optimization）阶段。在预训练阶段，RBM从底层开始依次逐层训练[57]。RBM是一个非有向概率图模型，每个层都有一个可观察变量和隐藏变量[58]。微调可以使用反向传播来实现，其中预训练的深度信念网络以监督的方式使用标记的样本进行优化[59]。与传统的神经网络不同，DBN为网络初始化和自动特征提取提供了一种逐层学习方法。但是，它在训练阶段消耗系统资源，消耗时间。[6]进行的一项研究应用深度信任网络来检测恶意软件，使用来自AndroidPRAGuard Dataset和VirusShare的数据集，并实现了95.79%的准确率，97.62%的召回率和96.82%的准确率。此外，[33]使用ContagioCommunity，Android Malware Genome Project应用深度信念网络检测恶意软件，并实现了95.77%的准确率，97.84%的召回率ii 门控经常性单元（GRU）GRU是由[6]引入的递归神经网络（RNN）的增强版本，广泛用于解决分类问题。该模型解决了与标准RNN固有相关的门控递归单元使用两个门（更新和重置门）来处理和处理与标准RNN相关的消失梯度问题[6，61]。门是可训练的信息保留从一个长的背部，删除不相关的信息，并通过相关的信息链，E.姆邦格湾Muchemwa，J. Batani等人网络安全和应用1（2023）1000144表1用于检测Android应用程序中恶意软件的深度学习模型深度学习模型性能数据集限制/未来工作[26]卷积神经网络（CNN）精确度-99.82%F1-评分-99.86%召回率-99.91%精密度-99.91%VirusShare模型需要更多的训练时间。[22]深度神经网络（DNN）准确度-93.4%F1-评分-93.2%召回率- 93.4%精密度-93.5%CICInvestAndMal 2019和CICAndMal 2017该模型在下载之前无法检测恶意软件良性或恶意应用程序。[27]CNN和LSTM准确率- 95.83%精确率-95.24%召回率- 96.15% F1-score-95.69%VirusTotal和Drebin该模型无法检测基于混合图像特征的Android恶意软件样本。[28]CNN准确率-99.56% VirusShare和Drebin动态分析覆盖率和需要改进动态特征的提取。[29]CNN准确率-91.27% VirusShare模型排除混淆无法从Flowdroid中提取应用程序编程接口调用图的应用程序。[30]DeepVisDroid（CNN）准确率-98.96%良性模型无法识别某些代码伪装。[31]深度神经网络准确率-98.86% F1-measure-98.65%召回率- 98.47%精确率-98.84%良性数据集，AMD数据集，AndroZoo数据集，Drebin恶意软件集合数据集的特征很容易被检测到。[6]深度信念网络门控递归单元精密度召回率精确度Android PRAGuard数据集和VirusShare使用的数据集很小。数据集的特征很容易被检测到。混合模型的计算时间比单独模型的计算时间长[32]CNN精确度F1-评分-96.333%[33]深度信念网络精确度召回率准确度[34]CNN精确度-[35]CNN精确度-95.46%VirusShare、Malgenome、Drebin、Contagio MinidumpContagio社区，Android恶意软件基因组计划Android恶意软件基因组计划，McAfee实验室ContagioDump、Marvin、Drebin和VirusShare模型需要更多的时间来计算更好的结果使用较小的数据集不会产生更好的结果，也不会更好地利用深度学习模型来在现实世界的Android恶意软件检测中获得更高的准确性。易受冒充攻击考虑使用其他程序图，如程序依赖图，用于模型训练[36]Cubic-LSTM精度-99%CIAndMal2017作者的目标是使用不同的数据集以及不同的深度学习算法在未来的工作中用于恶意软件检测。[37]深度神经网络精确度- 98.09%召回率-99.56%精确度McAfee Labs耗时[38]卷积神经网络[39]长短期记忆精确度• Android恶意软件数据集准确率• MassVet该方法需要进一步的分析来证明其有效性。有时候会失败以检测在运行时加载和执行的恶意行为。需要频繁更新，标注要素以避免模糊预测[40]深度神经网络精度召回率F1-评分Drebin易受攻击假冒攻击[10]短期记忆[41]双向长短期记忆精确度-93.7%召回率-98.8% F1-评分-96.1%准确度-93.9%准确度-97.22%F1-评分=98.21%Malgenome应用程序在模拟器中运行了短时间内，并避免显示任何恶意活动Android恶意软件数据集耗时[42]深度信念网络精确度-98.68%回忆-98.12%F1-评分-98.40%• 德雷布林• VirusTotal• 孔塔焦静态分析（接下页）E.姆邦格湾Muchemwa，J. Batani等人网络安全和应用1（2023）1000145表1（续）参考深度学习模型性能数据集局限性/今后的工作[20个]深度信念网络精确度-98.3%召回率-96.6% F1-评分-97.4%精确度-97.4%Ge·noAmnedrPoriodjeMctalware• 德雷布林• 孔塔焦数据集太小，要素[四十三]深度信念网络精确度-98.5%召回率-99.3%F1-评分-98.72%精确度-98.71%• Android恶意软件基因组计划• 分享病毒静态分析[第四十四届]Gated Recurrent Unit精确度-96.9%召回率-99.2% F1-评分-98.0%精确度-98.2%2017中国国际医疗器械展览会不可用[45个]深度神经网络精确度-95.35%召回率-95.31% F1-评分-95.31%精确度-95.31%• Contagio Mobile恶意软件小型转储• DroidBench• GitHub- Android恶意软件大师• 分享病毒• VirusSign旨在通过试验其他深度学习方法来提高恶意软件检测的准确性。[46个]LSTM精确度-99.3%召回率-99.2%F1-评分-99.3%精确度-99.3%Android恶意软件和好软件该模型无法整合新的行为驱动的入侵检测技术，以适应新的、看不见的恶意软件威胁。以做出更好的预测。更新门调节必须转发到未来（后续步骤）的先前时间步骤的信息量[62]。另一方面，复位门决定网络要遗忘的先前信息（历史）的量[63]。为了提高RNN的记忆容量和模型训练的容易性，可以使用GRU。[44]使用CICAndMal2017应用门控递归单元来检测恶意软件，并记录了96.9%的精确度，99.2%的召回率，98%的 F1测量值和98.2%的准确度。然而，GRU收敛速度慢，学习效率低[64]。iii 卷积神经网络CNN由三个可区分的层组成，即卷积层、池化层和全连接层，如图3所示。第一层，卷积，通常用于计算不同的特征图。卷积层的输出然后被传递到池化层[65]。池化层连接在两个卷积层之间[66]。它用于减少卷积特征的大小，同时保持- 的重要特征。这也降低了计算能力，我想把数据整理一下[67]。CNN可以使用ReLu，Maxout，tanh和sigmoid激活函数来引入解决非线性可分离问题/特征所需的非线性。全连接层确定特征与目标类之间的关联[68]。几项研究，包括[21][17，22- 25，34]和[38]，成功地应用CNN来检测Android应用程序中的恶意软件。[26]进行的一项研究应用卷积神经网络使用VirusShare的数据集来检测恶意软件，并取得了99.82%的准确率，99.86%的F1分数，99.91%的召回率和99.91%的精度的最佳性能结果然而，该模型可以有效地检测恶意软件时，与巨大的和更新的恶意软件数据集。iv 深度神经网络DNN需要许多层来解决复杂的非线性问题[69]。它由许多连接到输入和输出层的隐藏层组成[70]。然而，深度神经网络通常比人工神经网络有更多的层[71]。输入层接受输入向量，而隐藏层执行一些计算，图二. 基于深度学习的恶意软件检测模型。E.姆邦格湾Muchemwa，J. Batani等人网络安全和应用1（2023）1000146图3. C N N 的分类和应用领域[65]。将输出发送到输出层。为了使误差或成本最小化，权重和偏差使用诸如随机梯度下降的算法迭代地微调。该模型在网络输出和真实类之间的误差最小化方面表现良好，因为在执行通过网络的每个前向传递之后，反向传播执行反向（反向）传递以自动调整模型的参数。[45]的一项研究应用深度神经网络来检测恶意软件，使用来自Contagio Mobile恶意软件minidump，DroidBench，VirusShare和VirusSign的数据集，并实现了95.35%的准确率，95.31%的召回率，F1-score-95.31%和95.31%的准确率。此外，[35]使用深度神经网络在Drebin数据集中检测到恶意软件，并实现了97.15%的准确率，94.18%的召回率和95.64%的F1分数。v 长短期记忆（LSTM）LSTM是RRN的一个子集，用于训练和学习长距离节奏。[10]第一个问题是，如何定义一个任意长度的序列？通常，LSTM模型由输入门、输出门和遗忘门组成[72]。该模型在很长一段时间内记住了长序列。LSTM模型有一个单元状态，可以确保通过单元传递的信息没有变化。每个单元都有一个输入门、一个输出门和一个遗忘门，这些单元用来控制信息，在将长期和短期信息中继到后续小区之前被保留或丢弃。门充当过滤器，去除不相关和不需要的选择信息[10]。被填充的信息只是来自被认为无用的变量。遗忘门使用sigmoid激活函数来决定要保留还是忘记先前单元状态中的信息。它是通过计算入站长期记忆与当前输入和入站短期记忆产生的遗忘向量的乘积来实现的。最后，还有一个输出门，它接受当前输入、先前的短期记忆和新计算的长期记忆，以生成新的短期记忆，并决定将哪些信息转发到随后的隐藏状态。长短期记忆只能保留以前的信息，因为它需要从前面的神经元接收输入，称为反向，这导致预测率很差因为它被剥夺了关于未来的信息[73]。[74]进行的一项研究应用LSTM检测Android中的恶意软件，并实现了91.3%的准确率，96.6%的召回率以及93.7%的准确率和9.3%的低误报率。此外，[37]应用LSTM检测恶意软件在MassVet和VirusShare恶意软件数据集中，准确率达到97.74%。vi 双向长短期记忆（Bi-LSTM）Bi-LSTM包括两个用于接受输入的LSTM，但方向相反（前向和后向）。输入在两个方向（前和后）上重复，以保留未来和过去的信息，这与LSTM中的输入在一个方向上重复不同，无论是向后还是向前。网络可以根据输入文本中的每个字符的过去和未来为它们创建一个条件[73]。通过这样做，当使用Bi-LSTM时可以很容易地实现检测精度，因为它保留了过去和未来的信息。例如，[40]应用Bi-LSTM来检测使用Android恶意软件数据集的恶意软件，并实现了97.22%的准确率和98.21%的F1分数。vii 混合模型（CubicLSTM和Bi-LSTM）该混合模型结合了Cubic-LSTM和Bi-LSTM来检测Android应用程序中的恶意软件。CubicLSTM是一个具有两个状态的网络，即由两个独立卷积创建的时间和空间状态，因此它允许通过不同的操作和状态处理和携带不同类型的信息。将时间状态和空间状态中的信息分开处理，以减少预测的负担。CubicLSTM包括三个分支，即时间、空间和输出分支。分支沿着笛卡尔坐标系中的三个轴构建[75]。颞支沿x轴延伸，卷积旨在获取和处理运动。由于时间分支包含运动信息，因此其职责是创建或产生时间状态。空间分支沿着z轴延伸，卷积的职责是捕获和分析移动的对象。这是生成空间状态的分支，因为它传递关于移动对象的空间布局信息。输出分支根据由时间分支给出的预测运动和由空间分支提供的运动对象信息沿y轴产生最终预测帧。二维网络可以通过沿着空间和输出分支堆叠几个Cubic LSTM单元来形成。二维网络如果沿着x轴演化，则可以进一步构建三维网络[36]。使用混合模型有助于检测更高的准确率和降低的错误率。混合模型与单一模型相比，E.姆邦格湾Muchemwa，J. Batani等人网络安全和应用1（2023）1000147表2恶意软件数据集源。Ref数据集采集时间恶意软件样本源[77个国家]2017中国国际医疗器械展览会2017365https://www.unb.ca/cic/datasets/andmal2017.html[26]分享病毒2018年，2019年，2020年4038https://virusshare.com/[78个国家]Android恶意软件基因组计划2010年8月至2011年1260http://www.malgenomeproject.org/[第七十九章]MassVet2015127,429https://www.useniX.org/system/files/conference/useniXsecurity15/sec15-paper-chen-kai.pdf[13个国家]Intel Security不可用11,505https://steppa.ca/portfolio-view/malware-threat-intel-datasets/[第八十章]Android PRAGuard数据集20152260https://pralab.diee.unica.it/en/AndroidPRAGuardDataset[14个]孔塔焦2011年12月至2013年1150http://contagiodump.blogspot.com/[76个]德雷布林2010年8月至2012年5560https://www.sec.cs.tu-bs.de/~danarp/drebin/[第八十一章]Android恶意软件数据集2010–201624,650http://amd.arguslab.org/[6]美国VirusTotal2012–2018不可用http://www.virustotal.com[45个]VirusSign2011146www.virussign.com模型例如，[34]通过结合Bi-LSTM和Cubic LSTM来应用混合模型来检测CICAndMal 2017数据集中的恶意软件，并实现了99%的准确率。然而，混合模型是高度计算密集型的，并且需要更多的存储器空间。viii 混合模型（深度信念网络和门控递归单元）由于Android应用程序的各种静态和动态特性，因此Deep BeliefNetwork具有更好的性能和更快的Android应用程序静态特征学习速度。与传统的递归神经网络模型相比，门递归单元在处理参数少、运算时间长、训练速度快、泛化能力强的情况下具有更好的性能。这使得它非常适合处理Android应用程序的动态特性为了训练模型，动态特征向量用于深度信念网络，静态特征向量用于门控递归单元，并且输出向量被输入到全连接层。为了微调混合模型（包括深度信念网络和门控递归单元）的参数，他们使用了SoftMax激活函数。这个激活函数挤压了许多神经元的输出，将其压缩在（0，1）范围内，而分类输出是概率性的[6]。混合模型相对于其独立组成模型提高了模型此外，DBN-GRU恶意软件检测模型的结果不会因为重新打包软件而这是因为提取的特征（动态和静态）不受软件重新包装以及模型训练过程的影响。由[4]进行的一项研究开发并应用了一种混合模型，该模型结合了深度信念网络和门控递归单元，使用Android PRAGuard数据集和VirusShare检测恶意软件，并实现了95.79%的准确率，97.62%的召回率和96.82%的准确率b) 已识别的恶意软件数据集来源该研究表明，基于深度学习的恶意软件检测模型使用来自各种在线恶意软件数据库的各种数据集，如表2所示。深度学习在巨大的数据集上蓬勃发展;因此，它需要一个与当前和最近的恶意软件保持同步的大数据集，以充分利用深度学习的潜力。表2显示，最常用的数据集是DREBIN数据集[76]，从2010年8月到2012年10月，近两年收集了5560个恶意软件样本。Android恶意软件基因组计划数据集[78]包含了2010年8月至2011年10月期间收集的1260个恶意样本。Contagio数据集包含2011年收集的1150个恶意软件样本，而通过网站（https：//virusshare.com/）公开的VirusShare数据集包含2018年、2019年和2020年收集的4712个样本。Android恶意软件数据集[81]有24，650个恶意软件样本，这些样本是在2010年至2016年之间提取的CICAndMal2017[77]于2017年收集，有365个恶意软件样本。还有McAfee Labs数据集，可以通过网站访问，其中包含11505个恶意样本。Android PRAGuard数据集[80]由10479个恶意样本组成，于2015年收集。Marvin数据集[82]包含2012年6月至2014年5月期间收集的10559个恶意样本。还有MassVet数据集[79]，其中包含127 429个恶意软件样本，VirusSign 在2011 年收集了146个恶意软件样本，VirusTotal数据集可以通过网站访问，最后DroidBench有30个样本，GitHub- Android恶意软件大师有80个样本，这两个数据集都可以在GitHub上访问。表1中的深度学习模型使用表2中所示的数据集源实现了超过90%的检测准确度，尽管其中一些数据集几乎没有恶意样本。c) 来自基于深度学习的恶意软件检测模型的该研究确定了与以前的研究人员用于检测恶意软件的数据集相关的一些挑战和弱点。例如，一些使用的数据集很小，但是，深度学习模型需要巨大的数据集才能更好地执行。一些基于深度学习的恶意软件检测模型使用旧的数据集（如DREBLIN）来检测恶意软件，因此，使检测模型容易受到新兴恶意软件的影响。此外，一些数据集是不可公开访问的，这使得验证检测模型变得困难。一些深度学习模型在训练阶段和测试阶段存在易受攻击的弱点。该模型可以在训练过程中支持“数据中毒”攻击。数据中毒攻击是通过操纵模型训练来灌输使模型出错的数据。在测试期间，恶意软件检测模型暴露于对手攻击、冒充攻击和许多其他攻击。对手攻击可能会错误引导DNN，从而导致错误分类[83]。4. Android应用程序中检测恶意软件的建议需要增加恶意软件数据集大小以及改善恶意软件数据集对公众的可访问性，以便使用各种数据集来训练、测试和验证基于DL的恶意软件检测模型。随着Android应用程序在市场上的持续增加，需要更多基于动态和混合DL的恶意软件检测模型来检测新兴的恶意软件。一些研究人员，如[6]，建议加强深度学习模型以对抗对抗攻击。为了实现这一目标，他们提出了再训练和蒸馏作为对抗深度学习模型对抗性攻击的一种方式。然而，这些解决方案最初是为了对抗计算机视觉中的“对抗性攻击”，而不是恶意软件，因此进一步的研究可以调查这些技术在检测恶意软件方面的有效性。E.姆邦格湾Muchemwa，J. Batani等人网络安全和应用1（2023）1000148结论Android应用程序中恶意软件的空前增长需要一些有效的解决方案来防止它们。研究表明，基于静态、动态和混合分析的经典技术仍然容易受到新出现的恶意软件的影响。因此，随着恶意软件特征的不断增加，深度学习模型可以高精度地检测恶意软件。该研究进一步揭示了深度学习模型，如DBN，GRU，CNN，DBN，LSTM，Bi-LSTM，CubicLSTM和混合模型可以有效地检测Android应用程序中的恶意软件。该研究还显示，与其他恶意软件检测模型相比，卷积神经网络已被广泛使用，并实现了普遍的高准确性。然而，需要频繁更新恶意软件数据集，以便基于深度学习的恶意软件检测模型可以训练，学习和检测新兴的恶意软件和新的网络攻击趋势和技术[21]。这项研究的结果表明，深度学习可以成为检测Android应用程序中恶意软件的有效技术。今后的工作可以集中在在下载Android应用程序之前应用深度学习模型来检测恶意软件，以提高Android智能手机设备的安全性。竞争利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报告的工作引用[1] GSMA，2016年移动行业影响报告：可持续发展目标，GSMA;（2016年）。[2] J. Batani，S. Musungwini，T.G. Rebanowako，《津巴布韦烟草小农使用移动电话作为农业信息来源的评估》，J. Syst. Integr. 2019（2019）1-22，doi：10.20470/jsi.v10i3.375.[3] J. Batani，M.S. Maharaj，《撒哈拉以南非洲孕产妇、新生儿和儿童健康服务新兴技术差异的数据驱动模型：系统性综述》，Glob。痊愈的J.（2022），doi：10.1016/j.glohj.2022.11.003.[4] J. Batani，M.S. Maharaj，《津巴布韦数据驱动的儿科学》，2022年国际会议。内特尔大数据，计算数据通信系统（ 2022 ） 1 -7 IEEE ， doi ：10.1109/icABCD54961.2022.9855907。[5] L. Ceci，2020年全球移动应用下载量|Statista，Statista（2021）.[6] T. Lu，Y. 杜湖，澳-地欧阳峰，澳-地陈先生， X. 小王， Android 恶意软件基于混合深度学习模型 Secur. Commun. 网络 2020 （ 2020 ）， doi ：10.1155/2020/8863617.[7] A. Mahindru，A.L. Sangal，FSDroid：一种使用机器学习技术检测Android恶意软件的功能选择技术：fsdroid，Multim。工具申请80（2021）13271-13323，doi：10.1007/S11042-020-10367-W/TABLES/21。[8] K. Liu，S. Xu，G. Xu，M. Zhang，L.孙，H.刘，审查android恶意软件detec-基于机器学习的方法， IEEE Access 8 （ 2020 ） 124579-124607 ， doi ：10.1109/ACCESS.2020.3006143。[9] V.G. Shankar ， G. Somani ， M.S. Gaur ， V. Laxmi ， M. Conti ， AndroTaint ： anefficient android malware detection framework using dynamic taint analysis.Priv.Conf. （2017）ISEASP 2017 2017，doi：10.1109/ISEASP.2017.7976989.[10] R. Vinayakumar，K.P. Soman，P. Poornachandran，S Sachin Kumar，Detectingan-droid malware using long short-term memory（LSTM），J. 内特尔模糊系统 34（2018）1277 -1288，doi：10.3233/JIFS-169424。[11] A. Alotaibi，使用深度残差长期-短期分类识别恶意软件，IEEE Access 7（2019）163128 -163137，doi：10.1109/ACCESS.2019.2951751。[12] A. Qingdao，A. Karim，V. Chang，移动恶意软件攻击：回顾，分类学未来的方向，福特。一般。 Comput. Syst. 97 （ 2019 ） 887-909 ， doi ：10.1016/J.FUTURE.2019.03.007.[13] Zadeh Nojoo Kambar M.E.，Esmaeilzadeh一、金是的，TaghvaK.一Survey on Mobile Malware Detection Methods Using Machine Learning 2022 ：0215 doi：10.1109/C

下载后可阅读完整内容，剩余1页未读，立即下载