没有合适的资源?快使用搜索试试~ 我知道了~
埃及信息学杂志24(2023)81使用各种机器学习模型Akshit Kamboj,Priyanshu Kumar,Amit Kumar BairwaManipal University斋浦尔,Rajastham,印度阿提奇莱因福奥文章历史记录:2022年8月13日收到2022年11月12日修订2022年12月1日接受2022年12月19日在线提供关键词:密码学SHA 256AESLSB安全A B S T R A C T恶意软件已成为当今世界的一个巨大风险。有不同种类的恶意软件或恶意程序发现在互联网上。研究表明,恶意软件在过去十年中呈指数级增长,给各种组织造成了巨大的经济损失恶意软件是一种恶意程序或软件,证明对用户的计算机非常有害用户的系统可能会受到多种影响。所提出的解决方案使用各种机器学习技术来检测从互联网下载的文件是否包含恶意软件。本研究旨在使用不同的机器学习算法来成功区分恶意和良性文件。主要思想是研究下载文件的不同功能,如MD5哈希,可选头的大小和加载配置大小。根据对这些特征进行的分析,文件将被分类为恶意或非恶意。这些模型在这些不同的特征上进行训练,使它们能够学习如何对文件进行分类。经过适当训练的模型将根据各种标准相互比较。此比较是在验证和测试数据集的帮助下进行的最后,将选择具有最佳精度的这个过程有助于识别所有那些类型的恶意软件,这些恶意软件在感染后可能会对用户的系统产生不利影响这里使用的方法将能够检测恶意软件,如广告软件,特洛伊木马,后门,未知,Multidrop,Rbot,垃圾邮件和勒索软件。在训练和测试各种机器学习模型后,发现随机森林分类器是最准确的。在测试数据集的情况下,它的准确率高达99.99%。紧随其后的是XGBoost模型,准确率为99.68%。五个不同的模型的结果进行了比较,在以前的研究中得到的。其中包括决策树分类器(99.57%准确率)、随机森林分类器(99.99%准确率)、梯度提升模型(99.09%准确率)、XGBoost模型(99.68%准确率)和AdaBoost模型(98.87%准确率)。五分之四的这些模型已被发现具有更大的准确性比以前的研究工作中获得的。©2023 The Bottoms.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章(http://creative-commons.org/licenses/by-nc-nd/4.0/)上提供。1. 介绍在过去的十年中,恶意软件感染和潜在的有害程序增加了87%一个重要的对比来自于从互联网下载的文件[1]。许多*通讯作者。电子邮件地址:amitbairwa@gmail.com(A.K. Bairwa)。q开罗大学计算机和信息系负责同行审查。网站专门通过将恶意加载作为商品提供或将所需安装程序与新程序捆绑在一起来分发恶意加载。“恶意软件是一个有恶意意图的程序。它旨在损害属于受害者的计算机”。这些所谓的恶意软件形式的程序可能会以多种方式对受害者的计算机造成伤害存储我们大部分重要数据的计算机被恶意软件感染的风险呈指数级增长[2]。这些感染的原因是由于从互联网的广阔世界下载的文件。几秒钟之内我们的系统就会被破坏。此外,这些黑客可以入侵https://doi.org/10.1016/j.eij.2022.12.0021110-8665/©2023 THE COURORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页:www.sciencedirect.comA. Kamboj,P.Kumar,A.K.Bairwa等人埃及信息学杂志24(2023)8182X-pωloggp3窃取宝贵的信息和密码这影响了所有社区的人,从中产阶级到私人公司到政府机构[3]。所有这些都使得恶意软件的检测成为当前场景中的基本要求或需求[4]。在过去的几年里,利用技术进行金融欺诈的风险一直在上升,由于其数量庞大,一些组织和安全提供公司被迫使用自动或半自动分析[5]。这些主要是分析欺诈的发展趋势,以开发一个有效的检测系统。但在目前的情况下,任何一种防御系统的时间都是非常不确定的,最终会伤害用户。恶意软件检测是扫描系统及其文件以检测恶意软件。它在检测恶意软件方面很有效,因为它涉及先进的工具和方法。这是非常复杂的[6]。以及b,其将为数据点提供最佳拟合线,并使预测值与实际值之间的误差最小化。这种技术在图中准确地描述。1.一、2. 逻辑回归:逻辑回归是有监督机器学习下最常见的机器学习算法之一。它使用一组自变量来分析分类因变量。它给出0到1之间的概率值,而不是离散值,如图所示在图2中。逻辑回归用于解决分类问题,其中我们拟合“S”形逻辑函数并预测0和1之间的两个最大值。Logistic回归可以对不同数据类型的观测值进行分类,并快速确定对分类影响最大的变量。逻辑回归的方程可以表示为2:习惯性地,网络骗子了解互联网对数半年度B b×xb×x我... 布 ×xð2Þ当受害者试图下载一些软件时,这些术语变得流行起来,这些传播者成功地使它们着陆1-y0 1 1 2 2n n在他们的网站上。这些传播者为此使用了许多技术,其中之一是使用SEO方法[7]来提升搜索结果的排名。他们还花费大量资金为自己的网站做广告。这些传播者将恶意软件隐藏在受害者将下载或编程恶意软件的文件中,以便如果用户登陆该页面,他的计算机将受到感染[8]。这些骗子利用这些用户因此,通过这些技术,用户确信网站是无害的,从这些网站下载文件,并成为恶意软件攻击的受害者[9]。一种典型的特定类型的恶意软件攻击被称为运行软件。顾名思义,这是一种恶意软件攻击,这些骗子将数据作为人质,直到支付赎金。在支付金额之后,也不确定数据是否会被返回,或者数据是否已被出售给其他方。检测恶意软件的标准方法和基于签名的方法越来越复杂,因为所有现代恶意软件都被置于各种封面以保持其匿名性。这种恶意软件还定期改进自己,以逃避反恶意软件系统。在过去的十年中,机器学习在许多领域都有广泛的应用,包括网络安全[11][12]。网络安全专家坚信,使用ML驱动的反恶意软件软件将促进新时代恶意软件的检测。这也将有助于改进现有的扫描引擎。所有这一切都是显而易见的,从过去的研究论文恶意软件检测使用机器学习技术。[13]一个简单的解决方案3. 决策树:决策树是一种有监督的机器学习一种用于分类和回归问题的技术,但主要用于解决分类问题。从名称中可以清楚地看出,该分类器具有树结构,其中内部节点表示数据集的特征,决策规则由分支表示,每个结果由叶节点表示(如图3所示)。关于节点,有两个节点决策节点和叶节点。决策节点进行决策并且具有多个分支,而叶节点描述决策输出并且没有进一步的分支。决策是基于给定数据集的特征进行的。因此,该算法是一个图形表示,以获得所有可能的解决方案的问题支持给定的条件。用于生成决策树的算法是CART(分类和回归树)。在深入研究CART算法之前,理解杂质概念及其数学是必不可少的。为了度量不纯性,我们使用熵和Ginni指数。熵估计给定集合中CART算法使用Ginni索引。在数学上,熵和吉尼指数可以分别借助于等式3和4来1我我1/11-X1p2ωloggp4恶意软件检测中的这些情况是使用机器[14]第15话:智慧这是确定文件是否包含恶意软件的好方法。在这项工作中,可用的数据集将用于训练不同的机器学习模型。然而,首先,让我们来看看一些最常见的机器学习算法[16]。这些机器学习算法可以应用于任何给定的数据集。1. 线性回归:线性回归基于监督学习并执行回归任务。线性回归根据自变量对目标预测值进行建模。它执行预测由给定自变量(x)支持的变量值(y)的任务。该技术根据等式找到输入(x)和输出(y)变量之间的关系。1.一、线性回归模型可以通过线性方程表示:1yab:x1其中x:输入训练数据y:标记到数据a:截距b:x的线性回归旨在确定a我1/1我Fig. 1. 线性回归]¼A. Kamboj,P.Kumar,A.K.Bairwa等人埃及信息学杂志24(2023)8183图二. Logistic回归4. 支持向量机(SVM):该算法是最流行的监督学习算法之一,可用于回归和分类问题。SVM的主要用途是解决与分类相关的问题。SVM算法的主要目标是创建最佳直线或决策边界。这条线将n维空间分成n个不同的类.这将确保新的数据点可以被分配到最好或最接近的类别。形成的最佳决策边界称为超平面。SVM在创建超平面时选择极值点或向量。超平面的维度还取决于数据集中存在的特征。超平面通过一条线将数据点分成两部分,如两个等式所示5和6.y<$aωxb5aωxb-y<$$>0 <$6假设向量X=(x,y)和W=(α,-l),则向量形式的超平面中的方程被写为方程:第七章W:Xb<$07算法1:决策树伪码输入:I,其中输出:决策树Require:I不为空,no_of_attributes大于0。第一步:建立树2:重复3:最大增益= 0 4:分割A=空5:e =熵(属性)6:对于S中的所有属性a,7:增益=信息增益(a,e)8:如果增益大于最大增益9:则10:maximum_gain =增益11:split_A = a12:如果结束13:结束14:分区(I,split_A)15:直到处理完所有分区16:结束过程5. 随机森林:机器学习中一种流行的监督学习技术。随机森林可用于机器学习中的回归和分类问题。该技术基于集成学习的概念。在Entrance Learning[17]中,多个分类器的结果一起用于解决复杂问题并提高模型的整体准确性,如图4[18]所定义。随机森林包含许多决策树,这些决策树取决于给定数据集的各个子集,然后取平均值以提高预测精度。森林中的树越多,精度就越高,并防止过拟合。Random For-est有几个优点,因为它比其他算法需要更少的训练时间。当数据集中的大部分数据丢失时,它也保持准确性。图三. 决策树。A. Kamboj,P.Kumar,A.K.Bairwa等人埃及信息学杂志24(2023)8184XXð Þð ÞKnjjxi-vjjj联系我们其中,jjxi-vjjj表示距离的欧几里得距离Xi到VJ对于n个簇,其恰好在“I”簇中的所有k个点上重复见图4。 随机森林。算法2:随机森林伪码为了生成c分类器:1. 对于i = 1到c,2.随机采样训练数据TR,3.更换为TRi。e4.Ri含有TRi。5.CallBuildTree Ri6. 端BuildTree方法7. BuildTree(R)8. 如果R只包含一个类的实例,则9.返回10. 其他11.随机选择x%的可能拆分12.R.特征13.选择具有最高信息的特征F14.要分就分。15.创建R的f个子节点,其中F有f个可能16.价值观17.对于i = 1到f,18.将Ri的内容设置为TRi,其中TRi是所有19.R中匹配Fi的实例。20.CallBuildTree R i.21.端22. end if算法3:K均值伪码1. 指定要分配的聚类数K2. 随机初始化K个质心。3. 重复4.期望值:将每个点分配给其最近的5.质心6.最大化:计算新的质心(平均值)7.每个集群。8. 直到质心位置不变。1.1. 问题陈述''使用几种不同的机器学习算法在下载的文件中检测恶意软件。根据准确性、效率和F-1分数等参数比较这些模型。最后,经过适当的比较,确定最佳模型。“1.2. 研究报告的贡献这项研究工作的主要目标是从各种会议和期刊上发表的几篇不同的研究论文中获得有价值的见解。这些论文将与我们的问题陈述中定义的工作类型密切相关。这将使我们能够学习各种技术,可以用来解决给定的问题。在当今世界,恶意软件构成的威胁已经大幅增加。恶意软件可以用于几个恶意,如窃取密码或文件,使计算机无法操作等,这使得它非常重要的是尽量减少恶意软件的发生。通过这个通过研究,可以建立有效的机器学习模型来检测6. K-Means:K-Means聚类是一种用于解决聚类问题的无监督机器学习算法。未标记的数据集被分成几个不同的集群。K表示所需的集群数量,在这个过程中形成。每个数据点都属于[19]只有一个人。一个组中的所有数据点都将具有类似的属性。该算法是基于质心的,并且每个聚类与质心相关联。该算法的主要目标是最小化数据点与其对应聚类之间的距离之和。在迭代过程的帮助下计算K中心点或质心的最佳值。在此之后,每个数据点被分配到最近的K中心。这种技术的精确表示如图所示。 五、K-均值聚类目标是最小化目标函数,例如平方误差函数8(参见图2和图3)。 6-16)。和恶意软件分类。2. 动机如今,大多数关键数据都存储在不同类型的电子设备上。这些设备被恶意软件感染的风险显著增加。具体来说,2022年恶意软件的传播增加了74%。这些入侵的最常见原因是通过从互联网下载的文件。检测系统上的恶意软件可能很困难,特别是当从互联网上下载文件时。研究人员强调,这些恶意软件攻击可能与社会、经济、文化或政治冲突有关。恶意软件会对系统造成严重破坏。黑客可以用它来窃取密码和文件,并使计算机无法运行。每年都有大量的违规行为报告。这些漏洞几乎影响了所有行业,从政府运营到小型和大型企业。例如,在2021年,A. Kamboj,P.Kumar,A.K.Bairwa等人埃及信息学杂志24(2023)8185图五. K Means见图6。 方法概述。见图7。 分发合法和恶意软件文件。见图8。 混淆矩阵:逻辑回归。A. Kamboj,P.Kumar,A.K.Bairwa等人埃及信息学杂志24(2023)8186见图9。混淆矩阵:决策树。见图12。混淆矩阵:XGBoost模型。图10. 混乱矩阵:随机森林。见图11。 不平衡的数据图十三.混淆矩阵:梯度提升模型。61%的组织经历过勒索软件攻击。一旦恶意软件开始运行,它就会占用系统的大量内存.这种内存丢失会降低系统的速度,这将给用户带来很多麻烦。感染系统后,恶意软件还可以在受感染系统所在的整个网络中传播。据观察,恶意软件已成为2021年的破坏性是2015年的57倍。这意味着恶意软件不仅会损害一个员工的计算机,还会损害整个组织。据估计,到2025年,恶意软件攻击每年可能造成约10.5万亿所有这一切都突出表明,迫切需要制定一些适当的方法来防止这类事件或尽量减少其发生。在这些情况下,用于检测恶意软件的高效机器学习算法可以是一种简单的解决方案为此,不同的机器学习模型可以在不同的类型A. Kamboj,P.Kumar,A.K.Bairwa等人埃及信息学杂志24(2023)8187图14. 混淆矩阵:AdaBoost分类器。图15个。混淆矩阵:主成分分析。一个文件所具有的特性。这将使模型能够确定文件是否包含恶意软件。3. 简要文献综述Jatin Acharya等人[20]研究的主要目的是检测恶意URL和程序并对其采取行动。各种签名匹配和机器学习算法已用于识别。一个随机森林模型已经训练的基础上,从var的可执行文件头获得的功能,图16. 混淆矩阵:K-Means聚类。ious文件。然后使用所获得的模型来检查给定的文件并确定该文件是否是恶意的。在URL的情况下,逻辑回归模型已经在适当的数据集上进行了训练。为了对URL执行特征提取,回归模型使用了标记器。然后,根据这些值训练回归模型。经过训练后,该模型预测URL是否被屏蔽访问。所有这些模块组合在一起,以获得最终的应用程序。此应用程序将用于保护整个系统免受恶意软件的攻击。Udayakumar等人的研究[21]旨在了解不同类型的恶意软件以及机器学习如何检测和分类它们。几个参数已被用于收集有关各种恶意软件的数据。这些参数包括文件大小、导出大小、图像版本、资源大小和节数对于恶意软件的分类,已经使用了三种机器学习算法。这些是决策树,多层感知器和多SVM(支持向量机)。在多SVM算法的情况下,已经使用了几个二进制SVM来确保正确的多类分类。最后通过实验得出结论,神经网络模型表现出最好的性能。该模型在训练数据集上的准确率约为98%,在测试数据集上的准确率约为99%。已经做出的另一个解释是,尺寸是基本特征,并且也被发现具有最高的相关性。Ajay Kumar等人的研究的主要目的[22]在安全领域采取有效的决策。这种决策将使用各种机器学习算法来实现。基于机器学习的技术用于将Windows PE文件分类为恶意或非恶意。在研究过程中,总共训练了七个模型这些模型已经在巴西恶意软件数据集上进行了训练该数据集包含大约1,00,000行,每行代表一个文件。数据集中的每个文件大约有57个特征通过将额外树分类器应用于预处理数据集,仅选择了15个模型具有持久性,因此在进行预测之前不需要重复训练。随机森林模型显示了最显着的准确性,A. Kamboj,P.Kumar,A.K.Bairwa等人埃及信息学杂志24(2023)8188在给定的数据集上。在分析中使用的其他模型是Logistic回归,SVM(支持向量机),Adaboost,Gradient Boost,XGBoost和决策树。Sunita Choudhary等人的研究的主要目的。[23]是检测聚合恶意软件并对其进行分类。这是一种不断更新其关键可识别功能的恶意软件。这使得使用典型的基于签名的方法难以检测恶意软件。首先,通过静态或动态分析,获得不同类型恶意软件的行为模式。在此之后,各种类型的机器学习技术已被用于开发基于社交的恶意软件检测和分类模型[24]。这些技术包括SVM(支持向量机),KNN(K最近邻),朴素贝叶斯,J48决策树和MLP(多层感知器)。朴素贝叶斯技术基于条件概率对恶意软件进行区分或分类。多朴素贝叶斯技术,利用了'的'属性被发现具有最高的检测率,而最小的误报率已被发现的情况下,签名方法与字符串。整合所有这些技术,创建了一个非常能够检测和分类恶意软件的系统。Drago,sGavril u,tetal. [25]旨在采用不同的机器学习算法,并将它们结合起来开发一个通用的框架,可以区分恶意软件文件和干净的文件。除了对文件进行分类外,该实验还旨在最大限度地减少误报的数量。首先,这些模型在中等大小的恶意软件和干净文件数据集上进行了成功的训练和测试。由此获得的所有信息都已用于处理更大的数据集。因此,使用了三个数据集,即:训练数据集,测试数据集和“扩展”数据集。感知器算法已经修改了五次。这样做是为了正确识别恶意软件文件,为每个类别设置100%的检测率目标。虽然这一目标无法实现,但已经获得了有效的机器学习框架来识别大多数恶意软件样本。Sanket Agarkar等人的研究的主要目的。[26]是开发有效的机器学习模型,可用于识别恶意软件及其家族。这些模型已被用于开发基于行为的识别和分类方法。基于行为的勒索软件识别不仅要考虑文件的身份,还要考虑它在特定时间间隔后尝试执行的不同类型的功能。对于从恶意软件二进制文件中提取特征,已经使用了两种方法。这些是静态和动态分析。在静态分析的情况下,在不执行恶意软件文件的情况下完成检查。特征提取主要是从PE头或解剖可执行文件。在动态分析的情况下,通过在一个可控的环境。实验使用机器学习方法:Light GBM,决策树和随机森林。在光GBM分类器的情况下,已经实现了99.5%的准确性。Harith Ghanim Ayoub等人的论文[27]旨在展示检测加密病毒的几项工作。机器学习算法已经实现了准确且高效的恶意软件检测器。研究人员提出并测试了一种基于隐马尔可夫模型(HMM)来检测病毒及其家族。该方法具有较高的性能和准确性,接近90.86%。第二种方法结合结构熵检测病毒,检测率为74.7%,可以检测未知的恶意软件。其他方法是基于操作码频率的恶意软件检测[28],其使用不同的机器学习算法实现,即决策树,Boost,随机森林,支持向量机,其准确率分别为80%,86.67%,96.67%和93.33%。Sanjay Sharma等人[29]的研究目的是研究使用不同机器学习技术检测未知恶意软件的操作码发生频率。为了实现这一目的,研究人员使用了来自Kaggle Microsoft恶意软件分类挑战的数据集。用于此目的的数据集包含21653个代表恶意软件的汇编代码。这是9个不同家庭的组合。这些文件重达4000美元,所以为了保持恶意软件和良性软件的比例,选择操作码权重低于的所有文件。顶部功能的选择和比较的帮助下,费舍尔得分,对称不确定性,信息增益,卡方,增益比。每个特征通过不同的分类器运行,用于选择分类器以确定哪个分类器给出最佳准确度。五个分类器,即:随机森林,NBT,LMT,J48移植,和REPTree,也被使用。在训练和测试数据集Random For- est之后,NBT、LMT、J48 Graft和REPTree可以100%准确地检测恶意软件。Hao Yang等人[30]研究的目的是基于TF-IDF模型检测恶意软件。与其他机器学习算法相比,使用NLP的好处是,在处理数据后,NLP提供了更好的准确性。在后期模型的构建中,使用了随机森林分类器、梯度提升分类器、同时,由于卷积神经网络在提取数据信息方面的高效性,也被用于训练。TF-IDF模型用于确定业务包中每个关键字的TF-IDF值,不对业务包进行拆分处理。该数据集共有3000个数据包,其中包括1500个黑白数据。在TF-IDF模型的关键词提取和数据集重构之后,训练不同的分类器。加密的流量数据使用One-Hot编码,输入到上述分类器,以及CNN网络训练和检测。带有深度学习的机器学习是检测加密恶意软件流量数据的可行解决方案。以TF-IDF为基础的模型对加密流量、恶意软件的检测准确率已经达到了93%,这必将随着这方面的进一步研究和发展而提高。Qing Wu等人的研究。[31]与Android Domain有关。在过去的几年里,Android设备用户和应用程序增长迅速;因此,Android环境面临更多的恶意软件安全威胁。为了检测Android设备和应用程序中的恶意软件,研究人员提出了各种检测技术,包括以应用程序的静态特征作为输入向量的基于机器学习的方法。使用复杂的机器学习模型已被证明在检测Android应用程序中的恶意软件方面非常准确,但其效率并不理想。Logistic回归、朴素贝叶斯、支持向量机、决策树和随机森林等机器学习模型已经证明了它们的有效性,但准确性不高。使用深度神经网络的机器学习已经被证明更适合检测Android恶意软件,主要包括深度信念网络,CNN神经网络,RNN神经网络和生成式神经网络,并已达到高达99%的准确率。Hemant Rathore等人的论文[33]旨在介绍使用各种机器学习算法和深度学习模型进行恶意软件检测的工作。为此,操作码频率已被用作特征向量,并且监督和无监督学习已被用于恶意软件分类。研究人员将恶意软件的分析和检测问题作为一个二进制分类问题,其中两个类别是恶意软件和良性的。该实验的数据集是从各种来源收集的。其中一是一个被称为Malaca项目的恶意软件示例的开源存储库。良性可执行示例的集合来自各种Windows操作系统中的不同文件A. Kamboj,P.Kumar,A.K.Bairwa等人埃及信息学杂志24(2023)8189反病毒聚合器已用于检查操作系统中可执行文件中该数据集包含2,819个良性和11,308个恶意软件可执行文件,用于生成特征向量。结果表明,在恶意软件检测中,随机森林优于所有三种深度神经网络模型,在随机森林和变异阈值的情况下,准确率最高为99.78%Jinpei Yan等人的论文[34]旨在提出一种独特的恶意软件检测方法,可以自动学习原始数据的特征。这种技术的名称是MalNet。Malet在卷积神经网络(CNN)和长短期记忆(LSTM)的帮助下学习灰度图像和操作码序列。这构成了恶意软件分类的基础。操作码序列的提取是由反编译工具完成的,而LSTM能够学习有关恶意代码模式和序列的特征。使用的数据集包含超过40,000个样本,其中包含21,736个恶意软件文件和20,650个良性文件。这种恶意软件检测模型经历两个阶段。最后,它达到了99.88%的准确率,真阳性和假阳性率分别为99.14%和0.1%。3.1. 研究差距本文还旨在克服一些局限性,正在面临的先前的研究工作。这些措施如下:1. 只有有限数量的机器学习模型在以前的作品中使用。在这项研究中,大量机器学习模型已经过训练和测试。这使得能够增加可用于对下载的文件进行分类的选项的数量。2. 文件分类的准确性也得到了很大的改善,相比在相关的工作中获得的准确性。3. 与以前的相关工作相比,使用了更大的数据集。这有助于代表更广泛的恶意软件。这也有助于使机器学习模型更加强大和高效。4. 在以前的作品中,被检测到的恶意软件类型仅限于非常少量。本文中的机器学习模型可以检测到大量的恶意软件。这些包括广告软件,木马,后门,未知,Multidrop,Rbot,垃圾邮件和勒索软件。4. 方法4.1. 系统架构1. RAM:最低82. CPU:Intel Corei5第7代以上优先。3. 存储空间:最低128 GB或更高。4. 操作系统:Linux/Windows5. 互联网:需要高速互联网连接。4.2. 技术应用1. Python2. Sckit学习3. 熊猫4. Matplotlib5. 谷歌笔记本或谷歌可乐6. 机器学习和数据科学4.3. 算法/技术有几种机器学习模型可用于分类。这些模型可以大致分为两种类型:监督和无监督。一些有监督的机器学习模型包括逻辑回归、决策树、随机森林和支持向量机(SVM)。另一方面,一些无监督机器学习模型包括K均值聚类和主成分分析。4.3.1. Logistic回归Logistic回归是一种有监督的机器学习算法。这是一个统计模型,使用逻辑函数对二元因变量进行建模。当目标变量或因变量是分类变量时,这是最常用的方法之一。4.3.2. 决策树决策树是一种有监督的机器学习技术。该算法既可用于回归问题,也可用于分类问题.该分类器的总体结构是树的形式。它有以下几个部分:1. 内部节点:数据集的特征。2. 分支:决策规则。3. 叶节点:结果4.3.3. 随机森林随机森林是一种有监督的机器学习算法。 此分类器包含所提供数据集的不同子集上的特定数量的决策树。各个决策树的结果的总体平均值用于提高预测的准确性这个概念被称为包围学习。4.3.4. 支持向量机支持向量机是一种非常流行的有监督机器学习技术。该算法可用于分类以及回归。该方法的主要目的是形成最佳的决策边界或决策线。这条线用于将n维空间划分为不同的类.这允许将新数据点分配到正确的类别。4.3.5. K-Means聚类K-Means是一种无监督机器学习技术。该算法用于聚类问题。未标记的数据集被分成几个不同的聚类。K表示在该过程中需要创建的簇的数量每个聚类都与一个质心相关该算法的目标是最小化数据点与其对应的聚类之间的距离之和4.3.6. 独热编码一次热编码是一种编码技术,用于将类别参数转换为数值(通常以0和1的形式这允许以与各种机器学习算法兼容的形式提供关于数据集的分类信息One Hot Encoding的一个可能示例如下所示下表显示了颜色及其各自价格的列表在实施一次热编码后,得到下表:A. Kamboj,P.Kumar,A.K.Bairwa等人埃及信息学杂志24(2023)81905. 执行情况和结果5.1. 数据预处理5.1.1. 准备数据集对于这项工作,已经从互联网的不同部分探索了大量与恶意和良性文件相关的不同类型的数据集。这些来自不同来源的数据集已被合并,以获得最终数据集。这个最终的数据集只包含与文件性质相关的最相关或最基本的特征。数据集大约有130000行(数据点)和57列(特征)。5.1.2. 探索性数据分析这一步涉及到完全熟悉数据集。已经研究了数据集的各个方面在这个过程中,数据集中存在的所有基本特征或属性都被识别出来[36]。同时,所有不相关的特征都从数据集中删除。对所选特征进行了进一步探索,以确定趋势或模式。理解给定的数据集并收集尽可能多的见解是至关重要的。这在发送数据与模型一起工作之前至关重要[37]。在这一过程中发生了两件大事1. 删除数据集的名称和MD5列(功能)。2. 在原始数据集上执行训练测试分割。5.2. 结果在监督机器学习模型的情况下观察到的结果比在无监督机器学习模型的情况下获得的结果好得多。在有监督的机器学习模型中,随机森林模型是最准确的。另一方面,在未监督的机器学习模型的情况下,主成分分析已被观察到达到最高的准确性。5.2.1. Logistic回归到目前为止,训练数据集的准确率为70.11%另一方面,在测试数据集上测试数据集的F-1评分为0.0。5.2.2. 决策树训练数据集的准确率达到99.99%另一方面,在测试数据集上实现了99.14%的准确率测试数据集的F-1评分为0.9859。5.2.3. 随机森林到目前为止,在训练数据集上实现了98.24%的准确率另一方面,在测试数据集上实现了98.28%测试数据集的F-1评分为0.9713。5.2.4. 不平衡数据已经获得的决策树分类器和随机森林分类器的数字是非常高的。这很有可能表明某种异常,如模型过度拟合。在仔细检查数据集和模型后,发现这些高值的原因是两个输出类之间的数据不平衡。在给定的数据集中,良性文件的数量几乎是恶意文件的两倍。有几种方法可以处理与不平衡数据相关的问题。1. 过采样:在这种技术中,我们使用替换来增加与Minority类相关的实例的数量。这样,多数类和少数类的实例数量几乎相等。在实现该方法后,在训练数据集的情况下,使用决策树分类器实现了99.99%的准确率。在测试数据集的情况下,使用决策树分类器实现了99.59%的准确率。而使用随机森林分类器,训练和测试数据集的准确率分别为98.00%和97.97%。这些精度在缩放数据集后有所提高。使用决策树分类器,准确率为99.99%(训练)和99.57%(测试)。在随机森林分类器的情况下,训练和测试数据集的准确率分别为99.99%和99.73%。2. 欠采样:在这种技术中,我们随机删除与多数类相关的几行。结果将是一个数据集,其中与两个输出类相关的实例数量几乎相等。在实施该方法后,在训练数据集的情况下,使用决策树分类器实现了100.00%的准确率。在测试数据集的情况下,决策树分类器的准确率达到99.23%。而使用随机森林分类器,训练和测试数据集的准确率分别为98.00%和97.90%。这些准确性在缩放数据集后有所提高。使用决策树分类器,准确率为100.00%(训练)和99.12%(测试)。在随机森林分类器的情况下,训练和测试数据集的准确率分别为100.00%和99.44%。3. 合成少数类过采样技术(SMOTE):这种技术也涉及少数类的过采样此方法在现有数据的帮助下合成新记录或实例。这种合成涉及使用K最近邻方法。在实现该方法后,在训练数据集的情况下,使用决策树分类器实现了99.99%的准确率 在测试数据集的情况下,使用决策树分类器实现了99.35%的准确率。而使用随机森林分类器,训练和测试数据集的准确率分别为98.03%和97.87%。这些准确性在缩放数据集后有所提高。使用决策树分类器,准确率为99.99%(训练)和99.29%(测试)。在随机森林分类器的情况下,训练和测试数据集的准确率分别为99.99%4. Balanced Bagging Classifier:此分类器与任何标准分类器相同,但它支持额外的平衡。该技术是在拟合数据阶段平衡训练集的另一个步骤。在实现该方法后,在训练数据集的情况下,使用决策树分类器实现了99.96%在测试数据集的情况下,使用决策树分类器实现了99.44%的准确率。而使用随机森林分类器,训练和测试数据集的准确率分别为99.91%和99.50%。5.2.5. 其他模型1. XGBoost模型:到目前为止,在训练数据集上实现了99.96%的准确率。另一方面,在测试数据集上实现了99.68%的准确率。2. 梯度提升模型:到目前为止,在训练数据集上已经实现了99.10%的准确率。另一方面,在测试数据集上实现了99.09%的准确率A. Kamboj,P.Kumar,A.K.Bairwa等人埃及信息学杂志24(2023)81913. AdaBoost分类器:到目前为止,在训练数据集上实现了98.89%的准确率。另一方面,在测试数据集上实现了98.87%5.2.6. 无监督机器学习模型1. 主成分分析:到目前为止,训练数据集的准确率为97.21%。另一方面,在测试数据集上实现了97.12%的准确率2. K-Means聚类:到目前为止,在训练数据集上实现了69.03%的准确率另一方面,在测试数据集上实现了68.96%的准确率5.2.7. 与以前的工作比较[22]各种模型得到的结果进行了比较与Ajay Kumar等人的研究中得到的结果[22]第20段。这两种方法共有五种模型:决策树分类器、随机森林分类器、梯度增强、XGBoost 和Ada-Boost 。在GradientBoost、XGBoost和AdaBoost模型的情况下,可以观察到准确度的整体改善(与以前的工作相比)这些比较可以从图中观察到。 十七岁5.3. 讨论三种不同的机器学习模型(逻辑回归,决策树分类器和随机森林分类器)已经在最初获得的数据集上进行了训练。决策树分类器和随机森林分类器的准确率分别为99.14%和98.28%。然而,最初的数据集是图17. 比较图。被发现是高度不平衡的。在给定的数据集中,良性文件的数量几乎是恶意软件文件的两倍。已经使用了几种其中包括过采样、欠采样、合成少数过采样技术(SMOTE)和平衡袋分类器。在这个平衡的数据集上训练了大约5个监督和2个无监督的机器学习模型这些模型的结果进行了比较,在以前的研究中所获得的。其中包括决策树分类器(99.57%准确率)、随机森林分类器(99.99%准确率)、梯度提升模型(99.09%准确率)、XGBoost模型(99.68%准确率)和AdaBoost模型(98.87%准确率)。五分之四的这些模型已被发现具有更大的准确性比以前的研究工作中获得的5.4. 面临的挑战以下是执行过程中面临的一些主要挑战1. 获得的数据集有很多与之相关的问题,比如在特定列中缺乏统一的数据格式,以及各种属性的空值行。通过使用第5.1节中提到的几种数据预处理技术解决了这些问题。2. 一开始,经过训练的模型所做的预测并不是很准确。这个问题是通过对数据集和模型的超参数调整进行几次更改来解决的。所有这些都使我们能够提高模型的一个非常大的量。3. 在所获得的数据集中有许多以分类形式存在的属性(列)采用有效的数据编码技术将这些属性下的条目转换为数值,以便它们可以用于训练模型。4. 在项目进行到一半时,发现数据集不平衡。因此,经过训练的模型与另一个类相比,对一个类进行了预测。这是通过使用各种各样的样本集 平衡技术,如 过采样,欠 采样,合成少 数过采样技 术(SMOTE)和平衡袋分类器来解决的。这些技术的结局见第5.2.4节。6. 权衡与标准技术相比,使用机器学习模型进行恶意软件检测有几个权衡1. 与标准方法相比,使用机器学习检测任何类型恶意软件的整个过程都非常耗时。这是由于机器学习模型从高度复杂的恶意软件数据集学习所2. 为了有效地工作,机器学习模型需要非常大量的数据,其中包含有关世界上可能存在的所有可能的恶意软件的信息如果这些模型被引入到训练数据集中没有出现的某种新的恶意软件中,它们可能无法检测到。3. 与恶意软件相关的数据集往往非常复杂,因为它包含关于恶意软件的各种参数的信息。这需要使用大量的资源。4. 在某种恶意软件的情况下,与机器学习技术相比,标准方法可能在准确性方面表现得更好。A. Kamboj,P.Kumar,A.K.Bairwa等人埃及信息学杂志24(2023)81927. 结论对于这个项目,获得的数据集用于训练几个不同的监督和无监督机器学习模
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功