没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.comJournal of King Saud University卡方特征选择与多类SVM融合的入侵检测模型Sumaiya Thaseen Ikrama,*,Aswani Kumar Cherukuriba印度泰米尔纳德邦钦奈VIT大学计算科学与工程学院b印度泰米尔纳德邦Vellore VIT大学信息技术与工程学院接收日期2015年7月7日;修订日期2015年10月4日;接受日期2015年2016年3月31日在线发布摘要随着互联网在人们日常生活中的迅速发展,入侵检测是安全领域中一个很有前途的研究领域。许多入侵检测系统(IDS)采用单一的分类器算法将网络流量分类为正常或异常。由于大由于数据量大,这些唯一的分类器模型无法实现高攻击检测率和降低的误报率。然而,通过应用降维,数据可以有效地减少到一组最佳属性,而不会丢失信息,然后使用多类建模技术准确地分类,以识别不同的网络攻击。提出了一种基于卡方特征选择和多类支持向量机的入侵检测模型。采用参数调整技术来优化径向基函数核参数,即由“T”表示的伽马这是SVM模型所需的两个重要参数。该模型的主要思想是构造一个多类支持向量机,以减少训练和测试时间,提高网络攻击的个体分类精度。在KDDCup 1999数据集的增强版本NSL-KDD数据集上的实验结果表明,该方法具有更好的检测率和更低的虚警率。还进行了训练和测试所需的计算时间上的实验,用于时间关键型应用程序。©2016作者。制作和主办由爱思唯尔B.V.代表沙特国王大学。这是CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍*通讯作者。电子邮件地址:sumaiyathaseen@gmail.com(I. SumaiyaThaseen),aswanis@gmail.com(C.Aswani Kumar)。沙特国王大学负责同行审查制作和主办:Elsevierhttp://dx.doi.org/10.1016/j.jksuci.2015.12.004入侵检测通过观察在网络上处理的各种记录。入侵检测模型分为两种变体,误用检测和异常检测系统。误用检测可以基于已知模式(也称为签名)发现入侵(Ilgun等人,1995年)。异常检测通过观察网络与正常网络的偏离情况来识别恶意行为交通图案 (苏迈亚 塔辛关于Aswani1319-1578© 2016作者制作和主办由爱思唯尔B.V.代表沙特国王大学。 这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词卡方特征选择;交叉验证;入侵检测;径向基核;支持向量机;方差基于卡方特征选择的463Kumar,2014; Amiri等人,2011年)。因此,异常检测可以识别新的异常。当前开发技术的困难在于高假阳性率和低假阴性率(Sarasamma等人, 2005年)。大多数数据挖掘和生物信息学应用需要处理大量数据。大量的资源已经被用于入侵检测系统(IDS)和几种机器学习技术,如决策树(Lee等人,2008)、遗传算法(Shafi and Abbass , 2009 ) 、 支 持 向 量 机 ( Khan 等 人 ,2007)、人工神经网络(Wang等人,2010)和混合智能系统(Peddabachigari等人,2007年),建立了一个IDS。然而,没有一种技术能够识别所有的入侵尝试并导致更高的检测率和更低的误报警率(Panda等人,2011年)。因此,需要将特征选择和分类器技术集成起来,以实现更好的性能。模型可以使用监督学习或无监督学习来学习。监督学习要求目标变量是已知的,并且提供了足够数量的值。在无监督学习中,目标变量要么是未知的,要么只对少量数据进行了观察支持向量机(SVM)是监督学习模型之一,与其他分类模型相比具有更高的分类效率,但由于大数据集的训练时间更长,使用受到限制。因此,许多特征选择技术与SVM集成,以获得降维数据。这导致分类器的训练时间更少。特征选择用于选择用于模型构造的特征的最佳子集。特征选择过程基于特定特征选择技术计算每个可能特征的得分,然后识别最佳该过程通过生成特征的排序列表来执行,并且可以考虑不同的选择标准来选择特征的子集常用的统计技术之一是卡方,如果特征发生率不依赖于类值,则卡方估计与预期分布的差异。为了提高入侵检测的准确率和低误报率,提出了一种结合卡方特征选择和多类支持向量机的入侵检测模型。通过获取每个属性特征的方差并确定最高属性方差来优化核参数。因此,如果内核与方差成反比,则高方差将导致更好的内核参数。我们称这种技术为方差调整技术。许多入侵检测模型已经开发了特征选择和分类技术。与现有的入侵检测方法相比,该模型的独特之处在于使用方差调整技术对SVM参数进行优化。方差调整技术使SVM分类器具有更好的准确性和最小的时间复杂度,详见第5.1节。所有攻击和正常流量达到的平均准确率超过95%,而只有U2R攻击的准确率较低,因为训练模型所涉及的样本数量较少。本文其余部分的结构如下。第2节介绍了用于入侵检测的各种机器学习技术的综述以及SVM技术对分类的重要性以及与SVM集成的其他特征选择技术。的背景模型中使用的各种技术在第3节中详细介绍。第4节讨论了拟议的方法。模型的实验和结果在第5节中报告。第六节是结论。2. 相关工作为了克服异常检测模型和误用检测模型的局限性,人们提出了许多混合入侵检测模型。我们将分析传统入侵检测技术的文献,使用数据挖掘技术的入侵模型,使用单个SVM分类器的入侵模型以及使用SVM和特征选择技术的集成入侵模型。IDS 使 用 的 各 种 技 术 都 是 统 计 的 ( Lazarevic 等 人 ,2003)、隐马尔可夫模型(Ye和Borror,2004)、人工神经网络(Fisch等人, 2010; Novikov,2006)、模糊逻辑(Saniee Abadeh等人, 2007; Toosi和Kahani,2007)和规则学习(Xuren等人,2006年)。近年来的研究表明,支持向量机可以有效地用于建立入侵检测模型。Fisch等人(2010)和Mukkamala(2005)观察了支持向量机,多变量自适应回归样条(MARS)和人工神经网络(ANN)的性能。最好是建立一个分类器的组合,如ANN,MARS和SVM,以提高检测精度。Zhang和Shen(2005)使用SVM构建入侵检测。系统采用了基于程序实现的系统调用发生的文本处理方法。Horng等人(2010年)开发了提出了一种基于支持向量机的网络入侵检测模型,并结合BRICH层次聚类进行预处理。分组过程减少了数据集,从而减少了训练时间,因此SVM分类器具有更高的性能。Ilgun等人(1995)采用基于规则的技术来设计和开发入侵检测系统, 其中 专家知 识被 认为是 一个规 则集 。Lee 等人 ,(1999)使用数据挖掘技术来创建关联规则,而不是人类专家作为分析模型。这种方法的缺点是定义了大量的关联规则,从而增加了模型的复杂性。由于网络数据的高维性,许多入侵模型都将特征选择作为预处理的一个步骤。Mukkamala(2005)在预处理过程中部署了一种特征选择技术。在每个实例中,一个输入特征与数据集分离,而残差数据集用于训练和测试。根据与分类器在特征选择之前和之后的性能有关的一组规则对特征进行分级。Chebrolu等人(2005年)对构建IDS时的主要特征进行了分类,这对现实世界的检测非常重要。马尔可夫模型和决策树被用于特征选择过程。采用贝叶斯网络结合回归树建立入侵检测模型。Sung和Mukkamala(2003)在每一个时间实例上删除一个特征,对SVM与神经网络的集成进行实验。作者只使用了34个重要的特征,而不是所有的41个特征集,并在入侵检测中获得了显著的性能变化。Zaman(2009)开发了一种特征选择技术来构建轻量级IDS。该方法采用模糊增强支持向量机464I. Sumaiya Thaseen、C.阿斯瓦尼·库马尔决策功能(模糊ESVDF),以提高效率。该入侵检测系统具有良好的可扩展性和可扩展性,系统性能令人满意.Amiri et al.(2011)根据互信息技术开发了一种简单有效的特征选择技术。作者研究了线性相关和互信息,所提出的 方 法 产 生 了 更 好 的 准 确 性 , 特 别 是 对 少 数 攻 击 。Senthilnayaki等人(2014)构建了一个以增益比作为特征选择技术的IDS模型,并使用两种分类技术(即支持向量机和基于规则的分类)来识别类标签。然而,该方法仅针对DoS攻击实现了更高的准确度。Farrahi和Ahmadzadeh(2015)通过使用k-means聚类和多个分类器(如朴素贝叶斯,支持向量机和OneR算法)开发了一种入侵检测模型。该模型仅对正常流量和DoS攻击具有更好的准确性,而 对 Probe , U2R 和 R2L 攻 击 的 误 报率 较 高 。 Saxena 和Richariya(2014)建立了一个入侵检测模型,使用增益比作为特征选择技术,并部署了与粒子群优化(PSO)集成的SVM作为分类器。结果的精度水平很高,但没有分析采用SVM与PSO的时间计算,这是一个关键因素时,进行优化。因此,许多混合模型集成的特征选择和分类技术,以提高预测分析训练和测试所提出的模型所需的计算时间。3. 背景在本节中,我们简要分析了我们提出的模型中采用的特征选择和数据挖掘技术3.1. 缩放网络流量非常庞大,包含许多具有不同值范围的特征。直接处理数据非常耗时,而且分类可能不准确。因此,数据包在降维之前经历归一化过程。有许多方法可用于标准化。常用的是z分数,最小-最大归一化和十进制缩放。z分数技术被选择用于所提出的模型,因为它是最简单的归一化技术。这种方法保留了范围(最大值和最小值),并引入了系列的分散(标准差/方差)。z分数以这样的方式线性转换数据,即转换数据的平均值等于0,而其标准差等于1。变换后的值本身并不位于[0,1]之类的特定区间内。因此,变换公式为:-精度Kasliwal等人(2014年)通过整合潜在狄利克雷分配(LDA)和遗传X1Sð1Þ遗传算法LDA执行识别用于分类的一组最佳属性,而GA用于计算数据项的初始得分,并执行育种、适合性评估和最终过滤以产生新一代。Sarasamma等人(2005)将自组织映射与基于一致性的特征选择相结合,用于识别网络中的攻击。Kuang等人(2014)提出了一种结合核主成分分析(KPCA)和遗传算法的新型支持向量机。采用多层SVM分类器来确定动作是否导致攻击。提出了一种改进的核函数,通过嵌入属性的均值和均方值之差来实现。遗传算法优化了SVM的惩罚因子C、核参数o和管径e。该模型精度高、速度快、泛化能力强。Sumaiya Thaseen和AswaniKumar(已接受出版)提出了一种新的入侵检测模型,该模型在利用同类和异类样本方差优化核参数的基础上,将PCA和支持向量机(SVM)相结合。该方差在识别要在待训练的模型中部署的最优内核参数方面起着重要作用。因此,这种方法导致更好的分类准确性。因此,从文献中可以很清楚地看出,分类器与降维技术一起通过提高分类率和缩短检测时间来提高准确性。支持向量机的核参数对提高分类精度也起着重要的作用。因此,本文提出了一种结合卡方特征选择技术和优化核支持向量机的降维模型,以提高分类率。我们也其中x是当前样本,x1是变换后的样本,E表示数据的平均值,3.2. 特征选择特征选择和排序是入侵检测的关键。特征选择是获得每个潜在特征的分数,然后获得优秀的“k”个特征的过程评分是通过分别计算训练阳性和阴性类样本中特征的频率,然后获得两者的函数来完成的。有许多特性必须被监视以用于入侵检测,其中某些特性将是有用的,而其他特性可能是无用的。无用特征的去除提高了准确性并减少了计算时间,从而实现更高的性能。通常已知的指标是卡方(CHI),信息增益,相关系数和比值比(OR)。Yang和Pedersen(1997)报道CHI对于多类数据表现最好。因此,在我们的模型中使用卡方特征选择度量。3.2.1. 卡方特征选择卡方检验是一种数值检验,它测量与预期分布的偏差,考虑到特征事件与类别值无关。卡方值由以下度量计算,例如真阳性(tp)、假阳性(fp)、真阴性(tn)、假阴性(fn)、阳性病例数量的概率P pos和阴性病例数量的概率Pneg。¼基于卡方特征选择的465JX2XXyakk x; xi bk设置Lc;r;a2XaUx -c0 的导数X卡方度量;卡方度量非正性负性不确定性n;不确定性n其中t(count,expect)=(count卡方检验方法包括以下步骤:(i) 说明假设(ii) 设计分析计划(iii) 检查样本数据(iv) 推断结果。3.2.1.1. 制定分析计划。假设陈述后,分析计划规定如何利用模型数据接受或拒绝假设。计划必须具体说明以下内容:(i) 显著性等级:研究人员选择的显著性水平等于0.01,0.05或0.10,但它可以是0和1之间的任何值。(ii) 检验方法:采用卡方检验进行独立性水平检验,以确定两个分类属性之间是否存在相当程度的相关性。3.2.1.2. 检查样本数据。必须分析样本数据以计算自由度、可预测频率、检验值和与检验相关的P值自由度:DF¼r-1ωc-13其中r是一个分类变量的水平数,c是其他分类变量的水平数ðiiÞ测试统计:3.3. 支持向量机分类模型监督机器学习解决了将标签分配给记录的问题,其中标签是从有限元素集合中分配的这种技术被称为多类学习。许多算法已经被开发用于多类学习,这些算法是基于二进制问题的分类算法构建的。已经使用了许多多类学习算法,例如决策树,诸如AdaBoost和支持向量机的Boosting的专用版本。多类学习问题的主要方法之一是支持向量机,其中单个多类问题被修改为多个二进制问题。SVM是一个二进制分类器,也就是说,类标签只包含两个值+1和-1。许多现实世界的问题必须分配在多个类。因此,我们采用多类SVM。3.3.1. 多类SVM模型构造一组二进制分类器f1,f2. . fN对于1.. . N个类,每个类都被训练来区分一个类和其他类。在应用sgn函数之前,可以通过根据最大输出将它们组合来获得多类分类。argmaxgkxn我我1/1其中,k 1. N其中gk(x)返回一个带符号的实值,它是从超平面到点x的距离。这个值被称为置信值。这个值越大,我们就越确信点x属于正类。因此,我们需要v2f;c¼“NωAD-CB2#ð4Þ将x分配给具有最高置信度值的类给定正常数据v<$fx1;x2.. . xmg2Rd,设r为A其中A=否。特征“t”和类标签“c”共同出现的次数B=“t”出现而没有“c”的次数C =出现“c”而没有出现“t”的次数。D=“c”和“t”均未出现的次数。超球面的半径和圆心。最优化问题可以通过确定最小包围超球面来解决.最小化r2根据jjUjumx-cjj26r2;j¼1;. m6N=记录总数。3.2.2. 排名方法Lc;r;ar2mj¼1ajfjjUbrixi-cjj-rg7n在每个时刻,从样本中删除一个输入特征,然后将所得样本用于模型的训练和测试。根据一组基于性能的规则对重要特征进行排名。该过程具体如下:Xm@cj¼1我们可以得到下面的等式,Xmð8Þ(i) 从数据中删除一个输入属性(训练和测试)。第1页aj¼1和c¼第1页aj乌乌里克斯j乌(ii) 得到的数据用于训练和测试因此,Eq。(7)成为,分类器。(iii) 分类器的结果使用绩效指标进行分析Lc;c;aM第1页ajkxj;xj-Mi;j¼1aiajkxi;xj(iv) 规则用于按重要性级别对属性进行排序。(v) 对每个属性重复步骤1到4。这是Eq的对偶形式(七)、a的对偶形式可以通过求解最优化问题来获得,其中,gkxð5Þ2JJ466I. Sumaiya Thaseen、C.阿斯瓦尼·库马尔XX最大化,XmXm关于我们aiajk xi; xj10i;j¼1aik xi; xi-1/1mi¼1受ai¼1和aiP0;i¼ 1tom:需要注意的是,拉格朗日乘数可以是非零的。只有当不等式约束是解的等式互补条件由a;c;T的最优解满足,afjjUbjxxbj-cjj2-r2g;i1/41. . m11我我因此,它意味着训练样本xi位于对应于ai>0的最优超球面的表面决策函数变为,fxsgnr2-jj x-cjj2这意味着,联系我们XmM-fUx:Ux-21/1aiUbix:UbixiUbixþi; j¼1aiajxi:xjXm联系我们Xmþi;j¼1-fkx;x-21/1 aikx;xi从而满足了获得包含所有训练样本的最小包围超球的目的。3.3.1.2 一对所有SVM。该技术是SVM中常用的简单多类分类器之一,具有以下属性:(i) 解决M个不同的二进制问题:分类与k = 1时的“其余类”相比。. M(ii) 将测试模型分配给具有最大fk(x)(最大正值)的类,其中fk(x)是第k个问题。这种方法实现起来非常简单,并且在实践中表现良好。因此,在本文中,我们遵循了这种方法。4. 拟议工作在本节中,我们提出了一种使用卡方特征选择和多类SVM的入侵识别混合模型。4.1. 拟议方法该模型将基于秩的卡方特征选择与基于核尺度优化的多类SVM相结合。图1示出了所提出的模型的框图。归一化作为初始预处理步骤执行图1使用多类SVM的入侵检测模型。随后使用基于卡方的特征选择进行特征选择。该模型采用两个阶段:在第一阶段,卡方特征选择找到所有属性的最佳子集,并删除低秩属性。排名在识别对分类至关重要的高优先级属性方面发挥着重要作用。在第二阶段,数据被分为验证,训练和测试集。验证集用于获得优化的内核参数(gamma)和过拟合常数检索导致最佳交叉验证精度的参数作为最佳参数。然后将最佳参数馈送到SVM分类器,以训练训练集的模型。训练后的模型用于预测标签对于测试数据集。算法1示出了通过卡方排序和与多级SVM的集成执行的特征选择的逐步分析。在下一小节中,我们将讨论调整参数gamma的方法aiajk xi; xjg 1222基于卡方特征选择的467我j ij2RX我J过拟合常数C,用多类SVM预测类标签。4.2. 径向基函数(RBF)核参数c和过拟合常数通常使用训练数据的“k”倍来验证模型在交叉验证期间,SVM模型参数这种方法称为交叉验证。泛化损失如果因此,确定最佳的C值是非常关键的优化前的交叉验证精度为95%,特征选择后获得的C值为1,伽马值为0.01,而当高斯值增加到0.07时,优化精度增加到99%。这个结果几乎是在修改内核的31次迭代之后实现的验证集中所有数据的参数值较大的r值将导致平滑的决策表面和系统的决策边界。因此,我们使用方差调整的优化将确定一个最佳的r,这将导致更好的准确性。给出交叉验证后得到的核参数和过拟合常数C来训练SVM模型,并最终预测测试数据集的标签,如图所示。 二、5. 执行情况和结果实验在MATLAB R2012 A上进行,集成了libSVM包,支持支持向量分类(C-SVC,mu-SVC),回归(SVM,nu-SVR)和分布估计(一类SVM)。它还支持多类分类。实验在NSL-KDD(Nsl)数据集上进行。数据集包含五类网络流量,即正常、拒绝服务(DoS)、未经授权访问本地管理员权限(用户到根,U2R)、远程到本地(R2L)和探测。给出了NSL-KDD数据集及其攻击的描述RBF核的获得如下kx;x-cjjx-xjj213其中jjx-xjj2是距离在两个特征向量之间,γ由c=r2是与验证数据集中的每个属性相关联的方差。该方差使用交叉验证进行优化。SVM的目标函数是最小值jjwjj2℃n14其中如果“C”很大,优化算法将减少||W||导致图2使用多类SVM和参数调整技术进行分类。x;y ± g对于每个验证数据Tval对于S中的每个f确定每个特征的r2,并使用等式在内核中替换(十三)使用等式2确定具有各种裕度的C。(14)用不同的C和gammaEnd ForEnd For对于每个训练数据Ttrn,以最佳精度获得(C,gamma)用优化后的模型参数训练SVM模型。端对于每个测试数据T检验预测每个样本的标签y临界值显示测试数据的混淆矩阵11Nn测试x;y图和测试集。不t t不11NnvVVvValT<$fx;y.. . ðT<$fx;y.. . ðnnx;y验证集11x; y轴.. . ðTRN不不不不训练集T1/4F其他继续;结束取具有减少的特征集的训练数据Tc并随机分割输入:Tc= NSL-KDD数据集所有特征的训练数据C=训练数据的类标签。算法初始化S ={F 1.. . Fn}对于训练集中的每个特征{f},使用等式2计算卡方度量。(五)如果(阈值为2).Chebrolu,S.,Abraham,A.,托马斯,P.,2005.入侵检测系统的特征推导与集成设计。Comput. Soc.24(4),295-307.Farrahi,Vahid S.,Ahmadzadeh,Marzieh,2015. KCMC:使用K-means聚类和多个分类器进行网络入侵检测的混合学习方法。国际计算机124(9),pp. 18-23.由美国纽约州计算机科学基金会(FCS)出版。Fisch,D.,霍夫曼,A.,生病了,B。,2010.径向基函数神经网络的通用性:入侵检测领域的案例研究。信息科学180,2421-2439。Horng,S.-J.,苏,M.-是的,陈玉-H、Kao,T.-W.,陈河J.,Lai,J.-L.,Perkasa,C.D.,2010.一种新的基于支持向量机的入侵检测系统。专家系统Appl.徐志伟、林志仁,2002。多类支持向量机方法的比较。IEEETrans. NeuralNet-works,415-425.Ilgun,K.,Kemmerer,R. A.,波拉斯,宾夕法尼亚州,1995.状态转移分析:一种基于规则的入侵检测方法。IEEE Trans. 软件工程21(3),181-199。Kasliwal,Bhavesh,Bhatia,Shraey,Saini,Shubham,SumaiyaThaseen,I.,Aswani Kumar,Ch.,2014.基于G
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 创建个性化的Discord聊天机器人教程
- RequireJS实现单页应用延迟加载模块示例教程
- 基于Java+Applet的聊天系统毕业设计项目
- 从HTML到JSX的转换实战教程
- 轻量级滚动到顶部按钮插件-无广告体验
- 探索皇帝多云的天空:MMP 100网站深度解析
- 掌握JavaScript构造函数与原型链的实战应用
- 用香草JS和测试优先方法开发的剪刀石头布游戏
- SensorTagTool: 实现TI SensorTags数据获取的OS X命令行工具
- Vue模块构建与安装教程
- JavaWeb图片浏览小程序毕业设计教程
- 解决 Browserify require与browserify-shim冲突的方法
- Ventuno外卖下载器扩展程序使用体验
- IIT孟买医院模拟申请webapp功能介绍
- 掌握Create React App: 开发Tic-Tac-Toe游戏
- 实现顺序编程与异步操作的wait.for在HarmonyOS2及JavaScript中
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功