没有合适的资源?快使用搜索试试~ 我知道了~
⃝={个={·}=可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 6(2020)361www.elsevier.com/locate/icte用于零日攻击检测的深度直推迁移学习框架Nerella Sameera,M.沙市印度安得拉邦维萨卡帕特南安得拉邦大学工程学院CS SE系接收日期:2019年10月13日;接收日期:2020年2月26日;接受日期:2020年3月9日在线预订2020年摘要零日攻击检测在入侵检测系统中是具有挑战性的,由于缺乏标记的实例。本文采用流形对齐的TL方法,将源和目标域转换到一个共同的潜在空间,以避免不同的特征空间和不同的边缘概率分布之间的域的问题。在变换后的空间上,提出了一种通过聚类对应过程生成目标软标签的方法,以补偿标记目标实例的不足。除此之外,DNN被应用于构建零日攻击检测框架。作者使用NSL-KDD进行了几个实验和CIDD数据集,以评估所提出的框架的性能。从实验结果可以看出,该框架可以成功地检测零日攻击看不见的数据。c2020年韩国通信与信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:CIDD;软标签;流形对齐; NSL-KDD;源域;目标域;迁移学习;零日攻击1. 介绍入侵检测系统(IDS)[1]旨在监控网络和外部实体之间的流量,以识别恶意活动。机器学习(ML)技术被广泛用于IDS中,用于从大量标记数据包中自动提取流量模式。具体而言,基于签名的IDS依赖于这些流量模式来检测已知的攻击。然而,这样的签名不能形成零日攻击,由于缺乏数据包描述其功能。唯一明显的替代方法是基于异常的方法,该方法导致高假阳性率(FPR)。事实上,TL [3]范式是ML的一个新进展,其目标是用最少或没有标记的实例来构建模型。它可以通过利用通过解决相关源域中具有足够大数量的标记实例的类似问题而提取的知识来完成。具体地,给定目标域DT,∗ 通讯作者。电子邮件地址:sameerascholar@gmail.com(N.Sameera),smogalla2000@yahoo.com(M.Shashi)。同行评审由韩国通信和信息科学研究所(KICS)负责https://doi.org/10.1016/j.icte.2020.03.003对应的学习任务TT和源域DS,对应的学习任务TS,TL旨在增强预测函数fT(.)在DT中使用在DS中求解TS的知识,其中TSTT或DS DT。任务和域通常可以分别表示为T Y,f(X)和DX 定义域的实例X,并且X表示域的特征空间。基于标记数据的可用性,有三种类型的TL方法[4]:归纳,Transductive和无监督。对于归纳TL,有限的标记数据在DT中可用,对于传导TL,没有标记数据在DT中可用,并且对于无监督TL,没有标记数据在DS和DT两者中可用。基于域的特征空间,TL再次分为两种类型;如果DS和DT具有相同的特征空间,则它是齐次TL,否则它是异质TL [3]。在异构TL中,DS和DT在特征空间、分布密度上往往可能存在差异,因此,它们应该对齐到一个公共的潜在空间,以便在它们之间进行平滑的知识传递。流形对齐[5]涉及定义异构数据集的公共语义表示,同时保留它们之间的已知对应关系,因此适用于归纳TL [6]。本文将流形对齐的适用性扩展到零日攻击检测的转导TL,通过使用目标软标签来增强2405-9595/2020韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。362N. Sameera和M.沙市/ICT Express 6(2020)361SSWDDp×. . .Wk,kSDp=1q= 1i= 1j= 1ppQQSppQQD=+另一个领域。因此,为了构造相似性子矩阵Wp, q,可以计算相似性子矩阵Wp,q的第i个聚类之间的相似性值。p=1q= 1i= 1j= 1S检测性能。论文的其余部分分为五个部分。第二节介绍了相关的研究,Wk基于DS和DT中可用的标记信息。相似性矩阵W_S和相异性矩阵W_d涉及如下所示的相似性和相异性子矩阵第3节,第4节讨论了拟议的框架,第5节讨论了实验和结果,1、 1. . . W 1,k第六章结束了工作。WS=..................................S2. 相关工作k,1S1、 1. . .W k,k. . . W 1,kZhao等人[7]提出了一种称为HeTL的方法来对齐DS和DT通过谱变换变换到一个隐空间中。通过手动预设超参数,线性映射Wd=1000000.................D矩阵用于将域映射到潜在空间,并通过梯度下降优化来更新。Vercruyssen等人在[8]中所做的工作将TL应用于时间序列异常检测问题,通过重新加权源实例以与目标实例匹配。他们的方法将一些标记的源实例转换为DT,并执行最近邻分类以检测DT中存在的异常。Zahra等人[9]扩展了DAMA [6],将域转换为公共潜在空间。他们应用复杂的无监督程序来处理未标记的DT。在变换后的空间上,他们使用SVM分类器进行二进制分类。Nerella等人[10]致力于统一齐次特征空间。他们通过应用PCA对域进行正交变换。在变换后的空间上,采用KNN分类器检测DT的零日攻击。Zhao等人[2]提出CeHTL作为HeTL的预处理方法[7]。在提交给HeTL之前,他们通过对目标实例进行聚类,根据它们的相似性3. 基本概念Wang等人。[6]提出了一种称为DAMA的TL流形对齐方法,该方法使用最少的标记实例对齐多个数据集的异构特征空间。为了将域映射到潜在空间,DAMA生成映射函数并使用给定的代价函数优化它们 由方程式(一).三个标量A、B和C使用方程估计。其中,fp表示域p的映射函数,Xp表示p的数据矩阵,Xi表示Xp的第i个实例,μ是权重参数。C(f1,f2,. . . 、f、k)(A) C)/B(1)KKmpmq其中,Wp, q和Wp, q是相似性和相异性子基于p和q的类标签形成的域p和q之间的矩阵因此,DAMA需要最少的标记实例的DT建立类对应。4. 深度转导迁移学习框架作者提出了一种用于零日攻击检测的深度转导TL框架。提出的TL框架通过利用相关DS的标记实例来检测DT的零日攻击,从而执行二进制分类。本文通过修改DAMA算法,将其应用于直推式目标语言,提出了一种基于簇对应而非类对应的流形对齐软计算方法。为了进一步提高检测性能,作者提出了一种分配目标软标签的方法,该方法根据相应源聚类的类标签生成,团簇纯度值α。具有满足预定义阈值的软标签得分的目标实例将参与分类器构造。DNN架构用于构建二进制分类器以检测零日攻击。4.1. 歧管对齐作者应用聚类对应过程来捕获域的语义。具体地,当分区聚类由它们的聚类均值表示时,聚类均值相对于各个域的全局均值的放置被用于捕获属于源域和目标域的聚类之间的对应关系。在参照其全局平均值以升序排列聚类之后,将等级分配给聚类,从而分配最高等级(从1开始A= 0。5∑ <$f TX i− f TX j<$2 W p,q(i,j)(2)KKmpmq第i个集群及其附近的集群(第i-1个和第i+1个)B= 0。5∑ <$f TX i− f TX j<$2 W p,q(i,j)(3)KM Kmkth∑ ∑ ∑我不是TJ域p和相应的i整环Q的簇C = 0。5µk=1i= 1j= 1fkXk−fk XkWk(i, j)(4)取为1时,域p的第i个聚类与域p的第(i-1)个聚类和第(i+1)个聚类对于所考虑的每个'K'域,每个域'k'包含数据矩阵X k 维数为Pkmk。到估计域DAMA con之间的对应关系,q取为0.5,对于其余场景, 为0。类似地,在构造相异子结构的情况下矩阵Wp, q,第i个聚类之间的相异度值,结构相似性Ws,不相似性Wd和结构矩阵D域p和对应的域的第i个群集W2k,1最接近全局平均值的聚类基本原理是一个域的第i个聚类可能与N. Sameera和M.沙市/ICT Express 6(2020)361363⎝⎠Z=. . .. . . . . .. . .⎝⎠L=. . . . . . . . . . . .=K⎛⎞⎛⎞++···+×−+•−== −} ∈ {} ∈{表1算法:流形对齐过程。输入:异构源和目标域。输出:公共d维潜在空间中的源域和目标域演算法:步骤1:从输入数据矩阵X1,X2,. . 、.、 X KX10. . . 00的情况。. .0X k步骤2:通过计算内部相似性距离为每个域构造结构矩阵Wk,给出为Wk(i, j)e-xj-xj<$2步骤3:使用聚类构造相似性和相异性矩阵Ws, Wd通信程序。步骤4:从相似性矩阵、相异性矩阵和结构矩阵导出组合拉普拉斯矩阵Ls、Ld和Lk,如下:L X=D X-W X,其中x ∈ {s,d,k},D X是给定的对角矩阵D X (i,i)=jW x(i,j).步骤5:从拉普拉斯矩阵L1,L2,. . . .,k个域中的LkL10. . .00的情况。. .0L k步骤6:k个映射函数f1,f2,. . . f k具有维数(p1p2pk)d是从广义本征值分解的非零本征向量获得的,给出为:Z(μL+Ls)ZT x=λZLd ZT x步骤7:使用在步骤6中生成的映射函数将源域和目标域变换到d维公共空间中作为f TX k。q被取为0,域p的第i个聚类与域q的第(i-1)和第(i-1)个聚类之间的相异度值被取为0.5,并且对于其余情形,流形对齐算法 在表1中给出。生成源映射函数以变换源域,生成目标映射函数以将目标域变换到公共d维潜空间。一旦域被转换到潜在空间中,在源域上构建的具有丰富标记实例的模型适用于对目标域的可能的零日攻击进行分类。提高零日攻击检测精度的正则化步骤包括对目标实例进行软标记,然后将其添加到训练集以构建分类器。4.2. 目标软标签生成DS′和DT′ 是在它们变换到d维公共潜空间之后获得的新的源域和目标域。在变换后的空间上,k个聚类 CS1,CS2,. . .、CSkDS′ 和CT 1、CT 2、. . . ,CTkDT′ 是由PE R-形成K-中心聚类形成的。DS′和DT′的k值相同 并且基于“α”的最佳值来固定,其中,α是源域簇的簇纯度值。软标签基于根据对应源集群的多数类标签生成的目标实例的软标签得分(SLS)被分配给一些目标实例。软标签得分是为目标实例提供的得分基于α的值来估计目标实例属于特定源类的概率。计算SLS的程序如下:最初,所有源群集都被标记为“攻击”或“攻击”。或基于使用欧几里德距离度量参照它们各自的全局均值来放置聚类均值设ri是分配给DS′和DT′中的第i对对应聚类的秩。 属于第i个集群的目标实例的SLS如下所述基于排名为ri、ri+1和ri-1的源集群的标签来计算。步骤11:SLS被初始化为零。步骤2:如果具有秩r的源聚类的标签是如果是攻击,则将α加到SLS上,否则从SLS中减去α步骤3:如果秩为ri+1的源集群的标签是攻击,则将α/2添加到SLS,否则从SLS中减去α步骤4:如果源集群的标签具有秩ri1如果是攻击,则将α/2加到SLS上,否则从SLS中减去α最后,在估计所有目标实例的得分之后,SLS的值被归一化为0到1的尺度,以指示目标实例是攻击或正常类的概率。在SLS的范围内设置两个阈值T1和T2,以将软标签分配给目标实例,如下所示T1α//用于分配攻击软标签T21 α//用于分配正常软标签“attack” label is assigned to all target instances who’s normal-ized SLS is equal to or above the threshold 对于训练分类器,不考虑归一化SLS在阈值之间的剩余实例。因此,软标记的目标实例和标记的源实例被用于分类器构造和综合克卢斯特河然后将秩分配给DS′的所有聚类,DT′检测零日攻击的框架在图中给出。1.一、···364N. Sameera和M.沙市/ICT Express 6(2020)361→→=≥≤=-表2图1.一、提 出 的深度传导迁移学习框架的架构。5.2. 实验装置NSL-KDD数据集中的攻击分布攻击组DoS探针R2LU2R跟踪数52,987 13,971 3863 119在该框架中,一旦利用“多重对齐”和“目标软标签生成”阶段规避了零日攻击的标记实例不足的问题,则任何经验证的监督学习算法(如KNN、SVM、决策树、随机森林和深度前馈神经网络(DNN))都适用于构建零日攻击检测模型。然而,基于实验,作者主张DNN分类器用于此目的。5.实验结果5.1. 使用的数据集1. NSL-KDD数据集:NSL-KDD [11]是标准的基准数据集,具有适合IDS实验的基于数据包的分布。NSL-KDD数据集由43个特征和147,907个实例组成,其中76,967个是正常实例,70,940个是攻击实例。数据集的所有攻击都属于四个攻击组,即DoS,Probe,R2L和U2R,如表2所示。在数据集中存在的43个特征中,35个是数值特征,4个是双值分类特征,3个是多值分类特征,1个是类标签特征。由于该方法只支持数值型数据集,因此需要将分类属性转换为数值型。因此,作者使用了编码的NSL-KDD数据集,这是NSL-KDD数据集的数值版本[12]。2. CIDD数据集:CIDD [13]是云入侵检测数据集,它包含云的正常和DoS攻击实例。数据集的模拟细节见表3。CIDD具有基于时间的分布,具有5274个实例和25个特征的维度。数据集中有681个DoS攻击实例和4592个正常实例。每个攻击实例都会导致一种特定的DoS攻击,即land、pod、udp-flood( udp-storm ) 、 icmp-flood ( smurf ) 、 dns-flood 、slowloris和tcp-syn-flood,详见表4。为了评估所提出的方法的性能,考虑以下测试场景。(1) 基于NSL-KDD数据集的(2) 检测云5.2.1. 测试场景1:使用NSL-KDD数据集进行为了实验的目的,三个模块,即拒绝服务,探测和R2L模块分别从数据集的基础上的攻击组拒绝服务,探测和R2L。每个模块包含属于特定组的特定攻击实例以及一些正常实例。在该测试场景下进行两个TL任务;(i)DoS→R2 L,(ii)DoS→探测。1. DoSR2L任务:TL任务DoS R2L通过将DoS视为源数据集并将R2L视为目标数据集来执行。为了模拟零日攻击场景,删除了R2L模块的所有标签。流形对齐阶段提出的框架-工作转换到潜在空间的DoS和R2 L模块通过捕捉域之间的对应关系。这种对应是通过对DoS和R2 L模进行k-中心点聚类而得到的.如表5中详细给出的,通过评估纯度获得的最佳k值为所生成的集群的数量是13。在变换后的空间上,再次对DoS和R2 L模块应用k-中心点聚类,以生成R2 L模块的SLS。评价团簇纯度的最佳k值为25,对应的团簇纯度值为α 0。94528.因此,转换后的DoS和R2L模块分为25个集群。为所有R2L实例生成SLS在这25个集群之上。 从簇纯度α获得的阈值为T1 0.94528和T2 0.05472。因此,“攻击”标签被分配给SLS0.94528和“正常”标签被分配给SLS 0.5472的R2L模块的实例。DNN设计:零日攻击的标记实例不足的问题通过所提出的框架的“流形对齐”和“目标软标签生成”的阶段来规避。因此,深度学习架构可以应用于下游。本文使用DNN分类器检测零日攻击。进行了几项实验,N. Sameera和M.沙市/ICT Express 6(2020)361365→→→→表3CIDD数据集的模拟详细信息服务类型模拟IaaS云平台部署Eucalyptus(开源)使用的虚拟机总数正常VM 1 vCPU、256 MB内存和5 GB磁盘的特性目标虚拟机的特征4 vCPU、4 GB内存和30 GB磁盘DoS攻击的特征虚拟机2 vCPU、1GB内存和10 GB磁盘用于模拟的攻击工具Hping3、ping和slowloris表4CIDD数据集中的攻击分布图二、 任务DoS→R2L的ROC曲线。验证集以选择最佳DNN架构和其他参数。根据实验结果,选择具有10-7-5-3-1架构的DNN模型作为最佳模型,该DNN模型具有32个训练150个epoch的批量大小。在每个隐藏层使用非线性激活函数ReLU,并且在输出层使用S形激活函数来预测最终输出的概率。DoS模块的标记实例和R2L模块的软标记实例被共同馈送以训练DNN模型。TL任务DoSR2L的精度为0.9183,FPR0.0423,相应的ROC曲线见图1。二、DNN模型的性能以及其他ML分类器在检测零日攻击方面的性能如图3所示。从图中可以明显看出,DNN模型与其他ML方法相比具有最佳性能。所提出的方法与最先进的方法的比较研究报告在图4中。从比较结果可以看出,所提出的方法的性能占主导地位的国家的最先进的2. DoS探测任务:作者还通过使用类似于任务DoS R2L的DoS模块的标记实例来实验Probe模块的零日攻击检测。相应的技术细节见表5。DNN架构10-7-5-3-1在批量大小为100、训练90个epochs的情况下获得了最佳验证精度。TL任务DoS Probe的准确度为0.9175,FPR为0.0822,相应的ROC曲线见图。 五、的性能图三. 针对任务DoS→R2L,所提出的框架在不同分类器上的性能。见图4。针对任务DoS→R2L,比较研究所提出的框架与最先进的方法。描述了DNN模型以及其他ML分类器 图 六、5.2.2. 测试场景2:检测云的零日攻击由于CIDD的所有攻击都是DoS攻击,因此作者使用编码的NSL-KDD数据集的DoS模块作为D-S检测CIDD云数据集的零日攻击。据观察,特定的攻击,即land,pod,smurf,udpstorm是NSL KDD数据集(NSL DoS)和CIDD数据集的DoS模块共同存在的攻击。因此,NSL DoS和CIDD数据模块仅包含这些常见攻击实例以及正常实例攻击土地Podudp洪水ICMP洪水DNS洪水SlowlorisTcp-syn-flood数量的迹线446335153443852366N. Sameera和M.沙市/ICT Express 6(2020)361→表5测试场景1和2的技术细节参数转换前的簇数DoS→R2L13DoS→探针13NSL_DoS→CIDD25转换后的簇数251925α0.945280.94870.9745T10.945280.94870.9745T20.054720.05130.0255图五、 任务DoS→Probe的ROC曲线。图7.第一次会议。 任务NSL_DoS→CIDD的ROC曲线。见图6。所提出的框架在不同分类器上对任务DoS→ Probe的性能。作为源域和目标域。对于detec-零日攻击、完全标记的NSL DoS模块和没有标记的CIDD模块的测试结果提交给了建议的框架,表5中报告了相应的技术细节。DNN架构10-7-5-3-1在批量大小为95、训练350个epoch的情况下获得了最佳验证精度。TL任务NSL DoS CIDD的准确度为0.7885,FPR为0.00,相应的ROC曲线如图7所示。DNN模型与其他ML分类器的性能如图所示。8.第八条。6. 结论本文提出了一种深度转导迁移学习框架,用于检测零日攻击,该攻击被建模为目标域,没有标记实例。通过构造保持聚类对应的源域和目标域映射函数,将流形对齐方法DAMA扩展到未标记目标域和标记源域在变换空间中,提出了一种生成见图8。针对任务NSL_DoS→ CIDD,所提出的框架在不同分类器上的性能。目标软标签,以通过应用集群对应过程来补偿标记的目标实例的缺乏。这些软标签基于目标实例的软标签得分和源域聚类的聚类纯度值α来分配。标记的源实例和具有软标签的目标实例共同用于训练DNN模型以检测未标记的目标域的零日攻击。所提出的框架的有效性进行了研究,在两个测试方案。在第一个测试场景中,该框架在NSL-KDD数据集上进行了实验和测试。在第二个测试场景中,通过将NSL-KDD的DoS模块视为源数据集,该框架用于检测CIDD云数据集的零日攻击,其中两个域具有不同的特征空间和不同的概率分布。从实验结果可以看出,即使源域和目标域之间存在很大的异质性,该方法也能成功地检测出没有标记实例的零日攻击。N. Sameera和M.沙市/ICT Express 6(2020)361367该研究旨在检测零日攻击。在零日攻击检测中,区分新的攻击数据包和正常数据包是一个非常重要的问题。检测特定的攻击类型将是这项研究的未来扩展。竞合利益作者声明,他们没有已知的可能影响本文所报告工作CRediT作者贡献声明Nerella Sameera:概念化,数据管理,调查,方法论,监督,验证,写作-原始草案,写作-审查编辑。M.沙市:概念化,资料整理,调查,方法论,透视,验证,写作-初稿,写作-编辑&.确认作者要感谢Visvesvarayya博士计划,数字印度公司,印度鼓励研究通过资助。引用[1] Nerella Sameera,M.刘晓波,“入侵检测与分析”,中国计算机科学出版社,2001.资源管理(IJASRM)4(6)(2019)2455-6378。[2] Juan Zhao , Sachin Shetty , Jan Wei Pan , Charles Kamhoua ,KevinKwiat,迁移学习用于检测未知网络攻击,EURASIPJ。INF.安全(1)(2019).[3] 卡尔·韦斯,塔吉·M.王丁丁,迁移学习研究综述,J。大数据3(1)(2016)9.[4] 潘新诺,杨强,迁移学习研究综述,IEEETrans. 知道。数据工程师22(10)(2010)1345[5] C. Wang,P. Krafft,S. Mahadevan,Y.马,Y。傅,流形对齐,在:流形学习:理论与应用,CRC出版社,2011年。[6] Chang Wang , Sridhar Mahadevan , Heterogeneous domain adapta-tion using manifold alignment,第二十二届国际人工智能联合会议,2011年。[7] Juan Zhao,Sachin Shetty,Jan Wei Pan,基于迁移学习的网络安全,在:MILCOM,IEEE Military,2017。[8] V. Vercruyssen,W. Meert,J. Davis,时间序列异常检测的迁移学习,在:CEUR研讨会论文集,第1924卷,2017年,第117页。27比37[9] Zahra Taghiyarrenani , Ali Fanian , Ehsan Mahdavi , AbdolrezaMirzaei,Hamed Farsi,基于迁移学习的入侵检测,在:国际计算机和知识工程会议,ICCKE 2018,2018年10月,第10页。25-26[10] Nerella Sameera,M. Shashi,基于迁移学习的零日攻击检测原型,Int. J. Eng. Adv. Technol.(IJEAT)8(4)(2019)2249-8958。[11] L.杨文,基于NSL-KDD数据集的入侵检测系统研究,北京:计算机科学出版社。 Adv. Res. Comput. Commun. Eng. 4(6)(2015)446[12] Nerella Sameera,M. Shashi,使用PCA和KNN分类器的入侵检测编码方法,Springer AISC系列。出版中。[13] Raneel Kumar,Sunil Pranit Lal,Alok Sharma,在云中检测拒绝服务攻击。在:IEEE第14届独立自主和安全计算国际会议第14届普适智能和计算国际会议第2届大数据智能和计算国际会议以及网络科学和技术大会,DASC/PiCom/DataCom/CyberSciTech,IEEE。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功