没有合适的资源?快使用搜索试试~ 我知道了~
IP和移动网络阿加特·布莱斯引用此版本:阿加特·布莱斯新的异常检测和分类算法的IP和移动网络。网络和互联网架构[cs.NI]。索邦大学,2020年。英语NNT:2020SORUS 257。电话:03190474v2HAL Id:tel-03190474https://hal.science/tel-03190474v22023年2月14日提交HAL是一个多学科的开放获取档案馆,用于存放和传播科学研究文件,无论它们是否已这些文件可能来自法国或国外的教学和研究机构,或来自公共或私人研究中心。L’archive ouverte pluridisciplinaire索邦大学博士论文集斯佩恰利泰Informatique巴黎信息、电信和电子学院Présentée par阿加特·布莱斯为了获得等级索邦大学Sujet de la thèse:IP和移动网络2020年12月14日,陪审团组成:MarcoFIORE,IMDEA网络特别报告员RazvanStanI ca,INSA Lyon,Inria特别报特别报告员员ClémenceMagnIE n,CNRS,Sorbonne Université ExaminateurSaharHO tEI t,Univ. Paris Saclay,Centrale-Supélec ExaminateurAlineCaRN VidiaI ana,Inria Saclay Examinateur Thi-Mai-TrangNguyEn,LIP 6,Sorbonne UniversitéMembre invité SandraScO tt-HaywaRd,Queen University BelfastMembre invitéStefanoSE ccI,Conservatoire National des Arts et MétiersDirecteur de thèseVaniaCO nan,Thales Co-encadrantMathieuBO uE t,Thales Co-encadrant索邦大学博士论文集斯佩恰利泰Informatique巴黎信息、电信和电子学院Présentée par阿加特·布莱斯为了获得等级索邦大学Sujet de la thèse:IP和移动网络异常检测和分类的新算法2020年12月14日,陪审团组成:MarcoFIORE,IMDEA网络特别报告员RazvanStanI ca,INSA Lyon,Inria特别报特别报告员员ClémenceMagnIE n,CNRS,Sorbonne Université ExaminateurSaharHO tEI t,Univ. Paris Saclay,Centrale-Supélec ExaminateurAlineCaRN VidiaI ana,Inria Saclay Examinateur Thi-Mai-TrangNguyEn,LIP 6,Sorbonne UniversitéMembre invité SandraScO tt-HaywaRd,Queen University BelfastMembre invitéStefanoSE ccI,Conservatoire National des Arts et MétiersDirecteur de thèseVaniaCO nan,Thales Co-encadrantMathieuBO uE t,Thales Co-encadrant内容1一、导言111.1背景和动机111.2统计和ML技术121.3数据分析在网络1.4贡献和论文大纲142相关工作172.1统计和机器学习技术2.1.1统计学172.1.2ML技术:范例和解决的问题182.1.3数据收集202.1.4功能设计212.1.5性能指标和模型验证222.2入侵检测232.2.1入侵检测方法2.2.2大规模入侵检测2.2.3应用于僵尸网络检测252.3僵尸网络检测262.3.1基于流程的技术262.3.2基于图形的技术282.4蜂窝网络中的时空异常检测2.4.1探测时空异常282.4.2每应用移动流量分析292.4.3组异常检测292.5摘要.303检测零日攻击313.1一.导言. 313.2以端口为中心的拆分合并网络异常检测333.2.1理由333.2.2特色设计343.2.3本地异常检测353.2.4Centralcorrelation中央相关性373.3网络流量数据集3.4评价. 383.4.1正态分布拟合3.4.2本地异常检测403.4.3聚合视图和拆分视图4056内容3.4.4去年的全景。. . . . . . . . . . . . . . . . . . . . . . . . . . . . .423.4.5异常分数分布。. . . . . . . . . . . . . . . . . . . . . . . . .463.4.6特性和参数选择。. . . . . . . . . . . . . . . . . . . . . . .473.4.7异常分类。. . . . . . . . . . . . . . . . . . . . . . . . . . .503.4.8地面实况。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .513.5复杂性和性能分析。. . . . . . . . . . . . . . . . . . . . . . .523.5.1复杂性分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . .523.5.2执行性能。. . . . . . . . . . . . . . . . . . . . . . . . . . . .533.6结论。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .534僵尸网络指纹554.1导言。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .554.2数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .574.3机器人指纹. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .584.3.1初步示例. . . . . . . . . . . . . . . . . . . . . . . . . . . . .584.3.2方法。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .584.3.3流程记录的收集和格式化。. . . . . . . . . . . . . . . . . . .604.3.4量化(属性频率分布)。. . . . . . . . . . . . .604.3.5签名格式。. . . . . . . . . . . . . . . . . . . . . . . . . . . .634.4 Bot检测。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .644.4.1BotFP-Clus.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .644.4.2BotFP-ML。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .674.5评价。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .674.5.1BotFP-Clus.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .674.5.2BotFP-Clus和BotFP-ML之间的。. . . . . . . . . . . . .704.5.3与最新检测技术的。. . . . . . . . . . . .714.6复杂性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .724.6.1属性频率分布计算。. . . . . . . . . . . . . . .724.6.2培训。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .734.6.3分类。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .734.6.4与其他技术的。. . . . . . . . . . . . . . . . . . . . . . .734.7结论。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .755移动应用程序使用中的组异常检测775.1导言。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .775.2测量和数据集。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .795.3ASTECH方法。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .805.3.1战术方法。. . . . . . . . . . . . . . . . . . . . . . . . . . . .805.3.2符号。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .815.4时间序列异常检测。. . . . . . . . . . . . . . . . . . . . . . . . . . . .835.4.1时间序列分解。. . . . . . . . . . . . . . . . . . . . . . . . . .835.4.2原始异常的。. . . . . . . . . . . . . . . . . . . . . . . . .845.5群体异常。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .855.5.1异常快照的。. . . . . . . . . . . . . . . . . . . .855.5.2群体异常的。. . . . . . . . . . . . . . . . . . . . . . . .865.5.3群异常的细粒度表征。. . . . . . . . . . . . .865.6数值结果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .895.6.1原始异常。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .90内容物75.6.2Groupanomalies群体异常5.6.3Groupanomalies classification组异常分类5.7结论986结论.996.1捐款摘要. 996.2观点1006.2.1检测零日攻击1006.2.2僵尸网络指纹1016.2.3移动应用程序使用101附录A虚拟网络功能服务链接异常检测105A.1 导言. 105A.2 VNF服务链接问题106A.3 VNF服务马尔可夫链108A.4 VNF服务链分类109A.4.1正常行为群集109A.4.2VNF链分类110A.5 模拟和性能分析111A.5.1评价111A.5.2第111章决定的标准A.5.3分类结果113A.6 结论113附录B僵尸网络指纹补充材料115B.1机器人指纹的观察115B.2特征选择的重要性115参考书目1168内容摘要英文版过去几年,网络攻击的多样性和频率都有所增加,这些攻击似乎比以往任何时候都更加复杂,而且设计得无法检测。与此同时,定制化技术已被设计用于检测它们并采取快速对策。最近统计和机器学习技术的激增在很大程度上有助于提供新颖而复杂的技术来检测此类攻击。这些技术具有多种应用,以实现各个领域的自动化在网络领域,它们可以提供流量路由、流量分类和网络安全等服务。本文提出了新的异常检测和分类技术在IP和移动网络。在IP层面,它提出了我们的解决方案分割和合并,检测僵尸网络慢慢蔓延在互联网上利用新兴的漏洞。这种技术监视应用程序端口使用的长期然后,我们的论文处理僵尸网络的感染主机的检测最后,它提出了我们的ASTECH(异常空间TEMporal凸包)方法,用于移动网络中基于移动应用程序使用的组异常检测910内容法文本Ces dernières années ont été marquées par une nette augmentation de la fréquence et de la-versité des attaques réseau,qui apparaissent toujours plus sophistiquées et conçues pourêtre indétectables.与此同时,这些技术也是快速检测和掌握对比测量的关键。Récement,Cestechniques ont des applications dans de nombreux domaines whi gagneraient à êtredavantage automatisés.在铁路网领域,这些措施适用于铁路运输、交通分类和铁路网安全。Cette thèse propose de nouveaux algorithmes de detectionAu niveau IP,celle-ci presenteune solutionSplit-and-Merge qui decte des botnets qui se propagent lentement sur Internet enexploitant des vulnérabil- ités émergentes. 该 方 法 分 析 了 应 用 端 口 使 用 Ensuite , celle-ciaborde la detection这是一种ASTECH算法,它可以检测移动网络中的温度序列中的异常,对凸形空间-温度序列进行重组,并最终确定多个类别第1介绍近年来,网络攻击的多样性和频率激增,这种攻击似乎比以往任何时候都更加复杂,并且设计得无法检测。与此同时,自适应技术已被设计为尽快发现它们并采取快速对策。最近统计和ML技术的激增在很大程度上有助于提供新颖而复杂的技术来检测此类攻击。这些技术在许多领域的任何需要自动化的系统中具有多种可能的含义在网络区域内,它们可以提供流量路由、流量分类、网络安全等服务。我们注意到,攻击者还可能利用数据分析和机器学习技术来精心设计他们的攻击并模仿正常的最终用户行为,这使得他们的检测更加复杂。 在本介绍中,我们首先讨论了网络安全对适当数据分析技术的需求(第1.1节)。然后,我们介绍了统计和机器学习(ML)技术的激增(第1.2节),以及它们在解决当前网络安全挑战方面的可能应用(第1.3节)。最后,我们介绍了我们对该领域的不同贡献(第1.4节)。1.1背景和动机在网络流量数据中检测到的异常的性质是相当多样的[1]。异常包括中断(包括云和移动网络运营商的设备故障和中断)和操作事件(包括更新和入口切换),以及不寻常的最终用户行为(包括Flash群集和点对多点通信)和恶意行为(包括拒绝服务攻击和恶意扫描)。因此,我们更倾向于查看不同的粒度级别和特征范围,以考虑每种异常类型例如,拒绝服务(DoS)事件可以通过查看每个流的量异常而不是每个分组的属性来检测。网络和端口扫描可以在流级(或甚至在端口级)检测,因为每个新端口或端口和目标IP的组合生成新流。最后,僵尸网络检测可以在流级执行,并且优选地在主机级执行。此外,即使我们专注于恶意行为的检测,我们也注意到各种各样的攻击需要特定的检测技术。攻击者的操作模式多种多样,使适当的检测更加困难。攻击也越来越复杂,Mirai僵尸网络[2]在2016年对主要互联网提供商的DNS服务器发起了大规模攻击尽管如此,它在其机器人军队中重新聚集了近50,000台设备,但直到太晚才被发现。Mirai就像一个革命性的基于物联网的恶意软件,1112第1章介绍它的源代码[3]导致了其他僵尸网络发展的巨大增长。事实上,针对物联网(IoT)设备的恶意软件是许多分布式拒绝服务(DDoS)攻击的罪魁祸首它利用连接对象缺乏安全性来创建僵尸网络,传播速度非常快。我们预计,随着物联网设备的爆炸式增长,到2030年,物联网设备可能会增长到1250亿[4]。最近,DDoS攻击在数量和持续时间方面显著增加;事实上,卡巴斯基报告中指出,2018年上半年的大型攻击(高于300 Gbps)是2017年同期的7倍[5]。此外,这些僵尸网络会轻微地传播并影响整个网络,甚至不会被注意到,直到它们到达真正的目标。今天的大多数僵尸网络都是为了服务于经济目的而设计的,正如僵尸网络即服务(BaaS)[6]服务所示,该服务将僵尸网络的实例出售给第三方。入侵检测系统(IDS)旨在确保网络安全,旨在识别恶意活动和相关威胁。然而,事实上,有些僵尸网络在传播过程中并没有被检测到,而只是在最后的攻击时才被检测到。我们专门研究Mirai僵尸网络的案例,并引用了几个原因来解释为什么它没有被及时发现。(i)当前IDS传统上以业务粒度(诸如流、主机或分组级)工作它们不监视应用程序端口,因此可能会错过僵尸网络传播期间涉及的端口上的全局更改端口可以被扫描以获取目标机器的指纹,利用已知的漏洞,或者与命令和控制(C& C)服务器进行通信。僵尸网络的唯一共同点是它扫描的端口,这些僵尸网络来自非常不同的来源,并针对大量主机。然而,在IP地址上工作的IDS将无法注意到异常端口。(二)此外,大多数入侵检测系统的工作对象是流量的微小变化,通常使用几秒钟的滑动窗口因此,它们无法为每个端口建立(iii)入侵检测系统通常部署在网络中的一个点,而互联网服务供应商规模的攻击只有从广域网的整体角度来看才能看到由于这些原因,像Mirai这样的几个僵尸网络直到太晚才被因此,有可能开发专用算法来检测这些类型的僵尸网络,但通过设计,它们不能适应其他异常类型,因此在检测它们时显得不足。事实上,我们必须在检测准确性(如果算法被设计为检测特定类型的攻击,则检测准确性很高)和范围(如果算法可以适应此类攻击的变体甚至其他攻击类型,则范围很高)之间找到折衷这给网络安全带来了许多挑战:攻击者采用复杂的技术来隐藏,攻击变得越来越复杂。因此,迫切需要尽快发现这种威胁。专用技术旨在防止系统和网络被破坏,并在攻击的情况下限制危害网络安全研究人员和攻击者是这场猫鼠游戏中的两个玩家。第一种是试图了解攻击者的作案手法,有时非常复杂,并设计强大的入侵检测系统(IDS),以适应不断变化的攻击。作为回报,攻击者采用创新技术悄悄溜走,并通过雷达。1.2统计和ML技术1959年,机器学习领域的先驱Arthur Samuel将其作为一个研究领域,使计算机能够在没有明确编程的情况下学习:“计算机可以被编程,这样它就可以学习玩比编写程序的人更好的跳棋游戏。 这些技术旨在解决复杂的问题,并实现不同领域的自动化。然而,它最初由于其庞大的计算需求和当时计算能力的限制而被回避1.3. 数据分析在网络中的13由于最近计算能力和ML技术以及大数据存储和处理方面的改进,过去几年见证了统计和ML技术的大量涌现最初,统计模型也被用于解决问题和实现自动化。类似于ML模型,这样的技术服务于异常/离群值检测,例如通过变化点检测算法(例如,基于Z分数度量)或时间序列分解。ML模型基于统计学习理论,分为四种学习范式:分类、回归、聚类和规则提取,每种学习范式都包括几种算法。因此,统计和ML模型都有助于数据分析领域,但目的略有不同[9]。 统计模型需要对数据有很好的理解,并且旨在推断变量之间的关系,而ML模型旨在做出最准确的预测。它们也能很好地相互配合。在[10]中,作者比较了统计方法和ML方法在多个预测范围内的性能根据他们的结果,ML方法需要变得更准确,需要更少的计算机时间,并且不像黑匣子。他们还表明,传统的统计方法比ML方法更准确,因为他们指出了需要找出其中的原因,并设法扭转局面。然而,作者指出,他们的发现仅对所使用的特定数据集有效。关于这两种技术的更多细节,第2章提供了广泛的背景和相关工作,这些工作与应用于网络安全的数据分析基本相关1.3数据分析应用到网络数据分析由统计和ML技术组成,在网络领域有无数可能的应用。 它们包括流量预测、流量分类、流量路由、拥塞控制、资源管理、故障管理、QoS和QoE管理以及网络安全[11]。在我们的论文中,我们专门涵盖了流量分类和网络安全领域,寻求提供新的算法设计,以加强网络cy-bersecurity。流量分类的目的是根据各种特征将网络流量准确地表征和分类它使网络运营商能够执行广泛的网络运营和管理活动,如容量规划、差异化、性能监控或资源配置。一般来说,网络流量分类方法可以分解为四个大类,分别利用端口号、数据包有效载荷、主机行为或流特征,我们将在第2节稍后进行研究。网络安全旨在保护网络免受可能损害网络可用性或导致未经授权访问或滥用网络可访问资源的网络威胁。因此,网络安全是网络运行和管理的核心此外,目前的IDS必须考虑实时约束,并设法处理大型和快速变化的数据集。除了网络安全之外,数据分析技术通常使人们能够更好地表征移动或IP网络中的流量以及最终用户的行为。这些构建的配置文件可以帮助设计自动检测异常现象和攻击的方法,但不仅如此。更好地了解最终用户的行为对于资源供应或普适计算应用程序是有用的14第1章介绍1.4贡献和论文大纲本文讨论了几种新的异常检测技术,与网络的重要领域相关联的新兴技术。因此,我们提出了这样的异常检测和分类技术在三个不同的背景下:在互联网上的漏洞利用的检测,在IP网络(在企业级)的入侵检测,和异常检测蜂窝网络。在同一场合,我们通过探索新的观点,开发了以前没有开发的方法本手稿接下来的三章对应于每种主要技术。首先,第二章介绍了本文的背景和相关工作,首先介绍了统计和机器学习技术的最新发展,然后介绍了每一个贡献的相关工作。第3提出了一种技术,用于早期检测新兴的僵尸网络和新利用的漏洞在互联网上,针对僵尸网络稍微传播在互联网上没有检测到,也没有减轻他们的传播。2016年9月的Mirai僵尸网络攻击,或者最近的2018年3月的memcached攻击,这次不需要僵尸网络,只是两个例子。此类攻击通常会经过几个阶段,包括主机感染或设备指纹识别;能够捕获这种活动将有助于早期检测。我们的技术,名为分裂和合并,包括(i)分裂的检测过程在不同的网段,(ii)在端口级的监测,一个简单而有效的变化检测算法的基础上修改的Z分数的措施,(iii)聚集在一个中央相关模块的本地异常,只保留分布式的。我们讨论了我们的技术如何确保检测到大规模攻击并大幅减少误报。在第4章中,我们将探索僵尸网络检测的另一个视角,这次不是在互联网层面,而是在IP网络中,尤其是在企业网络中。最近的方法取代了基于流的检测技术,并利用基于图的功能,但在可扩展性问题,具有高的时间和空间复杂度。机器人具有特定的通信模式:它们使用特定的协议,联系特定的域,因此可以通过分析它们与外部的通信我们遵循的一种简化通信图和避免可扩展性问题的方法是通过查看捕获僵尸网络行为特异性的协议属性的频率分布我们提出了一种名为BotFP的机器人检测技术,用于BotFingerPrinting,其作用是:(i)用属性频率分布签名表征主机行为,(ii)通过聚类或监督机器学习(ML)学习良性主机和机器人行为,以及(iii)将新主机分类为机器人或良性主机,使用到标记聚类的距离或依赖于ML算法。在第5章中,我们利用蜂窝网络中的机器学习技术来分析移动应用程序通信,并释放有关当前社会和基础设施状态的重要信息。各种各样的事件可以产生不寻常的移动通信模式,这些模式可以被研究用于普适计算应用,例如,in smart聪明cities城市.其中,本地事件(如音乐会)、全国性事件(如自然灾害)和网络中断会在移动接入网络负载中产生异常我们提出了我们的ASTECH(异常SpatioTEmporal凸包)检测方法,首先分解细胞数据使用功能的时间序列,然后检测原始异常的残留成分来自分解。我们的方法,然后聚集原始异常到快照第一,和组最异常的形成时空集群。我们可以通过将移动事件聚类为大类来揭示有关移动事件时间轴、其时空传播以及其影响的移动应用程序的细节此外,我们在附录A中提供了硕士研究生的研究描述。1.4. 来稿和论文提纲.15论文的主要内容是虚拟网络功能服务链中的异常检测。然后,附录B提供了与第4章中提出的BotFP检测方法相关的其他实验,特别是不同扫描过程之间的视觉比较以及我们应用的特征选择过程的细节16第1章介绍第2相关工作本章介绍了与应用于网络安全的数据分析基本相关的概念、背景和相关工作。它回顾了统计和机器学习技术的整个过程,通过他们的学习范式,性能指标和主要应用。然后,本章接下来的三节按照论文的结构,每一节对应一章。2.1统计和机器学习技术统计和机器学习(ML)技术可以用于解决网络运营和管理中出现的复杂问题。近年来,由于计算能力的显著提高以及数据存储和处理的最新进展应用于网络安全,数据分析已被广泛探索,以开发新的自动化和检测技术。我们首先描述了统计学习模型背后的理论然后,我们进一步详细回顾了数据分析的过程,包括各个步骤:(i)学习范式和ML技术,(ii)数据收集,(iii)功能设计,(iv)模型评估,以及(v)ML应用程序。2.1.1统计学习最初,ML检测工具依赖于统计学习理论来构建模型。还有一些无监督的检测工具使用简单的统计方法;它们的核心假设是,最少观察到的现象最有可能是异常的。在统计方法中,对建立的流量统计特征的精细分析允许人们理解检测到的异常实例与通常行为的不同;然而,它们基于单特征工作,因此不通过设计将不同特征关联此外,统计方法可以很好地与其他算法相结合,因为它们通常无法提供额外的信息,例如攻击者的IP地址或攻击根本原因;此外,它们几乎没有计算复杂性并且易于实现,这使得它们在检测时应该以有限的计算资源进行操作时是明智的方法隐马尔可夫模型隐马尔可夫模型(Hidden Markov Models)是基于增广马尔可夫链(augmented Markovchains)的。 障碍由统计马尔可夫模型组成,其中概率函数对1718第2章. 相关工作状态是在训练阶段确定的,与马尔可夫链相反,马尔可夫链是先验设置的。阻碍在模式识别中有着广泛的应用,现在也有被广泛应用于入侵检测的它们通常表现出出色的性能,尽管它们尚未适应现实世界的网络约束。事实上,它们需要大量的时间来模拟正常行为,并且假阳性率相对较高。在[13]中,作者提出了一种IDS,其中有效载荷表示为字节序列,并且分析基于Hacker的集合。基于变点检测的技术基于变点检测的技术背后隐含的假设是,异常会导致特征值的概率分布发生显着变化因此,这些方法非常适合检测粗糙的异常,这些异常对流量有显著影响,就像DoS和DDoS一样。[14]是一项开创性的工作,设计了一种使用变点检测方法的计算机网络流量在线异常检测技术。 该算法是基于多循环的Shiryaev-Roberts检测过程,这是计算成本低,性能优于其他检测方案。对于变点检测算法,z分数是一种众所周知的简单统计度量,通常用于自动检测时间序列中的突然变化更准确地说,它是衡量一个数据点低于或高于平均值的标准差的度量。基本上,z分数等于零意味着数据点等于平均值,并且z分数越大,值越不寻常。如果修改的z分数的绝对值超过给定阈值,则检测到异常。还存在基于该度量的变体的算法修改后的z评分使用中位数和中位数的中位数绝对偏差(MAD),而不是分别使用经典的平均值和标准差,这使得它具有离群值抗性[15]。此外,平滑z分数考虑了离群值的影响,即,相对于当前样本,过去样本在平均值和标准差上的权重其他方法直方图用于对数据的频率进行计数或可视化(即,出现的次数)在由离散间隔的单元组成的仓从历史上看,它们已被广泛用于数据和图像处理领域。基于直方图的算法,也称为基于频率或基于计数的算法,依赖于包含与其属性的值相关联的箱的直方图[16]提出了一种基于特征的异常检测工具的替代方法,该方法构建了特征的详细直方图模型并识别与这些模型的偏差此外,构建综合直方图比使用粗分布或基于图的特征在计算上更便宜2.1.2ML技术:范例和解决的问题既然我们回顾了基于统计学习的方法,我们将重点关注ML技术,研究整个ML设计流程。学习范例首先,ML技术可以分为四种学习范式:2.1.统计和机器学习技术19图2.1:受益于机器学习的学习范式:监督学习的分类和回归,以及无监督学习的聚类和规则提取1. 监督学习技术从标记的数据集中学习构成正常流量或攻击的内容-存 在 不 同 的 技 术 , 例如 基 于 S V M 的 分 类 器 , 基 于 规 则 的 分 类 器 和 集 成 学 习 检 测 器 [ 1 7 ] 。2. 无监督方法自己学习什么是正常或异常-其中,MAWILab [18]通过组合在不同流量粒度下操作的检测器来发现异常(针对MAWI数据集的结果在[18]中);许多工作将自己与MAWILab进行3. 混合或半监督方法仅受益于标记流量的一小部分,这意味着足以从中学习,如[21]中所提出的。4. 强化学习(RL)是一个迭代过程,代理采取行动以最大化累积奖励的概念。在决策制定的目的,学习传统上是基于训练数据集的样本。RL中的训练数据构成了一组状态-动作对和奖励(或惩罚)。问题类别四大类问题可以利用ML,即分类,回归,聚类和规则提取,如图2.1所示。首先,分类和回归是两种监督学习方法;它们的目标是基于来自标记数据的示例输入输出对将输入映射到输出回归方法预测连续值输出,而分类预测离散值,包括不同的标签。然后,聚类和规则提取是无监督学习技术:聚类是将数据集划分为组的任务,称为聚类-目标是确定未标记数据之间的分组,同时增加组之间的差距;规则提取技术旨在通过发现描述大部分数据集的规则来识别数据中的统计关系请注意,学习范式的选择在很大程度上取决于训练数据。例如,如果数据集没有被标记,则不能采用监督学习,并且其他学习方法也不能被必须考虑各种范例。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功