没有合适的资源?快使用搜索试试~ 我知道了~
埃及信息学杂志24(2023)43在网络威胁情报阿卜杜勒·巴西特·西迪基·埃赫特舍姆·伊尔沙德首都科技大学计算机科学系,巴基斯坦伊斯兰堡阿提奇莱因福奥文章历史记录:接收日期:2022年2022年11月20日修订2022年11月30日接受2022年12月9日在线发布保留字:Cyber Threat Actor(CTA)战术技术和程序(TTP)自然语言处理(NLP)网络威胁情报(CTI)网络威胁情报报告(CTIR)入侵事件(IOC)高级持续威胁(APT)结构化威胁信息表达(STIX)常见攻击模式枚举和分类(CAPEC)平滑二进制向量(SMOBI)基于相似性的向量表示(SIMVER)A B S T R A C T网络威胁归因是指对网络攻击负责的攻击者的识别这是一个具有挑战性的任务,因为攻击者使用不同的混淆和欺骗技术来隐藏其身份。攻击发生后,进行数字取证调查,从网络/系统日志中收集证据。调查取证后的报告以文本、PDF等多种格式发布。没有发布这些报告的标准格式,因此从这些报告中提取有意义的信息从非结构化网络威胁情报(CTI)中手动提取特征是一项困难的任务。需要一种自动化机制来从非结构化报告中提取特征并将网络威胁参与者(CTA)属性化。本研究的目的是开发一种机制,通过从CTI报告中提取特征来归属或描述网络威胁参与者(CTA)。此外,定义了一种方法,通过使用自然语言处理(NLP)技术从非结构化CTI报告中提取特征,然后通过使用机器学习算法来归属网络威胁行为者。提取特征,战术、技术、工具、恶意软件、目标组织/国家和应用程序,使用称为”Attack 2 vec”的新型嵌入模型,该模型在特定领域的嵌入上进行训练。与一般嵌入的模型训练相比,特定领域嵌入的训练模型产生了更高的结果,特别是在网络安全领域。该模型的计算结果与不同方法的计算结果一致。采用决策树、随机森林、支持向量机等机器学习算法与其他模型相比,该模型的准确率为96%,精确度为96.4%,召回率为95.58%,F1-measure为95.75%。©2023 The Bottoms.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章(http://creative-commons.org/licenses/by-nc-nd/4.0/)上提供。1. 介绍网络威胁情报(CTI)是一个知识库,包括背景、行为、采取的行动以及这种攻击的含义。CTI提供此知识库以减轻攻击[1 2 3]。它允许组织对未来的攻击做出明智的决定,并提供机会来访问他们在网络空间中面临的挑战和威胁[4 5 6]。如今,组织正专注于建立自己的知识库-*通讯作者。电子邮件地址:ehtsham_irshad@hotmail.com(E.Irshad),abasit.cust.edu.pkBasit Siddiqui)。开罗大学计算机和信息系负责同行审查。制作和主办:Elsevier从世界上现有的数据来看。基于这些知识,威胁源以结构化威胁信息表达(STIX)格式[7 8]开发,该格式被认为是该领域的标准格式。CTI生命周期包括六个阶段。第一个阶段是规划和指导。第二阶段是从不同来源收集信息。第三个阶段是对获取的信息进行处理。第四阶段是信息分析。第五阶段是信息传播。最后一个阶段是反馈。 CTI生命周期如图所示。1.一、网络威胁归因是了解攻击背后的人或组织。攻击者有不同的配置文件和各种属性[9]。如图2所示,还存在不同的属性水平。第一个层次是了解攻击者使用的工具、战术技术和程序(TTP)。这是了解攻击者使用的工具的第一步。第二个层次是了解袭击背后的国家。它讲述了袭击背后的动机和目标。第三个也是最重要的一个层面是了解实施攻击的人。这是一个非常具有挑战性的任务,因为攻击者使用不同的https://doi.org/10.1016/j.eij.2022.11.0011110-8665/©2023 THE COURORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页:www.sciencedirect.comE. Irshad和A. 巴西特·西迪基埃及信息学杂志24(2023)4344Fig. 1. CTI生命周期。图二. 归因的水平欺骗技术来隐藏身份。本研究工作中使用了各种基准框架,如MITREATT CK框架[10 11 12]。MITRE ATT CK是一个关于现实世界攻击模式的战术,技术程序和网络参与者的知识库。它是一个开放源码的知识库,对研究界和工业界利用知识非常有用。它还提供STIX格式的威胁源,供组织在安全设备中使用。在MITRE框架中,战术是攻击者所要达到的目标.技术是攻击者用来实现其目标的机制和工具。团体是攻击者或网络威胁行为者,是攻击背后的肇事者。该框架还提供了如何减轻这些攻击的信息。它的数据库在研究界的帮助下不断更新。本研究中使用的其他基准框架是APT组和操作[13][14][15][16]为了匹配目标国家名称,使用维基百科的国家名称列表[35]。对于目标组织,使用sp-全球文件[36]。为了匹配软件列表归因于高级持续性威胁(APT)是一项艰巨的任务,因为这些攻击在更长的时间内仍然未被发现这些类型的攻击在特定时间触发APT是国家赞助的攻击,因此它使归因成为一项具有挑战性的任务。网络威胁归因的一个重要任务是识别攻击者在攻击中使用的攻击步骤,如图所示。 3. 发现攻击步骤是一个重要的步骤,因为它告诉整个攻击流程。在MITRE之前,主要用于网络威胁归因的框架是网络杀伤链,它描述了攻击的七个阶段(重新侦察,武器化,交付,利用,安装,指挥和控制,目标行动)。该领域的一个重要方面是从数据集[12]中识别患者和患者,如图所示。 四、这种模式识别有助于对攻击者进行归因。它将有助于确定攻击的不同特征之间的关系。每一次攻击都可以提供关于谁、什么、在哪里为什么以及如何发生的信息。这五个参数告诉我们攻击的计划、执行和过程,如图5所示。Who参数标识攻击背后的实际人员、组织和国家。了解攻击的实际对手是非常重要的一步。这些信息可能有助于缓解未来的攻击。什么参数告诉攻击的总体范围。它告诉攻击者在这次攻击中想要实现什么。其中参数标识攻击者方向。当参数标识攻击的时间戳时,即攻击发生的时间。why参数告诉攻击者的目的和目标。how参数标识攻击者使用的工具和技术。通过了解攻击者使用的TTP,可以减轻未来的攻击[60]。网络威胁归因是一项复杂的任务,因为攻击者通常会采取不同的措施来隐藏其身份。通过对网络威胁行为者进行归因,组织可以预测未来的威胁,并以有效的方式对这些攻击采取预防措施。有效的归因可以阻碍攻击过程。网络威胁归因仅使用有限数量的功能完成,这可能无法提供有关攻击者配置文件的详细信息。 为了对攻击者做出精确的判断,需要关注详细的特征集,即,TTP、工具、恶意软件、目标国家、目标组织、目标应用程序。使用详细功能将改进网络威胁归因过程。大量数据可用于CTI,因此提取兴趣是一项具有挑战性的任务。确定CTI的数据来源非常重要。现有数据来源如下。图三. 攻击步骤。E. Irshad和A. 巴西特·西迪基埃及信息学杂志24(2023)4345见图4。 ATT CK模型关系。图五. 网络攻击的参数● CTI源(STIX格式)● 实时数据● 网络/服务器● 黑客论坛● 社交媒体(Twitter、Facebook等)● 蜜罐● 非结构化CTI报告● 常见漏洞和暴露(CVE)● 国家脆弱性数据库(NVD)● 博客● 威胁咨询● 安全网站● 清理网页● 暗网● Web存储库,例如,GitHub在拟议的研究中,讨论了网络威胁的归属问题。提出了一个网络威胁归属框架。从非结构化CTI报告中提取特征,以确定网络威胁参与者的属性。详细的文献综述被用来分析用于网络威胁归因的技术。还强调了这一领域的重要方面。从这些非结构化的报告中提取有意义的信息是一项非常困难的任务。详细的功能集,即,从非结构化CTI报告中提取TTP、工具、恶意软件、目标国家/地区、目标组织、目标应用程序。为了从非结构化CTI报告中提取特征,提出了一种新的嵌入模型“at-tack 2vec”,该模型在特定领域的嵌入上进行训练,因为一般的嵌入模型在特定领域(如网络安全)中不能产生良好的结果。因此,attack2vec模型是在网络威胁情报领域的数据集上训练的。两种最先进的嵌入模型,即,采用连续词袋模型(CBOW)和Skip gram模型进行对比分析。与CBOW相比,Skip gram模型产生了良好的结果。特征提取后,利用余弦相似度对MITRE ATT CK、CAPEC和APT组等基准框架和操作进行了验证。CTA属性是通过使用分类算法,如决策树,随机森林和支持向量机。通过与现有模型的对比分析,对新模型的性能进行了评价.对比分析表明,该模型具有较好的预测效果。本研究工作的主要贡献如下:该研究有助于更有效、更准确地确定网络威胁行为者的本研究的第一个贡献此外,开发一种新的嵌入模型,称为此外,包括详细的功能集,即,TTP,恶意软件,工具,目标国家,目标行业,目标应用程序来描述网络威胁行为者是这项研究工作的另一个主要贡献。在早期的研究中,只使用了有限的功能,如TTP,工具和恶意软件。结果表明,包括详细的功能有助于更准确地检测CTA。目标国、目标组织、目标应用等特征在研究中尚未涉及。本文的布局如下。相关工作在第2节中进行了说明。问题陈述见第3节,目标和意义见第4节。第5节解释了拟议方法。实验和结果在第6节,结论和未来的工作在第7节中解释。2. 相关工作在这项研究工作中,提出了一个模型的网络威胁属性。提出了一种名为基于相似性的矢量表示(SIMVER)的特征提取模型[32],将该模型与word2vec和平滑二进制向量(SMOBI)进行了比较。使用了238个非结构化CTI报告。深度学习模型用于不同网络威胁行为者的归属。在这项研究中[15,16],提出网络威胁行为者使用不同的工具和技术对组织进行攻击。攻击者很难改变其工具。因此,从攻击者的攻击模式中识别出攻击者就显得尤为重要。这将有助于组织抵御未来的攻击。识别这些攻击模式非常重要,E. Irshad和A. 巴西特·西迪基埃及信息学杂志24(2023)4346特别是在金融科技行业。在这项研究中,从非结构化CTI报告中提取特征,以确定网络威胁行为者的属性。在这项研究中[17]提出,关于战术技术和程序(TTP)的信息主要以人类可读的格式存在。TTP被认为是一个重要特征。通过从非结构化数据中提取数据,组织可以保护它们免受未来的攻击。它迫使攻击者改变其工具和技术,因为这对攻击者来说是一项相当困难的任务。在这项研究工作中提出[18],威胁行动可以从威胁相关的文章中提取。该方法利用LSI和余弦相似性从数据集中提取特征.本工作中使用的分类法是MITRE ATTCK。在这项工作中[19],评估了从非结构化文本中提取特征的不同分类方法。MITRE ATT CK用作基准。开发了一个从非结构化数据中提取特征的工具该工具生成STIX格式的报告,STIX格式被认为是该领域的标准表示形式。网络威胁情报有很多原始信息,提取这些信息并将其转换为情报可能非常有用。为了从原始数据中提取有用的信息并绘制模式,使用了关联规则挖掘技术[34]。它生成规则来识别TTP之间的不同模式在这项工作中,解释了反恶意软件系统用于检测系统内的恶意代码或活动[21]。检测攻击背后的攻击者及其意图超出了这些系统的范围。当今世界存在大量用于网络威胁情报的原始数据。从这些原始数据中手动提取信息几乎是不可能的,因为存在大量的原始数据。现在需要设计自动化机制来从这些数据中提取有用的信息并将其转换为智能。研究[22随着新技术和基础设施的发展,由于安全威胁的增加,安全分析师和专家面临着巨大的挑战。这导致了一个叫做网络威胁情报的领域随着安全威胁的日益增多,这一领域在当今世界越来越受欢迎,其重要性也与日俱增在这项研究中,作者阐述了现代世界的攻击者具有一定的专业知识水平,可以有效地进行网络攻击[25]。攻击者使用不同的预防措施,以保持不被发现的较长一段时间。对于组织来说,这是一个保护其资产的问题.这些攻击可能导致损害他们的声誉,并导致信息泄露。因此,网络归因分析变得非常重要,并且是一项复杂的任务,需要一定的专业知识。在这项研究工作中,详细说明了没有完全自动化的在线工具可以从原始文本中提取有意义的结构化信息[26]。在这项工作中,“STIXGEN”的在线工具,用于开发的结构化信息在STIX格式的建议。该工具将有助于组织产生结构化信息并在不同组织之间共享有意义的信息。该工具生成STIX格式的结构化数据,这将特别有利于研究学生。这项研究工作[31]阐述了归因有一定的层次。第一级是启动攻击过程的主机。第二层是代理主机,协助了这次袭击第三个层次是服务提供者,通过它的交通通过。第四个层次是具体的个人进行攻击。第五层是帮助进行攻击的特定组织和政府机构。第六层是攻击的源头。对攻击者进行归因是对网络攻击的一种强有力的预防性防御。这项研究[27]阐述了特定领域嵌入在网络安全领域的优势。据作者介绍,通过在网络安全领域使用特定领域的嵌入可以产生高性能的结果。在本文中,训练嵌入模型以获得结果。一个模型是在20,000份非结构化网络威胁情报报告上训练的,第二个模型是在从Wikipe-dia抓取的网页上训练的。结果表明,与从维基百科抓取的网页上的模型训练相比,在特定领域嵌入上训练的模型产生了更高的结果。提出了一种名为TTPDrill”[28]的自动提取方法它以STIX的结构化格式开发威胁馈送该方法定制了一些NLP技术,开发了一种自动提取威胁相关数据的这项研究提出了一种新的方法,用于分析CTI报告并从安全相关语料库中提取威胁相关信息[29]。第一个贡献是提取的特征,”CTI报道。这项研究注释了不同的威胁相关的文本中使用的这一领域。一个主要的贡献是产生了498,000个标签数据集。这项研究已经确定了IP哈希等特征[30]。还从威胁相关报告中提取了战术和技术等高级IOC。在这项工作中,使用偏差校正方法来消除从不同来源收集的数据的偏差。并与TTPDrill进行了比较。它比TTPDrill的准确率高出78%。将来,为了扩展这项工作,将从威胁报告中提取低级别IOC。这是一个数字时代[33]。当今世界上有大量的文本数据。挑战在于从这些稀疏的文本中提取有用的信息。文本分类是从文本中提取特征并对其进行分类用于数据的标准化。由于数据是非常稀疏的,它变得难以处理,所以在这方面的特征提取并应用选择方法。在这项工作中,不同的特征提取方法以及机器学习算法的文本分类进行审查。在这项工作中[38]提出了一个基于标准STIX格式的称为IL-CyTIS的框架。该框架是通过定制STIX开发的。该框架的目的是从CTI报告中提取威胁操作以更有效的方式来确定网络威胁行为者的身份。在拟议的研究[39]中,从非结构化CTI报告中提取了不同的威胁操作,例如工具,行业,文件类型和组织。强化算法,如BiLSTM-CRF,DTBERT-BiLSTM-CRF,CNN-BiLSTM-CRF用于评估性能指标。在这项研究中[40]提取了威胁行动。在不同的威胁行为之间创建语义关系,以归属网络威胁行为者。这种提取将有助于在未来更准确地检测网络威胁行为者。提出了一种方法[40,41],用于识别恶意软件并从各种数据集中提取威胁操作,例如CTI报告,蜜罐,GitHub,NCHC恶意软件知识库,GUN开源项目基础和Windows系统文件。各种机器和深度学习算法用于分类。CNN用于恶意软件的分类。在这项工作[42]的框架DeLP(可废止逻辑程序-明)提出。该框架的目的是建立一个模型,可以帮助更准确,更有效地归因于网络威胁。该模型将有助于更有效地进行网络威胁归因。在这项研究工作中[43],通过使用可以从APT报告中提取的TTP,提出了一种网络威胁行为者的自动化机制。提取的特征,然后验证从ATT CK框架使用余弦相似性。使用来自27个不同组织的APT报告,如US-CERT,CISA和SOC供应商,如FireEye和Trend-Micro。在这项研究中[44],提出了一种威胁模型,用于从网络战事件中提取特征,如监视,数据窃取,间谍活动和错误信息。此模型有助于提取威胁操作。这项研究[45]提出了一种方法,用于提取低级别的IOC来属性网络威胁行为者。低水平的IOC的影响是低的。攻击者很容易改变这些属性。例如,在一个实施例中,IP欺骗E. Irshad和A. 巴西特·西迪基埃及信息学杂志24(2023)4347攻击可以通过改变IP地址轻松进行针对威胁行为的提取,提出了Chainsmith、IOCMiner、Stixgen等框架在这项拟议的研究[46]中,提出了一种自动提取威胁行动并生成TTP的模型。该模型从APT报告中提取威胁动作。521个APT报告用于提取TTP。使用BERT-BiLSTM-CRF,其实现了96%,97%和96%的精确度,召回率和F1评分本文[47]提出了一种使用深度学习模型的网络威胁情报方法,该模型可以从空间,空中,地面,海洋(SAGS)网络中提取威胁行动。它包括三个模块:深度模式提取器、TI驱动检测和TI攻击类型识别技术。在所提出的方法[48,49]中,对网络威胁归因进行了研究。为此,开发了一个名为DLTIF的框架,用于网络威胁情报建模。目的是确定不同的威胁类型。为了对网络威胁情报进行建模,开发了一个自动化框架DLTIF是为网络威胁情报建模和识别不同威胁类型而开发的。在这项研究[51]中,开发了一种新的APT归因方法。该技术结合了两个特征,即,代码和字符串特性。在该技术中使用词袋模型来表示向量。随机森林用于分类。在这项工作中使用的数据集是CTI报告的集合。该模型有助于分析网络攻击和威胁情报。这篇论文[52]提出了一种被称为HinCTI的威胁建模技术。该模型提取CTI数据的高层IOC,并建立语义关系.该模型有助于更准确、更精确地识别威胁类型。与基线方法的比较也显示了这种新的模型的性能不同的网络安全平台[53]提供情境感知-不同的参数,如威胁演员和行动。很多有用的信息都存在于暗网中。在这种方法中,Azure Hacker Asset门户用于收集CTI数据。这种方法可以分析暗网上的报告,以收集对CTI的洞察,从而更有效地利用CTI。文献中提出了使用机器学习技术进行网络威胁归因的不同技术[54]。在所提出的方法中,蜜罐部署在亚马逊网络服务收集感兴趣的数据。在文本预处理之后,使用不同的机器学习算法来归属网络威胁行为者。出所用的SVM模型具有94.7%的准确率。在这项研究工作中,[55]对各种类型的网络威胁情报数据进行分析,以保护组织免受网络攻击。分析各种类型的网络威胁情报数据非常重要在网络威胁语篇中构建语境语义关系已成为当务之急在这种方法中,被称为OSIF的模型被开发来分析CTI非结构化数据。CVE数据集用于网络行为者分析。在这种方法[56]中,提出了一种称为TIMiner的模型,用于共享从社交媒体收集的CTI数据。卷积神经网络(CNN)用于从数据集中分类各种类型的IOC。该模型使用域标记生成CTI。这是一个具有挑战性的任务,以归属网络威胁的演员[57]。由于攻击者大多在代理服务器后面进行攻击,因此很难识别攻击的发起者。在所提出的技术问题CTA属性确定。从攻击模式中识别网络威胁行为者。在这项研究中[58],对从非结构化文本中提取有用信息的技术进行了文献综述。共收集到28,484篇文章。通过对收集到的信息进行分析,发现自然语言处理领域中最有用的关键词是主题分类、关键词识别和语义关系。在这个建议的方法[59]中,使用了一个被称为特征史密斯的系统来提取Android恶意软件的特征该系统提高了提取威胁动作的整体准确性。高级持续性威胁已成为国家和组织的主要威胁在最近的过去。因为组织很难检测到这种类型的攻击。在这项拟议的研究[63]中,提出了一种称为三角模型的模型。该模型使用TTP、扇区和工具三个属性来建立网络威胁行为者的归属关系。用于绘制关系的基准框架是MITRE ATT CK。该模型将有助于更准确地确定网络威胁行为者的挑战能否提供气候技术倡议报告是这一领域的一个主要挑战。由于取证调查是由安全供应商进行的,用户的隐私是保密的,因此公开这些报告的可用性是一个重大挑战。因此,结果是在不平衡的数据集上生成的,这可能会影响准确性和性能。使用不同的基准框架进行验证的特征。一个统一的基准可以用于产生准确和精确的结果。另一个挑战是提取有用的信息,一个报告包含了大量的不相关信息,只有少数几句话的报告包含有关攻击模式的信息,所以从这些大量的数据中提取有用的信息是一个具有挑战性的任务。另一个挑战是可靠报告的可用性。如果报告是有偏见的,或者不是可靠的供应商,那么结果可能是有偏见的和不准确的。另一个挑战是这些报告的非结构化格式,因为没有标准格式。不同的安全供应商根据自己的格式发布报告,即使是安全供应商发布的报告也是不同的格式。因此,如何从信息中提取出有意义的信息成为一项艰巨的任务一个主要的挑战是大量的可用数据(非结构化报告,博客,威胁分类,黑客论坛,社交媒体,CVE,NVD,暗网),因此从大量数据中提取有用的信息是一项具有挑战性的任务。网络威胁归因的一个挑战当攻击者通过不同的阶段和机制来完成攻击时,设计一个完整的自动化网络威胁属性框架存在用于描述攻击流的半自动化机制,这有助于确定威胁行为者的归属在这个领域中,识别不同的入侵事件(如TTP恶意软件、工具)之间的关系是一个相当大的挑战批判性分析到目前为止,研究中提取了有限数量的特征(TTP,工具)用于CTA属性。还有其他重要的属性,如目标组织,目标国家,目标应用程序,可以改善网络威胁归因过程。这可以提供关于攻击者配置文件的详细信息L. 佩里[27]提出了一种称为SMOBI的嵌入模型。用于构建特定领域嵌入模型的数据集不足。联合Noor[15]技术从非结构化报告中提取工具和TTP。无法验证数据集的可靠性。LSI根据作者进行了修改,但没有详细说明S. Naveen[32]从非结构化报告中提取工具和TTP。提出了一个嵌入模型称为SIMVER,在删除一些报告使用L。佩里,结果是根据过滤后的报告生成的。详细功能集未在本工作中使用。各种研究工作在不同的数据集上产生结果,因此无法比较不同技术的结果。到目前为止,还没有为网络威胁归属设计出完全自动化的机制。攻击流程设计有半自动机制.网络威胁的归因分析主要采用了钻石模型、CKC、F2T2EA、MITRE等框架。需要一个单一的基准框架,在此基础上可以进行实验以进行比较分析。 在这些E. Irshad和A. 巴西特·西迪基埃及信息学杂志24(2023)4348绘制了不同TTP之间的技术关系。有必要绘制其他功能之间的关系,如工具/软件,恶意软件。它将有助于归因,并可以提供不同属性之间更详细的关系。该领域的重要方面如下所示,例如NLP和机器学习技术、功能、生成的结果、性能指标、网络威胁参与者、该领域使用的工具和框架。这些方面如下。Q1.哪些自然语言处理(NLP)技术在这个领域是有效的?NLP技术用于文本清理,例如删除停止词,标点符号,标记化,词干,词形还原和特征提取在该领域中使用的有效技术是基于频率的,即,TF-IDF和基于上下文的,即,潜在语义索引(LSI)等。研究人员还开发了一些新的模型用于特征提取通过文献调研,发现词频索引、文档频率(TF-IDF)、潜在语义索引(LSI)和命名实体识别(NER)是该领域最常用的模型TF-IDF是一种基于频率的技术,它根据单词在语料库中的频率来提取单词LSI根据上下文提取单词NER从语料库中抽取词并SMOBI是一种基于word2Vec的新技术它在词汇表中搜索具有相似嵌入的词SIMVER是一种新颖的模型,它使用相似的词,如果词在数据集中可用,则在矩阵中分配当前上述技术是最常用的,并被认为是有效的,在这个领域的特征提取。Q2.哪些机器/深度学习模型在这个领域是有效的?在这个研究问题中,突出了该领域中使用的机器/深度学习模型。文献中使用的有效技术是随机森林,深度学习神经网络,决策树,LSTM和SVM。上述模型在产生高结果方面是有效的。分类问题要么是多类分类,要么是多标签分类。在多类中,数据集中有两个以上的类,而在多标签分类中,一个特征有两个以上的标签。为了解决这个问题,在文献中使用Q3.什么样的性能指标已经在文献中使用,哪种指标是最常用的?在这个领域中最常用的性能指标是准确度、精确度、召回率、f-测量、置信度、支持度和提升度。精度是文献中使用最多和最有效的度量标准。其他使用的指标是召回率,f-测量和准确性。置信度、支持度和提升度是用于从数据集中找到匹配和模式的度量。Q4.文献中使用了哪些数据集?这一领域的数据集有限。识别数据集将有助于研究界未来的研究,如果没有可靠来源的数据集,未来的研究将很难在这一领域。识别的数据集为非结构化CTI报告(文本和PDF格式)。它们显示在表1.表1数据集。Sr. 数量报告年1.327份报告20192.249份报告20193.238份报告20204.20,630份报告20195.Google可编程搜索引擎2019Q5. 在此领域中使用的哪些功能被认为对网络威胁归因最重要?有两种类型的特征通常用于此域。高级别妥协事件(IOC)和低级别IOC。战术技术和程序(TTP)、恶意软件和工具属于高级别IOC。低级IOC是IP、URL、哈希、域名、源/目的地端口、时间戳和感染类型。经过文献回顾,很明显,TTP是最常用的功能在这个领域。在实验中,目前研究者多集中在高水平的IOC上,因为其影响力高且持久。识别它们可以迫使攻击者改变他们的工具,这是非常困难的任务。Q6.不同的技术产生了什么结果?不同技术的结果如表2所示。对于CTA属性,最高结果是86.5%的准确度,95.4%的精确度,83.3%召回率和87.9% f-测量。哪些ML和深度学习模型优于文献中的其他方法?深度学习神经网络在这一领域的表现优于机器学习模型。随机森林和支持向量机(SVM)也为机器学习模型提供了很好的结果。Q7.哪些特征选择技术已经在文献中使用?信息增益主要用于这一领域。它是特征选择的常用技术[15]。它的作用是从数据集中识别最有效的特征Q8.文献中最常用的基准框架是什么?在这个研究问题中,已经确定了文献中使用的不同基准框架。MITRE ATT CK是该领域中使用最多的框架。这些基准框架的目的是验证一个特性。CKC也被研究人员在开发MITRE框架之前使用。利用CVE数据库进行特征提取. Thai-CERT于2020年发布的Threat ActorEncy- Clopaedia描述了攻击者的目标和动机。Q9.研究中主要使用哪些网络威胁参与者(CTA)?网络威胁行为者是网络攻击背后的攻击者或个人。在文献中,网络威胁行为者使用不同的名称,因此研究人员也确定了别名。网络威胁行为者主要使用在 研 究 中 的 是 APT28 , Lazarus , Turla , Oil Rig , APT17 ,Fin7 , APT29 , menu Pass , Deep panda , APT1 , admin338 ,Rocket Kitten , APT12 , APT16 , APT18 , APT30 , APT32 ,APT34,Equation,FIN5,FIN6 , Gameredon , Rocket Kitten , CGMAN , Group5 ,Ke3chang ,Lotus Blossom , Magic Hound , Moafee , Winntie ,APT3,APT17,APT28,Molerats,Bronze Butler,Carbanak,Cleaver,Dark Hotel,Copy Kit- tens,Dragonfly,Dragon OK,Dust Storm,Fin10,Copy Kittens.Q10.文献中使用的最重要的工具、标准、表达方式和信息共享平台在本研究问题中,确定了文献中使用的工具、表达方式和信息共享平台。STIX被认为是网络威胁情报最常用的表达方式。可信的指标信息自动交换(TAXII)和Open-IOC是提取威胁源的平台。研究人员还使用了开源情报(OSNIT)。它是一个用于收集有关攻击者信息的开源存储库。表2网络威胁归因结果。作者/参考准确度精密度召回F-测量6.160份报告2020S. 纳温[32]百分之八十六点五95.483.3%87.9%7.227份报告2020联合努尔[15]百分之九十四百分之九十二百分之八十九百分之八十九8.18,257份报告2018[27]第二十七话58.4%百分之五十五52.4%–E. Irshad和A. 巴西特·西迪基埃及信息学杂志24(2023)4349问题11.在这个领域开发的新框架/工具是什么?在这个研究问题中,确定了开发的新框架和工具。STIXGEN:-这是一个工具,用于从原始文本数据中以更详细和全面的方式生成CTI威胁源。它将确保CTI提要在不同组织之间的共享和可用性。数据挖掘-Miner:-该工具的目标是从CTI提要中提取低级别的IOC,与其他工具相比,更有效ATIS:-自动威胁情报融合框架考虑不同的来源,如布谷鸟恶意软件数据库,并试图从这些数据源创建情报它是一个收集工具,收集有意义的信息,并从这些数据中得出关系。Six-gill:这是一个用于暗网的工具,可以从不同来源收集黑客信息。这个工具的目的是从暗网中提取特征。TTP-Drill:该工具提取威胁行动,然后将威胁行动从非结构化CTI报告转换为STIX格式。IOCMiner:-它是一个从非结构化文本(如twitter)中提取IOC的框架。功能史密斯:-这是一个系统来生成一个功能集,用于检测Android平台的恶意软件。SMOBI:-它是一个改进的单词模型包。它为模型中的每个条目分配权重。然后根据余弦相似度在词汇表中找到具有相似嵌入的这是一种表示神经嵌入的方式。使用相似的词,如果数据集中有可用的词,则在矩阵中分配当前索引。它使用跳克模型。Q12.研究人员主要使用哪个安全供应商和外部资源已标识此域中使用的安全供应商和外部源。重要的是要知道研究人员参考的可靠供应商和来源。Symantec、Fire-eye、Crowd Strike、Trend Micro是主要使用的,而从原始数据中提取威胁操作则主要使用Twitter流3. 问题陈述从网络威胁报告中手动提取攻击模式是一项繁琐且具有挑战性的任务。通过提取技术特征,即,TTP工具恶意软件。这些特征无法准确识别和检测现代复杂的攻击者。这些功能不提供有关攻击者配置文件的详细信息由于攻击者的复杂性,需要包括详细的特征集,其中还可能包括目标国家、组织和应用程序等特征因此,有必要纳入这些特征,并分析其对归因过程的影响。4. 目标和意义网络威胁归因是一项具有挑战性的任务。目的是了解实施攻击的攻击者。这是制定应对网络攻击措施的重要一步。这项研究工作的目的是从他们的攻击模式,即TTP,工具,技术,恶意软件,目标组织,目标国家和目标应用程序中分析或属性网络威胁行为者这项工作的目的是分析攻击者是谁进行了攻击。此属性有助于确定攻击者的身份,他们使用了什么工具和技术进行攻击,目标国家/组织和目标应用程序是什么。基于这种知识,组织可以保护他们免受未来的网络攻击。并将其转化为智能。这项工作将帮助安全供应商根据从攻击中识别的攻击模式来确定网络威胁行为者的属性或特征分析攻击者的详细特征将提供有关攻击者的全面详细信息。所提出的方法和早期的主要区别这将有助于安全分析师了解攻击者的详细信息5. 拟议方法针对网络威胁的归属,提出了一个框架它包括三个阶段,即,数据收集、特征提取和网络威胁归因。这些阶段的详细说明如下:5.1. 数据收集在这个阶段,目标是从不同的来源收集非结构化CTI报告。数据收集的来源是研究社区、安全供应商和谷歌可编程搜索引擎发布的报告。这一领域的数据集有限。大多数实验都是在不平衡的数据集上进行的,这会影响结果。因此,此阶段的目的是收集数据集以执行实验。提供更多的数据集将有助于今后的调查。本阶段收集的网络威胁归因数据集如表3所示。5.2. 特征提取特征提取阶段包括三个步骤。第一步是文本预处理阶段或称为文本清理。第二步是特征提取,在该步骤中,在来自不同网络威胁情报数据集的特定于域的嵌入上训练称为attack2vec的新型嵌入模型。第三步是语义映射或特征验证阶段,其中使用余弦相似度在这一步中,从基准框架中验证提取的特征5.2.1. 文本预处理特征提取的第一个阶段是清理文本,称为文本预处理。对于文本预处理过程,如将文本转换为小写,删除停用词,标点符号,特殊字符,标记化,词形化等。这些单词可能会影响模型的性能,因此有必要删除常见单词并清理文本。在python中使用NLTK库来删除停止字文本预处理的过程如图所示。第 六章表3数据集。报告描述[15]第十五话2019[27]第二十七话2019[32]第三十二话2020[27]第二十七话2019[30]第三十话2018[28]第二十八话2019[29]第二十九话2020[16]第十六话2020[15]Google可编程搜索引擎(Google)从非结构化数据中提取特征是一项具有挑战性的任务E. Irshad和A. 巴西特·西迪基埃及信息学杂志24(2023)4350见图6。 文本预处理。5.2.2. Attack2vec嵌入模型清理文本后,下一个任务是从非结构化CTI报告中提取特征。为此,开发了一种新的嵌入模型,称为它基于最先进的word2vec模型。根据[61,62],一般嵌入模型在特定领域的模型(如网络安全)中不会产生良好的结果。因此,需要构建一个在特定领域嵌入上训练的模型由于word2vec模型是在维基百科页面上训练的,因此在特定领域中不会产生良好的结果。为了克服这个限制,为了在特定领域的嵌入上训练攻击2vec,收集来自网络安全领域的数据集用于训练模型。嵌入模型的词汇量为200万字。Attack2vec模型由输入层、隐藏层、见图7。 Attack2vec神经网络和输出层。权重已分配。Attack2vec算法的工作原理如下所示,然后将模型输入到神经网络中示于图第 七章用于嵌入模型训练的数据集如下所示。a. 20,630 CTI报告[27]。b. 18,257 CTI报告[30]。c. 17,000份CTI报告[28]。d. CVE数据库[64]。e. 恶意软件样本报告[51,65算法:Attack2Vec(在特定领域输入:-F-CTI语料库WF - Word Corpus,set of words in corpusWD - Word Corpus after text pre-processingWu输出:-V:矢量表示1.初始化W F大小|Max|用文本文件F2中的单词。x:= 03. W D?NLTK(W F [max])4. 对于i:= 0至|Max|做5. Temp:= WD [i]6. 如果温度:=€ S7. S [x]:=温度8。x = x+19。我?i+110.小维 S有两种类型的嵌入模型。连续词袋模型(CBOW)和跳格,如图所示。 八、在CBOW模型中,目标词是从上下文中搜索的。该模型速度更快,适用于更大的数据集。在skip gram模型中,从对应的目标词中搜索上下文词在发现背景很重要的情况下,这是优选的。在本分析中,使用两种模型进行测试。不同的窗口大小,即,使用n = 3、5和7对应的向量大小为100。与CBOW相比,Skip gram模型显示出良好的结果,因此它优于CBOW。在特定领域的数据集上训练模型之后,下一个任务是提取特征。在这项工作中提取的特征集如表4所示。为了了解不同机器学习算法(如决策树,随机森林支持向量机)嵌入模型的性
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功