自编码器和softmax算法的云计算持续性威胁检测方法

190 浏览量更新于2023-12-05 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列10（2021）100067基于自编码器和softmax回归算法的云计算持续性威胁攻击检测方法法尔加纳河阿卜杜拉耶娃阿塞拜疆国家科学院信息技术研究所，9A，B。Vahabzade Street，AZ1141，Baku（巴库），阿塞拜疆A R T I C L E I N F O保留字：云计算网络安全双重认证一次性密码深度学习自动编码器Softmax回归算法A B S T R A C TAPT（Advanced Persistent Threat）是一种复杂的攻击类型，通过长时间驻留在受感染的系统中来窃取个人数据当APT攻击发生在动态和复杂的基础设施（如云）中时，传统方法很难检测到它们。为了克服现有方法的局限性，本文提出了基于自动编码器的深度学习方法来检测APT攻击。该模型的优点是通过识别数据库中特征之间的复杂关系来实现高分类结果。此外，该模型通过减少编码器中的数据大小来简化对大量数据进行分类的过程。在这里，首先，应用自动编码器神经网络，并以无监督的方式从网络流量数据中研究信息特征在信息特征研究后，softmax回归层被添加到构建的自动编码器网络的顶层，以分类APT攻击。在这项研究中，通过添加不同层构建的深度神经网络模型在一个对科学研究开放的数据库上进行了测试，并与现有方法进行了比较;所提出的方法在检测APT攻击方面取得了优异的结果。所提出的APT检测框架的平均检测准确率达到98.32%。提出了一种将该方法应用于云环境的模型，并提出了一种基于OTP（One-Time Password）机制的双因素认证系统，以增强云信息系统的安全性，防止APT攻击。1. 介绍APT是当今组织它们由最有经验和资金充足的攻击者执行，目标是私人组织的机密信息。APT的目的是将信息提取到外部主机（数据窃取，数据提取）。2013年从Adobe Leak窃取的9 GB加密密码数据和2015年AshleyMadison数据库的40 GB被盗被登记为APT事实[ 1，2 ]。由于APT试图保持匿名，并且通常使用零日攻击（应用程序开发人员或硬件供应商尚未发现的软件故障，并且可以被利用），因此无法使用现有的IDS解决方案检测到它们这些攻击大多数在许多年内都没有被发现。例如，被称为红色十月的APT攻击已经活跃了五年多[3]。APT攻击是针对任何特定组织的持续、有针对性的攻击，并分几个阶段进行[4]。APT攻击由六个组件建模[5]。在文献源中检测APT提出了在相关组件中检测威胁的问题已经进行了大量的研究，以确定主要的APT攻击的组成部分：检测网络钓鱼电子邮件中的恶意PDF文件;在命令和控制（C C）通信期间检测恶意SSL证书;在 APT攻击的最后阶段检测数据泄漏。在APT成功组织并准备攻击的情况下，在不同阶段建立防御被认为为时已晚，特别是在最后阶段。在这种长期和不确定的攻击背景下，有必要开发新的人工智能方法和适当的分析技术，智能地收集威胁，以检测APT类型的攻击，并在执行清除之前对其进行保护。已经开发了简单和深度的神经网络模型来检测对主机和网络系统的网络攻击ANN是一种简单的神经网络，由一个或两个隐藏层组成，而深度网络有大量的隐藏层和不同的架构。深度学习被研究人员广泛使用，因为它能够深入研究模拟人脑自然行为的计算过程[6]。然而，这些方法具有非常高的误报率，并且难以检测新类型的攻击。深度学习被用于本研究，因为它能够电子邮件地址：a_farqana@mail.ru。https://doi.org/10.1016/j.array.2021.100067接收日期：2020年10月29日;接收日期：2021年3月8日;接受日期：2021年4月12日2021年4月21日在线提供2590-0056/©2021由Elsevier Inc.发布这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表阵列期刊主页：www.elsevier.com/journals/array/2590-0056/open-access-journalF.J. 阿卜杜拉耶娃阵列10（2021）1000672深入分析网络数据并自动导出特征向量本身。Hinton首先使用的深度学习的概念以及特征的研究，意味着从介绍性数据中研究特征描述[7]。文章中提出的方法的想法是，在目前的情况下，如果特征是物理选择的，则使用深度学习方法自动选择信息该方法将信息编码器应用于训练数据，首先研究信息特征，然后使用Softmax回归层对APT类型进行分类。工作的主要贡献包括：1. 建立了APT攻击检测模型2. 描述了APT的多步结构3. 提出了APT检测系统的体系结构4. 建立了APT检测系统在云环境下的应用模型5. 提出了一种基于OTP机制的双因素认证系统，以确保云信息系统能够抵抗APT攻击。6. 所提出的检测APT的方法已经在网络流量上进行了测试。本文的结构如下。第2节描述了计算机网络攻击的类别，概述了高级持续性威胁的概念，并定义了APT攻击的独特特征第三节回顾了相关的工作文献。第4节定义了问题陈述。第5节提出了基于Autoencoder的APT检测模型，描述了该方法在云计算环境下的部署模型，并给出了APT攻击防御系统的体系结构。第6节介绍了对真实网络流量数据的实验评估结果。最后，第7节给出了工作的结论。2. 计算机网络攻击对计算机网络的攻击分为两类[8]：1) 主动攻击。攻击者在主动攻击的情况下操纵网络的受损数据或硬件。信息注入、数据修改、包攻击属于主动攻击。2) 被动攻击。被动攻击通过嗅探和窃听来收集关键信息、网络特征或研究要传输的数据。APT作为一种高级攻击类别，是由多个攻击组件组成的。在这种攻击中，信息的提取是以被动攻击的形式进行的，以便研究系统的状态及其缺陷，并因此进行主动攻击，以严重破坏系统。APT包括几种攻击方法。2.1. 高级持续性威胁APT攻击首先针对军事组织进行，作为网络干预[9]。最早的APT攻击之一是1996年开发的Moonlight Maze。这次攻击的目标是美国的几个军事和国家网络。然而，这些攻击后来扩大，现在针对工业和国家组织[10，11]。此外，教育、金融、宇宙探索和航空、能源供应、化学、电信、医药和咨询领域也成为APT攻击的目标。APT攻击利用各种类型的设备的漏洞来执行攻击。由于其特点，APT攻击的目标是个人电脑和移动设备。攻击者利用复杂的攻击技术远程控制受损硬件并提取组织和政府机构的机密信息。APT通常使用包含恶意应用程序的附件，这些附件能够破坏系统或包含链接的鱼叉式网络钓鱼电子邮件[12]。APT与选定为目标的组织的信息技术结构建立持续和隐蔽的联系，以获取（提取）可以破坏组织关键方面或制造障碍的信息APT使用几个攻击步骤（例如，社会工程，C C通信）来通过安全解决方案[13]。它试图用以下表达式中使用的缩写来解释APT：高级-持续在这种情况下，攻击者建立了一个长期的网络存在，并试图严重危害系统。到目前为止，最长的APT攻击是APT1组，持续了4年10个月。威胁由于目的是窃取机密数据，APT攻击通常会对目标造成大规模破坏对特定APT样本的分析表明，所有APT攻击之间没有相似性，它们是针对每个目标专门定制的[14]。然而，APT攻击的步骤在大多数攻击中是相似的，并且根据每个步骤中使用的特定方法而有所不同在APT的所有工作过程中，威胁代理最初收集开放源以确定目标。攻击者在获得密钥并建立支持点后，提升其权限，在网络中传播并最终获得机密信息。根据APT攻击的实施顺序，不同来源给出了APT攻击的不同步骤[5，15]。APT的多步结构可以描述为图1所示。1.一、2.1.1. 侦察在此阶段，攻击者收集有关目标组织的资源、雇员及其与可用于达到目标的其他主体的关系他们扫描网络，以确定网络的开放服务，网络边界使用的安全系统以及可以访问目标信息的员工。此后，攻击者通过利用社交网络（例如LinkedIn，Facebook）中的公开信息为每个目标员工创建个人资料，他们可以在其中开设帐户。2.1.2. 初始危害鱼叉式网络钓鱼电子邮件在此阶段通过使用在侦察阶段收集的信息创建。此电子邮件可以包括组织所组织的活动的邀请以及用于上载与此活动相关的文档的人员的URL地址。当打开带有附件的网络钓鱼信件时，攻击者通过使用零日漏洞危害机器，以便进入目标网络。安装在受害者硬件上的恶意软件，如远程访问特洛伊木马（RAT）或远程管理工具。电子邮件是恶意软件用于进入组织的基础设施的常见访问基于USB的恶意软件，通过计时器激活的特洛伊木马）。2.1.3. 捕获密码并维护访问权限恶意软件在下载到组织网络中的目标员工的硬件后被安装和激活。此后，恶意软件建立从受害者的硬件到远程主机的C &C连接。在建立连接后，攻击者继续F.J. 阿卜杜拉耶娃阵列10（2021）1000673Fig. 1. APT的多级结构秘密收集硬件安全配置信息及相关系统信息，获取密码，收集用户邮件，以便进行下一步攻击，收集网络用户名及一般网络文件夹中的目录列表。在这个阶段，RAT连接到&攻击者的C C服务器，以便接收要在目标网络上执行的命令。这个阶段的特点是连接尝试不是由攻击者执行，而是由受害主机执行。2.1.4. 权限提升这一阶段提供了组织网络中的长期持久存在攻击者在网络中水平移动，检测存储敏感信息的服务器和具有优先访问权限的用户，并创建收集和导出目标信息的策略。运营商经常用钓鱼信件瞄准特权用户。如果攻击成功，他们会升级对信息的访问权限2.1.5. 数据收集横向移动在该阶段，运营商尝试通过使用在前一阶段收集的优先用户的账户数据来保持对目标信息的访问。通过使用复杂的工具，如果组织的安全配置发生突然变化，攻击者就会建立超级C& C通道。当获得对目标信息的访问权时，在充当“暂存点”的服务器中创建该信息的一个或多个超级连续副本。在此阶段，信息在提取之前被分割、整理和编码。攻击者试图通过在此阶段访问有价值资源所需的更多升级权限来访问目标网络中的其他主机。例如，RAT可以在它所在的网络中执行内部扫描，或者在其他内部主机中发起新的连接（通过Secure Shell，SSH）。2.1.6. 萃取在此阶段，在中转点服务器中收集和打包的信息通过加密通道传输到充当投递点的使用多个投放点服务器是一种欺骗性策略，目的是防止研究人员检测到数据的最终投放点在此阶段，窃取的数据被发送到攻击者管理的一个或多个远程如果攻击者的目标是持续窃取数据，信息可以2.2. APT攻击APT拥有特定的特征，使得它们很难被发现。与传统攻击不同，它们通常使用零日漏洞并针对特定组织。APT另一个显著特点是，APT不是由私人进行的，个人，但网络犯罪组织[15]。本集团各成员均拥有特定经验及知识。与DDoS攻击不同，APT是通过计算机病毒，特洛伊木马和蠕虫组织的攻击类型，通常试图伪装在网络设备（个人计算机，服务器，移动设备）中。APT的特点是将网络内部的数据提取到网络的外部设备DDoS攻击具有大规模和破坏性，而APT具有相反的性质;它们是隐蔽的，隐蔽的，可以组织为小型或大型攻击。长期攻击的目标是尽可能长时间地保持不被注意，以实现最大的实现。APT不被视为分布式攻击。APT攻击的特点是隐蔽性强.专家攻击者模仿APT中的普通攻击者然而，与APT不同的是，传统恶意软件试图尽可能多地传播僵尸网络攻击和APT之间有很大的区别。僵尸网络中有成千上万的主机参与，而APT是面向特定组织并由特定人员控制的攻击。僵尸网络方法的目的是检测主机组中的类似这是由于APT只能危害给定数量的主机，而C C服务器使用受害主机的子集因此，不可能在APT的情况下执行僵尸网络检测方法中建议的大范围聚类分析，以便确定作为异常流量模板的多个主机。此外，危害策略也不同：APT使用鱼叉式网络钓鱼和零日漏洞攻击来危害受害者计算机，而僵尸网络则以更具侵略性的方式复制自己。内部威胁与APT攻击有一些共同的特征APT试图控制组织内的真实主机，但攻击者试图模仿正常行为以避免被检测到。 APT与内部威胁的主要区别在于内部人员不会通过网络进行数据提取。因此，检测内部威胁的大多数方法是基于对基于主机的日志文件和蜜罐策略的分析。与APT检测不同，在检测内部威胁时不进行网络流量分析[16]。3. 相关工作Neupane等人[17]提出了一种称为Dolus的方法，用于检测针对云平台中托管的服务的面向目标的攻击（DDoS和APT）。在本研究中提出的两阶段Dolius集成学习系统中，DDOS攻击的检测利用了威胁数据挖掘。第一阶段包括异常检测，以实现可察觉事件（端口耗尽）的检测第二阶段用于区分DDoS攻击事件，F.J. 阿卜杜拉耶娃阵列10（2021）10006742½]1/1五种主要的攻击方式为了实现对APT攻击的抵抗，Dolus系统采用了ADAPT（Automated Defense againstAdvanced Persistent Threats）策略。ADAPT模块的目标是通过跟踪在公司网络边界之外提取的数据来检测受APT危害的设备。使用可疑性评分来检测APT并确定受APT影响的系统。可疑性分数被分配给网络内或网络外的每个设备。分数值是根据唯一丢弃点的数量、连接总数和传输的字节总数确定的被视为可疑的外部设备最终与内部网络的设备隔离多元高斯算法用于检测异常。为了开发集成方法，采用平均或基于贝叶斯的多数投票方法。Stojanovi’c[18]对检测APT攻击领域的现有数据库进行分析，并研究在大型企业网络、网络物理系统、云计算系统、金融网络和物联网网络中进行的描述了这种类型的APT攻击的不同阶段Gha firet al.[19]基于机器学习开发名为MLAPT（基于机器学习的APT）的系统，以检测APT攻击。 MLAPT由三个模块组成：威胁检测、事件关联和攻击预测。事件关联块的功能是在检测到的事件和APT攻击类型之间创建使用相关性方法的基本原理是降低MLAPT检测系统的假阳性率。Giura等人[20]将APT建模为攻击金字塔。攻击目标位于攻击金字塔的上层，横向平面描述了可以记录攻击相关事件的环境（例如，物理、用户、网络、应用程序平面等）。攻击金字塔的层所提出的检测方案将与组织中记录的安全性相关的所有事件起来。Huang等人[21]提出了一种基于博弈论的动态方法，该方法检测网络物理系统中隐蔽攻击者和主动防御者之间的长期相互联系Andrew [22]提出了一种基于APT网络流的检测方法。该方法通过对APT通信的统计建模来进行检测Zimba等人[23]提出一种基于贝叶斯网络的攻击路由加权建模方法，建议用于APT数据提取的内部主机排名每个主机的行为被建模为多维空间中的特征点。之后，基于特征空间中的可疑位置将得分值分配给每个内部主机，并进行排名Johnson等人[27]提出了一种基于图论的网络用户权限增长风险评估方法，用于在权限提升阶段检测APTVance等人[28]为了分析网络通信，开发一种通过应用异常统计检测方法来检测APT攻击的方法Xiao等[29]为APT防御的理论研究提供了展望这项研究揭示了APT攻击者的主观观点对云存储数据安全级别的影响通过构建APT攻击者与云存储保护者之间的非对称演化博弈模型，寻找APT防御博弈中的演化稳定策略. Rosenberg等 [30]提出基于深度神经网络的DeepAPT模型来检测APT攻击。这项工作和我们的工作之间的区别是，它不提供有关APT被检测到的阶段的信息，并且用于检测APT的特征不反映APT的实际特征此外，在我们的研究中首次提出了一种基于softmax分类器与自动编码器模型的合成方法用于APT攻击检测领域，该方法具有98.32%的分类准确率使用自动编码器的优点是，通过减少编码器的大小，该模型可以有效地更快地处理大量数据。此外，该模型通过识别数据集中特征之间的复杂关系来实现高分类结果。E-X方法仅限于检测APT的一个步骤，而忽略其他APT活动。这意味着如果检测系统忽略APT的任何恶意块，则完整的APT场景将保持未检测。此外，在不同的APT阶段检测单独的恶意活动，例如数据提取、恶意URL连接等。不能被认为是APT的完全检测这些方法的另一个缺点是，由于真实事件和异常事件的匹配，这些方法在检测APT攻击时允许高误报检测错误4. 问题陈述APT生成的相互连接的攻击路径建模，假设训练数据D<$fxi;yign由n个tackers通过利用云组件中的故障那条蛇-给出了APT样品。这里xDi¼1在攻击期间，对云的组件的故障产生虚拟攻击路由。目标系统的故障被描述为攻击图。在构造的无环图中确定每条攻击路径的节点和箭头。这些节点和箭头被认为对选择抵抗策略很重要。提出了一种最短攻击路径的优化算法通常，所有的APT攻击都是从鼓励用户使用社交网络钓鱼、电子邮件垃圾邮件、电子邮件网络钓鱼开始的。在这里，网络钓鱼将用户引导到虚假的域，用户最终下载恶意软件。因此，通过确定未知域来检测APT攻击起着重要的作用。Cho等人[24]提出了一种基于对未知域的访问进行监控的方法这里，当检测到未知域时，为用户生成警告信号。Zimba等人[25]提出了一种半监督机器学习方法，以检测APT攻击。这里的目标网络被建模为全局网络，而检测到的APT攻击网络被建模为无标度网络。为了描述APT攻击过程中节点的状态变化，将节点在时域中的过渡状态建模为有限自动机Marchetti等人 [26]审查检测可疑主机的问题。这里提出的方法在提取阶段检测APT攻击为此目的，收集交通数据并确定与提取阶段有关的特征。做法是i2R 是一种D维APT攻击vector和yi1;K是攻击类的对应类型。在学习阶段，需要检测不参与给定数据集的新的未知攻击5. 基于自动编码器APT检测系统的体系结构如图所示。二、提出的检测框架包括两个模块：特征提取和攻击分类。首先，通过将自编码器神经网络应用于网络流量来提取特征，以检测APT生命周期中使用的技术。由单独的技术生成的事件的特征向量作为模块输出而产生。生成的特征向量随后被传输到分类在本模块中，对与相同APT攻击场景更相似的特征向量本文利用深度自编码器神经网络来学习训练数据fxign。Autoencoder是一种对称的神经网络，通常以无监督的方式学习数据库的特征Autoencoder通过重构输入数据x i来构建特征的描述。有时自动编码器用于减少PCA中的比例。PCA采用线性函数进行数据变换，而自动编码器采用非线性函数。在F.J. 阿卜杜拉耶娃阵列10（2021）1000675S半]Ex;~x¼2Θzi？xi-~xi？图二、提出APT检测框架。最简单的意义上，自动编码器是由编码器，隐藏和解码器层（Fig. 3）。应用非线性函数fΘ，以便将访问向量xi映射到1X？我编码器部分中的隐藏层zifθxi θxiθ（1）其中，W是编码器的权重矩阵，b是编码器的偏置向量，S是S形激活函数，并且Θ是映射参数。Sigmoid函数的计算公式为S1/2 = 1/2。在解码阶段，为了重构输入数据xi，输入数据通过非线性激活函数映射到隐藏层g0xi¼S.W0中国（2）其中，W0是dh × d0维权重矩阵X，b0是偏置向量，Θ0是映射参数W0;b0。在自动编码器模型中，输入数据首先被压缩，然后，这些数据被用作解码器的输入数据，以修复原始数据，从而学习隐藏层。它试图在训练过程中尽量减少重建误差（原始数据和其小规模重建之间的差异对于s个训练数据，该差异计算如下：θfW;bginΘEx;~x（4）所提出的APT检测模型利用softmax回归层来进行多类分类（逻辑回归可用于二进制分类）（图1）。 4）。由于网络的规模很大为了减少数据的规模，提高检测的有效性是很重要的该方法通过自动编码器的隐藏层减少了数据量。通过在编码器层使用非线性函数，将多个特征转换为特征集。特征的选择是通过算法进行的，而不使用人类知识。选择特征的目的是找到更好的学习观察。5.1. APT检测系统在云环境开发的攻击检测系统必须正确定位，以保护云环境免受攻击的影响由于云系统通过互联网将数据传输给用户，因此有必要将检测模块定位在互联网和云之间的传输线上。所提出的检测模块在云环境中的应用模型如图所示。五、5.2. APT防护模块的体系结构在准备过程中，APT攻击会隐藏有权访问信息的用户在APT中，登录凭证可以通过社会工程、使用某种形式的侧信道攻击、窃听（不受保护的）通信和猜测来获取图三. 自编码神经网络见图4。构建了APT检测自编码器神经网络模型。2（三）F.J. 阿卜杜拉耶娃阵列10（2021）1000676图五、提出的方法在云计算环境下的部署模型。见图6。用户对云敏感数据的双因素身份验证（2FA）。密码. 在APT攻击中，攻击者通过代表用户登录用户的计算机来获取用户的密码并获取机密信息。为了防止APT攻击的发生，本文提出了一种抗APT攻击的云服务安全体系架构（图6）。该架构基于双因素身份验证机制，并利用传统的静态和一次性密码（OTP），进行用户认证。OTP只能用于一次性使用，并且通常受到时间因素的限制。OTP具有动态特性。每个新的OTP基于查询生成为唯一的数字序列。 OTP由用户输入到网络终端。对于认证系统，用户拥有关于真实OTP代码的信息确认该账户属于用户。利用检察官办公室与传统的F.J. 阿卜杜拉耶娃阵列10（2021）1000677表1MalwareTrainingSets数据集的功能。#特征#特征#特征1文件访问28临界过程96勒索软件文件修改2infostealer_ftp49服务启动97antivm_vboX_files3签名修改主机文件50net_dns98静态PE异常4删除zoneid广告51勒索软件文件99自我复制5禁用_uac52病毒100反分析检测文件6静态版本信息异常53文件_写入101反DBG器件7stealth_web历史54抗沙悬浮102文件删除8reg_write55嗅探器_winpcap103驱动器负载9网络_cnc_http56抗沙布谷疹104反恶意软件_元扫描10api_resolv57文件_删除105修改证书11隐形网络58反病毒vmware设备106antivm_vpc_files12antivm_generic_bios '：6，59Ransomware_恶意软件107stealth_file13多态60infostealer_keylog108模拟剂14反类属磁盘61ClamAV109禁用Windows Defender15反vpc密钥62packer_vmprotect110勒索软件消息16antivm_Xen_keys63抗沙剂111网络_http17创建_largekey64持续服务112注入流量18exec_crash65antivm_generic_diskreg113反dbg_windows19反SandboX_sboX ie_libs66侦察检查114抗沙睡眠20模拟图标67勒索软件扩展115隐形隐藏寄存器21隐形隐藏扩展68网络连接116disables_browser_warn22modify_proX y69抗病毒病毒117antivm_vmware_files23办公室安全70侦察信标118infostealer邮件24旁路防火墙71删除卷影副本119ipc_namedpipe25加密的ioc72浏览器安全120持续自动运行26滴管73修改_桌面_壁纸121隐形隐藏通知27删除74网关122服务创建28mimics_filetime75注射器远程螺纹123reads_self29银行家宙斯网址76进口124互斥存取30原点langid77过程兴趣125反AV检测器31安蒂穆酒区78bootkit126antivm_vboX_libs32所需过程79reg_read127抗沙X_sunbelt_libs33antisandboX_restart80隐形窗128antiav_detect文件34侦察计划81下载器驾驶室129注册访问35str82多用户代理130隐形超时36防沙X_unhook83每秒字符131antivm_vboX_keys37反AV服务停止84disables_windowsupdate132持久性广告38反类属系统85打包机_upX133fraudguard_威胁_intel_api39cmd_exec86禁用系统还原134深冻互斥40网锥87ransomware_radamant135modify_uac_prompt41bcdedit_命令88infostealer_browser136api_spamming42秒熵89注射_rwX137修改安全中心警告43pe_sec_name90删除self138antivm_generic_disk_setupapi44创建空值91文件读取139小马行为45打包机熵92recon_fingerprint140银行家宙斯互斥46origin_source_langid93antivm_vmware_key141net_http47鼠网94infostealer_比特币142dridex行为48cryptAM95安蒂穆葡萄酒功能143互联网下载器144标签静态密码是云基础设施抵御APT攻击的最有效安全机制。该系统的工作原理如下：步骤1. 用户在登录时将其用户名和密码发送到服务器。步骤2.服务器检查用户是否在系统中注册，根据用户信息和记录的时间生成一次性OTP密码，并通过短信发送到用户的手机。步骤3.此后，用户将经由SMS（短消息服务）接收的OTP代码输入到系统。步骤4.如果客户端生成的一次性密码与服务器生成的一次性密码匹配，则用户通过身份验证。用户名和密码与OTP代码一起使用使得APT攻击和个人个人信息盗窃对系统的访问得以维持。 OTP生成器的目标是进一步复杂化对有限资源的未经授权访问的盗窃，例如机密数据库。在应用这种方法的过程中，攻击者不可能窃取用户如今，所有系统都使用用户名和密码进行保护，这是一种单因素身份验证机制。然而，单因素身份验证系统在保护云基础设施免受窃取个人信息的网络攻击方面并不令人满意存在与密码的使用相关的几个缺点，并且这些缺点被认为是弱认证机制[31]。使用双因素身份验证以消除密码问题在这种情况下，采用了一种特殊的算法，该算法生成通过SMS发送到移动电话的6. 实验6.1. 数据集描述APT攻击的检测被认为是科学界最复杂和最受欢迎的研究领域，该领域缺乏基准数据集导致了严重的问题。本研究使用MalwareTrainingSets数据集，F.J. 阿卜杜拉耶娃阵列10（2021）1000678¼¼¼¼¼做实验[32]。292、2024、434、2014个样本分别包含在针对APT1、Crypto、Crypto、Zeus恶意软件的编译数据集中。数据集的特征见表1。网络的行为特征被用来检测APT。这些特征以分类算法输入的向量形式传输。所用属性的给定示例如下：1) 从内部主机传输到外部主机的数据的兆字节大小该特征指示传输的信息量的变化。如果我们观察到从任何主机传输的信息量急剧增加，则可以认为它受到APT攻击的影响。2) 从内部主机到外部主机发起的连接数。此功能表示由内部主机发起的数据传输过程因为提取是由内部主机启动的在这里，我们考虑很少建立的关系，因为APT攻击者试图创建少量通信以避免检测。3) 连接到内部主机发起的通信的外部IP地址数此特征是指与每个内部主机相关联的不同目的地点的数量的变化如果连接到内部主机的外部IP地址数量保持不变，而传输的字节数显著增加，这可能表明主机受到APT攻击的影响，数据已被窃取。为了在本研究中进行实验，构建了三个数据类：APT1，Crypto和其他类型的攻击。在数据预处理阶段，将数据分为训练集和测试集除此之外，为了使数据对分类结果的影响相等，对其进行了归一化。训练数据集和测试数据集之间的区别在于，我们使用训练数据来拟合模型，使用测试数据来测试模型。为了实现这个过程，数据集被分为训练集和测试集，通过对数据集进行训练和测试模型来检查准确度和精度在这项研究中，80%的数据用于训练，20%用于测试。在实验过程中，自动编码器神经网络首先在MalwareTrainingSets数据集上进行训练，然后通过将作为自动编码器输出的结果传输到softmax回归算法的输入来对攻击进行分类。本文的实验是在北京大学信息技术学院数据中心进行的图第七章构建自动编码器模型。阿塞拜疆国家科学院（AzScienceNet），具有以下特征（Ubuntu16.04.3 LTS AMD 64系统，331.2 GB内存和2933.437 MHz CPU）。在本文中，Autoencoder模型是使用Theano的Python包库构建的自动编码器模型架构的一部分是编码器，另一部分是解码器。网络的编码器部分由5层组成。解码器执行与编码器相反的操作，由5层组成编码部分包括五层，分别有14、7和7个节点。编码架构连接到包括3个节点的潜在视图空间，然后连接到具有7、7和14个节点的解码架构。最后一层包括作为输入层的确切数目的节点在本研究中，输入层的节点数为3。Relu被用作编码层和解码层中的激活函数在我们重建输入数据的最后一层，我们使用softmax激活函数。构建的自动编码器模型的总结如表2所示。表2中给出的参数是在MalwareTrainingSets数据集上进行实验的结果通过将自动编码器模型应用到所考虑的数据集中，获得的预测结果如表3所示。在所进行的实验中，自动编码器模型在数据集上提供了最佳结果从表3中，我们可以看到，该方法提供了最好的结果，并且所述方法在训练和测试过程中的RMSE值分别达到0.0010和0.0011值。从这些值来看，所构建的自动编码器模型的优势是显而易见的。相反，在卷积神经网络和简单神经网络中，这些值是值得的。如表3所示，可以看出，自动编码器算法已经训练了损失很小且精度很高的神经网络（训练损失0.0010，训练精度0.9932）。在测试过程中，该模型也取得了低损失和高精度的数值（训练损失0.0011，训练精度0.9897）。这些结果表明，神经网络在预测过程中没有受到很大的损失，几乎可以很好地进行预测（测试精度为0.9897）。由于在所开发的自动编码器模型的训练期间迭代次数增加，该模型产生更准确的结果，表2构建自动编码器模型。层（类型）输出形状参数编号input_23（输入层）(None（3）0dense_89（密集）(None（14）56dense_90（密集）(None（7）105dense_91（密集）(None（7）56dense_92（密集）总参数：241可训练参数：241不可训练参数：0(None（3）24表3自动编码器模型在MalwareTrainingSets数据集上的预测结果方法度量值Autoencoder列车损失0.0010训练精度0.9932测试损失0.0011测试精度0.9897卷积神经网络（CNN）列车损失1.5943训练精度0.5208测试损失1.6912测试精度0.5103简单神经网络列车损失0.7479训练精度0.6613测试损失0.7881测试精度0.6906F.J. 阿卜杜拉耶娃阵列10（2021）1000679见图8。所提出的方法的损失和精度函数。表4攻击分类准确性。攻击类型AutoencoderKNNSVMCNNSNN数量的样本APT1（0）0.98320.33210.37410.42330.7311119加密货币（1）0.60880.58340.73010.07410.5912795第1002章：攻击型攻击（二）0.12680.73420.57240.11120.65231041见图9。MalwareTrainingSets数据集上的方法比较。最小的损失这种情况可以清楚地观察到视觉图。八、在良好的预测模型中，测试线的动态必须在训练线的方向上，并且应该尽可能接近它如图所示。 8，训练曲线几乎完全重叠测试曲线。在表4中，描述了自动编码器结果与经典分类算法在精度度量上的比较分析。如表4所示，自动编码器算法的结果优于其他算法的结果如观察到的，自动编码器算法的APT1攻击类检测效率优于KNN算法。因此，KNN算法的准确度为0.3321，而该测量在自动编码器算法中达到0.9832。自动编码器在Crypto（1）攻击类型的分类中表现出良好的性能。因此，该算法能够以0.6088的准确度识别该类中的点，而KNN能够基于准确度度量以0.5834的准确度识别。自动编码器在识别与第三类有关的数据方面表现不佳实际上，该算法已经不能识别来自该类的点。这与第三类攻击是由几十种不同特征的攻击组合而成有关。KNN产生了错误识别错误，并以0.7342的准确率识别了这类攻击在其他算法中也观察到了相同的地貌除此之外，CNN图10. 自动编码器的混淆矩阵。F.J. 阿卜杜拉耶娃阵列10（2021）10006710见图11。 KNN算法的混淆矩阵算法不能在这个数据集上工作，因此，它不能识别所有类的样本。为了更好地展示结果，图。9直观地说明了方法的比较。恶意软件训练集上自动编码器算法的混淆矩阵如图所示. 10.根据图10，自动编码器算法已经能够收集沿着混淆矩阵x的对角线的数据，并产生更少数量的错误识别点。这是我们所期望的结果。然而，KNN算法的混淆矩阵产生了大量的错误识别，实际上，无法识别APT1类中的点（图1）。 11）。7. 结论APT攻击使用各种更复杂的方法和工具攻击目标，目的是窃取机密和敏感信息。APT是一种具有多个步骤和特定策略的高级攻击类型。本文提出了一种用于APT攻击类型分类的深度自编码器神经网络。本文提出的方法的要点是，虽然在现有的研究中，特征是物理选择的，但本研究采用深度学习来自动选择信息特征。根据这种方法，首先通过将自动编码器应用于训练数据来学习信息特征，然后使用Softmax回归层对APT类型进行分类。在未来的研究中，我们计划基于各种数据库上的自动编码器，使用其他类型的分类器（卷积自动编码器）开发检测APT攻击的新方法。此外，其中一个主要目的是开发新的创新自我训练方法，以在APT的指导下对参与数据提炼的主机进行排名。作者声明Fargana J. Abdullayeva：概念化，调查，方法学，实施，写作。竞合利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报告的工作。确认这项工作得到了阿塞拜疆共和国总统领导下的科学发展基金会的支持-批准号：EIF-BGM-4-RFTF-1/2017-21/08/1。引用[1] 全球最受欢迎的数据泄露事件。2015[http://www.informationisbeautiful.net/visualizations/worlds- biggest- data-breaks-hacks/）]。[2] 21世纪15大数据泄露事件，https://www.csoonline.com/article/2130877/the-biggest-data-breaches-of-the-21st-century.html。[3] [10]杨文，王晓，王晓. 可信计算与高级持续威胁：防守者能赢得这场比赛吗？IEEE第10届泛在智能和计算国际会议; 2013年。p. 396-403[4] Gha Firr I，Prenosil V.高级持续威胁攻击检测：概述。International Journal ofAdvances in Computer Networks and Its Security 2014;4（4）：50[5] 保罗·朱拉，王伟。一个基于上下文的高级持续威胁检测框架。In：Proc. Of theInternational Conference on Cyber Security; 2012. p. 69比74[6] DijkCV，Williams P. 人工智能的历史。审计专家系统1990;第1部分。21 比16[7] Hinton GE，Salakhutdinov RR.用神经网络降低数据的维数

下载后可阅读完整内容，剩余1页未读，立即下载