IRS分区：入侵响应系统的DeepQ-Networks和系统分区的自适应保护软件原型

64 浏览量更新于2024-01-25 收藏 1.44MB PDF 举报

深度Q网络

迁移学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件X 19（2022）101120原始软件出版物irs-partition：一个使用Deep Q-Networks和系统分区的入侵响应系统Valeria Cardellinia，Emiliano Casdelchiob，Stefano Iannuccic，Matteo Lucantoniob，Sudip Mittald，Damodar Panigrahid，Andrea Silvia意大利罗马大学Tor Vergatab意大利罗马萨皮恩扎大学c意大利罗马第三大学美利坚合众国密西西比州立大学ar t i cl e i nf o文章历史记录：接收日期：2022年收到修订版，2022年4月25日接受，2022年保留字：入侵响应系统的自我保护自适应a b st ra ct入侵响应是一个相对较新的研究领域。最近用于创建入侵响应系统（IRS）的方法使用强化学习（RL）作为最佳或接近最佳选择适当对策的主要技术，以阻止或减轻正在进行的攻击。然而，他们中的大多数没有考虑到系统可以随时间变化的事实，或者换句话说，系统表现出非平稳行为。此外，有状态的方法，如基于RL的方法，由于状态空间随受保护系统的大小呈指数增长而遭受维数灾难在本文中，我们介绍和开发了一个IRS软件原型，命名为IRS分区。它利用受保护系统和Deep Q-Networks的分区，通过支持多代理制定来解决维度灾难。此外，它利用迁移学习来跟踪非平稳系统的演化版权所有©2022作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本V1（标签：irs-partition-v2）指向此代码版本所用代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-22-00049Code Ocean compute capsule N/A合法代码许可证Apache许可证2.0使用git的代码版本控制系统软件代码使用的语言、工具和服务Java、Python、Shell脚本编译要求、操作环境依赖openjdk 11.0.13、maven如果有开发人员文档/手册的链接，请访问https://github.com/dpanigra/irs-partition问题支持电子邮件dp1657@msstate.edu1. 动机和意义入侵检测系统（IDS）被广泛用于检测对计算机系统的威胁。然而，它们只是自动自我保护系统的两个部分之一，如图所示。1.一、事实上，虽然IDS是识别持续威胁的基础，但它们通常提供微不足道的响应能力，通常基于已识别的攻击与响应之间的静态映射（例如，Snort [1]）。可惜这样*通讯作者。电子邮件地址：dp1657@msstate.edu（Damodar Panigrahi）。https://doi.org/10.1016/j.softx.2022.101120一种方法表现出明显的局限性，主要与可扩展性[2]和缺乏可推广性[3]有关。为此，在在过去的十年中，入侵响应系统（IRSs）的研究开始受到关注。IRS的目的是自动识别对正在进行的攻击的正确响应，通常是通过利用攻击者行为和受保护系统的其他知识。我们调查了现有的IRS方法（例如，[1，4-我们发现，除了[3]之外，所有这些都证明了受保护系统的行为不会改变，2352-7110/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softxValeria Cardellini，Emiliano Cassimmchio，Stefano Iannucci etal.软件X 19（2022）1011202∪={个∀ ∀̸=→∩=∅∈Fig. 1. 入侵检测和入侵响应在自我保护系统中的作用。或者换句话说，被保护系统是固定的。事实上，大多数IRS（例如，[8，12-[16，17]）来为整个系统制定一组响应。然而，现代系统表现出非静态行为，因此需要能够自动适应变化，同时动态预测对入侵的接近最佳的响应此外，据我们所知，现有的作品都不是基于开放的软件原型，因此限制了实验结果的可重复性。因此，在这项工作中，我们描述为我们的主要贡献-tion是一个开源许可软件原型，它实现了一个名为irs-partition的IRS，它建立在[ 3 ]中介绍的方法基础上。它使用深度Q网络[18]（DQN），强化学习（RL）[19]和迁移学习[20]来应对计算机系统的非平稳行为。为了解决维数灾难，其公式化支持系统模型的划分，因此能够使用不同的局部建模技术和求解器，例如，基于马尔可夫决策过程的方法，例如DQN和动态规划[19]，或其他类型的优化，例如数学规划。据我们所知，我们的IRS软件实现是第一个与Apache 2.0一起发布的执照所提出的原型的高级架构，以及它如何适应入侵检测（ID）和IR链，如图1所示。特别地，被防御的系统被划分为独立的子系统（分区），并且IR代理负责控制每个子系统。此外，IR代理从IDS接收攻击细节，IDS反过来负责使用部署到系统分区中的传感器收集和分析数据。原型侧重于IR，并假设一个al-表1本文使用的主要符号象征意义IA 组件类型pi对应于第i个组件类型的分区第i个组件类型的第j个组件pij第i个分区的第i种类型的第j个分量计算机系统模型V系统S的状态变量集vi组件类型i的状态变量集vijT类型i的第j个分量在时间T的状态piT在时间T的第i个S T系统S的状态在时间T状态空间A系统S可用的操作集第i个组件类型的有效操作集ai第i个组件类型的有效操作（ai∈Ai）E（ai）动作ai的执行时间C（ai）采取行动的费用aiR（·）奖励函数τ终止函数τi划分i2. 系统模型和IRS设计我们在Apache 2.0许可下开发并发布了一个IRS原型，名为irs-partition。尽管该软件足够灵活，可以支持不同系统分区的不同优化技术，但在目前的开发阶段，我们引入了对基于DQN的单个求解器的支持。后者使用训练环境来训练在每个分区的基础上定义的代理。每个代理通过使用可定制的DQN预测其分区的接近最佳的操作来实现保持系统安全的总体系统目标该应用程序的软件依赖包括Eclipse Deeplearning4J（DL4J）[23]和Java强化学习（RL4J）[24]。两者都是深度神经网络算法和RL框架的Java实现。2.1. 系统模型在本节中，我们将介绍系统模型及其表示法。后者汇总于表1。系统包含不同类型的组件。每个组件类型可以定义在不同的粒度级别，认为有必要。组件类型的示例包括硬件设备、虚拟设备、软件模块、Web服务器、应用服务器、数据库服务器、网络交换机、负载均衡器和容器映像。我们将组件定义为组件类型的实例。此外，我们定义了划分的概念作为给定类型i的所有分量的集合，即， pi=现有的IDS组件。响应生成于从IDS接收警报，仅使用Mj=1ij，其中ij表示类型i的分量j，并且m是该系统，即，而不使用攻击模型。这是最近关于IR的工作中的[3，21]），并且它允许IRS处理零日攻击，同时与基于攻击者模型的IRS相比，当攻击已知时，提供针对性较低的本文的其余部分组织如下：我们描述了系统模型和软件实现的设计在第2节。然后，我们在第3节中展示了基于开源在线精品应用程序的案例研究所开发软件的功能[22]。最后，我们讨论了软件的影响，随后的结论和未来的工作分别在第4节和第5节类型i的组件总数。系统S是集合所有的分区，即Sp1，p2，. . .，pn，其中n是分区的总数。此外，给定任意两个部分p a，p bS，它们不共享任何组件，即，a. B. 一b paP湾换句话说，分区是不相交的。这个限制，这已经被引入到简化原型的开发，具有重要的意义：一方面，它简化了设计，开发和运行时管理的建议原型。另一方面，在一个具体的例子中，它不能完全捕捉复杂系统的动态，如果属于不同分区的组件具有某种交互的话。因此，给定当前公式，仅当组件Valeria Cardellini，Emiliano Cassimmchio，Stefano Iannucci etal.软件X 19（2022）1011203∈=−i=1图二. irs-partition软件主要类的类图。属于不同分区的节点之间没有任何交互。此限制将在软件原型的未来版本中解决。2.2. 系统状态此外，每个动作都与前置条件和后置条件相关联。前者，Pre（ST，aij），其中aijAij，确定当系统处于状态ST时是否可以在分区i的组件j上执行动作aij。后者修改分区状态，将其从piT变为piT+1，从而从ST变为ST+1。我们定义一组布尔状态变量V=nvi，其中2.4. 奖励和终止功能v= {v，v，. . .，v}，其中每个变量vi=1I12Q∈vi对于每个动作ai∈Ai，我们定义它的执行时间E（ai），组件类型I和Q的特定特征是用于对这种组件类型的状态建模的变量的总数。例如，在我们将在第3节中描述的案例研究场景之后，变量corruptedi被应用于所有和成本C（ai）作为奖励函数的两个标准。后者返回强化学习代理在执行时获得的即时奖励，并且它被定义为：类型i的组件，其实例表示是否R（pi，ai，pi）={−2，E（a）C（a）Max如果p iT=piT+1（一）I型的每个组件都已受损。的集合给定分区i的所有分量的变量值，T T+1−wEE我 -wCC我，不然。给定的离散时间T表示分区状态，即，其中Emax和Cmax分别是最大执行次数piTmj=1 vijT . 类似地，系统状态由n时间和最大成本;wE，wC∈[01-02]是一个很好的例子。响应优化权重。 R（p iT，a i，p iT +1）返回高值它的组成分区的状态的集合，也就是说，ST=i=1piT。最后，ST∈S，其中S表示状态空间。2.3. 系统动作我们定义了一组动作，当在给定组件ij上执行时，这些动作改变其对应分区pi的状态，={个如果由于不满足先决条件而无法运行操作，则罚分为2。此特定公式是DL4J库的DQN求解器实现的技术要求。最后，终止函数被用来识别系统被认为是安全的状态集。我们定义一个-配分终止函数为τi：piT→n {true，false}，并且因此也是系统状态。系统的每个组件类型i有一组有效的操作，即， A ia1，a2，. . .，a r，其中r是组件类型i上可执行的操作总数。此外，通过设计，我们有这个dj。A i= A ij。因此，系统级终端函数为τ =i=1τi（p iT）。2.5. 软件设计我们实现系统模型S，系统状态变量为每个组件类型定义的动作，即，一 =nA i.V，动作A，划分状态piT，奖励函数R，终止Valeria Cardellini，Emiliano Cassimmchio，Stefano Iannucci etal.软件X 19（2022）1011204=++图三. 创建深度神经网络的序列图。函数τ和分区终止函数τi分别在SystemEnvironment（SE）、SystemState、SystemAc-tion、SystemPartitionEnvironment （ PSE ）、 SystemReward-Function 、 SystemTerminateFunction 和 PartitionSys-temTerminateFunction（PSTF）类中。我们将系统模型S分解为多个分区，每个分区在SystemPartition-nEnvironment中仅存储自己的状态变量和动作， SystemPartition- nEnvironment 是SystemEnvironment 的子类。所有分区都存储在 List 列表中。我们使用PartitionCreatorUtility（PCU）将SystemEnvironment分解为基于组件类型i的多个PartitionSystemEnvironment，如图所示。 2，它表示主类的类图的软件。对完整系统状态变量 Vi 和动作集A 的引用存储在MasterMDPHolder中，一个单例对象，作为一个中央存储器，并提供系统在离散时间T 的状态，ST，和一组动作，A ，类SystemPartitionEnvrival 和 PartitionSystemTerminateFunction的对象。我们的软件的执行从PartitionDQNMain的主要功能开始，其中我们从.yml配置文件在SystemEnvironment中创建系统模型（S），将系统状态（ST）存储在MasterMDPHolder中，将S分解为分区，将每个分区存储在SystemPartitionEnviron-ment中，并为每个分区创建一个DNN，如图1的序列图所示。3 .第三章。我们在每个分区pi上训练一个代理。每个代理负责提供本地接近最优的下一步行动，根据到当前分区状态。给定系统模型作为一组不相交分区的公式，预测的最优局部动作的集合导致全局最优。我们使用DQN，蒙特卡洛模拟训练代理人。我们利用 QLearn-ingDiscreteDense[24]进行DQN，参数可配置。模拟从配置的初始系统状态开始在SystemState中由系统管理员执行。然后，基于初始状态，生成一组操作（最多一个用于每个分区）在由PartitionSystemEnvironment表示的环境上执行，其返回一组奖励（来自SystemRewardFunction）和下一个系统状态。这种行为是由代理人选择的，知识，并因此试图最大化预期的折扣奖励，或通过探索其结果，在奖励和过渡方面，仍然是未知的行动。后一种情况发生的概率为0.000。01，并且在1500个时期之后该参数逐渐减小到0我们将状态ST、动作aT1和奖励R（ST，a，ST1）存储在称为经验的记忆中。我们在参数expRepMaxSize中将体验的最大大小配置为5000。最后，历元继续，直到它在环境达到安全状态（如由分区终止函数确定PartitionSystemTerminateFunction）或时达到其最大长度（在maxStep 中配置）。存储批次后（在batchSize参数中配置为128我们训练了多个 DNN ，每个分区 pi 有一个 DNN （在NNBuilder 中使用参数 layers ， hiddenSize 和 learning-ingRate实现），其中情节来自Valeria Cardellini，Emiliano Cassimmchio，Stefano Iannucci etal.软件X 19（2022）1011205见图4。OB系统的体系结构。记忆使用经验重放技术。我们运行许多批次的情节来重新训练DNN，以提高动作预测的准确性。3. 案例研究：在线精品店对不同IRS技术的适当验证和比较通常由于缺乏标准化的网络范围而受到破坏[25]。出于这个原因，为了提高我们的场景和结果的再现性，我们使用基于开源在线精品（OB）2.0系统的用例场景来说明 IRS 软件的功能 [22] 。 OB 是Google 用于展示Kubernetes/GKE，Istio，Stackdriver，gRPC和OpenCensus等云技术的Web应用程序。它是一个基于微服务架构风格的云原生应用程序，由11个服务组成，用不同的语言编写，通过gRPC进行通信，加上一个工作负载生成器。它实现了一个在线商店，用户可以在其中浏览商品，将其添加到购物车，并购买它们。图图4示出了OB系统架构，以及根据定义的可能的划分方案的表示在第2.1节中引入的分区。有11个分区，每个服务一个分区。为了简单起见，不失一般性，我们报告的实验结果显示，需要收敛到一个接近最优的解决方案的情况下，其中一个子系统与2个分区被认为是时间。我们使用来自CloudLab [27]的c220g2型机器来运行我们的实验。我们使用了以下 JVM 参数： -Xms 102400m-Xmx102400 m-XX：MaxMetaspaceSize= 40960 m。由于空间原因，我们没有报道非定常方面的实验结果然而，感兴趣的读者可以在[3]中找到详细的分析。我们现在描述案例研究的系统模型并分析实验。3.1. 案例研究系统模型系统管理员在topology-containers.yml配置文件中描述包含分区信息的系统模型。123456789清单1：来自topology-containers.yml的清单1显示了前端服务分区的示例配置，其中分区中的组件数量由参数replication表示，其状态变量列在state部分中。这个特定的配置实例表明，组件类型具有以下5个状态变量： start 、 active 、 restarted 、 corrupted 、shellCorrupted。由于篇幅原因，我们只列出一个COM的配置组件类型。然而，我们在表2中列出了我们用来对OB系统进行建模的所有状态变量12345678910清单2：来自action-set-containers.yml的frontend-service：replication：1state：- 开始- 活性- 重启- 损坏- 她会振作起来的...开始时间：execution-time：300执行-成本：100pre-condition：state[ active]== false post-condition：state[ active]= rand（1）条件：- 前端服务- 推车服务- Redis-服务...Valeria Cardellini，Emiliano Cassimmchio，Stefano Iannucci etal.软件X 19（2022）1011206;= →=== →表2OB系统状态变量列表。状态变量start如果为true，则容器已启动active如果为true，则容器正在运行corrupted如果为true，则容器处于攻击者控制之下restarted如果为true，则表示容器在代理请求后已经重新启动shellCorrupted如果为true，则表示攻击者已经覆盖了容器cartCorrupted如果为true，则表示Redis数据存储的内容已经被攻击者更改confVuln如果为true，则表示Redis数据存储的当前配置容易受到潜在的受到攻击并可能失去保密性intVuln如果为true，则Redis数据存储的当前配置容易受到潜在攻击，并且会丢失完整性passwordRequired如果为true，则在接受Redis数据上的命令之前强制输入密码店如果为true，则启用可能危及Redis数据存储的危险命令，例如flushallaccessRestricted如果为true，则它只允许从允许的源（如cart-service）访问Redis数据库表3操作列表。shellCorruptediintVulnifalse;P=1→restartedi=trueshellCorruptedi=falseenablePasswordi配置Redis服务器在用户发出命令disableDangerousCmdi配置Redis服务器，禁用危险命令restrictAccessi配置防火墙规则以允许来自授权服务的访问activiveipasswordRequiredi武尔孔i活动CmdEnabledi已启用活动访问受限访问武尔孔iP=1→passwordRequiredi=trueP=1→confVulni=false;P=1→intVulni=falseP1P2P0. 85intVulnitrueP= 1 →accessRestrictedi=true;P= 0。7-confVuln i=真;P= 0。7→intVulni=true1000 100050 50050 300管理员还定义了一组操作，并为每个操作提供以下参数：奖励参数（例如时间和成本）、前置条件和后置条件在action-set-containers.yml 配置文件中。列表2 显示了actionstart的配置，包括：其奖励参数（执行时间和执行成本）;组件类型（前端服务和redis服务），其组件可以选择start作为组件部分下的action之一;其各自部分下的前置和表3定义了所有操作以及它们的前置条件、后置条件、执行时间和成本，我们为OB系统的保护建模我们总共使用了16个状态变量，并将系统状态分解为图1所示的状态。五、此外，我们将PartitionSystemTerminateFunction.terminate（）实现为表4中报告的状态变量子集的合取。此外，每个DQN的输入是其对应分区的状态变量值的集合，并且输出是来自有效动作的集合的一个动作。表4终止条件。状态变量条件active=truecorrupted=falsecartCorrupted=falseconfVuln=falseintVuln=falseshellCorrupted=false3.2. 案例研究实验我们初始化系统状态以模拟基于常见漏洞CVE-2019-5736 [28]的漏洞，基于Redis服务器缺乏身份验证。我们在累积奖励和收敛时间方面衡量了所提出的IRS原型的有效性，这在基于强化学习的IRS中是典型的（例如，[3，21]）。我们进行了实验，操作名称描述先决条件后置条件E（ai）C（ai）第一阶段裁武启动已停止的微服务activeiP=1→活动i=真300100重新启动i重新启动故障服务activiv ei已损坏i已重新启动iP= 0。75→损坏i=500300治愈我从容器映像活动已损坏P=1→损坏i=1000500false;P=1→healRedisSecurei从容器镜像activ ei cartCorruptedicarteP=1→cartCorruptedi=false1000500healRedisInsecurei从容器镜像activ ei数据库Corruptedi数据库P=1→cartCorruptedi=true1000500Valeria Cardellini，Emiliano Cassimmchio，Stefano Iannucci etal.软件X 19（2022）1011207图五. OB系统状态和分区状态变量之间的关系。图六、 DQN训练时间与累积奖励。在为整个系统和仅前端分区两者训练DQN中的累积奖励。如图6所示，收敛到前端分区的接近最佳累积奖励的训练时间173秒小于收敛时间173秒。考虑整个系统的情况下的时间，220秒我们使用我们的值迭代算法[19]（VIMain和PartitionVIMain类）的实现计算了最佳累积奖励。图6（a）和图6（b）分别示出了根据单个前端分区和系统的训练所花费的时间获得的累积奖励。我们不提供IRS引入的时间开销的详细分析，因为它相对于响应操作的执行时间可以忽略不计。事实上，一旦模型被训练，IRS开销就包括神经网络上的单个前向传递，这可以在毫秒级完成，而响应动作的执行时间则在秒或分钟级4. 影响本文介绍的IRS分区系统进一步提高了IRS软件的技术水平。我们在创建自我保护系统方面迈出了重要的一步，这些系统支持非静态行为，允许复杂的系统分区，并使用多个模型对本地威胁进行接近最佳的缓解类型，包括具有可自定义超参数的DQN具有这些功能的IRS软件实现也是第一个使用Apache 2.0许可证发布的我们的软件使用具有模拟系统的培训环境来培训IRS代理。因此，它可以在训练环境中预先训练代理，并将其部署在实时环境中。我们用一个专用的深度神经网络来训练每个代理，每个网络都可以用自己的一组超参数来定制不同的体系结构此外，每个代理可以配置不同类型的建模方法，包括我们在原型中使用的DQN。5. 结论网络威胁仍在不断发展，安全行业需要能够自动检测和响应的系统。这种需求需要进一步研究自动自我保护系统，这可以帮助保护现实世界中表现出非稳态行为的系统。在本文中，我们介绍了一种软件工具，可以在训练环境中使用可定制的深度神经网络来训练多个代理，以构建名为irs-partition的IRS。我们专注于利用多个深度神经网络来预测一组最佳行动。此外，预先训练的代理立即使用迁移学习技术从他们在一个Valeria Cardellini，Emiliano Cassimmchio，Stefano Iannucci etal.软件X 19（2022）1011208模拟系统未来，我们计划监控预测的影响和质量，并提供一种自调整深度神经网络的机制。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢所有实验都是在NSF赞助的CloudLab平台上进行的[27]。E.Cascadchio由意大利智能防御项目（000090_19RS）资助。引用[1] 什么是“？2021，https://www.snort.org/faq/what-is-snort（访问日期：2021年5月12日[2] Iannucci S，Abdelwahed S.自主安全管理的概率方法。2016年IEEE Int'l Conf.on Autonomic Computing。ICAC '16，2016，p. 157比66[3] Iannucci S，Cardellini V，Barba OD，Banicescu I.非平稳系统近最优入侵响应控制的混合无模型方法。Future Gener Comput Syst2020;109：111-24.[4] GuoY，Zhang H，Li Z，Li F，Fang L，Yin L，et al.入侵响应的决策：哪个、在哪里、以什么顺序、多长时间？2020年IEEEIn t' l Conf. 关于通信。ICC1比6[5] Hughes K，McLaughlin K，Sezer S.入侵响应系统的动态对策知识。第31届爱尔兰信号与系统大会（31st Irish Signals and SystemsConf.. ISSC1比6[6] 李X，周C，田玉春，秦Y。工业控制系统入侵响应的动态决策方法。IEEETrans Ind Inf2018;15（5）：2544-54.[7] 杨伟，王伟，王伟.利用成本敏感和自适应的入侵响应系统改进攻击缓解。第十四届国际会议论文集在网络上。ICN135比9[8] 吴永升，毛永春，巴奇，史培福. ADEPTS：在电子商务环境中使用攻击图的自适应入侵响应。输入：程序2005年国际依赖系统和网络会议。DSN '05，IEEE; 2005，p. 508-17[9] Douligeris C， Mitrokotsa A. DDoS 攻击和防御机制：分类和最新技术。Comput Netw2004;44（5）：643-66。[10]Koutepas G，Stamatelopoulos F，Maglaris B.分布式管理体系结构，用于协同检测和响应DDoS攻击。网络系统管理杂志2004;12（1）：73-94.[11]李志华，李志华，李志华. Web服务器的集成访问控制和入侵检测。IEEE跨并行分布系统2003;14（9）：841-50.[12]Armstrong D，Carter S，Frazier G，Frazier T. 自主防御：通过实时反馈控制挫败自动化攻击。Complexity2003;9（2）：41-8.[13]Armstrong D，Frazier G，Carter S，Frazier T.一个基于密码的自主防御系统。DARPA Information Survivability Conf. andExposition，Vol. 二、IEEE;2003，p.21比3[14]Kreidl OP，Frazier TM.反馈控制应用于生存性：一个基于主机的自主防御系统。IEEE Trans Reliab 2004;53（1）：148-66.[15]Nespoli P，Papamartzivanos D，Mármol FG，Kambourakis G.针对网络攻击的最佳对策选择：对反应框架的全面调查。 IEEE Commun SurvTutor2017;20（2）：1361-96.[16]作者：Zhang Jiang，Chen Y.自适应入侵响应，以最大限度地降低多种网络攻击的风险。ACM传输信息系统安全2002;19（1-30）：95-6.[17]Toth T，Kruegel C.评估自动入侵响应机制的影响。第18届计算机安全应用会议论文集IEEE; 2002，p. 301-10[18]Mnih V，Kavukcuoglu K，Silver D，Graves A，Antonoglou I，Wierstra D等人，Playing Atari with Deep Reinforcement Learning。2013年，arXiv预印本arXiv：1312.5602。[19]Sutton R，Barto A.强化学习：介绍。第2版Cambridge，MA，USA：MITPress; 2018.[20]Olivas ES，Guerrero JDM，Martinez-Sober M，Magdalena Benedito JR，Serrano Lopez AJ.机器学习应用和趋势研究手册：算法，方法和技术。IGIGlobal; 2009年。[21]Hughes K ， McLaughlin K ， Sezer S. 入侵响应系统的无模型方法。 J InfSecurity Appl 2022;66：103150.[22]网上精品店。GitHub;2021，GitHubRepositoryhttps://github.com/GoogleCloudPlatform/microservices-demo.[23]DeepLearning4j.GitHub;2020，GitHub存储库https://github.com/deeplearning 4j/deeplearning 4j。[24]DeepLearning4j. RL4J：Java的强化学习。GitHub; 2020年，GitHub存储库https://github.com/deeplearning4j/rl4j。[25]Montemaggio A，Iannucci S，Bhowmik T，Hamilton J.为自我保护系统的经验评估设计方法框架。 2020 年 IEEEIn t ' lCo n f .onAu to n o m i cCo m p u t in gan dSe l f - O r g a n iz i n gSy s te m sCo m p a n i o n。ACSOS-C218比23[26]伯恩斯坦容器和云：从 LXC 到 Docker 再到 Kubernetes 。 IEEE CloudComput2014;1（3）：81-4.[27]Duelakin D，Ricci R，Maricq A，Wong G，Duerig J，Eide E，et al.云实验室的运作。见：USENIX Ann. Tech.确认... ATC '19，2019，p. 1-14号。[28]电话： +86-21 -5736详细信息， https://nvd.nist.gov/vuln/detail/CVE-2019-5736。

下载后可阅读完整内容，剩余1页未读，立即下载