基于后悔最小化算法的网络攻防进化博弈决策方法

61 浏览量更新于2024-01-18 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于后悔最小化算法的网络攻防进化博弈决策方法Hui Jin1，Senlei Zhang1，Bin Zhang，Shuqin Dong，Xiaohu Liu，Hengwei ZhangJiang，JingleiTan数学工程与高级计算国家重点实验室阿提奇莱因福奥文章历史记录：2022年7月19日收到2023年1月1日修订2023年1月27日接受2023年2月1日上线保留字：网络攻防不完全理性RM进化博弈防御决策A B S T R A C T鉴于网络安全攻防双方认知能力的差异和局限性，目前运用博弈论的网络防御决策方法多基于攻防双方完全理性的假设，难以应用于实际网络攻防场景，导致防御决策实用性差。为了更好地适应不完全理性攻防博弈的场景，本文应用演化博弈理论描述了不完全理性下攻防博弈的演化过程，将传统博弈中的静态分析扩展为动态演化过程。采用后悔最小化（RM）算法对策略学习机制进行优化，保证了策略学习的随机性和收敛性。为此，构建了基于RM算法的网络攻防通过求解进化稳定均衡点，给出了最优防御数值实验结果验证了该方法的科学性和方法的有效性，并分析总结了不同状态下不同攻防策略的演化规律。同时，与基于传统复制动力学的网络防御决策方法相比，最优防御策略的收敛速度提高了12.8%，证明了该方法在学习速度上的优越性版权所有©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍当前，网络安全形势日益严峻，网络攻击向智能化、组合化、隐蔽化方向发展，影响网络空间安全的事件越来越多。（Matheu等人，2020年）攻防博弈对抗加剧;（Qiuet al.，2019年），网络防御正从被动防御向主动防御演变，但网络安全态势的不对称性仍尤为显著。对于攻击者来说，有足够的时间来完成对网络的侦察和检测，*通讯作者。电子邮件地址： wlby_zzmy_henan@163.com（ H.Zhang ），nxutjl@126.comwww.example.com 谭）。[1]Hui Jin和Senlei Zhang对这项工作做出了同样的贡献。沙特国王大学负责同行审查。目标信息系统从攻击的准备和发动通过掌握部分未知的脆弱性信息，可以用尽可能少的代价造成尽可能多的破坏，在时间、信息和成本上都有一定的优势对于防御者来说，为了扭转攻击者的先天优势，可以通过科学的决策理论和方法，通过推理选择最优的防御策略，以尽可能少的代价获得尽可能多的防御收益。博弈论（Fang et al.，2021）提供了分析和决策的理论工具，在网络安全领域得到了广泛的应用，基于博弈论的网络防御决策研究成为当前的研究热点。因此，对网络攻防行为的分析可以帮助网络安全运维人员提高网络信息系统的防御能力（Ho等人， 2022）然而，当使用博弈论https://doi.org/10.1016/j.jksuci.2023.01.0181319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comH. Jin，S.张湾，澳-地Zhang等人沙特国王大学学报293研究了网络防御的决策方法，假设攻防双方都是完全理性的局中人，理想化了双方寻找最优策略的能力。在实际的网络对抗中，由于双方认知能力的差异和局限性，不可能有完美的分析推理、识别和判断。因此，双方很难达到完全理性的程度研究非完全理性网络攻防博弈的决策更具有实际意义。网络攻防博弈决策已经发展成为不完全理性博弈决策（Shao andLi，2021），主流方法主要分为两类，一类是基于进化博弈的网络防御决策，另一类是基于传统博弈论和强化学习的网络防御决策。进化博弈论（Hu et al.，2020）是对经典博弈论的继承、发展和延伸，将博弈论分析与动态演化过程分析相结合。不要求参与者是以学习机制为核心的完全理性的决策体，在动态演化过程中不断修正攻防策略，直至达到一个动态稳定的当前基于进化博弈的网络攻防决策方法在无线传感器网络中得到了广泛的应用。Chen等人（Chen等人， 2014）通过求解进化博弈的纳什均衡，根据不同类型的攻击策略动态选择最优防御策略，并通过仿真分析了攻防策略的动态进化稳定性。Arora等人（Arora等人， 2016）提出了一种基于进化博弈的自适应密码协议选择方法，分析并求解了一种基于复制动力学方程的进化稳定均衡策略，并利用NetLogo数值仿真工具分析了该策略的收敛性和稳定性。Du等（Du等人， 2021）提出了一种基于复制动态方程的最优防御策略选择算法，该算法采用三方进化博弈模型对无线传感器网络入侵检测系统的最优防御策略进行选择，并通过增强的协作机制对最优策略选择算法进行了优化。在一般网络进攻和防御决策方面，Huang et al. （Huang等人， 2017）从博弈双方的有限理性条件出发，建立了攻防演化博弈模型，描述了攻防博弈的动态演化过程，并通过攻防博弈的复制动力学方程求解了演化稳定均衡。Liu等人（Liu等人，2021年2021年提出了一种基于多阶段进化博弈的防御策略选择模型，通过奖励值学习机制刻画攻击者和防御者的不完全信息，利用Q学习求解最优防御策略，并通过数值实验验证了该方法的有效性。Yang等人（Yang等人，2019）在非对称攻防信息的多阶段博弈决策模型中结合信号和进化博弈，在优化方法的同时引入虚假防御信号扩大攻击者的攻击面，并在三个典型物联网场景中验证了其有效性和可行性。Wu等人（Wu等人，2021年2021年将进化博弈和随机Petri网结合在网络攻防决策方法中，提高了网络攻防分析的可扩展性，并利用Pipe软件对攻击成功率、平均入侵成功时间和平均系统修复时间进行了分析。 Xu等人（Xu等人，2020年2020年基于马尔可夫决策过程的随机演化博弈模型，引入扰动因子对网络攻防决策进行考虑到攻击防御行为和决策者的不完全理性特征，Zhang et al. （Zhang等人，2022）利用定性差分博弈分析了安全威胁的对抗过程，并利用进化博弈分析了基于复制动力学的攻防策略选择概率的动态变化，提出了一种动态威胁评估算法。近年来，强化学习，特别是多智能体强化学习受到了广泛的关注和研究，它非常适合于随时间演化的动态环境和智能体行为相互影响、学习寻找最优策略的场景。（Jin等人，因此，许多学者提出了利用博弈论对网络攻防对抗过程进行建模，并利用强化学习求解纳什均衡的最优策略决策方法。目前，基于强化学习的网络防御决策方法在车联网、云环境、智能电网、自组织网络等场景中已经取得了很大的研究进展。2019）提出了一种基于博弈论的远程信息处理易受有界数据注入攻击的主动攻防模型，并基于对抗性强化学习方法求解了纳什均衡策略，防御效率提高了30%。Zhang等人（Zhang等人，2020）提出了一种基于深度强化学习的云环境下分布式拒绝服务攻击攻防决策方法，能够以较少的计算开销有效解决最优策略部署问题。Paul et al.（Paul and Ni，2018）基于线性规划对单条和多条输电线路中断问题进行了单阶段静态博弈建模，并通过强化学习确定了攻击策略的概率分布，从而有效指导防御策略的实施。Ni et al.（Ni andPaul，2019）模拟了攻击者-防御者的互动过程，将智能电网作为多阶段动态博弈模型，建立了基于强化学习的最优攻击策略，确定了电网传输路径的脆弱性序列，并开发了一种有针对性的防御战略。 Mowla等人（Mowla例如，2020）通过分析自组织网络中的通信约束和感知数据不平衡的特点，提出了一种基于自适应联邦强化学习的自组织网络攻防决策方法，引入干扰防御机制，融合强化学习和联邦学习，自适应确定最优防御策略路径，并基于两个数据集验证了该方法的有效性和收敛性。总之，当前的方法具有以下问题：(1) 大多数基于进化博弈的网络防御决策方法通过复制动态方程确定最优策略，策略搜索与实际攻防过程不匹配，大大降低了应用价值。(2) 大多数基于强化学习的网络防御决策方法都是基于马尔可夫决策过程、期望未来收益折现和确定性策略选择的价值函数，收敛性差，存在策略退化现象，不适用于高维连续动作空间.本文的主要贡献如下：(1) 提出了一种基于后悔最小化算法（ Blum andMonsour ，2007）的网络攻防进化博弈决策模型，以优化学习过程H. Jin，S.张湾，澳-地Zhang等人沙特国王大学学报294¼ ðÞ2我···¼ ð···ÞP66¼j j¼ ðÞ一¼ ðÞD我6 6Pi¼1/4;2;···;n阶分布基于复制动态方程的防御决策机制，设计了一种最优防御决策模型，有效地提高了防御决策算法的收敛性和学习效率。(2) 通过算例和数值仿真验证了该方法的有效性，分析了不同网络状态和攻防策略概率下该方法的性能，并与其他博弈决策方法进行了比较(3) 为网络攻防动态分析和对抗决策提供了博弈论工具，可有效提高网络安全运维人员的决策和管理能力。将进化博弈与遗憾最小化算法相结合，对网络攻防策略进行参数化，提出了一种非完全理性场景下的网络攻防博弈决策方法.一方面，利用进化博弈刻画网络攻防决策的不完全理性，在保证决策收敛的前提下，突破基于复制动态的学习机制;另一方面，引入基于策略的RM算法，刻画网络攻防决策的自适应性，保证策略学习的随机性通过对基于RM算法的网络防御进化博弈决策模型进行建模，构建了网络攻防的不完全理性分析框架，并设计了最优网络防御决策算法，指导防御策略的制定过程。该方法为网络防御决策提供了一种科学、高效的博弈论工具，可有效提高网络安全运营商的决策和管理能力本文余下的工作安排如下。第二节从决策模型分析、决策模型构造和决策算法设计三个方面描述了基于RM算法的网络攻防进化博弈决策模型。第三节通过应用实例分析了所提防御决策方法的有效性和收敛性，并与其他模型方法进行了对比实验第四节总结全文。2. 网络攻防演化博弈决策模型基于后悔最小化错误的策略损失函数根据最优策略的预期回报和当前策略的实际回报来衡量后悔值，并更新策略该模型利用RM算法能够根据博弈历史的后悔程度决定未来策略选择的更新规则的特点，通过建立微分方程组刻画网络防御策略选择概率的动态变化，描述策略随时间的演化，从而动态展示网络攻防决策过程和学习行为轨迹.在网络攻防对抗中，由于攻防双方有限理性的特点，不能充分掌握对方例如，假设攻击者和防御者有各自的策略集{A1，A2，A3}和{D1，D2，D3}，其中ud（Ai，Dj）表示当攻击者选择策略A i而防御者选择策略D j时防御者未采用策略产生的增益减去当前策略D j产生的增益，满足-regretDk u 如果攻击者选择策略A1，防御者可以选择D1，D2或D3，并分别获得收益的值为-1，0和1。攻击者和防御者在第一轮采用策略（A1，D1），其中D2和D3各自的后悔值可以计算为1和2。在第二轮中，防御者选择概率分别为0、1/3和2/3的策略D1、D2和D3，因此倾向于选择策略D3。的利用后悔值计算每轮结束时各策略的选择概率，以确定下一轮的策略，并通过不断更新策略选择概率来寻找最优策略2.2. 网络攻防演化博弈决策模型定义1. 的网络攻防进化博弈决策模型基于对 RM可以被表示由五元组，ADEG-RMN;D;p;S;U，与的以下基本元素(1) N¼N;N 表示网络在这一部分中，我们首先分析了攻防进化博弈决策模型，然后构建了基于RM的攻防进化博弈决策模型，最后在模型分析和构建的基础上设计了2.1.网络攻防演化博弈决策模型进化博弈可以有效地模拟不完全理性攻防对抗的过程在强化学习中，一个参与者做出的决定的影响可能取决于另一个参与者做出的决定因此，进化游戏可以与强化学习相结合。遗憾最小化算法是一种基于策略的强化学习算法，它将玩家的行动历史和当前的策略决策相关联在一个策略被实施后，玩家会回顾它的回报，并后悔没有实施这个策略。攻防博弈，其中NA是攻击者，ND是后卫。(2)D-半乳糖苷表示的战略空间，其中AS AS1;AS2;;ASm和DSDS1;DS2;DS n分别是攻击者和防御者的策略集合; m和n分别是攻击者和防御者的策略个数，其中m，n是正整数，m ; n P 2.(3)p<$p;q是关于博弈的信念集合pp1; p2;;pm是攻击者策略集AS上的概率分布选择策略AS，1i m，mp1，类似地，qq q q是防御者的概率i1/4策略集DS，其中qj2q是防御者选择策略DS，1j n，nq1的概率。第1页(4) S S1;S2;：;S n是博弈的状态集合，其中我们将攻击者对服务器的控制视为网络状态。(5) U U A;U D是增益函数的集合，即，攻击者和防御者分别获得的收益，这些收益是通过不同的策略组合获得的。H. Jin，S.张湾，澳-地Zhang等人沙特国王大学学报295.Σ一;da;d· ··一;d21212222 2n2Ndd · ··d21 222nBXDSj（1/4p ·1/2Aq-pAq]i iidqjTDSj：DSjDSjam1;dm 1一米二·· ·一分钟JJJJJJDTdqj1-k½maxkAqk-pTAq]kqj½Bpj-qTBp]DSj定义2. 攻击和防御增益矩阵M由在不同策略下生成的攻击和防御增益值a ij;d ij组成，其中aij<$U A<$A Si;D Sj<$和dij<$UD<$ASi;D Sj<$。A和B分别是攻击者和它定义了权重xDSj DSj和已发生的损失l DSj。损失不断更新DSj的偏好度，权重更新公式为xt1xt1-kt32a 11; d 11a 12; d 12·· ·a1n;d 1n36 7¼.其中k控制权重的变化率，找到最优策略的过程可以理解为增加分配给策略的权重之初M.46· ······ · ·75在这个博弈中，策略的权重是相等的。随着比赛的进行，防御者通过增加02 a11a12···a1n3B6a21a22···a2n72天11天12天·· ·d1n3167C.在最优策略中丢失某个策略后，该策略的权重将在下一轮游戏中增加（）A¼6. .7; B¼ 6.7C定义5.RM算法将策略建模为@B4···· · ·。 · ··7564· ··· ··· ··75ACam1am2···的mndm1dm2·· ·dmnxtqt ¼PDSjð4Þ定义3. 复制动态方程描述了种群中选择更成功策略的个体数量逐渐增加，该策略选择的比例不断调整变化并最终收敛到稳定状态，其策略更新规则是期望收益高于平均收益的单一策略逐渐被更多个体采用，那么该策略的选择概率（种群中使用该策略的个体百分比）动态变化，直至稳定。它可以用来研究攻击者和被攻击者选择策略的概率防守者随着时间的推移而变化。复制动态演化方程其中，x∈t是分配给DS j的权重，防御者在时间t实现该权重，并且基于DS j进行更新。权重越大，策略被选择的概率寻找攻击者和防御者的最优策略的过程是一个不断学习、搜索和优化的过程，其中策略选择概率逐渐更新。以防守方xt1dqt<$qt1-qt;PDSjK-qtð5ÞdpiTDT[1/4q·1/2Bp-qBp]ð1Þ这取决于分配的权重和策略选择的概率。方程（6），网-基于RM算法的工作攻防，可以得到其中，p ^f p1;p2;：;p m g和q ^f q1;q2;：;q n g分别是f AS1;AS2;：;ASm g和f DS1;DS2;：;DS n g的选择概率。对于攻击者来说，pi是选择AS i的概率，dpi=dt是p i随时间的变化率，pT Aq是AS i的预期收益，pTAq是攻击策略集的平均收益。对于防御者，qj是选择DS j的概率，dqj=dt是q j随时间的变化率，B pj是D S j的预期收益，qTBp是平均收益防御策略的一部分从等式（1）可以看出，策略选择的概率与单个策略的预期收益与平均收益从方程（3）它描述了攻击者和防御者对最优策略的探索，并描述了他们选择策略的更新规则。推导过程在文献中给出（Klos等人，2010年）。定义6. 基于RM算法，8dpi¼[kpi ½Aqi-pTAq]ð6Þ战略的回归定义4.基于预期收益的损失函数为。dt<$1-k½maxkBpj-qTBp]描述了攻击者和防御者的有限理性战略选择随时间lDSj ¼r-rDSj ¼maxkBpk--ð2Þ通过后悔值更新策略选择概率以选择最优策略，即，他们不断更新损失函数基于预期收益，它反映了防御策略对所有攻击策略的影响。损失函数是后悔值的度量，其中r DSj是实现DS j的预期增益<$Bp<$j，并且r<$max xk<$B p<$k。多项式权重算法（Bloembergen等人，2010）计算了后验相对最优策略的遗憾，通过学习多个游戏中的后悔值来确定每个策略的权重。2.3. 最优网络防御决策算法最优网络攻防进化博弈决策算法如算法1所示。X游戏环境知识、攻击知识以及其他不确定信息。由此可以看出，只有小-KðtÞDSk攻击者选择ASi的概率为pi，防御者选择DSj的概率为qj，ðtþ1ÞDSkDTH. Jin，S.张湾，澳-地Zhang等人沙特国王大学学报296- 四分之一1/4fg2>：¼PMI¼nj¼正如我lt-1，我 JF2qjPð Þ ¼ ðÞ学习效率。算法1最优网络防御决策算法输入ADEG-RM模型输出最优防御策略qω开始1) 初始ADEGRMN; D; S; p; U/* 初始化RM的进化博弈决策模型网络攻防 */{11集合DS¼fDSjg，16j6n1设置p ^fp1; p2;：; pi;：pmg，pi ^l，0 Exp-FTP;攻击路径2：Exp-LDAP->Exp-Web->Exp-FTP。网络状态根据不同的攻击路径进行转换，如图2所示，其中红色和蓝色虚线分别表示攻击路径1和2。在初始状态S0下，Exp-LDAP可以通过特定漏洞实现，达到状态S1，此时攻击者拥有LDAP服务器的root访问权限以及Web和FTP服务器的用户访问权限。在S1状态下，攻击者可以通过远程代码执行获得FTP服务器的root权限，也可以通过跨站脚本攻击达到S2状态，攻击者拥有Web服务器的root权限和FTP服务器的用户权限，可以通过在S2状态下执行Exp-FTP来获得FTP服务器的root权限。攻击者也可能害怕检测而不执行No-Exp，并保持在相应的状态。针对不同服务器漏洞的特定扫描攻击，防御者会监控主机上运行的服务和流量，并部署相应的入侵检测系统。我们将防御者的策略定义防御者可能受到资源和性能的限制，因此选择不实施监控，我们将其表示为No-mon。我们假设防御者可用的资源是有限的，因此必须选择最优策略来实施监控，并且攻击者避免防御者的检测，因此必须实施最优策略来利用可检测性。表2显示了实验网络中各种类型的服务器漏洞能力的信息漏洞就是安全H. Jin，S.张湾，澳-地Zhang等人沙特国王大学学报298k¼1k¼1¼图二. 网络状态转换图。表3状态S0下的攻防策略增益矩阵.表4状态S1下的攻防策略增益矩阵.第3.1节，分析研究了网络防御在各个状态下的最优决策结果：第二，研究了不同初始状态下防御策略选择的收敛性;第三，研究了不完全理性攻防博弈情景下防御者学习能力的变化对防御决策的影响;第四，将本文方法与基于复制动态学习机制的防御决策方法进行比较，分析研究本文防御决策方法的学习效率。3.2.1. 不同状态下的最优防御策略选择概率根据算法1对攻防演化博弈模型进行初始化。攻击者的策略空间为{No-exp，Exp-LDAP，Exp-Web，Exp-FTP}，其概率分布Exp-Web（7，-7）（-5，5）（10，-10）实验-FTP（10，-10）（10，-10）（-7，7）{p1，p2，p3，p4}满足P4pk1。防守者{No-mon，Mon-LDAP，Mon-Web，Mon-FTP}，其概率为n {q1，q2，q3，q4}满足P4qk1.假设这两个服务器上给定端口固有的缺陷，可根据机密性、完整性和可用性（CIA）进行测量。（Samonas和Coss，2014）。我们假设攻击者获得的收益是防御者的损失，并将攻击和防御收益视为零和。参考文献中攻防战略收益的量化方法（Chowdhary et al.，2019; Chowdhary等人，1812）的特点，得到了S 0、S1、S2状态下网络攻防策略的增益矩阵，如表3-5所示。3.2.数值试验与分析本部分设置了四组实验，第一组是基于实验场景中定义的三种不同状态，攻击者和网络管理员都有一定的学习能力，相应地设置k0：3。在建立基于RM算法在不同的状态下，研究了每种状态下最优防御策略的演化过程。通过仿真得到了各防御策略在S0、S1和S2状态下的演化轨迹，如图1所示。其中横坐标表示攻防博弈的次数，纵坐标表示防守策略选择的概率。为了更好地说明策略选择的进化效果，在初始状态下以等概率选择对于双策略博弈，如状态S0和S2，攻防策略的初始对于三策略博弈，例如状态S1，初始选择概率被设置为1/3。从图中我们可以看到防御策略{No-mon，攻击者NADefenderND诺门Mon-LDAPNo-expExp-LDAP（0，0）（5，-5）（3，-3）（-5，5）攻击者NADefenderND诺门Mon-WebMon-FTP无经验（0，0）（2，-2）（3，-3）H. Jin，S.张湾，澳-地Zhang等人沙特国王大学学报299¼图三. 各状态下防御策略选择概率的变化曲线。Mon-LDAP、Mon-Web、Mon-FTP}处于不同状态。在与攻击者反复博弈的过程中，网络管理员会通过试错来学习和调整策略，选择防御策略的概率最终会达到一个稳定的状态。当防御者在状态S0中面临攻击时，防御者的最优策略被实现为概率{q1= 0.41862，q2= 0.58138}选择策略{No-mon，Mon-LDAP}。防御者在状态S1下得到的最终最优防御策略是通过以概率{q1= 0.00006，q3= 0.53979，q4= 0.46015}选择策略{No-mon，Mon-Web，Mon-FTP}来实现的。在S2状态下，防守方的最优策略以概率{q1= 0.15961，q2= 0.84039}实现，选择策略{No-mon，Mon-FTP}，从而保证在每个状态下以最小的代价获得最大的防御效果。攻击者在初始状态S0下实现Exp-LDAP。对于防御者来说，最优策略是采取Mon-LDAP阻断攻击，切断对FTP服务器的攻击来源，或者考虑到防御资源有限、成本高等因素在状态S1中，可以直接或间接地获得FTP服务器因此，防御者可以在状态S1阻挡攻击，最优防御策略是有概率{q1= 0.00006，q3= 0.53979，q4= 0.46015}，既可以防止对FTP服务器的直接攻击，也可以防止对Web服务器的间接攻击。如果防御者错误地选择了No-mon策略，攻击者就可以获得Web服务器上的root权限并达到S2状态。当攻击者实施Exp-FTP时，防御者会选择概率为0.84039的最优防御策略Mon-FTP来阻止对FTP服务器的攻击。3.2.2. 防御策略选择为了更好地说明防御策略选择的稳定性，我们以状态S1为例，设置以下场景。第一种情况是初始时刻不同防御策略选择概率下的策略演化，假设攻击策略随机选择概率为1/3，改变防御者第二种情况是在不同的情况初始时刻的攻击策略选择概率。假设防御者以等概率1/3随机选择防御策略，并观察攻击者改变策略选择时最优防御策略的演化轨迹在第一种情况下，初始防御策略选择概率不同，攻击者随机实施策略{No-exp ， Exp-Web ， Exp-FTP} ，概率为 1/3 。由防御策略 {No-mon，Mon-Web，Mon-FTP}选择的初始概率对应于以下三种情况：①{q1= 0.1，q3= 0.3，q4= 0.6};②{q1= 0.3，q3= 0.5，q4= 0.2};③{q1 = 0.6，q3 = 0.1，q4 = 0.3}，通过实验可以得到上述三种情况下状态S1的防御策略的演化轨迹，如图所示。四、在第二种情况下，初始攻击策略选择概率不同。防御者以1/3的概率随机选择一个策略{No-mon，Mon-Web，Mon-FTP}由攻击策略{No-exp，Exp-Web，Exp-FTP}选择的初始概率对应于以下三种情况： ①{p1= 0.1 ， p3= 0.3 ， p4= 0.6};②{p1= 0.2 ， p3= 0.5 ， p4=0.3};③{p1= 0.7，p3= 0.1，p4= 0.2}，通过实验可以得到上述三种情况下状态S1的防御策略的演化轨迹，如图2所示。五、从图5中可以看出，最优防御策略的决策结果不会因防御策略和攻击策略选择概率的初始差异而改变，最终会达到并保持一个稳定状态。3.2.3. 学习能力变化对防御策略选择的影响以S2状态为例，说明不同学习能力对最优防御策略选择的影响。开始时，进攻方和防守方以1/2的概率随机选择策略通过改变学习能力参数k，我们观察了学习能力对进化的进攻和防御战略，也就是说，当k0 ∶ 1的比例;0：3;0：5;0：7;0： 9，我们研究进化规律双方之间的比赛。使用算法1求解状态S2下的防御策略演化方程，不同学习能力下防御决策结果曲线H. Jin，S.张湾，澳-地Zhang等人沙特国王大学学报300见图4。 S1状态下不同初始选择概率下防御策略的策略演化图。图五. S1状态下攻击策略不同初始选择概率下的策略演化图。可以得到，如图6所示。最优防御策略的决策结果最终趋于稳定，但不同学习能力达到稳定的时间明显不同。与学习能力k的提高，最优防御策略选择概率演化到稳定状态减少。说明在攻防对抗演化过程中，随着防守方学习能力的提高，其对策略选择有了更准确的因此，可以快速决定策略选择，并选择最佳防御策略Mon-FTP。3.2.4. 防御决策方法攻防双方都受到攻防知识和计算能力等因素的影响。他们只知道对手的部分信息，而游戏要求不断尝试和错误学习，这是一个逐步优化的过程。我们将我们的方法与基于传统复制动态方程的策略选择进行比较（Huanget al.，2017年），结果如图7所示，其中x轴是游戏t的数量，y轴是最优防御策略选择概率。红色实线和蓝色实线分别表示所提出的方法和文献中的最优防御策略的演化轨迹（Huang et al.， 2017年）。从图7中可以看出，我们的方法在t = 504时找到了最佳防御策略，而文献（Huang et al.，（2017）发现t= 578。可以看出，我们的方法所需的时间更少，最优策略的收敛速度提高了12.8%。同时，学习过程中的波动幅度相对较小，对防守者判断的影响也较小H. Jin，S.张湾，澳-地Zhang等人沙特国王大学学报301见图6。不同学习能力下最优防御策略选择的概率变化曲线。见图7。我们的方法和其他方法的收敛速度比较。4. 结论如今，随着互联网技术的快速发展，网络攻防环境变得越来越复杂和多样化（Ahmetoglu，H.，L.，，2022;Baykara，M.，L.，，2018; Baykara，M.，L.，，2019），而且攻防双方的认知能力存在一定的差异和局限性，传统的以完全理性为前提的博弈模型难以适应最新的攻防需求。针对非完全理性场景，提出了一种基于RM算法的网络攻防演化博弈防御决策方法，并利用演化博弈论原理通过策略动态调整寻求最优策略，利用强化学习机制优化策略学习能力，构建了基于RM算法的网络攻防演化博弈决策模型，设计了相应的网络防御决策算法.通过建立基于RM算法的进化博弈决策方程，得到了最优的进化均衡防御策略，网络攻击与防御，为适度安全下的网络主动防御通过小型企业网络攻防场景验证了所提决策方法的正确性和实用性。鉴于本文结合进化博弈和约束学习提出了最优防御决策方法，未来的研究可以在这两个方面进行改进和提高，以更好地贴合实际网络攻防场景，增强防御决策方法的实用性.首先，网络攻防过程易受随机扰动，可以考虑采用随机进化博弈对具有随机性的网络攻防场景进行建模;其次，当网络攻防状态空间呈指数增长时，该方法无法快速收敛，未来工作将考虑引入学习能力更强的深度强化学习算法，结合进化博弈解决网络状态空间爆炸问题，为复杂网络攻防场景提供决策支持。H. Jin，S.张湾，澳-地Zhang等人沙特国王大学学报302竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。致谢我们感谢所有评论者的宝贵意见。引用Ahmetoglu，H.例如，2022.网络攻击检测综述：数据集、方法、挑战和未来研究方向。物联网20，100615。https://doi.org/10.1016/j.iot.2022.100615网站。阿罗拉，S.，辛格，P.，古普塔，A.J.，2016.基于进化博弈论的无线传感器网络密码协议自适应选择 [J]. ProcediaComputer Science 78，358-366.Baykara，M.例如，2018.一种新的基于蜜罐的实时入侵检测和防御系统安全方法。JournalofInformationSecurityandApplications41，103https://doi.org/10.1016/j.jisa.2018.06.004网站。Baykara，M.例如，2019. SoftSwitch：一种基于集中式蜜罐的安全方法，使用软件定义的交换来安全管理VLAN网络。土耳其电气工程计算机科学杂志27，3309-3325。https://doi.org/10.3906/elk-1812-86网站。Bloembergen，D.，Kaisers，M.，Tuyls，K.，2010.多智能体强化学习动力学的比较研究[C]//第22届荷兰学术会议论文集. 关于Artif 英特尔Blum，A.，Monsour，Y. 2007.学习、后悔最小化与均衡[J]. 2007. 陈志，乔，C.，Qiu，Y.，中国农业大学出版社，例如，2014.无线传感器网络主动防御模型的动力学稳定性[J].Journal of Computer and System Sciences计算机与系统科学杂志80（8），1534-1548Chowdhary，A.，圣古普塔，S.，黄，D.，等，2018年。云网络中战略性威胁检测的移动目标防御马尔可夫博弈建模[J]. arXiv预印本arXiv：1812.09660，2018。Chowdhary，A.，圣古普塔，S.，Alshamrani，A.，等，2019年。使用马尔可夫博弈模型的自适应MTD安全[C]//2019计算、网络和通信国际会议（ICNC）。IEEE，577-581。杜，Y.，夏，J.，妈，杰，例如，2021.基于增强协作机制的无线传感器网络入侵检测系统优化决策方法[J]. IEEE Access 9，69498-69512。Fang，F.，中国农业大学化学系，Liu，S.，Basak，A.，例如，2021.博弈论导论[J].博弈论和机器学习的网络

下载后可阅读完整内容，剩余1页未读，立即下载