没有合适的资源?快使用搜索试试~ 我知道了~
阵列16(2022)100262基于奖励随机化强化学习的张磊a,李红梅a,潘玉b, c,郑启斌 a,李伟 b,刘毅a,*军事科学院a座,北京市,100091b中国人民解放军陆军工程大学指挥与控制工程学院,南京市海府巷1号,210007c中国长沙市德雅路国防科技大学A R T I C L EI N FO保留字:博弈模型奖励随机化强化学习A B S T R A C T现有的网络空间攻防手段可以看作是博弈,但大多数博弈只涉及网络信息,而不包括网络空间的状态、攻防双方的行为。针对这一挑战,提出了一种基于强化学习的网络攻防博弈模型。通过建立两个代理,分别代表攻击者和防御者,防御者将选择在网络空间中的行动,以获得防御者的最佳奖励强化学习。为了提高防守方的防守能力,提出了一种基于奖励随机化强化学习的博弈模型。当防守者采取防守行动时,随机给予奖励,并使奖励服从线性分布,以寻找更好的防守策略,提高防守成功率。实验结果表明,该博弈模型能有效模拟网络空间的攻防状态,且奖励随机化约束学习方法比现有方法具有更高的防御成功率。©2001 Elsevier Science。All rightsreserved.1. 介绍随着信息社会的不断发展,网络攻击也越来越频繁.为提高网络空间的整体安全,从网络空间攻防对抗的角度研究和探索网络空间安全防御技术体系,提高网络空间安全防御能力,具有重要的理论价值和现实意义。我们需要对网络攻击进行分析,以便管理者能够利用有限的网络资源和设备,制定更好的网络安全防御策略,提高网络防御的有效性。与此同时,探索和构建网络空间安全的智能防御体系也成为近年来的一个新的研究方向。同时,博弈论与网络空间攻防双方的目标对抗性、非合作性和策略依赖性高度一致。因此,基于博弈模型的防御方法成为网络空间安全防御的重要方法之一。通过学习和训练一个代理人,防守者可以有一种能力,观察网络空间的状态,掌握攻击者的规则,代理可以捕获或驱逐攻击者,提高网络空间的整体安全性。然而对于防御者来说,其防御行为不仅仅是简单的检查被攻击者的信息,还应该有修改防火墙配置、切断流量访问、重启服务等,因此,为了更好地模拟网络空间博弈环境,提出了基于强化学习的网络空间攻防博弈模型。网络空间攻防博弈模式本质上是一个对抗的过程。网络空间的成功不仅取决于攻击者自身攻击能力的强弱,还取决于防御者对攻击者采取的防御行动。虽然博弈的基本理论是基于经济学中存在的问题而提出的,但博弈模型所描述的合作与竞争机制也广泛存在于各个方面,因此它也越来越多地应用于其他研究领域。本文着重探讨如何将该游戏应用于网络空间攻防领域,提高防御者的防御能力,使网络空间防御体系更加高效实用。首先,该博弈模型将研究重点从攻击者的具体攻击行为转移到由攻击者和防御者组成的对抗系统上。其次,博弈模型中包含了网络攻击的关键因素* 通讯作者。电子邮件地址:albertliu20th@163.com(Y.Liu).https://doi.org/10.1016/j.array.2022.100262接收日期:2022年9月29日;接收日期:2022年11月12日;接受日期:2022年11月17日2022年11月24日网上发售2590-0056/© 2022作者。爱思唯尔公司出版这是一篇基于CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)的开放获取文章。可在ScienceDirect上获得目录列表阵列期刊主页:www.sciencedirect.com/journal/arrayL. Zhang等人阵列16(2022)1002622和防御对抗过程中的激励、效用、成本、策略、行动、安全措施、攻击手段、防护手段、系统状态等,最后利用博弈模型推导出本文的主要贡献如下:首先,我们提出了一个网络空间中攻击者和防御者的博弈模型。一般来说,博弈模型包括攻击者的行为和防御者的行为,网络空间的状态会因攻击者和防御者的行为而改变,他们的目标是最大化各自的收益;其次,提出了一种奖励随机化强化学习方法,用于学习更多的防御策略来对抗攻击策略。实验结果表明,奖励随机再学习方法能发现更多的攻击策略,并能有效地抵御攻击。本文的其余部分组织如下。在下一节中,我们将介绍相关的工作。在第3节中提出了一个模型。第4节中的实验和讨论。最后,我们在第5节总结了本文。2. 相关作品基于博弈的网络空间攻防博弈研究取得了相关成果,但目前的研究基本上是一种完全理性的假设,博弈的类型可以分为单阶段博弈和多阶段博弈。将静态博弈理论应用于蠕虫病毒的攻击,取得了较好的效果[1]。其他研究者也建立了攻击者与传感器信任节点之间的非合作博弈模型,根据纳什均衡得到了最优攻击策略[2]。然而,在一般的网络空间攻防博弈中,单阶段博弈的应用较少。大多数网络空间攻防博弈应该是多阶段博弈,攻防过程通常会持续几个阶段[3]。提出了一个基于网络空间攻防的多阶段博弈模型,并进一步给出了纳什均衡的求解方法[4]。在该模型中,防御者作为信号的发送源,攻击者作为信号的接收者。建立了入侵检测系统与无线传感器的多阶段博弈模型[5]。攻击树模型是描述系统安全性的一种形式化建模方法[6]。它将对系统的攻击表示为树结构,将攻击所要到达的目标作为树的根节点,将实现目标的不同方法作为叶节点。上述研究分析了多阶段博弈模型,但系统受各方面的影响,具有一定的随机性。随机博弈是一种多阶段博弈模型,它采用马尔可夫过程来描述状态转移,因此可以分析随机性对网络空间攻防博弈过程的影响。网络空间的攻防问题可以直接抽象为随机博弈问题[7],并给出了攻防博弈的奖励。接着,利用凸分析将纳什均衡问题转化为非线性规划问题,从而求解非线性规划问题[8]。提出了恶意软件和安全软件之间的博弈模型,并在此基础上提出了防御博弈模型[9]。上述研究大多基于完全理性的假设,没有考虑到网络空间的多域性。因此,研究多域网络空间攻防博弈具有重要的研究价值和现实意义。有限理性意味着攻击者和防御者都不可能能够从一开始就找到最优策略,他将在攻防博弈中学习策略,而合适的学习机制将是博弈获胜的关键。目前,对进化博弈的研究主要集中在进化博弈上。但这种博弈中参与者之间的信息交换太多,对攻击者和防御者的策略调整和稳定性研究不够,不适合指导博弈策略[10]。强化学习是一种经典的机器学习方法[11]。 它主要通过Agent和环境之间的交互来学习。与其他机器学习方法相比,再励学习更适合独立指导博弈双方的决策。本文将强化学习引入博弈,将博弈方法引入网络空间攻防,采用博弈方法研究网络空间攻防状态,更符合现实网络空间环境。同时,再学习更适合于指导攻击和防御Agent的决策。DDPG [12](Deep Deterministic Policy Gradient,深度确定性策略梯度)是一种将深度学习神经网络集成到确定性策略梯度(DeterministicPolicy Gradient,DPG)[13]中的学习方法。与DPG相比,改进后的DPG使用神经网络作为策略网络和Q网络,然后使用深度学习对上述神经网络进行训练。DDPG有四个网络:行动者当前网络、行动者目标网络、批评者当前网络和批评者目标网络。除了四个网络之外,DDPG还使用体验回放,用于计算目标Q值。3. 网络空间攻防博弈模型3.1. 赛博空间的定义随着人们对网络概念,特别是赛博空间概念认识的不断深入,越来越多的研究者认识到赛博空间受到多个域行为的影响网络空间可以被认为是物理域、数字域、网络域和社会域等多个域的融合,突出了网络空间的多域特征。本文定义了多域赛博空间,包括物理域、数字域和网络域。物理域描述设备信息和空间信息,如房间、建筑物、计算机和服务器。在物理域中,攻击者和防御者有进房间、出房间、控制计算机等物理域行为。网络域描述了与网络传输有关的接口、路径和动作设备等信息,对大多数人来说,是一般网络空间的缩影。最后,数字域描述了网络空间中的数字信息,如用户名,密码等此外,我们在网络空间有一些安全保护规则。安全保护规则主要描述了如何防止未经授权的访问,防止攻击者进入安全空间。本文将我们设置的安全规则描述为允许数据通过源端口地址、目的端口地址、目的地址上的服务和防止非授权访问的信息。3.2. 网络空间攻防模式网络空间的攻击和防御是一个复杂的问题,可以说是一个博弈问题。在该模型中,我们定义攻击者和防御者是博弈的双方。我们将连续的时间片划分为多个时间片,每个时间片只能包含一个赛博空间状态,但不同时间片中的状态很可能是相同的。在每个时间片内,攻击者和防御者都可以选择一个行动来改变网络空间的现状,我们的目标是使防御者的总收益最大化。当攻击者和防御者都选择了一个动作时,网络空间就会进入下一个状态。攻击者和防御者再次检查当前的网络空间状态,然后根据自己的策略选择一个动作,从环境中获得奖励。下一个网络空间国家是在攻击者和防御者的共同行动下。我们提出的方法的目的是使防御者在赛博空间博弈中获得长期的、高的和稳定的奖励。在完全理性的条件下,双方都可以估计纳什均衡L. Zhang等人阵列16(2022)1002623==+()下一页均衡,这通常被认为是双方的最优策略。但在实践中,由于攻防双方不会从一开始就执行纳什均衡策略,而是在强化学习方法中对各自的防御策略进行了改进,这意味着纳什均衡并不是最终的结果,会因为策略的不同而偏离纳什均衡。本文提出的博弈模型解决了这方面的问题,即Agent可以从允许同时或先后选择的动作列表中进行选择,然后实施并获得相应的奖励。从博弈的角度来看,网络空间的攻防过程可以看作是攻击者与防御者之间的博弈。游戏的每一方都根据自己对网络空间环境的观察和对另一方行动的预测来选择自己的行动。可以认为,在这个博弈过程中,双方的信息都是不完全的。随着博弈过程的进行,双方都可以获得更多关于对方的信息。博弈模型由网络空间攻防的各个状态、行 为 之 间 的状态转换和博弈 者选 择的 状态组成,进攻方和防守方对于每一种网络空间状态,我们将其定义如下:在有限理性的约束下,将网络空间环境中攻防双方的信息设定为双方的私有信息,将网络空间状态设定为双方的可见信息,即双方都能观察到的现有网络空间状态信息。3.2.1. 时间片一般来说,每个代理将观察网络空间的状态,然后执行一个动作。我们设定攻击者和防御者同时执行动作,即在相同的条件下,攻击者和防御者都选择一个动作,使网络空间状态过渡到下一个状态。它不存在于相同的条件下,攻击者先选择动作,然后防御者选择一个动作或防御者先选择一个动作,攻击者后选择一个动作。在网络空间攻防模型中,一个标准的博弈模型可以定义为:其中N=(attacker,defender)是参与博弈的两个主体的攻击者和防御者;S(s1,s2,A(a1,a2,R(si,ai,si1)是防御者在状态si下执行动作ai后从环境中获得的奖励。Qd(si,ai)是防御者状态行动的价值函数,表示防御者在防御中采取某种策略后达到某种状态s i,在网络空间攻防的纳什均衡是指在博弈过程中,网络空间博弈模型中双方经过多次的政策选择,得到双方都不愿意或不愿意改变自己的单独政策或政策组合,在这种攻击者和防御者双方都不愿意改变自己的政策的情况下称为纳什均衡政策。网络空间博弈模型中的纳什均衡可以表示为:纳什均衡是博弈状态si下攻击者和防御者双方的最优攻防策略,攻击者和防御者只有采用纳什均衡才能使各自的收益最大化。上述博弈模型存在一个纳什均衡。由于这个博弈只有两个参与者(攻击者和防御者),并且由于每个参与者在博弈的每个状态下都有一组有限的行动,因为有有限数量的状态,那么纳什均衡的存在性是有保证的。在上述博弈模型中,攻击者和防御者都是理性参与者。对于双方来说,他们都有一定的训练数据,知道对方的一些攻击策略或防御策略3.3. 基于强化学习的基于强化学习的攻防博弈模型是以深度强化学习为代表的一种智能方法,通过训练智能体感知和识别环境。利用规则和学习到的经验知识,定义者通过与攻击者行为的对抗,实现最优行为的选择。博弈模型策略是博弈环境中状态到对抗行为的映射,是深度强化学习中的策略函数π。策略函数π是强化学习的结果。在描述基于MDP的博弈过程的基础上,提出了基于强化学习的智能博弈模型。通过基于再学习的Agent与模拟的赛博空间环境交互,训练并生成博弈下的防守方博弈对抗策略。基于强化学习方法的智能博弈模型如图所示。1.一、在图1中,有两个代理,一个攻击者和一个防御者。当攻击者想要攻击网络空间时,他会从自己的攻击策略中选择合适的行为进行攻击。然后,观察网络空间的状态和防御者的行动,然后选择下一次攻击行动。防御者的行动也是类似的。同时,这些步骤将被记录在体验回放中。与一般的单智能体强化学习相比,单智能体强化学习变成了多智能体强化学习。在本文中,我们在这里设置一个攻击者和一个防御者。在此基础上,给出了防御算法,并采用DDPG作为防御者的防御算法该算法首先建立网络攻防博弈模型及相关参数,防御Agent通过该算法观察网络空间的状态并采取防御行动。防御者检测到网络空间的状态,然后根据当前的策略做出防御决策,选择相应的防御行动。然后是时候根据奖励更新算法的参数了,目标是最大化防御者的奖励。每当代理选择一个动作时,它会根据奖励和新的网络空间状态调整其学习策略,循环重复。经过不断的试错和与环境的不断交互,智能体最终在网络空间博弈环境中学习到最优策略。3.4. 奖励随机化强化学习为了提高强化学习的学习效率,减少强化学习对数据的依赖,引入随机化奖励函数来设置de-fender agent的奖励。在强化学习中,奖励函数R对强化学习学习的策略有很大影响。此外,即使策略在特定的R中很难学习,但在其他一些函数中可能更容易。因此,如果我们能在不同的函数上定义一个合适的R,我们就有可能发现新的策略。考虑当前博弈模型定义如下:S是可观察状态,A是防御者的行动空间,防御者代理生成策略πθa,该策略是策略的参数在这个博弈模型中,攻击者和防御者都希望得到最大的奖励。但在这种方法中,我们只希望防御者的回报最大化。 游戏模型过程如图所示。 二、在图2中,当攻击者和防御者观察到网络空间状态时,他们将采取一次行动,然后防御者将从网络空间获得奖励并过渡到下一个状态。考虑到马尔可夫策略中得到的结果是使双方的报酬最大化。但当涉及到网络空间的攻击和防御时,我们只期望防御者最大化他的回报。因此,这个问题可以等价为:在上述条件下,我们需要找到一个最大化防御者报酬的策略L. Zhang等人阵列16(2022)1002624Fig. 1. 进攻和防守博弈模型。图二. 博弈模型过程。因此,将奖励随机化引入到攻防博弈模型中是基于以下原因:如果博弈中的相关奖励函数使得强化学习难以发现最优策略,则可能更容易实现这一目标 如果奖励功能受到干扰。然后我们可以定义一个奖励函数空间R,我们可以从奖励函数采样中训练并计算相关的最优策略,而不是简单地学习固定的奖励。利用报酬随机化方法,定义了线性映射的报酬随机化。奖励函数的空间非常大。然而,我们通常以线性形式表示奖励函数,因此我们将奖励函数设置为以下形式:r(s,ai)=Q(s,ai)ω(1)其中,Q(s,ai)是状态动作的值函数,是随机化参数。另一个简单而通用的设置是固定状态动作值函数Q(s,ai),它只调整参数 ω。目的是保证整体搜索空间保持与原始环境状态值相近,没有大的偏差和误差,不同的动作奖励设置有不同的选择范围。从理论上讲,强化学习训练与奖励函数没有联系。然而,在实际应用和实验中,奖励空间的大小可能会显著影响DDPG算法在训练过程中的稳定性,因此通常选择固定状态的动作值函数,只调整随机化参数ω。一般来说,基于特征的奖励函数在相关的强化学习参考文献中出现得越来越频繁。 例如,在距离相关的游戏中,奖励通常被设置为从目标位置到智能体位置的负距离加上固定奖励。因此,为了快速学习最优策略,我们遵循以下奖励设置原则:当攻击者拥有大量权限时,将以大概率生成小值。一般来说,它是参数空间中的等概率分布。在上述方法中,调整空间概率分布以奖励代理。最后,我们还对奖励函数进行了微调,如下所示r(s,ai)=Q(s,ai)ω+b( 2)通过增加一个常数系数b,可以在实验中根据实际实验结果对系数进行微调。其随机化奖励函数的微调主要基于以下判断:第一,博弈中发现的策略在原博弈中可能不会保持均衡,微调可以保证最终收敛;第二,在实验中,微调可以通过强化学习进一步学习更好的策略。4. 实验4.1. 数据集在这个实验中,我们使用Python重新创建了一个网络空间环境。在这个实验环境中总共有五个地方。物理空间,如小区、校园,由最外层表示。房间1是终端的位置,房间2是安全设备的位置,房间3是终端的位置,房间4是服务中心的位置。如图3所示,共有五种设备:计算机(T1和T2,分别存放在1号和3号房间)、防火墙(FW 1和FW 2,分别存放在3号和4号房间)、安全设备(D1,存放在2号房间)、路由器(R,存放在4号房间)L. Zhang等人阵列16(2022)1002625=图三. 实验环境。以及交换机(SW,存放在Room 4)、服务器(S1、S2,存放在Room4)及其设备连接关系。S2是保存安全信息的地方。如果攻击者能够访问S2以获取安全文件,则攻击成功。4.2. 基线在上述实验背景下进行了E-X实验。以下基线方法用于证明我们提出的方法的有效性:深度Q网络(DQN):DQN是一个典型的强化学习系统,它使用神经网络来预测Q值,并不断更新神经网络来学习最优策略。获取S2 web的密码S2 web password;最后,攻击者可以使用T1或D1访问S2 Web服务,并使用S2 Web密码获取安全文件。此时,攻击者已经完成了他的攻击。5. 结果和讨论对于每种方法,我们训练100集。在每一集中,随机产生100名铲球手进行训练,以评估该方法的有效性。在100集之后,对DQN、DDPG和我们的RRDDPG进行了性能测试。同时,我们选择了攻击成功率(ASR)作为评估标准。我们将其定义如下:DDPG:该方法遵循演员-评论家学习框架。 评价网络采用可微评价函数进行评价ASR成功攻击ker% s总攻击量(三)动作值函数和动作者网络在动作值函数梯度的方向奖励随机化深度确定性策略梯度(RRDDPG):本文提出的方法攻击者受基于知识的规则的指导,他们的目标是成功地攻击服务器。以下是具体的攻击规则:首先,攻击者进入空间Room 2,获得防火墙FW 1第二,攻击者使用设备T1或D1访问FW 1第三,攻击者使用T2管理器来获得防火墙FW2的密码FW2密码和服务S1 web的密码S1 web密码。第四,攻击者打开T2端口,登录FW 2管理器防火墙,并添加以下访问控制列表:允许T1或D1访问S1 web和S2 web服务;第五,攻击者使用T1或D1访问服务S1 Web,在这个实验中,攻击者的总数是100个。在每个时间片中,攻击者在实验中执行一个动作,攻击者执行一个动作,防御者执行一个动作并获得奖励。在模型训练阶段,所有代理操作的奖励都作为训练奖励添加。在每个训练阶段,模型将被训练100次。以下是实验中的附加参数:攻击者执行不超过60个动作。如果攻击者不能在60个时间片内完成攻击,他将离开这个网络空间环境。此外,如果攻击者攻击成功,防御者将获得负奖励。此外,如果攻击者在60个时间片内没有收获,他将不会被德-挡泥板,后卫将得到没有 奖励首先,在上述实验网络环境中实现了博弈模型.在每次方法训练结束时,我们记录了ASR。实验结果如图所示。 四、其次,为了评价RRDDPG方法的效果,我们记录了不同方法下防守者L. Zhang等人阵列16(2022)1002626实验结果如图所示。四、见图4。 ASR和DR在不同的方法。信用作者声明从实验结果来看,随着训练次数的增加,ASR不断降低,而DR不断增加,这表明基于强化学习的网络空间攻防博弈能够有效提高防御者的防御能力。同时,我们提出的方法使攻击者具有最低的ASR,防御者具有最高的DR,这表明了所提出的方法RRDDPG的先进性能。同时,从实验结果可以得出以下结论:本文设计的网络空间攻防博弈模型可以为下一步的网络空间攻防博弈提供研究方向;提出了一种奖励随机化强化学习方法,可以提高攻防博弈中防守方的智能防守水平。6. 结论针对网络空间安全攻防博弈的复杂性,从攻防博弈的角度定义了最优防御策略选择问题。鉴于现有的网络空间博弈模型不能有效描述网络空间攻防博弈,不能准确反映攻防双方的博弈状态和行动变化。通过相关定义,提出了一个网络空间攻防博弈模型。在该模型中,防守方可以通过观察到的双方状态来决定下一次的博弈行动,从而在攻防博弈状态下寻找最优的防守策略。在此基础上,提出了一种奖励随机强化学习方法,为快速发现和有效防御攻击的防御策略提供支持。实验结果表明,该模型和提出的奖励随机强化学习方法能够快速发现攻击者策略,提高防御效果,与现有强化学习算法相比具有一定的优势。张磊:总体研究目标和目的的概念化,思想,制定或演变,方法论,写作。李红梅:方法论,方法论的设计,模型的创造。潘宇:形式分析,分析或综合研究资料,调查。Qibin Zheng:可视化,准备,特别是可视化/数据呈现。李伟:写作-评论编辑。&刘毅:资金获取,项目管理。竞合利益作者声明,他们没有已知的可能影响本文所报告工作数据可用性数据将根据要求提供致谢作 者 感 谢 国 家 自 然 科 学 基 金 项 目 ( No.62076251 和No.62106281)的资助。引用[1] 戈特洛布湾非单调逻辑的复杂性结果 J Logic Comput June 1992;2(3):397-425.[2] 张勇,刘军。基于博弈论和智能学习的网络安全防御最优决策方法。安全通信网络2019;(3):1-16. 2019年6月。[3] Subba B,Biswas S,Karmakar S.基于博弈论的无线传感器网络多层次入侵检测框架。Int J Wireless Inf Network 2018年6月;25(4):399-421。[4] Sarıtas S,Yuksel S,Gezici S.纳什和斯塔克伯格均衡下二次准则的动态信号博弈。 Autom 2020;115:108883.[5] Chowdhary A,Sengupta S,Alshamrani A,Huang D,Sabur A.基于马尔可夫博弈模型的自适应mtd安全。在:计算,网络和通信国际会议(ICNC); 2019年。p. 577- 81[6] Lallie HS,Debattista K,BalJ.网络安全中攻击图和攻击树视觉语法的回顾。Comput. Sci. Rev. 20 2 0 ;35:100219.L. Zhang等人阵列16(2022)1002627[7] 刘翔,张宏,张勇,邵良.基于进化网络博弈的最优网络防御策略选择方法。第495章. 1-5 381 495:11 2020.[8] 放大图片作者:Abraham S.发展现有的非线性模型,并研究其对二人非零和对策纳什均衡的影响。 国际企业网络管理杂志; 2021。[9] Anwar AH,Leslie NO,Kamhoua CA,Kiekintveld C.网络安全软件多样性的博弈论框架。GameSec;2020.[10] [10]张文,张文,张文. 使用深度强化学习进行持续控制。 计算机工程;2015.[11] [10]张文辉,张文辉,张文辉. 确定性策略梯度算法。JMLR.org; 2015.[12] 纽曼·J 电化学系统。第二版 Englewood Cliffs,NJ:Prentice-Hall; 1991.[13] 米勒湾第六届澳大利亚电化学会议论文集。确认,吉隆,维克。19-24FebJElectroanal Chem 1984;168:91. 一九八四年张磊(1989年-),2018年毕业于中国人民解放军南京理工大学,获硕士学位,2018年获博士学位。2022年毕业于解放军陆军工程大学现为中国北京军事科学院助理研究员。他的主要 研 究 兴 趣 包 括 数 据 工 程 和 机 器 学 习 。 电 子 邮 件 :zhanglei@aeu.edu.cn。潘玉(1990-),获理学硕士学位。2015年毕业于东北大学计算机科学2021年在南京解放军陆军工程现为长沙国防科技大学讲师. 她的主要研究兴趣包括社交网络和机器学习中的数据处理和挖掘。电子邮件:panyu@aeu.edu.cn。李红梅(1990-),获理学硕士学位。2015年毕业于南京理工大学,获博士学位。2018年毕业于南京陆军工程大学软件工程专业现为中国北京军事科学院助理研究员。她的主要研究兴趣包括机器学习和数据工程。邮箱:376342117@qq.com郑启斌先生(1990-),2016年毕业于南京理工大学,获硕士学位,2020年毕业于中国人民解放军陆军工程大学。现为中国北京军事科学院助理研究员。主要研究方向为数据挖掘、机 器 学 习 和 多 模 态 数 据 分 析 . 电 子 邮 件 :zqb1990@hotmail.com。刘毅(1990-),获理学硕士。2014年毕业于南京解放军科技大学计算机应用技术2018年毕业于南京陆军工程大学软件工程专业。现为中国北京军事科学院助理研究员。他的主要研究兴趣包括人工智能,机器学习,进化算法和数据质量。电子邮件:alberliu20th@163.com。李伟(1995-),2017年获北京大学计算机科学与技术专业学士学位。他获得了MS。2019年毕业于南京解放军陆军工程大学。 现为中国人民解放军陆军工程大学计算机科学与技术专业博士生。他的主要研究兴趣包括机器学习和时空序列预测。电子邮件:liwei@aeu.edu.cn。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功