5G及以后网络切片和虚拟化中的深度强化学习

132 浏览量更新于2023-12-06 收藏 3.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列14（2022）100142深度强化学习在5G及以后网络切片和虚拟化中作者：Charles Ssengonzi a，Okuthe P. Kogeda a，Thomas O. Olwalb，*a自由州大学，自然和农业科学学院，计算机科学和信息学系，P。O. Box 339，Bloemfontein，9300，South Africab茨瓦内理工大学，工程与建筑环境学院，电气工程系，南非比勒陀利亚A R T I C L E I N F O保留字：机器学习强化学习深度强化学习多域网络切片演示准入控制预测A B S T R A C T第五代（5G）及以后的网络预计将提供巨大的吞吐量，连接大量设备，支持低延迟和大量业务服务。为了实现这一愿景，需要在蜂窝网络的设计、构建和维护方式上进行范式转变。网络切片将物理网络基础设施划分为多个虚拟网络，以支持各种业务服务、企业应用和用例。在这种共享基础设施上具有不同架构和服务质量要求的多个服务和用例使网络环境复杂化。此外，5G及以后网络的动态性和异构性将加剧网络管理和运营的复杂性。受机器学习工具在解决复杂的移动网络决策问题中的成功应用的启发本文旨在通过对现有研究协会的全面调查，弥合Deep RL和5G网络切片研究之间的差距首先，介绍了Deep RL框架的基本概念。然后讨论了5G网络切片和虚拟化原理第三，我们回顾了5G网络切片的挑战以及目前将Deep RL纳入解决这些挑战的研究工作。最后，我们提出了开放的研究问题和未来的研究方向。1. 介绍5G的愿景在Ref。[1]是支持各种应用和用例，这些应用和用例被分类为增强型移动宽带（ eMBB ）、超可靠低延迟通信（uRLLC）和大规模机器类型通信（mMTC）。用例示例包括智能家居、自动驾驶、智能交通等[2]，关键技术使能器是软件定义网络（SDN）[3]、网络功能虚拟化（NFV）[4]、移动边缘计算（MEC）[5]和云计算[6]。这些用例的特征在于不同的无线电接入网络（RAN）架构、特征和服务质量（QoS）要求。因此，简化网络操作的需求将需要新的网络设计、建设和维护方法网络切片[9]已经成为解决这些挑战的潜在解决方案。它将前几代单片架构的网络构建理念在相同的物理网络基础设施内满足特定客户和服务的特定需求。灵活的网络操作和管理将通过在需要时创建、修改和删除切片来实现[9]切片是隔离的，每个切片都可以分配给具有特定QoS要求的用例，以保证服务水平协议（SLA）[9]。网络资源可以按需分配给每个切片，并基于精确的要求，以防止过度配置[9]。参考文献中的几个5G网络切片试点。[12]取得了可喜的成果。然而，它们面临以下挑战：（a）跨多个域切片，（b）联合多维网络资源编排，以及（c）在维持QoS/QoE和最大化网络效用之间取得平衡，（d）在动态环境中需要先验DeepRL选择其作为基于统计模型的解决方案的替代方案以应对5G切片挑战的基础。深度RL是RL和深度神经网络（DNN）的结合RL与环境交互，* 通讯作者。电子邮件地址：charles. ericsson.com（C. Ssengonzi），kogedapo@ufs.ac.za（O.P. Kogeda），olwalto@tut.ac.za（T.O. Olwal）。https://doi.org/10.1016/j.array.2022.100142接收日期：2022年1月3日;接受日期：2022年2022年4月4日在线发布2590-0056/© 2022由Elsevier Inc.发布这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表阵列期刊主页：www.sciencedirect.com/journal/arrayC. Ssengonzi等人阵列14（2022）1001422一种尝试和错误的方式[35]，从其行动中学习以提高回报。通过这种方式，它解决了对先验流量配置文件的需求，并解决了InP效用最大化的挑战。然而，它往往表现不佳，在大的状态-动作空间，被称为维数灾难。当与DNN结合时，可以解决这个挑战。通过这种方式，它解决了多域和联合多维资源分配场景中预期的特征提取和最优策略搜索挑战DeepRL然而，现有文献分散在不同的研究领域，并且缺乏全面解决其在5G多域网络切片场景中使用的研究。本文弥合了这一差距，并详细调查了5G及其他网络中深度RL、网络切片和虚拟化之间的关联。本文的重要贡献包括：从RL和Deep RL角度对5G网络切片和虚拟化进行了广泛的调查据我们所知，这是这方面的第一份文件。Deep RL及其在5G移动通信场景中使用的动机。对使用Deep RL自动化5G切片生命周期管理的当前研究的回顾。• 开放的研究问题和进一步调查的方向。本文的其余部分组织如下：第2节回顾了与该主题相关的现有调查。第3节介绍RL和深度RL。第4节介绍了5G网络。第5节介绍了5G网络切片和虚拟化的基础和原理。第六节介绍了管理和监督。第7节回顾了在5G网络切片中使用深度RL的现有研究，主要集中在（i）网络拓扑，（ii）准入控制，（iii）资源分配和管理以及（iv）对5G基础设施提供商（InP）和切片租户至关重要的流量最后，第8节介绍了进一步研究的开放性挑战和方向。表1列出了与该主题相关的重要缩略语和定义。每一部分的摘要以及从中吸取的教训也将在表1与研究相关的重要缩略语列表。缩略语完整描述5G第五代网络AI人工智能D2D设备到设备深度强化学习Deep ReinforcementLearningDNN深度神经网络DQL Deep-Q学习DQN深度Q网络IaaS基础设施即服务MDP马尔可夫决策过程MEC移动边缘计算ML机器学习NSSF网络切片选择功能NSSI网络切片子网实例PaaS平台即服务部分可观测MDPQoE EX体验质量QoS服务质量RAN无线电接入网络强化学习SaaS软件即服务SaaS切片即服务SLA服务水平协议TCO总拥有URLLC超可靠低延迟通信V2X车辆到XIaaS基础设施即服务PaaS平台即服务每一段复习的结尾。与RL/Deep RL框架、网络切片和虚拟化相关的现有调查、杂志、论文和书籍的摘要如表2所示。2. 对与该专题有关的调查文件的审查解决5G网络复杂性、货币化挑战以及巨大的运营和管理支出的需求加速了多域网络切片和AI/ML工具（如Deep RL）的研究。然而，一些现有的研究表明，这两个主题继续单独研究。目前调查这两个主题的工作可分为以下几类：对RL框架及其应用的调查。深度强化学习框架及其应用。5G移动通信网络中的Deep RL调查。网络切片经常在这里的几个段落中提到。5G网络切片和虚拟化调查。学习有关RL、Deep RL和网络切片的教程、书籍、论文和杂志。在本节中，我们回顾了与我们的主题相关的现有调查论文。这次调查的组织结构示意图见图1。1.一、2.1. 强化学习和深度强化学习框架及其应用强化学习（RL）是一种基于马尔可夫决策过程解决序列决策问题的ML方法[28]。强化学习的研究由于其强大的基础，突破以及Google DeepMind的AlphaGo和Alphazero在围棋中的出色表现而大大加速例如，参考文献[29]中的作者对RL领域的历史基础和核心问题进行了全面概述。参考文献[30]中的研究调查了贝叶斯方法在RL pardigm中的作用，详细的贝叶斯RL算法及其理论和经验性质。参考文献[31]中的研究提供了RL和深度RL方法及其在经济学中的应用的全面概述。反向强化学习（IRL）被认为是在参考。[32]. IRL使用任务执行过程中生成的数据来构建一个自治代理，该代理可以在不影响任务性能的情况下对其他代理进行建模。基于偏好的强化学习（PbRL），从非数字奖励中学习，在参考文献中进行了回顾。[33 ]第33段。研究了RL在5G无线通信中的应用，参考文献[34]。GAN驱动的深度分布式RL [39]，安全RL [38]，迁移学习[40]，多智能体RL [41]，使用RL的最优自主控制[42]，基于模型的RL [43]和动态变化环境中的RL [44]是与本文相关的其他现有调查。用深度神经网络（DNN）补充RL开创了深度RL领域及其在各个学科和领域的关键突破。作者在Refs。[45，46]回顾了Deep RL在自动化和机器人技术中的应用深度RL在移动通信中的应用综述在参考文献。[47]. 作者在Ref。[48]对多智能体深度RL的最新技术进行了全面的回顾参考文献[49]中的作者回顾了Deep RL致力于网络物理系统，自主入侵检测技术和网络攻击防御策略的努力，创造了革命性的网络安全机制的潜力。参考文献[50]中的作者调查了DRL在在线广告和推荐系统中的工作，旨在改善移动广告。最近的调查[51········C. Ssengonzi等人阵列14（2022）1001423表2现有的关于RL/Deep RL框架、网络切片和虚拟化的调查、杂志、论文和书籍的摘要这意味着出版物是在一个领域的范围内，并直接链接到主题。这意味着，虽然可以从该出版物中获得重要的见解，但它并不直接涉及该领域。C. Ssengonzi等人阵列14（2022）10014242.2. 5G移动通信网络中的深度RL研究综述随着Deep RL在研究界的持续关注，关于其在无线网络中应用的出版物越来越多。最近关于认知、自主、智能5G网络及其他方面的研究总结在参考文献[54]. 作者在Refs。[45，55]审查人工智能和机器学习在5G及其他网络设计和运营中的应用作者在Ref。[56]研究概况单代理Deep RL算法的应用，以解决移动网络问题，如网络访问控制，数据速率控制，无线缓存，数据卸载和网络安全。参考文献[57]中的作者回顾了关于Deep RL驱动的MEC，SDN和NFV网络的最新研究，这些网络是5G网络切片和虚拟化的关键技术。在参考文献[58]中，对Deep RLC. Ssengonzi等人阵列14（2022）1001425Fig. 1. 测量组织的图示。2.3. 5G网络切片和虚拟化调查已经进行了几次尝试来审查5G网络切片的进展，并提供对标准化进展的见解。[59]的作者回顾了5G网络切片的通用参考架构的早期研究，该架构由基础设施层、网络功能层、服务层、管理和编排层组成。参考文献[60]中的研究侧重于网络切片原则，包括动态服务链，编排和管理。[62]的作者回顾了5G网络切片和虚拟化的架构和拓扑方面的研究。[64]的作者概述了网络切片和虚拟化的最新突破和挑战。跨多个域的管理和编排（MANO）架构的概述可在参考文献[65]. 参考文献[67]中给出了5G网络切片安全性的概述。E2E多域网络切片及其关键使能因素和用例的全面研究[63]第一章。2.4. FasaerRL，深度RL研究材料一全面文献计量评估的全球RL2009年至2018年的出版物可以在Ref.[36]第30段。[70，71]和[72]的作者参考文献[63]中最近发布的教程全面概述了5G网络切片和虚拟化、其技术要求以及有关3GPP标准化工作的信息。在第3.6节中总结了RL和深度RL框架特定的有用资源和资源的全面总结。2.5. 本研究从上面的研究中可以明显看出我们的目标是弥合这一差距。因此，本文提出了以下研究问题：a) 5G及其他网络切片的技术推动因素和挑战是什么？图二. AI、ML、RL、SL、SSL和USL之间的关系。图三. 强化学习过程[35]。C. Ssengonzi等人阵列14（2022）1001426b) 为什么Deep RL在解决5G及以后的网络切片挑战方面如此有前途？c) 在5G及其他网络切片中成功的Deep RL应用有哪些？d) 深度RL和5G网络切片中有哪些有前途的方向可供进一步研究？上述现有的综述论文已经解决了我们的一些研究问题。然而，我们的论文超越了这些以前的研究，特别关注深度RL和5G网络切片之间的研究关联。我们的论文在以下方面与现有的研究不同[48，56]，我们专注于其在关键网络切片功能中的应用细节，这些功能对InP和切片租户至关重要，例如切片拓扑，资源分配，准入控制，预测和预测。(b)我们回顾了可用于开发和训练RL和Deep RL代理的主要RL和Deep RL平台，包括支持解决移动网络通信问题的测试代理的环境。(c)我们回顾了Deep RL研究的最新进展，并向读者介绍了最近的尖端技术，这些技术可以帮助研究人员提高他们的RL/DeepRL代理训练。(d)本文重点关注5G网络及更高级别网络切片中的深度RL。然而，与本文相关的是，我们还讨论了Deep RL在无线通信领域的潜在用途。（e）我们概述了有用的教程、书籍、论文和其他研究材料，以及开源管理和编排平台，这些平台将使读者能够在RL/ Deep RL的知识基础中获得有意义的见解，同时快速学习如何开发在5G网络切片环境中自由运行讨论情况将以表格形式摘要说明。还将提供在每一节中吸取的经验教训。3. RL和深度RL作为我们研究的先驱，我们简要介绍了AI，RL，Deep RL的基本概念，以及一些有用的资源，有助于对该学习领域感兴趣的研究人员和学者。3.1. Agent及其环境在他们著名的书中，Russel和Norvig [73]将AI定义为人工智能领域旨在理解和构建有用和智能的代理。智能体被定义为通过传感器识别其环境并通过效应器对其进行作用的任何东西[73]。代理人是自主的，因为他们自己的经验决定了他们的行为[73]。因此，它们在各种环境中成功运行的能力应该使它们能够集成在异构和动态的5G网络环境中，这是合理和有趣的！难怪，鉴于端到端（E2E）5G多域网络切片的复杂性和问题，人工智能工具和方法提供了替代的操作和维护解决方案。人工智能已被广泛应用于许多领域和领域，以解决超出人类能力的大量复杂认知问题见图4。 Bellman图五、DP和RL的基本元素，以及[ 89 ]中的相互作用流程。机器学习（ML）是人工智能的一个子领域，它不断突破新的领域，超出了人类的预期。3.2. 历史演变机器学习（ML）工具和方法通常分为（i）监督学习，（ii）半监督学习，（iii）无监督学习和（iv）RL [74]。监督学习（SL）需要基于标记数据的模型训练。无监督学习（USL）需要使用未标记的数据进行模型训练。半监督学习（SSL）需要混合标记和未标记数据。在强化学习中，学习是通过与环境的持续交互以试错的方式进行的[35]。图 2提供了SL、USL、SSL、RL、ML和AI之间关系的总结。1959年：阿瑟·塞缪尔的工作[ 75 ]是第一个成功的ML调查。他的工作包含了RL中的大多数现代思想，包括时间微分和输入泛化。1949年至20世纪60年代：自适应控制理论研究人员（Widrow和Hoff [76]）扩展了Hebb在参考文献中的工作。[77，78]并看到了最小均方（LSM）算法在RL代理训练中的应用。著名的贝尔曼方程和“维度诅咒”概念在贝尔曼的工作中引入。1968年：Michie和Chambers[79]实验平衡Cartpole，举例说明基本RL方法。20世纪80年代：Barto和Sutton在Refs中的工作[80，81]被认为振兴了RL和AI/ML的现代研究。• 20世纪80年代末和90年代初：基本回顾和描述在Kaelbling的工作[ 83 ]和Sutton的工作[ 84 ]中都给出了RL的定义。Watkins在参考文献[ 82 ]中的博士论文需要Q学习算法。Sutton的书[35]描述了RL的一些关键基础。Koza[88]在设计具有突变技术的复杂代理方面开创了2000年代：强化学习的研究逐渐深入，但强化学习的应用随着时间的推移，用于函数逼近的神经网络的引入解决了RL在高阶空间中的局限性。DeepMind在GO游戏中的突破，以及最近的Alpha-Fold，RGB-Stacking出版物，都以指数级的速度加速了RL对其他领域和前沿的研究。包括微软、谷歌、Facebook和亚马逊在内的其他参与者继续在RL研发方面投入巨资。3.3. RL基本原则虽然SL和USL基于标记或未标记的数据生成预测和分类，但RL代理与其给定的环境交互，迭代地收集数据（经验），并根据所采取的行动RL学习过程的总结·····C. Ssengonzi等人阵列14（2022）1001427（）++（）+（）下一页）（）下一页（）下一页（）下一页（）= {|{\fnSimHei\bord1\shad1\pos（200，288）}（）= {|==（）下一页∈ []（）下一页（）下一页∈+（一）|）的方式-（一）|）=（一）|）示于图 3.本质上，RL代理以离散时间步长t监视环境的状态，然后基于策略采取动作πa/s。环境做出反应，代理接收奖励（rt1）和下一个状态（st1）。与s、a、r、st1关联的经验表示代理用于训练策略的数据。代理使用更新的状态和奖励来选择下一个动作。这个循环在剧集中使用，以学习如何最大限度地利用每一集，并重复直到环境终止。反馈可以直接来自环境，例如，视觉环境中的数字计数器，或者作为计算或函数的结果RL代理的目标是在每个状态转换时学习最佳行为或动作策略，以最大化奖励。关于强化学习的基础、原理和概念的更详细的解释可以在参考文献[1]中找到。[35 ]第35段。3.3.1. RL问题公式化状态动作对有多好价值函数方法是基于评估预期收益，然后试图找到在所有可能状态下最大化预期价值的最佳策略行动可以通过迭代地评估和更新价值函数的估计对于一个特定的策略π，状态-值函数vπ s可以定义为一个映射状态s到一个特定的值，该值描述了从状态s开始并遵循策略π的预期回报。这可以表示为v πsEπG tS ts动作-价值函数q πs被定义为一个函数，它将状态-动作对s，a映射到预期回报，如果代理从状态s开始，执行动作a，遵循给定的策略π。这也可以表示为qπ sEπGt St s，At a为了更新值函数蒙特卡罗更新[96]和时间差（TD）更新[90]可以使用3.3.3. 策略搜索和优化为了最大化累积或平均奖励，RL代理学习策略搜索和值函数逼近是两个如何通过试验和错误的方式与环境互动[35]。马尔可夫决策过程（MDP）表示这种顺序决策用5元组作相互作用M=（S，A，P（s′/s，a），R，γ），其中S和A分别表示有限状态和有限动作集，P（s′/s，a）表示动作a∈A在时隙t的状态s∈S下导致时隙t1的状态s′SR通常表示奖励，在这种情况下，R s，a是在状态s中执行动作a后的立即奖励。另一方面，γ0， 1是反映当前奖励对未来奖励的重要性递减的折扣因子。MDP的目标是找到一个策略πa/s，在状态s下选择动作a，以最大化如图4中的贝尔曼方程中所表达的价值函数状态转换通常是非线性的，有时是概率性的。这种相互作用模式如图所示。五、如果状态转换概率Ps′/s，a 在没有随机变量的情况下是已知的，动态规划[89]方法被用来解决贝尔曼问题。由于RL的目标是在具有未知和部分随机动态的情况下获得最优策略π*经典的RL算法包括Q学习[86]及其变体，演员-评论家方法[91]及其变体，SARSA [92]，TD（λ） [93]等等。RL方法适用于系统模型可能存在或不存在的场景如果系统模型可用，则可以使用动态规划方法（如策略评估）来计算策略的值函数，并使用值迭代和策略迭代来找到最优策略[89]。RL环境可以是多臂强盗、MDP、部分可观察MDP（POMDP）或游戏。3.3.2. 值函数值函数指示代理在特定状态下的良好程度，或者RL的重要特性这两种方法的混合在文献中也很常见从本质上讲，RL旨在学习一种策略πa s，该策略通过依赖于状态的动作来描述分布，或者学习函数逼近的参数θ的向量。通过找到一个最优策略，代理可以确定每个状态的最佳行动，以最大化奖励。策略πa s，θPr {At a/St s，θt θ}，在状态s时执行动作a的概率和参数θ。策略搜索的重点是为特定的策略参数化（如神经网络权重）找到好的参数最优策略搜索可以通过使用反向传播或无梯度方法的基于梯度的方法来完成根据参考文献[35]，基于策略的方法直接优化策略πa s;θ，并通过最大化损失函数来更新参数θ。加强参考文献[35]是策略梯度方法的一个例子。其他策略梯度算法包括Vanilla policy Gradient、TRPO、PPO。基于价值的方法包括TD学习[90]和Q学习[86]。请参阅参考文献中的工作。[35，94，101，102]详情。3.3.4. 探索与开发的困境为了最大化奖励，RL代理需要在尝试新事物与次优动作之间进行平衡探索并逐渐倾向于那些看起来是最好的或代理已经从经验中知道它们返回高回报的偏好动作的动作，即，剥削次优的行动可能会导致近期的回报降低，但会产生一个良好的战略，从长远来看，这将有助于改进政策。多臂强盗问题[98]和有限状态空间MDP [99]经常被用来研究探索与开发的平衡。使用Softmax和εgreedy等简单方法，固定概率为0ε> 1 [100]<来研究探索与开发的两难困境。10%的行动将是探索，即，采取随机行动，90%的行动将是剥削，即，选择长期回报最好的行动图第六章基于模型的强化学习与无模型强化学习.C. Ssengonzi等人阵列14（2022）1001428-如果ε被设置为0.1，则奖励一个类似的方法是具有衰减的ε贪婪，其中ε被设置为1，当它乘以衰减参数1时，随着每个训练集<逐渐减小。勘探可能会发生在开始时，代理人了解环境，其概率将变小，最终只采取最有利可图的行动。 Softmax方法使用通过使用Boltz-mann分布对值函数估计进行分类而确定的动作选择概率[35]。参考文献[ 35 ]中的Sutton和Barto的书提供了关于探索与剥削现象的更多细节。3.3.5. 非策略RL vs策略RL vs离线RL策略函数将状态映射到操作。在非策略强化学习中，算法评估并改进了不同于行为策略的更新策略。这种分离的优点是更新策略可以是确定性的（例如，贪婪），而行为政策搜索所有可能的操作[35]。这些经验是：A，R，S′，S′，通过代理与环境的交互使用行为策略被存储在重放缓冲器中，以更新目标策略以及使用该新策略的代理与环境的后续交互。DQN是通过训练重放缓冲器来更新策略或其Q函数的脱离策略算法的示例。Q学习也是偏离策略的，因为它使用s'的Q值和贪婪动作a'更新其Q值，使用：图八、深RL、DL、RL、SL、USL、ML和AI之间的关系顺序决策问题（a）产生良好的结果，（b）优化数据的利用[29]，（c）利用领域知识编程来加速学习[95]，（d）当目标改变时，学习的模型可以帮助系统[95]。另一方面，基于模型的RL方法面临以下限制。例如，（a）需要底层系统的精确模型来改进学习，这可能不是这种情况或者可能需要很长时间才能获得，这可能是在诸如5G之类的动态网络环境中的情况′'lems。离线计算可以帮助解决这一挑战[94]，（c）Q（s，a）← Q（s，a）+ α（R + γmax a′ Q（s，a）-Q（s，a））.在on-policy RL中，更新策略和行为策略是相同的。当代理与环境交互时，它收集样本，这些样本用于改进代理用于选择操作的相同策略，然后确定下一步要做什么[92]第92话是一个on-policy算法的例子。它用与Q（s，a）<$Q（s，a）+α（R（s，a）+γQ（s′，a′）-Q（s，a））相同策略的动作来更新Q函数，其中a′和a需要根据相同策略来选择其他按策略算法的例子包括策略迭代、PPO、TRPO等。在离线RL中，通常称为批量RL，代理使用非正式收集的数据，而无需额外的在线数据收集。代理不能与环境交互，也不能使用行为策略来收集额外的转换数据。学习算法提供有与环境的固定交互的静态数据集，并使用该数据集学习最佳策略。这种方法就像一种监督学习现象。3.3.6. 基于模型的RL方法与无模型RL方法基于模型和无模型算法是RL框架的关键组成部分在基于模型的RL方法中，由状态空间S、动作空间A、转换矩阵XT和奖励函数R定义的环境的模型该模型用于估计价值函数。策略迭代和价值迭代是典型的例子。所有这些算法都利用模型的下一个状态和奖励预测或分配来计算最优操作，然后再见图7。深度强化学习过程。从经验中学习是具有挑战性的，如果模型被错误地优化，学习规则将需要重新编码以恢复最佳行为[95]。在无模型RL中，转移矩阵XT和奖励R对代理来说是它直接从经验出发，通过与环境的相互作用来估计价值函数或最优策略。从本质上讲，从环境中收集的轨迹集提供了智能体增强学习所需的经验数据。在Q学习示例中，代理估计每个（状态，动作）对的Q值或近似值函数，并通过选择给定代理的状态给出最高Q值的动作来提供最优策略。与基于模型的算法相反，Q学习无法在采取行动之前预测下一个状态和值。因此，无模型技术需要大量的经验。利用基于模型和无模型算法的组合来抵消它们的共同弱点。详情请参见参考文献[35]。无模型方法需要对环境进行全面的探索。因此，当应用于5G网络等复杂系统时，学习阶段可能非常低效，在收敛之前需要相当长的时间。新的ML技术，如第3.4节中讨论的深度Q学习，可以用DNN近似Q值，可以克服这个问题，并实现完整的探索，从而最大限度地减少DNN的近似损失基于模型的RL和无模型RL方法的总结如图所示。第六章3.3.7. Q-learning概述沃特金斯的博士论文[82]开创了Q学习算法。Q-学习属于无模型，时间差（TD）更新，离线随机下降RL算法，由三个主要步骤组成。智能体根据某种策略如ε-greedy在状态st中选择一个动作at。• 智能体从环境中获得奖励R（s，a），状态转换到下一个状态s′。• 代理以如下TD方式更新Q值函数：Q（ s， a）← Q（ s， a）+α（ R（ s， a）+ γmax a′ Q（ s′， a′）- Q（ s， a））Q学习也可以被认为是一种异步动态编程技术（DP）。它允许代理人学习如何行动·C. Ssengonzi等人阵列14（2022）1001429++·++最佳地在马尔可夫域中通过体验他们的行为的后果而不是必须开发域的地图[103]。它没有假设代理的知识的状态转换和奖励模型。然而，智能体将通过试验和错误来学习什么行为是好的和有害的[35]。通过这种方法，创建了一个由状态-动作对和潜在奖励组成的查找表（Q表），供RL算法学习。Q学习算法在大型状态和动作空间中遭受“维数灾难“，因为遍历所有状态-动作空间不仅占用大量内存，而且会减慢收敛速度。这使得Q学习仅适用于小规模网络。研究人员提倡功能评估方法来解决这一限制。函数逼近将未知参数的数量减少到具有维度n的向量，并且相关梯度方法进一步以计算有效的方式求解参数逼近。使用深度神经网络（DNN）的非线性函数估计方法可以有效地用于RL框架中的值估计。3.4. 深度RL基本原理深度RL从DNN（非线性方法）的使用演变而来，以评估（a）值函数v ^（s; θ）或q ^（s，a; θ），它显示了状态或动作的良好程度，或者（b）策略π（a|s; θ），其中，描述了代理的行为或（c）给定环境的模型（状态转移函数和奖励函数）。深度RL使用深度学习（DL）工具从复杂的高维数据中提取特征，并将其转换到低维特征空间，然后使用RL进行决策。请参见图7了解深度RL过程的摘要。DNN帮助代理从状态表示中提取最相关的特征。这里，参数θ是DNN中的权重随机梯度下降用于更新深度RL中的权重参数。如参考文献中所述DNN的典型例子包括卷积神经网络（CNN），递归神经网络（RNN）和许多其他网络。参考文献[35]中记录了在某些用例中用于解决TD学习失败的功能评估、引导和偏离策略学习的致命三位一体最近的研究，如 Deep Q-Network [105] ，AlphaGo [17参考文献[105]中的工作介绍了深度Q网络（DQN），并开创了深度RL领域的研究。DQN通过使用深度神经网络来评估Q表，将DL应用于在经验重放[106]和网络克隆[108]领域DNN已经取得了显著发展，这使得政策外Q学习具有吸引力。深度Q学习（DQL）代理收集经验数据（状态-动作-奖励值）并在后台训练其策略。此外，学习的策略被保存在神经网络(NN)并且可以容易地跨实例传送网络中深度RL是用于异构，动态5G和超越网络切片的候选者，这是本研究的核心深度RL与ML的关系总结在图中。八、对DQN的各种增强，例如双DQN（D-DQN）[109]已经出现，以提高性能和Atari游戏的仿真结果显示出更好的性能时，与DQN相比。参考文献[115]中的作者试图理解DQN的成功，并使用浅RL重现结果作者在Ref。[116]提出了一种结合策略梯度和Q学习的PGQ方法来提高策略梯度的性能。PGQ在AtariGames上的表现优于Actor-Critic（A3 C）和Q-learning。参考文献[118]中的作者设计了一种更好的勘探策略来改进DQN。3.5. RL和深度RL应用深度RL技术正在应用于经济学[31]，金融[120]，工业自动化[121]，机器人[105]，游戏[17深度RL的实际应用概述可以在参考文献中找到。[125]以供进一步参考。3.6. RL和深度RL研究援助最近在深度强化学习方面的突破在强化学习和深度强化学习研究中创造了很多欣快有几个平台可用于开发和训练RL和Deep RL代理。一些关键平台的概述提供给感兴趣的读者和研究人员。OpenAI Gym [127，128]是一个用于RL环境的开源工具包，可用于RL算法的开发，比较，测试和复制。Arcade Learning Environment（ALE）[126]是一个由Atari 2600游戏环境组成的框架，用于支持AI代理的开发和评估它MuJoCo [129]于2021年被DeepMind收购，是一款物理引擎，可用于机器人、生物力学、图形、动画等领域的RL和Deep RL解决方案的研发，将于2022年全面开源。DeepMind实验室[130]可用于开发和测试3D游戏代理。DeepMind Control Suite [131]是为RL代理的性能基准而开发的，可以使用MuJoCo物理引擎模拟RL环境。Dopamine [104]是Google开发的基于TensorFlow的RL框架，用于测试RL算法。它支持C51，DQN ，IQN ，Quantile （JAX ）和Rainbow代理。切片应用程序，DQL代理可以有效地运行，• EX tensien，Lightweight and Flexible（ELF）[132]平台是一个资源分配的选择，及时地根据其已经学习的政策。这样，5G和网络切片之外的复杂切片编排和资源分配挑战可能会受益于这种策略。凭借其处理大型状态-动作空间的能力，表3深度RL在5G蜂窝网络中的应用概述。目的/目标pytorch library for game research. ELF OpenGo [133]是使用ELF框架的AlphaGo Zero/Alpha Zero的重新实现。NS3 Gym [11]与Python和C语言兼容，并结合NS3和OpenAI Gym来测试RL代理解决网络通信问题。AirSim [15]是一个由RL、Deep RL和计算机视觉驱动的开源平台，用于开发用于无人机、汽车等自动驾驶车辆的算法。它Zhao等人[61]最大化网络效用，同时满足QoSDDQNReco Gym [16]基于OpenAI Gym，是一个开发平台，使用移动通信业务模式的推荐系统Zhang等人[66]实时信道信息获取，用户关联深度RL广告和电子商务。它使用多强盗问题来实现这一目的，并支持Python语言。Yu等人[85]Deep RL的资源管理和网络优化Mismar等人5G HetNets• 其他感兴趣的平台包括Vizdoom [20]，用于RL代理，波束成形、功率控制和干扰[97]协调以最大化SINR深度RL玩Doom游戏，Deepmind OpenSpiel [21]用于基于Python的RL开发，Facebook········C. Ssengonzi等人阵列14（2022）10014210表4AI/ML/DL/RL/Deep RL中的有用材料和资源。Russel和Norvig的例如，在参考文献[97]中，作者将联合波束成形、功率控制和干扰协调问题公式化为用于最大化信噪比干扰无线电（SINR）的非凸优化问题，并使用深度RL解决该问题表3提供乔丹和米切尔LeCun等人的著名论文机器学习论文[74]深度学习论文[134]深度RL在5G蜂窝网络中的使用综述3.8. RL和深度RLSutton & Barto RL图书03 The Dog（2006）RL进展的基本原理和最新进展，例如，在深度Q网络，AlphaGo，策略梯度方法等中。模式识别机器学习教材[35]第三十五届[135]RL框架最近已经成为ML研究中由于能够像人类一样通过试错而不是依赖数据集来学习，RL框架是一个prom。[136]第136话：我的世界为实现人工智能愿景做出贡献，是一个强大的工具，Goodfellow等人（2016）SergeyLevine深度学习书籍[137][138]第138话自动化5G 网络切片的生命周期。因此，Facebook 、Google 、DeepMind、Amazon、Microsoft等大型科技公司以及学术界和工业界都在大力投资RL[139]第139话：我的世界[140]第140话：一个人的世界研究。深度RL的最新创新讨论如下：Neeraj等人（2020）全球出版物2009年至2018[141]3.8.1. 迁移学习加速5G网络切片中的深度RL迁移学习的主要目标[13]是通过重用以前获得的知识来解决类似问题，而不是从头开始，从而提高模型的收敛速度。例如，通过重用由专家基站中的DRL代理学习的策略，以便于在目标学习器中训练新部署的DRL代理表6高级别总结了5G的功能和网络演进斯坦福大学功能2G 3G 4G 5G推出1993 2001 20092018技术GSM WCDMA LTE，WiMAX MIMO，mmWave3.7. 5G移动通信中深度RL的考虑接入系统时分多址、码分多址CDMA CDMA OFDMA，BDMA5G及以上网络需要支持具有不同RAN和QoS要求的不同应用和用例。由于这些网络的复杂性，手动网络操作和维护被认为是困难的、无效的、通常是次优的并且是昂贵的。切换型互联网服务CS用于语音，PS用于数据窄带分组交换，空中接口除外分组交换超宽带分组交换无线宽带深度RL是RL和DNN的组合，提供了一个自治的，带宽25 MHz 25 MHz 100 MHz 30GHz解决移动网络运营挑战。凭借在高阶空间中运行的能力，Deep RL在各种场景中增强了5G及更高级别移动网络的鲁棒性和有效性。例如，在Ref.[61]，Multiagent RL使用DDQN方法，最大化网络效用，同时为异构网络上的用户设备保留QoS。[66]的作者使用了两种Deep RL算法，这些算法使用历史数据来做出适当的决策，以获得共生无线网络中用户关联的实时信道信息。深度强化学习还可以解决资源管理和网络优化领域的挑战，如参考文献1中所述[85]见附件。在没有先验流量模型的情况下，Deep RL可用于解决优化复杂的非凸和凸网络问题的挑战，例如用户关联、干扰管理、功率控制等。表5常见RL/Deep RL算法的特点总结多媒体上网和SIM卡应用程序语音通话，SMS高安全性，内部漫游视频会议、移动电视、GPS高速，高速光纤，物联网高速应用、移动电视、可穿戴设备GHz EX超高速、低延迟、大规模设备连接高分辨率视频、流媒体、车辆远程控制、机器人技术、电子医疗算法描述政策动作空间状态空间操作者[第82话]优质学习离策略离散离散q值SARSA [92]状态-动作-奖励-状态-动作按政策离散离散q值蒙地卡罗[96]蒙特卡罗方法要么离散离散样本平均值DQN [105]深

下载后可阅读完整内容，剩余1页未读，立即下载