6G边缘环境中深度强化学习的资源分配与计算卸载

22 浏览量更新于2024-01-27 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报在支持6G的边缘环境中使用深度强化学习的Vibha Jaina，Bijendra Kumara，Aditya Guptab，a印度新德里Netaji Subhas理工大学bSRM University，Delhi-NCR，Sonepat，印度阿提奇莱因福奥文章历史记录：2021年10月27日收到2022年2月7日修订2022年2月7日接受2022年3月1日上线关键词：Cybertwin6G资源分配计算卸载深度强化学习A B S T R A C T支持第六代（6G）的无线通信技术的最近出现已经导致了广泛的实时应用的快速增长。这些应用程序是高度数据计算密集型的，并产生巨大的数据流量。Cybertwin驱动的边缘计算作为满足大量用户需求的有前途的解决方案出现，但它也带来了新的挑战。边缘网络中最困难的挑战之一是在管理计算、通信和缓存资源的同时有效地卸载任务。传统的统计优化方法无法解决动态边缘计算环境中的卸载问题。在这项工作中，我们提出了一个联合资源分配和计算卸载方案，通过集成深度强化学习在Cybertwin启用6G无线网络。建议的系统使用的MATD 3算法的潜力，以提供QoS的最终用户通过最大限度地减少整体延迟和能源消耗，更好地管理缓存资源。由于这些边缘资源部署在无法访问的位置，因此，我们采用安全认证机制的Cybertwins。所提出的系统是在模拟环境中实现的，并与以前的基准方法，如RRA，GRA和MADDPG计算不同的性能指标的结果比较分析表明，提出的MATD 3减少端到端的延迟和能量消耗分别为13.8%和12.5%，与MADDPG的成功任务完成增加了4%版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍在当今时代，物联网（IoT）和传感设备的最新进展催化了不同应用领域中的数据密集型应用的增长，诸如在线游戏、增强/虚拟现实、路径导航、自动驾驶、视频流等（Shehada等人，2021;Rodrigues等人，2021年）。物联网设备的无处不在的性质将数百万个物理对象完全互连，并通过先进的无线技术促进无缝数据生成和共享（Batista等人，2021年）。物联网设备的数量正在不断增加，国际电信联盟（ITU）进行的调查表明，到2030年，1250亿物联网设备将成为我们数字生态系统的一部分，产生近4395艾字节的数据（Yu等人， 2019年）的报告。随着来自各种数据密集型应用的流量的增加6G技术通过以下方式提高服务质量（QoS）：*通讯作者。电子邮件地址：nsut.ac.in（五）Jain ），bizender@nsut.ac.in（B.Kumar），aditya. srmuniversity.ac.in（A. Gupta）。通过使数据传输具有最小的等待时间和高数据速率来增强终端用户的体验（Adhikari等人， 2021年）。使6G对当前物联网应用高效的其他几个功能包括深度和智能连接、基于卫星的客户服务和自主网络（Shenet al.， 2021年）。近年来，网络架构的进步使数百万物联网设备和应用程序能够连接到网络。这些设备可能包括智能手机、RFID标签、智能冰箱、智能手表、智能火灾报警器等，这些设备会产生大量数据（Zahoor和Mir，2018）。这些物联网设备生成的大量数据提出了对高计算、存储和处理能力的需求。所有这些服务都是通过引入集中式云数据中心来提供的（Ikhlasse等人， 2021年）。最新的6G网络技术还促进了远程云数据中心和具有广泛不同服务需求的物联网应用之间的数据传输（Ji et al.， 2021年）。然而，云数据中心远离物联网设备的位置带来了前所未有的挑战（位置未知，安全性，隐私性，可信度，增加的网络拥塞），使其不适合延迟敏感的应用。为了克服云计算的局限性，思科在2012年创造了一个新术语https://doi.org/10.1016/j.jksuci.2022.02.0051319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comV. Jain，B. Kumar和A.古普塔沙特国王大学学报5709即雾/边缘计算（Zhai等人，2020年）。边缘计算为网络边缘带来了通信、计算和缓存功能，同时减少了用户请求的延迟。此外，边缘云协作框架利用了为延迟敏感的应用提供更好的用户体验和增强QoS的能力（Abdali等人， 2021年）。然而，边缘云协作框架的有限能力无法满足数据密集型和延迟敏感型物联网应用的动态资源需求显然，一种新的一代技术，即Cybertwin，用于支持6G的未来通信网络。 Cybertwin是下一代通信系统的知情模型，并且表示诸如虚拟空间中的物理对象或事物的实时实体的数字版本（Juneja等人，2021年）。当与Cybertwin的特性相结合时，底层网络架构提供了可扩展性、安全性、可访问性和1.1. 动机和问题陈述基于Cybertwin的网络架构为边缘云框架的可扩展性问题提供了然而，异构终端设备导致具有不同资源要求的广泛应用，以及经典的卸载方法，导致不均匀的无线网络资源消耗（Liang等人，2021年）。此外，异构终端设备的交互在跨边缘云迁移时会带来因此，所有这些问题都将降低底层网络架构的整体QoS，因此需要立即解决。本文解决了边缘云环境下Cybertwin引导的资源分配和计算卸载问题作为终端节点的智能代理和数字化代表，Cybertwin位于边缘云之一，通过维护计算、通信和缓存资源，提供高质量的用户服务。我们将深度强化学习（DRL）与基于Cybertwin的边缘环境相结合，以及时解决卸载优化问题。1.2. 重大贡献拟议框架的主要贡献是：1. 模型：我们设计了一个Cybertwin驱动的端边缘云环境，用户设备可以在其中运行需要卸载到边缘云或核心云的计算密集型应用程序。在该框架中，通过有效维护计算、通信和缓存资源，为移动用户设计了一种卸载机制此外，我们还实现了一种身份验证机制，对Cybertwin进行身份验证，以便在远程位置仅部署授权用户2. 算法：卸载优化问题被公式化为马尔可夫决策过程（MDP），以减少延迟和能量。我们开发了一个多智能体深度强化学习算法，使用双延迟深度确定性策略梯度（TD 3）方法来最大化获得的奖励。3. 仿真：通过大量的仿真，对所提出的算法的有效性进行了评估。仿真结果与以前设计的基准多智能体深度确定性策略梯度（MADDPG）算法进行了比较。1.3. 文件纲要本文的其余部分组织如下。第二节介绍了过去有关资源分配问题的工作.在第3节中，介绍了目前工作中使用的拟议方法。第4节给出了资源分配的优化问题。第5节提出了一种使用DRL解决卸载问题的实验分析和模拟结果在第6节中给出。最后，第7节总结了所提出的工作和未来研究的一些重要方向。2. 相关工作近年来，智能物联网设备的激增导致了各种计算密集型应用的发展。由于资源有限，网络边缘的资源分配问题网络边缘的资源分配（缓存、计算、通信）已经获得了工业界和学术界的相当大的关注，以增强具有低延迟的用户过去已经进行了各种工作，资源分配被认为是一个关键问题。 Li等人（2021）和Li et al.（2021）研究了计算和带宽的分配，以最大限度地减少移动边缘计算环境中以数据为中心的物联网应用程序的开销。作者重点关注最小化能耗和延迟。Abouaomar等人（2021）提出了一种算法，通过考虑延迟敏感的应用程序来增加资源分配和信息交换实验结果表明，该方法在延迟和资源消耗方面比基线方法有显着的性能改善。Lv和Qiao（2020）研究了各种资源分配优化算法。Li et al.（2020）和Li et al.（2020）研究了边缘计算环境中计算卸载和资源分配的联合优化策略，提出了一种基于遗传方法的两阶段启发式优化算法。所提出的算法导致最小化的整体能源消耗的终端设备的数量增加。用于解决不同优化问题的各种模糊技术由于其表示不确定性的能力而已经在实践中（Pirozmand等人，2021年）。这些技术包括蚁群优化（Kalantari等人，2020）、人工化学反应优化（Alrezaamiri等人，2019），模糊c均值优化（AkbariBengar等人，2020年）等。利用这种基于模糊的技术也有助于处理资源分配和卸载的问题。然而，所有上述研究工作解决了卸载问题，无论是通过一次性优化策略或匹配拍卖理论。在这两个方面，现有的工作未能与动态计算环境长期保持一致。以往的优化设计问题都是非凸的NP-难问题，非平凡的数学方程不足以提供解。因此，考虑进一步的假设，例如决策变量类型的改变或目标函数的重构，这改变了首先需要解决的整个问题。最近，机器学习通过设计简单的网络设计来解决复杂的优化问题。大量的研究工作，以解决问题的资源分配使用监督学习（刘等人，2018年; Rahbari和Nickray，2020年）或无监督学习方法（Abbasi等人，2020;Shahidinejad和Ghobaei-Arani，2020）。然而，这些技术从固定数据集了解网络复杂性，V. Jain，B. Kumar和A.古普塔沙特国王大学学报5710ð Þ.Σ1/4fg其不能与环境动态地相互作用或反应。此外，还使用了另一种机器学习方法，即强化学习（RL），其关键特征是通过持续观察环境来训练强化学习是一个新的应用领域，其应用也可以在各种应用领域实现，包括资源分配（Li，2021）。近年来，许多研究人员利用强化学习算法来解决资源配置问题 Chen等人（2021）和Chen et al.（2021）提出了一种深度确定性策略梯度（DDPG）算法，用于改善网络边缘的资源配置。所提出的方案找到了一个最优的决策策略，并表现出更好的PG，DPG，AC方法相比Chen和Liu（2021）提出了一种基于MADDPG策略的节能资源分配技术所提出的策略的性能评估考虑了不同的参数，如收敛性，奖励和能量消耗。 Kwon等人（2020）利用联邦学习和DRL在海洋联邦学习物联网网络中进行资源分配。该方法能够在分布式联邦学习应用中工作Ye和Li（2018）为车辆通信系统开发了一种基于深度强化学习的资源分配方案 Baek和Kaddoum（2020）通过考虑QoS要求和资源需求特征，应用了深度递归Q网络（DRQN）方法。与经典的Q学习方法相比，所提出的DRQN方法的性能明显更好。 Wu等人（2021）提出了一种使用深度Q网络（DQN）或Q表（opt-QL）的混合学习技术。所提出的算法的性能进行评估，对传统的技术。实验结果表明，混合学习方法的性能优于单纯的DQN。所提出的技术与以前的工作的比较分析如表1所示。所有提到的强化学习研究使用DQN或DDPG代理来解决卸载优化问题。然而，这两种DRL技术都有缺点，使得它们不适合在端边缘云场景中使用Q-learning用于基于DQN的技术，该技术在巨大的动作-状态空间上缓慢收敛。也就是说，DQN在大量终端设备上表现不佳作为DQN的替代方案，已经开发了基于行动者-评论家的网络，其中包括DDPG，尽管DDPG的Q函数过度估计问题。为了解决早期工作的缺点，我们站卸载和资源分配。多代理环境用于收集整个网络的状态信息，有效的资源调度决策，其中每个代理都是在不同的Cybertwin上训练的，该Cybertwin与其他代理协同工作。3. 该模型本节介绍系统、用户移动性、身份验证、通信、计算和缓存模型。表2列出了本文中使用的所有符号和标记3.1. 系统模型我们研究了一个基于Cybertwin的端边云网络，如图1所示，该网络在拟议的研究中分为三个层次。下层包括一组终端设备，如智能手机、智能传感器和智能车辆。这些设备支持广泛的应用，包括视频流、在线游戏、增强/虚拟现实、路线导航等，不同的计算需求。可能有一些具有高处理要求的延迟容忍应用程序，而其他应用程序可能对时间敏感。考虑由 N 个终端设备组成的网络，这些终端设备由集合 ED 表示ED1;ED2;. ：ED i;. ：：;ED N .我们假设，在每一次在时隙测试中，这些设备最多可以生成一个计算任务，定义为EDitfcit;lit;ditg，其中cit表示所需的CPU计算周期，lit表示输入数据的大小for task and last_di_t定义了任务执行的最大允许期限由于资源约束行为，这些设备可以将计算任务卸载到任何相邻设备，以确保用户QoS。具有多个分布式边缘服务器的边缘云网络存在于层次结构的中间层尽管与核心云相比，这些边缘云的资源能力有限边缘云接近终端设备有助于延迟敏感的应用程序满足最后期限。考虑由M个边云组成的网络，EC¼ EC1; EC2;. ：; EC j;. *EC M. 在任何情况下，端节点都可以将计算密集型任务转移到边缘云，而过载的边缘云可以再次将终端设备作业转移到另一个adja。提出了一种基于TD3的日间行车线模型，compu-cent edge cloud.表1相关工作总结。参考网络架构卸载资源调配指标服务能量缓存移动性算法仿真环境等待时间成本Abouaomar等人（2021年）边缘计算UX X X李亚普诺夫最佳化虚拟机Lv and Qiao（2020）软件定义网络UX X X启发式优化测试平台PythonLi等人（2020）和边缘计算XUX X启发式优化NALi等人（2020）Liu等人（2018年）雾计算UX X XAprioriJava沙希德内贾德和边缘云计算U UX X长短期记忆iFogSim电影Ghobaei-Arani（2020）Li等人（2021）和李（2021）移动边缘计算UX X X深Q网络MATLABChen等人（2021）和移动边缘计算U UX XDDPGPythonChen等人（2021年）Chen等人（2021）和移动边缘计算U UX XMADDPGNA陈和刘（2021）Baek和Kaddoum（2020）软件定义网络UX X X深度循环Python基于雾计算Q-networkWu等人（2021年）移动边缘计算U UX XDQNNA提出Cybertwin驱动的边缘计算U U U UMATD 3PythonNAV. Jain，B. Kumar和A.古普塔沙特国王大学学报5711.Σð Þ ¼ ð ð Þ ðÞÞ表2记法。符号描述ED1; ED2;.. . 终端设备集合EC1;EC2;. . ：;EC j;. . ：EC M边缘云CC核心云套装i终端设备索引j边缘云指数ciCPU周期要求第i端设备li第i端的任务长度装置di任务截止日期为第i个结束日期装置loc定位功能disi;j到第i个端点的距离设备到第j个边缘云共享密钥本地执行延迟Eloc本地执行能量消费边缘执行延迟Eedge边缘执行能量消费Tcloud核心云执行延迟E云核心云能源消费j能量系数B带宽TR传输速率g通道增益CaEdge云缓存资源S¼fS1;S2;S3;。 . . ：Stg状态集A¼fA1;A2;A3;。 . . ;一套完整的行动R奖励函数c行李员折扣系数方程此外，它还具有托管边缘云的状态信息的知识，诸如可用计算资源。Cybertwin利用这些信息作为调度代理，进行有效的资源分配和任务调度，而终端设备执行可以分为以下几类：终端设备上的本地执行，卸载到相邻边缘云、从边缘云卸载到另一边缘云、或卸载到核心云。3.2. 用户移动性为移动用户提供可持续的服务解决方案是另一个需要考虑的关键因素当终端设备的位置发生变化时，终端设备为了提供QoS，终端设备和所支持的Cybertwin之间的映射应在用户移动时进行调整使用Cybertwin，终端设备的移动性管理如下。终端设备连接到托管在边缘云上的相应Cybertwin以获得边缘云服务。当用户远离其原始Cybertwin时，其关联的Cybertwin将迁移到不同的边缘云，以提供高效的边缘服务。在我们提出的工作中，用户位置预测的工作类似于魏等人。（2020年）。移动模型的目的是获得行人的轨迹我们在考虑一个离散的时间-时隙系统，例如t1/4ft1;t2;t3;. . 其中每个时隙具有相等的间隔长度s，并且ti是用户轨迹开始了然后，移动端设备ED i在给定时刻t的位置由loc i t表示x ED i;t;yED i;t.如果设备是静态的，则其位置将保持不变，相反，移动终端的位置将在每个时隙中改变。我们最后一层由高速光线路连接的完全连接的核心云组成。与标准云环境不同，这些核心云可以为最终用户提供计算、缓存和通信服务。这些核心云具有大量资源，并且远离应用设备。因此，它们适用于运行从终端设备通过边缘云传输的计算相反，这减少了中间层边缘服务器的负担，从而提高了整体网络性能。在边缘云上，Cybertwin被用作虚拟网络空间中事物和终端设备的数字代表。Cybertwin充当代表终端设备的智能代理。它包含有关设备功能和要求的完整知识，此外，与传统边缘环境相比，它还使用这些知识在任务调度和资源分配方面提供高质量的服务。Cybertwin的主要职责包括通信辅助、网络数据记录器和数字资产所有者（Yu et al.，2020年）。通过合理分配计算、通信和缓存服务，可以帮助终端设备更好地卸载任务。端-边缘-云Cybertwin网络中的通信始于每个终端设备连接到其 Cybertwin 并传输任务配置文件以获取边缘资源。然后，Cybertwin分析请求并定位适当的边缘云或核心云，以从终端设备卸载任务。然后将作业转移到指定的边缘云或核心云执行。成功执行后，结果将被发送回相应的Cybertwin，并再次通过接入点传输到相关的终端设备Cybertwin收集底层终端设备的所有状态信息，包括任务优先级、任务队列、计算需求、V. Jain，B. Kumar和A.古普塔沙特国王大学学报5712Fig. 1. Cybertwin驱动的端边缘云网络的三层架构。V. Jain，B. Kumar和A.古普塔沙特国王大学学报5713. 拉吉. .ΣΣ.Σ;;我我我我我我2假设系统可以准确计算每个时隙的用户位置，类似于Ouyang et al.（2018）。由于我们考虑的是以相对较慢的速度行走的人的轨迹，因此，每个时隙仅覆盖很小的距离。因此，认为对于单个时隙，用户保持在单个边缘云的覆盖范围内。基于终端设备的位置，到托管边缘云的距离可以计算如下：disi;jtklocit-locjk1其中locj表示第j个边缘云的位置。3.3. 认证模型由于托管在边缘云上的Cybertwin位于不可访问的位置，因此，对于边缘云，验证托管的Cybertwin是否代表授权用户变得非常重要。本小节介绍如何使用集中化核心云在托管边缘云上对Cybertwin进行身份验证。由于核心云位于安全的环境中，因此它将开始在Cybertwin上验证用户凭据的过程。Cybertwin充当终端设备的代理，从托管的边缘云请求各种服务。然而，在目前的文献中还没有发现可以在服务分配之前对Cybertwin进行认证的研究。因此，该研究为Cybertwin认证提供了一种新的方法。如图 2、核心云启动身份验证，通过分配具有关联密钥的唯一ID，和共享密钥密钥，图二. Cybertwin身份验证的逐步序列流。Cybertwin的钥匙图2显示了Cybertwin身份验证的详细步骤序列。3.4. 计算与通信模型3.4.1. 本地执行当Cybertwin决定在本地执行任务时，终端设备的资源将用于计算。假设本地终端设备EDi具有由fi表示的CPU周期频率，则总任务执行延迟给出为云边缘云启动相关Cybertwin成功部署和初始化后，防止未经授权的Cybertwin未来的任何有害行为假设禄一关于我们citfið2ÞCybertwin表示的终端设备EDi托管在边缘云ECj上并且需要认证。操作开始于边缘云EDj向每个托管的Cybertwins广播加密消息。该消息附加了两条信息，首先是边缘云.第二个是关联密钥。kj。该消息此外，本地执行的能耗评估如下：Elocutcit×f2×ji3这里，ji是常数系数，考虑到芯片架构，它给出有效开关电容，f2×j给出通过由核心云I共享的共享密钥Skk加密在密钥初始化时。因为每一个被授权的网络双胞胎都可以访问基本的云共享密钥。因此，使用相同的密钥，他们可以毫不费力地解密此通信。只有授权的 Cybertwin 和可信的边缘云才能访问此共享密钥。Cybertwin解密传入消息后，它将获得边缘云的身份以及相关密钥，这些密钥可用于对边缘云与核心云进行身份验证。在下一阶段，Cybertwin用相同的接收源密钥k加密包括其自身身份和关联密钥的消息并将其发送到边缘云进行验证第边缘云。另一方面，ECj解密传入的设备ED执行单位CPU周期的能耗i.3.4.2. 从终端设备卸载到边缘云需要在边缘云上执行的任务将使用设备到设备的无线链路传输到目的地通信的相关传输延迟受无线信道状态和输入任务大小的影响。考虑终端设备和边缘云之间的TDMA通信模型，总带宽为B。可实现的最大数据传输速率可以通过使用如下给出的Shannon Hartley定理来计算.！用自己的密钥发送消息。kj检索CybertwinID，TR-1000-B×logPi;j×gi;j×tið4Þ关联键边缘云形成一条新消息，它的ID和一个加密的Cybertwini;ji;jr2gi;jðtÞE kj;IDi. 整个信息都是加密的，云共享密钥当核心云接收到共享消息时，它使用边缘云ID来获得Cybertwin ID。一旦Cybertwin ID被解密，核心云检查其存储以进行验证，并且如果它是授权实体，则找到对应的密钥。然后，使用边缘云密钥，核心云发送将加密的消息发送到。包含Cybertwin数据的ED j文件。后其中，TRi;j表示终端设备EDi和边缘云ECj。Pi;j给出终端设备EDi到ECj的传输功率。gi;jt和gi;jt分别表示时间t处的信道增益和干扰，此外，R2表示噪声功率。一个多径衰落距离相关的路径损耗模型被认为是评估信道增益，如。接收边缘云解密所传输的密钥，k0i和检查与ED相关联的接收到的密钥。如果k=0，那么gi;jðtÞ ¼k×disijðtÞ-ikhmk2fð5ÞEDj可以确保托管的Cybertwin经过身份验证。最后，为了确认认证，EDi形成新消息，该新消息附加身份IDi和IDj，并使用asso-这里，k和i分别表示路径损耗系数和指数。活泼地在时间实例t处EDi和ECj之间的距离由disijt表示，其由等式（1）评估。（一）.此外，hm和f给出了不V. Jain，B. Kumar和A.古普塔沙特国王大学学报5714Ji;jX（1ifTt>dt;8i2Nii;j我我我M;j;k我i;ji;j;k我i;ji;ji;j;ki;j;k我i;ji;j;knoþ瑞利衰落系数和对数正态分布阴影值。由于我们已经考虑到用户以低速行走，因此将存在非常小的位移，并且传输速率在单个时隙上保持相同当计算被传输到边缘云以供执行时，总端到端延迟包括传输所需的时间因为任务执行可以从边缘云释放负担，从而提高整体性能。由于核心云上有足够的可用资源，执行延迟和能耗不会影响整体性能，因此可以忽略。当决定将任务卸载到核心云上时，端到端执行延迟如下所示。从终端设备EDi到边缘云ECj，ECj处的任务以及将结果发送回结束所需的时间T云计算litþliðtÞð12Þ我设备EDi.然而，计算结果的大小非常小T Ri;jtttiTRj;c因此，可以忽略所得到的传输时间。如果fj给出边缘云的CPU周期频率，则边缘云ECj卸载任务的总所需延迟表示为在此，TRj;CCt定义边缘云EDj与核心云CC之间的传输速率。类似地，任务执行中的能量消耗给出为：Tedgetlitcitð6ÞE云计算量Pi;j×li计算量Pj;c×li计算量ð13Þi;jTRi;jtfjiTRi;jt ttTRj;c在这种情况下，总消耗能量包括传输所需的能量和执行能量。因此，总能耗如下所示：3.5. 高速缓存管理E边长度Pi;j×li长度Pi;j我Jð7Þ为了提高端-边-云网络的整体性能i;jTRi;jtj工作时，终端设备的部分任务内容可以缓存在边缘cloud. 任务缓存可以减少任务完成延迟和能耗这里jj表示边缘云的常数计算系数ECj和f2×jj给出了在边缘计算单位CPU周期所需的能量。3.4.3. 边缘间云卸载如果托管的边缘云没有足够的可用资源来满足用户任务的QoS要求并避免过载，则可以卸载来自终端设备的计算任务到另一个附近的边缘云，可以保证服务质量。对于从EDi生成并最初转发到ECj以执行的任务，在此，如果执行时间T边缘云超过任务最后期限d边缘云，则选择相邻边缘云用于任务执行。在边缘节点EC j处，为与终端设备ED i相关联的每个任务计算二进制标志变量，诸如通过避免冗余的任务上传和执行来消耗。但是，由于缓存容量有限，因此需要对该存储进行战略性管理。假设边缘云ECj的总缓存容量被给定为Caj（以比特为单位）以存储终端设备内容。令cai;j表示用于终端设备EDi的高速缓存策略，其为man。由相应的赛博双胞胎进行老化具体而言，cai;j1表示来自EDi的该任务被高速缓存在边缘云ECj上，否则CAi;j=0。因此，在每个边缘处，必须遵循云跟随约束。Ncai;j×lit6Caj141/1Cybertwin作为一个中间代理可以管理这些信息，并帮助协助有效的任务卸载。考虑一项边i;j 关于我们边i;j0否则ð8Þ卸载任务被缓存在边缘云上，即cai;j¼1，Cybertwin可以通过直接将结果下载到终端设备，仅遵循一个步骤执行任务。对于具有O边值1的任务，从ECj的邻居集中选择新的边云。假设ECk是则最大传输速率计算为：.Pjk×g别这样！4. 资源分配Cybertwin驱动的端边缘云网络的主要目标工作是有效地管理计算敏感的任务，由终端设备通过在用户其中TRj;k表示在时隙t处边缘云ECj和附近边缘云ECk之间的最大传输速率。Pj;k给出边缘云ECj到ECk的传输功率。其中，gj;k∈t′和gj;k∈t′分别表示时隙t处的信道增益和干扰，而r2表示噪声功率。在边缘间云卸载的情况下，端到端延迟包括终端设备EDi到边缘云ECj之间的传输时间、边缘云ECj到ECk之间的传输延迟以及任务执行延迟。机器或通过将它们传输到远程边缘或云服务器。具体而言，目标是通过利用边缘缓存资源来保证用户QoS，从而最大限度地减少整体延迟和假设对于由终端设备ED i生成的任务，卸载决策被给出为 2 f0; 1g.如果Cybertwin决定在最后本地执行任务，则xloc¼1设备，否则为xloc <$0。如果终端设备将任务卸载到边缘云ECj则x边缘1/4，否则x边缘1/40。相反，如果边Tedgeð10Þ云ECj决定将该任务发送到另一边缘云ECk，i;j;kT Ri;jtttiTRj;ktfk避免过载，则x边缘<$1，否则x边缘<$0。如果终端设备类似地，任务执行中的能量消耗被给出为：任务是卸载到核心云CC 则x云1，否则P ×ltP×lt我我我2xcloud¼0。因此，每个决策参数必须遵循以下原则：KE边槽i;j j;kc我ð11Þi;j;kT Ri;jtttiTRj;ktk降低约束。xlochxedgehxedgehxcloud1核心云的资源应该被用于延迟容忍任务，这需要大量的计算。考虑到，核心云使用所讨论的决策参数，终端设备EDi的等待时间为：OTRjktBjk×logð9Þ;;2 r2gj;kðtÞ3.4.4.卸载到核心云k¼1我V. Jain，B. Kumar和A.古普塔沙特国王大学学报5715●ð ðþ Þj ð Þð ÞÞMXð Þ我ð Þ ¼ ð ð Þ ðÞÞ我i;ji;ji;j;k;i;j;k我我● State-spaces我我i;ji;j● 一个回报函数RSt;At;St1，它映射了状态-我i;ji;j;k我i;ji;j;k我T itx loc T loc x edge.1-cai;jT边tMRL可以被定义为马尔可夫决策过程，它代表15由5元组表示（Arulketaran等人， 2017年）：xxedge.1-caikT边缘x云T云Þ类似地，在执行中从EDi生成的任务的能量消耗被给出为。E itx loc E loc x edge.1-cai;j-E边不存在M16● 行动空间A一个转移概率函数TS t1 S t;A t，它将时间t的状态-动作对映射到时间t的状态概率分布。Xx边缘。1-cai;kE边x云E云k¼1在时间t将获得的奖励Rt转换为动作对。因此，帮助Cyber-twin进行有效资源分配的目标优化问题被给出为在所设计的网络中，每个Cybertwin都作为一个代理，将终端设备的任务分配到相应的边缘minxloc;xedge;xedge;cai;j aTitbEit17 a云计算最大化奖励在每个时刻t，赛博孪生可以观察到当前状态，并采取适当的C1：ab<$117bC2：0 6a6 10 6b6117 cC3：x位置线x边缘线x边缘线x云1/4/17天k¼1actionAt2A使用导致过渡的策略p进入一个新的状态。因此，它在最小延迟和能量消耗方面收集奖励Cybertwin的主要目标是学习一个最优策略p ω。代理人-环境学习循环如图3所示。C4：nxloc;xedge;xedge;xcloudo2 f 0; 1g17 e另一方面，赛博孪生上的单个智能体无法学习ii;jNi;j;ki一种满足所有终端设备要求的卸载方法。因此，我们创建了一个多代理DRL模型，其中C5：cai;j×lit6Caj17f1/1C6：Tit6dit8i2N17g在优化问题中，a和b是分别为任务延迟和能耗分配权重的可调系数约束C1和C2意味着这些权重可以根据用户的QoS要求而改变。C3和C4一起保证任务只卸载到一个目的地。约束C5保持用户请求不超过边缘云的分配的高速缓存资源。最后，约束条件C6要求用户任务在截止日期之前完成。我们采用基于深度强化学习的策略来提供满意的解决方案，因为通过数学方法解决这个优化问题很难。在第5节中对所提出的方案进行了深入描述。5. 基于深度强化学习的资源分配本节介绍了Cybertwin驱动的边缘云环境下，利用深度强化学习技术的高效智能资源分配和任务调度方案所提出的优化问题被纳入MDP的目标是完成尽可能多的终端设备的工作，同时最大限度地减少任务完成延迟和能源消耗。Cybertwin是位于边缘云的终端设备的代表，它通过云服务器管理计算、通信和缓存资源，并通过移动用户身份验证使用DRL解决优化问题可以减少解决问题所需的时间强化学习由于其高效的决策能力，采用简单的网络架构，无需事先了解环境，引起了研究界的兴趣强化学习的主要目标是创建一个可以在环境中运行的智能体，通过优化策略来最大化获得的奖励。为了学习和改进策略，Agent使用试错法。但是，传统的RL代理收敛缓慢，使得它们不适合具有大动作状态空间的决策应用（François-lavet et al.，2018年）。作为一种解决方案，深度学习（DL）已经与RL集成，以加快这一过程。深度神经网络（DNN）提供快速学习和更好的性能来训练DRL模型。所有Cybertwin代理一起工作以学习最优策略（Canese等人，2021年）。训练MATD 3模型以有效地学习任务卸载和资源分配方案。虽然这个问题是根据MDP定义的，具有以下状态空间，动作空间和奖励函数。1. 状态空间：在每个时隙t之前，Cybertwin收集相应终端设备的完整状态信息以及托管边缘云的状态信息这些收集的数据帮助Cybertwins训练最佳卸载策略。在时刻t，状态空间S_t_t包括以下元素：●在时隙t完成终端设备EDi的任务简档，包括所需的计算资源成本、任务长度执行期限，以及执行日期的允许期限。●时隙t处的终端设备位置，表示为locitx ED i;t;y ED i;t.托管边缘云和相邻边缘云的可用计算资源。终端设备、边缘云和核心云之间的数据传输速率。在时隙t，在与对应的终端设备相关联的边缘云上缓存资源2. 动作空间：在时隙t，在观察当前环境状态S t之后，Cybertwin采取适当的动作并决定是否卸载任务或在用户机器上本地执行。在卸载的情况下，Cybertwin在托管的边缘云、相邻边缘云或核心云上找到有效的所有的Cybertwins相互协作，利用整个网络状态信息，图三. 代理环境学习循环。●●●k¼1i;j;ki;j;k我我● 贴现系数c2½0;1V. Jain，B. Kumar和A.古普塔沙特国王大学学报5716.Σ.ΣX.ΣB.. .ΣΣ我Bi¼1i;ji;j;k我我i;ji;j;k我我我i;ji;ji;j;ki;j;k我我HB1/1SSt;AlStH以准确地决定资源分配由终端设备EDi生成的任务必须仅被发送到一个设备以进行处理。如果完整的动作空间由A表示，则的行动采取在时间槽不是给定通过一个必须遵循以下规则的非整数nxloc;xedge;xedge;xcloud2 f网络：一个演员和演员的目标网络，两个批评家和批评家的目标网络。在两个评价网络中，采用较小的值来提升被低估的Q值。2. 其次，与批评者网络更新的频率相比，这将支持评论家网络的稳定性和减少错误约束x位置x边缘PM x边缘-云-1。在时隙t，Cybertwin可以遵循以下任何模式执行任务：●如果由终端设备EDi生成的任务在本地执行，则x loc<$1，否则为x loc<$0。●如果Cybertwin决定在托管的边缘云ECj上执行任务则x边缘1/4，否则x边缘1/4。●如果任务从托管的边缘云ECj被分配给相邻边缘云ECk，则x边缘1/41，否则x边缘1/40。●如果Cybertwin决定将任务分配给核心云进行处理，则x云为1，否则x云为0。3. 奖励函数：精确的奖励函数帮助代理学习最优策略。个体Cybertwin上的代理可以以分布式方式做出自己的卸载决策，以最大化所获得的奖励。为了满足用户的QoS，奖励功能的设计，可以最大限度地减少总的延迟和能量消耗。在时隙t，通过将Cybertwin上的每个代理接收的所有奖励相加来计算聚合根据执行的操作，第i个Cybertwin的奖励计算如下：Rit-aTitbEit18在这里，Ri_t_i定义了在时隙ta上的第i个网络双胞胎处立即接收的奖励，并且b定义了分配的权重，时间延迟和能量消耗。总奖励由所有代理获得的奖励之和计算。NRtRit191/1DQN（Baek等人，2019; Rahman等人， 2020）和DDPG（Yu等人，2021年; Zou等人， 2021）是用于解决边缘计算环境中的计算卸载问题的两种最流行的DRL技术。为了调整DNN并优化策略，基于DQN的学习方法使用目标网络和经验缓冲区。另一方面，DQN不适合更广泛的动作-状态空间，使得它不适合解决具有大量终端设备的卸载优化问题。由于设备的数量增加，动作-状态空间的大小呈指数级扩展。为了解决DQN的缺点，DDPG提出了一种基于行动者-批评者的网络，3. 最后但并非最不重要的是，TD 3使用噪声平滑目标策略正则化技术在更新目标网络之前，将剪切噪声添加到所产生的动作中。这确保了目标网络与实际行动相似，并优先考虑稳健的行动。本文提出了一种MATD 3方法来学习资源分配和任务调度策略。每个Cybertwin都有自己的TD3网络，包括一个演员和两个评论家DNN，即目标和评估网络。算法1：多代理双延迟

下载后可阅读完整内容，剩余1页未读，立即下载