雾云计算中基于深度强化学习的VNF重用与SFC布局方法

95 浏览量更新于2024-01-18 收藏 1.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报雾云计算Yongheng Zhanga，Feng Zhanga，Zhao，Si Tongb，Zhao，Amin Rezaeipanahca榆林学院信息工程学院，陕西榆林719000b聊城大学传媒技术学院，山东252059c伊朗布什尔Rahjuyan Danesh Borazjan大学计算机工程系阿提奇莱因福奥文章历史记录：2022年3月11日收到2022年6月21日修订2022年7月14日接受2022年7月19日在线提供保留字：雾云计算服务功能链SFC布局VNF的重用深度强化学习A B S T R A C T雾计算允许将服务部署在网络边缘的计算资源上，以解决集中式云系统的局限性。然而，雾计算概念的采用目前还处于早期阶段，要从基于雾云计算的网络（FCCN）的基础设施中受益，仍然存在许多挑战。其中之一被称为服务功能链（SFC），它可以使用网络软件实例而不是昂贵的专用硬件来共享资源。网络功能虚拟化（NFV）技术将网关、防火墙和机顶盒等硬件中间盒与硬件分离，并将它们视为虚拟网络功能（VNF），在虚拟网络功能中，它们可以作为软件实例在FCCN中的分散节点上执行。VNF以形成SFC的特定序列链接在一起。同时，在FCCN中的节点上部署VNF以实现SFC是NP难问题，其可以导致资源的有效利用并降低延迟和成本。最近的研究已经通过启发式算法来执行SFC布局，该算法通常无法应对网络的动态行为。此外，现有的作品明确地忽略了SFC放置与VNF实例的重用因此，在本文中，我们通过基于深度强化学习（DRL）的方法重用VNF来解决SFC放置问题该算法作为一种动态规划模型，通过考虑资源约束和对FCCN中所需VNF的动态分布分析，可以协调服务成本和服务质量（QoS）。在这里，异步优势演员-评论家（A3 C）算法被用作DRL方法，其目的是最大化长期累积奖励。仿真结果表明，该算法有效地提高了系统性能，在考虑资源代价的情况下，性能比基准算法的最佳性能提高了14%~ 28%©2022由Elsevier B.V.代表沙特国王大学出版。这是一篇开放获取的文章，CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍近年来，已经引入了基于雾云计算的网络（FCCN）以提供用户的延迟敏感服务所需的资源（Xiao等人，2019年）。如图1所示，FCCN架构由三层组成：物联网设备、雾*通讯作者。电子邮件地址： zhangyongheng@yulinu.edu.cn （ Y.Zhang ）， nu@163.com（F.Zhang），stonewfu@126.com（S.Tong），amin.rezaeipanah@gmail. com（A.Rezaeipanah）。沙特国王大学负责同行审查计算层和云计算层。与云计算相比，FCCN可以通过在用户附近部署雾节点来减少实时应用的延迟和带宽（Shahidinejad等人，2021;Berahmand等人， 2021年）。因此，FCCN具有在不同服务质量（QoS）要求下提供服务所需的资源。然而，基于硬件的部署使FCCN的开发复杂化，因为每个网络设备（例如，入侵检测系统（IDS）、入侵防御系统（IPS）、深度数据包检测（DPI）、网络地址转换（NAT）、路由器、网关、防火墙和代理）需要昂贵的专用硬件来部署（Yang等人，2019年）。同时，网络运营商的运营支出（OpEx）和资本支出（CapEx）等问题也不容忽视（Yang et al.，2019; Gu等人， 2019年）。在这方面，已经引入了虚拟网络功能（NFV），https://doi.org/10.1016/j.jksuci.2022.07.0121319-1578/©2022由Elsevier B. V.出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comY. Zhang，F.Zhang，S.Tong等人沙特国王大学学报7949图1.一、FCCN的总体架构其目的是发展传统的网络架构并应对这些挑战。NFV范例将重型硬件中间盒转换成轻型基于软件的虚拟网络功能（VNF）集合（Yang等人， 2019年）。因此，NFV通过在FCCN组件上部署VNF实例来提供灵活且可以组成多个VNF以提供复杂的服务作为服务功能链（SFC）（Gao等人， 2022年）。事实上，SFC被定义为可以通过引导电流通过它们来提供服务的VNF的有序列表考虑到一些QoS要求，可以通过部署所需的VNF并嵌入虚拟链路来形成SFC（Yang等人，2019年）。通常，SFC请求涉及在考虑链路延迟、链路带宽和VNF的计算然而，SFC放置问题是NP难问题，并且对于复杂的服务是非常具有挑战性的（Kouah等人，2018;Nasiri等人， 2021年）。在SFC请求中，源终端（即，用户）向网络发送由VNF链组成的业务使得流以特定顺序通过它们并到达目的地终端（即，服务器）。输入的业务被应用于分类器以确定最合适的SFC。SFC的各种示例在图2中示出。通常，SFC可以是静态的或动态的（Kaur等人，2020年; Toxey等人， 2018年）。在静态SFC中，网络流量通过所有可用的VNF，其中一些请求包含仅是VNF的子集。然而，动态SFC仅基于所请求的VNF来引导流量。SFC布局的目的是协调服务成本和QoS，以提高资源利用率、延迟和整体FCCN性能。到目前为止，已经引入了许多解决该问题的启发式方法，其中它们基于几个时隙执行布局（Toploy等人，2018年 ; Shahidinejad 和 Ghobaei-Arani ， 2020 年）。 Siasi 等人（2019）使用禁忌搜索来进行SFC放置和启发式路径，旨在有效利用资源和负载平衡。Almurshed等人（2022年）介绍了用于SFC放置的贪婪提名启发式（GNH）算法。GNH使用MapReduce模型并行部署雾资源，并对VNF进行冗余部署和Zahedi等人（2022）使用元启发式方法来放置和路由SFC请求。为了降低计算复杂度，作者提出了结合模糊逻辑和遗传算法，以实现质量和速度的权衡。在这里，一个多准则模糊推理系统（mcFIS）用于在线布局，和遗传算法的规则调整mcFIS离线应用。Magoula等人（2021）提出了一种基于SFC放置的延迟和感知位置遗传算法的新框架。通常，通过启发式方法的SFC放置请求应该被推迟到下一个时隙，这对于动态环境是不灵活的因此，可以使用深度强化学习（DRL）方法来增强解决动态SFC放置问题的能力（Bi等人， 2021年）。 Toumi等人（2021）使用DRL跨多个域执行SFC布局，这可以为决策提供更多动力。作者提出了一种基于DRL的分层体系结构，考虑到服务水平协议（SLA）的要求。 Xu等人（2021）使用高效的云边缘协作来部署基于深度Q学习的多目标SFC。 Qu等人（2022）提出了用于SFC放置的VNF迁移技术。该方法在放置中对VNF进行优先级排序，并使用DRL来确定迁移中的目标节点位置。Nouruzi等人（2022）解决了SFC布局问题，目的是最大限度地降低DRL的资源利用在这里，提出了用于动态路由的自适应资源分配（DQN-AR）的深度Q网络（DQN）Wu等人（2022）提出了一种用于SFC放置的QoS/QoE/能量感知的DQN（DQN-QQE）方案，该方案基于QoE和QoS的指数相互依赖性以及Weber-Fechner定律对奖励函数进行建模。图二. SFC的各种示例Y. Zhang，F.Zhang，S.Tong等人沙特国王大学学报7950Rr1/4þþ此外，在许多应用程序中共享VNF初步实例的能力已被证明可以节省规划时间。当至少一个VNF实例不提供所需的业务资源时，SFC不能被执行（Djouela Kamgang等人，2020; Ponmagal等人，2021年）。因此，重用VNF可以提高资源利用率。然而，重用VNF可能导致成本增加、路径长度更长以及违反某些QoS要求。因此，可能无法对所有请求应用此技术。Li等人（2018）基于带宽节省和VNF的重用解决了SFC放置问题。作者将该问题表述为多约束和多目标问题，并使用启发式方法来解决它。Guo et al.（2020）使用VNF共享技术来改进SFC的部署。文中根据部署优先级对问题进行配置，提出了一种基于Markov决策过程和 Steiner 树问题的启发式算法来求解该问题。 Jin 等人（2020）提出了一个约束深度优先搜索算法（CDFSA）的路径选择和一个代理人获得对环境的更好的洞察力，并且可以通过遵循策略来衡量行动的益处。最终，A3 C中的Actor- Critic意味着算法预测值函数和最优策略函数。代理使用值函数（即，批评者）来更新策略功能（即，演员）。这里，策略函数指的是动作空间的概率分布，也就是主体在动作中可以选择图 3显示了A3C架构。A3 C维护策略函数patjst;h和值函数Vst;hv，其中t是时间步长，st是t中的状态，at是t中的动作，h是概率参数，p是映射ST的策略基于考虑H的AT。策略和值函数在每个t max动作之后或在到达终端状态之后更新。此更新可以表示为rh0logpatjst;h0 logAst;at;h; hv 这里，As t; a t; h; hv是优势的估计值，计算公式为Pk-1cir tickVstk;hv-Vs t;hv，其中c20; 1]是基于路径的贪婪算法（PGA），用于通过重用实例来分配VNF。本文提出了一种FCCN中SFC自动配置的动态规划模型。提出的算法通过重用基于VNF的DRL来开发动态SFC布局。所提出的算法使用SFC队列网络来最大化长期累积奖励（LTCR）并提取所需VNF的分布，这可以影响未来请求的路由。在布局过程中，我们同时考虑了节点和链路的资源容量。该算法的主要目的是提高资源利用率、延迟和吞吐量。在使用DRL解决问题的过程中，设计了一个定制的奖励功能，用于指导代理并协助完全执行SFC。奖励基于使用成本和吞吐量成功部署每个VNF来衡量。当一些VNF未被放置时，惩罚值被应用于作为惩罚的目标函数。最后，所提出的算法计算LTCR使用异步演员-评论家优势（A3C）算法。本文的主要贡献如下：VNF实例重用策略在动态SFC布局问题中的应用基于DRL设计SFC队列网络以随时间本文件的续文安排如下。第二节简要介绍了A3C算法。第3描述了系统模型。第4节详细介绍了所提出的算法。模拟结果和评估报告在第5节。最后，第六章对全文进行了总结。2. A3C算法A3C算法是Google的DeepMind在2016年开发的最新的基于DRL的算法之一（Mnih等人，2016年）。在本文中，A3C是用于放置的SFC。A3 C比DQN更健壮，更简单，更快，并且基于异步，优势和Actor-Critic三个概念实现。与DQN不同，A3C使用多个代理并行进行训练，这些代理与其环境异步交互。每个代理都连接到一个全球网络，从而与其他代理共享其知识。因此，A3C中的异步概念可以导致更快的训练，因为并行训练提供了几个更多样化的经验代理。在A3C中，优势是一个度量，它可以让智能体了解奖励比预期好多少因此，我们认为，贴现因子，并且rt是t中的奖励。一般来说，k可以从最大值是上限。A3C通常使用卷积神经网络，其中它有一个用于策略函数的softmax输出和一个用于值函数的线性输出，所有非输出层共享。此外，考虑到熵在目标函数上的p策略可以防止早熟在探索中融合。因此，目标函数梯度涉及基于策略参数设置熵以形成h0logpatjst;h0 logpat-Vst;hvlogpbh0H pst;h0log pb，其中H是熵并且调节b强度熵。3. 系统模型在本文中，在五月的SFC请求的位置是执行的描述，组成，位置，和调度控制循环与共享知识库（DCPS-k）模型。 DCPS-k模型解决了FCCN基础设施中的动态SFC放置问题（Kaur等人， 2020年）。在描述阶段，指定每个VNF资源的细节，诸如处理器、存储器、存储和服务类型。组成阶段是指VNF形成SFC的顺序放置阶段与如何在FCCN组件上部署VNF有关雾节点和云服务器）。在该阶段中，图三. A3C的总体架构●●●Y. Zhang，F.Zhang，S.Tong等人沙特国王大学学报7951RR我nrRRnrRRnrRRRRRRRRRRRRRRRRRR它们分别被添加到第r个请求的头部和尾部，RJRRRRXR1/4。通过考虑不同的约束来确定SFC。在调度阶段，VNF的部署时间由以下确定：最小化SFC的总执行时间的目标细节ar1/4。1nr0否则ð2Þ这些阶段由知识库共享放置其中，k是指示函数，并且基于等式2计算（三）、阶段是本文的主要重点，这是由所提出的布局算法。k¼XRXbi;jð3Þ本文提出了一种SFC布局的动态规划模型，提出了FCCN上的一个问题。雾层包含C雾集群，使得在每个集群中有一个雾编排控制节点和多个雾节点。雾殖民地i被建模为undi-描述的图Gi1/2 =Ni;oi;Ei 1/2，其中Ni是节点的集合，oi是协调器节点，并且Ei是节点之间的链路的集合表示第i个集群中能够提供请求所需资源的第j在这里，ci是第i个殖民地中可用的雾节点数fB和fS表示vi2Vr fj2Nk其中Vr和Vi 分别是第r个请求中的VNF和第i个VNF的有序列表此外，Nk表示第k个雾集群中的节点集合，fj表示第j个雾节点。如果knr是针对第r个请求，则SFC中的至少一个VNF不是<部署在雾节点上，因此必须拒绝其他VNF。然而，接受SFC请求需要将所有VNF部署在雾节点上，其中请求的每个VNF必须只能部署在一个节点上。此外，存储的限制我我分别与节点F1的出站带宽和存储容量有关。oi是第i个集群中的雾编排控制节点，负责下级雾域管理。每个群体中的每个协调器节点都具有准入控制该部门接收来自离最终用户最近的雾区的请求该单元接收来自雾网关的请求，并决定是在雾计算层执行请求还是将请求传送到云计算层根据所述响应时间阈值来确定所述响应时间。此外，ex;y2Ei表示-必须考虑雾节点中的资源如等式1所示（4）、节点F1中存储资源不能被超额预订。类似地，节点f1上的总SFC业务不应超过其出站带宽，如等式（1）中所示（五）、此外，当证监会有足够的资本-通过投入资源，它可以通过初步的VNF共享。计算成本基于放置在节点f1上的类型v VNF实例的数量来测量（Djouela Kamgang等人，2020年）。该约束可以被定义为保证对类型v VNF的服务需求，其中等式（六）、表示从节点fx到节点fy的链路，并且dx;y指的是这些节点之间的传输等待时间。此外，VT是指所有可用类型的VNF的集合，pf iωmv≤fSv2VTð4Þ其编号被认为是M。cv和mv是计算的X Xi;j.i;ji=1;j=B分别是类型v VNF的成本和存储成本，并且pfi是指放置在节点fi上的类型vVNF的数量。另外，设R为R2R1/4Br ωBr -brωTrωkrωar≤fi<$5<$并且r2R指SFC请求r。每个Xsvωktωar≤cvωpfi<$6<$SFC请求r包含服务提供商必须决定是否在雾节点上部署的若干有序VNF每个r都可以定义为A;B;C;D。五分之四。v 1;v 2;· · ·;vk;· · ·;v nr是有序的R rR2R其中bi;j-bi= 1;j表示仅当两个第r个请求中的VNF的列表，其中 vk2VT是指SFC 请求 r 中的第k个VNF 。这里， nr 是 SFC 请求 r 中的链长度。就这一点而言，Sr/fsvjv2VTg指示SFC请求r所消耗的VNF类型的计算资源。因此，sv是SFC请求r中的类型vVNF所消耗的计算资源，如等式（1）中所表达的。（一）.连续的VNF不被放置在同一节点上。SFC放置的目的是提高QoS，从而有效地利用网络资源。这里，QoS是基于延迟和吞吐量来计算的（Ponmagal等人，2021年）。延迟成本（即，WDC）的计算是基于等式。（七）、此外，吞吐量成本（即，WTP）接受的SFC请求包括TTL、SFC长度和流量，sv>0;v2VTVr¼0;vRVTVr其中，VT_V_r_V是V_r中的VNF的类型。ð1Þ如Eq. （八）、网络资源的有效利用（即，节点和链路）与资源成本有关（即，WRC），如在Eq. （九）、此外，ar和br是第r个W¼X X X Xbi;xωbi<$1;yωdωað7Þ请求，Tr和Dr分别指的是业务量和Time To第r个请求的实时（TTL）。我们使用两个虚拟包括V 0和V NR1的节点以指示源和目的地，DCR2RR ri½ 0 f x2Nk fy2Nkx;y rr rWTP¼Xntpω½DrωnrωTr]ωar8活泼地因此，一个r1/4v0和br1.R2R已经使用了几个二元变量来更好地描述SFC放置问题。我们定义二进制变量bi;j，WRC¼nrm X Xuvω mvnrtXXXbi;jω .bi;j- bi1;jR显示v i的部署状态在F。bi;j¼1表示v i 是r2Rv2VTR2R1/4fj2Nk在fj和bi上部署;j¼0表示未部署。二进制变量kt指示SFC请求r在时间t的状态。kt¼1意味着SFC请求r正在执行，否则kt1/40。二进制ωTrωar9其中ntp、nrm和nrt分别是吞吐量成本、节点成本和链路成本系数变量uvrv根据所提供的定义，我们制定了目标-R 是新类型VNF的初始化模式，关于SFC布局问题，当发出SFC请求r时。uv 1/41意味着类型vVNF是rvVNF重用，如等式（十）、在发出SFC请求时初始化，否则ur¼0。此外，r表示放置状态（接受或拒绝）。F¼cTPωWTPð10Þtion）的第r个请求，如在等式（1）中定义的（二）、objcDC ωWDCDCDCRCωWRCRY. Zhang，F.Zhang，S.Tong等人沙特国王大学学报79521/4 ！！！RKRRR！其中cTP、WDC和cRC分别是吞吐量成本、延迟和资源成本因素的影响系数，并且这里的目的是最大化Fobj。为了更好地理解，在表1此外，为了方便读者，我们在表24. 该算法不同的SFC请求可以包括相同的VNF。通常，相同的VNF处理相同的SFC 请求处理。所提出的算法提出在不同的SFC 中重用初步VNFVNF的重用的示例在图1中示出。四、这里，存在两个SFC请求（即，r1和r2），其中r1包含三个有序的VNF（即，DPI、IDS和IPS），并且r2包含两个有序的VNF（即，IPS和IDS）。如图所示，r1基于路径1¼B放置！F！F！ E和r2是基于路径2放置的D E FC.这里，r1消耗三个新VNF的计算资源（即，DPI、IDS和IPS）以及表1与SFC放置问题相关的符号的描述符号描述符号描述表2研究中使用的缩写缩写展开网络功能虚拟化FCCN雾云计算网络VNF虚拟网络功能SFC服务功能链DRL深度强化学习QoS服务质量LTCR长期累积奖励运营支出CapEx资本支出A3 C异步Actor-Critic优势ILP线性规划TTL生存时间MDP马尔可夫决策过程LSTM长短期记忆TD时间深度SNDlib可生存网络设计库Ni第i个群体中的雾节点的集合bi;jfj上vi的部署状态Eit中节点之间的链路集第i个菌落SFC请求的状态r在时间tfi;jj- 第i个群体中的第j个节点uvSFC请求r的类型v VNF的状态ci第i个菌落中的雾节点数ar证监会要求的安置状况rB节点带宽我fi证监会的决议案请求rS节点的存储容量fi WDC延迟成本-B剩余出站节点的-S剩余存储容量节点fiWTP投入成本资源费用传输延迟在节点fi和fi之间DC延迟时间成本S周期s见图4。 VNF的重用示例VT所有类型的VNFTP的集合SM所有类型的VNF的RCS在时间段% s中的投入成本时间段% s节点B和F的出站带宽。此外，r2可以经由最短路径放置（即，DC），但这需要部署两个新的VNF实例。cv计算费用-vnTP投入成本尽管如此，计算资源在初步阶段仍然可用C-VVNF剩余计算成本系数nrt节点成本系数R1的整数实例。在这方面，R2消耗计算i节点f中的类型vVNFimv类型-vVNF的存储成本nrm链路成本系数两个新VNF的资源（即，IPS和IDS）以及节点D、E和F的出站带宽。职业介绍所-pfi类型-vVNF的数量部署在节点fi上c直流冲击系数等待时间成本通过路径2在r2中进行cess可以避免节点中的存储消耗，部署新的VNF。但是，路径2包含更多R一套SFC要求c吞吐量成本CRC影响系数资源成本节点，这导致更多的带宽和延迟消耗。因此，如何基于重用在节点上部署VNF是一个具有挑战性的问题。Vr在时间段s中SFCs状态中的VNF的有序列表请求r以提高服务质量为目的的SFC布局是一种NP-困难问题（Kouah等人，2018; Nasiri等人，2021年）。一些研究vkk-SFC请求中的第k个VNFr A s时间段s中的动作RnrSFC请求中的链长度r Rs时间段内的奖励使用启发式算法来解决这个问题（Zheng等人， 2019年）。SFC请求中的VNF类型的计算资源r布雷尔SFC请求中的奖励历史记忆r然而，这些算法是基于对环境的整体知识，并遭受长运行时间。此外，启发式算法不能计算v类型- v的计算资源最佳行动时间SFC请求中的VNFr周期sarSFC中的源节点请求rx阻尼因子，未来奖励在动态环境中实现最大LTCR。最近对SFC放置的研究与强化学习相结合（Bi等人，2021; Toumi等人， 2021年）。日间行车灯已经变得非常流行brSFC请求中的目标节点rOTDActor网络输入作为一种新的强化学习方法，行动战略然而，DRL中VNF重用的潜力TrSFC中的流量请求rO0TD关键网络输入SFC中的DrTTL请求r /sCritic网络输出时间周期s有关证监会配售的研究被忽略。我们提出的算法进行动态SFC布局使用DRL。的RFFRRRS我RY. Zhang，F.Zhang，S.Tong等人沙特国王大学学报7953RRnrRBSVRRRJRJRRRRRRRRj¼j-jωÞ当前请求在动作带宽限制时失败。JRRfj≥ brω br-brRRX X.Σ该算法的目的是协调服务成本（即，资源消耗）和QoS（即，延迟和吞吐量），这是通过最大化LTCR来实现的。所提出的算法制定的问题作为一个马尔可夫决策过程（MDP）。因此，DRL中的状态包括雾网络细节、请求规范和所需VNF的分发。考虑VNF的分布可以在未来导致改进的SFC放置路由这里，SFC排队网络用于提取VNF随时间的有效分布。这个队列由一个队列内存和几个长短期内存（LSTM）组成。LSTM被广泛用于预测时间序列，并可以基于MDP推导SFC请求之间的时间序列关系（Sagheer和Kotb，2019）。DRL可以通过考虑网络状态，请求状态和提取的LSTM时间序列来动态执行SFC放置。DRL使用基于吞吐量和放置成本的自定义奖励函数进行Agent学习。此外，DRL包括在放置失败期间用于回溯的回缩机制。最后，提出的算法估计LTCR使用A3C算法。4.1. DRL设置状态、行为、奖惩和政策是DRL的主要在这里，负奖励被认为是惩罚。在学习的每一步，智能体执行动作As基于对状态Ss的观察并根据所定义的策略，其中s是指学习的时间段。随着环境的变化，智能体收到RsSs;As的奖励，并更新到下一个状态Ss 1。最终，策略代理基于来自环境的反馈来更新自身，以获得更多LTCR状态：雾网络的细节和当前SFC请求r被认为是状态Ss。网络详细信息包括所有可用雾节点的剩余资源。这包括剩余出站带宽、剩余存储资源和剩余计算资源，如等式2所示。（11）图五、用于部署VNFvk2V r的状态Ss的细节。r存储在r中。一般来说，成功的布局涉及满足一些约束，如出站带宽，存储资源和计算成本。在选择每个动作As并将放置应用于节点之后，检查出站带宽限制，如等式（1）所示。（十五）、此外，必须在放置后检查此约束-B BF ¼f-bi;jωbi;j-bi1;jR2R1/4ωTrωkð11Þ在从部署到目的地b r的最后一个节点的所有v k2Vr中，（十六）、如果将v k和v k-1放置在在不同的节点上。这里，As½fj 和bk-1;j0表明，和-vk-1放在不同的节点上。与此同时，fSfSXpf mv2VTR12A无法满足出站c-v¼cωpf j-XsvωktωaR2Rð13Þ-Bk-1;j.k-1;jk;j-B-S-B.k;jk1;j其中，fj和fj是剩余出站带宽，分别是节点fj的存储资源，并且c-v是剩余资源的成本FJ ≥Br - brω Tr16J与类型VVNF相关联的节点fj的实际计算资源-- -一种除了、以及c，当前SFC请求r，包括应用每个操作后，将检查存储资源限制如图所示，（17）. 该约束表明节点fj具有托管VNFv k所需的存储资源。此外，该com-FJ fj jR节点fj处的VNFvk的推定成本限制必须满足服务Vr，Sr，bi;j（即，最后放置的节点）、br、Tr、Dr和l（即，吞吐量）也被认为是一个状态。因此，用于部署VNFv k2V r的状态S s如图1B所示。五、由于每个雾群中的放置过程是独立完成的，因此让jindex是指第j个雾团。R如图所示，Eq。（十八）、对存储资源和计算成本约束的不满被认为是SFC布局的失败。-S型Action：每一步中的代理都可以在雾节点上部署vk2Vr。fj≥mvkð17Þ因此，动作As包括当前群体中的所有可用雾节点的集合，如等式（1）所示。（十四）、-vkvkC≥sð18ÞR rJRAs2Vr14-vk其中mvk 是VNF的存储成本v k，cr 是计算的剩余部分-奖励：当f j满足r r时，放置过程成功Jk资源VNFv k 在节点f和sv k中指的是计算RVNFv r2V r 所需的资源。因此，代理人获得奖励。在这里，所有的证监会要求奖励的历史rjrVNFv k的资源。不RvSvRωTr15Y. Zhang，F.Zhang，S.Tong等人沙特国王大学学报7954RSVKXRRPRRR¼0ðÞ- ð - ÞSRR;0SwsSSSSFC排队网络根据sv2S更新其内存当动作As满足方程中定义的所有约束时，（15）已成功部署。因此，动作As必须获得Rs的奖励。所提出的算法基于在等式中定义的目标函数Fobj来（10）如图所示（十九）、cTPωRTPRs¼SDC RCð19ÞcDCωRs其中，RDC、RTP和RRC是延迟成本、吞吐量成本，s s s资源成本，分别，并通过方程计算。(20)- （22）.此外，cDC、cTP和cRC分别是这些因子的系数。RDC<$Xbi;jωbi<$1;j0ωdijfj2Nkð20ÞRTP¼ntpωDrωTr21见图6。 SFC队列网络架构。RRC¼nωXbi-1;jω.bi-1;j-bi;j0<$ωT<$nωuωmv Rð22ÞSRMRfj2NkR rrRRT RK网络通过学习来帮助智能体选择在线动作A通过LSTM神经网络分析过去VNF的分布其中，j0指的是动作As中所选的节点，Nk是第k个雾殖民地中的节点集合。另一方面，如果具有As<$fj的代理导致放置失败，则应受到惩罚。一般来说，我们应用负值作为Rs的奖励。在这里，基于先前的多个立即奖励的R对可怕的A的行为的奖励（二十三）.LSTM输入是来自过去请求的计算资源的集合，并且输出是包含所需VNF分布的最后一层（即，OTD）。4.3. 拟议框架Rs1/4-ntpω 1/2DrωnrωTr]-Rk2RRk23该算法基于A3C算法。A3C是强化学习中的高级算法之一，策略：智能体使用概率分布策略来选择状态Ss中的动作As，如等式2所示。（24页）。该代理基于更新所有历史信息的策略最大化LTCR。wsSs;As20;1];As02Vrws.Ss;A0s±1±24mm其中ws <$Ss;As<$是在状态中执行动作As的概率是的。一般来说，所提出的算法的目的是最大化的累积折扣奖励，如公式中定义的（25）.wω¼argmaxE“X1xωRS;A#25s¼0形成了基于具有多个独立代理的演员和评论家神经网络的学习过程（Gupta等人，2017年）。行动者的目的是优化策略，批评者优化快速学习的最佳体验的奖励。所提出的算法基于提取所需的VNF分布在每个步骤中在节点fj上部署VNFvk代理收到在f j上成功部署v k的奖励，并继续学习，目的是部署VNFvk1。同时，所提出的算法包括一个收回机制，以释放资源占用的SFC请求r时，放置失败。回缩机构负责根据SFC请求r将环境重置到预放置条件。这里，状态Ss是利用每个新的SFC请求r创建的。同样地，RR其中x是未来奖励的阻尼因子4.2. SFC排队网络随着时间的推移，VNF部署的有效分布可以导致增加的SFC接纳率。这里，SFC排队网络用于提取VNF随时间的有效分布。这个队列包含一个内存和几个LSTM。LSTM可以检测输入层之间的相对位置关系，并广泛用于预测时间序列问题（Sagheer和Kotb，2019）。所提出的SFC队列网络架构如图6所示。这里，队列存储器用于随时间存储与每个SFC请求相关联的计算资源（即，Sr）。我们使用Time Depth（TD）参数来表示队列内存的长度。队列网络的目的是提取VNF随时间的分布之间的关系。状态Ss被认为是队列网络输入，其中对于每个新的SFC请求r，从Ss接收Sr并将其添加到队列存储器。由于TD的队列长度限制，队列存储器的最后一层（即，Sr-TD）在每个新的SFC请求被添加时被移除排队新的请求。然后，代理基于从执行器神经网络的输出中提取策略集。同时，根据环境的反馈计算出RsSs;As.由于在每个SFC中排序VNF的重要性，我们逐个部署每个vk2V r。重复学习过程，直到从当前SFC请求部署所有VNF在任何给定时间，N K 1表示等待被安置。代理继续与环境交互，直到完成SFC成功放置（即，k N）或失败。拟议的学习框架如图所示。7.第一次会议。在学习的每一步，智能体观察来自环境的状态S然后，SFC队列网络通过基于Sr接收新的SFC请求r来更新其存储器。SFC队列网络的输出以及SR被认为是演员和评论家神经网络的输入。因此，OTD和OTD分别是行动者和批评者神经网络的输入，其中它们从SFC排队网络接收。最终，wss;Ass和/s∈S;w∈S用神经网络计算。ws是最好动作As由代理选择，并且Is是评论神经网络的输出，其有助于动作器神经网络中的学习过程ws在Y. Zhang，F.Zhang，S.Tong等人沙特国王大学学报7955RRR8DCRCRRRrSsS¼04.4.所提出的算法算法1中给出的伪代码序列示出了所提出的算法。该算法被设计用于放置SFC请求r。行1接收新的SFC请求r并创建状态Ss。第2行显示R最初是空的。行3示出了放置过程应用于SFC请求r处的所有VNF。在第4行中，代理看到状态Ss。第5第10行和第11行显示了基于LSTM应用SFC队列网络并计算OTD的过程。在第12行中，代理基于策略执行最适当的操作。第13-21行专门用于计算奖励/惩罚并将其存储在内存中。行22第24-在第28行，代理基于从环境执行的动作观察下一状态。最后，第30行处理下一个SFC请求。5. 仿真结果本节致力于通过雾环境中的真实数据跟踪来评估所提出的算法。我们评估所提出的算法的基础上的各种性能指标，如吞吐量，延迟和成本相比，基准方法。在MATLAB R2019a上实现了该算法，并与其它方法进行了比较。此外，模拟在华硕G15游戏笔记本电脑，英特尔酷睿i7-10750 H CPU，16 GB RAM和Windows 10上进行。接下来介绍了实验装置和基准测试方法，并对比较结果进行了分析。5.1. 实验设置所有算法都是在https://github.com/alibaba/clusterdata上提供的合成雾环境中模拟的。雾网络被认为是具有相同链路的全连接网络，其中节点的数量从1到100不等。此外，雾网络中的传输延迟基于以下公式计算：一个节点中的POD内延迟和POD间延迟算法1.具有VNF重用的输入：SFC请求r和雾网络的详细信息输出：Ss、As、Rs和SFC放置详细信息1：接收新的SFC请求r并创建状态Ss2： R=1/43：对于vk2Vr4：智能体观察状态Sr5：如果SFC请求r是新请求，则6：从队列内存中删除Sr-TD7：从Ss中捕获Sr8：将Sr推入队列内存9：结束10：LSTM输入=1/2Sr-TD-1;Sr-TD-2;· ··;Sr-2;Sr-l;Sr_2]11：OTD=获取LSTM输出12：代理基于OTD的输出策略选择动作Ar13：如果等式中定义了约束（15）14：根据等式计算Rs（十九）15：RR[Rs16：else if等式中定义的约束(15)–(18) be satisfied and17：根据等式17 重新计算R DC和R RC（20）Eq.（二十二）在不同的节点之间（Xiao等人，2019年）。所有SFC请求都来自18小时内提取的真实数据跟踪。在本文中，训练集包含了80%的请求，测试集包含了20%的请求.网络上每个SFC请求的源和目的地是随机生成的。每个VNF消耗的计算资源是设置为1，即，sv1/4;r2R.模拟环境表3中总结了设置。此外，所提出的算法有几个参数，如延迟成本，资源成本和输出数据，其中我们根据Gu等人（2019）调整这些参数的值。in thesimulation模拟.其他参数根据田口方法（高et例如，2022年）作为如下：nrm<$nrt<$ntp<$40 ： 5;cDC<$4 0 ：3;cTP<$4 0： 6，cRC<$40： 1，TD<$420，x1/40： 99。5.2. 基准方法在DRL中训练收敛后，报告了不同算法的实验结果对于DRL训练，已经执行了超过10，000轮测试以实现收敛。在这里，所提出的算法进行了评估与其他基准方法相比，不同数量的节点，包括10，30和100。节点的数量会影响所接受的SFC请求的数量。特别地，大量的节点意味着雾网络中的丰富资源，并且通常减少故障SFC然而，在具有少量节点的模拟中，18：R¼R EURREURR由于缺乏资源，有些请求可能无法部署。由于s ss s十九日：其他二十：第二十一章：端根据等式计算Rs（二十三）二十二：如果方程中定义的约束(15)–(18)满足且k-n23：vkR24：其他25：应用收回机制以释放SFC请求r第26章：一夜情27：结束28：状态Ss30日上午10：等待证监会的要求r2011对于VNF的重用，期望所提出的算法在节点数量较低时与SFC请求更兼容检查不同数量的节点进行模拟是常见的，并已在各种研究中观察到，如Promwongsa等人。（2020年）。在本文中，使用三种基准方法与所提出的算法进行比较，如下所述所有这些方法都在MATLAB中实现，并根据在相同条件下定义的雾环境重用优先（RF）：RF用作用于重用VNF实例的贪婪算法，其中它可以尽可能多地使用初步VNF来放置SFC请求（Yang等人， 2019年）。最短路径+第一拟合分配（SPFF）：SPFF被定义为启发式方法，其首先用Dijkstra搜索最短路径，然后通过确定所找到的最短路径中的第一拟合节点来部署VNF（Solozabal等人， 2019年）。●●Y. Zhang，F.Zhang，S.Tong等人沙特国王大学学报7956见图7。提出的学习框架。表3模拟环境设置的详细信息。项目参数值雾雾节点数每个节点（单元）存储资源1各节点（单元）处理器资源

下载后可阅读完整内容，剩余1页未读，立即下载