联邦学习加速无线网络资源分配的网络适应性

129 浏览量更新于2024-01-08 收藏 746KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 8（2022）31www.elsevier.com/locate/icte采用联邦学习的无线网络资源分配：网络适应性和学习加速Hyun-Suk Lee李贤锡，Da-Eun Lee韩国首尔世宗大学智能机电工程学院接收日期：2021年9月23日;接收日期：2021年12月31日;接受日期：2022年1月30日2022年2月8日在线提供摘要深度强化学习可以有效地解决无线网络中的资源分配问题。不过，它的学习速度可能会慢一些在更复杂的网络中，由于缺乏网络适应性，对于新到达的系统应该学习新策略。为了解决这些问题，我们提出了一个联邦学习框架，在无线网络中的资源分配与多个系统。它通过将每个系统的策略聚合成一个中央策略来加快学习速度，并通过使用中央策略来确保网络的适应性。通过实验，我们证明了我们提出的框架实现了学习加速和网络适应性。© 2022作者（S）。由爱思唯尔公司出版代表韩国通信和信息科学研究所这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：深度学习;联邦学习;强化学习;资源分配;无线网络1. 介绍最近，随着无线网络变得越来越复杂[1]，已经通过使用机器学习（ML）研究了各种资源分配方法[2]。特别是深度强化学习（DRL），它是复杂决策问题的代表性ML方法之一，已被广泛使用[3这些工作表明，基于DRL的方法可以解决资源分配，即使在复杂的无线网络。具体地，该方法可以通过使用具有大表示能力的深度学习模型来然而，在实践中有效使用这种基于DRL的方法仍然存在关键挑战。一个挑战是学习复杂网络的策略需要大量的时间和数据消耗。随着网络变得更加复杂，最优策略的搜索空间通常会变得更大。因此，需要更大的时间和数据消耗来学习最优策略[7]。另一个挑战是政策对网络变化的适应能力。通常，在无线网络中，可能出现与现有系统因此，如果政策*通讯作者。电子邮件地址：hyunsuk@sejong.ac.kr（H.-S. Lee），kjs990516@sju.ac.kr（D.-E. Lee）。同行审议由韩国通信研究所负责教育与信息科学（KICS）。https://doi.org/10.1016/j.icte.2022.01.019具有网络自适应性，利用现有系统学习的策略可以用于新到达的系统，而无需额外的学习。这使得我们能够更有效地利用基于DRL的方法来无线网络，但现有的工作不提供这样的适应性。为了解决这些问题，联邦学习（FL）是代表性的分布式学习方法之一[8]，可以应用于DRL。在FL for DRL中，云服务器和分布式系统共享用于表示策略的深度学习模型，如图1所示。在图中，符号wCS和wk由于深度学习模型呈现策略，我们称之为策略模型。例如，在深度Q网络（DQN）算法[9]中，DQN模型是策略模型。每个分布式系统k通过DRL方法单独学习其局部策略模型wk如在典型的FL方法中，云服务器通过聚合来自系统wk的学习的策略模型来更新中央策略模型wcS然后，云服务器将其更新的中央策略模型重新分发给系统，并且每个系统用中央策略模型替换其本地策略模型，如图1所示。1.一、通过重复这一过程，FL可以加快策略模型的学习速度，就好像使用分布式系统中的所有本地经验来学习它一样，即使不转移本地经验。此外，由于云服务器上的中央策略模型，它可以适应新到达的2405-9595/© 2022作者。由Elsevier B.V.代表韩国通信和信息科学研究所出版。这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。H.- S. 李和D.-E. 李ICT Express 8（2022）3132nγπ：S→k∈KA∈K联系我们∈K--N=··KKE（γ）u（sk，πk（sk））KK是一组··一：S→=k k kk=· ·k∈Kt=0时Fig. 1. 系统架构。FL已经在无线网络的背景下被广泛研究，特别是关注资源分配[10然而，现有的工作并没有利用FL作为工具，用户的信道增益和QoS不满意程度。对于简单的符号，我们用元组（k， n）表示系统k中的用户n。我们表示用户（k， n）的第l个特征信息通过享受在时隙t中，由ft. 系统k在时隙t中具体来说，据我们所知，定义为tk， n， l t，pt）以指示调度还没有解决如何应用FL来解决无线网络中的资源分配问题的工作。相反，现有的工作集中在解决无线网络中的资源分配问题，以有效地运行FL在无线网络上。本文研究了多系统组成的无线网络中的资源分配问题.具体来说，我们提出了一个FL框架，有效地解决资源分配在无线网络中。我们还提出了一个政策结构，使FL框架用于DRL为基础的k（nkKK决定我们用πk表示系统k的策略KK.然后，系统k在时隙中的瞬时效用t由u（st，πk（st））给出，其中u（，）是系统中有了上述要素，我们可以定义一个一般的资源分配问题，在无线网络与多个系统，以最大化总效用如下1：∑[∑∞ tt t]的一种资源配置在FL框架中，资源分配策略可以与DRL方法一起以合作的方式学习，同时享受FL的优点。通过实验，我们证明了我们提出的FL框架加快了策略的学习速度，并提供了对新到达系统的适应能力据我们所知，我们的工作是第一次尝试应用FL来解决多系统无线网络中的2. 多系统2.1. 系统模型和问题表述我们考虑无线网络中多个TDMA系统的下行链路，每个TDMA系统由一个接入点组成其中0 1是折扣因子，kk是适用于所有系统的策略。例如，可以通过设置u（st，πk（st））r（st，πk（st））来公式化问题以最大化总平均数据速率，其中r（，）是计算瞬时数据速率的函数。2.2. 用于资源分配的我们可以通过直接找到所有多个系统的（次）最优策略π来解决（1）然而，当系统的数量K很大时，其复杂度是太大了，无法解决。为了解决这个问题，我们根据每个系统k将问题分解为最大化 E[∑∞（ γ ）tu （st ， π （st ））]。（二）(AP) 用户如图所示。1 .一、系统的集合πk定义为K ={1，. . . ，K}，其中K是t=0时KKK系统. 系统k中的用户集合被定义为k1，. . .，Nk，其中Nk是系统k中的用户数量。在系统k中，其AP在离散时间范围t1， 2上服务Nk个每个系统中AP和用户之间的时延是时变的，但在一个时隙内是不变的，并且满足马尔可夫性质，这被广泛接受[6]。在时隙t中，系统k中的AP调度一个用户然后，我们可以通过以分布式方式为系统k的分解问题找到（次）最优策略πk来解决（1）值得注意的是，德-组合问题是一个马尔可夫决策过程，其报酬函数和环境由效用函数给出u（，）和状态空间和动作空间上的转移概率。因此，为了解决每个系统的分解问题，可以使用公知的DRL，如在最近N 和传输功率PT∈P，其中P无线网络中资源分配的K文献[3在最大π、（1）H.- S. 李和D.-E. 李ICT Express 8（2022）3133K ∈S候选发射功率电平。系统k在时隙t中的状态被定义为stk，其中k是系统k的状态空间。状态表示每个对象的特征信息1 为了简单起见，本文中我们不考虑每个用户的QoS要求。然而，我们可以很容易地将我们的FL框架推广到具有QoS要求的问题，如[6]所示H.- S. 李和D.-E. 李ICT Express 8（2022）3134K∇Kk、1、LS一 =N ×P是一个KK;KKKKKKKKKKKK¯：S →A具体地，每个系统k在DRL中扮演代理的角色，以学习针对其分解问题的最优策略πk分解后的问题属于同一类相同任务的问题（即，资源分配）具有共同的效用函数。因此，我们可以应用FL来更有效地解决它们。具体地说，如果存在一个共同的可以在一个系统中使用的政策，FL可以应用于像图中那样学习它。1.一、在FL中，每个系统单独学习通过DRL方法实现其共同政策。然后，云服务器聚合来自系统的公共策略，并对聚合的策略进行Redis-tribute。这加快了学习速度图二、拟议的FL政策结构说明。共同政策，因为它利用了所有的经验，系统.此外，由于云服务器中的公共策略，它可以在无线网络中建立新的AP，从而为新到达的用于资源分配策略的FL框架的算法11：云服务器CSSWCS2：每个系统k将k和w作为wCS3. 用于具有多个系统的3.1. FL的资源分配政策结构3：对于t∈ {0，1，. }do4：对每个系统k执行DQN算法5：观察vest并将其转换为s<$t←ds（st）6：选择a<$t<$<$$>（s<$t;wk）并将其翻译为at<$ds（a<$t）7：做一个行动并观察U Tt+1k k k8：将st+1转换为s<$t+1<$ds（st+1）KKKK分解后的资源分配问题为每个系统，（2）中的问题可以通过学习资源分配来解决9：存储体验（s<$t，a<$t，ut，s<$t+1）在最近的文献中，通过众所周知的DRL政策[35]。然而，我们不能简单地应用FL聚合每个系统的政策，因为政策的结构取决于系统的具体特征。具体地，在最近的工作中，系统k在时隙t中的状态为：10：通过DQN算法使用其经验来更新wk11：结束12：如果mod（t， TFL）==0，则系统计算它们的局部梯度当前DNN wk之前的DNNw14：云服务器通过聚合局部梯度来更新wCS定义为直接提供特征信息，如st=从所有系统前Vtk，1，1，。. .，f tt k，Nk，L ）∈SkRNk×LK.因此，国家15：所有系统将其DNNwk和w k16：如果结束系统k的空间，k，取决于每个节点系统此外，系统k的作用空间也依赖于它，K .这些依赖关系使策略系统的结构彼此不同。因此，将FL应用于政策变得不可行。为了解决这个问题并启用FL，我们需要一个适合任何系统的策略结构（即，共同政策）。为此，我们在[6]中借用了环境独立（CI）政策结构的概念。它不是直接描述如上所述的状态和动作，而是将状态表示为处于状态信息的特定条件下的用户是否存在于系统中。此外，它选择调度决策作为条件之一。通过CI策略结构，我们可以表示状态和动作，而不受网络环境变化的影响。我们建议读者参考[6]以获得更详细的描述。CI策略结构最初是为了解决单个系统中环境的动态变化而提出的。然而，它的概念可以用来推广策略也适用于多个系统。为此，我们定义了一个公共状态空间<$和公共动作空间<$，可以描述如图2所示的不同系统中的任何状态和动作。公共状态和动作空间可以根据CI策略中的状态和动作的定义来构造然后，我们定义平移函数系统k，ds（·）和da（·），它们将Sk映射到S<$，将A<$映射到Ak，关于ively。通过17：结束如图所示，根据g iv en状态s<$t∈S<$intoat∈Ak，二、因此，具有翻译功能的公共策略π可以发挥通用解释器的关键作用是将FL应用于多个系统的资源分配。3.2. 学习资源分配政策在本节中，我们提出了一个FL框架来学习具有云服务器的多个系统的资源分配策略。我们在这里考虑一个典型的DQN算法[9]，基于DRL的策略已经被广泛使用[3-在DQN算法是一种深度神经网络（DNN），它被训练成近似最优动作价值函数Q（s， a），它代表了在状态s下通过动作a可以获得的最大回报。因此，DNN被命名为DQN，并且它用于通过找到最大化返回给定的状态。我们将基于DNNw的公共策略表示为π（sw）。我们将DNN在中央服务器和系统k处的权重分别表示为wCS和wk一是中央服务器将其DNNwCS，然后，每个系统k还k kt前V使用它们，在时隙t中，我们可以将任何状态sk∈Sk将DNN wk和wk转换为wCS （第1-2行）在（f），。.. ，fH.- S. 李和D.-E. 李ICT Express 8（2022）3135KKKK−KKKk，（k）（第7行）。其次，系统依赖于系统的特定特征。确保KKKK∇<$=表1模拟场景。图3.第三章。所有系统的总传输功率。费率要求。2.我们将贴现因子设为0.9。我们考虑了总共八个系统，其中一个场景用户根据距离（20米，50米，80米）1，2，1 3，3，3 5，10，5 2，2，25，5，2在实验开始时，考虑具有情景A、B和C的六个系统另一方面，我们设定数据速率要求（Mbps）1 0.5 0.2 0.7 0.3场景D和E的两个系统在50000个时隙之后到达。时隙t，系统k观察其状态st并选择对于性能评估，我们比较了我们的FL框架-行动K通过使用DNNW根据不同的政策，使用两种日间行车线方法KK 和translate函数ds和da（第5-6行）。我们可以简单地用at=da（π<$（ds（st）;wk））表示所选择的动作。系统为用户服务在[4，5]和[6]中分别有结构。在这两种方法中，每个系统单独学习其资源分配策略，而无需FL。值得强调的是，根据所选择的动作at，并观察效用，Kut=u（st at[4，5]中的k不能用于FL框架，因为它在时隙t中定义为（s<$t，a<$t，ut，s<$t+1）并存储在公平的方法，我们设置所有的参数，k k kt k用于训练DNN的缓冲器，其中s k+1 ds（st+1）（第8行-9）。通过使用经验，DNNwk通过DQN算法与各种训练技术，如固定目标Q和经验重放[9]（第10行）。对于每个FL间隔（即，mod（t， T_F_L）==0），每个系统k通过从其当前DNN_w_k中减去其先前聚合的DNN_w_pre_v来计算其局部梯度f_k（第13行）。然后DQN算法中的所有方法要完全相同.我们使用的神经网络有3个完全连接的层，每层由300个单元组成。在DQN算法中，贪婪策略的参数、小批量大小、重放缓冲区大小、训练间隔和目标Q网络更新间隔分别被设置为0.1、30、300、20和100。在FL框架中，FL间隔TFL被设置为100。云服务器聚合来自所有系统的本地梯度更新其DNNwCS（第14行）。在聚合之后，云服务器向所有系统发送wCS，并且每个系统k用wCS替换wk和wprev（第15行）。该过程总结在算法1中。4. 实验结果对于实验，我们开发了一个专用的基于Python的模拟器，其中运行以下系统。模拟在具有Intel Core i7-10700处理器和64 GB内存的计算机上进行。我们考虑多个系统，其中每个使用5 MHz带宽。我们设置路径损耗指数为3.76，设置噪声谱密度为106 dBm/Hz，并考虑具有6 dB标准偏差的对数正态阴影。每个系统的最大发射功率为1W。瞬时数据速率通过使用香农容量计算。我们考虑了文献[6]中的一个资源分配问题，该问题在满足平均数据量的同时使平均传输功率在图3中，我们提供了所有系统的平均总传输功率以及具有FL和不具有FL方法的移动平均值。首先，FL的学习加速度在图3a中清楚地示出。从图中可以看出，有FL的平均功率下降速度比没有FL的快得多。为了清楚地示出FL对实验中间新到达的系统的适应性，在图3b中，我们提供了具有5000个时隙的平均窗口的总传输功率的移动平均值。从图中可以看出，FL的平均传输功率保持不变，即使在系统到来时也是类似的水平。这是因为在我们的FL框架中，新到达的系统可以在中央策略到达时立即使用它。另一方面，如果没有FL，新到达的系统应该在没有任何先验信息的情况下学习它们的策略，这在初始学习阶段会产生更大的传输功率。2 通过使用[6]中的问题，我们可以验证结果，并清楚地表明，我们的框架可以很容易地推广到具有QoS要求也是如此。场景一BCDE表1中方案A、B和C用于两个系统总用户4920612每一个，并且场景D和E各自用于一个系统中我们H.- S. 李和D.-E. 李ICT Express 8（2022）3136=图四、场景C、D和E下系统的传输功率。图五、在场景C、D和E的系统中，80 m距离的用户的数据速率。因此，在[4这些结果清楚地表明了FL框架对新系统的适应性。为了进一步研究，我们在图4中提供了具有场景C、D和E的系统的传输功率。注意，对于场景D和E，在相应系统到达之后（t50 000之后）提供传输功率。从场景C的结果中，我们可以看到，学习速度加快FL。从场景D和E的结果中，我们可以看到，FL，甚至对于新到达的系统也没有学习阶段，这与没有FL的结果相反。在图5中，我们提供了每个场景中最远用户（80 m距离）的平均数据速率，这是满足数据速率要求的最具挑战性的用户。从这些数字中，我们可以看到，无论到达的时刻，特别是对于场景D和场景E的新到达系统，我们可以看到，与没有FL的结果相反，使用FL学习的策略可以更有效地满足用户的QoS要求。5. 结论在本文中，我们提出了一个FL框架的DRL为基础的资源分配与多个系统。通过实验，我们证明了所提出的FL框架可以加快资源分配策略的学习速度，并提供对新系统的适应性。作为未来的工作，在这个主题中，可以考虑将所提出的FL框架扩展到解决小区间干扰。CRediT作者贡献声明李贤锡：概念化，方法论，形式分析，写作Da-EunLee：写作竞合利益作者声明，他们没有已知的可能影响本文所报告工作致谢这项工作部分得到了韩国国家研究基金会（NRF）的资助2021 R1 G1 A1004796，部分得到了MSIT/IITP的ICT研发计划（ IITP-2021-0-01816 ， A Research on CoreTechnology of Au-Twins for Metaverse）的支持。引用[1] K.B. Letaief，W. Chen，Y. Shi，J. Zhang，Y.- J.A. Zhang，Theroadmapto 6G：AI enforced wireless networks，IEEE Commun. Mag.57（8）（2019）84-90.[2] C.菲安德里诺角Zhang，P. Patras，A. Banchs，J. Widmer，一种基于机器学习的框架，用于优化未来网络的操作，IEEE Commun。麦格58（6）（2020）20[3] O. Naparstek ， K. Cohen ， Deep multi-user reinforcement learningfordistributed dynamic spectrum access，IEEE Trans. Wirel. Commun.18（1）（2019）310-323。[4] F. Al-Tam ， N. Correia ， J. Rodriguez ， Learn to schedule（LEASCH）：A deep reinforcement learning approach for radioresource schedulinginthe 5G MAC layer ， IEEE Access 8 （ 2020 ）108088-108101.[5] N. 赵玉 C. Liang ， L. Niyato ， Y. 裴， M 。 Wu ， Y. Jiang ，DeepReinforcement Learning for User Association and ResourceAllocation inHeterogeneous Cellular Networks ， IEEE Trans. Wirel.Commun. 18（11）（2019）5141-5152。H.- S. 李和D.-E. 李ICT Express 8（2022）3137[6] H.- S.李，J. - Y.金，J. - W.李，无线网络中的资源分配与深度强化学习：一种独立于环境的方法，IEEE系统。J. 14（2）（2020）2589[7] J. Fan，Z. Wang，Y。谢、Z.杨，深度Q学习的理论分析，在：Proc。学习动力学和控制，PMLR，2020，pp。486-489[8] H.H. Zhuo，W.丰角，澳-地徐，智-地Yang，Y. Lin，FederatedDeep Reinforcement Learning，2019，arXiv preprint arXiv：1901。08277.[9] V.姆尼赫，K.卡武克库奥卢D.银，A.A. Rusu等人，通过深度强化学习实现人类水平的控制，Nature 518（7540）（2015）529-533。[10] C.T.新罕布什尔州丁Tran，M.N. Nguyen，C.S.洪，W。Bao，A.Y.Zomaya，V. Gramoli，无线网络上的联邦学习：收敛分析和资源分配，IEEE/ACM Trans.Netw。29（1）（2021）398-409。[11] M. Chen，Z.杨，W.萨阿德角Yin，H.V. Poor，S.崔，一个联合学习和通信框架，用于无线网络上的联邦学习，IEEE Trans. 威尔。Commun. 20（1）（2021）269[12] S. Wang，F. Liu，H. Xia，基于内容的车辆选择和资源分配，用于IOV中的联邦学习，在：Proc。IEEE WCNC研讨会，2021年。[13] J.Xu，H. Wang，无线联合学习网络中的客户端选择和带宽分配：长期视角，IEEE Trans. 威尔。Commun. 20（2）（2021）1188[14] H.- S.李，J. - W.李，自适应传输调度在无线网络中的异步联邦学习，IEEE J.Sel.AreasCommun。39（12）（2021）3673-3687.[15] W. Shi，S. Zhou，Z.牛，M.江湖，澳-地Geng，用于延迟受限的无线联合学习的联合设备调度和资源分配，IEEE Trans. 威尔。Commun. 20（1）（2021）453

下载后可阅读完整内容，剩余1页未读，立即下载