B5G异构网络中基于多智能体Q学习的小区呼吸能量效率最大化

48 浏览量更新于2024-01-08 收藏 659KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 8（2022）525www.elsevier.com/locate/icteB5G异构网络中考虑SBS协作的基于多智能体Q学习的小区呼吸能量效率最大化Howon Leea，b，Eunjin Kima，b，Hyungsub Kimc，JeeHyeon Nac，Hyun-Ho Choid，b，a大韩民国安城汉庆国立大学电子和电气工程学院b国际印第安条约理事会，韩国安城汉庆国立大学c大韩民国大田电子和电信研究所d大韩民国安城汉庆国立大学信息和通信技术、机器人和机械工程学院接收日期：2021年6月14日;接收日期：2021年9月1日;接受日期：2021年9月8日2021年9月22日在线提供摘要在B5G异构蜂窝网络中，支持大量设备的小型小区基站（SBS）的数量的快速增加往往会浪费大量能量。因此，对基站的功耗进行智能化管理是一个重要的研究课题。本文提出了基于准分布式Q学习的小区呼吸（QD-QCB），考虑了完全和部分SBS协作，以最大限度地提高网络的能量效率。此外，提出了基于区域用户分布的聚合活动SBS集的概念，用于计算和节能操作。通过大量的仿真实验，我们证明了所提出的QD-QCB算法可以达到最优的能量效率，与传统的算法相比，无发射功率控制、随机小区呼吸和贪婪小区呼吸算法。2021作者由爱思唯尔公司出版代表韩国通信和信息科学研究所这是一个开放在CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）下访问文章关键词：多智能体Q学习;细胞呼吸; SBS协作;能量效率;异构蜂窝网络1. 介绍超五代（B5G）蜂窝网络旨在支持巨大的移动数据流量和大量的移动设备，同时与上一代移动网络相比提高整个网络的能量效率[1，2]。特别是，随着移动数据流量的爆炸性增长，小小区网络正在成为B5 G蜂窝网络的有前途的解决方案[3此外，值得注意的是，当前蜂窝网络中的大部分能量由BS消耗，其约为总功耗的58%[6，7]。因此，为了最小化这种严重的网络能耗，已经提出了几种绿化算法[8另一方面，为了支持B5G中产生的大量数据流量，通信：韩国国立大学ICT学院机器人机械工程，327Chungang-no，安城市，京畿道，17579，大韩民国电子邮件地址： hhchoi@hknu.ac.kr（H.- H. Choi）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2021.09.006在网络中，可以更密集地部署更多的BS。换句话说，许多小小区BS（SBS）将与宏小区BS（MBS）一起部署。相应地，基站（SBS和MBS）与用户之间的平均站点间距离呈指数减小，链路质量和网络容量可以显著提高。然而，这可能导致相邻SBS和MBS之间的严重干扰，也在整个网络中引入大量的能量消耗[4，13因此，节省这种网络能耗是B5G异构蜂窝网络在实践中最重要的挑战之一。在[8]中，Z.Hasan等人提出了以网络能耗最小为目标的基站模式调整方案此外，研究了超密集网络（UDN）的潜在增益和限制，其中考虑了BS的空闲模式操作、传输功率控制、用户密度和用户分布对网络能量效率的影响[9] 。在 [12] 中，针对具有能量收集 BS 的基于毫米波（mmWave）的UDN提出了能量感知用户关联和功率分配算法此外，Z. 剑2405-9595/2021作者。由爱思唯尔公司出版代表韩国通信和信息科学研究所这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。H. Lee，E.Kim，H.Kim等人ICT Express 8（2022）525526我j，模式JJJFig. 1. 我们提出的QD-QCB算法在B5 G异构蜂窝网络中的系统模型。等人在[16]中提出了用于具有部分常规BS的UDN机器学习能够识别观察到的数据中的模式，创建解释数字和物理世界的模型，并在没有任何相关经验，明确的预编程规则和模型的情况下预测事物[17]。特别是，强化学习（RL）试图遵循人类学习的基本方式。RL使智能体能够与其环境交互，并在没有训练数据集的情况下从以前的经验中学习[18，19]。因此，可以利用基于RL的方法来提高B5G异构蜂窝网络中的网络能量效率。特别是，由于表格式Q学习不使用深度神经网络进行函数逼近，因此它可以显着减少在深度强化学习中执行神经网络训练时引起的计算开销。如前所述，由于空间和时间变化的业务负载、用户密度的区域不平衡以及动态用户移动性，SBS的不必要功率浪费的问题在这些B5G异构蜂窝网络中非常严重。因此，在本文中，我们提出了一种能量和计算高效的准分布式Q学习的细胞呼吸（QD-QCB）算法，考虑聚合的活动SBS集，以最大限度地提高网络的能量效率。本文的其余部分组织如下。我们提出的算法的系统模型在第2节中描述。此外，我们提出了QD-QCB算法的聚合活动SBS集在第3节。在第4节中，我们展示了我们提出的QD-QCB算法与传统算法（无TPC，随机细胞呼吸和贪婪细胞呼吸）相比的能量效率方面的模拟结果。最后，在第5节中得出结论。MBS作为与SBS相关联的用户的标识符。此外，SBS是所提出的多智能体Q学习框架的代理。2.1. 创建聚合活动SBS集在所提出的QD-QCB算法中，用户通过参考信号接收功率（RSRP）测量报告来估计服务小区和相邻小区的信道质量。这个RSRP值是一个非常常见的参数以确定用户在蜂窝网络中的关联。为了考虑小尺度衰落和噪声引起的无线信道波动，我们使用无限脉冲响应（IIR）平均方案[20]。也就是说，我们可以通过利用基于IIR的平均方案来获得可靠且稳定的RSRP值。通过使用IIR平均方案，来自小区j的用户i在第t个时间步长处的平均用户ij （ t ） = （ 1 −κ ） ·ij （ t−1 ） +κ·ij （ t ）。（1）这里，Ui，j（t）是用户的瞬时测量RSRP值，i形成小区j，κ是小小区网络配置的滤波器系数参数。然后，用户i利用该平均RSRP值构成其活动SBS集（SBSi）。如果ij（t）大于RSRP阈值（第二个），则SBSj被添加到ii。在元素中，如果用户i是用户i，则提供最佳RSRP（或最佳信号与干扰加噪声比（SINR））的SBS成为用户i的服务SBS。然后，用户i周期性地向其服务SBS发送它的MBMSi即，所有用户分别向其服务SBS发送其活动SBS集合信息。在从用户接收到活动SBS集信息之后，SBSj通过简单的集合运算，如交集或并集。通过使用QD-QCB算法的代理，也就是说，在每一个情节中，每个代理计算和更新其Q-表对应于它的时间，以最大限度地提高我们提出的QD-QCB算法的回报，其中的回报是网络能量效率的总和。2.2. SBS的功耗模型在本文中，我们考虑两种类型的功耗：由基带信号处理、电池备份和站点冷却引起的第t个时间步长的静态功耗（Pckt（t）），以及第t个时间步长的发射功耗（Ptx（t））[21]。此外，我们假设的静态功耗是独立的SBS的发送功率消耗因此，在第t个时间步的总功耗SBSj的（Ptot（t））可以表示为2. 系统模型Ptot（t）=Pckt（t）1Ptx（t），（2）在本节中，我们将描述jj，模式+ω·J本文提出的算法和假设我们其中，ω是功率放大器效率，Pckt（t）和考虑配置有以下各项的下行链路异构网络Ptx（tj，模式）是静态和发射功率消耗的量几个MBS和SBS，如图所示。1.一、我们分别假设SBSj这里，模式表示电流H. Lee，E.Kim，H.Kim等人ICT Express 8（2022）525527−=我i、x∈⊗||×阿的tj Kj.（六）Pckt（t）+1·Ptx（t）rt=ηtot（t）=JSBS的状态：活动或睡眠。根据SBS的模式，功率消耗量可能不同。2.3. SINR和网络能效在第t个时间步长（γi，j（t））处与SBSj相关联的用户i的SINR被表示为代理的基本传输功率被设置为默认值。此外，所有Q值被初始化为零，并且每个代理随机选择其传输功率电平。为了确定在第t个时间步（at）的执行动作，我们应用衰减的贪婪策略.简而言之，在1（t）概率下，智能体选择具有最高Q值的动作，Q=maxaQ（s， a），并且在概率为1（t）的情况下，γi， jPS（t）hi，j（t）d−βS（t） i，ji，j.（三）Ii（t）+σ2代理选择随机操作。为了达到最优报酬，由于代理人没有足够的信息，需要对开发和探索进行适当的调整。一般来说，环境。最初，代理人Ii（t）=∑P S（t）hi，n（t）d−βS+∑P M（t）hi，m（t）d−βM。（四）选择相对更随机的行动来寻找最佳行动n∈ N，n∈Ni，ni， nm∈Mi，mi， m以获得最佳回报。随着情节的发展，智能体逐渐减少随机动作的比例，其中Ii（t）是用户i在第t个时间步，N和M分别是SBS和MBS的集合。 PS（t）是来自SBS的用户iX，并且PiM（t）是来自MBSm的用户i的发射功率。控制k（t）值。我（t）=|一|、（9）其中，是初始值，i是事件索引，并且，m所以，σi，h表示小ϵinitϵ δi是用户x为oh是一个探索参数。还有，|一|是动作集大小尺度衰落（例如，瑞利衰落），并且dx，y是用户x和BS y之间的距离y.此外，βS和βM分别表示SBS和MBS的路径损耗指数与Eqs。（2）QD-QCB算法。当考虑聚集的活动SBS集时，代理j（Sj）的总状态集可以被描述为笛卡尔乘积空间，Sj=Sji，i其中si是代理i的状态集大小，表示一个集合产品。因此，使用Sj和A，代理可以构建Q表。∑i∈K=j1·BW·log2（1+γi，j（t））||如第2节所述，拟议QD的代理人-η（t）jKj.（五）Pckt（t）+1·Ptx（t）QCB算法可以管理他们的Q表与聚合jωj从activ eSBSsetinfor获得的activ eSBSset（i_i_j）这里，Kj表示与SBSj相关联的用户集合，并且BW是SBSj处可用的整个带宽。3. 基于准分布式Q学习的细胞呼吸每个用户的信息（mation）因此，在QD-QCB中，不需要考虑所有基站的状态信息：|一||.|.也就是说，每个代理计算并更新其对应于其代理的Q表，以最大化（QD-QCB）在所提出的QD-QCB算法中，SBS是所提出的强化学习框架的代理，其调整其发射功率以最大化整个网络的能量效率。我们提出的QD-QCB算法的回报（rt），即网络能量效率（ηtot（t）），可以是QD-QCB，奖励是能源效率的总和。通过使用QD-QCB算法，我们提出的QD-QCB算法可以执行能量和计算效率高的细胞呼吸操作。集中式Q学习算法的Q表大小随着SBS数量的增加而呈然而，由于所提出的算法只考虑获得∑∑i∈KJ1·BW·log2（1+γi，j（t））包括在聚合的活动SBS集合中的相邻SBS，所提出的QD-QCB算法具有恒定的Q表大小对应于聚合的活动SBS集合大小。在本文中，我们考虑了两种SBS合作：部分和j∈Njωj满了在完全SBS协作（FSC）中，代理同时使用因此，我们提出的强化学习框架（Q（s， a））的值函数被描述为：Q （ s ， a ） = E [r t+ µ max Q （ s′ ， a′ ） |s ， a] ，（7）其中μ是我们的Q学习框架的折扣因子。通过使用以下迭代过程[18，19]计算每个状态下的Q值。Qt+1（st， at）=（1−αt）·Qt（st， at）+αt[r t+1+ μ·max Q t（s t+1，a t）]。（八）这里，αt是第t个时间步的学习率，rt+1表示当前时间步的奖励，而一开始，H. Lee，E.Kim，H.Kim等人ICT Express 8（2022）525528和rt，然而在部分SBS协作（PSC）中，代理在执行QD-QCB时仅使用rt4. 仿真结果如表1所示，我们考虑由3个MBS和4个SBS组成的异构网络环境。部署用户的小区半径分别为300 m和400m。为了显示最佳的细胞呼吸性能，我们包括能量效率（EE）-最佳细胞呼吸曲线，并且我们可以发现，与随机细胞呼吸算法相比，我们提出的QD-QCB可以有效地遵循最佳解。这里，EE-最优曲线是通过穷举搜索方法获得的。在无发射功率控制（TPC）算法中，H. Lee，E.Kim，H.Kim等人ICT Express 8（2022）525529表1模拟参数。参数值参数值N 4 M 3K 20 R 300 m或400 m代理应用PSC，饱和能量效率低于QD-QCB与FSC。虽然具有PSC的QD-QCB与具有FSC的QD-QCB相比具有较小的能量效率，但是具有PSC的QD-QCB使用相对较少的状态信息来确定下一动作。因此，根据cktj，活动cktj，睡觉0.025瓦SBS的计算能力，SBS的协作量Si、j0分2秒。0 Wσi−174 dBm/Hz可以自适应地调整语音贪婪的细胞呼吸βSβM3ω1αt0.1µ0.9初始化0.99δ330图二. 当N=4，M=3，K=20，R=300米。图三. 当N=4，M=3，K=20，R=400米。SBS考虑初始用户部署来决定其模式。在无TPC算法中，如果某个SBS没有与之相关联的用户，则该SBS变为休眠。此外，在贪婪小区呼吸算法中，SBS基于Q学习控制其发射功率，但仅考虑其状态和其回报，而不是整个网络的能量效率。如图2，当N=4，M=3，K=20，R=300 m时，我们可以证明我们提出的具有FSC的QD-QCB快速收敛到EE-最优值。当P0.25 WPPH. Lee，E.Kim，H.Kim等人ICT Express 8（2022）525530∼与QD-QCB算法相比，该算法的能量效率此外，与随机小区呼吸和无TPC相比，具有FSC的QD-QCB和具有PSC的QD-QCB具有更好的网络能量效率。图的整体趋势。 3类似于图二、然而，由于图3中的小区半径大于图2中的小区半径，因此性能差异相对较大。此外，我们可以表明，我们提出的QD-QCB快速收敛到EE-最优值。特别是，当发作次数为350 450，我们可以看到，由于不完善的Q表构建和高探测概率，累积能量效率5. 结论为了提高B5 G异构网络的能量效率，提出了考虑完全和部分SBS协作的QD-QCB算法。为了提高QD-QCB的计算效率和能量效率，我们提出了基于区域用户分布的聚合活动SBS集的概念。此外，对于计算效率更高的仿真结果表明，与无TPC、随机细胞呼吸和贪婪细胞呼吸算法相比，QD-QCB算法能够获得最优解，显著提高网络能量效率。CRediT作者贡献声明Howon Lee：监督，概念化，方法论，写作EunjinKim：数据管理，软件，可视化。Hyungsub Kim：调查，资源。智贤娜：概念化，方法论. Hyun-Ho Choi：监督，概念化，写作竞合利益作者声明，他们没有已知的可能影响本文所报告工作致谢这项工作得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（ IITP ）资助（编号 2018-0-01659，基于5G新无线电的5G开放智能定义RAN（ID-RAN）技术）的支持。H. Lee，E.Kim，H.Kim等人ICT Express 8（2022）525531引用[1] ITU-R，IMT愿景-2020年及以后IMT未来发展的框架和总体目标，ITU-RM.2083-0建议书，2015年，第10页。1-19号。[2] H. Yu等人，什么是5G？新兴的5G移动服务和网络需求，MDPISustain。9（10）（2017）1[3] X. Ge等人，5G小小区网络的能效挑战，IEEECommun. 麦格55（5）（2017）184[4] W. Lee等人，DeCoNet：基于密度聚类的基站控制，用于节能蜂窝物联网网络，IEEE Access 8（2020）120881-120891。[5] S. Zhang等人，基本的绿色权衡：5G网络的进展、挑战和影响，IEEE Commun。监视器家教19（1）（2017）33-56。[6] C.汉，T. Harrold，S.阿穆尔岛Krikidis，绿色无线电：无线电技术，使能源效率的无线网络，IEEE通讯。Mag.49（6）（2011）46-54.[7] J.Wu ，Y. Zhang ，M. Zukerman ，E.K.N. Yung ， Energy-efficientbase-stations sleep mode techniques in green cellular networks ： Asurvey，IEEECommun. 监视器家教17（2）（2015）803[8] Z. Hasan等人，绿色蜂窝网络：一个调查，一些研究问题和挑战，IEEE Commun。监视器家教13（4）（2011）524-540。[9] D. López-Pérez，M. Ding，H. 克劳森，A.H. 贾法里，朝1 Gbps/UE in cellular systems ： understanding ultra-dense smallcelldeployments，IEEE Commun.监视器家教17（4）（2015）2078-2101。[10] G. Koudouridis，H. Gao，P. Legg，异构网络电源开关优化的集中式方法，在：Proc. IEEE VTC，2012，pp. 1比5。[11] L. Saker等人，异构网络中毫微微小区唤醒机制的最优控制，IEEEJ.Sel.Areas Commun. 30（3）（2012）664-672。[12] H. Zhang，S.黄角江等，基于能量收集的站的基于毫米波的超密集网络中的能量有效用户关联和功率分配，IEEE J.Sel.Areas Commun.35（9）（2017）1936[13] W. Lee，B. C. Jung，H.李，ACEnet：基于近似细化的明智网络控制，用于节能超密集网络，MDPI能源。11（5）（2018）1[14] Q.C. Li，G. Wu，R.Q. Hu，Analytical study on network spectrumefficiency of ultra dense networks，in：Proc. IEEE PIMRC，2013，pp. 2764-2768.[15] Q. Ren，J. Fan，X. Luo，Z. Xu，Y. Chen，超密集网络中的频谱和能量效率分析，在：Proc. IEEE ICCW，2015，pp. 2812-2817[16] Z. Jian等人，具有部分传统基站的密集蜂窝网络的节能开关策略分析，IEEEAccess 8（2020）9133-9145。[17] F. Hussain等人，用于蜂窝和物联网网络资源管理的机器学习：潜力，当前解决方案和开放挑战，IEEE Commun。监视器家教22（2）（2020）1251[18] S.K. Sharma等人，协作分布式Q学习用于蜂窝IoT网络中的RACH拥塞最小化，IEEE Commun. Lett. 23（4）（2019）600-603。[19] Z. Chen等人，蜂窝网络中的异构机器类型通信：深度强化学习的随机接入优化，在：Proc.IEEE ICC，2018，pp.1比6[20] F.B. Tesema等人，对频率内5G网络中多连接的自适应活动集管理的评估，在：Proc. IEEE WCNC，2016，pp. 1比6[21] F. Richter ， A. Fehske ， G. Fettweis ，Energy efficiency aspects ofbase station deployment strategies for cellular networks ， in ：Proc.IEEE VTC，2009，pp. 1比5。

下载后可阅读完整内容，剩余1页未读，立即下载