没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报利用强化学习建立空间-空中-地面三层网络Massa Ndong,Mohammad Hayajneh,Najah Abu AliAli,Shayma Alkobaisi阿联酋大学信息技术学院计算机与网络工程系,阿拉伯联合酋长国,艾因阿提奇莱因福奥文章历史记录:收到2021年2022年3月7日修订2022年3月26日接受2022年4月1日上线保留字:SAGIN大规模MIMO强化学习无人机能源效率频谱效率A B S T R A C T空间-空中-地面综合网络(SAGIN)是一种新的网络概念,它将卫星网络、空中网络和地面网络集成到一个三层网络中。 它已经发展成为一个适应性强的计算和交通模型在本十年。除了各种好处之外,SAGIN还面临着一些前所未有的挑战,可靠性就是其中之一无线通信网络要求无人机(UAV)和无人地面车辆(UGV)之间能够稳定通信。为了确保可靠的通信链路,大规模多输入多输出(MaMIMO)与部署的飞行器一起使用,并且UGV的移动性可以由UAV控制,从而在车辆节点之间提供设备到设备(D2D)通信,使得不会发生中断。这项工作涉及开发一个3层D2D架构,包括网络链路UGV,网络链路UAV,以及两者的组合模型和低轨道卫星群的链路无人机感知环境,并将数据传输给操作员,以便做出适当的决策。这项工作的重点是将D2D通信纳入SAGIN,通过基于马尔可夫过程的强化学习(RL)来确保可靠性。我们推导出用于通信链路的发送节点的最佳数量,表示马尔可夫状态转移,并提供我们的模型的贝尔曼方程主要目标是在频谱效率(SE)的限制下最大化能量效率(EE)性能评估,以评估在相应的建议架构的链路的可靠性。注水优化的仿真结果表明,该模型实现了增强的EE和SE每个D2D链路。©2022作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍第五代(5G)及以后的技术利用大规模连接、增强的吞吐量和可靠性以及更低的延迟来显著说明然而,随着基于物联网的应用程序的快速发展,这些应用程序在本质上是动态和异构的,实现这些目标是一个巨大的挑战。目前的研究调查,以满足这些要求,包括空间-空中-地面综合网络(SAGIN)(雷,2021年)。 SAGIN是一种网络集成概念,旨在通过由卫星网络、空中网络和地面网络组成的3层网络提供接入,实现高吞吐量并使无线资源在全球无处不在。一个有前途的方法是从无人机和UGV,基于通信,通过它可以实现在关键和紧急情况下提高网络性能。此外,还介绍了强化学习(RL)在无线网络通信中的集成*通讯作者。电子邮件地址:najah@uaeu.ac.ae(N. Abu Ali)。通信可以利用智能操作来解决诸如找到最优无线电资源分配方案(Lee等人, 2021年)。因此,在SAGIN中加入RL在不同的应用中与增强的性能增益和复杂性降低有效相关。获得高吞吐量和可靠性,SAGIN同化不同的通信协议和段,称为异构。在不同的网络模型之间实现最佳的互操作性能并不容易。因此,SAGIN中具有网络集成的模型设计产生了更显著的影响。考虑到模型性能,大规模MIMO(MaMIMO)的能量效率的优化(Khan等人,2018)是必要的,并且涉及计算在任意数量的连续传输/重传上的数据通信所需的能量。为了在连续的时间间隔期间与UAV组通信,地面基站(GBS)在未来的通信网络中配备有大量天线。可靠性(Hößler等人,2020年)是SAGIN中未考虑的另一个重要性能因素,https://doi.org/10.1016/j.jksuci.2022.03.0251319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comM. Ndong,M.Hayajneh,N.Abu Ali等人沙特国王大学学报7002如Ray(2021)和Lee et al.(2021)所述。可靠性率评估连续的时间间隔,以获得无线通信模型,提供面向应用的满意度在较高层。例如,网络物理系统的扩展应用(Li等人,2018年)包括远程医疗监控,分布式机器人,飞行员-机组人员通信,智能电网,自主汽车系统等。1.1. 文献综述无人机接收来自GBS或低轨道卫星的数据,并根据数据需求将其传递给移动用户设备(MUE)。本节将介绍几项突出无人机活动和SAGIN通信的研究工作对于无人机的所有高级应用,都需要可靠和高性能的无线通信,从而建立无缝通信。在现有的研究文献中,缺乏对可靠性的评估几个通信和控制为基础的要求是突出的无人机。然而,无人机之间的通信和空-地链路受到低比特率无线电通信技术的限制。空中软件更新对当前自动驾驶车辆的操作至关重要(Baza等人,2019年)的报告。无人机可以在卫星星座上代替GBS执行类似的任务。无人机可以感知环境,向操作员发送数据,并根据当前状态自动做出转向决策。这种行为是为强化学习(RL)量身定制的空地通信的可行性在测量活动中得到了强调(Yanmaz等人,2013),其中对于收发器之间300米的距离,在5GHz的WiFi载波处实现12Mbps的吞吐量。无细胞模式(C. D'Andrea等人,2020年),连同诸如大规模多输入多输出(MIMO)(表示为MaMIMO)的技术一起,预计将成为无线通信的未来。正在开发小单元网络以支持这一信念,并且通过“感知”和“避免”动作来完成非合作自主碰撞避免(Fasano等人,2016年),它执行无人机的感知-检测-避免,以实现从无人机到UGV的无缝中继。操作环境包括空域等级、气象状态等,并且在某种意义上提供显著影响并避免操作(Prats等人,2012年)。然而,上述参考文献没有考虑3-D通道研究来评估这种网络的性能。邻近服务(ProSe)已经是3GPP促进3D信道建模(BB. M.以及3gpp,2015中的3dd信道模型),以及增强的D2D通信(Lin等人,2014年)。因此,3D 3GPP维持平面天线阵列,从而实现完整MIMO维度和仰角波束成形的评估的概念(Fademaj等人,2016年)。可靠性与EE相关,因为MIMO系统使得SE能够在给定发射功率的情况下增加链路可靠性。一组MIMO D2D链路的EE(以比特=焦耳表示)被定义为可以与MIMO D2D链路通信的比特数。每单位能量的可靠传输。网络连接、数据传递和服务发现已经被研究为包含网络问题(EE. W.和Networkingmannedaircraft systems,2009)用于小型无人驾驶飞机系统(Dixon等人,2006年),最近已经推进到新的民用应用和市场。ProSe在信息物理系统中的性能(M. Ganjalizadeh等人,2020)需要在可靠性方面进行评估,以确保设备之间的通信有保证的成功率(Hoßler等人, 2017年)。Muppirisetty等人提出了基于选择最佳到达角的MaMIMO和速率优化,其减少了小区间干扰。(2018年)。干扰被减轻,减少降低信道状态估计的导频污染在多用户多小区环境中,该建议将导频分配给用户,使得发送用户处于目标用户的期望角度区域提出了一种整数二次在研究工作中没有讨论倾斜优化对角度区域的影响天线倾斜角对网络容量和覆盖范围有重要影响. 为了以最小的复杂性增强网络性能,执行倾斜优化(Dandanov等人,2017年)。该操作有助于提供能量效率、负载平衡、增加的吞吐量、小区间干扰协调等,在当前一代的通信网络中。Bjornson等人(2015)针对多用户大规模MIMO提出了最佳EE的封闭形式。在这种情况下,本文比较了从迫零,最大比合并,最小均方误差线性处理方法相对于大量的天线单元的数量,用户的数量,和一个新的功耗模型的EE。此外,值得一提的是,诸如UAV、飞行器和卫星之类的各种系统彼此独立,这可能占用能源而没有任何通信质量保证。为了解决SAGIN中的问题,将设计缓解方法,在集成模型下考虑能量效率、资源共享和数据分布(Qi等人, 2016年)。在S. Shalmashi et al.(2015). EE被定义为在给定区域上的平均和速率与总消耗功率之间的比率以及易于处理的覆盖概率。Senel等人(2019)考虑了每用户SINR约束下的功耗最小化,以推导出打开天线元件的数量,以实现MaMIMO的好处。通过几何规划来找到合适据我们所知,本文提出的基于RL的分配是新颖的。可靠性评估作为关键性能指标在现有的研究文献中缺失,如Ray(2021)和Lee et al.(2021)。我们提出几点来说明这种说法:在Hößler et al.(2020)中,根据吞吐量的中断来评估性能。停电可能会接近如果接入无线电资源的用户的数量高,则为1(Hößler等人,2020年)。强化学习(RL)不被使用inHößler etal.(2020).我们提出的RL为基础的方法找到最佳的分配为每个链接(代表一个用户),并收敛到一个最佳的吞吐量渐近。在Yanmaz等人(2013)中,可靠性性能用一定数量的重传后实现的吞吐量来表示。可靠性评估不考虑本文提出的连续传输。在M中评估可靠性。Ganjalizadeh等人(2020)使用马尔可夫链对网络状态之间的转换进行建模。给出了一定的可靠性值,以找到实现该值的参数设置。RL在这种情况下不使用。RL的使用允许参数的自动学习,从而在连续传输上产生最佳吞吐量,因为RL评估了连续传输时隙上的平均回报。本文中使用的大规模MIMO的能量效率类似于(Li等人,2018;Muppirisetty等人,2018; Bjornson等人,2015; Shaik等人,2020年)。他们使用迭代算法的基础上的方法,如丁克尔巴赫和匈牙利的方法,随着最大化的individual- ual链接或总和率。这样的方法需要基于预定义的系统参数集合我们提出的RL要求●●●M. Ndong,M.Hayajneh,N.Abu Ali等人沙特国王大学学报7003仅初始参数设置;如仿真结果所示,吞吐量得到了改善,并且在连续传输中始终保持最佳状态。上述大规模MIMO工作从不同信号分配功率上的统计重传导出其结果。在我们的建议中,我们将倾斜度、发射功率和带宽作为要分配的参数的向量。图1中描绘了所提出的3层D2D架构。它包括无人机上的阵列天线,这些天线是用独角兽形 天 线和无线电条纹实现的(Shaik等人,2020年)。无线电条纹CPU嵌入在无人机机身的独角兽形天线底部。因此,可以通过执行倾斜优化来利用附加的自由度。1.2. 动机和贡献由于安全性在物联网应用中是必不可少的,该模型的开发是为了避免窃听和数据泄漏。公司数据存储在UAV或卫星星座中,存储在硬盘类型的存储器中,其根据需要通过定向波束进一步递送到对应的地面节点。在接收到传送确认之后,通信更新可以被擦除以有效地避免窃听。在C. D'Andrea等人(2020)使用地面上的许多接入点。本文涉及开发一种新的MaMIMO概念,它使用无人机而不是地面上的接入点Orsino等人(2017)的工作讨论了基于异构移动性的D2D通信。在第六代通信标准中,非地面网络(NTN)被认为是解决高吞吐量的关键组成部分。由航空/空间设备形成的300公里轨道上的NTN可以使用毫米波向地面用户提供数十兆字节的容量(Giordani等人,2021年)。Lee等人(2020年)最近的研究表明,利用卫星星座作为中继可以实现比地面光纤链路更快的长距离(>3000km)通信两个远程地面终端(或地面终端集群)之间的通信可以通过由一对低轨道卫星和移动高空平台(HAP)实例化的NTN来增强。duo用作两个地面终端之间的中继系统,以最大化链路的端到端数据速率(源终端-duo -目的地终端)(Lee等人,2020年)。信息从源经由低轨道卫星节点传输到目的地,然后经由HAP节点。所设计的系统模型由无模型深度强化学习(DRL)框架组成,深度Q网络(DQN)(参见Sutton等人,1998年用于DQN)。HAP代理输入是来自感测环境的状态和奖励。最大化问题通过DQN来解决,因为状态-动作空间是充足的,并且许多状态可能很少被访问。这些罕见的访问获得缓慢或没有收敛的策略迭代到马尔可夫链模型中的转移概率矩阵。该优化算法考虑了星座中低轨卫星与移动HAP配对的动态选择。综上所述,目前的大多数文献(1)没有考虑3D信道建模,或者提出简化的信道建模,例如,一些建议假设固定的路径损耗模型。(2)在目前的研究工作中,可靠性的评估被忽视(3)具有包括无人机、飞机和卫星在内的各种实体的SAGIN系统彼此相互独立,这可能会消耗1圆锥形天线的形状可以颠倒来构建这样的结构。可以考虑多种玉米,Fig. 1.与卫星星座、无人机(UAV)和无人地面车辆(UGV)的三层D2D通信。能源资源,而没有任何通信质量或保证的改善。因此,在本文中,通过RL通过SAGIN的D2D通信框架设计了用于邻近服务的可靠性的模型(Tembine 等人, 2012 )算法。由于RL 足以评估平均增益(Sutton等人,1998)在一连串的单次发射中(Tembine等人,2012),其用于评估连续D2D传输的可靠性。此外,一个混合RL算法,计算集中式和分布式奖励,以最大限度地提高EE下SE约束。为此,针对MaMIMO D2D导出发送节点的最佳数量,并将其用作添加到倾斜优化的参数,以及每个节点的最大发送功率,以表示贝尔曼方程中的马尔可夫状态并导出状态转移概率。完整的工作流程如图所示。 二、仿真结果示出了每个D2D链路的EE和SE增益超过注水优化。所提出的模型的效率评估连续传输的性能,以确保所提出的方案的可靠性。本文的贡献进一步突出如下:提出了一种3层D2D架构,用于确保D2D MaMIMO中的能量效率,同时减轻来自以下反复出现的两种情况的问题:(i) 空中关键更新是指UGV-UAV配对的D2 D网络中的任何设备需要对其在网络中的功能至关重要的软件更新的情况。(ii) 紧急充电是指任何UGV或UAV需要充电,以避免因电池电量达到临界水平而导致的操作中断。这种情况需要网络为急需充电的设备找到一条可行的应急路线。强化学习策略被并入以评估由通信网络中的设备对形成的D2D链路的可靠性。关于SE中断概率的3层模型。推导了马尔可夫状态转移概率,提出了适合无线信道随机特性的报酬函数论文的其余部分组织如下:第2节介绍了系统模型,第3节分析了直接D2D通信的SE和EE的计算方案,第4节介绍了倾斜优化方案和RL,第5节说明了我们的方法的数值研究和性能评估的新的联合SE和EE优化更●●M. Ndong,M.Hayajneh,N.Abu Ali等人沙特国王大学学报7004~图二. 拟议模型的工作流程。最后,第6节总结了本文的一些未来改进的要点。2. 系统模型我们首先在表1中提供本文中使用的符号列表。所提出的系统模型如图所示。图1描绘了3层D2D MaMIMO SAGIN,并且所提出的工作流程在图1中示出。 二、 如示于图 2、系统的设计与评估主要包括四个阶段:最大熵原理的推导、RL的引入、联合自主倾斜优化和模型的性能评估。在第一阶段中,在空-空-地一体化无线网络设置中导出MaMIMOD2 D通信模型。然后,利用最大熵原理对信道进行建模在均匀线性阵列(UWB)配置中的有限数量的天线状态中。在第二阶段中,采用在3维信道中的直接D2D MaMIMO网络SE和EE的基于强化学习的优化。我们利用动态规划来计算最优的策略或控制,以获得实时可靠性考虑连续的数据包传输。另外,针对形成D2D链路的每件设备提出倾斜优化功能。倾斜优化用于确保每个链路的最小SE。在第三阶段,我们提出了一个EE优化算法,通过联合自主倾斜优化和RL。建议RL算法计算SE和EE,奖励和累积奖励函数在每个时间步的复杂性。最后,第四阶段评估所提出的系统的性能。接下来,一个自顶向下的方法是框架,其中顶层是由非常低的轨道(340公里)的卫星星座。在所述网络中的对之间的D2D通信M. Ndong,M.Hayajneh,N.Abu Ali等人沙特国王大学学报7005.H不3dBh3dB×QSEj频谱效率PL路径损耗函数--tn;n;nrn;n不11nt表1数学符号和描述。符号描述L、V或Ka=Ku中、下层光谱nt;nr天线端口Sj;t;yj;t发送和接收信号at;ar发射天线端口分别是离开角(AoD)的方位角和仰角到达角(AoA)到u的方位角和仰角以及dr和dt(两者都以倍数测量的k)分别是发射天线端口和接收天线端口之间的间隔距离。定义了以下分别为nt×N和nr×N1k个波长/n方位角因数hn离开角pN½at/1;h1;at/2;h2;. . . ;2q1q31gt;gr全球传输和接收天线增益dB波束宽度htilt天线倾斜a t/N; hN] 6.gt/1;h1;h倾斜角.... ..gt/N;hN;h倾斜角..不ntNN7;3协方差矩阵4qg/;h;htilt...qg/;h;htilt5信道带宽其中at/n;hnn/½at/n;hn]... . ;½at/n;hn]]。EEj能效s1s¼ntPj;max最大功效LLOS视线(传播损耗)接收功率,发射功率TPCj总功耗Ncg连续数据包数Nt量化值B/2.5aru1;#1;. . . ;aruN;#N];4其中arunn;#nnl /2arunn;#n]u<$1;.. . ;1/2arun;#nnnnr]和qg/hil和pg/h是跨性别的全球模式,MIT和接收天线。 一条窄梁,j跃迁概率ml状态变量P输出中断概率Pcirc电路电源VL;VH信号传输和接收的功耗dD2D链路层通过自由空间光子链路实现从顶层到另外两个层的通信可以使用频谱L、V或Ka=Ku。第二层由无人机占据,无人机可以使用毫米波(mmWave)和低于6GHz与UGV以及彼此通信。推导了空-空-地一体化无线网络中的MaMIMO D2 D通信模型,其中每个D2 D链路是一对设备。一个设备取自极低卫星星座,无人机,UGV。考虑具有J个发射(相应地接收)天线具有nt个(相应地nr个)天线端口。每个端口由几个天线元件组成。在t处,发射信号sj;t具 有 维 度 nt , 并 且 接 收 信 号 yj;t 具 有 维 度 nr , 其 中 ntPMa 或nrPMa;MaP64。虽然在nr和nt上省略了时间索引t,但是所有端口在所有相干时隙处不具有相同数量的天线元件。这将允许MIMO信道矩阵维度的动态变化,并且通过以下公式匹配每个端口的全局模式qgt/;h;htilt;ql17dBi-MinVal];5哪里最小值:最小和/2个AH/-min½12/20] d B;20]d B;27] d倾斜件2AVh;htilt-min½12h-h;20]dB:28/3dB是水平3dB波束宽度,h3dB是垂直3dB波束宽度。在接收器grun;#n处的单个天线辐射图取为0dB。使用以下符号:给定复矩阵M;Mh是Hermitian(共轭trans-n),姿态)的复矩阵M,M T 是M的转置,并且是舒尔乘积算子。在天线方向图中加入了发射和接收功率,并解决了nr nt情况下的最大熵MIMO 3-D信道矩阵将具有如下给出的系统结构,从而得到SE和EE的时间变量一个优点如果SE是渐近的,而发射功率保持增加,则这种动态演化的一个重要特征是增加EE。1¼pffiNffiffiffi; 2009年2.1. 具有3维信道模型的最大熵原理用于在有限数目的天线区域(Q)中对信道进行建模。Nadeem等人,2015)以均匀线性阵列(Uniform Linear Array,简称LLM)配置。sth发射天线端口的阵列响应由下式给出:at/;he-iks-1dtsin/nsinhn1并且第u个接收天线元件的阵列响应由下式给出aru;#e-iku-1drsinunsin#n2其中,n表示多径传播中的第n条路径,其中,k是波长,i21/4- 1;哪里Drn10其中,a是N维向量,其条目是具有单位方差高斯随机变量的i.i.d零均值并且捕获信道衰落,并且q是平均路径损耗。的天线倾斜(关于的无人机/地面广播系统)是给定其中,H机械是机械倾斜,其在安装天线时是恒定的,而H电气是电倾斜,其可以通过控制算法动态地改变。这样的动态改变可以被完成以优化覆盖和容量(Dandanov等人,2017年)。第j个链路的倾斜调整可以通过使用1 位空间rd模数转换器阵列来实现, Rao 等人(2019),用于MaMIMO信道估计。倾斜调整包括PøBDAhA¼HM. Ndong,M.Hayajneh,N.Abu Ali等人沙特国王大学学报7006ðÞ.ΣXj;最大值2j;tnnJX1/1Gi不不不J;PA2不PA2不--J0nrLLLLLDNt因此,在Eq.(18)然后插入方程。波格岛þJnt;克鲁克链路中的一系列导频传输,以找到最佳倾斜和角度期望区域(来自其他链路的干扰最小的到达角度集合)。所需角度的表达在优化约束中定义为traceqj=6Pj;max;EEj变为EEjPj;最大值推导为:Wj SEjPjmax;;区域提供于(Muppirisetty等人, 2018年)。每一层都可以是EEj最大值ð16Þ2PAPj;maxnPÞ虚拟地倾斜以确定每个D2D设备的位置(Wuet例如,2020年)。每个D2d装置将被分配到所述3-nttω保监会其中,PA/PI/nt]1。I½nω]定义如下:图1中的X;Y;Z。因此,可以优化倾斜以避免干扰和非LOS传播路径。I½nωt] ¼nωtifnωt2Ndnωε1如果nωR Nð17Þ2.2. 用于SE的接收到的复基带矢量信号通过单个第j个D2D链路由下式给出:yj;t<$Hjj;tsj;tHj j0;tsj0;tzj;t;11j0其中,t是时隙索引,Hxx;t是维度为nr×nt的复信道矩阵,并且向量表示在其中,N是整数s的集合。将导出一个nalternati vetoI½nωt],并且n t是有界的。因此,优化受到约束。引理2.1. 对于j2J,最优EEj<$Pj;max<$w.r.t,表示为EEωj<$Pj;max;nωt<$,当PAPj;max¼Pcircnωt2;max18Hz和接收器。zj是零均值圆对称复高斯-PA P1;tWjSEj;将噪声向量与任意非奇异协方差矩阵进行正弦化。EEωP; nωP循环:1919年zj;t 使得其每一个组分的形式Jj;max不4PAPj;max其中X和Y各自为i.i.d.。 ~N=0;0:5。 发送的符号的向量s j;t; j 2 J在功率方面由协方差矩阵Q j;t1/2E1/2sj;tsh]表征,协方差矩阵是Hermitian(自伴)半正定矩阵。在低功率系统中,证据当解决优化问题时:(通过假设nt是连续的实值,然而,使用Eq.17在模拟)获得一组小的正数Pj;max;j2J,使得对于每个最大值1ntEEjP j;max;nt;20迹线Qj;t<$6Pj;max:表示为SEj的第j个链路的SE表示为平均值nt6兆aEEj<$Pjmax<$w.r.tnt的导数由dEEj<$Pj;max<$w.r. t n t给出:在衰落实现上的比特数=s=Hz;PAPj;maxDNtj/ mdetdEEjPj;maxWjSEjPj;maxn2-P循环SEE日志-Jj-dnt¼2不PAPj;max2:121分ð12Þ其中s是随机正态严格正变量,Hh是Hj的共轭转置;m是路径损耗指数,d是距离在D2 D发射机-接收机对的两个设备t当P循环时,EEj<$Pjmax<$i增加 <最大值 而当Pcirc>Pj;max. M a2 N是mas中的最大节点数,R公司简介XPlMIMO系统,它可以同时在设备,形成D2D对。求解dEEjPj;max^0得到下式:高斯噪声遵循N0;N0Inr,路径损耗函数PL遵循功率随距离衰减的规律,计算如:dsm2PLdks;m5=d020p:14Ix是维度x的单位矩阵,Wj是第j对传输所利用的信道带宽。从SEj导出的EE表示为EEj,可以写为:Wj SEj(16)得到Eq. (十九)、作为变量P j;max;n t、P circ和PA的函数的EE j <$P j ; max <$的偏导数表明EE j<$P j;max<$是变量Pj;max;PA和Pcirc 的 递 减 函 数。如果nωt的计算方法是正确的, 经由等式(18)产生一个非整数。2.3. 卫星星座到无人机/全球广播系统本方案的设计假设为:EEj¼nt2Q j½ii]P循环;1500万卫星星座与任何UGV、UAV或GBS之间的视距(LOS)链路。自由空间传播损耗可以是模-我¼1其中,是矩阵Qj的第i个对角元素;gi(0 S~Ej,则wj^/0。因此,满足SE要求不包括在Eq中。(26). 问题集Eq.(26)Eq. 由于不是凸的,因此提出利用RL算法的低计算复杂度来求解它。3.1. 效用函数我们提出以下效用函数:美国UuEE UG软件EE j2028年SEj>S~Ej其中Us是集合j2J=S Ej>S~Ej的基数。系数u;v将优先级分配给EEUG或Us,作为EE和 SE之间的新权衡。如果v>u,则优化是在所请求的(S-Ej)SE方面对D2 D用户满意度进行。第二个条件(不是在Eq.28评估可靠性,如果Us<$Ncg;n<$1; 2; 3;:.效用函数对于形成D2D链路的对是未知的提出了一种通过学习Ncg连续传输过程中的最优策略来同时计算所有j2J的预期收益的方法每个第j个链接由一对独立的决策者。每个决策者的策略集由链路状态空间中表示的参数集提供,如下节所定义。由jSj表示的状态数由下式给出:jSj ¼jPj;maxjjhjjNtj;29其中,j:j表示集合的基数,Pj 、max、htilt和Nt是变量s可以分别取 Pj、max、htilt和nt的量化值的集合。 我们记为MS^jSj。3.2. 贝尔曼方程EEUG联系我们Wj SEjð25Þ下面的推导构成了贝尔曼方程。各第j通过决定控制变量集合的路径来优化链路jJjTPCj第1页表,fPj;最大值为0;最小值为0;最大值为0;最小值为0;最大值为0它的未来收益Ncgt¼0 最大化的贴现总和动态编程(Busoniu等人,2010)提供了最优策略或控制以获得考虑连续分组传输的实时可靠性。Ncg被表示为连续传输中的连续分组的数量。每个数据包传输占用一个时隙,并定义一个单次传输功能。另外,针对形成D2D链路的每件设备提出倾斜优化功能。 倾斜优化用于确保每个第j链路的最小SE。因此,每个分组传输是在一个时隙期间发生的一次性传输的连续传输。如Hayajneh等人所述,SE的优化是通过水填充进行的。(2020),从中选择Pj,max以满足在Hj的任意分布上的期望SE。RL(Busoniu等人,2010)算法被提出来解决以下问题:NcgSEjSjt;Pj;maxt;htiltt;n~tt和EEjSjt;Pj;max t;htilt t;n~t t其中,Sjt是假设根据下式演变的状态变量:Sjt1fSjt;Pj;maxt;htiltt;n~tt30给定初始状态Sj= 1/4。函数f在3.3节中定义,用于表示状态之间的转换在随后的3.4节中提出的RL算法功能提出在当量(28).让D 被定义为D/fPj;max t;htill tt;n~tt g. 最大化收益的最优值由价值函数min1X XwS~E-SEh倾斜26XMh最小6hh倾斜最大6hcgk¼1SEj>S~Ej你好,s¼0ml其中,yts2Ds jtsMS b被称为折扣因子Max迹线Qj6Pj;maxEEUG;2027年j表示从第m个状态到第l个状态的转移概率。在Bellman方程形式中,Eq.31可以重写为Uy ts;S jts];31M. Ndong,M.Hayajneh,N.Abu Ali等人沙特国王大学学报7008不n~t2D倾01不100万美元最大值:10000001mll m mLmlJJJJ一J状态是由映射向量VS的分量的任何值变化引起的。因此,马尔可夫链中的所有状态都是连通的,这等价于马尔可夫链是不可约的。在3.3节中提供了马尔可夫链的拟议状态转移的说明,第j条链路的概率P ml,记为P j ;其中h倾斜;Pi和mli j;maxn~i是第i个状态下的h~ t;P_j;max和n~t的值。定理3.1转移概率Pj由下式给出:J1ml¼1μP输出- 1μNP1N其中,Pout是中断概率,定义为:Pout¼ProbS~EjPSEj;36即Pout是S~EjPSEj的概率。图三. 提出了3个状态的马尔可夫链快照。VSjttuyt;SjtbEt½PmlVSjt1]:32当量 32是Bellman方程,它产生向量fSjt;Pj;max t;htil tt;n~tt g的最优策略函数分量限定的证据 以下事件增加TPCj:● 增加Pj;max增加nt(活动节点数的变化,因此nt Pcirc增加)● 改变h(进行改变的能量消耗)因此,如有必要,应通过以下算法防止这些事件中的每一个。算法1:转移概率控制器1:如果S~EjSEj,则<2: n~tt1←n~tt1fSjt;Pj;maxt;htiltt;n~ttg23:如果Pj;max≥6Ptot,则arg maxUy;SbPjVSt1334:Pj;maxt1←Pj;maxtPtotJy2DSjmlj5:如果结束6:其他7:优化:h倾斜jJj3.3. 马尔可夫链在每次单次传输时,每个第j链路处于状态Sj,最大值倾斜8:如果结束其中PkPtot k1 2.定义如下,Sjt#VS¼@h其中n~t是数字Jj;最大¼倾斜jJj;¼倾斜;;.. . ;jJj的发射天线,使得P总和¼Pj;maxn~2Pml¼ Probht1-h t P rob P j ; max t 1- P j ; max t P rob n ~ t t 1- n ~ tt1/4ProbS~EjSEjProbS~Ej6SEjProbPj;maxPtotProbS~EjPSEjProbn~tMaP出P出在(18)。因此,状态数为NhtiltNPj;maxNn~t<$1-Pout<$NPjmax<$Nn~t其中Nh倾斜;NPj;maxn~t 是离散集合的基数1输出N;Nn~t的值分别取htil t;Pj;max和n~t。 图3.第三章。可以假设,向量中的每个变量的离散值的有限集合的量化映射到状态。D2D链路中的任何设备的动作Ac分别发送数据。PJ,当动作Ac是每-ð37Þ提案1. EEUG是最优的,当参数TPCj;PA,nt;Wj和Pcirc在提供最佳SEj的连续单次传输中是最佳的。正式声明为:P<$ProbS jt1 Sjt S;S ;S2S34AC产生由于Sj中每个参数的量化值的集合是有限的,所以状态的数量是有限的。的改变证据最佳EEUG是通过连续的单次传输获得的,每个单次传输产生最佳SEj。 连续速率因此,当每个第j个链路选择在一次博弈中,在任意分布的Hj上,Qj的最佳集合。RL算法确定使SEj最大化并且使TPCj最小化的最优状态值。 因此,EEUG被定义为最优。mlPj;max●n~t;作为M. Ndong,M.Hayajneh,N.Abu Ali等人沙特国王大学学报7009J2jJjJjJjn~tn~jto@A3.4. 提出RL算法联合求解方程组。(26)和(27)提出了以下RL算法来求解方程:(26)、(27)、(28)、(29)。在MaMIMO中,大量的有源天线增加了TPCj。TPCj是影响无线通信链路的EE变化的关键变量。值TPCj被分成两组,即VL和VH,使得x2VL;y2VH指示x6y。从单输入单输出(SISO)到MaMIMO方案,EE算法2:提出RL控制器以联合求解方程2:(26)和(27)1:对于j2J做2:设置S~Ej0h倾斜度从100°到100 °1当TPCj值在VL时增大,当TPC j值在VH时减小。随着TPC值的增加,SE逐渐增加到渐近状态。TPCj组值,其控制分布式方案中可实现的数据速率。这个渐近水平随着发射和接收的数量的增加而增加。天线增加。 因此,对于每个x2VL(分别为 y2VH),则3:初始化:Sto←B@Pj;maxtoCA不是yx2VH(分别为xy2VL),使得EE在两个位置处都是恒定的TPC(分别) y 和yx)。 未来的研究可以值x和xyJ4:用于第j链路5:计算:SEj6:Compute:EEj7:结束8:计算:EEUG9:对于k←1到Ncg(每次1次发射),10: 初始化:R k← 011: 对于jJdo12:用于第j链路上的CSI估计的导频传输13:计算状态转移概率14:如果S~EjSEj,则<旨在找到一种快速的协方差矩阵分配方案,减少在离开x以及操作天线元件的基数之后到达x和y所花费的时间。这对于限制TPCj最大值的约束是至关重要的,因为如果TPCj不够高,则MIMO SE不会产生预期的多天线增益。协方差矩阵的每个值被额外地约束,因为它应该在集合VL或VH中的一个中。 因此,强化学习用于优化作为SE和TPC的函数的EE,表示为EE_SE; TPC_SE。十五:n~tt1←n~tt14. 通过联合自主倾斜进行16:如果Pj;max≤Ptot≤617:Pj;maxt1←Pj;maxtP
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功