没有合适的资源?快使用搜索试试~ 我知道了~
认知无线电传感器网络能量感知Q学习AODV路由
沙特国王大学学报认知无线电传感器网络能量感知Q学习AODV路由Ranjita JoonJoshua,Parul TomarJ.C. Bose University of Science Technology,YMCA,Faridabad,India阿提奇莱因福奥文章历史记录:收到2021年2022年2月28日修订2022年3月22日接受2022年4月7日在线发布保留字:认知无线电网络Q学习AODV网络寿命A B S T R A C T无线传感器网络在健康监测、安全应用、军事应用等各种实时应用中发挥着重要作用然而,这些网络部署在ISM频段,其中共存,干扰和频率重叠仍然是降低性能的挑战性问题。目前的技术进步促进了认知无线电作为一种有前途的技术,以减轻这些问题。然而,能量消耗降低了网络的生命周期和吞吐量性能,这可以通过开发认知无线电使能的无线传感器网络的能量感知路由协议来解决。在这项工作中,我们介绍了能量感知Q学习AODV(EAQ-AODV)路由。提出的EAQ-AODV使用Q学习为基础的奖励机制的簇头选择和AODV使能路由协议的基础上不同的参数,如剩余能量,公共信道,跳数,许可信道,通信范围和信任因子建立路由路径。实验结果表明,与现有技术相比,EAQ-AODV路由算法在平均端到端时延、平均能耗和网络生命周期等方面都有较大版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍实时通信的要求越来越高。实时系统要求高质量、可靠的通信。这促使研究界设计可靠的通信系统来提高通信质量目前,已经针对有线和无线通信开发了若干通信标准本文的工作主要集中在无线通信系统上。在无线通信领域中,无线传感器网络扮演着重要的角色。无线传感器网络的制定与几个微小的传感器节点的帮助下。无线传感器网络具有事件驱动机制来通信和传输信息到目的节点。 在无线传感器网络环境中,无论何时发生任何事件,传感器节点*通讯作者。电 子 邮 件 地 址 : joon. gmail.com ( R. Joon ) , ptomar_p@hotmail.com ( P.Tomar).认知无线电传感器网络能量感知Q学习AODV(EAQ-AODV)路由产生突发流量(Zhang和Wan,2019)。通常,这些传感器网络部署在密集的环境中,其中其他网络也可能存在。在这种状态下,每当由于另一个网络组件而发生任何事件时,传感器节点可能会尝试访问该信道,从而导致干扰和不准确的信息收集。目前,无线传感器网络被广泛应用于各种应用中,例如气候监测、健康监测、安全、监视(Lv等人, 2019)等。 对无线传感器网络的需求增加,可以产生一个场景中,几个异构网络可能存在。 这些网络可能会产生挑战(Joshi等人,2013),并且增加了可能导致通信降级的干扰。此外,这些网络部署在不可到达的区域,传感器节点的自组织性质和维护公平的网络生命周期是重要的方面。这些网络由多个节点组成,这些节点被随机部署在传感器区域中,传感器节点之间的距离被限制在几米之内。部署的传感器节点收集所需的信息,并将其发送到基站的帮助下,多跳通信。此外,该信息可以经由互联网网关或任何其他通信信道传输给用户。图 1(Joshi等人, 2013)示出了常规WSN的一般架构。目前,ISM(工业、科学和医疗)无线电在各种实时应用中广泛采用带宽。这个乐队https://doi.org/10.1016/j.jksuci.2022.03.0211319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comR. Joon和P. Tomar沙特国王大学学报6990Fig. 1. 传统的无线传感器网络。被各种通信技术所共享无线传感器网络也运行在这个频段。然而,共存被认为是该频段的严重问题之一IEEE 802.11设备在ISM频段的大量部署会造成工作频段的重叠,这也是降低传感器网络性能的另一个挑战性问题类似地,无线设备在未授权频带中的干扰和操作也可能使性能降级。然而,共存的问题可以缓解的帮助下,分集方案,如频率空间和时间。另一方面,这些网络由具有有限容量的不可更换电池在数据采集和传输过程中,这些节点都要消耗一定的能量。然而,由于不适当的网络管理,传感器节点消耗过多的能量,这会对网络的生命周期造成在通信过程中,数据传输是能量消耗的主要来源,因此,有效的数据传输是缓解这些问题的重要任务。目前,路由被认为是一种很有前途的解决方案,以提高网络的生命周期。提出了几种路由方案,重点是能量感知路由方法,以最大限度地减少能量消耗。当前的研究主要集中在从计算复杂度、成本、数据速率、成本和网络吞吐量等方面来提高网络性能。传感器节点的自组织是影响网络性能的一项重要任务。目前的研究表明,认知方案可以缓解传统WSN的问题(Zhang et al., 2016年)。根据认知技术,可以使用推理、规划、感知、行动和更新学习 过 程 的 历 史 数 据 来 改 进 学 习 过 程 。 近 年 来 , 认 知 无 线 电(cognitive radio,CR)技术被认为是下一代通信的一个很有前途的解决方案认知无线电与无线传感器网络的结合,由于其识别授权和非授权频段中未使用的频谱的性质,大大提高了网络的性能。此外,它利用可用的频谱opporistically其中的主要用户(PU)可以使用可用的频谱随时,而次要用户(SU)使用的频谱时,PU不使用频谱。认知无线传感器网络是一种特殊的自组织网络其中具有自配置和自感知特性的若干能量受限传感器节点在空间上分布在地理区域中。认知无线电具有频谱利用率高、能量效率高、面向应用的频谱利用和避免不同类型的网络攻击等优点。存在几种路由技术来提高CRSN的性能,例如能量收集(Zhang等人,2016)、频谱感测(Ejaz等人,2015)、安全且节能的传感(Ren等人,2016年,还有更多。然而,组合的CRSN遭受各种挑战(Joshi等人,2013),例如虚警、拓扑变化、容错、信道选择、功耗和可扩展性。拟议办法的主要贡献如下:(a) 本文对认知无线电传感器网络中的分簇和能量感知路由技术进行了简要的文献综述(b) 本文提出了一种新的Q学习算法来进行分簇和簇头选择(c) 此外,我们开发了一种新的AODV使能路由模型进行路径选择的基础上的几个参数,如剩余能量,公共信道,跳数,许可信道,通信范围和信任因子。文章的其余部分组织在以下小节中:第2节提出了一个简短的文献综述,最近的技术,以提高认知无线电传感器网络的性能,第3节提出了建议的混合解决方案的路由使用Q-学习,第4节提出了比较实验分析,最后第5节提出了结论性意见和未来的工作。2. 文献调查本节介绍了最近的技术,以提高认知无线电传感器网络的性能。任何无线传感器网络的性能依赖于几个方面,如簇的制定,簇头(CH)的选择,有效的数据包转发,能量感知路由等等。我们研究最近的技术来解决这些问题。R. Joon和P. Tomar沙特国王大学学报69912.1. 簇形成和CH选择技术认知无线电传感器网络是在传统无线传感器网络的基础上发展起来的。在无线传感器网络中,LEACH是一种流行的分簇方案,它最大限度地减少了网络能耗,以提高网络寿命(Mottaghi和Zawei,2015)。基于这一理念,CRSN采用了LEACH。Eletreby 等人(Eletreby等人, 2014)采用了LEACH协议,并引入了基于频谱感知的LEACH扩展CogLEACH。CogLEACH使用空闲信道信息来识别CR节点成为簇头的概率。然而,现有的基于eLEACH的方法仅关注能量消耗最小化,而没有考虑频谱感测和频谱管理场景。 为了处理这些问题,一种新的聚类机制被导出为LEAUCH(Pei等人,2015年)。低能量自适应非均匀分簇层次(LEAUCH)考虑信道资源,利用非均匀分簇。根据非均匀分簇的思想,靠近汇聚节点的簇将拥有较少的簇成员以平衡能量消耗。此外,为了选择下一跳,它考虑剩余能量和相对距离。基于认知无线电的聚类方案也用于CRSN中的频谱感测和频谱管理。Jiao等人(Jiao等人,2016)提出了一种用于聚类和频谱感测的组合新颖方法。该技术使用信道和频谱带相关性进行聚类公式化,其在三个阶段中执行修剪、选择和聚类。根据信任值选择簇头(Nguyen-Thanh和Koo,2013)即选择具有较高信任值的CR节点作为簇头。现有的频谱检测方案是基于时间的(Khan等人,2016; Hyder等人,2014; Zaeemzadeh等人 , 2015 ) 或 空 间 ( Huang 等 人 , 2015; Vaze 和 Murthy ,2016)。时空感知被认为是一项具有挑战性的任务.现有技术需要SU位置。Debroy等人(Debroy等人,2015)提出了基于S.Debroy等人 ( Debroy 等 人 , 2015 年 ) 我 们 。 类 似 地 , Maleki et al.(Maleki等人, 2016)提出了一种基于最大似然的方法来估计定向源的传输方向和功率。然而,在这项工作中,也假设BS具有SU和源的位置信息通常,这些网络被部署在无人值守的环境中,在无人值守的环境中,CR用户的位置的先验知识是繁琐的任务,并且这些技术导致较差的能量管理(Zaeemzadeh等人,2017年)。为了克服这个问题,Zaeemzadeh等人(Zaeemzadeh等人,2017)介绍了Co-spot,这是一种使用贝叶斯聚类的频谱检测合作方案,它不需要任何先验知识,例如传感器位置,网络拓扑中的集群数量。Ozger等人(Ozger等人, 2018)研究了聚类技术,并报告了聚类技术可以显着提高性能。在这项工作中,作者认为,快速的聚类收敛,减少重新聚类过程,以及更好的连接可以提高CRSN的整体性能Shah等人(Shah等人, 2014)开发了频谱感知的基于集群的节能多媒体(SCEEM)路由协议,以解决CRSN中的频谱和能量相关问题。聚类方法管理动态频谱接入和QoS相关问题。根据SCEEM,通过基于从频谱感测和过去使用获得此外,簇头是基于相对于相邻节点的较高的剩余能量和频谱秩来选举的。对的其他手,人工情报和生物灵感还介绍了提高CRSN寿命的方法。Mustapha等人(Mustapha等人,2015)开发了基于强化学习的集群协作信道感知(RL-CCS)。该方案能够学习信道的动态行为,如感知能量、信道可用性、感知代价和信道损伤等。在(Ling和Yau,2014)Ling et al.提出了基于信任和信誉管理的模型聚类协议。在此基础上,采用强化学习的方法来提高聚类性能.在CRSN中,较大的簇大小有助于减少路由开销,提高网络的可扩展性。然而,集群的可扩展性受到影响,由于更多数量的公共信道导致增加的重新聚类的数量。基于这些发现,Javed等人(Javed等人, 2017)引入了用于CRSN中集群的RL预算机制,该机制执行动态集群大小调整以提高集群稳定性。Ramli等人(Ramli和Grace,2016)提出了认知无线电网络中基于强化学习的聚类机制另一方面,人工智能和进化计算方案由于其自适应性而获得了吸引力现有的方案包括用于能量检测和频谱感测的模糊聚类(Paul和Maity , 2016 ) 、 具 有 较 少 数 量 的 控 制 参 数 的 人 工 蜂 群 聚 类(ABCC)(Kim等人,2017),基于进化计算的方法(Akbari和Ghanbarisabagh,2014),以及遗传算法Kong et al. (2018)用于信道分配和频谱感测(Shrestha等人,2016)等。Ozger等人(Ozger和Akan,2013)专注于CRSN中认知无线电网络一般采用动态频谱接入(DSA),但由于CRSN的资源受限特性,需要采用节能机制。已有的研究表明,聚类是一种有效的解决方案,以减少能源消耗。然而,现有的无线传感器网络分簇技术并不适用于CRSNs。因此,作者提出了一种事件驱动的聚类方法,形成一个时间簇在任何事件,簇头是根据事件和sink之间的节点的位置选择。簇头的选择主要基于节点度、信道可用性和到汇聚节点的距离。Yadav等 (Yadav等人, 2018)报道,为CRSN设计有效的拓扑控制机制是一项繁琐的任务。因此,作者提出了一种基于能量感知集群的路由协议(EACRP),它解决了能量和动态频谱相关的挑战。为此目的已经提出了几种方案,但是由于较高的PU活动,频繁的rec-clustering发生,这导致额外的能量消耗。该方案开发了一个自组织的聚类机制,选择最佳数量的集群。PU活动效应通过以具有更多公共通道的方式选择集群来实现。2.2. 认知无线电传感器网络中的能量感知路由方案在本节中,简要讨论CRSN中的能量感知路由协议。路由方案的主要目标是使能量消耗最小化,有效地将分组递送到目的节点和频谱管理。Tabassum等人(Tabassum等人, 2016)提出了用于CRSN的能量感知事件驱动路由协议。簇头是根据剩余能量、信道可用性和与接收器的距离来选择的,而簇是根据相对频谱感知来形成的。对于分组传输,采用逐跳通信策略。在(Singh和Moh,2017)中,作者提出了CRSN的多路径路由。该方法在路由模型中考虑了剩余能量和信道稳定性。此外,该方案保持了频谱异构性和主用户活动,可以用来改善路由。在(Abbasi和Mirjalily,2017)Abbasi et al.利用CRSNs网络进行多媒体数据传输,提出了一种地理路由方案。在这项工作中,RSSI(接收信号强度)是R. Joon和P. Tomar沙特国王大学学报6992½ ]“X!用于测量当前跳与目的节点之间的距离基于剩余能量参数选择簇头假设每个节点具有均匀的拓扑结构、固定的位置和相同的初始能量。TDMA通信用于簇内通信,而CSMA方案用于簇间通信。Zhang等人(Zhang等人,2017)介绍了一种基于CRSN中频谱可用性的新型路由方法。动态的频谱可用性给路由的发展带来了严峻的挑战。针对这一问题,提出了一种基于全局频谱使用统计和局部瞬时频谱状态的频谱可用性和频谱质量估计方案。基于这些参数,路由方法进行了介绍。在该路由中,允许一次重传,并引入了两个路由度量,即传输成功概率和平均传输延迟。基于这些路由度量,设计了一种路由算法,其中最优路由以按需路由方式确定。博弈论为基础的计划报告显着改善认知无线电的性能。这些技术在CRSN中被采用,以提高频谱利用率和频谱感知。Romero等人(Romero等人,2019)专注于CRSN中的隐私和能源管理。因此,人工噪声产生的方法,以提高对隐私攻击的安全性采用非合作博弈模型进行合并决策,该模型也使用较少的资源来平衡能源消耗。Salim等人(Salim和Moh,2016)开发了基于节能博弈论的频谱决策(EGSD),以提高网络寿命。该方法的主要目的是进行频谱选择、聚类和频谱表征。频谱选择是使用随机选择和基于博弈论的选择。利用马尔可夫链模型实现了聚类和谱Byun等人(Byun和Gil,2017)专注于四个目标:(1)公平的频谱分配,(2)最大的频谱利用率,(3)基于优先级的传感器传输和(4)避免不必要的频谱切换(或切换),以提高CRSN的性能。为了实现这些目标,一个双目标优化问题,然后构建一个改进的博弈论模型来解决这个优化问题。在(Oey等人, 2012)Oey等人提出了能量感知和认知无线电感知路由(ECR),以解决动态频谱接入、能量约束和单收发器问题。具体而言,该方法通过将能量消耗作为主要问题来执行节点信道分配。在操作期间,不允许其他频谱带接入频谱。该方法是对传统AODV协议的一种增强,通过增加能量和认知无线电感知功能对其进行了修改。路线选择过程包括几个新的簇头选择能量。下表1总结了文献中现有的聚类方案。3. 该模型本节介绍了使用认知无线电和传感器网络相结合的方法提出的解决方案。根据该模型,提出了一种结合强化学习和AODV的认知无线传感器网络协议。首先,在3.1节中简要描述了这两种技术。和3.2。3.1. 强化学习强化学习(RL)是一种机器学习过程,用于优化与环境交互的控制器的行为具体地,RL方案可以用于解决面向马尔可夫决策过程(MDP)的优化问题(Alsheikh等人, 2015年)。通常,MDP以元组的形式被创建为hG;A;T;Ri,其中G表示状态空间,A表示表示元组中的动作空间,T表示状态转换概 率 表 示 为T : G×A×G! 1/20;1] , R 表 示 奖 励 函 数 为R :G×A!R.在离散时间戳模型中,每次戳k,的代理人认为一国S½k]2G,并根据给定策略p在该状态下采取动作A½k]2A。 为了报复这一行为,交互式环境提供了一个标量反馈作为奖励R½k1],移动到状态中的下一个时隙k 1,并且代理的当前状态是S k 1。这个改变状态,从环境中获得奖励的过程如图所示。 2作为马尔可夫决策过程(Talabot等人,2017年)。在这一阶段,我们的目标是纳入一个新的政策功能,以最大限度地提高回报,从环境的反馈。状态转移概率密度有助于控制随机过程。 该过程模拟所考虑环境的动态。智能体在状态S½k]中采取动作A½k],因此智能体在状态空间G½k<$1]中到达状态S½k<$1]的概率表示为:PrSk1]2Gk1]jSk];Ak]ZTS½k];A½k];SdS1类似地,智能体接收动作的回报,回报表示为:RS;AERk1]jSk]]<$S2在这里,代理的目标是找到一个政策,这是适合最大化的奖励。预期策略可以定义为:诸如剩余能量比、公共信道、数量、频率等参数。跳的BER和许可信道的可用性。Tabassum等人(Saleem等人,2015年)提出了一种CRSN解决方案,通过使用n能量开发聚类和路由方案第一章E1k¼1k-1R½k]。q0;p#ð3Þ事件驱动路由协议(ERP)。在ERP协议中,根据频谱信息形成簇,并选择主用户数较低的信道作为簇的公共信道。此外,使用逐跳数据转发方案来执行数据传输。聚类(Wang等人,2019)通过在簇头处聚集簇内的信息来增加网络的寿命。传统的分簇和簇头选择方法因此,在本文中,我们采用了一种称为Q学习的机器学习技术来选择簇头。这种Q-Learning技术使节点能够自行决定是否充当簇头,从而节省了其中,a2½0;1表示贴现系数,q0表示国家的初始分配a的值负责产生奖励。生成的策略可以是随机的或确定性的。根据随机策略,智能体在状态中随机选择动作,状态分布可以表示为:pAjS<$<$P Ak]<$AjSk]<$S4类似地,确定性策略将每个状态映射为动作p:GA:强化学习是根据代理的目标发现策略的最佳合适方法,同时保持最小的奖励损失图 3显示基本G½k1]R. Joon和P. Tomar沙特国王大学学报6993¼表1现有的集群方案。分簇机制CH选择Eletreby等人(Eletreby等人,2014)CogLEACHCogLEACH是LEACH在频谱感知基础上的扩展它使用空闲通道数作为权重CR节点成为簇头Pei等人(Pei等人,2015)LEAUCHLEAUCH采用不均匀聚类。与远离汇聚节点的簇相比,靠近汇聚节点的簇将更小,以平衡能量消耗。空闲通道数和与接收器的距离。Jiao等人(Jiao等人, 2016)它是一种用于聚类和频谱感知的组合新方法。三个阶段修剪,选择,聚类。Debroy等人(Debroy等人, 2015)它使用频谱图来估计不同的无线电和网络性能指标,如信道容量、网络吞吐量和频谱效率。具有最可靠的感知数据的CR用户被选为簇头。使用迭代聚类基站控制CH的选择。Zaeemzadeh等人(Zaeemzadeh等人,(2017年)合作伙伴Shah等人(Shah等人,2014)SCEEMMustapha等人(Mustapha等人,2015)EESA-RLCLing等人(Ling和Yau,2014)RL-TRMJaved等人(Javed等人,2017)RL-预算方案这是一种贝叶斯数据挖掘方法,用于动态频谱感知。它不需要任何关于网络拓扑、传感器位置或集群数量的先验知识SCEEM是一种跨层路由协议,其中簇的数量被最佳地确定,以最小化由于分组而损失和延迟。它是一种基于强化学习的频谱感知聚类算法,其中选择最优簇的问题被公式化为马尔可夫决策过程(MDP)加入强化学习以提高基于信任和声誉管理的模型聚类的性能这是第一个基于人工智能方法Q学习的称为RL预算的集群大小调整方案通过这种方法,每个簇头确定预算值。一种概率模型,仅根据传感器的观察结果对传感器进行聚类。基于最高频谱能量等级。簇头概率是根据空闲信道数和剩余能量计算的。该模型采用贪婪行为选择策略。具有较高信誉值的节点被选择为CH。空闲通道的最大数量。Ramli et al(Ramli and Grace,2016)每个节点重复感测接收信号强度指示符网络中其他节点发出的信标节点可以感知本地环境的变化。Ozger等人(Ozger和Akan,2013)DSA事件驱动的聚类协议,为每个事件形成时间簇。基于节点度、可用信道和距离水槽。Yadav等人(Yadav等人,2018)EACRPTabassum等人(Tabassum等人,2016)ERPOzger等人(Ozger和Akan,2013年)ECR它采用了自组织的分布式集群和合作感测。它只在事件发生后在事件检测节点和sink之间形成簇。它是对传统AODV协议的增强,增加了能量和认知无线电感知功能。基于剩余能量,可用频道和到水槽的距离。基于剩余能量值、可用信道、邻居和到汇点的距离。ECR中无聚类图三. 强化学习模型其中qp 表示贴现状态分布政策p这是表示如qpSP rhS½k]<$Sj0<$S0;pid S0。q0.S0P1k 1ak-1在学习过程中,将获得的策略作为状态值函数和状态-动作函数进行评估,以评价策略的优劣。状态值函数表示为:图二、环境对行为的奖励和状态变化的说明过程p“X1k-1#VSE一k¼1R½ki]。S½k]¼S;pð6Þ强化学习的工作模型。根据RL,初始态分布表示为q0:G!½0;1],累积的奖励可以表示为:Pp ZqpSZpAjSRS;AdAdS5一类似地,计算状态-动作值函数以测量策略函数的优度,如下所示:QpS;AE“X1ak-1R½ki]。S½k]<$S;A½k]<$A;第7页代理采取行动A2RGGR. Joon和P. Tomar沙特国王大学学报6994k¼1R. Joon和P. Tomar沙特国王大学学报6995pp.Σ丢弃路由请求路由应答(单播)路由错误(广播)见图4。 AODV协议概述。在EQ的帮助下。(6)和(7)分别得到了状态值函数,该函数用于求出在所有策略上给出最佳回报的解,并且状态-动作值是所有策略上的最大状态值。最优值状态函数定义为:VωSmaxVpS8最优状态函数值可以定义为:QωS;AmaxQpS;A93.2. AODV协议通常,路由协议分为反应式和主动式协议。根据反应式路由协议,路由路径是根据源节点的请求创建的,而主动式路由协议遵循表格式路由路径生成过程。 AODV(Oey等人, 2012)是按需路由协议,并且遵循反应式路由过程。此外,它使用路由表和路由管理过程来更新路由过程,防止不必要的环路。这是这种方法的一个显著优点,有助于提高网络的生命周期。在AODV中,只有在源节点请求时才建立节点之间的路由只要源节点需要,路由就被保持序列号用于确保路由的新鲜度。下面给出的图4(Sakurai,2004)显示了传感器网络的AODV路由协议的概述。AODV通过查询、路由请求和路由应答来识别从源节点到目的节点的路由。在这个过程中,中间节点存储路由信息。维护路由过程的完整过程包括以下控制消息,例如路由请求消息(RREQ)、路由应答消息(RREP)、路由错误消息(RERR)和HELLO消息。路由请求但不知道到达那里的路线,它开始进入既定路线。一旦RREP到达源,则建立路由,并且源和目的地之间的通信开始。RERR:路由错误通过使用称为Hello消息的本地广播虽然AODV是反应式协议,但它使用周期性的Hello消息来通知邻居链路仍处于活动状态。如果节点在称为Hello间隔的特定时间量内没有从其邻居节点之一接收到Hello消息,则表中该邻居的条目将被设置为无效,并且将生成RERR消息以通知其他节点该链路断开。RERR消息显示无法到达的目的地。3.3. 提出了能量感知的Q学习AODV路由协议(EAQ-AODV)本节提出了解决方案,以克服挑战的认知无线电传感器网络,如能量消耗和网络寿命等,提出的方法分为两个主要阶段,第一阶段是集中在分簇和簇头的选择和第二阶段是采用AODV路由协议建立之间的通信,簇头和传输数据在一个多跳的方式。为了开发这些模型,我们考虑了一个认知无线电传感器网络,其中N个CR节点和M个PU均匀部署在一个二维地理区域。汇聚节点位于网络的中心整个网络被划分为不同数量的集群。每个传感器节点将数据发送到对应的簇头(CH)。然后,簇头进行通信并将数据传输到基站。每个传感器节点可以通过选择可用的许可信道与其他节点或簇头进行通信我们假设每个传感器节点知道自己的位置,剩余能量以及一跳邻居在下一小节中介绍了能耗模型。(a) 能耗模型与传统的传感器网络不同,认知无线电传感器网络(CRSN)除了完成数据传输和数据接收之外,还完成频谱感知和信道切换等任务。因此,考虑到这些任务,一个完整的能源消耗模型CRSN。在该模型中,用于信道感测的能量消耗被表示为εs,并且能量cons被表示为ε s。信道切换中的消耗表示为Ew。 对于任何认知节点n i 在CRSN中,数据传输Ei;tx表示为:Ei;tx¼ Pi;cPi:ti10其中,Pi表示数据传输功率,Pi,c是节点ni处的电路功率,ti是数据传输所花费的时间。 电路功率可以计算为:路由发现过程通过发送路由组播消息来实现,P1/4。1-1:Pdð11Þ圣人相邻节点接收消息并更新它们的路由表,并将消息移动到它们的邻居,直到到达目的地。RREP:路由应答-当消息到达目的地节点时,它以路由应答消息RREP进行响应,并沿着路由请求所采用的路径将应答消息返回到源节点。当RREP消息到达源节点时,中间节点形成前向路由。如果到目的地的路径是中间节点已知的,它可以响应于接收到的RREP发送RREP,允许节点i;cbi iDi是负责电路功耗的传输功率分量,B表示功率放大器的效率。类似地,接收数据分组的能量消耗取决于数据的长度,即,为了由节点n1接收1比特数据,能量消耗可以表示为:Ei;l:ec12其中Ec表示接收数据的电路功率。R. Joon和P. Tomar沙特国王大学学报6996ð Þ-- 是的ΣΣ.Σ半]þ转发ð Þ¼路由(b) Q-Learning聚类算法及簇头选择强化学习的主要目的是通过学习外部环境来做出反应并执行合适的操作,以最大化所考虑的策略的奖励强化学习由动作模型、Agent模型、奖励模型、策略模型和环境模型等组成。第二节描述了RL的基本工作过程3.1. 我们采用这种基于Q学习的模型进行簇形成和簇头选择。该模型将传感器节点看作是一个智能体,它关注邻居节点的能量值,并根据一定的策略学习能量消耗过程。如3.1节所述,我们采用马尔可夫决策过程(MDP)来生成初始配置和组件,如动作,状态,奖励和策略。根据到RL模型,的行动是表示为其中ai是节点j的下一跳邻居。VpSiriari1a2ri2::<$ariVpSi113其中r表示返回值,a表示折扣因子。学习代理集中于最大化VpSi。这种最大化策略可以表示为:V#¼arg maxVpSiVs 14p最后,Q可以更新如:Qt1St;ct1;ct1-ccrt1amaxQ tSt1;c0-QtS;ctð15Þ其中c和a是学习率和折扣因子,r是返回值,maxQ tSt<$1;c0是最大Q值ue和c0 是学习代理节点采取的动作。i i集群形成和CH选择是RL学习的奖励机制提供了下一跳邻居节点的链路成本在该模型中,我们考虑了到达簇头的路由中的节点,并计算路由的代价作为奖励并且该模型的Q值被更新为Qi ai,其中ai是为数据选择下一跳的动作t1i到i群集头该动作的相应回报是ri a i,其形式为t 1 i路径中节点之间的链路成本用于向簇头的数据传输。在马尔可夫决策过程中,主要组成部分用S;I:A;R表示,分别表示状态、转移函数、动作和回报。学习代理节点为所有状态选择一个动作,如图2所示。 5,用于计算能量消费基于能量消耗,计算最优决策的奖励R 为了进一步改进决策,我们采用了SMART(Saleem等人, 2015)的簇头选择模型,该模型使用最高数量的信道作为奖励来选举簇头。该方案有助于减少频繁的重连接和簇头选择。所制定的决策从当前状态S进一步处理到S101,并且对应的下一动作被认为是A到A1。基于这些决策,我们得到的最优策略Q,增加奖励,以改善簇头选择过程。根据马尔可夫决策过程,状态转移及其相应的奖励是基于当前的状态和动作。 如前所述,学习代理节点开发了一个策略,以最大化奖励为p:S! A. 学习代理节点根据当前状态S i采取动作A i, 作为p S iA i.因此,累积值函数可以获得为:CRSN以降低能耗。在这种情况下,无线传感器网络此外,动态PU活动产生额外的能量消耗。因此,我们提出了基于Q学习的奖励机制,该机制可以根据最小化能量消耗和资源利用率的设计策略动态地选择最优簇头。这种方法有助于最小化CH选择的频率,从而降低能量消耗。(c) AODV路由协议的更新AODV协议主要完成四个任务来生成认知无线传感器网络的能量感知路由。这些任务是:路由请求、路由选择、路由应答和路由维护(Oey等人,2012年)。在建议的工作中,通信是从簇头到簇头,因此,多跳路径是cree- ated使用簇头。传统的路由协议使用路由建立、路由选择和路由维护阶段来建立用于通信的端到端路径。然而,为了提高该模型的性能,我们改进了路由选择过程中添加额外的参数,如剩余能量,公共信道的情况下,跳数,许可信道,通信范围和信任因子。这些步骤如下所述:● 路由请求(RREQ):根据AODV协议,Rounds数据包帮助找到可能的路径将数据从源节点传输到目的节点。在RNN分组中,源节点附加其自己的信息,图五、使用RL的聚类和簇头选择过程R. Joon和P. Tomar沙特国王大学学报6997Bc;bð Þ ¼¼并将其广播到相邻节点。然而,在这项工作中,我们考虑认知无线电使能的传感器网络,因此,路由请求(Rounds)检查两个条件,第一,剩余能量:如果剩余能量低于阈值水平,则Rounds数据包被丢弃,用于中间节点的进一步通信。其次,中间节点评估源节点处的信道可用性及其与先前节点的公共如果公共信道不可用,则中间节点丢弃Rack分组。此过程将停止该时间戳的路由发现过程。第一个条件有助于最小化整个网络中的功耗和负载平衡,而第二个条件有助于以多跳方式确保源节点和目的地节点之间的最佳路由路径这些中间节点在路由发现过程中将它们的信息附加在RREQ分组稍后,重新广播Rounds分组以建立路由表。● 选线在完成路由分组和路由发现阶段之后,目的节点启用定时器功能,并等待其他节点将路由分组广播到目的节点。一旦定时器功能超时,则收集路由路径,并基于剩余能量、公共信道、跳数、许可信道、通信范围和信任因子来选择最佳路径。剩余能量:剩余能量在网络寿命和簇头选择中起重要作用.该方法通过计算每个节点的剩余能量来确定所选路由的剩余能量比残余能量信任度是节点完成通信和数据处理任务所需的剩余能量的度量数据信任是对传感器节点生成或操纵的数据的测量。这有助于评估数据的一致性和容错性。通信信任度是对传感器节点通信的度量,表明节点在所考虑的协议中进行合作在这里,我们假设传感器节点使用看门狗机制来监视当前通信范围内的邻居节点的活动在这个过程的帮助下,节点可以监视节点我们假设部署的网络在传感器节点之间建立通信之前采用beta分布。为了测量信任,传感器节点监测传感器节点之间 的 通 信 来 计 算 信 任 值 。 该 信 任 模 型 使 用 Beta 概 率 密 度 函 数(Josang和Ismail,2002)来估计可信节点的概率。该概率密度函数可以表示为:fxjc;b1xc-11-xb-116其中c>0;b> 0是索引参数,并且0≤x≤ 1。假设a表示成功的分组传输,b表示不成功的分组传输,则概率值可以获得为:c<$a1b<$b<$1 17给定beta分布函数的预期概率可以如下给出:能量比的计算方法是将路由中所有节点的剩余能量相加,然后除以路由中的节点数。沿线 具有最大剩余能量E xca1c/b/a/b/ð18ÞRatio被认为是最佳路由路径。公共信道:信道切换是能量消耗的主要来源之一最小化信道切换是减少过多能量消耗的重要任务。在路由选择过程中,优先选择中间节点间具有最大公共信道的路由来构建路由路径。跳数:在多跳路由中,更多的跳数来构建路径将消耗更多的能量,而更少的跳数将消耗更少的能量。因此,必须最小化多跳的数量以减少能量消耗。因此,优选具有较少跳数的路由。许可信道:这些网络中基于许可信道的通信可以通过减少路由路径中的跳数来因为,在许可频带中操作的节点可以到达更远的节点,这有助于减少路径中的中间节点的计数通信范围:节点或簇头的较小通信范围可能导致丢包,并且它可以包括更多数量的中间节点。因此,具有最佳通信范围的中间节点在路由过程中是优选的。信任度:传感器节点的信任度是影响网络性能的重要因素。具有较低信任值的节点被认为容易受到各种攻击。能量相关的攻击会耗尽传感器节点的电池。由于每个节点的信任值在每一轮通信中都是变化的,因此动态地访问和更新信任值是一个重要的任务。在该模型中,信任值的计算基于能量信任,数据信任和通信信任。的该值在所提出的模型中用作信任值基于这些参数,我们为路径分配一个成本函数:Ci1k1:M1kk2:M2-k3:M3-k4:M4-k5:M5-k6:M6k19其中,Ci表示第i条路径的成本,M1表示信道切换的次数,M2表示跳数,M3表示剩余能量,M4表示许可频带,M5是通信范围,M6是信任因子。● 路由维护选择的最优路径需要适当的管理和维护,以提高链路的稳定性。因此,路由维护策略被纳入AODV协议。在通信期间,每当通信链路故障发生时,中间节点确定链路故障相对于源节点和目的地节点的位置。如果链路故障发生在目的节点附近,则中间节点通过广播RNN分组来搜索本地替代路径,以避免链路故障。在路径修复过程中,传入数据被存储在中间节点的缓冲区中,并且路由错误包被广播到源节点。现有的方案,如SMART和AODV遭受资源和能源约束相关的问题,同时执行端到端的数据交付。在这项工作中,我们采取这两种机制的优点,并纳入Q学习的概念,聚类和CH选择。我们设计了一个Q学习的政策,考虑能源和资源的限制。获得最大奖励的节点被选为簇头,这意味着该节点适合于最小化能量消耗和合理利用资源。此外,我们还改进了路径/路由选择。R. Joon和P. Tomar沙特国王大学学报6998通过结合诸如剩余能量、公共信道、跳数、许可信道、通信范围和信任因子的各种参数,可以对过程进行优化。在此基础上,设计了一个代价函数来选择最优路径。AODV协议具有快速适应网络拓扑变化的优点,是高动态网络的最佳选择。它支持单播和多播操作,它需要更少的时间来识别到目的地的最新路由,它不需要任何集中式系统来操作路由,并且它是一个无环路,自启动和自适应缩放方案,可以处理大量的节点。在这项工作中,我们已经更新了AODV协议的路由选择过程,这有助于实现更好的路由。分别对路由选择参数进行评估,得到路径代价。在路径制动场景的情况下,它考虑先前的最佳奖励值,并选择下一个最佳
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功