动态频谱接入中基于多用户多臂不安分Bandit的同步历元动态频谱接入分布式学习算法

146 浏览量更新于2024-01-17 收藏 1.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报未知环境下基于多用户多臂不安分Bandit的同步历元动态频谱接入分布式学习算法Himanshu AgrawalSahan，Krishna Asawa计算机科学工程和信息技术系，Jaypee信息技术学院，Noida-201304，印度阿提奇莱因福奥文章历史记录：收到2020年2020年11月30日修订2020年12月20日接受在线预订2021年保留字：不安分的多臂强盗认知无线电分布式网络分布式算法信道选择策略动态频谱接入A B S T R A C T使用认知无线电的动态频谱接入具有许多应用领域，如智能电网、物联网和各种其他设备到设备通信范例。在动态频谱接入中，用户在每个时隙期间从N个信道中挑选一个信道进行传输因此，用户从奖励状态的有限集合中获得主动信道的奖励条件按照未知的马尔可夫链演化。相反，被动渠道的奖励条件演变为一个任意的奇怪的随机过程。值得注意的是，一个渠道选择策略的目标是通过选择最好的渠道方面的平均可用性，以尽量减少遗憾。本文提出了一种基于连续信道选择的自适应信道探索与利用排序（ASE-CSUE）策略。通过合理规划时间段的顺序，ASEE-CSUE可以实现后悔随时间的对数顺序。仿真结果表明，该算法的冲突率小于7%，切换代价小于2%，最佳信道的选择率大于90%。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY许可下的文章（http://creativecommons.org/licenses/by/4.0/）。1. 介绍经典的多臂强盗（MAB）问题（Robbins，1952; Bradt等人，1956）可以被概括为不安分多臂强盗（RMAB）问题（Tekin和Liu，2012）。此外，经典的MAB问题被归类为i.i.d.（独立同分布）和马尔可夫。在i.i.d.，各手臂的奖励与时间无关，手臂的平均奖励不因参与人的选择而相反，在马尔可夫链中，手臂在下一个时隙中的状态由相应的马尔可夫链控制，仅取决于相应手臂的当前状态和玩家的选择。玩家从N只手臂中选择一只手臂，获得的奖励取决于当前*通讯作者。电子邮件地址：himanshu. jiit.ac.in（H. Agrawal），Krishna.Asawa@jiit. ac.in（K.Asawa）。沙特国王大学负责同行审查制作和主办：Elsevier在当前时间段内未被使用的武器被称为被动武器，如果被使用，则被称为积极的武器。在经典的MAB中，不活动的手臂的状态保持冻结，而在RMAB中，无论手臂是否被使用，状态都会演变。在RMAB中，主动臂的状态根据未知的马尔可夫链而演化。相反，不可预测的未知随机过程引导被动武器的演变。RMAB已经在电力系统动态频谱接入（DSA）的背景下进行了广泛研究（Oksanen和Koivunen，2015; Tekin和Liu，2011）。在DSA中，当授权（主要）用户不使用频谱时，允许未授权（次要）用户访问频谱（Zhao和Sadler，2007）。DSA背后的动机是引入设备到设备（D2 D）通信;因此，对无线连接的依赖性已经增加了许多倍（Asadi等人， 2014年）。因此，对电磁无线电频谱的需求因此，需要智能方式来共享可用频谱资源。它已经在Brown et al.（2014）和Yin et al.（2012），无线电频谱在时间、频率和位置方面严重利用不足。认知无线电（CR）通过定位自发可访问的链路（Mitola和Maguire，1999; Nekovee，2010）成功克服了上述缺点。它感觉到https://doi.org/10.1016/j.jksuci.2020.12.0241319-1578/©2021作者。由Elsevier B.V.代表沙特国王大学出版。这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comH. Agrawal和K. Asawa沙特国王大学学报5436ð Þ ð Þ周围环境来收集信息并重新配置其传输功率、载波频率、调制技术和其他参数。主用户的频谱使用行为可以建模为具有占用和空闲两种状态的马尔可夫链。实际上，次用户的目标是在不具有关于主用户的频谱使用行为的任何信息的情况下识别用于传输的最佳信道。值得注意的是，信道的平均可用性是未知的，因此用户1基于他们的本地观察和信道可用性历史来选择信道。这种分布式学习和多路访问的现象可以被建模为一个随机的，多用户不安分的多臂强盗（MURMAB）。然而，上述RMAB的最优解已经通过考虑一些特殊情况而导出，因为正确的解是难以处理的。由于在非贝叶斯框架下证明了马尔可夫链的转移概率已知的RMAB是P-SPACE困难的（Papadimitriou和Tsitsiklis，1999）。在经典的MAB中，在i.i.d.或休息马尔可夫报酬，最优策略是在不完全信息的约束下选择具有最高期望报酬的手臂。然而，具有未知马尔可夫动力学的RMAB可以通过以顺从的方式识别最高期望奖励方面的最佳手臂来求解。任何手臂选择策略的表现都可以用后悔来衡量，后悔定义为总是选择最佳手臂的理想策略的回报损失。因此，任何手臂选择策略的目标都是尽早确定最佳手臂，以减少后悔。因此，为了在不完全信息的约束下确定最佳手臂，在线学习策略必须处理众所周知的探索和利用之间的权衡。探索是为了确定武器的质量，而开发是根据迄今为止收集的信息选择最好的武器。换句话说，在玩当前最好的手臂和玩被选择次数较少的手臂之间存在竞争，以观察其奖励统计。此外，武器的不稳定性要求在一个称为时代的时期内连续进行选择类似地，状态转换的不稳定性迫使必须选择连续时隙的信道来学习信道任何有效的分布式学习策略都旨在尽可能快地识别顶级信道2并在其上正确地正交化M个用户，而无需任何预先协议或信息交换。与现有算法（Liu等人， 2013; Kalathil等人，2014; Modi等人，2017年），用户数量（M）在拟议工作中未知。为了考虑这些约束，提出了一种基于学习的信道选择策略（CSP）它估计用户的数量和信道的平均可用性，以识别M-最佳信道。它允许所有用户共享和访问最佳渠道。这项工作的重要贡献如下：1. ASEE-CSUE由两个时期组成：1）信息收集IG时期，2）信息利用IU时期。 IG历元用于精确地表征每个用户的所有信道的统计。相比之下，IU历元用于估计用户的数量以识别顶部信道的集合2. ASEE-CSUE不需要用户之间的任何协调或信息交换来进行信道选择。1除非另有说明，2对于M个用户，顶级信道指的是M个最佳信道的集合。3. 较少的冲突和信道切换使得ASEE-CSUE成为节能动态频谱接入的理想策略。本文的其余部分组织如下。第二节介绍了相关的工作。第三部分介绍了系统模型。在第4节中，提出了学习和机会主义地接入频谱的策略。第5节说明了所提出的政策的性能，使用模拟设置，随后的结果和讨论。最后，在第6节中得出结论。2. 文献综述动态频谱接入（DSA）已经在两种相反的网络架构中进行了研究：集中式（Tekin和Liu，2012;Oksanen和Koivunen，2015）和分布式（Liu和Zhao，2010 a; Anandkumar等人，2011; Besson和Kaufmann，2018）。分布式架构由于其在IoT和D2D通信中的底层应用而更受欢迎。DSA的MAB框架考虑了分布式架构中的多个用户，最早由Liu和Zhao（2010 a）提出。他们已经考虑过了。不同渠道的奖励模式。此外，一种预协议被认为是在用户之间，以避免冲突。然而，预协议需要关于部署之前的用户数量和需要保持固定的用户数量的信息Anandkumar等人（2011年）讨论了预先协议的这种限制。相反，为了减少用户在访问最佳信道时的冲突次数，他们采用了随机选择的思想例如，在经历冲突之后，用户将在下一时隙中随机选择最佳信道之一。2014年，Avner等人（Avner和Mannor，2014）提出了称为MEGA的信道选择策略，其表现出比Anandkumar等人更好的性能。（2011年）。尽管如此，他们已经使用了一些调谐参数，如c;d;p0;a;b来正交化不同信道上的各种用户。2016年，Rosenski等人提出了一种用于动态频谱接入的分散策略，称为未知数量用户的音乐椅（Rosenski等人， 2016年）。它优于MEGA策略，尽管他们没有考虑主要用户的存在然后，莉莲贝松等人。提出了一种用于最佳信道选择的完全分布式学习策略，称为MCTopM（Besson和Kaufmann，2018）。这是目前最先进的算法，学习最佳渠道迅速，招致最少的遗憾。然而，与音乐椅不同，MCTopM中的用户数量是已知的。在2019年，Rohit Kumar等人提出了一种基于Trekking的静态网络（TSN）算法，用于用户数量未知的机会频谱接入（Kumar等人，xxxx）。此外，TSN是一种确定性算法，需要较长的感知时间来避免碰撞。这种长的感测持续时间直接影响实际数据传输的持续时间，导致网络的低净吞吐量。此外，每个信道被预先分配有一个索引值，由所有用户共享，在顺序希望中需要最小化。最大化学习阶段中的冲突数量另一方面，不安分的多臂强盗被用于在贝叶斯中公式化动态频谱访问的问题（Zhao等人，xxxx; Liu和Zhao，2010 b; Wang和Chen，2011;Agrawal 和 Asawa ， xxxx ）和非贝叶斯（ Liu 等人，2013;Oksanen和Koivunen，2015; Tekin和Liu，2012）框架。在贝叶斯环境中，目标是在未知动态约束下，最大化关于时间的输出奖励。相比之下，一类特殊的马尔可夫动态被认为是在非贝叶斯环境。具体地说，考虑了具有正相关的两状态马尔可夫链，其中如果观察到的手臂处于良好状态，则用户获得单位奖励。值得注意的是，H. Agrawal和K. Asawa沙特国王大学学报5437Pp.m.ax100-22/100分钟i;jX¼AB一ð Þð ÞðMÞXij：¼k1;;不稳定MAB的一般情况下的最优策略是未知的。使用RMAB制定DSA有两种不同的场景，例如考虑单用户（Tekin和Liu，2011; Oksanen和Koivunen，2015）或多用户（Modi等人，2017年; Liu等人，2013年，在网？单用户策略，例如再生循环算法（RCA）（Tekin和Liu，2011），旨在尽可能早地学习用于传输的最佳信道。具体地，RCA使用UCB1策略（Auer等人，2002年）。然后，连续地选择最佳信道用于传输，直到遇到预定义的状态（好或坏），从而创建再生循环。连续选择几个时隙的信道是实现稳态所必需的。值得注意的是，RCA丢弃了在再生周期之外接收到的所有奖励，并且仅考虑这些观察结果用于在周期内进行的UCB指数计算。因此，RCA的性能不是最佳的，并且大量的奖励被丢弃。此外，预定义状态的选择对RCA的性能至关重要.此外，不同信道的状态转换的动力学是未知的，因此具有小周期的预定义状态的选择不是直接的。DSA的多用户场景可以用两个概念来表示：测试条件;例如，不同用户的行为Fig. 1. 图中的网络M= 4，N= 8。信道j的马尔可夫链的状态a。设Pj的第二大本征值表示为则fj的最小值可以定义为/min，min/j。设平稳平均报酬为16j6N通道j由lj表示，定义为lja2Sjapja，并且r表示通道f1;. ; Ng然后，lr> l>... > 1，因此，M个最佳信道的集合可以是ð1Þr2rN既可以合作也可以自私多用户场景Modi et al. （ 2017），认为自私的行为定义为lω，nlr1;lr2;. . ;lrO. 值得注意的是，渠道是不同的用户。它是Tekin和Liu（2011）的扩展，以调整参数（如a和b）的形式考虑服务质量约束。此外，用户的数量是已知的，并且为了在用户之间同步信道选择，再生周期的大小是固定的，并被称为窗口。另一方面，Liu等人（2013年）的多用户场景支持用户之间的预先约定3拟议的政策受到Liu等人（2013）的工作的启发;然而，拟议的政策更喜欢自私的行为，而不是用户之间的合作。由于预协议需要预先知道用户的数量，并且需要在用户之间进行信息交换以确定最佳信道。此外，信息交换使网络容易受到不同类型的安全威胁。因此，所提出的工作支持这样一种环境，其中用户是非合作的，并竞争访问最好的信道。用户之间不需要事先达成协议，也不需要交换信息。此外，用户甚至不知道网络中的用户数量。3. 网络模型和问题表述考虑一个由M个非合作用户组成的网络，共享同一个固定的N个独立的许可信道集，索引为：不稳定的，即信道j的状态在每个信道中连续地演变，无论用户的任何观察。此外，有源信道4的状态根据未知的马尔可夫转换规则Pj演化，而无源信道5的状态根据未知的任意随机转换规则演化。现在，用于不稳定信道的信道选择策略的参数L可以被定义为L，30r2。因此，信道选择策略（CSP）基于样本平均可用性工作。CSP在每个时隙开始时选择信道，并检查它是否可用于传输，否则等待下一个时隙，如图1所示。这是一个有四个用户和八个信道的网络的示意图，用户已经选择了信道进行传输，并且信道的可用性被标记为空闲或繁忙。例如，SU 1、SU 2和SU 4在时隙2中分别选择了信道1和信道8。虽然在时隙2中两个信道都可用，但是唯一的SU 1的传输是繁荣的。相反，SU 2的传输与SU 4重叠，导致冲突。此外，如果该信道被PU占用并且次用户在该时隙中选择该特定信道，则次用户必须等待下一时隙，例如，当SU 1在时隙5中选择信道8时。为了计算样本平均可用性，观察到的奖励在每个时隙中，j1; 2;.. . N. 的jth信道建模为一个不可简化的，Xn：1/2X i;j1i;jð2Þ；... ;Xi;j.不i;jðnÞΣΣ, whereT i;j乌姆里奇代表了离散时间，非周期性和可逆的马尔可夫链，具有两个状态，即忙碌和空闲，表示为Sj^fs0;s1g。一个即时的奖励rj;x2Sj被接收时，观察到的通道j和奖励是不同的不同状态。它被认为是，如果信道j的观测状态是空闲的，那么奖励是用户i在n个时隙中选择信道j的时隙数。因此，通道j的样本平均可用性可以计算为：PTi;jnXijk1，否则为0，因此rmax可以定义为：李俊贤r，maxr j. 此外，通道在一个Max槽宽相等且固定的开槽方式，被划分为T个时隙并且被索引为t1; 2;... T.让P j<$np j ;a;b2S jo代表的转移概率此外，在多用户场景中，当两个用户以在同一个频道上同一时间，则会发生冲突，一个人得到任何奖励。因此，为了最大化总期望回报，需要最优信道选择策略，其应当矩阵和pj<$npj;a2Sjo表示平稳分布3一种合作5在时隙t中没有被任何用户选择用于传输的信道。ð1ÞH. Agrawal和K. Asawa沙特国王大学学报5438XXð Þ陈我. - 是的Σð Þð Þ.Σ我一尽早找到最好的渠道。在n个时隙之后的总奖励可以计算为nRqn：¼sjtFjt;2t¼1j2A电流其中Fj表示在时刻t信道j上的传输的指示函数。它是一个布尔函数，即。如果反式-任务成功则为1否则为0此外，表1符号和定义。符号定义M用户数量N数量的通道t当前时隙地平线的长度信道j的马尔可夫链的状态空间通道j的转移概率矩阵pJ表示动作集，即由各种s选择的一组信道1的马尔可夫链状态s1信道jusers，并且sj表示信道j在时刻t的状态。那里是另一个性能度量，称为后悔，用于分析算法的学习能力。它可以被定义为学习最佳渠道的平均可用性方面的成本。理想奖励和实际奖励之间的差异被称为后悔，定义为：/j P的第二大特征值j一组M个信道，在时隙tXi;j n用户i在n之后信道j时隙Ti;jn用户i在之后选择信道j的时隙数n时隙j与当前状态a相关联的信道j的瞬时奖励RqnnXlωr<$j<$-X XljFjt;3Rq<$n<$n时隙后策略q下的总期望奖励Cjt在时刻t通道j的碰撞指示器第1页t¼1j2A电流在信道j上成功传输的指示符，时刻t值得注意的是，由于硬件和资源限制，次级用户在任何给定时间因此，时隙认知系统被认为是一个次要用户可以选择只有一个信道在每个时隙中的传输。因此，次要用户需要选择不太可能被主要用户占用的信道。此外，信道的平均可用性对于次用户是事先不知道的。因此，用户需要了解变化的平均可用性，以高效的方式。因此，多用户不安分的多-策略q在n个时隙后的后悔lj信道j的稳态平均回报（实际平均可用性）lωM-最佳通道集n0t到时隙t的已完成IG历元数n1t到时隙t的已完成IU时期的数量Di策略参数i不同用户在IG时期中每个通道上花费的时间0直到时隙tXiðnÞ;XðnÞ估计前两个渠道的样本平均可用性r1r2用户i分别武装强盗可以用于公式化现实世界中的动态频谱接入问题，其中老虎机的手臂被假定为网络的信道在RMAB中，臂是无休止的，即，无论任何行动，武器状态都保持在过渡状态类似地，各种信道的状态的转换是连续的因此，相比之下，将通道建模为不安分的手臂更为现实到i.i.d.怀里此外，不同信道的状态转移统计因此，用户基于样本平均可用性和数目的估计值来学习最佳信道的集合的用户。因此，所提出的信道选择策略的目标是从当前的最佳信道集合中向不同的用户分配不同的信道。因此，总的预期回报将最大化。接下来，在表1中总结了在所提出的信道选择策略中使用的各种符号和对应的定义。4. 拟议政策该策略学习环境中与时间有关的未知参数。值得注意的是，要学习未知参数，如用户数量、状态转换统计量、PJ平稳平均报酬LJ 建议的政策利用两个不同的时期，即信息收集IG和信息利用IU。具体地说，整个时间horizon分为两个时期，即。IG和IU。IG历元用于准确地表征各种信道，而IU历元负责选择当前最佳信道以最大化总期望回报。此外，IG历元负责选择每个信道足够多次以确定其质量。选择的数量应该足以区分好的和坏的通道。如果信道在质量方面相似，则将需要更多数量的选择来识别最佳信道。特别是，为了了解不安通道的质量，应进行选择L策略参数按用户i分列hit;Mi用户i在时刻t的fi<$n<$mi -n之后的最佳信道上面临的冲突数时隙Aωit=当前Mi的集合-用户i在时刻t的最佳信道在时刻t的用户i的时期指示符picki用户i选择pickth-根据当前样本平均可用性的最佳通道连续地持续预定义的周期，该预定义的周期也随时间因此，应该仔细控制历元的长度IG和IU时期的排序在学习信道质量方面起着至关重要的作用。图2中示出了信道j的时期的交织。值得注意的是，所提出的策略允许用户之间的时期序列的同步，从而导致非常少数量的冲突。开始时，每个用户选择一次每个通道，以按照步骤2-4初始化策略如算法1的步骤36-39所示，累积相应的奖励之后，需要选择下一个历元，即用于信道选择的IG或IU，在IG时期，用户通过选择每个环境参数来学习环境的未知参数。图二. ASEE-CSUE下IG和IU时期的说明RMnH. Agrawal和K. Asawa沙特国王大学学报5439××Σ2.Σ¼ ðÞ.Σ用户针对同一组频道，因此体验过多r1XXr2我通道连续多次。这是一个频道特征化阶段，用户的目标是从预定义的频道集合中识别最佳频道。用户通过随机选择信道进行传输来学习各种信道的平均可用性。如果任何用户面临冲突，那么他们忽略它，并在预定义数量的时隙内继续在该特定信道上发送。特别地，每个用户选择4n0个时隙的每个信道，其中n0是完成的IG时期的数量，如如步骤26-29所示，Mi的值递增1，并且丢弃迄今为止当前Mi-最佳信道上的冲突数量，由下式表示：可以定义如下：nfi;4t<$1j2Aωit根据步骤15-18。如果信道总数为N，则IG历元的长度为N4n0时隙。值得注意的是，IG历元的频率和大小取决于信道质量的相似性换句话说，如果信道在质量方面相似，则用户必须在IG时期花费更多时间来准确地识别最佳信道。最佳信道的准确识别另一方面，在IU时期，用户选择最佳信道进行传输。为了识别最佳信道，用户计算所有信道的样本平均可用性，然后识别当前M个最佳信道的集合，其中M是用户的数量。然而，M的值在开始时是未知的，因此每个用户基于到目前为止在当前最佳信道集合上观察到的冲突数量来估计M的值。此外，用户不需要公开他们在网络中的存在，并且允许他们以真正分布式的方式访问网络资源。最初，M的估计值为1，并且每个用户关于时间更新它每个用户的M估计值i由Mi表示。16M i6N值得注意的是，用户记录了所有哪里表示碰撞的指示函数，其值如果在时刻t在信道j上存在冲突，则为1，否则为0。类似地，IUt表示历元的指示函数，如果当前时刻t属于IU历元，则IUt的值为1，否则为0。此外，Aωi表示电流的集合Mi- 由用户i估计的在时刻t的最佳信道。接下来，在计算所有信道的样本平均可用性之后，使用估计值Mi来识别Mi最佳信道。然后，每个用户i随机选择Mi个最佳信道中的一个用于传输。如果它在所选通道上遇到冲突，则再次运行-如步骤30-31所示，在随后的时隙中从Mi此外，该时期的长度是2 4n1时隙，其中n1是结束的IU时期的数量。此外，在结束IU或IG历元之后，需要选择下一历元基本上，开始IU或IG历元的决定换句话说，如果用户i在IG历元中对每个信道的选择次数高于Dilog n，即Tilogn> Dilog n，其中Tilogn> Dilogn。4n0-1n= 3，Di可以到目前为止，他们在IU时期的当前最佳信道集合上观察到的冲突，与用户忽略的IG0被定义为8>。4L0;Xin-ðnÞ碰撞。碰撞的发生表明<我我r1r2网络中的多个用户基本上，在准确估计信道我，Xr1n-Xr2n>：logn;Xi简体中文陈文辉;ð5Þ需要增加当前值的冲突其中X是X和X前两个样本M. 从本质上讲，各种用户r1r2我我H. Agrawal和K. Asawa沙特国王大学学报5440我与冲突阈值h1相比，其中hin;Mixlogn。碰撞阈值是经过时间的函数时隙M in和当前估计Mi。如果发生碰撞在当前Mi-最佳信道上大于阈值，则H. Agrawal和K. Asawa沙特国王大学学报5441信道分别由用户i估计值得注意的是，如果改变-nels在质量方面是相似的，最好的通道，需要更多的IG时期，导致小的失去了遗憾。接下来，详细描述ASEE-CSUE。在算法1中给出。H. Agrawal和K. Asawa沙特国王大学学报54425. 数值结果与分析在这一部分中，ASEE-CSUE的实证性能进行了数值分析的框架下的动态频谱接入。为了模拟各种信道的不稳定性，使用具有两种状态（即空闲和忙碌）的Gilbert-Elliot信道模型。如果所选信道的状态为空闲，则观察到的奖励为1，否则为0此外，两套完全不同的如遗憾、6次碰撞、切换成本和公平性。此外，第一集合表示标准MAB场景，而第二集合表示不同信道的突发性质。此外，为了评估ASEE-CSUE性能的一致性，各种网络参数的值，如用户数，信道数和它们各自的比率分别从1到M，1到N和0.25到1变化。表示两种不同情景的被考虑用于评估各种性能指标，6根据文献，作者认为遗憾的概念较弱。H. Agrawal和K. Asawa沙特国王大学学报5443011001D简体中文¼¼10图三. 不同M值下两种不同情况下的碰撞分析。5.1. 仿真设置图中所示的网络模型。图1是用于评估信道选择策略的性能的图示。网络由{1.. . 8}个用户和{1.. . 8.信道与其核心在第一种情况下，响应转换概率为PI 四分之一半0：1;[001 pdf 1st-31files]（001pdf 1st-31files）1/20：9 10：7 90：6 90：5 90：5 100： 41; 00： 31; 00： 21]。此外，还计算了二阶第二种情况是PII1/20：01;0：01;0：02;0：04;0：06;0：09;0：09;0：08]，II06：03：04：05：05：05：05：03：02]。此外，主网络的每个信道的状态作为具有上述定义的转移概率的马尔可夫链而演变在每个时隙开始时，用户选择一个信道进行监听，如果信道空闲，则发送并获得相应的奖励。每个蒙特卡罗实验的长度是10000个时隙，并且在随后的部分中示出的每个数值结果是对1000个这样的独立实验的分析。策略参数it7的值由每个用户根据（5）在运行中独立地估计，而阈值常数c被认为是300，由交叉验证确定。为了简化的数值分析，完美的感知在次要用户被认为是。此外，衰落环境在整个仿真期间保持此外，如果多个用户同时在同一信道上传输，则会发生冲突，并且没有传输通过。5.2. 结果在两组不同的转换概率下，评估了不同数量的用户和不同数量的信道对所提出的策略的影响，并在图2和图3中示出。 3-12，95% 置信区间（CI）作为一致性的衡量标准。5.2.1. 不同数量的用户为了评估性能，网络中活跃用户的存在从M1到N变化，但是信道的数量保持固定。作为示范，本文研究了M3、 4、 5、 6和N8首先，分析了各种用户面临的冲突。从图3a观察到，在两种情况下，冲突随着用户的数量单调增加，因为没有信道的预分配，并且用户之间没有协作来协商不同信道的选择。此外，不同用户的信道选择是一致的，信道的平均可用性和用户数是未知的，并且对于不同的用户，估计值可能不同协议-7为求简单，把它当作十。见图4。针对M的各种值的两种不同场景中的信道选择。图五. 不同M值下两种不同情景下的标准化后悔。因此，用户可能在不同的时隙执行IG或IU时期，导致更多的冲突。然而，从图3b中可以观察到，冲突的数量显著减少，因为用户可以了解关于时间的最佳信道并选择最佳信道之一，特别是在第一种情况下。然而，由于IG历元，在5000个时隙之后，对于M另一方面，第二场景中的平均碰撞次数低于第一场景，因为各种用户对最佳信道的学习不太准确。最佳信道的对应集合包含次优信道，并且对于不同的用户是不同的因此，用户选择PH. Agrawal和K. Asawa沙特国王大学学报5444¼¼见图6。不同M值下两种不同场景下的信道切换概率。见图7。不同M值下两种不同场景下的信道分配公平性。见图8。不同N值下两种不同情景下的标准化后悔。见图9。不同N值下两种不同场景下的碰撞分析。次优信道并且面临较少的冲突。因此，M-最佳信道选择在第一场景中比在第二场景中更高。第二种情况，如图所示。四、此外，ASEE-CSUE可以表征各种信道，并快速准确地估计用户数量，如图4所示。用户在超过90%的总时隙中选择M个最佳信道。因此，找到传播机会的概率非常高。此外，图5中描绘了所提出的策略在后悔方面的效率。研究发现，由于IG时代的存在，后悔的增长在开始阶段是迅速的。之后，后悔在IU时期缓慢增长，如图5中的第一个场景所示。因此，可以得出结论，ASEE-CSUE可以学习最佳信道，并准确估计用户数，以var。M.由于IG时期，在M3的9000个时隙之后和M6的5000个时隙之后，遗憾有一个小的增长。相反，观察到ASEE-CSUE的性能在第二场景中不是最佳的，因为第二场景由突发信道组成。因此，应该在每个时隙之后更新最佳信道的集合，而不是等待整个时期的完成。但是，如果最佳信道的集合不断更新并且信道不稳定，则问题变得棘手。因此，最佳信道的集合可以由几个次优信道组成，源于次优信道的选择。因此，在第二种情况下，与第一种情况相比，遗憾的激增略高。H. Agrawal和K. Asawa沙特国王大学学报54451/4fg¼¼¼¼见图10。不同N和M值下两种不同情景下的标准化后悔。见图11。不同N和M值的两种不同情况下的碰撞分析。见图12。对于N和M的各种值的两种不同场景中的信道选择。接着，将用户从一个信道切换到另一个信道的次数称为信道切换概率（P（CS））。此外，P（CS）影响吞吐量，因此P（CS）应尽可能低。从图6a观察到，P（CS）在两种情况下都相当低，具体地，它小于总时隙的2%。虽然P（CS）在开始时很高，但由于早期IG时期;之后，P（CS）随时间迅速下降，如图所示。 6 b. 这意味着各种各样的用户此外，仅在IG时期中或在IU时期中的冲突的情况下需要信道切换。此外，每个用户都应该有平等的机会访问最好的信道之一，被定义为信道分配的公平性。而且，每个信道选择策略都有责任加速每个用户公平地接入最佳信道。此外，所提出的政策提供平等的机会，每个用户选择最佳的信道，如图所示。7.第一次会议。具体地，可以看出，当所提出的信道选择策略独立执行1000次时，每个用户获得近似相等的机会来选择最佳信道之一因此，建议的政策可以实现公平分配最好的信道给不同的用户。5.2.2. 不同数量的通道通道数量从N 2到N 8其中M是固定到两个。为了说明，N二、三、四、五考虑了第一、在图8中分析了增加信道数量的影响，而用户数量保持固定。每个附加信道因此，最差信道的数量增加，并且最佳和最差信道的质量之间的差距也增加。随着信道数量的增加，IG时期的长度也增加。因此，在所有情况下，遗憾随着信道的数量单调增加，类似地，图9评估了两种不同情况下用户面临的冲突数量。冲突随着信道的数量而增加，尽管冲突小于总时隙的1%。此外，还考虑了N=M为2的情况下N和M的不同值。此外，每个额外的信道据观察，后悔随着用户和渠道的数量而增加，如图所示。10个。此外，在初始IG时期之后，存在IG和IU时期的多次出现例如，在N4和N5的6000和8000时隙之后，由于执行IG时期之后是IU时期，因此遗憾略有增长。更重要的是，从图中可以看出。如图5、图8和图10所示，其中比率N=M在2左右的情况最适合于机会性地学习和访问频谱。此外，冲突小于总时隙的2%，如图11所示，并且M-最佳信道选择大于总时隙的90%，如图12所示。 12个。5.2.3. 性能比较存在支持具有不同信道的不稳定性质的多用户设置的各种信道选择策略，例如RUCB（Liu等人， 2013）、DSEE-CSDN（Agrawal和Asawa，xxxx）和RQoS-UCB（Modi等人，2017年）。虽然，这些策略假设了关于网络的先验信息，例如用户的数量、前两个信道的平均可用性以及用户之间的协作以访问最佳信道之一。因此，DSEE和RUCB中的后悔率低于ASEE-CSUE。然而，ASEE-CSUE支持完全分散的设置，用户甚至不知道周围的环境。不过，用户可以访问最好的渠道。此外，在支持未知数量的用户并且不需要用户之间的任何预先协议的马尔可夫环境中，缺乏这样的动态策略。本文的工作可以很好地填补这一空白。此外，拟议的政策支持所有类型的渠道，如不安，休息和i.i.d.。因此，为了分析所提出的策略的比较性能，在类似的环境设置中，i.i.d.自然是考虑到的。自从i.i. d是不安分奖励模型的一个特例，因此ASEE-CSUE支持i.i.d.奖励模式也是。在不同的信道上，从而不会引起任何进一步的冲突。具体来说，目前最先进的i.i. d政策。H. Agrawal和K. Asawa沙特国王大学学报5446FG环境，称为音乐椅（MC）（Rosenski等人， 2016年，被认为是比较。在MC中，用户的数量是未知的，没有预先的协议，用户之间没有协作来访问最佳信道。虽然MC具有带有固定数量时隙的单组探索和利用时期，但是首先，发生探索时期的执行。在计算用户数量后，开始利用，MC不会产生任何遗憾在剥削时代。探索时期是用来学习的平均可用性不同的信道使用奖励统计和使用碰撞统计的用户数。或者，对拟议政策的探索是一种动态现象。IG历元的长度随时间和IG的顺序而增加，频率随时间和IG的顺序而减少，IU历元是自适应的，而不是预先固定的。此外，IU时期的奖励统计也被用来学习不同信道的质量。因此，所提出的策略也可以容忍变化的网络条件。此外， MC 的表现优于 TDFS （ Liu 和 Zhao ， 2010 a ）， qrand（Anandkumar等人，2011）和MEGA（Avner和Mannor，2014），尽管TSN（Kumar等人，xxxx）显示出比MC更好的结果。然而，TSN需要相当长的时间来感知主用户和次用户的传输。这种长的感测持续时间避免了过多的冲突，尽管它减少了数据传输的持续时间。此外，在性能比较中没有考虑实际数据传输的减少。此外，在用户之间存在信道索引值的预分配，用于顺序希望减少冲突的数量。因此，TSN的性能优于MC，尽管TSN具有很强的假设性。因此，建议的政策进行比较与MC具有类似的环境设置。MC的模拟参数已被用来评估ASEE-CSUE的比较性能。例如，地平线的长度是10000个时隙，信道的数量是8个，并且对于网络中的用户数量考虑不同的值，如2;3; 4;具体地，MC的初始探索阶段的长度被认为是3000个时隙。此外，存在各种通道的平均可用性的两个不同实例。第一个实例是标准的MAB场景，的渠道是定义As，l1 1/4 f0：1; 0： 2; 0： 3;0： 4; 0： 5; 0： 6; 0： 7; 0： 8g，而在第二种情况下，其定义为，121/4 f0： 25; 0： 3; 0： 35; 0： 4; 0： 45; 0： 5; 0： 55; 0： 6g。值得注意的是，在第二种情况下，在平均可用性方面比较相似，因为差异仅为0.05。因此，学习最佳信道是相当困难的;因此，用户数量的估计也受到影响。此外，为了证明所提出的政策的一致性，每个实验进行了1000次。因此，每个图表示每个实验的平均值和标准差的观察结果。首先，分析了ASEE和CSUE在后悔方面的比较表现，如图所示。 13岁值得注意的是，图13示出了在所有情况下与MC相比，ASEE-CSUE的性能要好得多。这是因为MC需要更多的时隙来学习最佳信道。此外，MC在评估用户数量之前经历了大量的冲突。具体地，图13a示出了所提出的策略仅需要1000个时隙来估计用户的数量，并且图13岁在两种不同的情况下，不同的M值，MC和ASEE-CSUE之间的累积遗憾比较。图十四岁比较了不同M值下第一种情况下MC与ASEE-CSUE的平均碰撞次数。H. Agrawal和K. Asawa沙特国王大学学报5445þ学习最好的渠道然而，为了准确地学习最佳信道的集合，MC需要3000个时隙。尽管如此，MC和ASEE-CSUE没有进一步的遗憾，特别是在最初的探索时期之后的第一个阶段。然而，ASEE-CSUE在6000个时隙之后由于IG时期而积累了一些遗憾，特别是当用户数为2时。然而，ASEE-CSUE的总体累积遗憾远远低于MC。同样，ASEE-CSUE在第二种情况下积累的后悔也比MC少。值得注意的是，图13b显示了第二种情况下ASEE-CSUE和MC的比较性能这是认识到，学习最佳渠道与第一种情况相比，在第二种情况下减少了。这是因为通道是相似的;具体地说，通道j和通道j1之间的差异仅为0.05。接下来，分析了由所提出的策略和MC引起的平均冲突数，并在图中表示。 14 a. MC在初始探索阶段会引发大量的碰撞由于用户在初始阶段随机地从一个信道跳到另一个信道，导致更高数量的冲突。另一方面，在ASEE-CSUE中，用户在初始IG时期中经历冲突。虽然碰撞减少非常迅速有关的时间，如图所示。 14 b. 值得注意的是，ASEE-CSUE在以下方面优于MC图15.比较了不同M值下第二种情况下MC与ASEE-CSUE的平均碰撞次数。图十六岁比较了不同M值时第一种情况下MC和ASEE-CSUE之间信道切换的概率。图17.在第二种情况下，比较了不同M值时MC和ASEE-CSUE之间的信道切换概率。H. Agrawal和K. Asawa沙特国王大学学报5446图18.比较了不同M值下MC和ASEE-CSUE在两种不同情况下的信道选择。在第二种情况下也是如此，如图15所示。此外，为了学习最佳信道，MC在探索阶段采用随机跳变的过程。在探索阶段，每个用户对每个信道的选择次数因此，MC在探索期间经历了大量的切换因

下载后可阅读完整内容，剩余1页未读，立即下载