认知无线电动态频谱接入：多用户多臂Bandit分布式算法

26 浏览量更新于2024-06-17 收藏 1.93MB PDF 举报

"这篇学术论文发表于沙特国王大学学报，主要探讨了动态频谱接入中的一种新型分布式学习算法——基于多用户多臂不安分Bandit的同步历元动态频谱接入分布式学习算法。该算法适用于认知无线电网络，旨在优化信道选择策略，提高效率并降低遗憾。正文: 在无线通信领域，动态频谱接入（DSA）是一种关键的技术，特别是在智能电网、物联网以及设备到设备通信中。DSA允许用户在多个信道之间动态地切换以利用空闲的频谱资源。然而，由于信道状态的变化和未知环境，有效选择信道成为了一个挑战。传统的多臂强盗（MAB）问题无法完全解决这个问题，因为其假设是奖励独立且与时间无关或遵循马尔可夫过程。本文引入了不安分的多臂强盗（RMAB）模型，它扩展了MAB问题，考虑了信道状态随时间变化的特性。在RMAB中，信道的状态按照未知的马尔可夫链演化，有的信道（主动信道）会提供奖励，而其他信道（被动信道）则可能产生随机的奖励条件。用户的目标是选择那些长期平均性能最好的信道，以最小化遗憾，即未选择最优信道的机会成本。为了应对这一挑战，论文提出了自适应信道探索与利用排序（ASE-CSUE）策略。该策略通过精心设计的时间段顺序，实现了遗憾值随时间的对数级增长，提高了信道选择的效率。ASE-CSUE策略能够在保证低冲突率（小于7%）、低切换代价（小于2%）的同时，确保最佳信道选择率超过90%。通过模拟实验，论文验证了ASE-CSUE算法的有效性，证明了其在动态频谱接入中的优越性能。这一工作不仅提供了理论上的分析，还给出了实际应用的潜力，对于未来分布式网络和认知无线电系统的设计有着重要的指导意义。总结来说，这篇论文为动态频谱接入提供了新的分布式学习算法，该算法基于多用户多臂不安分Bandit模型，通过自适应的探索和利用策略，有效地解决了在未知环境下的信道选择问题，提升了频谱利用率，并且展示了良好的性能指标。这为未来无线通信网络的优化提供了新的思路和方法。"

H. Agrawal

和

K. Asawa

沙特国王大学学报

5437

p.m.

100

分钟

;

一

ð Þ

ðMÞ

：

;

不稳定

MAB

的一般情况下的最优策略是未知的。

使用RMAB制定DSA有两种不同的场景，例如考虑单用户（Tekin和

Liu， 2011; Oksanen和Koivunen， 2015）或多用户（ Modi等人，

2017年; Liu等人，2013年，在网？单用户策略，例如再生循环算法

（RCA）（Tekin和Liu，2011），旨在尽可能早地学习用于传输的最

佳信道。具体地，RCA使用UCB

策略（Auer等人，2002年）。然后，

连续地选择最佳信道用于传输，直到遇到预定义的状态（

好

或

坏

），从

而创建再生循环。连续选择几个时隙的信道是实现稳态所必需的。值得

注意的是，RCA丢弃了在再生周期之外接收到的所有奖励，并且仅考虑

这些观察结果用于在周期内进行的UCB指数计算。因此，RCA的性能

不是最佳的，并且大量的奖励被丢弃。此外，预定义状态的选择对RCA

的性能至关重要.此外，不同信道的状态转换的动力学是未知的，因此具

有小周期的预定义状态的选择不是直接的。

DSA

的多用户场景可以用两个概念来表示：

测试条件

;

例如，不同用户的行为

Fig. 1.

图中的网络

M= 4

，

N= 8

。

信道

的马尔可夫链的状态

。设

的第二大本征值表示为则f

的最小

值可以

定义为/

min

，

min

。设平稳平均报酬为

6j6N

通道

j由

表示

，

定义

为

，

并且

表示通道

;. ;

然

后，

...

，因此，

个最佳信道的集合可以是

既可以合作也可以自私多用户场景

Modi et al. （ 2017），认为自私的行为

定义

为

，

;

;. . ;

值得注意

的是，

渠道

是

不同的用户。它是Tekin和Liu（2011）的扩展，以调整参数（如a和

）

的形式考虑服务质量约束。此外，用户的数量是已知的，并且为了

在用户之间同步信道选择，再生周期的大小是固定的，并被称为

窗口

。

另一方面，Liu等人（2013年）的多用户场景支持用户之间的预先约定

拟议的政策受到

Liu

等人（

2013

）的工作的启发

;

然而，拟议的政

策更喜欢自私的行为，而不是用户之间的合作。由于预协议需要预先

知道用户的数量，并且需要在用户之间进行信息交换以确定最佳信

道。此外，信息交换使网络容易受到不同类型的安全威胁。因此，

所提出的工作支持这样一种环境，其中用户是非合作的，并竞争访问

最好的信道。用户之间不需要事先达成协议，也不需要交换信息。

此外，用户甚至不知道网络中的用户数量。

网络模型和问题表述

考虑一个由

个

非合作用户组成的网络，共享同一个固定的

个

独

立的许可信道集，索引为：

不稳定的，即信道

的状态在每个信道中连续地演变，

无论用户的任何观察。此外，有源信道

的状态根据未知的马尔可夫

转换规则

演化，而无源信道

的状态根据未知的任意随机转换规则演

化。现在，用于不稳定信道的信道选择策略的参数

可以被定义为

，

。

因此，信道选择策略（CSP）基于样本平均可用性工作。CSP在每

个时隙开始时选择信道，并检查它是否可用于传输，否则等待下一个时

隙，如图1所示。这是一个有四个用户和八个信道的网络的示意图，用

户已经选择了信道进行传输，并且信道的可用性被标记为空闲或繁忙。

例如，SU 1、SU 2和SU 4在时隙2中分别选择了信道1和信道8。虽然

在时隙2中两个信道都可用，但是唯一的SU 1的传输是繁荣的。相反，

SU 2的传输与SU 4重叠，导致冲突。此外，如果该信道被PU占用并且

次用户在该时隙中选择该特定信道，则次用户必须等待下一时隙，例

如，当SU 1在时隙5中选择信道8时。

为了计算样本平均可用性，观察到的奖励

在每个时隙中，

j1;

;

.. . N. 的 j

信道建模为一个不可简化的，

：1

i;j

ð2Þ；... ;

;

不

i;j

ðnÞ

ΣΣ

, whereT

i;j

乌姆里奇代表了

离散时间，非周期性和可逆的马尔可夫链，具有两个状态，即

忙碌

和

空闲

，表示为

^fs

;

。一个即时的奖励

;

被接收时，观察到

的通道

和奖励是不同的不同状态。它被认为是，如果信道

的观测状

态是

空闲的

，那么奖励是

用户

在

个时隙中选择信道

的时隙数。因此，通道

的样本平均可用

性可以计算为：

;

，否则为

，因此

max

可以定义为

：

李

俊

贤

，

max

此外，通道在一个

Max

槽宽相等且固定的开槽方式，

被划分为

个时隙并且被索引为

t 1

;

;...

让 P

;a;b2S

代表的转移概率

此外，在多用户场景中，当两个用户以

在同一个频道上同一时间，则会发生冲突，

一个人得到任何奖励。因此，为了最大化总期望回报，需要最优信道选择

策略，其应当

矩阵和

;

表示平稳分布

一种合作

在时隙

中没有被任何用户选择用于传输的信道。

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

认知无线电动态频谱接入：多用户多臂Bandit分布式算法

一种分布式协作频谱感知技术

认知无线电动态频谱接入：多用户多臂不安分Bandit分布式算法

基于Bandit反馈的分布式在线对偶平均算法.pdf

Multi-armed-Bandit-Algorithms:Golang中的多臂Bandit算法

bandit:Clojure中的多臂强盗算法

bandit:Java中的Bandit算法和测试框架

bandit:多臂匪（MAB）问题的算法

基于多臂Bandit的矩阵分解推荐系统_BanditMF Multi-Armed Bandit Based Matrix Fac

用于在线学习的Bandit算法模拟___下载.zip

go_bandit_sample:golang实现bandit算法

最新资源