算法1D-UCB:基于d-分离的
1:输入:策略空间λ,置信水平参数δ,具有域知识的原始因果图2:根据域空间找到具有最小
子集Z的d-分离集W
3
:对于
t = 1
,
2
,
3
,
...
, 没
做
4:获得最优策略π
t
,如下等式:(四)、
5:采取行动a
t
<$π
t
,观察一个实值收益r
t
和一个d-分离集值w
t
。
6
: 更新
所有w ∈ W的
µ
w
(t)
,如下等式
(
七)、
采取该政策后,我们将对r
t
和w
t
有新的观察。然后相应地更新样本均值估计量:
我们假设d-分离集
W
的选择会显著影响D-UCB的后悔。为此,我们分析了累积后悔
T
的上
界。下面的定理表明,遗憾上界依赖于d-分离集W的域大小。
定理1(D-UCB的后悔界).
给定一个因果图
G
,其概率至 少 为
1
-
2δT
|W|−
exp
(−
|
W
|
log
(
T
)
)
,则
D-UCB
的遗憾被限制为
R
T
≤ |W|
T log
(
T
)
log
(
T
)
+
32
|
W
|
T log
(
1/δ
)
哪里
|W|
是
集合
W
的定义域空间。
证明素描。
定理1的证明遵循UCB算法的一般后悔分析框架[1]。通过利用期望回报的d-分离
分解,我们将累积后悔分为两项并分别绑定它们。由于D-UCB算法在对探索-利用策略引起
的不确定性进行求和和约束时需要遍历的项较少,因此与原UCB算法和C-UCB算法相比,
D-UCB算法的遗憾度更低通过设置
δ
=
1
/
T2
,很容易表明
D-UCB
算法达到
O
∞
(
W
T
)
re gretbound.
有关证明详情,请
算法
1
示出了
D-UCB
的伪代码 在第
2
行中,根据定理
1
,我们首先
确定具有最小域空间的
d-分离集W。 在第4行中,我们利用因果图
和时间
t
之前的观测数据来找到最优策略
π
t
= arg
max
π
<$
E
a
π
[UCB
a
(
t
)
]
。在第
5
行中,我们采取行动a
t
π
t
并观察到实值收益
r
t
,在第
6
行
中,我们更新了
用
a
t
和
r
t
的观测数据。
备注。 确定最小d-分离集已经在因果推理中得到了很好的研究[13]。我们利用寻找最小成本
分离器的算法[35]来识别W。发现过程通常需要因果图的完整知识。然而,在给定要使用的
d-分离集以及相关联的条件分布P(
z x
t
,
a
)的情况下,算法的其余部分在没有因果图信息
的情况下也会工作得此外,已知P(z ×
t
,
a
)的假设遵循最近的因果强盗研究工作。将因果
强盗框架推广到部分/完全未知的因果图设置是一项更具挑战性但重要得多的任务。最近的
工作[26]试图推广基于因果树/森林结构的因果强盗算法。
为了更好地说明因果强盗算法的长期后悔,假设集合A U I包括与奖励相关的N个变量,并
且d-分离集合
W
包括n个变量。如果每个
变量都涉及
2
个不同
的
值,则确定性策略
的
数量可以
高达
2
N
,
传统的强盗算法,导致一个
O
(
2NT
)的遗憾界。另一方面,
因果算法利用d-分离集W的知识并实现O(2
n
T)遗憾,
这意味着如果n N,则遗憾界显著减小。如果手臂候选者的数量远小于
W
的域空间,则我们
的边界分析可以使用与手臂候选者相对应的W的子空间来容易地