在线推荐与公平性：D-UCB与F-UCB算法探索

63 浏览量更新于2024-06-19 收藏 855KB PDF 举报

"这篇论文研究了在线推荐系统中如何实现公平性和效率的平衡，特别是针对个体公平性的问题。作者提出了基于因果推理的D-UCB和F-UCB算法，以减少探索成本并确保用户之间的公平待遇。" 在线推荐系统在现代生活中无处不在，它们通过学习用户的行为和偏好来提供个性化的服务。然而，这些系统可能无意中导致不公平的结果，因为某些用户群体可能因为敏感属性（如性别、种族）而受到不同的待遇。这篇论文关注的是在在线推荐场景下，如何确保个体公平性，即拥有相似特征的用户获得相似的推荐结果。在传统的多臂强盗问题（Bandit Problem）中，目标是最大化累积奖励。然而，当考虑公平性时，问题变得更加复杂。黄文、张璐和吴新涛通过引入因果推理，提出了一种名为D-UCB的算法，它利用d-分离概念来减少探索的复杂性，从而降低累积遗憾。d-分离是一种判断变量间因果关系的工具，可以帮助识别哪些干预可以减少不必要的探索。进一步，他们构建了公平因果强盗（F-UCB）算法，以实现在最大化期望回报的同时，确保反事实的个人公平。反事实公平指的是如果用户处于不同的条件或环境下，他们应得到相似的推荐结果。F-UCB算法采用软干预策略，模拟不同手臂选择对用户的影响，从而在保持推荐效率的同时，实现用户端的公平性。论文中提到，已有的公平性研究大多集中在静态的推荐场景或特定类型的强盗问题，而在线推荐的动态性和用户到达的随机性使得个体公平性更具挑战性。与以往工作相比，如[19]提出的精英公平，F-UCB算法更专注于用户端的公平性，而不仅仅是推荐算法的内部公平性。此外，作者通过理论分析和实验验证了D-UCB和F-UCB算法的有效性。实验结果表明，这些算法能够在保证公平性的前提下，有效地平衡推荐系统的效率和公平性。尽管有一些工作试图在强盗问题中实现用户侧的公平性，如[16]提出的组级公平性方法，但它们并未深入到个体层面，也没有利用因果推理来解决这一问题。这篇论文为在线推荐系统中的公平性问题提供了一个新的视角，通过因果推理和创新的算法设计，为实现个体公平性和优化推荐性能找到了一种潜在的解决方案。这为未来的研究开辟了新的道路，鼓励在更广泛的推荐系统应用中探索和实施公平原则。

+v：mala2255获取更多论

文

不

√

| |

√√

32 log

（

/δ

）

∼

∪

∈

∼

（

）

不

算法1D-UCB：基于d-分离的

1：输入：策略空间λ，置信水平参数δ，具有域知识的原始因果图2：根据域空间找到具有最小

子集Z的d-分离集W

：对于

t = 1

，

...

，没

做

4：获得最优策略π

，如下等式：（四）、

5：采取行动a

<$π

，观察一个实值收益r

和一个d-分离集值w

。

：更新

所有w ∈ W的

（t）

，如下等式

（

七）、

采取该政策后，我们将对r

和w

有新的观察。然后相应地更新样本均值估计量：

（

）

第

章

其中T

（

）

101

（七）

我们假设d-分离集

的选择会显著影响D-UCB的后悔。为此，我们分析了累积后悔

的上

界。下面的定理表明，遗憾上界依赖于d-分离集W的域大小。

定理1（D-UCB的后悔界）.

给定一个因果图

，其概率至少为

2δT

|W|−

exp

（−

log

（

）

，则

D-UCB

的遗憾被限制为

≤ |W|

T log

（

）

log

（

）

T log

（

1/δ

）

哪里

|W|

是

集合

的定义域空间。

证明素描。

定理1的证明遵循UCB算法的一般后悔分析框架[1]。通过利用期望回报的d-分离

分解，我们将累积后悔分为两项并分别绑定它们。由于D-UCB算法在对探索-利用策略引起

的不确定性进行求和和约束时需要遍历的项较少，因此与原UCB算法和C-UCB算法相比，

D-UCB算法的遗憾度更低通过设置

，很容易表明

D-UCB

算法达到

∞

（

）

re gretbound.

有关证明详情，请

算法

示出了

D-UCB

的伪代码在第

行中，根据定理

，我们首先

确定具有最小域空间的

d-分离集W。在第4行中，我们利用因果图

和时间

之前的观测数据来找到最优策略

= arg

max

[UCB

（

）

]

。在第

行中，我们采取行动a

并观察到实值收益

，在第

行

中，我们更新了

用

和

的观测数据。

备注。确定最小d-分离集已经在因果推理中得到了很好的研究[13]。我们利用寻找最小成本

分离器的算法[35]来识别W。发现过程通常需要因果图的完整知识。然而，在给定要使用的

d-分离集以及相关联的条件分布P（

z x

，

）的情况下，算法的其余部分在没有因果图信息

的情况下也会工作得此外，已知P（z ×

，

）的假设遵循最近的因果强盗研究工作。将因果

强盗框架推广到部分/完全未知的因果图设置是一项更具挑战性但重要得多的任务。最近的

工作[26]试图推广基于因果树/森林结构的因果强盗算法。

为了更好地说明因果强盗算法的长期后悔，假设集合A U I包括与奖励相关的N个变量，并

且d-分离集合

包括n个变量。如果每个

变量都涉及

个不同

的

值，则确定性策略

的

数量可以

高达

，

传统的强盗算法，导致一个

（

2NT

）的遗憾界。另一方面，

因果算法利用d-分离集W的知识并实现O（2

T）遗憾，

这意味着如果n N，则遗憾界显著减小。如果手臂候选者的数量远小于

的域空间，则我们

的边界分析可以使用与手臂候选者相对应的W的子空间来容易地

剩余24页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

在线推荐与公平性：D-UCB与F-UCB算法探索

Python基于因果推断方法的推荐系统反事实公平性研究.zip

论文代码“推荐中的个性化反事实公平性”（又名“基于因果概念的个性化公平性”）_Python_下载.zip

论文研究-基于贝叶斯网络的民航突发事件因果关系分析方法研究.pdf

因果算法提升软件测试的什么

因果结构学习算法-PC算法

因果推理pc算法是什么

因果推断的研究范式什么意思

因果推断技术最新的发展趋势

详细描述因果发现国内外研究现状

因果推断的GES和PC算法

最新资源