图神经网络的数据偏见建模和减轻方法

51 浏览量更新于2023-11-29 收藏 13.2MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

these networks, various graph mining algorithms have been pro-posed. In particular, the recently emerged Graph Neural Networks(GNNs) have demonstrated superior capability of analyzing attrib-uted networks in various tasks, such as node classification [28, 55]and link prediction [29, 63]. Despite the superior performance ofGNNs, they usually do not consider fairness issues in the learn-ing process [10]. Extensive research efforts have shown that manyrecently proposed GNNs [10, 49, 59] could make biased decisionstowards certain demographic groups determined by sensitive at-tributes such as gender [16] and political ideology [42]. For example,e-commerce platforms generate a huge amount of user activity data,and such data is often constructed as a large attributed network inwhich entities (e.g., buyers, sellers, and products) are nodes whileactivities between entities (e.g.., purchasing and reviewing) areedges. To prevent potential losses, fraud entities (e.g., manipulatedreviews and fake buyers) need to be identified on these platforms,and GNNs have become the prevalent solution to achieve suchgoal [12, 37]. Nevertheless, GNNs may have the risk of using sen-sitive information (e.g., race and gender) to identify fraud entities,yielding inevitable discrimination. Therefore, it is a crucial problemto mitigate bias in these network-based applications.Various efforts have been made to mitigate the bias exhibited ingraph mining algorithms. For example, in online social networks,random walk algorithms can be modified via improving the ap-pearance rate of minorities [7, 47]; adversarial learning is anotherpopular approach, which aims to learn node embeddings that arenot distinguishable on sensitive attributes [6, 40]. Some recent ef-forts have also been made to mitigate bias in the outcome of GNNs.For example, adversarial learning can also be adapted to GNNs foroutcome bias mitigation [10]. Nevertheless, existing approaches todebias GNN outcomes are tailored for a specific GNN model on acertain downstream task. In practical scenarios, different applica-tions could adopt different GNN variants [19, 28], and it is costly totrain and fine-tune the debiasing approaches based on diverse GNNbackbones. As a consequence, to mitigate bias more efficiently fordifferent GNNs and tasks, developing a one-size-fits-all approachbecomes highly desired. Then the question is: how can we per-form debiasing regardless of specific GNNs and downstream tasks?Considering that a model trained on biased datasets also tends tobe biased [5, 10, 62], directly debiasing the dataset itself can be astraightforward solution. There are already debiasing approachesmodifying original datasets via perturbing data distributions orreweighting the data points in the dataset [8, 25, 57]. These ap-proaches obtain less biased datasets, which help to mitigate biasin learning algorithms. In this regard, considering that debiasingfor different GNNs is costly, it is also desired to mitigate the bias inattributed networks before they are fed into GNNs.12590EDITS：建模和减轻图神经网络的数据偏见0Yushun Dong 1，Ninghao Liu 2，Brian Jalaian 3，Jundong Li 101 弗吉尼亚大学，2 佐治亚大学，3 美国陆军研究实验室{yd6eb,jundong}@virginia.edu,ninghao.liu@uga.edu,brian.a.jalaian.civ@mail.mil0摘要0图神经网络（GNN）在分析各种应用中的属性网络方面表现出优越性能。然而，在在线欺诈检测等高风险决策场景中，人们越来越关注GNN可能对某些人口群体做出歧视性决策。尽管最近有关公平GNN的研究已经涌现，但这些工作都是针对特定的GNN模型进行的。然而，已经为不同应用提出了无数种GNN变体，为每个特定的GNN架构调整现有的去偏算法成本很高。与去偏GNN模型的现有工作不同，我们的目标是通过提供更少偏见数据来去偏输入的属性网络，从而实现更公平的GNN。具体而言，我们提出了新的定义和度量方法来衡量属性网络中的偏见，从而导致了减轻偏见的优化目标。然后，我们开发了一个名为EDITS的框架，通过在保持GNN在下游任务中的性能的同时减轻属性网络中的偏见。EDITS以模型无关的方式工作，即独立于任何特定的GNN。实验证明了所提出的偏见度量的有效性以及EDITS在减轻偏见和维护效用方面的优越性。0CCS概念0• 计算方法学 → 机器学习。0关键词0图神经网络，算法公平性，数据偏见0ACM参考格式：Yushun Dong 1，Ninghao Liu 2，Brian Jalaian3，Jundong Li1。2022年。EDITS：建模和减轻图神经网络的数据偏见。在ACM WebConference 2022 (WWW'22)论文集中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，美国纽约，11页。https://doi.org/10.1145/3485447.351217301 引言0允许个人或课堂使用者制作本作品全部或部分的数字或硬拷贝，不收取费用，但不得为了盈利或商业优势而制作或分发拷贝，拷贝必须带有本声明和第一页的完整引用。必须尊重ACM以外其他人拥有的本作品组成部分的版权。允许带有署名的摘要。要进行其他复制、再发表、在服务器上发布或重新分发到列表中，需要事先获得特定的许可和/或支付费用。请向permissions@acm.org申请权限。WWW'22，2022年4月25日至29日，虚拟活动，法国里昂，© 2022年计算机协会。ACM ISBN978-1-4503-9096-5/22/04...$15.00 https://doi.org/10.1145/3485447.351217312600WWW '22，2022年4月25日至29日，虚拟活动，法国里昂，董玉顺，刘宁浩，布莱恩∙贾莱安和李俊东0在本文中，我们对去偏置属性网络进行了初步研究，以实现更加公平的GNN。具体而言，我们解决以下挑战。（1）数据偏差建模。传统上，偏差建模与特定GNN的结果耦合在一起[10]。根据GNN的结果，可以通过不同的公平概念（例如统计平等[14]和机会平等[20]）来建模偏差，以确定结果是否对某些特定人口群体具有歧视性。然而，如果直接基于输入的属性网络而不是GNN的结果进行去偏置，则首要挑战是如何适当地建模这种数据偏差。（2）多模态去偏置。事实上，属性网络包含图结构和节点属性信息。相应地，偏差可能以不同的格式存在于不同的数据模态中。在这方面，如何去偏置具有不同数据模态的属性网络是需要解决的第二个挑战。（3）模型无关去偏置。现有的GNN去偏置方法在训练期间需要特定GNN的结果进行目标函数优化。与这些方法不同，GNN的模型无关去偏置不应依赖于任何特定的GNN，因为我们的目标是开发一种适用于各种GNN的通用数据去偏置方法。显然，这种模型无关去偏置可能具有更好的泛化能力，但与面向模型的GNN去偏置方法相比，它变得更加困难。然而，去偏置的最终目标仍然是确保GNN的结果不表现出任何歧视。这种矛盾提出了如何正确制定一个可以普遍应用于不同GNN的去偏置目标的挑战。为了解决上述挑战，我们提出了新颖的数据偏差建模方法和一个名为EDITS（模型无关的属性网络去偏置）的原则性去偏置框架，以实现GNN的模型无关的属性网络去偏置。具体而言，我们首先进行初步分析，说明了偏差如何存在于属性网络的两个数据模态（即节点属性和网络结构）中，并如何在GNN的信息传播中相互影响。然后，我们正式定义属性偏差和结构偏差，以及用于数据偏差建模的相应度量标准。此外，我们制定了GNN的属性网络去偏置问题，并提出了一种名为EDITS的新框架来减轻偏差。值得一提的是，EDITS对于GNN是模型无关的。换句话说，我们的目标是为任何GNN获得更少偏差的属性网络。最后，对合成和真实世界数据集进行的实证评估证实了所提出的偏差度量的有效性和EDITS的有效性。我们的贡献总结如下：（1）问题建模。我们根据信息传播机制的分析，对GNN的属性网络去偏置进行了初步研究和探索；（2）度量和算法设计。我们为属性网络设计了新颖的偏差度量，并提出了一种名为EDITS的模型无关的去偏置框架，以在将属性网络输入GNN之前减轻偏差；（3）实证评估。我们对合成和真实世界数据集进行了全面的实验，以验证所提出的偏差度量的有效性和所提出的框架的有效性。0（a）偏差属性（b）无偏结构（c）传播后0（d）无偏属性（e）偏差结构（f）传播后0图1：两个示例说明了属性网络中两种数据模态的偏差如何引入GNN信息传播中的偏差。这里（c）是在具有偏差节点属性（a）和无偏网络结构（b）的传播后的节点属性分布；而（f）是在具有无偏节点属性（d）和偏差网络结构（e）的传播后的属性分布。02 初步分析0我们提供两个案例来展示属性网络的两个数据模态（即节点属性和网络结构）如何在信息传播中引入偏差 -这是GNN中最常见的操作。这两个案例还为解决第1节中提到的三个挑战提供了见解。具体而言，我们生成了两个合成数据集，其中一个具有有偏的节点属性，另一个具有有偏的网络结构，然后将属性在网络结构中传播，以展示GNN中如何引入偏差。在这里，我们将不同人口群体之间的属性分布差异视为属性的偏差，而将不同人口群体之间的邻居节点的群组成员分布差异视为网络结构的偏差。这样的属性和结构偏差可以视为属性网络中两个数据模态存在的偏差。值得注意的是，使用分布差异来定义偏差的程度与许多算法公平性研究一致[14，62]，现在我们解释一下如何生成合成数据集。我们假设敏感属性是性别，并且对于这两种情况，生成了1000个节点，一半是男性（蓝色），一半是女性（橙色）。除了敏感属性之外，每个节点还具有一个额外的二维属性向量，该向量将被初始化并作为信息传播的输入。为了引入数据模态中的偏差，采用不同的策略来生成属性向量和网络结构。为了研究两个数据模态在信息传播中如何引入偏差，我们比较了GCN[28]中传播之前和传播之后的群组之间属性的分布差异。案例1：有偏属性和无偏结构。在这种情况下，我们为两个群组（即男性和女性）的节点生成有偏的二维属性向量，并生成无偏的网络结构。具体而言，每个维度上的有偏属性是独立生成的，对于女性是服从高斯分布N（-1.5，1/2），对于男性是服从高斯分布N（1.5，1/2）。分布如𝑚𝑊 (𝑝𝑑𝑓 (X0𝑚), 𝑝𝑑𝑓 (X1𝑚)).(1)12610编辑：建模和减轻图神经网络中的数据偏差 WWW '22，2022年4月25日至29日，虚拟活动，法国里昂0图（1a）。然后我们介绍如何生成无偏的网络结构。对于无偏网络结构中的每个节点，其邻居节点集中任何群组的预期成员比例应该与节点本身的成员身份无关。在这方面，我们通过边形成概率为2×10-3的随机图模型生成无偏网络结构。网络的可视化结果如图（1b）所示。根据网络结构进行信息传播后的属性分布如图（1c）所示。将图（1a）（传播之前的属性分布）与（1c）（传播之后的属性分布）进行比较，我们可以看到无偏结构有助于减轻根据网络结构传播属性后的原始属性偏差。这不仅意味着群组之间的属性分布差异是偏差的重要来源，还表明无偏结构有助于减轻信息传播过程中属性的偏差。案例2：无偏属性和有偏结构。在这种情况下，无偏属性是在每个维度上独立生成的，对于男性和女性都是N（0，1/2）。分布如图（1d）所示。有偏网络结构的生成如下。对于每个节点，我们将其属性值求和。然后，根据属性值求和的降序对所有节点进行排名。然后，给定一个阈值整数�，对于排名靠前的�个男性和排名靠后的�个女性，我们假设它们形成两个分离的社区。这两个社区分别显示为图（1e）中的右下社区（男性）和左上社区（女性）。我们通过边形成概率为5×10-2的随机图模型在每个社区内生成边。类似地，其余节点通过边形成概率为1×10-2的随机图模型形成第三个社区。我们还通过边形成概率为2×10-4在男性（或女性）社区和第三个社区之间生成边。通过这种方式，我们引入了网络结构中的偏差。最终的网络如图（1e）所示。根据网络结构进行信息传播后的属性分布如图（1f）所示。将图（1d）与（1f）进行比较，我们发现即使原始属性是无偏的，有偏的结构仍然会在信息传播后将属性变为有偏的。因此，网络结构中的偏差也是偏差的来源之一。在这里，我们得出三个初步结论，以帮助我们解决第1节中的挑战。（1）对于数据偏差建模，可以基于两个群组之间的属性分布差异来建模属性的偏差。同样，可以基于信息传播后两个群组之间的属性分布差异来建模网络结构的偏差。（2）对于带属性网络中的多模态去偏，应该进行至少两个去偏过程，针对两个数据模态（即属性和结构）。（3）对于模型无关的去偏，如果群组之间的属性分布在信息传播之前和之后都可以更少地偏差，学习到的节点表示往往在群组之间无法区分。然后，在这样的数据上训练的GNNs也可能更少偏差。03 模型化GNNS的数据偏差0在本节中，我们定义了属性网络中的属性偏差和结构偏差以及它们的度量。03.1 预备知识0在本文中，除非另有说明，粗体大写字母（例如 X），粗体小写字母（例如 x）和普通小写字母（例如�）分别表示矩阵、向量和标量。对于任何矩阵，例如 X，我们使用 X � 表示其第 � 行。设 G = (A, X)是一个无向属性网络。这里 A ∈ R � × � 是邻接矩阵，X ∈ R � × � 是节点属性矩阵，其中 � 是节点数量，�是属性维度。设对角矩阵 D 是 A 的度矩阵，其中其 (�, �) 项 D �,� = ∑ � A �,�，且 D �,� = 0（� ≠ �）。L = D − A是图拉普拉斯矩阵。将归一化邻接矩阵和归一化拉普拉斯矩阵分别表示为 A norm = D − 102 和 L norm = D − 102 LD − 102 . | . | 是绝对值运算符。03.2 偏差的定义0我们考虑属性网络上的两种偏差，即属性偏差和结构偏差。我们首先如下定义属性偏差。0定义1. 属性偏差。给定一个无向属性网络 G = (A, X)和每个节点的群组指示器（关于敏感属性），其中 s =[�1,�2,...,��]，其中 � � ∈ {0, 1} (1 ≤ � ≤�)。对于任何属性，如果其在不同人口群体之间的值分布不同，则 G中存在属性偏差。0此外，正如第2节的第二个示例所示，即使原始属性是无偏的，在网络中传播属性后也可能出现偏差。因此，识别属性网络中的结构偏差的一个直观想法是检查网络中的信息传播是否引入或加剧了偏差[22]。形式上，我们定义了属性网络上的结构偏差如下。0定义2. 结构偏差。给定一个无向属性网络 G = (A, X)和每个节点的相应群组指示器（关于敏感属性），其中 s =[�1,�2,...,��]，其中 � � ∈ {0, 1} (1 ≤ � ≤ �)。对于相对于 A传播的属性值，如果它们在任何属性维度上在不同人口群体之间的分布不同，则 G 中存在结构偏差。0除了这些定义之外，还有必要定量地衡量属性偏差和结构偏差。接下来，我们介绍了这两种偏差的度量方法。03.3 偏差度量0在这里，我们迈出了第一步，为无向属性网络 G定义了属性偏差和结构偏差的度量。属性偏差度量。令 X norm ∈ R �× � 为归一化的属性矩阵。对于第 � 维度 (1 ≤ � ≤ �) 的 Xnorm，我们使用 X 0 � 和 X 1 � 表示 � � = 0 和 � � = 1的节点的属性值集合 (1 ≤ � ≤�)。然后，所有节点的属性可以分为元组：X �� = {(X 0 1 , X 1 1), (X 02, X 1 2), ..., (X 0 �, X 1 �)}。我们使用 Wasserstein-1 距离 [54]来衡量属性偏差：0� attr = 10这里 �� (∙) 是一组值的概率密度函数，� (., .)是两个分布之间的Wasserstein距离。直观地说，� attr描述了两个群组之间的平均Wasserstein-1距离。12620WWW ’22, 2022年4月25日至29日，虚拟活动，法国里昂，董宇舜，刘宁浩，布莱恩∙贾莱安和李俊东0不同维度上不同群体的属性分布。值得注意的是，将不同群体之间的分布差异作为偏差的指标与许多现有的算法公平性研究[6, 10,62]是一致的。结构偏差度量。正如第2节所示，GNN的关键机制是信息传播，在此过程中可能引入结构偏差。令P�� = �� + (1 −�)�。这里P��可以被视为具有重新加权自环的归一化邻接矩阵，其中�1]是一个超参数。在测量结构偏差之前，我们将传播矩阵M�∈R�×�定义为：0M� = �1P�� + �2P2�� + ... + ��P��, (2)0这里��(1 ≤ � ≤�)是重新加权参数。上述公式的背后原理是测量每个节点到其他节点的聚合到达概率。为了实现每个节点的局部化效果，一个理想的选择是让�1 ≥ �2 ≥ ... ≥��，即强调短距离项并减小长距离项的权重。例如，假设� =3，则值(M3)�,�是节点�到节点�在3跳内的聚合到达概率，其中重新加权参数为�1，�2和�3。此外，给定属性��，我们将可达性矩阵R∈R�×R =M��。直观地说，��,�是节点�的属性�的聚合可达属性值。我们利示�中第�维的值集合，其中�� = 0和�� = 1 (1 ≤ � ≤�)。�中的条目也可以根据属性维度划分为元组：�� = {(�0�, �1�),�1�)}。我们将结构偏差定义为：0�� = 0�0∑�0��(��(R0�), ��(R1�)). (3)0这里��的定义方式与��类似，只是前者使用�0�和�1�而不是�0构偏差��描述了传播轮次后不同群体的聚合属性分布之间的平均差异03.4 问题陈述0根据第3.2节和第3.3节中的定义和指标，我们认为如果��和��都那么属性网络中的偏差可以得到缓解。因此，如果GNNs在这样的数据上进行训练，下游任务中的偏差问题也可以得到缓解。形式上，我们将去偏问题定义如下。0问题1. 为GNNs去偏属性网络。给定一个属性网络G = (A,X)，我们的目标是通过减少��和��来去偏G，从而得到˜G = (˜A,˜X)，使得在˜G上训练的GNNs的偏差得到缓解。去偏不依赖于任何特定的GNNs。04 降低GNNS的数据偏差0在本节中，我们讨论如何使用我们提出的框架EDITS解决问题1。为了简单起见，我们将重点放在二进制敏感属性上，并讨论后续的扩展。我们首先介绍EDITS的概述，然后给出目标函数的公式化。最后，我们介绍优化过程。04.1 框架概述0所提出的框架EDITS的概述如图2所示。具体而言，EDITS由三个模块组成：(1)属性去偏。该模块学习一个具有可学习参数�∈R�的去偏函数��。通过输出�的去偏版本，即˜X = ��(X)；(2)结构去偏。该模块将˜A作为去偏A的输出。具体而言，在优化过程的开始时，˜A与A初始化相同。通过梯度下降和二值化来优化˜A中的条目；(3)Wasserstein距离估计器。该模块为每个属性维度学习一个�。�用于估计不同群体的属性分布之间的Wasserstein距离。04.2 目标函数0在本小节中，我们介绍了我们框架的细节。根据定义1和定义2，我们的目标是同时减少 � attr 和 � stru 。为了便于理解，我们首先以第 �个属性维度为例，然后将其扩展到所有 �维度，得到我们的目标函数。设 � 0 ,� 和 � 1 ,� 分别为具有敏感属性 � = 0和 � = 1 的节点在 X 中第 � 个属性维度上的值分布。将 � 0 ,� � � ( � ) 0 ,� 和� 1 ,� � � ( � ) 1 ,�视为从这两个分布中抽取的两个随机变量。假设我们有一个函数 � � � :R → R 来减少属性偏差，其中 1 ≤ � ≤ � 。0对于第 � 维度，我们将 � ( 0 ) 0 ,� = � � � ( � 0 ,� ) � � ( 0 ) 0 ,� 和0� ( 0 ) 1 ,� = � � � ( � 1 ,� ) � � ( 0 ) 1 ,� 作为 � 0 ,� 和 � 1 ,�的去偏结果。这里的上标 ( 0 )表示去偏过程中没有进行信息传播。相应地，当这种操作扩展到所有 � 维度时，我们将得到去偏的属性矩阵 ˜ X。除了减少属性偏差的目标外，我们还希望减少结构偏差。令 ˜ A为去偏网络结构的邻接矩阵，˜ P norm 表示重新加权自环的归一化˜ A 。使用去偏邻接矩阵进行 � 次信息传播可以表示为 ˜ P � norm ˜ X，其中 1 ≤ � ≤ � 。设 � ( � ) 0 ,� 和 � ( � ) 1 ,� 为0敏感属性 � = 0 和 � = 1 的节点的 ˜ P � norm ˜ X 的第 �列的值分布。将 � ( � ) 0 ,� 和 � ( � ) 1 ,�视为从这两个分布中抽取的两个随机变量。我们希望 ˜ A能够减少结构偏差。我们将属性和结构去偏结合如下。基于随机变量 � ( 0 ) 0 ,� 到 � ( � ) 0 ,� 和 � ( 0 ) 1 ,� 到 � ( � ) 1 ,� ，0我们有 ( � + 1 ) 维向量 x 0 ,� = [ � ( 0 ) 0 ,� ,� ( 1 ) 0 ,� , ...,� ( � ) 0 ,� ]0和 x 1 ,� = [ � ( 0 ) 1 ,� ,� ( 1 ) 1 ,� , ...,� ( � ) 1 ,� ] ，遵循联合分布0� �� 0 ,� 和 � �� 1 ,� ，分别减少 � attr 和 � stru 。我们的目标是最小化 � �� 0 ,�和 � �� 1 ,� 之间的Wasserstein距离，即， min � � , ˜A � ( � �� 0 ,� , � �� 1 ,� ) 。0� ( � �� 0 ,� , � , � �� 1 ,� ) 可以表示为0� ( � �� 0 ,� , � , � �� 1 ,� ) = (4)0inf � ∈ Π ( � � �� 0 ,� ,� , � � �� 1 ,� ) E ( x 0 ,� , x 1 ,� )� � [∥ x 0,� − x 1 ,� ∥ 1 ] 。!!"#$%&'(!!"#$%&'(Wasserstein DistanceApproximatorWasserstein distanceminimizationDistributions from two groups !"!"Structural DebiasingAttribute DebiasingWNode in group ! (s=!)Node in group ! (s=!)Reachability from ! to " hopReachability from ! to " hopNodes with s=!Nodes with s=!…………………WW1𝑀12630EDITS：建模和减少图神经网络的数据偏差 WWW '22，2022年4月25日-29日，虚拟活动，法国里昂0图2：� = 2 的EDITS示例：Wasserstein距离近似器给出了 � �� 0 ,� 和 � �� 1 ,� 之间的近似Wasserstein距离；属性去偏和结构去偏被优化以减少偏差的 ˜X 和 ˜ A 。0这里 Π ( � �� 0 ,� , � , � �� 1 ,� ) 表示所有联合分布的集合0� ( x 0 ,� , x 1 ,� ) 的边缘分布分别为 � �� 0 ,� 和 � �� 1 ,� 。维度后，总目标是0min �， ˜ A01 ≤ � ≤ � � ( � �� 0 ,� , � , � �� 1 ,0优化方程(5)是非平凡的，因为下确界是难以计算的。因此，在下一小节中，我们将展示如何通过近似将其转化为可计算的优化问题，从而实现端到端的基于梯度的优化。04.3 框架优化0在本小节中，我们介绍了我们的优化算法。为了简单起见，首先我们仍然使用X中的第�个属性维度来说明这个思想。考虑到Wasserstein距离计算中的下确界是难以处理的，我们应用Kantorovich-Rubinstein对偶性[56]将方程(4)的问题转化为：0�(��0,�,��1,�)=(6)0sup ∥�∥�≤1 Ex0,��0,�[�(x0,�)]−Ex1,��1,�[�(0这里∥�∥�≤1表示最高值是在所有1-Lipschitz函数�:R�+1→R上取得的。该问题可以通过学习一个神经网络作为�来解决。然而，值得注意的是，在优化过程中很难获得1-Lipschitz函数。因此，在这里我们将∥�∥�≤1放松为∥�∥�≤�（�是一个常数）。在这种情况下，方程(6)的左侧也变为�0,�,��1,�)。0然后，��0,�和��1,�之间的Wasserstein距离可以通过以下方0max ��∈F Ex0,��0,�[��(x0,�)]−Ex1,��1,�[��(x1,0其中F表示所有�-Lipschitz函数的集合（即∥��∥�≤�，��∈F）。然后，程(7)扩展到所有�维度，得到我们的最终目标函数：0L1=∑01≤�≤�{Ex0,��0,�[��(x0,�)]−Ex1,��1,�[��(x1,�0其中{��:1≤�≤�}�F。为了模拟方程(8)中的函数�，单层神经网络作为图2的Wasserstein距离近似器，用于逼近每个��（1≤�≤�），目标可以表示为：0max {��:1≤�≤�}�FL1. (9)0神经网络的权重被剪辑在[−�,�]内（�是预定义的常数），这已被证明是强制每个��的Lipschitz约束的一种简单而有效的方法[3]。对于图2中的属性去偏置模块，我们选择线性函数，即��（��,�）=��,�（�∈{0,1}）。其优点是通过为每个属性分配特征权重来充当特征重新加权的角色，从而使去偏置结果更易解释。以矩阵形式，假设�是一个对角矩阵，其中第�个对角线条目为��，我们有˜X=��(X)=X�。然后，属性去偏置的优化目标为：0min �L1+�1∥˜X−X∥2�+�2∥�∥1, (10)0其中�1和�2是超参数。第二项确保特征重新加权后的去偏置属性与原始属性尽可能接近（即尽量保留更多信息）。第三项控制重新加权参数的稀疏性。对于图2中的结构去偏置模块，通过以下方式优化˜A：0min ˜AL1+�3∥˜A−A∥2�+�4∥˜A∥1�.�., ˜A=˜A�. (11)0其中 �3 和 �4是超参数。第二项确保去偏置结果˜A接近原始结构A。第三项强制去偏置网络结构也是稀疏的，这与现实世界网络的特征相一致[23]。优化策略。为了优化函数�，参数�和˜A，我们提出了一种基于梯度的优化方法，用于交替训练，如附录中的算法1所示。首先，对于�相对于方程(9)的优化，我们直接使用随机梯度下降（SGD）。其次，对于参数�相对于方程(10)的优化，我们采用近端梯度下降（PGD）。在PGD中的投影操作中，我们将�中的参数剪辑在[0,1]之间。最后，为了去除最有偏见的属性通道，将�的对角线上最小的�个权重掩盖为0，其中�是用于属性去偏置的预设超参数。第三，对于参数˜A相对于方程(11)的优化，我们也采用了与优化�相似的剪辑策略的PGD。最后，算法1在多个优化周期后输出˜X和˜A。边缘二值化。在这里，我们介绍如何将˜A中的元素二值化以表示边缘的存在。基本思想是根据˜A和A之间的逐元素值变化来设置一个数值阈值来确定边缘的存在。具体来说，对于A中的“0”条目，如果˜A中任何条目的相应权重超过�∙max(˜A−A)，则将该条目从0翻转为1。这里�是用于二值化的预设阈值，max(∙)输出矩阵的最大条目。类似地，对于A中的“1”条目，如果˜A中任何条目的相应权重减少了一个数值Pokec-z0.33 −.0.75 − . 4%)Pokec-n0.540.42 (−22.2%)1.030.89 (−13.6%)UCSD340.530.48 (−9.43%)0.680.63 (−7.35%)12640WWW '22，2022年4月25日至29日，虚拟活动，法国里昂 Yushun Dong，Ninghao Liu，Brian Jalaian和Jundong Li0如果超过 � ∙ | min ( ˜ A − A )| ，则该条目应该翻转为0。这里 min(∙)给出矩阵的最小条目。总之，该操作旨在直接翻转值发生显著变化的条目，并保持其他条目为其原始值。最后，将二值化矩阵分配给 ˜ A作为最终结果。05实验评估0在本节中，我们旨在回答以下研究问题。RQ1：EDITS能够如何减轻属性网络中的偏见，并结合不同GNN变体的下游任务结果？RQ2：与其他针对特定GNN定制的去偏基线相比，EDITS能够如何平衡效用最大化和偏见减轻？05.1下游任务和数据集0下游任务。我们选择广泛采用的节点分类任务来评估我们提出的框架的有效性。数据集。我们在实验中使用两种类型的数据集，包括六个真实世界数据集和两个合成数据集。真实世界数据集的统计信息可以在附录的表3中找到。我们以下面的方式详细介绍更多细节：（1）真实世界数据集。我们使用六个真实世界数据集，分别是Pokec-z，Pokec-n [10, 50]，UCSD34 [53]，German Credit，CreditDefaulter和Recidivism[2]。我们首先介绍三个与网络相关的网络。Pokec-z和Pokec-n是从斯洛伐克的一个流行社交网络收集的。这里一个节点代表一个用户，一条边表示两个用户之间的友谊关系[50]。我们将“地区”作为敏感属性，任务是预测用户的工作领域。UCSD34是加利福尼亚大学圣地亚哥分校的Facebook友谊网络[53]。每个节点代表一个用户，边表示节点之间的友谊关系。我们将“性别”作为敏感属性，任务是预测用户是否属于特定专业。具有不完整信息（例如缺少属性值）的用户被过滤掉了上述三个网络中。此外，我们还采用了三个与网络无关的网络。在德国信用中，节点代表德国银行的客户，如果客户的信用账户相似，则形成边。以“性别”作为敏感属性，任务是将客户的信用风险分类为高或低。在Recidivism中，节点是1990年至2009年期间保释的被告。节点基于过去的犯罪记录和人口统计数据的相似性相连。任务是将被告分类为保释与否，其中“种族”是敏感属性。在信用违约者中，节点是信用卡用户，他们根据其购买和付款的模式相连。这里“年龄”是敏感属性，任务是预测用户是否会违约信用卡付款。（2）合成数据集。对于EDITS的消融研究，我们使用第2节生成的两个数据集。一个网络具有有偏属性和无偏结构，而另一个网络则相反。我们为两个数据集除了两个属性维度外，添加了八个额外的属性维度。额外属性维度中的属性值在0和1之间均匀生成。对于标签，我们计算前两个额外属性维度的和。然后，我们给和值添加高斯噪声，并按降序排列。0表1：原始网络和EDITS去偏网络之间的属性和结构偏见比较（以×10^-3为单位）。数值越低越好。最佳结果用粗体标记。0属性偏见结构偏见0Vanilla EDITS Vanilla EDITS0信用 2.46 0.56 (

下载后可阅读完整内容，剩余1页未读，立即下载