H2-FDetector：基于GNN的同异连接欺诈检测器及其扩展实验

78 浏览量更新于2023-11-29 收藏 925KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1486H2-FDetector：一种基于GNN的同异连接欺诈检测器FengzhaoShishifengzhao@iie.ac.cn网络安全学院中国科学院大学中国中国科学院信息工程研究所中国周宇晨zhouyuchen@iie.ac.cn网络安全学院中国科学院大学中国中国科学院信息工程研究所中国曹亚男caoyanan@iie.ac.cn信息工程中国科学院中国科学院大学网络安全学院中国周川zhouchuan@amss.ac.cn数学与系统科学中国科学院中国科学院大学网络安全学院中国尚艳敏†shangyanmin@iie.ac.cn信息工程中国科学院中国科学院大学网络安全学院中国Jia Wujia.mq.edu.au麦考瑞大学计算机学院澳大利亚悉尼，NSW 2113摘要在欺诈图中，欺诈者经常与大量良性实体进行交互，因此，不仅存在由相同标签节点（相似节点）形成的亲同连接，而且还存在由不同标签节点（不相似节点）形成的亲异连接。然而，现有的基于GNN的欺诈检测方法只是增强了欺诈图中的同质性，并使用低通滤波器来保持相邻节点之间的特征共性，从而不可避免地忽略了异亲连接的相邻节点之间的差异性。针对这一问题，本文提出了一种基于图神经网络的同性和异性交互欺诈检测器（简称H2-FDetector）。首先，我们用标记节点的监督来识别同亲连接和异亲连接其次，我们设计了一种新的信息聚合策略，使同亲连接传播相似信息，异亲连接传播差异信息。最后，一个原型先验的介绍，以指导识别欺诈者。两个真实公共基准欺诈检测的扩展实验ESPORESPONDINGAUTHOR†通讯作者本作品采用知识共享署名国际协议（ Creative Commons AttributionInternational）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.3512195任务表明，我们的方法明显优于最先进的基线。CCS概念• 计算方法→神经网络;机器学习;·安全和隐私→社交网络安全和隐私。关键词欺诈检测，图神经网络，同质性，异质性ACM参考格式：Fengzhao Shi ， Yanan Cao ， Yanmin Shang ， Yanchen Zhou ， ChuanZhou，JiaWu。2022年H2-FDetector：一个基于GNN的欺诈检测器，具有同性和异性连接。在ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，NewYork，NY，USA，9页。https://doi.org/10.1145/3485447.35121951介绍欺诈检测作为一种基本的网络服务，广泛应用于网络安全[7]、电子商务[3，10，15，36]、审核管理[5，12，22]等关键领域。最近，基于图的欺诈检测方法[19，31]，特别是基于GNN的方法，在学术界和工业界都引起了广泛的关注。这些方法利用实体之间的关系来揭示这些实体在欺诈图级别上的可疑性，基于具有相同目标的欺诈者倾向于彼此连接的假设。然而，许多调查[6，9，11，20]发现，欺诈者经常通过与许多匿名实体联系来伪装自己，以减轻可疑性。以垃圾邮件发送者为例，他们会雇用良性帐户张贴他们的垃圾邮件1487RRRRRRWWW同亲聚集同亲聚集和异亲聚集良性欺诈同化的歧视图1：同质性与Homophily和Heterophily。评论，这样垃圾评论和良性用户之间就有了很多联系因此，欺诈图中实际上存在两种实体连接：一种是具有相同标签的节点之间的连接，称为同质连接;另一种是具有不同标签的节点（欺诈者和良性实体）之间的连接，称为异嗜连接。如图1（a）所示，大多数现有的基于GNN的欺诈检测方法[6，17，20]只利用欺诈检测中的同质性，而忽略了具有不同标签的邻居之间的在GNN聚合过程中，它们使用低通来保持邻居之间节点特征的共性，并吸收连接节点的表示，即使它们具有不同的标签。这种信息聚合策略会在节点表示学习过程中引入噪声，削弱欺诈检测的性能。为了解决这个问题，我们的论文旨在同时对欺诈图中的亲同连接和亲异连接（简称H2-连接）进行建模，同化具有亲同连接的节点并区分具有亲异连接的节点（图1（b））。为了实现这一目标，我们需要解决以下问题：1）如何识别欺诈图中的H2连接？在训练数据集中，节点的标签是给定的，所以我们可以很容易地得到一个连接是同性还是异性的监督信号该连接分类器可以与欺诈检测器联合建模（二）GAT引导自我注意的方式对于异性恋者，我们使用邻居的相反表征来进行自我注意。通过这种方式，具有相同标签的节点的学习表示往往更相似，而具有不同标签的节点往往不相似。最后，以类别原型作为GNN聚集中欺诈者的类别特征，为欺诈者提供先验指导。我们强调H2-FDetector的优点如下：据我们所知，我们是第一个同时考虑的影响homophilic和heterophilic连接，基于图的欺诈检测。我们设计了一种新的图神经网络，它不仅可以聚合同亲连接的相似信息，而且可以聚合异亲连接的不相似信息。在两个真实的公共基准数据集上进行的实验验证了该框架的有效性特别是在欺诈检测中最重要的查全率指标上，我们的方法显著提高了性能。2问题公式化在这一部分中，我们首先给出了同质性和异质性的概念然后，我们定义了H2-连接多关系图和基于图的欺诈检测问题。2.1预赛定义1.同质性和异质性。对于一个图，如果由一条边连接的两个节点属于同一个类别标号，则该边（连接）是同亲的。否则，该边缘是异嗜性的。由同亲边组成的图称为同亲图，由异亲边组成的图称为异亲图。特别地，欺诈图同时具有同亲边和异亲边。2.2问题陈述定义2. H2-连通多关系图给予如何设计混合下的GNN聚合策略图G={V，X，{E+，E−}|R，Y}，V={v1，v2，. . ，vN}是H2连接的真实性？在GNN聚合过程中，节点集，NR rr=1X={x1，x2，...，X}是同性恋连接应该传播类似的信息，是节点数;N而异嗜性连接应该传播不同的信息。因此，如何对相似性进行建模和利用是关键节点特征的集合，xi ∈ Rd是第i个节点特征，d是特征的维数;{E+，E-}是具有关系r ∈ {1，.，R}，信息和节点之间的不相似信息3）如何E+表示同亲边集，E−表示异亲边集利用所有已知欺诈者的类别特征来识别-边集，E+E−=，Y是对应于新的诈骗犯？在实际应用中，一些欺诈者可能会被困在过多的良性实体邻域中，这些欺诈者只能从良性实体邻域中获取相异性信息。节点。G是定向的。定义3.基于图形的欺诈检测。基于图的欺诈检测问题定义在H2-连通多重关系上邻居，但缺乏与其他欺诈行为相似的信息图G={V，X，{E+，E−}|R，Y}，其已在sters. 因此，我们的目标是捕捉类别特征，以帮助揭示R rr=1怀疑中央节点。基于上述认识，我们提出了一种基于图神经网络的具有亲氢和嗜热相互作用的F raud检测器（简称H2-F检测器首先，我们设计了一个神经网络来识别H2-连接，并在训练集中的标记节点的监督下。然后，设计了基于GAT的聚合策略。对于同性恋者的联系，我们使用典型的定义2. 基于图的欺诈检测问题是图上的半监督二进制节点分类问题。基于图的欺诈检测器是基于标记节点信息以及由多关系下的同性和异性边组成的图来训练的。然后使用训练好的模型来预测未标记节点的可疑性值得注意的是，通过模型学习边的同质性和异质性···1488UV∈[||]的一种UVUVEUV？–∈G∈N（）UVUVLH I=Etmax（0， 1−yuvmuv）（Rr=1r=1RRUVRvUVRuUVCuvuvH2-FDetector：A GNN based Fraud Detector with Homophilic and Heterophilic Connections WWW3方法在这一节中，我们介绍了H2-FDetector框架.首先，我们对整个框架进行了概述然后我们分别在第3.2、3.3和3.4节详细介绍了模型的三个组成部分。最后，其中Wc{1}R3 d1是分类器的参数矩阵，. 是连接操作。然后，我们通过在m {l}上取符号来获得连接类型：c{l}=SIGN（m{l}）（4）3.1概述其中，如果c{l}是1，则边euv∈ E是同亲的，如果c{l}是-1，则H2-FDetector包括多层卷积，每层都是UV边euv∈ E是异亲的。UV，我们由H2连接识别、H2连接聚合和原型提取三部分组成的流水线最后，将上述过程应用于每个边euv∈ E可以得到图G中所有边的类型：H 2-F检测器如图2所示。对于中心节点，与相邻节点的连接被判断为同亲或异亲C{l}={c{l}}eE（5）通过H2连接识别。然后，我们设计了一个H2连接聚合，根据每个关系下的每个邻居连接的同质性或异质性来聚合邻居嵌入最后，我们引入了一种先验信息，在上述过程中，m{l}是整个模块的核心并且我们添加辅助损失[35]以通过引入来自已知标签节点的监督信号来学习它。拥有全球原型的骗子3.2H2连接识别{l}1.一、Et{e}{l}欺诈图中的许多节点的标签是未知的，因此我们其中t是其头节点和尾节点已经被标记的边集合，y{e}表示对应边的类型为根据标记是否相同来区分嗜异性的基于UV{e}在假设相同标签的节点相似，不同标签的节点不相似的基础上，设计了一个H2连接识别模块，该模块采用端到端模式来度量节点之间的相似性或差异性，避免了阈值超参数的引入. 详情如下：形式上，给定一个H2-连通多重关系图G=每个边euv ∈ E，如果u和v的标号相同，则yuv = 1（euv ∈ E是同亲的），否则，y {e}= −1（euv ∈ E是异亲的）。3.3H2连接聚合在获得连接类型之后，H2-FDetector需要聚合来自同亲和异亲邻居的邻居节点.根据[1]，邻域表示的和使得{V，X，{E+，Er−}|R，Y}，我们将其简化为G={V，X，{Er}|R，Y}表示变得相似，这适合于同性恋者。由于缺乏连接类型，我们的目标是获得同质性或E r的异亲性，其中Er =E+Er−是连接. 而节点特征与邻域特征的差异第r个关系，E=Rr=1REr是所有边的集合。H{l−1}=native本地的，which适合heterophilic异嗜connections连接.我们把它作为一个基本的{h1{l−1}，h2{l−1}，. . ，h{l-1}}是在layer处的n个元素的集合聚合策略然而，很难设计出合适的1,{l−1}N% d th不同邻居节点影响权重参数l−hi∈Rl−1是i节点嵌入，dl−1是维数，同质性和异质性。这是因为，在这一事件中，，H{0}=X。对于每条边euv∈ E，其头节点和尾节点的影响参数表示的权重分别是u和v2相似的影响;在异嗜边缘的情况下，影响对于每个卷积层l，H连接识别模块的输入来自上层的变换例如，对于边euv∈E，它的输入是（h<${l}，h<${l}）：参数表示不同影响的权重现有的自我注意机制[18，29，38]本质上是邻居信息的总和，不适合异嗜邻居u v结为了解决这个问题，我们设计了一个H2连接聚合h<${l}=σ（W{l}h{l−1}）（1）具有新的自我注意机制的策略，该机制可以适应utuh<${l}=σ（W{l}h{l−1}）（2）同嗜异嗜的邻居。具体地，给定第r个关系子图Gr={V，X，{Er}，Y}，哪里{l−1}vtv{l−1}Er=E+E−是图Gr的边集。我们定义Nr（v）为胡hv是u和v在层l 1的嵌入，Wt{l}Rdl×dl−1是参数矩阵σ。是非线性激活函数。为了获得更全面的感知信息，取变换后的em之间的连接和差异将h<${l}和h<${l}作为分类器的输入，他使用图r中节点v的邻集。给定一个中心节点v和它的任意邻居urv，我们首先使用线性变换来变换它们的嵌入，由权重矩阵Wr{l}Rdl×dl−1参数化。然后，引入H2-连接聚合策略，利用self-注意，考虑连接类型c{l}：uvuv单层多层感知器（MLP）作为基本分类器，tanh激活：e{l}，r = a {l}，r [W {l}h {l −1} ||c {l}W {l}h {l −1}]（7）m{l}=tanh（W{l}[h<${l}||（h <${ l } − h <${ l }）]）（3）当r ∈ R 1 × 2 d l是一个权向量时.||(h¯{l}−h¯{l})])(3)wherea{l},r∈R1×2dlisawightvecto r.我们总结了模型的损失和训练过程。euvuv1489v=1个kVvvZ紫外线弗劳v∈VWWW图2：建议的H2-F检测器在训练阶段的聚集过程然后，我们通过对所有邻居的重要性系数进行归一化来计算节点v与其邻居u之间的注意力系数嵌入，并获得中心节点v的嵌入h{l}：{l}，所有R{l}，rαu{l}，r=exp{LeakyReLU（e{l}，r）}UV（八）hv=rhv（12），v.exp{LeakyReLU（e{l}，r）}h{l}=W{l}h{l}，所有（十三）接下来，我们聚合具有注意力和连接类型c{l}的不同邻居，以获得中心节点v在第r个关系子图下的嵌入h{l}，r其中Wd{l} ∈ Rdl ×Rdl是权矩阵。3.4原型提取基于H2-连接聚集，我们可以得到表示-h{l}，r=σll.α{l}，rc{l}W{l}h{l−1}\l（九）节点的位置然而，一些欺诈者被困在过多的vZu∈Nr（v）u，vUVR uL良性实体邻域，这些欺诈者只能从良性邻域为了获得更多的信息，我们将自我注意机制扩展到多头形式，类似于[25，33]。具体而言，K独立注意机制执行Eq. 9，然后将它们的特征连接起来，得到以下输出嵌入：但是缺乏来自其他欺诈者的类内相似性的信息。为了解决这一问题，我们引入了一个带有原型的类别信息。我们采用原型有两个原因：首先，原型类型符合我们最初的设计意图，即使用标记数据来找到每个类的近似类别中心，然后通过缩短类内的样本，{l}，rKl.{l}，r，k {l}{l}，k{l−1}\每个样品和原型之间的距离;第二，hv=k<$1σαu，vcuvWrhul（10）原型可以很容易地插入到我们的整个模型架构中。=u∈Nr（v）D具体来说，我们首先基于训练集分别得到欺诈类和良性类的原型：{l}，kl×dl−1其中Wr∈Rk.1 .值得注意的是，在网络的最后一层，我们每-用平均代替连接形成多头注意力原型{l}= |Vf|v∈Vfh{l}（十四）保持模型合理：原型{l}为 1 .h{l}（十五）{L}，rl1.K.{L}，r，k{L}{L}，k{L−1}\贝尼登|v∈Vb|v∈Vbhv=σlZKk=1u∈Nr（v）αu，vcuvWrhu（11）其中VfVb是欺诈节点集和良性节点集最后，我们将从cor-rank聚合的R并将其转化为一个低维的关系子图H2连接识别原型提取：同化：歧视...中央节点（欺诈）第1章2002年欺诈节点同质性良性淋巴结1.1聚合功能1.2聚合功能欺诈原型异亲性拉近距离H2连接聚合良性原型H2- 第1层的连接标识第1层的原型提取H2连接识别H2连接聚合原型提取k∈Nr（v）DLv1490分别在训练集中。然后，对于每个节点vt，我们测量它和两个原型分别。距离函数是1491.Σ¨¨{}C{}，Yvvv弗劳vv{}H.HI.PEGLPE=−yvlo <$（qv）+（1−yv）lo<$（ 1−qv）H Iy{e}UV∈Y{e}UV火车对于v∈V，对于r = 1，...，R do h {l}，r←等式10;v火车.r=1H2-FDetector：A GNN based Fraud Detector with Homophilic and Heterophilic Connections WWW在潜在空间中广泛使用的欧几里得距离：算法1：H2-FDetector的训练过程D{l}（v）=<$h{l}−prototype{l}<$（十六）输入：一个不含F{l}v{l}弗劳德{l}？连接类型标签G=V，X，{Er}|R，Y。一D b（v）= hv−原型beniдn2（17）如果该节点是欺诈者，则它应该接近欺诈原型类型而远离良性实体原型。相反，如果节点是良性实体，则它应该接近良性实体原型而远离欺诈者原型。基于这一假设，我们使用交叉熵损失来缩短节点v与其对应的标签原型之间的距离，用于训练Yt{e}的连接类型标签。培训epochNepoch。层数L.输出：V中每个节点的向量表示。1初始化H0←X;2 对于e= 1，...，N期DO对于l =1，...，我做4C{l}←构造连接类型（第3.2节）;为了延长节点V和其相对标签5之间的距离样机L火车{e};e火车 ←从C{l}和{l}。 .{l}{l}。6L{l} ←等式 6 m {l}对应于<$c {l} ∈ C {l}，;v∈Vt。Σq{l}=sof tmax（五）{l}C（v）−D紫外线列车（78v其中C（v）是v的标号。3.5培训9h {l}，所有←等式12岁;10h {l} ←等式13岁;在堆叠多个层之后，我们取最后一层11的输出作为节点的最终嵌入基于此，我们认为欺诈12检测问题作为图上的节点分类问题，13端原型{l}原型{l}←等式十四岁;←等式十五岁;并使用交叉熵损失来模拟它。贝尼登{l}Lo= −14[yvlo <$（pv）+（1−yv）lo <$（ 1−pv）]（20）15HPE，YPE平衡样品来自H{1}，Y;L{l}←等式18h{l}∈H{l}，yv∈v∈VtPEV{lPE{l}pv=sof tmax（h{L}）（21）YP E，protypefr}aud，protypebeniдn;16端部其中h{L}是节点v在最后一层上的嵌入2L17列车，Y列 ←从H{L}，Y的平衡样本;综上所述，我们的模型H-检测器的总损失函数为：18Lo ←等式 20 h {L} ∈ H {L} ，yv∈Y序列;L= Lo+γ1Ll−1L{l}+γ2Ll=1L{l}（22）19反向传播以更新参数;20end21返回H{L}值得注意的是，为了减少样本不平衡（良性实体的样本明显多于欺诈者的样本）的影响，我们采用欠采样技术训练H2-FDetector。具体来说，我们随机抽取相同数量的把多数阶级的例子当作少数阶级。然后利用采样的实例计算损失，并对H2-FDetector进行优化. 我们称这种训练方法为随机样本训练。整体训练算法总结在算法1中。给出了一个H2-连通多关系图.我们首先根据等式得到所有边的连接类型3（第4行）。然后，我们根据连接类型（从第7行到第11行）聚合每个节点的邻居信息接下来，我们计算欺诈和良性原型（第12行和第13行），并增强每个节点的全局标签先验信息（第14行和第15行）。此外，为了减少样本不平衡的影响，我们使用随机样本训练来计算损失（第5行，第14行和第17行）。4个实验在本节中，我们将回答以下研究问题：• RQ1：在欺诈检测中，异质性是否普遍存在？RQ 2：H2-FDetector是否优于基于图的欺诈检测的最新方法？RQ3：异质性感知和原型提取模块如何帮助预测？对于不同的超参数，H2-F探测器的性能如何？RQ 5：H2-FDetector能否进一步有效缩短如何在欺诈者之间拉开距离，同时扩大欺诈者与良性实体之间的距离？4.1实验装置4.1.1数据集。我们在两个真实世界的欺诈检测数据集上进行实验，以评估 H2-FDetector 的有效性： YelpChi 数据集 [24] 和Amazon数据集[21]。 YelpChi数据集包括由Yelp过滤（垃圾）和推荐（合法）的酒店和餐馆评论，其可以进行垃圾评论检测任务。YelpChi数据集的节点是具有32个手工特征的评论，数据集包括三个关系：1）2····（公式为Eq.22，其中γ1和γ2是平衡参数。1492WWW表1：数据集的统计至04和1。4分别。GCN、SGC、GAT、GPRGNN和FAGCN针对不同的网格数据集调整了最佳参数数据集YelpChi节点数（欺诈%）45,954关系#关系class#class R-U-R98，630阳性6，6771 147 232搜索对于CARE-GNN，我们使用作者介绍的最佳参数。对于PC-GNN，由于数据集的两个版本的差异，我们调整了YelpChiDataset上的参数，并使用Amazon Dataset上作者引入的参数。该司（14.53%）6，805，486卢比负39，277[17]这是一个类似于[17]的问题。此外，原GCN、SGC、GAT、GPRGNN和FAGCN都存在类不平衡问题，为了解决这个问题，我们使用随机样本训练这些方法。所有方法都用Adam优化器进行了优化4.1.4执行。对于GCN，SGC和GAT，我们基于DGL实现它们[32]。对于GPRGNN、FAGCN、CARE-GNN和R-U-R，连接同一用户发布的评论，2）R-S-R，连接具有相同星级的同一产品下的评论3）R-T-R，连接同一个月发布的同一产品下的两个评论亚马逊数据集包括乐器类别下的产品评论。Amazon数据集的节点是具有25个手工特征的用户，并且该数据集包括三种关系：1）U-P-U，其连接评论至少一个相同产品的用户，2）U-S-U，其连接在一周内具有至少一个相同星级的用户，3）U-V-U，其连接所有用户中数据集的统计数据见表1。4.1.2基线。我们比较了几个国家的最先进的基于GNN的方法来验证H2-FDetector在欺诈检测的有效性。传统的GNN：GCN[13]，SGC[34]和GAT[28]将所有连接视为同性连接，而不考虑异性连接。改进的GNN：GPRGNN[4]和FAGCN[1]探索了ho-通过分别设计基于广义寻呼机和自门控机制的GNN聚集机制，实现了图中的亲和异亲连接。我们使用传统的GNN或改进的GNN来获得欺诈图中节点的表示，然后使用分类器来识别欺诈者。基于GNNs的欺诈检测：CARE-GNN[6]和 PC-GNN[17]是最先进的基于GNN的欺诈检测方法他们发现欺诈者经常通过与良性实体连接来伪装自己，因此他们使用欠采样方法来减少这种噪音，并通过考虑所有连接都是同性恋来使用传统的GNN聚合邻居H2-FDetector：我们提出的方法。本文还推导了两种H2-F探测器的变型，对它们的性能进行了全面的比较和分析其各组成部分的性能。是的，H2-FDetector\HP：移除异嗜性感知过程设c {l}= 1，（u，v）∈ E，l ∈ {1，...，L}）。PC-GNN，我们执行作者提供的源代码我们在Pytorch中实现了H2-FDetector [23]。所有型号都运行在Python 3.6.12上，1个NVIDIA Tesla V100 GPU，629GB RAM，2.20GHz英特尔至强E5-2650 CPU。4.1.5评价指标。欺诈检测数据集本质上是不平衡的，尽管欺诈者（阳性实例）占少数，但他们更关注。在本文中，我们使用四个评估指标来评估所有模型：召回率， AUC-ROC（AUC），F1-macro和GMean。其中，召回是最重要的欺诈检测。4.2异质性证据（RQ1）为了回答RQ 1，我们计算不同欺诈图中每个欺诈节点的异亲边与所有相邻边的异亲比，并从低到高统计具有相应异亲比的fruad节点数占整个图中所有fruad节点的比例（图3）。我们观察到，除了YelpChi的R-U-R关系之外，这些关系子图中包含大量的欺诈者，其异质性比率非常高。具体来说，在这些关系子图中，超过80%的欺诈者具有超过50%的异嗜率，超过55%的欺诈者具有超过80%的异嗜因此，异亲连接在欺诈检测中广泛存在，基于图的欺诈检测器应该同时考虑同亲连接和异亲连接。4.3性能比较（RQ2）为了回答RQ 2，我们比较了H2-FDetector的性能与最先进的方法。相应的Recall、AUC、F1-macro和GMean如表2所示，我们可以进行以下观察。首先，H2-FDetector显著提升了所有Yelpchi数据集上的指标比基线方法的SOTA结果2紫外线分别提高3.76%、12.86%、14.15%和14.29H-FDetector\PE：删除原型提取过程。4.1.3实验设置。对于H 2-FDetector，学习率设置为0. 1，权重衰减为0。00005，节点嵌入的维度设置为8，头部的数量为4，层数设置为2，Nepoch为1000。为了避免过度拟合，我们使用所有方法的dropout机制，H2-FDetector的dropout率设置为0。1.对于YelpChi数据集，两个超参数γ1和γ2都设置为1。2，对于Amazon数据集，它们被设置为在Recall、F1-macro、AUC和GMean中。在Amazon数据集上，我们观察到H2-FDetector在除F1-macro外的大多数指标下都优于其他基线在F1-macro上，H2-FDetector的性能优于传统的GNN和改进的GNN，但不如基于GNN的欺诈方法。原因在于，一些良性主体被误判为诈骗分子。在亚马逊数据集中，欺诈者很少（表1中为6.87%），这导致良性实体的大多数相邻边缘是同性恋的，亚马逊11,944（6.87%）U-P-UU-S-U7，132，958阴性7，8182，073，474未标记三1493调用F1-宏AUC G均值\\H2-FDetector：A GNN based Fraud Detector with Homophilic and Heterophilic Connections WWW表2：YelpChi和Amazon的性能比较方法数据集Yelp Chi亚马逊度量召回F1-宏AUCGMean召回F1-宏AUCGMeanSGC0.00710.46530.52430.08370.44550.66520.82180.6397嗜同性GCN0.56450.49710.61120.57750.66360.65770.83390.7473GAT0.57710.48780.60910.57360.45450.69480.83380.6536嗜异性GPRGNN0.80770.58570.79520.71670.88790.72850.94560.8708FAGCN0.82340.54480.77220.68450.83940.82990.94940.8887欺诈检测CARE-GNNPC-GNN0.70520.67210.60060.62730.77050.78500.70520.70880.88520.83030.89220.89560.94160.95860.88620.9030消融H2-F检测器\H PH2-F检测器\PE0.82270.85950.54880.66060.74590.87640.68800.78660.67580.86060.78160.81780.92670.95320.79830.8943H2-F检测器0.87330.69440.88770.81600.90610.83920.96890.92030.90.80.70.60.50.40.30.20.70.60.50.40.30.21.0U0.90.80.70.60.50.40.30.20.10.00.20.40.60.81.0版1.21.41.6一点八2.01.00.90.80.70.60.50.40.30.20.10.0调用F1-宏AUC G均值0.20.40.60.81.0版1.21.41.6一点八2.00.10NN0.10.20.30.40.50.60.70.80.91.0版0.10NN0.10.20.30.40.50.60.70.80.91.0版(a) YelpChi上的超参数γ1(b) 亚马逊上的超参数γ1(a) Yelp Chi(b) 亚马逊图4：超参数γ1的灵敏度分析。图3：异嗜性证据。x坐标表示欺诈节点邻域中异亲边的异亲比。y坐标表示具有对应异质性比率的欺诈节点与所有欺诈节点的比例。“NN” represents the fraud nodes without1.00.90.80.70.60.50.40.30.21.00.90.80.70.60.50.40.30.20.1 0.10.00.20.40.60.81.0版1.21.41.6一点八2.00.00.20.40.60.81.0版1.21.41.6一点八2.0但也可能存在一些异嗜性边缘。我们的方法是-(a) YelpChi上的超参数γ2(b) 亚马逊上的超参数γ2这将增加良性实体被判断为欺诈者的概率。在基准方法中，传统的GNN方法（GCN、SGC和GAT）和基于图的欺诈检测方法（CARE-GNN、PC-GNN）都将欺诈图视为亲同的，而改进的GNN方法GPRGNN和FAGCN将欺诈图视为同时处理亲同边和异边。从表2中可以看出，在召回率上，GPRGNN和FAGCN明显优于其他方法，这表明同性和异性连接可以发现更多的欺诈者。考虑到两个同性和异性的边缘，我们的方法是优于GPRGNN和FAGCN不仅在召回率，而且在其他评价指标。这是因为我们的方法不仅可以感知同性和异性连接，增加欺诈者的全局原型信息，而且可以将这些模块组合为一个整体。图5：超参数γ2的灵敏度分析。4.4消融研究（RQ 3）为了回答RQ3，我们分别通过去除异质感知和原型提取来构建两个消融模型两个数据集的结果见表2。我们可以观察到两个变体的性能明显下降，这表明两个模块对H2-FDetector的有效性。与GPRGNN和FAGCN相比，H2-F检测器PE亚在Yelpchi数据集上的表现远远优于这些方法，spect的所有指标，并略优于这些方法对Ama-zon数据集方面的召回，AUC和召回。这些结果表明，H2-FDetector PE能通过感知同性和异性的边缘来更准确地识别欺诈者。R-U-RR-T-RR-S-R调用F1-宏AUCGmean调用F1-宏AUCGmeanU-P-UU-S-UU-V-1494WWW(a)GCN（b）GAT（c）CARE-GNN（d）PC-GNN（e）FAGCN（f）H2-F检测器图6：可视化。红色和蓝色节点分别代表欺诈者和良性实体4.5敏感性分析（RQ4）为了回答RQ 4，我们评估了H2-FDetector相对于超参数γ1和γ2的性能。对于每个超参数，我们保持模型的其余参数不变，然后我们记录相应的结果，同时以0.2的步长从0.2变化到结果如图4和图5所示。从图4（a）中，我们发现当γ1在1附近时，所有指标都当γ1较低时，异质性感知可能没有得到充分的训练，并且可能引入更多的噪声，这导致AUC、F1-macro和GMean较低。而引入异亲感知损失可以包括异亲邻居，这为欺诈节点提供了更多的信息，并且更好地召回。否则，如果γ1太高，其他模块将难以训练，从而降低模型的性能。对于Amazon数据集，它包含的欺诈节点非常少，因此很容易训练异质感知因此，γ1在Amazon数据集上更稳定，如图4（b）所示。从图5（a）和（b）中可以看出，随着γ 2的增大，模型的性能先下降后提高，最后保持平稳。这一现象表明，较低的γ2不能充分引入全局信息，而较高的γ2不能引入更多的有效信息。因此，将γ2设置在中间值（如1.2）附近是合理的4.6可视化（RQ5）为了回答RQ5，我们可视化了不同模型的节点嵌入，并以YelpChi数据集为例。具体地，基于近似局部聚集机制，我们将H2-FDetector与GCN、GAT、GPRGNN、CARE-GNN和PC-GNN进行了比较。首先，我们学习32维向量空间中不同方法的节点嵌入，然后我们使用t-SNE [27]将32维映射到2维空间进行可视化。为了高效和方便的展示，我们展示了测试集的结果，并随机选择了相同数量的阴性样本作为阳性类别。实验结果如图6所示。从这些结果中，我们可以得出以下结论。首先，与基于同质性的方法（GCN，GAT，CART-GCN，PC-GNN）相比，H2-FDetector明显地实现了欺诈节点与良性节点的分离。GCN和GAT产生最差的分离，这是由于将两种连接类型视为唯一一个. 虽然CARE-GNN和PC-GNN降低了异嗜邻居的影响，但这两种方法都不能区分欺诈节点和良性节点。因此，证实了异嗜邻居提供了关于类之间的差异，可用于将欺诈节点的表示与良性节点的表示进行其次，与同时考虑同亲和异亲连接的 FAGCN相比， H2-FDetector产生了更强的类内凝聚力和类间分离。这证明了H2-FDetector能够引入全局信息，更准确地区分两种连接.5相关工作基于异质性的图神经网络。考虑到基于亲同假设的GNN的局限性，设计同时考虑亲同和异亲连接的GNN受到了越来越多的关注有两种方法：1）第一种方法是减少图中的异亲连接[37，39]。 WRGAT [26]通过图结构学习（GSL）[2，8，14]提高了图的可拓性。2）第二种方式通过设计新的聚合策略结合了亲同和异亲节点的特征[40]。GPRGNN [4]自适应地学习GPR权重，从而优化具有同亲和异亲邻居的节点特征FAGCN [1]使用自门控机制来聚集嗜同性和嗜异性邻居。基于GNN的欺诈检测基于目前的同性恋假设[31]。然而，在欺诈检测中存在许多异嗜性连接为了确保homophilic方法更好地工作，已经提出了一些方法[6，17]。 GraphConsis [20]采用三种机制来解决欺诈检测中的不一致性。有的利用异构图来丰富节点信息。 LIFE [30]进行节点和边缘的嵌入式学习。 IHGAT [16]编码了类似序列的意图和交易之间的关系，用于欺诈交易检测。然而，同亲假设限制了上述方法包含来自异亲连接的类别差异信息。6结论本文首先考虑了欺诈检测中的亲同连接和异亲连接，提出了一种基于图神经网络的亲同异亲连接欺诈检测器（简称H2-FDetector）。在两个基准欺诈数据集上的实验证明了该方法的有效性.致谢本研究得到了中国科学院青年创新促进会（No.2018192）、中国科学院战略重点研究计划（资助1495H2-FDetector：A GNN based Fraud Detector with Homophilic and Heterophilic Connections WWW项目编号：XDC 02030000）、国家自然科学基金项目编号：61872360、中国科学院青年基础研究项目编号：YSBR-008。我们要感谢匿名评论者的宝贵意见。引用[1] 博德宇，小王，石传，沈华伟。2021年图卷积网络中的超低频信息。在AAAI。Press.[2] Yu Chen，Lingfei Wu，and Mohammed J. Zaki. 2019.图神经网络的深度迭代和自适应学习。CoRRabs/1912.07832（2019）。http://arxiv.org/abs/1912.07832[3] Dawei Cheng，Sheng Xiang，Chencheng Shang，Yiyi Zhang，FangzhouYang，and Liqing Zhang.2020年。基于时空注意力的神经网络在信用卡欺诈检测中的应用。在AAAI人工智能会议论文集，第34卷。362-369[4] Eli Chien，Jianhao Peng，Pan Li，and Olgica Milenkovic. 2021.自适应通用广义 PageRank 图神经网络。在国际学习代表会议上。https://openreview.net/forum? ID=n6jl7fLxrP[5] Sarthika Dhawan ， Siva Charan Reddy Gangireddy ， Shiv Kumar ， andTanmoy Chakraborty. 2019.发现客户评论中的在线欺诈行为。在第二十八届国际人工智能联合会议的会议记录，IJCAI 2019，中国澳门，2019

下载后可阅读完整内容，剩余1页未读，立即下载