没有合适的资源?快使用搜索试试~ 我知道了~
32DC-GNN:用于改善和加速大规模电子商务检索的解耦图神经网络冯晨晨fcc19@mails.tsinghua.edu.cn清华大学中国北京刘国军. alibaba-inc.com阿里巴巴集团中国北京摘要余和herve. alibaba-inc.com阿里巴巴集团中国北京Liang WangLiangwang.alibaba-inc.com阿里巴巴集团中国北京郑波bozheng@alibaba-inc.com阿里巴巴集团中国北京关键词施阳文shiyang. alibaba-inc.com阿里巴巴集团中国北京徐剑xiyu. alibaba-inc.com阿里巴巴集团中国北京在大规模的电子商务检索中,图神经网络(GNNs)由于其强大的拓扑特征提取和关系推理能力而成为研究的热点之一。然而,传统的基于GNNs的大规模电子商务检索存在训练效率低的问题,因为这样的场景通常具有数十亿个实体和数百亿个关系。在效率限制下,只能采用浅图算法,严重影响了GNN的表示能力,从而降低了检索质量。为了解决训练效率和表示能力之间的矛盾,提出了解耦图神经网络(DC-GNN)来改进和加速基于GNN的大规模电子商务检索。具体而言,DC-GNN将传统框架分为三个阶段:预训练,深度聚合和CTR预测。DC-GNN通过解耦图运算和点击率预测,有效地提高了训练效率。更重要的是,它可以实现更深层次的图操作,以充分挖掘更高阶的邻近性,从而提高模型性能。在大规模工业数据集上的大量实验表明,DC-GNN在模型性能和训练效率方面都有显着提高。CCS概念• 信息系统→信息检索。两位作者都对这项工作作出了同等的†在阿里巴巴集团实习允许免费制作本作品的全部或部分的数字或硬拷贝,以供个人或课堂使用,前提是制作或分发副本的目的不是为了盈利或商业利益,并且副本的第一页上版权的组成部分,这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要 以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会。ACM ISBN 978-1-4503-9130-6/22/04。. . 十五块https://doi.org/10.1145/3487553.3524203图神经网络,信息检索,图加速ACM参考格式:Chenchen Feng,Yu He,Shiyang Wen,Guojun Liu,Liang Wang,Jian Xu,and Bo Zheng.2022年DC-GNN:用于改进和加速大规模电子商务检索的解耦图神经网络。 在网络会议2022(WWW '22同伴)的同伴程序,2022年4月25日至29日,虚拟活动,里昂,法国。ACM,New York,NY,USA,9页。https://doi.org/10.1145/3487553.35242031介绍近几十年来,在线电子商务平台(如eBay、亚马逊、淘宝)在人们的日常生活中越来越受欢迎[ 9,34 ]。这些平台涉及搜索、推荐和广告系统,是帮助用户更好地从数十亿产品中找到自己所需的必不可少的部分,越来越受到学术界和行业的关注[5]。这些系统的主流解决方案通常遵循多级级联架构[25]。以淘宝赞助搜索系统为例,该系统大致可以分为两个阶段:检索阶段和排名阶段。 检索阶段负责以最少的计算资源从庞大的语料库中收集一组相关产品。然后,排名阶段是对迷你集产品进行排名,并根据赞助拍卖确定其印象位置[4]。 在这两个阶段中,点击率(CTR)的预测(旨在估计用户在搜索查询下点击广告(ad)的概率)起着至关重要的作用[23]。相应地,检索阶段的CTR预测旨在从数十亿产品中有效地搜索前数百个候选项,而排名阶段的CTR预测则是复杂的,以对检索到的数百个候选项进行排序。 在本文中,我们重点关注检索阶段,由于候选产品数量巨大,CTR预测模型通常被设计为双塔架构[19]。双塔CTR模型学习用户(和/或查询)和广告之间的CTR感知嵌入向量,然后近似最近WWWFeng and He,etal.33在联机检索模块中,利用人工神经网络(ANN)算法可以有效地最近,图神经网络(GNNs)已成为大规模电子商务检索的最先进技术之一[6] 。各种图模型,如GCN [20]、GAT [39]和Graph-SAGE [11],在拓扑特征提取和关系推理方面显示出巨大的潜力。GNN的核心是迭代地将邻居的信息聚合到目标节点,这可以有效地捕获图中的高阶邻近度,以缓解数据稀疏问题[24]。传统的基于GNNs的大规模电子商务检索面临两大挑战。首先,这种检索场景通常具有数十亿个实体和数百亿个关系。 如此庞大的图数据量导致训练样本的快速膨胀,这会严重降低图模型的训练效率。同时,大多数GNN方法本质上依赖于昂贵的消息传递过程来通过图传播信息 随着图层数的不断增加,邻域和计算复杂度呈指数级增长。因此,大量的图数据和复杂的图操作同时设置了很大的限制,训练效率的传统GNNs为基础的大规模电子商务检索。其次,在效率限制下,只能采用浅图算法例如,大多数当前的工业图模型通过仅堆叠几个层(例如,1或2层)[24]。从概念上讲,浅图操作仅捕获每个目标节点的非常有限的邻域的信息,这严重阻碍了GNN的表示能力,因为更大的邻域将为模型提供更多的信息[21]。目前针对上述挑战的研究可以分为两类:图预训练和轻量级图模型。图预训练主要包括基于skip-gram的嵌入模型[30,32,33]和GNNs预训练方法[10,17,35]。图预训练的主要目标是学习可转移的先验知识,这些知识可以推广到下游任务,并促进模型训练。然而,同时学习节点属性以及深层结构信息仍然是图预训练方法的挑战。此外,从效率的角度考虑,深度图操作仍然不能用于挖掘对提高模型性能有重要意义的高阶邻近度。另一方面,已经研究了各种轻量级图模型,以使深度图操作在大规模工业图上更具可扩展性[1,14,42]。这些方法提出通过简化图运算符来降低GNN的复杂性,以提高模型训练效率[21,41]。 虽然取得了一定的进展,但在大规模的电子商务检索中,它们只能提高微不足道的加速。不幸的是,简化图操作符将显着恶化的图表示能力,这是不能容忍的属性图。为了解决上述问题,我们提出了解耦图神经网络(DC-GNN),其将用于大规模电子商务检索的传统的基于端到端GNN的双塔CTR预测框架简化为三个阶段:预训练、深度聚合和CTR预测。更具体地说,鼓励预训练阶段通过精心设计的监督和自监督多任务来学习丰富的节点属性。接下来,DC-GNN使用线性扩散算子进行深度聚合,以有效地捕获和保留图中的高阶邻近度,从而进一步增强节点嵌入。在这种聚合过程中,每个目标节点将其不同k阶邻居传递的消息组合在一起,从而可以有效地从深度图结构中提取额外的重要信息在前两个阶段之后,图中的每个节点将保留图的属性和结构特征,以为CTR预测阶段提供特征嵌入。值得一提的是,DC-GNN的每个阶段都可以与现有的最先进的(SOTA)模块兼容。总之,这项工作的贡献可以概括如下:我们提出了一个新的框架,DC-GNN,它将传统的基于GNNs的双塔CTR检索预测范式分为三个阶段,同时提高训练效率和代表性能力。DC-GNN的每一阶段都可以与现有的SOTA方法兼容,以进一步提高性能。在预训练阶段,我们设计了一个有监督的链接预测任务和一个自监督的多视图图对比学习任务,共同学习丰富的节点属性,增强GNN的鲁棒性在深度聚合阶段,采用一组线性扩散算子来进一步挖掘和保留图中的高阶邻近性以增强节点嵌入,同时将GNN的指数计算复杂度降低为与图层线性。我们在大规模工业数据集上进行了广泛的实验,证明了DC-GNN在以下方面模型训练效率和代表性能力。DC-GNN的每个阶段的贡献也进行了本文的其余部分组织如下。第2节回顾了相关工作,然后在第3节介绍了DC-GNN框架。然后,第4节介绍了实验结果和分析,最后在第5节中得出结论。2相关工作在本节中,我们将回顾图预训练和轻量级GNN的相关工作2.1图形预训练2.1.1基于Skip-gram的模型预训练图表示的早期尝试是基于skip-gram的嵌入模型,其灵感来自word 2 vec [22,27],LINE[38],node 2 vec [8]和metapath 2 vec [2]。这些作品学习节点的潜在表示,通过处理截断随机游动图中的句子的等价物。它们中的大多数探索邻域和节点的结构相似性,并遵循基本假设,即紧密连接的节点应该以更近的距离投影到嵌入空间。通过上述方法学习的嵌入与训练图捆绑在一起,导致相对较差的泛化能力。2.1.2预训练GNN。预训练GNN的主要目标是学习可转移的先验知识,这些知识可以推广到····DC-GNNWWW34图1:DC-GNN框架。在预训练阶段,设计了多个任务来学习丰富的节点属性,提高泛化能力。在深度聚集阶段,提出了异构线性扩散算子来捕获高阶图结构。双塔CTR阶段将先前生成的节点嵌入作为输入来执行预测。下游任务[26],同时减少标记负担并充分利用丰富的未标记数据。GNN预训练方法通常使用精心设计的相关任务来优化GNN。例如,[17]探索了三个自我监督的预训练任务来捕获图的结构信息,而[36]通过最大化图级表示与不同尺度的子结构表示之间的相互信息来优化图级表示。[16]设计了一个自我监督的属性图表示任务来预训练GNN。 与上述专注于图级或节点级方法相反,[15]在局部和全局级别上使用不同的策略预训练图,以增强泛化能力。另一方面,对比学习已经成为图形表示学习的强大策略[29,40,46]。例如,[31]设计了一个子图实例判别任务,并利用对比学习来学习可转移的图结构表示。[37,43,46]探索对比学习中的不同图增强方案- 节点丢弃、边丢弃和随机游走-以生成多个图形视图。[12]使用图扩散来生成图的附加视图,以实现更好的表示性能。我们的DC-GNN框架在两个方面不同于图预训练方法首先,同时学习图的属性和深层结构属性仍然是图预训练方法的挑战。相比之下,DC-GNN专注于在预训练阶段学习具有多任务的节点属性,而在深度聚合阶段有效地捕获高阶邻近度其次,考虑到大规模工业图的训练效率和复杂性,复杂的图操作难以应用于图预训练方法。DC-GNN通过解耦属性学习和深度结构学习,可以显著提高GNN的表示能力和训练效率。2.2轻量级GNN将GNN扩展到工业环境被认为是一个重大挑战,因为图通常包含数十亿个实体和数百亿个关系。同时,在典型的图中,邻域大小随滤波器感受野的增大而增大对应于显著的计算复杂度。已经研究了许多基于采样的方法来降低计算复杂性[11]。最近,已经提出了各种轻量级GNN来打破可扩展性瓶颈。例如,[14,42]提出删除非线性并折叠图形连续层之间的权重矩阵,以降低GNN的复杂性。 [1,21]探索了GNN和PageRank之间的关系[28],并提出了一种有效的图中信息扩散近似,以构建快速训练图模型。[7]提出了一种可扩展的初始架构,它结合了不同大小的图卷积滤波器来加速训练。我们的DC-GNN框架在两个方面优于轻量级GNN在大规模电子商务检索。首先,轻量级GNN专注于优化图运算符,当部署在工业环境中时,这只能促进微不足道的加速。DC-GNN是对传统框架的一种改进,可以大大提高效率。其次,简单的图操作简化会降低图的表示能力,特别是在属性图中。相比之下,DC-GNN可以有效地学习图的属性和结构,增强模型培训能力和培训效率。3方法在本节中,我们首先概述了拟议的DC-GNN框架。然后,我们详细介绍了每个阶段,从基于多任务的预训练阶段开始,然后是深度聚集阶段。最后,我们简要介绍了双塔CTR预测阶段。3.1符号在介绍该方法之前,我们首先给出了符号的定义。设G=(V,E)表示一个图,其中V={v1,v2,. vN}且E ={e1,e2,.,eN×N}分别是节点集和边集。G具有节点属性{Xv ∈ RN ×F |v ∈ V}。作为-证明了G的邻接矩阵为A ∈ {0, 1}N×N,RW:随机游走查询用户广告我(query,user)查询一adL林$链接预测X…[$,A$,A2 $,A3 $]RW多任务一个ConcatCTR查询主图…对比学习&预训练节点嵌入聚合节点嵌入一个子图GCN表示1第一阶段:预培训关系子图2第二阶段:深度聚合ad3阶段3:双塔CTRDNNDNNWWWFeng and He,etal.35n(X)A)→NA()∈Env在第一子图中的查询节点和广告节点为了优化模型参数,我们将链接预测任务框架为监督学习,并采用NCE损失[27]。优化目标可以定义为:(一)(b)第(1)款Llink = .(−log σ(fs(q,ip))−.log(1 − σ(fs(q,ik),(1)图2:硬负面挖掘。(a)硬度可调k-(q,ip)∈Ek跳负。(b)结构消极因素。通常稀疏,i,j=1,如果vi,vj. 我们将节点v的邻居集表示为v。预训练阶段的目标是学习GNNs编码器,即f1:v,RN×F′,作为输入节点属性和图结构,可以生成节点在低维F′中嵌入h1。注意h1=f1(Xv,A)其中fs度量两个向量之间的相似性,其被设置为余弦相似性函数。q和ip表示一对正样本,表示图中q和ip之间存在边ik是第k个负样本。注意,我们使用点击关系作为图中的边,因此该目标在某种程度上与CTR预测阶段的目标一致,这意味着我们使用在预训练中使用CTR来指导节点嵌入更新v v硬否定挖掘(ik)可以促进嵌入学习-可以进一步用于下游任务。类似地,在深度聚合阶段,我们定义节点表示为h2,嵌入维数为F′′相应地,深凝聚阶段为f2:(h1,A)→RN×F′′。然后,CTRn通过使模型更好地区分类似的结果[18]。在链接预测任务中,为了将GNNs应用于节点属性学习,我们探索了两种硬否定。预测阶段采用h2v硬度可调的K-Hop底片。如图2a,tak-用于检索。v作为输入以获取预测分数以目标节点作为查询节点为例,选取k跳(k≥2)的ad邻居作为负样本。值得注意的是3.2DC-GNN框架DC-GNN本质上是将传统的基于端到端GNNs的双塔CTR预测框架分为三个阶段进行检索的表示能力和训练效率。如图1所示,在预训练阶段,我们设计了一个有监督的链接预测任务和一个自监督的多视图图对比学习任务,共同学习节点属性,提高GNN的鲁棒性接下来,在深度聚合阶段,我们提出了异构线性扩散算子来有效地挖掘高阶图结构属性,以进一步提高表示能力。最后,增强的节点嵌入为双塔CTR预测阶段提供密集特征输入。3.3预训练为了有效地学习富节点属性信息,我们首先在预训练阶段设计了一个有监督的链接预测任务此外,我们补充了一个自我监督的多视图图对比学习任务,以提高GNNs的鲁棒性和泛化能力。图1中的阶段1表示预训练的过程大规模异构产业图基本上包括查询节点、用户节点和广告节点,每个节点都承载着丰富的属性。图中的边表示点击行为。 考虑到效率,我们执行随机游走(RW)的异构图生成三个子图为每个目标节点。第一个子图用于链接预测任务,其余子图用于多视图图对比学习任务。3.3.1链接预测 链接预测[45]是预测图中的两个节点是否可能有边。如图1中的阶段1所示1,预训练图编码器聚合来自邻居的信息以生成目标节点嵌入。我们用预测是否有边的任务来预训练图编码器我们可以通过改变参数k。图中距离目标节点越近的广告邻居越困难,而距离目标节点越远的广告邻居越简单。 这种否定忽略了图的结构,并将GNN强加于节点属性信息学习。结构消极。另一种类型的底片如图所示。2b. 我们保留了正广告的邻域结构,并将正广告替换为来自全局负抽样策略的负广告。从概念上讲,这样的结构否定生成一个伪子图,具有与原始真子图相同的拓扑结构,并保持全局否定的随机性因此,在正负图结构相似的情况下,GNNs将更加关注节点属性学习。此外,由于GNN本质上严重依赖于图结构,因此这些否定也有助于缓解过度平滑问题。3.3.2多视图图对比学习。 在工业环境中,由于效率的限制,节点嵌入更新通常以子图的形式进行。 我们选择随机游走(RW)来生成[44]之后的子图,因为它可以在局部结构中保留许多语义,这与我们的预训练阶段的目标一致。子图的生成固有地引入了随机性和干扰,这意味着对于相同的目标节点,每个生成的子图很可能是不同的。因此,为了增强GNNs的鲁棒性和捕获节点泛化特性,我们补充了一个自监督多视图图对比学习任务。如图 1阶段1,第二和第三子图是同一目标节点的两个增强视图,它们被视为正对(即,q1和q2)。 任何不同目标节点的增强视图被视为负对(即,q1和v2)。采用对比损失InfoNCE[43]来最大化正对的一致性并最小化负对的一致性。的科隆科隆科隆…DC-GNNWWW36..−X...−LvXXA A a1v目标节点查询的优化目标可以定义为:异构线性扩散操作本质上是一个L查询 =q∈vlogexp(w fs(q1,q2))vexp(w fs(q1,v2))、(二)并行前向传播策略,可以有效地降低图中指数增长的计算复杂度vq∈V其中vq表示图中的查询节点的集合 w是softmax中的温度参数,fsim是相似性度量函数。类似地,我们可以为目标节点用户和广告驱动优化目标:在图形操作级别上进行计算此外,我们保留节点局部性(即,在最终节点表示中保持靠近目标节点以减轻过度平滑问题,同时利用来自较大邻域的信息来增强节点嵌入。在此阶段之后,图中的每个节点,L用户=u1∈vu,vu∈V日志exp(w fs(u1,u2))vexp(w fs(u1,v2)).exp(wfs(i1,i2))、(3)通过从深度图结构中提取的附加重要信息来增强所学习的丰富属性的基础。接下来,增强的节点嵌入为双塔CTR预测阶段提供密集特征输入。哪里Lad=i1∈vi,vi∈V–、(四)vexp(w fs(i1,v2))3.5 CTR预测由于候选产品数量巨大,CTRvu和vi分别表示图中的用户和广告节点的集合。结合上述三种损失,我们将多视图图对比学习任务的目标函数驱动为:反L =L查询 +L用户 +Lad.(五)最后,我们利用多任务训练策略来联合优化链接预测和多视图图对比学习检索阶段的模型通常被设计为双塔体系结构。因此,在这个阶段,我们建立了一个双塔CTR预测模型,其中一个塔是(查询,用户),另一个是广告。如示于图1阶段3,由前两个阶段生成的节点嵌入为CTR模型提供密集特征输入该阶段的目标函数可以定义如下:任务预训练阶段的损失函数可以定义为:2L=.(−logσ(f((q,u),i))−.log(1−σ(f((q,u),ik),L总 =L链接+λ1L控制+λ2<$θ<$2,(6)其中θ是模型参数,λ1,λ2是超参数,CT RsK的光伏(八)平衡contra和L2正则化。经过第一阶段,嵌入图中的每个节点都学习了丰富的属性信息。3.4深度聚合在预训练阶段之后,深度聚合旨在挖掘高阶图结构以进一步增强节点嵌入。众所周知,GNN的递归消息传递过程会导致指数计算复杂度。同时,堆叠多个GNN层容易过度平滑,因为太多的层会导致无法区分的节点表示[24]。为了解决上述两个问题,我们提出了一组异构线性扩散图算子,将可扩展的初始架构[7]扩展到异构图。如示于图 第二阶段,首先为异构图中的每个目标节点导出三个关系子图。以目标节点为查询为例,可以分别对目标节点的查询子图、用户子图和广告子图进行采样,每个子图只包含一种关系类型的节点。{,2,3,.}分别表示关系子图的预先计算的一阶、二阶、三阶和高阶邻接矩阵,旨在捕获和维护图中的不同k阶邻近度请注意,区分不同k阶的信息是必要的,因为这将迫使更充分地学习图结构,这是我们深度聚合阶段的明确目标。假设从第一阶段学习的节点表示是,即,h1=,通过第二阶段增强的节点嵌入可以是描述如下:其中fs表示相似性度量函数。我们使用(查询,用户)-广告点击结果作为积极的(即,(q,u)和i*),并且结果印象深刻但不点击为负数(即,(q,u)和ipv)。4实验在本节中,我们进行实验来验证所提出的DC-GNN框架的模型性能和训练效率首先,我们在第4.2节中比较了DC-GNN与SOTA竞争对手,包括轻量级图模型和图预训练方法。接下来,在第4.3节中,我们分别评估预训练中的多任务和设计的否定,并分析深度聚合阶段的聚合层和邻居。在第4.4节中,我们进行了DC-GNN的参数研究。综上所述,进行实验以回答以下问题:与SOTA方法相比,DC-GNN的性能如何• RQ 2:DC-GNN每个阶段的贡献是什么• RQ3:通过调整参数可以达到什么效果4.1实验装置4.1.1数据集。 为了评估DC-GNN的有效性和效率,我们在从淘宝收集的行业规模异构图数据集上进行了实验。淘宝图是通过收集淘宝赞助搜索平台上7天的用户点击行为日志2 2 23即查询(q)、用户(u)和广告(i),以及三种类型的边,即一hv=f(X,A)=[X,AX,AX,AX],(7)用户搜索查询(u-q),然后点击广告(u-i,q-i)。的其中h2表示深度聚合中的节点表示不同关系图的表示将被联系在一起。·与图层成线性关系因此,它可以加速q,DC-GNNWWW37图中包含数十亿个节点和数百亿条边,统计数据显示在Tab中。1.在[13,24]之后,我们随机WWWFeng and He,etal.38||(↑)(↓)(↑)阳性表1:淘宝数据集的统计数据类别类型统计总q305,728,622节点乌西河916,111,617348,409,723567,396,166边缘Q-Iu-Iu-Q2,343,149,0485,917,118,4171,985,915,27810,246,182,743i、u和i分别表示查询、用户和广告。将数据集以9:1的比例分成训练集和测试集进行评估。可以看出,这种大规模的工业异构图适合于分析我们的方法和竞争对手的性能。4.1.2评价我们采用时间消耗来评估训练效率,并采用两个广泛使用的评估指标AUC和Hit-rate@K来评估模型性能。更少的时间消耗意味着更高的训练效率,更高的AUC意味着更好的预测性能。至于Hit-rate@K,我们基于来自具有数十亿产品的整个语料库的CTR分数来检索每对查询的前k个偏好广告,并且针对测试集中的正面广告来评估前k个然后,可以将Hit-rate@K定义为在前k个检索列表中命中的正面广告占测试集中正面广告总数的比例点击率@ K=点击次数@ K。该指标直接测量根据所应用的CTR模型可以检索较高的命中率@K表示较好的检索质量。在我们的实验中,K分别设置为100、200、500和1000。4.1.3参数设置。图生成器在阿里巴巴开放数据处理服务(ODPS)分布式数据分析框架1中实现,模型用Tensorflow2实现。所有模型的基本嵌入维数设置为64,批量大小固定为1024。使用AdaGrad [3]优化器优化模型,学习率为0.1,衰减率为1。在{1 e-6,1 e-7,1 e-8}的范围内搜索L2正则化系数λ2此外,我们在{1,2,3,4,5}范围内调整GNNs层大小以验证模型性能。4.2与SOTA方法的比较(RQ 1)在本节中,我们将DC-GNN与SOTA方法在模型性能和训练效率方面进行比较。选项卡. 2显示了实验结果。最好的结果用粗体突出显示,第二好的结果用下划线突出显示。4.2.1基线方法。为了验证DC-GNN的有效性,我们选择了属于以下两类的代表性基线方法:轻量级GNN,包括基于采样的GNN(LasGNN,GraphSAGE [11])和高效传播GNN1https:alibabacloud.com/pr或duct/maxcompute.2https://www.tensorflow.org表2:DC-GNN和SOTA竞争对手的整体性能模型AUC命中率@100命中率@200命中率@500命中率@1000LasGNNGraphSAGESGCLightGCN0.61190.60210.59230.59200.48980.49780.46740.46710.56080.56990.54320.54540.64650.65730.63540.64150.70300.71490.69600.7051node2vec-Pfnode2vec-PtGCC-PfGCC-PtGCA-PfGCA-Pt0.55320.61350.51460.59790.52170.58000.23680.45310.04920.36430.08770.39100.28430.52620.08660.44430.13050.45290.35870.61700.16780.54990.20850.56540.42500.67830.25710.62480.28360.6462DC-GNN-PfDC-GNN-PtDC-GNN0.57360.62970.65430.30920.47670.49100.37970.55230.56770.47810.64600.66500.55300.70800.7322(SGC[42],LightGCN [14])和图形预训练模型,包括跳过语法方法(node2vec [8] )和预训练 GNN 方法 ( GCC [31],GCA[46])。这些基准模型的简介如下:LasGNN:LasGNN是一个基于采样的图模型,适用于淘宝广告检索场景。该方法提出了一种分层采样的方法,降低了计算复杂度,表现出良好的性能。GraphSAGE[11]:GraphSAGE提出了一种采样策略,以避免不可预测的内存和预期的运行时间,有助于固定的每批空间和时间复杂度。SGC[42]:SGC通过连续去除非线性和折叠连续图层之间的权重矩阵来简化GNN,有效地降低了过度的复杂性。LightGCN[14]:LightGCN简化了GNN的设计,只包含最重要的组件-邻域聚合-使其在大规模图上更具可扩展性node2vec[8]:node2vec定义了一个灵活的邻域概念,并提出了一个改进的随机游走算法来捕获图中连通模式的多样性。GCC[31]:GCC提出了一个基于自监督对比学习的遍历图,实现了良好的泛化。GCA[46]:GCA提出了一个通用的对比框架,用于在拓扑和属性级别上进行数据增强的图表示学习,以鼓励模型学习重要特征。4.2.2总体业绩。选项卡. 2显示了DC-GNN与竞争对手在AUC和Hit-rate@K方面的性能比较。为了公平起见,所有方法都是通过相同的学习策略优化的最好的结果用粗体突出显示,第二好的结果用下划线突出显示。通过实验结果,我们可以得到以下几点观察结果。首先,DC-GNN始终在AUC在所有SOTA方法中。如Tab中所示2、与·······DC-GNNWWW39GraphSAGELightGCNSGCLasGNNDC-GNN(·)(·)度量AUC2表3:预训练阶段多任务的效果1100101 2 3 4图形层数图3:DC-GNN与竞争对手的训练效率比较基于采样的轻量级GNN,DC-GNN比最好的基线LasGNN高出4.24%。这主要是因为DC-GNN可以捕获图中重要的高阶近似,这在基于采样的轻量级GNN中是不可访问对于有效传播的GNN,DC-GNN在最佳基线SGC的基础上实现了6.20%的改进。这些显著的改进验证了DC-GNN可以在大规模属性图中学习有效的特征,而高效的传播GNN由于表示能力减弱此外,DC-GNN在整个图中表现出强大的性能预训练方法。如Tab中所示2,Pf和Pt分别表示嵌入是固定的和可微调的。 DC-GNN比最佳图预训练基线node 2 vec-Pt 提 高 了4.08%,这是由于DC-GNN中的深度聚合阶段可以有效地挖掘重要的高阶图结构以增强模型性能。我们还设计了DC-GNN的两个变体,即DC-GNN-Pf和DC-GNN-Pt,它们直接将预训练阶段生成的嵌入馈送到双塔CTR预测阶段,以验证我们的预训练阶段的性能。我们观察到DC-GNN-Pf和DC-GNN-Pt分别比相应的最佳固定和微调基线提高了2.04%和1.62%。这表明我们的预训练阶段可以在CTR目标的指导下更好地优化节点嵌入。与此同时,DC-GNN-P在固定嵌入和可微调嵌入之间的差距(5.61%)小于其他图预训练方法(node 2 vec(6.03%),GCC(8.33%)和GCA(5.83%)),这意味着我们的预训练阶段可以实现更好的泛化性和鲁棒性。另一方面,我们在Hit-rate@K中评估模型性能,其中K分别设置为100,200,500和1000。如Tab中所示2、DC-GNN与所有基线相比都取得了明显的竞争效果,并且随着K的增加,优势逐渐扩大,特别是在Hit-rate@1000(比第二好的提高约3%)。结果表明,我们的方法不仅可以保持一致的召回率在顶部的候选人,但显着提高预测结果的中长尾候选人。关于训练效率,我们将DC-GNN与基于轻量级GNNs的方法。LasGNN的训练效率被设置为基线,其他方法的加速比如图3所示。可以看出,随着图卷积层的数量不断增长,训练WLP表示监督链接预测任务。图CL表示自监督多视图图对比学习任务。基于采样的轻量级图模型的复杂性急剧增加。与基于采样的模型相比,基于高效传播的轻量级GNN(即SGC和LightGCN)实现了更高的训练效率。这表明,丢弃线性变换和非线性激活模块促进了更快的训练,但代价是削弱了GNN的代表能力。相比之下,DC-GNN将图形操作和CTR预测进行了合并,允许训练时间独立于图形结构。因此,DC-GNN的训练效率不会随着图层数的增加而显著提高请注意,当图层数达到4时,DC-GNN的最大加速比超过100。从概念上讲,DC-GNN的加速比将随着图层数的增加而进一步扩大因此,DC-GNN本质上提供了一种新的基于CTR的检索框架,其训练效率不依赖于图结构,并且可以捕获图4.3DC-GNN(RQ 2)在本节中,我们将评估DC-GNN每个阶段的效果,主要集中在预训练和深度聚合阶段。我们首先检查预训练中多任务和否定的有效性然后,我们探讨了聚合层和邻居在深聚合阶段的效果4.3.1预备训练。 为了验证预训练阶段多任务的效果,我们比较了DC-GNN在有和没有特定链接预测任务和多视图图对比学习任务的情况下的性能。如Tab中所示3,LP表示模型通过链接预测任务单独优化,CL表示对比学习任务。最佳结果以粗体显示 可以看出,对于DC-GNN及其变体,LP和CL的联合优化始终实现最佳性能。此外,与DC-GNN- P相比,DC-GNN在单个任务和多个任务上都获得了最好的结果。这表明DC-GNN中的深度聚集在增强模型表示能力方面起着至关重要的作用。实验结果还表明,所提出的链接预测和对比学习任务都是必不可少的预训练阶段。我们还研究了在预训练阶段提出的k-hop和结构否定 这两个否定项旨在学习丰富的节点属性。 为了探讨这两种否定的有效性,我们分别比较了k跳否定、结构否定和全局否定的模型训练性能。实验结果如图所示四、 可以看出加速比(log10)10任务LP100公司简介LP + CLDC-GNN-PfDC-GNN-PtDC-GNN0.55630.58970.63460.54750.60040.63290.57360.62970.6543WWWFeng and He,etal.401.00.80.60.40.20.0DCGNN-Pf DCGNN-Pt0.600.590.530.610.600.560.650.620.600.630.570.53全局k-hop结构k-hop+struc.底片类型0.650.640.63AUC速度0 1 2 3 4 5聚合层数(一)1e886420.660.650.640.632 4 6 8 10聚合邻居(b)第(1)款图4:不同底片在预训练阶段的效果图5:(a)聚合层和(b)聚合邻居在深度聚合阶段的影响通过k-hop负样本或结构负样本单独优化的模型性能优于通过全局采样负样本优化的模型性能。 与k-hop和结构负的联合学习一致地实现了最佳结果。 结果表明,硬否定可以通过使模型更好地区分相似结果来促进嵌入学习。4.3.2深度聚合。 为了研究聚合层和聚合邻居在深度聚合中的有效性,我们进行了实验,层从1增加到5,邻居从2增加到10。通过实验重新-0.700.650.600.550.50DCGNN-PfDCGNN-Pt2 4 6 810底片数量(一)0.700.650.600.550.50DCGNN-PfDCGNN-Pt2 4 6 8 10底片数量(b)第(1)款结果在Fig.从图5a可以看出,当堆叠层数小于4层时,模型的性能随着聚集层数的增加而不断提高这表明深层结构可以挖掘更高阶的邻域属性,为模型提供更多的信息来增强节点嵌入。当堆叠4层时,DC-GNN获得峰值性能经过4层图聚合后,DC-GNN的性能提高较小.可能的原因是,增加更多的层容易出现过度平滑的问题,节点表示是不可区分的。此外,可以看出,所提出的异构线性扩散算子的计算复杂度降低到与图的层数的增加是线性 这是因为对于每个节点,不同的k阶邻近度被并行地捕获和保留,使得计算复杂度与图结构无关。 考虑到模型的性能和效率,我们在DC-GNN框架的深度聚合阶段采用了4个聚合层。根据聚集邻居数的影响,我们可以从图中观察到 5b.随着聚集邻体的增加,AUC逐渐增大。当相邻节点数达到5时,图模型的性能达到峰值聚合超过5个邻居后,DC-GNN的性能改善相对较小。 可能的原因是将更多的邻居聚集到目标节点显著地增加了模型参数,从而使网络训练复杂化。考虑到训练效率、网络复杂度和模型性能,我们选择在深度聚合阶段为每个目标节点聚合5个邻居。4.4消融研究(RQ 3)在这一节中,我们对k跳负样本数和结构负样本数进行了参数研究。如图所示图6:(a)k-hop数的参数研究否定句和(b)结构否定句的预训练阶段。图6、实验结果表明,随着k-hop否定或结构否定个数的增加,模型性能不断提高。 这促使我们相信我们的硬否定挖掘策略有效地促进了嵌入式学习。此外,由于k-hop否定的设计在一定程度上与CTR预测优化目标一致,因此k-hop否定优化比结构否定产生更好的性能考虑到训练效率和模型性能,我们在预训练阶段分别选择了8个k-hop否定和8个结构否定5结论在这项工作中,我们提出了DC-GNN,它将传统的基于GNNs的CTR预测范式用于大规模检索分为三个阶段-预训练,深度聚合和双塔CTR预测-以处理模型性能和训练效率之间的权衡预训练阶段旨在通过精心设计的多任务学习丰富的节点属性信息。然后,深度聚合捕获图中的高阶DC-GNN中的每个阶段都可以与现有的SOTA方法兼容,以进一步提高模型性能。分析表明,训练效率的提高主要归功于图运算的分解和双塔CTR预测。基于多任务的预训练和深度聚合阶段都有助于显著提高模型性能。DC-GNN本质上为大规模电子商务检索提供了一个可行的替代或补充框架。AUCAUCAUC相对速度AUCAUCDC-GNNWWW41引用[1] Aleksandar Bojchevski,Johannes Klicpera,Bryan Perozzi,Amol Kapoor,MartinBlais , Benedek Rózemberczki , Michal Lukasik , and StephanGünnemann.2020 年 。 用 近 似 pagerank 缩 放 图 神 经 网 络 第 26 届 ACMSIGKDD知识发现数据挖掘国际会议论文集。2464-2473[2] Yuxiao Dong , Nitesh V Chawla , and Ananthram Swami. 2017 年 。metapath2vec:面向异构网络的可扩展表示学习。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集。135-144。[3] John Duchi,Elad Hazan,和Yoram Singer.2011年。自适应次梯度法用于在线学习和随机优化。Journal of Machine Learning Research12,7(2011).[4] Benjamin Edelman,Michael Ostrovsky,and Michael Schwarz. 2005.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功