没有合适的资源?快使用搜索试试~ 我知道了~
661TTAGN:用于以太坊网络钓鱼欺诈检测的临时事务聚合图网络李四家1、 2,高鹏沟1、 2,刘畅1、2,侯成上1、 2,李珍珍1、 2,熊刚1、 21中国科学院信息工程研究所,北京,中国2中国科学院大学网络安全学院,中国北京{lisijia,gougaopeng,liuchang,houchengshang,lizhenzhen,xionggang}@iie.ac.cn摘要近年来,网络钓鱼诈骗已成为第二大区块链平台以太坊中最严重以太坊上现有的钓鱼欺诈检测技术大多采用传统的机器学习或网络表示学习,从交易网络中挖掘关键信息来识别钓鱼地址。然而,这些方法都采用了最后一条交易记录,甚至完全忽略这些记录,并且只采用手工设计的特征来表示节点。 在本文中,我们提出了一个临时事务聚合图网络(TTAGN)来增强以太坊上的钓鱼欺诈检测性能。具体来说,在时态边表示模块中,我们对节点之间的历史交易记录的时态关系进行建模,构建以太坊交易网络的边表示此外,在edge2node模块中,节点周围的边表示被聚合以将拓扑交互关系融合到其表示中,也称为交易特征。我们进一步将交易特征与图神经网络获得的常见统计和结构特征相结合,以识别钓鱼地址。在现实世界的以太坊网络钓鱼诈骗数据集上进行评估,我们的TTAGN(92.8% AUC和81.6% F1- score)优于最先进的方法,并且还证明了时间边缘表示和edge 2node模块的有效性。CCS概念• 应用计算→数字现金;·安全和隐私→网络钓鱼。关键词区块链,以太坊,网络钓鱼诈骗检测,网络表示学习ACM参考格式:李四家1、2人,高朋苟1、2人,刘畅1、2人,侯成上1、2人,李珍珍1、2人,熊刚1、2人。2022年TTAGN:用于以太坊网络钓鱼欺诈检测的临时事务聚合图网络在ACM Web Conference 2022(WWW '22)会议记录中刘晓昌为通讯作者。本 作 品 采 用 知 识 共 享 署 名 国 际 协 议 ( Creative Commons AttributionInternational)授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.3512226法 国 里 昂 ACM , NewYork , NY , USA , 9 页 。https://doi.org/10.1145/3485447.35122261引言以太坊[29]是最受欢迎和可扩展的区块链平台之一,每秒有14.8笔交易,每天有70万个活跃地址[7]。然而,随着其高速发展,以太坊也成为各种网络犯罪的温床[15]。网络钓鱼作为一种典型的网络诈骗,由于其高可见性和大量的潜在受害者而受到了极大的根据Chainalysis对2021年网络钓鱼诈骗的统计,受害者在网络钓鱼活动的第一周内,攻击者的非法利润超过了645,000美元,网络钓鱼诈骗造成了巨大的经济损失,并已成为以太坊交易安全的主要威胁[7]。因此,识别以太坊上的网络钓鱼诈骗成为一个重要的研究课题,并引起了广泛的关注[3,28]。图1:传统网络钓鱼诈骗和以太坊网络钓鱼诈骗之间的区别传统的网络钓鱼诈骗检测方法无法很好地适应以太坊场景。如图1所示,传统的网络钓鱼诈骗依赖于构建伪造的平台(网站或软件)来收集敏感信息或接收受害者的汇款,因此传统方法侧重于挖掘伪造的平台模式,例如CSS样式[13],网站URL [23]等。然而,在以太坊中,钓鱼组织采取高额奖励的宣传来诱导汇款[6],他们可以通过电子邮件、聊天群等任何方式向受害者传播钓鱼地址,无需伪造平台就可以直接诈骗钱财。由于以太坊上的网络钓鱼诈骗没有固定的模式,传统的检测方法是无效的。662WWW目前以太坊上钓鱼欺诈检测的方法是通过交易网络学习钓鱼节点的表示并对节点进行分类[2,19],其中节点表示以太坊交易地址,边表示地址之间的交易主要的检测方法大致可分为两类。一种是将传统的机器学习和手动设计的功能(即结构和统计特征)用于网络钓鱼检测的节点[9]。然而,这些方法主要依赖于专业知识来提取手动设计的特征(例如,节点,这是低效和非自动化的。另一个是将网络表示学习应用于以太坊交易网络,以挖掘深度特征。采用随机游走[30,31]和图神经网络[8]来自动学习以太坊交易网络的表示,这是一个非常重要的突破。但是,目前还存在两个问题:(1)缺乏时态交易信息。 现有方法只采用最后一笔交易记录甚至完全忽略这些记录,而没有考虑交易记录的时态信息,导致以太坊交易网络中边表示不完整. (2)弱节点表示。该算法只考虑从交易记录中提取的统计和结构特征作为节点表示,而忽略了涉及交易记录上下文信息的交易特征。综上所述,缺乏时态交易信息和弱节点表示最终导致以太坊钓鱼地址检测性能不佳。为了解决上述挑战,在本文中,我们提出了时间交易隔离GTGN网络(TTAGN),通过有效利用交易时间信息来增强以太坊上的钓鱼欺诈检测。我们首先构建一个大规模的以太坊多边有向交易网络图,其中一个节点是唯一地址和有向边是指两个地址之间的事务,并获得节点的基本统计特征。我们设计了三个模块来生成节点表示图挖掘。详细地说,该图被馈送到时间边缘表示模块,该模块对交易节点之间的以太坊交易记录的时间信息进行完全建模和挖掘,以生成边缘表示。在Edge2node模块中,节点周围的边表示被聚合,将拓扑交互关系融合到其表示中,也称为交易特征,丰富了节点的特征。我们还提取了结构增强模块中的常见结构特征,并进一步结合统计,结构和交易特征来生成最终的节点表示。最后,将获得的节点表示馈送到分类器中以识别钓鱼节点。 在真实数据集上进行了大量的实验,以验证TTAGN的有效性。捐款. 我们的贡献可以概括为:我们提出了一个时间交易聚合图网络(TTAGN),通过结合交易,结构和统计特征来提高以太坊钓鱼欺诈检测性能。以太坊交易图(网络)中节点(地址)之间的所有有向交易边(记录)都是模型化以挖掘时间信息并丰富边缘表示。每个节点周围的边表示聚合,融合拓扑交互关系,生成交易功能。我们对真实世界的以太坊网络钓鱼诈骗数据集进行了广泛的实验,结果表明TTAGN在多个指标上都优于最先进的方法本文件其余部分的组织如下。第二部分总结了与我们的工作相关的先前研究。第三部分介绍了本文的问题陈述。第四节重点介绍了TTAGN的总体设计,第五节对实验进行了说明. 第六节是论文的2相关工作以太坊上的网络钓鱼诈骗检测是一种新的欺诈场景。在本节中,我们首先简要回顾了以太坊网络钓鱼诈骗检测的先前工作。接下来,我们将回顾网络表示学习,这是以太坊网络钓鱼欺诈检测的核心任务。2.1以太坊网络钓鱼诈骗检测对于以太坊上的钓鱼欺诈检测问题现有方法主要有两类。前者主要采用浅层模型,如传统的机器学习方法和专门的特征工程,侧重于统计特征。Chen等人[9]从节点的1阶和2阶邻居中提取了219维统计特征,包括节点的入度、出度、最大交易值等。然后,他们使用基于LightGBM的集成机器学习算法来识别网络钓鱼节点。后 者 应 用 一 些 网 络 嵌 入 方 法 , 如 DeepWalk[21] ,Node2Vec[11]和图卷积网络(GCN)[17]来挖掘深度特征。Wu等人[30]在Node2Vec[11]的基础上提出了Trans2Vec。 Trans2Vec和Node2Vec的区别在于,Trans2Vec的采样过程不是随机的,而是基于两个节点的最后一笔交易进行偏置,这更适合以太坊上的钓鱼检测。 Chen等人[8]设计了E-GCN来检测网络钓鱼节点,这是GCN[17]首次引入以太坊网络钓鱼节点检测。 他们提取了8维统计特征,然后使用GCN来学习交易网络的结构特征。然而,这些工作很少使用事务行为的时间信息,因此它们不能捕获完整的边缘表示。此外,这些检测方法仅采用手工设计的特征进行节点表示,导致节点表示能力较弱。2.2网络表征学习根据一项调查[10],网络表示学习(即,图嵌入或网络嵌入)方法可以概括为三类:基于(1)因子分解、(2)随机游走和(3)深度学习。基于因式分解的算法使用节点之间的连接信息来构造各种矩阵(例如,拉普拉斯矩阵,····TTAGN:用于以太坊网络钓鱼欺诈检测的临时事务聚合图网络WWW663Y∈∈∈E {}EE EV{}G(V E)()下一页一得双曲余切值.一得双曲余切值.UV1UV1UV、 2UV2UV,· · ·,anΣ .Σ.Σ邻接矩阵和Katz相似性矩阵),然后对上述矩阵进行因式分解以获得嵌入。与因式分解相关的模型是,例如,局部线性嵌入(LLE)[22],拉普拉斯特征映射[4],图因式分解[1],具有全局结构信息的学习图表示(GraRep)[5],高阶近似保持嵌入(HOPE)[20]。基于随机游走的算法利用游走来感知节点的中心性和相似性。DeepWalk[21]试图在获得随机游走的节点序列后,最大化窗口中节点的同现概率。至于Node2Vec[11],在生成节点语料库的第一阶段,步行决策比DeepWalk更灵活,但时间消耗大大增加。与DeepWalk不同,大规模信息网络Em- bedding(LINE)[24]旨在基于当前节点在路径上生成邻居而不是节点。基于深度学习的方法主要使用深度神经网络来学习图中的非线性信息 结构深度网络嵌入(SDNE)[27]应用深度自编码器将网络邻近度保持在2阶以内。 它使用半监督自动编码器来重建节点的邻居关系,并使用监督方法来修剪结果。GraphSAGE [12]是一种基于邻居节点的固定样本数的归纳GNN模型,图注意力网络(GAT)[26]采用注意力机制进行邻居聚合。我们从三个类别中选取了具有代表性的作品进行比较,在随后的实验部分中进一步凸显了我们模型的有效性3问题定义在本文中,以太坊网络钓鱼欺诈检测任务被描述为图节点分类问题。假设部分标记的以太坊交易网络L =,,X,C,我们将交易地址视为节点vi,=v1,. . .,vN是一组地址事务作为边i,i=1,. . .,R是R个关系的事务集。将交易方向、金额和时间信息作为边属性XR|E|其中S是每个边的特征空间的大小,并且CR |V|×|Y|其中re是标签的集合。我们模型的目标是从已知的大规模交易网络信息中高效地学习节点的表示,因此我们学习所有节点的嵌入XER|V |×d,其中d是特征的维数表示.4TTAGN设计TTAGN通过对交易时间信息进行建模来增强边缘的表示,最终提高了以太坊钓鱼节点的识别能力。具体来说,TTAGN包括三个模块,即建立交易图,学习网络嵌入和钓鱼地址检测。4.1时态事务图transaction MultiDiGraph允许任意节点对之间有多条有向边,每条边携带交易信息,如交易金额(ETH,以太币单位)和执行时间戳。原始图的规模是巨大的,所以我们用随机游走来进行采样我们从图中随机选择一个节点开始行走,然后随机选择它的邻居作为下一个节点,重复这个过程,直到节点数量达到我们的要求。之后,我们得到我们想要的规模的子图。收集的子图将首先进行特征工程,为后续学习节点的结构特征做准备。 由于区块链平台的匿名性,节点本身不携带任何属性特征。因此,我们提取以下10维特征作为节点的属性特征。它们是节点的总度、出度、入度、交易量之和、转出交易量、转入交易量、邻居总数、交易频率的倒数、交易为全零的邻居的百分比以及具有最频繁邻居的交易的数量。4.2模型架构TTAGN是一个检测网络钓鱼地址的网络表示框架如图2所示,该架构可以分为三个目标:时间边缘表示,edge2node,结构增强。4.2.1时间边缘表示。在该模块中,边表示由节点之间的该模块通过引入事务时间信息来提高检测效果交易信息包括交易方向、金额、时间等,这将反映交易级别上的网络钓鱼地址和正常地址之间的差异。因此,通过引入事务信息,增强了节点的表示能力。然而,直接使用事务信息存在两个困难:(1)顺序性。 事务是时间性的,本质上是顺序的,因此需要将此信息合并到边缘表示中。(2)可变长度。节点间的事务数不同,边表示应包含所有有效信息,而不造成信息冗余。至于顺序,我们应用序列模型LSTM[14]来表征多个时态事务,并捕获一对节点之间交互的时态模式。 如图3所示,每对节点之间的事务都被视为时间序列,按时间戳升序排序,然后输入LSTM模型。对于节点对u,v,我们将euv表示为由序列模型LTSM生成的边缘嵌入其中:euv=LSTM。e1,e2,· · ·,en.UV基于获得的大量以太坊交易数据...=LSTMuv机.- 是的中国(1)UV得双曲余切值.节点表示以太坊交易地址,边表示其中,ai表示第i个交易的交易金额表示地址之间的交易 注意到以太坊交易在节点u和v之间的方向。的加号或我们首先构建了一个大规模的以太坊交易多边有向图(MultiDiGraph)。在事务图中,我们使用nuvWWWSijia Li etal.664UVUV∈ ⟨⟩UV||UVUVk∈NΦ expuk=1Zv∈NΦUVL图2:TTAGN的整体架构TTAGN输入不同大小的以太坊交易子图来学习它们的节点时态边表示模块对历史交易记录的时态关系进行建模,构建边的表示; edge 2node模块聚合节点周围的边表示,将拓扑交互关系融合到交易特征中;图自动编码器进一步增强节点结构信息的感知。最后,几个模块的输出被组合为节点的最终表示,其馈送到分类器以获得结果。i的减表示该事务的方向,如果输入事务图的每个节点,则edge2node学习节点将ETH转移到其他节点,a为正,否则,相邻边的值是阴性的。表示第n个节点表示的事务时间戳。给定Nu表示节点的相邻边节点u和v之间的交易。在变长方面,实现了LSTM的变长输入,进一步充分利用了时态事务记录。结合以上两点,我们捕捉到了时间关系-u和边v,重要性节点-边对u,v可以用公式表示如下:eΦ=σ。aT· [huhv]Φ对历史交易记录进行排序,生成有效边表示,并简化了复杂的图形结构(将MultiDiGraph转换为具有边缘表示的无向图),αΦ=softmaxv.eΦ =.exp。eΦ。ΣΣu(二更)4.2.2Edge2node。 在该模块中,节点表示通过将具有时间事务信息的边表示有偏聚合到节点来丰富。在以太坊的交易网络中,节点本身并不携带信息,仅仅是手工设计的特征并不全面,导致节点表示能力较弱。每个以太坊交易节点通常同时与多个节点进行交互,也连接多个交易其中hu和hv是节点u和边v的特征,aΦ是事务图Φ的注意力参数化矩阵,σ表示激活函数,并且表示级联操作。然后,节点u交易特征可以通过将所有边邻居属性与相应的系数聚合来获得,如下所示:zΦ=10K奥湖 αk·hv\l(3)u对节点表示的不同影响其中zΦ是交易的节点u的学习交易特征为了解决这些问题,我们聚合了边缘表示-图uΦ,K是使用多头注意的头数在每个节点周围设置多个节点,以融合拓扑交互关系。此外,我们还采用了Attention [25]的多层次机制来捕捉类似的交易行为,并最终生成交易特征。图4显示了edge2node的主要步骤为[25]第二十五话4.2.3结构增强。 在该模块中,通过重构事务图来获得结构特征。UVe有助于后续的节点分类工作。Φ英国边缘表示。我们需要将它与所有其他节点的交互融合到它的表示中。与此同时,不同的相互作用TTAGN:用于以太坊网络钓鱼欺诈检测的临时事务聚合图网络WWW665.Σ∈(·)D−1AD−1H(l)W(l)A=σ图3:从以太坊交易网络学习边表示的过程。在一些实施例中,该表示包括事务图节点的结构特征。4.3网络钓鱼攻击检测本节的任务是对节点进行分类,以区分钓鱼节点和正常节点。经过上述操作,我们得到了三种类型的特征:从Temporal EdgeRepresentation和Edge2node模块学习的交易特征,从StructuralEnhancement模块学习的结构特征,以及统计特征。图4:edge2node模块的图示上述两个模块主要研究如何提取有效的事务特征.为了得到全面的节点表示,在该模块中,我们更加注重提取事务图的节点结构特征。类似于Graph Auto-encoder[18]的思想,我们重建了事务图的节点之间的 我们将从edge2node得到的特征与统计特征结合作为节点嵌入,并将其输入到GCN作为编码器,学习节点的结构特征。频谱卷积函数被公式化为:从节点获得的cal特征我们将它们拼接在一起作为节点的完整表示在获得完整的节点表示的基础上,我们需要了解钓鱼和普通节点表示之间的区别。因此,我们将它们输入到分类器中,用于以太坊网络钓鱼地址分类。分类器有很多选择,在本文中,我们选择LightGBM[16],这是一种支持高效并行训练的新GBDT(梯度提升决策树)算法。GBDT背后的关键概念是迭代训练弱分类器(决策树)以获得最佳模型。该模型具有训练效果好、不易过拟合等优点。5实验22其中I是单位矩阵,A_n = A + I是具有附加自连接I的邻接矩阵A。D是A的度矩阵,W(1),σ分别是层特定的可训练权重矩阵和激活函数H(l)Rn×k表示第l层的激活矩阵,n和k表示第l层的节点数和输出维数。模块的总体框架可以定义如下建议的TTAGN框架的有效性具体而言,我们旨在回答以下研究问题:RQ1:TTAGN在以太网交易网络上检测钓鱼地址的有效性如何?RQ2 : TTAGN 的 每 个 组 件 ( 即 , 时 间 边 缘 表 示 、edge2node和结构增强#21453;,最终的检测性能?Z=GCN。(X,A)(五)• RQ3:TTAGN的性能会有多大变化其中,X为输入节点嵌入,Z为GCN最后一层学习到的所有事务节点的表示ZZT是用Z重构原始图结构的运算,本质上是一个解码过程,A是解码后得到的重构邻接矩阵重建的损失5.1数据集5.1.1数据收集。 我们从授权网站Ether-scan1的以太坊标签云中抓取了标记为“网络钓鱼”的帐户。截至2021年7月,已核实4,932个地址为可以写成ˆ2网络钓鱼地址。以这些标记的节点为中心L侦察=A−AFn(六)节点,我们通过提供的API提取它们的一阶、二阶邻居以及它们之间的事务,其中,f·F表示向量的l2范数,通过最小化重构,结构损失Lrecon,Z将学习更全面的节点1https://etherscan.io·H(l+1)=σ·(四)在本节中,我们进行实证评估,以证明ZZT通过提供不同的最大时间序列长度或不同的注意力隐藏大小?WWWSijia Li etal.666表1:评价数据集统计Labeled表示数据集中标记节点的数量,每个数字是五个子图计算的平均值。数据集节点总数标签数量d #边#平均度D13000010825048388834.9741D24000013927481082687.0442D35000017029854251590.8691以太网扫描。最后,我们获得了6,844,050个以太坊地址和208,847,461个交易记录。原始图的规模是巨大的,所以我们用随机游动来采样,以获得大小分别为30,000,40,000和50,000的子图作为我们的数据集记为D1,D2,D3。 对于每个不同大小的子图,我们采样五次,以确保性能的有效性。详细数据信息见表1。5.1.2数据清理。 在获得所有数据后,我们发现班级非常不平衡。我们参考[9]的数据清理步骤,消除明显的非钓鱼地址以构建更有效的模型。(1)我们清除所有在时间之前出现的交易- tamp2016-08-02,因为所有钓鱼地址在此时间之后都是活跃的;(2)我们排除交易记录少于5或超过1,000的地址,这些地址可能是钱包或其他正常类型的账户[9,30],我们也做了数据分析,证明这些地址不是钓鱼节点。数据清洗后,每个子图中剩余节点的平均数量分别为46930、37194和27538 在最终的分类任务中,我们将总数据的80%设置为训练数据,其余为测试数据。最后,通过TTAGN嵌入每个子图,以获得下游分类任务的节点在最终的分类任务中,我们将总数据的80%设置为训练数据,其余的作为测试数据[8]。5.2实验装置5.2.1比较方法。 我们将我们提出的TTAGN框架与四类以太坊网络钓鱼诈骗检测方法进行比较,包括(1)仅考虑节点属性的基于网络的方法[9],(2)基于因子分解的网络嵌入方法[22],以及(3)基于随机行走的网络嵌入方法(即,DeepWalk[21],Node2Vec[11]和LINE[24]),其中涉及拓扑信息和节点属性。此外,我们还使用一些流行的(4)基于深度学习的网络表示方法(SDNE[27],E-GCN[8],GraphSage[12]和GAT[26])来学习节点表示,以与我们的方法学习的表示进行比较。仅特征[9]是来自节点的1阶和2阶邻居的219维统计LLE[22]对使用连接信息来获得嵌入的构造矩阵进行因式DeepWalk[21]试图在获得随机游走的节点序列后,最大化窗口中节点的同现概率Node2Vec[11]定义了一个更灵活的节点邻域概念LINE[24]通过学习节点的一阶和二阶接近度来SDNE[27]使用半监督自动编码器来重建邻居关系,并使用监督方法来修剪结果。GraphSAGE[12]是一种基于固定样本数量的邻居节点的归纳GNN模型GAT[26]采用注意机制进行邻居聚集。E-GCN[8]是图神经网络首次应用于以太坊网络钓鱼节点检测。5.2.2评价 在本文中,我们使用以下四个指标来全面评估不同方法在以太坊钓鱼欺诈检测方面的性能:(1) 曲线下面积(AUC)。AUC度量是计算由具有多个阈值的TPR和FPR形成的ROC曲线下面积,其经常用于二进制分类任务。(2) 记得了查全率是指检测到的已知网络钓鱼节点样本的百分比。(3)精度。准确率是指被判断为可疑的账户中真实钓鱼节点的百分比(4)F1评分。F1分数是对精确度和召回率分数的综合评价。5.2.3实施细节。所有模型的嵌入大小都固定为10。对于注意力,我们将注意力隐藏大小设置为2,学习率设置为0.01。对于我们的方法中的GCN,我们设置了两个学习率为0.001的层。对于DeepWalk和Node2Vec,行走长度,窗口大小,后者的p和q分别设置为20和4,0.25,0.4。 对于LightGBM模型,叶数和学习率根据经验分别固定为50和0.03。由于数据的不平衡,我们以50的比例对少数民族进行了上采样。 对于所有的比较方法,我们根据它们的官方实现设置参数。5.3有效性结果(RQ 1)为了回答RQ 1,我们评估了所有比较方法在以太坊网络钓鱼欺诈检测任务中的性能相应的结果报告于表2中。我们可以得出以下结论:(1) 在四个评价指标方面,我们的方法TTAGN优于所有其他比较的方法,由一个显着的margin。在D3数据集上,TTAGN方法的AUC、召回率、准确率和F1得分分别达到92.8%、85.9%、77.7%和81.6%。第二好的方法是深度学习方法,其AUC超过80%。基于随机游走的方法和基于因子分解的方法的性能相似,它们的指标都在75%左右。性能最差的是基于特征的方法,其召回率很低,只有55%左右。(2) TTAGN在大型图上具有更好的节点表示能力 随着数据集节点数量从30,000增加到50,000,TTAGN与其他比较方法之间的差距进一步扩大。与性能良好的GraphSAGE方法相比,两种方法之间的AUC差异在D1为6.5%,在D3为12.6%。这些结果再次表明,TTAGN·········TTAGN:用于以太坊网络钓鱼欺诈检测的临时事务聚合图网络WWW667数据集D1D2D3表2:与现有技术相比的性能比较结果三个数据集的AUC、召回率、精度和F1评分度量AUC召回预F1AUC召回预F1AUC召回预F1仅基于网络的功能0.8070.6690.6990.6840.7780.5240.7230.6070.7330.5750.6860.633分解LLE0.7730.7840.4880.6020.7320.5750.3390.4270.7530.4550.4220.438随机游走深度漫步Node2Vec线0.7900.4990.7550.6010.7420.5150.3980.4490.7330.3670.6320.4640.6020.4140.5500.4720.7170.5190.4750.4960.8260.7350.4340.5450.8130.7360.6240.6750.7970.6500.6760.6620.8020.6550.6110.632SDNE0.7200.8380.3600.5040.7290.6130.3200.4210.7390.7170.3340.456深度学习E-GCNGAT0.7220.6150.6070.6980.8060.7610.7620.7610.7650.7030.6260.6620.7640.6220.4980.5530.8120.6650.5800.6200.8280.6820.5560.643GraphSAGE0.8380.6750.7310.7020.8040.6340.5770.6040.8020.6650.6190.641我们TTAGN0.9030.8550.7210.7830.9100.8330.8070.8200.9280.8590.7770.816通过充分挖掘交易节点间以太坊交易记录的时态信息,可以比其他方法更好地检测大规模交易网络上的钓鱼节点(3) 与基于特征的方法相比,我们的四个评价指标都高出近20%。在所有比较方法中,仅特征方法的性能最差当数据集较小时,其效果优于基于因子分解的方法,但随着节点数量的增加,统计特征所能学习的信息非常有限。除了缺乏特征挖掘之外,这可能是因为这些方法不知道我们从结构增强模块获得的网络结构和环境信息。(4) 对于基于随机行走的方法,LINE表现最好,在D3数据集上低于我们的方法12.6%AUC和18.4%F1- scoreLINE使用了二阶内邻近度的深度挖掘,通过它LINE比Deep Walk和Node2Vec更能感知附近的然而,这类方法完全忽略了节点之间的交易记录,这导致节点的不完全表示学习在我们的方法TTAGN中,我们对历史交易记录的时态关系进行建模,充分利用了交易信息,并学习了有效的边表示。(5) 基于深度学习的网络表示方法是我们强大的对手,然而,它们的表现也不好。在数据集D3 上,我们的四个评价指标比它高出近10%。至于GraphSAGE,它在采样时没有探索标签分布,因此它们的性能比GAT差。 GAT的性能比我们的方法TTAGN差,因为在有偏聚合步骤中,GAT聚合具有统计特征的邻居,而我们使用edge2node模块将获得的边表示聚合到节点。该方法丰富了节点的特征,增强了节点的表示能力。5.4消融研究(RQ 2)为了回答RQ 2并验证我们的创新的有效性,我们消除了时间边缘表示模块(即,TTAGN/t)、Edge 2节点模块(即TTAGN/e)和结构增强模块(即TTAGN/s)。(a)AUC结果(b)召回结果图5:TTAGN及其变体的AUC和召回结果如图5所示,相应的观察结果有以下几个方面:(1) 与TTAGN相比,TTAGN/t的性能显著下降,在D1、D2和D3数据集上分别比TTAGN的AUC低7%、8.5%和9.8%。主要原因是序列模型LSTM可以充分提取节点之间事务交互的时序这一结果表明,学习交易图中每条边的时间边表示对于钓鱼欺诈检测任务是必不可少的,并且还证明了交易图中具有交易信息的边的重要性。(2) 删除edge 2node模块后,TTAGN/e比D3数据集上的完整模型低edge2node的主要功能是将边缘表示聚集到节点中。 如果将学习到的边表示直接与统计特征拼接作为分类特征,效果远不如节点上的聚合。 结果表明,边表示的聚合能更全面地捕捉节点的特征,增强节点的表示能力。edge2node模块和时间边缘表示模块相辅相成,缺一不可。(3) 在这三个模块中,结构增强模块的贡献最小.D3数据集上TTAGN/s的AUC比TTAGN低3.1%似乎该模块不如时间边缘表示和边缘2节点效应重要WWWSijia Li etal.668D3D2D1D3D2D1D3D2D1D3D2D1D3D2D1D3D2D1D3D2D1D3D2D10.950.900.850.850.900.850.800.750.700.800.750.700.650.800.750.852 5 10 20 30可变0.652 5 10 20 30可变0.602 5 10 20 30可变0.702 5 10 20 30可变序列长度(a) AUC序列长度(b) 召回序列长度(c) 精度序列长度(d) F1得分图6:不同序列长度TTAGN的敏感性分析1.000.900.900.900.950.900.8524 6 810注意力大小(a) AUC0.850.8024 6 810注意力大小(b) 召回0.850.800.750.700.6524 6 810注意力大小(c) 精度0.850.800.7524 6 8 10注意力大小(d) F1得分图7:不同注意力大小的TTAGN模型稳健性研究而且还有效地提取拓扑环境的信息。这些获得的结构信息进一步丰富了节点的表示。(4) 完整模型TTAGN在三个数据集上的性能优于其他消融模型。这证明每个模块都可以提供有效的改善,最终导致TTAGN的显著高AUC 同时,随着图规模的变大,模型之间的差距进一步拉大,证明了TTAGN在大规模事务图上更有效。5.5敏感性分析(RQ3)为了回答RQ3,我们进一步评估TTAGN的性能,相对于事务序列长度和edge2node注意力大小。图6显示了当改变事务序列长度的固定值时,TTAGN在三个数据集上的四个度量得分。可变长度也用作轴最右侧的参数。具体而言,我们可以清楚地发现:(1)随着事务序列长度固定值的增加,结合四个评价指标,模型在所有数据集上的性能都得到了增强;(2)有时较短的序列比较长的序列表现更好,这可能是由信息冗余引起的;(3)在三个数据集上使用最短事务序列训练时,与较长事务序列相比存在较大差距;(4)变长参数的性能优于所有固定长度参数。这些现象反映了时态事务信息的重要性,同时也表明该参数是不稳定的,它的增加既带来了有效信息,也带来了信息冗余。因此,我们的方法TTAGN提出了输入可变长度事务序列,既保证了模型的有效性,又增强了模型的鲁棒性。至于edge2node的注意力大小,通过在训练期间提供不同的注意力大小,模型敏感性结果如图7所示。 我们可以观察到,在每个注意力大小设置下,(1)TTAGN在所有数据集上的四个评估指标方面始终实现相似的性能,与表2中的其他方法相比,这仍然是最好的性能;(2)TTAGN在使用小的注意力大小进行训练时仍然可以实现相对较好的性能(例如,h= 2),这表明其基础设施的强大能力例如,在D3数据集上,如果我们将注意力大小从h= 10更改为h= 2,则召回率几乎不会下降0.06因此,我们得出结论,TTAGN是鲁棒的边2节点的注意力大小,并始终优于其他比较方法。6结论在 这 项 工 作 中 , 我 们 提 出 了一 个 临 时 事 务 聚 合 图 网 络(TTAGN),以提高以太坊上钓鱼欺诈检测的性能。 TTAGN完全建模并捕获节点之间历史交易记录的时间关系,这有助于有效地提取以太坊交易网络的边表示。然后,TTAGN对得到的有效边表示进行聚合,将拓扑交互关系融合到节点中,生成交易特征,丰富了节点的特征,实现了节点的强表示能力。最后,结合这三类特征,提高了以太坊钓鱼欺诈检测的性能。大量的实验表明,TTAGN我们希望我们的工作能够证明网络钓鱼的严重威胁AUCAUC召回召回精度F1得分精度F1得分TTAGN:用于以太坊网络钓鱼欺诈检测的临时事务聚合图网络WWW669以太坊上的骗局,并呼吁区块链社区采取有效的对策致谢本工作得到了国家重点研究发展计划(2020YFB1006100)和中国科学院战略重点研究计划(XDC02040400)的资助我们感谢匿名评论者的宝贵意见。引用[1] AmrAhmed , Nino Shervashidze , Shravan Narayanamurthy , VanjaJosifovski,and Alexander J Smola. 2013.分布式大规模自然图分解。在第22届万维网国际会议上。37比48[2] Israa Alqassem,Iyad Rahwan,and Davor Svetinovic.2018年反社会系统属性:比 特 币 网 络 数 据 分 析 。 IEEE Transactions on Systems , Man , andCybernetics:Systems 50,1(2018),21-31.[3] N安妮塔和M Vijayalakshmi。2019年。区块链安全攻击:简要调查。在2019第十届计算、通信和网络技术国际会议(ICCCNT)IEEE,1[4] 米哈伊尔·贝尔金和帕莎·尼约吉2001年Laplacian特征映射和嵌入和聚类的谱技术在Nips,卷。14个。585-591。[5] 曹绍胜,卢伟,徐琼凯。2015年。Grarep:学习具有全局结构信息的图形表示第24届ACM国际信息与知识管理会议论文集。891-900[6] 链 分 析 [n. d.] 。 2021- 加 密 货 币 犯 罪 报 告 。 https://go.chainalysis.com/2021-Crypto-Crime-Report.html。2021年2月访问。[7] Huashan Chen , Marcus Pendleton , Laurent Njilla , and Shouhuai Xu.2020.以太坊系统安全调查:漏洞、攻击和防御 ACM计算调查(CSUR)53,3(2020),1-43。[8] Liang Chen,Jiaying Peng,Yang Liu,Jintang Li,Fenfang Xie,and ZibinZheng.2020. 以 太 坊 交易 网 络 中 的 网 络钓 鱼 诈 骗 检 测 ACM TransactionsonInternet Technology(TOIT)21,1(2020),1-16。[9] Weili Chen,Xiongfeng Guo,Zhiguang Chen,Zibin Zheng,and YutongLu.2020年。以太坊上的网络钓鱼欺诈检测:区块链生态系统的金融安全在IJCAI。4506-4512[10] 帕拉什·戈亚尔和埃米利奥·费拉拉2018年 图嵌入技术,应用和性能:一项调查。Knowledge-Based Systems151(2018),78[11] Aditya Grover和Jure Leskovec2016年。node2vec:可扩展的网络特征学习。第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集。855-864[12] William L Hamilton,Rex Ying和Jure Leskovec。2017年。大图上的归纳表示学习。第31届神经信息处理系统国际会议论文集。1025-1035年。[13] 春田修一郎朝比奈弘岩尾佐濑2017.基于视觉相似性的网络钓鱼检测方案使用图像和CSS与目标网站查找器。在GLOBECOM 2017-2017 IEEE全球通信会议上。IEEE,1[14] Sepp Hochreiter 和 Jürgen Schmidhuber 。 一 九 九 七 年 。 长 短 期 记 忆 。Neuralcomputation 9,8(1997),1735-1780.[15] 阿特西姆·霍鲁布和耶利米·奥康纳2018. COINHOARDER:追踪乌克兰比特币网络钓鱼环DNS风格。2018年APWG电子犯罪研究研讨会(eCrime)。IEEE,1[16] Guolin Ke , Qi Meng , Thomas Finley , Taifeng Wang , Wei Chen ,Weidong Ma,Qiwei Ye,and Tie-Yan Liu.2017年。Ligh
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功