没有合适的资源?快使用搜索试试~ 我知道了~
数据科学与管理5(2022)66研究文章不平衡区块链数据中数据重定位对特征重要性的影响:重定位技术Ismail Alarab*,Simant Prakoonwit伯恩茅斯大学,Talbot Campus,Bournemouth,BH12 5BB,英国A R T I C L E I N F O保留字:恢复技术加密货币数据比特币区块链以太坊区块链A B S T R A C T加密货币区块链数据遇到了类不平衡问题,因为区块链网络中只有少数已知的非法或欺诈活动标签为此,我们试图比较应用于两个高度不平衡的数据集的各种恢复方法,这两个数据集是在进一步降维之后从比特币和以太坊的区块链中获得的,这与以前对这些数据集的研究不同首先,我们研究了各种经典的监督学习方法的性能,分别对比特币或以太坊数据集上的非法交易或账户进行因此,我们对这些数据集应用各种重新排序技术,并在每个数据集上使用性能最好的学习算法随后,我们研究了给定模型的特征重要性,其中重采样数据集直接影响模型的可解释性我们的主要发现是,通过从整个数据集中去除噪声数据点,使用编辑的最近邻技术的欠采样在给定数据集上达到了99%此外,与原始研究相比,性能最好的学习算法在这些数据集上进行特征约简后表现出了优异的性能无与伦比的贡献在于讨论数据响应对特征重要性的影响,这与可解释人工智能(XAI)技术相互关联。1. 介绍不平衡分类是机器学习中的一个典型问题,在许多广泛的应用中都会遇 到 , 例 如 金 融 服 务 ( Makki et al. , 2019; Zhang 和 Trubey ,2019),医疗保健(Akinnuwesi等人, 2021; Fan等人, 2021)、生物医学(Oh等人, 2011)和区块链(Harlev等人, 2018年)。特别是,区块链技术在过去几年中获得了越来越多的关注,因此需要机器学习 方 法 来处 理 由 该 技 术 生 成的 大 量 数 据 Weber 等 人(2019 ) 和Farrugia et al. (2020)提出,机器学习方法已经揭示了检测欺诈活动的有希望的结果(例如,诈骗和洗钱)在公共区块链数据。后者的研究贡献了两个分别来自比特币和以太坊网络的真实世界数据集,用于对公共区块链数据的可疑记录进行分类。其中一个来自比特币的数据集,即所谓的Elliptic数据集,将比特币交易的高度不平衡的图结构数据作为节点,边作为支付流,由Elliptic公司发布,并在Weber等人的原始贡献中进行了研究。(2019年)。该数据集提供了两种不同的属于事务的称为局部特征的特征类型和对应于椭圆数据的图形网络的拓扑的全局特征在他们最初的研究中,Weber等人(2019)将各种经典的监督学习方法与图卷积网络进行了基准测试,以分类合法的(例如,属于矿工的交易)和非法(例如,属于诈骗的交易)Elliptic数据中的交易。他们还研究了分类结果中局部和全局特征的不同组合结果,随机森林在使用166个特征的整个局部和全局特征集的情况下,以97.7%的准确率超过了图卷积网络另一个数据集是Farrugia等人引入的以太坊账户数据。(2020年),继承了阶级不平衡的问题。 这项研究使用XGBoost进行分类,以检测以太坊区块链上的非法账户。这项研究达到了96.3%的准确率,并提供了对最重要特征的见解随后,这些数据集进行了各种研究,以改进分类或研究模型的不确定性,如先前的研究(Alarab等人,2020 a, 2020 b , 2021; Alarab 和Prakoonwit,2021; Bynagari和Ahmed,2021;同行评议由Xi交通大学负责* 通讯作者。电子邮件地址:ialarab@bournemouth.ac.uk(I. Alarab)。https://doi.org/10.1016/j.dsm.2022.04.003接收日期:2021年11月4日;接收日期:2022年4月18日;接受日期:2022年4月19日2022年4月25日在线提供2666-7649/©2022 Xi'an Jiaotong University.出版社:Elsevier B.V.代表科爱通信有限公司公司这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表数据科学与管理杂志主页:www.keaipublishing.com/en/journals/data-science-and-managementI. Alarab,S. 巴孔威数据科学与管理5(2022)6667Sun等人,2022; Tasharro Fiand Taheri,2021)或研究中的非法以太坊账户 (Alarab和Prakoonwit ,2021; Bynagari和 Ahmed,2021;Ibrahim等人, 2021年)。因此,基于树的学习算法在这些加密货币数据集上表现最好。尽管前面的贡献提供了有希望的结果,但还没有全面的研究来解决这些数据集中嵌入的高类别不平衡。 一方面,由于这些数据集的高维性和类别不平衡性,处理这些类型的数据集具有挑战性。 另一方面,重采样技术已经从一般的合成少数过采样技术(SMOTE)及其变体发展到最近的自适应过采样技术,以解决类不平衡问题(Fer n'ande zetal. ,2017;HeandGarcia,200 9;Ko v'acs,2019b;Verbiest例如, 2014年)。 使用SMOTE及其变体来解决类不平衡问题,由于其简单性和出色的性能,在文献中取得了显著的成功。为此,我们的目标是使用比特币和以太坊数据集,使用各种恢复技术进行全面研究,以指出恢复技术对特征重要性的影响,这将增强模型的可解释性首先,我们进行特征约简,然后我们应用各种经典的监督学习方法来分类比特币数据集中的Elliptic非法交易和以太坊数据集中的欺诈账户 它表明随机森林和XGBoost分别在来自比特币和以太坊的数据上提供了最佳性能。此外,我们通过应用数据预处理和特征约简来宣称我们的成就,与给定数据集的原始贡献中使用的模型相比,这显示出显着的优越性。在相关数据集上使用后一种算法,我们通过应用各种过采样和欠采样技术来解决类不平衡问题,其中我们使用准确度、精确度、召回率、F1分数、受试者操作曲线(ROC)和曲线下面积(AUC)分数来评估和比较给定模型的性能。 我们讨论了使用编辑的最近邻(ENN)应用于整个数据集的最佳结果,该数据集在两个数据集中的准确率均大于99%。此外,区块链数据集中的特征重要性是不可或缺的,在分类模型的可解释性中起着关键作用。因此,我们指出了特征重要性上的重定位技术的影响,这对所使用模型的可解释性有重大影响我们通过执行Wil- coX符号秩检验(一种非参数统计假设检验)来验证前面的陈述,在该检验中,我们可以提供证据表明,在应用恢复技术之前和之后,特征重要性的得分是不同的本文的其余部分组织如下:第2节讨论了相关工作;第3节演示了在第4节中提供的我们的实验中使用的方法。第5节和第6节分别提供了讨论和结论2. 相关工作加密货币区块链在监测和分析其交易过程中越来越感兴趣,以检测区块链中的非法活动(Liu等人,2021年)。从那时起,许多研究采用可视化分析工具来追踪非法资金的来源,例如比特币区块链中的案例(Meiklejohn et al.,2013; Reid和Harrigan,2013)。然而,区块链数据的快速增加需要机器学习模型来处理海量数据生成的. Ostapowicz和Z_bikowski(2020)提出了不同的超用于检测区块链中的欺诈活动的方法 这项工作的重点是指恶意行为者应用众所周知的软件或虚假电子邮件来窃取金钱。Weber等人(2019)对来自比特币的数据(称为椭圆数据集)进行分类,以检测非法交易,其中随机森林在该数据集上表现出优于所有其他学习算法的性能,例如逻辑回归,多层感知器,基于树的学习方法和图卷积网络(Alarab等人,2020 a,2020 b; Lorenz等人, 2020; Weber等人, 2019年)。 Farrugia等人(2020)介绍以太坊账户数据,其中XGBoost分类器根据其交易历史对欺诈账户进行了分类,并具有良好的性能。采用机器学习方法使用来自加密货币区块链的数据集的其他应用程序也存在,如Pham和Lee(2016),他们执行K均值聚类算法来检测最可疑的用户,Bartoletti等人。(2018)使用数据挖掘来检测庞氏骗局,Harlev等人(2018)使用各种经典的监督学习方法对比特币上的未识别实体进行分类,以及Bhowmik等人。(2021)进行了监督学习算法的比较研究,以检测区块链中的欺诈行为。2.1. 恢复区块链数据尽管先前的研究提供了有希望的结果,但只有少数研究考虑了重新排序技术来解决给定数据集中的类不平衡问题Bartoletti等人提出的区块链数据集的分类结果。(2018)和Harlev et al. (2018)分别用随机欠采样或过采样技术和SMOTE技术显示出进一步的改进。此外,Bynagari和Ahmed(2021)将数据采样技术应用于椭圆数据(Weber等人, 2019)和以太坊账户数据(Farrugia等人,2020年),其中重新采样数据的分类揭示了来自区块链的数据的有效结果。然而,之前的研究缺乏对现有广泛的resource技术的全面发现,例如SMOTE-来自区块链的数据的类不平衡问题可以通过添加新实例的过采样、通过去除噪声实例的欠采样或作为过采样和欠采样方法的组合的过采样的主要思想是增加决策边界附近的正类中的实例数量,这些实例已经受到巨大的类偏差的影响。 SMOTE是一种公知的技术,其盲目地内插正实例以解决类别不平衡(Chawla等人, 2002年)。也存在比SMOTE更受指导的其他SMOTE变体,例如,边界线-SMOTE(Han等人, 2005),其中这些变体考虑决策边界附近的信息区域以生成新的数据点。2.2. 特征重要性与模型标记数据集的稀缺性是机器学习领域的一个关键挑战,研究人员对公共区块链和金融领域的欺诈性账户或交易的了解有限。此外,可解释人工智能(XAI)是一个新兴的研究方向,它帮助用户解释机器学习模型提供的预测(Kute et al., 2021年)。Weber et al. (2019)通过可视化解决了机器学习预测的解释能力,以支持反洗钱。 最重要的是,Farrugia et al. (2020)提供了对所有相关功能的重要性的见解,以分析来自以太坊的数据集中欺诈账户的活动。受区块链研究的启发,我们使用各种过采样(SMOTE及其变体)和欠采样技术进行了一项全面的研究,以解决Weber等人中出现的比特币和以太坊数据集上的类不平衡问题。(2019)和Farrugia et al. (2020)分别作为其相关网络中最大的标记数据集。由于特征重要性是一种流行的XAI技术,我们将研究重采样数据对特征重要性的影响,这直接影响机器学习模型的可解释性I. Alarab,S. 巴孔威数据科学与管理5(2022)6668Fig. 1. 本文所用方法的示意图。3. 方法在本节中,我们提供了使用比特币和以太坊区块链数据集进行实验的必要细节。首先,我们使用各种监督学习算法,包括随机森林,E Xtra Trees , Gradient Boosting , XGBoost , Logistic Regression 和Multi-Layer Perceptron(MLP),在必要的特征减少后研究这些数据集的分类。基本上,随机森林随机选择特征的子集,以便构建在其节点上具有最佳分裂的决策树,其中形成多个树以提供决策树的集合(Breiman,2001)。 E X tra Trees算法类似于构造决策树的随机森林,但是在节点上随机分裂(Guidelet al.,2006年)。已知这些装袋算法可以减少过拟合。XGBoost是梯度提升算法的优化(Chen和Guestrin,2016)。梯度提升是由一系列的树形成的,作为一个弱分类器,使用梯度下降来获得一个强分类器。最后,逻辑回归和MLP是函数近似,其中前者建模线性决策边界以分类数据(Wright,1995),而后者处理非线性分离的数据(Gardner和Dorling,1998)。 这些学习方法已经在区块链数据中流行起来(Alarab等人,2020 a; Farrugia等人,2020; Weber等人,2019年)。在下文中,我们描述了用于训练学习模型的数据集的必要细节,然后我们讨论了在我们的实验中应用的恢复技术。图1是概括本文整个过程的示意图。1.一、3.1. 数据预处理3.1.1. 比特币交易数据椭圆形数据是从以下来源获得的最大标记可用数据之一比特币(Weber等人, 2019年)。最初,Elliptic数据是比特币交易图的一个子集,该交易图包括超过203,000个节点作为交易,234,000个边作为支付流。省略数据采集合法和非法交易标签以及未知标签。由于我们只考虑标记的事务,因此数据点的数量为46,564,分布如图所示。二、该数据包括166维特征,涉及属于比特币交易的94个本地特征,包括时间戳(例如,输入度,输出度此外,有49个唯一的时间戳,其中每个时间戳对应于属于在某个时间从区块链中提取的连通图网络的一组节点。由于这些特征是匿名的,我们将其称为:(1) 第一个本地功能:时间戳(2) 剩余的本地特征:local_feat_2,local_feat_3,(3) 聚合功能:aggre_feat_1,aggre_feat_2,我们排除了经验选择的相关系数大于0.9的相关特征,其中特征空间减少到91个特征。对列应用了额外的预处理步骤,以删除具有非信息性分布的特征换句话说,我们根据经验去除了具有小于10个唯一值的特征,如在local_feat_16中的情况,其获取6个唯一值,而大多数数据点对应于如图1所示的单个值。 3. 这消除了更多的维度,导致85个特征的数据集。关于所使用的特征的进一步信息,包括特征缩减后的相关矩阵,在图S1中以补充数据表示。然后,根据前34个时间戳属于训练集的时间划分,将数据集划分为训练集和测试集I. Alarab,S. 巴孔威数据科学与管理5(2022)6669图二. Bitcoin(Elliptic)数据集的目标分布。其余15个时间戳属于测试集,以使用监督学习算法执行合法或非法交易分类3.1.2. 以太坊账户数据该数据集包括通过两个来源的组合提取的以太坊区块链上的已知欺诈账户和有效交易历史本地Geth客户端和链接到以太坊网络的EtherscamDB分别用于正常和诈骗账户(Farrugia等人, 2020年)。各种账户都被标记为以太坊在一些情况下,社区的非法行为,例如,诈骗庞氏骗局和网络钓鱼 该数据集涉及9,841个标记为非欺诈或欺诈的账户。4与49个数字和分类特征相关,例如,“发送或接收的事务总数“和“曾经发送的以太平均值”。由于该数据集在其特征中包括一些缺失值,因此这些特征,例如,在我们的实验中不考虑分类的。进一步的特征缩减是通过去除相关性大于0.9的相关特征以及零方差特征来实现的。此外,通过经验性地移除具有小于10个值的唯一数值的特征来完成另一特征缩减,如在图1中描绘的特征“发送给合同的最大值的分布”的情况下。 五、因此,该数据集的特征总数减少到28个。本研究中使用的功能总结如图所示。 S2,补充数据。我们在将随机种子固定为零后随机分割数据集,分别对训练集/测试集进行70/30分割,以使用以太坊账户数据集上的监督学习方法对欺诈3.2. 重采样方法我们使用SMOTE、其变体和其他最近的重定位方法(见补充数据)研究了80多种重定位技术对两个数据集的影响;然而,我们采用了性能最好的 技术 ,包 括应 用 于两 个数 据集 的SMOTE, 如下 所示 : K均 值SMOTE、AHC、Borderline-SMOTE 1、Borderline-SMOTE 2、SOMO 、SMOTE-TomekLinks、DEAGO、安全级SMOTE、TRIM-SMOTE、CURE-SMOTE,LLE(Kov'acs,2019a)进行全面概述,图三. 比特币(椭圆)数据集中某些特征的BoX图(指示数据中的特征如何分布)。I. Alarab,S. 巴孔威数据科学与管理5(2022)6670见图4。 Ethereum账户数据的目标分发。最新的技术SMOTE-SF、使用子集特征的SMOTE SMOTE-SF、使用子集特征的SMOTE(Maldonado等人,2019)和OSCCD,基于过采样的分类贡献度(Jiang等人, 2021年)。 这些技术以比SMOTE更有指导性和更复杂的方式对决策边界附近的新实例进行过采样。例如,K-meansSMOTE是聚类和Borderline-SMOTE选择类边界附近信息量最大的区域对少数进行过采样,SMOTE-SF通过在特征子集上使用SMOTE来处理高维数据集。 关于欠采样,我们包括ENN技术,以消除重叠分布中的噪声实例。4. 实验4.1. 实验设置在我们的实验中,我们使用sklearn(Pedregosa等人,2011)和smote-var iantpackages ( Ko v'acs , 2019 b ) inPythonprogra mminglanguage.首先,我们在比特币和以太坊数据集上训练各种监督学习方法,其中超参数是根据经验选择的,如表1所示。 我们使用表2中提供的准确性、F1分数和AUC分数来评估这些数据集上的监督学习算法。随后,我们申请延期我们使用比特币和以太坊数据集的方法,其中我们使用每个数据集相同的监督学习算法进行训练和评估,以进行公平的比较。因此,我们选择性能最好的算法,即比特币数据集上的随机森林来分类非法交易,以太坊数据集上的XGBoost来分类欺诈地址,参见表2。最后,我们应用上述的过采样和欠采样方法来研究类不平衡问题对这些数据集的影响为了对数据集进行重采样,我们保留了所有过采样方法的默认超参数,除了以下根据经验调整的方法:(1)OSCCD:群集数设置为3。图五. 以太坊数据集中某些特征的BoX图(指示数据集中的特征如何分布)。I. Alarab,S. 巴孔威数据科学与管理5(2022)6671表1给定模型的超参数数据集模型超参数比特币随机森林树数<$50;最大深度<$50;最大特征数<$5EX tra树树数< $50表3使用Random Forest对比特币数据集应用恢复技术的比较。梯度提升学习率:0.1XGBoost树数<$300;最大深度<$50;学习率<$0.1Logistic回归C¼10;时期¼ 50MLP Adam优化器;隐藏层大小<$50; epochs<$450Ethereum随机森林树的数量<$100EX tra树树数<$100;最大特征数<$9梯度提升树的数量<$300;最大深度<$4;学习率<$0.1XGBoost树数<$300;最大深度<$4;学习率为¼0.1Logistic回归C¼10;时期¼ 100MLP Adam优化器;隐藏层大小<$50; epochs<$4100表2比特币和以太坊数据集上监督学习模型的分类结果。数据集模型准确度(%)F1-评分(%)AUC评分(%)比特币随机森林98.0282.3991.90EX tra树97.8480.3492.40梯度提升96.7974.3089.90XGBoost97.7080.2093.50Logistic回归88.3341.7287.60MLP96.1167.9590.50ENN在两个数据集上应用两次我们用ENN和ENN-all来区分这两种方式。 ENN对应于仅应用于训练集的欠采样,而ENN-all应用于整个数据集。后一种方式允许我们提供更多关于特征空间中噪声数据点的讨论。 使用准确度,精确度,召回率和F1分数从不同的resception技术得出的实验结果分别列于表3和表4中,用于比特币和以太坊数据集。因此,我们绘制了ROC-AUC曲线,以分析重新采样数据集的分类优度,如图2所示。比特币和以太坊分别为6和7。我们还计算了任意选择的ENN-all、SMOTE-SF和K-means SMOTE重采样技术的重采样数据集的特征重要性得分。 我们比较了从非重采样数据集导出的模型的最重要特征(即, 由NoSMOTE表示)与使用后三种重采样技术的其它重采样数据集。 特征重要性分数是使用特征变异方法为每个比特币和以太坊数据集的训练集和测试集计算的。表4使用XGBoost应用于以太坊数据集的恢复技术之间的比较以太坊数据集准确度(%)精密度(%)召回率(%)F1-评分(%)ENN-all99.3898.7597.9398.34NoSMOTE98.9199.0996.1797.61SMOTE-SF98.7198.0596.3297.18K均值SMOTE98.7198.6395.7397.16击杀98.6797.3496.9197.12LLE-Smote98.6798.1996.0297.104.2. 特征重要性特征置换方法(Breiman,2001)对每个特征的数据进行,以积累相对于基线模型的预测误差(即,具有非shuffed数据集的模型整个过程重复多次,以找到每个特征的平均重要性。在我们的实验中,我们使用sklearn包(Pedregosa等人, 2011年),五次重复,以减轻随机洗牌造成的偏见。所使用的数据集的训练集和测试集中的每一个的特征重要性描绘在图1和图2中。 8和9。如上所述,我们任意选择了四种重定位技术来研究特征重要性;然而,这个概念对其他重定位技术和数据集也是此外,我们只可视化一组六个特征(具有最高分数),因为所有特征的可视化都非常大并且没有信息。此外,我们使用WilcoX on符号秩检验(WilcoX on,1945),这是一种检验来自相同分布的两个相关配对样本之间的零假设的统计方法。使用配对样本检验,数据可表示为:Pf1;Qf1;Pf2;Qf2;.; Pf n比特币数据集准确度(%)精密度(%)召回率(%)F1-评分(%)ENN-all99.4299.3189.1093.93NoSMOTE98.0297.9671.0982.39K均值SMOTE98.0297.9671.0982.39LLE-Smote98.0297.9671.0982.39DEAGO98.0297.9671.0082.33ENN98.0199.3469.8982.05AHC97.9696.3871.3782.01治愈-Smote97.9596.9670.7281.79安全水平-SMOTE97.9697.9370.1781.76OSCCD97.8295.3469.8980.66SMOTE-SF97.6590.1371.7479.89TRIM-SMOTE97.6690.7271.3779.89击杀97.5788.8771.5679.28SOMO97.6697.0166.0278.57Smote-97.4186.1471.7478.28TomekLinks边界-97.2584.0071.2877.12SMOTE1边缘-97.3588.1268.5177.09SMOTE2OSCCD98.6198.0495.8896.95以太坊随机森林98.0695.7099.70SOMO98.5798.3395.4496.86EX tra树97.7694.9999.70DEAGO98.5498.3395.2996.78梯度提升98.4796.6399.80AHC98.5498.4795.1496.78XGBoost98.9197.6199.80治愈-Smote98.5197.7495.7396.73Logistic回归79.5820.9670.50边缘-98.4097.0296.0296.52MLP95.5690.1460.60SMOTE1Smote-98.3496.8795.8896.37联系我们边缘-98.3496.8795.8896.37(2)LLE:设置嵌入特征空间的分量的数量SMOTE2安全水平-SMOTE98.0696.0195.5895.79到5.TRIM-SMOTE97.0592.7894.5593.66(3)SMOTE-SF:选择40和10个特征,ENN96.6196.4788.5292.33比特币和以太坊数据集。I. Alarab,S. 巴孔威数据科学与管理5(2022)6672nð ÞJ JÞÞ见图6。随机森林的ROC曲线分析,使用比特币中的各种数据恢复方法。图第七章XGBoost的ROC曲线分析与以太坊中的各种数据存储方法。特征的数量,fi是第i维的特征,Pfi是第i维的特征。T/X符号DiRi;(2)重要性(即,分数),Qfi是使用原始数据集的特征fi的重要性,我们将原始数据集称为NoSMOTE基线模型。前面的表达式的项可以被替换为分数的差异,如D1;D2;Dn¼ Pfn-Qfn(1)因此,执行WilcoX on测试的步骤如下所示:(1) 求jD1j;jD2j;(2) 按递增顺序排列jD1j;jD2j;(3) 为步骤2中的排序值分配秩为R1;R2;分配秩,使得最小的Di对应于秩1,并且第二小的Di对应于秩2,等等。(4) 求符号秩和T的检验统计量为:1/1其中sign(.)表示符号函数,当输入值为正时返回1,否则返回-1。(5) 通过比较检验统计量T与Studentt分布,找到给定零假设为真的p值(概率值)为了测试特征重要性分数在应用恢复技术后是否发生了变化,我们可以将假设检验公式化如下:(1) 假设(H0:特征重要性分数(重新采样之前)等于特征重要性分数(重新采样之后)。(2) 备选假设(H1:特征的重要性受到再分配技术的影响。然后,我们选择显著性水平α的值,等于I. Alarab,S. 巴孔威数据科学与管理5(2022)6673ð Þð Þ见图8。 比特币中的重命名技术对特征重要性的影响0.05. 该值是t分布中的一个区域,我们可以在95%的置信水平下拒绝零假设因此,p值小于显著性水平α意味着我们有强有力的证据反对零假设,我们可以接受另一种假设,即特征的重要性受到重采样技术的影响。例如,我们参考在使用SMOTE重新排序技术之后的特征重要性的WilcoXon测试,如下所示:WilcoxonSMOTE;NoSMOTE;其中P f是从使用SMOTE后的特征重要性导出的,Q f是从使用相同模型下的原始数据集的特征重要性导出的我们对图1和图2所示的恢复技术进行Wilco X on检验。8和9分别用于比特币和以太坊数据集。如表5所示,计算每个数据集中三种恢复技术的WilcoXon检验的p值。5. 讨论5.1. 分类和重新分类技术如表3和表4所示,ENN-all欠采样方法的性能优于所有其他重采样技术以及非采样方法。比特币和以太坊数据集上的NoSMOTE数据 关于比特币数据集,ENN-all的实验结果显示,与Nos-MOTE相比,准确度和F1分数分别从98.02%增加到99.42%和从82.39%增加到93.93%。 这种增加解释了ENN-all移除大量噪声实例以提供适用于整个数据的良好决策边界。其余的再验证技术已经揭示了假阳性和假阴性的数量之间的权衡,或者在提高精确度或召回率方面,参考表3。与NoSMOTE相比,ENN将准确率从97.96%提高到99.34%;然而,这是以将召回率从71.09%降低到69.89%为代价的。 这是因为ENN已经删除了来自列车集上非法交易的噪声实例,从而减少了误报。过采样方法在提高召回率方面发挥了显着的作用,例如在SMOTE-SF技术中,该技术获得了71.74%的召回率,其中训练集在特定的特征子集上随机过采样。关于以太坊数据集,我们强调了使用ENN-all欠采样技术的准确率从98.91%略微增加到99.38%,F1得分从97.61%增加到98.34%,如表4所示。与比特币数据集相比,模型性能的这种轻微增加说明了以太坊数据集中已经存在的几个噪声实例。因此,以太坊数据集上的所有恢复技术都显示出良好的决策,因为噪声实例的数量较少。Smote有I. Alarab,S. 巴孔威数据科学与管理5(2022)6674见图9。恢复技术对以太坊中特征重要性的影响。在该数据上的召回率最高,为96.91%。然而,这将精度从99.09%降低到97.34%。因此,过采样不能减少错误分类的实例,同时仍然能够通过不同的过采样技术改善AUC分数来提供更好的分类规则,如图1A和1B中的ROC曲线分析所示。6和图7通常,当生成的数据位于所用模型的决策边界附近时,过采样会提高模型的性能。表5使用不同的重采样技术对比特币和以太坊的重采样和非采样数据集之间的特征重要性进行Wilco x检验另一方面,我们分别强调了比特币和以太坊数据集上的监督学习算法在数据预处理后的出色表现,与Weber et al.(2019)和Farrugia et al.提出的原始作品相比。(2020年)。随机森林使用85个特征而不是166个特征对比特币数据集进行类似地,以太坊数据集上的数据预处理提供了更高的性能,准确率和F1得分分别为98.91%和97.60%,参见表6。5.2. 特征重要性我们讨论了使用给定的监督学习模型的特征重要性的影响的reservation技术。主要地,特征排列方法为最重要Wilcoxon(K均值SMOTE,表6我们的实验与比特币和以太坊数据集的原始贡献之间的比较。这些表突出显示了0.999我们的 实验XGBoost以太坊列车NoSMOTE)Wilcoxon(SMOTE-SF,NoSMOTE)0.013数据集方法准确度(%)F1-评分(%)设置Wilcoxon(ENN-所有,NoSMOTE)0.003比特币随机森林(Weber等人, 2019年)97.7078.80Wilcoxon(K均值SMOTE,NoSMOTE)0.564数据集预处理随机森林(我们的)98.02 82.39以太坊测试集Wilcoxon(SMOTE-SF,NoSMOTE)0.061威尔科克森(ENN-所有,NoSMOTE)0.866以太坊数据集预处理GSTXGBoost(Farrugia等人, 2020年)96.30 96.00Wilcoxon(K均值SMOTE,NoSMOTE)0.259预处理模块XGBoost(Ours)98.91 97.60模型数据集威尔科X检验p值随机比特币火车套装Wilcoxon(SMOTE-SF,NoSMOTE)0.995森林Wilcoxon(ENN-all,NoSMOTE)0.354比特币测试集Wilcoxon(K均值SMOTE,NoSMOTE)Wilcoxon(SMOTE-SF,NoSMOTE)0.9990.001Wilcoxon(ENN-all,NoSMOTE)0.227I. Alarab,S. 巴孔威数据科学与管理5(2022)6675分类器用于执行预测的特征。特别地,测试集的特征排列方法与模型预测的可解释性联系在一起。对于比特币数据集,随机森林揭示了不同的特征重要性在训练集和测试集上,使用不同的重新排序方法,参见图1。 八、然而,特征我们还注意到,比特币数据集上的本地特征比聚合特征显得更重要。对于以太坊数据集,“总ERC 20 Tronext功能在使用SMOTE-SF的整个数据集中发挥了重要作用,如图所示。 9,由此该重采样技术对以最高Fisher分数选择的特征的子集进行过采样。同时,“第一次和最后一次之间的时间差(分钟)”反映了以太坊账户使用的总持续时间,这5.3. 重排序技术对特征重要性的影响由于该领域中模型的可解释性是非常理想的,因此由重定位方法引起的特征重要性的变化会影响模型的可解释性,因为它与特征重要性高度相关我们通过对重采样和非采样数据集之间的特征重要性进行Wilco x检验来验证这一说法。该统计方法提供的p值如表5所示。小于0.05的p值显示了拒绝零假设并最终接受备择假设的有力证据。 对于比特币测试集,针对reservation技术SMOTE-SF的Wilco X on测试显示p值等于0.001,这意味着该测试具有统计学意义。 对于以太坊训练集,SMOTE-SF和ENN-all的假设检验在统计上是显著的,我们有证据拒绝零假设。 对于比特币训练集和以太坊测试集,没有证据表明给定的恢复技术对特征重要性的影响,参见表5。一般来说,特征重要性的差异意味着在使用相同的分类模型应用重新排序方法后,数据分布发生了变化此外,具有最高性能的模型应该产生更准确的特征重要性,因此具有更好的可解释性。这是合理的,因为可解释的机器学习方法试图解释给定模型的预测。6. 结论根据我们进行的实验,我们已经表明,随机森林在检测比特币数据集中的非法交易方面表现最好,而XGBoost在捕获以太坊数据集中的欺诈账户方面表现出色。然后,我们研究了这些数据集上的类不平衡问题,通过应用各种重采样技术(过采样,欠采样和混合重采样)。ENN- all是一种欠采样技术,在这些数据集上提供了最佳性能,准确率超过99%。此外,我们还提供了其他检索技术的实验结果,包括准确率,精确率,召回率,F1评分和ROC AUC评分。因此,过采样技术提高了模型的召回率,但牺牲了模型的与此同时,大多数过采样方法显示,在给定的数据集上,AUC分数显着增加。 我们还声称,与原始贡献的结果相比,在数据预处理后,所使用的模型在比特币和以太坊数据集上的表现更好。 另一方面,我们还研究了数据恢复对特征重要性的影响。 为此,我们使用特征排列方法来计算每个使用的模型在训练集和测试集上的特征重要性,这些训练集和测试集使用比特币和以太坊数据集。所提供的结果已经描述了不同重定位技术之间的特征重要性的变化,这有助于模型的可解释性,其中模型高性能模型的可解释性更可靠为了表明恢复方法影响特征重要性,我们已经执行了WilcoX on统计方法来测试统计证据,以拒绝零假设,该零假设表明特征重要性得分在数据采样前后保持相同对于某些再验证技术,该检验具有统计学显著性,可在95%的置信水平下拒绝零假设这意味着我们有足够的证据表明,在给定的零假设下,特征重要性得分受到重新排序技术的影响在这项研究中,没有一个过采样数据在模型的准确性方面表现出更好的性能。在未来的工作中,我们将探索使用人工神经网络进行数据过采样的生成算法,并使用其他XAI技术(例如,局部代理模型)而不是特征置换方法。竞合利益作者声明不存在利益冲突附录A. 补充数据本 文 的 补 充 数 据 可 在 https : //doi 网 站 上 找 到 。org/10.1016/j.dsm.2022.04.003。引用Akinnuwesi,文学士,Fashoto,S.G.,Mbunge,E.,例如,2021.智能计算技术在COVID-19疾病分类和早期鉴别诊断中的应用。数据科学经理。4(12月), 10- 18阿拉拉布岛Prakoonwit,S.,2021年不确定性估计的对抗攻击:识别神经网络中的关键区域。神经过程。Lett. 54(Dec.)、 1805- 1821年。阿拉拉布岛Prakoonwit,S.,Nacer,M. I.,2020年a。使用监督学习方法进行比特币反洗钱的比较分析。在:2020年第五届机器学习技术国际会议ICMLT 2020的会议记录。计算机协会,pp。 11比17阿拉拉布岛Prakoonwit,S.,Nacer,M. I.,2020年b。图卷积网络在比特币区块链反洗钱中的能力。在:2020年第五届机器学习技术国际会议ICMLT 2020的会议记录。计算机协会,pp。 23比27阿拉拉布岛Prakoonwit,S.,Nacer,M. I.,2021.一般数据集中MC-dropout的说明性讨论:比特币中的不确定性估计。神经过程。Lett. 53(1月), 1001- 1011Bartoletti,M.,佩斯,B.,Serusi,S.,2018年比特币庞氏骗局的数据挖掘在:2018年加密谷区块链技术会议(CVCBT)。IEEE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功