信用卡欺诈检测：系统综述与未来研究方向

50 浏览量更新于2024-01-18 收藏 2.09MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

制作和主办：Elsevier沙特国王大学学报颠覆性技术时代的信用卡欺诈检测：系统综述Asma Cherifa，b，Arwa Badhiba，Heyfa Ammarb，c，Suhair Alshehria，Manal Kalkatawia，AbdessamadImineda沙特阿拉伯吉达阿卜杜勒阿齐兹国王大学计算机信息技术学院信息技术系b沙特阿拉伯吉达阿卜杜勒阿齐兹国王大学智能环境研究卓越中心c突尼斯Almanar大学突尼斯国立工程学院RISC-ENIT研究实验室d洛林大学、法国国家科学研究中心、INRIA、法国旺德苏夫雷-莱西阿提奇莱因福奥文章历史记录：2022年7月11日收到2022年11月3日修订2022年11月16日接受2022年12月5日在线发布保留字：信用卡欺诈检测机器学习深度学习类失衡A B S T R A C T由于非接触式支付等创新技术和通信方法的出现，信用卡欺诈正在成为一个严重且日益严重的问题。在这篇文章中，我们对2015年至2021年期间进行的检测和预测欺诈性信用卡交易的前沿研究进行了深入的回顾。选择40篇相关文章进行回顾，并根据所涵盖的主题（类不平衡问题，特征工程等）进行分类。以及所使用的机器学习技术（建模传统和深度学习）。我们的研究表明，到目前为止，深度学习的应用有限，这表明需要进行更多的研究，以通过使用大数据分析、大规模机器学习和云计算等新技术来解决与检测信用卡欺诈相关的挑战。提出了当前的研究问题，并强调了未来的研究方向，我们的研究提供了一个有用的来源，以指导学术和工业研究人员在评估金融欺诈检测系统和设计强大的解决方案。©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言. 1461.1.动机1461.2.捐款1461.3.文件组织1472.方法学1472.1.相关调查1472.2.论文的选择和筛选2.3.研究产出1503.研究背景1503.1.信用卡欺诈检测系统设计3.2.信用卡分期付款3.3.机器学习技术应用于FDS。...............................................................................................................................................................................................................1553.4.象征主义方法155电子邮件地址：acherif@kau.edu.sa（A. Cherif），adhib@kau.edu.sa（A. Badhib），heyfa gmail.com. Ammar），sdalshehri@kau.edu.sa（S. Alshehri），mkalkatawi@kau. edu.sa（M. Kalkatawi），abdessamad. loria.fr（A. 亚胺）沙特国王大学负责同行审查该项目由机构基金项目资助，赠款编号为（IFPRC-032-612-2020）。因此，提交人感谢教育部和沙特阿拉伯吉达阿卜杜勒阿齐兹国王大学提供的https://doi.org/10.1016/j.jksuci.2022.11.0081319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Cherif，A.Badhib，H.Ammar等人沙特国王大学学报1463.5.Bayesianapproach贝叶斯方法3.6.渐进式方法1553.7.基于类比的方法1553.8.连接主义方针1564.基于传统机器学习的模型1564.1.监督技术1574.2.无监督技术1585.深度学习模型6.阶级不平衡的解决办法1626.1.过采样技术1626.2.欠采样技术1626.3.混合技术1626.4.其他平衡技术1637.欺诈检测数据集和测试参数1657.1.数据集1657.2.欺诈检测测试指标1657.2.1.分类指标1667.2.2.视觉表现1667.2.3.统计指标1677.2.4.成本计量1677.2.5.讨论1678.开放性研究问题和研究方向1678.1.大数据技术1678.2.云计算1698.3.物联网和信用卡交易1698.4.安全和隐私问题1709.结论171竞争利益声明致谢171参考文献1711. 介绍1.1. 动机现金作为一种支付方式已经为数字商务腾出了空间，但新冠肺炎疫情进一步取代了现金支付方式。信用卡支付正在成为全球经济中当代数字商务的主要代表.不同的利益相关者，包括发行商、银行、支付处理商和商家，都在不断寻找利用多种技术进步的方法新技术为创新的支付解决方案铺平了道路物联网（IoT）设备的丰富和连接性的改善、应用内支付和移动终端的普及正在推动信用卡支付系统的发展例如，Amazon Go等许多公司目前正在尝试基于生物识别的支付。通过标记化（Liu等人，2020年），智能手表等移动物联网设备用于与附近的系统交换信息，以进行按需支付，从而产生了新的通信模式来执行交易。信用卡是网上银行的热门产品，广泛应用于网上交易和电子商务。然而，信用卡使用的演变和扩展导致了多种形式的欺诈的出现欺诈者正在使用越来越复杂的方法进行非法交易，给持卡人和银行造成重大损失从盗窃、窃取信用卡信息到制作假卡以模仿合法用户行为，如今与此同时，数据的正常化和神经网络的使用增加使得人工智能（AI）和深度学习技术的使用对于发卡机构和银行服务至关重要。今天，人工智能正在为设计新的通过支持增加的批准率、最小化拒绝的交易以及实现对信用额度的主动监控，更好地处理下一代信用卡欺诈检测的方法然而，在导航智能银行交易处理时存在许多挑战，包括需要解决的客户行为变化，以便维护合法操作。由于这些转变和挑战，银行和支付处理器正在快速地使其支付技术现代化，这可能产生安全问题。因此，必须建立健全和最新的信用卡欺诈检测系统。信用卡欺诈检测通过将传入交易分为两类来帮助识别可疑交易：合法交易和非法交易。信用卡诈骗可以采取两种形式之一：在线和离线。在网上欺诈的情况下，欺诈者进行涉及网上购买的欺诈交易;而在离线欺诈中，他们使用被盗的信用卡进行恶意交易许多研究工作已经解决了信用卡欺诈的问题。因此，有必要分析他们报告的解决方案，为该领域的研究人员提供路线图。虽然有以前的调查（见第2节），最近提出了许多新的方法，需要分析。此外，现有的调查主要集中在检测模型，而不是利用新的技术和计算方法。因此，我们的研究提供了一个全面的调查，考虑了信用卡欺诈检测的几个方面，重点是深度学习方法和颠覆性技术。1.2. 贡献我们的研究工作对信用卡检测进行了全面的调查，重点是使用最新的进展和新技术，不仅涵盖机器学习算法，还涵盖最新进展的整合，如大数据技术，类不平衡问题和实时方面。A. Cherif，A.Badhib，H.Ammar等人沙特国王大学学报147侦测我们还将回顾2020年至2021年期间发表的最新研究成果，为未来的研究人员提供相关指导这项调查的贡献有三个方面：从三个角度分析了最近为解决信用卡欺诈检测问题而进行的研究：（i）所使用的机器学习方法及其在解决检测问题方面的有效性，（ii）类不平衡问题及其在文献中的解决方法，以及（iii）特征工程问题。在实施和测试方面深入审查最先进的解决方案。根据其相关性，讨论和分析了该领域使用的主要指标全面介绍研究挑战以及可能的研究方向，帮助研究人员和开发人员提供更强大和最新的解决方案来解决信用卡欺诈检测问题。1.3. 论文组织本文的其余部分组织如下。第2节解释了进行这一审查的方法。第三部分介绍了本文的研究背景。第4节展示了基于传统机器学习的拟议工作，而第5节则浏览了基于深度学习的解决方案。第6节强调了类不平衡问题，并总结了用于信用卡欺诈检测的最新技术。第7节详细介绍了与信用卡欺诈问题相关的测试指标。它还介绍了文献中包含的不同数据集，以及在所审查的作品中取得的最佳结果。第8节突出了开放的问题，并提出了一些研究方向。最后，第9节结束了本文。表1显示了本文中使用的缩写2. 方法这项研究遵循图中提出的策略。1.一、它包括三个主要阶段：研究设计、研究方法和研究产出。2.1. 相关调查研究人员首先搜索该领域的调查论文，并选择最相关的论文。根据以下标准对这些论文进行分析：● 出版日期;● 覆盖面;● 讨论的话题虽然已经提出了许多调查智能信用卡欺诈检测系统的调查，但其中大多数都具有广泛的范围，涵盖了商业领域的许多其他领域，从而分散了研究人员，或者在该领域的子领域（短期调查，监督方法或深度学习方法）中具有非常有限的范围此外，一些论文只描述了最先进的解决方案，而没有对所涵盖文献的利弊进行深入分析。Al-Hashedi 和 Magalingam （ 2021 ）的工作涵盖了 2009 年至2019年（含）关于金融欺诈的研究论文它主要讨论基于数据挖掘技术的作品，并根据一系列因素对文献进行分类，包括出版年份，出版商，使用的方法和研究领域（信用欺诈，加密货币，加密货币）。表1缩略语列表符号描述ADASYN自适应合成AI人工智能ANN人工神经网络AUC曲线下面积AUC-PR精确-召回曲线下面积BBE平衡袋法受试者工作特性下的AUC-ROCBMR贝叶斯最小风险决策树BMR Logistic回归BMR随机森林BP神经网络CNN卷积神经网络CNP卡-不存在DDM数据驱动模型深度学习DT决策树DWE动态加权熵FDS欺诈检测系统FN假阴性FNN前馈神经网络FP假阳性FPR假阳性率G均值几何均值GBT梯度提升高斯朴素贝叶斯GRU门控经常性装置IoT物联网KNN K-最近邻线性回归LOF局部离群因子LogR Logistic回归LSTM长短期记忆MCC Matthews相关系数ML机器学习多层感知器多目标粒子群优化算法NB朴素贝叶斯NN神经网络PCA主成分分析概率神经网络RF随机森林RNN递归神经网络ROC受试者工作特性ROS随机过采样RUS随机欠采样欧洲单一支付区SMOTE合成少数过采样SVM支持向量机SVM-RFE支持向量机-递归特征消除TN真阴性TP真阳性TNR真阴性率TPR真阳性率WELM加权极端学习机货币欺诈、保险、金融）。这是一个全面的研究审查，重点是金融欺诈，信用卡欺诈，保险欺诈和其他类型的欺诈检测。介绍了用于金融欺诈检测的数据挖掘技术还指定了数据集和验证指标最后，对每种数据挖掘技术的优缺点然而，审查仅限于“分类”技术，并没有描述完整的检测链，这是重要的，以获得用于检测的功能的想法。此外，作者没有关注信用卡欺诈，也没有涉及类不平衡问题或特征工程问题。也没有考虑到大数据等新趋势。在Lucas和Jurgovsky（2020）中，作者考虑了数据驱动的信用卡欺诈检测的挑战具体而言，他们专注于数据不平衡问题以及如何在最先进的解决方案中解决不断变化的行为问题（数据集漂移）。●●●A. Cherif，A.Badhib，H.Ammar等人沙特国王大学学报148Fig. 1. 研究战略。但是，有些文件太旧，没有提供比较分析 Popat 和Chaudhary（2018）是一个简短的调查，其中只有七个相关的作品基于他们的机器学习技术进行了讨论。然而，作者没有讨论每项审查工作的细节在Kanika和Singla（2020）中，作者分析了基于深度学习的在线交易欺诈检测技术。作者还提供了关于所使用的主要数据集和所取得的结果的然而，这项研究的范围仅限于深度学习技术。在Mittal等人（2020）中，作者对信用卡欺诈进行了分类，并总结了已审查研究中描述的主要特征。他们还讨论了信用卡欺诈检测。提出了一个研究方向的短名单，但缺乏更好地指导研究人员所需的细节。表2显示了这项研究与最近调查的比较在确定现有调查的局限性后，制定了以下研究目标审查最近的研究论文;使用深度学习技术调查论文分析颠覆性技术和新方法对信用卡欺诈检测的有用性;● 研究与信用卡诈骗侦查有关的保安问题。2.2. 论文的选择和筛选前面的步骤导致了研究关键词的定义和合格研究的数字图书馆的选择，即Else- vier，Springer，IEEE explore，ACM等。第二阶段确定搜索标准如下：包括2015年以来出版的作品;包括与数据挖掘和人工智能领域相关的作品;包括研究新技术的作品，如物联网，大数据和云计算;● 考虑信用卡欺诈研究的安全方面表2与最近的调查文件比较。参考编号出版物覆盖审查主题年度论文类不平衡大数据特征工程信用卡片焦点数据集优点与弊未决问题和未来研究方向安全和隐私（Al-Hashedi和2019马加林加姆，2021年）（卢卡斯和2019年）2009–20191998–2521UUUUUU尤戈夫斯基，20192020年）（Popat和2018年1014–7UChaudhary，2018）（Kanika和Singla，202020171997–242020年）（Mittal等人，2020年）20171994–22UUUU2020我们的20222015–202140UUUUUUUU●●●●●●A. Cherif，A.Badhib，H.Ammar等人沙特国王大学学报149图二.根据出版商的论文分布。图三. 根据使用的技术分发文件。见图4。论文按研究问题分布。表3Taxonomy.主要主题参考文献检测（Srivastava等人， 2016）（Kewei等人， 202 1）（Sudha和Akila，202 1）（Fu等人， 2016）（Ingole等人， 2021）（AliYes，ilkanat等人， 2020）（Mohammed等人，2018）（Wang et al.，2018）（Padmanabhuni等人，2019）（Roy等人，2018）（Babu和Pratap，2020）（Rtayli和Enneya，2020）（RB和KR，2021）（Forough和Momtazi，2021）（Bagga等人， 2020）（Carcillo等人， 2021年）阶级不平衡（Benchaji等人， 2018）（Thennakoon等人， 2019）（Tran和Dang，2021）（Li等人， 2021）（Kim等人， 2019）（Dornadula和Geetha，2019）（Rtayli和Enneya，2020）（Zhu等人，2020）（Ingole等人，2021）（Yang等人，2019）（Baabdullah等人，（Akila和Srinivasulu Reddy，2018）（Olowookere和Adewale，2020）特征工程（Thennakoon等人， 2019）（Lucas等人，2019，2020）（Correa Bahnsen等人， 2016）（Zhang等人， 2021）（Lucas等人，2020）（Cochrane等人， 2021）（Han等人， 2021）（Jurgovsky等人，（Sudha和Akila，2021）推荐系统（Cui等人， 2021年）优化（Han等人， 2021）（Soltani Halvaiee和Akbari，2014）（Benchaji等人， 2021）（Zhu等人， 2020年）实时方面（AliYes，ilkanat等人， 2020）（SoltaniHalvaiee和Akbari，2014）（Thennakoon等人， 2019）（Zhou等人， 202 1）大数据技术（Zhou等人，（Soltani Halvaiee和Akbari，2014年）A. Cherif，A.Badhib，H.Ammar等人沙特国王大学学报150安全/隐私（Yang等人，2021）（Yang等人， 2019年度）A. Cherif，A.Badhib，H.Ammar等人沙特国王大学学报151筛选并过滤符合这些检索标准的所有检索论文的标题和摘要，以纳入调查。排除标记为不合格（不相关或超出研究范围）的记录。最终检索到40篇全文相关文章。图2示出了根据出版商的保留论文的分布2.3. 研究成果每一个选定的模型进行了审查，以分类的作品到一个全面的分类，如下图所示。 3根据所使用的技术总结了所选论文的分布情况。由于每篇研究论文都有一个特定的研究问题，根据该领域面临的主要挑战，审查的工作也根据研究问题分类，如图。四、表3显示了按题目分列的论文分布情况图图5根据研究人员调查的主要主题和副主题，显示了针对信用卡欺诈检测问题建议的最先进技术的分类。3. 研究背景欺诈是一种有计划的欺骗，旨在获得金钱利益。信用卡和借记卡等电子支付方式的使用越来越多，导致信用卡欺诈行为增加。手机银行的日益普及导致了欺诈性支付的增加-图五. 信用卡欺诈检测分类。A. Cherif，A.Badhib，H.Ammar等人沙特国王大学学报152的交易。因此，财政损失也在增加。信用卡可以在线或离线使用来购买物品。在线支付不需要卡的物理存在，因此卡数据容易受到攻击。这种类型的欺诈也被称为无卡（CNP）欺诈。此外，使用芯片卡的非接触式支付和通过近场通信（NFC）的移动终端支付的使用正在增加，因为这允许更快的支付。新型冠状病毒疫情爆发后，这些付款方式变得尤为普遍。它们使用能够实现非接触式支付的短距离无线通信技术（Vishwakarma等人，2021年）。与传统支付不同，NFC支付依赖于另外两个合作伙伴：手机制造商和移动运营商。这些合作伙伴的安全策略可以被电话市场而不是支付市场操纵（Gerbaix，2010），这会导致更多的安全问题，并使客户比使用实体卡支付时面临更多的信用卡欺诈。虽然允许在这些类型的支付上支付小额费用，但骗子可以从用户行为中学习，并在客户通知银行之前进行大量交易。因此，重要的是提供稳健的检测解决方案。根据2021年发布的第七份单一欧洲支付区（SEPA）报告（SEPA报告，2022年）和对2019年数据的分析，欺诈交易的总价值为18.7亿欧元，其中80%为CNP支付。相比之下，ATM和销售点终端的欺诈份额分别下降到欺诈总价值的5%和15%（见图6）。与目前的卡欺诈相比，CNP欺诈近年来有所增加。因此，CNP欺诈是信用卡行业非常关注的问题。3.1. 信用卡欺诈检测系统设计信用卡欺诈检测系统（FDS）由一系列检测模块组成，这些检测模块被执行以拒绝可疑交易（Kim等人，2019; Dal Pozzolo等人，2015; Dal Pozzolo等人，2018年）。很少有研究调查了一个综合的框架，信用卡欺诈检测的设计。最著名的模型是由Andrea等人提出的（Dal Pozzolo等人，2018年）（见图7。（一））。他们根据工业合作伙伴的操作定义了五个控制层：终端，阻止规则模块，评分规则，数据驱动模型（DDM）和调查员。舞弊控制流程分为五个层次。首先，客户通过终端进行交易。然后，这些事务被转发到阻塞规则模块，以根据逻辑规则执行初始的主要实时保护检查。该步骤包括检查If-Then-Else规则以检测已经被人类调查者发现的欺诈模式。出于安全原因，这些规则被工业界保密（Dal Pozzolo等人，2018）1.下一步是评分规则，遵循DDM。该模型包括调查员，需要人工干预以仔细检查交易。DDM使用已经过验证的历史交易数据，或者依赖于另一个统计模型来检测欺诈性交易。对合法交易的得分如果分数超过了一个既定的阈值，交易将被拒绝，然后转发给专家进行进一步分析。DDM通常从标记的数据集进行训练，并且是完全自动化的。预计DDM将检测到欺诈性交易，这超出了调查人员的经验，而这在基于规则的模块中是缺失的。1例如，规则可以是“如果前一个交易在不同的大陆并且距离前一个交易小于1小时，则拒绝”（Dal Pozzolo等人，2018年）。如果存在未被分类器或统计模型检测到的欺诈交易，则一旦持卡人报告，警报就被转发给调查人员。评分模块必须返回准确的警报，以减少错误警报和被忽视的欺诈交易的数量。该过程在图7中示出。（一）.Kim等人略微修改了上述模型。（2019年）（见图）7.第一次会议。（b））。该改进主要是将评分模型自动化，并将其与DDM模型组合为组合数据驱动评分模型（DDSM）。新设计还通过将整个过程视为实时处理来强调FDS的实时方面，这与（Dal Pozzolo等人，2018年），他将评分和DDM设计为近实时处理。一般来说，欺诈检测问题由二元分类问题组成传入的交易必须被分类为欺诈或真实的。然而，量化欺诈程度的FDS在实践中更有用由于调查可疑交易是耗时的，并且调查者的数量有限，因此FDS需要以完全自动化和分布式的方式操作为了实现这一点，重新设计了欺诈检测系统，如图所示。8.第八条。建议通过评估交易风险的智能模型对如果风险很高，交易将被拒绝。只有当风险很低并且所有预定义的规则都通过时，系统才会向前这确保了即使阻塞规则是有效的并且操作是有风险的，它也将在早期阶段被然后，一旦风险是低到中等，交易被传递到一个分布式DDSM，名为3DSM。这确保了学习模块是分布式的，并依赖于新技术（边缘/云计算）。应尽可能减少人为干预，以支持学习系统并更新其行为。该设计还强调了学习模块使用多个数据输入这包括上下文信息（例如位置）和用户行为信息（例如支出或键入）。3.2. 信用卡分期付款如图9所示，在处理信用卡欺诈检测时面临许多挑战。这些问题主要分为三类：数据相关的挑战：这些挑战与构建强大的信用卡欺诈检测系统所需的数据有关。它们包括：- 阶级不平衡;- 缺乏真实数据;- 数据漂移/移位;- 数据重叠。与安全相关的挑战，主要涉及隐私问题。部署/实施方面的挑战与最终财务发展战略的效率有关，包括：- 分布式实现。- 时间复杂度。数据相关的挑战。FDS依赖于DDSM模块，该模块主要需要高质量的数据集来构建有效的检测模型。然而，研究人员在处理信用卡数据集时面临许多问题类别不平衡：不平衡或偏斜数据集是已知类别中样本分布偏斜（或有偏）的数据集。分布的范围可以从轻微的偏斜到严重的不平衡，其中原始数据的量●●●●A. Cherif，A.Badhib，H.Ammar等人沙特国王大学学报153图六、使用SEPA内发行的卡进行的卡欺诈的总价值少数人类别的人数少于多数人类别。不平衡的分类对预测建模提出了挑战。事实上，用于分类的大多数机器学习算法假设每个类的样本数量相等（Sun等人，2009年）。数据不平衡导致预测模型的预测性能较差，特别是对于少数群体。该模型将有利于多数类，而少数类通常更相关。因此，该模型更容易暴露于少数类的分类错误，而不是多数类。传统的机器学习算法需要一个平衡的数据集（Zheng，2020）。然而，在实践中，与正常样本相比，异常类中的样本少得多。具体而言，在欺诈检测中，与合法交易的数量相比，欺诈交易的数量非常少。不平衡的数据集降低了大多数机器学习算法的性能，例如支持向量机（SVM）和随机森林（Dablain等人，2022年）。解决这个问题的技术有两个方向，要么调整算法，使其足够强大，以处理不平衡的数据集，要么使用预处理采样方法解决不平衡的数据集（Lucas和Jurgovsky，2020）。缺乏真实数据：这一挑战也被称为没有足够的标记数据。事实上，由于许多原因，主要与隐私问题有关，缺乏建立准确模型的真实数据。在许多情况下，数据没有标记，这需要额外的工作来标记数据行。因此，异常检测是用于检测欺诈的常用方法之一。然而，这高度依赖于用户行为，任何变化都可能被检测为欺诈。异常系统依赖于用户的历史行为，这可能是有限的（Zheng等人，2018年）。一些研究已经通过利用来自其他类似用户的信息来调查这种限制，但是这增加了选择相似个体的问题（Cui等人， 2021年）。数据重叠：当不同类别的样本出现在数据空间的同一区域时，会面临重叠，这使得分类器难以区分它们（Denil和Trappenberg，2010）。在信用卡欺诈侦查的背景欺诈和非欺诈交易通常重叠，因为欺诈者模仿真实持卡人的行为以欺骗FDS。处理数据重叠问题的大多数研究认为它类似于类不平衡问题（Li等人，2021年; Vuttipittaykolkol和Elyan，2020年）。Denil和Trappenberg（2010）表明，类不平衡和数据重叠对分类器性能具有相互依赖的影响。此外，同一研究表明，与类不平衡问题不同，数据重叠导致分类器性能线性下降文献中报道的克服类不平衡和重叠问题的最常见的解决方案包括三个主要步骤。第一步涉及将原始数据集划分为重叠子集和非重叠子集。然后对重叠子集应用欠采样以从多数类中移除样本。最后，使用分类器来检测少数样本（Li等人， 2021年）。数据漂移：随着时间的推移，数据漂移是不可避免地降低机器学习准确性的主要问题。正是输入数据形式的变化导致了其性能的恶化。数据漂移可能是由变化引起的在这些特征之间的关系中，或者说在协变量中。这特别发生在检测信用卡欺诈由于不断变化的客户行为。事实上，欺诈行为、方法和战略会随着时间的推移而发展和变化。此外，用户行为也可能随着时间的推移而改变，例如，如果用户在假期花费更多。所有这些变化都会导致测试数据和训练数据之间的数据分布变化，从而降低系统在构建信用卡欺诈检测模型时，从原始数据中选择和使用适当的特征是至关重要的。这可以通过聚集原始数据交易以提取持卡人的消费行为模式来实现（CorreaBahnsen等人，2016年）。这通常是通过汇总交易来观察客户的支出模式。这种行为可能会演变，需要在模型中考虑此类变化。●●●A. Cherif，A.Badhib，H.Ammar等人沙特国王大学学报154见图7。信用卡系统设计的演变。与安全有关的挑战。信用卡交易系统的安全性是一个具有挑战性的问题。检测模型应该保护用户的隐私，防止攻击者了解他们的行为。事实上，如果攻击者获得了关于学习模型的足够信息，他或她就可以模仿用户行为来执行虚假交易，而这些交易不会被发现为欺诈行为。在Yang等人（2019）中，作者提出了一种基于行为特征的联邦学习框架。该模型允许银行训练欺诈检测模型，同时将训练数据分发到本地存储。然后，通过组合由局部检测模型局部计算的更新来构造公共检测系统。因此，相关银行可以从共享模型中受益，而无需传播其本地数据集，从而保护敏感的持卡人数据。此外，设计防止欺诈者泄露用户身份的协议也很重要。例如，Yang等人（2021）讨论了在网络物理系统（CPS）中检测身份欺诈的有趣问题，客户端资源有限。之间的认证两个客户端被委托给可信认证服务器并由可信认证服务器代理。作者提出了一个协议来检测哪个认证服务器在这样的委托认证框架中受到损害。实施/部署挑战。分布式实现：一个健壮的FDS应该是分布式的，以允许一个更健壮的解决方案，可以很容易地扩展几十年来，银行服务一直以单一架构为特征虽然这种集中化是安全的，但它有几个局限性，即扩大规模以满足不断增加的客户数量的高成本。随着云计算的出现，银行已经发展到遵循这种计算模式。云提供的弹性可扩展性，以及它已经达到的成熟度，使得许多银行能够转向云部署。一个好的FDS系统应该遵循分布原则，以适应新一代银行系统的基础设施。然而，分发●A. Cherif，A.Badhib，H.Ammar等人沙特国王大学学报155见图8。信用卡系统全自动化设计。见图9。信用卡欺诈检测挑战。FDS的组件是具有挑战性的，并且应该考虑许多方面，例如延迟、新技术和框架的采用以及异构数据的集成时间复杂性：在线交易的实时性要求FDS在毫秒内做出决策当前的系统通常遭受欺诈检测和欺诈检测之间的差距。时间和欺诈用户被排除在平台之外的时间。FDS应该能够基于流式大数据立即提供决策（AliYe，s ilkanat等人， 202 0）。一个完美的FDS寻求发现欺诈甚至在交易被批准之前。这种实时要求难以实现，因为由于信息获取而存在不可避免的延迟（DalPozzolo等人，2015; Mittal等人，2020年）。然而，这可能●A. Cherif，A.Badhib，H.Ammar等人沙特国王大学学报156如果存在许多误报，也会导致可用性问题和客户不满。欺诈检测可以在交易过程中应用，但应提供高响应性。处理流数据并提供实时分析的新技术，如Apache Spark（Chambers和Zaharia，2018）可能会在响应方面提供更好的解决方案。只有少数研究调查了欺诈检测系统的实时方面。本调查探讨了这些问题，以便为未来的相关研究提供见解。此外，对预测模型的评估必须考虑模型的响应性。为此，第7节描述了该方法。3.3. 应用于FDS的作为人工智能的一个分支，机器学习（ML）系统地使用算法来综合数据和信息之间的底层连接（Awad和Khanna，2015）。为信用卡FDS建议的机器学习模型要么是传统的，要么是深度的。此外，建议的解决方案调查了监督和非监督技术。虽然监督技术需要标记数据来学习真实和欺诈交易，但非监督技术不需要使用标记数据，这避免了丢失标记数据的问题。与监督技术不同，非监督模型通常将信用卡欺诈检测视为离群值检测问题（Chakraborty等人，2022年）。Domingos（2018）根据用于构建机器学习模型的首选方法，将机器学习算法分为五种方法：符号主义者，贝叶斯主义者，类比者，进化者和连接主义者。3.4. 象征主义方法这种方法侧重于逻辑理论和形式系统。这是1950年代至1980年代的一种主导模式。决策主要由逻辑规则指导该方法包括决策树（DT）、随机决策森林（RF）、产生式规则系统和归纳逻辑编程。在信用卡欺诈的背景下，这种机器学习在很大程度上是通过DT以及RF（DT的集合）来研究的为了根据新对象的属性对其进行分类，在树投票给给定类之前，对每个树进行组织。森林选择具有最大票数的类（Breiman，2001）。隔离森林是由Fei Tony Liu开发的异常检测算法（Liu等人，2008; Liu等人， 2012年）。它确定数据的隔离，即给定数据点与其余数据点的距离。隔离森林使用二叉树隔离异常，从而产生更快速的异常检测器，该异常检测器直接发现异常，而无需分析所有常规实例。该算法的时间复杂度与较低的存储器需求是线性的，这完全适合于大容量数据（Matchola等人，2009年）。因此，它允许在处理大量数据时对信用卡欺诈检测进行建模。据作者所知，该算法已被investi-门只在Ingole等人。（ 2021年）。3.5. 贝叶斯方法贝叶斯方法强调使用统计数据来构建模型，并使用概率推理来预测结果。贝叶斯ML算法包括隐马尔可夫链、朴素贝叶斯（NB）、线性回归（linR）、逻辑回归（logR）、梯度提升（GBT）、Adaboost等。朴素贝叶斯模型简单且易于构建，非常适合大规模数据集。这是公认的，NB优于几个高度sophisti-分类模型。它已被广泛用于预测信用卡欺诈，例如，（穆罕默德等人，2018;Thennakoon等人，2019; Baabdullah等人，2020年）。GBT和AdaBoosting算法在处理海量数据时也很有用。Boosting是一种集成学习技术，它集成了许多基本估计器的预测能力，以提高预测模型的鲁棒性。这些算法已经在解决信用卡欺诈检测的几个作品中进行了研究，例如（Padmanabhuni等人，2019; Lucas等人，2020; AliYe，s ilkanat等人， 202 0）。3.6. 循序渐进的办法进化算法起源于生物学，专注于步骤和迭代，而不是结果。当从生物学家的角度考虑机器学习时，最感兴趣的是人工智能优化算法的发展。进化机器学习模型使用遗传算法和进化编程。这些方法通常用于优化机器学习模型，或者通过优化分类器的预测，或者通过特征选择。特别是，使用群体智能在信用卡欺诈检测的特征选择方面进行了研究，在汉等人。（2021年）。3.7. 类比法类比基于要素类的创建这是心理学家更喜欢用来解决机器学习问题的方法。如果数据，旧的或新的，被指定为问题类别之一，该数据的结果预测将取决于其与特定类别的关系。通过这种方法解决的问题是推荐系统。类比者使用类别和类型来识别数据点组，并根据其他类成员的结果预测未来的结果。类比类别下的机器学习模型是 K- 最近邻（KNN）和SVM，它们是无监督学习技术，用于将成员放入它们的类中。无监督学习背后的想法是构建一个模型，该模型能够基于模型的内部自组织正确区分欺诈和真实交易，该模型将模式视为概率密度或神经特征偏好的组合。无监督学习对原始数据中的欺诈行为进行建模，并通过假设真实交易比测试数据中的欺诈交易更频繁来进行异常检测。虽然在信用卡欺诈检测方面进行了大量测试，但KNN和SVM在计算上都很昂贵，并且在检测大型数据集的信用卡欺诈时可能会显示出降低的性能。中提出的一种无监督的基于类比的解决方案检测欺诈交易的文献是使用推荐系统。推荐系统，也称为推荐系统或引擎，是一种信息过滤系统，旨在预测最终用户可能分配给实体的偏好/评级（Shapira，2015）。这种类型的系统最初被设计为帮助向用户推荐项目，因此在几种情况下是有用的，例如社交媒体平台和开放式网络内容提供商。一些研究已经通过在将标签（欺诈/真实）附加为相应的评级之前将顾客建模为用户并且将他/她的行为建模为物品来解决欺诈检测（Cui等人， 2021年）。通过使用协同过滤（Schafer等人， 2007年，它可以检测到欺诈交易。另一种无监督的基于类比的技术是局部离群值因子（LOF）（Breunig等人，2000年）。LOF已经被应用于信用卡欺诈问题，以将欺诈交易检测为异常值（Ingole等人， 2021年），根据当地社区确定。A. Cherif，A.Badhib，H.Ammar等人沙特国王大学学报157它是一种基于密度的技术，使用最近邻搜索来识别异常点（Kotu和Deshpande，2019）。最后，距离矩阵的凝聚聚类已被用于解决信用卡欺诈检测中的偏移问题（Lucas等人，2019年）。它旨在将一组对象（如笔记或个人）分类为具有相似属性的子组，称为集群（Zepeda-Mendoza和Resendis-Antonio，2013）。这种无监督的方法已被用于解决信用卡欺诈检测中的转移问题（Lucas等人， 2019年）。3.8. 联结主义方法这类模型主要是人工神经网络（ANN）（也称为NN）。人工神经网络是一种受人脑生物神经网络启发的模型这种方法包括ANN、强化学习和DL等模型。在Connection-ism中，一个输入可能有一个输出;但是到达那个输出的路径是隐藏的。ANN包括一组互连的人工神经元。通常，ANN是自适应的，即在学习阶段，它基于流经网络结构的外部或内部信息来改变其现代神经网络是非线性统计数据建模工具。它们用于对输入和输出之间的复杂关联进行，或发现数据集中隐藏的模式（Daniel，2013）。人工神经网络已被用作监督和无监督技术来解决信用卡欺诈检测问题。前馈神经网络（ FNN ）是第一种也是最简单的 ANN（Schmidhuber，2015），其中信息只沿着一条路径流动：从输入节点，通过隐藏节点（如果有的话），然后到达输出节点。值得注意的是，FNN结构不包含循环或回路。概率神经网络（PNN）是一种特殊的FNN，具有广泛用于分类问题的复杂结构（Mohebali等人，2020年）。它是由 Donald Specht 提出的（ Specht ， 1990; Specht ，1990），它是基于贝叶斯理论，从贝叶斯网络衍生而来的。它包括输入层、模式层、求和层和输出层。DL是机器学习的一个子集它与经典机器学习的不同之处在于它处理的数据类型和它遵循的学习方法。根据Goodfellow et al. （20

下载后可阅读完整内容，剩余1页未读，立即下载