基于优化模糊C均值聚类和监督分类器的汽车保险欺诈检测

153 浏览量更新于2024-01-14 收藏 817KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于优化模糊C均值聚类和监督分类器的汽车保险欺诈检测Sharmila Subudhi，Suvasini Panigrahi计算机科学与工程IT系，Veer Surendra Sai University of Technology，Burla，Odisha 768018，印度阿提奇莱因福奥文章历史记录：2017年5月26日收到2017年8月18日修订2017年9月27日接受2017年9月28日在线发布保留字：遗传算法在模糊C均值聚类监督分类器A B S T R A C T本文提出了一种新的混合方法来检测汽车保险索赔欺诈应用遗传算法（GA）的模糊C均值（FCM）聚类和各种监督分类器模型。首先，从原始保险数据集中提取测试集剩余的训练集在生成一些有意义的聚类后进行欠采样的聚类技术。测试实例经过聚类后被分为真实类、恶意类和可疑类。真实和欺诈的记录被丢弃，而可疑的情况下，进一步分析四个分类器-决策树（DT），支持向量机（SVM），数据处理的群体方法（GMDH）和多层感知器（MLP）分别。在整个工作中使用10倍交叉验证方法来训练和验证模型。通过在真实世界的汽车保险数据集上进行几个实验，说明了所提出的系统的有效性©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍被保险人（客户）和保险公司（服务提供商公司）之间签订的汽车保险合同在车辆损坏或被盗的情况下提供资金支持。汽车保险欺诈产生于提交虚假文件，关于在一个阶段性的事故或索赔的伤亡，以获得经济利润（Ngai等人，2011年）。此外，这种类型的欺诈可以由任何人完成，如被保险人，脊椎按摩师，车库机械师，律师，警察，保险工作人员和其他人（Šubelj等人，2011年）。澳大利亚保险欺诈局2013年的一项研究反映了非法索赔成本的上升趋势，比2012年增加了20亿美元（澳大利亚：保险，2016年）。2014年，英国保险公司协会（ABI）调查了虚假索赔数量的增加，比上一年增加了18%（偷工减料，2015年）。这些统计数字清楚地说明了问题的严重性，因此，*通讯作者。电子邮件地址： sharmilasubudhi1@gmail.com ， spanigrahi_cse@vssut.ac.in（S。Panigrahi）。沙特国王大学负责同行审查需要坚决解决，以减少这种恶意企图造成的损失。此外，汽车保险欺诈可以分为更容易的方式（提交伪造的申请）或更欺骗性的方式，如制造事故或盗窃（Abdallah等人，2016年）。此外，与索赔有关的数据的不适当表示使得欺诈检测极其困难（Šubelj等人，2011年）。此外，据观察，只有一小部分事故索赔是非法的，导致数据集中存在偏斜的类分布。这使得检测更具挑战性（Jensen，1997）。因此，这些欺诈实例的准确分类对于任何汽车保险欺诈检测系统（AIFDS）都是必不可少的。隔离真实实例所需的迭代计算在经受AIFDS（Panigrahi）时可能需要高计算时间例如，2013年）。因此，有必要开发一个强大的AIFDS，能够有效地区分恶意样本从正常的保险索赔，同时最大限度地减少错误分类率。本文提出了一种新的混合AIFDS，应用遗传算法（GA）优化的聚类中心产生的模糊C均值聚类（FCM）作为欠采样方法。这样做是为了从原始不平衡数据集的主要类样本中去除噪声点，从而导致减少的平衡数据集。一个新的保险索赔，然后被分类为真正的，恶意的或可疑的基础上，从优化的聚类中心计算的距离测量。索赔标为https://doi.org/10.1016/j.jksuci.2017.09.0101319-1578/©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comS. Subudhi，S.Panigrahi/沙特国王大学学报569真正的被允许通过以进行支付处理，而被发现是欺诈性的索赔被阻止。如果索赔是可疑的，则通过将其通过四个不同的训练监督学习来表1现有方法及其性能比较。使用的相关工作技术性能测试数值（%）个别的模特对分类器进行了训练Phua等人（2004年）堆垛-装袋包装精度60.00通过应用平衡的训练数据集，先验地。在这项工作中，支持向量机（SVM），多层感知器（MLP），决策树（DT）和数据处理组方法（GMDH）分类器用于确定最佳性能的分类器。第二部分简要介绍了国内外在这一领域的相关研究，第三部分介绍了国内外在这一领域的研究现状。Bermúdez等人（二零零八年）Šubelj等人（2011年）贝叶斯二分Logit模型迭代评估算法准确度99.53灵敏度99.85特异性72.88准确度87.20灵敏度89.13特异性86.67第三部分对当前工作中使用的技术进行了背景研究。第4节重点介绍了拟议的欺诈检测模型。第5节中提供了实验和比较性能分析，以证明Xu等人201 1 年：Rough Subspace Based Neural网络集成Tao等人04 The Famous（2012）机准确度88.70灵敏度91.31评估所提议方法的有效性最后，第6节总结了本文在这方面所做的Sundarkumar和Ravi（2015）k-RNN和OCSVM精度60.61灵敏度90.74特异性58.692. 相关工作在这一部分中，进行了相关的汽车保险欺诈检测的研究工作进行审查。Phua et al.（2004）提出了堆叠和装袋Meta分类器的混合。堆叠集成最初从基础学习器池中选择最佳分类器模型。然后，在所选择的分类器上使用袋技术，用于过采样现实世界标记数据集的预测分析。另一种方法建议使用模糊逻辑概念来从一堆已解决的保险索赔中找到非法索赔（Pathak等人，2005年）。为了分析和识别保险记录中的可疑索赔，作者建立了一个统计双变量probit模型作为审计策略，西班牙汽车保险数据集（Pinquet等人，2007年）。已经提出了一种偏斜贝叶斯二分logit模型，用于识别在西班牙汽车市场中发现的恶意保险索赔（Bermúdez等人，2008年）。基于图的社交网络模型的使用已经在Šubelj等人（2011）中提出，其仅需要未标记的数据用于处理。作者开发了一种迭代评估算法（IAA）来识别可疑索赔。首先，将怀疑分数分配给图中存在的每个点，然后通过分析其相邻节点内存在的边来确定可疑实体。基于粗糙集的神经网络集成技术已经在Xu et al.（2011）中提出。本文首先利用粗糙集数据空间约简方法将整个数据集空间分割成各个子空间。然后神经网络分别应用于这些子空间以构建训练模型。之后，每个模型的结果结合使用的一个hack-ing集成技术的最终决策。用于识别可疑（重叠）保险案例的模糊支持向量机的概念已经在Tao等人（2012）中提出。欺诈检测模型首先计算每个欺诈实例相对于两类样本均值向量的距离值，并为它们分配对偶隶属度值。这有助于为每个恶意样本分配一个概率值，用于将其分为两类（真实或欺诈）。Bernard和Vandueland（2014）提出了采用定量方法识别欺诈案件。本文分别通过增加和减少索赔额的均值和方差来估计夏普比率及其极限值。然后，在这些边界值的基础上执行保险索赔中的欺诈样本的检测。Sundarkumar和Ravi（2015）开发了一个欺诈检测模型，该模型可以检测并删除异常值Nian等人（2016）光谱分级异常灵敏度91.00特异性52.00用于减少汽车保险数据集中存在的类不平衡效应。两种无监督技术：k-反向最近邻（k-RNN）和单类支持向量机（OCSVM）被用于解决原始数据集中的倾斜类分布。此外，六个不同的监督分类器已经独立地应用于平衡数据集，用于分类和比较目的。在论文中（Nian等人， 2016年），作者建议使用一种无监督的异常检测模型，称为频谱排名异常（SRA）系统，用于检测伪造实例。该模型在从索赔记录的拉普拉斯矩阵估计第一非主特征向量之后，为每个索赔分配异常度值。如果等级小于预设阈值，则将对应点标记为欺诈。表1简要总结了本文献中描述的一些技术在灵敏度、特异性和准确度方面的性能。度量的定义已在第5节中讨论。尽管开发了几种AIFDS来有效地处理欺诈检测，但数据集中存在一些不相关的数据点，这会降低分类器的效率（Lee等人，2013年）。因此，需要首先从原始不平衡数据集中去除这些噪声实例。在目前的工作中，基于GA的FCM（GAFCM）聚类最初用于数据集上，以去除离群值，从而促进数据欠采样。FCM聚类由于其处理重叠聚类边界的能力而被使用。然而，FCM的主要挑战在于在其局部最优中随机初始化聚类中心（Bezdek等人，1984年）。因此，基于遗传算法的优化技术已被应用到FCM，使聚类更强大的搜索聚类中心的全局最优。然后在保险记录中识别可疑索赔，并通过四个不同的监督分类器进一步验证其行为。3. 所提出的方法为了理解所提出的AIFDS的训练和欺诈检测过程，在当前工作中使用的算法的工作原理进行了简要总结。由于诸如GA（Eiben等人，1994）、SVM（Cortes and Vapnik，1995）、MLP（Rosenblatt，1961）和DT（Quinlan，1987）都是非常有名的方法，不适合介绍，下面的小节介绍了FCM和GMDH的一些基础知识。570S. Subudhi，S.Panigrahi/沙特国王大学学报P¼866ikikm1XXik×Pi/1ij¼0þ1232þ41þ52þ12ð Þuik¼1b.t.v;d3.1.模糊c均值聚类模糊C均值（FCM）聚类技术试图通过在[0，1]范围内分配一些隶属度值来找到数据集中存在的有意义的聚类。FCM的目标函数可以表示如下（Bezdek等人， 1984年）：4.1. 训练阶段正如前面第1节中所讨论的，减少数据集中存在的倾斜类差异至关重要，因为它会影响AIFDS的效率。在当前的工作中，FCM聚类技术已被用于原始不平衡列车集中的大多数类（真正的）样本作为欠采样nCJmU;V;DumBikvi;dk1联系我们受C u1k，和0u1. J是客观I¼函数，并且加权指数m> 1负责聚类之间的模糊重叠。U=1/2uik]被表示为聚类矩阵D = {d1，d2dn}表示待聚类的n个点的数据集。 V={v1，v 2v c}表示c簇质心的矢量，而Bik∈vi;dk∈表示dk和v i之间的距离. 当FCM在具有所需数量的聚类（c）作为输入的数据集上使用时，它生成模糊聚类。隶属度矩阵（U）和聚类中心集（V）。此外，一个低的隶属度值被分配给离群点，远离聚类中心。 FCM聚类算法已经成功地应用于不同的应用中，例如信号分析（Mukhopadhyay和Owczarek，2005）、图像分割（Park，2010）、基因表达（Mukhopadhyay和Maulik，2009）、欺诈检测（Xue等人，2010; Wang等人，2010; Zhang and Gu，2016）and many more.3.2. 数据处理的分组方法数据处理的分组方法（GMDH）分类器是一种自approach.这是通过在生成一些有意义的聚类后去除噪声点来实现的。但由于聚类中心的任意初始化会影响FCM的性能，因此在FCM的聚类中心上引入遗传算法，以增强其全局搜索空间，从而帮助FCM克服其不确定性。图1展示了所提出的欠采样方法的工作流程。最初，10倍交叉验证方法（Refaeilzadeh等人，2009）被用于不平衡列车集合的主要类样本，以从集合中识别和去除噪声点。该方法将原始训练集随机分为10个子样本，其中9个子样本组合用于训练，剩余子集用于验证。然后将每次折叠的结果平均以产生最终结果。为了便于优化操作，对遗传算法所需的参数进行了初步设置。基因组的长度（l）被选择为训练集中的特征的数量，而聚类中心矩阵（V）被选择为大小cl，其中c行和l列分别表示c为聚类的数量。V矩阵的每个点都被映射到0和1的字符串长度l和中心（v）如下迭代地更新（Bezdek和Hathaway，1994）：有组织的归纳监督学习算法用于模型-PWNum：diu复杂非线性系统（Ivakhnenko，1968）。该算法试图在训练数据集中迭代地建立输入和输出变量之间的二次多项式关系，以便最小化在预测期间产生的误差（预测值和实际值之间的差异）。GMDH模型的二次表示可以给出如下：nmmi/1ij其中，n表示数据集中存在的数据点的数量，m测量分配给每个点di的模糊化指数，uij表示模糊隶属矩阵（U）的元素。同样，U矩阵也在每次迭代中更新如下：Y T T Dt d t d2t d2t d d2，Xc Bik其中，y表示输出节点，t= {t0···t5}是系数向量，并且d1和d2是输入点。GMDH将数据集第1页jk jKð4Þ通过输入层，而第二层元素通过初始估计输入的回归然后选择最佳回归从第一层生成同样，下一层是根据前一层的元素设计的，以此类推，从而选择最佳值用于后续层的处理最后，GMDH模型的生成输出（y）仅包含具有最小预测误差的最优值。4. 该方法在这项工作中，一种新的混合AIFDS已被开发，有效地处理类不平衡的问题，也减少了误分类错误。首先，从以下内容中提取测试集：原始的不平衡保险数据集。然后，该系统应用欠采样方法的不平衡的训练数据点，通过消除离群值后，应用基于GA的FCM（GAFCM）聚类的训练集。在欺诈检测过程中，测试集经过GAFCM聚类模块，该模块将点标记为真实的、可疑的或恶意的。该方法首先丢弃合法点和欺骗点，然后由监督分类器对可疑实例进行进一步分析，以实现准确分类。培训和欺诈检测阶段所涉及的程序已在以下小节中进行了阐述。其中，Bik表示聚类中心之间的任何距离度量vj和数据实例dk。GAFCM更新集群中心，图1.一、使用GAFCM的拟议欠采样方法VJ3Þ1þB对于16i6c和16k6nS. Subudhi，S.Panigrahi/沙特国王大学学报571！！¼¼¼每个数据点的隶属度值迭代地根据等式（3）Eq. （4）分别使得适应度函数的成本（等式（4））。（1）可以缩小。欧几里德距离度量（e）用于计算聚类cen和cen之间的距离度量Bikter（v i）和具有n个实例的数据点（di），其可以被计算。如下：vuXn标记为真实的索赔将通知公司雇主进行付款结算，而对非法案件采取必要的预防措施。可疑实例被分别传递到四个不同的训练监督分类器模型以进行进一步验证。第二阶段的决策是通过分析行为来完成的可疑的保险索赔。在这项工作中，四个不同的分类器ei¼t1/1vi-dið5ÞMLP已经使用。首先，将平衡训练集赋予每个分类器进行学习并构建相应的训练集，最初，FCM尝试将数据放在一个集群中，模糊隶属度值（m），其中，m1表示对聚类的较高亲和性，而m0表示较低相似性。AIFDS通过使用Eq.（五）、计算出的距离与阈值（a）一致，该阈值（a）由Tukey阈值检测方法（Tukey，1977）确定最初，该技术按升序对距离值进行排序，然后将其分为四个四分之一，分别为Q1（第一四分位数）、Q2（第二四分位数）和Q3（第三四分位数）。使用以下四分位数计算阈值a¼Q33kQ3-Q1k6如果e>a成立，则相应的数据点被标记为离群值。随后，从原始不平衡训练集的大多数类样本中丢弃离群值，从而生成精简的训练集。然后将修改后的主要类实例与少数类点组合以产生平衡的列车索赔记录。4.2. 欺诈检测阶段一旦类的不平衡问题得到解决，拟议的AIFDS检测欺诈性索赔在两个阶段。识别欺诈性索赔所涉及的步骤已在图中描述。二、模型在分类器模型的训练和验证过程中应用了10折交叉验证方法。在将可疑样本单独提交给经验证的模型后，对每个可疑实例做出最终决定（真实/恶意）。进一步分析和比较了所有监督学习器的性能，以获得最佳的分类精度和最小化的误分类错误。5. 实验结果及分析该系统已在2.40 GHz i5 CPU系统上在MATLAB 8.3中实现大量的实验做了确定GAFCM聚类的最佳聚类中心，以及显示四个分类器的有效性。所提出的AIFDS的功效已经通过用真实世界的汽车保险标记数据集进行测试来证明（Phua等人，2004年）。以下标准性能指标-灵敏度表示被分类器正确分类的真正阳性样本的比率特异性表示正确检测到的真阳性样本和真阴性样本的比例，而准确性估计分类器的正确性。具有最高灵敏度值的模型已被选为最佳模型，因为灵敏度衡量的是分类器识别更多的欺诈样本。当测试索赔记录被提供给AIFDS时，它计算与聚类中心的欧几里得距离（e（5））。根据距离值与两个阈值b L的比较结果对记录进行第一阶段判定 BU。这两个极限由Tukey方法（图基，1977年）。上限阈值（bU）通过使用Eq.（6），而下限阈值（bL）如下确定：bL¼Q1-3kQ3-Q1k7灵敏度TPTPFFN专属性TN公司简介准确度TPTPTNFPFNð8Þð9Þð10Þ新保险记录的区分如下：1. 如果ebL，则声明被标记为真实的。<2. 如果e>bU，则该实例被标记为欺诈。3. 如果bL6e6bU，则记录被标识为可疑。图二.提出的两阶段欺诈检测方法。其中，TP表示真阳性，FN表示假阴性，FP表示假阳性，TN表示真阴性。5.1. 数据集描述和预处理为了评估所提出的系统的效率，我们应用了一个众所周知的标记汽车保险数据集作为“carclaims.txt”。从文献研究中发现，这是该领域唯一公开可用的欺诈数据集由于所提出的AIFDS是基于有监督的欺诈检测模型，因此数据集中的标签对于性能比较是有用的。该数据集包括1994-1996年期间在美国提交的各种保险案件（Phua等人，2004年）。该数据集包含15，420条记录，其中14，497条是真实的样本（94%）和923个欺诈案例（6%）。对于实验，1996年的数据被认为是具有4，082个实例的测试集，而1994-95年的索赔被认为是由11，337个数据点组成的训练集（Phua等人， 2004年）。由于数据集的公开可用性，各种研究人员已经成功地将其应用于展示其系统的性能（ Xu等人， 2011; Sundarkumar 和 Ravi ， 2015;Sundarkumar572S. Subudhi，S.Panigrahi/沙特国王大学学报¼--一种¼XXPC¼1=n uXX表2使用carclaims的AIFDS的比较性能分析：txt。在实验的其余部分。此外，已经使用了另外两个聚类有效性度量-模糊性能指数（FPI）和归一化分类熵（NCE）（Odeh等人，1992年）。FPI衡量每个类别之间共享的成员资格程度，可以计算如下：FPI1cωPC-1C-1ð13Þ例如，2015; Nian等人， 2016年）。表2简要介绍了这些研究文章的性能比较分析，其中，PC是从等式（1）估计的分配系数（十一）、类似地，NCE值决定多少聚类适合于有效分组，其可以如下计算：相同数据集在方面的的性能指标灵敏度;特异性和准确性。在对原始数据集进行AIFDS之前，一些数据预处理，NCEPElog nð14Þ按照Phua等人（2004）中建议的程序进行处理步骤。在数据清理结束后，新修改的特征被映射到数值，因为欺诈检测模型需要整数进行分析。然后对数据集进行数据归一化处理，使其在[0，1]范围内归一化.这样做是为了确保每个数据点都将获得平等的机会，而不是高价值的属性，同时服从AIFDS。最初，原始列车集包含10，627个合法点和710个欺诈点，导致等级不平衡比率为0.94：0.06。对真实样本采用欠采样方法，并结合GAFCM聚类技术，减少了数据不平衡问题。测定基本的GAFCM参数已在以下小节中显示。5.2. FCM参数首先，进行实验以确定FCM聚类的正确聚类数（c），如第3.1节所述。为了找到所需的聚类数，使用了两个模糊有效性指标PC计算隶属度矩阵（U）内每个模糊子集对之间共享的隶属度值的平均值。其中，PE指示如等式（1）中所示的分区熵。（十二）、对于较小的FPI和NCE值，可以找到更明显的聚类分区。一旦确定了FCM所需的正确聚类数，就进行了应用GA函数参数：最小迭代次数为100。表4给出了优化的聚类中心（v 1和v2）相对于FPI和NCE值的结果在运行5中使用最小FPI和NCE获得最佳结果，其以粗体突出显示。所以运行5的聚类中心v1和v2被选择为优化的聚类中心。为了找出最佳的聚类中心，遗传算法的目标函数在100次迭代中的性能已经在图中给出。3.第三章。从图中可以清楚地看出，该值保持不变在大约第92次迭代之后。在优化过程结束之后，计算原始不平衡训练集的大多数类点与优化的聚类中心之间的欧几里得距离（e）（使用等式（1））。（5））。为了从训练集中找到并去除噪声实例，已经通过遵循第4.1节中讨论的Tukey方法设置了阈值（a）。阈值计算所需的四分位数（Q1和Q3）值为：Q1= 0.5433和Q3=0.6217.最后，a= 0.8569的值已通过使用Cn2IJ联系我们ð11Þ当量（六）、对于e>a，对应于距离值的点被标记为噪声。最初，训练集中的真实样本量为其中在具有c个聚类的n个点上进行聚类，并且uij是分配给每个实例的成员资格值通过求解max26c6n-1PC可以找到最优聚类中心（cy）。同样地，PE测量U基质中存在的呋喃酮的量，其可以描述为：10,627.但是在采用GAFCM之后，4，773个实例被检测为噪声并以离群值的形式被移除，从而减少到表4从基于GA的FCM获得的结果。CnPE¼-1=n uij log u ij12联系我们最佳聚类数（cy）也可以使用min26c6n-1PE导出。 Bezdek关于选择最佳聚类数范围的建议（Bezdek等人， 1984年，他被选中。最佳-为了更好的可视化，在表3中以粗体显示了错误的聚类数cy对于c= 2，PC = 0.5（最大值）和PE = 0.6931（最小值）均表现出最佳结果。因此，我们选择了c= 2作为clus-运行v1v2FPI NCE1 0.5239 0.5476- 4.7995 e+3 4.7679 e+32 0.4269 0.6178- 4.8521 e+3 4.7297 e+33 0.4742- 4.9345 e+3 4.6694 e+34 0.6267 0.3656- 4.8389 e +35.4973 0.4329- 4.9775 e+3 4.6373 e+36.5384 0.4256- 4.8778 e+3 4.7110 e+37 0.4261 0.6057- 4.8208 e +38 0.5731 0.5716- 4.8467 e +39 0.5306 0.4545- 4.8563 e+3 4.7266 e+310 0.5004 0.3723- 4.8433 e +3表3簇的数目的确定C2345678910PC0.50.33330.25000.20000.16670.14290.12500.11110.1000PE0.69311.09861.38631.60941.79181.94592.07942.19722.3026研究文章性能（%）精度灵敏度特异性Xue等人（二零一零年）88.70––Sundarkumar等人（2015年）58.9295.5256.58Sundarkumar和Ravi（2015）60.3190.7958.69Nian等人（2016年）–91.0052.00S. Subudhi，S.Panigrahi/沙特国王大学学报573图三.遗传算法百次迭代适应度函数的优化。5 854份索赔。在将属于少数（欺诈）类样本的710个点与减少的主要类组合之后，已经生成了大小为6，564的修改的训练集。在欺诈检测阶段，当大小为4，082的测试集被提供给聚类模块时，最初从聚类中心估计距离（使用等式：（5））。这些距离值-然后，在第一阶段中，UE与阈值bL和bU进行计算极限所需的四分位值为Q1= 0.3783和Q3= 0.4597。这导致到bU= 0.7039和bL= 0.1341，由等式估计。（6）Eq.（7）分别。在第一阶段，测试集被区分为113个欺诈样本、2,028个真实实例和1,941个可疑记录。实验结果基于指定的参数在下面的小节中描述。5.3. 拟议系统表5显示了FCM和GAFCM在平衡和不平衡数据集中不使用监督学习器的功效从表中可以明显看出，在平衡数据集，而GAFCM优于FCM的所有性能指标，在这两种类型的数据集。在第一阶段的可疑点识别结束后，分别使用SVM、MLP、DT和GMDH四种监督分类器对这些点进行进一步的验证和分类。调整这些分类器的性能所需的基本参数设置。对于SVM，内核类型=rbf，核尺度= 1，迭代= 1000，正则化参数= 1。选择最小叶数= 1、分裂准则= gdi（基尼多样性指数）和最小分裂大小= 10作为DT的功能MLP的相关参数是隐藏层大小= 3，每个隐藏层的节点= 8，训练函数=trainlm，性能函数=交叉熵，隐藏层的激活函数=tansig，输出层的softmax，最大迭代= 1000。GMDH参数被设置为：隐藏层的最大数量=3，层中神经元的最大数量= 8。一旦为每个学习者设置了功能参数，可疑实例的分类就分别在先前训练的分类器模型上完成。表6中给出了每个分类器在不平衡保险数据集上具有和不具有聚类的比较性能分析。最佳性能分类器的输出以粗体突出显示，以便更好地可视化。表中的结果清楚地显示了使用GAFCM进行分类优于使用普通FCM进行分类的有效性。MLP和GMDH在不使用聚类的情况下产生了0%的灵敏度，因为保险数据集中存在偏斜的类分布。在对不平衡数据集使用FCM聚类后，MLP给出了最大灵敏度=73.35%，而SVM在最高灵敏度= 69.70%和特异性= 84.71%方面产生最佳效率。类似地，每个分类器相对于平衡数据集的性能分析已在表7中呈现。表现最好的分类器的输出用粗体突出显示。当使用FCM作为数据平衡技术时，MLP产生最高灵敏度= 75.75%，而DT给出最大准确度= 71.79%和特异性= 73.19%。当使用GAFCM作为欠采样方法时，SVM在所有性能指标方面优于所有其他分类器。5.4. 比较分析在本节中，通过考虑相同的保险数据集，对所提出的系统与另一种汽车保险欺诈检测方法进行表5FCM和GAFCM的性能分析业绩指标（%）不平衡数据集平衡数据集FCMGAFCMFCMGAFCM灵敏度56.0661.5459.2266.67特异性76.8584.7984.4986.95精度72.5683.2281.9784.34表6监督分类器在不平衡数据集上的性能。使用的技术性能指标（%）无聚类使用FCM使用GAFCM灵敏度特异性精度灵敏度特异性精度灵敏度特异性精度DT6.9499.8394.3960.2365.3564.2866.2587.6586.99SVM70.7663.2063.6555.7968.1265.5169.7084.7183.16MLP010094.0373.3563.1265.0261.0784.0081.45GMDH010094.0352.9866.0763.0257.2779.7677.10574S. Subudhi，S.Panigrahi/沙特国王大学学报表7监督分类器在平衡数据集上的性能。使用的技术性能指标（单位：%）用FCM使用GAFCM灵敏度特异性精度灵敏度特异性精度DT67.8173.1971.7977.4281.1680.16SVM64.3472.2370.1583.2188.4587.02MLP75.7566.5368.8181.1282.5682.38GMDH60.1771.6168.3265.0483.4477.23见图4。保险数据集的比较性能分析。“carclaims.txt”（Sundarkumar等人，2015年）。Sundarkumar等人（2015）将数据集分割为训练集、测试集和验证集。最初，原始数据集的20%大小的验证集被保留在一边，其余80%的数据被提交到他们的系统上。对剩余的80%数据集采用了10倍交叉验证程序，以将其分离为训练集和测试集。作者（Sundarkumar等人，2015年）已经使用一类支持向量机（OCSVM）从数据集中去除倾斜的类分布。OCSVM已应用于用于提取支持向量的训练集的真实样本导致正常类数据的减小的大小。然后将欺诈实例（次要）与主要类集合组合以形成修改的训练集。四种不同的监督分类器– SVM, MLP, GMDH and DT have been applied on the modifiedtrain测试集被用于相应的训练模型，用于测试模型的功效最后，验证集用于验证每个模型。性能指标一个好的分类器必须具有较高的灵敏度和特异度，因为它们分别表示伪造实例的分类准确性和较低的虚警。在遵循Sundarkumar等人（2015）中描述的实验程序后，图4中给出了所提出的模型和比较方法获得的结果。从图中可以推断，所提出的模型通过在所有分类器中提供最高的特异性，有效地最大限度地减少了错误分类率，与Sundarkumar等人（2015）相同。此外，在使用SVM作为分类器时，所提出的模型产生最高的灵敏度= 83.21%和特异性= 88.45%，而在Sundarkumar等人的情况下。（2015），DT在灵敏度= 95.52%和特异性= 56.58%方面产生最佳性能。6. 结论在这项研究中，我们提出了一种新的混合方法，汽车保险欺诈检测，在两个阶段进行-训练和欺诈检测。在训练阶段，A为了提高分类器的效率，采用基于遗传算法的优化FCM（GAFCM）聚类算法对高偏斜训练数据集中的多数类样本进行欠采样。首先，GAFCM聚类的大多数类的情况下，产生最佳的聚类中心的集群。然后识别并删除多数类中存在的离群值以及冗余数据点，从而促进欠采样。然后将减少的多数类样本与原始少数类点组合以获得平衡的数据集，该数据集用于进一步的实验。欺诈检测过程中进行了两个阶段，在拟议的系统。在欺诈检测的第一阶段，GAFCM根据测试数据点与优化的聚类中心的距离将测试数据点分类为真实、恶意和可疑类。被识别为真实和欺诈的样本不会被进一步处理，而可疑的样本在第二阶段由四个不同的监督学习器（DT，SVM，MLP和GMDH）进行额外验证一个标记的汽车保险数据集，俗称“carclaims.txt”已被用于衡量所提出的系统的效率。最初，数据集包含15，420条记录，其中包含11，337个训练样本和4082个测试样本。在整个实验中使用10倍交叉验证技术来训练和验证聚类以及分类器模型。进行了实验，以选择FCM所需的最佳聚类数。进一步进行了广泛的测试，通过采用GAFCM的优化聚类中心的生成。在欠采样之前，大小为11，337的训练样本由10，627个真实样本（主要）和710个欺诈样本（次要）组成。在对训练集的大多数类样本应用GAFCM进行欠采样时，4773个被识别为噪声点并以离群值的形式被移除，从而减少到5854个实例。最后，将这些减少的多数类点与710个非法次要样本相结合，以产生大小为6564个索赔的修改后的数据集进一步进行了广泛的测试，以测量所提出的模型相对于6，564条记录的修改后的训练集和4，082个样本的原始测试集的有效性。在作出第一阶段决定时，GAFCM提出了113个伪造案例、2 028个真实样本和1941个可疑索赔。在第二阶段分类中，通过了1，941条可疑记录的准确分类。实验结果表明，支持向量机分类器具有最高的88.45%的识别率和83.21%的灵敏度，优于其他分类器.此外，与另一个最近的AIFDS的比较分析表明，该系统的有效性，降低误报，同时控制不平衡的类分布和有效识别欺诈案件。S. Subudhi，S.Panigrahi/沙特国王大学学报575资金这项研究没有从公共、商业或非营利部门的资助机构获得任何具体的资助。引用Abdallah，A.，Maarof，文学硕士，Zainal，A.，2016.欺诈检测系统：一项调查。J. 网络计算Appl.68，90-113.澳大利亚：保险，2016年4月。澳大利亚：保险欺诈每年使我们损失15亿美元。http://www.insurancefraud.org/IFNS-detail.htm? key=22516（访问时间：9.05.17）。贝穆德兹湖Pérez，J.，Ayuso，M.，戈麦斯，E. Vázquez，F.，2008.具有非对称连结的保险欺诈行为的二元模型。 Insurance：Math.Econ.42（2），779-786.伯纳德角，Vanduills，S.，2014.在欺诈检测中应用的基准存在下的均值-方差最优投资组合。EUR. J.操作员Res. 234（2），469-480.Bezdek，J.C.，埃利希河，Full，W.，一九八四年FCM：模糊C均值聚类算法。Comput.地球科学10（2-3），191-203。Bezdek，J.C.，R.J.海瑟薇1994.用遗传算法优化模糊聚类准则。《进化计算》，1994年。IEEE世界计算智能大会第一届IEEE会议论文集。IEEE，pp。589-594。科尔特斯角，澳-地Vapnik，V.，一九九五年支持向量网络。马赫学习. 20（3），273-297。偷工减料2015年8月偷工减料以获得更便宜的汽车保险适得其反对数千的驾驶人士警告的ABI. 网址：//www. insurancefraudbureau.org/media-centre/news/2015/cutting-corners-to-get-cheaper-motor-insurance-backfire-on-thousands-of-motordrivers-warns-the-abi/（查阅时间：17年5月9日）。Eiben，A.E.，Raue，P. E、Ruttkay，Z.，1994.多亲本重组遗传算法。在：国际会议并行问题解决从自然。施普林格，pp. 78比87Ivakhnenko，A.G.，一九六八年数据处理的成组方法--随机逼近法的竞争者。苏联自动对照13（3），43-55。詹森，D.，1997.人工智能技术用于欺诈检测的前瞻性评估：案例研究。在：AAAI关于欺诈检测和风险管理的人工智能方法研讨会。pp. 34比38李，Y.- J.，是的，Y。-R.，王玉-C.F.，2013年。基于在线过采样主成分分析的异常检测。IEEE Trans. Knowl. Data Eng.25（7），1460-1470。J.M. J.M.，Owczarek，A.J.，2005年时域约束模糊聚类方法及其在信号分析中的应用。模糊集系统 155（2），165-190。Mukhopadhyay，A.，莫里克，美国，2009.用支持向量机改进模糊聚类：应用于基因表达数据。模式n。42（11），2744-2763。Ngai，E.，Hu，Y.，黄，Y.，陈玉，太阳，X.，2011.数据挖掘技术在金融欺诈检测中的应用：分类框架和文献综述。德西斯支持系统 50（3），559-569。年，K.，张洪，Tayal，A.，科尔曼，T.，李，Y.，2016年。利用非监督频谱排序进行汽车保险欺诈检测。金融数据科学。2（1），58-75。奥德岛，Chittleborough，D.，McBratney，A.，1992.模糊C均值土壤模式识别应用到分类和土壤-地貌相互关系土壤科学Soc. Am. J. 56（2），505-516。北卡罗来纳州，Bezdek，J.C.，1995.模糊c-均值模型的聚类有效性研究。IEEETrans.Fuzzy Syst. 3（3），370-379.Panigrahi，S.，Sural，S.，Majumdar，

下载后可阅读完整内容，剩余1页未读，立即下载