基于蚁群算法的破产预测与信用风险分析

155 浏览量更新于2024-01-14 收藏 992KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于群体智能的分类规则归纳（CRI）框架在定性和定量方法中的应用：破产预测和信用风险分析J.Uthayakumar，T. Vengattaraman，P. 达瓦赫尔万印度Puducherry本地治里大学计算机科学系阿提奇莱因福奥文章历史记录：2017年6月12日收到2017年10月25日修订2017年10月26日接受2017年10月28日在线发布保留字：蚂蚁矿机破产预测分类规则归纳信用风险分析群体智能A B S T R A C T破产预测和信用风险分析是会计和财务决策领域中最重要的问题之一。建立一个有效的分类规则归纳框架，在适当的时候进行破产预测和信用风险分析，是防止企业破产的必要条件。传统的统计方法和人工智能技术在预测破产和信用风险方面发挥着重要作用。早期的研究工作大多是在定量方法上进行的，而很少有研究提出了定性方法来改进破产预测模型的性能。定性地发现破产预测是一项重要的任务，因为它依赖于专家的主观知识。本文提出了一种基于蚁群算法的定性和定量破产分析的统一框架使用三个不同性质的数据集来呈现可信的结果。在这个实验中，我们收集了定性破产数据集，并通过UCI库进行了基准测试。该方法被成功应用，性能分析证明，蚂蚁矿工方法优于现有的分类器，即逻辑回归（LR），多层感知器（MLP），随机森林（RF）和径向基函数（RBF）的各种性能分析因素。此外，提出的蚂蚁矿工模型被发现是一个更合适的破产预测方法相比，其他传统的统计和人工智能技术。©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍破产预测是企业、投资者/债权人、借款公司和政府部门的一个关键问题。在财务问题上做出错误的决定会导致所有者、股东、经理、供应商等的财务失败或困境（DuJardin，2015）。由于企业破产影响到国家的每一个部分，政策制定者被用来监测经济增长（王等人， 2014年）。当金融危机不能*通讯作者。电子邮件地址： uthayresearchscholar@gmail.com （ J. Uthayakumar ），vengattaramant@gmail.com（T.Vengattaraman），dhavachelvan@gmail.com（P. Dhavachelvan）。沙特国王大学负责同行审查制作和主办：Elsevier松了一口气，它可能会导致破产（Donato和Nieddu，2015）。因此，破产预测和信用风险分析在金融机构中越来越重要。Altman模型、Z-score模型等信用风险分析模型将信用风险分为信用良好组和信用不良组（Nanniand Lumini，2009）。传统的统计方法和人工智能（AI）技术在预测破产和信用风险方面发挥着重要作用（Lin等人，2012年）。近年来，人工智能技术被广泛用于确定金融公司是否破产（Yu等人，2012年）。数据库技术和人工智能技术的迅速发展，导致了数据挖掘技术在多个领域的发展。这些数据挖掘技术用于从破产预测的金融数据库中过滤所需的信息（du Jardin，2016）。数据挖掘方法包括传统方法和演化方法，如破产预测中的归纳学习、神经网络和遗传算法（Ravi等人，2008年）。目前，在（Martin et al.，2012年）;但没有一项研究同时采用定量和定性方法。缺乏https://doi.org/10.1016/j.jksuci.2017.10.0071319-1578/©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com648J. Uthayakumar等人/沙特国王大学学报定性和定量方法的统一框架促使我们对本研究进行了调查。大量的研究进行了设计适当的定量模型，通过使用数据挖掘技术，如判别分析，logit，probit，神经网络等，这种技术的核心部分是学习分类功能，包括从金融变量的权重集合。另一种数据挖掘方法是利用专家的问题解决知识来创建定性模型，称为主观模型。在实际的风险评估过程中，专家的知识非常重要。专家们并不完全依赖定量方法得出的结果来确定特定借款人的信用价值。作为替代方案，他们利用其主观知识结构，从定量和定性数据的组合中得出正确的结论，这对估计借款人的标准风险是有用的例如，他们利用主观知识框架将几个贷款申请分类为批准、待决和不批准。因此，风险评估过程取决于专家的主观判断。采用访谈等交互式方法分析专家知识框架与破产预测的结合.它被认为是复杂的，消耗更多的时间。对常规风险评估过程有用的定性信息包括几个风险要素。这些要素分为韩国某商业银行引入并运用的六个风险因素。这六个组成部分是行业风险（IR），管理风险（MR），财务灵活性（FF），可信度（CR），竞争力（CO）和运营风险（OP）。专家通过风险估计过程评估定性风险因素，并根据其主观知识分配适当的水平，如积极、平均和消极。最后，将其分为接受、犹豫和拒绝几个层次。期望定性数据挖掘方法能够利用专家的知识成果，得到更易于理解的破产预测模型。定量规则提取的数据挖掘技术有助于从专家的定性预测中发现决策规则。基于规则的分类系统被表示为分类规则归纳（CRI）（Davalos等人， 2014年）。本文提出了一种基于蚁群算法的CRI算法，破产预测和信用风险分析。ACO是一种流行的基于群智能的优化算法，可解决各种实时问题，如旅行销售人员问题、调度问题、车辆路径问题、工业问题、土地使用适宜性评估问题等（Asadi和Shahrabi，2016 ）。ACO 工作原理背后的主要思想是真实蚁群的觅食性质（Dorigo和Gambardella，1997）。基于规则的分类的前景也来自于真实蚂蚁的觅食行为。蚂蚁挖掘机（Liang等人，2011）是第一个基于ACO 的算法，用于从可用数据中进行规则分类。（ Roselin andThangavel，2010）在医疗数据集中实现了蚂蚁挖掘算法，其性能可以与传统的分类规则归纳算法（如CN2）进行比较。但是，这是将蚂蚁挖掘机用于破产预测的分类规则发现的最重要尝试。CRI是构建基于规则的系统的关键因素，该系统以优化的方式映射现实世界的问题。分类规则使用一个if-then条件;它表示一个前件，后面跟着一个后件。1.1. 本文件本文的贡献概述如下：本文提出了一种基于蚂蚁挖掘的数据挖掘技术，从专家提出了一种基于蚁群优化算法的定性和定量银行破产分析统一框架四个数据挖掘技术，包括LR，MLP，RF，和RBF被用来比较与蚂蚁挖掘算法的性能。比较结果表明，蚂蚁挖掘算法在各性能指标上均优于LR、MLP、RF和RBF它还更好地衡量了专家和分类者所作分类之间的一致性。所提出的蚂蚁矿工框架是一个性能优异的工具，预测破产和信用风险分析，通过定性和定量的方式。1.2. 文件的结构论文的其余部分表述如下。第2节对现有技术进行了解释，并对已审查的方法进行了比较。用于比较蚂蚁挖掘机方法的现有技术在第3节中解释。第四节讨论了CRI破产预测的蚂蚁挖掘算法。第5节给出了实现设置。在第6节中，详细讨论了所提出的方法的性能。论文在第7节结束。2. 相关作品通过利用一个组织的历史财务数据来预测破产是一个熟悉的概念。在破产预测问题（Sartori例如，2016年）。如（Tseng and Hu，2010）所述，判别分析和Logit分析是破产预测的常用统计方法。Altman Z评分模型（Muhammad，2012）是判别分析中常用的模型。表1列出了对破产预测和信用评分的各种研究的回顾。根据上述比较，以下(1) 大多数现有的方法只使用一个数据集，这降低了整体的可靠性，同时找到一个优化的解决方案。应用不同的数据集对系统性能进行适当的评估是至关重要的。(2) 只有少数现有的方法使用I型和II型误差来分析模型的平均预测结果(3) 定性破产预测的研究很少。为了克服上述问题，我们提出了一个破产预测模型，集中在定性和定量的方法。从表1中可以清楚地看出，大多数破产预测技术都采用了传统的数学模型。为了有效地预测传统模型的破产，提出了一种基于蚂蚁挖掘的CRI方法。蚂蚁挖掘是一种基于群体智能的预测模型，能够有效地分类和生成规则。三个不同的数据集（2个定量和1个定性数据集），以确保所提出的方法的可靠性。此外，还采用I型和II型误差来研究模型的平均预测性能。它还更好地衡量了专家和分类者所作分类之间的一致性。3. 背景资料在本节中，我解释了用于COM目的的现有技术。该方法与4个著名的分类模型，即LR，MLP，RF和RBF进行了比较。●●●●●J. Uthayakumar等人/沙特国王大学学报6492联系我们X表1破产预测和信用风险分析的各种研究综述参考分类器数据集评价方法CRD精度I/II型F-scoreKappa预测准确率（%）误差范和帕拉尼斯瓦米MLP澳大利亚否是否没有没有70.97（2000年）03 The Dog（2000）MLP澳大利亚/德国否是否没有没有0–3Atiya和成员MLP美国否是否没有没有84.52样本内（2001年）81.46样本外Lee等人（2002年）MLP + LDA台湾否是是没有没有-Huang等人（二零零四年）MLP台湾/美国否是否没有没有8005 The Dog（2005）MLP韩国否是否没有没有88.0132（火车）83.068（暂停）Shin等人（2005年）MLP韩国否是否没有没有74.6（训练），76.7（保持）West等人（2005年）MLP合奏澳大利亚/德国否是否没有没有-Min等（2006年）MLP台湾否是是没有没有86.53%（火车），80.30（价值）蔡（2008）MLP合奏澳大利亚/德国否是是没有没有-Shin和Lee（2002）GA韩国否是否没有没有80.8金与韩（2003）GA韩国是是是没有是的0.8799卡帕Min等（2006年）GA + SVM韩国否是否没有没有86.53（火车），80.30（价值）Alfaro等人（二零零八年）LDA西班牙否是否没有没有-Altman等（一九九四年）LDA南非否是是没有没有90蔡和吴（2008）PLS-DA美国否是是是的没有97.32，78.97，87.94Zhou（2013）LDAUSABD/JPNBD否是否没有没有–阿贝兰和曼塔斯B-CDT澳大利亚/德国/日本否是否没有没有–（2014年）Chauhan等人（2009年）WNN土耳其语/西班牙语/美国没有是的没有没有没有–Xiong et al. （二零一三年）SVM加拿大没有是的没有没有没有95.7Olson等人（2012年）DT，LR，SVM美国没有是的没有没有没有94.8蔡和郑（2012）MLP，DT，SVM，LR澳大利亚/德国/日本/没有是的没有没有没有72.6破产数据/UccFedorova等人（二零一三年）MDA、LR、CRT和Interfax SPARK数据库没有是的是的是的没有–ANNsIturriaga和SanzDA、LR、RF、MLP、SVM、美国商业银行没有是的是的是的没有–（2015年）SOMZi等人（2016年）EXGB与其他波兰公司没有是的没有没有没有–方法MLP=多层感知器，LDA =线性判别分析，GA-遗传算法，SVM =支持向量机，PLS-DA =偏最小二乘判别分析，SOM-自组织映射，B-CDT =提升信用决策树，WNN =小波神经网络，DT-决策树，LR =逻辑回归，USABD-美国破产数据集，JPNBD-日本破产数据集，MDA =多判别分析，ANN =人工神经网络，CRT =分类和回归树DA =判别分析，RF =随机森林，EXGB =极端梯度增强。3.1. 逻辑回归（LR）LR是广泛用于应用评分和信用风险建模的常规统计技术。一些研究证明，与最近的机器学习技术相比，统计技术更加有效（Edwards，1976）。logistic分布给出了logit模型的基础，其分布函数如等式2所示。（一）.其中，f是激活函数，Pi是到达节点i的节点组，wi;j是节点i和j之间的连接的权重。 MLP使用迭代函数进行从随机权重开始的学习过程。训练算法用于将权重控制到所需的目标值。当误差斜率达到零时，训练将终止。MLP在研究中很有帮助，因为它们能够随机地解决问题，为极其复杂的问题FXbexpXibð1Þ比如适应度近似1位经验丰富的员工并且其密度函数表示为等式（Eq.）（二）、F XbexpXib[1/2（expXib]3.2. 多层感知器（MLP）ð2Þ3.3. 随机森林（RF）RF技术是另一种常用的基于机器学习的分类技术，它结合了基于子集的聚合、装袋和决策树模型（Breiman，2001）。RF从树的每个节点中选择特征的子集，消除自举MLP是基于神经网络的分类器，其可以通过用输入向量加载输入层来激励，然后通过整个网络中的加权连接以前馈方式传播动作（Hornik等人，1989年）。对于输入wk，第i个神经元（si）的状态表示为等式（三）、si<$fwi;0wi;j×sj3j2Pi集让我们假设对n家公司进行分类的任务Xi i¼1;ni和p比率。决策树（DT）是k棵树的森林，并且表示在等式中。（四）RF¼ fDT ig;i¼1;k= 4RF的分类能力是通过袋外（OOB）分类误差来计算的。我650J. Uthayakumar等人/沙特国王大学学报KKKcgk xwkjexp我第1页伊季3.4. 径向基函数径向基函数（RBF）是一种常用的分类器，因为它的快速学习能力。它使用隐藏层对复杂问题进行分类，而MLP包含多个隐藏层。RBF网络的训练过程非常简单（Powell，1985）。它采用高斯函数作为激励函数，最小二乘准则作为目标函数。它包含一个输入层，一个隐藏层和一个输出层。输入层计算来自神经元的输入的范数。第j个神经元的输出可以表示为等式：（五）、CLk，其中k是类中的级数值。蚂蚁最初从人工巢开始作为源，并为每个属性选择一个值。一旦它访问了所有属性，它就会为类选择一个值，并将食物作为目的地。在图2中，人工蚂蚁选择的从巢穴到食物源的路径由蓝色实线表示：源->Va1，2->Va2，1->Va3，3-> CL3->目的地。这简单地解释了蚂蚁发现的规则结构。对于规则的细化，足够多的蚂蚁应该采取相同的路径，这将在下面的部分中描述。4.4. 基于分类规则结构的蚂蚁挖掘算法XX.-jjx-lkjj2！k¼1k¼12R2其中，K表示高斯神经元的数量，wkj表示第k个高斯神经元和第j个输出神经元之间的权重，lk是中心位置，rk是第k个高斯神经元x是输入向量。4. 分类规则归纳的蚂蚁挖掘算法在这一部分中，提出了用于破产预测和信用风险分析的蚂蚁挖掘算法。该算法的问题说明，工作模型，结构化表示，规则结构和规则生成。4.1. 问题陈述破产和信用风险问题的重要目标是防止企业破产。该方法能够提前预测金融企业是否会破产.有三大原因使用蚂蚁挖掘算法进行破产预测：（1）基于ACO的蚂蚁挖掘算法对CRI问题给出了更好的结果（Kashef和Nezamabadi-pour，2015），（2）由于破产和信用风险分析是一个基于分类的问题，与其他传统算法相比，蚂蚁挖掘算法降低了规则复杂度，（3）它有效地分类了大量数据。4.2. 基于蚂蚁挖掘的CRI算法所提出的算法的工作流程如图1所示。在基于CRI的蚂蚁挖掘算法中，蚂蚁识别从源到目的地的最短路径。在算法设计中，蚂蚁根据概率函数选择可行路径。利用路径中信息素的数量和CRI相关的启发式函数推导出概率函数。当蚂蚁访问所有可能的路径时，具有大量信息素的路径（由于正反馈机制）和具有为举例来说，考虑一个属性这是表示为属性i，其中i表示属性的序列。破产预测的规则结构表示为：第1条：如果A5 6.50和A7 3.38和A8 0.50和A13 425.502396.00THEN Class =破产其中，A5、A7、A8、A13和A14是用于对企业是否破产进行分类的属性。当属性值小于阈值且满足条件时，则称类破产。4.5. 规则生成蚂蚁挖掘算法的伪代码表示包含在附录A中。蚂蚁挖掘机利用顺序覆盖方法来发现分类规则列表（Predawan等人，2009年）。在开始时，规则列表中发现的规则的数量被设置为零，并且训练集保存发现的一旦为与REPEAT-UNTIL循环的多次执行并行的WHILE循环的每次重复发现分类规则，则该规则将被移动到分类规则列表并从训练集中扣除（ Nair 等人， 2011 年）。此过程将继续，直到Max_unexpected_cases阈值超过未覆盖训练案例的数量。最初，Antt从零规则开始，并增加一项到其现有的部分规则，直到满足以下条件之一。(1) 任何小于用户指定阈值的值都可以添加到规则中，称为Min_cases_per_rule。(2) 当蚂蚁使用了先验知识中的所有属性时，规则的生成将停止.人工蚂蚁选择一个属性值来生成规则，这是由概率函数Eq。（六）、Pgijsij6选择的可能性更大当一只蚂蚁选择了一条路，费洛蒙值开始上升一旦有足够数量的蚂蚁遵循一条路径，它就变成了一条候选规则。罐子-i j¼Pa中国：Pb.gst当质量足够好时，didate规则就变成了discovered规则。蚂蚁挖掘算法与其他CRI方法的不同之处在于包含反馈机制。4.3.分类规则归纳CRI的结构表示如图2所示，它是从真实蚁群的觅食性质继承而来的。属性表示为属性i，其中i表示属性的系列。Vaij表示非连续属性值，其中i和j表示属性的系列。属性的下一个级别属于class，class的值表示为其中，P ij 表示概率函数，gij 代表值一问题相关启发式函数和sijt表示迭代t时信息素的量。每个REPEAT-UNTIL循环中涉及的步骤是规则删除、规则修剪和信息素更新（Yang等人， 2016年）。规则修剪：它是数据挖掘技术中常用的后处理方法。当蚂蚁创建规则时，将调用规则修剪过程。剪枝过程在每一步中削减蚂蚁生成的不需要的规则。它提高了由蚂蚁生成的规则的质量，并且规则会更简单。当量（7）给出了规则质量的定义。Q是指质量对于一个规则，0≤ Q≤1。yj¼ð5Þ蚂蚁挖掘算法基于分类的规则结构可以表示为：IF前件> THEN后件>。1/1J. Uthayakumar等人/沙特国王大学学报651Pai1bi¼ωFig. 1. 用于分类规则归纳的Ant-Miner算法的图形表示。QTP TNTPð7Þ其中，gij表示问题相关启发式函数的值，a是属性的其中，TP-真阳性，TN-真阴性，FP-假阳性和FN-假阴性。信息素更新：信息素更新表示蚂蚁信息素在物理环境中的蒸发。人工蚂蚁使用信息素更新过程来发现更简单的规则（Wan等人，2016年）。由于正反馈机制，启发式措施的错误将被纠正，它导致提高分类精度。它在Eq中表示。（八）、1该关联属性ai。5. 分类规则归纳（CRI）5.1. 数据集描述为了对所提出的系统进行可靠的比较，选择了三个与破产相关的数据集，它们是Qualitative_bankruptcy数据集sijt<$0¼ð8Þ(‘‘在本研究中，Qualitative_bankruptcy数据集由我们自己的专家收集并授予UCI存储库652J. Uthayakumar等人/沙特国王大学学报E数据集预处理层图二、CRI的结构表示。在2014年。所有数据集均由UCI进行基准测试数据仓库和Analcat数据仓库。Qualita- tive_bankruptcy数据集由从各种金融机构和公司收集的数据组成。定性风险因素的数据是从银行和金融公司收集的实际专家5.2. 实施设置我们使用三个不同实例的数据集进行了实验分析在Windows7，Intel（R）CoreTM2 Duo CPU@1.80 GHz处理器上，对该方法进行了测试研究中使用的参数如下所列： Number_of_ants = 6 ，Min_cases_per_rule=10 ， Max_ununcovered_cases=10 和No_of_rules_converge = 10。5.3. 实验设计该方法包括五个步骤，如图所示。3.第三章。在前期阶段，属性层为实验中的原始数据分析准备数据。属性名称和类名在属性层中定义。第二阶段是数据预处理步骤，将采集到的数据转换为所需的格式.第三阶段是将总实例分别第四阶段是建立预测模型的实验路径第五阶段是利用专家判断来研究预测模型为了分析预测模型的有效性，使用了一些性能分析因子属性层：属性层表示实验中使用的属性。例如，问题由一组属性组成，A i = {属性1，属性2，. . ，attribute}，其中每个属性具有可能值的域，并且Vi ={值1，值2，.. . ，值}。该问题被认为是一个图，其中每个项i（属性或值）被认为是一个顶点。预处理层：数据挖掘和机器学习过程中的一个重要步骤是数据预处理步骤。该步骤执行一些计算，如数据清理（填充缺失值，平滑噪声数据），数据转换（规范化，聚合），数据简化等。训练层：训练层由两部分组成：样本数量和样本格式。在这一层中，预处理的数据集被分类为训练集和测试集。实验层：实验层由Ant-miner算法组成，该算法从训练集和测试用例生成中产生输出。此层执行计算图三. 我们的预测模型框架。在数据集上并产生结果。采用10折交叉验证方法对训练集和测试使用这种方法，90%的数据用于训练（10%用于测试）在每个折叠测试。例如：澳大利亚数据集总共包含690个实例，其中621个实例用于训练用例，69个实例用于测试用例。10倍交叉验证法的结果更好，90%接近100%。例如，5折交叉验证表示只有80%的数据被训练，这显著影响了所提出的模型的鲁棒性。大于10的交叉验证有两个问题：（比如20）计算复杂，而且它在小数据集上的问题越来越多当数据集更大时，则需要更少的折叠来产生鲁棒的（测试就绪的）模型。5.4. 性能分析层该层用于测量从实验中得出的结果。该层基于各种性能分析因素（如规则生成数量、I型/II型错误、灵敏度、特异性、准确性和kappa值）验证结果。在这里，专家数据和实验数据被用来计算混淆矩阵。5.5. 性能验证混淆矩阵的一般格式包括TP、FN、TN和FP。TP定义了真阳性，这意味着专家和数据挖掘算法都被归类为阳性。FN定义了假阴性，这表明专家预测为阳性，但数据挖掘算法分类为阴性。TN定义了真否定，同时表示专家和数据挖掘算法性能分析层规则I型/II型误差灵敏度/特异性准确度卡帕统计量实验层蚂蚁挖掘算法i) 的样品ii) 样本格式训练层J. Uthayakumar等人/沙特国王大学学报653列为阴性。FP定义了假阳性，这意味着专家预测为阴性，但数据挖掘算法归类为阳性。实验结果的性能可以使用这种方法进行验证。当一个分类系统被训练来区分破产时，一个混淆矩阵概述了结果，以继续进行额外的调查。6. 绩效评价为了研究蚂蚁挖掘算法在定性和定量分析中的性能，使用了三个数据集：定性破产数据集、Analcat数据集和澳大利亚信贷数据集。CRI的性能通过各种因素来衡量，例如预测准确性、灵敏度、特异性、F评分和kappa。这些性能因素如表2所示。F-score是测试准确性的衡量标准。它使用测试的精确度p和召回率r来计算分数，其中p是正确的阳性结果的数量与所有阳性结果的数量的比率，并且r是正确的阳性结果的数量与应该返回的阳性结果的数量的比率。换句话说，它被认为是精确度和召回率的加权平均值，其中F得分在1时达到最佳值，在0时达到最差值。类似地，科恩Kappa值为1表示专家和分类员所做分类之间的一致性。它被视为比简单的一致率计算更稳健的指标，因为k考虑了偶然发生一致的可能性。将蚂蚁挖掘算法与现有的Logistic回归、多层感知器、随机森林和径向基函数等算法进行了性能比较。蚂蚁挖掘算法在应用数据集上的性能在小节中进行了解释。6.1. 定性破产数据集定性破产数据集的结果列于表3。定性破产数据集包含250个实例;143个实例记录为非破产，107个实例记录为破产。这些方法的性能通过预测精度来衡量，匹配一致性可以使用Kappa统计来计算。使用蚂蚁挖掘器和RF的分类规则生成达到了100%的准确率。对于LR、MLP和RBF方法，获得的准确率为99.20%。很明显，蚂蚁矿工和RF显示出100%的准确性和kappa值正好为1，而其他方法如LR，MLP和RBF分别达到kappa值0.9837对于定性数据集，蚂蚁挖掘和RF方法比其他方法产生更好的结果.6.2. 定量ANALCAT破产数据集蚂蚁挖掘算法和各种现有方法的定性ANALCAT数据集的结果列于表4中。该数据集包含50个实例; 25个实例记录为非破产，25个实例记录为破产。这些方法的性能通过预测精度来衡量，匹配一致性可以使用Kappa统计来计算。使用蚂蚁挖掘器生成的LR、MLP、RF和RBF方法的精度分别为88%、90.90%、86%和74%。很明显，蚂蚁挖掘器和RF显示出100%的准确性和kappa值正好为1，而其他方法如LR、MLP、RF 和RBF 分别达到 0.9837 、 0.8197 、 0.72 和 0.48 的 kappa 值。在ANALCAT数据集上，与其他方法相比，该方法表现良好。它还指出，径向基函数产生较差的perfor-曼斯比其他方法。6.3. 定量澳大利亚信贷破产数据集定量澳大利亚信用数据集的结果列于表5中，并与现有方法进行了比较。该数据集包含690个实例; 307个实例记录为非破产，383个实例记录为破产。使用蚂蚁挖掘器生成的分类规则的准确率达到86.37%。LR、MLP、RF和RBF方法的精度分别为85.36%、82.6%、85.94%和80.28%。很明显，蚂蚁矿工和RF显示出86.37%的准确度和kappa值0.72，而其他方法如LR、MLP、RF和RBF分别达到0.70、0.64、0.71和0.718的kappa值在AUS-TRALIAN数据集上，蚂蚁挖掘算法与其他方法相比表现良好同时指出，径向基函数法的精度较差，而线性回归法的kappa值也没有得到提高。提出的破产预测模型在适当的时候预测金融失败。为了最大限度地减少基于蚂蚁挖掘的CRI算法中随机变化的影响，实验在三个数据集上重复，并验证了基于蚂蚁挖掘的CRI算法产生的结果明显优于其他方法。在图1和图2中，将各种分类模型的结果与另一种分类模型的预测精度进行比较。图4 -6中描绘了Kappa值。7-9分别。蚁群算法在定性和定量数据集上的准确性均优于其他方法.蚁群挖掘算法通过同时进行优化，能够更有效地生成规则来选择合适的实例，并完美地平衡灵敏度和特异性。Kappa测度结果表明，蚁群算法与专家的一致性达到了完美匹配，且显著优于其他分类方法。在图4中，由预测模型表2性能分析因素的描述。第二类错误率非失效FP的灵敏度= Δ FPΔ TPΔ被识别为正确的实际阳性的灵敏度值TP= Δ TPΔ FNΔ被识别为正确的实际阴性的特异性度量TN=TNFP数据集适当分类的准确性F-score测量测试Kappa检验测量有效性的敏感性、特异性和可靠性Obs： Agreement- Exp：100-Exp： Agreement其中，观察到的一致性= %（总体准确度）。预期一致率=（%（真阳性+假阳性）* %（真阳性+假阳性））+（%（真阳性+假阳性）* %（真阳性+假阳性））。因素描述符号I类错误将不正确拒绝视为正确拒绝的FPII类误差正确拒绝作为不正确拒绝FNI类错误率失效的灵敏度FN =100000000000000000000000000000654J. Uthayakumar等人/沙特国王大学学报RF表3定性破产数据集的性能分析。算法混淆矩阵I类错误II类误差I类错误率II型错误率Sens.具体说明。精度F-scoreKappa蚂蚁矿工1070000010010010010010143LR10610.40.40.690.9399.0699.3099.2099.060.98371142MLP10610.40.40.690.9399.0699.3099.2099.060.98371142RF1070000010010010010010143RBF10610.40.40.690.9399.0699.3099.2099.060.98371142表4定量破产ANALCAT数据集的性能分析算法混淆I类错误矩阵II类误差I类错误率II型错误率Sens.具体说明。精度F-scoreKappa蚂蚁矿工25 0 00 25LR23 2 4080160810085.1810091.301008810088.4610.98374 21MLP 25 5 9.090016.6610083.3390.9090.900.81970 25RF22 3 68161284.6187.58686.270.724 21RBF 20 5 1016322071.4277.277475.470.488 17表5定量破产澳大利亚数据集的性能分析算法混淆I类错误矩阵II类误差I类错误率II型错误率Sens.具体说明。精度F-scoreKappa蚂蚁矿工263 44 6.377.2413.0514.3384.0288.3286.3784.830.7250 333LR 266 41 5.948.6915.6613.3581.5988.7385.3685.040.7060 323MLP 246 618.5515.4019.8680.6584.1582.6080.390.6459 324RF 262 45 6.527.5313.5714.6583.4388.0385.9484.380.7152 331基民盟205 102 14.784.928.8733.2285.7777.3880.2875.090.7134 349径向基函数99.2RBF74RFMLPLR99.299.2100蚂蚁矿机LRMLPRBFRFMLP8690.9精度蚂蚁矿工100LR8898.59999.5100100.5蚂蚁矿工100见图4。定性破产数据集在预测精度方面的性能分析。显示了较小的变化，但与所有三个数据集的其他模型相比，蚂蚁矿工给出了更简单的规则。图图4和图5描述了预测模型的分类准确率，蚂蚁矿工对定性破产数据集和ANALCAT数据集的准确率为100%。在澳大利亚信用数据集中，蚂蚁矿工0 50 100 150图五、性能分析定量ANALCAT破产数据集在预测精度方面。其准确率为86.37%，其它方法的准确率为80%~ 85%。该图清楚地表明，蚂蚁矿工模型是定性和定量数据集的最佳预测模型。图六，J. Uthayakumar等人/沙特国王大学学报655←←RBF精度RFMLPLR蚂蚁矿工RBFRFMLPLR蚂蚁矿工76 78 80 82 84 86 88图六、性能分析定量澳大利亚破产数据集在预测精度方面。0.6 0.65 0.7 0.75图9.第九条。澳大利亚破产数据集的Kappa统计性能分析RBFRFMLPLR蚂蚁矿工0.975 0.98 0.985 0.99 0.995 1 1.005见图7。基于kappa统计量的定性破产数据集性能分析。RBFRFMLPLR蚂蚁矿工0 0.5 1 1.5见图8。ANALCAT破产数据集的Kappa统计性能分析。ant-miner给出的kappa值为1，这表示定性和ANALCAT数据集中的在澳大利亚信用数据集上，蚂蚁矿工给出的kappa值为0.91，大于其他预测模型。关于结果，可以得出结论，蚂蚁矿工算法显着优于现有的方法。对于定性数据集，蚂蚁挖掘算法和RF算法在规则生成方面的性能没有显著差异。特别是，蚂蚁挖掘算法和RF达到相同的预测精度为100%，Kappa值为1比LR，MLP和RBF。另一方面，蚂蚁挖掘算法更精确，减轻了不准确预测破产的负担。对于定量数据集（Analcat和澳大利亚信用数据集），蚂蚁矿工算法的性能因素提供了显着优于现有方法的结果。最后，通过比较总体预测精度、I类错误、II类错误、I类错误率、II类错误率、灵敏度、特异性、F值和Kappa值等性能指标，验证了蚁群算法在破产预测中的优势。因此，所提出的基于蚂蚁矿工的预测模型似乎是预测破产的启发工具。7. 结论本文设计了一种基于CRI的蚂蚁挖掘算法，旨在防止金融机构破产。该方法从定性和定量两方面对专家决策进行规则挖掘。实验使用公共数据集进行定量分析。对于定性分析，从UCI存储库收集并批准新数据集。该模型给出了一个Kappa值为1，这表明由专家和分类器之间的分类协议的措施。与现有的相关工作相比，蚂蚁挖掘算法发现的规则更简单，准确性更高。因此，蚂蚁矿工是更适合破产预测的方法比其他分类器，如LR，MLP，RF和RBF。在未来，这项工作可以扩展到更多的数据集和各种人工智能技术和生物启发算法。附录A参数列表训练集←整个训练集。rule_list←一个空列表。Max_ununcovered_cases←未覆盖的最大案例数。t←Ant index.J←蚂蚁的汇合。设置所有信息素踪迹到一个相同的值. rulebest←将最佳规则添加到发现的规则列表。rulet←Antt迭代地构造规则。ConstructRule（）Antt从没有规则开始，并通过在实例处追加一个值来构造规则tPruneRule（rule t）删除蚂蚁构造的不需要的规则。更新信息素（）←增加信息素的路径遵循的蚂蚁t和减少信息素的其他路径。KappaKappaKappa656J. Uthayakumar等人/沙特国王大学学报←←←算法一：蚂蚁矿工的伪码表示步骤1：初始化训练集整个训练集步骤2：将发现的规则存储到变量rule_list [ ]中//初始化一个空集合步骤3：重复步骤3.7，直到训练集>Max_ununcovered_casesStep 3.1：t←1 //初始化蚂蚁索引Step 3.2：j←1//初始化蚂蚁步骤3.3：初始化信息素（）//用等量的信息素步骤3.4：初始化rule best← rule best//初始化rule best为零。步骤3.5：重复步骤3.5.6，直到（t≥No_of_ants）或（j≥No_rules_converge）步骤3.5.1：rulet←ConstructRule（）//Antt以空规则开始步骤3.5.2：rulet←Prune Rule（rulet）//删除不需要的规则Step3.5.3：← Update Pheromone（）//更新所有路径的信息素。步骤3.5.4：如果f（规则t）=f（规则t-1）//更新汇合测试j=j+1;步骤3.5.5：否则j=j-1;步骤3.5.6：t←t +1步骤3.6：rule_list←[rule_list，rulebest]//在所有规则t中选择最好的规则Rbest步骤3.7：训练集训练集-{规则最佳正确覆盖的案例集}4.停止引用Abellan，J.，Mantas，C.J.，2014.改进分类器集成用于破产预测和信用评分的实验研究。专家系统应用 41， 3825-3830 。 https://doi.org/10.1016/j.eswa.2013.12.003 网站。Alfaro，E.，García，N. Gámez，M.，Elizondo，D.，2008.破产预测：AdaBoost和神经网络的实证比较德西斯支持系统 45 ， 110-122 。https://doi.org/10.1016/j.dss.2007.12.002网站。阿尔特曼E. I Marco，G.，Varetto，F.，1994.公司困境诊断：使用线性判别分析和神经网络的比较（意大利经验

下载后可阅读完整内容，剩余1页未读，立即下载