索引编码预测信用卡申请周转时间"-预测并提高业务周转效率

31 浏览量更新于2023-11-30 收藏 436KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

615→→基于索引编码预测信用卡申请周转时间提高运营效率杜敬祥新加坡星展银行卓越分析中心joshuatohjx@dbs.com黄绮珍新加坡星展银行卓越分析中心kayjanwong@dbs.com萨马斯·阿加瓦尔新加坡星展银行卓越分析中心wal@dbs.com摘要张学杰新加坡星展银行卓越分析中心xuejiezhang@dbs.com陆嘉楠新加坡星展银行卓越分析中心johnlu@dbs.com来自产品类别、客户信用评级、渠道本文介绍了索引编码和机器学习的成功使用，预测周转时间的一个复杂的业务流程-信用卡申请过程。对正在进行的过程进行预测，并在有新信息时更新。业务流程很复杂，每个实例都有不同的步骤、顺序和长度。对于预计周转时间高于正常周转时间的情况，采用模型解释能力来确定主要原因。这允许在过程中进行干预，以潜在地减少完工前的周转时间。CCS概念• 企业计算;业务流程管理;业务流程建模;·计算方法学机器学习;学习范式;监督学习;回归监督学习。关键词复杂业务流程，索引编码，机器学习，模型可解释性，个人银行业务，信用卡申请ACM参考格式：JingXiang Toh，Kay Jan Wong，Samarth Agarwal，Xuojie Zhang，and John Jianan Lu. 2022.基于索引编码预测信用卡申请周转时间提高运营效率。在2022年网络会议（WWW '22伴侣）的COMPANION程序，2022年4月25日至29日，虚拟活动，法国里昂。ACM，美国纽约州纽约市，6页。https://doi.org/10.1145/3487553.3524641一、导言银行和金融业的业务流程在实践中可能是复杂的在信用卡应用中，表示对应的作者本作品采用知识共享署名国际协议（ Creative Commons AttributionInternational）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.3524641提交申请的地点及证明文件是否完备等。因此，信用卡申请可以在处理步骤、步骤顺序和步骤总数方面有所不同。缩短处理信用卡申请的时间对银行有利。机器学习可用于预测正在进行的应用程序的周转时间，并识别预计需要比正常情况更长时间才能完成的应用程序，而模型解释能力可以识别有助于预测的变量。这将使银行，特别是运营团队，能够积极干预，并可能减少实际周转时间。索引编码可以用来实现上述目的信用卡申请过程需要进行编码，以便可以在机器学习模型中捕获过程的复杂性，包括不同的步骤，步骤的顺序和数量。然后，可以在整个正在进行的应用程序过程中的任何时候进行预测模型的可解释性，除了用于识别主要变量外，还可以用于提供可操作的后续行动并改进业务流程。例如，假设由于提交的信息不一致，预计应用程序将花费比正常情况更长的时间，则可以更早地与客户联系。本文演示了如何周转时间的一个复杂的业务流程可以建模与索引为基础的编码，以及如何可以减少使用模型的解释能力，以确定并减少与高周转时间相关的变量。业务&流程的预测性监控属于流程挖掘[1]的范畴，其目的是预测正在进行的流程的结果。结果可以包括医疗过程是否成功，或者潜在客户是否会履行采购订单。流程挖掘的早期方法包括序列分类[2，3]，其中从过去的历史数据中提取流程的初始简单符号序列，并将其映射到正在进行的流程以确定结果。这些方法获取变量的最新快照，但不获取变量如何更改和演变为当前状态。后来的方法提取复杂的符号序列，保留变量演变的信息[4]。特别是616WWW基于索引的编码以及基于索引的编码和基于隐马尔可夫[5]模型（Hidden Markov [ 5 ] Models）的编码的组合已经被证明与传统的布尔、基于频率或最后状态编码相比，能够可靠地预测结果即使在业务流程的初始阶段也是如此本文重点介绍基于索引的编码，而不是上述组合，因为后者需要额外的计算资源，但不提供显着或一致的性能改善。3周转时间由于信息的敏感性，本文中的所有数字都被更改，但更改的数字不会改变得出的结论或见解3.1标签该模型的目标是预测信用卡申请的周转时间具体而言，周转时间是指从系统收到申请到决定批准或拒绝申请的时间。大多数申请在几天内完成。对于申请时间较长的情况，常见的原因包括提交的文件不足或不一致，或信用可靠性问题。3.2静态和动态变量信用卡申请流程中的变量可以分为静态变量和动态变量。后一类变量是将被索引编码的变量。静态变量是从应用程序处理或设计的变量这些变量在应用程序开始时可用，并且在整个过程中保持不变总共有14个处理的静态变量和4个工程静态变量。处理的静态变量的示例包括为申请提交的信息是否干净、提交申请的渠道以及申请人的国籍等。工程静态变量包括提交应用程序的星期几，同一天提交的应用程序总数等。动态变量是在应用程序过程的每一步都要更新的变量。每个应用程序的步骤数上限为100。应用程序的步骤数量分布是长尾的捕捉动态变量在整个过程中如何演变，可以更好地预测周转时间。在每个步骤中，有6个处理的动态变量和5个工程动态变量。处理的动态变量的示例包括步骤描述、步骤状态、出现的差异（如果有的话）和步骤所用时间等。工程动态变量包括自应用程序启动以来所花费的总时间和迄今为止所执行的步骤数。3.3最后状态变量最后状态变量本质上是来自业务流程的最后一个已知步骤的动态变量，添加这些变量是为了提高模型的预测能力。这些变量允许模型捕获每个应用程序相对于其他应用程序的进度。3.4基于索引基于索引的编码使得具有不同步骤和长度的应用能够被建模，使得复杂的符号序列被捕获，并且可以在过程的任何点处进行预测表1显示了基于索引的编码与前面提到的静态、动态和最后状态变量一起由于变量的数量很大，仅示出了两个静态变量、两个最后状态变量、一个动态变量和前九个步骤。在表1中，显示了来自两个不同客户的两个应用程序，这反映在“Customer”列中对于每个应用程序，在整个过程中在不同时间的更新被附加在新行中，这反映在“更新”列中每个应用程序所花费的相应时间以应用程序1为例，静态变量在整个过程中保持不变，而动态变量则是最新的。最后状态变量反映了相应动态变量的最后已知步骤一次更新至少会添加一个新的动态变量步骤。当比较两个不同应用程序的更新时，可以看到在编码中捕获了每个应用程序特有的复杂序列。周转时间的预测可以在第一次更新时进行，并在每次后续更新时刷新。随着更新次数的增加，新的信息会被添加，预测也会变得更加准确。重要的是，预测是准确的，更新尽可能少，以便预测有用。3.5一个热和标签编码在基于索引的编码之后，需要进一步编码，以使数据能够静态变量是独热编码的，而最后一个状态和动态变量是标签编码的，因为变量的数量很大在one-hot和标签编码之后，静态变量有接近100列，动态变量有600多列。3.6数据处理原始数据来自多个业务部门，包括运营、信贷和风险。然后使用Python-Spark将原始数据提取、转换并加载到Hadoop分布式文件系统中作为parquet文件。接下来，数据处理，合并表，特征工程和基于索引的编码在处理后的数据足够小以转换为Pandas Data Frame之前完成。然后，数据是独热和标签编码。3.7训练、测试和生产数据集处理后，数据被分成训练、测试和生产数据集。训练数据集由全年数据组成，用于训练和交叉验证机器学习模型。因此，必须完成应用程序，以便为培训提供周转时间617预测信用卡申请周转时间提高运营效率基于索引的编码WWW表1：与静态、动态和最后状态变量一起使用的索引编码的示例客户更新周转剩余时间静态最后状态变量动态变量（仅显示步骤描述，且仅显示前9个步骤时间TAT变量（仅显示2个）（仅显示2个）##天天清洁信道步骤说明Number 步骤步骤2步骤3步骤步骤5步骤6步骤7步骤步骤9的1DescDesc4DescDescDesc8Desc步骤DescDescDesc1133Y在线局6编辑局横预应用评分局NANANA出来在检查Val出来1232Y在线判决7编辑局横预应用评分局判决NANA在检查Val出来1331Y在线决定9编辑局横预应用评分局判决设置决定在检查Val出来2155N分支横3编辑局横NANANANANANA检查在检查2255N分支制造商4编辑局横制造商NANANANANA返工在检查再-工作2354N分支第一5编辑局横制造商第一NANANANA遵循在检查再-遵循工作2452N分支普雷瓦勒8编辑局横制造商第一制造商检查器预NA在检查再-遵循com-com-Val工作合股合股测试数据集由两个月的数据组成，用作样本外测试集，以跟踪机器学习模型的性能。这样，测试数据集中的应用程序也完成了。生产数据集仅包括正在进行的应用程序预测的周转时间作出的每一个更新的每个应用程序，直到该应用程序被决定。因此，这些应用程序上的模型性能只能在应用程序完成后进行跟踪。3.8预计剩余时间通过从预测周转时间中减去到目前为止所用的时间（工程动态变量）得出预测剩余时间这是为生产数据集中正在进行的应用程序计算的，以便能够主动干预预计需要比正常时间更长时间的应用程序。3.9交叉验证的预定义拆分将基于索引的编码与机器学习结合使用时需要考虑的一个问题是，当一个更新与来自同一应用程序的另一个更新进行交叉验证时，可能会出现偏差。因此，交叉验证的预定义拆分用于确保来自同一应用程序的更新被分配到同一交叉验证文件夹。算法如下：1) 随机分配来自同一应用程序的更新为1到N的整数，其中N是交叉验证次数2) 在训练机器学习模型时，将更新分类为N次交叉验证3.10平均周转时间趋势样本权重需要考虑和缓解的一个关键因素是平均周转时间的趋势例如，由于季节性因素，周转时间可能会在年底前上升，或者由于业务流程的改进，近几个月的周转时间可能会下降。图1显示了平均周转时间的趋势，单位为天。因此，在机器学习模型的训练中，应该为最近的应用程序提供更重的样本权重通过实验可以优化样本权重算法如下：1) 将样本权重w1（默认值为5）分配给最近一个月的应用程序。2) 将样本权重w2（默认值为3）分配给最近第二个月的应用程序。3) 将样本权重w3（默认值为1）分配给所有其他应用程序4) 在w1>= w2>= w3的条件下，用1到10的整数值改变w1和w2，以获得最佳预测性能3.11机器学习模型极端梯度提升（XGBoost）[6]用于机器学习回归模型。它是一种基于树和开源的监督机器学习技术XGBoost模型在具有完整应用程序的训练数据集上进行训练网格搜索，交叉验证使用预定义的分裂在前面的部分中提到的，是用来搜索最好的参数。网格搜索中的参数包括“学习率”、“n估计量”、“最小子权重”、“伽玛”、“子样本”、“按树列样本”和“最大618WWW图1：平均周转时间（天）的趋势，方差约为0.33天。深度。然后优化最近数据的样本权重，以考虑周转时间趋势的任何变化比较训练数据集和测试数据集的性能，以确保模型的过度拟合最小然后，训练的XGBoost模型用于基于最新可用更新来预测正在进行的应用程序的周转时间。图2显示了数据管道的总体流程训练的最终XGBoost模型的参数是：学习率：0.1，N估计量：400，最小子速率：1，Gamma：0，子样本：1，按树的Col样本： 0.9，最大深度：7.4模型解释能力4.1特征重要性XGBoost模型最重要的功能是：1) 关键步骤所需的步骤时间2) 应用中的差异计数3) 应用程序是否4) 提交申请的渠道5) 应用程序的步骤状态4.2Shapley值Shapley值[7]用于解释模型预测。它起源于合作博弈论，用于根据贡献公平分配奖励这里，每个变量对预测的贡献可以在模型级、子群体级和应用级相对于其余变量进行此外，可以确定一个变量做出了积极或消极的贡献。相比之下，机器学习中的传统特征重要性仅提供模型级别的变量重要性的大小4.3顶级车手在模型层面，预测周转时间的主要驱动因素或变量包括关键早期步骤的持续时间、应用程序中的差异数量以及应用程序是否干净。某些相对重要的变量提供了改进应用程序的机会。例如，在星期五提交的申请需要较长时间才能完成图2：数据管道的流程图因为他们只在星期一和周末的申请一起处理。另一个例子是，通过实体银行分行提交的纸质表格申请比数字提交的时间更长。这两个调查结果符合当地的知识和他们的相对重要性提供了激励微调业务流程。619预测信用卡申请周转时间提高运营效率基于索引的编码WWW表2：实验结果-平均绝对误差（天）实验火车测试注意10.750.97最佳性能21.572.37无索引编码30.771.17没有最后状态编码40.751.05无样品重量4.4编码行动在子群体和应用程序级别，可以主动干预预计需要比正常时间更长时间才能完成的正在进行的应用程序，以潜在地降低周转时间。这涉及到确定相对重要的变量，并可以采取行动。具体的后续行动，然后预先规定，标记到变量，并编入应用程序的过程。作为示例，假设信用步长的长持续时间是当前正在进行的申请批次的最大驱动因素之可以提示业务流程的所有者分配更多的人力，并调查是否存在任何其他根本原因。5结果和讨论5.1性能度量平均绝对误差（MAE）被用作周转时间预测的性能指标请注意，周转时间是以分钟为单位记录的，但为了简洁起见，它是以天为单位表示的5.2实验结果进行了四组实验，训练和样本外测试数据集的MAE见表2在实验1中，使用第3节中描述的所有变量、编码和方法。训练和测试MAE为0.75天，0.97天。使用网格搜索和预定义的交叉验证优化模型参数实验1具有最好的性能。在实验2中，没有使用索引编码，以量化其对模型性能的影响动态变量被丢弃，模型仅在静态和最后状态变量上进行训练试验MAE显著更高，为2.37天。因此，索引编码对模型性能有很大影响在实验3中，为了量化其对模型性能的影响，最后一个状态变量被删除，模型只在静态和动态变量上进行训练试验MAE较高，为1.17天。因此，最后状态编码对模型性能也有影响。在实验4中，没有使用样本权重来量化其对模型性能的影响。测试MAE略高，1.38天然而，样本重量对模型性能的影响可能取决于第3.10节中提到的周转时间趋势。图3：绝对误差的长尾分布5.3平均周转时间本节查看实验1的绝对误差中位数，它具有最佳的绝对误差均值。训练和测试数据集的绝对误差中位数分别为0.23天和0.35天，显著低于相应的如表3所示绝对误差的分布具有长尾，如图3所示。平均绝对误差和中间绝对误差之间的显著差异对应于长尾观测。对落在长尾中的应用程序进行了调查，频率最高的共性是这些应用程序需要在某个时间点与客户进行通信据推断，高预测误差可归因于模型无法准确预测特定客户何时会在需要时回复银行。考虑到大多数应用程序不会落入长尾，使用绝对误差中位数来衡量和传达机器学习模型的性能会更5.4正在验证索引编码索引编码的一个特点是，应用程序的每次新更新都可以进行新的预测。自然地，随着更多的信息被添加，后续预测的预测误差将更低。这一假设在图4中得到了证明，图4显示了预测误差与更新数量的关系图，趋势明显下降。6结论和今后的工作本文表明，索引编码和机器学习可以用来预测一个复杂的业务流程的周转时间620WWW表3：实验1的平均值和中位绝对误差比较实验1平均绝对误差（天）平均绝对误差（天）火车0.760.23测试1.050.35图4：预测误差与更新次数的关系图可以对正在进行的过程进行预测，并在新信息可用时刷新。实验结果表明，索引编码、最后状态编码和样本权重的使用提高了机器学习模型的预测能力。对于预测具有比正常周转时间更长的时间的应用程序，模型解释能力可以用于识别最重要的贡献变量。这允许在过程中进行干预，以潜在地减少完成之前的周转时间预测业务流程中的下一步是可能的[8]，也是有用的。这将有助于更好地分配资源，以应对某个步骤的工作量激增。未来可能的工作是使用具有长短期记忆（LSTM）[9]架构的递归神经网络来预测周转时间和下一步。 LSTM已被证明可以成功预测业务流程的下一步和周转或剩余时间，并取得了相当大的成功[10]。致谢我们要感谢星展银行的赞助商和合作者对我们工作的支持：Sameer Gupta ， Gautam Gorki ， VarunGupta ， Raju Nair ，Hazel Seow，Geraldine Shu Fen Low。引用[1] Maggi，F.M.，Di Francescomarino，C.，Dumas，M.，吉迪尼角2014.业务流程的预测性监控In：Proc.当然。斯普林格，457-472。[2] Xing，Z.，Pei，J.，Keogh，E.J.2010年。层序分类研究综述SIGKDD Explorations，12，I. 40-48[3] Van der Aalst，W.M.P.，Pesic，M.，宋，M。2010年。超越流程挖掘：从过去到现在和未来。In：Proc. Of CAiSE. 38比52[4] 安娜·莱昂杰娃，拉斐尔·孔福尔蒂，基亚拉·迪·弗朗切斯科马里诺，马龙·杜马斯，法布里齐奥·玛丽亚·马吉。2015.用于业务流程预测监控的复杂符号序列编码。在企业流程管理国际会议上。297.[5] 拉比纳湖1989.隐马尔可夫模型及其应用教程在语音识别中。《IEEE学报》，77，2。254-286。[6] Chen，Tianqi，and Carlos Guestrin.2016年。Xgboost：一个可扩展的树提升系统。第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集。785-794。[7] 斯科特 · 伦德伯格李秀仁 2017. 解释模型预测的统一方法。 arXiv ：1705.07874。[8] Becker，J.，Breuker，D.，Delfmann，P.，Matzner，M.2014年。设计和实现一个基于事件的业务流程预测建模框架。第六届企业建模和信息系统架构国际研讨会论文集。71比84[9] Hochreiter，S.，Schmidhuber，J..一九九七年。长短期记忆。神经计算，9，8。1735-1780年。[10] 尼克·塔克斯，伊利亚·维列尼奇，马塞洛·拉罗萨，马龙·杜马斯. 2017.使用LSTM神经网络进行预测性业务流程监控。arXiv：1612.02130v2

下载后可阅读完整内容，剩余1页未读，立即下载