智能系统应用：机器学习预测支付能源账单倾向

179 浏览量更新于2024-01-02 收藏 990KB PDF 举报

智能系统

机器学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用17（2023）200176机器学习用于预测支付能源账单的倾向Md Abul Bashara， Richi Nayaka，Kieren Astin-Walmsleya，b，Kerina Heathca计算机科学学院，数据科学中心，昆士兰科技大学，2 George St，Brisbane，4000，QLD，澳大利亚b澳大利亚昆士兰州能源公司cErgon Energy Retail，QLD，澳大利亚A R T I C L E I N F O A B S T R A C T保留字：贝叶斯神经网络支付倾向不确定性估计深度学习决策树逻辑回归在收入周期的早期预测客户的支付倾向可以为组织提供许多机会来改善客户体验，减少困难，降低现金流受损和坏账发生的风险。随着数据科学的进步，机器学习技术可用于构建模型，以准确预测客户的支付倾向。创建有效的机器学习模型而不访问大量详细的客户功能会带来一些重大挑战。本文介绍了一个案例研究，对一个能源组织的数据集进行了研究，探讨了创建机器学习模型的不确定性，以预测进入经济困难的住宅客户，从而降低他们支付能源账单的能力。不正确的预测可能导致资源分配不足，并且无法主动识别脆弱的客户本研究探讨机器学习模型考虑不同的背景并估计预测中的不确定性。八个模型，从四个家庭的机器学习算法进行了调查，他们的新用途。提出了一种新的概念，利用贝叶斯神经网络的二元分类问题的倾向支付能源账单（即表格数据与数值和分类变量），并探讨部署。1. 介绍在澳大利亚能源行业，季度计费是常见的做法。这可能是由于手动读取仪表的经济性，其需要人类仪表读取器从仪表获取物理读数。虽然智能仪表技术允许更频繁地读取仪表，但仍有大量的手动读取仪表在使用中。大额且不频繁的能源账单可能会给一些客户带来财务压力。提前了解个人客户因此，这将为客户和组织带来更好的结果在收入周期的早期预测客户的支付倾向可以帮助能源零售商知道何时选择支付选项，例如支付计划，以顺利支付并减少客户的困难。为了将援助对象锁定在最脆弱的客户，有必要在*通讯作者。及时主动。除了创造良好的客户体验外，还需要及时收到付款以帮助组织保持财务上的可行性（Zeng et al.，2008年，Paul等人， 2012年，Bae-sens等人，2003年）。随着账单支付的延迟，存在现金流减少和坏账冲销增加的风险（Baesens等人，2003），这反过来又会增加所有客户的服务成本（Paul等人，2012年）。在许多行业，组织使用信用评分来了解客户信用评分的传统方法基于统计方法，例如逻辑回归（Wiginton，1980，Reichert等人，1983，Leonard，1993）。然而，这些方法依赖于访问大的和详细的客户数据集来准确地预测客户的支付倾向。在本文中，我们表明，预测客户电子邮件地址：qut.edu.au（硕士）巴沙尔），r.nayak@ qut.edu.au（R. Nayak），kieren. energyq.com.au（K. Astin Walmsley），kerina. ergon.com.au（K.Heath）。https://doi.org/10.1016/j.iswa.2023.200176接收日期：2022年9月24日;接收日期：2022年12月24日;接受日期：2023年1月1日在线预订2023年2667-3053/© 2023作者。出版社：Elsevier Ltd 这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsM.A.巴沙尔河Nayak，K. Astin-Walmsley等人智能系统与应用17（2023）2001762根据澳大利亚统计局（ABS）的人口普查数据。人们的意识越来越强，新的立法也越来越多，例如欧盟GDPR2涵盖了收集的数据量和使用客户信息的道德规范。我们证明，通过从有限数量的特定客户特征中进行特征工程，我们能够提供有用的见解，而无需过度侵犯客户为预测支付倾向而构建的机器学习模型可以以更高的准确性和更大的确定性提供该信息（Zeng等人，2019年，Crook等人， 2007，Huang等人， 2004，Tsai Chen，2010）。机器学习技术从训练数据集中推断出常见的规则和模式（Selz，2020）。当应用于一个新的和非-在所看到的情况下，训练的模型使用学习的一般化模式进行预测（Crook等人，2007，Bishop，2006）。机器学习方法可以利用来自多个不同来源的数据来创建单一的真相来源。例如，这些模型可以利用客户的交易历史、行为互动和增强的第三方数据进行准确预测。使用更多的数据进行建模有助于这些模型。用于结构化数据（即表格数据）的一些常用预测机器学习模型是基于决策树的方法，例如XGBoost（Chen Guestrin，2016）和RandomFor- est（Liaw等人，2002）、逻辑回归（Hosmer等人，2013年）和基于概率的方法，如朴素贝叶斯。最近，深度神经网络（DNN）（GlorotBengio，2010）模型由于其在处理大量变量方面的有效性而受到欢迎以及通过实体嵌入的分类变量（或特征）（Guo Berkhahn，2016）。在机器学习模型的训练过程中，它们学习常见的模式。换句话说，参数的最佳点估计在模型中是从数据样本中学习的（Blundell等人，2015，Neal，2012）。然后，这些点估计参数用于对先前未知的样本进行预测。它们以预测类的形式提供了一个明确的决定，例如，支付倾向“是”或“否”。它们不提供样本的不确定性或是或否的概率。此外，当有足够的训练样本可用时，这些模型表现良好。许多机器学习模型无法在数据稀缺或没有数据的区域传达不确定性，导致过度自信的预测（Neal，2012，Blundell等人，2015年）的报告。在不了解不确定性的情况下，这种过度自信的预测可能会导致错误的决策，这可能会给组织带来额外的成本，并对受影响的客户产生不利影响。基于朴素贝叶斯的模型（Rish等人，2001年）是简单的实施，并可能提供不确定性。然而，朴素贝叶斯假设所有特征都是条件独立的，因此不能捕获输入特征之间的相关性（Rish等人，2001年）。因此，这些模型的准确性不会随着训练示例的增加而增加（Ng Jordan，2002）。本文介绍了一个案例研究，该案例研究基于从一家能源组织获得的数据集，并研究了机器学习模型，以预测客户是否会陷入或即将陷入财务困境，这可能会影响他们在到期日前支付能源账单的能力。其目标是让组织采取积极主动的行动来帮助客户，并减少拖欠付款可能给客户带来的负面影响。我们研究了来自四个机器学习算法家族的八种模型，以获得它们的新用途。基于点估计的模型是深度神经网络（DNN）（Glorot Bengio，2010），包括多层前馈网络和卷积神经网络，基于决策树的模型，包括XGBoost（Chen Guestrin，2016），随机森林（Liaw等人， 2002年）和一个单一的决策树（Safavian Landgrebe，1991年），Lo-1https://www.abs.gov.au。2https://eur-lex.europa.eu/legal-content/EN/TXT/? uri=CELEX：32016R0679。gistic回归（ Hosmer 等人， 2013）和多项式朴素贝叶斯（ MNB ）（Lewis，1998）。我们提出了一个贝叶斯神经网络（BNN），使用变分贝叶斯推理（Kingma Welling，2013）来预测支付倾向。通过将贝叶斯的概念引入NN，BNN增加了预测的不确定性估计和模型正则化机制。BNN在传统NN的参数上引入概率分布（Blundell等人，2015年）的报告。BNN基于贝叶斯反向传播算法（Blundell等人，（2015）估计真实后验的变分近似这允许BNN通过从后验样本中估计不确定性该等数据包括与能源账单支付历史相关的有限数量的客户特定特征，以进行实验并调查机器学习在能源账单支付倾向预测中的使用。有几项措施被用来评估模型在预测支付倾向方面的表现。结果表明，机器学习模型能够从数据中学习，并预测客户正在或即将陷入财务困境。这些模型的性能在不同的测量条件下变化不大。所提出的XGBoost模型生成的森林中的树可用于识别对支付倾向贡献最大的特征。所提出的BNN模型不仅实现了与传统模型相当的性能，而且还采用了一种机制来传达底层数据分布中的不确定性。BNN使模型的预测更加可靠.本文作出了以下新颖的贡献。1. 提出了一个基于证据的数据驱动的解决方案，以支付倾向的问题，并训练了一些机器学习模型来预测支付能源账单的倾向。2. 介绍了贝叶斯神经网络如何有效地应用于来估计预测的不确定性。3. 显示基于决策树的机器学习模型可用于识别对支付倾向贡献最大的特征。论文的其余部分组织如下。第二节论述了相关工作.问题公式化在第3节中详细说明。问题解决框架在第4节中给出.机器学习模型将在第5节中讨论。实证评价和结果讨论在第6节中提供。第七节是论文的结论。2. 相关工作组织面临着经济和社会压力，既要提供高质量的服务，又要保持可接受的价格。在竞争激烈的环境下，透过提高业务效率及降低成本，可取得部分维持盈利所需的效率。保持良好的现金流和减少坏账冲销是组织可以降低其服务社区的服务成本并改善客户体验的方法。预测支付倾向在这方面可以有很大的帮助，并且利用自动方式进行这种预测被认为是为客户和组织共同创造价值（Hein等人，2019年）。支付倾向评分在许多行业中是一个常见的想法，并已被银行和保险等行业用于确定将其资源集中在何处2.1. 传统方法传统的方法包括使用基于先前经验的人的判断（Henley Hand，1996年）、判别分析和线性回归（Durand，1941年，Srinivasan Kim，1987年）。然而，判别分析和线性回归存在概念化问题（Eisenbeis，1978，Berry，1994），因此逻辑回归更常用（Wiginton，1980，Reichert等人，1983，Leonard，1993）。还采用了基于调查的方法。在乌干达的11个主要城镇进行了一项横断面调查研究M.A.巴沙尔河Nayak，K. Astin-Walmsley等人智能系统与应用17（2023）2001763为了了解影响其账单支付行为的自来水公司客户的感知，并发现影响账单支付行为的服务价值和客户满意度（Kayaga等人，2004年）。最近，离散选择模型（Berry ，1994）被用来估计能源效率的支付意愿（Collins Curtis，2018）。2.2. 机器学习方法机器学习模型和技术可以提供比传统模型更准确、更确定的解决方案（West，2000，Tsai Wu，2008，Atiya，2001，Khashman，2010，Bellotti Crook，2009，Kim Ahn，2012，Chen Li，2014）。它们有能力处理大量和多个数据源，以及在没有人为偏见的情况下进行预测，并且可以作为完全自动化实施的一部分进行部署。机器学习已成功应用于各行各业的各种应用。有一些研究使用机器学习来了解客户其中一些使用决策树（DT）（Hongxia等人，2010）、K-最近邻（ KNN）（ Fajrin等人， 2018，Henley Hand ， 1996 ，Li，2009）、支持向量机（SVM）（Bellotti Crook，2009，Kim Ahn，2012，Chen Li，2014）和神经网络（NN）（West，2000，TsaiWu，2008，Atiya，2001，Khashman，2010）。DT将模型学习到的知识直观地使得人们能够以直观的方式理解决策过程，而不需要专门的培训。据报道，C4.5决策树比大多数统计方法提供更好的预测准确性（Quinlan，2014）。支持向量机可以通过使用不同的核技巧来分类非线性可分离的数据集，因此可以提高精度。KNN模型在计算上是有效的。神经网络模型可以处理包含大量变量的复杂预测问题。一项将机器学习技术应用于信用评级的调查报告称，分类器的预测准确性在数据集中各不相同（Wang等人，2015年）的报告。例如，他们观察到，KNN分类器在一个数据集上提供了最好的准确性，而在另一个数据集上提供了最差的准确性。然而，其他类似的研究（Baesens等人，2003）并未发现分类模型的表现存在重大差异。他们观察到，由于数据是弱非线性的，具有径向基（RBF）内核和NN分类器的最小二乘支持向量机模型（LS-SVM）的性能略优于简单的线性模型。总之，机器学习模型的性能取决于数据集的性质和特征。最近，Allina Health与HealthCatalyst合作，报告了一项关于医疗账单支付倾向预测的案例研究（E通过机器学习有效预测支付倾向，2019年）。据报道，该举措仅在一年内就使账单总额增加了200万美元。实现了一个随机森林模型，其中森林中的决策树使用基尼杂质指数构建。Xu等人（2021）使用因果森林估计量预测翻修效应，商业建筑投资组合的影响。Mimaroglu和Yang（2022）使用ResNet，RNN和CNN来预测个性化的能源负担和天然气账单。现有的工作都没有使用BNN进行支付倾向或对机器学习模型进行全面比较2.2.1. 深度学习最近，深度神经网络（DNN）（Glorot Bengio，2010）模型已经成为计算机视觉和自然语言处理领域的机器学习模型中的赢家。据报道，它们对具有大量变量的数据表现出色。这些模型也已成功地应用于时间序列数据.深度学习模型在Kaggle竞赛中得到了广泛的应用，例如，第一名是预测出租车的目的地，3Kaggle o免费工具来运行学术和招聘机器学习竞赛，链接：https://www.kaggle.com/competitions。使用GPS点和时间戳的轨迹的国家（De Brébisson等人，2015年），第三名是使用连锁店的时间序列数据预测未来销售额（ GuoBerkhahn，2016年）。然而，DNN模型在处理表格（即，尽管表格数据在许多数据科学和分析项目中非常常见并具有很高这部分是因为DNN历史上倾向于过度拟合训练数据。最近的工作表明，正则化方法，如随机丢弃（Srivastava等人，2014）和L2标准化，可以减少过度拟合，因此DNN在表格数据中越来越受到关注探索它们在从表格数据中学习模式方面的潜力将是有趣的2.2.2. 预测的不确定性机器学习模型（例如，神经网络和许多其他传统的模型，如DT，支持向量机（SVM），逻辑回归等。使用单点估计作为参数值（即，权重和偏差）（Pawlowski等人，2017年）。如果我们从概率论的角度考虑，使用单点估计是不合理的（Shridhar等人，2019年）。预测应用程序将通过在预测中添加不确定性而受益，如果模型不确定，则结果将被定义，而不是迫使模型选择其中一个类别。基于朴素贝叶斯的模型（Rish等人，2001年，它带来了不确定性。然而，它假设所有特征都是条件独立的，因此它无法捕获输入特征之间的差异（Rish等人，2001年）。因此，这些模型的准确性不会随着训练示例的增加而增加（NgJordan，2002）。贝叶斯神经网络（BNN）允许神经网络学习并通过其权重的先验分布来呈现这种不确定性（Neal，2012）。由于在训练过程中计算了许多模型的参数平均值，因此这些模型在BNN中实现了正则化效应，防止其过度拟合（Shridhar et例如，2019年）。因此，BNN模型可以从小数据集学习。许多图像分类应用已经成功地使用了基于BNN的模型（Shridhar等人，2019年，Blundell等人，2015年，Gal Ghahramani，2016年）然而，尚未研究BNN模型对于表格数据，部分原因是DNN直到最近才很好地用于表格数据。基于BNN的这些潜在特征，我们提出了一个BNN模型，并将其应用于支付倾向问题的表格数据。据我们所知，机器学习模型尚未用于能源账单的支付倾向预测。我们提出研究并应用各种机器学习模型（包括BNN，CNN和MLP）来解决支付倾向问题，其中数据收集受到消费者隐私目标和法律的约束，而不是所有收集的数据都应该用于机器学习。我们建议从有限数量的客户特定功能中执行功能工程，而无需过度侵犯客户3. 问题公式化专注于创新（Wiesböck Hess，2019）和客户可信赖性的公用事业公司通常有兴趣探索数据驱动的决策，以帮助客户度过经济困难，特别是通过早期发现和援助，以减少对客户的负面影响。我们提出研究机器学习模型的能力和好处（来自四个家族，即，决策树，深度学习，贝叶斯和逻辑回归）预测支付倾向。我们探讨了围绕机器学习模型的创建的不确定性，预测住宅客户进入财政困难，导致他们支付能源账单的能力下降。我们评估一个模型是否产生了可以在企业内部使用的结果，以触发主动减少伤害的行动。M.A.巴沙尔河Nayak，K. Astin-Walmsley等人智能系统与应用17（2023）2001764Fig. 1. 提出的机器学习框架基于CRISP-DM（Wirth Hipp，2000年修改图）。支付倾向问题可以被定义为一个问题：顾客及时支付账单的可能性有多大。为了这项工作的目的，创造一个明确的定义;理想的时间，使这一预测是采取作为账单生成的时间点。解决方案的重点是产生的能源账单以及客户按时支付账单的可能性。预测客户的支付倾向可能很困难，原因有几个，例如访问困难由于隐私问题、记录中缺乏可预测的特征、使用合适的预测算法等，每个客户都由一系列特征表示，这些特征使用账单，例如收入、年龄、客户地址、账单金额、账单支付方式、客户居住区域的偏远程度过度自信和错误的预测可能导致资源分配和利用效率低下，例如，花费大量时间向不需要帮助的客户提供帮助，而错过了需要帮助的客户。机器学习方法应该考虑不同的上下文，并且能够对支付倾向预测问题中的不确定性进行建模。4. 所提出的解决方案我们提出了建议的机器学习框架，遵循跨行业数据挖掘标准流程（CRISP-DM）方法（Wirth Hipp，2000），如图1所示。框架的细节如下.4.1. 业务理解业务目标和要求在第3节中讨论。预期的输出是评估模型是否产生可以在业务中用于触发预防措施的结果。拟议的解决办法应能够：（a）估计4.2. 数据理解4.2.1. 数据采集数据由熟悉组织数据集和业务的业务专家识别。捕捉有关账户、账单、债务历史、处所、付款及分类的资料的数据集被识别为有用来源。相关数据已提取及识别以备建模。此外，公开可得的数据被认为是潜在有用的。为确保客户隐私，识别信息已被删除，并在每次观察中添加唯一标识符。本集团亦会审阅所使用的数据，以确保使用最少量的客户资料，并以保留其效用及能力以达致其预期目标的方式识别客户资料。其中一些示例是使用唯一索引替换客户名称，使用网格块替换地址（网格块是由几处房产组成的地理分组。它是人口普查数据可用的最小地理单位网块盖整个澳大利亚，没有空白或重叠。（4）、更换准确的年龄范围。这样做是为了确保客户的隐私得到最高标准的保护4.2.2. 数据探索在此阶段，分析并评估所有变量的相关性。对每个数据集进行独立分析，以了解格式、类型、数量、独特性和分布。各种不同的意思都清楚地明白了.这一步识别出有许多缺失值、损坏值或离群值的变量。例如，我们使用方差和频率分布来识别和删除异常值，我们在业务专家的指导下检查预期范围和值，以识别损坏的值。4.2.3. 假设和限制通过考虑业务问题的焦点和数据可用性，从数据集中消除了一些数据复杂性。例如，这一问题的重点是住宅账户，因此不包括商业客户数据。具有定制账单安排和大额账单的复杂账户被排除在数据集之外，因为大额账单被认为与标准住宅账户相比与小企业客户更密切相关。4.3. 建模从四个机器学习算法家族中选择了八个模型进行研究，即决策树家族（XGBoost，Random Forest和简单决策树），神经网络（BNN，CNN，DNN），线性模型（Logistic回归）和贝叶斯（Multinomial NaiveBayes）。选择决策树族使模型可解释，直观地识别基本特征。BNN被选中来估计预测周围的不确定性，并且DNN和CNN用于对BNN进行基准测试，以查看在数据集上呈现不确定性的效果。多项朴素贝叶斯（MNB）的使用表明，BNN的准确性远远高于朴素贝叶斯。最后，由于逻辑回归通常用于商业领域，因此使用对所有模型进行基准测试。它也被用来检验“简单模型工作良好”的常见猜想。每一款时计均被评估的商业目标，他们的F1得分，召回率和准确率高，他们可以提供预测的不确定性和他们的预测是可解释的。机器学习模型的详细描述在第5节中给出。（b）预测;（c）识别预测特征;（d）识别预测特征;（e）识别预测特征（d）确定合适的型号。4https://www.abs.gov.au/websitedbs/censushome.nsf/home/meshblockcounts。M.A.巴沙尔河Nayak，K. Astin-Walmsley等人智能系统与应用17（2023）2001765|��||��|��||��|��4.4. 评价每个模型的性能通过考虑其优点和缺点（例如理解与准确性）进行审查。根据业务目标检查每个模型，考虑模型可以实现和部署什么以及如何实现和通过实证分析，确定了数据的适用性、特征的重要性、最佳模型的选择以及在日常决策实践中部署该模型的可能性模型在未来以经济的成本快速部署和修改的能力也是一个关键的业务需求。第6节给出了详细的实证评估和分析。4.5. 部署本集团已编制涵盖业务及技术事宜的内部报告，以告知组织内的主要持份者。这些报告有助于围绕部署进行详细的成本/收益分析这些机器学习模型在操作环境中的应用。预计可能需要进一步开发模型，对这些过程的全面审查和对假设的检验。业务将需要详细的效益分析及更好地了解成本，以根据在此阶段建立该等机器学习算法的结果实施该技术，以预测支付倾向。关键部署考虑因素将是审查假设、数据完整性和可用性、系统能力、模型治理、持续成本/资源配置以及监控和开发模型准确性和连续性所需的技能集。5. 机器学习模型设k=（k1，��支付倾向问题中的账单的上下文，例如客户的收入、账单的金额、客户生活区域的偏远程度等）。其具有账单特征和类标签，其中，账单是一组二元类，类1表示按时支付的账单，类0表示按时支付/不按时支付的账单。分类任务是基于特征向量��，即找到��我们想要学习一个模型，其中参数包含训练数据（即，历史支付数据），其合理地估计了支付（金额），支付（金额，金额）。�� 接下来，我们将讨论在预测客户支付账单倾向的过程中使用的一些模型。5.1. 神经网络模型5.1.1. 深度神经网络在过去十年中，深度神经网络（DNN）（Glorot Bengio，2010）模型在计算机视觉和自然语言处理中变得流行。其中一些原因是他们有能力处理大量的变量，它们实现更好准确性的能力以及它们在训练过程中不依赖于特定领域的特征工程。然而，它在解决可以用表格（即关系）数据表示的问题方面受到的关注要少得多，尽管表格数据在许多数据科学和分析项目中非常常见且非常有价值。我们建议应用多层感知器（MLP）模型5，将训练嵌入表格数据以学习支付倾向预测。MLP是DNN的一种常见形式，其架构如图2所示。在这种架构中，∈表示输入样本，是嵌入层，1和2是隐藏层，是产生预测的最终（或分类）层。��每一层由许多节点或神经元组成。当n∈n是范畴变量时，它是连通的5 代码可在https://github.com/mdabashar/Propensity-to-Pay获得。图2. 多层感知器，深度神经网络模型的一种常见形式。到嵌入层。嵌入层相当于编码输入之上的一个额外层，因此每个类别都可以表示为嵌入点数的向量（Guo Berkhahn，2016）。它允许网络在训练期间通过捕获类别的不同值之间的丰富关系来学习每个类别的最佳表示。例如，可能存在地理上彼此靠近的邮政编码的模式，或者存在社会经济地位相似的邮政编码的模式。嵌入层通过在欧氏空间中映射彼此接近的同现值，基于类别的分布特性量化类别值之间的语义相似性。在（非结构化）文本数据中，跳跃语法和连续词袋是用于词嵌入的两种流行模型（Mikolov等人， 2013年）。假设样本中的当前值为零，其他值为零，��文本实体��连续词袋模型从上下文实体预测当前值，即（）。��跳过语法模型使用当前实体来预测上下文实体，即（）。��嵌入训练的目标是找到一个实体嵌入，使数据集上的最大化（）或（）�� 在训练的每个步骤中，每个实体或者（a）被拉得更靠近与它或（b）推离所有不与它共现的实体。我们建议在MLP中应用实体嵌入通过添加编码输入之上的extra层（Guo Berkhahn，2016，Kim，2014，Bashar等人，2018年，2020年）。在训练结束时，嵌入将训练数据集中的类别中的值更紧密地结合在一起，这些值不仅显式地共同出现，而且隐式地共同出现。例如，如果x1与x2显式同现，x2与x3显式同现，则嵌入不仅可以使x1更接近x2，而且可以使x1更接近x2。��到2003年。因为嵌入捕获比类别中的原始值更丰富的关系和复杂性，所以分类变量的学习嵌入（例如，产品，商店ID，或邮政编码是com-仅在商业中使用）也可以用于其他模型。嵌入层的输出和连续变量（∈）被归一化并连接到一个完全连接的隐藏层1（图2）。��将C21的输出馈送到全连接隐藏层C22，然后将C22的输出馈送到全连接隐藏层C23，依此类推，直到层C23。��最后，类的输出被传递到一个全连接的最终层，该层预测给定输入实例的类的类��MLP中的每个节点都有两个部分：线性部分和非线性部分。节点的线性部分是映射输入样本的函数��其中，k是权重矩阵X，并且k是偏置向量。��非线性函数然后，将应用于以获得节点的结果，即=（）。�� 一组节点共同构成一个层。在本文中，我们根据经验使用两个完全连接的隐藏层（图1）。2）。��1=��1=��2=��2=��M.A.巴沙尔河Nayak，K. Astin-Walmsley等人智能系统与应用17（2023）2001766��|��0图3. 卷积神经网络，深度神经网络模型的一种流行形式。在隐藏层中，我们使用ReLu作为非线性函数，即��（在最后一层，我们希望得到两个类的两个概率分布。因此，我们使用softmax函数作为输出层的激活��=��(��2,��3,��3)��（一）��|��） ��（��） =��（��） =∑��05.1.2. 卷积神经网络我们提出应用卷积神经网络（CNN）模型（Bashar等人，2018年，巴沙尔纳亚克，2019年）与嵌入式培训表格数据来学习支付倾向预测。6在这个网络中，嵌入层和以前一样。嵌入层的输出向量和连续变量（n∈n）连接成单个向量。级联向量连接到卷积层101（图13），将卷积层1的输出馈送到另一卷积层2，依此类推，直到卷积层1。然后，将P2P的输出加到全连接隐藏层P2P1，将P2P1的输出加到全连接隐藏层P2P2，依此类推，直到P2P。��最后，将预测器的输出传递到一个全连接的最终层，该层预测类��给定输入实例的初始化每个CNN节点有两个部分：线性部分和非线性部分。节点的线性部分是将输入样本映射��到中间表示的函数��，即��=（��，��，��）��=��+��，其中是有效的互相关运算符，��是称为滤波器的权重矩阵X，并且��是偏置向量。与MLP中一样，然后将非线性函数应用于以获得节点的结果，即=（）。��一组节点共同构成一个层。在本文中，我们根据经验使用两个卷积层和两个完全连接的隐藏层（图1）。3）。��1��=��1=��2��=��2=��和前面一样，我们在隐藏层中使用ReLu作为非线性函数，在输出层中使用softmax函数作为非线性函数5.1.3. 贝叶斯神经网络在许多实际应用中，包括支付倾向，是理解模型的置信度或不确定性的一个好处它所做的预测。基于机器学习的决策系统在预测具有高度不确定性时不采取行动可能是有用的。7DNN（以及许多其他机器学习模型）被训练为将预定类别中的类别分配给测试样本，即使该样本与用于网络训练的数据完全无关见图4。将线性回归转换为贝叶斯线性回归。例如，考虑一个被训练成二进制“猫”的网络， vs狗”分类器。当它接收到一个待分类的人的测试图像时，它会将其分类为猫或狗。它无法传达该人不像狗或猫。由于最终层（softmax）的输出被解释为作为概率，网络将总是产生具有最高概率的输出，即使该概率非常低。对于测试样本，总是会有一个类具有最大值。二进制MLP分类器没有办法传达模型关于它没有被训练来处理的数据的不确定性。BNN的目标就是让网络能够传递这种不确定性信息。我们建议应用BNN模型8来估计不确定性，预测支付倾向。在进行商业决策时，可以根据预测的相应不确定性，准确地考虑每个预测的行动或不行动的成本。在支付倾向预测中实施BNN可以为企业带来更有效的资源分配。不确定性预测在传统的NN中，每个参数（即，权重和偏差）有一个固定的值，确定如何将输入转换为输出，放。在BNN中，概率被附加到每个参数（Blundell等人，2015年）的报告。为了简单起见，我们可以说每个参数都被转换为随机变量图4示出了如何在没有非线性的情况下转换单层NN（即，等效于线性回归）转换成没有非线性的单层BNN（即，贝叶斯线性回归（Bayesian Linear Regression）形式上，所有参数θ被转换成随机变量Θ，并分配一些先验概率分布θ（Θ）。然后，通过贝叶斯定理（Downey，2012），使用训练数据来更新概率分布θ（θ），如下所示。��6 代码可在www.example.com获得https://github.com/mdabashar/Propensity-to-Pay。7https://bit.ly/2AsHclo。8 代码可在https://github.com/mdabashar/Propensity-to-Pay获得。M.A.巴沙尔河Nayak，K. Astin-Walmsley等人智能系统与应用17（2023）2001767|��|||��∑∑（Θ）=（θ）（Θ）��（其中，θ（θ）是Θ描述数据θ的可能性。然而，估计后验r��（Θ∑|��）这是困难的，因为5.2.2. 随机森林单个决策树通常显示高方差。为了解决这个问题，随机森林（RF）（Liaw等人，2002年成立了一个决策树委员会。��它是一种集成学习方法，边际概率分布 ��（��（��|（Θ）无法估计--分类，在训练过程中构建多个决策树，因为Θ中的每个随机变量可以具有从负无穷大到正无穷大的值，并且可以有数百万个随机变量单位为Θ。因此，基于采样的方法，如马尔可夫链蒙特卡罗（MCMC）（Andrieu et al.， 2003年，可以用来解决这个问题。然而，MCMC非常慢，并且对于大量的随机变量（例如BNN中的随机变量）将花费不合理的长时间（Bardenet等人，2017年）。因此，通常使用基于梯度下降的变分贝叶斯（Kingma Welling，2013）以评价BNN 的后验。变分贝叶斯方法在估计后验概率时使用证据下限（ELBO），以便在优化过程中找到真实后验概率与估计值之间的距离。随机变量每次被访问时都会给出不同的值。每次，所获得的值取决于随机变量的相关概率分布。相关概率分布的方差越大，其生成值的不确定性就越大，因为随机变量可以提供任何值根据概率分布的方差从一个随机变量中得到一个值的过程称为抽样。为了对一个实例进行分类，BNN运行多次（前向传递），每次网络采样一组新的参数值（权重和偏差）。��对于一个类，不是一个单一的值（，），而是获得多个值，每次运行一个值。�� 值的集合表示类上的概率分布。因此，可以确定测试实例的类的置信度和不确定度。��如果测试实例来自网络尚未充分学习的数据分布，则不确定性将很高。它可以被解释为表达预测不确定性的网络5.2. 树模型基于树的模型是从结构化数据生成预测的最流行的模型之一。特别是，梯度提升树（例如XGBoost）和随机森林在许多Kaggle竞赛中取得了成功（Chen Guestrin，2016）。本文简要讨论了基本的决策树模型和两种流行的树集成模型：随机森林和梯度树增强XGBoost。5.2.1. 决策树决策树（DT）（Safavian Landgrebe，1991）以由决策节点和叶节点组成的树结构的形式构建分类模型。内部节点称为决策节点，它有分支。每个叶子节点代表一个类，它是由一系列遵循决策路径的决策节点组成的。它逐步将数据集分解为更小的子集，同时添加一个节点以逐步构建相关的决策树。信息增益和基尼指数是评估决策节点（即确定使用哪个特征作为节点）的常用度量。基尼系数是衡量数据不纯性或同质性的指标.给定特征的基尼系数估计如下。��输出作为由各个树预测的类的模式的类RF通过从训练数据中随机选择样本来构建决策树（也称为自举采样），其中样本数小于训练数据中的总样本数。��它重复这个过程两次，在森林里建造一棵5.2.3. XGBoost梯度提升决策树（ XGBoost 或简称 XGB ）（ Chen Guestrin ，2016）是表格数据最流行的机器学习算法之一XGB是一个基于集成树（委员会）的模型。像任何其他提升方法一样，XGB以阶段方式构建模型在每一个阶段，假设存在一个不完美的模型。��为此，构造了一个新的模型-��+1(��)=��(��)+ ℎ(��).在理想情况下，��+1（）=��(��)+ ℎ(��)=��, or ℎ(��)=�� −�� (��).��梯度提升使（）适合误差−（）。��也就是说，每个模型均以纠正错误为��以前的模型的一部分。误差−（）是损失函数1（−（））2的负梯度（相对于（）），其变为��梯度提升到梯度下降优化。5.3. 多项式朴素贝叶斯一系列基于贝叶斯定理的简单概率分类器，在特征之间具有独立假设（朴素），被称为朴素贝叶斯分类器（McCallum等人，1998年）。在多项式朴素贝叶斯中，每个特征向量表示由多项式生成的某些特征的频率其中，1是第1个��5.4. Logistic回归逻辑回归（LR）（Hosmer等人，2013）是一种统计模型，其使用逻辑函数将独立变量的值映射到二进制因变量的值。逻辑回归是一种成熟的方法，已成功用于各种领域，用于预测二元结果，如医学，社会科学和经济学。6. 实证评价本节详细介绍了机器学习模型在预测能源账单支付倾向方面的性能。这些模型是使用Python在Xueyter9笔记本上实现的。代码版本是使用 git10 repository6.1. 数据收集：变量选择为了实现和测试机器学习模型，我们使用了从昆士兰公用事业公司收集的数据。我们使用安全传输机制共享数据

下载后可阅读完整内容，剩余1页未读，立即下载