澳大利亚国家残疾保险机器学习预算缩小实验

130 浏览量更新于2024-01-02 收藏 1.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 2（2022）100077向机器学习以缩小澳大利亚国家残疾保险计划Satish Chand，YuZhang新南威尔士大学商学院，Northcott Dr，Campbell，Canberra ACT 2612，AustraliaaRT i cL e i nf o保留字：国家残疾保险计划预算决策数据分析机器学习a b sTR a cT澳大利亚国家残疾保险计划（NDIS）为参与者提供资金，用于购买服务。在89,299名参与者中，只有1%的人花光了所有分配给他们的资金，85名参与者没有花掉任何资金，这意味着大多数参与者都有未花掉的资金。分配的预算和实际支出之间的差距反映了资金分配不当。因此，我们采用替代机器学习技术来估计预算并缩小差距，同时保持总支出水平进行了三个实验来测试机器学习模型在估计预算，支出和由此产生的差距;比较机器和人类之间的学习率;并确定重要的解释变量。结果表明，机器学习1. 介绍大型数据集上的机器学习方法已被证明对政策分析中的决策具有价值，特别是对于使用历史数据预测结果（Knittel& Stolper，2019;Mullainathan& Spiess，2017）。已经在多个医疗保健领域探索了机器学习的使用，例如诊断糖尿病（ Kavakiotis 等人， 2017 ）、癌症（Forsyth等人，2018年），心脏病学（翁，代表，凯，加里波第，&库雷希，2017年）和心理健康（凯利等人，2012年），使用回归和分类技术，具有已证明的准确性（Ngiam& Khor，2019年; Triantafyllidis&Tsanas，2019年）。最近的一些研究已经将机器学习的实施扩展到医疗保健管理，并取得了巨大成功，包括医疗保健信息系统（Young&Steele，2022）、医疗保健技术（Reveilhac& Blanchard，2022）和医疗保险部门（Kose，Gokturk，&Kilic，2015）。在这项研究中，我们采用机器学习模型来改善澳大利亚国家残疾保险计划（NDIS）的资源分配。数据分析和机器学习技术一直在改善与医疗保健相关的每个领域的决策过程（Galetsi，Katsaliaki，Kumar，2020）。公共医疗保险业务已大幅更新，尤其是公司如何评估索赔和满足客户需求。传统的利用机器学习的力量（Kelley，Fontanetta，Heintzman，Pereira，2018）。许多研究从不同方面探讨了它在提供保险方面的价值，例如加速承保过程（ Kelley et al. ， 2018 ）、风险管理（ Boodhun& Jaya-2018）、定价策略（Pantelous&Passalidou，2015 a）、索赔的自动化处理（Oham，Jurdak，Kanhere，Dorri，&Jha，2018）、欺诈检测（Wang&Xu，2018）和客户风险分析（Verhoef& Donkers，2001）。然而，文献并未报道使用机器学习来缩小政府分配的预算与投保人花费的资金之间的差距，以改善公共资助保险部门的财务可持续性。因此，我们的目标是估计预算为尽量减少整个计划的未动用款项，我们会把拨款分配予个别参与者。具体而言，我们利用NDIS数据（NDIS，2021年）探索机器学习技术在预测分配的资金量和个人参与者的支出金额方面的能力。分析分两个阶段进行。首先，对数据进行描述性分析，最新的预算拨款与实际开支之间的差距统计数字。这一分析引出了三个需要解决的研究问题：• 什么样的机器学习模型可以用来估计NDIS的预算、支出和由此产生的缺口，哪种模型表现更好？∗ 通讯作者。电子邮件地址：s.chand@ adfa.edu.au（S. Chand），m.yuzhang@ unsw.edu.au（Y。Zhang）。https://doi.org/10.1016/j.jjimei.2022.100077接收日期：2021年11月28日;接收日期：2022年4月28日;接受日期：2022年4月30日2667-0968/© 2022作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表国际信息管理数据见解期刊主页：www.elsevier.com/locate/jjimeiS. Chand和Y. 张International Journal of Information Management Data Insights 2（2022）1000772• 机器学习在缩小差距方面是否比人类决策者表现得更好？• 机器学习模型在其估计中使用的重要因素是什么？为了解决这些问题，我们进行了三个实验来测试机器学习在缩小资金缺口方面的效率。实验1比较了四种机器学习模型，即线性回归、支持向量机（SVM）、决策树和多层神经网络（一类前馈神经网络），以基于一组公共输入变量（例如，NDIS患者的位置、残疾类型、年龄、支持类别等）。这些模型的性能进行评估的平均绝对误差（MAE）和均方根误差（RMSE），使我们选择首选的技术。然后将所选技术应用于时间序列数据以进行比较优选技术之间的学习速率（即，机器）和NDIS规划者（即，人）在EX实验2中。学习的速度是通过在四分之一的观测时间内缩小差距的速度来衡量的，这是用来比较机器和人类在缩小差距方面的效率。最后，提取估计中使用的重要变量，并在线性回归和决策树模型中进行比较。我们的分析表明，使用适当的机器学习模型可以帮助NDIS更快地缩小分配的预算和实现的支出之间的差距，到现有的手动过程。在预算和支出估计数中，有些变量在统计上比其他变量更重要，这表明在决定参与者的预算时，这些变量值得密切关注。缩小参与者在分布尾部之外的资金缺口，改善了对他们和整个NDIS的资金分配。这项研究的主要贡献是使用机器学习来提高向NDIS的参与者分配资金的效率和效率，随着时间的推移缩小资金缺口。缩小差距可有利于NDIS政策制定者的决策过程，例如提高NDIS的完整性，留出空间将任何未使用的资金用于解决支出瓶颈，以及节省资金以满足参与者的紧急和意外需求。此外，从使用机器中节省下来的人力资源可以重新定向到对具有特殊需求的参与者的申请进行人工审查，2. 文献综述2.1. 国家残疾保险计划的背景在过去的十年中，随着国家残疾保险计划（NDIS）的建立，澳大利亚的残疾服务部门这一领域的先驱者的经验教训，例如英国的国民保健服务，该服务将个性化护理扩展到老年人和残疾人（Brennan，Rice ， Traustadóttir ， Anderberg ， 2017 ），社会保障残疾保险（SSDI）在美国（Maestas，Mullen，Strand，2021），BrukerstyrtPer- sonlig Assistanse（BPA）挪威（Askheim，1999年），荷兰残疾保险（DI）计划（Hullegie Koning，2018年），拉伯，台湾的政府雇员和农民保险（Fan，Lien，to Albert Ma，2019）以及斯堪的纳维亚和丹麦的类似计划（Askheim，Bengtsson，Bjelke，2014）已用于NDIS的设计建立NDIS最初是通过一个COM-社区运动，然后导致其颁布和推出，开始与七个试验地点在2013年（Thill，2015）。其覆盖范围于二零二零年扩展至全国，涵盖城市、农村及偏远地区的不同残疾类型。预计覆盖范围将从2020年的约450，000名参与者增加到总数到十年结束时，将达到530，000（NDIS，2021）。该方案分配到2020年，220亿美元的预算将支持大约475，000名出生或获得残疾的参与者（Collings，Dew，Dowse，2016）。依靠个性化模式，参与者根据其计划中反映的需求水平和生活目标的评估分配资金（澳大利亚生产力委员会，2011;凯里，凯，&内维尔，2019）。典型的一揽子计划在10 ， 000 美元到 30 ， 000 美元之间，有 30 万美元的范围（ Walsh&Johnson，2013）。《残疾人发展信息系统》体现了澳大利亚根据若干联合国公约所承担的义务，包括《残疾人权利公约》，即通过提供“合理和必要的支持”，“支持残疾人的独立和社会经济参与”，“使参与者能够在追求其目标以及规划和提供其支持的过程中行使选择和控制权“。港口”（澳大利亚政府，2013年）。由于投入了大量资源，该计划在改善参与者获得服务和支持方面取得了重大进展。对NDIS的成功和可持续性的承诺程度是非凡的，NDIS正在推动的变化的规模，速度和性质在澳大利亚是前所未有的（澳大利亚生产力委员会，2017）。然而，人们承认，NDIS仍在进行中，随着问题和挑战的出现，需要进行微调，例如缺乏对个性化市场的监控（Carey，Malbon，Olney，&Reeders，2018年），不成熟的护理服务市场，漫长的等待名单对于偏远地区的服务，参与者的选择和控制不公平&&此外，NDIS面临的一个挑战是，在其全面运营的过渡期间，它优先考虑参与者的财务可持续性成本或满足个人参与者需求的效率（澳大利亚生产力委员会，2017年）。参与者数量与支出质量之间的这种权衡可能导致最初分配给参与者的未使用资金数量不断增加。例如，2018-19年的国家预算为NDIS共拨款166.9亿美元，其中129亿美元已投入使用（NDIS，2021年）;同样，2021-22年度预算预测，到2024-25年度，国家国防信息系统的支出将达到300亿美元，这一数字超过了2021-22年度预算的220亿美元该计划的成本（澳大利亚生产力委员会，2017年）。另一个挑战是，国家残疾保险局（NDIA）承担的批准、审查和修订个人计划的繁重工作量导致资金分配质量和财务可持续性下降。具体而言，NDIA有责任实施NDIS，因此，它负责准备和审查“以参与者对其生活行使控制权为基础”的个性化计划（澳大利亚政府，2013年）。政府宣布自2021年起对参与者的功能能力进行独立评估，以“提高获取和规划决策的公平性和一致性”，但由于大多数利益相关者的反对，其实施被无限期推迟（Parliament of Australia，2021）。已经有研究调查了外部选择对收到残疾保险福利的影响（Heim，Lurie，Mullen，Simon，2021 ），以及使用外部医疗审查来瞄准有需要的人（ Liebert ，2019），但是雇用领域专家来实现上述目标是昂贵的。鉴于NDIS在人员、参与者和资金方面仍在增加，这一挑战对NDIS来说是非常重要的。特别是，批准、审查和修订个人计划的繁重行政工作量导致NDIS的实施严重延误（澳大利亚生产力委员会，2017年）。鉴于上述挑战，本研究利用机器学习方法帮助NDIS实现NDIS成本研究报告（澳大利亚生产力委员会，2017年）提出的两个目标，即，（i）有效地S. Chand和Y. 张International Journal of Information Management Data Insights 2（2022）1000773=1∑2.2. 机器学习在保险行业在监督下的机器在使用灵活和复杂的函数形式预测大型数据集的样本外结果方面表现良好（Malhotra，2021）。机器学习方法的使用，例如回归分析（Freedman，2009）、SVM（Orrandy，Pettersson-Yeo，Mar quand ， Sartori ， &Mechelli ， 2012 ）、决策树（ Tse 等人，2014）、KNN（Saeedi，Saeedi，&Maghsoudi，2020）、神经网络（Sadek等人， 2019年）和成熟度模型（Carvalho，Álvaro Rocha，Vasconcelos，&Abreu，2019年）在多个医疗保健领域（尤其是保险行业）显著增加。随着可用数据规模的迅速增加，手工处理即使不是不可行，也已变得困难。因此，机器学习技术被用于索赔分析、保单登记和决策制定（Pantelous Passalidou，2015 b）。例如，提出了一种交互式机器学习模型，以独立于医疗保险索赔中涉及的参与者和商品来检测欺诈和滥用案件（Kose等人，2015年）的报告。随机的- 在水文和社会人口统计数据上使用最小二乘回归和分类算法来预测纽约州内的洪水保险索赔（Edghton等人，2020年）。从客户角度讨论了自动聊天机器人用于保险数据转换的好处，在保险业的背景下（Riikkinen，Saarijärvi，的作用和利用。这些问题促使我们解决图左下角列出的三个研究问题。为此，设计了三个实验。具体而言，第一个实验使用NDIS数据训练和测试四个机器学习模型，通过MAE和RMSE评估来估计NDIS预算，支出和缺口。选择具有最佳性能的模型，然后用于模拟基于机器学习的方法，以随着时间的推移缩小差距。将该方法与NDIS中目前采用的人工学习方法进行了比较。最后，我们使用决策树层次结构和最大值分析来探索机器学习模型在估计中使用的重要因素。实验设计的细节见第5节，结果和发现见第6。3.2. 用于估计和模拟的机器学习模型3.2.1. 线性回归线性回归估计事件发生的概率通过将数据拟合到线性预测函数，该线性预测函数对两个或更多个自变量与一个因变量之间的关系进行建模。该方法已被广泛用于支持决策（Freedman，2009）。线性回归模型的一般形式，给定数据集Sarlin，Lähteenmäki，2018）.特征选择和机器学习{2001年，...，��}��对于n个独立变量，为：本集团采用多项技术识别保险索赔申请及受理的重要因素（Rawat、Rawat、Kumar、Sabitha，2021年）。提出了一种响应人工智能（RAI）解决方案，以帮助识别潜在的可否认索赔（Johnson，Albizri，Harfouche，��=��0+��1��1+.+��公司��简介+��中国��（ 1）其中，1，...，是自变量，0，.，��回归系数是回归系数，估计结果变量是估计结果变量，误差是捕获影响误差的其他因素的误差，而不是这些因素。2021年）。短期预测（即， nowcasts）方法内边{��}��.本文采用线性回归模型使用不同的信息集和数据结构估计COVID-19大流行期间美国全国首次失业保险索赔（Larson Sinclair，2022）。基于SVM提出了一种新的无监督谱排序方法，用于异常数据检测和自动保险欺诈检测（Nian，Zhang，Tayal，Coleman，&Li，2016）。然而，现有的文献还没有看到一个数据驱动的分析，以帮助国家保险公司缩小之间的差距分配给被保险人和使用的资金。这对被保险人来说意义重大以配合供求，以及保险公司确保分配的资金用于最大限度地提高效率。决策者根据过去的经验做出决策，但在人类的监督下，机器可能更适合这些任务。人类的监督对于机器更好地模拟人类智能至关重要，这一点在2009年的道德准则中得到了讨论。（Mullins，Holland，Cunneen，2021）。在澳大利亚，“机器人债务”强调了人类监督的重要性，其中涉及使用机器学习来自动向福利接受者发出债务通知。联邦法院以“不公正致富”为由宣布债务通知书为非法，注意到上述情况，我们采用机器学习来改善NDIS的资源分配，并密切关注人类的监督。3. 方法和数据集3.1. 研究框架本研究利用数据分析和机器学习模型，就如何在NDIS实施的当前背景下缩小预算分配和利用之间的差距提供见解我们的分析旨在测试为此目的使用机器学习的可能性，并为未来的政策制定带来额外的好处图第一章阐述了本研究的总体研究框架。我们从第4的初步分析开始，介绍NDIS公布的数据，以突出分配和收入之间普遍存在的巨大差距。估计NDIS参与者的budg=e1t和expenditure，其中解释变量来自NDIS数据中的全部记录。��之所以选择线性回归算法，是因为它是经典且成熟的机器学习技术之一，以及其直观显示每个预测因子与结果之间的统计关系的可解释模型。然而，线性回归算法假设响应变量和解释变量之间的关系是线性的，这可以作为回归后诊断的一部分进行测试3.2.2. 决策树决策树是另一种广泛使用的机器学习预测技术。它是一个由决策规则组成的层次模型，递归地将数据样本划分为同质区域（Quinlan，1987），因此决策树被认为是一个归纳过程，用于通过应用给定的一组规则来生成替代方案。利用树的主要目的是通过估计一组新输入的结果来支持决策（Pradhan，2013）。为了生长回归任务的决策树，每个变量都试图分割数据样本，并且将尝试彼此进行比较，选择一个最佳分割点来分割曲线。将节点租给后续节点。这个过程一直持续到估计结果和真实值之间的误差最小化（Kim&sik Hong，2017）。已经提出了许多方法来生长决策树，例如使用信息增益和熵（Tangirala，2020），使用基尼指数（Mathan，Kumar，Panchatcharam，Manogaran，&Varadharajan，2018）以及基于最小二乘或最小绝对偏差杂质度量（Wu& Ku- mar，2009）来拆分分支。在本研究中，遵循最小二乘杂质测量，其中定义了残差平方和（均方根）��=（简体中文）2（ 2）��=1其中，叶节点是指叶节点，叶节点和叶节点分别表示节点上的真实值和估计值，并且当叶节点最小化时，将决定最佳分割。��S. Chand和Y. 张International Journal of Information Management Data Insights 2（2022）1000774∑‖ ‖⎧⎪∑��,��⩾ 0,��= 1, ..., ��其中，将偏差设置为公差范围，表示1 +−1��==1��×�� +��(��= 1,...,��（5）Fig. 1. 本研究的总体框架。决策树的优点是它在处理基于归纳规则的预测的类别变量时具有鲁棒性，并且变量转换对于训练过程不是强制性的。此外，决策树直观地展示了变量的重要性，因为它是由其分层结构反映的，其中位于父分支上的变量通常比后续分支上的变量更重要，因为数据样本到达较高级别节点的概率高于较低级别节点的概率（Utgo Pennsylvania，1989）。然而，决策树虽然可以直观地展示模型的结构，但它不支持线性回归中的系数值所能提供的对变量的统计评估。3.2.3. 支持向量机支持向量机（SVM）旨在通过最大化高维空间中类别之间的裕度来对数据点进行分类（Vapnik，2013）。通过执行分类和回归任务，它已被用于许多领域的决策制定，如模式识别，生物信息学和医学诊断（Chao，Yu，Cheng，&Kuo，2014; Neogi，Garg，Mishra，&Dwivedi，2021; Nian等人， 2016年）。在本文中，支持向量机训练估计NDIS预算和支出。给定训练数据集{，}，= 1，.，��假设超平面为λ=λ λ+λ，则训练SVM以解决以下优化问题：图2. 典型的三层前馈神经网络。视觉（Le，2013），声音分析和处理（Hinton等人，2012），自然语言处理（NLP）（Mikolov，Sutskever，Chen，Corrado，&Dean ，2013）、医学科学（Tajbakhsh等人， 2016）及其他。神经网络由多层神经元组成，这些神经元以一种方式连接，其中一层中的每个神经元都能够与所有的神经元在前面和后面的层。在这项研究中，我们构建了一个三层前馈神经网络，12��∗图 2.��∶2��公司简介在约束下：（��中文）（3）1输入数据被馈送到输入层，然后被传输到隐藏层中的神经元通过加权链路，直到输出层的神经元产生��神经元��−�� −�� ⩽�� +��−�� 电子邮件��（四）在隐藏层中，通过以下方式处理传入数据（SNR）：（i）计算��加权和并加上一个��⎪⎨��∗��边距与任何落在��超平面区域��是一个可以调整的超参数。对于超出范围的数据的容差将随着范围的增加而增加。3.2.4. 人工神经网络人工神经网络（ANN）是生物神经网络的数学表示，模拟动物大脑中的许多神经网络应用已经探索了计算机以及（ii）��通过Sigmoid函数（Han Mor aga，1995）将双曲余弦变换为：��（第一章（六）��对于训练过程，训练数据集由特征向量=（1，2，.，��和标签向量=（��1，��2，...，��（掌声）。训练过程的目的是估计向量和神经网络的输出向量之间的函数，��⎩S. Chand和Y. 张International Journal of Information Management Data Insights 2（2022）10007752=1= 1��表1NDIS数据集的人口和残疾特征变量类型#分类最小/最小最多/最大日期C8（6366）（13 444）状态C8北部地区（859）新南威尔士州（25，728）区域C81中文（简体）猎人新英格兰（2691）DsbltyGrpC16其他（304）智力残疾（18，546）布隆德C915-18（5195）55-64（16，273）SuppClassC3资本（20，241）能力建设（34，876）SILorSDAC2SIL（78，332）SDA（10，967）PrtcpntCntNN/A113832预算NN/A1000400,000利用NN/A0百分百变量描述：日期：记录特定观察州：NDIS参与者居住地区：参加者居住DsbltyGrp：参与者主要报告年龄段：参与者所在的年龄段SuppClass：参与者获得支助资金的支助类SILorSDA：SIL或SDA适用于残疾支持PrtcpntCnt：每个类别预算：参与者活动计划中的年度承诺支持使用：参与者已使用这是通过迭代地改变所述最小值来实现的。��本研究中使用的损失函数是残差平方和：其中，NDIS是指每个NDIS参与者的观察结果。通过这种方式，我们收集了三个目标变量，即代表��每个参与者每季度收到的资金数额，��=1∑∑(��−��∗)2(7)真实（真实）表示每个参与者每季度花费的金额，以及其中，实际输出和网络输出��表1中的所有变量都将用作预测变量。向北输入向量。��为尽量减少噪音，我们采用��ℎ以下分析，除了自适应矩估计（Adam）（Kingma Ba，2014）算法因为它已被广泛使用，目前被认为是与其他方法相比平均表现最好的方法。3.3. NDIS数据集NDIS每季度在网上发布关于残疾人数量及其按服务区、年龄组、残疾类型、支持类别、地方政府区域（LGA）、联邦选民分区（CED）分配的预算的数据，无论是在受支持的独立生活（SIL）还是在专业残疾住宿（SDA）中，NDIS还公布了有关参与者使用率的数据，这些数据代表了用于获得批准服务的分配预算的比例。利用率从零到100%不等。总体而言，本研究使用了8个季度的NDIS数据，从2019年第三季度开始，到2021年第二季度结束。在删除包含缺失值和重复特征的观测值后，该数据集中有89，299个观测值。解释性变量和每个变量的简要描述见表1。在这段时间里-表中，“Type”表示变量是否包含分类值或数值（分别表示为“C”和“N”），如果变量是分类值，则“#Categories”显示变量的类别数，如果变量是数值值，则显示“N/A”。“产生了两个新的变量，即支出和差距。��根据预算（BTC）和利用率（BTC），计算如下：��=��⋅��(8)��=�� −�� =�� ⋅(1−��)(9)获取变量。在进一步分析之前，应用于变量以发现任何冗余变量。首先，我们对预测变量采用Pearson相关方法，发现变量之间的相关性较弱，相关系数范围为-0.131至0.228。此外，我们使用线性回归模型的向后特征消除来识别最相关的变量，以估计预算，支出和缺口。在此过程中，使用平均绝对误差（MAE）和均方根误差（RMSE）统计量进行评估，并将选择迭代设置为在性能下降显著至0.05水平时立即停止。我们发现所有的预测变量都被选中了。由于这两种特征选择方法都没有删除任何变量，因此我们将在下面的分析中将所有收集的变量视为解释变量。4. 描述性分析和初步结论考虑到国家艾滋病调查总体数据中的变量10、12和13，每个变量的值按参与者所在的澳大利亚各地区进行了汇总，显示了预算、支出总额以及两者之间的差距的模式。这些变量的趋势如图3所示。水平轴包含从Hunter New England（1991）开始的所有澳大利亚地区到Barkly（1981），按每个地区的参与者人数进行排名，其中1981的参与者人数最多，1981的参与者人数最少，而垂直轴衡量的是已分配、已使用和未使用的资金总额（即，��预算、支出和差距）。此外，图4显示了按参与者密度从高到低排列的澳大利亚各地区利用率的平均和标准偏差趋势。图3显示分配给参与者的预算是绑定的-而图4表明，除了人口最少的地区的尾部（即，R81）。此外，分配的预算与各区域实现的支出之间的差距，缺口（gap）是每个参与者季度未使用的资金S. Chand和Y. 张International Journal of Information Management Data Insights 2（2022）1000776图3. NDIS预算、支出和差距在澳大利亚各地区的分布按参与者密度从高到低排列。图第四章按参与者密度从高到低排列的澳大利亚各地区利用率的平均值和标准差。图3中最底部的曲线随密度下降，但该下降仅由参与者的数量驱动，因为该区域中每个参与者的间隙具有相反的梯度。然而，通过缺口曲线可以观察到支出不足。具体而言，大约30个地区的这一数字超过2000万美元，这意味着两年来总拨款中有6亿多美元没有花掉。部分该支出不足的部分可能归因于COVID-19的影响，但这仅限于2020年，以及可能取决于参与者特征的消费行为的不同影响。此外，还发现了少数异常情况，即在分布尾部的某些地区，缺口超过了支出，这意味着这些参与者的支出不到其分配额的一半，并且这种情况集中在人口最少的地区。与1，613名参与者的情况形成鲜明对比，他们花光了所有的分配，这对于揭示利用率的潜在驱动因素具有很大的指导意义。为了进一步调查81个地区的参与者密度是否对资金分配及其支出有影响，我们将整个数据集分为四个子组。分组遵循两个原则：（i）保持观察的数量在四个子组中相似，并且（ii）确保每个子组包含参与者密度不同的区域这样，四个表2四个区域分组的统计信息。预算、支出和缺口的单位为澳元。<71k71- 130 k130- 174 k>174k#地区42161310观察次数22,58122,05922,34222,317平均支出23,10223,18823,77925,792标准差汇率X支出33,15131,84732,63936,058Ave.Budget38,04436,14536,31737,574SD.Budget44,98942,77143,84346,638Ave.Gap14,94312,95712,53711,781SD.Gap16,62914,76515,02114,382亚组包括参与者（RwP）小于71 k、在71 k和130 k之间、在130 k和174k之间以及超过174 k参与者的区域（分别为RwP 71 k、RwP 71- 130 k、RwP 130- 174 k和RwP > 174 k）。表2列出了这四个分组的统计信息摘要，图3显示了四个分组地区的预算、支出和差距的平均值。 5.从表2和图5中可以看到两个观察结果：第一，分配之间的差距的平均值和标准差S. Chand和Y. 张International Journal of Information Management Data Insights 2（2022）1000777∑1��√√√ ∑图5. 每个分组各地区的国家发展信息系统预算、支出和差距的平均值。随着人口从最多的国家转移到人口最少的地区;第二，人口最少地区的预算和支出的变异性大于参与人数较多地区。为什么会这样，我们稍后会探讨我们在图6中进一步绘制了差距的分布，其中纵轴显示支出，横轴显示预算。45°线模拟分配的预算等于实际支出的情况，意味着分配的预算和实现的支出之间的差距为零。这两个数字均显示实际开支少于获分配的资金，显示参与者的预算限制一直具约束力。图6a示出了居住在容纳少于71，000名参与者的区域中的参与者与那些多于71，000名参与者的区域中的参与者之间的差异。值得注意的是，居住在人口稠密地区（RwP≥ 71 k）的受试者在散点图中分布更紧密，而人口较少地区（RwP 71 k）的子组中有更多病例显示出与45°线的距离更远。这可以解释图11最后一幅图中的强烈变化。 5在这个亚组中存在更极端的情况，导致联合国-支出与预算的比率通常不稳定规定分配的资金数量，实现的支出以及两者之间的差距。完整的六个季度的数据用于训练，测试机器学习模型，然后通过多重交叉验证评估训练模型的性能，其中，��设置为5，意味着80%的数据用于训练模型，剩余的20%用于每个数据恢复过程中的测试两个指标用于评估模型的性能。两者都使用误差项的值，即模型输出和实现结果之间的差异。在图6中，这是每个散点图和45°线之间的垂直距离。在模型预测完美的理想世界中，散点图将落在这条线上，没有任何偏差，显示误差的大小（）。通过采用MAE（公式10，如果Δ> 0，这是未使用资金的平均值）和RMSE（公式11）来判断各个模型的总体效率，即：��= ∣�� ∣(10)1个��除了81个地区的参与者密度的影响外，我们还调查了数据集中每条记录的其余属性的重要性，发现其他属性也很重要为��=1��1��个��11岁以下例如，如图6b所示，与支持独立生活（SIL）的参与者相比，残疾专家住宿（SDA）参与者的支出与其分配更一致。这意味着与SIL相比，SDA的参与者花费了更多的分配。图6中选择用于演示的属性是通过机器学习获得的（如稍后所解释的），但在此用于说明这些属性适用于记录的子集，因此将数据划分为相对同质的子组对于预算和支出建模的重要性。分区之间的差异还提供了观察到的差异的根本原因的指标。5. 实验设计通过三个实验来解释机器学习在预测分配的资金量和个人参与者的支出方面的有效性。5.1. 四种机器学习方法实验1测试了四种机器学习模型，包括线性回归，SVM，决策树和多层感知器（MLP），以预其中，是指测试数据集中的观测数，表示从实际值中减去估计值所获得的误差。该实验旨在确定一种机器学习技术，该技术可以最好地预测NDIS参与者在同一数据集上绘制的预算和支出。通过改进预测，这种机器学习模型可以自动化NDIS内预算规划的第一阶段以及事后对已实现支出的审查。5.2. 机器学习与人类学习EX实验2是调查机器学习是否可以帮助随着时间的推移，缩小预算和支出之间的差距。为此，我们使用历史数据按顺序估计2020年四个季度及2021年首两个季度的预算。具体而言，首先使用2019年第三季度和第四季度（以下简称Q3/2019和Q4/2019）的数据来训练机器学习模型，以预测2020年第一季度的预算。对于Q2/2020预测，将通过添加Q1/2020的数据来扩展训练数据集。同样的规则也适用于随后的预测。我们将这个练习限制在从第一个实验中选择的机器学习技术。S. Chand和Y. 张International Journal of Information Management Data Insights 2（2022）1000778见图6。NDIS参与者在不同亚组中的分布，显示其支出与预算的比率存在不同模式采用两种方法扩展训练数据集。第一种方法是包括多一个季度的实际历史数据。例如，将2020年第1季度的实际数据与2019年第3季度和2019年第4季度的数据一起添加到训练数据集中，以预测2020年第2季度的预算。第二种方法将Q1/2020的预测值而不是实际值添加到训练数据集。以同样的例子为例，将2020年第一季度的预测预算和相关信息添加到2020年第二季度预测的训练数据集中两种方法在下文中分别称为应用这两种方法可以观察到基于历史数据和依赖自主学习获得的差距之间的模式差异。每种方法将分别为2020年的Q1、Q2、Q3、Q4和2021年的Q1、Q2及其相关间隙生成SIX个预测预算值。然后使用这些估计值计算每个季度的预算缺口与预测预算的比率，并观察机器和人类在学习方面的差异。这个实验将有助于探索机器学习在利用大数据方面的能力，以减少NDIS计划和实施之间的差距，如图所示。 3，可能是平滑的-在最后一张图中的预算和支出曲线。 5.5.3. 发现重要的解释变量最后，在实验3中，我们研究了在解释预算分配和支出水平方面具有重要意义的因素。其目的是揭示影响预算、支出和由此产生的差距的因素，这对于为个人参与者设计NDIS计划是有价值的。为此，我们首先利用决策树的层次结构，因为树的分支是基于每个变量的信息增益进行排名的，并且与较低等级的变量相比，分配给较高等级的变量可以被认为对决策更重要。此外，我们使用以下方法训练回归模型：所有可用的变量，并提取那些具有小于0.001的中值的变量。��这种方法通常用于检验零假设，其中系数等于零，并且具有低k值（本文中使用的是0.001）的那些被认为具有统计学意义。总的来说，这个实验有助于确定未来计划准备的重要因素。一方面，它可以帮助决策者关注对NDIS参与者分配预算可能更重要的变量，另一方面，这种探索可以帮助揭示参与者的特定群体，这些群体在确定其分配时需要更密切的人类监督6. 结果和结论6.1. 机器学习模型的RMSE和MAE评价四个机器学习模型在估计NDIS的预算、支出和缺口方面的RMSE和MAE列于表3。这些模型按其RMSE和MAE预算估计结果的升序排列。表3显示，在四种机器学习方法中，通过决策树获得的RMSE和MAE在估计三个目标变量时最小，而当使用线性回归和SVM时，测量值急剧增加。这表明，在相同的数据，决策树实现了更好的估计结果相比，其他模型。此外，我们在图A1中绘制了实际值与四个机器学习模型对三个目标变量获得的估计值之间的比较。该数字显示，决策树所估计的预算、开支及缺口在表现方面优于其他模型。将MLP和决策树的结果进行比较，发现决策树的结果比MLP的结果更加分散。这可能是由于MLP模型更善于处理极端情况。由于与其他三种模型相比，决策树实现了最佳性能并考虑到其可解释性和要求较少的优点，训练时间，我们在下面的实验中使用它来估计学习率。S. Chand和Y. 张International Journal of Information Management Data Insights 2（2022）1000779Δ表3四种机器学习模型在估计澳大利亚NDIS预算

下载后可阅读完整内容，剩余1页未读，立即下载