自动化机器学习：AI在业务分析中的应用

23 浏览量更新于2023-12-10 收藏 593KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用18（2023）200188自动化机器学习：业务分析中的AI驱动决策马克·施密特英国牛津大学计算机科学系英国斯特拉斯克莱德大学计算机信息科学系&A R T I C L EI N FO保留字：人工智能机器学习AutoML业务分析数据驱动的决策数字化转型人类赋权A B S T R A C T人工智能驱动的决策在当今快节奏和竞争激烈的市场中不可或缺，这一认识大大提高了人们对工业机器学习（ML）应用的兴趣。目前对分析专家的需求远远超过了供应。解决这个问题的一个办法是增加用户-ML框架的友好性，使它们更容易被非专家访问。自动化机器学习（AutoML）是一种尝试，通过为模型选择和超参数调整提供完全自动化的现成解决方案来解决专业知识问题。本文分析了AutoML在业务分析中应用的潜力，这可能有助于提高所有行业的ML采用率。H2O AutoML框架在三个真实世界数据集上对手动调整的堆栈ML模型进行了基准测试。手动调整的ML模型可以在实验中使用的所有三个案例研究中获得性能优势。尽管如此，H2O AutoML包被证明是非常强大的。它快速，易于使用，并提供可靠的结果，接近专业调优的ML模型。H2OAutoML框架在其目前的能力是一个有价值的工具，以支持快速原型，有可能缩短开发和部署周期。它还可以弥合ML专家供需之间的现有差距，是迈向业务分析自动化决策的一大步。最后，AutoML有潜力在一个迅速变得更加自动化和数字化的1. 介绍在这个由加速全球化和不断增加的颠覆性技术所塑造的无情竞争时代，人工智能系统对于生存和发展至关重要（WarnerW？ger，2019年）。所有主要行业-中国学习（ ML ）和人工智能（ AI ）（ Dwivedi 等人， 2021;Schmitt，2020）。基于AI/ML的数据驱动决策在当今全球，快节奏和竞争激烈的市场中已变得不可或缺商业分析在促进这种新的决策方式方面发挥了重要作用（Schmitt，2023）。它是一个跨学科的领域，结合了机器学习，统计，信息系统，运筹学和管理科学（Sharda，Delen Turban，&2017），通常分为描述性，预测性和规定性分析（Delen Ram，2018&）。必须采用复杂的预测模型，智能决策是毫无疑问的，但通过分析捕获价值的能力在很大程度上取决于具有利用这些分析能力所需技能的员工（ Grover ， Chiang ，Liang&Zhang ，2018 ）。尽管数据科学教育的举措已经开始显现（Clayton Clopton，2019&），但对理解数据并提供有用见解的人才的巨大需求仍然巨大（Kar，Kar Gupta，2021&）。当涉及到ML算法时，使用非专家是有问题的，因为需要广泛的知识来成功地调整ML模型（Schmitt，2023）。自动机器学习（AutoML）解决方案已经开始获得牵引力，这是一种自动调整和比较不同算法以找到最佳超参数组合的方法（Feurer et al.，2015; He，Zhao &Chu，2021）.之前的数据集预处理和特征工程任务只得到部分支持（Balaji Allen，2018&），但AutoML研究的最终目标是自动化整个预测建模过程。AutoML可以帮助填补现有的ML专家供需缺口。它也有可能在量化较少的学术学科和功能性业务领域实现ML的民主化，电子邮件地址：marcschmitt@hotmail.de。https://doi.org/10.1016/j.iswa.2023.200188接收日期：2022年6月22日;接收日期：2023年1月2日;接受日期：2023年1月19日2023年1月24日在线提供2667-3053/© 2023作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsM. 施密特智能系统与应用18（2023）2001882促进创建新的研究问题和业务用例。在过去的几年中，引入了几种不同的AutoML解决方案。文献综述的主要目标是选择最适合本研究的开源AutoML框架。Gijsbers等人（2019）提供了目前可用的最成熟的开源AutoML框架的最新比较：Auto-WEKA，Auto-sklearn，TPOT和H2O AutoML。研究本身是开源的，可以在线获取。它还在发布新版本时定期更新。H2OAutoML是这项研究中表现最好的模型之一。Truong等人（2019）分析了现有AutoML框架的健壮性和可靠性，并考虑了大量开源和商业化的AutoML解决方案。虽然在所有测试用例中没有明显的赢家，但H2O在回归和分类任务中的表现优于所有其他模型。本文将放大业务分析的预测部分，并分析AutoML解决方案是否可以提高ML在业务功能中的采用率。基于文献综述，H2O AutoML框架是分类任务的最佳选择，因此是以下实证研究的首选框架。本研究的目的是测试AutoML现成框架是否具有类似的性能和/或可以击败手动训练的ML模型。这对于进一步推动跨业务职能和领域采用ML解决方案非常重要，因为开发新ML和DL模型的深厚技术知识将需要大量的理论和技术培训，而这些培训通常在企业中不存在。AutoML可以加快开发周期，并抵消该领域目前的技能短缺，是迈向业务分析的完整端到端决策引擎这最后一步能否实现还有待观察。人类更喜欢监督决策;因此，所有人工智能系统不太可能在没有任何人类输入的情况下运行。智能系统领域的当前文献已经开始关注人类赋权，包括更加关注增强而不是纯自动化，这将有利于人类（Holmes等人，2021; MaciejSerda等人，2022;Toniolo等人，2023年）。总的来说，我们的目标是扩大讨论，希望引发新的对话，并最终说服更多的研究人员考虑如何将ML模型纳入业务流程。最终目标是赋予人类权力，并通过基于智能系统的强大数据驱动决策工具包创建现代增强型劳动力。在这项研究中，H2O AutoML框架以一个手动创建ML模型，以比较预测能力和易用性。此外，这些发现将用于讨论数字战略的管理影响。最后，对未来的研究方向进行了展望。文章组织如下。第2节“方法和材料“描述了所使用的AutoML框架和实验设计。第3节“ 数值结果 “ 描述了实验的结果，并介绍了 H2OAutoML框架的性能-针对手动调整的ML模型进行工作。第四节讨论了数值结果和管理含义，并得出未来的研究可能性。第6节总结。2. 方法和材料2.1. AutoML自动机器学习（Automated Machine Learning，AutoML）是一种自动化预测分析工作流程的方法。根据具体的AutoML解决方案，它可能包含预处理、特征工程以及模型调优。当前的AutoML解决方案不能很好地处理预处理（Truong等人，2019年）和主要目标available.根据最近的几项基准研究，它在分类和回归任务上实现了卓越的性能（Gijsbers等人， 2019; Truong等人， 2019年）。见图1.一、不同基础模型的超参数优化通过随机网格搜索完成。它是一种从固定的值范围中随机选择超参数值的方法。然后，系统将随机均匀地选择这些值的组合。H2O提供了设置停止标准的选项，例如最大型号数量或最长时间，以限制搜索。H2O的堆叠集成方法是一种监督集成机器学习技术，其使用称为堆叠的过程来发现一组预测算法的最佳组合（Al-租m 1）。这个过程涉及到利用元学习器（特别是非负GLM）来学习基本学习器的最佳组合（Ledell &Poirier，2020）。具体来说，H2OH2O.ai，2019）在初始训练阶段创建不同的候选模型，如GLM、随机森林、梯度提升和深度学习，并通过堆叠两个不同的超级学习器来创建。一个超级学习器基于所有预先训练的候选模型，而另一个只是每个家族中最好模型的聚合。AutoML解决方案所需的主要参数是特征列x、响应列y、training_frame 和 validation_frame 。此外，参数 max_models 和max_runtime_secs用于指定训练的模型的最大数量或模型优化过程所允许的最大时间。H2O AutoML框架使用随机搜索作为优化方法。2.2. 实验设计这项实证研究的主要目标是将H2O AutoML框架与来自信用风险、保险索赔和营销领域的真实数据集上手动训练的超级学习集成进行基准测试。2.2.1. 数据集该实验基于三个公开可用的数据集，以促进再现性和可比性。选择的数据集可以从UCI机器学习存储库或公共机器学习竞赛网站Kaggle下载。数据集分别包含23、57和16个特征，这些特征是数据集的特征（例如，历史客户端数据），并将用作预测变量以计算每个观察的分类类别。所有三个数据集都包含一个二进制响应列，用于标识客户是否违约、是否发起保险索赔或是否通过营销努力促成销售。本研究中使用的案例研究/数据集的最重要要点总结见表12.2.1.1. 信用风险第一个数据集来自信用风险领域，由东南亚信用卡客户的支付信息组成。总数据集包含30，000个观测值。其中23，364例被归类为阳性病例，6636例为阴性病例cases观测包含23个要素，其中包括一个响应列，该列保存二进制默认值或非默认信息。该数据集中存在的特征的具体示例是历史支付信息，以及人口统计信息，例如性别，年龄，婚姻状况和教育。12.2.1.2. 索赔预测。第二个数据集来自保险领域，包含有关汽车保险保单持有人的信息。它总共有595，212个观察结果。在这些意见中，573，518件大部分是未提交的索赔，21，694件已提交这项研究是对超参数优化的评估，模型选择基于现有文献的H2O AutoML框架是目前最成熟的AutoML解决方案之一1“https://archive.ics.uci.edu/M. 施密特智能系统与应用18（2023）2001883+Fig. 1. H2O AutoML框架训练了几个基本学习器，并在随后的步骤中将它们与两个不同的超级学习器结合起来。一个超级学习器基于所有先前训练的分类器，另一个只考虑每个ML家族（LR，RF，GBM，DL）的最佳分类器。H2O AutoML根据所选的评估指标自动对结果进行算法1自动机器学习（AutoML）的伪代码输入：标记的测试数据集Dt，标记的训练数据集D1，交叉验证集的数量k，完成时间t，元学习器算法M的选择步骤1：训练Logistic回归分类器步骤2：训练深度学习分类器步骤3：训练梯度提升机器分类器步骤4：训练随机森林分类器步骤5：使用所有预训练的基本分类器创建超级学习者1第6步：只使用每个类别的最佳分类器来创建超级学习器2步骤7：重复步骤1输出：在运行期间，根据它们在测试数据集Dt上的预测精度，2.2.2. 预处理在运行实验之前需要几个预处理步骤：2.2.2.1. 随机抽样不足。正面和负面观测值的平衡分布是必要的，否则，将自动对具有最多观测值的类产生自然吸引力，特别是对于比率为90：10或更高的数据集。这种现象会扭曲结果，因为预测精度可能不是来自分类器，而是来自数据集中的不平衡。这是通过随机欠采样实现的。这里的目标是重新校准数据集，并通过消除大多数类的观测值使它们进入平衡状态。采样不足会导致某些信息的丢失表1数据集的描述为例观察结果总计y=0y=1平衡*特征描述信贷风险30,00023,3646636 6636/663623预测客户是否会拖欠贷款权利要求5,95,2125,73,51821，694 21，69457预测投保人是否会在下一年提出汽车保险索赔预测21,694营销45,21139,9225289 5289/528916预测目标客户是否会在直接营销后开立支票账户努力*使用随机欠采样使数据集处于平衡状态。索赔观察结果包含57个特征，包括一个响应列，表明每个投保人的索赔状态22.2.1.3.营销第三个数据集包含营销和销售数据。它包括金融服务领域内直接营销活动的客户信息。数据集中的观测总数为45，211。其中39，922次失败，5，289次成功。成功意味着转换或最终销售。所有的观察都有16个特征和一个响应列，二元结果32“https://www.kaggle。com/c/porto-seguro-safe-driver-prediction/data3“ 市场营销 / 销售数据集可以在这里访问： https://archive.ics.uci 。edu/ml/datasets/Bank + Marketing但在这里可以忽略这一点，因为主要目的是将AutoML与手动调整的超级学习器集成进行基准测试。另一种方法是对少数民族进行过度抽样，但这将打击增加数据集并增加训练时间已经有大量信息的数据集。2.2.2.2. 编码. AI/ML模型的另一个必要的预处理步骤是分类数据的编码。AI/ML中的模型需要数字输入变量。在模型拟合和评估之前，分类数据需要转换为自身的数值版本。这通常通过独热编码（或者在已经存在秩的情况下的序数编码）来完成。H2O包含一个名为one_hot_explicit的参数设置，它为具有N个级别的分类特征创建N2.2.2.3. 培训/测试分离。选择的分割是80：20，这意味着80%的数据集将用于训练过程，剩余的20%将用于测试训练分类器的泛化能力的M. 施密特智能系统与应用18（2023）2001884--相同的交叉验证设置对于基本学习器到Meta学习器的稍后融合是必要的。因此，在模型训练期间，80%的数据集将被分成不同的训练集和验证集，这是通过交叉验证完成的。2.2.3. 设置和评估H2O提供的AutoML解决方案的内部工作原理训练了4基本分类器广义线性模型（LR），随机森林，梯度提升机和深度前馈神经网络。在随后的步骤中，它应用集成方法堆叠将所有这些预先训练的候选模型融合到超级学习器中，以提高准确度。最佳模型是根据所选的评估措施自动选择的。为了测试这个设置的强度，我重新创建了H2OAutoML解决方案的内部工作原理，手动训练基本模型，并通过堆叠将它们组合成超级学习者。总的来说，比较是在两个单独配置的超级学习者之间进行的。一个是由H2O AutoML解决方案自动生成的，另一个是手动调整和配置的。参见2.1中的图1。使用四种评价方法AUC、准确度、F评分和LogLoss评估性能（Flach，2019）。2.2.4. 软件预处理，模型拟合和评估完全在RStudio中进行，RStudio是统计编程语言R的集成开发环境（IDE）（核心团队，2019）。R是数据科学和机器学习研究的主要语言并且在实践中也大量用于原型设计计算统计学R包H2O用于建立AutoML框架，以及用于实验的所有基线模型，如随机森林，梯度提升机和深度学习。H2O（LeDell Gill，2019&）是一个用Java编写的开源机器学习平台，支持广泛的预测模型。H2O具有速度优势，因为它允许我们从基于笔记本/桌面的环境迁移到大规模环境。这提高了性能，并使其易于处理大型数据集。H2O可以通过RESTAPI集成到R-studio中3. 数值结果在本节中，给出了实验结果。将手动调整的堆叠集成学习器与来自H2O的AutoML解决方案进行比较。堆叠对于重新创建H2O AutoML过程的内部工作是必要的，其依赖于训练几个不同的基础分类器，包括基于堆叠的最终集成模型的那些预训练模型的后续组合。在这个实验中使用了三个真实世界的案例研究领域的信用风险，保险索赔和营销。四个评估矩阵AUC、Accuracy、F-score和LogLoss用于将H2O AutoML解决方案与手动优化的超级学习器进行基准测试。准确度和F评分报告为0.5阈值水平。实验结构如下：在第一步中，三个基线模型随机森林，梯度增强机器和深度学习被仔细训练。以调谐对传统的网格化方法进行了超参数设置在训练过程中使用了在预定参数范围内的搜索和随机搜索以及手动调整表2显示了每个数据集的基本分类器的数值结果。梯度提升获得了最高的整体性能，表2所有三个案例研究的优化基分类器的数值结果为例方法AUC精度F的评分对数损失信贷风险随机森林0.7690.7080.6830.574梯度提升0.7750.7160.6940.570深度学习0.7580.7030.6860.609索赔预测随机森林0.6360.5980.5840.667梯度提升0.6400.5980.5860.663深度学习0.633 0.597 0.534 0.669营销随机森林0.9400.8770.8850.318梯度提升0.9400.8780.8860.299深度学习0.9330.8640.8710.322性能可以通过使用RF，GBM，和DL作为输入的超级学习者为所有三个案例研究。情况并非总是如此。在最后一步中，在第二步中创建的堆叠超级学习器作为H2O AutoML解决方案的基准，以评估其性能，鲁棒性和可靠性。表3显示了H2OAutoML解决方案和经过训练的超级学习者的最终比较。总体而言，结果令人惊讶地一致，堆叠的Super Learner能够在所有三个数据集上优于AutoML模型，AUC差异为0.002。虽然其他矩阵的性能增量并不相同，但在大多数情况下，堆叠集成的性能也优于AutoML解决方案。对于信用风险案例研究，准确性的差异为0.003，F分数为0.003，LogLoss为0.002。在保险数据集的情况下，准确性的性能差异为0.004，F-评分为0.002，LogLoss为0.001。营销案例研究的性能差异为准确度0.001，F评分0.002，LogLoss 0.001。AutoML仅在营销案例研究中的准确性和F分数方面略优于堆叠集合。总的来说，手动调整的堆栈集成显示出优于AutoML解决方案的所有三个案例研究的性能。4. 讨论本文提出的实验研究的目的是测试H2O AutoML框架与手动调优的ML模型在四个评估指标AUC，准确性，F分数和LogLoss方面的性能。本节分为三个部分：首先，将讨论实证研究的结果，以评估测试AutoML解决方案的整体性能。第二，研究结果将在w.r.t.到商业分析，以更好地理解这些发现对管理者、从业者和研究人员的意义。最后，对未来的研究方向进行了4.1. 结果讨论简而言之，它很难达到一个手动设置有两种方式：表3所有三个案例研究的超级学习者基准模型和AutoML的比较。然后是随机森林深度学习的性能最低成绩. 这在所有三个数据集上都是一致的。在第二步中，通过集成方法堆叠将候选模型与所谓的超级学习器相结合，该集成方法堆叠已被证明可以在一组基本分类器上提供渐近最优的改进。对于每个案例研究，所有三个基本模型（RF，GBM，DL）都被用来创建超级学习者。所有三个组合的基线模型的堆叠合奏进行了测试，最好的案例研究方法AUC准确度F评分对数损失信用风险叠加对冲0.778 0.7170.6980.565AutoML 0.776 0.7140.6950.567索赔预测叠加的累计值0.642 0.6030.5920.662AutoML0.640 0.5990.5900.663营销堆叠包围AutoML0.944 0.8830.942 0.8840.8890.8910.2990.300M. 施密特智能系统与应用18（2023）2001885(1) 基础模型（基于分类器）没有达到与手动调整版本相同的预测精度。增加运行时间不会对最终输出产生显著影响，也不会导致性能提高。(2) 该H2O AutoML包选择两个堆叠合奏组合。一个是基于所有训练的模型，另一个是基于每个类别的最佳模型。它不测试候选模型的另一组合（例如，较小的子集）导致更好的性能。这一点很重要，因为将较弱的模型添加到堆叠集合的总模型池中会不必要地破坏性能。对于超级学习者，只应该考虑最佳基线模型，因为额外的分类器往往会通过添加非最佳信息来稀释性能，从而导致预测准确性降低。Guo，He和Huang（2019）和（Schmitt，2020）也证明了这一点。然而，性能增量不是很强，H2O提供的AutoML解决方案是一个强大的模型调优引擎，可以显着加快原型设计或帮助不太熟悉ML概念的从业者建立强大的模型。然而，为了获得最大的预测准确性，数据科学家对超参数进行了仔细的模型调整和调整，从而获得了最佳性能。基于小的性能改进，值得怀疑的是，三个案例研究所证明的手动调整的小边缘是否可以解释耗时的模型创建过程，而无需知识和调整努力就可以实现几乎相同的效果。这个问题的答案主要取决于手头的用例，以及微小的性能改进是否证明手动模型调优所需的额外时间是合理的。此外，考虑到H2O创建的AutoML解决方案的强大性能，几乎可以肯定的是，进一步的研究将导致预测精度水平与ML专家调整的模型总的来说，AutoML是迈向完全端到端的重要的第一步结束决策过程。由于其相对强大的性能和一致的结果，AutoML有可能变得更强大，因此随着时间的推移，它将成为人类工程师的宝贵工具。这将极大地有助于商业分析功能的ML民主化，特别是对于中小型企业，这些企业往往更难聘请到合适的人才。模型性能可能会根据用于训练的数据而发生巨大变化（Schmitt，2020）。具体准确度（例如，70%、80%或90%）在很大程度上与底层数据集相关。例如，信用评分领域的文献清楚地表明，每个信用风险数据集都有不同的准确性（Schmitt，2022）。更好的模型调整或不同的模型选择有可能提高预测精度，但仅在小范围内。在实践中，我们需要使用我们拥有的数据集（或改进它），并选择可用的最佳模型。如果训练模型在当前的基础上有所改进，工作溶液在方面预测精度，它是一比基准有所改善。AutoML可以作为一个起点，但在目前的状态下，它不能此外，还需要考虑业务环境。例如，信贷决策仅部分取决于违约概率（PD）。在违约的情况下，(LGD)有保险或抵押品这降低了PD准确性的影响，因为贷方在违约期间损失的金额将减少或为零。虽然AI/ML对于保持竞争力至关重要，但重要的是要记住，它通常只是更复杂系统的一部分。4.2. 管理意涵管理层一直使用数据来生成洞察力的信息。主要以业务信息系统的形式出现。这并不新鲜。然而，早期更直观的商业方法逐渐转向基于证据和数据驱动的决策（ Brynjolfsson Mcelheran ，2019&;Delen Ram，2018&）。这种新的决策形式需要一个能够利用人工智能和机器学习的环境。AutoML是一个很大的第一步，可能会逐渐发展和扩展到一个完全自动化的决策引擎。它有可能通过跨行业和业务线民主化ML解决方案来创造一个新的公平竞争环境。尽管这项研究的结果证明，AutoML在模型调优方面还没有击败仔细的人类工程，但它可以通过帮助填补人才缺口来帮助支持ML解决方案的采用。此外，通过快速原型设计和基准测试来支持熟练的数据科学家也很有用，这可能会加快开发周期并提前部署。这项研究的结果强烈表明，随着时间的推移，AI/ML解决方案将变得成本密集型和用户友好型，这是由于该领域本身的持续创新以及硬件改进，更好的软件，API和UI。作为这些发展连续域知识与学科与机器学习本身的专业知识相比，物质专业知识对于开发和实施端到端人工智能解决方案可能更重要。Agrawal，Gans和Goldfarb（2019）认为，领域专业知识不能商品化，但ML作为一种用于决策的通用技术可以并且将以不同的方式商品化。这个过程需要多长时间很难预测，但AI/ML解决方案的商品化已经开始，并且可以在现实世界中观察到。AWS、Google Cloud和MS Azure等主要大型云提供商正在不断优化其AI/ML平台，这些平台可以通过软件即服务（SaaS）模式方便地购买。完全自动化的机器学习解决方案有可能使多个行业和业务功能的分析民主化，从而带来巨大的价值收益。然而，在业务中采用大数据和高级分析模型的一个问题是决策者倾向于关注底线结果和对可见商业价值的需求（Kushwaha，Kar Dwivedi，2021&）。要在企业中建立数据驱动的文化，就需要以价值实现为重点的清晰沟通。然而，AutoML还不能自动预处理复杂的数据集，这是数据科学过程中最耗时的步骤之一。从纯粹的预测性输出转变为规定性分析形式的具体可操作步骤的需求也是如此。在实现完整的端到端流程的最后一步尚未解决之前，企业需要依靠聘请数据科学专家或外部顾问来帮助他们推动当前的数字化转型计划。此外，人工智能和自动化领域的发展使许多员工担心他们会被人工智能技术取代，并随后避免使用它。我们也不应该忘记，员工希望在工作中获得更多的自主权，并有自由做出自己的决定（Maciej Serda等人，2022年）。因此，向增强劳动力的方向发展，现代分析工具支持人类决策是更有利的。我们应该想象并努力实现一个强大的智能系统与人类合作共同创造的未来，这将在一个迅速变得更加自动化和数字化的世界中促进人类赋权。4.3. 未来研究在预测分析过程的两端，以及在人类赋权和增强方面，都需要进一步的研究。AutoML需要能够处理数据预处理，以进一步自动化ML管道。此外，最后，当涉及到从这些预测中得出具体行动时，还有改进的余地。然而，为数据驱动的决策制定提供完整的现成ML解决方案的概念可能不是理想的最终目标。它可能是M. 施密特智能系统与应用18（2023）2001886更可取的是努力增强劳动力，其中智能系统与人类劳动力高度集成。4.3.1. 预处理监督预测分析的第一步可能需要80%或90%的时间，被广泛认为是数据科学最重要的方面。这一步骤涉及不同类型的数据清理和调整，但也需要将特征空间转换为更具信息决定性的特征空间。据观察，卓越的特征工程可以赢得Kaggle等在线数据科学竞赛，这表明这个初始阶段比模型调整过程本身更重要。研究存在于自动特征工程，但是，机器不能总是语义分类相关的功能以及领域专家。这是一个有效的未来研究方向。4.3.2. 规范性分析目前的研究主要集中在预测任务和结果必须由人类决策者解释。商业分析中最有趣的问题之一是如何从预测分析转向完整的端到端决策引擎，为管理决策者提供可以采取的具体行动。到目前为止，ML和DL主要用于预测分析。已经有人尝试将ML方法与运筹学/管理科学结合起来，从纯粹的预测转向实际的决策，但如何从一个好的预测转向一个好的决策，人们还不太了解。主要问题是要考虑决策过程中的不确定性（Bertsimas Kallus，2019&）。看看Alphastar等其他领域的最新研究表明，这是可能的，深度强化学习（DRL）可以在不确定的环境中实时达到人类水平的决策能力（Vinyals等人，2019年）。然而，在不确定的环境中，针对规范性分析和管理决策制定的DRL研究还不存在，并且将在业务分析、智能系统和信息管理领域内打开几个新的研究问题。这是一个多米诺骨牌，需要倒下才能在业务分析中实现完整的端到端决策流程。4.3.3. 人机回圈增强而不是完全自动化在业务分析中越来越受欢迎（达文波特，2018）。在这个早期阶段整合人类专家知识而不是完全自动化可能更有好处。这可以实现更好的控制和反馈循环，并有助于更好地理解ML模型及其预测。人工智能和人类应该能够毫不费力地相互交流。利用人工智能和人类能力的人在回路设置确实可能是理想的解决方案（Toniolo等人，2023年）。人工智能与人类智慧的结合是未来研究的一个有前途的领域。5. 结论世界经济的持续数字化导致对机器学习和人工智能领域专家的需求这种需求的增加导致了技能短缺，这减缓了AI/ML方法在业务分析中的采用。AutoML框架有可能缩小目前的人才缺口，并加速预测分析过程。H2O AutoML框架目前的能力无法达到通过仔细手动调整模型所能达到的完全预测精度然而，尽管有这些发现，这项研究表明，AutoML可以是一个强大的工具。首先，它可以在ML专家的原型设计过程中用作基线，这有助于加快ML项目的开发和部署周期;其次，它使ML模型更容易被非专家用户访问，因为它通过提高抽象级别进一步提高了用户友好性;第三，AutoML可以被认为是在商业分析中构建完整的端到端决策引擎的一大步;最后，AutoML可以通过创建增强的劳动力来帮助促进人类赋权。我们的目标应该是一个智能系统和人协同工作的未来，这将促进人类对日益数字化和自动化的世界的控制。作者贡献本文是作者的独家研究成果。竞争利益作者声明，他们没有已知的可能影响本文所报告工作数据可用性数据将根据要求提供引用阿格拉瓦尔，A.，Gans，J.，Goldfarb&，A. （2019年）。《人工智能经济学：议程》（The Economics of）Agrawal，J.Gans，A.&Goldfarb Eds.）。国家经济研究局。Balaji，A.，&Allen，A.（2018年）。对自动机器学习框架进行基准测试。Bertsimas，D.，&Kallus，N.（2019年）。从预测性分析到规范性分析管理科学https://doi.org/10.1287/mnsc.2018.3253布林约尔松，E.，&Mcelheran，K.（2019年）。数据在行动：美国制造业中的数据驱动决策和预测分析。WorkingPaper.克莱顿，公关，&Clopton，J.（2019）.商业课程重新设计：整合数据分析。Journal ofEducation for Business，94（1），57-63.https://doi.org/10.1080/08832323.2018.1502142R核心团队（2019年）。R：统计计算的语言和环境。网址：http：//www.r-project.org/Davenport，T. H.（2018年）。从分析到人工智能。Journal of Business Analytics，1（2），73-80. https://doi.org/10.1080/2573234X.2018.1543535Delen，D.，&Ram，S.（2018年）。研究商业分析的挑战和机遇。Journal of Business Analytics，1（1），2-12. https://doi.org/10.1080/2573234X.2018.1507324Dwivedi，Y. K.，休斯湖，Ismagilova，E.，Aarts，G.，库姆斯，C.，克里克，T.，等（2021年）。人工智能（AI）：对新兴挑战，机遇和研究，实践和政策议程的多学科视角。国际信息管理杂志，57，第101994条。 https://doi.org/10.1016/j。ijinfomgt.2019.08.002网站。 2019年8月Feurer，M.，Klein，A.，Eggensperger，K.，Springenberg，J.T.，Blum，M.，&Hutter，F. （2015年）。高效和强大的自动化机器学习。神经信息处理系统的进展，2015年-Janua（pp. 2962-2970）。https://doi.org/10.1007/978-3-030-05318-5_6Flach，P.（2019）.机器学习中的性能评估：好的，坏的，丑陋的，以及前进的道路在，33。AAAI人工智能会议论文集智能（pp. 9808-9814）。https://doi.org/10.1609/aaai.v33i01.33019808Gijsbers，P.，LeDell，E.，Thomas，J.，Poirier，S.，Bischl，B.，Vanschoren&，J. （2019年）。一个Open Source AutoML Benchmark，1格罗弗，V，蒋河，巴西-地H. L.，Liang，T. P.，&Zhang，L.（2018年）。从大数据分析中创造战略商业价值：研究框架。Journal of ManagementInformation Systems，35（2），388-423. https://doi.org/10.1080/07421222.2018.1451951Guo，S.，他H &Huang，X.（2019年）。一种多级自适应分类器集成方法模型及其在信用评分中的应用。IEEE Access：Practical Innovations，OpenSolutions，7，78549-78559. https://doi.org/10.1109/ACCESS.2019.2922676H2O.ai.（2019年）。H2O AutoML。http://docs.h2o.ai/h2o/latest-stable/h2o-docs/automl的网站。HTML.他，X.，赵，K.，&Chu，X.（2021年）。AutoML：最新技术水平的调查。基于知识的系统，212。https://doi.org/10.1016/J.KNOSYS.2020.106622Holmes，W.，Porayska-pomsta，K.，Holstein，K.，桑托斯岛C.的方法，Rodrigo，M. T.，&丘库罗娃湾（2021年）。AI在教育中的伦理：走向社区范围的框架。国际人工智能教育杂志。Kar，S.，Kar，A. K.，&古普塔，M。P.（2021年）。人工智能采用的驱动因素和障碍建模：从战略管理角度的见解。智能Systems in Accounting，Finance and Management，28（4），217-238. https://doi.org/10.1002/isaf.1503Kushwaha，A. K.，Kar，A. K.，&Dwivedi，Y. K.（2021年）。大数据在新兴管理学科中的应用：使用文本挖掘的文献综述International Journal of Information Management Data Insights，1（2），Article100017.https://doi.org/10.1016/j.jjimei.2021.100017M. 施密特智能系统与应用18（2023）2001887LeDell，E.，&Gill，N.（2019年）。H2O：R接口用于“H2O”。R包。https://cran.r-project.org/web/packages/h2o/index.html天啊Ledell，E.，&Poirier，S.（2020年）。H2O AutoML：可扩展的自动机器学习。https://scinet.usda.gov/user/geospatial/#tools-and-software网站。F. G. Maciej Serda，Becker，Cleary，M.，团队，R。M.，Holtermann，H.，该，D.，议程，N.，等人（2022年）。人机协作中的授权效应-一个系统的literaturereview and directions on hybrid intelligence behavior patternsUniwersytetS'lRiskski，7（1），343- 354.https://doi.org/10.1002/JQUERY.MIN.JSSchmitt，M.（2020年）。商业分析中的人工智能：利用金融服务中的机器学习应用程序获取价值。[博士论文，斯特拉斯克莱德大学https://doi.org/10.48730/5s00-jd45Schmitt，M.（2022年）。深度学习vs.梯度提升：对信用评分的最先进机器学习算法进行基准测试。ArXiv预印本。https://doi.org/10.48550/arXiv.2205.10535Schmitt，M.（2023年）。商业分析中的深度学习：期望与现实的冲突。国际信息管理数据洞察杂志。网址：//doi. or

下载后可阅读完整内容，剩余1页未读，立即下载