机器学习技术对机器人顾问接受意向的预测模型研究

159 浏览量更新于2024-01-22 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用18（2023）200197基于机器学习Doohee Chunga，*，Pilwon Jeongb，Donghwan Kwon b，Hyunsoo Han ca韩国浦项市汉东全球大学全球创业与信息通信技术学院b韩国大田市韩国科学技术高等研究院商业与技术管理学院c韩国浦项市汉东环球大学计算机科学与电气工程学院A R T I C L EI N FO保留字：机器学习Robo-advisor人工智能金融科技A B标准一项新技术能否在市场上顺利推广，很大程度上取决于用户对该技术的接受程度。相当多的研究试图通过多种方法来预测用户的接受意图。大多数依赖于研究人员的设计，因此不能提出一个真正满足研究问题的优化模型。本研究旨在提供一种机器学习方法来预测用户在机器人顾问框架内的技术接受意向。该方法利用回归树、随机森林、梯度提升和人工神经网络等多种机器学习算法实现预测模型，并将该模型与传统的回归分析方法进行比较。所有机器学习算法都表现出比线性回归更好的预测性能。具体来说，梯度提升表现出最好的性能，感知的快乐表现出最大的重要性。这项研究最终提供了关于接受预测方法的理论意义和实际意义，哪些因素是至关重要的接受机器人顾问。1. 介绍随着大量技术的惊人增长，许多市场正在经历根本性的结构变化。这些变化极大地提高了企业不仅要追求技术进步，还要确定技术被用户接受并在市场上更快传播的条件（Mun Hwang，2003&;Taherdoost，2019）。在创新研究领域，有相当数量的文献是关于技术接受的预测已经被积极地发布，以预测用户接受新技术并确定提高接受度的主要因素（Mathieson，1991;Cheung &Vogel，2013; Kamal等人， 2020年）。对技术接受的研究已经从不同的理论视角展开。作为最具代表性和最基本的技术接受理论，技术接受模型（TAM）确定了用户技术接受的因素（ Davis ， 1989 ; Lee 等人， 2003 ）和创新阻力模型（ InnovationResistance Model）（Ram，1987; Laukkanen，Sinkkonen，Kivi jaürvi，&Laukkanen，2007）。此外，EX趋向于技术接受模型（E-TAM）将简单直观的TAM扩展为更符合研究主题和统一理论的模型的验收和使用的一技术模型（UTAUT）通过更全面的变量组合增强了解释力（Im等人，2011; Yu，2012）。现有的技术接受预测研究大多采用回归分析或回归分析与因子分析相结合的结构方程。传统方法因其对变量关系的解释简单、过程直观而被许多研究所采用，但也面临着诸多重大缺陷。首先，当数据由许多非线性关系组成时，它无法捕捉关键的见解（Sal i c et al.， 2021年），而且随着变量之间关系的复杂性增加，预测的准确性降低（瓦格里亚诺， 2021年）。此外，委员会认为，作为常规方法很大程度上依赖于现有的理论和研究人员如果不存在适当的理论，或者如果研究人员未能确认细节，则分析中存在根本性的限制（Tomarken &Waller，2005; Rajula等人， 2020年）。与此同时，最近对数据科学从复杂数据中提取有意义信息的兴趣日益增长，导致机器学习的强大传播（ Smola Vishwanathan ，2008&;Jordan Mitchell，&2015）。机器学习是一系列的过程，其中计算机通过从数据中学习并从函数中获得有意义的结果来推进特定目的的函数（Mitchell，1997;* 通讯作者。电子邮件地址：profchung@handong.edu（D.Chung）。https://doi.org/10.1016/j.iswa.2023.200197接收日期：2022年1月25日;接收日期：2023年1月25日;接受日期：2023年2月9日2023年2月15日在线提供2667-3053/© 2023作者。由爱思唯尔有限公司出版。这是一篇开放获取的文章，获得了CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志首页：www.journals.elsevier.com/intelligent-systems-with-applicationsD. Chung等人智能系统与应用18（2023）2001972Grimmer，Roberts，Stewart，2021&）。在过去的十年中，机器学习在许多研究领域得到了快速发展和传播。特别是在社会科学领域，机器学习作为补充传统统计分析技术局限性的主要替代方案正在引起人们的关注（ Mullainathan Spiess ，&2017）。机器学习能够以比传统统计方法更高的准确度实现预测模型，因为机器学习提供对复杂非线性数据的有效分析，并通过重复的学习和性能测试循环来优化自身。此外，机器学习可以通过探索和理解许多变量之间的复杂关系的过程，从数据中提取见解或识别重要变量。尽管有这些优势，但对机器学习技术接受预测的关注太少了（Alwabel&Zeng，2021）。虽然最近已经对在技术接受预测中采用机器学习进行了广泛的研究，但还没有一项研究充分利用了机器学习的基本功能。因此，本研究的主要目标是建立一个新的研究方法，侧重于基于机器学习算法的技术接受这项研究探讨了机器人顾问的技术接受度。Robo-advisor是应用于金融领域的技术的代表性例子，是一种基于人工智能的定制投资咨询和管理服务，在未来具有巨大的潜力（Belanche，Casalo'，&Flav ia'n，2019）。通过机器学习对机器人顾问技术接受度的研究将为那些希望开发或获得机器人顾问服务含义的人以及对机器学习的新兴作用感兴趣的研究人员提供有用的研究工具，如Orea-Giner等人（ 2022），Semeraro等人（2023）和Calero-Sanz等人（2022）等早期研究所证明的那样，这些研究证实了机器学习在识别机器人服务和用户满意度之间的关系方面的应用。2. 理论框架2.1. 技术接受预测在创新技术迅速发展的过程中，为了分析和理解市场中的技术扩散模式，积极开展了关于接受这种技术的意向预测的研究。技术接受被定义为采用和使用新技术的意愿（Mathieson，1991;Teo，2011）。罗杰斯（2003）建议预测用户的意图可能是一个重要的推断实际人类行为的线索，因为人类的意图在采取任何行动之前首先形成。此外，当一项新技术被引入市场时，接受意愿可能会有所不同，这不仅取决于技术属性，还取决于用户性格。和环境条件（Fishbein &Ajzen，1977年）。通过对这些因素的分析，可以有效地预测用户的技术接受程度（Bandura，1982）。预测技术接受度至关重要，因为它提供了一个了解用户思维和行为模式的机会这些因素可以增加新技术的市场渗透率（Sal-ovaara Tamminen，2009&;Taherdoost，2019）。技术接受的研究已经发展到理论模型的基础上。技术接受模型（TAM）是技术接受领域最具代表性的模型，由于应用简单、解释力高而得到广泛应用（Legris et al.， 2003年）。基于理性行为理论，TAM使用用户感知的有用性技术来分析使用该技术的行为意图。然而，由于TAM仅通过感知的有用性和感知的容易性来验证，一些人认为TAM过于简单，无法完全解决技术接受的复杂过程（Agarwal&Karahanna，2000年;Bagozzi，2007年）。为了克服TAM的这些局限性，已经进行了各种尝试来提高性能模型的修改和扩展。例如，引入了EX tended Technology Acceptance Model（ETAM）作为一种新模型，该模型添加了适合研究主题的各种因素，并分析了外生变量的间接影响（Chuttur，2009;King He，2006&）。此外，开发了统一技术接受模型（UTAUT），以考虑以前未通过在TAM中集成其他理论模型来考虑的影响和属性，例如（Dulle &Minishi-Majanja，2011; Dwivedi等人，2011;Williams，Rana，&Dwivedi，2015）。因此，最近的出版物提出了更复杂的模型，探索特定技术的技术接受度。Fuentes-Moraleda等人（2020）使用专门为服务机器人设计的模型（称为服务机器人接受模型（sRAM））研究了酒店服务机器人的接受情况，而Go等人（2020）提出了交互式技术接受模型（iTAM），以发现增加客户对先进机器人技术接受度的关键特征。值得注意的是，Han和Conti（2020）通过结合UTAUT和后接受模型的结构创建了HANCON模型，旨在预测和解释社会背景下的技术接受在研究方法方面，大量的先前工作适用于回归分析类型的方法，因为回归的主要目的是通过检查变量之间的关系来确定影响接受意图的关键因素。特别地，结构方程分析（SEM）被应用于大多数技术接受预测的研究中，因为已知其通过结合因子分析和回归分析在一次验证多个变量的统计显著性方面是有效的（Rodrigues等人，2019年）。以前的研究遵循这一系列的方法，几乎完全集中在统计证明的假设所构建的研究人员基于一个理论模型。为了通过回归分析型方法分析技术接受度，进行了以下研究。Lassar，Manolis，and Lassar（2005）采用扩展TAM模型分析了用户变量对网上银行接受意愿的影响。使用Likert 7点量表调查用户变量，使用Logistic调查是或否接受意愿，然后通过回归分析进行预测。因此，Belanche，Casalo'和Flavi'an（2019）进行了一项研究，通过将主观规范作为自变量添加到TAM中，并应用多个用户变量（如对机器人顾问的熟悉程度，年龄和性别）来预测机器人顾问的接受意图，以检查对接受意图的调节作用。采用结构方程模型验证影响接受意愿的变量的统计学显著性。然而，仔细研究现有的基于理论模型的方法，揭示了一些重大的缺点。首先，如果不满足线性回归的假设，或者如果数据复杂性和不规则性增加，则回归模型的准确性会降低（Tomarken Waller，2005&）。因此，如果回归模型受到指定线性函数形式的约束，则它只能产生线性拟合，并且不能准确地捕获现象中的关键细节，除非特别选择重要变量作为模型的输入。即使满足统计显著性，如果模型本身的准确性较低，研究结果的可靠性也会受到质疑。其次，传统方法的另一个主要缺点是，依赖于研究者的理论和假设。依赖于研究者假设的研究设计导致了研究者知识的有限性导致了模型的局限性。未能捕捉到数据的细节，洞察力，因为研究人员不会解决研究假设中的信息。Maula和Stam（2019）批评了这一缺陷，他们指出社会科学研究中研究问题和研究设计之间经常存在差异。如果研究者设计的模型的变量组成不是回答研究问题的最佳组成D. Chung等人智能系统与应用18（2023）2001973模型的功率可能未被优化。这意味着，即使变量关系在统计学上是显著的，结果实际上可能不是研究问题的答案。众所周知，UTAUT比现有的技术接受研究模型具有更高的解释力（Williams，Rana，Dwivedi，2015&）。然而，UTAUT有两个基本的缺点。首先，模型通常不适合研究主题。第二，模型依赖于研究者的人为设计，这限制了模型实现性能优化。与此同时，在过去的十年中，机器学习在许多领域得到了快速发展和普及。机器学习旨在基于数据而不是研究人员的人工设计来获得高级见解，并且作为分析大规模非结构化数据的专业方法而受到关注。它克服了传统分析技术的局限性，并被应用于各种研究，因为它提供了改进的模型性能。如果采用机器学习来建立技术接受的优化模型，预期该模型将比现有方法更准确地预测用户2.2. 机器学习机器学习这个术语最早是由Samuel（1959）提出的，他将其定义为一个研究领域，使计算机能够在没有明确编程的情况下学习。虽然从那时起提出了各种机器学习的定义，但Mitchell（1997）将机器学习解释为通过经验自动改进的计算机算法的研究。机器学习模型从输入数据中学习，并通过自我改进的过程，最终通过归纳推理提取隐藏的模式或信息，以实现预测或分类等特定目标根据训练方法和目的，机器学习由三种大的方法组成，称为监督学习，无监督学习和强化学习。监督学习是一种在计算机学习具有显式标签属性的数据后进行分类或预测的方法。当研究人员想要根据预先选择的类别对数据进行分类或预测数据的特定值时，它基本上是有用的（Ramo'n等人， 2012年）。与监督学习相反，无监督学习是一种通过学习没有标签的数据来无监督学习对于通过发现隐藏的模式或结构来区分数据内的聚类是有用的（Hastie等人，2009年）。强化学习通过试验和错误来训练模型，并在只提供规则而不提供数据的状态下进行奖励。强化学习以在数据动态变化并且难以选择特定输入/输出数据的情况下搜索最佳决策的强大性能而闻名（Sutton Barto，2018&）。机器学习相对于依赖于回归分析的传统统计方法（如逻辑回归或结构方程建模）具有几个优势首先，机器学习即使在复杂和非结构化的数据上也可以实现高性能机器学习相对不受建模约束，如外生性和同方差性，这是与常规回归分析相关联的假设（Churpek et al.，2016; Buskirk等人， 2018; Shrestha等人，2019年; Jiang等人，2020年）。此外，机器学习对于准确解释复杂和非结构化数据中固有的各种变量之间的关系非常出色，这些变量很难用传统方法进行分析（Yang &Trewn，2004; Koksal等人， 2011年）。其次，机器学习提供了过程和结果的自我优化。机器学习面向软编码过程，而不是硬编码，在硬编码中，算法直接输入以实现其目标。由于这一基本特征，机器学习最大限度地减少了人为干预，并通过搜索优化设计来改善其自身功能（El Naqaet例如，2015年）。的重复过程的学习，检查和机器学习模型通常表现出超越传统分析技术的卓越性能。通过这一系列机制，机器学习结果的可靠性由于比以前的统计方法更高的准确性而得到提高（Roelofs等人， 2019年）。第三，机器学习依赖于数据本身，而不是人类的人工设计，这可以通过发现研究人员可能错过的模式来提供新的见解机器学习可以通过理解变量之间的复杂关系并精确识别可能的相互作用来检测传统统计分析中难以观察到的模式（Hung，2019）。出于这个原因，社会科学领域最近的许多研究都采用机器学习来探索新的见解（PhamAfify，2005&;Alpaydin，2016;Hung，2019）。2.3. 机器学习用于技术接受预测技术接受是市场上出现的一种现象，是对一种创新技术的引进所作出的反应，这种技术的引进受到影响一个复杂的因素流，如用户特征，技术性能和特点，或社会接受和吸收创新。这些因素不仅影响着用户的接受意图，而且往往相互影响。传统的方法依赖于报告的假设和传统的统计技术，在有效检测数据中变量之间的复杂关系方面的局限性。对更系统和准确方法的需求描述了采用机器学习来预测技术接受度的必要性。然而，大多数技术接受预测研究仍然通过测试研究人员的假设来进行分析，机器学习和技术接受的扩散仍然没有得到充分的探索（Arpaci et al.，2021年）。在更广泛的文献中，最近的少数研究尝试将机器学习应用于预测技术接受度（ Almaiah ， Almomani ， Al-Khasawneh ，&Althunibat，2021年; Kamble等人，2021; Akour等人，2021年）。然而，这些研究大多遵循传统的研究方法，仅使用机器学习进行假设检验。到目前为止，还没有任何研究利用机器学习来预测真正的机器学习方法中的技术接受度，这种方法本身可以从数据中提取和解释有意义的信息。Alwa-bel和Zeng（2021）提出了一种在信息系统（IS）领域使用机器学习的新技术接受预测模型。 Alwabel and Zeng（2021）运用文献研究方法和数据挖掘技术，综合了各个技术领域的37个技术接受相关构念。为了提高预测技术接受度的准确性，使用了各种机器学习算法来预测和比较每个算法的性能，以得出最佳结果。结果表明，支持向量回归具有最佳的预测性能，使用机器学习技术预测技术接受度比传统方法更复杂和可预测。然而，仍然没有研究实际应用新的利用机器学习本身分析具体产品案例，预测技术接受度的研究方法。因此，本研究的目的是发展一套更完善的研究方法，以预测特定产品案例的技术接受(’robo-advisor’) by application of machine learning with high accuracyand reliability, by extracting and interpreting meaningful patterns通过高级算法在数据中补间变量。机器人顾问拥有从人工智能到投资的多个概念的内在融合。因此，它是实现非常规方法的理想候选者，因为机器人顾问的技术验收相对复杂。D. Chung等人智能系统与应用18（2023）20019743. 方法3.1. 机器学习机器学习建模有多种方法（ Grimmer ， Roberts ， Stewart ，2021&）。考虑到先前研究的常见方法，本研究提出了一个机器学习建模过程，如图1所示。建模过程包括6个步骤。‘data mining and variableselection - data preprocessing - algorithm selection建模-模型评估-模型改进“。第一步是收集符合分析目的的数据。有各种各样的数据，每种数据都有自己适合的算法以获得最佳性能。因此，收集精细数据的过程必须仔细处理（Mitchell，1997年）。其次，研究人员必须通过探索性数据分析来了解数据，探索性数据分析是从不同的角度分析数据。在这一步中，使用可视化和统计分析有助于消除可能对模型性能产生负面影响的离群值和缺失值（Milo&Somech，2020）。在对探索性分析中出现的问题进行处理后，研究者对数据进行预处理，使数据符合模型。数据预处理是一个重要的步骤，占机器学习建模过程的一半以上（Liuet al.，2021年）。在这个过程中，本研究采取了多种任务，包括调整数据中的离群值和缺失值，将分类变量转化为数值变量以进行有效训练，将连续变量归一化以使数据均匀分布等。预处理完成后，必须选择用于细化数据的算法。在机器学习领域，有很多种算法，每种算法都有自己的优缺点，因此研究人员选择最有效的算法很重要（Dey，2016）。下一个过程是训练选定的算法。在训练时，数据可以在三种用途中操作，即训练数据、测试数据和验证数据。此外，指标可以根据研究目标而不同，因此必须在理解每个指标之后进行评估。在分类中，主要使用混淆矩阵X，其是示出目标标签和预测标签之间的对应关系的矩阵X。从这个矩阵中，研究人员计算准确性，ROC曲线和AUC（ROC曲线下面积）作为我们的评估指标。在回归中，研究人员可以计算目标值和预测值之间的相关性，以查看统计相似性，RMSE和MAE可以查看模型中的错误。并且这些通常被用作评估度量。建模后，必须进行超参数调整，以提高精度和可靠性。通过超参数调整，研究人员可以通过使用特征组合的交叉验证来提高准确性并最小化过拟合，这将提高可靠性（Handelman等人，2019年）。基于结果，研究人员可以诊断所需的改进并搜索优化的超参数。完成此过程后，可以在定义的目标中执行最终模型。最后，当研究人员发布或保存模型以分析新数据时，建模过程将完成。3.2. 机器学习算法本研究最关键的一点是选择一个合适的算法，匹配的数据和目标。算法种类繁多，各有特点，必须慎重考虑，选择最合适的算法。然而，在机器学习研究中，在进行分析之前很难确定最佳算法。因此，需要选择合适的算法作为候选，并比较准确度和其他度量以找到最佳算法（Heyburn等人，2018年）。本研究综合考虑连续型因变量的特点、模型训练效率和结果准确性，选择合适的算法对技术接受度进行预测。在这些准则中，本研究选取了回归树、梯度推进、随机森林和人工神经网络作为机器学习方法，线性回归作为传统的统计方法。下面是每个算法的描述。3.2.1. 线性回归线性回归是一种经典的传统统计方法，通过分析多个自变量之间的线性关系来预测因变量。线性回归是在变量之间的线性方程中找到优化的回归系数（Yan Su，2009&）。根据独立变量和因变量的类型和数量，它可以分为简单线性回归，多元线性回归和Logistic回归分析。将线性回归与机器学习算法进行比较，设计模型和分析结果很容易，因为它可以提取各种统计数据用于评估（Zou et al.，2003年）。此外，它通常用于预测连续的因变量或找到关系。然而，线性回归可能缺乏解释，因为它只依赖于可以解释某些变量的各种其他指标的平均值（Maxwell，1975）。由于它在分析中有一个前提，即自变量和因变量之间存在线性关系，因此它在拟合非线性数据时也有局限性。3.2.2. 回归树为了理解回归树，必须有决策树的知识。决策树是一种树结构模型，它将数据分成许多子集来搜索数据的模式（Freund&Mason，1999）。在这个过程中，子集被称为节点，而那些在树的末端被称为叶节点。回归树是一种回归分析，它通过树结构和叶节点的平均值进行回归树的好处是它的广泛使用和简单的解释。回归树不需要任何线性、正态性、方差齐性等，因此，它可以应用于非线性和复杂数据（Loh，2014）。此外，由于描述预测过程的简单决策树可视化，因此特别是，当数据由具有不同属性的小组组成时，它很有用，使得难以使用单个线性方程进行预测。然而，为了执行有意义的预测，回归树必须具有相对大量的数据。也有Fig. 1. 机器学习的框架。D. Chung等人智能系统与应用18（2023）2001975当它用于分析的新数据而不是像决策树算法那样使用训练数据时，过度拟合的风险很高。在技术接受度的预测中，回归树可能是有益的，因为这项研究的数据可能有不同的用户群体3.2.3. 随机森林随机森林是一种集成方法，可以找到最小化过拟合的优化值，并通过基于验证的多个独立决策树来提高准确性（Biau Scornet，&2016）。随机森林是一种集成算法，它通过多个模型的平均值或投票对多个模型进行分析。随机森林是对训练数据进行装袋处理的一种方法，它是通过替换抽样将数据分离出来，并对每一段数据独立地训练一个新的模型。在训练时，模型通过聚合结果并计算平均值来最小化方差。与标准决策树相比，随机森林可以确保更高的预测精度和更低的过拟合。此外，它对不均匀分布的数据更有用（Svetnik等人，2003年）。然而，由于随机森林会创建大量的树并将它们聚集在一起，因此训练模型需要大量的时间，并且解释分析结果可能很困难。由于调查数据不服从正态分布，且是在未经考虑的情况下收集的，因此，财产3.2.4. 梯度提升梯度提升是一种集成方法，它克服了决策树的过拟合问题，并像随机森林一样提高了准确性。梯度提升被定义为一种通过在纠正错误后顺序添加决策树来最小化损失函数的方法（Natekin Knoll，2013&）。与随机森林中聚合每个独立决策树的输出的bagging方法相比，梯度提升使用提升方法，该方法将权重传递给决策树的数据，并且该数据影响其他决策树。此过程通过迭代优化过程提高预测准确性，该过程侧重于大规模损失数据。梯度提升被认为是机器学习算法中预测精度最高的。与其他算法相比，该算法需要较少的预处理，因此易于搜索。基于这些原因，梯度提升可以应用于分类和回归，特别是在集中数据中（Friedman，2001）。然而，它通常需要超过1000棵树，因此需要很长的训练时间并且难以解释（Menzeet al.，2009年）。由于为技术接受预测收集的用户数据通常是在不考虑某些变量的分布的情况下收集的，因此梯度提升可以是有用的，因为它提供了对具有结构问题的数据的3.2.5. 人工神经网络尽管开发了多种机器学习算法，如随机森林和梯度提升，但由于强调了对卓越性能的需求，基于人工神经网络（ANN）的算法，如深度学习开始引起关注。ANN是一种通过人类神经元如何工作的结构建模的算法（Agato-novic-Kustrin Beresford，2000&）。人工神经网络由输入层和输出层之间的多个隐藏层组成。通过这些隐含层，模型分析了输入层和输出层之间的模式和非线性关系。已知ANN可以分析连续变量和分类变量，同时自动选择变量，发现数据中的非线性关系，并且通常比其他算法性能更高（MaindWankar，2014&）。因此，它通过训练复杂和非线性数据来实现高然而，与其他机器学习算法相比，利用许多隐藏层来实现高性能需要更多的训练时间和更大的数据集（Mishra Srivastava，2014&）。由于这项研究的数据还包含无论是连续变量还是分类变量，某些变量与接受意愿之间都可能存在一定的非线性。因此，使用ANN的分析预计将显示出改进的预测，因为它可以克服其他机器学习算法难以克服的限制。4. 演示：机器人顾问的技术接受预测4.1. 数据和变量本研究提出了一种使用机器学习预测机器人顾问技术采用的模型。机器人顾问是指基于人工智能的定制化投资咨询和管理服务（Faubion，2016）。在整个研究中，术语“机器人顾问”将用于指向客户提供定制投资信息的投资建议类型和自动投资和管理用户委托资产的全权委托投资类型。为了预测机器人顾问的接受意愿，对投资者和潜在投资者进行了调查。该调查于2020年8月20日至9月13日针对国内投资者在线进行，共收集了1012份回复。年龄组包括20多岁的23.5%，30多岁的10.8%，40多岁的16.7%，50多岁的44.5%和60多岁的4.5%，样本包括52.8%的男性和47.2%的女性。此外，17.8%的样本有使用机器人顾问的经验，82.2%没有。我们允许将有经验和无经验的人结合起来，因为这种样本反映了机器人顾问使用体验. 表1显示了受访者这项研究采用R版本4.0.0作为主要的分析工具，这是一种在机器学习领域被广泛认可和使用的编程语言，正如其在先前文献中的频繁使用所证明的那样（Ramírez-Solis &Rodriguez-Marin，2022; Wu等人， 2022年）。首先，加-在这方面，Fig。下面的2是验证数据正态性的分位数-分位数（Q-Q）图。正态分布数据的观测值应大致位于一条直线上。如果数据是非正态的，则这些点会创建一条明显偏离直线的与大多数观测值分离的线的端点附近的点是潜在的离群值。数据的正态Q-Q图显示所有分位数集均来自正态分布。表2概述了调查中每个变量的含义。“RA ” 是指机器人顾问，并且描述下面的 “1 至 5” 是指在 Li ker t 类型的 5 点量表上测量的项目。这项研究采用了来自先前机器人顾问技术接受研究的变量（Belanche，卡萨奥，弗拉瓦， 2019年;鲁尔，2020年），并选择更独立，以扩大对该过程的理解。大多数关于机器人顾问的研究和大多数以前在创新技术服务方面的研究（Mun &Hwang ， 2003; Cheung &Vogel ， 2013;Rodrigues等人， 2019; Kamal等人，二○二○年;表1答复者的资料。受访者特征频率（N= 1012）性别年龄使用Robo-Advisors男535百分之五十二点八女47847.2%20百分之二十三点五一.第三委员会的报告. 30百分之十点八第40百分之十五点六5044.5%第六章604.5%是的181百分之十七点八没有831百分之八十二点二D. Chung等人智能系统与应用18（2023）2001976表2图二. 数据的正态Q-Q图。阿尔迈亚阿尔莫马尼，哈苏奈，&Althunibat，2021年），使用变量说明。自我评价变量的Likert型量表。5点李克特量表是各种变量中使用最广泛的方法，变量定义EX夷平面它表达了受访者最理想的，而不是令人沮丧，也没有造成gender性别1：男性，2：女性年龄年龄20：20，30：30，40：40，50：50，60：60年代invest_type投资者类型0：无投资经验，1：个人投资者，2：专业混淆区分。4.2. 模型超参数RA的使用USER_risk_profile用户风险概况用户知识user knowledge投资者0：没有经验，1：有经验1：绝对安全，2：安全，3：中立，4：积极投资者，5：激进投资者用户本研究对每个算法实施网格搜索，以发现最佳的超参数以获得最佳性能。对于随机森林，最显著的优化超参数是mtry，其值为5，mtry是指随机抽样的变量数量，候选人在每个分裂。对于梯度增强，最好的模型有2000用户创新级别用户创新性RA机制（1 - 5）用户对于n棵树（梯度提升迭代的次数），5表示交互。深度（模型必须在树上执行的拆分数量，ROBO_accuracy RA准确性对于RA来说，准确地预测未来的趋势和回报从单个节点），0.006为收缩（确定每棵树的最终结果，并控制如何快速算法ROBO_透明度RA透明度库存（1对RA来说，重要的是投资过程的基础是透明提供（1向下进行梯度），5表示n.minobsinnode（树的终端节点中的最小观测数对于人工神经网络，性能最高的模型返回52的大小（数量ROBO_customization RA customization重要的是RA工作正常根据用户在参数更新发生之后，向网络提供的子样本的数量）和0.5用于衰减（通过向成本添加惩罚项来ROBO_social_presence RA social倾向和目标（1S一个神经网络的功能，它具有收缩的效果，重要的是，RA沟通方式应该是人性化和自然化（1ROBO_control RA用户控制对于RA来说，用户可以干预RA反向传播期间的权重4.3. 模型评估感知有用性有用性感知安全感知复杂性复杂性知觉快乐用户感受通过RA进行投资将有所帮助（1用户感受关于RA是安全的风险，如损失或黑客攻击（1-5）用户感受关于RA用户从投资中在机器学习中，根据算法和数据的不同，每个评估指标可能会出现不同的结果，因此需要通过各种评估指标来综合评估机器学习的性能（Handelman et al.，2019年）。在本研究中，共使用四个指标来验证模型的准确性和评估性能：均方根误差（RMSE ），平均绝对误差（MAE），相关性和r平方。MAE是表示实际值与预测值之差的绝对值的平均值的值，受影响相对较小承诺意向承诺通过RA’outliers的另一方面，RMSE由以下的平方根计算：用户对RA预测值和实际值之间的残差平均值，这比MAE对离群值的惩罚因此，差异越大D. Chung等人智能系统与应用18（2023）2001977=在预测值和实际值之间，RMSE比MAE有更大MAE和RMSE是通过分析残差评估模型时常用的指标，因为这些值直观且易于解释。值越低，预测精度越高其次，相关性是一个指标，表明两个变量之间的相关性相关性显示拟合度最后，r平方是指模型数据的总方差中可以解释的方差的比率。R平方表示独立变量相对于因变量的解释能力，该值越接近1，则模型被判定具有更高的解释能力来解释数据波动。5. 结果5.1. 算法比较本研究的主要目标是确定预测机器人顾问技术接受度的最佳模型。为了实现这一目标，该研究比较了四种机器学习算法的预测结果，回归分析是一种传统的统计分析方法。结果见表3。结果表明，梯度提升是最好的算法，MAE为0.105，RMSE为0.139。最低的MAE和RMSE意味着梯度提升模型的预测误差最小，离群值的影响最小。对于相关性，梯度增强也显示出最好的结果，为0.953，表明梯度boosting使预测最接近测试数据梯度提升也导致了最高的r平方，为0.950，这意味着它对数据具有最大的解释力。总的来说，所有机器学习模型在预测技术接受度方面都表现出比线性回归更好的性能。在机器学习算法中，发现梯度提升在所有评估指标中具有最高的预测性能。超参数是具有用于控制机器学习中的学习过程的值的参数。调整超参数是一个提高机器学习模型准确性的过程。一般来说，很难从一开始就确定最佳超参数。通过网格搜索，将各种参数条件作为一个整体进行搜索的过程，通过分析范围内所有参数组合的模型，提取出获得最高性能的最佳参数组合。搜索梯度提升模型的最佳网格的结果如图3所示，其中示出了给出最佳（最低）RMSE的条件。每个超参数的最佳值如下：n.trees 4000，interaction.depth 7，learning rate是0.006，以及n.minobsinode 10.在机器学习中，解决过拟合问题意义重大。在实现一个模型中的cant。过拟合是指由于训练数据的过度学习而导致测试数据的性能低而训练数据的性能高的情况。为了最大限度地减少过拟合，本研究通过划分训练和测试数据来比较性能来进行交叉验证（kfold 7）。图4的结果表明，训练数据和测试数据的评估指标没有显著差异，证实了模型没有表3预测性能。算法MaeRMSE相关性r平方线性回归0.3410.4370.8420.708回归树0.3210.3460.9040.817随机森林0.1890.2520.9150.910人工神经网络0.2020.2220.9370.917梯度提升0.1050.1390.9530.950过拟合训练数据。5.2. 变量重要性本研究的另一个目的是探索对预测技术接受度贡献最大的变量。图5示出了具有优化的超参数的梯度提升模型的变量重要性，其在所有算法中具有最高的预测精度。方差重要性是通过对在树创建过程中在所有的研究变量中，对技术接受度贡献最大的变量是感知的快乐（26%）。感知有用性（19%）、感知安全性（7.872%）、感知复杂性（7.802）和用户风险状况（6.538）也显示出较高的变量重要性。另一方面，在预测技术接受度方面，使用机器人顾问（0.792%）和性别（1.232%）的变量重要性较低。此外，在机器人顾问变量中，定制度最高（5.330%），系统准确度最低（2.865%）。在用户变量中，用户水平最低（4.600%）5.3. 鲁棒性分析在我们最初的分析中，样本包含来自有经验和无经验用户的响应，这反映了机器人顾问使用体验的一般市场比例。该研究还仅对非经验者的数据进行鲁棒性分析，以检查用户的Robo-advisor经验是否影响Robo-advisor的预测接受意图的结果。表4的结果表明，稳健性分析与原始分析结果没有任何显著差异，实际上支持我们最初分析的结果非经验用户数据的变量重要性与原始分析几乎相同，如图所示。六、6. 结论本研究致力于建立一个总体框架，通过利用机器学习技术来预测技术接受度。具体而言，机器人顾问的技术接受预测的实证分析进行。为了实现这一目标，来自个人和专业投资者的调查数据被用来构建一个机器学习模型，该模型可以预测所讨论的技术的接受意图。调查数据共包括18个变量，包括用户属性和系统属性。四种机器学习算法，即回归树，随机森林，梯度提升和人工神经网络，进行训练和评估，以追求最佳模型。此外，还采用了传统的统计分析方法--线性回归进行了比较.研究结果表明，所有机器学习算法与传统的回归模型相比，该模型表现出更好的性能来预测接受意图。这一发现与先前旨在预测行为意图或其他客观观察的研究一致，并强调了机器学习算法优于传统回归模型的预测能力（Aslam et al.，2022;Liew，Kovacs，Rügamer，&Royuela，2022; Shin等人，2021; Wang等人， 2020年）。此外，本研究试图通过变量重要性技术来确定变量的重要性，以全面了解各个变量在预测

下载后可阅读完整内容，剩余1页未读，立即下载