「基于机器学习的全球趋势、研究方向和管理挑战」

107 浏览量更新于2023-12-06 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

数据科学与管理4（2021）19讨论基于机器学习的方法：全球趋势、研究方向和监管立场Raffaele Pugliesea，*，1，Stefano Regondia，1，Riccardo MarinibaNeMO实验室，ASSTNiguardaCa`Granda医院，米兰，20162，意大利bCBA Lex，Corso Europa，20122，米兰，意大利A R T I C L E I N F O关键词机器学习人工智能研究趋势医疗数据治理纳米技术网络安全A B S T R A C T机器学习（ML）领域非常年轻，它仍在加速扩展，处于计算机科学和统计学的十字路口，也是人工智能（AI）和数据科学的核心ML的最新进展受到新学习算法理论的发展以及大量数据（通常称为“大数据”）和低成本计算的持续爆炸的推动基于ML的方法可以在整个科学，技术和工业中找到，从而在各行各业中实现更多基于证据的决策，包括医疗保健，生物医学，制造业，教育，金融建模，数据治理，警务和营销。尽管在过去的十年里，人们对这些领域的兴趣越来越大，但我们才刚刚开始挖掘这些ML算法的潜力，以研究随着经验而改进的系统。在本文中，我们提出了一个全面的观点，对地理世界的趋势（考虑到中国，美国，以色列，意大利，英国和中东）的ML为基础的方法，突出了快速增长，在过去5年中，由于引入相关的国家政策。此外，基于文献综述，我们还讨论了该领域的潜在研究方向，总结了机器学习技术的一些热门应用领域，如医疗保健，网络安全系统，可持续农业，数据治理和纳米技术，并提出ML科学界的“研究传播”在2018-2020年期间经历了异常增长，达到16，339篇出版物的价值。最后，我们报告了管理ML技术的挑战和监管立场。总的来说，我们希望这项工作将有助于解释ML方法的地理趋势及其在各个现实领域的适用性，并作为学术界和行业专业人士的参考点，特别是从技术，道德和监管的角度来看。1. 介绍在当今世界，我们总是被数据所包围我们周围的一切都连接到数据源（即，智能手机、社交媒体、个性化广告、语音和面部识别、自动驾驶汽车、基因组测序、节能建筑、计算机互动游戏、语言翻译），我们生活中的一切都是数字记录的（ Schafer 和 Jin ， 2014; Libbrecht 和Noble，2015; Sainath等人，2015; Bang等人，2018; Lopez-de-Ipina等人， 2018; Stilgoe，2018; Chan和Siegel，2019; Gao等人， 2019;Gu等人， 2019; Wan等人， 2019; Sajjad等人， 2020; Shahamiri，2021; Yeong等人， 2021年）。数据是21世纪的新DNA，承载着重要的知识、洞察力、和潜力，成为所有数据驱动组织的内在组成部分。从数据中提取信息可用于在不同领域创建各种智能应用程序，例如科学，医疗保健，制造业，教育，金融建模，网络安全，数据治理，警察和营销（Sarker，2021b）。因此，迫切需要能够快速智能地从数据中提取有用见解的数据管理工具。人工智能（AI），特别是机器学习（ML），近年来作为智能分析此类数据并开发相应现实世界应用的关键工具取得了显着进展（Koteluk等人，2021; Sarker，2021 b）。例如，ML已经成为开发实用软件的首选方法，同行评议由Xi交通大学负责* 通讯作者。电子邮件地址：raffaele. nemolab.it（R. Pugliese）。1这些作者贡献相等。https://doi.org/10.1016/j.dsm.2021.12.002接收日期：2021年8月25日;接收日期：2021年11月4日;接受日期：2021年12月16日2021年12月23日在线提供2666-7649/©2021 Xi'an Jiaotong University.出版社：Elsevier B.V.代表科爱通信有限公司公司这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表数据科学与管理杂志主页：www.keaipublishing.com/en/journals/data-science-and-managementR. Pugliese等人数据科学与管理4（2021）1920计算机视觉、语音识别和语言处理（Cummins等人，2018; Hegde等人，2019; Le Glaz等人， 2021）（Fig. ①的人。在处理数据密集型问题的行业中，机器学习的影响也得到了广泛的感受，例如消费者服务，诊断复杂系统中的故障以及控制供应链（Schaeffer和Sanchez，2020）。在科学界也有类似的广泛影响，因为ML方法可以帮助科学家通过DNA 微阵列分析发现癌症分类（Tan 和Gilbert ，2003; Wang 等人，2005），或解决生物学最大挑战之一的挑战，即从氨基酸序列开始确定蛋白质的三维结构的挑战（Hutson，2019; Callaway，2020; Senior等人，2020; Wu和Xu，2021）。此外，COVID-19迫使ML用于基于症状预测 SARS-CoV-2 诊断和用于在计算机中发现新的候选药物和疫苗（Keshavarzi Arshadi et al.， 2020; Lalmuanawma和Hussain，2020;John等人，2021; Zoabi等人， 2021年）。一般来说，ML解决方案的有效性和效率取决于数据的性质和特征以及学习算法的性能。由于这些原因，各种ML算法（例如，有监督的、无监督的、半监督的和加强的）已经被开发来覆盖跨不同ML问题的各种各样的数据（Das等人， 2015; Dey，2016）。事实上，尽管在过去的十年里，人们对这些领域的兴趣越来越大，但我们才刚刚开始触及ML算法在研究随着经验而改进的系统方面的潜力。不幸的是，正如Jordan和Mitchell（2015）所报告的那样，关于（1）算法可以从特定类型和数量的数据中学习的精度，（2）算法在建模假设或训练数据中的错误方面的鲁棒性，（3）基于给定学习问题设计有效和成功算法的可能性仍然是开放的。此外，由ML算法处理的数据所产生的隐私保护事实上，在处理个人和潜在敏感信息时，信任和透明度是核心问题，特别是当算法到位时，很难甚至不可能理解这可能是接受的主要风险，不仅是最终用户，而且是需要训练模型的经验丰富的工程师（ Holzinger 等人， 2016 年，Kieseberg等人， 2016年，Holzinger等人，2018年）。为了应对这些挑战，谷歌最近提出了联邦学习作为一种可能的解决方案（ KonePennsylvaniaet al.， 2016年）。另一方面，一些差距也确实得到了解决。例如，直到几年前，人工智能的研究通常分为技术问题（与自然科学和工程有关）和社会问题（与社会科学和人文科学有关）。这两条线最终是连接在一起的，这是一个重要的方面，最终被克服了，因为这项技术不能作为一个中立的对象来对待，也不能与社会事物分开。事实上，正如Emma Dahlin所报告的那样：“为了更好地理解AI和ML技术在其运行的背景下，这两个问题的不可分割性需要在AI和ML研究中得到反映”（Wan-zirah等人， 2015年）。此外，为了创建真正可接受的系统，同样重要的是，社会关注人类与人工智能的互动，从而提高可解释性，透明度，并向其预期用户提供黑盒（Castelvecchi，2016）。由于所有这些原因，这里将提供一个关于基于ML的方法的全球趋势（考虑到中国，美国，以色列，意大利，英国和中东）的详细总结，这些方法可以用于增强应用程序的智能和功能。此外，基于文献综述，我们将讨论该领域的潜在研究方向、挑战和监管立场。我们希望这篇评论将有助于并激励科学界和行业专业人士推动基于ML的方法的潜在发展。2. 机器学习技术ML涉及算法的开发和部署，这些算法不是被编程为分配某些输出（即动作）以响应来自环境的特定输入，而是分析数据，图1.一、ML 的实际应用。 ML对许多技术和科学领域产生了重大影响;最近应用成功的例子包括：a）语音处理; b）面部识别; c）确定蛋白质的最终三维结构; d）通过DNA微阵列进行癌症分类;数组分析R. Pugliese等人数据科学与管理4（2021）1921它的属性，并通过使用统计工具来确定动作通常，ML算法是动态的，并且随着引入更多数据而改进或“学习”（Duda et al.，2001; Bishop，2006）。ML算法可以大致分为四类：监督学习，无监督学习，半监督学习和强化学习，如图所示。二、2.1. 监督学习监督学习依赖于ML任务来学习一个函数，该函数基于样本输入-输出对将输入映射到输出因此，该学习过程基于比较计算的输出和预测的输出，即，学习指的是计算误差并调整误差以实现期望的输出。此类算法的示例包括朴素贝叶斯分类、线性和逻辑回归、支持向量机（SVM）（表1）。应用监督学习的例子是自动回答传入的消息（在大公司的情况下很有用），或者人脸识别，这在ATM，监控区域，闭路摄像头，刑事司法系统和社交网站（如Facebook）中的图像标记中是有用的监督学习的另一个突出示例是癫痫发作检测，该癫痫发作检测能够构建患者特异性检测器，该检测器能够快速检测癫痫发作并以高精度避免持续身体伤害和死亡的风险（ Kharbouch 等人， 2011 年）。作者使用支持向量机（SVM）将特征向量分类为代表癫痫发作或非癫痫发作活动由于癫痫发作和非癫痫发作类别通常不是线性可分的，因此他们使用RBF内核生成非线性决策边界。2.2. 无监督学习无监督学习在没有人为干扰的情况下分析未标记的数据集。在无监督学习中，该算法根据样本的特征将样本最优地分成不同的类，训练数据，没有相应的标签。无监督算法包括k-均值聚类、主成分分析和自动编码器. 无监督学习最常见的例子是自动识别用户在Facebook或Google等社交媒体渠道中的朋友，或者识别发送给特定人的最大邮件数量并分类到集体组中。此外，计算生物学（也称为生物信息学）正在从生物数据开发无监督算法以建立各种生物系统之间的关系，收集关于基因序列、DNA序列和基因表达的大量有用数据，从而提供对人类基因组的更好理解（Mahendran et al.， 2020; Ledesma等人， 2021年）。贝叶斯网络，神经树和径向基函数（RBF）网络用于分析这些数据集。2.3. 半监督学习半监督学习可以定义为上述监督和无监督方法的混合，因为它同时使用标记和未标记的数据（Zhou和Belkin，2014）。半监督学习模型的最终目标是提供比仅使用模型中的标记数据更好的预测结果这种方法广泛用于机器翻译、欺诈检测、标记数据和文本分类。2.4. 强化学习强化学习依赖于一系列算法，这些算法通常顺序操作以自动评估特定环境中的最佳行为，以提高其效率，即，一种环境驱动的方法（BusBrononiu等人， 2010年）。在每个步骤中，强化算法（也被称为“代理”）基于过去和当前特征在未来步骤中作用和预测特征，并且基于预测分配奖励或惩罚因此，它是一个图二、机器学习算法分类。主要机器学习技术的分类，即监督学习，无监督学习和强化学习，并提供一些示例。R. Pugliese等人数据科学与管理4（2021）1922表1机器学习算法的类型和实际应用示例。学习类型描述建模EX样本利与弊&监督学习无监督学习半监督学习强化学习数据被标记为类别和结果（任务驱动方法）。数据未标记。该算法仅根据训练数据的特征将样本最佳地分成不同的类，而没有相应的标签（数据驱动方法）。该算法适用于标记和未标记的数据。该算法按顺序运行，以自动评估特定上下文或环境中的最佳行为，以提高其效率（环境驱动方法）。模型从标记数据中学习。这种类型的学习包括分类，回归，朴素贝叶斯分类，随机森林和神经网络。模型从未标记的数据中学习。这种类型的学习包括k均值聚类、层次聚类和主成分分析（PCA）。模型使用组合的标记和未标记数据构建。这种类型的学习包括分类和聚类。模型基于奖励或惩罚。这种类型的学习使用分类。电子邮件数据（即，自动应答传入消息、将邮件组织到文件夹中、垃圾邮件过滤）;人脸和语音识别;信息检索;数据中心优化。组织大型计算机集群;社会网络分析;DNA分类;计算生物学;市场细分。文本文档分类器;文本过滤;语义场景分类;欺诈检测。交通预测服务;电脑游戏;机械应用;自动驾驶任务;医学;外科手术。优点：对训练数据中的类有确切的概念;在提供数据进行训练之前，准确地找出有多少类;有助于分类问题;从给定的数据和标签中预测数字目标值。缺点：它在各种意义上受到限制，因此无法处理机器学习中的一些复杂任务;它无法通过自己发现数据的特征来对数据进行聚类或分类;训练和分类需要大量的计算时间，特别是如果数据集非常大，这将考验机器的效率。优点：它可以检测到人眼无法理解的东西;隐藏模式的潜力对企业来说可能是强大的，因为它可以检测欺诈检测;输出可以确定企业的未开发领域和新企业;无监督任务的结果可以产生全新的业务垂直或风险。缺点：这是昂贵的，因为它可能需要人工干预来理解模式并将其与领域知识相关联;并不总是确定所获得的结果是否有用，因为没有标签或输出度量来确认其有用性;它严重依赖于模型，进而依赖于机器，结果通常具有较低的准确性。优点：它很容易理解;它减少了使用的注释数据量。缺点：迭代结果不稳定;不适用于网络级数据;精度低。优点：它可以用来解决其他技术无法解决的复杂问题;它优先实现长期的结果，这是非常难以实现的;它的模型与人类的学习非常相似;模型可以纠正训练过程中出现的错误。缺点：太多的强化学习可能会导致状态过载，这可能会减少结果;它需要大量的数据和大量的计算。这是一个强大的工具，用于训练人工智能模型，可以优化复杂系统的运营效率，例如机器人，自动驾驶任务，制造和供应链。强化算法有TD（lambda）函数逼近、梯度时间差学习和最小二乘法。强化学习应用的一个突出例子是，该算法可以为腹腔镜外科医生或自动切割器械的给定切割轨迹自动生成适当的张力和最佳方向。此外，各种论文已经提出了用于自动驾驶汽车的再学习（AbuZekry等人， 2019年，RafiOmarAl-Nima等人，2019; Cao et al. 2021），其中强化算法有助于轨迹优化、运动规划、动态路径和控制器优化。2.5. 联邦学习Google在2016年提出了联邦学习的概念（Kon eBennettet al.，2016年）。其主要思想是基于分布在多个设备上的数据集构建ML模型，同时防止数据泄漏。谷歌提出了这样的联合机制，作为一种有效的解决方案，允许在不损害用户隐私和安全的情况下共享知识（Yang等人，2019年）。联合学习（也称为R. Pugliese等人数据科学与管理4（2021）1923协作学习）是ML技术，其允许通过使用保存数据的分散设备或服务器来训练算法，而不共享它们，从而解决诸如数据隐私、数据安全、数据访问权限和对异构数据的访问等关键问题。这种类型的ML方法可以分为集中式，分散式和异构学习。在集中式联邦学习方法中，中央服务器负责管理所使用算法的不同步骤，并协调学习过程中的所有参与节点。此外，中央服务器负责在过程开始时选择节点并聚合接收到的模型更新（Kairouz等人，2021年）。在分散式联邦学习方法中，节点具有协调自身的能力，以实现全局模型。该技术允许克服集中式方法的问题，因为节点能够在没有中央服务器的协调的情况下交换模型更新由于越来越多的应用程序域涉及大量的异构客户端（即，移动电话和IoT设备），最近，开发了异构联合学习框架（即HeteroFL）以解决配备有非常不同的计算和通信能力的异构客户端（Diao等人， 2020年）。HeterofL技术能够训练具有动态变化的计算复杂度的异构局部模型，同时仍然生成单个全局推理模型。这种联合算法的示例包括深度神经网络、联合随机梯度下降（FedSGD）和联合平均（FedAvg）。总的来说，正如Yang等人所报告的，（2019年），预计在在不久的将来，联合学习将打破行业之间的壁垒，建立一个数据和知识可以安全共享的社区。利益将根据各参与者之贡献公平分配。因此，通过分析过去五年的全球数据集（由Google Trends收集），现实世界的兴趣和强化学习的应用（图1）并不奇怪。与监督学习（红色）和无监督学习（蓝色）相比，监督学习（红色）和无监督学习（蓝色）的受欢迎指数分别为30.13和36.75。相反，使用标记或未标记数据的半监督学习（黄色）没有显示出任何增长（在过去五年中流行指数为5.6根据我们的知识，我们认为，这种日益增长的兴趣，加强算法是由于这样一个事实，即后者，不像监督图三. 机器学习流行指数。各种类型的机器学习算法（监督，无监督，半监督和强化）的全球流行度得分在五年内从0（最小值）到100（最大值）。所有数据均来自Google Trends。和无监督学习，是基于与环境的交互可用于解决不同领域的不同现实世界问题，如博弈论，控制理论，运营分析，信息理论，基于仿真的优化，制造，供应链物流，群体智能，飞机控制，机器人运动控制，腹腔镜手术，交通预测服务，智能城市发展等。3. 全球趋势：AI VS ML在世界范围内，ML正在推动技术及其在现实世界中的应用的变化根据谷歌趋势，随着时间的推移，人们对“人工智能”的兴趣（图10）。 4a）和“ML”（图。（4）在过去的五年中，增长幅度很大。尽管我们意识到这些数据并不能反映全貌，但谷歌搜索突出了全球AI和ML访问的重要见解（即，意大利、中国、美国、以色列、英国和中东）。图 4a和b示出了以年为单位的时间戳信息的平均值（x轴）和从0到100的范围内的相应流行度（y轴）。特别是，我们观察到这些地区的指示性受欢迎程度值在2016年为意大利（红色），英国（青色）和美国（黄色），而在2020年超过70，就受欢迎程度而言增加了一倍多相反，这些技术在中国（蓝色）和以色列（绿色）的普及指数几乎没有变化，普及指数分别为35和38。有趣的是，在沙特阿拉伯（橙色），人工智能和机器学习的指示性受欢迎程度在2016年低于6，在2020年达到37，在受欢迎程度方面增加了6倍更深入地说，我们观察到在分析的国家的所有地区，ML（平均值77%）的使用/普及率比AI（平均值23%）更高（图10）。4 c-h）。此外，我们注意到，所有国家都记录了最高的受欢迎指数值，其中大学，工业，研究中心，初创企业，政府等集中，即，美国的马萨诸塞州、华盛顿州和加利福尼亚州;意大利的伦巴第、利古里亚和拉齐奥;以色列的特拉维夫和耶路撒冷;中国的北京、四川和上海;英国的英格兰、苏格兰和爱尔兰;沙特阿拉伯的Al-Sharqiyya、Al-riyad和麦加（更多详情见表2）。可以总结的是，意大利、中国、美国、以色列、英国和沙特阿拉伯的整体表现表明，在过去五年中，人工智能和机器学习的产出增长迅速。这可能归因于他们坚实的研究基础和ML技术的发展，以及他们推出的相关国家政策（Berkel et al.， 2020年）。无可否认，在其他国家或地区也可能发生过这种情况，但本研究没有考虑到这些国家或地区鉴于近年来ML从一个利基话题迅速发展成为一个改变了整个技术领域的话题，我们想知道ML科学界的“研究传播”是如何发展的，以及该领域的新兴趋势和研究方向是什么。为了确保完整性，本研究从以下数据库中选择尽可能多的出版物进行综述：PubMed、Web of Science和ScienceDirect。自从ML在20世纪90年代出现以来，所有出版的文件（即，1990年至2020年与该领域相关的期刊论文、评论、会议论文、预印本、代码库等），具体而言，在搜索字段中使用了以下关键词：“机器学习”或“基于机器学习的方法”或“机器学习算法”。图 5 a显示了自1990年以来每年发表的关于ML的论文数量，概述了ML相关出版物的历史。在20世纪90年代早期和直到1998年，ML有一个停滞期，因为在此期间，ML主要用于物流、医疗诊断和工业（Graham等人， 1990; King和Sternberg，1990; Kosko，1990）。相反，从21世纪初开始，ML研究进入了一个研究成果众多的时期，第一个高峰出现在2016年。R. Pugliese等人数据科学与管理4（2021）1924图四、 AI vs ML的地理趋势根据Google趋势，在过去五年中，a）人工智能和b）机器学习的全球流行度值出版物3,886值得注意的是，在2018-2020年的时间范围内，ML相关出版物经历了异常增长，达到16，339篇出版物的价值。在这16，339篇出版物中，期刊文章（14，272篇）和综述（1，552篇）是最常见的类型，其次是信件（196篇）和临床试验（129篇），如表3所示。ML研究的成功传播可以归因于几个因素：ML广泛应用于许多领域，包括医学，制造业，教育，物流，金融，农业，纳米技术，以及新学习算法理论的发展，“大数据”和低成本计算的持续爆炸因此，鉴于现有出版物数量庞大，我们根据2020年的书目数据，调查了ML文献的趋势和现状（图10）。 5 b）。在这些出版物中，59%的文章与医疗领域有关，11%与工程有关，3%分别与农业和金融领域有关，1%与纳米技术有关。尽管对应用ML的兴趣越来越大，但人们仍然担心预防措施会阻止难以解决的灾难性和未知后果。一个突出的例子是，如果人工智能医疗算法出错，或者国家安全受到威胁，如果对手向军事人工智能系统提供虚假信息，人类生命就会丧失，对于组织而言，从名誉受损和收入损失到监管反弹、刑事调查和公众信任度下降3.1. 医疗领域特别是，我们采取了有关医学的出版物（图。（6）考虑。由于“未来医学”或预防医学的任务是预测疾病，它不仅依赖于更好地了解病理学发展背后的生物和分子过程，而且还依赖于分析大量数据以制定预测算法。已经发现基于ML的计算机决策支持系统用于癌症管理、外科手术干预、心血管疾病治疗、流行病预测和药物发现，因为它们具有执行目前分配给专家的复杂任务的潜力，以提高诊断准确性、增加过程效率，从而改善临床工作流程、降低人力资源成本并改善治疗选择（Goldenberg等人， 2019年; Zurcucci等人， 2020; Davoudi等人， 2021年; Dong等人， 2021; Hirschprung 和 Hajaj ， 2021; Nikolaou 等人， 2021;Shuhaiber 和 Conte ， 2021; Smole 等人， 2021; Tunthana-thip 和Oearsakul，2021; Zhan等人，2021年）。在这一应用领域，主要的R. Pugliese等人数据科学与管理4（2021）1925表2在分析的国家地区，AI和ML的使用/普及情况总结。所有数据均使用Google Trend进行外推。国家区域AI（%）ML（%）意大利利古里亚2377Trentino-Alto Adige3169拉齐奥3070伦巴第3664弗留利-威尼斯朱利亚2773皮埃蒙特3169Emilia-Romagna3268Marche3169Toscana3466威尼托2872普利亚2377翁布里亚4060阿布鲁佐2575坎帕尼亚2872卡拉布里亚3070Sicilia2872Sardegna3268中国安徽0100湖北1783北京仍2179浙江1684四川0100吉林0100上海2377江苏0100广东2476以色列特拉维夫区1585海法区1783中央地方1783热尔贝埃梅区14100美国马萨诸塞2575华盛顿2476哥伦比亚4357加州2971纽约3664弗吉尼亚3565新泽西3466马里兰3961罗德岛3169特拉华3466伊利诺伊3466宾夕法尼亚3565康涅狄格3763科罗拉多3466俄勒冈3466犹他3664夏威夷4159佛罗里达4852怀俄明5842内华达4852阿肯色4654英国英格兰3862苏格兰3664北爱尔兰4060Galles4555沙特阿拉伯沙尔基耶5050利雅得4753麦加5050麦地那0100和径向基函数（RBF）网络，分类，回归，聚类和主成分分析（PCA）。3.2. 金融领域对治理、安全管理、人权和知识产权的关注也在迅速增长。事实上，一系列的学术研究出现在这些学科（图。6 b）。在这个领域，投资ML提供了巨大的好处，因为它有可能帮助组织有效地工作，管理成本，并在决策质量方面取得巨大进步应该注意的是，纽约大学和斯坦福大学已经发表了报告“算法政府：联邦行政机构中的人工智能”（Engstrom等人， 2020年由美国行政会议（ACUS）委托。该研究由一个由法学家、计算机科学家和社会科学家组成的工作组进行，样本为142个美国联邦机构和机构，目的是绘制人工智能和机器学习技术在行政领域的当前使用情况，并确定可能的发展方向。根据该报告，AI和ML有望改变政府机构的工作方式，即使他们必须面对隐私和安全问题，与遗留系统和不断变化的工作负载的兼容性，以及算法和用户界面的正确设计，以及公共行动和私人采购之间的界限总体而言，作者指出，人工智能和机器学习的快速发展有可能降低核心治理功能的成本，提高决策质量，并释放行政数据的力量，从而使政府绩效更加高效和有效。3.3. 网络安全领域网络安全是另一个热门话题，由于对物联网的日益依赖，网络安全受到了极大的关注（Li等人，2015年）。网络犯罪、恶意软件攻击、数据泄露等，不仅对组织和行业，而且对个人也造成了毁灭性的经济损失。据估计，全球每年的网络犯罪成本4000亿美元（Fischer，2014）。因此，为了解决这个问题，许多研究人员正在开发机器学习技术，以建立可用于检测和保护数据的网络安全模型，并将人为干预降至最低。通过文献，我们观察到过去十年中有关网络安全领域的出版物显著增加，总计达到1，268篇科学出版物。 6 c）。其中，Sarker及其同事报告了一种基于ML的方法（即入侵检测树-“IntruDTree”），该方法能够通过首先基于安全特征的重要性对其进行分类，然后基于选定的重要特征构建基于树的广义入侵检测模型来检测网络入侵（Sarker et al.， 2020年）。作者通过对网络安全数据集进行一系列实验，证明了“IntruDTree”在预测准确性方面是有效的，从而最大限度地减少了安全问题，降低了计算成本和时间。对于对该研究领域特别感兴趣的读者，我们推荐最近的文献综述（Handa et al.， 2019; Suryo-trisongko和Musashi，2019; Meng，2019; Sarker 等人， 2021; Di X it andSilakari ， 2021; Sarker ，2021a）.3.4. 纳米技术领域纳米技术不再仅仅是材料科学领域的一个时髦词，而是一个有形的现实。试想一下，今天有超过3,000种不同类型的商业纳米产品可在世界各地的不同部门（拉莫斯坎波斯，2021）。这反映了纳米技术无处不在，是一种日常实践。为了强调，我们有两种疫苗使用携带mRNA的纳米颗粒来产生 SARS-CoV-2 病毒蛋白（即，辉瑞 /BioNTech 和Moderna）已经摧毁了所有关于在人类中使用纳米产品的怀疑，这标志着纳米技术和纳米医学的新时代。沿着这条线，人们对使用ML技术进行预测建模和纳米产品设计的兴趣越来越大（图6d）。正如Talebian et al. （2021年），ML可以促进和重塑纳米递送系统的从头设计，从而为下一代智能药物带来新的挑战。此外，Whitelam和Tamblyn（2021）开发了一种基于进化原理的ML算法R. Pugliese等人数据科学与管理4（2021）1926图五. 机器学习相关出版物的时间演变。a）机器学习相关文章的时间模式; b）2020年的相对百分比估计。表32020年发表的机器学习相关论文数量出版物数目期刊文章14，272评论1，552本书5临床试验129Meta分析病例报告9第196封信预印本42其他80用于分子模拟，以自组装具有用户定义属性的纳米材料。为了允许对这类模型可访问的自组装行为进行彻底探索，作者将粒子间势能和时间依赖性组装协议表示为任意函数，由神经网络编码，并通过进化方法进行优化作者表明，这种进化的方法进一步推动了自动材料发现或“设计合成”的进展，这是一个具有挑战性的问题，需要大量的人力投入和试错。3.5. 农业领域机器学习技术也为农业生产系统带来了新的机遇，与该领域相关的科学研究呈指数级增长（图1）。 6 e）。根据Liakos等人的报告，（2018年）、以及Benos等人的研究。（2021），农场管理系统中的机器学习算法提供了关于（1）作物管理，（2）产量预测，（3）识别可能的疾病和杂草种类，（4）牲畜管理和福利，（5）水和土壤管理，（6）土壤水分水平，播种和收获日期以及作物表型的有见地的建议和信息。这些技术在农业领域非常有用，因为它们可以帮助农民优化运营，改善作物，提高盈利能力，即使在气候变化，过度耕作和污染等挑战中，从而创造一个智能和可持续的农业技术部门，从而实现更准确，更快的决策，并改善当今的农业实践，以养活未来不断增长全球人口。同样在这种情况下，对于对该研究领域特别感兴趣的读者，我们推荐最近的文献综述（Balducci，2018; Liakos等人， 2018; Storm等人，2020; Sader 等人， 2020; Benos等人， 2021; Liu ， 2021; Zhao ，2021）。4. 监管立场和挑战近年来，机器学习和人工智能也受到了世界各地当局和法律学者的关注，他们愿意创造一个能够平衡保护消费者需求的监管环境，特别是受到机器学习和/或人工智能工具伤害的消费者ML和AI的性质为法律学者提出了具有挑战性的问题他们正在努力概述这些环境的主要特征，包括“不透明性”（外部观察者可能无法识别ML和AI的潜在有害特征），R. Pugliese等人数据科学与管理4（2021）1927见图6。 ML文章在a）医学，b）治理，c）网络安全，d）纳米技术和e）可持续农业方面的增长趋势。“不可预测性”（ML和AI从“他们的经验”中学习，因此，他们的“行为”可能是不可预测的）。这些特定的特征使得建立有效的规则变得特别复杂（Scherer，2016; Sun等人， 2021年）。当试图规范手头的问题时，第一个挑战是提供一个正确和灵活的人工智能和机器学习定义（白皮书人工智能：欧洲追求卓越和信任的方法，2020年）。不幸的是，从监管的角度来看，没有一个公认的人工智能定义，可能是因为，正如麦卡锡所说，没有一个智能的定义不取决于它与人类智能的关系（麦卡锡，2007）。然而，毫无争议的是，AI和ML的明确定义对于创建有效的法律框架是必要的。最近在欧洲一级承认了这种定义的必要性，正如欧洲议会和理事会的一项法规提案所表达的那样，“制定关于人工情报的统一规则（人工情报法）并修订某些联盟立法法案”（欧盟委员会，2020年）。在该提案中，人工智能系统被定义为“软件它是用一种或多种技术和方法开发的，并且可以针对给定的一组人类定义的目标，生成输出，例如内容、预测、建议或决定，以增强与之交互的环境应该注意的是，欧盟委员会提出的定义只是人工智能的可能定义之一（委员会保留修改这一定义的权利，以使其与人工智能的发展保持同步-另见第10条）事实上，在过去的50年里，人工智能的定义已经提出了50多个提供定义的挑战可以被认为是与ML和AI相关的问题的严重性的此外，立法者还应面对ML和AI的“责任”问题。事实上，上述“不透明性”和“不可解释性”使得很难确定谁应该对ML或AI工具造成的损害负责。如上所述，他们的行为可能是不可预测的，有时是不可避免的。此外，鉴于ML和AI工具可以应用于高风险活动（例如，自动驾驶R. Pugliese等人数据科学与管理4（2021）1928¼汽车、医疗/辅助医疗工具等）这可能会对最终用户造成严重换句话说，法律框架应该能够保证最终用户有办法赔偿所遭受的任何损失。尽管每个国家都有自己的关于损害赔偿责任的规则和政策，但这些规则和政策或许应该加以修改，以适应这种能够自我学习的特定“产品”。有几个国家正在处理这一问题，因此可以采取不同的办法（严格赔偿责任或基于过失的办法，如某些学者所建议的，这甚至可能意味着人工智能和洗钱对损害负有直接责任）。欧盟、美国、中国等。在某种程度上，以不同的方式处理这个问题（数据创新中心，2017年）。学者和立法者似乎承认的一般责任方法可能会导致在个案基础上对AI和ML应用所涉及的风险进行分类（例如，人工智能和机器学习在医疗领域的应用可被视为涉及高风险），从而为每个风险级别制定不同的规则和责任（高风险可能会对运营商施加严格的责任，而较低风险级别可能会受到基于错误的方法的影响）。欧洲联盟委员会似乎同意这一观点，即在其提案中，人工智能系统根据某些风险水平进行分类（该提案主要涉及高风险人工智能系统，要求此类系统符合某些要求，并规定供应商的某些义务和责任）。值得注意的是，如果ML和AI对负责评估/核实相关风险水平的相关部门是“透明的”，则可以进行分类正如所表达的那样，这一监管重点的目的是通过描述许多问题中的两个主要问题（例如，道德影响、数据保护、隐私等）在快速发展的领域。5. 结论在本文中，我们已经进行了ML算法的智能数据分析和应用的概述。我们已经简要讨论了如何使用各种类型的ML方法来解决各种现实问题，强调成功的ML技术取决于数据和学习算法的性能。然后，我们转向讨论AI和ML在不同国家（如意大利，中国，美国，以色列，英国和中东）的全球利益，强调在过去五年中ML使用的更大推动力，如ML技术的演变，ML科学界的“研究传播”，以及有关AI和ML的相关国家政策的引入。最后，我们总结并讨论了ML领域的潜在研究机会和未来方向，以及面临的监管挑战。基于上述分析及在该领域所作的研究工作，我们相信基于机器学习的解决方案正为全球开辟一个发展方向，并可用作短期及长期不同实际应用的参考指引，惟我们仍须密切关注可用数据的价值及管理竞合利益作者声明不存在利益冲突引用AbuZekry，A.，例如，2019.神经进化算法在自动驾驶汽车强化学习中的比较研究。EUR. J.Eng. Sci. Technol. 2（4），60- 71。Balducci，F.，例如，2018年机器学习在农业数据集上的应用，以增强智能农场。机器6（3），38。邦，J。，例如，2018.情感不平衡小样本环境下鲁棒个性化语音情感的自适应数据提升技术。传感器18（11），3744.贝诺斯湖例如，2021.机器学习在农业中的应用：一个全面的更新评论。传感器21（11），3758。Berkel，N.V. Papachrivet，E.，Giachanou，A.，例如，2020.对国家人工情报政策的系统评估：来自北欧及其他地区的观点。ACM数字图书馆可在以下网址获得：https://doi.org/10.1145/3419249.3420106。Bishop，C.M.，2006.模式识别和机器学习。史普林格出版社，纽约布塞罗纽湖，巴布卡河Schutter，B. D.，2010年。多智能体强化学习：概述。多智能体系统和应用的创新- 1。Springer，Heidelberg，pp. 183- 221。Callaway，E.，2020年。“它将改变一切”：DeepMind的AI在解决蛋白质结构方面取得了巨大的飞跃。Nature 588（7837），203- 204.Cao，Z.，例如，2021.用于自动驾驶汽车的置信度感知强化学习。IEEE传输接口运输系统PP（99），1- 12。Castelvecchi，D.，2016年。我们能打开人工智能的

下载后可阅读完整内容，剩余1页未读，立即下载