集成深度学习研究综述：机遇与挑战

68 浏览量更新于2024-01-17 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报集成深度学习研究综述：机遇与挑战Ammar Mohammed，Rania Kora开罗大学统计研究研究生院计算机科学系，埃及阿提奇莱因福奥文章历史记录：收到2022年2023年1月8日修订2023年1月19日接受2023年2月1日上线关键词：包围学习包围方法机器学习深度学习深度学习A B S T R A C T在机器学习中，有两种方法优于传统算法：集成学习和深度学习。前者是指在同一框架中集成多个基础模型以获得更强大的模型的方法。集成方法的成功取决于几个因素，包括如何训练基线模型以及如何组合它们在文献中，有常见的方法来建立一个集成模型成功地应用在几个领域。另一方面，基于深度学习的模型提高了机器学习在各个领域的预测准确性。尽管深度学习架构的多样性及其处理复杂问题的能力和自动提取特征的能力，但深度学习的主要挑战是它需要大量的专业知识和经验来调整最佳超参数，这使得它成为一项繁琐且耗时的任务。最近的许多研究工作都是为了将集成学习引入深度学习，以克服这一挑战。这些努力大多集中在简单的集成方法，有一定的局限性。因此，本文对集成学习的各种策略进行了全面的综述，特别是在深度学习的情况下。此外，它还详细解释了影响集成方法成功的各种特征或因素。此外，它还介绍并准确分类了在广泛领域中使用集成学习的几项研究工作。©2023由Elsevier B.V.代表沙特国王大学出版。这是一篇开放获取的文章，CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言. 7582.集成学习的趋势3.集成学习的基础3.1.数据采样7613.2.训练基线分类器7623.3.融合方法7623.3.1.投票方法7623.3.2.Meta学习方法7634.包围方法7644.1.一般综合方法7644.1.1.装袋7644.1.2.增强7644.1.3.堆叠764沙特国王大学负责同行审查电子邮件地址：ammar@cu.edu.eg（A.穆罕默德），拉尼娅.科拉@ pg.cu.edu.eg（R。科拉）https://doi.org/10.1016/j.jksuci.2023.01.0141319-1578/©2023由Elsevier B. V.出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Mohammed和R. Kora沙特国王大学学报7584.2.深度学习7655.评估合奏7665.1.预测性能7665.2.计算复杂度7665.3.其他标准7666.应用程序域7666.1.传统的集成学习7666.2.集成深度学习的应用7687.结论770竞争利益声明参考文献7701. 介绍在一个充满各种各样的数据源的世界里。机器学习已成为人工智能方法中最重要和最具优势的分支之一，在许多领域得到了广泛的应用。有许多不同的学习算法和方法。每种方法的陷阱和缺点都是根据几个因素来衡量的，包括性能和可伸缩性。基于对机器学习的大量研究，两种方法主导了学习算法;即深度学习（Deng et al.，2014）和集成学习（Polikar，2012; Sagi和Rokach，2018;Rokach，2019）。深度学习技术可以扩展和处理复杂的问题，并从非结构化数据中自动提取特征（Kamilaris和Prenafeta-Boldú，2018）。此外，深度学习方法包含用于不同任务的几种类型的网络架构，例如前馈神经网络（Bebis和Georgiopoulos ， 1994 ）、卷积神经网络（ Collobert 和 Weston ，2008）、递归神经网络（Recurrent neural networks，2008 ）。（Yu等人，2019年）。许多其他人（Ain等人，2017年）。然而，深度学习模型的训练过程需要大量的努力，并且调整最佳超参数需要专业知识和广泛的试验，这是一项繁琐且耗时的任务。此外，训练更复杂的深度神经网络增加了过拟合的机会。另一方面，包围学习指的是一种学习，一种方法，将几个基准模型结合起来，建立一个比其组成部分更大但更强大的单一模型（库马尔例如，2021年）。此外，由于基线模型的多样性，集成学习可以降低过拟合的风险。包围学习成功地应用于各个领域和领域，并超越了单一模型（Anwar et al.，2014; Shahzad和Lavesson，2013; Prusa等人，2015年; Ekbal和Saha，2011年）。在如何训练和组合不同的基线模型方面，有几种不同的集成技术。最广泛使用的集成技术包括平均、装袋、随机森林、堆叠和提升。在文献中，有许多关于集成学习方法和技术的综述（Krawczyk等人，2017; Sagi和Rokach，2018; Dong等人，2020年）。传统的集成学习是基于集成传统的机器学习模型并将其应用于不同领域（Tsai等，2011; Abellán和Mantas ， 2014; Catal 等人，2015; Da Silva 等人， 2014 年 ;Aburoman和Reaz，2016年）。然而，这些努力仅限于简单的单一模型。近年来，已经进行了许多尝试来将集成学习接近深度学习（Haralabopoulos等人，2020; Tasci等人，2021;阿尔哈比例如，2021; Ortiz等人，2016; Can Malli等人，2016年; Xu等人， 2016年）。然而，这些尝试中的大多数都是使用基线深度学习模型的平均投票方法来表达的。然而，使用平均投票法的集成过程偏向于弱基线学习者，并且不是一种用于组合基线学习者的聪明策略。尽管有几种组合基线学习器的策略可以应用于集成深度学习，这些策略在泛化、训练困难和其他问题方面有一些局限性（Tasci等人， 2021）。在文献中，一些综述努力引入了深度集成学习的概念（Dong等人，2020; Sagi和Rokach，2018）。然而，这一努力仅限于集成在特定领域的应用，并对传统的集成方法进行了评述。为此，本文试图全面回顾应用集成深度学习的不同策略分析了影响集成方法成功的几个方面，如基线学习模型的类型、训练中使用的数据样本技术、使用不同基线分类器的多样性以及基线深度模型的融合方法。此外，还讨论了每种策略的优缺点。本文的主要贡献如下。首先，我们提供了集成学习的定量分析见解。其次，我们介绍了集成学习的基本概念和此外，我们提出了几种集成方法的结构和优点，缺点，和一般分类为每种方法。此外，我们还讨论了集成深度学习模型的不同策略最后，我们对集成学习在各种应用中的研究成果进行了综述本文的其余部分组织如下：第2节介绍了Scopus中索引的集成学习和深度学习技术的研究讨论的定量分析第3节介绍了集成学习的基础和影响任何集成方法的因素的全面概述。第4节概述了集成学习中的各种方法，并说明了基于深度学习模型的集成的一般第5节讨论了评价不同集成学习方法的几个标准。第6节回顾了集成学习在不同领域的几个应用。最后，第7节对本文进行了总结，并对未来的发展趋势进行了展望。2. 集成学习由于集成学习系统的强度和有效性集成学习是近年来的一个重要研究方向，在多个应用领域中集成学习的研究也越来越多因此，本节将在最强大的数据库之一“Scopus”中介绍这一重要趋势为了显示集成学习索引发表的文章每年增加的程度以及2014年至2021年集成学习的不同应用领域。这个数据库中的搜索查询是这些都是在文章中搜索到的A. Mohammed和R. Kora沙特国王大学学报759标题、摘要和关键字。图 1 显示了在上述时间段内，搜索词“Encourage Learning”每年发表的文章数量。该图显示，使用该术语的文章数量估计为25，262，表明集成学习趋势在几年内有所增加此外，图2显示了所有领域中讨论搜索词从图中可以看出，计算机科学领域拥有最高估计提及的文章数量，估计为16，782个文档。图3显示了在搜索者指定的时间段内，每年针对搜索词“Encourage Deep Learning”发布的文章数量该图显示，使用该术语的文章数量估计为6，173，表明研究人员对这一趋势的兴趣增加。此外，图4显示了讨论搜索词“Encourage DeepLearning in all fields”从图中可以看出，计算机Fig. 1. 2014年至2021年Scopus中搜索词“Enclusive Learning”的趋势图二. 从2014年到2021年，“Scopus”中搜索词“Encourage Learning”的不同字段A. Mohammed和R. Kora沙特国王大学学报760图三. 从2014年到2021年，“Scopus”中搜索词“Encourage Deep Learning”的趋势见图4。从2014年到2021年，“Scopus”中搜索词“Encourage Deep Learning”的不同领域《科学》被提及的文章数量最多，估计有4520篇。根据上述统计信息，很明显，集成学习和集成深度学习的研究由于其提高预测性能的能力而每年增长得更快。据估计，2021年使用“Enclusive Learning”和“Enclusive Deep Learning”的文章数量最多，估计分别为7160篇和2340篇。此外，集成学习和深度集成学习已经应用于多个领域，特别是计算机科学，集成学习和深度集成学习的使用率最高，分别为30%和35.1%。3. 集成学习任何集成学习系统的一般框架是使用聚合函数G来组合基线分类器的集合h，c1; c2;. ;c h，朝向预测单个输出。给定一个大小为n的数据集和维数为A. Mohammed和R. Kora沙特国王大学学报7611/2f我我Km; Dx i;y i;16i6 n; x iR m，基于该集成方法的输出的预测由等式（1）给出。1.一、y<$/xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx. ;c1图5示出了集成学习的一般抽象框架。所有集合都由基线分类器（分类器集合）的集合组成，这些分类器已经在输入数据上进行了训练，这些输入数据产生预测，这些预测被组合以产生聚集预测（Lakshminarayanan等人，2017年）。在如何选择经过训练的基线分类器方面，不同的策略有所不同。如图6所示，有两种策略根据基本分类器的性质（同质或异质集合）在基本分类器之间产生多样性（Seijo-Pardo等人，2017年）。Homoge- neous ensemble（da Conceição etal.，2015）由相同类型的基线分类器组成，每个分类器基于不同的数据。该策略中的特征选择方法对于不同的训练数据是相同的。同构形式的主要困难是从相同的学习算法中产生多样性。而异质集合由不同数量的基线分类器组成，（da Conceição et al.， 2016年），因为每个分类器是基于同样的数据。在异构分类器中，对于相同的训练数据，最后，齐次集成方法更吸引研究-因为它们更容易理解和应用。而且，构建同质集合比构建异质集合成本高（Hosni等人， 2019年）。通常，任何集成框架都可以使用影响其性能的三个特征来查看和第一个是对训练的基线模型的依赖性，无论它们是顺序的还是并行的。第二个特征是融合方法，其涉及使用不同权重投票或元学习方法来选择用于组合基线分类器的输出的合适过程第三个特征是所涉及的基线分类器的异质性，无论是同质的还是异质的。表1总结了流行的集成方法的特点在下文中，将详细讨论这些特性3.1. 数据采样数据采样方法的选择是影响集成系统性能的重要因素之一。在集成系统中，我们需要基线分类器的数据采样决策的多样性。在集成系统中，从训练数据集采样的方法有两种策略：独立数据集策略和表1集成方法的分类。方法依赖性融合方法异质性Bagging并行权重投票齐次随机森林并行权重投票齐次Boosting序贯权重投票齐次AdaBoost序贯权重投票齐次梯度Boosting序贯权重投票齐次极限梯度增强序贯加权投票图五. 围合的总体框架见图6。同质与异质系综的一般框架。堆叠平行Meta学习异构混合封装两两异质/均质A. Mohammed和R. Kora沙特国王大学学报762依赖数据集策略（Sagi和Rokach，2018）。在独立数据集策略中，（Ge等人，2020）是那些彼此不依赖的子集。相比之下，独立数据集策略（Hassan等人，2013）是彼此依赖的子集。使用独立数据集策略的主要优点是其子数据集不受其他子数据集的性能影响，而使用依赖数据集策略的主要优点是其子数据集受先前子数据集的结果影响。这两种策略中数据抽样方法的难点在于确定每个数据样本的最佳大小和最大样本数。此外，根据不同的集成方法确定数据样本的适当策略（Lu和VanRoy，2017）。3.2. 训练基线分类器基线分类器的多样性是集成系统中的第二个影响因素。任何基于集成的系统的核心是用于训练个体集成器的两种技术：顺序集成技术和并行集成技术（Huang等人，2016年）。在顺序集成技术（Sultana等人，2020年），由于数据依赖性，不同的学习者顺序学习。因此，由第一模型产生的误差由第二模型顺序地校正，如图7所示。因此，顺序方法的主要优点是利用基本学习器之间的依赖性（Saeed等人，2022年）。而在并行集成技术中（Tang等人，2020），同时生成基本学习者，因为不存在数据依赖性。因此，基本学习器中的每个数据都是独立生成的，如图8所示。这种技术的基本优点是利用了基础学习器之间的独立性。因此，通过一个模型与在另一个独立模型中发现的那些不同，允许集合模型计算出误差的平均值（Valle等人， 2010年）。3.3. 融合方法输出融合是指将基线分类器的输出整合到单个输出中有两种融合方法，投票方法和元学习方法。我们将解释见图8。并行集成的总体框架。在每种方法中如何实现对基线分类器的输出进行集成，它们的优点和应用它们的困难，以及为每种集成方法选择合适的融合方法。融合方法可用于独立或依赖的数据样本，也可用于par-bandwidth或顺序基线分类器。3.3.1. 投票方法投票方法通常用于分类或回归问题，以提高预测性能。此外，套袋法是套袋法和助推法的适宜组合方法。第一种融合方法是一种投票集成方法，它包括三种方法：最大投票法、平均投票法和加权平均投票法。我们将讨论每种投票方法的实施性质以及实施的优点和缺点。1. 最大投票：第一种也是最流行的投票方法是最大投票（Kim等人，2003年），通常被称为多数投票或硬投票。最大投票的想法涉及收集每个类标签的预测，并预测具有最多投票的类标签，如函数（2）所示。比如说，见图7。序贯集成的一般框架。A. Mohammed和R. Kora沙特国王大学学报763¼Mn¼Mnj¼1假设我们组合三个分类器C1、C2和C3，它们将以下分类分配给训练样本：[0，0，1]变为yω=mode [0，0，1]=0。我们将把样本归类为“0级”。最大投票法常用于装袋法。另一种最大投票是软投票。软投票涉及收集每个类别标签的预测概率，并预测具有最大概率的类别标签，如函数（3）所示。最大投票与软投票的区别在于，一旦我们知道任何基线分类器的预测，我们就不需要存储关于预测的概率分布的另一方面，软投票需要存储和使用所有的分布值，这使得它的计算量更大，存储成本更高。然而，在软投票中，我们可以使用各种方法来计算预测，例如计算最大或平均概率值（Delgado，2022）。一般来说，最大化方法的优点是简单易懂，是最简单的投票方法。最大投票方法的缺点包括使用几个基线模型的计算费用此外，当基线分类器的预测结果相同时，将每个预测乘以分类器的权重以产生加权和，然后将结果除以分类器的权重的和，这些权重可以用于计算每个类0或类1的加权平均值，如函数（5）所示。例如，假设分类器集合包含三个成员：C1（x）=[97.2，2.8]，C2（x）= [100.0，0]和C3（x）=[95.8，4.2]。它对集合成员具有常数权重[0.84，0.87，0.75]。计算类0yω0=（（97.2 * 0.84）+（100.0 * 0.87）+（95.8 * 0.75））/（0.84 +0.87 + 0.75）=97.763。计算类别1yω1 =（（2.8 * 0.84）+（0 *0.87）+（4.2 * 0.75））/（0.84 + 0.87 + 0.75）=2.235，将产生预测yω0。加权平均投票法比简单的平均投票法更准确。使用加权平均集合的挑战是选择每个成员此外，计算比平均投票法更昂贵，因为它需要计算所有基线模型的预测结果的加权平均值，这使得它几乎没有应用（Khan等人， 2020年）。Xwjxi可能不适合所有问题（Nti等人， 2020年）。yω¼mod½C1x;C2x;：：;Cnx]2其中yωa通过多数（复数）投票yωj¼1MWJ第1页ð5Þ每个分类器Cn。yωargmaxXwjPij3我第1页其中w加权平均，m是要平均的项的数量，应用于x值wj的权重，以及要平均的数据值年龄XJ其中wj是可以分配给第j个分类器的权重2. 平均投票：第二种投票方法是平均投票（Montgomery等人，2012年）。平均投票的想法是从多个模型中提取预测，并使用预测的平均值来进行最终预测。使用算术平均值计算平均预测，算术平均值是预测的总和除以如函数（4）所示的总预测。例如，假设分类器集合包含三个成员：C1（x）= [0.9，0.1]，C2（x）=[0.2，0.8]和C3（x）=[0.6，0.4]。平均预测如下：计算类0yω0 [0.9 + 0.2+0.6/3]= 0.566。并计算了类1yω1 [0.1 + 0.8 + 0.4/3] = 0.433，将产生预测yω0。从预测能力的角度来看，平均投票法具有最强的优势此外，它在性能上比多数表决更准确，并减少了过拟合。此外，平均投票是一个自然的竞争对手，以最大投票装袋方法。平均投票方法的缺点包括计算成本比最大投票方法更高，因为它需要平均所有基线模型的预测结果。平均化方法的一个局限性然而，情况并非如此，因为某些模型可能比其他模型更好（Hopkinson等人，2020年）。最大值为1X，最大值为4X我其中w ij 是第i个类别标签分类器3. 加权平均投票：第三种投票方法是加权平均投票，这是平均投票的一个稍微修改的版本（Krif-Shabgahi，2004）。加权平均投票的思想是给予基线学习者不同的权重，表明每个模型在预测中的重要性通过3.3.2. Meta学习方法第二种融合方法是元学习（Soares et al.，2004年），也被称为“学会学习”，这是学习者的学习过程。“元学习”一词涵盖了基于先前其他任务经验的学习。因此，它被用来通过基于实验结果改变学习算法的某些方面来改善学习算法的性能和结果。元学习方法与传统机器学习模型的不同之处在于，它涉及多个学习阶段，其中各个诱导器输出作为输入到生成最终输出的元学习器（Kuruvayil和Palaniswamy，2021）。在过去的五年里，人们对元学习的兴趣有所增加，特别是在2017年之后。随着高级机器学习算法的使用增加，训练这些学习算法的困难已经导致对元学习的兴趣增加。机器学习算法具有许多挑战，例如由于训练阶段的许多实验而导致的高操作成本，这需要很长时间才能找到针对特定数据集实现最佳性能的最佳模型。元学习通过改进学习算法和找到性能更好的学习算法来帮助应对这些挑战（ Kuruvayil 和Palaniswamy，2022）。此外，元学习的好处包括通过减少所需的实验数量来加快学习过程，帮助学习算法更好地适应不断变化的条件，以及优化超参数以实现最佳结果。此外，这种方法提供了一个机会，解决深度学习的许多挑战，包括数据大小、计算复杂性和泛化。元学习的挑战是以系统的、数据驱动的方式从经验中学习（Hospedales等人，2021年）。有许多元学习方法，其中最常见的是堆叠（Haghighi和Omranpour，2021）。为了实现Meta学习，无论是通过大量的可用数据集，¼ XA. Mohammed和R. Kora沙特国王大学学报764ð ÞXB或通过多个基线模型或多个Meta学习水平（Monteiro等人， 2021年）。4. 集成方法本节介绍两个方面。第一个方面包括最流行的集成学习方法的结构，并分别列出每种方法第二个方面介绍了深度集成学习的思想及其应用相对于传统集成学习的优势它还讨论了集成深度学习克服的深度此外，它还介绍了应用集成深度学习的不同策略以及每种策略的优点，并解释了可能影响其性能的因素。4.1. 常用集成方法三种流行的集成学习方法可用于改进机器学习过程：bagging，boosting和stacking。我们将讨论每种方法的工作性质此外，还将介绍每种方法的优点、缺点和4.1.1. 套袋Bagging方法（Breiman，1996），也称为Bootstrap聚合，是一种完全特定于数据的算法。它指的是从实际数据集创建多个小的数据子集。 Bagging的目标是通过调整训练数据集的随机分布来创建更多样化的预测模型，其中训练数据集的微小变化将导致模型预测的显著变化。Bagging 是 bootstrapping 和 aggregating 的组合的简写。在bootstrapping中，bootstrap上的集成模型的训练复制了训练数据集。总的来说，最终结果是通过对模型的预测进行多数投票来实现的，以确定最终预测。Bagging的优点是减少了变化，从而消除了过拟合。它在高维数据上也有很好的表现. Bagging的缺点是计算成本高，偏差大，而且会导致模型的可解释性丧失（Bühlmann and Yu，2002）。随机搜索（RF）算法（Breiman，2001）是装袋的一个很好的例子.实现装袋方法有几个挑战：确定基本学习器和子集的最佳数量以及每个子集的最大引导样本数量。此外，还讨论了对输出进行积分的融合方法的确定各种投票方法的基本分类器。总之，装袋方法使用并行集成技术，其中同时生成基线学习器，因为不存在数据依赖性并且融合方法取决于不同的投票方法。装袋功能如下（6）：B序列中先前模型处理得不好的数据集。Boosting和bagging一样，可以用于回归和分类问题。增强算法包括三种类型，即自适应增强（AdaBoost ）（ Freund 等人， 2003 ）、随机梯度提升（ SGB ）（Friedman，2001）和极端梯度提升（XGB），也称为XGBoost（Friedman等人，2000年）。一些研究应用了各种类型的提升。例如，AdaBoost算法在Sun等人（2016）中实现。用于噪声检测，Asbai和Amrouche（2017）用于语音特征提取。XGB算法在Haumahu等人（2021）中实现，用于假新闻分类。SGB算法在Shin（2019）中实现，用于建筑工地安全事故的早期预测。Boosting提供了模型的易于解释性，并有助于减少机器学习集成中的方差和偏差。Boosting的缺点是每个分类器必须修复前一个分类器中的错误。为了实现提升，几个挑战表现为在提升中缩放顺序训练的困难。它是计算成本高，更容易过度拟合时，增加迭代次数。最后，可以注意到，与bagging相比，boosting算法的训练速度可能更慢，因为大量的参数也会影响模型的行为。总之，boosting方法使用顺序集成技术，其中不同的学习器顺序学习，因为存在数据依赖性并且融合方法取决于不同的投票方法。升压功能如下图（7）所示：fxXathtx7不其中，从几个弱分类器ht x中创建强分类器ftx。这是通过从训练数据中构建一个模型，然后创建第二个模型来尝试纠正第一个模型的错误来完成的。4.1.3. 堆叠堆叠方法（Smyth和Wolpert，1997），也称为堆叠泛化，是一种用于组合来自多个预测模型的信息以生成一个新的模型（元模型）。堆叠模型的架构涉及两个或更多个基本模型（称为0级模型）和组合基本模型的预测的元模型（称为1级模型）。在0级模型（基础模型）中，模型适合训练数据，并且其预测被编译。然而，在1级模型（元模型）中，模型学习如何最好地组合基础模型的预测。用作元模型的输入的来自基础模型的输出可以是概率值，或者在分类的情况下是类别标签（Ma等人，2018年）。堆叠方法通常比所有训练过的模型表现得更好。例如，Dianjin等人（2018）提出了一种堆叠集成学习系统来预测西班牙的电能使用量，Qiu等人（2014）提出了一种堆叠集成学习系统来预测澳大利亚的电能使用量。堆叠的好处是更深入地分析数据，使其更加精确和有效。过度拟合是模型堆叠的一个主要问题，因为有太多的预fx1BfB1bxð6Þ所有预测被合并的相同目标的指示器此外，多层堆叠对数据来说是昂贵的（因为需要训练大量数据）和耗时的（因为每个层添加多个模型）。其中f b<$x<$ 弱学习者，1生成自举集。4.1.2. 提振Boosting方法首先由Freund和Schapire在1997年提出（Freund等人，1996），并且是顺序过程，其中每个后续模型尝试校正先前模型的误差。Boosting由以非常自适应的方式顺序地多个弱学习器组成，从而拟合序列中的每个模型，从而使观察更加重要。（Xiong等人，2021年）。Xiong等人（2021）。为了实现堆叠，在从头开始设计堆叠集成时，通过识别适当数量的基线模型和可以依赖于从数据集生成更好的预测的基线模型来表示几个挑战。此外，当可用数据量呈指数级增长时，解释最终模型的难度和计算时间复杂度也会增加。一个高度复杂的模型需要几个月的运行时间。最后，多标签分类的问题提出了许多问题，例如A. Mohammed和R. Kora沙特国王大学学报765XðÞ来自数据的高维性的过拟合和维数灾难（Chatzimparmpas等人，2020年）。总之，堆叠方法使用并行集成技术，其中同时生成基线学习器，因为不存在数据依赖性，并且融合方法依赖于元学习方法。堆叠功能如下图（8）所示：nfs xai fix81/1一个正式的堆叠概念：在这里，我们从几个模型 m1;m 2;m3：;mn中进行预测，以构建一个新模型，其中新模型用于对测试数据集进行预测堆栈试图增加模型的预测能力。其基本思想的堆叠是到“栈”的预测的m 1;m 2;m 3：;m n 单位一线性组合权值为a j;：; i<$1; 2;：; n。4.2. 深度学习近年来，深度学习或深度神经学习在各种任务中取得了一系列成就（Arel et al.，2010年）。深度学习架构在几乎所有与不同领域的机器学习相关的挑战中都取得了巨大的成功，例如 NLP（Mohammed和Kora，2019; Elnagar等人， 2020）、计算机视觉（Haque等人，2020; Brunetti等人， 2018），语音识别（Jaouedi等人，2020; Noda等人， 2015年）。机器翻译（Popel等人，2020;Popel等人，2020年）。深度神经网络模型是通过随机训练算法学习的非线性方法。这意味着它是高度灵活的，能够学习变量之间的复杂关系，并近似任何映射函数。这种灵活性的缺点是模型需要更高的方差。深度模型的高方差可以通过集成深度学习方法来解决，方法是针对问题训练多个深度模型并组合它们的预测。因此，集成深度学习方法是指训练几个基线深度模型，并结合一些规则来进行预测。Enclusive深度学习旨在有效地结合几种深度学习模型的主要优点，集成学习系统（Mohammed and Kora，2021）。尽管集成深度学习系统方法在提高预测性能方面很强大，但由于其简单性，大多数集成深度学习文献都集中在仅应用大多数基于深度学习模型的包围学习比基于传统分类器的集成学习更困难，因为深度神经网络包含数百万到数十亿个超参数，需要大量的时间和空间来训练多个基础深度学习器。因此，超参数是集成深度学习技术应用中的挑战。包围学习策略是在操纵数据水平或基线模型水平的背景下形成的。在数据层面的操作中，通过采样数据或交叉验证数据（重采样）来创建新的训练集，以训练不同的基学习器。在基本模型级别的操作中，深度学习的区别在于比传统或机器学习更多样化的策略，这是通过选择相同的模型来减少在集成基础深度模型中使用的超参数的数量的可能性以及改变超参数（Saleh等人，2022年）。图9示出了四种策略，通过这些策略，可以基于由下式表示的集成来进行深度学习：（A）使用相同的数据应用许多不同的基本模型。(B)使用相同的数据应用相同基本模型的不同结构。(C)使用许多不同的数据样本应用许多不同的基本模型。(D)使用许多不同的数据样本应用相同基本模型的不同结构。比较这些策略可以发现，策略A和策略C与深度学习模型和传统学习技术兼容。而策略B和策略D仅适用于深度学习模型，不能与传统学习技术一起使用，这使得集成深度学习策略多样化。此外，策略B和策略D使得集成深度学习能够通过改变超参数值中的一些来通过相同基本模型的不同结构来减少基线深度模型的超参数。除了这些策略之外，集成深度学习系统的强度还取决于集成系统的设计，从识别最有效的深度学习模型来解决问题，到确定适当的见图9。集成深度学习的不同案例。A. Mohammed和R. Kora沙特国王大学学报766¼-1/4¼¼基线深度学习模型的数量，例如三个或更多，并且还确定数据分割的最佳比率，例如专属性真实值ativeð12Þ(80-20或70-30或60-40）。此外，我们考虑可能影响深度集成系统的因素，例如定义数据生成的性质，训练深度基线模型，以及决定组合基线分类器输出的最合适的融合方法，如前所述。这三个因素影响了合奏系统的总体框架。5. 评价合奏其中，真阴性表示真阴性观测的数量，阴性表示阴性观测的数量在精确度和召回率指标之间通常存在权衡。试图加强一项措施往往会导致第二项措施的下降。因此，F-Measure通过计算精确度和召回率的调和平均值来量化这种权衡。更具体地说，这个度量在等式中定义。十三日：随着集成学习方法的出现，已经进行了大量研究来评估集成方法（ Hashino 等人， 2007; Zhang 等人， 2016; Das 和 Sengur ，2010;Hosni等人， 2019年）。评估对于确定F测量2x精度x召回精确度和召回率5.2.计算复杂度ð13Þ一定的集成方法的有效性。有几个评价集成的标准，包括预测性能。其他标准，例如计算复杂性或生成的系综的兼容性，也可能是重要的。在下文中，我们总结了不同的评估标准集成学习。5.1. 预测性能预测性能指标一直是选择分类器性能的主要标准。此外，预测性能度量被认为是客观和可量化的，因此它们通常用于实际的机器学习算法的基准测试。应用预测性能的第一步是使用合适的数据集。holdout技术是一种用于测量预测性能的典型方法，其中给定的数据集被随机分为两个子集：训练集和测试集。可以使用其他版本的保持方法。重新采样数据是正常的过程，这意味着以不同的方式将其划分为训练集和测试集。两种常见的重新采样方法包括随机二次采样和n倍交叉验证（Dai，2013）。存在用于评估集合模型的常见度量。准确性是最流行和最简单的指标之一，如等式中所定义。第九章：集成方法的计算复杂性是需要考虑的另一个重要方面。通常，计算成本是指每个系综模型所需的CPU时间量。计算成本分布在两个复杂性度量上：训练和创建集合模型的计算成本和预测新实例的计算成本因此，应解决这一指标问题在存储方面，较小的集成模型需要较少的内存来保存其组件。此外，较小的集合执行更快的预测。5.3. 其他标准除了计算复杂性和预测准确性之外，在选择最佳集成方法时还可以考虑其他因素。这些标准包括集成模型的可解释性、可扩展性、可用性和鲁棒性。可解释性（Carvalho等人，2019）是指用户理解总体结果的能力。然而，可解释性通常是一个主观的度量。可以帮助我们评估该标准的许多定量度量和指标之一是完整性度量。可以使用所涉及的分类器的数量和每个分类器精度数量真实预测1/4总预测次数109次分类器另一方面，可伸缩性是指集成方法在给定大的分类模型的情况下构造分类模型的能力。在某些情况下，准确性是不够的，可能是欺骗性的，评估具有不平衡类分布的集成模型。在后一种情况下，其他测量可以用作替代测量，例如召回率、精确度、特异性和F测量（Kadam等人，2019年）。召回率，也称为灵敏度，测量集成模型识别阳性样本的能力，如定义的那样，由方程式第十章：大量的数据。独立集成方法被认为比依赖方法更具可扩展性，因为集成方法中涉及的分类器可以并行训练。可用性是另一个度量，其评估用户对于理解如何调整他们采用的集成模型的偏好。一般来说，一个好的集成方法应该包含一组易于调整的控制参数6. 应用程序域回忆真阳性积极的ð10Þ本节重点介绍集成学习在不同领域的应用，使用传统或深度学习作为其中真阳性表示真阳性观测的数量，阳性表示阳性观测的数量另一个众所周知的性能指标是精度。它量化了有多少被分类为阳性的实例实际上是阳性的。形式上，精度方程定义为11：基线分类器。在一般情况下，我们简要总结了基线分类器，集成技术的使用，并在他们的实验中使用的域。6.1. 传统集成学习精度真阳性真阳性假阳性ð11Þ这一部分讨论了传统集成学习在各个领域的应用，包括图像分类，自然语言，同样，特异性衡量模型识别阴性样本的能力。方程定义为12：语言处理（NLP），以及其他。表2总结了机器学习A. Mohammed和R. Kora沙特国王大学学报767表2集成学习在机器学习方法中的应用。研究基线分类器融合方法域Shipp和Kuncheva（2002）NB投票医学图像Stamatatos和Widmer（2002）SVM投票音乐识别03 The Dog（2003）支持向量机，KNN投票医学图像Wilson等人（2006年）DT提振英语情感Tsutsumi et al. （二零零七年）SVM，ME堆叠英语情感Abbasi等人（2008年b）SVM提振阿拉伯情调Li等人（2010年）SVM，LR投票英语情感02 The Dog（2010）NB、ME、SVM堆叠华情绪Xia等人（2011年）NB、ME、SVM堆叠英语情感02 The Dog（2011）SVM、NB、ME投票命名实体识别Li等人（2012年）支持向量机，KNN堆叠华情绪Su等人（2012年）ME、SVM投票，堆叠华情绪Hassan等人（2013年）SVM提振英语情感罗德里格斯-佩纳戈斯等人（二零一三年）SVM投票英语情感克拉克和Wicentwoski（2013）NB投票英语情感Anifowose等人（二零一三年）RF套袋石油储层Shahzad和Lavesson（2013）NB、DT、KNN投票恶意软件检测Wang等人（二零一三年）SVM投票图像分类Cortes等人（2014年）DTAdaBoost医学图像库兹涅佐夫等人（2014年）DT、LRAdaBoost医学图像Fersini等人（2014年）ME、SVM、NB投票，装袋英语情感Wang等人（

下载后可阅读完整内容，剩余1页未读，立即下载