阿尔茨海默病预测中的多模态机器学习方法

37 浏览量更新于2024-01-17 收藏 2.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种改进的多模态机器学习方法在阿尔茨海默病预测中的应用Afreen Khan，Swaleha Zubair印度Aligarh穆斯林大学计算机科学系阿提奇莱因福奥文章历史记录：收到2019年2020年1月10日修订2020年4月2日接受2020年4月23日在线提供关键词：阿尔茨海默病痴呆机器学习模式识别管道A B S T R A C T阿尔茨海默病（AD）是最常见的神经系统疾病，导致大脑细胞死亡。它是全球老年人记忆丧失和认知能力下降的主要原因之一。早期发现和简化诊断实践是医疗保健界感兴趣的主要领域机器学习（ML）算法和许多多变量数据探索工具已被广泛用于AD研究领域。本研究的主要目的是提出一个自动分类系统来检索信息模式。我们提出了一个五阶段的ML管道，其中每个阶段被进一步分类为不同的子级别。该研究依赖于开放获取系列成像研究（OASIS）MRI（磁共振成像）脑图像数据库进行分析。该数据集包括343次MRI检查，涉及150名受试者。在分析中使用了三种不同的评分，即MMSE（简易精神状态检查）、CDR（临床痴呆评分）和ASF（Atlas缩放因子）所提出的ML管道构成了一个分类器系统，以及已嵌入实验和数据分析设计中的数据转换和特征选择技术。随机森林（RF）分类器的性能指标显示出最高的输出分类精度。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍卫生部门最近取得的进展极大地促进了人类生活水平的提高。然而，久坐的生活方式和额外的舒适，反过来又导致了各种生理疾病。例如，痴呆症和其他相关的神经系统疾病主要影响老年人。痴呆是一种慢性/进行性疾病，其中认知功能，即处理思想的能力，在自然衰老的预期之前缓慢恶化（Robinson等人，2015年）。思维能力、记忆、理解和定向、学习能力和计算、判断和语言以及其他认知能力也在痴呆的影响下受到影响（Chapman等人， 2006年）。*通讯作者。电子邮件地址：swalehazubair@yahoo.com（新加坡）Zubair）。沙特国王大学负责同行审查根据精神健康差距行动计划（世界卫生组织，2008年），宣布痴呆症是需要关注的优先健康状况（世界卫生组织，2008年）。此外，世卫组织进行的流行率和发病率预后研究声称，痴呆症患者的人数将不断增加，其中大多数是老年人。根据阿尔茨海默病协会2019年报告的全球统计数据此外，到2030年，病例总数可能达到7 600万全世界每年痴呆症的新病例总数接近770万，这意味着每四秒钟就有一个新病例（Prince等人，2013年）。AD病例的增长趋势是由于许多原因，如老龄化、人口增长以及与社会和经济发展相关的行为变化阿尔茨海默病（AD）是最常见的痴呆类型，几乎占痴呆病例的60-70%。存在各种类型的痴呆症，同样，路易体痴呆症，血管性痴呆症以及可能导致前颞叶痴呆症的某些疾病的集合（Nichols，2019）。AD本质上是退行性的，其表现为认知功能的进行性缓慢减弱，并随时间推移而恶化程序约需https://doi.org/10.1016/j.jksuci.2020.04.0041319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. 汗，S。Zubair/沙特国王大学学报2689在实际症状出现之前20年或更长时间，大脑中的微小变化对受影响的个体来说仍然是隐藏的（阿尔茨海默AD的发展通常始于轻微的症状，最终以急性脑损伤结束。通常，当参与记忆（认知功能）、思考和学习的神经细胞（存在于大脑中的神经元）经历自噬时，症状出现（Robinson等人，2015年）。随着时间的推移，这些症状会增加，并开始干扰个人最终，它达到了致命的地步阿尔茨海默氏症协会估计，为AD或相关痴呆症患者提供的护理时间价值6040亿小时（阿尔茨海默氏症事实和数据，2019）。对这些数据的分析表明，由于AD已成为一个主要的公共卫生问题，因此迫切需要采取补救行动。目前，没有治疗方法可以逆转或终止这种疾病的发展但是，如果在早期诊断，这种疾病是可以目前可用的工具不能保证其诊断具有100%的确定性。脑成像如MRI扫描连同测试记忆障碍症状的临床评估通常用于诊断AD患者（Pellegrini et al.，2018年）。只有在对病人的脑组织进行尸检后才能做出绝对的诊断。近年来，神经成像的进步提供了更好地了解神经相关复杂性的机会，这有助于早期和正确检测AD（Hanyu et al.，2010; Gray等人，2012; Liu等人，2014年）。AD的诊断需要许多医学测试，这些测试又产生大量多变量异质数据（Khajehnejad等人， 2017年）。由于医学测试的异质性，手动比较，分析和可视化这些数据似乎是一项艰巨的任务传统上，阿尔茨海默氏症由于其非侵入性特征和对患者无疼痛，它是广泛用于AD相关研究的有前景的工具（Lama等人，2017; Shamonin等人，2014年）。此外，基于MRI的分析可以在以后与额外的医学调查相结合，以获得一致的数据分类（Klöppel等人，2012;O'Brien，2007）。痴呆症的精确分类可以避免患者接受不必要的治疗。因此，AD的准确诊断和患者的正确分类是目前研究的主题。机器学习（ML）由于其在从多变量AD数据集中检测关键特征方面的独特优势，被广泛认为是AD模式分类和预测建模的方法（Khan和Zubair，2018）。通过采用各种生物标志物，几种ML算法已经成功地应用于区分AD患者与老年对照（其他方面健康）受试者（Falahati等人，2014年）。其中，已经制造了ML工具和技术来区分来自健康患者与受伤患者的MR图像（Shao等人，2014; Nasiri等人，2014年）。这些方法需要包含分类良好的主题的群体的训练集，即健康和患病的患者以及正确的诊断，以便将新测试的受试者分组为训练集的一类（Alam等人， 2017年）。一个给定的分析策略只有在分类器能够预测看不见的数据的正确分类时才能成功在本研究中，我们提出了一个用于识别痴呆症和非痴呆症患者的ML管道。所提出的假设模型设想了343名受试者的基于MRI的数据，其中包括一组痴呆和非痴呆的个体，以及包含该疾病临床前特征的额外改进。本研究的重点是比较和提出有效的分类方法，工作在一个相对更小的数据集。作为概述，管道构成了一个分类器，以及一个全面的模型评估系统，以及数据转换和特征选择技术，这些技术已经嵌入到实验和数据分析设计中。流水线策略的最终结果是具有最大能力的准确度列表，以检测和分类正确的患者集，如随机森林（一种集成分类器）所示。该工作流的一个值得注意的点是每个组件的个性，即其每个模块之间的独立性，例如分类器、特征变换和提取算法、数据探索过程、数据隔离方法和建模技术都可以与替代方法交换。为了进一步验证我们的方法，我们改变了各种实验条件，通过改变分类器参数，通过各个涉及的阶段。本文件分为几个部分。随后的部分总结了以前对AD诊断进行的研究的方法和结果。第三节介绍了材料和方法。第4节描述了所提出的方法：流水线. 第5节给出了实验结果。最后，第6节包括讨论，然后是结论，并概述了未来的方向。2. 材料和方法2.1. 数据集拟议的管道是采用从开放获取系列成像研究（OASIS）数据库中获取的MRI数据构建的。我们的研究仅限于纵向收集MRI数据在痴呆和非痴呆的老年人中。OASIS是一个公共领域数据库，它编译MRI数据集并将其提供给科学界。2.2. 获得的MR图像的详细信息所有结构MRI扫描均为T1加权，并在1.5特斯拉视觉扫描仪上采集。本文应用高分辨率MP-MRIMRI采集细节已在表1中报告（Marcus等人， 2010年）。2.3. 科目该数据集包括对150名年龄在60至96岁之间的受试者进行的343次治疗。它包括一个纵向部分的研究人口。表2列出了所有这些受试者的人口统计学资料。表1MRI采集详情。MR特征值TR（重复时间）9.7 msec TE（回波时间）4.0 msec翻转角度10°TI 20 msecTD 200 msec定向开关厚度1.25 mm间隙0 mm切片编号128分辨率256× 256（1× 1 mm）2690A. 汗，S。Zubair/沙特国王大学学报表2纳入研究的受试者的人口统计学状态总结人数78 72表4计分规则。属性名称描述痴呆（D）非痴呆（ND）SES（社会经济地位）根据描述社会地位的Hollingshead指数，SES被分为最高地位和最低地位的群体（Lynch等人， 2000年）。1最高地位0最低状态简易精神状态检查在MMSE评分中，值的范围为0至30（Arevalo-Rodriguez等人， 2015年）。2.4. 数据集描述低于10极端损害1019-25或以上正常该数据集包括373个观测值和15个属性（特征）。属性的详细描述见表3。CDR（临床痴呆评定）它是从与患者的半结构化讨论中获得的。评分范围为0- 3分（Morris，1993）。在数据集中，目标变量指定患者是否患有痴呆症。在本研究中，我们使用各种分数来确定健康大脑与受损大脑的状态。评分规则见表4。本研究中包括的受试者已被临床诊断为极轻度至中度阿尔茨海默病状态。受试者包括男女和所有右撇子。所有患者均接受相同的分析程序。所有对照组受试者都接受了神经心理学评估，包括简易精神状态检查（MMSE）和其他测试。所有对照组的受试者均采用与AD患者相同的扫描仪和程序进行MRI检查。首先，该数据集包含373个MRI会话，其中包括非痴呆、痴呆和转换的患者集。在首次访视（即访视= 1）时，某些患者被归类为非痴呆，在随后的访视中，这些患者被诊断为痴呆。因此，他们被归类为转化患者。因此，本研究期间仅考虑访视= 1的受试者表5显示了每个类别的患者数量，使得在该分析下研究的受试者总数达到150例。3. 工作流设计最近，ML在许多应用领域取得了显着的进步，从而有效地鼓励了ML新手的需求（Feurer et al.，2015年）。此外，一个强大的机器学习系统应该通过确定应用于数据集的特定机器学习算法，以什么方式进行预处理以及如何调整其超参数来解决基本挑战。表3数据集属性的详细信息。0无0.5非常轻微1轻度2中度3极度痴呆表5首次访视时每组的患者数量组（目标变量）的患者非痴呆72失智64转换14在本文中，我们提出了一个连续的方法，AD分类作为诊断AD的工具。该模型使用ML算法学习数据，并将数据分类为健康或非健康的AD患者。我们使用Anaconda的Spyder平台作为实验环境，它使用Python库。Spyder平台展示了一个定义良好的框架，供开发人员处理、构建和评估他们的模型。Python是一种解释型和更高级的编程语言，包含动态语义。4. 管道：拟议模型管道通过考虑数据转换的线性序列进行操作，这些数据转换以这样一种方式连接在一起，最终形成一个可以进一步评估和实现的模型。其目的是确保管道中的所有步骤此外，它仅限于用于评估的可用数据集，例如，训练数据集，测试数据集或交叉验证数据集。所提出的流水线是一个五级顺序模型。每个属性名称属性描述级别由子级别组成，子级别作为线性序列维护。图图1示出了所提出的方法的各个步骤。年龄扫描期间患者ASF Atlas比例因子CDR临床痴呆率评分EDUC患者受教育年限eTIV实验颅内总体积结果组痴呆、非痴呆或转化右手还是左手M/F患者MMSE简易精神状态检查评分MR延迟磁共振（MR）延迟是在实际执行图像采集之前给定的延迟时间每例患者nWBV标准化全脑体积结果的MRI IDSES患者的社会经济状况受试者ID患者识别号访视每位患者的访视次数法以下是所用模型的工作程序（图1）。①的人。第一阶段包括数据准备，包括MRI数据的预处理。这涉及以下步骤：数据收集、数据可视化、特征选择和数据转换。这个初始级别以一种更简单的方式处理数据。该方法处理缺失的数据，删除现有的离群值，归一化到一个特定的范围，并选择功能的基础上，他们的影响力。此外，数据可视化有助于我们在更广泛的层面上看待原始数据，展示数据之间的分布，相关性，偏斜度。第一级的输出用作第二级的输入，即，干净的数据。第二层由数据组成，男性40 D月22女性38 D50 ND年龄：范围（年）60–96平均值±标准差77.01 ± 7.64中值77.0A. 汗，S。Zubair/沙特国王大学学报2691Fig. 1. 推荐型号的推荐管线。隔离，涉及将数据集分割为训练数据、测试数据和验证数据。然后在第三层中使用分割数据进行模型构建。第三阶段包括模型训练、模型评估、交叉验证和通过模型验证进行超参数调整4个子层次。这包括ML的实际工作，其中训练各种ML分类器，基于生成的准确度评估模型，执行交叉验证和参数调整以提高准确度。模型评估是通过采用各种ML算法进行学习和模型生成数据的分类来进行的。下一个级别是模型预测级别，它评估第三步中生成的模型它在测试集上预测模型，从而将该组分别分类为AD或非AD患者最后一个阶段，即第五个是性能评估层，通过图形化的方式说明模型的性能，从而提供对模型的深入了解。流水线的5级工作流设计按照顺序进行维护。在下面的部分中，我们将详细讨论上述方法。4.1. 数据预处理数据是技术的燃料。迄今为止存在的绝大多数数据是不一致的、嘈杂的并且缺乏某些趋势和行为，因为它由许多错误组成，这些错误使其非结构化（Sivarajah等人，2017年）。去除这种噪声仍然是归纳ML中最困难和最具挑战性的任务（Teng，1999）。为了将这种非结构化数据转换成有组织的数据，即结构化数据，应用数据预处理步骤（Khan等人，2019年）。也称为数据准备，因为它是构建工作ML模型的第一个也是最重要的阶段。此外，它显著影响 ML 算法的泛化性能（Kotsiantis等人，2006年）。它包括4个基本水平，这是通过保持一个连续的顺序，如图所示。二、在该步骤中，使原始MRI数据运行4个步骤（如上图所述）。接下来是对数据集的分析，以弄清楚如何将其转换为有用的信息，这些信息可以作为输入插入到所选模型中这个过程-图二. 数据预处理阶段的示意图。以线性方式跟随dure，然而在所有方面，它倾向于以许多循环迭代，直到完成干净的数据。4.1.1. 步骤1：数据摄取数据摄取是收集数据并准备数据以供分析的过程。它由三个主要步骤组成，称为ETL（提取：从其位置获取数据，转换：数据清理和规范化，加载：将数据放入数据库中，从中可以进一步探索）。我们将此步骤分解为3个子步骤，描述如下：1. 收集数据：从OASIS数据库收集所需数据2. 调用库：库是方法和函数的集合，可以执行各种操作。我们使用的三个基本库是Numpy，Matplotlib，Pandas和Seaborn。Numpy用于科学计算，Mat- plotlib是用于绘制图表和图形的库，Pandas用于数据分析和数据操作， Seaborn 是数据可视化的最佳工具（Matplotlib的升级版本）。3. 对数据集进行加密：我们将数据集以CSV格式导入Anaconda环境的Spy- der平台Pandas库用于导入数据集。2692A. 汗，S。Zubair/沙特国王大学学报4.1.2. 步骤2：数据可视化数据可视化与执行探索性数据分析（EDA）的概念有关。EDA是一种数据分析技术，其本身是用于获得可用数据的图形和统计洞察力的各种工具和方法的集合。NIST/SEMATECH统计方法电子手册将EDA定义为一种数据可视化过程，可扩展对数据的理解，揭示潜在结构，检测不一致性和离群值，找出重要特征并确定最佳因子设置（NIST/SEMATECH统计方法电子手册，2003）。在数据摄取步骤中，我们专注于通过在进入下一步之前提前执行EDA来确定不同MRI测试特征与患者分类组之间的关联。这有助于我们理解数据的子分类，并使我们能够在后期为模型选择正确的分析方法。为了全面了解MRI数据集，我们执行了许多EDA方法，其中3种方法在下面讨论。1. 发现异常值：异常值是与其他观察结果显著不同的数据点（Kwak和Kim，2017）。它以一种有助于特征之间比较的方式呈现定量数据的分布。图3展示了离群值检查的箱须图，从中可以推断出年龄、EDUC、SES、MMSE、eTIV和nWBV特征列显示离群值，而其他特征列无离群值。2. 确定偏度：通过绘制分布图来确定特征的线性。这个情节被用来研究因变量和自变量的偏度。从图4中可以得出结论，组、M/F、年龄特征列似乎呈正态分布，而EDUC、SES、MMSE、CDR、eTIV、nWBV和ASF所有自变量均经历偏态。3. 发现结构相关性：它由散点图矩阵确定，该矩阵用于绘制数据集中所有特征的多个成对二元分布。它构建在两个图形上-散点图和分布图（通过直方图）。下三角形和上三角形上的散点图显示了两个变量之间的相关性，如图中的点所示。而对角线上的直方图显示了特定变量的分布因此图图5展示了整个数据集的配对图，它提供了一个有价值的见解，表明除了MMSE之外，大多数特征都是正态分布的，MMSE严重左偏。此外，其他EDA技术用于研究自变量对因变量的影响，即患者分类组为AD或非AD。我们在之前的研究中进行了全面的探索性数据分析（Khan和Zubair，2020）。外推以下特征：年龄在60 - 90岁之间，痴呆患者受教育程度较低，SES痴呆发生率随着我们从最高状态（1）到最低状态（5）而显著增加，非痴呆组MMSE评分更高，CDR评分为0.5（极轻度痴呆）的个体数量更多，评分为1（轻度痴呆）的个体数量略少，评分为0（无痴呆）的个体数量极少，发现痴呆患者的eTIV更高，非痴呆组的CDR = 0（非痴呆）、CDR = 0.5（极轻度痴呆）、CDR = 1（轻度痴呆）之间的nWBV差异显著，即p <0.01。4.1.3. 步骤3：功能选择在这一步中，机器自动选择那些有助于预测变量或输出的特征。用于训练ML模型的特征集极大地影响了准确性，从而影响了模型的性能。一般来说，特征被分类为相关（影响输出），不相关（对输出没有影响）和冗余（当一个特征可以执行其他特征的任务时）。特征选择的主要目标是丢弃不相关和冗余的特征，从而降低数据维度并允许ML算法有效地执行（Kotsiantis等人，2006年）。在建模之前执行特征选择，有助于减少过拟合，减少训练时间，最终提高精度。在目前的数据集中，我们发现了某些相关和某些不相关的特征。相同的中不存在冗余特征集。为了发现显著特征，我们执行了下面提到的特征选择方法。图三. 用盒须图检测异常值。A. 汗，S。Zubair/沙特国王大学学报2693见图4。用分布图确定偏度。图五. 双变量成对分布。1. 单变量选择：此特征选择类型应用卡方统计检验从数据集中选择与因变量关系最密切的特定数量的特征。我们将此方法应用于MRI数据集，以选择8个最佳特征。这导致选择一组特征，即M/F（0）、年龄（1）、EDUC（2）、SES（3）、MMSE（4）、eTIV（5）、nWBV（6）和ASF（7），如图6所示。结果表明，这些特征与痴呆/非痴呆群体的相关性最强。2694A. 汗，S。Zubair/沙特国王大学学报2. 特征重要性：当应用时，此方法会为数据集中的每个特征产生最高分数表明该特定特征对因变量的相关性和重要性该特征选择方法的结果支持具有最高得分的CDR，如图1B中所示。7.第一次会议。然而，我们在建立ML模型之前放弃了研究中的CDR功能，因为CDR是一个可能导致模型不太准确的评级因素。在使用这种自动选择方法之前，我们手动选择了特征。所选的一组特征导致了更高精度模型的开发。此外，CDR是痴呆症评级因子，其被分类为3个评级，即：0、1和2，这并不有助于模型构建，而是在模型构建阶段之前，在痴呆症和非痴呆症患者组的划分期间有帮助。3. 相关性矩阵：相关性是确定特征彼此关联的程度的度量，更具体地，目标变量（Alhaj等人，2016年）。它可以是积极的或消极的。正相关意味着如果特征的单个值增加，则目标变量的值也增加，而负相关表示如果特征的特定值增加，则导致目标变量的值减少。因此，为了构建ML模型，我们使用Heatmap确定了相关矩阵。热图是数据的图形说明，有助于识别与因变量高度相关的特征集。模型建立的一个必要条件是去除相关变量。与热图的相关矩阵如图所示。8.第八条。较深的阴影表示正相关，而较浅的阴影表示负相关。在测试相关自变量时，目标变量（即Group）被删除。从图中可以看出，访视和MR延迟密切相关。然而，我们在模型构建中也删除了此功能，因为它在确定AD或非AD组的类别中没有作用。因此，我们可以推断，eTIV与M/F呈正相关，而与ASF呈负相关。在进行单变量和多变量分析后，我们将相关特征集输入ML模型进行训练，包括：Group，M/F，Age，EDUC，SES，MMSE，eTIV，nWBV和ASF。我们放弃了其余不相关的特征，因为这些特征可能会对我们的模型性能产生负面影响，从而降低准确性。4.1.4. 步骤4：数据转换为了避免使用不干净的数据，其中大部分占据无关的功能，离群值和重复，数据集被清理。这些数据必须转换成另一种比额表，以便于使用。从上一步（步骤3）收集的数据不适合我们的ML算法使用，因为这些数据不完整，不一致，并且包含许多错误和缺失值。在处理完数据集中的所有不一致、重复、错误和缺失数据之后，我们也进入了数据转换步骤，见图7。使用特征重要性进行特征选择。称为特征工程。以下是我们在此阶段执行的步骤：1. 处理缺失数据：在我们早期的一项研究中，我们对插补和非插补在同一纵向MRI数据集上诊断AD的影响进行了广泛评价（Khan和Zubair，2019）。如第3节所述，整个研究期间仅考虑了首次访视受试者，因此在本分析中共研究了150例受试者，数据集中存在几个缺失值。缺失值是指某些要素的一行或多行不包含值的值。在我们的MRI数据集中，对于访视= 1的150例受试者，仅SES特征列包含缺失值（由紫色背景上的黄线表示）。代表缺失值计数的热图如图所示。9.第九条。由于SES列中有8个缺失记录，这些记录应删除或仅在数据预处理阶段进行插补为了克服这个问题，我们在数据集上应用了两种方法-删除缺失值和插补缺失值。这有助于后来建立我们的模型，因为这两种方法之间的准确性存在a) 删除缺失数据：删除了与8个缺失值有关的行，从而使用于训练、验证、测试目的的数据集仅等于142名受试者b) 缺失数据的插补：该方法涉及预测数据集中缺失的一组数据值。通常，它用适当的估计值（例如，平均值或中位数）替代缺失值。接下来，它将标准的完整数据技术应用于填充的数据。插补的主要目的是减少缺失值引起的偏倚，从而提高模型效率（Pampaka等人，2014年）。在这一过程中，我们对缺失数据值应用了中位数法插补，从而将数据集留给所有150名受试者进行训练、验证和测试。2. 标签编码：到目前为止，我们对连续数字特征进行了预处理数据集具有分类特征图六、使用卡方统计检验的单变量特征选择A. 汗，S。Zubair/沙特国王大学学报2695SD：四分之一见图8。使用相关矩阵和热图进行特征选择。其中：xn =新值x =原始值第二种是标准化方法，它扩展到一个范围，导致平均值为0，标准差为1，由以下公式给出。标准化：xs¼x-mð2Þ见图9。缺失值的示意图。同样，例如患者同样，群体也有两个层次--痴呆或非痴呆，性别也有两个层次，即男性和女性.这些字符串值需要转换为数字形式，因为ML模型是基于数学计算的。因此，我们将这两个分类特征编码为数字形式。3. 特征缩放：数据预处理的最后一步是应用特征缩放技术。该方法将变量范围限制在特定尺度上，以便在共同基础上进行比较，即标准化独立特征的尺度。通常，有两种技术用于特征缩放：归一化和标准化。归一化是一种在0和1之间缩放特征的方法，保持它们彼此的相对范围，通过使用等式（一）.在一组特征中，最大值和最小值之间通常存在巨大差异，例如0.001和1000。这样的范围的值需要被归一化以将它们缩放到相当低的值（Kotsiantis等人， 2006年）。正常化Xx-最小值x1最大值x xx其中：xs =新值x =原始值m =平均值sd =标准差因此，有必要将所有特征转换为相同的比例。我们将标准化方法应用于所选列的每个观察结果，以便将其拟合到确定的尺度。这种方法使模型执行得更快，因此在构建ML模型之前使用。因此，所提出的管道的第一阶段以数据转换方法结束，在该方法中我们获得干净的数据集。一旦数据被清理，所有对数据的更改都将在进一步的阶段中被摄入机器学习模型。4.2. 数据隔离从数据准备步骤获得的干净数据被进一步隔离。这一阶段的主要目的是避免过度拟合，过度拟合集中在次要细节和噪声上。它们只优化训练数据集的准确性。因此，我们需要这样一个模型，它可以在以前从未见过的数据集（即测试数据）上正确执行。这被称为泛化。我们通过以下称为分裂数据的方法来实现这一点。拆分数据：这是将可用数据分为三个部分的过程一部分数据用于开发预测模型，而另外两部分用于评估模型的性能。图 10描述了我们模型中使用的划分的状态。我们将数据集分为3个集-训练集（TR），测试集（TS）和验证集（VS），以训练模型，测试它并验证它如何针对新数据运行我们在TR集上训练了ML模型2696A. 汗，S。Zubair/沙特国王大学学报见图10。数据隔离阶段的示意图。这样他们就可以在TR集合中查找任何相关性，理解它们，然后在TS集合上测试模型，以检查它预测的准确性。我们为TR集和TS集分配了随机选择的数据，而不是80：20的比例，因为这有助于机器在每次运行模型时进行新的组合，从而使预测具有更高的准确性。在剩余的TR数据中，再次将其拆分为训练集和验证集。验证数据集用于确定超参数，如学习率和正则化参数。当模型在VS集上有效执行时，我们停止使用训练集进行学习。当VS集在多次迭代后出现过拟合时，问题出现了，因为我们使用VS集来调整参数以提高其精度。模型因此，在这个数据分离阶段，我们采用的数据分离的整体过程，总结为-用剩余部分的数据训练模型，用VS集进行参数调整最后对TS集进行性能评价4.3. 建模ML模型是对现实生活过程的数学描述。构建模型涉及训练ML算法，该算法可以从特征（独立变量）预测标签（目标变量），对其进行调整，并在保持数据上对其进行验证为了生成这样的模型，训练数据被提供给ML算法，它从那里学习。继续我们的方法，第二阶段的输出，即一组干净的分割数据，作为这一级别的输入，其中使用从数据隔离阶段获得的训练数据集构建实际模型。建模阶段的输出是一个经过训练的模型，可用于解释，对新的数据值进行预测。此阶段的目标不是开发一个在训练数据上正确运行的模型，而是其主要目标是满足创建此模型背后的议程需求，并且可以部署在真实数据上。以下是图11中线性示出的4个级别，它们属于所提出的流水线的第三级别。每个过程都将在以下部分展开和解释。4.3.1. 第一步：模型训练这是一个ML分类器从训练集获得见解并在训练周期内学习其参数的过程，以减少损失或在训练集上执行的差。在这种情况下，当训练学习时，ML算法（分类器）通过训练数据传递。分类器揭示训练数据中的模式，使得输入的参数对应于目标变量。模型训练过程的输出是一个ML模型，见图11。模型构建阶段的水平图形表示。用于构建预测。这种做法也被称为学习特别是，我们的目标是开发一个系统，用于输入-输出转换的明确任务，在该系统中，我们可以以最高的准确度成功地确定痴呆和非痴呆患者组的分类。在我们的数据集中，由于我们的目标变量（因变量）只有两组值：痴呆和非痴呆，因此为了预测这组值，给定独立的特征集，我们应用下面描述的17个监督ML分类器进行模型训练。我们在选定的模型上工作，因为它产生了更准确的结果。准确度低于50%的模型被删除，不包括在研究中1. AdaBoost（Adaptive Boosting）分类器：主要关注二进制分类问题。它是一个集成分类器，元估计器包围分类器通过组合几个ML分类器来执行。AdaBoost对弱ML分类器进行操作，从而产生强分类器。它是一个元估计器，这意味着它首先在训练数据集上进行分类器拟合，然后在同一训练数据集上拟合分类器的附加副本。不同之处在于，错误分类的事件的分配权重以这样的方式改变，使得随后的分类器更加强调分类情况（Cao等人，2013年）。该分类器更常用于进一步提高任何ML算法的性能。此外，它们在给定的分类问题上获得了比随机似然更高的精度。2. Extra Trees（Extremely Randomized Trees）分类器：这个分类器是一个非常随机的树分类器，用于集成方法。它与决策树分类器的构造方式不同此外，它们比随机森林分类器快得多它通过聚集在森林形式的结构中收集的歧管分离的决策树的结果来操作，它采用了一种元估计器，该元估计器通过在不同的数据集特征上拟合几个随机化的决策树（即额外的树）来操作（Geurts等人， 2006年）。该方法控制过拟合，并利用平均法提高分类器此外，额外树森林中的每个决策树都是从初级训练集构建的。3. 梯度提升分类器：梯度提升是一种ML技术，它生成这样的预测模型，该模型是弱预测模型（通常是决策树）的集合（Natekin和Knoll，2013）。它将几个弱ML分类器组合在一起，构建一个强分类器。它构造了一个模型，在一个向前的阶段明智的方法。此外，它提供了随机可微损失函数的优化。该分类器基于AdaBoost分类器的原理，优于AdaBoosting方法。在这种情况下，AdaBoost方法与加权最小化融合，然后分类器和加权输入都A. 汗，S。Zubair/沙特国王大学学报2697-重新计算。梯度提升分类器的主要目的是最小化所产生的损失，即，训练集的真实类值与测试集的预测类值之间的差值4. 随机森林分类器：它是一种元估计ML分类器，作为集成技术操作。准确地说，它包括许多不同的决策树，作为一个整体。它在原始数据集的不同子样本上拟合了几个决策树分类器（Denisko和Hoffman，2018）。在随机森林中，每一棵独立的树都给出了类别预测。由主要投票组成的类是最终的结果模型预测。此外，它使用平均技术来提高精度，也，它调节过拟合。它由大量适度不相关的树组成，这些树作为一个组运行然后，该集成组比任何特定组成分类器都表现得更好在这方面，模型之间的低相关性是战略思想。与单成分模型相比，作为一个组运行的不相关树的数量越多，结果越好。5. 高斯过程分类器：高斯过程分类（GPC）以拉普拉斯近似方法为核心。对高斯分布后的非高斯分布采用拉普拉斯近似高斯过程是一种随机方法也就是说，它是一组按时间/空间索引的随机变量。每一确定的随机变量组均服从多元正态分布。包括高斯过程的ML算法采用懒惰学习方法和从训练数据预测目标特征值的相似性度量（Csató等人，2000年）。此外，它是一种基于贝叶斯方法的非参数方法在这方面，它假定一定的先验分布的基础上的基本概率密度，以确保在提高效率。然后通过对训练数据给出良好拟合的分类来确定所得到的6. 逻辑回归CV分类器：逻辑回归是用于分类问题的基本ML分类器之一它使用逻辑函数，它是建立在sigmoid函数的框架sigmoid函数接受0到1之间的任何实数。在这种情况下，因变量作用于伯努利分布的轮廓;其中通过最大概率实现近似。因此，逻辑回归CV分类器实现了正则化逻辑回归分类算法。它有一个内置的交叉验证功能。此外，它通过使用liblinear库进行优化liblinear库比其他库有优势，因为它支持L1和L2正则化（Pedregosa和Varoquaux，2011）。7. 被动攻击分类器：它是一组在线学习算法，适用于ML分类和回归方法。在此，特别分析了二进制和多类分类、回归、序列预测和单类预测中的每一种不同算法（Crammer和Dekel，2006）。这种统一的分析允许寻找最坏情况下的损失约束，这些不同的算法。这里，分类是基于从数据中学习不适合主存储器的方法。该在线分类器采用部分拟合方法，其中模型是分批训练的。应用HashingVector- izer，其确保特征空间随时间继续相同。该矢量化器将每个数据样本投影到统一的特征空间中。8. Ridge ClassifierCV classifier：Ridge classifier包含一个内置的交叉验证工具。默认情况下，它实现了一个通用的交叉验证方法。该方法是一种交叉验证方法，其中交叉验证以留一法的方式应用（Pedregosa和Varoquaux，2011）。该方法不同于Logistic回归分类器。不同的是Eence是基于在其函数中使用的L2正则化。最初，目标变量以+1和1值生成，以其所属的类为中心。接下来，构造岭模型来预测目标数据集。这里，损失函数等于均方根和L2惩罚。如果预测值导致大于0的值，则由模型执行的预测被分类为正类，否则为负类。9. 随机梯度下降（SGD）分类器：它是一种有效的ML分类器，用于线性分类器（如Logistic回归和支持向量机）的基于判别的学习。它实现了正则化线性分类器以及SGD学习。它所拟合的模型通常用损耗参数来调节。损失函数的梯度是通过一次获取每个样本来近似的，从而同时更新模型（Robbins和Monro，1951）。SGD分类器最适合分类为浮点值稀疏或密集矩阵的数据（Ruder，2016）。与其他几个监督ML分类器相比，该分类器是有效的，并且可以很容易地实现。不过，它需要很多超参数。例如几次迭代和正则化参数。此外，它对特征缩放敏感，这是SGD分类器的主要缺点之一。10. 感知器分类器：它是一种广义的计算模型，用于采用线性可分函数。它是一个二元ML分类器，基于与SGD分类器类似的基本概念二元分类器是确定其所属的给定输入的特定类别（由数字向量表示）的分类器通常，它聚合给定的输入即加权和，如果加权和大于阈值，则输出1; 否则返回等于0的值（Gardner和Dorling，1998）。它采用阈值函数，其操作通过将其输入值（实值向量）映射到输出值（单个二进制值）。基于输出为0或1，Perceptron分类器执行肯定或否定分类任务。11. 朴素贝叶斯（NB）分类器：它是一种基于贝叶斯定理的统计ML它通过假定在给定类别中，特定特征的效果保持独立于其他特征集来操作。这个概念被称为类条件独立性。以下两类NB分类器是基于它们制定的关于分布的假设定义的。(a) BernoulliNB分类器：它是一种用于多变量建模的朴素贝叶斯分类器。它可以处理布尔（二进制）特性。它实现了基于多元伯努利分布的NB分类器换句话说，BernoulliNB假设每个特征都是二进制值，尽管训练数据集可能包含多个特征。(b) GaussianNB分类器：它是一种朴素贝叶斯分类器，当特征具有连续值时使用。它假设所有的特征集都遵循高斯分布，即正态分布。13. KNeighbors分类器：这种分类类型是一种基于实例的学习。它收集训练数据的实例，而不是构建一个通用的内部模型。KNeighbors class-sifier只查看那些与分类器试图预测的实例非常接近的观察结果（Zhang，2016）。它以K个最近邻为中心进行学习，其中K高度依赖于数据，并表示由用户指定的数值。此外，它是一个非参数ML分类器。术语它每-2698A. 汗，S。Zubair/沙特国王大学学报与大量特征相比，利用较少数量的特征集有效地形成。14. 决策树（DT）分类器：它是一种树状结构，由根节点、内部节点、叶节点和分支组成顶部节点是根节点，内部节点表示特征（属性），叶节点表示结果，

下载后可阅读完整内容，剩余1页未读，立即下载