开源数据挖掘工具在医疗保健行业中的应用评估：挑战与建议

84 浏览量更新于2024-01-27 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

制作和主办：Elsevier沙特国王大学学报医疗保健行业Judith Santos-Pereiraa，Le Gruenwaldb，Jorge Bernardinoa，c，aPolytechnic of Coimbra，ISEC，Rua Pedro Nunes，Quinta da Nora，3030-190 Coimbra，葡萄牙b俄克拉荷马大学计算机科学学院，110 W。博伊德街，Room 150 DEH，73019 Norman，Oklahoma，USAc科英布拉大学信息学和系统中心，Pinhal de Marrocos，3030-290 Coimbra，葡萄牙阿提奇莱因福奥文章历史记录：2021年2月3日收到2021年5月3日修订2021年6月1日接受2021年6月8日网上发售保留字：数据挖掘医疗开源数据挖掘工具A B S T R A C T医疗保健行业变得越来越具有挑战性，需要从大量复杂数据中检索知识一些作品建议使用数据挖掘工具来克服这些挑战，但是，没有一个建议这样做的最佳工具。为了填补这一空白，本文提出了一个流行的开源数据挖掘工具的调查，其中数据挖掘工具的选择标准的基础上，医疗应用程序的要求，并确定最好的使用建议的选择标准。评估了以下流行的开源数据挖掘工具：KNIME，R，RapidMiner，Scikit-learn和Spark。该研究表明，KNIME和RapidMiner提供了医疗保健数据挖掘需求的最大覆盖范围版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言49692.医疗保健中常用的数据挖掘方法2.1.分类49702.2.集群49702.3.协会49702.4.异常值检测49703.医疗保健应用程序的数据特征3.1.大量数据49703.2.云数据49713.3.数据流49713.4.多个数据源49713.5.不同的数据类型3.6.肮脏的数据49713.7.复杂数据49714.医疗保健数据挖掘工具的关键功能4.1.性能和可扩展性49724.2.数据访问49724.3.数据准备4972*通讯作者：科英布拉理工学院，ISEC，Rua Pedro Nunes，Quinta da Nora，3030-190 Coimbra，Portugal.电子邮件地址：santosj@hotmail.ca（J. Santos-Pereira），ggruenwald@ou.edu（L. Gruenwald），jorge@isec.pt（J. Bernardino）。沙特国王大学负责同行审查https://doi.org/10.1016/j.jksuci.2021.06.0021319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com桑托斯-佩雷拉湖Gruenwald和J. Bernardino沙特国王大学学报49694.4.数据探索和可视化49724.5.高级建模49724.6.用户体验49725.数据挖掘工具选择标准49736.开源数据挖掘工具49736.1.小行星49736.3.RapidMiner 49756.4.Scikit-learn 49766.5.小行星49767.数据挖掘工具比较49788.相关工作。...................................................................................................................................................................................................................................................... 49799.结论和今后的工作4980竞争利益声明参考文献49801. 介绍医疗保健行业每天都会从多个数据源生成大量复杂的数据，例如电子病历、医疗报告、医院设备和计费系统（Strang 和Sun ，2020）。这些由医疗保健交易产生的大量数据过于复杂和庞大，无法通过传统方法进行处理和分析。事实上，一些研究已经建议使用称为数据挖掘的高级数据分析技术来克服这些数据挑战（Strang和Sun，2020）（Gonzalez等人， 2016年）。数据挖掘是从大量数据中发现有趣模式的过程（Han等人， 2012），其中标准统计探索性数据分析程序（传统统计学）无法发现有用的见解（Hand et al.，2000年）。目前，在医疗保健行业，传统的统计方法被视为主要的数据分析技术，数据挖掘被视为次要技术，因为医学研究人员和医疗保健从业者对数据挖掘领域的接触有限（Reddy 和Aggarwal，2015）。虽然这两种技术的基础都是数学，但数据挖掘将其扩展到其他学科，如机器学习，数据库系统和可视化，这比传统的统计技术带来了重要的收益（Tekieh和Raahemi，2015）。数据挖掘工具是能够分析大量数据以发现有意义的模式并预测结果（Tan等人，2006年）。一些数据挖掘工具具有数据清理功能，可以自动执行数据清理过程，并能够从不同的数据类型（如数字、文本、文档、图像、图形、语音、音频和视频）中提取有价值的信息。这种类型的工具允许从数据中提取有价值的信息，也称为数据库中的知识发现（KDD）（Almeida和Bernardino，2016）。此外，数据挖掘工具具有执行归纳分析的能力。在研究人员试图了解未知的健康状况的情况下，这种能力是至关重要的;由于不太了解状况，研究人员很难通过数据分析来创建一个假设来证明或拒绝。此外，这些工具能够考虑整个数据集进行分析，这可以为研究带来新的见解。在本文中，我们选择分析开源数据挖掘工具，而不是亲，由于其免费的购买成本，这是一个重要的方面，医疗保健研究人员谁往往工作的非营利组织或项目的预算有限。目前，开源数据挖掘工具种类繁多，但其供应商通常没有明确地说明其应用领域，使用户在选择应用工具时无所适从。因此，本文的目的是提出数据挖掘工具的选择标准，并提出一个流行的开源数据挖掘工具，已建议为医疗保健行业（Sharma等人，2016）（Gui等人，2016年），但不像我们在这项工作中所做的那样，与他们的域要求进行评估或比较。在本文中，我们描述了流行的开源数据挖掘工具（Poll，2019）（Gartner，2019）（RProject，2021）; RapidMiner（RapidMiner，2017）; Scikit-learn（Scikit-Learn，2017）和Spark（Spark，2021）-使用建议的选择标准对它们进行比较，以指导医疗保健行业用户。数据挖掘工具的选择是基于它们在KDnuggets年度软件民意调查（Poll，2019）中的受欢迎程度，以及它们对Gartner数据科学和机器学习平台魔力象限报告（Gartner，2019）中提出的医疗保健领域的适用性。据我们所知，这是第一个工作，既进行了一个开源的数据挖掘工具的调查，为医疗保健行业，并提出了数据挖掘工具的选择标准，为这个领域。这项工作的主要贡献如下：帮助医疗行业了解医疗行业中常用的数据挖掘方法（第2节），并通过识别数据特征（第3）来满足其数据域要求。通过提出基于医疗数据域需求的数据挖掘工具选择标准（第5节），并使用建议的标准（第7）比较一组开源数据挖掘工具，指导医疗数据分析师选择他们的开源数据挖掘工具。通过披露市场上最流行的数据挖掘工具（第6节）以及提供相关调查的摘要（第8），帮助数据挖掘人员了解这一挑战领域的最新趋势。本文件其余部分的结构如下。第2节描述了医疗保健行业中最常用的数据挖掘方法。第3节描述了医疗保健应用程序的数据特征。第4节确定了数据挖掘工具执行医疗保健数据分析必须具备的关键功能。第5节提出了建议的数据挖掘工具选择标准。第6节介绍了选定的开源数据挖掘工具。第7节使用建议的选择标准比较了选定的工具，并建议了医疗保健应用的最佳工具。第8节介绍了数据挖掘工具的相关工作。最后，第9提供了结论和未来的工作。2. 医疗保健中常用的数据挖掘方法为了从大数据中提取知识，医疗保健系统需要非常规且成熟的数据存储、管理、分析和数据挖掘工具（Pramanik 等人， 2020年）。●●●桑托斯-佩雷拉湖Gruenwald和J. Bernardino沙特国王大学学报4970数据挖掘提供了将大量数据转换为用于决策的有用信息的方法和技术（Dash等人，2019年）的报告。由于数据挖掘工具并不都支持相同的数据挖掘方法，因此确定医疗保健行业中最常用的数据挖掘方法（Tekieh和Raahemi，2015）以指导我们选择最合适的数据挖掘工具非常重要。因此，所确定的数据挖掘方法也是我们在第5节中提出的数据挖掘工具选择标准所涵盖的领域要求的一部分。在本节中，我们将描述已确定的方法及其应用，以支持其选择。2.1. 分类分类是一种数据分析方法，构建预测分类标签（目标属性）的模型（Han et al. ， 2012 年）。当需要根据目标属性（ Tekieh 和Raahemi，2015）将数据分类到不同的组中，和/或根据历史记录预测目标标签输出的概率时，使用该方法该方法已用于各种医疗保健应用中：应用分类方法以基于他/她的神经心理学测试更好地识别患者是否患有痴呆（Maroco et al.，2011年）。在（Elhoseny等人，2018年），支持向量机和人工神经网络算法被用于寻找特定肠道微生物群与糖尿病存在或不存在之间的相关性，以预测糖尿病等代谢疾病。在另一项工作中，支持向量机算法也被用于优化它的计算方法，称为粒子群优化，以预测精液质量（ Sahoo 和 Kumar ，2014）。在（Mirrosandel等人， 2016），KStar算法用于预测个体精子植入人体的结果，以提高细胞质内的植入率。在（Kourou等人，2015年），提出了关于癌症预后和预测领域中的数据挖掘应用的工作调查。事实证明，所有提出的作品都应用了分类器算法仅举几例，决策树算法用于预测乳腺癌存活率（Delen等人， 2005）和贝叶斯网络来预测口腔癌的复发，考虑到几种数据类型（来自组织和血液的临床成像和基因数据）（Exarchos等人， 2012年）。2.2. 聚类聚类是将一组数据对象（或观察）划分为子集的过程（Han等人，2012年）。当我们没有太多关于总体中涉及的不同类型的数据对象的信息时，使用这种技术由于它是一种无监督学习方法，它试图找到彼此相似的数据对象的集群，而不考虑任何特定的目标标签（Tekieh和Raahemi，2015）。由于聚类是一种专门用于描述性分析阶段的方法，因此一些工作已经应用聚类算法在分类之前对处理的数据进行在（Sharma等人， 2016）对使用分类和聚类方法的医学出版物进行了调查，其中针对聚类方法进行了以下工作：使用K-Means聚类算法来诊断心脏病患者（Shouman等人， 2012）和对结肠肿瘤进行分类（Kumar和Wasan，2010）。聚类方法也用于将蛋白质分类为官能团（Xu et al.， 2012）、预测疾病的可能性（Paul和Hoque，2010）以及检测医学图像数据内的疾病特异性聚类（Bruse等人， 2017年）。2.3. 协会关联是发现属性之间的关联规则的过程。当需要识别数据集中属性的关系时，使用此方法（Tekieh和Raahemi，2015）。例如，我们可以应用这种方法来查看高血压状况和盐饮食习惯之间是否存在关联，如果存在，则从其构建关联规则。例如，流行的APRIORI关联规则挖掘算法用于找到来自糖尿病患者的临床数据之间的关联（Stilou等人，2001年）。提出了其他关联规则挖掘算法，以在公共卫生监测数据中找到时间、地点和患者感染之间的关联（Brossette等人，1998）;临床数据和治疗性治疗之间的差异（Ting等人，2010）;医学数据和鼻炎状况之间的差异（ Yang 等人， 2016 ） ; 以及冠心病诊断的患者数据之间（Orphanou等人， 2016年）。2.4. 离群点检测异常值检测是识别不正常属性或异常结果的过程。该方法通常用于发现数据中的差异，目的是清除数据或检测医学数据库中存在的异常值，例如在（Kumar et al.，2008）和（Bellaachia和Bari，2012）。在本节中，我们能够验证所有确定的数据挖掘方法已在医疗保健行业的各种工作中使用，这些工作不仅强调了数据挖掘在医疗保健研究领域的适用性，而且还强调了寻求一种涵盖这些数据挖掘方法的数据挖掘工具。接下来，我们将介绍医疗保健应用程序的特定数据特征。3. 医疗保健应用程序通过我们对医疗保健领域开展的几项工作的分析获得了数据特征，这些工作描述了其挑战（Tekieh和Raahemi，2015）并指出了其数据特征（Strang和Sun，2020）（Raghupathi和Raghupathi，2014）（Tortorella等人，2021）（Smys，2019）（Saeed等人，2018年）。可以使用健康监测系统安全地捕获患者健康数据。各种传感器和复杂的算法用于分析数据，然后通过物联网（IoT）解决方案共享数据然后，医疗专业人员也可以远程提供适当的健康建议。医疗保健服务的关键挑战是通过在尽可能短的时间内检索和存储这些过程来获得大患者数据、大资源和大应用程序（Elhoseny等人，2018年）。在接下来的小节中，我们将描述我们将作为医疗保健领域需求的一部分考虑的数据特征（Wang等人，2018）在我们提出的数据挖掘工具选择标准中，在第5节中提出。3.1. 大量数据数据生成和收集技术的进步导致医疗保健数据库中的数据大幅增长。病人的人工智能软件、医疗设备、临床分析和医学成像软件只是这些技术的几个例子。随着所有这些不同的医疗保健软件产品的日常运作，研究人员面临着难以管理的数据规模（体积）。因此，拥有一个能够处理大量数据的数据挖掘工具对数据分析至关重要桑托斯-佩雷拉湖Gruenwald和J. Bernardino沙特国王大学学报49713.2. 云数据云计算和物联网的集成提供了新的存储、处理、可扩展性和联网能力，由于其在医疗保健领域的特性，这些能力迄今为止在物联网中是有限的（Sun等人， 2017）（Li等人， 2017）（Muhammad etal.， 2015）（Muhammad et al.，（Ray，2018）.数据可以存储在逻辑池中，例如，实时访问。在医疗保健行业，目前在云中收集数据并不常见然而，一些研究表明它可以集中患者的数据（Newhouse，2016）-这因此，我们相信，这种数据特征可以是一个必须寻求在数据挖掘工具。3.3. 流数据流数据以不断变化的更新速率连续地流入和流出计算机系统。它们通常是由实时监控系统、遥感器或其他动态环境产生的（Makhabel，2014年）。这类数据的特殊性在于需要实时处理和分析。生物传感器数据流和分析是智能电子医疗保健的关键组成部分。然而，现有的IoT生态系统无法在资源受限的环境中实现实时生物传感器数据流和分析（Pratim Ray等人，2020年）。在医疗保健行业中，提出了具有这种流数据特性的各种应用：用于患者血压和温度跟踪的系统（Aziz等人，2016年），可穿戴诊断设备，以打击儿童肺炎（马拉等人， 2016），防止药物滥用（Wang等人，2017）并评估认知障碍（Alam等人，2016年）就是一个例子。因此，一个具有流数据分析能力的数据挖掘工具是必不可少的。3.4. 多个数据源现代医疗保健系统仍在努力提供以患者为中心的医疗保健，而不是以临床为中心的医疗保健，因为实施现代医疗保健的主要方面至关重要，例如护理的连续性，循证治疗，更重要的是，防止医疗差错（Song，2016）。因此，医疗保健行业最常见的情况之一是，临床数据由多个软件产品处理，分散在不同的地方（即分布式数据存储），由不同的医疗保健人员（如医生和临床工作人员）拥有（Wan，2016）。这种数据特征要求数据挖掘工具从各种类型的数据源导入和集成数据。3.5. 不同数据类型随着医疗信息系统的广泛使用，信息采集现在扩展到不同的数据类型，诸如以下（Wang等人， 2018）（Primova等人，（Kaur和Rani，2015）：数字：仅包含数字的数据（例如年龄、体重）。文字说明：文档：非结构化的自由文本，收集在文件中，如Microsoft Word，PDF文档，甚至简单的文本文件。文档挖掘，即所谓的文本挖掘，已经用于医疗保健行业，例如，提取几个文档中的蛋白质-蛋白质相互作用的信息（Zhou et al.， 2006年）。图像：在医疗程序中，成像越来越多地被用作首选的诊断工具。它可以是SPECT扫描，MRI扫描，甚至是ECG信号的集合。例如，这些医学图像已经用于数字乳房X射线摄影术中的肿瘤分类（Antonie等人， 2001年）。图表说明：在医疗保健示例应用中，图可以表示化合物，其中节点对应于原子，链接对应于原子之间的键（Aridhi和Mephu Nguifo，2016）。这类研究的目的可能是挖掘原子之间的键，以更好地理解化学结构。因此，一些作者也将这种类型的数据称为链接。音频：在医疗程序中，音频数据可以是任何类型的音频信号（例如心脏跳动）。语音：口述记录的单词（例如患者的语音）。视频：可以来自例如患者手术的视听内容（Wang等人， 2018年）。在解决诊断、治疗、统计、管理和其他任务中使用大量且同时仍在不断增长的信息量的需求，决定了今天在医疗机构中创建信息系统（Xu等人， 2012年）。由于医疗保健数据可能不仅仅是数字和字母数字内容，因此对可以在其领域相关数据类型中执行知识发现的数据挖掘工具的需求是至关重要的（Elhoseny等人， 2018年）。3.6. 脏数据在医疗保健行业，数据通常通过电子病历（EMR）收集。通过这些系统收集的数据主要用于分析目的，包含许多问题-造成这些数据特征的主要原因是，EMR中登记的大多数数据是观察性的，而不是实验性的。因此，它们可能无法代表涉及患者疾病的所有病例，从而导致误导性数据登记（Tekieh和Raahemi，2015）。分布式数据存储也会导致脏数据的生成。例如，每个医疗保健服务可以有不同的名称或相同属性的编码，并且在数据集成时，我们将面临不一致的数据集。我们认为数据的不完整性是脏数据特征之下的另一个数据特征，因为与不正确性、缺失数据、错误编码和不一致性特征一样，它们都可以通过数据预处理功能或数据挖掘工具已经实现的功能（内置功能）拥有一个可以自动清理数据的数据挖掘工具（即准备数据进行挖掘）对医疗保健研究人员来说是一个巨大的好处;否则，他们将有一个非常耗时的任务，容易出错，通过手动完成因此，拥有一个可以清理和转换数据的数据挖掘工具是很重要的，特别是如果它具有数据预处理功能来简化任务。3.7. 复杂数据研究人员可能会从科学的角度处理他们不完全理解的数据这使得他们的分析任务更加困难或不可能，当涉及到应用假设演绎分析来解开健康状况，因为它是与传统的统计数据。因此，拥有一个像数据挖掘工具一样执行归纳分析的工具是有用的。●●●●●●●●桑托斯-佩雷拉湖Gruenwald和J. Bernardino沙特国王大学学报4972导致数据复杂性的另一个方面是，数据是由不同的提供商以不同的方式收集的，这使得人们很难理解数据是如何以及为什么被收集的，以便正确地分析它（Wan，2016）。一些数据挖掘工具具有数据探索和可视化功能，可以支持更好地理解要挖掘的数据的过程。因此，拥有一个具有这种能力的数据挖掘工具对于挖掘复杂的数据是必不可少的。通过考虑数据挖掘相对于传统统计技术的收益以及上述医疗保健数据特征，我们可以看到数据挖掘被用于医疗保健领域。由于收集的健康数据量每天都在显著增长，因此相信能够处理和分析大型健康数据的强大分析工具至关重要。使用数据挖掘技术分析电子健康记录（EHR）系统，保险索赔，健康调查和其他来源收集的健康数据集非常复杂，并且面临着非常具体的挑战，包括数据质量和隐私问题（Tekieh和Raahemi，2015）。因此，下一节将介绍我们对数据挖掘工具在医疗保健应用中必须具备的关键功能的调查。4. 医疗保健数据挖掘工具的关键功能一般来说，软件选择在于根据应用程序的需要选择功能。因此，我们将描述的关键特征/功能，数据挖掘工具必须在医疗保健领域挖掘数据。确定的关键特性/功能基于IT顾问Gartner用于其关于高级分析平台的年度报告（Linden等人， 2016）和数据科学平台（Linden etal.，2017）以及其定义。这些功能的选择还考虑了医疗保健中常用的数据挖掘方法（第2节）和医疗保健应用程序的数据特征（第3节）。在每个能力的最后，我们确定了相关的领域需求。4.1. 性能和可扩展性良好的性能和可伸缩性减少了加载数据以及创建、验证和部署模型所需的时间随着数据量和复杂性的增长以及对更快洞察的需求的增加，这些能力变得非常重要，特别是在医疗保健领域，必须处理以下领域需求：大量数据，云数据和流数据（分别在第3.1 - 3.3节4.2. 数据访问这一关键能力解决了工具访问和整合来自各种来源和不同类型（数字、文本、图像等）的数据因此，数据挖掘工具必须能够处理以下领域需求：多个数据源和不同的数据类型（分别在3.4节和3.54.3. 数据准备数据准备能力提供了清理、转换和过滤数据的能力，以便为建模做好准备。此功能还使该工具能够使用描述性数据挖掘方法执行基本的描述性统计和模式检测，以支持数据准备。由于医疗保健应用程序包含大量脏数据（第3.6节），所选数据挖掘工具必须涵盖此功能。4.4. 数据探索和可视化此功能允许一系列探索性步骤，包括交互式可视化，以支持数据挖掘方法。使这一点变得至关重要的主要领域要求是医疗保健部门生成的复杂数据（在第3.7节中描述）。4.5. 先进的建模这种能力提供了创建数据挖掘模型的能力，这些模型可以预测未来的行为，估计未知的结果或研究行为。这些模型是用一组数据挖掘方法创建的。因此，使这种能力至关重要的相关领域要求是主要应用于医疗保健行业的数据挖掘方法，这些方法是：分类，聚类，关联和离群值（在第2节中描述）。由于数据建模需要选择最佳构建模型，因此该过程的自动化也被认为是一个领域需求，因为它将简化从一组构建候选模型中搜索最佳模型的过程。4.6. 用户体验这种能力是通过工具的易用性、工具具有的接口类型（例如，图形（GUI）、控制台（CLI）或程序界面（IDE）），使用它所需的技能水平（例如，编程语言），以及由文档和社区支持指导提供的支持一些数据挖掘工具具有可视化组合框架（VCF）功能，该功能允许在不编码的情况下构建高级分析模型。由于有些医疗保健研究人员不知道如何编程，因此此功能对于他们的应用程序至关重要，从而促进良好的用户体验。因此，VCF被放置为良好用户体验下的域需求。此外，一些数据挖掘工具还可以促进与位于不同位置的团队成员在所有建模步骤中的各种协作。由于一些医疗保健数据挖掘项目由于其复杂性而需要协作，因此在工具中考虑该特征是重要的，因为使用第三方应用程序来进行这样的服务对于要使用的工具将是困难的。因此，协作也被放置为用户体验下的域需求。有几种类型的数据挖掘工具：可以自己执行所有数据挖掘方法步骤的数据挖掘工具，所谓的端到端分析工具;执行数据挖掘任务的工具库（机器学习包）;统计和计算工具;以及预处理和挖掘大规模数据的工具。由于每种工具类型都适用于特定的项目背景（例如，具有高级技术技能的项目合作者可以使用机器学习软件包），因此工具类型也被视为用户体验标准下的领域要求。为了选择最合适的开源数据挖掘工具的医疗应用程序，我们提出了数据挖掘工具的选择标准，根据上述确定的关键功能，并比较流行的开源数据挖掘工具使用这些标准。在下一节中，我们提出了我们建议的数据挖掘工具选择标准。桑托斯-佩雷拉湖Gruenwald和J. Bernardino沙特国王大学学报49735. 数据挖掘工具选择标准在（Mikut和Reischl，2011）中，作者指出，研究人员主要对具有经过验证的领域相关数据挖掘方法的数据挖掘工具，图形用户界面（GUI）以及与领域相关数据格式或数据库的接口感兴趣（Mikut和Reischl，2011）。因此，为了构建表1中所示的拟议数据挖掘工具选择标准，我们必须确定医疗保健数据要求（最常见的数据挖掘方法（第2节）和数据特征（第3节）），并将它们与数据挖掘工具应具备的关键功能（第4节所识别的关键能力不仅涵盖Ralf Mikut等人提出的良好用户体验标准（Alam等人，2016）通过其GUI要求，还包括为医疗保健应用程序执行数据挖掘所需表1数据挖掘工具选择标准。关键功能域要求性能和可扩展性大量数据云数据流数据数据访问多个数据源不同数据类型数据准备脏数据数据探索和可视化复杂数据高级建模分类聚类关联离群点自动化用户体验编程语言操作系统接口可视化组合框架协作易于使用的工具类型社区支援确定的关键功能基于IT顾问Gartner（Linden等人， 2016年）。表1中列出的建议选择标准可视为在选择时必须在任何数据挖掘工具中查找的主要功能（第4节中列出的关键功能）的检查列表，以便选择最合适的工具来挖掘医疗保健数据。此外，拟议的选择标准也可用于工具比较，因为它们将有助于确定哪种数据挖掘工具涵盖第7节中介绍的大多数医疗保健领域要求。6. 开源数据挖掘工具在本节中，我们描述了流行的开源数据挖掘工具：KNIME，（ 2017 ）， R （ RProject ， 2021 ） ; RapidMiner （ RapidMiner ，2017）; Scikit-learn（Scikit-Learn，2017）和Spark（Spark，2021）。这一选择是基于KDnuggets年度软件调查（Poll，2019）中披露的软件受欢迎程度，Gartne2019年数据科学和机器学习平台魔力象限报告（Gartner，2019）中提出的软件执行能力，以及医疗数据挖掘应用调查中建议的软件对医疗保健领域的适用性（Sharma等人，2016年）。虽然R是一种统计编程语言，但我们也将其作为我们研究的开源数据挖掘工具的一部分，因为它有许多支持实现数据挖掘任务的包。6.1. KNIMEKNIME（2017）是一个基于Java的端到端分析工具，可以集成、转换、分析和部署数据。它是由来自硅谷一家专门从事制药应用的软件公司的开发人员团队开发的，并已用于药物研究等领域。一些作者指出，它是一种在KDD的预处理、清理、建模、分析和挖掘任务中具有强大功能的工具（Almeida 等人， 2016）， Gartner等IT 顾问认为KNIME是领先的解决方案之一（Linden等人， 2017年）。Fig. 1. KNIME接口桑托斯-佩雷拉湖Gruenwald和J. Bernardino沙特国王大学学报4974图二. RStudio接口。一个KNIME界面的打印屏幕如图所示。1.一、在打印屏幕的顶部中心，显示了使用KNIME VCF功能制作的数据工作流程-所描绘的VCF计算Spearman cor，关系在右侧，可以看到选定组件的描述，在左侧，可以看到工具的工作空间。KNIME开发团队声称，他们关注的是开发一种可以处理和集成大量不同数据的工具，这些数据将是强大的，模块化的和高度可扩展的，包括各种数据加载，转换，分析和可视化探索。他们的目标是帮助用户以更快、更容易的方式执行KDD。事实上，KNIME工具有一个基于流行的Eclipse IDE的图形用户界面（GUI）;通过其VCF功能坚持可视化编程范式;有几个已经构建的示例，以减少最终用户的学习曲线;可以在数据挖掘任务中集成和混合几种类型的数据，例如数据库，简单的文本文件，文档，图像（BioSolveI，2011），图表和基于Hadoop的数据;并且可以与其他数据挖掘工具（如Weka和R）集成，这使得可以在其已经编码的数据挖掘算法组上访问几种或个性化的算法。这些已经编码的算法包括贝叶斯、聚类、规则归纳、关联规则、神经网络、决策树、杂项分类器（例如K-最近邻）、包围学习、多维缩放（MDS）、主成分分析（PCA）、预测模型标记语言（PMML）、支持向量机（SVM）和特征选择。这些算法中的大多数已经应用于医疗保健行业。其领先的解决方案是开源的KNIME分析平台，可以使用KNIME商业软件扩展的表单。KNIME支持各种操作系统，包括Win-Linux，Mac OS和Linux。KNIME的最强点如下（Almeida等人， 2016）（Ramesh et al.，2020年）：它有一个短的学习曲线：它有一个熟悉的图形用户界面，许多程序员由于其Eclipse的IDE，因为数据挖掘算法已经编码。● 数据挖掘任务可以在几种类型的数据上执行这是一个完整的解决方案，它包含了100多个处理节点，用于数据I/O，预处理和清洗，建模，分析和数据挖掘以及各种交互式视图，如散点图，平行坐标等。它可以很容易地与其他数据挖掘工具集成，例如通过R解决方案提供对大量统计例程库的访问。真正将其与其他数据挖掘工具区分开来的方面是其与允许可视化和分析分子数据的程序接口的能力。其最弱的点如下（Ramesh et al.， 2020年）：● 其误差测量方法有限● 它没有用于描述符选择的包装方法6.2R（RProject，2021）是一种编程语言，也是统计计算和图形的环境，实际上是统计学家的首选。它被统计学家使用是旧的，因为R是统计语言S的继承者，最初由贝尔实验室在20世纪70年代开发。 R源代码是用C++、For- tran和R本身编写的（Jovic等人，2014年）。因此，该工具能够轻松地与任何这些语言以及C和Python中的代码集成，这使其成为一个强大的工具，可以执行任何类型的数据挖掘任务。R的集成开发环境（IDE）被命名为RStudio（RStudio，2016）。该IDE不仅支持使用条件、循环、输入和输出命令构建的直接代码执行，而且还包括控制台以及用于绘图、历史记录、调试和工作区管理的工具。因此，该工具允许执行数据挖掘过程的整个周期，包括操作，计算和显示，以及通过图形化设施进行数据存储，处理和中间数据分析的有效方法（Almeida和Bernardino，2016）。在IBM Watson Stu- dio环境中打开的RStudio界面的打印屏幕如图所示。 2、它的一些特性可以●●●●桑托斯-佩雷拉湖Gruenwald和J. Bernardino沙特国王大学学报4975图三. RapidMiner接口。可以看到：左边是源代码;左下角是控制台;右边是工作区。如（RStudio，2016）（RStudio，2017）所示，有几个R包可以添加到RStudio IDE中，以获得更有趣的解决方案。例如，Markdown包可以将分析转化为报告、演示文稿和仪表板，以更快地呈现数据结果;Shiny包可以构建交互式Web应用程序以共享数据分析结果; ggplot 2包通过多层图形简化数据的可视化; Haven包允许加载外来数据格式（SAS，SPSS和Stata）; tidyr包包含其他包来合并，可视化和建模数据。RStudio IDE提供开源或商业许可证，可在Windows、Mac OS和Linux桌面上运行，也可在连接到RStudio Server（开源许可证版本）或RStudio Server Pro（商业许可证版本）的浏览器中运行。对于将数据挖掘任务作为团队任务的项目，或者需要远程访问挖掘结果的项目，最后一种连接类型非常有用。在安装RStudio之前，必须先安装R解决方案。该工具的主要优点是（Almeida和Bernardino，2016）：用户可以构建适合其任务和领域的算法。将R与其他编程语言集成是很容易的它通过使用包提供扩展功能。它通过其服务器版本集中访问和计算。Its-Haven软件包允许加载SAS、SPSS和Stata等外国数据格式。其主要弱点是：● 用户需要有先进的技术知识。● 用户必须知道如何用R语言编程6.3. RapidMinerRapidMiner（RapidMiner，2017）是一个成熟的基于Java的端到端分析工具，用于数据挖掘，文本挖掘，预测分析和商业分析（Almeida等人，2016年，由同名公司开发。该解决方案已在多个领域使用，它实际上是市场上最受欢迎的独立和开源解决方案（Poll，2019），也是该领域的市场领导者（Gartner，2019）。RapidMiner解决方案有五个工具/版本：i）RapidMiner Studio，一个带有图形用户界面（GUI）的客户端应用程序，支持实现具有VCF功能的完整预测分析工作流程，可以涵盖主要的数据挖掘任务，如数据集成，清理，转换，探索，建模和验证;ii）RapidMiner服务器，用于协作团队工作、运行自动化和预定作业、与其他系统部署和集成以及创建基于web的应用的服务器; iii）RapidMiner Radoop，用于在Hadoop中执行数据挖掘以加速对大量数据的分析并克服Spark Hadoop对于非技术用户具有的复杂性的一组能力; iv）RapidMiner扩展，由社区提供的附加能力，诸如文本处理、Web挖掘、WeKa扩展、AYLIEN的文本分析和系列扩展;以及v）RapidMiner云，使得能够在云中处理数据挖掘作业的能力。从RapidMiner网站，该工具可以访问40多种文件类型，包括SAS，ARFF，Stata和通过URL;访问文本文档，网页，PDF，HTML和XML，以及NoSQL数据库，MongoDB和Cassandra;具有更大的建模功能和算法集的模型，如相似性计算、聚类、购物篮分析、决策树、规则归纳、贝叶斯建模、回归、神经网络、支持向量机、基于记忆的推理，使用多种验证技术和性能标准进行模型集成和评估模型性能;并通过其他几种工具（如 Hadoop 、 Spark 、 Hive 、 MapReduce 、 Pig 和Mahout）分析大量数据。图3显示了RapidMiner界面的打印屏幕，其中在图片的中心是在临床数据集上应用FP-生长关联挖掘算法的工作流。RapidMiner是一个开源的商业解决方案，其定价取决于数据量（ RapidMiner Studio 超过 10 ， 000 行）和所使用的内存（RapidMiner Studio超过2 GB RAM）。●●●●●桑托斯-佩雷拉湖Gruenwald和J. Bernardino沙特国王大学学报4976RapidMiner服务器）。出于社区或教育目的，RapidMiner Radoop和RapidMiner Cloud是免费的。RapidMiner Studio工具支持Windows、Mac OS和Linux。其主要优点如下（Van Poucke et al.，（Almeida和Bernardino，2016）：它支持所有的计算机环境。它的所有方法都可以在内存中，数据库中或Hadoop集群中运行-用于分析大量数据。它具有广泛的数据可视化输出，如3D图形，分散矩阵和地图。它提供了一个可视化界面（GUI），将用户从实现细节中抽象出来。它有一个API，提供扩展功能，配置的多功能性和连接到其他工具，如R和Spark，这简化了这些更复杂的工具的使用它的主要缺点是（Linden et al.，2017年

下载后可阅读完整内容，剩余1页未读，立即下载