医疗保健大数据分析中的数据挖掘和分类技术（20字）

134 浏览量更新于2023-12-09 收藏 907KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 8（2022）250www.elsevier.com/locate/icte通过数据挖掘和分类技术进行医疗保健大数据分析JayasriN.P.拉斯特河 ArunaVelTech Rangarajan博士Sagunthala研发科学技术研究所，印度泰米尔纳德邦钦奈接收日期：2021年4月30日;接收日期：2021年7月2日;接受日期：2021年7月15日2021年7月21日在线提供摘要大数据是来自不同来源的大量数据的汇编，例如在线交易细节，社交媒体，传感器数据等。随着医疗保健业务领域的发展和即将到来的潜在需求，对大量噪声数据进行分析以获得重要信息是非常必要的。在医疗保健系统中，这项工作的目的是评估糖尿病患者的医疗数据库的创新层次决策注意力网络，关联规则（AR）和多类离群分类与MapReduce框架的混合。关联规则Apriori算法在MapReduce框架考虑健康数据来创建规则。这是用来发现疾病和他们的迹象之间的关联。该检查是通过包含50个属性的UCI糖尿病机器学习数据集进行的。所提出的算法的结果提供的参数，例如精度，准确率，召回率和F分数。c2021韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：大数据;数据挖掘; Apriori算法（AA）; Map Reduce;并行计算1. 介绍大数据分析（BDA）是学者们的一个新兴话题，它是一个监督，实践和分析5V数据相关维度的整体方案[1]。BDA由各种应用组成，包括医疗保健单位，商业和工业部门[2]。在医疗保健中，以更高的速度和速度产生的大量数据增加了复杂性。其后果是医疗成本和时间的冗余增加[3]。这些后果包括具有等级、经济、社会和政策限制的技术障碍[4]。来自感染诊断、测试有用数据调查、预测和优化技术的大量数据为医学应用提供了知识[5]。糖尿病（DM）是一种代谢混乱，其中血糖（BG）等级不同，其根源是任何胰岛素生产不足（1型糖尿病，T1D）或胰岛素分泌不足（T1D）。身体2型糖尿病，T2D）[6]。 2型糖尿病与∗ 通讯作者。电子邮件地址： sreezee520@gmail.com（Jayasri N.P.）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2021.07.001转化的肠道微生物群[7]。基于糖尿病并发症和控制试验，延长血糖控制对于最大限度降低1级糖尿病患者长期微血管和大血管困难的风险至关重要[8]。因此，医疗保健协会正在寻找有效的IT工件，授权整合权威资源，以传达高质量的患者体验[9]。到目前为止，已经提出了一些工作来解决BDA，包括Map-Reduce来处理大量数据[10]。利用各种机器学习（ML）算法来识别预测算法，如随机森林（RF）、支持向量机（SVM）、K均值最近邻（k-NN ）、分类和回归树（ CART ）以及线性判别分析（ LDA ）算法 [11] 。此外，提出了一种研究性的Hadoop/MapReduce算法来预测DM的种类[12]。因此，在Hadoop/Map Reduce条件下对算法进行预测检查以预测和分类DM类型的系统不会产生胰岛素[13]。为了纠正这些问题，提出了一种关联规则挖掘（ARM），其目的是确定关联并建立一组AR，如[14]所用。这是一种技术用于发现标识关联的依赖关系[15]。挖掘AR的中心是在数据中获得关联[16]。这项工作是按计划进行的第2节描述了几个2405-9595/2021韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。Jayasri N.P. ArunaICT Express 8（2022）250251详细介绍现有的方法。第 3 节简要介绍了所提出的MapReduce框架（MRF），第4节分析了结果。第5节提出了结论和未来的范围。2. 研究的相关工作最近提出的一些旨在纠正BDA在医疗保健中的问题的研究工作讨论如下：Kumar等人[17]描述了大数据，其中庞大的数据变得难以通过传统应用程序进行分析。这项工作分析了糖尿病患者利用信息挖掘算法。为了进行检查， Hadoop 和MapReduce 与数据挖掘算法一起使用，即，决策树（DT）和朴素贝叶斯。Namrata Bhat-tacharya等人[18]描述了医疗保健，其中必须分析大量数据。应用信息挖掘技术消除不相干信息，挖掘重要实例. ARM是一种标准的技术，它揭示了事物是如何与所有其他事物联系在一起的。在这里，AA随着大量数据而退化。这里，在HadoopMapReduce结构中给出了AA执行。Chen等人[19]设计了有效的发现和治疗糖尿病的策略。考虑到综合评估，本文将糖尿病1.0和糖尿病2.0策略进行了分类. 提出了一个5G智能糖尿病计划，该计划结合了现有的技术，例如可穿戴2.0，ML和大数据，为糖尿病患者提供广泛的检测和检查。Bai等人[20]讨论了BDA，其中信息挖掘过程在医疗保健部门的大数据应用中发挥了积极作用。这项工作强调糖尿病医学信息的分类和聚类算法的执行和能力的等价物进行了分析。Moreira等人。[21]讨论了智能决策支持系统（DSS）的进步，这些系统旨在重现人类特征。人工神经网络（ANN）方法可以处理复杂的决策问题。这项工作提出了一种称为径向基函数网络（RBF网络）的ANN技术的建模，介绍评估和评估调查，以识别潜在的妊娠期糖尿病病例。Rawal、Bhavna和Ruchi Agarwal [22]执行了C4.5以提高分类精度并进行逆向规划来构造分类表示。Shankar等人。[23]给出了“DataSpeak”一种在大量信息中进行挖掘、分类和聚集的方法。该方法克服了kNN的障碍，保证了信息的快速使用权.Bechini等人[24]介绍了一种基于关联规则的分类计划，该计划被塑造成MapReduce编程模型。Fern a'ndez等[25]通过MapReduce中的信息检测，将模糊因子的标签数与信息的稀缺性联系起来Elkano等人[26]给出了一个分布式的基于模糊规则的分类系统（FRBCS）作为大数据分类问题称为CHI-BD。Game等人[27]提出了一种基于医学数据的分类模型。步骤包括：（1）Map-reduce结构（2）SVM（3）优化DT分类器。Banchhor、Chitrakant和N. Srinivasu [28]建立了Cuckoo-Gray wolf 根相关朴素贝叶斯分类器（ CG-CNB ）。Sivaparthipan角B、N. Karthikeyan和S.卡提克[29]提出了一种利用大信息进行糖尿病分析的算术评估模型，医疗数据方案。Saru，S.，和S. Sustainree [30]发现了用于有效分类和提取糖尿病数据集的信息挖掘技术和策略Chen ， Peihua 和 Chuandi Pan [31]介绍了两种通用的boosting算法; Adaboost.M1和LogitBoost，以创建用于糖尿病分析的装置表示，该装置表示放置在上述临床测试数据上。Sohail等人[32]通过应用150个ML分类器建立了一个DM患病率预测模型，用于准确性测量比率和聚类改进。Rghioui等人[33]讨论了用于预测患者数据集、分析一般糖尿病表现和预测某些亲属疾病的分类方法Younus等人。[34]提出了ML方法，如DT，RF，用于开发基于分类系统的预测表示，以测量DM慢性疾病。此外，提出了一种基于RF的2型糖尿病困难区域发现算法。Pani等人。[35]探索了两种分类器训练方法逻辑回归（LR）和SVM。Sampath等人[36]在Hadoop/MapReduce背景中使用分析调查算法来猜测糖尿病的困难和治疗分类。Costantini等人[37]描述了在高风险患者的咽部微生物群中开始的少量微生物丰富性和一致性。侵袭性真菌感染（IFI）的一种鼠形式为以下决定提供了生物学上的合理性：防御性厌氧菌（例如梭菌目和拟杆菌目）的失败（色氨酸的可用性明显有限）与血液病患者的IFI风险存在因果关系，并指定了IFI中抗菌剂管理和代谢再平衡的途径。虽然这几种现有的方法被识别，但没有实现增强的分类精度。因此，所提出的分层分类算法包括以下贡献：最初，由于使用的数据集太大，因此实现了MapReduce框架。这个MapReduce包含一个映射器函数和一个reducer函数，从而减少了数据量，同时保留了重要的数据。一个创新的层次决策注意力网络算法，其中DT处理，由于其简单性制定推断的决策规则。此外，分层注意力网络与DT一起使用，并应用于单词和句子级别，便于在创建文档插图时关注更多和更少的重要内容。··Jayasri N.P. ArunaICT Express 8（2022）250252（）下一页在此基础上，实现了使用AR的AA，通过支持度和置信度分析频繁项集数据，发现关联数据中的重复关联。最后，这项工作做了一个基于离群值的多类分类，它基于AA中的支持度和置信度得分进行预测进行3. 提出的分层算法糖尿病是一种广泛的疾病，因此，有必要尽早注意到这种困境，以确保患者的安全。在最近的医疗保健计划中，大量处理无形的身体状况文件，以访问这些文件进行检查并使其在调查之后动态，将建立额外的并发症。因此，健康行业面临着许多困难来分析这种数据，并且希望扩展数据分析。这项工作的总体目标是预测糖尿病数据集的发生，以准确地预测患者医生根据患者的早期记录决定胰岛素，并在通常的时期确定血糖水平。对于该检查，例如Hadoop和MapReduce的平台被用于对创新的数据挖掘算法的积累，即，决策树（DT）的注意力网络，关联规则（AR）和离群值为基础的多类分类技术将被提出。虽然现有的方法可以在Hadoop和MapReduce平台上工作，但它们只使用较少的属性。因此，这种方法将提供更好的结果，考虑到病人的许多属性。通过这种分层技术，糖尿病患者数据库将被有效地分析，因为在MapReduce平台之后，执行了一种称为多类离群值技术的分类技术。因此，根据获得的分类结果，考虑到患者记录和糖尿病结果，将给予适量胰岛素。3.1. Hadoop和Map ReduceHadoop技术用于存储、访问和分析大数据源它采用MapReduce框架（MRF），与数据并行处理（PP）一起工作。MapReduce是一种应用于PP的PP编程。mapper和reducer是Hadoop中要完成的两个阶段。映射阶段的收益率作为约简阶段的输入。由于MRF以键值设置为根，映射器获取输入并将挖掘的数据拆分为键值对作为输出。映射器阶段的输入是diabetes.csv文件。在这里，最初从每个记录中提取一定数量的字段或属性。数据集中的已消失值也被识别。在映射器阶段，所有连续和单独并行处理的文档创建对的键值，并等同于（1）Map（key1， value1）−>list（key2， value2）（1）或者，reduce phase允许mapper phase的输出作为其输入，并获得文本中的Fig. 1. Map Reduce框架。相应地。reduce阶段的最终输出是所有中间值的联合结构，这些中间值是在处理之后收集的，并且经常在键值对组合中。在处理的每个阶段之后，以有组织的方式排列所获得的输出，并如（2）中所示进行等同处理。Reduc e（key2， list（value2））−>list（key3， value3）（2）磁流变液的详细处理过程如图 1 所示。通过 Map-Reduce，大数据集被简化为具有不同属性的较小数据集，因此可以进行进一步处理。3.2. 分层决策注意网络算法随后，Map-Reduce结果被馈送到分层决策注意力网络中。该网络包括一个层次的DT，层次注意力网络，先验算法和多类分类。3.2.1. 决策树DT算法是一种适用于按属性对分类数据进行分类的监督算法。它利用DT方法设计了一个学习模型，该模型可以通过学习从训练数据中附带的决策规则的结果来估计目标属性在这里，分类规则由从根到叶的路径表示。在数据挖掘中，Map-Reduce数据表示为（3）（u，V）= u1，u2，u3，. . . ，u n，V（3）- V是要借助于输入变量或属性（如u1、u2、u3等）的值来分类的目标属性，由矢量u表示。DT分类的过程如图2所示。目前，胰岛素的存在是通过不同的质量来检测的，其中胰岛素和许多药物被认为是重要的并被代表。DT的最大优点是其简单性。3.2.2. 层次注意网络分层注意力网络[38]由一个编码器和一个解码器组成，编码器用长短期记忆（LSTM）等递归层处理输入信息，解码器将编码贡献映射到理想产量，··Jayasri N.P. ArunaICT Express 8（2022）250253}{→=关于我们==关于我们在类似的交易中出现。置信度由条件（6）规划。如果由标准准备的推断的置信度大于或等于最小置信度，则在该点处将该标准添加到AR的排列中。置信度{u 1→来自（u 2，. . . ，u n）}支持（u1）支持（u2，. . . ，u n））支持端口（u1）（六）图二. 决策树分类器通常具有第二递归层。这也允许解码器在创建解释时以编码输入的部分为中心。编码器包括一个安装，它将分类标记转换为数字向量，然后是两个LSTM操作。解码器包括与编码器不同的解码机制。考虑机制允许解码器确保编码器产量的特定片段。备选地，DT结果由该分层考虑网络使用，以这种方式形成分层决策考虑网络。信息表分为准备训练和测试数据。在这一点上，信息，文本信息被转换为数字序列和空格之间的字符嵌入。序列信息，例如文本，通常具有不同的序列长度。要准备使用可变长度序列的模型，请填充输入数据小批以具有相似的长度。为了保证填充参数不影响损失计算，创建一个掩码，记录哪些序列组件是生成的，哪些只是填充的。yield序列具有不同的长度，因此它们需要填充。对应的填充掩码包含零，其中对应的时间步长是填充值。此时，产量被视为对Apriori算法（AA）的贡献3.3. Apriori算法DT注意力网络算法的输出被指定为利用AR的AA。AR利用支持度和置信度的标准分析连续项集信息，以在称为关联的信息中定位重复连接。因此，AR是结构的隐含表达，如（4）在ARM的众多应用中，一个重要的应用是疾病调查，其中包括疾病与治疗的映射。然后，从AA获得的标准被视为对下一阶段的贡献，例如基于离群值的多类分类技术。3.4. 基于离群点的多类分类然后将AA的产量提供给基于离群值的多类分类技术[39]。基于孤立点的多类分类分为多类分类和类内分类。这项工作进行多类分类的AA产量进行分类，这取决于预测的支持度和置信度得分。数据集被划分为训练样本和测试样本。开始训练是为了检测糖尿病患者。从而完成了对糖尿病患者进行相应分类的测试。该算法冒险为所提出的分层分类算法是逐点向下的。算法1：提出的分层分类算法[输入]：糖尿病大数据集[输出]：分类结果1.开始2.加载糖尿病数据集3.执行Mapreduce算法4.映射数据集5.使用更少的属性和记录来6.决策树算法开始7.生产决策8.润关注网9.运行apriori算法10.生成规则11.运行基于离群值的多类{u1→来自（u2，. . . ，u n）}（4）12.classify对结果进行的支持给一个估计的的可能性一个事件的发生，即。 P u1来自（u2，. . . ，un）。项集的支持由条件（5）详述。如果一个项集的支持度大于或等于最小支持度，则将该项集添加到不间断项集的排列中。13.按分类结果14.如果15.糖尿病是16.然后17.注射胰岛素，上下，稳定18.Else if支持编号交易数据库中的交易数（五）19.糖尿病否20.然后规则P{u1→其他属性（u2，. . . ，u n）}指定先行词和21.注射胰岛素不22.端=Jayasri N.P. ArunaICT Express 8（2022）250254{} → {}表1糖尿病数据集中的属性。患者编号种族性别年龄体重入院类型ID出院处置ID入院来源身份证住院时间付款人代码医疗专业编号实验室程序编号程序编号药物编号门诊编号急诊编号住院号诊断1诊断2诊断3最大血糖血清A1C结果甲磺瑞格列奈那格列奈氯磺丙脲格列美脲格列吡嗪格列本脲甲苯磺丁脲吡格列酮罗格列酮阿卡波糖米格列醇曲格列酮检查citoglipton胰岛素格列本脲-二甲双胍格列吡嗪-二甲双胍格列美脲-吡格列酮二甲双胍-罗格列酮二甲双胍-吡格列酮变化再次入院的糖尿病4. 模拟结果和讨论在Windows 10 64位操作系统下，在Matlab 2019a中实现了所提出的分层分类算法。该数据集来自UCI ML [40]，该糖尿病数据集包括50个属性，列于表1中。最初，数据集包括50个属性，101 767条记录。实验研究的基础上提出的层次决策注意力网络，关联规则和多类离群分类算法的Map-Reduce技术的实现和结果的计算。图3清楚地查看有关原始糖尿病数据集中的记录计数和映射缩减结果中的记录计数的信息。也就是说，原始数据集有101767条记录。在应用MapReduce时，数据集被映射，然后减少为20 588条记录。通过这一点，可以清楚地表明，大数据糖尿病数据集在很大程度上得到了简化。也就是说，随着记录的减少，属性也减少了。MapReduce并行执行如图所示。四、因此，在MapReduce之后，利用数据集中的15个属性进行处理，例如年龄、性别、医学专业、体重、住院时间、实验室程序数量、紧急情况数量、程序数量、药物数量、诊断数量、最大血糖血清、二甲双胍、胰岛素、dibetesMed和再次入院。此外，该MapReduce结果作为输入一个层次化的决策注意力网络。所获得的DT算法的输出在图5中描绘。将关联规则AA应用于疾病分析，因此经历糖尿病的患者应该给予胰岛素。ARM用于确定胰岛素糖尿病等影响。此外，支持度值被确定为0.60，置信度值被确定为1。该规则和值也在图1A和1B中描绘。 6和第七章这些规则在图中用图画来解释。7，并在Eq. （7）作为。{insulin， age}糖尿病{diabetesMed}（7）因此，分类是借助基于离群值的多类分类技术。由于结果图3.第三章。M a p R e d u c e 框架的结果说明。见图4。 MapReduce并行执行。图五、分层决策注意力网络的结果。图第六章 Apriori算法规则预测。Jayasri N.P. ArunaICT Express 8（2022）250255++表2图第七章 Apriori支持度和置信度结果。见图8。比较图。拟议方法的比较提出的分层算法DT先验离群多类DT RBF网络对孕妇和胎儿都有影响该技术使用采用径向基激活函数的神经元来猜测未识别的值。这种方法使用了k-means clus-精密度0.99 0.99 0.89 0.824检测概率0.99 0.7 0.650.871F-score 0.99 0.82 0.73 0.847在MapReduce的基础上，采用DT、层次注意网络和AA算法，取得了较好的分类效果。将分类结果分为正确和错误两类问题进行预测。混淆矩阵具有准确度、检测概率（灵敏度）、真阴性率（特异性）、精密度、F1评分等条件。较高的“真阳性”检测值对于糖尿病分类是令人羡慕的。准确度被公式化为正确分类的糖尿病患者计数与糖尿病患者总数的比率，如（8）所示。检测概率或灵敏度或回忆率测量被正确识别的实际糖尿病患者的比例，并如（9）中所述。真阴性率（TNR）或特异性测量比例正确识别的非糖尿病患者，并在（10）中等同。精确度定义为准确预测的糖尿病患者与糖尿病患者预测规模的比例，并如（11）所示。因此，分类精度由随后的公式估计精度=（T P+T N）/（T P+F P+F N+T N）（8）检测概率=T P/（T P+F N）（9）真阴性率=（T N）/（F P+T N）（10）精度=T P/（T P+F P）（11）其中真阳性（TP）是被分类为糖尿病患者的糖尿病患者的计数。真阴性（TN）是分类为正常的正常计数。假阳性（FP ）是分类为糖尿病患者的正常人数，假阴性（FN）是分类为正常的糖尿病患者的计数。利用径向基函数网络对可能的情况进行识别妊娠期糖尿病，可以直接对各种威胁，Jayasri N.P. ArunaICT Express 8（2022）250256排序算法，授予255个基函数和研究通过在网络的输出层上执行线性回归来预测可能的妊娠糖尿病风险病例。因此，与所提出的分层算法相比，它没有显示出改进的结果。表2中现有和拟定的所有结果均已实施并叙述。图8和表2中给出的图表表明，所提出的分层算法的精度值，即，0.99.与之相比，DT算法的值为0.99，RBF网络的值为0.824。图8证明了召回值比较，其中所提出的分层方法具有更高的0.99与DT算法的0.7和RBF网络的0.871相比，图图8示出了所提出的分层方法与现有方法（例如DT和RBF网络）的F分数评估。最后证明了该算法的有效性。基于DT中的结果，在所提出的算法的胰岛素建议。5. 结论和今后的工作这项工作的目的是更准确地预测糖尿病数据集的发生，为患者找到最佳为了进行这种分析，除了提出的分层算法，如分层决策注意力网络，AA和基于离群值的多类分类之外，还使用了MapReduce平台。通过这种方法，糖尿病患者被分类，并确定胰岛素水平。从所描绘的比较图可以明显看出，所提出的分层算法显示出改进的性能。所使用的混淆矩阵的性能指标是精确度，召回率和F分数，即在数据集上执行0.99。在未来，这种算法将被允许在云计算结构中进行改进的访问和实时执行。Jayasri N.P. ArunaICT Express 8（2022）250257竞合利益作者声明，他们没有已知的可能影响本文所报告工作引用[1] Samuel Fosso Wamba ， Angappa Gunasekaran ， Shahriar Akter ，StevenJi-fan Ren，Rameshwar Dubey，Stephen J. Childe，Big dataanalyticsand firm performance ： Effects of dynamic capabilities ， J.Bus. Res. 70（2017）356-365.[2] Claudia Loebbecke ， Arnold Picot ， Reflections on society andbusinessmodel transformation arising from digitalization and big dataanalytics：Aresearch agenda，J. 我的天INF. 系统24（3）（2015）149[3] Ashwin Belle，Raghuram Thiagarajan，S.M.放大图片作者：DanielA. Beard，Kayvan Najarian，医疗保健中的大数据分析，BioMedRes. Int. （2015年）。[4] Atreyi Kankanhalli，Jungsman Hahn，Sharon Tan，Gordon Gao，医疗保健中的大数据和分析：特别部分介绍，Inf. 系统前面18（2）（2016）233[5] 放大图片创作者：David F. Jelinek，Andrew Stranieri，解决医疗保健大数据分析的复杂性：糖尿病筛查案例，Aust。J. INF. 系统19（2015）。[6] 放大图片作者：Ganjar Alfian，Muhammad Syafrudin，MuhammadIjaz，M. Syaekhoni，Norma Fitriyani，Jongtae Rhee，通过利用基于BLE的传感器和实时数据处理为糖尿病患者提供个性化医疗保健监测系统，传感器18（7）（2018）2183。[7] 吴昊，瓦伦蒂娜Tremaroli，卡罗琳施密特，安妮卡Lundqvist，丽莎 M. Olsson ， Manuela Krämer ， Anders Gummesson ， RosiePerkins，Göran Bergström，Fredrik Bäckhed，糖尿病前期和糖尿病的肠道微生物群：一项基于人群的横断面研究，Cell Metab。32（3）（2020）379-390.[8] P. Prahalad，M. Tanenbaum，K.胡德，D.M. Maahs，糖尿病技术：改善1型糖尿病年轻人的护理，改善患者报告的结局并预防并发症，糖尿病。Med. 35（4）（2018）419[9] Yichuan Wang ， LeeAnn Kung ， Terry Anthony Byrd ， Big DataAnalytics ： Understanding its capabilities and potential benefits forhealthorganizations，Technol. 预报. Soc. 变更126（2018）3[10] 放大图片创作者：Gunasekaran Manogaran，Daphne Lopez，KazuThota，Kaja M. Abbas，Saumyadipta Pyne，Revathi Sundarasekar，大数据分析在医疗物联网，在：21世纪的创新医疗保健系统，施普林格，占，2017年，页。263-284。[11] P. Suresh Kumar，S. Pranavi，使用大数据分析对糖尿病数据集进行机器学习算法的性能分析，2017年Infocom技术和无人驾驶系统国际会议（趋势和未来方向）（ICTUS），IEEE，2017年，pp. 508 -513[12] P. Sampath ， S. Tamilselvi ，新墨西哥州 Saravana Kumar ， S.Lavanya，T. Eswari，使用Hadoop架构进行大数据医疗保健中的糖尿病数据分析，Int. J. BioMed. Eng. Technol. 23（2[13] S. Thanga Prasad ， S. Sangavi ， A. Deepa ， F. 赛拉巴努河Ragasudha，大数据中的糖尿病数据分析与预测方法，在：2017年国际会议算法，方法论，模型和新兴技术应用（ICAMMAET），IEEE，2017年，pp. 一比四[14] Mohamed Abdel-Basset，Mai Mohamed，Florentin Smarandache，Vic-tor Chang，Neutrosophic关联规则挖掘算法用于大数据分析，对称10（4）（2018）106。[15] Nataliya Shakhovska ， Roman Kaminskyy ， Eugen Zasoba ，MykolaTsiutsiura，大数据中的关联规则挖掘，Int. J. Comput. 17（1）（2018）25[16] 陈云良，李方圆，范俊青，矿业协会规则在大数据中使用NGEP，集群计算。18（2）（2015）577[17] Sunil Kumar，Maninder Singh，使用MapReduce和Hadoop进行糖尿病数据分析，载于：工程振动，通信和信息处理，Springer，新加坡，2019年，第100 页。161-176。Jayasri N.P. ArunaICT Express 8（2022）250258[18] Namrata Bhattacharya ， Sudip Mondal ， Sunirmal Khatua ，使用Hadoop集群进行基于MapReduce的关联规则挖掘-疾病分析的应用，载于：计算机科学与工程创新，Springer，新加坡，2019年，pp. 533-541[19] Min Chen，Jun Yang，Jiehan Zhou，Yixue Hao，Jing Zhang，Chan-HyunYoun，5G-smart diabetes：Toward personalized diabetesdiagnosis withhealthcarebig data clouds ， IEEE Commun. 麦格 56（4）（2018）16[20] B.G. Mamatha Bai，B.M. Nalini，Jharna Majumdar，使用数据挖掘技术分析和检测糖尿病-医疗保健中的大数据应用，载于：计算，信息，通信和应用的新兴研究，Springer，新加坡，2019年，pp.443-455[21] Mário W.L. Joel Moreira，J.P.C. Rodrigues，Neeraj Kumar，JalalAl-Muhtadi，Valeriy Korotaev，用于妊娠糖尿病数据分析的进化径向基函数网络，J. Comput. Sci. 27（2018）410-417。[22] Bhavna Rawal，Ruchi Agarwal，提高基于c4的分类精度。5使用大数据分析的决策树算法，在：数据挖掘中的计算智能，Springer，新加坡，2019年，pp. 203-211[23] Venkatesh Gauri Shankar ， Bali Devi ， Sumit Srivastava ，DataSpeak：使用大数据新算法进行数据提取，聚合和分类，载于：计算，通信和信号处理，Springer，新加坡，2019年，pp.143-155[24] Alessio Bechini，Francesco Marcelloni，Armando Segatori，大数据关联分类的MapReduce解决方案，Inform。Sci.332（2016）33[25] Alberto Fernández ， Sara del Río ，Abdullah Bawakid ，FranciscoHer-rera，基于模糊规则的大数据分类系统与MapReduce：粒度分析，Adv. Data Anal。机密11（4）（2017）711-730。[26] Mikel Elkano，Mikel Galar，Jose Sanz，Humberto Bustince，CHI-BD ：A fuzzy rule-based classification system for big dataclassificationproblems，Fuzzy Sets and Systems 348（2018）75-101.[27] 普拉温作者：Vinod Vaze，M. Emmanuel，使用基于发散的灰狼优化来优化决策树规则，用于医疗保健中的大数据分类，Evol。内特尔（2019）1[28] Chitrakant Banchhor ， N. Srinivasu ，将 Cuckoo search-Greywolfoptimization和Correlative Naive Bayes classifier与MapReduce模型集成用于大数据分类，Data Knowl。Eng.（2019）101788。[29] C.B. Sivaparthipan，N. Karthikeyan，S. Karthik，使用大数据设计用于糖尿病分析的统计评估医疗信息系统，多媒体工具应用程序。（2018）1[30] S. Saru，S. Sustainree，使用机器学习分析和预测糖尿病，Int. J. 紧急情况Technol. 因诺夫Eng. 5（4）（2019）.[31] 陈佩华，潘传迪，基于boosting算法的糖尿病分类模型，BMCBioinformatics 19（1）（2018）109。[32] 放大图片作者：Noman Sohail，Ren Jidong，M. Uba，MuhammadIrshad，AyeshaKhan，糖尿病优势的分类和成本效益分析，Int. J.Comput. Sci. 网络安全性18（2018）29[33] Amine Rghioui，Jaime Lloret，Abedlmajid Oumnad，医疗保健中的大数据分类和物联网，Int. J. E-Health Med. Commun. （IJEHMC）11（2）（2020）20[34] MuhammadYounus ， MdTahsirAhmedMunna ， MirzaMohtashimAlam，Shaanxi Muhammad Allayear，Sheikh Joly FerdousAra，使用机器学习方法预测2型糖尿病并发症患病率的模型，载于：数据管理和分析，Springer，Cham，2020年，第100页。103-116[35] Luina Pani ， Somnath Karmakar ， Chinmaya Misra ， Satya RanjanDash，功能磁共振成像数据的多级分类框架：大数据方法，载于：智能医疗保健管理的大数据分析，学术出版社，2019年，第10页。151-174.[36] P. Sampath ， S. Tamilselvi ，新墨西哥州 Saravana Kumar ， S.Lavanya，T. Eswari，使用Hadoop架构进行大数据医疗保健中的糖尿病数据分析，Int. J. BioMed. Eng. Technol. 23（2Jayasri N.P. ArunaICT Express 8（2022）250259[37] ClaudioCostantini ， EmiliaNunzi ， AngelicaSpolzino ，MelissaPalmieri ， GiorgiaRenga ， TeresaZelante ， LukasEnglmaier，et al.，咽部微生物特征可预测血液病患者发生真菌性肺炎的风险。Immun. （2021）IAI-00105。[38] 杨子超，杨迪义，Chris Dyer，何晓东，Alex Smola，Ed- uardHovy，用于文档分类的分层注意力网络，在：计算语言学协会北美分会2016年会议论文集：人类语言技术，2016年，pp. 1480-1489年。[39] Dalton Ndirangu，Waweru Mwangi，Lawrence Nderu，数据挖掘中多类分类和离群值检测方法的集成模型，2019年。[40] https：//archive. ics. 乌奇岛edu/ml/datasets/diabetes。Jayasri N.P.女士是通讯作者，于2015年在安娜大学完成了计算机科学硕士学位。她在领先的IT公司工作了4年。她的主要研究领域包括大数据，物联网和数据分析。她已经完成了Java，J2EE和Python的认证。Dr. R. Aruna是印度金奈Veltech Rangarajan博士Sagunthala研发科学技术学院计算机科学与工程系的副教授&。她获得了博士学位。分别在印度金奈的安娜大学。她目前的研究兴趣包括无线网络，大数据，机器学习和深度学习。

下载后可阅读完整内容，剩余1页未读，立即下载