没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁21(2020)100482糖尿病不同诊断方法的比较分析Fareeha Anwara,*,Qurat-Ul-Aina,Muhammad Yasir Ejaz a,Amir Mosavib,c,d,**a计算机科学和软件工程系,伊斯兰堡国际伊斯兰大学(IIUI),伊斯兰堡,44000,巴基斯坦b挪威生命科学大学经济与商业学院,14世纪30年代,挪威c匈牙利布达佩斯奥陶纪大学约翰·冯·诺依曼信息学院,1034d信息学系,J。Selye University,94501 Komarno,SlovakiaA R T I C L EI N FO关键词:糖尿病深度学习机器学习准确率A B S T R A C T糖尿病是一种常见的慢性病。它是最常见的慢性疾病之一,因为世界卫生组织(WHO)的报告显示,糖尿病患者人数已从1.08亿增加到2014年的4.22亿。糖尿病的早期诊断很重要,因为它可以导致不同的疾病,包括肾衰竭,中风,失明,心脏病发作和下肢截肢。在文献中发现了不同的糖尿病诊断模型,但仍然需要进行调查以分析哪种模型是最好的。本文对使用人工智能(神经网络、机器学习、深度学习、混合方法和/或不同机器学习算法的堆叠集成使用)的糖尿病诊断方法进行了文献综述。超过35篇论文已入围,重点是糖尿病诊断方法。不同的数据集可在线用于糖尿病的诊断。Pima Indian Diabetes Dataset(PIDD)是最常用于糖尿病预测的数据集。与其他数据集相比,它具有在糖尿病诊断中起重要作用的关键因素。这项调查还揭示了现有方法的弱点,使它们不太适合糖尿病诊断。在人工智能技术中,深度学习很普遍,在医学研究中,心率越来越受到关注。深度学习与其他算法相结合可以在糖尿病诊断中提供更好的结果,心率应用于其他心脏病诊断。1. 介绍在医学诊断 中,糖尿病诊断是 主要挑战之一。世界 卫生组织(WHO)的报告显示,糖尿病患者人数已从1.08亿上升至2014年的4.22亿。一项估计显示,到2045年,这一数字可能达到6.29亿。2016年,估计有160万人死于糖尿病。糖尿病的早期诊断对于降低不同疾病的机会非常重要,如肾衰竭,中风,失明,心脏病发作和下肢截肢。许多机器学习技术已经被用于医疗诊断系统中。他们已被证明是准确的诊断,治疗的快速,成本效益。糖尿病是一种代谢紊乱,其中身体不能使用胰岛素或储存和使用葡萄糖作为能量,并且不产生胰岛素[1]。不同分类技术被用来处理不同的医疗问题。有多种类型的糖尿病,如1型、2型和妊娠糖尿病。在1型中,胰腺不能为身体产生足够的胰岛素。而在2型糖尿病中,身体无法正确使用胰岛素。这是最常见的糖尿病类型。第三种类型的糖尿病是妊娠糖尿病。它发生在孕妇血液中葡萄糖水平高[4]。深度学习是人工智能(AI)中机器学习的一个子集,可以从数据中进行自我学习。它也能够进行无监督学习。它可以学习大量的非结构化和未标记的数据,即使是人类的大脑也需要数年才能理解。深度学习使用多层从原始数据中提取特征。深度学习模型基于人工神经网络,卷积神经网络(CNN)就是其中之一。简单神经网络的结构如图所示。1.一、* 通讯作者。** 通讯作者。电子邮件地址:fareehaanwar@iiu.edu.pk(F. Anwar),amirhosein. nmbu.no,amir. kvk.uni-obuda.hu(A.Mosavi)。https://doi.org/10.1016/j.imu.2020.100482接收日期:2020年4月7日;接收日期:2020年11月12日;接受日期:2020年11月13日2020年11月17日网上发售2352-9148/© 2020作者。出版社:Elsevier Ltd这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表医学信息学期刊主页:http://www.elsevier.com/locate/imuF. Anwar等人医学信息学解锁21(2020)1004822Fig. 1. 神经网络架构。图二、糖尿病诊断的一般流程图。模糊逻辑是一种以人类认知和分析能力为模型的推理方法。它涉及YES或NO的两种可能性。计算机给出的输出为TRUE或TRUE,在人类语言中相当于YES或NO。研究人员使用不同的技术进行糖尿病诊断,例如反向传播神经网络(BPNN)[3]。类似地,参考文献[4]中的研究人员显示了小世界FANN模型在糖尿病诊断中的性能。此外,在参考文献中提出了一种基于人工神经网络的方法。[16 ]第10段。许多研究人员使用Pima Indian Diabetes Dataset(PIDD)进行糖尿病诊断。Pima Indian Diabetes Dataset由8个参数组成。这些参数包括妊娠次数、BMI、血糖、舒张压、收缩压、皮褶厚度、糖尿病谱系功能和0级或1级(0表示非糖尿病,1表示糖尿病患者)。文献综述表明,PIDD可能是糖尿病诊断的最佳数据集,因为它具有大量的值,使其成为标准化数据集。在文献中还讨论了其他小数据集,例如直接从患者收集的数据,通过调查收集的数据,心脏信号(ECG信号),CGM信号,图像数据集,眼睛数据集,皮肤数据集和阿育吠陀数据集。本文介绍了一些新的糖尿病诊断的调查贡献概述如下:1) 本文通过文献综述,分析了目前糖尿病诊断的最新方法,并对未来的研究提出了一些建议。2) 根据研究问题搜索了过去十年的几个相关计划,并仔细研究了这些计划,以确定其优点和缺点。3) 进行了质量评价,以验证与研究问题相关的文章。糖尿病诊断的一般流程图如图所示。二、本文件的其余部分如下:第2节阐明了所研究文章的文献综述。第3节分析了考虑到不同评价措施的调查,第4节包括一个全面的结论。2. 文献综述文献综述有助于我们确定特定领域或研究问题,或文献中已经存在的空白2.1. 研究问题本研究的主要目的是为我们的研究找到一个问题。问题:“是否有任何算法在使用大型数据集/Pima Indian DiabetesDataset时具有更好的准确性?”2.2. 数据库使用的数字图书馆有:(i) Science Direct(www.sciencedirect.com/)(ii) IEEE(www.ieeexplore.ieee.org/)(iii) Springer(www.springerlink.com/)(iv) 其他(https://scholar.google.com.pk/)2.3. 收集研究本研究文章集的收集基于:(i) 糖尿病诊断研究文章(ii) PDF格式的研究文章(iii) 研究文章与过去十年不同(iv) 根据调查撰写的文章(如需要)早期糖尿病诊断对人类健康至关重要,可以使他们免受糖尿病的致命影响。在过去的几年中,已经引入了不同的技术,使用各种模型和方法来诊断糖尿病。这些技术包括基于神经网络的方法、深度学习方法和机器学习方法、决策方法、k-NN方法、基于视网膜图像的方法和基于面部图像的诊断技术。2.4. 神经网络方法研究人员在Ref。[3]提出了反向传播神经网络(BPNN)。图形用户界面(GUI)是在MATLAB中构建的。研究人员使用Pima IndianDiabetes Dataset来测试他们提出的方法。一旦数据集加载完成,就执行解析。在逐个读取值之后,将它们存储以使用反向传播神经网络来训练ANN。在特征提取阶段,将具有相似特征的值进行分类,并在列中进行组的排列标准化是所提出的技术的下一步数据值在0和1范围内表示。规范化消除了数据冗余,保证了数据的依赖性。训练是所提出的技术的最后一步执行多达9次迭代来训练所提出的系统。在第三次迭代中发现最小误差在较低的历元值下获得最佳结果使用回归图和验证图创建结果前馈神经网络(FFANN)在当今世界变得突出因为它的计算速度和效率。参考文献[4]中的研究人员介绍了小世界FANN模型在糖尿病诊断中的性能。在这项研究中,研究人员考虑了四层FFANN。该网络有8个输入,其中1个输出神经元。他们在FFANN中使用了两个隐藏层两F. Anwar等人医学信息学解锁21(2020)1004823±±±±表1神经网络方法的结果比较表。技术糖尿病诊断准确性BPNN [3]百分之八十一SW-FFANN [4]91.66%[第16话]百分之八十七点三[第12话]百分百不同的网络拓扑被用于FFANN。研究人员在所提出的方法中使用的SW-FANN激活函数是双极S形函数。SW-FFANN的训练过程采用带训练的反向传播学习算法。用于本研究的数据集是取自UCI存储库的PIDD。将重布线过程应用于SW网络构造的最佳规则拓扑。DGlobal和DLocal参数计算每个重新布线步骤。参考文献[16]中提出了基于人工神经网络的方法。人工神经网络有三个主要层:输入层、隐藏层和输出层。输入层获取原始数据。隐藏层函数使用输入和分配给它们的权重来确定。数据被输入到JNN工具中,该工具确定属性值。然后,进行训练、测试和数据验证。 所提议的系统提供二进制数的输出。0为糖尿病患者,1为健康人。所提出的系统的平均错误率为0.010。在数据集上执行的epoch数量为158,000。用于训练数据的样本为767,用于验证系统的样本为237。参考文献[12]中的研究人员使用皮肤阻抗和心率变量,检测糖尿病的能力人工神经网络用于分类。皮肤阻抗数据收集从11例糖尿病患者,其中包括6X女性和5名男性,平均年龄为40 - 8岁。此外,8个正常人的数据收集,其中包括5名女性和3名男性,平均年龄为24 - 3岁。为了测量不同频率下的信号功率,使用Welch收集了20例正常人的心电图资料,其中男14例,女6例,平均年龄22 - 7岁。同时收集了20例糖尿病患者的数据,其中女性8例,男性12例,平均年龄40 - 8岁。对原始ECG信号进行预处理,使用中值滤波去除信号中的基线漂移。同时采用低通滤波器滤除高频噪声然后使用Savitzky-Golay滤波器对ECG信号进行平滑。表1简要说明了用于糖尿病的诊断所有方法都显示出更好的结果,但ANN [12]优于所有其他神经网络方法。2.5. 机器学习方法ANFIS是在参考文献中提出的。[1]这是基于Sugeno FIS。所提出的方法是一个人工神经网络和模糊推理系统具有学习能力的杂交。特征是从人工神经网络中改编而来的。ANFIS由前因和结论两部分组成。它由五个层组成,具有自己的功能。X和Y是输入对节点的值,而模糊集表示为Ai和Bi。三角形隶属函数被用于所提出的技术。第一层的输出成为第二层的输入。在第三层中进行数据的归一化。用于进行实验的数据集取自印度奥里萨邦布巴内斯瓦尔的当地人。采用Levenberg-Marquardt反向传播算法对神经网络进行训练。研究人员在Ref。[11]使用Pima印度糖尿病数据集进行分类糖尿病患者和糖尿病诊断使用不同的机器学习技术。为了对糖尿病患者和正常人进行分类,使用了根据以下选择的一些特征集:WHO标准。研究人员使用这些特征集作为特征向量。特征向量由来自所选数据集的所有八个特征组成。研究人员进行了三个阶段的评估[11]。第一个显示了糖尿病患者和非糖尿病患者的状态比较。第二个评估阶段使用假设检验来检查特征向量对于糖尿病患者和非糖尿病患者是否显示出不同的分布。在最后阶段分类中,进行分析以确定所有特征是否可以区分糖尿病患者和非糖尿病患者。机器学习分类算法如J 48、JRip、Multi- layerPerceptron、RandomForest、HoeffdingTree和BayesNet。使用Weka工具进行分类分析。零假设被所有八个特征拒绝,统计显示所有这些特征都可以区分糖尿病和非糖尿病患者。参考文献中使用了五种不同的机器学习技术[第十五条]用于糖尿病诊断和数据预处理。这些技术包括DNN,逻辑回归,决策树,SVM和朴素贝叶斯。这些技术用于Pima Indian Diabetic Dataset,以计算交叉验证的准确性。对数据集进行了五个预处理步骤。在每一步之后,计算并比较所有算法的准确性。这些数据预处理分别包括插补、定标、归一化、插补和定标、插补和归一化。插补是计算数据集缺失值的过程。在执行数据预处理步骤后,结果的比较表明,朴素贝叶斯和决策树在原始数据集和缩放数据集上的准确性相同。所有其他分类器也表现出良好的结果,在规模化的数据集的准确不同的机器学习模型:k-NN,朴素贝叶斯,决策树,随机森林,SVM和逻辑回归, 使用 参考文献[13]使用电子健康记录识别2型糖尿病。 从23,281名糖尿病相关患者中选择了300份样本。所有样品均未标记。召集了两名临床专家对数据集进行标记。在300份样本中,161份为2型糖尿病患者,60份为非糖尿病患者,79份样本未确认。78.3%的样本不完整,其中79个样本脱落。特征构造模型用于将电子健康记录(原始数据)转换为统计特征,以便其可以用作分类模型的输入。相关特征用求和法进行归纳,形成新的特征。从36个特征中,使用特征概括提取了8个特征。这些特征被用作分类模型的输入,如k-NN,朴素贝叶斯,决策树,随机森林,SVM和逻辑回归。此外,使用相同的分类模型测试了诊断2型糖尿病的能力。Weka工具用于将这些分类模型应用于数据集。基于准确度、精密度、特异性、灵敏度和AUC等参数的基于图的方法在参考文献中提出[9]分类视网膜图像视网膜血管有静脉和动脉两种类型最重要的阶段是提取视网膜血管以检测血管变化。使用患者的视网膜图像来计算动脉静脉比率。糖尿病的识别是通过动脉与静脉的比率来完成的。拟议系统的实施分不同阶段进行。第一个是预处理。在此阶段,从扫描的视网膜图像中提取绿色通道。该阶段通过去除噪声和消除不相关信息来改善未经处理的图像质量。使用等式(1)[9]计算绿色通道图像。G( 1)R+G+B增强用于清除图像。边缘检测是所提出的技术的下一阶段。将边缘检测技术应用到视网膜图像中提取血管。 研究人员在Ref。[9]使用Canny边缘检测技术。基尔希模板是G=F. Anwar等人医学信息学解锁21(2020)1004824×表2机器学习方法的结果比较表。技术导致表3深度学习方法的结果比较表。技术导致ANFIS [1] 90.32%的ANFISCNN和CNN-LSTMCNN-LSTM使用5倍交叉的准确率为95.1%,J48,MLP,HoeffdingTree,JRip,HoeffdingTree精度0.770和召回率[21日]验证贝叶斯网络,RF[11]0.775LR、MLP和CNN [6] CNN准确率77.5%DNN,SVM [15] DNN准确率77.87%深度神经网络5折交叉验证:k-NN、朴素贝叶斯、DT、RF、SVM、LR、EX pert算法[13]RF,SVM,二叉树,自适应提升,广义线性,NN [19]AdaBoost算法AUC 0.98使用RF时的使用AdaBoost的[24日]准确率98.35%,F1为98,MCC为97。10折交叉验证:准确性97.11%,敏感性96.35%,特异性98.80%分类器[35]决策树分类算法来自ECG信号的信号。CNN和CNN-LSTM与糖尿病的自动检测相结合深度学习用于识别边缘的存在,并最终从视网膜图像中提取血管。基于图形的方法被应用于视网膜血管分类。图表使用链接和节点表示。在提取独特特征后,从不同的图像中进行目标检测。为了检测损坏的部件,使用MSER算法。分类图像和提取的特征被认为是输入。比较图像的行和列方向值。任何具有最大值的部分都被认为是糖尿病。所提出的方法显示了88%的准确性。参考文献[19]中使用了虹膜图像和机器学习技术。 2型糖尿病的诊断为此,考虑了338例受试者,其中180例为糖尿病患者,158例为非糖尿病患者。受试者根据三个因素选择,包括:性别比例,标准差,糖尿病病程年龄(从1岁到25岁不等)和平均年龄。使用I-SCAN-2获得虹膜图像。获取大小为(左右虹膜)640 - 480的灰色红外图像。 利用虹膜图像,从感兴趣区域中提取合适的特征。利用虹膜的内、外边界进行分割。采用橡皮片归一化法将提取的虹膜绘制成一个固定的矩形。根据尾部、头部和身体胰腺器官从虹膜裁剪感兴趣区域。然后应用阈值来生成边缘图。以瞳孔中心点和瞳孔半径为主要参数。对于每个特征,计算评分标准。研究人员使用不同的机器学习算法进行分类。这些算法包括SVM,朴素贝叶斯,随机森林,NN,自适应提升模型和广义线性模型。在[35]中提出了一个决策支持系统,该系统使用Ada-Boost算法以决策树为基本分类器进行分类.拟议方法分四个不同阶段实施。进行了局部和全局数据集收集。使用全局数据集进行训练和测试,使用局部数据集。用于这项研究的数据集是从印度Ker- ala的各个地方收集的。Pima Indian Diabetes Dataset被认为是全球数据集,而从Kerala收集的数据集被认为是本地数据集。通过用平均值替换本地数据集中的缺失值来实现。在第二阶段,AdaBoost算法被应用到一个全球数据集来训练所提出的系统。不同的基础分类器(SVM,NB,Decision Stump和DT)也与AdaBoost算法一起使用。在第三阶段,使用本地数据集实现了所提出的系统的验证。最后,计算了基于基分类器的AdaBoost算法的分类精度。以决策树为基础的AdaBoost算法对糖尿病的预测准确率最高,达到80.729%。此外,它显示出更低的错误率。表2简要解释了用于糖尿病诊断[1]发现ANFIS比其他人更准确,但数据集较小。2.6. 深度学习方法参考文献[21]中的研究人员提出了使用HRV网络具有嵌入的特征提取、特征选择和分类。深度学习具有使用数据进行自我学习的优势。CNN由三层组成:卷积层,池化层,最后一层是全连接层。最后一层具有ReLU激活功能。卷积层输出被提供给池化层。卷积层使用的激活函数是ReLU,它将max(0,X)应用于由X表示的ReLU的每个输入。池化层的主要功能是执行下采样操作。LSTM是RNN的改进形式。为了处理消失和爆炸梯度问题,它使用内存块而不是卷积简单的递归神经网络单元。长短期记忆可以比传统的RNN更好地处理长期依赖关系。研究人员在参考文献[6]中提出了一种深度学习方法,2型糖尿病的诊断应用逻辑回归、多层感知器和卷积神经网络对9例患者的CGM信号进行分析。 生成CGM信号后,将数据集分为训练数据和测试数据。1-6名患者的CGM信号被用作所有三个分类器的训练集,并且之后,7-9名患者的CGM信号被用作所有分类器的测试数据集。ReLU被用作MLP中隐藏层的激活函数。对于CNN,卷积层由三层组成,每一层都有ReLU作为其激活函数,并被最大池化层遮蔽。在特征选择阶段,研究的滤波器大小和滤波器分别为6,12,18和8,16,32,64。10个和50个单元被充分使用连接层。在每个模型的不同值和组合中,最佳组合是在CNN模型中,LR=10-4,卷积层= 2,滤波器大小为18,滤波器数量为患者该数据集包括超过14000名患者的记录。将不同的深度学习模型应用于包括LSTM和GRU的数据集,用于2型糖尿病检测。数据集收集自2010年至2015年。对数据集进行数据预处理。使用一组测量值来描述每位患者的就诊情况。使用Epperin来代表这些措施。每个序列有30个特征。KAIMRC数据集用于训练LSTM和GRU。结果与MLP模型进行了比较。LSTM和GRU在不同的数据输入(大小范围从3到15)上取得了比MLP模型更好的结果。对于更长的依赖性,LSTM优于其他人。而在短序列上,GLU表现更好。为了减少过拟合,提出了一种用于糖尿病预测的具有dropout的预测系统[23]。研究人员提出了一种深度学习神经网络模型,该模型具有全连接层和丢弃层。Pima印度糖尿病数据集用于训练和测试所提出的系统。首先,将数据集作为输入层的输入。之后,使用两个完全连接的层,并且每个层都有一个dropout层。在通过这些层的数据集后,通过输出获得系统的结果。这些层使该系统成为MLP。参考文献中提出了一种在五重交叉验证和十重交叉验证中进行训练的深度神经网络。[24]第24话我的心Pima Indian Diabetes Dataset用于诊断。数据F. Anwar等人医学信息学解锁21(2020)1004825×××××i=1从UCI机器存储库数据库中收集。收集数据后,将数据集分为五倍和十倍交叉验证。所提出的方法有四个隐藏层,隐藏层中的神经元数量分别为12,16,16和14。使用这种组合实现了最佳结果。有八个输入层由八个属性组成,一个输出层用于以二进制形式预测糖尿病或非糖尿病患者。ReLU被用作激活函数。表3简要说明了糖尿病诊断的不同深度学习方法。2.7. 混合方法[26]中采用的模糊深度学习方法用于预测糖尿病。首先,对数据进行模糊化,然后将数据作为CNN的输入。使用印度人口的阿育吠陀数据集。该数据集是通过采访不同的患者收集的。共收集了150个样本。在预处理阶段,对数据集进行归一化。随后,应用Fuzzifica- tion为每个属性分配一系列值。将每个样本转换为矩阵。矩阵X的列表示特征,矩阵x的行表示特征的模糊值。模糊化的执行方式,在矩阵中,每个功能提供了至少10%的重叠。在将所有数据转换为矩阵X形式后,将模糊矩阵X作为CNN的输入。研究人员进行了三项实验。两个实验使用神经网络进行,而最后一个使用CNN进行。将α值设置为2和5,每次实验共进行2000次迭代。CNN卷积层和池化层的矩阵X大小分别为3 3和22. Hybrid Fuzzy-CNN的性能优于神经网络方法。参考文献[25]中的研究人员还使用了一种混合模糊深度学习方法来检测糖尿病。数据集来自国家糖尿病、消化和肾脏疾病研究所。在开始时,进行数据的模糊化。然后形成5 - 5的Fuzzy矩阵,矩阵的列表示特征,矩阵的行表示特征的模糊值。然后将模糊矩阵X作为CNN的输入。进行了三个实验。两个实验是使用神经网络进行的,而最后一个是使用CNN进行的。α的值被认为是2和5,并且每个实验总共进行2000次迭代。CNN卷积层和池化层的矩阵大小分别为33和2 2。Hybrid Fuzzy-CNN的性能优于Neural网络办法。SVM和朴素贝叶斯统计建模的混合[36]用于预测糖尿病。数据集由402名患者组成。还引入了一些新的属性,这些属性在发布前并没有使用。利用支持向量机算法将事件在空间中的发生表示为点。这样,不同的阶级就以强烈的差距显示出来。SVM的主要目标是最小化权重。使用朴素贝叶斯统计模型进行预测,该模型使用线性函数。为所提出的系统收集的数据集由具有同等重要性的独立属性组成属于类别C的记录Y的概率可以计算为等式(2)[36]。P(Y=C)=ΣqP(Xi|Y=C)(2)使用ECG信号自动检测糖尿病。利用数字信号处理方法从心率信号中提取特征,并利用这些特征诊断糖尿病。通过统计分析确定的有用特征是庞加莱几何性质(SD 2)和递归图性质(REC、DET、LMean)。这些重要特征有助于使用HR信号区分糖尿病和非糖尿病特征。为了验证所提出的方法,AdaBoost分类器与感知器弱学习器结合使用。在此基础上,开发了一种新的糖尿病综合指数DII。该系统的准确率为86%。DII显示HR信号为糖尿病患者。它还有助于自动检测糖尿病。使用15名糖尿病患者和15名非糖尿病患者的ECG数据集糖尿病的预测[40]。时域提取参数为HR(平均HR)、HF、统计学参数(NNN50、PNN50)和直方图参数(HRVΔ指数)。时域无法区分HRV信号是交感神经还是副交感神经。 因此,频域分析被用来克服这个缺点。它包括一个功率谱密度(PSD)估计分析HRV信号。非线性方法包括Poincare图、递归图、关联维数、近似熵和充分熵等被用来量化HR波动的动力学。结果表明,HRV的非线性分析是最好的三种分析。 具有临床意义的非线性参数为相关维近似熵、样本熵和复发曲线特性。线性方法无法发现信号中隐藏的信息,为了克服这一点,提出了一种基于经验模式分解(EMD)的新的非线性方法[41]。该方法用于使用RR间期信号区分糖尿病患者和非糖尿病患者。平均频率采用傅里叶-贝塞尔级数展开,并结合两个带宽参数,调幅带宽和调频带宽,用于研究。 这些带宽特征是从RR-0间期信号的EMD获得的固有模式函数中提取的。还提供了唯一表示以区分2组。总体而言,使用IMF提取了五个特征。结果表明,这些特征可以有效地区分糖尿病和非糖尿病患者。无创诊断支持系统用于糖尿病诊断[42]。使用HRV分析对一个人的心脏健康进行评估可以识别糖尿病患者或不。九个非线性特征e. 采用近似熵、最大李雅普诺夫指数、去趋势波动分析和递归量化分析等方法进行分析。具有临床意义的指标用作分类算法(AdaBoost、DT、模糊Sugeno分类器、k-NN、概率神经网络和SVM)的输入。10-使用折叠交叉验证(foldcross-validation)来识别所有分类器中的最佳分类器 。AdaBoost 的 最 佳 准 确 性 为 90% , 敏 感 性 为 92.5% , 特 异 性 为88.7%。2.9. 其他方法参考文献[20]中的研究人员提出了一种具有三种不同机器学习算法的糖尿病预测模型。这些机器学习算法包括决策树,SVM和朴素贝叶斯。决策树利用先前数据的规则预测目标类。它选择计算最高信息增益的每个节点。Pima Indian Diabetic Dataset取自UCI在线数据库,这项研究。系统的输出是二进制形式的0或1。哪里0例正常,1例糖尿病患者。如果输出不是0或1,则数据被视为未分类且处于灰色区域。SVM达到了95.52%的准确率,而朴素贝叶斯准确率为94.53%2.8. 使用心率信号研究人员在[39]中提出了数字信号处理方法,参考文献[14]中提出了具有离群值检测方法组合的自动多层感知器(MLP)。在该模型中,小MLP是具有自动调谐质量的集合,其自动调整参数。Pima Indian Diabetes Dataset用于测试拟议的系统。糖尿病数据集的预处理是通过在基于增强类离群值的方法的帮助下检测离群值来完成的。检测到10个离群值,其中有12个最近邻。在数据预处理后,自动MLP用于糖尿病患者的分类。总共有4个MLP,其中有几个隐藏的数字F. Anwar等人医学信息学解锁21(2020)1004826=≥层和学习率被使用。在十个训练周期后确定错误率。在参考文献[10]中引入了一种具有用于数据简化的K-means和作为分类器的J 48(决策树)的模型。在第一步的缺失和表4其他糖尿病诊断方法的结果比较。技术成果决策树,SVM,朴素贝叶斯[20]朴素贝叶斯准确率76. 30%数据集的不可能值,如BMI 0等,通过计算平均值来代替。在第二步中,为了去除不正确分类的样本,使用WEKA实现的K均值算法。在第三步中,使用J48对患者进行分类 决定 树算法, 一 10-倍交叉验证法最后,对性能进行了评价。准确度,特异性,使用J48决策树作为分类器进行数据约简的K均值[10]。k-最近邻),使用从面部图像中提取的四个面部块来检测DM[5]准确度90.04%灵敏度87.27%特异性91.28%准确率99.48%使用真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)作为评价措施。RBF神经网络[2]的效率为 68.23%改进的k-means和LR [17]模型达到3.04%另一个性能指标是混淆矩阵。TP和TN用于代表正确分类的样品,而FP和FN代表错误分类的样品。对于拟议的方法,10倍[18]第十八话更高的预测准确性90%的准确性、特异性、灵敏度和AUC准确度95%使用交叉验证。 Pima Indian Diabetes Dataset(PIDD)可用-在UCI repository中使用。参考文献[ 5 ]提出了一种新的方法,该方法由DM遗传算法、灰度直方图特征和k-最近邻分类器组成。使用从面部图像中提取的四个面部块进行糖尿病的检测。遗传算法是一种高效的搜索方法. GA帮助使用灰度直方图选择新特征。为了从面部块中提取特征,使用GHF。这些特征保留了大部分区块信息。四个面部的分布如下:A块代表前额,B块和D块分别代表左右眼区,C块位于B块和D块的中间,即鼻子。四块面砖,都是参赛者的皮肤。在这些块中不存在其他形状或边缘。所有这些块的值应该在相同的范围内。GHF用于提取每个块的范围。它计算了块的每个灰度值的频率。DGMA的提出是为了去除GHF中的冗余信息,保留有价值的信息。遗传算法利用种群适应度来选择个体。在每一代中进行交叉和突变以产生新的孩子。为了检测糖尿病,使用k-NN分类器以及称为k-NN-W的权重。面部图像的每个块都被分配了权重。到 分类 妊娠期糖尿病 非糖尿病患者,利用实时数据,RBFNN被提出在参考文献。[2]的文件。像安 是适应性的,他们通过例子来学习。径向基神经网络广泛应用于曲线拟合问题的控制和分类。RBF网络是一种使用RBF作为激活函数的ANN。前馈神经网络由输入层、隐藏层和输出层组成。在该方法中,内层输出通过计算隐层中心与输入之间的距离公式确定。我在隐藏层中没有非线性函数。相反,它在输出层有一个线性函数。在RBF网络的结构中,通过改变高斯钟形函数和高斯钟形函数,使RBF网络的性能与RBF网络不同。它使用单个隐藏层来显示非线性函数。所提出的技术的一些优点是快速训练,更简单的架构,强大的映射能力,和成本效益。不需要抽血化验,因为他们收集实时数据,使用不同医院的病人记录。实时数据集由188条记录和10个参数组成。数据取自2013年1月至2013年5月的患者记录。一种基于数据挖掘技术的类型预测模型2型糖尿病被提出[17]。该模型由两部分组成:使用k-means算法进行检测,以及通过logistic回归进行检测。Pima Indian Diabetes Dataset用于测试拟议的系统。使用不同的内置过滤器在WEKA中进行数据预处理。首先,为了降低数据集的复杂性,分析了每个属性的医学含义以及与糖尿病的相关性。由于错误而出现的缺失和不正确的值也被删除。一个无监督的归一化过滤器用于属性,以规范化的数据。为了剔除不正确聚类的数据,采用改进的k-means算法。 逻辑回归算法电子鼻硬件[7]精确度95.0%糖尿病的准确率91.30%健康人群的准确度为94.12%Kappa统计贝叶斯网络[37]准确率99.51%特征选择,SVM[38]准确率98%用于预测糖尿病和非糖尿病患者。建议的模型进行了评估的k倍交叉验证,详细的准确性,和Kappa统计。参考文献[16]中的研究人员使用了10倍交叉验证方法。基于树的集成学习模型被引入用于自动糖尿病预测[18]随机森林和梯度提升用于分类。Pima Indian Diabetes Dataset用于测试拟议的系统。数据集包括768例,其中268例为糖尿病阳性,500例为非糖尿病患者。在收集数据集之后,进行数据的预处理和清洗。在预处理步骤中,去除特征3的具有零值或空值的数据点。其次,用所有其他数据计算的平均值替换所有这些零值。还使用k-NN方法检测并去除离群值。提出了一种基于EMD的非线性方法来区分糖尿病和正常R-R间期信号[8]。SVM用于预测。从ECG信号中获取的参数用作SVM分类器的特征 集。 使用 带通 滤波器 去除ECG 中的 不需 要的噪 声。 Pan和Tompkins算法对R-R间期15的检测产生了很大的影响。在该算法中,实现了一个特殊的数字带通滤波器这有助于减少由于ECG信号中的不同干扰类型而发生的错误该算法能自动调整参数和阈值,以适应QRS波群的变化支持向量机被用来作为一个分类器来检测糖尿病。该数据集由50个ECG信号组成,其中33个是健康的,17个是糖尿病患者。电子鼻技术在参考文献中提出[7]人的呼吸气体信号数据的分析用于检测糖尿病。该气体信号是使用连接到微控制器(电子鼻)的电化学传感器捕获的。该技术分为七个阶段:电子鼻的制作,收集地面真实数据,数据预处理,特征提取,特征选择,分类和评估。收集地面实况数据以收集训练数据。计算非空腹患者的血糖水平(BGL)用于糖尿病预测。BGL低于120 mg/dL的患者被视为健康,而BGL高于150 mg/dL的患者被视为糖尿病患者。为了收集地面实况数据,患者使用电子鼻呼吸约150秒,并使用笔记本电脑连接记录。预处理分为两个阶段:信号诊断和特征尺度(归一化)。信号诊断有助于提高电子鼻的灵敏度和准确性。正常化 帮助 到 使 特征 重新缩放 到有标准F. Anwar等人医学信息学解锁21(2020)1004827表5研究人员使用的数据集和工具的比较作者技术数据集工具表5(续)作者技术数据集工具语言Aparimita Swain等人,2016Priya Shirley等人,2016小姐SnehaJoshi等人,2016Okan Erkaymaz等人,2016ANFIS [1]自行收集100人的数据RBFNN [2]自收集188条记录的数据BPNN [3] Pima印度糖尿病数据集SW-FFANN [4] Pima印度糖尿病数据集语言MATLAB 2013MATLABR2010aMATLAB 2015–AKMAshiquzzaman等人,2018Safial IslamAyon等人,2019TusharDeshmukh等人,2019TusharDeshmukh等人,2020带dropout的深度学习神经网络[23]深度神经网络[24]模糊化和CNN [25]模糊化和CNN[26]Pima印度糖尿病数据集Pima印度糖尿病数据集国家消化和肾脏疾病研究所印度人口阿育吠陀数据集PythonPython––Ting Shu等,2016k-最近邻),使用从面部图像中提取的四个面部块来检测DM [5]面部图像数据集维纳·维贾扬V.等人,2015Zhilbert Tafa等人,2015AdaBoost算法使用基本分类器[35]支持向量机和朴素统计建模皮马印第安人糖尿病数据集采集的402个实例的数据集MATLAB和WEKAMATLABAli Mohebbi等人,2017Hariyanto等人,2017LR、MLP和CNN [6] CGM信号MATLAB电子鼻硬件[7]电子鼻4传感器/ Arduino MEGA 2560+MATLABMukeshKumari等人,2014年NeileshB.贝叶斯[36]贝叶斯网络[37]特征选择,来自3个不同科索沃的地点PimaIndian医 院 自 行 采集Weka–Reena Musale等人,2017经验模态分解技术[8]50人的ECG信号例如,2014SVM[38]糖尿病数据集R.S. Mangrulkar等人,2017陈文谦一种基于图的视网膜图像分类方法[9]扫描视网膜图像MATLAB属性分布计算四个统计特征,标准差,最小值,平均值和最大值。K-NN分类器用于糖尿病检测。研究人员在[37]中提出了一种贝叶斯网络分类器来区分K-数据均值等,2017年减少J48决策树作为Pima印度糖尿病数据集Weka诊断糖尿病。所使用的数据集是从医院收集的。贝叶斯网络是一个图形模型,用于概率。FrancescoMercaldo等人,2017分类器[10]J48,MLP,Hoeffding Tree,JRip,BayesNet,RF[11]Pima印度糖尿病数据集WekaWEKA工具被用来实现所提出的技术。该数据集由9个属性和206条记录组成。对数据集进行预处理,以识别属性并选择这些属性。Tarak Das等人,2017ANN [12] ECG信号+皮肤阻抗Kubios软件(版本2.2)+但是进行数据归一化。使用贝叶斯网络分类器算法实现了99.51%的准确率错误率也降至0.48%。陶铮等,k-NN,朴素贝叶斯,电子健康MATLAB提出了一种新的特征选择方法,2017DT、RF、SVM、LR、EX pert算法[13]Weka记录[38].特征选择方法被认为是提高预测精度、预测效率、Maham Jahangir例如,2017魏例如,2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功