数据挖掘预测2型糖尿病的模型

117 浏览量更新于2023-12-26 收藏 878KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

≥≥Informatics in Medicine Unlocked 10（2018）100基于数据挖掘的2型糖尿病预测模型韩武，杨圣奇*，黄章琴，何健，王晓毅北京未来互联网技术创新中心，北京工业大学物联网软件与系统工程研究中心，北京，100124A R T I C L E I N F O保留字：混合预测模型数据挖掘糖尿病A B S T R A C T由于糖尿病发病率的不断增加，越来越多的家庭受到糖尿病的影响大多数糖尿病患者在诊断前对自己的健康质量或面临的风险因素知之甚少在这项研究中，我们提出了一种新的模型，基于数据挖掘技术预测2型糖尿病（T2DM）。我们试图解决的主要问题是提高预测模型的准确性，并使模型适应多个数据集。该模型在经过一系列预处理的基础上，由改进的K-means算法和Logistic回归算法两部分皮马印第安人糖尿病数据集和怀卡托环境知识分析工具包被用来比较我们的结果与其他研究人员的结果。结果表明，该模型的预测精度比其他研究者的预测此外，我们的模型确保了数据集的质量。为了进一步评估我们模型的性能，我们将其应用于另外两个糖尿病数据集。两个实验的结果都显示了良好的性能。因此，该模型被证明是有用的糖尿病的现实1. 介绍糖尿病（DM）是一种以高血糖为特征的慢性疾病近一半的糖尿病患者有家族遗传因素，这是糖尿病最重要的特征之一胰腺不能产生足够的胰岛素和身体的胰岛素使用不足都是糖尿病的病理原因。DM有两种类型。1型糖尿病（T1DM）的发病机制是胰腺分泌受损的β细胞，使其不能及时降低血糖水平。胰岛素抵抗和胰岛素分泌不足是2型糖尿病（T2DM）的发病机制，也称为非胰岛素依赖型糖尿病。在中国近30年的发展中，随着糖尿病患者数量的不断增加，人们开始意识到这一慢性疾病已经深深地影响着每个家庭和每个人的日常生活。糖尿病患者在总人群中的比例呈上升趋势，男性糖尿病患者的增长速度高于女性糖尿病患者，如图1所示。根据一些官方统计数据，2017年中国糖尿病患者人数接近1. 1亿。这意味着中国拥有世界上最大的糖尿病人口国际糖尿病联合会（IDF）在糖尿病地图集（第七版）中提供了关于糖尿病的最新数据[1]。数据显示，2015年全世界糖尿病患者人数接近4.15亿。就糖尿病患者的人口增长趋势而言，它预测这一数字将接近6.42亿，即十分之一的成年人。为了降低糖尿病的发病率，减少糖尿病的危害，我们必须关注糖尿病的高危人群根据世界卫生组织（世卫）的最新标准，糖尿病高危人群的定义如下：● 45岁，很少锻炼● BMI24公斤/平方米● 糖耐量受损（IGT）或空腹血糖受损（IFG）● 糖尿病家族史● 降低高密度脂蛋白胆固醇或高胆固醇血症（HTG）● 高血压或心脑血管疾病● 年龄≥30岁的妊娠女性研究糖尿病高危人群需要利用先进的信息技术。因此，数据挖掘技术是一个适合我们的研究领域数据挖掘，也被称为数据库中的知识发现（KDD），被定义为在大型数据集中发现模式的计算过程，涉及在数据库中的方法。* 通讯作者。电子邮件地址：syang@bjut.edu.cn（S. Yang）。https://doi.org/10.1016/j.imu.2017.12.006接收日期：2017年8月18日;接收日期：2017年12月9日;接受日期：2017年12月10日2017年12月12日在线发布2352-9148/©2017由Elsevier Ltd.发布这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuH. Wu等人Informatics in Medicine Unlocked 10（2018）100101Fig. 1. 中国糖尿病患者比例的变化趋势人工智能、机器学习、统计学和数据库系统的交叉[2]。这些方法的主要目的是模式识别、预测、关联和聚类。数据挖掘是一系列自动或半自动处理的步骤，目的是从大量数据中提取和发现感兴趣的、未知的、隐藏的特征。高质量的数据和正确应用的方法是数据挖掘的两个重要方面。数据挖掘已成功地应用于人类社会的各个领域，如天气预报、市场分析、工程诊断、客户关系管理等。但是，在疾病预测和医疗数据分析方面的应用仍有改进的空间。例如，每家医院都拥有大量患者的基本信息和医疗信息，必须从这些数据中修订、补充和提取有意义的知识，以支持临床分析和诊断[3，4]。有理由相信，存在着各种有价值的模式，等待着研究者去探索。众所周知，糖尿病患者人数众多，而且还在不断增加。此外，大多数人对自己的健康状况知之甚少。因此，认为有必要建立一个模型，从高危DM组首次检查时间起5年我们特别关注T2DM。第二部分介绍了数据挖掘在糖尿病患者和潜在患者群体中的相关工作。第3节详细介绍了实验工具、数据集和预测模型。第4节描述了实验的结果。第五节讨论了验证的结果和步骤第6节总结了本文的一些未来工作的方向2. 相关作品近年来，利用数据挖掘技术来预测疾病的可能性的应用越来越频繁许多算法和工具箱已经被研究人员创建和研究。这些都凸显了这一研究领域的巨大潜力。在本节中，提出了一些与所提出的问题密切相关的重要工作基于几项研究，我们发现一个常用的数据集是来自加州大学欧文分校（UCI）机器学习数据库的Pima Indians Diabetes Dataset [5]。 Patil [6]提出了一种混合预测模型（HPM），该模型使用K-means聚类算法来验证给定数据的选定类别标签，并使用C4.5算法来构建最终分类器模型，分类准确率为92.38%。Ahmad [7]将神经网络中多层感知（MLP）的预测准确性算法结果表明，修剪后的J 48树的准确率较高，为89.3%，而修剪后的J48树为 81.9%。马卡诺-Ceden~o[8]提出了多层感知器人工亚塑性（AMMLP）作为糖尿病的预测模型，其最佳结果为89.93%。上述所有研究均使用相同的皮马印第安人糖尿病数据集作为实验材料。怀卡托知识分析环境（WEKA）工具包是大多数研究人员选择的主要工具。为了获得更多有用的、有意义的数据，必须合理选择预处理方法和参数。Vijayan V. [9]回顾了不同预处理技术对预测DM的益处。预处理方法为主成分分析和离散化。它得出的结论是，预处理方法提高了朴素贝叶斯分类器和决策树（DT）的准确性，而支持向量机（SVM）的准确性下降。Wei [10]基于FP-growth和Apriori算法分析了T2 DM的风险因素。Guo [11]提出了受试者工作特征（ROC）面积，灵敏度和特异性预测值来验证和验证实验结果。在有效的预测算法的基础上，我们需要一种适当的方式来使模型方便于每个人[12]。我们发现Sowjanya [13]在他的论文中开发了一种基于Android应用程序的解决方案来克服对DM的认识不足。该应用程序使用DT分类器来预测用户的糖尿病水平该系统还提供了有关糖尿病的信息和建议。它使用了从印度恰蒂斯加尔邦的一家医院收集的真实世界数据集。Shi等人 [14]认为预防T2DM应针对个人。因此，他们专注于建立糖尿病风险评估模型，并开发了基于移动设备的糖尿病风险评分系统。改进算法将是本文的主要工作之一有一些论文专注于改进K-means算法。王俊涛[15]提出了一种使用噪声数据滤波器的改进K-means算法。YanhuiSun[16]提出了一种基于扩展Frobenius范数（Efros）距离改进k均值聚类初始中心选择的方法。Shunye Wang [17]提出了一种改进的带方差的k-means聚类算法，该算法使用Huffman树结构选择初始聚类中心。大多数文献对聚类中心的初始化过程进行了优化。对于那些有糖尿病风险的人，有必要制定一系列分级预测标准[18]。Chandrakar和博士。Saini[19]提出了印度加权糖尿病风险评分（IWDRS）作为糖尿病筛查工具，以解决未发现的糖尿病前期和晚期诊断的问题Han和Luo [20]提出了成对和大小约束K均值（PSCKmeans）方法来筛选糖尿病高危人群该方法提供了一种风险分层的工具，H. Wu等人Informatics in Medicine Unlocked 10（2018）100102临床疾病综上所述，通过这些相关工作，完成了DM预测的算法比较和模型建立等方面的研究。然而，预测精度和数据有效性不够高的实际应用。此外，其他研究人员提出的大多数模型只能在一个特定的数据集上表现良好，但不能适应各种数据集。我们需要提出一种新的预测模型，以获得更高的准确性并适应更多的数据集。因此，我们选择了相同的皮马印第安人糖尿病数据集和相同的WEKA工具包进行进一步研究。我们收集的另外两个数据集用于测试我们模型的可用性和适应性。3. 模型和算法本节由数据集描述、预处理过程和分类算法组成。所有的实验过程都是使用WEKA工具包完成的。所提出的模型如图所示。 2.3.1. 数据挖掘工具包WEKA是一个免费的非商业工具包。它由标准的机器学习和数据挖掘算法组成，这些算法基于JAVA环境。通过这些预处理、分类、聚类、关联等算法，以及可视化的界面，可以方便快捷地从数据库中获取有用的知识。其中部分算法已被用于建立T2DM的预测模型。近年来，由于相关领域的认真研究，在医学预测分析中使用数据挖掘算法的情况有所增加在过去的几年里，一些研究人员已经提出，有可能从基本患者数据中获得临床辅助支持和预测模型[21- 23 ]。在糖尿病疾病预测分析领域发表的大多数论文旨在提高准确性。一些研究者已经通过使用WEKA工具包和Pima Indian Diabetes数据集获得了可观的结果。然而，准确性仍有改进的余地。还对皮马印第安人糖尿病诊断进行了深入研究，所得结果见表1 [24]。我们图2. 算法模型表1Pima Indian Diabetes Dataset的分类准确性值。方法准确度（%）辨别77.5MLP 73.8Logdisc 78.2智能76.8贝叶斯网络74.7NaiveBay 74.9随机森林76J48 76.776.6新加坡元SMO 77后支撑75.2径向基函数75.7LMT 76.6采用3.3节介绍的预处理方法对原始数据进行处理，然后模拟与其他研究者相同的实验。之后，我们更新了表1中的数据。大部分的准确度值增加。3.2. 数据集描述Pima Indian Diabetes Dataset由来自美国亚利桑那州PhoeniX附近人群的768名患者（268例检测阳性和500例检测阴性）的信息组成tested_positive和tested_negative分别表示患者是否患有糖尿病。每个实例由8个属性组成，它们都是数字。这些数据包括个人健康数据以及医疗检查结果数据集中的详细属性如下所示，表2显示了从数据集中提取的一些样本● 妊娠次数（preg）● 口服葡萄糖耐量试验（plas）中2小时的血糖浓度● 舒张压（pres）● 三头肌皮褶厚度（皮肤）● 2小时血清胰岛素（INSU）● 体重指数（BMI）● 糖尿病家系功能（pedi）● 年龄（age）● 类变量（class）3.3. 数据预处理数据的质量在很大程度上影响着预测的效果. 这意味着数据预处理在模型中起着重要作用[25]。WEKA工具包包含用于预处理目的的多种滤波器在这项研究中，我们选择了一些合适的方法来优化原始数据集。首先，我们分析了各属性的医学含义及其与糖尿病的相关性我们确定妊娠次数与DM关系不大[6]。因此，我们将此数值属性转换为名义属性。0表示未怀孕，1表示怀孕。通过这个过程，数据集的复杂性降低了其次，由于错误或放松管制，数据集中存在一些缺失和不正确的值。大多数不准确的实验结果都是由这些无意义的值引起的。例如，在原始数据集中，舒张压和体重指数的值不可能为0，这表明真实值缺失。为了减少无意义值的影响，我们使用训练数据的均值来替换所有缺失值。应用上述步骤后，无监督归一化滤波器H. Wu等人Informatics in Medicine Unlocked 10（2018）100103×¼¨¨表2数据集的样本pregPlaspres皮肤insuBMIpedi年龄类18966239428.10.16721测试阴性0137403516843.12.28833试验阳性378503288310.24826试验阳性2197704554330.50.15853试验阳性1189602384630.10.39859试验阳性5166721917525.80.58751试验阳性0118844723045.80.55131试验阳性110330388343.30.18333测试阴性111570309634.60.52932试验阳性3126884123539.30.70427测试阴性对于属性，通过使用（1）将所有数据标准化为[0，1]部分，其中x'是变量的平均值或平均值，s是变量的标准差值是新的标准化值。这避免了计算的复杂性，加快了运算速度。1) 显示所有对象（步骤a）。从提供的N中选择K作为初始聚类中心的数目（步骤b）。图3 b，K的值为2，我们用"“来表示类别。2) 计算每个对象与聚类中心之间的距离使用（2）根据距离将每个对象聚类到最近的聚类引用自Ref。[27]（步骤c）。值值-X'S（一）阿斯塔纳我不知道ðtÞ¨2o3.4. 数据分类SI¼ 8j;1 AjAkXp：<$Xp-mi<$≤Xp-mj8j;1≤j≤k8j;1AjAk（二）该模型由双层算法组成在第一级，我们使用改进的K-means算法来删除不正确的聚类数据。优化的数据集用作下一级的输入然后，我们使用逻辑回归算法对剩余数据进行3) 重新计算每个聚类中心，以验证它们是否使用从参考文献[24]中提取的（3）进行了更改（步骤d）。2019年12月11日1XXj（3）我我3.4.1. 改进的K-means聚类算法聚类分析的目的是将观察结果划分为不同的聚类，以便同一聚类内的观察结果比分配到不同聚类的观察结果更紧密相关[26]。K-means是最流行的聚类算法之一它是一种典型的基于距离的聚类算法，距离被用来衡量jSitj表3XjεS相似性，即，对象之间的距离越小，表示相似性越大。图图3示出了K-means算法的图示过程，K-means聚类算法的过程如下：初始数据集的2均值聚类的结果。号标签计数1cluster04582cluster1310H. Wu等人Informatics in Medicine Unlocked 10（2018）100104图三. K-means算法的程序。H. Wu等人Informatics in Medicine Unlocked 10（2018）100105价格：1/4e¼¼MCC¼×-×4) 循环步骤2和步骤3，直到新的聚类中心与原始聚类中心相同，即，算法的收敛和结束（步骤e和f）。↓σX11-X2½0;1]sigmoid函数的构造（7）在本研究中，我们选择2作为K的值，因为“Class”变量包含两个结果。我们使用预处理后的数据表3显示，cluster0表示负类，cluster1表示正类。Weka工具包中的K-means算法最重要的问题之一是初始种子值是随机产生的，我们需要根据经验设置种子值种子值的大小直接影响聚类的结果为了避免种子值的随机性对实验结果造成的偏差，我们采取了一些措施。第一步，我们插入一个程序来记录并按升序对名为“簇内误差平方和”的值进行排序。在每个实验中，种子对应于称为“簇内误差平方和”的值。值越小，结果越好。我们记录了10000个值，对应于从1到10000的种子值。这些高质量的种子值将首先用于第二步。所以我们在这个实验中选择的种子的初始值是100。第二步是在算法的末尾插入一个循环我们删除了那些不正确的聚类数据，并使用公式（4）计算了速率。如果比率高于75%，那么我们就进入下一个级别。否则，它应该退出循环并尝试另一个种子值。如果在1万次循环或60秒后无法找到合适的种子值使速率高于75%，则我们使用最接近的速率和相应的种子移动到下一个级别。PramY1-1-XamY1-1- 2-3-在这项研究中，我们有两个类别，即，积极组和消极组。Y表示患者患有糖尿病。X独立变量表示原始数据集中的8个属性每个因变量X都被赋予一个称为β的系数值，表示权重。通过逻辑回归算法对数据集进行分析，得到各变量的权重值。不同的权重表示X和Y之间不同的相关性。回归模型一旦确定，就可以有效地输入新数据并预测结果是正面还是负面。我们将逻辑回归算法设置为最后一步。输出和结果将在下一章中讨论。4. 实验结果利用WEKA工具包，我们可以方便地通过可视化的界面来研究实验我们从以下几个方面对模型进行了分析和评价结果见图第四章4.1. k倍交叉验证K折交叉验证是我们经常使用的一种方法，剩余数据总和（四）一个模型的性能在这项研究中，我们使用了10倍交叉验证。初始样本分为10个子样本。每个单独的子-移除手术后，我们获得了589名正确分类的患者，这些患者都作为逻辑回归算法的输入4.1.1. 逻辑回归算法分类算法旨在建立一个模型，可以根据现有数据将数据项映射到给定类别它用于从模型中提取重要数据项或预测数据趋势。在大多数情况下，逻辑回归的因变量是二元分类的。这意味着逻辑回归算法通常用于解决两类问题。我们实验的主要目的是预测一个人是否患有糖尿病，这是一个典型的二元分类问题。此外，逻辑回归算法在数据挖掘、疾病自动诊断、经济预测等领域也得到了广泛的应用，特别是在医疗卫生问题的预测和分类方面。总之，我们决定使用逻辑回归作为我们提出的模型的一部分。逻辑回归算法基于表示为（5）的线性回归模型。样本作为验证数据保留，而其他9个样本用于训练。该模型经过10次训练和测试这种方法的优点是减少了与随机抽样方法相关的偏差[5]。4.2. 详细准确度一般来说，预测过程包含四种不同的结果，称为真阳性（TP）、真阴性（TN）、假阳性（FP）和假阴性（FN）。混淆矩阵在表4中显示了本研究的这四个结果。A列表示测试的阳性结果，B列表示测试的阴性结果。第一行显示阳性类别的预测结果，第二行显示阴性类别的预测结果。从详细准确性的结果来看，我们提出了以下一些重要指标精度由（9）计算。在本实验中，该值为0.954。P¼αβ1X1β2X2...分类问题非常类似于线性回归精度TP半导体封装（9）问题. 线性回归问题只能预测一个连续值。它在整个实数域中保持一致的灵敏度。分类问题的预测值只能是0或1，所以我们召回率，也称为特异性，通过公式（10）计算。在本实验中，该值为0.954。可以设置临界点。如果该值大于阈值，则输出为1，否则输出为0。物流的输出变量范围召回TPTPFN（十）回归总是在0和1之间逻辑回归是一种回归模型，它减少了预测范围，并将预测值限制为[0，1]。在线性回归的基础上，逻辑回归增加了一层sigmoid函数（非线性）。首先对特征进行线性求和马修斯相关系数（MCC）被用作二进制分类质量的度量，由（11）计算。在该实验中，该值为0.899。然后使用sigmoid函数进行预测逻辑回归算法的主要公式如（6）、（7）和（8）所示。TPTNFPFNPTPFP（十一）PrY<$1jX<$eβ<$X和PrY<$-1jX<$$>1-PrY<$$>1jX<$（6）ROC区域是一个图示，说明了二进制分类器系统的性能，如图所示。5.在本实验中，该值为0.979。H. Wu等人Informatics in Medicine Unlocked 10（2018）100106、图4. 实验的结果表4混淆矩阵表5与其他人的实验比较。一B分类方法精度参考3777预测的肯定我们提出的模型百分之九十五点四二本文20185预测阴性HPM百分之九十二点三八B.M.帕蒂尔[6]AMMLP百分之八十九点九三AlexisMarcano-Ceden~o[8]J48（修剪）百分之八十九点三阿里扎·艾哈迈德[7]J48（未修剪）百分之八十六点六阿里扎·艾哈迈德[7]混合模型百分之八十四点五[28]第二十八话MLP百分之八十一点九阿里扎·艾哈迈德[7]Logistic百分之七十八点二WekaJ48百分之七十六点七WekaSGD百分之七十六点六Weka榆树75.72%[29]第二十九话NaiveBay74.9%Weka贝叶斯网络74.7%Weka推车百分之七十二点八斯特·多布尼卡尔&KNN百分之六十七点六Statlog5. 讨论4.3. Kappa统计图五. ROC地区。在这项研究中，该模型进行了评估的基础上，精度，召回率，ROC面积，和kappa统计上述。此外，预测准确性是最重要的因素。在本节中，我们将结果与一些已发表的著作进行比较，并应用我们的Kappa统计量是判断模型一致性的重要参数。它将所提出的模型的结果与随机分类方法产生的结果进行比较。kappa统计量的值在0和1之间接近1的值表示模型的预期效果，而0表示无效。kappa统计量的公式如（12）、（13）和（14）所示。K[12PA-PE]=12PE]（12）P=N（13）（14）第二章：第一章：最后一次见面本实验的kappa值为0.8975，表明该模型具有很好的一致性。H. Wu等人Informatics in Medicine Unlocked 10（2018）100107在两个相关的数据集。5.1. 模型验证为了表明我们的模型的预测精度有了一定程度的提高，我们将我们的结果与一些研究者使用相同数据集的实验进行了比较。在经过预处理和分类算法处理后，剩余的589个数据只包含27个分类错误的实例。准确率达95.42%。其他的结果列于表5中。帕蒂尔[6]的准确率为92.38%，这是与我们最接近的准确率，但结果来自较少的样本。在使用K-means算法并删除一些错误分类的实例后，只剩下433个实例，而使用改进的K-means算法后，我们获得了589个正确分类的数据。Marcano-Ceden~o[8]proposedaH. Wu等人Informatics in Medicine Unlocked 10（2018）100108AMMLP模型的预测精度为89.93%。他们论文中的混淆矩阵只包含308个实例，但它具有75.92%的特异性和97.5%的灵敏度。Ahmad [7]使用修剪和未修剪的J48算法，准确率分别为89.3%和86.6%。这些实验中没有一个比我们的精确度更高5.2. 由新数据集5.2.1. 数据由Dr. 朔林为了提供更多的证据来证明我们的模型的预测准确性和适应性，我们将模型应用于一个新的糖尿病数据集，该数据集由Dr.弗吉尼亚大学医学院医学系的Schorling博士说它包含1046个实例，分为两个对手类。通过与Pima Indians Diabetes数据集的属性比较，结合临床经验，从19个原始属性中选择12个显著这些属性显示如下：总胆固醇、稳定葡萄糖、高密度脂蛋白（HDL）、胆固醇HDL比率、糖化血红蛋白、年龄、性别、身高、体重、收缩压、舒张压和腰臀比。扩大的覆盖范围显示了该数据集的巨大优势。所提供的腰臀比是糖尿病研究中更可信的因素[30]。同时包含收缩压和舒张压更可靠混淆矩阵见表6。结果示于表7中。我们使用集成在Weka工具包中的一些算法来测试我们提出的模型与这个新的数据集。所有的数据证明，该模型是适合于预测糖尿病的基础上，这个新的数据集。5.2.2. 从在线问卷收集的数据集我们提出的模型已被证明在预测糖尿病方面具有很高的准确性。考虑到第一章中提到的中国糖尿病患者数量庞大，我们收集了更多的基本健康参数。本研究设计的问卷包括14个因素：年龄、性别、怀孕、家庭因素、BMI、睡眠时间、睡眠质量、打鼾、多尿、饥饿、吸烟饮酒、血压、血糖、OGTT。该数据集包含384个实例，分为两组，68个阳性和316个阴性。通过在中国人群数据集上的实际应用，了解该模型的实用性具有重要意义实验结果的混淆矩阵如表8所示。经过预处理和分类步骤处理后，数据集显示了一些重要的结果，如表9所示。我们使用集成在Weka工具包中的一些算法来测试我们提出的模型与这个新的数据集。结果如下。预测准确率约为94%，证明了该模型的可靠性和有效性。6. 结论和今后的工作本研究旨在建立一个适合于T2DM高危人群的预测模型。在总结前人研究经验的基础上，提出了一种新的模型，该模型由两层算法组成，改进的K-means和Logistic回归算法。为了与其他人的结果进行有效的比较，有必要使用WEKA工具包并使用相同的Pima Indian Diabetes数据集来进行该模型。使用适当的滤波器，以提高数据集的有效性该模型采用聚类和分类相结合的方法，保证了预测精度的提高。在第4节中，另一个现实的数据集提供的博士。 Schorling被用来测试和验证模型。我们提出的模型已被证明是适当的预测T2DM。我们提出的模型的好处之一是它避免删除过多的原始数据。保证了实验数据的高质量。另一个好处是，我们的模型可以应用于Pima Indian Diabetes Dataset以及其他各种数据集。但其局限性在于预处理部分耗时较多表6混淆矩阵A B类625 57预测阳性23161预测阴性表7新数据集的结果。项目值方法精度预测精度0.907我们的模型0.907精度0.916randomForest0.79召回0.964MLP0.78MCC0.752贝叶斯网络0.77ROC面积0.957J480.72Kappa统计0.752Logistic0.72表8混淆矩阵一B分类494预测的肯定10291预测阴性表9新数据集的结果。项目值方法精度预测精度0.939我们的模型0.935精度0.925randomForest0.896召回0.929贝叶斯网络0.88MCC0.786Logistic0.859ROC面积0.962J480.859Kappa统计0.786MLP0.854在第二节中，我们介绍了一些论文通过优化聚类中心的初始化过程来改进K-means算法。但我们的改进模型是基于预测DM2的目的，并与逻辑回归算法相匹配。它保证了更少的时间消耗和原始数据的最大保留虽然改进后的模型并不复杂，但通过大量的实验证明，改进后的模型取得了较好的效果。主要解决的问题是提高预测模型的精度和使模型适应不同的数据集。在本文中，我们得出结论，我们提出的模型显示出更高的预测精度比其他研究人员的实验结果。而我们提出的改进的K-均值算法对预测模型有很大的贡献.此外，还有两个数据集应用于我们提出的模型，都取得了良好的效果。在未来的工作中，有必要引入医院的真实和最新的患者数据，以不断训练和优化我们提出的模型。数据集的数量应该足够大，以便进行训练和预测[31，32]。在数据挖掘的研究中，需要采用一些先进的算法和模型。对于潜在的糖尿病患者，分级预测标准也是必要的。制定一系列的规章制度是预防糖尿病的有效方法在此基础上，提出了一个更有效的预测糖尿病和潜在患者分级的模型。这将有助于降低糖尿病的增长速度，并最终降低患糖尿病的风险。人们在移动设备上获得有关DM健康管理的应用程序更方便和有效[33 我们目前正在开发一个应用程序，将为高危人群提供合理、理性的健康建议。糖尿病患者可以方便地使用这个应用程序来测试他们的血糖水平，血压和心率。此外，这些医疗数据将被保存在一个数据库中，以便进一步进行数据可视化和建模H. Wu等人Informatics in Medicine Unlocked 10（2018）100109þþ优化.这不仅可以帮助人们了解自己的健康状况，还可以帮助他们建立健康的生活方式。作者贡献汉武、杨圣起撰写了主稿。Zhangqin Huang、Jian He和XiaoyiWang优化并审查了手稿。利益冲突提交人声明，他们没有利益冲突。附录A. 补充数据与本文相关的补充数据可以在https：//doi找到。org/10.1016/j.imu.2017.12.006。引用[1] 国际糖尿病联盟糖尿病地图集。七版 2015年。[2] http://en.wikipedia.org/wiki/Data_mining#cite_note-acm-1网站。[3] RiccardoB，Blaz Z. 临床医学中的预测数据挖掘：当前问题和指南。Int J MedInf2008;77：81- 97.[4] Mechelle Gittens，Reco King，Curtis Gittens和Adrian Als，通过移动健康咨询应用程序进行糖尿病诊断后管理，2014 IEEE第16届电子健康网络，应用和服务国际会议（Healthcom）。[5] http://archive.ics.uci.edu/ml/datasets/Pima印度人糖尿病[6] PatilBM. 2型糖尿病患者的混合预测模型 E X pert Syst Appl2010;37：8102- 8.[7] Ahmad Aliza，Mustapha H Aida.神经网络与决策树提高糖尿病预测准确率的比较。ICDIPC 2011，第一部分。CCIS 188; 2011年。p. 537- 45[8] Marcano-Ceden~ oAlexis，TorresJoaquín，AndinaDiego. 人工组织可塑性对糖尿病的预测模式IWINAC 2011，第二部分。LNCS 6687; 2011年。 p. 418- 25[9] Veena Vijayan V.和Anjali C.，预测糖尿病的决策支持系统-综述。2015年全球通信技术会议（GCCT 2015）。[10] 卫哲，叶光建，王能才。基于FP-growth算法的2型糖尿病危险因素分析中国医疗器械2016;13（5）：45- 8.[11] 郭一瑞。应用人工神经网络预测2型糖尿病个体风险郑州大学学报2014;49（3）：180- 3.[12] 李帅帅，张恩科，李敏，潘伟。糖尿病管理APP应用的有效性研究.中国医学发展2015;30（第08期）.[13] K Sowjanya女士，MobDBTest：基于机器学习的系统，用于使用移动设备预测糖尿病风险。2015年IEEE国际先进计算会议（IACC）。[14] 石刚，刘珊珊，丁烨，基于移动物联网的糖尿病风险评估模型的设计与实现，2015第七届国际医学与教育信息技术会议。[15] 王俊涛，苏小龙，一种改进的K-Means聚类算法，2011 IEEE第三届国际通信软件与网络会议（ICCSN）。[16] 孙艳辉，方丽英，王璞，基于Efros距离的改进k-means聚类纵向数据，2016中国控制与决策会议（CCDC）。[17] 王顺业，基于优化初始质心的改进K-means聚类算法，2013第三届计算机科学与网络技术国际会议（ICCSNT）。[18] Phattharat Songthung和Kunwadee Sripanidkulchai，使用分类改善2型糖尿病风险预测，2016年第13届计算机科学与软件工程国际联合会议（JCSSE）。[19] Chandrakar Omprakash，Jatinderkumar R Saini.使用机器学习技术开发印度加权糖尿病风险评分（IWDRS）用于2型糖尿病。Gandhinagar，India：ACM EQUIPTE'16，October 21-23; 2016.[20] 韩龙飞，骆森林。基于成对和大小约束Kmeans的可理解风险分层模型。 IEEE JBiomed Health Inf 2016;21（5）：1288- 96.[21] Aruna Pavate和Nazneen Ansari，使用软计算技术预测2型糖尿病患者的疾病并发症风险，2015年第五届计算和通信进展[22] Naganna Chetty，使用模糊方法进行疾病预测的改进方法，2015年第二届计算与通信工程进展国际会议。[23] Masood Butt Saad，Feli X Navarro Karla.利用移动技术改善糖尿病患者的营养信息。在：信息系统和技术的新进展; 2016年。[24] 迈克尔D，Spiegelhalter DJ，泰勒CC。机器学习，神经和统计分类。EllisHorwood;1994.[25] Karim M，Orabi1 Yasser M Kamal，Thanaa M Rabah.糖尿病早期预测系统。ICDM 2016，LNAI 9728; 2016。p. 420- 7[26] 郭俊G，朝曲M，建宏W.数据聚类理论、算法及应用. 第一版。ASA-SIAM.M;2007年。[27] https://en.wikipedia.org/wiki/K-means网站。[28] Humar K，Novruz A.糖尿病和心脏病混合系统的设计。EX pert Syst Appl 2008;35：82[29] Rojalina Priyadarshini，Nilamadhab Dash和Rachita Mishra，使用ModifiedEXtreme学习机预测糖尿病的新方法[30] Murari Devakannan Kamalesh，使用关联规则挖掘预测糖尿病亚群的风险。2016年软计算系统[31] 李欢，张琪，陆克杰。整合行动感测与社群网路于个人化健康照护应用。医疗保健信息系统; 2016年。[32] Yan Luo，Charles Ling，Jody Schuurman和Robert Petrella，GlucoGuide：AnIntelligent Type-2 Diabetes Solution Using Data Mining and MobileComputing，2014 IEEE International Conference on Data Mining Workshop.[33] 施纳尔·丽贝卡，罗哈斯·玛琳.以用户为中心的模型，用于设计消费者移动健康（mHealth）应用程序（app）。 J Biomed Inf 2016;60：243- 51.[34] Md Abul Basar，Hassan Nomani Alvi，Gazi，使用移动应用程序进行糖尿病患者生活方式管理的综述，第18届计算机和信息技术国际会议（ICCIT），2015年12月21日至23日。[35] Qasim Majeed，Hayder Hbail和Abdolah Chalechale，一个全面的移动电子医疗保健系统，IKT2015第七届信息和知识技术国际会议。[36] 穆罕默德·H放大图片作者：Patrick Martin and Hossam S. Hassanein，A mobile-based architecture for integrating personal health record data，2014 IEEE 16thInternational Conference on e-Health Networking，Applications and Services（Healthcom）。[37] Kim Ki-Hyun，Kabir Ehsanul，Jahan Shamin Ara.手机的使用及其对人类健康的潜在影响。环境监测评估2016;188：221。

下载后可阅读完整内容，剩余1页未读，立即下载