没有合适的资源?快使用搜索试试~ 我知道了~
于二零一九年一月十七日(二零一九年)100179结合PCA和K-means技术朱长生a,陈文,克里斯蒂安·乌瓦·伊德穆迪亚a,冯文芳ba兰州理工大学计算机与通信学院,兰州,730050b兰州理工大学经济管理学院,兰州,730050A R T I C L E I N F O保留字:PCA糖尿病数据挖掘Logistic回归A B S T R A C T糖尿病每年导致大量死亡,并且大量患有这种疾病的人没有足够早地意识到他们的健康状况。在这项研究中,我们提出了一个基于数据挖掘的模型,用于使用Pima Indians糖尿病数据集进行糖尿病的早期诊断和预测。虽然K-means很简单,可以用于各种数据类型,但它对确定最终聚类结果的聚类中心的初始位置非常敏感,这要么为逻辑回归模型提供了足够和有效的聚类数据集,要么由于原始数据集的不正确聚类而导致数据量较少,从而限制了逻辑回归模型的性能。我们的主要目标是确定提高k均值聚类和逻辑回归准确性结果的方法。我们的模型包括PCA(主成分分析),k-means和逻辑回归算法。实验结果表明,与其他已发表的研究结果相比,PCA增强了k-均值聚类算法和逻辑回归分类器的准确性,k-均值输出的分类数据更正确,逻辑回归准确性更高 高出1.98%。因此,该模型被证明是有用的自动预测糖尿病使用患者的电子健康记录数据。使用新数据集的进一步实验表明了我们的模型对糖尿病预测的适用性。1. 介绍糖尿病是2016年十大死亡原因之一2016年,糖尿病导致160万人死亡,而2000年不到100万人。糖尿病取代艾滋病成为第七大死因[1]。糖尿病患者人数从1980年的1.08亿上升到2014年的4.22亿,全球18岁以上成年人糖尿病患病率从1980年的4.7%上升到2014年的8.5%[2]。到2040年,预计将有6.42亿成年人(十分之一的成年人)患有糖尿病。此外,46.5%的糖尿病患者未被诊断[3]。为了减少糖尿病导致的死亡人数,设计有助于早期诊断糖尿病的方法和技术至关重要,因为糖尿病患者中的大量死亡是由于晚期诊断。为了实现糖尿病早期诊断的尖端技术,我们需要利用先进的信息技术,数据挖掘是一个合适的领域。数据挖掘能够从大型数据库中提取和发现以前未知的、隐藏的、但有趣的数据。这些模式可以帮助医疗诊断和决策。已经设计了各种技术和算法用于从医学数据库中提取疾病诊断和治疗中的知识和信息。PCA是一种简单的非参数方法,用于从混乱的数据集中提取相关信息[4]。当一个大型数据集被聚类到用户指定数量的聚类(k)中时,这些聚类由它们的质心表示,k-means将通过最小化平方误差函数来对数据进行聚类[5],并且经常由于离群值而错误分类一些数据;时间复杂度也会更高。为了克服这些问题,可以使用主成分分析(PCA)来将数据集降低到较低的维度,同时确保丢失最少的信息,并为聚类提供更好的质心点。K-means聚类将数据集划分为相似对象的不同组。与其他聚类高度不相似的聚类被视为离群值并被丢弃。Logistic回归是一种有效的回归预测分析算法。当数据集的因变量是二分的(二进制)时,它的应用是有效的。逻辑回归用于描述和分析数据,以解释一个因变量与一个或多个自变量之间的关系*通讯作者。电子邮件地址:Zhucs_2008@163.com(C. Zhu),Xtianidemudia@yahoo.co.uk(C.U. Idemudia),1036784024@qq.com(W. 冯)。https://doi.org/10.1016/j.imu.2019.100179接收日期:2019年1月20日;接收日期:2019年3月27日;接受日期:2019年4月4日2019年4月5日的一份声明2352-9148/©2019由ElsevierLtd.这是一个不可避免的问题,因为CCBY-NC-NDLicense(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表医学信息学杂志主页:www.elsevier.com/locate/imu于二零一九年一月十七日(二零一九年)100179C. Zhu,et al.2变量这项研究工作提出了PCA降维,这有助于在应用k-means算法时为我们的数据集定义合适的 然后使用K-means来查找离群值,并将数据聚类到相似的组中,并使用逻辑回归作为数据集的分类器。本文第二部分综述了其他研究者在糖尿病预测和诊断领域所做的相关工作。第3节显示了实验过程的细节。第4节描述了实验结果,而第5节总结了工作,并提出了未来工作的可能方向2. 相关研究糖尿病是世界上最知名的非传染性疾病之一。这是第七大死因[6]。据预测,到2040年,全球成人糖尿病发病率将达到6.42亿[3]。糖尿病患者的早期诊断一直是医学研究人员和专业人员的主要目标。随着计算机科学的巨大技术创新,合作研究表明,通过应用计算机技术和算法(如数据挖掘),可以获得效率高、成本低和快速的诊断技术。许多研究人员已经开发了各种预测模型,使用数据挖掘来预测和诊断糖尿病。Iyer [15]在他们的研究中提出了使用朴素贝叶斯算法来预测糖尿病的发病。该研究的准确率为79.56%。Tarun [13]使用PCA和支持向量机对糖尿病患者进行分类。该研究的实验结果表明,以前的水平可以提高,因为它们的分类准确率为93.66%。Mustafa S. Kadhm [18]提出使用决策树(DT)将每个数据样本分配到适当的类别,然后应用K-最近邻算法消除不需要的数据。Han等人[3]设计了一个模型,该模型使用k均值算法和逻辑回归算法来预测糖尿病。模型的预测精度为95.42%。在参考文献[14]中,作者使用k均值聚类识别和消除离群值,使用遗传算法和基于相关性的特征选择(CFS)进行相关特征提取,并最终使用k近邻(KNN)对糖尿病患者进行分类。Patil [16]提出了一种混合预测模型,将k-means聚类应用于原始数据集,然后使用C4.5算法构建分类器模型。分类准确率为92.38%。Anjali[7]提出了一种基于主成分分析(PCA)的方法,以神经网络(NN)作为分类器来降低提取特征的维数。准确率为92.2%。这些研究都使用了来自加州大学欧文分校(UCI)机器学习数据库的一个通用数据集(Pima Indian Diabetes Dataset)。考虑到对有效预测算法的需求,改进现有的预测算法将是我们研究的主要任务,同时使用与其他研究者相同的数据集。虽然许多研究人员已经取得了很大的成果,但他们的数据预处理步骤限制了最终预测和分类的数据量。因此,我们需要提出一个增强数据预处理的模型,它将产生大量可用的数据,并增强分类算法。3. 方法本节包括以下步骤:数据描述、预处理技术和分类算法。该模型的设计和实现结合了PCA,K-means和Logistic回归的优点。然后提出了一种新的方法,通过使用PCA来转换初始特征集,从而解决相关性问题,这使得分类算法很难找到数据之间的关系。的Fig. 1.提出了算法模型。PCA应用程序有助于过滤掉不相关的特征,从而降低训练时间,成本,并提高模型性能[10]。在执行PCA分析之后,由于k均值解决离群值的能力,结果然后通过使用k均值的无监督聚类[11]。K-means聚类结果被清理,Logistic Regression被应用于为数据集建立我们的监督分类拟议的模型流程图如图所示。1.一、3.1. 数据挖掘工具包Anaconda是一个免费开放的Python编程语言工具包。它包括250多个数据科学和机器学习相关应用程序的流行软件包。应用这个包,我们能够在我们的数据集上执行相关的数据挖掘任务,并实现(设计)我们提出的模型。通过有效地预处理原始数据集,进行PCA,并模拟与其他研究人员相同的实验,我们表明,使用数据挖掘技术可以提高糖尿病诊断的准确性。3.2. 数据集描述本研究使用了从UCI机器学习该数据集由来自美国亚利桑那州的768名接受糖尿病检查的女性患者样本组成该数据集共有8个属性(代表医疗诊断标准)和一个目标类别(代表每个受试个体的状态)。在数据集中,总共有268个测试的阳性实例和500个测试的阴性实例。数据集中的属性包括以下内容:妊娠次数(Preg)口服葡萄糖耐量试验(Plas)中2小时时的血糖浓度• 舒张压(Pres)• 三头肌皮褶厚度(皮肤)• 2小时血清胰岛素(Insu)• 体重指数(BMI)• 糖尿病家系功能(Pedi)• 年龄(Age)• 目标变量(诊断)··于二零一九年一月十七日(二零一九年)100179C. Zhu,et al.3n表1原始和预处理的数据集统计信息。统计数据集PregPlasPres皮肤InsuBMIPedi年龄计数原始768.0000768.0000768.0000768.0000768.0000768.0000768.0000768.0000预处理768.0000768.0000768.0000768.0000768.0000768.0000768.0000768.0000是说原始0.8554120.894569.105420.536479.799431.99250.471833.2408预处理0.8554121.686772.405129.1534155.548232.45740.671833.2408STD原始0.351831.972619.952215.9522115.24407.88410.331311.7602预处理0.351830.435912.09638.790985.02116.87510.331311.7602MIN原始0.00000.00000.00000.00000.00000.00000.078021.0000预处理0.078044.000024.00007.000014.000018.20000.078021.0000百分之二十五原始1.000099.000062.00000.00000.000027.30000.243724.0000预处理1.000099.750064.000025.0000121.500027.50000.243724.0000百分之五十原始1.0000117.000072.000023.000030.500032.00000.372529.0000预处理1.0000117.000072.202529.2534155.548232.40000.372529.0000百分之七十五原始1.0000140.250080.000032.0000127.250036.60000.626241.0000预处理1.0000140.250080.000032.0000155.548236.60000.626241.0000Max原始1.0000199.0000122.000099.0000846.000067.10002.420081.0000预处理1.0000199.0000122.000099.0000864.000067.10002.420081.00003.3. 数据预处理今天的现实世界的数据库非常容易受到噪声,丢失和不一致的数据的影响,因为它们通常是巨大的,并且它们可能来自多个异构源[13]。数据质量是疾病预测和诊断的数据挖掘过程中的一个重要因素,因为低质量的数据可能导致不准确或低的预测结果。为了使我们的原始数据集更有效率和更适用于预测糖尿病,我们使用Anaconda集成开发环境中提供的各种软件包应用了几首先,我们仔细研究了各种属性,并与专业营养师讨论,分析了每个属性与糖尿病预测和诊断的医学相关性。结果发现,“怀孕次数”对当前的研究方向意义不大。我们决定采用和汉武相同的技术[12]通过将该数值属性转换为值为0和1的标称属性,其中1表示患者先前怀孕,0表示患者从未怀孕。这有助于降低分析数据集的复杂性[12](见表1)。其次,对我们数据集的统计分析表明存在缺失值。下表2根据统计结果,观察到血糖浓度、舒张压、皮褶厚度、2小时血清胰岛素和体重指数的最小值为0。医学知识解释说,这些属性(医疗结果)不可能为0;因此,它表明数据集包含缺失值,如果不处理,可能会损害模型结果的质量和准确性。已经提出了各种方法来处理数据集中的缺失值在我们的例子中,我们用mean such属性替换了缺失值作为我们数据预处理的一部分,原始数据值通过对数据集进行归一化来缩放,以便落在[0,1]值的小范围这将提高速度并降低运行时的复杂性.使用Z分数,我们将我们的值集合V归一化以获得新的归一化值集合VZ =标准偏差。3.4. 模型算法设计我们的模型算法将由3个子阶段组成。在设计的第一阶段,我们将对已经处理过的数据集进行降维(使用PCA)。 然后,我们将使用K-means对选定的主成分进行聚类,以解决离群值并删除任何错误分类的数据。最后,正确聚类和分类的数据将用作我们使用逻辑回归进行监督分类的输入。3.5. 主成分分析在数据分析过程中,通常很难找到属性之间的 PCA允许将包含在初始相关数据中的大量信息转换为一组新的正交分量,从而可以发现隐藏的关系,增强数据可视化,异常值检测以及新定义的维度内的分类[5]。当需要在这样的数据集上执行无监督学习时,PCA在数据集上的应用可以有很大的帮助,因为它将有助于有效地初始化聚类的质心。由于PCA产生一个特征子空间,可以最大化轴上的方差,因此我们首先将数据集标准化到单位尺度上(均值=0,方差=1),以改善PCA结果,这是许多机器学习算法的最佳性能要求。这里我们的目标是将p维的数据集X转换为更小维L(Lp)的新样本集Y,其中Y是X的主成分,即
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功