PCA与K-means：提升糖尿病早期诊断与预测精度

PDF格式 | 726KB | 更新于2025-01-16 | 21 浏览量 | 举报

本文主要探讨了基于PCA (主成分分析) 和 K-means 算法的糖尿病早期诊断与预测方法。随着糖尿病成为全球公共卫生的重要问题，其高发病率和死亡率强调了早期诊断的重要性。文章指出，糖尿病每年造成大量死亡，且许多患者未能及时察觉自身健康状况，因此，利用数据挖掘技术，尤其是PCA和K-means，以及逻辑回归模型来预测和诊断糖尿病具有显著意义。在研究中，作者提出了一种结合PCA与K-means和逻辑回归的模型，针对PimaIndians糖尿病数据集进行实验。K-means算法尽管易于应用，但由于其对初始聚类中心的敏感性，可能导致数据分类的不稳定性和数据量减少，从而限制逻辑回归的性能。为了改善这一点，研究者利用PCA进行数据预处理，通过降维减少数据的复杂性，同时保持关键信息，以此优化K-means的聚类效果。 PCA在此过程中起到了关键作用，它帮助提取数据的主要特征，使得K-means能够更好地识别出潜在的糖尿病患者群体。通过这种方法，作者展示了模型的准确性有所提升，K-means的聚类结果更加精确，而逻辑回归的分类准确率提高了1.98%，相较于其他已发表的研究取得了更好的性能。实验结果显示，该模型在利用电子健康记录数据预测糖尿病方面表现出较高的有效性，证明了其在实际应用中的价值。此外，研究还进行了新数据集的验证，进一步证实了模型对糖尿病预测的广泛适用性。总结来说，这篇文章介绍了如何通过结合PCA、K-means和逻辑回归来提升糖尿病早期诊断的准确性和效率，为糖尿病的预防和治疗提供了新的数据分析策略。这对于减少糖尿病相关死亡率，特别是在发展中国家，具有重要的实践意义。

于

二零一九年一月十七日（

二

零一九

年）

100179

结合

PCA

和

K-means

技术

朱

长生

，陈文

，克里斯蒂安·乌瓦·伊德穆迪亚

，冯文芳

兰州理工大学计算机与通信学院，兰州，

730050

兰州理工大学经济管理学院，兰州，

730050

A R T I C L E I N F O

保留字：

PCA

糖尿病数据

挖掘

Logistic回归

A B S T R A C T

糖尿病每年导致大量死亡，并且大量患有这种疾病的人没有足够早地意识到他们的健康状况。在这项研究中，我们

提出了一个基于数据挖掘的模型，用于使用Pima Indians糖尿病数据集进行糖尿病的早期诊断和预测。虽然K-

means很简单，可以用于各种数据类型，但它对确定最终聚类结果的聚类中心的初始位置非常敏感，这要么为逻辑

回归模型提供了足够和有效的聚类数据集，要么由于原始数据集的不正确聚类而导致数据量较少，从而限制了逻辑

回归模型的性能。我们的主要目标是确定提高k均值聚类和逻辑回归准确性结果的方法。我们的模型包括PCA（主成

分分析），k-means和逻辑回归算法。实验结果表明，与其他已发表的研究结果相比，PCA增强了k-均值聚类算法

和逻辑回归分类器的准确性，k-均值输出的分类数据更正确，逻辑回归准确性更高高出1.98%。因此，该模型被证

明是有用的自动预测糖尿病使用患者的电子健康记录数据。使用新数据集的进一步实验表明了我们的模型对糖尿病

预测的适用性。

介绍

糖尿病是

2016

年十大死亡原因之一

2016

年，糖尿病导致

160

万人死

亡，而

2000

年不到

100

万人。糖尿病取代艾滋病成为第七大死因

[1]

。糖

尿病患者人数从

1980

年的

1.08

亿上升到

2014

年的

4.22

亿，全球

岁以上

成年人糖尿病患病率从1980年的4.7%上升到2014年的8.5%[2]。

到2040年，预计将有6.42亿成年人（十分之一的成年人）患有糖尿

病。此外，46.5%的糖尿病患者未被诊断[3]。为了减少糖尿病导致的死

亡人数，设计有助于早期诊断糖尿病的方法和技术至关重要，因为糖尿

病患者中的大量死亡是由于晚期诊断。

为了实现糖尿病早期诊断的尖端技术，我们需要利用先进的信息技

术，数据挖掘是一个合适的领域。数据挖掘能够从大型数据库中提取和

发现以前未知的、隐藏的、但有趣的数据。这些模式可以帮助医疗

诊断和决策。

已经设计了各种技术和算法用于从医学数据库中提取疾病诊断和治

疗中的知识和信息。

PCA

是一种简单的非参数方法，用于从混乱的数据

集中提取相关信息[4]。当一个大型数据集被聚类到用户指定数量的聚类

（k）中时，这些聚类由它们的质心表示，k-means将通过最小化平方误

差函数来对数据进行聚类[5]，并且经常由于离群值而错误分类一些数据;

时间复杂度也会更高。为了克服这些问题，可以使用主成分分析

（PCA）来将数据集降低到较低的维度，同时确保丢失最少的信息，并

为聚类提供更好的质心点。K-means聚类将数据集划分为相似对象的不

同组。与其他聚类高度不相似的聚类被视为离群值并被丢弃。Logistic回

归是一种有效的回归预测分析算法。当数据集的因变量是二分的（二进

制）时，它的应用是有效的。逻辑回归用于描述和分析数据，以解释一

个因变量与一个或多个自变量之间的关系

通讯作者。

电子邮件地址：

Zhucs_2008@163.com

（

C. Zhu

），

tianidemudia@yahoo.co.uk

（

C.U. Idemudia

），

1036784024@qq.com

（

冯）。

https://doi.org/10.1016/j.imu.2019.100179

接收日期：

2019

年

月

日

;

接收日期：

2019

年

月

日

;

接受日期：

2019

年

月

日

2019

年

月

日

的

一

份

声明

2352

9148

2019

由

sevier

这

是一个不可避免的问题，因为

（

http

：

ommo

4.0

）

。

可在ScienceDirect上获得目录列表

医学信息学

杂志主页：

www.elsevier.com/locate/imu

下载后可阅读完整内容，剩余7页未读，立即下载

cpongm

粉丝: 6

PCA与K-means：提升糖尿病早期诊断与预测精度

使用 PCA 和 K-Means 聚类的 无监督变化检测算法

matlab K-means 聚类、SVM、PCA实例源码

主成分分析_k-means_基于matlab的k-means算法_K._slabs5vd_

通过PCA分析和K-means分析

k-means聚类算法+PCA

如何在Python中应用scikit-learn进行K-means聚类和PCA降维？请提供一个详细的代码实例。

k-means的发展趋势

简单分析和比较PCA和K-L分类器效果和性能！

轴承故障诊断 k-means聚类算法python

基于PCA-SSA-BPNN的水源判别法

最新资源

使用 PCA 和 K-Means 聚类的无监督变化检测算法