基于蚱蜢优化算法的特征选择在糖尿病诊断中的应用

199 浏览量更新于2024-01-09 收藏 883KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁26（2021）100707基于蚱蜢优化算法的特征选择在糖尿病诊断中的应用Seyed Reza Kamel，Reyhaneh Yaghoubzadeh*伊朗马什哈德伊斯兰阿扎德大学马什哈德分校计算机工程系A R T I C L EI N FO保留字：数据挖掘支持向量机（SVM）特征选择A B S T R A C T糖尿病表示不同类型的代谢疾病，其引起高血糖，或者是因为胰岛素产生不足，或者是因为体细胞不能对身体正常产生的胰岛素做出反应。在当今的医疗保健行业中，糖尿病的早期检测仍然是必要的，以降低由肾衰竭和视力丧失引起的死亡率，这两种疾病通常都会导致死亡。到目前为止，糖尿病的诊断已经通过不同的技术进行了研究，包括机器学习和数据挖掘方法。然而，由于计算的复杂性或耗时的过程，其给定的精度是不可接受的。本研究提出了一种基于蚱蜢优化算法（GOA）的特征选择方法，以提高II型糖尿病检测的准确性，并采用不同的机器学习技术来找到一个增强的分类器。在这样做时，使用10倍交叉验证方法来获得所获得的响应的可靠性。在这项研究中使用的特征选择技术，以确定数据集中的重要功能。这种方法适用于印度的Prima数据集，使用MATLAB软件。研究结果表明，支持向量机（SVM）算法实现了97%的准确率。最新的人工智能算法和本研究的算法之间的比较也表明蚱蜢算法在选择功能和提高糖尿病检测的准确性的优越性。1. 介绍糖尿病是一种慢性疾病，目前被认为是死亡的主要原因。当身体不能产生足够的胰岛素或不能有效地利用胰腺产生的胰岛素时，就会发生糖尿病。这种情况可能是由于不健康的生活方式和药物使用不当。同样，糖尿病（尤其是II型糖尿病）在社区和医疗保健系统中引起许多问题。为了诊断糖尿病，患者提供血液样品，从血液样品测量血糖浓度。由于这是一个耗时的治疗过程，医疗界和患者都可以从使用自动化工具诊断各种类型的糖尿病中受益匪浅[1]。在早期诊断糖尿病时，研究人员遇到了一些挑战。已经设计了大型数据库来提取与疾病相关的有用特征或模式。为了检测这种模式，研究人员在数据挖掘领域开发了各种算法，例如分类算法，聚类算法，关联规则。数据挖掘技术是一种实用的工具，具有广泛的用途。例如，数据挖掘和数据建模可以用于识别糖尿病的高风险病例[2]。用于准确诊断糖尿病的最常见的数据挖掘技术包括SVM、人工神经网络（ANN）、决策树算法（Tree）和其他算法。这些算法已被证明在糖尿病诊断中是准确的，但有些算法有其缺点，即，计算复杂性和长的执行时间。通过更精确地检查或组合算法，可以改善全局最优此外，因为糖尿病是危及生命的，所以大量的医生强调了其早期诊断的重要性，这只有通过数据挖掘、实现和分类才有可能。因此，为了改善糖尿病的诊断，本研究提出了一种基于GOA的方法[3]，并将其与分类算法相结合。在本文中，第2节侧重于文献综述，第3节提出了所提出的方法。第四部分是分析和评价，第五部分是结论。* 通讯作者。电子邮件地址：yaghobzadehr@gmail.com（R.Yaghoubzadeh）。https://doi.org/10.1016/j.imu.2021.100707接收日期：2021年3月17日;接收日期：2021年8月15日;接受日期：2021年8月17日2021年8月20日网上发售2352-9148/©2021的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuS.R. Kamel和R. 亚古布扎德医学信息学解锁26（2021）10070722. 文献综述Fig. 1. 建议方法的阶段。为此，目前的研究采用数据挖掘和机器学习来审查糖尿病的诊断方法。糖尿病的主要问题源于缺乏及时诊断或医生使用不正确和非标准方法的诊断不佳。因此，实施有助于准确诊断糖尿病的技术，特别是在其早期阶段，将是预防和控制该疾病的关键一步。朝向在[4]中，研究人员利用标准缩放器技术和PCA算法对UCI数据集进行归一化，以提取数据集中的特征。该研究应用Firefly算法来降低维度，并应用深度学习模型来对减少的数据集进行分类。评价标准包括精密度、准确度、检出率、S.R. Kamel和R. 亚古布扎德医学信息学解锁26（2021）1007073-F度量和正确性。最终，报告的准确率为86.3%结合数据挖掘算法[5]，提出了一种特定结果关联概率的预测模型。应用算法（NB、J48和径向基函数（RBF））来解决问题并识别和分类数据到不同的类别。根据研究的结果，NB算法有一个最小数量的错误，在MAE标准相比，J48和RBF算法。此外，NB算法在PIMA数据库中的准确率高于其他算法。因此，可以得出结论，该模型的应用以及基于特征选择的方法提高了糖尿病诊断的准确性。在[6]中，决策树J48被引入用于分类，与糖尿病有关的数据。该研究的数据来自Jaber Abn Abu Aliz诊所的糖尿病治疗中心，包括1169份记录和115份诊断。经过预处理操作后，数据集包括318条记录和9个诊断。分类方法的应用数据导致70.80%的准确率。因此，可以得出结论，诊断的准确性随着用于消除离群值的预处理技术的使用以及通过人工智能算法进行特征选择的数据预处理而增加。在一项研究中，使用DNN框架和堆叠自加密提高了诊断糖尿病的准确性[7]。DNN是使用SoftMax分类的堆叠自加密构建的。Pima Indians糖尿病数据集用于训练模型。所提出的模型进行了比较，与多个人工神经网络的方法和其他方法在文献中可用。结果表明，该模型优于其他模型的准确率为86.26%。在该算法的缺点中，可以提到其低计算速度，这导致尽管其鲁棒性但不能实现合理的精度。在[8]中，在II型糖尿病患者中评价了糖尿病肾病的诊断;糖尿病肾病是肾衰竭的主要原因。分析了345例II型糖尿病患者的临床和遗传学资料（185例糖尿病肾病患者，160例无糖尿病肾病的患者），并结合临床（血角蛋白、血氮和尿白蛋白）和遗传学诊断以及各种算法进行手术。结果表明，SVM算法通过与临床诊断的融合，提高了诊断的准确性.结果表明，支持向量机算法提供了更高的准确性与临床诊断的整合。通常，向量支持机是用于分类和划分数据以预测患者糖尿病的非常强大的算法。如果映射函数选择正确，则该方法非常适用于需要极高精度的情况。[9]的作者采用了机器学习算法，诊断糖尿病。本研究中使用的仿真工具是R软件。在机器学习算法中，可以提及具有线性核的SVM、具有径向基函数的SVM在所提出的方法中，最佳的特征选择，进行使用Boruta包装算法，它提供了选择重要的功能，而不歧视的可能性。在这项研究中评估的措施包括准确率，召回率，精度，F-措施，和ROC。结果表明，具有线性核的SVM在诊断糖尿病方面提供了最大的准确性。在[10]中，作者在预测和诊断准确性方面将ANN与LR和其他一些算法进行了比较。此外，已经提出了一个通用的框架来描述人工神经网络创建双语分类，执行和评估递归算法使用PIMA数据集从UCI使用MATLAB。经过分析，结果表明，人工神经网络具有较高的精度和较低的错误率相比，其他算法。在[11]中，ANN已被用于预测II型糖尿病。在本研究中，310份样本，包括关于空腹血浆的信息葡萄糖和称为HbA1c的血液测试被用来开发这个系统。样本取自波斯尼亚和黑塞哥维那的几个不同的医疗中心。数据集包括从萨拉热窝大学临床中心的患者中采集的120个样本。在120个样品中，40个样品取自健康人，30个样品取自糖尿病前期患者，50个样品取自患有T2D的患者。在这项研究中，神经网络在预测T2D方面具有良好的准确性。在[12]中，已经预测了由血糖水平升高引起的1型糖尿病。这种预测是使用MATLAB [73]进行的，并与SVM等其他算法进行了比较。结果表明，人工神经网络算法取得了较高的精度相比，其他算法。然而，由于数据集的复杂性和多样性，其他算法，如SVM和Logistic不能达到本研究的预期效果。此外，ANN的执行时间比SVM长。文献综述显示，糖尿病患者数量增加，对各种现有检查的依赖性更大，其中大多数是侵入性技术，可能会对患者的身心健康产生不利影响。数据挖掘技术，这是公认的非侵入性的方法，适合解决这些问题。在这方面，其他研究工作组提出了各种适用的技术。特征选择是一种预处理技术，主要用于大数据，以减少大小，消除不合适和不必要的特征，减少学习所需的数据量，提高算法的预测精度，提高模型的整体精度[13]。本研究通过GOA [3]进行特征选择，这导致了糖尿病数据库中有利特征的最佳选择，并通过保持两个探索和提取属性来提高疾病的诊断准确性。为了选择一组有利的特征，GOA是目前研究中提出的方法，这导致了分类精度的提高。根据相关特征对这些有利特征进行排名，为了获得最佳结果，使用三种NB [14]，决策树[15]和SVM [16]分类器对特征子集进行评估和比较。以前的研究集中在糖尿病的诊断上，但没有提供足够的准确性。下一节提出了一种提高疾病诊断准确性3. 方法本文中提出的算法如图1所示。在当前的研究中，GOA算法被应用于选择有用的特征用于糖尿病的诊断。此外，SVM，树，NB算法被用来分类所选择的选择数据。所提出的算法由三个阶段组成，在下面的章节中简要说明。3.1. 第一步：加载、预处理和数据规范化在这个阶段，糖尿病数据收集中的离群值包括768条记录和8个特征，这些特征使用离群值方法清除之后，将数据上传进行预处理和归一化。在下一阶段，使用最近邻方法执行丢失数据的预处理和删除在数据预处理后，通过标准化清除重复记录。数据可以通过几种技术进行规范化，其中最流行的是MinMax。在该方法中，每个数据可以被转换成所需的范围，并对每个特征进行通常，归一化被定义为在特定范围内对数据进行分级（例如，1，1）基于以下等式（1）计算通过MinMax方法的归一化：S.R. Kamel和R. 亚古布扎德医学信息学解锁26（2021）1007074=（）=的∑. ）=PC国际ZX-min（x）（x）-min（x）（一个）算法重复的最大次数。在所提出的模型中，cmax和cmin分别估计为1和0.00004使用GOA进行特征选择的目标函数是其中X是被认为是正常的数字，min（x）和max（x）分别是集合中最小和最大的数字3.2. 第二步：基于GOA的特征选择在该步骤中，使用特征选择方法来识别特定结果的重要特征。在本研究中，GOA [13]用于特征选择。在特征选择步骤中，由于其本质，使用该算法将导致早期收敛;因此，该算法可以在最终优化步骤中收敛到可能的程度。蚱蜢来自昆虫家族，被称为害虫，因为它们会对产品和农业造成损害方程（2）用于模拟蚱蜢的行为[3]。Xi=Si+Gi+Ai（2）其中x是蚱蜢的位置（特征选择变量），Si表示蚱蜢之间的社会交互（目标函数），G表示蚱蜢提高标准的准确性。准确性的提高是通过10倍交叉验证获得的，这增加了答案的可靠性。3.3. 第三步：选定数据在这个步骤中，教育数据通过GOA-SVM、GOA-NB和GOA-TREE算法进行训练，并通过训练阶段未使用的测试数据进行测试。3.3.1. NB算法朴素贝叶斯算法是一种简单的基于概率的分类器，它通过计算数据集中的频率和组合值来计算一组概率。该算法采用贝叶斯定理，并假设所有变量关于类的变量值是独立的。贝叶斯定理是一个数学公式，用于确定条件概率方程（9），并以18世纪命名[14]。A是最好的方向，A是最好的方向，A是最好的方向。最后三个显示了蚱蜢的位置。为了创建随机行为，我们可以使用等式（3），其中r可以在0和1之间随机变化：Xi=r1Si+r2Gi+r3Ai（3）目标函数Si的值等于社会平均收入率PA BP（A）p（B|A）、p（B）P（A）|B）：事件B发生时事件A的概率。P（A）：事件A的概率P（B）|A）：当A发生时，事件B的概率。P（B）：事件B的概率（九）动作，根据等式（4）计算;其中dij表示蚱蜢ith和蚱蜢jth之间的距离。NSi=s dij dij（4）j=1j=闪烁在等式（4）中，dij表示蚱蜢ith和蚱蜢jth之间的距离，并计算为dij|Xj-X i|（Xj是另一个选定特征）。函数s是草蜢之间的距离的映射，并且基于等式（5）获得：s r）=fe-lr-e-r（5）将朴素贝叶斯应用于数据集，以创建具有两个可能值（健康或患者对照）的类类型的混淆矩阵。3.3.2. 树算法Three算法是一种用于解决分类和回归问题的机器学习算法。首先，决策树使用它们的决策规则预测输出，这些规则是通过对数据进行训练而生成的。然后，使用决策规则生成用于问题求解的决策树。最后，使用信息增益方法完成根选择过程。在等式（10）和（11）中，信息增益和分类误差如下所示n（熵pc∑p（i）log2p（i）（10）在这个方程中，f代表引力强度（最佳目标函数），l代表引力标度的长度，其（）=-pcpci=1根据等式（6）的通式：N分类误差（pc）=1-maxi p（i）（11）Xi=∑s。xj-xij闪烁=iN表示蚱蜢的数量（其他特征）。由于蚱蜢在地面上移动，它们的位置不应该超过一个特定的阈值，这使得我们使用修改后的相关性（7）。相对于一组特定的主要组件。N是数据集中输入的总数。3.3.3. SVM算法d（∑Nubd-lbd（d）（d）xj-xi）支持向量机是构造分类器的一种有效方法其目的是在两个类之间创建一个决策边界，Xi=cCj=1j闪烁=i2sxj-xi国际新闻报+Td（7）从一个或多个向量预测标签的可能性。这在该等式中，蚱蜢的新位置基于其当前位置、目标位置和所有其他草蜢的位置来定义。在上面的等式中，C是GOA中的重要参数之一，并且是影响舒适、排斥和吸引区域的递减因子。从等式（8）获得参数更新。j=1pipc表示糖尿病数据集输入的分数S.R. Kamel和R. 亚古布扎德医学信息学解锁26（2021）1007075L决策边界被称为超平面，并且它被定向为使得它远离每个类的最近数据点。这些最接近的点称为支持向量。假设我们有一个标记的估计数据集：。x1. y1. ......这是什么？（xn. yn）。xi∈Rd和yi∈.-一个加1）（十二）c=cmax-1cmax-cmin（八）其中，Xi表示特征向量，yi是来自i估计器组合的类别标签（负或正）。所以，欲在等式（8）中，cmax和cmin分别示出了最高值和最低值，l表示当前重复次数，并且L是当前重复次数。超平面定义如下：S.R. Kamel和R. 亚古布扎德医学信息学解锁26（2021）1007076- =2n≥====分为教育和测试子集。然后利用教育数据集建立预测模型，并对其精度进行评价RMSE=0（y-y）n表1混淆矩阵实际值不健康健康表2糖尿病诊断中的危险因素属性描述1怀孕次数不健康TP（真阳性）FN（假阴性）健康FP（假阳性）TN（真阴性）2血浆葡萄糖浓度口服葡萄糖耐量试验中2 h的血糖浓度3舒张压舒张压（mm Hg）wxT+b=0（13）4三头肌皮褶厚度三头肌皮褶厚度（mm）其中w是权重向量，X是输入特征向量，b是52小时血清胰岛素2小时血清胰岛素（mu U/ml）6体重指数体重指数（体重（kg）/（身高（m）^2）导向7有过糖尿病家系功能w和b对于估计器集合的所有分量满足以下所有不等式：wxT+b≥ +1，如果yi=1wxT+b≤-1，如果yi=-1（14）糖尿病8年龄（岁）精确度和召回率标准，并被称为加权哈尔，我我估计SVM模型的目的是找到w和b，使得超平面分离数据并最大化1/||W|| 2绑定-阿里。因此，Xi向量具有|y_i|（w X_i^T + b）= 1称为支撑monic准则[19]。F测量* P* RP+R（十九）向量。3.3.3.1. 第四步：K折交叉验证技术和发布结果。为了更好地评估模型的效率，可以将数据集RMSE：统计模型或估计量预测的值与实际值之间的差异。√√̅∑n̅2̅/t=1使用测试数据集。在这种技术中，原始数据集是随机的，分配给K个数据子集。预测模型由k-1个子集创建，并由剩余的一个子集进行测试训练和测试MSE：这是一种估计误差量的方法，实际上是估计值与估计值之间该过程重复K次。然后从结果集合中获得平均值，使得结果更可接受。在本节中，提高预测准确性的重要性MSE= ∑t=1（y- y）2/n（21）糖尿病被提及。考虑到这一点，GOA被提出来选择糖尿病数据集中使用的特征的一个较优子集在下面的部分中，我们通过以下方式分析和评估收集的数据集：MCC：该标准用于评估机器学习算法TP*TN-FP *FN使用所提出的方法。4. 评估指标MCC= √̅TP̅̅+̅F̅̅P̅(̅TP̅ ̅̅+̅FN̅)(̅TN+FP)(̅TN+̅FN)（二十二）表1显示了混淆矩阵，以确定本研究中糖尿病分类系统和诊断的效率。该矩阵包括真阳性、假阴性、真阴性和假阳性四种状态。● 准确度：该标准表示分类的总准确度。它不仅指示在健康个体或患者的诊断中准确分类的可能性，而且还将每个患者分类为适当的疾病组[18]。4.1. 数据集当前研究中应用的数据集包含表2中列出的输入特征。该数据集还包含768个医疗细节观察结果，以记录印度的发明[20]。这些文件描述了患者的瞬时测量结果（例如，年龄、怀孕次数和出血）。所有患者均为女性，年龄61岁。具有268个特征和变量0的受试者被认为是健康的，而具有500个特征和变量1的受试者被诊断为妊娠期糖尿病。准确度TP+TNTP+TN+FP+FN（十五）4.2. 评价仪器● 召回：该标准表明算法检测阳性类别的能力，在这种情况下是患者类别[19]。召回中文（简体）TP+FN特异性：该标准表明分类器准确预测不涉及疾病的有效性[18]。特异性中文（简体）TN+FP精确度：该标准表明正确分类的病例[18]。MATLAB软件是本项目中使用的工具。MATLAB软件是一种使用高级语言的数据挖掘工具。它分析数据，定义算法，并构建模型和应用程序。5. 结果和讨论本研究的主要目的是提高糖尿病分类的准确性，增加糖尿病患者表3特征选择的结果。电话：+86-510 - 8888888传真：+86-510 - 8888888精度TPTP+FN（十八）支持向量机0 1 0 0 0 0 1 0NB 0 0 0 1 0 0 1 0（二S.R. Kamel和R. 亚古布扎德医学信息学解锁26（2021）1007077F-测量：该标准是基于以下组合开发的：树0 0 0 1 1 0 0 0S.R. Kamel和R. 亚古布扎德医学信息学解锁26（2021）1007076表4所提出的方法中的评价标准的结果分类技术/标准SVMNB树TN507534FN166FP326TP861294ACC97.1494.2891.42AUC97.0793.5989.5召回98.0495.794特异性61.0391.4985精度94.3495.794MCC93.9287.1879F-measure96.1595.794时间复杂度16.611 14.017 12.386根据使用GOA算法的最优特征因此，为了准确地评估所提出的方法，测试了三种分类算法。● 特征选择：使用GOA、SVM、NB和决策树算法的选择特征如表3所示。根据表3中的信息，数字1指示选择特征，并且数字0指示没有特征选择。表4示出了基于所选择的特征的每个租赁中的所提出的模型的结果。根据表4，与本研究考虑的其他分类相比，GOA算法和SVM分类达到了更好地诊断糖尿病的标准。然而，由于准确性不是不平衡数据的适当特征，因此目前的工作评估了其他标准，例如召回率，这些标准更适合SVM算法表。此外，随着精度标准的应用，如果误诊的数量很高，分母中FP的存在会导致数值算法接近零，从而使模型的效率受到质疑。另一方面，NB算法报告了精度标准的更高百分比在当今的机器学习世界中，阅读和准确性的标准通常比准确性的主要衡量标准更广泛地使用。在大多数情况下，准确率和召回率的标准不会一起增长和移动，因此当使用更准确的算法时，所提出的模型的准确性偶尔会增加。因此，在本研究中被宣布为阳性的特征大多是正确的，并且假阳性率极低，从而表明所提出的算法的高准确性。然而，由于某个方面或数据特征可能没有被考虑在内，因此阳性样本的总数明显高于当前工作的声明样本，从而解释了极低的召回率。另一方面，可以假设稍微简单的诊断算法可以增加诊断阳性的数量，在这种情况下，错误率将更高，算法的准确性将更低，并且召回率将显示更高的数字。因此，委员会认为， F-测量标准，两上述标准也适用。根据表4中的信息，该标准因此适用于糖尿病诊断SVM分类。根据表4，树算法在时间复杂度方面优于其他两种然而，树算法的准确性要低得多。● ROC曲线的一个常规用途是表示健康人和患者之间的差异。事实上，这条曲线是分类性能的流行评价标准该标准基于诊断和敏感性评估两个标准。在这方面，诊断是性能的负面部分，灵敏度是性能的正面部分。假阳性率随灵敏度标准的增加而增加。因此，曲线通常允许我们评估和比较ROC曲线每个点的真阳性和假阳性水平[21]。在我们提出的方法中，曲线是通过特征选择建立的，如图2所示。● AUC标准标准显示ROC曲线下面积。AUC标准是评估模型有效性的重要标准。模型越精确，获得的数字越接近1，性能越差，获得的数字越接近0。根据表4，SVM算法在所提出的方法中显示出更好的自身百分比。● 均方误差MSE标准是一种统计工具，用于在分类模型中找到最高的预测精度[22]。在这个标准中，数字越低，所提出的模型的效率和准确性越高。建议的模型的结果以及BGOA算法和三个分类器在表5中给出。● 均方根误差：所提出的方法的均方根误差平方误差（RMSE）的这种测量在表5中给出。该参数主要用于计算模型预测值与观测值之间的差异。因此，当一个特定模型的均方误差低于另一个模型时，可以说所提出的模型的精度较高。此外，在这项研究中，SVM-GOA算法进行评估，建议的数据集相比，其他算法。结果在表6中给出。如表6所示，所提出的GOA算法实现了比其他算法更高的精度。GOA算法相对于PSO的优点之一是，与PSO还可以提到的是，PSO中没有一个粒子帮助更新另一个粒子，而GOA中的所有搜索代理都参与定义每个搜索代理的下一个位置与GWO相比，GOA的另一个好处是它在勘探和开采之间的平衡，从而使GOA能够跳过局部最优。相比之下，GWO被困在局部最优，因此不适合于局部最优的问题。在WOA中，群体成员依赖于群体中的最优成员来找到最优值。如果感兴趣的成员接近局部最优，则群体成员被误导。结果，该算法不是收敛到全局最优，而是收敛到局部最优。一般来说，GA具有低收敛性，因为它的探索是强大的，应该在整个解决方案空间的问题。因此，由于解的更高多样性，全局最优稍后实现。根据等式（8），通常，在GOA中，C用于保持探索和利用之间的平衡，这种平衡随着迭代次数的增加而减少。这种机制随着迭代次数的增加而改进了探索。关于GOA的一个有趣的点是在迭代过程中蚱蜢逐渐收敛到目标，这是C的适当减少。这种行为使GOA不会快速收敛到目标，因此不会陷入局部最优。在最后的优化步骤中，蚱蜢尽可能地收敛到目标，这在S.R. Kamel和R. 亚古布扎德医学信息学解锁26（2021）1007077图二. 特征选择的ROC曲线。表5RMSE，MSE的结果。表6与其他算法的精度比较MSERMSE方法准确度（%）SVM3.03512.1252支持向量机-粒子群算法93.55NB4.14712.3678SVM-GWO88.89树5.52372.3719SVM-WOA90.74支持向量机遗传算法96.94SVM-GOA97.14S.R. Kamel和R. 亚古布扎德医学信息学解锁26（2021）1007078表8表7与其他研究的准确性比较研究准确度（%）[23]，2019年89.02[24]，2019年77[25]，2019年72.78[26]，2020年91.42提出97.14可能会影响本文所报告工作确认致谢作者感谢匿名审稿人的宝贵意见和建议，帮助提高了论文的质量。不适用因引用准确性的结果研究号功能准确度（%）[27]第二十七话4593.33[28]第二十八话3296.66[第29话]2092.78萃取步骤。表7比较了当前研究与最近研究的准确性。如表7所示，与最近的论文相比，所提出的方法在检测糖尿病● 其他数据集为了检查所提出的方法在具有更高复杂度的大型数据集上的有效性，对KDD [27]，乳腺癌[28]和糖尿病[29]进行了一些测试，结果如表8所示。6. 结论在目前的研究中，基于算法的特征选择方法，提出了使用三种分类方法。利用MATLAB软件对PIMA数据集进行了实验验证。同时，将现有的分类算法结合起来，利用GOA进行特征选择，得到了最优的分类结果，使SVM算法的分类精度提高了97.14。这种增加表明与其他两种算法相比具有更高的精度。此外，在糖尿病诊断中获得的最重要的特征是年龄、性别、体重指数、舒张压和糖尿病史。建议将这一观点应用于这方面的进一步研究，以诊断心血管疾病和癌症等疾病。资金不适用因数据和材料的可用性（数据透明度）https://archive.ics.uci.edu/ml/machine-learning-databases网站。代码可用性（软件应用程序或自定义代码）编写的代码是可用的。作者所有通讯作者对本研究的进行做出了同等贡献。竞合利益作者声明，他们没有已知的竞争性金融[1] KambleT，Patil S. 使用深度学习方法进行糖尿病检测Int. J. 因诺夫Res. Sci.Technol2016;2（12）：342-9。[2] 作者：Shawe-TaylorJ， Sun S. 支持向量机优化方法综述。神经计算2011;74（17）：3609-18. https://doi.org/10.1016/j的网站。 neucom.2011.06.026。[3] Saremi S，Mirjalili S，Lewis A.草蜢最佳化演算法：理论与应用。Adv EngSoftware 2017;105：30-47. https://doi.org/10.1016/j的网站。advengsoft.2017.01.004。[4] Gadekallu TR，Khare N，Bhattacharya S，Singh S，Reddy Maddikunta PK，RaIH，使用基于PCA萤火虫的深度学习模型早期检测糖尿病视网膜病变。电子学2020;9（2）：274。https://doi.org/10.3390/electronics9020274网站。[5] Sa'di S，et al. Comparison of data mining algorithms in the diagnosis of type IIdiabetes.国际计算机Sci.（IJCSA）2015;5（5）：1-12.https://doi.org//ijcsa.2015.5501.[6] Ahmed TM.利用资料探勘技术建立2型糖尿病治疗计画预测模式。 J Theor ApplInf Technol 2016;90（2）：181.[7] 6 Kannadasan K，Edla DR，Kuppili V.在深度神经网络中使用堆栈自动编码器进行2型糖尿病数据分类。临床流行病学全球健康2019;7（4）：530-5 []。[8] Huang G-M等，2型糖尿病患者中糖尿病肾病的可解释规则诊断分类。In：BMC bioinformatics; 2015. 生物医学中心[9] Kaur H，Kumari V.使用机器学习方法对糖尿病进行预测建模和分析。应用程序计算告知。2019. https://doi.org/10.1016/j的网站。aci.2018.12.004网站。[10] Hassan M，et al. Logistic regression versus neural networks：the best accuracy inprediction of diabetes disease. Asian J.Comput. Sci. 2017;6（2）：701-2249。https://www.researchgate.net/publication/332401566。[11] Sejdinov i'cD，etal. 使用人工神经元对糖尿病前期和2型糖尿病进行分类。九月Springer; 2017.p. 685- 9[12] Komi M，et al.数据挖掘方法在糖尿病预测中的应用。图像、视觉和计算（ICIVC）In：2017 2nd International Conference on. IEEE;2017.[13] 放大图片作者：Awbaa HM，Emary E，Parv B.基于蚁群优化算法的特征选择。In：Complex Systems（WCCS），2015 third world conference on. IEEE;2015.[14] Yasar A. Saritas MM ANN和Naive Bayes分类算法用于数据分类的性能分析。Int.J.智能系统应用工程2019;7（2）：88-91 [].[15] 李文辉，李文辉，李文辉.懒惰的决策树见：AAAI/IAAI，第1卷; 1996年。[16] 黄S，蔡N，帕切科PP，纳兰德斯S，王Y，徐伟。支持向量机（SVM）学习在癌症基因组学中的应用。癌症基因组学蛋白质组学2018;15（1）：41-51. 。[17] 速度T。基因表达微阵列数据的统计分析 CRC Press; 2003.[18] 放大图片作者：A. 利用数据挖掘技术预测慢性肾衰竭。在：无处不在的网络国际研讨会。新加坡：Springer; 2016，May. p. 701- 12[19] Sisodia DS，Verma A.慢性肾脏疾病个体和集合学习器的预测性能。在：2017年发明计算和信息学国际会议（ICICI）; 2017年，11月。p. 1027-31 [IEEE]。[20] https://archive.ics.uci.edu/ml/datasets/diabetes网站。[21] Kannan R ， Vasanthi V. Machine learning algorithms with ROC curve forpredictingand diagnosing the heart disease.在：软计算和医学生物信息学。新加坡：Springer; 2019. p. 63比72[22] 放大图片作者：Khairabadi R，YaghoubZadeh R.通过灰狼算法选择最佳特征来改善支持向量机的性能，提高乳腺癌诊断的准确率。 J. 大数据2019;6（1）：90.[23] Lukmanto RB，Nugroho A，Akbar H.基于特征选择和模糊支持向量机的糖尿病早期检测。Procedia计算Sci. 2019;157：46-54 [].[24] SnehaN，Gangil T. 使用最佳特征选择进行糖尿病早期预测的分析。 J. 大数据2019;6（1）：1-19 [].[25] Dzulkalnine MF，Sallehuddin R.基于模糊特征选择的糖尿病数据集缺失数据填补。SN申请Sci. 2019;1（4）：1-12 [].[26] [10]杨文军，李文军，李文军.一种计算机辅助诊断方法，用于评估面部热像中的II型糖尿病。Phys. Eng. Sci.Med. 2020;43（3）：871-88. 。S.R. Kamel和R. 亚古布扎德医学信息学解锁26（2021）1007079++ +++ +Se.[27] https://archive.ics.uci.edu/ml/datasets/KDD 杯 1999年 Data/index.html。[28] 24. https://archive.ics.uci.edu/ml/datasets/Breast州癌症诊断[29] https://archive.ics.uci.edu/ml/datasets/Diabetic+ Retinopathy+ Debrecen+ Data+

下载后可阅读完整内容，剩余1页未读，立即下载