基于模糊集和极限学习机的临床数据挖掘技术的研究

144 浏览量更新于2024-01-02 收藏 1.5MB PDF 举报

极限学习机

临床数据

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

信息学在医学解锁2（2016）1基于模糊集和极限学习机的临床数据卡纳·金迪·比雷达恩·纳哈托a. Nehemiaha，n，A. KannanbaRamanujan Computing Centre，Anna University，Chennai 600025，Indiab安娜大学信息科学与技术系，印度ART I C L EI N F O文章历史：收到日期：2015年10月31日收到日期：2015年2016年1月9日接受2016年2月15日在线发布保留字：极限学习机Fuzzi模糊集分类欧氏距离隶属函数A B S T R A C T数据挖掘技术在开发计算机辅助诊断系统和专家系统中发挥着重要作用，这些系统将帮助医生做出临床决策。在这项工作中，提出了一种分类器，它结合了模糊集和极端学习机（FELM）对临床数据集的相对优点。FELM框架中的三个主要子系统是预处理子系统、模糊子系统和分类子系统。缺失值填补和离群值消除由预处理子系统处理。模糊子系统将每个特征映射到模糊集，分类子系统使用极端学习机进行分类。来自加州大学欧文分校（UCI）机器学习库的克利夫兰心脏病（CHD）、Statlog心脏病（SHD）和皮马印第安人糖尿病（PID）数据集已被用于实验。CHD和SHD数据集已经用两个类别标签进行了实验，一个指示不存在心脏病，另一个指示存在心脏病。CHD数据集还使用五个类别标签进行了实验，一个类别标签指示没有心脏病，其他四个类别标签指示心脏病的严重程度，即低风险、中等风险、高风险和严重。PID数据集已经用两个类别标签进行了实验，一个指示妊娠糖尿病的不存在，另一个指示妊娠糖尿病的存在。该分类器对具有两个类标签的CHD数据集的准确率为93.55%;对具有五个类标签的CHD数据集的准确率为73.77%;对SHD数据集的准确率为94.44%，对PID数据集的准确率为92.54%&2016由Elsevier Ltd.发布。这是CC BY-NC-ND许可（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍主要的沉默杀手疾病是心脏病和糖尿病[1]。心血管疾病（CVD）是指一组心脏和血管疾病。糖尿病是心血管疾病的危险因素之一[2]。糖尿病是一种慢性疾病，当胰腺不能产生足够的胰岛素或身体不能有效地利用胰腺产生的胰岛素时，就会导致糖尿病[3]。“Clinical decision support systems (CDSS) are computer sys-tems designed to impact clinician decision making about indivi-dual patients at the point in time that these decisions aremadeCDSS侧重于提高决策的准确性，减少处理时间和成本。数据挖掘算法可用于开发CDSS。数据挖掘包括统计分析，机器学习技术，从数据库中的大量数据中发现有用的和以前未知的模式[5，6]。主要的数据挖掘功能是关联规则挖掘，分类和聚类[5，7]。n通讯作者。联系电话：电话：914422358013电子邮件地址：nehemiah@annauniv.edu（K.H. Nehemiah）.关联规则挖掘发现项目之间有趣的关系。关系的兴趣度使用两个指标来衡量，即支持和信心[7]。分类是开发一个模型的过程，该模型描述了能够使用开发的模型来区分或预测类别标签未知的对象的类别[7]。对数据集进行聚类，通过最大化组中的相似性和最小化组中的差异来将其分类为一组[7]。在分类中使用的学习技术是有监督的，而在聚类中它是无监督的。在这项工作中，首先对每个临床数据集进行预处理，以处理缺失值和离群值。对缺失值进行插补，并从临床数据集中消除具有离群值的实例。第二个模糊化是在预处理的数据上进行的，第三个分类器是使用极端学习机（ELM）进行建模的。2. 模糊极限学习机模糊极限学习机（FELM）结合了ELM和模糊集理论的优点. ELM，一种学习算法http://dx.doi.org/10.1016/j.imu.2016.01.0012352-9148/&2016由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。目录可在ScienceDirect医学信息学杂志主页：www.elsevier.com/locate/imu2K.B. Nahato等人 /Informatics in Medicine Unlocked 2（2016）1 - 11JKnJKX.拉斯霍由Huang等人[8]开发的，应用于单层前馈神经网络（SLFNN），其中输入层神经元和隐藏层神经元之间的权重是随机产生的，而隐藏层神经元和输出层神经元之间的权重是通过简单的广义逆运算[8，9]解析确定的。ELM克服了SLFNN中常用的反向传播学习算法的局限性。反向传播神经网络（BPNN）学习算法要么由于学习速率不当而速度很慢，要么容易收敛到局部极小值。除此之外，BPNN需要许多迭代学习步骤来完成学习任务。ELM比BPNN具有更好的泛化性能，并且不需要像反向传播学习算法那样使用学习率、动量率等参数就能得到解。在ELM中，一旦输入层神经元和隐藏层神经元之间的权重被随机生成，则权重将不会像BPNN [9]中那样迭代地调谐或调整。这大大减少了训练网络所需的时间。在SLFNN中，输出层神经元的输出值（Ok）可以使用隐藏层神经元的值（Hj）和连接权重（Who）计算如下ELM的学习过程不仅有助于获得更高的精度，而且还减少了训练时间。在这项研究工作中，开发了FELM分类器，并使用不同数量的隐藏层神经元进行了测试。第一个分类器使用了10个隐藏层神经元，第二个分类器增加了1个。当隐藏层神经元变为200时，增量终止。最高等级业绩被选中。本文的其余部分组织如下。第2节介绍了其他研究人员进行的相关工作。在第三节中，讨论了拟议工作的系统框架。实验结果和比较所提出的工作与其他研究人员进行的工作进行了讨论在第4节。结论和未来工作的范围在第5中讨论。3. 相关工作其他研究人员使用临床研究方法在本节中讨论从UCI机器学习库获取的数据集。0Xq .ho1Aslam等人[14]在他们的工作中使用了皮马印第安糖尿病Ok¼f@第1页HjWjk一k¼1; 2;.n（PID）数据集用于诊断糖尿病的存在或不存在。研究人员分三个阶段开展了工作。在其中，f是激活函数，q是隐藏层的数目神经元，n是训练数据集的总数，使用恒等函数，Ok成为Hj和Wh0的乘积之和，如下所示QOk<$Hj Wjkk<$1; 2;第1页ELM神经网络的目标是最小化输出值和目标类之间的误差。使用近似零误差平均值由PüOk-Tkk0给出;因此，当量（2）可以写成complexk¼1第一阶段，糖尿病特征已经被归一化为零均值和单位标准偏差。学生的t-检验，Kolmogrov - Smirnov测试，f -得分选择，Kullback-Leibler分歧和遗传编程（GP）已被用来评估归一化特征的有效性。基于上述测试，将特征按重要性降序排列，并使用顺序前向选择（SFS）过程制备不同的特征子集。在第二阶段中，他们使用GP和比较伙伴选择来为SFS准备的每个特征子集生成新的特征。在第三阶段，他们测试了第二阶段使用KNN和SVM分类器。他们取得了T1/T2/T3/T4/T5/T6/T7/T8/T9/T8/T其中，T是目标类，H是隐藏层神经元的输出值，W是连接隐藏层神经元和输出层神经元的权重。然后，未知权重（W）可以计算为：宽<$H <$T宽4 mm其中H是H的 Moore-Penrose广义逆。模糊集理论是由Zadeh [10]引入的，用于处理不确定性。模糊化是指将临床数据集中的每个特征映射到隶属度范围为0到1的模糊集的过程[11，12]。每个特征都由两个或多个语言变量表示。例如，特征舒张压可以表示为具有三个成员的模糊集，即低血压、正常和高血压。临床数据集具有不确定性，因此使用模糊集理论来解决不确定性问题。在本研究中，实例的每个特征值由对应的语言变量的隶属度值表示。张等人[13]将FELM用于加权分类问题。在他们提出的方法中，模糊集理论被用来根据数据集的数量来加权数据集的实例。不同的类别标签。例如，具有三个类别标签的数据集具有0.5、0.3和0.2的权重值。给定权重的总和变为1。他们的FELM只使用固定数量的隐藏层神经元进行测试。FELM利用了模糊化和ELM的优点临床数据集特征的Fuzzi计算有助于提高使用GP-KNN与10倍交叉的分类准确率为80.5%验证和87%使用GP-SVM。研究人员没有处理数据集中特征值的不确定性和不确定性。此外，他们的分类方法仅在一个数据集上进行了测试，该数据集可能无法推广到其他临床数据集。Patil等人[15]提出了一种混合方法，将K均值聚类算法和C4.5相结合，用于对Pima Indian糖尿病（PID）数据集进行分类他们提出的系统有三个步骤。首先，通过删除不适当和不一致的数据对数据进行了预处理。由于PID数据集中的值为0，研究人员从数据集中删除了两个特征，即血清胰岛素和三头肌皮肤褶皱，以及143个实例。经过预处理后，PID数据集从768个减少到625个实例，从8个减少到6个特征。应用Z-评分法对简化后的PID进行归一化处理其次，使用K均值聚类算法提取模式。删除了不正确的聚类模式;从而将数据集减少到433个实例。第三，使用提取的模式构建决策树模型。他们使用十倍交叉验证实现了92.38%的分类准确度。这项工作存在过度拟合问题，因为他们提出的聚类技术消除了192个不正确聚类的实例（约占预处理数据集的30%）。Alneamy等人。[16]在他们的工作中，使用了基于教学学习的优化（TLBO）和模糊小波神经网络（FWNN）来诊断心脏病。他们使用克利夫兰心脏病（CHD）数据集。采用高斯隶属函数进行模糊化处理。TLBO被应用于更新K.B. Nahato等人 /Informatics in Medicine Unlocked 2（2016）1 - 113FWNN和小波参数。他们使用了五重交叉验证，准确率为90.29%。他们的工作仅限于将心脏病分类为存在或不存在。它不能预测心脏病的严重程度。Varma等人[17]使用决策树对Pima印度糖尿病数据集中是否存在糖尿病他们删除了所有与0值关联的实例，并将实例数量从768减少到336。分裂点的计算采用基尼指数和模糊决策边界。采用高斯隶属函数进行模糊化处理。三折交叉验证已被使用，并已达到75.8%的准确性。他们说，他们的工作业绩可以通过使用其他模糊隶属函数进行实验来提高。Nahato等人[18]提出了一种使用粗糙集理论和反向传播神经网络（RS-BPNN）的疾病诊断系统。使用Statlog心脏病（SHD），威斯康星州乳腺癌疾病（WBCD）和肝炎数据集测试所提出的方法。在对缺失值进行处理后，利用粗糙集理论中的不相容关系方法进行特征选择。BPNN已经使用所选择的特征集进行了训练。肝炎、WBCD和SHD的分类准确率分别为97.3%、98.6%和90.4%。隐层神经元的数目是固定的，但可以获得更好的结果通过改变神经网络中的隐藏层神经元。Seera等人[19]在他们的工作中提出了一种混合智能系统，用于使用模糊最小-最大神经网络，分类和回归树（CART）和随机森林模型对临床数据进行分类。他们提出的方法使用威斯康星州乳腺癌疾病（WBCD），皮马印第安人糖尿病（PID）和肝脏疾病数据集进行了测试。他们使用了90%的数据集进行训练，剩下的10%用于测试。它们对WBCD、PID和肝脏疾病数据集的准确率分别为98.84%、78.39%和95.01%。研究人员还没有讨论如何在数据集中处理缺失值。Dennis等人[20]在他们的工作中使用了自适应遗传模糊系统（AGFS）进行分类。首先，使用每个类别标签的每个特征的最小值和最大值对数据集进行离散化。他们使用遗传算法优化规则生成。三角形隶属函数已被用来转换的功能，以一个模糊集。Mamdani模糊推理系统已被用于分类。他们用七个数据集测试了他们的工作，其中四个数据集是临床数据集。对于训练，使用了90%的数据集，对于测试，使用了10%的数据集。对临床数据集克利夫兰心脏病、皮马印第安人糖尿病、印第安人肝脏数据和乳腺X线照片数据集的准确率分别为76.67%、89.80%、75.86%和57.29%。他们的工作既没有强调预处理的作用，也没有分析临床关系。vance的生成规则。Kalpana等人[21]提出了一种糖尿病诊断的模糊专家系统。PimaIndian Diabetes（PID）数据集。在他们的工作中，他们选择了五个特征，即葡萄糖、胰岛素、体重指数、糖尿病谱系函数和患者年龄，使用三角隶属函数进行模糊化每个功能已被转换为三个模糊集，即低，中，高。目标类也被转化为模糊集。采用质心法进行解模糊处理。他们提出的方法已经达到了90.38%的准确率。研究人员没有具体说明用于处理缺失值的数据预处理技术以及如何选择五个特征。Christopher等人[22]使用基于规则的分类器对临床数据集进行分类。他们的工作提出了群优化方法，用于从使用C4.5算法生成的规则集中获得最优规则子集他们使用了来自UCI存储库的六个临床数据集。他们提出的方法实现了准确率分别为77.89%、83.99%、94.88%、92.88%、64.20%和82.05克利夫兰心脏病，皮马印第安人糖尿病，威斯康星州乳腺癌，肝炎，肝脏疾病数据集和淋巴瘤数据集分别。研究者尚未分析优化规则的临床Subbulakshmi和Deepa [23]在他们的工作中将自我调节学习粒子群优化（SRLPSO）与极端学习机（ELM）分类器集成在一起用于疾病诊断。他们提出的方法已经用UCI机器学习库的五个临床数据集进行了实验。PSO的设计是为了更新输入神经元的权重和偏置值，以提高ELM分类器的性能。ELM学习算法已被应用于单隐层前馈神经网络，用于确定连接隐层神经元和输出层神经元的权重。他们提出的方法对威斯康星州乳腺癌、皮马印第安人糖尿病、Statlog心脏病、肝炎和克利夫兰心脏病数据集的准确率分别为 99.78% 、 93.09% 、 89.96% 、 98.71% 和91.33%。Kaya和Uyar [24]在他们的工作中开发了一种混合决策支持系统，使用粗糙集理论和极端学习机（ELM）对肝炎进行分类。粗糙集理论被用于特征子集的选择，ELM被用于确定单层前馈神经网络的隐层神经元与输出层神经元之间的权值。他们使用了UCI机器学习库中的肝炎数据集。每个选定的特征子集已被划分为50- 50%，70-30%和80- 20%的训练测试。ELM已被建模使用相应数量的功能的约简;正切S形激活函数已被用于获得隐藏层神经元的值。他们的ELM已经使用不同数量的隐藏层神经元进行了测试，范围从10到100。研究人员已经实现了100%的准确性，减少了四个特征，即疲劳，不适，protime和histology，训练测试的数据划分为80-20%。4. 系统框架本文提出的FELM框架有三个主要的子系统，即预处理子系统、模糊子系统和分类子系统。FELM框架如图所示。 1.4.1.临床数据集来自UCI机器学习库的克利夫兰心脏病（CHD），Statlog心脏病（SHD）和Pima印第安人糖尿病（PID）数据集已用于本研究[25]。CHD数据集有303个实例，每个实例都有一个与之关联的类标签0级（无心脏病）中有164例，1级（低风险）中有55例，2级（中等风险）中有36例，3级（高风险）中有35例，4级（严重）中有13例。在这项研究中，CHD数据集已经用五个类标签（CHD5）和两个类标签（CHD2）进行了实验。 CHD5数据集使用了来自UCI机器学习存储库的CHD数据集。通过将心脏病类别标签的风险水平合并到心脏病类别标签的存在来制备CHD2数据集。SHD数据集有270个实例，其中有一个类别标签，说明是否存在心脏病。0级（无心脏病）有150例，1级（有心脏病）有120例。CHD和SHD数据集的描述见表1。PID数据集有8个特征，768个实例。PID的所有特征值都是数值数据类型。每个实例都有一个类4K.B. Nahato等人 /Informatics in Medicine Unlocked 2（2016）1 - 11测试数据集训练数据集模糊化“X .编号8>b- a>：;dc临床数据集表2PID数据集的描述。没有特征描述域零预处理条目1Preg怀孕次数【0-5】1112Glu血浆葡萄糖浓度a 2 h【0-199】5平滑的数据集3BP口服葡萄糖耐量试验舒张压（mm Hg）【0-122】354皮肤三头肌皮褶厚度（mm）【0-99】2275胰岛素2小时血清胰岛素（mu U/ml）【0-846】3746BMI体重指数（kg/m2）【0-67】117DPF糖尿病家系功能[0.078-–2.42]8年龄年龄（岁）[219类别类别标签[0，1]测试ELM分类器分类结果使用ELM进行ELM分类器绩效评价Fig. 1. 系统框架。数据预处理子系统对数据集进行预处理。CHD数据集具有缺失值，PID数据集具有与某些特征相关联的值SHD数据集既没有缺失值，也没有离群值。4.2.1.CHD中的预处理在CHD数据集中，特征vessel和Thal有4个和2个缺失值。由于缺失值的数量较少，因此通过估算概念类的前五个最近邻居的最频繁值来处理它们。最近邻是通过使用Eql中给出的欧几里得距离度量来计算的。（3）以下[7]。表1CHD和SHD数据集的描述无功能描述数据类型域D. xi;xjps11= 2x是-xjs2j1;2;...; g其中，x i 是缺少值的实例; x j 是实例1年龄患者年龄数字[292性别性别二进制[0，1]3Chp胸痛类型标称[1，2，3，4]4血压静息血压数值[945血清胆固醇数值[126属于xi的同一类标签的无缺失值;s是xi和xj的对应特征值;p是临床数据集中的特征总数;g是无缺失值的实例数。6空腹血糖4120毫克/分升7ECG静息心电图结果Binary [0，1]标称值[0，1，2]4.2.2.PID预处理在PID数据集中，妊娠次数、血糖浓度、舒张压、三头肌皮肤褶皱8Mhrt最大心率数值[71-200]9运动诱发心绞痛二元[010Opk Oldpeak数值[0厚度、2小时血清胰岛素和体重指数具有111、5、35、227、374和11个实例，其具有与之相关的值011运动峰值ST段斜率标称值[1、2、3]共有432个实例提到了一个或多个功能上面的值为0。所有432个实例都具有12主血管标称血管编号[0，1，2，3]13Thal缺陷类型标称[3，6，7]14CHD的分类标签心脏病[0，1，2，3，4] 5a[0，1]用于SHDCHD2b有五个类标签的CHD。bCHD有两个类别标签。在类别0（指示没有糖尿病）中有500个实例，在类别1（指示存在糖尿病）中有268个实例。PID数据集的描述见表2。4.2.预处理子系统数据预处理有助于获得平滑的数据集，提高挖掘模式的质量[7]。数据预处理被拒绝，PID数据集已从768个实例减少到336个实例，因为上述特征的值0被认为是离群值，并如[17]中那样被消除。在336个实例中，225个实例属于类别0（指示没有糖尿病），111个实例属于类别1（指示存在糖尿病）。4.3.模糊子系统采用梯形隶属函数将所选临床数据集的特征转化为具有隶属度值的模糊集。该隶属函数也被其他研究人员[26，27]用于临床数据集的模糊化。梯形隶属函数表示在方程中。（6）.0;Xoa;X4d>X-a;arXrbf X包括去除噪声数据、处理缺失值，也不包括-化和数据缩减。在这项研究中，值，并消除临床异常值的实例A;B;C;D1;brXrcd-Xð- Þð6ÞK.B. Nahato等人 /Informatics in Medicine Unlocked 2（2016）1 - 115.Σð ÞJ参数a;b;c;d用于确定特征值X的特征值。通过参考[284.3.1.心脏病数据集CHD和SHD数据集有13个特征，其中5个特征是数值型的，3个特征是二进制的，5个特征是名义数据类型。在数值数据类型的五个特征中，四个特征，即患者年龄（年龄）、静息血压（Bp）、最大心率（Mhrt）和老年峰值（Opk），由三个模糊集（模糊变量）表示。具有数值数据类型的血清胆固醇（SCh）特征由四个模糊变量表示。表3示出了对应于CHD和SHD数据集的具有数值数据类型的特征的模糊集和点图2表示CHD和SHD数据集的数值数据类型特征的模糊化。特征性别（sex）转换为男性和女性。功能空腹血糖（Fbs）存储空腹血糖水平。这项检查是在病人连续禁食8小时后进行的特征Fbs被变换为过量葡萄糖和正常葡萄糖。血糖过高表示血糖水平为4120mg/dl ，血糖正常表示血糖水平为120mg/dl。心绞痛（Esian）是指运动时是否出现胸痛。发生这种情况是因为通过动脉的足够血液不能供应到心脏壁。 Exian转化为exian阳性和exian阴性。β-葡聚糖阳性表明运动诱发了心绞痛，β-葡聚糖阴性表明运动未诱发心绞痛。基于与每个特征相关联的值，将特征胸痛类型（Chp）、静息心电图结果（ECG）、峰值运动ST段的斜率（斜率）、通过荧光镜检查着色的主要血管的数量（血管）和具有标称数据类型的Thal转换为三个或更多个语言变量。特征Chp被转换为典型心绞痛、非典型心绞痛、非心绞痛和渐近。特征ECG被变换为值-0、值-1和值-1。表3对应于CHD和SHD数据集数值数据类型特征的模糊集。特征模糊集点a b c d值-2分别表示心电图有正常波、异常波和左室肥厚。特征坡度被转换为上坡、下坡和下坡。特征血管被转换为colored-0、colored-1、colored-2和colored-3。特征Thal被转换为正常的、固定的和可逆的。将CHD和SHD数据集转换为39个变量。表4示出了CHD和SHD数据集的二进制和名义特征的语言变量。4.3.2.PID数据集PID数据集有8个数值数据类型的特征。在模糊化期间，七个特征，即怀孕次数（Preg）、口服葡萄糖耐量试验中的2小时血浆葡萄糖浓度（Glu）、舒张压（Bp）、三头肌皮褶厚度（皮肤）、2小时血清胰岛素（Insulin）、糖尿病谱系函数（DPF）和年龄，由三个模糊变量表示。剩下的一个特征，身体质量指数（BMI）由四个模糊变量表示。将PID数据集的所有特征转换为25个语言变量。表5显示了模糊集到PID数据集和图的相应特征。 3表示PID数据集的模糊化。4.4.分类子系统分类子系统包括两个过程，即分类器构建和分类器测试。在这项研究工作中，使用具有单个隐藏层的前馈神经网络进行分类，使用极端学习机（ELM）确定隐藏层神经元和输出层神经元之间的权重[8]。令p、q和r表示输入层中的神经元数目，den层和输出层。令Wih表示输入层神经元和隐藏层神经元之间的权重向量，Who表示隐藏层神经元和输出层神经元之间的权重向量，T表示模糊临床数据集（Xi）的期望值隐层神经元采用Sigmoid激活函数。表6显示了FELM的参数值。对于隐层神经元的每个值（q），描述如下。第1步：使用临床数据集的模糊特征作为FELM的输入，如等式2所示（7）。Ii<$Xi <$1; 2;其中，p是指模糊特征的总数，临床数据集X.步骤2：初始化权重（Wih）输入层神经元和隐藏层神经元随机地从0到1变化;其中i表示输入层神经元，h表示隐藏层神经元。在这项研究工作中，i的值范围从1到临床数据集中模糊特征的数量，h的值范围从1到q;其中q表示隐藏层中神经元步骤3：使用等式（1）计算隐藏层神经元（H i）的输入。（8）;IX.O伊赫Hj¼1/1IiWijj1;2;...;q其中，Io是输入层神经元的输出，Wih是伊季报输入和隐藏层神经元之间的权重。年龄年轻20203035中年30405060老50608080BP正常8090120130高血压120130160170高血压160170200200Sch低120120160180期望160180200210边界线200220240250风险240260600600Mhrt下面5050100110正常100110180190上述180190220220OPK低001.52高123.54.5可怕3477p6K.B. Nahato等人 /Informatics in Medicine Unlocked 2（2016）1 - 11J图2. 心脏病数据集的数字特征的模糊化。表4步骤4：计算一个隐层神经元的输出. HoCHD和SHD数据集的相应二进制和名义数据类型特征的语言变量使用等式（9）;Ho¼1我j1; 2;数据类型特征语言变量二元性别男性女性Fbs正常血糖过量葡萄糖鄂西人葡聚糖阳性反式非典型心绞痛非心绞痛ECG值-0价值-1价值-2彩色坡度-0彩色 -1 彩色-2彩色-3塔尔正常固定可逆1e-Hj步骤5：使用ELM方法确定隐藏层神经元和输出层神经元之间的权重（Wh0），如等式（1）所示。（四）步骤6：使用等式（1）获得输出层神经元的值（Ok）。（一）.5. 实验结果使用MATLAB工具版本7.10，发布版本R2010a对选定的临床数据集进行实验。性能指标，即准确性、灵敏度、特异性、真阳性率（TPR）、假阳性率（FPR）和精确度，用于评估模糊极限学习机（FELM）。通过考虑真阳性（TP）、假阴性（FN）、真阴性（TN）和假阳性（FP）来计算度量。真阳性（TP）是指那些真正被确定为患病的情况。K.B. Nahato等人 /Informatics in Medicine Unlocked 2（2016）1 - 117¼¼¼¼¼¼¼表5PID数据集的模糊化。特征模糊集点一BCDPreg低浸提液1124正常-预浸3457高浸提液572020Glu低血糖45457090正常血糖7090140150高血糖140150200200BP低血压20205565正常60708590高血压85100120120皮肤薄皮55812中等皮肤10152030厚皮20305555胰岛素低胰岛素15152550正常胰岛素2560150180高胰岛素160200850850BMI体重不足151518.520理想18.5202528超重25273032肥胖30356060DPF低DPF0.0850.0850.350.5中型DPF0.350.50.851.0高DPF0.851.02.42.4年龄年轻20202530中年25304550老45508282耐心的等。如果患者没有正确分类，则会成为假阴性（FN）。被分类器正确识别的健康实例成为真阴性（TN），否则成为假阳性（FP）。用于计量分类器表现的指标使用等式：（10）-（16）[7]。一次当隐藏层中的神经元的数量为200时，达到终止条件。实验采用（80-20）、（70-30）、（60-40）和（50 - 50）的训练-测试比率进行。表7示出了每个训练-测试划分的最高结果如表7所示，获得最高精度为采用80-20的训练-测试率对选定的临床数据集进行测试用80训练测试率与隐藏层10-200是在图中示出。四比七如图所示。4- 7，最高精度为33，对于CHD5、CHD2、SHD和PID临床数据集，分别为47、25和39个隐藏层神经元。当隐层神经元个数大于对应值时，测试集的准确率逐渐下降，而训练集的准确率则提高到100%。从这个结果可以得出结论，灵敏度TPTPFFN特异性TN公司简介准确度TP公司简介TPRTPTPFFNFPRFP公司简介精度TP公司简介F_测量2TP2*TP双螺杆挤出机ð10Þð11Þð12Þð13Þð14Þð15Þð16Þ使用如表6中所述的参数进行实验。隐藏层中的神经元数量最初设置为10。该网络使用训练集进行训练，并通过测试集进行测试。额外的神经元以递增的方式添加，图三. Pima印度糖尿病数据集的Fuzzi计算。8K.B. Nahato等人 /Informatics in Medicine Unlocked 2（2016）1 - 11见图4。训练和测试具有五个类别标签数据集的CHD的准确性。图5. 使用两个类别标签数据集训练和测试CHD的准确性。表6FELM的参数图三. （续）CHD5 CHD2SHDPID输入层神经元（p）39 393925输出层神经元5 222（r）隐藏层神经元（q）10，11，12，学习算法ELM激活函数隐藏层：Sigmoid数据集划分(50-50）见图6。训练和测试SHD数据集的准确性。表7模糊极限学习机精度比较。数据集（培训-测试）(80-20）(70-30）(60-40）(50-50）准确度（%）Q准确度（%）Q准确度（%）Q准确度（%）QCHD5a73.773368.483767.772964.7139CHD2b93.554791.213288.523186.1628SHD94.442592.592491.675091.1129PID92.543989.112985.823282.2523有五个类标签的CHD。bCHD有两个类别标签。K.B. Nahato等人 /Informatics in Medicine Unlocked 2（2016）1 - 119隐层神经元数量增加，分类器导致过拟合问题表8总结了最高的测试精度以及相应的训练阶段精度和隐藏层神经元。表9列出了具有5个类别标签的CHD列联表，表10列出了具有2个类别标签的CHD列联表类标签、SHD和PID测试数据集。所选临床数据集的受试者工作特征（ROC）和ROC曲线下面积（AUC）见图。第八章如图8所示，从左下角到右上角画的虚线为假想线，表示AUC大于0.5;粗线表示ROC的边界区域图7. 训练和测试PID数据集的准确性。表8隐藏层神经元的数量可获得最高精度。数据集Q培训准确率（%）检测准确度（%）CHD5a3383.4273.77CHD2b4788.8093.55SHD2587.9694.44PID3986.9992.54有五个类标签的CHD。bCHD有两个类别标签。表9CHD5检测集列联表预计缺席低中高严重曲线三个数据集的AUC; CHD 2，SHD和PID分别为0.935，0.942和0.909。由于CHD5有五个类别标签，因此无法使用二元类别标签绘制单一ROC曲线临床数据集。使用选定数量的隐藏层的临床数据集的总体性能如表11所示。5.1.性能比较在训练时间和精度方面，将FELM与ELM、BPNN和模糊反向传播神经网络（FBNN）进行了比较。所有学习方法的训练-测试率设计为80-20。ELM分类器开发并测试了不同数量的隐藏层神经元，范围从10到200。BPNN和FBPNN分别设计了25个和50个神经元的单层神经网络。用于BPNN和FBPNN两者的参数是用于隐藏层神经元的双曲S形激活函数和用于输出层神经元的线性激活函数，并且最大迭代次数为1000。表12显示了FELM与ELM、BPNN和FBPNN的比较如表12所示，与BPNN、ELM和FBNN相比，FELM实现了最高的准确度。由于没有最小值和不适当的学习率等问题，使用ELM和FELM的训练时间不到0.1 s。尽管ELM和FELM都具有较少的训练时间，但FELM在准确性方面表现良好表13中显示了所提出的FELM方法与其他研究人员使用UCI机器学习存储库中的数据集实现的现有方法的比较。如表13所示，与其他作者的CHD 2和SHD分类工作相比，FELM分类系统获得了最高的准确性。FELM在PID数据集上取得了最高的结果，除了[23]的工作。在CHD5数据集上提出的分类器已经获得了[20，36]所做工作的相当准确性。6. 结论和今后的工作分类是诊断疾病的重要工具。在这项研究中，提出了一种模糊极端学习机（FELM）诊断两种主要的沉默杀手疾病;心脏病和糖尿病与克利夫兰心脏病（CHD），Statlog心脏病（SHD），和皮马印第安人糖尿病（PID）数据集。CHD数据集已经通过两种方式进行了测试：心脏病的严重程度（具有五个类别标签的CHD）和心脏病是否发生（具有两个类别标签的CHD）。在处理缺失值和去除离群值后，应用模糊化将特征映射到隶属度范围为0到1的模糊集。的模糊输入数据集已被馈送到ELM与训练-检测率为80- 20%。对于具有五个类标签的CHD、具有两个类标签的CHD、SHD和PID数据集，分别使用33、47、25和39个隐藏层神经元获得测试数据集的最大准确度，准确度分别为 73.77% 、93.55%，94.44%和92.54%。在灵敏度方面的性能表10CHD2、SHD和PID测试集列联表预计CHD2SHDPID存在没有存在没有存在没有预测存在中文（简体）FN（2）中文（简体）FN（2）中文（简体）FN（3）没有简体中文（CN）中文（简体）FP（1）中文（简体）简体中文（CN）中文（简体）预测没有333001低14200介质02330高02240严重00 00110K.B. Nahato等人 /Informatics in Medicine Unlocked 2（2016）1 - 11图8. （ A）CHD2、（B）SHD和（C）PID数据集的ROC曲线。表11选定隐藏层神经元中数据集的整体性能。度量CHD2数据集SHDPID准确度（%）93.5594.4492.54灵敏度（%）93.5495.6590.47特异性（%）93.5493.5593.48精度0.9350.9120.864F测度0.9350.9360.884TPR0.9350.6570.905FPR0.1380.9360.209AUC0.9350.9420.909评价了特异性、TPR、FPR和F-测量。与ELM，BPNN和FBNN相比，该方法在训练时间和准确性方面表现更好。FELM其他研究人员的工作表现出更好的性能结果冠心病表12FELM与ELM和BPNN的性能比较。学习方法业绩计量临床数据集CHD5CHD2SHDPIDBPNN准确度（%）63.0485.285.279.1时间（秒）1.6151.4111.491.37FBPNN准确度（%）64.6987.4685.280.6时间（秒）1.8481.5481.691.71榆树准确度（%）65.5788.5285.1982.09时间（秒）0.0130.0130.0130.013FELM准确度（%）73.7793.5594.4492.54时间（秒）0.0130.0130.0130.013K.B. Nahato等人 /Informatics in Medicine Unlocked 2（2016）1 - 1111表13FELM与其他作者工作的性能比较。作者拟定方法准确度（%）PIDCHD5CHD2SHDAslam等人[14]GP-KNN80.50–––Patil等人[15]K-means与C4.592.38–––Alneamy等人[16]第16话90.29–––Varma等人[17]第十七话75.80–––Seera等人[19]第十九话78.39–––Kalpana等人[21]FIS90.38–––Christopher等人[22]PSO-C4.583.99–77.89–Lee等人[26]第二十六话91.20–––Dennis等人[20]第二十话89.8076.67––Subbulakshmi和Deepa SRLPSO-ELM[23]93.09–91.3389.96美国[38]–72.5590.57–Mattila等人[34]第三十四话78.04–85.01–方法Anooj[35]加权模糊规则––62.35–Setiawan等人[36]第三十六话––83.00–最粗糙Kahramanli等人[37]第三十七话––87.40–安Nahato等人[18]RS-BPNN–––90.40拟定方法

下载后可阅读完整内容，剩余1页未读，立即下载