没有合适的资源?快使用搜索试试~ 我知道了~
工程科学与技术,国际期刊24(2021)112基于Vibes算法和Hilbert-Huang变换的帕金森病步态模式识别Aydına,Zafer AslanbaBalikesir大学工程学院计算机工程系,Balikesir 10010,土耳其b伊斯坦布尔艾登大学工程学院计算机工程系,土耳其伊斯坦布尔34295阿提奇莱因福奥文章历史记录:2020年3月30日收到2020年9月11日修订2020年12月2日接受2021年1月13日在线提供保留字:机器学习帕金森A B S T R A C T帕金森病(Parkinson's disease,PD)是世界上第二大常见的神经退行性疾病。在PD的表现中,有静止性震颤、运动迟缓和罕见的肌张力障碍,所有这些都是运动症状。但是直接使用这些运动症状进行诊断可能会产生误导,因为PD可能与其他帕金森综合征和具有类似症状的其他疾病混淆。因此,可以使用步态,其在PD的检测中具有显著的动力学并且是极其复杂的运动。在本文中,我们采用了一个国家的最先进的集成学习算法,称为振动算法,和希尔伯特黄变换(HHT)识别PD步态模式。通过对脚底16个传感器采集的信号进行HHT变换和16个统计函数的处理,提取特征。然后,我们使用Vibes算法和OneRAttributeEval算法执行两阶段特征选择过程。最后,我们利用Vibes算法和分类和回归树作为基础学习器来区分PD患者和对照组。该方法的分类准确率、敏感性和特异性分别为98.79%、98.92%和98.61%。此外,我们彻底对比了我们的方法与以前的十六个作品。实验结果表明,该方法具有较高的性能和稳定性。我们还发现了两个未揭示的标记物,可以提供支持,在临床诊断PD除了分类任务。©2020 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍神经退行性疾病导致神经元的结构和功能丧失,包括它们的死亡。帕金森病(Parkinson's disease,PD)是神经退行性疾病中发病率第二高的疾病。帕金森病最早是在1817年由詹姆斯·帕金森(JamesParkinson)撰写的题为“关于震颤性麻痹的论文”中描述的PD的突出特征是运动迟缓,其被定义为运动减速。在疾病的早期阶段,运动迟缓最明显的症状是步态,坐姿和语言能力的丧失[2]。PD患者容易跌倒。因此,步态障碍是确定PD患者的显著特征之一此外,在量化步态信号的同时,患者的生活质量是不变的。此外,步态测量为患者提供了方便,同时也定期监测他们的健康状况。医生只能通过尸检确定PD的明确诊断[3]。PD是一种隐性发病,*通讯作者。电子邮件地址:fatih. balikesir.edu.tr(法文)。Aydın),zaferaslan@aydin.edu.tr(Z.阿斯兰)。由Karabuk大学负责进行同行审查病情逐渐恶化[4]。PD的症状分为两个亚组:运动和非运动[5]。所有症状在每个患者中无法共存,并且每个PD患者的症状强度也不相同[4,6,7]。因此,我们可以说PD的症状组合对于每个患者都是不同的。PD的症状通常以静止性震颤或运动迟缓开始,很少伴有肌张力障碍[2,8]。因此,PD的诊断在初始阶段特别容易误导。临床病理学研究表明,10% - 24%的症状诊断为PD的患者的死亡率取决于其他原因[6,9]。因此,需要关注每个PD患者常见的运动症状。我们全面回顾了与本研究范围相同的所有其他研究工作。此外,我们想指出的是,帕金森数据集是相同的,在本研究和以下研究中使用。Lee 和 Lim[10] 介 绍 了 一 种 通 过 使 用 加 权 模 糊 隶 属 度 神 经 网 络(NEWFM)函数区分特发性PD患者和健康受试者的新方法。该方法首先利用小波变换(WT)和各种统计方法(SME)从受试者的步态特征中提取新的40个特征。Daliri[11]提出了一种分离PD的新方法https://doi.org/10.1016/j.jestch.2020.12.0052215-0986/©2020 Karabuk University.出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页:www.elsevier.com/locate/jestchF. Aydın和Z. 阿斯兰工程科学与技术,国际期刊24(2021)112113健 康 人 的 病 人 该 方 法 通 过 对 步 态 信 号 进 行 短 时 傅 立 叶 变 换(STFT),提取步态信号的平均频率和频率方差,并将这些分量拼接成一个大的直方图他们稍后使用Fisher最后,他们计算了简化直方图之间的卡方距离,并采用支持向量机进行分类。Aydın和Aslan[12] 介 绍 了 一 种 新 的 方 法 , 通 过 使 用 聚 集 单 依 赖 估 计(A1DE)算法和小波变换(其小波类型为Daubechies3)来发现数据中的模式。Alafeef和Fraiwan[13]介绍了一种基于步态分析、连续小波变换(CWT)和ANN的新方法,用于对PD受试者和健康对照受试者进行分类。此外,他们还展示了基于Hoehn和Yahr量表识别PD严重程度的步态模式。在这些研究中使用的STFT和WT假设信号是线性的。然而,现实世界中的大多数此外,由于所选机器学习算法的结构,这两项研究中建立的模型都是黑箱模型。换句话说,这些模型不能帮助人类在决策过程中发现新知识。Wahid等人。[14]开发了一种基于多重回归标准化策略(MRNS)和随机森林(RF)。他们使用MRNS来解释受试者的年龄,身高,体重,性别和自我选择的步行速度,以检测时空步态特征的差异。他们用于分类的特征是步幅,节奏,站立时间和双支撑时间。Perumal和Sankar[15]提出了一种基于步态的时空和动力学参数以及线性判别分析(LDA)的新方法。时空参数包括步距、步幅时间、站姿和摆动相位。动力学参数包括足跟力低于足尖力、足尖力以及这三个参数的归一化值。他们还开发了一种基于信号频域特征和LDA的震颤评估方法。Abdulhay等人[16]提出了一种诊断PD的新方法。他们开发了脉冲持续时间算法(PDA)来提取时间特征,如站立和摆动阶段以及步幅时间。然后,他们采用中高斯支持向量机(MG-SVM)进行PD受试者和健康受试者之间的步态模式分类。他们还开发了一种震颤分析来检测PD的严重程度。时空参数和动力学参数通常用于检测步态和平衡障碍。通常使用时空参数和动力学参数来检测步态和平衡障碍。应该使用更复杂的信号处理方法来确定帕金森病驱动的步态障碍与其他步态障碍之间的差异Ertugrul等[17]提出了一种新的方法,建立在移位一维局部二进制模式(移位1D-LBP)和多层感知器(MLP)。他们还通过Shifted 1D-LBP方法精确定位步态信号的局部变化。曾[18]介绍了一种使用确定性学习理论区分健康受试者和PD受试者的新方法。他们利用局部径向基函数(RBF)网络来识别非线性系统的动态。Medeiros等人。[19]提出了一种基于主成分分析(PCA)提取特征和欧氏距离(ED)分类数据的新方法。Wu等人[20]开发了一种支持向量机(SVM)模型,该模型采用近似熵(ApEn)、归一化符号熵(NSE)和信号匝数(STC)参数来区分PD患者和健康个体。这些参数给出了PD中步幅波动的测量值。Nandy[21]介绍了一种基于统计方法和贝叶斯分类器的新方法用于区分PD患者和健康受试者。他们首先利用归一化自相关(NAC)来计算个体步态的波动程度。然后,他们采用了四种不同的正态性检验方法,以获得更多的信息特征。对于特征选择,他们使用Fisher判别比(FDR)。Shrivastava等人[22]有效地对受自然启发的各种算法进行了比较分析,以选择最佳特征并提高用于区分健康受试者和PD受试者的人工神经网络(ANN)算法的分类准确性。实验结果表明,二进制蝙蝠算法( Binary Bat Algorithm , BBA ) 比 粒 子 群 优 化 算 法 ( ParticleSwarm Optimization, PSO) 、遗 传算 法( Genetic Algorithm,GA)和改进的布谷鸟搜索算法(Modified Cuckoo Search,MCS)具有更好的性能。基于深度学习网络的局部放电诊断已经做了一些研究。Zhao等人。[23]开发了一种新模型,将卷积神经网络(CNN)和长短期记忆(LSTM)结合在一起,LSTM是一种深度学习模型,可以区分PD受试者和健康受试者。他们还试图根据严重程度对PD进行分类。Zeng等人[24]提出了一种基于三维相空间重建(3D-PSR)、经验模式分解(EMD)和ANN的新方法,用于区分PD患者和健康亚组。El Maachi等人[25] 提出了 一种基于1D-CNN 的新方 法来构建深度 神经网络(DNN)分类器。他们通过18个并行的1D-CNN提取特征。他们测试了他们的算法,以区分PD个体和健康受试者,并通过使用统一帕金森病评定量表(UMRS)预测PD的严重程度基于Hilbert-Huang变换的帕金森病诊断方法已经得到了一些研究。在Rojas等人[26]的研究中,提出了一种新的用于诊断帕金森病的计算机辅助系统,该系统基于经验模式分解,该经验模式分解将任何非线性和非平稳时间序列分解为少量振荡的本征模式函数单调残差。在Karan等人的研究中。[27],使用基于经验模式分解的特征来揭示语音特征,并引入称为固有模式函数倒谱系数(IMFCC)的新特征来找出帕金森患者语音的模式最后,Farashi[28]介绍了一种新的方法,通过使用从垂直地面反作用力(VGRF)数据中提取的时间、频率和时频域并结合决策树分类器来区分PD个体和健康个体与文献中的其他作品相比,所提出的算法的贡献如下:在实验结果中表现出高性能并保持稳定性。通过使用vibes算法[29]和分类和回归树(CART)[30]构建透明模型,帮助医生发现新知识。脚跟是一个重要的标志物,在区分PD与对照(CO)受试者时,与足底其他部位相比更具预测性。在分类任务方面,与右脚信号它也很容易在硬件中实现所提出的方法,因为它是计算成本较低。本文其余部分的组织结构如下。 在第2节中,我们介绍了所提出的算法中使用的各种方法。在第3节中,我们描述了方法和实验装置。在第4节中,我们给出了结果和讨论。最后,我们在第5中得出结论。F. Aydın和Z. 阿斯兰工程科学与技术,国际期刊24(2021)112114.Σ..fg. .!ΣFG21/4f gP2. 预赛2.1. Vibes算法包围学习是一种机器学习范式,其中多个学习者被训练来解决相同的问题。集成学习方法的基本原理是,由适当组合的个体预测器创建的集成决策优于任何集成成员。许多实验和理论研究[31,32]也证明了这一点。每个机器学习算法都有一定的局限性,因此会出现错误。集成学习的目的是控制算法的优势和劣势,同时做出最佳决策[33]。Vibes算法是一种集成学习算法,(5)其他(6)生成新的数据集的形式为X1,X1[Xn,X1[X2.(7)使用L和y从新数据集创建新模型hi(8)使用OFSA(9)根据模型的多数投票,创建最终模型H(10)返回H在不对vibes算法进行优化的情况下,其时间复杂度分别为Xn nn× 2和On2,分别为最佳和最佳最糟糕例的空间复杂性的的算法是[29]《易·系辞上》:“,。Vibes算法在模型组合方法上基于多数表决,在模型选择方法上基于优化前向搜索,XMaxn; mn;m2N2Omaxn; mn;m2N分别为并且它在基本学习者选择方面是同质的。基本学习器利用两种基本方法处理特征集。这些是决策融合和分类器选择。在决策融合中,每个基学习器使用一个特征集的所有信息。在分类器选择中,每个基本学习者都像本地专家一样对待,并且只使用一小组特征。Vibes算法应用决策融合和分类器选择方法。Vibes算法依赖于两个假设。第一,特征是相互独立的。后者是特征是相互依赖的。设D X1是一个训练集,它由输入空间R×组成,其中m表示数据的数量,n表示特征和类标签的数量。相应地,第一假设如下运行:每个基础学习器L1,2f1,...,g学习训练集上的单个特征最好的和最坏的情况[29]。vibes算法的实现可在https://www.example.comuk.mathworks.com/matlabcentral/fileexchange/69350-the-vibes-algorithm获得。2.2. 分类回归树算法分类和回归树(CART)是Breiman等人开发的机器学习算法。CART通过对数据空间的递归划分来构造简单但功能强大的模型,以便 从 数 据 中 构 建 预 测 模 型 。 它 采 用 了 一 个 贪 婪 的 ( 即 , non-trackback)方法,其中决策树以自顶向下递归分割和管理的形式创建。创建决策树的过程如算法2所示除了原始的训练集之外。 临时的合奏然后模型H:L[···]Lj由基本学习器组成。对于另一个假设,首先根据特征在分类方面的信息量从最高到最低排列特征可以选择ReliefF算法[34]或香农熵[35]来量化信息量。在对原始数据集的特征进行排序之后,每个基本学习器学习由有序原始数据集的第一个、前两个、前三个以及第一个和第n个特征组成的新数据集临时集成模型H:L[···]Lj由随后的基本学习器组成。最后,利用多数投票法和优化前向搜索算法(OFSA)从(n +1)个基学习器中选出k个基学习器振动算法的伪代码在算法1中示出。算法1:Vibes算法输入:X表示样本空间y表示类标签L表示基础学习者f表示关于特征是依赖于还是独立于r表示关于选择什么特征评分方法(ReliefF算法或Shannon熵)的参数输出量:H表示最终模型(1)根据参数r(2)if(f是(3)生成每个特征的新数据集(Xi,i = 1,. . ,n)(4)使用L和y从新数据集和X创建新模型hi算法2:CART算法输入:D表示训练集输出量:n表示根节点(1)计算节点n(2)使用PTi2Twi估计观测在节点n中的概率,其中wj是观测i的权重,T是节点n中所有观测索引的集合(3)按升序对pi进行排序(pi表示所有分裂预测值,i^l; ···;t)(4)通过最大化杂质增益总体分裂候选项,确定使用pi分裂节点n的最佳方式(5)如果不满足(6)返回;返回CART算法使用基尼指数来量化属性的不确定性。D是一个数据集。因此,D的杂质是通过基尼系数来衡量的。基尼指数是使用公式(1)中的公式计算的。假设通过使用属性A将D以D1和D2的方式分割,通过使用等式(2)中的公式计算基尼指数。此外,通过离散或连续值特征上的二元分裂形成的杂质的减少使用等式(3)中的公式计算。F. Aydın和Z. 阿斯兰工程科学与技术,国际期刊24(2021)112115X基尼D¼1-p..拉吉吉.信号rl/hMxi1¼-.Σ¼ ð Þ..ΣΣð Þ ð Þð ð ÞÞ ð Þð Þð Þð Þ-M2我1/1其中p表示节点中的情况的概率。ð1ÞEMD的局部性质可以产生模式的不同尺度的振荡这是不希望的情况,并且期望每个模式使用类似的尺度。EMD的这种结果引起了一个称为“模式”的问题吉尼D吉尼D基尼系数D混合”。 要消除上述不足和诸多不足2Dj2011年12月21日ð2Þ ð Þ例如不抗噪声,Colominas等人,发达一种称为改进的完全包围经验模式的方法DGiniAGiniD-GiniAD32.3. Hilbert-Huang变换传统的数据分析方法假定信号是线性平稳的.小波分析和Wagner-Wille分布[36,37]假设信号是非平稳但线性的。此外,存在许多非平稳时间序列分析方法[38,39]。但是,这些方法假设系统是静止和稳定的。事实上,在许多真实的系统中,无论是自然的还是人为的,信号都是非线性和不稳定的。分析非线性和非平稳信号不同于他们的性质产生了许多麻烦。表示非线性和非平稳数据的充分必要条件是具有自适应基。先验定义的函数不能靠在一个强大而灵活的基础上。 建立一个自适应和后验定义的方法是解决这一问题的关键[40]。Hilbert-Huang变换(HHT)是Huang等人提出的一种新的变换方法。我可以应付这些麻烦[41HHT包括经验模式分解(EMD)和希尔伯特谱分析(HSA). HHT是一种适合于非线性、非平稳数据分析的方法,尤其适合于时频能量分析。此外,HHT仅经过经验检验并获得有效性[40]。经验模态分解是一种数据驱动、后验定义、直观、适应性强的方法。 EMD 假设数据由不 同的本征振荡模式组成。 本征模函数(IMF)表示对应于简单谐波函数的简单振荡模式,即将信号表示为简单谐波分量,而不是恒定的幅度和频率。IMF具有作为时间的函数而变化的幅度和频率。原始信号是IMF和最后一个单调趋势的总和[42,44]。EMD算法的伪代码在算法3中示出。算法3:EMD算法输入:X表示原始信号输出量:D表示IMFr表示残差信号通过改进EMD进行自适应噪声分解(改进的CEEMDAN)[44]。改进的CEEMDAN算法的伪代码在算法4中示出。算法4:改进的CEEMDAN算法输入:X表示原始信号输出量:D表示IMFr表示残差信号(1)计算实现的局部均值xixb0E1. 用经验模态分解(EMD)进行小 波分解,得到第一残差(2)计算第一个模式d1xR1(3)计算第二个残差作为实现r1b1E2wii的局部均值的平均值,并计算第二个模式d2<$r1-r2<$r1- hMr1b1E2wii(4)计算第k个残差,k=3;···;Krk ¼ h M rk-1bk-1Ek 瓦鲁吉(5)计算第k个模式,dk<$rk-1-rk(6)转到第4步以获取下一个kBKekrrk用于获得所添加的噪声与添加了噪声的残差之间的期望信噪比。M·表示产生应用于的信号的局部平均值Ek·表示亲-介绍了用EMD方法得到的第k阶模态。表示零均值单位方差白噪声的实现。在 所 有 实 现 中 , 我 们 都 使 用 了 http://perso.ens-lyon.fr/patrick.flandrin/emd.html 上 提 供 的 EMD 工 具 箱 。CEEMDAN的原始公式的实现可以在http://www.bioingenieria.edu.ar/grupos/ldnlys/上找到。HHT的目的是找出信号的时-频-能量之间的关系该方法还局部地描绘了非平稳数据。为了计算瞬时频率(IF)和幅度,并局部描述信号,HHT采用希尔伯特变换(HT)。如等式(4)中那样计算信号x t的希尔伯特变换y t。y t1PZ(1)n0并找出xr0的所有极值(极大值,极小值)(2)计算rn的局部极值的插值,获得下(emin)和上(emax)包络(3)计算平均包络线(m²e最小值=2e最大值)(4)计算候选IMF(dn1<$rn-m)(5)如果dn 1是IMF(7)其他(8)在步骤2中,将dn 1作为输入(9)重复这个过程直到rn满足停止条件联系我们-其中P是奇异积分的柯西主值。作为该变换的结果,信号x t的相位角偏移± 90°以将信号x t扩展到复平面。然后,利用信号x t和x t的希尔伯特变换的组合,获得信号x t的解析表示z t,如等式(5)所示。ztxtiytateiht5F. Aydın和Z. 阿斯兰工程科学与技术,国际期刊24(2021)112116ð ÞX解析函数z t的相位在等式(6)中示出¼其中i<$p为1,瞬时振幅de和瞬时振幅分别为(7)和(7)一个不起眼的小女孩。x2y21=2 6时间,所以)。[49].该数据集包括从93名特发性PD患者和72名健康受试者获得的步态测量结果。每个实验对象的脚下都有八个传感器。传感器测量垂直地面反作用力(牛顿单位)作为时间的函数。 传感器的输出记录在每秒100个采样。 此外,记录hxttt ttan-1yð7Þ涉及两个信号,它们是八个检测器的输出之和。显示了有关此数据集的描述性信息结果,瞬时频率如等式(8)所示计算。最后,瞬时频率是信号的瞬时相位随时间的变化。表1中从PhysioNET数据库获得的帕金森数据集的垂直地面反作用力记录样本如图所示。1.一、xdhdt3. 方法3.1. 帕金森数据集ð8Þ3.2. 特征的创建和选择通过对非结构化或原始数据应用统计分析来创建特征是机器学习领域中的重要步骤。此外,特征选择是机器学习领域的一个重要子主题。特征选择是选择一个我们从PhysioNET数据库[49]中提取了本研究中使用的帕金森数据集(由Ga、Ju和Si数据集组成)[45数据包括水平地面上大约两分钟的垂直地面反作用力(VGRF)记录。受试者以他们选择的速度行走。因此,可以将力记录视为时间和位置的函数(例如,跨步时间,摆动表1帕金森数据集的描述性信息[49]模型创建过程中使用的特征的子集。由于三个原因,特征选择是首选的:便于轻松解释模型[50],减少分类器的训练时间,以及避免方差导致的错误[51]。有三种常用的特征选择方法:过滤器方法、包装器方法和嵌入式方法。过滤器方法采用独立于机器学习算法的训练数据的一般特征[52]。包装器方法发现了相关度与最佳特征子集之间的关系,科目Number数据年龄体重身高性别M F适用于机器学习算法的特征子集[53]。最后一种方法涉及分类算法-PD 93 66.30 ± 9.5072.40 ± 11.96167.44 ± 8.5958 35对照组72 63.68 ± 8.7072.69 ± 12.42168.25 ± 8.5840 32RITHM执行关于哪些所选特征子集的良好学习这种方法类似于包装器方法,但是,学习过程对嵌入式系统中的搜索过程有影响Fig. 1. (a和b)对照个体、(c和d)PD患者和(e和f)另一个PD患者的左脚和右脚的垂直地面反作用力的变化随着时间F. Aydın和Z. 阿斯兰工程科学与技术,国际期刊24(2021)112117ð Þ ¼þð Þ ¼-ð Þ ¼ j -j中文(简体)的方法。这种情况降低了计算成本和过度的趋势。文献中提出了许多特征选择方法。然而,将这些方法相互比较是困难的。原因是数据集可能包含许多不相关和冗余的特征。因此,特征选择算法的性能取决于学习算法的性能。此外,还有许多性能标准,如准确率、计算机资源和文献中特征选择的速度。许多研究人员认为,在特征选择算法中没有最好的方法[52]。因此,不同的特征选择算法试图通过使用不同的策略来解决其领域涉及的问题。在这项研究中,我们对帕金森数据集进行了特征创建和选择。我们在下面详细解释了这些步骤。每个受试者的16个信号中的每一个在开始特征创建之前通过三个简单的功能彼此交互。令L1、L2、L3、L4、L5、L6、L7、L8、T1、R1、R2、R3、R4、R5、R6、R7、R8和T2为从受试者的每只脚获得的18个信号这些信号中的两个(即,T1和T2)是每英尺八个信号的总和。459个新信号由18个信号通过使用三个简单函数组成:f1 x; y轴Xy,f2 x; y轴Xy和f3 x; y轴xy. 比如说,我们可以得到三个新的信号,如L1 + L2,L1-L2,|L1-L2|通过将这三个函数应用于信号L1和L5,因此,在这些操作之后,我们获得每个对象的477个信号。然后,我们通过将改进的CEEMDAN应用于477个信号来获得每个信号的前六个IMF。此外,我们通过HHT获得每个IMF的振幅(A)和IF。属于三名受试者左脚的振幅、IF和IMF我们稍后获得每个信号的Welch PSD估计。因此,我们拥有每个信号的IMF,幅度,IF和WelchPSD估计。属于三个人的左脚和右脚的和信号的Welch功率谱密度估计如图3所示。此外,特征创建\选择过程如图所示。 四、然后,我们将峰值分析应用于幅度、IF、Welch我们通过峰值分析 得 到 了 对 应 于 一 个 信 号 的四 个 矢 量 。 这 些 向 量 是 最 大 极 值(pk)、它们的位置(locs)、它们的宽度(w)和峰高值(p)。属于三个受试者的左足和右足的和信号的峰值分析示于图1中。 五、最后,我们通过将16个统计函数应用于所有信号和向量来创建694,512个特征。这些统计函数是变异系数、最大值、最小值、平均值、标准差、偏度系数、峰度系数、中位数、范围、平均绝对偏差(MAD(0))、中位数绝对偏差(MAD(1))、总和、香农熵、对数能量熵、向量元素的绝对值之和以及向量的欧几里得长度。在特征创建步骤之后,我们继续进行特征选择步骤。我们使用OneRAttributeEval方法选择特征,并将其运行在分层的10倍交叉验证(CV)上,以确保泛化性能。然后,我们以以下格式获得每个特征的平均准确率:平均值 viation最后,我们选择相应的特征,到的规则我们自己规定的是指70.baby baby因此,我们从694,512个特征中仅选择135个特征。3.3. 评价标准在学习过程结束时,需要各种统计标准来衡量分类器的性能。这些标准是准确率(ACC)、F-度量、精确度、召回率、特异性(SPF)、受试者工作特征(ROC)面积、Kappa值、均方根误差(RMSE)。精度值指示被预测为正的实例中有多少百分比精度也称为阳性预测值(PPV)。召回值也被称为灵敏度或真阳性率(TPR),并且显示为阳性是精确预测的。特异性值表示被标记为阴性的实例被正确预测的百分比。特异性也被称为真阴性率(TNR)。F度量[54]是一个考虑实验PPV和TPR的分数分类器的错误预测来自随机预测或不正确的预测[55]。因此,RMSE可以用来量化分类器的性能。Kappa值[56]用于衡量预测值和实际值之间的一致性[57],并首先由Cohen开发Kappa值还提供了关于分类器学习训练数据的程度的信息通过将实例的得分s与“分类阈值”t进行比较来获得新实例的分类如果s>t,图二、(a)对照个体和(b和c)两名PD患者的左脚的垂直地面反作用力的第一IMF,以及与这些IMF相对应的幅度和IFF. Aydın和Z. 阿斯兰工程科学与技术,国际期刊24(2021)112118≤图三.对(a和b)对照个体、(c和d)PD患者和(e和f)另一个PD患者的左右脚的垂直地面反作用力进行Welch功率谱密度分析。则新实例被分类为来自类1,并且如果s t来自类0[58]。ROC面积是ROC曲线下面积,由真阳性率与假阳性率(FPR)随数据量变化的图组成4. 结果和讨论我们使用MATLAB R2016b工具进行了所有的实验,并选择CART算法作为Vibes算法的基础学习器。振动和CART算法的变化参数及其值如表2所示。其余参数初始化为默认值。根据这些参数值,Vibes算法假设特征彼此独立,并使用优化的前向搜索来搜索最合适的基学习器模型。此外,CART算法适用于Twoing规则来决定如何分割节点。我们运行vibes算法来识别帕金森数据集中的模式我们使用了2倍交叉验证(CV)、5倍CV、10倍CV和留一法交叉验证(LOOCV)来评估Vibes算法的性能并对其进行训练。通过在训练和测试期间使用相同的数据集,我们还分析了模型是否存在欠拟合或过拟合。此外,每个实验,包括训练,重复10次。因此,数据在每次重复中处于不同的折叠中。实验结果示于表3中。因此,我们获得了最低和最高的分类准确率分别为94.85%和98.79%的2倍CV和LOOCV。此外,平均分类准确率为96.2%,不包括所有训练所有测试。我们选择在LOOCV实验中获得的模型对PD和CO受试者进行分类,因为它具有最高的ACC,TPR和TNR,并且没有标准差(SD)。在LOOCV实验中,PD亚型的正确识别率为98.92%。此外,对于LOOCV实验,正确识别的对照受试者的百分比为98.61%。该模型在LOOCV实验中使用了135个特征中的24个特征。特征选择算法分为三种类型:过滤器方法,包装器方法和嵌入式方法。滤波器方法基于特征的统计特性来因此,它独立运行F. Aydın和Z. 阿斯兰工程科学与技术,国际期刊24(2021)112119图四、特征创建和选择过程的图示训练算法的独立性。为了使用滤波器方法,我们在MATLAB工具箱中选择了一个名为“使用邻域分量分析(fscnca)进行该函数通过使用邻域分量分析(NCA)的对角自适应来计算特征权重,即,通过利用数据之间的成对距离来测量特征重要性。包装器方法通过使用特征的子集开始训练,然后根据算法的选择标准添加或移除特征它继续选择特征,直到满足其停止标准。为了使用包装器方法,我们利用了MATLAB工具箱中称为顺序特征选择(sequentialfs)的函数,该函数通过顺序选择特征来构建特征子集,直到所选分类算法的预测没有改善。嵌入式方法计算特征的分数作为模型学习过程的一部分,并选择与学习过程一起工作的特征。为了使用嵌入式方法,我们在MATLAB工具箱中使用了一个名为“predictorImportance”的函数,该函数通过聚合集成中每个基础学习者的风险变化来在三种特征选择类型方面,各种集成学习算法的比较结果如表4所示。根据这些结果,与过滤器和包装器方法相比,嵌入式策略将特征放在一起,平均对数据进行更准确的预测此外,与其他特征选择方法相比,Vibes算法中集成的优化前向搜索算法(OFSA)在性能上更好。除了随机子空间学习算法之外,我们使用CART作为基础实验中使用的集成学习算法都是以k-近邻算法作为学习器,而随机子空间学习算法则是以k-近邻算法作为基学习器。此外,我们选择了称为“twoing”的方法对于所有的集成学习算法,除了“twoing”之外的其余参数的值我们绘制了图6(a)所示的学习曲线,以根据训练集的大小给出LOOCV模型的平均预测质量。预测质量随着训练集的增长而提高。此外,在数据数量超过12之后,F-测量的平均值和最后值分别为0.9769和0.9877。因此,我们可以说,数据中存在模式,学习算法会拾取它们。学 习 算 法 性 能 不 佳 的 原 因 是 数 据 过 拟 合 或 欠 拟 合 。 我 们 绘 制 了RMSELOOCV和RMSE训练的曲线,如图6(b)所示,以估计LOOCV模型与真实函数的匹配程度。如果与LOOCV模型相关的误差的起源是由于偏差,则随着数据量的增加,RMSELOOCV和RMSE训练彼此接近在一定值之后停止。换句话说,即使增加数据的数量,LOOCV模型的偏差误差也不能被校正。此外,RMSELOOCV和RMSE训练在每个点上都有轻微的差异。如果错误的起源是由于方差,则RMSELOOCV和RMSE训练开始随着数据数量的增加而彼此接近。另一方面,方差误差并不总是随着数据集大小的增加而减小。因此,我们可以注意到,LOOCV模型既没有偏差误差,也没有方差误差。此外,平均F. Aydın和Z. 阿斯兰工程科学与技术,国际期刊24(2021)112120图五. (a和b)对照个体、(c和d)PD患者和(e和f)另一个PD患者的左脚和右脚的垂直地面反作用力随时间的峰值分析。表2Vibes和CART算法的参数和相应值分类器参数名称值Vibes baseLearnerisDependent falsesearchMethodfeatureRankCART Split标准表3学习模型的实验结果数量的特征k倍CVACC ±SD(%)TPR ±SD(%)TNR ±SD(%)5 ± 0全训练全测试100 ± 0.00100 ± 0.00100 ± 0.0025 ± 9294.85 ± 1.4795.16 ± 2.3294.80 ± 1.3524 ± 8595.52 ± 0.7895.81 ± 1.7095.47 ± 0.7622 ± 61095.64 ± 1.0496.34 ± 2.0595.53 ± 1.0224 ± 0LOOCV98.79 ± 0.0098.92 ± 0.0098.61 ± 0.00当数据个数超过12个时,LOOCV模型的均方根误差的最后值分别为0.1377和0.1101。该模型的混淆矩阵如表5所示。该模型错误分类了1例PD受试者和1例CO受试者。这两个受试者的数据(即,‘SiCo17_01模型的其他性能结果见表6和表7。根据这些结果,我们可以说,该模型得到了很好的认可数据中的模式,因为Kappa值、平均F测量值和平均ROC面积非常接近1,RMSE值接近0。模型学习完美,因为Kappa值大于0.8。此外,该模型可以很好地对具有PD和CO的实例进行分类,因为平均F-测度非常接近于1。ROC面积表示其能够区分PD和CO的程度的量度。因此,该模型可以将PD与CO分离,因为平均ROC值非常接近1。所选特征如表8所示。最后一列包含有关每个特征本身的分类准确率的信息。每列中的操作总结了如何生成特征。例如,我们创建了第十三个特征,如下所示:我们首先通过从L6信号中减去L3信号来获得新信号。然后,我们获得新信号的第四IMF,并随后从该IMF中提取IF信号最后,我们通过将具有对数能量的熵函数应用于该中频信号的峰值来我们从这些特征中得出以下统计结果。从受试者获得的原始信号本身无法帮助识别数据中的模式。 考虑到在特征获取中使用的24个原始信号,左脚信号的数量超过右脚信号,(接近33.33%)。因此,我们可以说左脚信号在分类方面提供比右脚信号更多的信息。此外,我们在创建特征时使用最多的是L1信号,换句话说,它占所有信号的近30%。R1信号也是创建特征时使用第二多的信号,换句话说,它占了F. Aydın和Z. 阿斯兰工程科学与技术,国际期刊24(2021)112表4121根据特征选择类型,比较了以CART为基学习器的集成学习算法的结果分类器嵌入式(OFSA)过滤器(fscnca)嵌入式(predictorImportance)包装器(序列文件)Vibes95.64 ± 1.04–––AdaBoostM1–85.86 ± 1.5384.65 ± 1.8582.42 ± 1.60随机森林(Random Forest)–83.03 ± 1.0581.62 ± 0.3588.08 ± 0.35自适应逻辑提升–88.28 ± 1.8591.72 ± 0.9379.39 ± 0.00温和的自适应提升–87.47 ± 3.1190.30 ± 2.4286.06 ± 2.10强大的提升–83.23 ± 0.9383.84 ± 1.8581.41 ± 1.53随机欠采样提升–77.58 ± 2.1981.62 ± 1.2682.63 ± 2.29随机子空间–81.62 ± 0.70–84.24 ± 2.64图第六章(a)LOOCV模型的学习曲线(b)RMSE随数据数量的变化表5LOOCV的混淆矩阵实际类PDCO预测类PD921CO171表6关于LOOCV分类结果的基本统计。统计值案件数量正确分类的事例163分类错误的实例2准确率(%)98.7879RMSE 0.1101Kappa 0.9754使用信号的15%。因此,L1和R1信号占创建特征的信号的近一半。因此,我们想强调的是,高跟鞋是一个更重要的在区分PD和CO受试者时,与足底其他部位相比,这是一种标志物。换句话说,步态周期的脚跟着地和脚跟离地阶段比其他阶段更具预测性。我们使用韦尔奇的PSD估计在创建第十七功能只.因此,我们可以说,Welch的PSD估计并不有助于识别模式的改进CEEMDAN方法。我们采用了改进的CEEMDAN方法在75%的功能。我们特别受益于信号的第二IMF。考虑到从IMF提取的幅度和IF信号,与IF信号相比,幅度此外,最大极值(pks)和峰高值(p)涉及最合适的特征子集的形成。在特征子集的形成中不涉及峰的位置(locs)和宽度(w)。我们特别利用了最大值,范围,平均值,中位数,平均绝对偏差和中位数绝对偏差函数从十六个统
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功