没有合适的资源?快使用搜索试试~ 我知道了~
专家系统与应用:X 1(2019)100003一种用于不平衡心跳分类的姜静,张怀锋,皮德昌,戴成龙南京航空航天大学计算机科学与技术学院Ar ticlei n f o ab st ract文章历史记录:收到2018年2019年3月13日修订2019年3月14日接受在线预订2019年保留字:多模块心跳分类不平衡问题卷积神经网络提出了一种新的多模块神经网络系统MMNNS,用于解决心电图(ECG)心跳分类中的不平衡问题。系统分为预处理、不平衡问题处理、特征提取和分类四个子模块。不平衡问题处理模块主要介绍了三种方法:BLSM、CTFM和2PT,分别从响应、数据特征和算法三个方面提出。BLSM用于围绕少数样本线性地合成虚拟样本CTFM由基于DAE的特征提取部分和基于QRS的特征选择部分组成通过应用2PT进行训练和微调,将处理后的数据送入卷积神经网络(CNN)。MMNNS在遵循AAMI标准的MIT-BIH心律失常数据库上进行培训,使用患者内和患者间方案,特别是强烈推荐的后者。在三个数据集上使用标准标准与几种最先进的方法进行比较,证明了MMNNS在改善心跳检测和解决ECG心跳分类不平衡方面的优越性。© 2019作者由Elsevier Ltd.发布。这是CC BY-NC-ND许可下的开放获取文章。(http://creativecommons.org/licenses/by-nc-nd/4.0/)的网站上进行了介绍。1. 介绍心血管疾病(CVD)是全球死亡的主要原因。死于心血管疾病的人数逐年增加,2015年导致1790万人死亡(32.1%),高于1990年的1230万人(25.8%)(Wang,Naghavi,Allen,Barber,&Bhutta,2015)。心血管疾病(CVD)是心脏和血管的病症,包括冠心病、脑血管疾病、风湿性心脏病和其他病症。心律失常是一种心血管疾病,在此期间,心脏跳动过快,过慢或不规则的节奏。一般来说,心律失常主要可分为两种类型。一种是危及生命的室颤和心动过速,需要立即使用除颤器治疗。另一种是本文所研究的心律失常,不会立即危及生命,但需要进一步治疗。心电图(ECG)是一种很有前途的检查心脏组织和结构的诊断工具.它反映了心脏的电活动,这些电活动是由放置在皮肤上的电极记录的, 一段时间,由不同的波形组成,∗通讯作者。电子邮件地址:nuaacs@126.com(D.Pi)。心脏的极化或去极化(Ša rl ija,Jurizanic′,&Popovi c′,2 01 7)。心电图不仅包含心脏结构的大量信息,而且还包含心脏电传导系统的功能信息。此外,它还为疾病诊断、心跳分类等提供数据。ECG广泛应用于相关疾病分类、心跳类型检测、生物识别和情绪识别领域(Kaplan Berkaya等人,2018年)。本文的研究目的是对心跳进行分类,这是诊断心律失常的一个重要步骤。根据美国医疗器械促进协会(AAMI)的建议,非危及生命的心律失常可分为五个亚类(表1列出了详细的心跳类型):正常(N)、室上性(S/SVEB)、室性(V/VEB)、融合(F)和未知心跳(Q)。每种类型的心搏在形态上有很大的差异,每种类型又包含几个不同形状的子类,这给医生的人工分析带来了很大的挑战。为了补偿视觉误差和人工判读,研究人员已经开始开发计算机辅助诊断(CAD)系统来自动诊断ECG。随着CAD系统在临床医学中的出现,减轻了心内科医生的工作量,提高了疾病检测的计算效率和准确性https://doi.org/10.1016/j.eswax.2019.1000032590-1885/© 2019作者。出版社:Elsevier Ltd这是一篇CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)的网站上进行了介绍。可在ScienceDirect上获得目录列表专家系统与应用:X期刊主页:www.elsevier.com/locate/eswax2J. Jiang,H. Zhang和D.Pi等人专家系统与应用:X 1(2019)100003|表1使用AAMI标准的ECG类描述。AAMI心跳类MIT-BIH心跳类型正常心搏(N)正常心搏(N)左束支传导阻滞(L)右束支传导阻滞(R)房性逸搏(e)结(交界处)逸搏(j)室上性异位搏动(S)房性期前收缩(A)畸变房性早搏(a)结性(交界性)早搏(J)室上性早搏(S)室性异位搏动(V)室性早搏(V)心室逸搏(E)融合搏动(F)心室和正常搏动融合(F)未知心跳(Q)起搏心跳(/)起搏和正常搏动的融合(f)未分类搏动(Q)CAD系统自动分类心跳,包括ECG信号预处理、心跳分割、特征提取和学习/分类四个步骤。传统方法首先从原始数据中提取特征,如P-QRS-T复合波特征、统计特征、形态学特征、小波特征等。 (Acharya等人,2015年; Kobeker,Palaniswami,&Kar-心跳分类,称为MMNNS。我们建议的系统的主要贡献如下:• 系统设计了四个子模块,其中不平衡问题处理模块是系统的核心部分,介绍了消除数据分布不平衡带来的负面影响的三种方法:边界线-SMOTE(BLSM)、上下文-特征模块(CTFM)和两阶段训练(2 PT)。这些方法分别从数据库的角度、数据特征的角度和算法的角度进行研究。据我们所知,这是首次尝试将这三个模块结合在一起,以克服不平衡的问题。• 采用去噪自动编码器(DAE)和卷积神经网络(CNN)自动轮流从心电信号中提取高级特征,代替人工提取特征,简化了特征提取过程,提高了提取特征的准确性。• MMNNS同时训练患者内和患者间两种数据划分方案,尤其是后者更有说服力,但尚未被大多数学者采用。为了验证我们的模型的有效性,使用七个分类评估指标和两个统计措施在三个数据集上进行了广泛的实验。此外,还对MMNNS和最先进的MMNNS进行了大量比较makar,20 09;Li,Rajagopalan,Clifford,2014;Yücelbas例如,其余的文件组织如下。第二节,一个简洁的2017),然后将其输入传统的机器学习模型,例如人工神经网络、决策树、支持向量机、线性判别分析、k最近邻和贝叶斯算法(Chui,Tsang,Chi,Ling,Wu,2016; De,&然而,手动提取的这些特征可能无法准确地表示信号中的最佳特征,并且传统的机器学习方法很容易导致过拟合(Acharya例如,2017; Rahhal等人,2016年)。因此,更准确和有效的特征提取和分类方法对系统的整体诊断至关重要。随着深度学习模型在图像识别、语音识别、自然语言处理等领域的巨大成功,近年来逐渐被应用于心电分析。以卷积神经网络(CNN)为例,CNN集成了特征提取和分类,对从原始数据中自动学习的高级特征进行分类。 Li,Zhang,Zhang和Wei(2017)将原始ECG信号直接输入5层CNN进行特征提取和训练。这个想法 Isin和Ozdalili(2017)采用了迁移学习的方法,将预训练的AlexNet作为特征提取器,然后将提取的特征输入到一个简单的BP神经网络中进行分类。Rahhal等人(2016)使用主动学习技术来提高系统的性能。Zhai and Tin(2018)和Golrizkhatami and Acan(2018)分别处理最终分类器的输入,前者将节拍转换为双节拍耦合矩阵作为CNN的二维输入,后者融合从每个节拍提取的二维卷积和手工特征。深度学习模型的准确性高于传统分类器结合手动特征提取的准确性。虽然上述方法已经达到了相当的分类精度,但当训练数据偏斜时,精度的评估指标是不全面的。这些论文大多没有注意到不平衡问题的不利影响。因此,根据心电数据的特点,合理地解决不平衡问题是提高心电数据质量的关键。模型的分类性能为了克服上述不足,本文提出了一种新的非平衡多模块神经网络系统,介绍了去噪自动编码器和卷积神经网络的背景。拟议方法的详细描述见第3节。第4节介绍了实验配置并报告了实验结果。结论和未来的发展方向在第5中给出。2. 预赛本研究采用去噪自编码器和卷积神经网络两种经典的深度学习模型来提取心电信号的高级特征。在这一节中作了详细的介绍。2.1. 去噪自动编码器Autoencoder是一种神经网络,能够以无监督的方式从输入数据中学习有效特征(Géron,2017)。该算法通过提取最有用的稀疏高层特征来重构心电数据。为了让自动编码器学习更多有用的特征,而不是简单地复制输入数据,我们通常会给网络添加一些限制,并强制模型考虑输入数据的哪些部分需要首先复制。本文在分析了现有文献的基础上,去噪自动编码器(DAE)用于通过训练损坏的数据来预测原始数据。首先在模型中引入了一个一致性过程C(x≠x),(see图1)。然后将损坏的数据馈送到网络中。该网络由两部分组成:一部分是编码器,由函数h=f(x)表示,将输入转换为内部特征;另一部分是解码器,生成重构r=g(h),将内部特征转换为输出。h=f(x)=f(W1x+b1)(1)f(z)=max( 0,z)(2)r=g(h)=W2h+b2(3)其中x是输入x在添加加性高斯白噪声(AWGN)后的副本。W1和W2分别是编码器和解码器的权重矩阵.因为这里J. Jiang,H. Zhang和D.Pi等人专家系统与应用:X 1(2019)1000033..2..1.22.fnr是前一层(层l-1)中特征映射的数量。sh和sw分别是垂直和水平步幅(Géron,2017)。在这项研究中,输入心跳数据是具有一个通道的一维向量,因此我们将卷积层中神经元的输出修改为等式:(六)、cj,k=σ.bk+fwfnrv=1kr=1xjr,krwv,k,kr其中jr=v·sw+fw−1(6)Fig. 1. DAE结构。是整齐对称的,我们将解码器层的权重与编码器层的权重联系起来,即W1=WT=W。这种技术将权重的数量减半,加快了训练速度,并限制了过度拟合的风险。b1和b2分别是输入和输出层在编码层使用激活函数ReLU来获得输入的非线性化,而解码层是线性过程并且不需要激活函数。我们通常通过最小化方程的成本函数来调整超参数。(4),从而DAE可以很好地表示输入信号。池化层,也称为子采样层,旨在对输入数据进行子采样,以减少计算负载和内存使用。本文使用最大池化,通过在矩形邻域内提供最大输出来保留最突出的特征(Ian Goodfellow,2016)。CNN的训练类似于传统的全连接神经网络,通常通过反向传播算法进行训练,以最小化损失函数。3. 多模块神经网络系统介绍了整个系统的结构,主要包括信号预处理、不平衡问题处理、特征提取和分类四个模块。过程中L(w,b,b)=.r−x(四)预处理,对原始数据进行去噪和分割,相等长度心跳段不平衡问题处理是算法的主要重点。 本部分结合了2.2.卷积神经网络卷积神经网络(CNN)是指在网络的至少一层使用卷积运算而不是一般的矩阵乘法的神经网络,特别是用于处理具有网格状拓扑的数据(Ian Goodfellow,2016)。它将特征提取和分类结合在一起,不同于传统的分类器需要输入预先提取的特征。CNN中的典型层由卷积层和池化层组成。前一层的特征图通过并行的几个卷积来计算,以生成一组线性激活响应。然后,它们通过非线性激活函数来生成下一层的特征图。最后,使用池化函数进一步调整输出。CNN由几个典型的层堆叠而成,可用于提取高级特征。卷积层中的每个单元通过一组称为滤波器(卷积核)的权重连接到前一层特征图的局部接收域,每个卷积核获得一类特征的映射。不同的特征图使用不同的滤波器,而同一特征图中的所有神经元共享相同的滤波器(Lecun,Bengio,Hinton,2015)。卷积层中神经元的输出公式为:针对ECG数据和分类模型的特点,从数据级和算法级两个层面对分割后的不平衡数据采取了一系列处理措施。然后,处理后的不平衡数据被送入CNN模型进行特征提取和分类。该流程图在图中描述。 二、3.1. 预处理心电图记录通常受到不同类型的噪声和伪影的污染,这将影响后续实验和最终分类结果。采用合理的方法对原始信号进行预处理,同时又不丢失有用信息是十分必要的。虽然从公共数据集获得的ECG信号不像直接从患者获得的ECG数据那样包含那么多的噪声,但是在信号中仍然存在一些噪声。与有用信息重叠的最终频谱。由于心电信号是几乎所有心脏疾病诊断和分析的原始数据,因此,我们应该利用合理的方法对原始信号进行预处理,而不丢失有用的信息。Haritha、Ganesan和Sumesh(2016年)指出,主要来自基线漂移的低频噪声可以fhc=σb+FWfnrxr rr·w与....ir=u·sh+fh−1通过中值滤波器有效去除正如De等人(2004年)所述,我们使用200 ms宽度的中值滤波器去除P波和QRS波i,j, kKu=1v=1kr=1i,j,ku,v,k,kjr=v·sw+fw−1(五)复杂波,然后使用600 ms宽度的中值滤波器去除T波,然后从原始信号中减去滤波后的信号,以获得基线校正信号。12抽头低通其中ci,j,k是位于第i行第j列的神经元的输出在卷积层(层L)的特征图k中。xir,jr,kr是位于层l-1,行ir,列jr,特征映射kr(或通道kr,如果前一层是输入层)中的神经元的输出。wu,v,k,kr是层l的特征图k中的任何神经元与其位于行u、列v(相对于神经元bk是特征图k(在层l中)的偏置,σ是激活函数其产生非线性。 fh和 fw是高度和宽度滤波器用于去除高频噪声和电力线干扰。然后使用Pan-Tompkins算法(Pan Tompkins,2007)来检测R峰。以前130个采样点和后170个采样点(包括R峰)为基准点,将信号分割成300个采样点长度的片段。随后,我们应用Z分数归一化来消除偏移和幅度缩放的影响,并将分割后的片段按类别进行分组,便于后续操作。4J. Jiang,H. Zhang和D.Pi等人专家系统与应用:X 1(2019)100003算法:BLSM(T,M,r,k,s)。输入:T-训练集M-少数民族范例集r,k-最近邻s-合成示例的数量,其占给定类输出:合成少数样本集:Mr1. D=0//D是包含边界样本的集合2.对于Mdo中的所有mi3.Nmi←mi在T中的r个最近邻4.n←Nmi中的样本数,而不是M中的5.如果r/2≤nr,则r/mi是边界样本<6.将mi加到D7.end if8. 端9. Mr=m//Mr是包含合成样本10的集合。对于所有diinDdo11.Ndi←M中di的k个最近邻居12.对于i=1到s,13.m←从Ndi14.dir <$d i+ p <$(d i− m)//p是(0,1)中的随机数,dir是合成样本15。将dir加到Mr16.端17. 端18. Mr = Mr <$M//Mr是少数样本和合成样本的并集19。返回Mr图二. MMNNS示意图3.2.不平衡问题处理数据不平衡是指训练集中某个类的数量相对于其他类过多的现象。数字太多的类称为多数类,而其他类称为少数类。大多数真实世界的数据集是不平衡的。例如,MIT-BIH心律失常数据库中N型心跳的数量是Q型的8000多倍,是F型的100倍在医疗诊断中,错误地将少数人(即异常样本),这将延迟最佳治疗时间,远远高于大多数类别(即正常样本)。此外,大多数机器学习算法都是在假设基础训练集是平衡的情况下设计的。训练数据的这种高度偏斜的分布将倾向于迫使学习算法偏向多数类。这不仅限制了训练阶段的收敛性,也影响模型的泛化能力和测试集的准确性。因此,少数民族阶层的重要性不容忽视,它是解决本研究失衡问题的关键。解决阶级不平衡的方法可以分为三大类( Buda , Maki ,&Mazurowski,2017;Guo,Li,Shang,Gu ,Huang,&Gong,2017)。数据级方法主要通过过采样或欠采样来改变训练数据的分布。过采样的基本方法是从少数类中随机抽取样本进行简单的重复,称为随机过采样。然而,随机过采样容易导致过拟合。作为 因 此 ,提出了更先进的技术,如SMOTE,基于过采样的过采样,DataBoost-IM,类感知采样和其他调整的SMOTE策略(Chawla,Bowyer,Hall , &Kegelmeyer , 2002;Guo&Viktor , 2004;Jo&Japkowicz,2004;Maldonado,López,&Vairetti,2019; Shen,Lin,&Huang,2016)。欠采样与过采样不同,欠采样从多数中随机删除样本,直到分布达到平衡。使用欠采样时,必须注意避免在数据选择中丢失有用信息。算法级方法通过在训练数据分布不变的情况下调整算法来克服类不平衡,包括保留算法、代价敏感学习、增强方法和单类分类(Elkan,2001; Lee &Cho,2006; Sun,Kamel,Wong,&Wang,2007; Zhou& Liu,2006)。虽然成本敏感学习可以显著提高分类性能,但它们仅适用于错误分类成本已知的情况。不幸的是,确定某些特定领域的错误分类成本是相当具有挑战性的,甚至是不可能的(Wang等人,2016年)。至于集成方法,需要相当长的时间来训练多个分类器,当我们使用深度神经网络作为基础分类器时,这是不切实际的。因此,已经提出了诸如二阶锥编程SVM(Maldonado& López,2014)的新方法。混合方法结合了数据层和算法层的方法,如EasyEntrance、BalanceCasecade 、 SMOTEBoost 、 Two-PhaseTraining 等 .(Chawla,Lazarevic,Hall,Bowyer,2003年;J. Jiang,H. Zhang和D.Pi等人专家系统与应用:X 1(2019)1000035Havaei等人,2017; Liu,Wu,&Zhou,2009)。通过与数据级方法和算法级方法的比较,证明了混合方法在非平衡学习中的有效性此外,绩效测量对于评估学习效果和指导学习至关重要。正如本节开头所述,准确性是一种常用的度量标准,有利于大多数人,很容易导致误导性的评估。在非平衡学习领域中引入类高斯精度、特异性、灵敏度、G-均值、F-测度等概念。一些作品甚至关注新的评估指标,例如调整后的F-测量(Maratea,Petrosino,&Manzo,2014)。神经网络和深度学习近年来受到了广泛的关注,但也面临着不平衡问题。在标准的反向传播算法中,权值是通过最小化总体误差来更新的,而总体误差主要来自多数类。因此,我们得到了有偏差的分类结果。为了解决这个问题,Wang等人(2016)提出了两种新的损失函数MFE和MSFE。Zhang,Gao,Song,and Jiang(2016)设计了一种基于成本敏感过采样的堆叠去噪自动编码器神经网络算法。Khan,Hayat,Bennamoun,Sohel和Togneri(2018)提出了一种成本敏感的深度神经网络,可以自动学习大多数和少数类的鲁棒特征表示。Raj,Magg和Wermter(2016)将不同的方法集成到一种使用成本敏感神经网络的新方法中,以提高不平衡数据集的性能。我们设计了一个结构来处理不平衡的训练数据结合数据和算法的水平。首先,从数据的角度出发,将Borderline-SMOTE(BLSM)算法应用于一维ECG时间序列数据,并通过线性合成对少数样本进行过采样。其次,考虑到偏态数据表示的特征偏 向 于 多 数 类 , 本 文 提 出 了 一 种 新 的 上 下 文 特 征 模 块(CTFM)。CTFM集成了特征提取和特征选择,同时将每个心跳分割的突出特征和其上下文的较大区域中的特征提供给分类器。CTFM使少数样本的数量增加了一倍,提高了模型识别的准确性和特征提取的可靠性。最后,我们采用两阶段培训,简称为2PT。在第一个训练阶段,卷积神经网络(CNN)使用平衡数据进行训练,在第二个阶段,模型使用原始偏斜数据进行微调。为了使测试结果更接近真实结果并便于与其他文献进行比较,本文只对训练样本进行了均衡,测试样本保持原始样本分布。考虑到只有当数据分布相对均衡时,准确性才更有说服力,我们还引入了其他度量来衡量模型的有效性在接下来的章节中,我们将对这些内容进行详细的描述。3.2.1.边界-SMOTE(BLSM)鉴于深度学习模型需要大量的训练数据,我们通过对少数类进行过采样而不是对多数类进行欠采样来平衡训练数据。 同时,为了避免简单随机过采样引起的过拟合,我们采用BLSM算法来合成一系列线性插值样本。数据增强可以被视为通过在原始训练集中添加相似但不同的样 本 来 扩 展 数 据 ( Zhang , Cisse , Dauphin , Lopezpaz ,2018)。在此基础上,克服训练数据数量不平衡问题可以看作是训练数据中少数类的局部增强。在实现图像分类时,通常通过水平反射、旋转和缩放来获得增强数据。受此想法启发,我们计划添加虚拟样本图三. 合成信号的示例(a)由相同类别S合成的示例(b)由相同类别V合成的示例(c)由相同类别F合成的示例在少数民族阶级中。通过在其周围的“空白区域”学习一个线性插值函数这种线性建模减少了预测训练样本之外的数据的不适应性,并使最终模型在预测训练数据之间的数据时更加稳定。这与SMOTE的主要思想完全一致(Chawla等人,2002年),即,通过线性合成少数样本及其k来填充原始样本之间的6J. Jiang,H. Zhang和D.Pi等人专家系统与应用:X 1(2019)100003表2两种分组方案中训练集数目的变化。数据分区方案方法NSVF总患者内方案原始44,8001345341239649,953BDSM44,80022,74023,10222,173112,815CTFM44,80045,48046,20444,346180,830病人间方案原始45,492865366441050,431BDSM45,49223,26523,02422,410114,191CTFM45,49246,53046,04844,820182,890表3CNN结构的细节,输入长度N为180。层名称编号每个特征图的内核大小步幅输入层180× 1Conv1 180× 16 2 1最大池1 180× 16 2 2Conv2 180× 32 4 1最大池2 180× 32 2 2Conv3 180× 64 5 1最大池3 180× 64 2 2全连接50见图4。 CTFM DAE结构。在特征空间而不是数据空间中的最近邻。这扩大了决策区域,降低了分类器学习的相关性。SMOTE通过合成每个少数样本及其随机选择的邻居来重新采样训练数据。由于每个类中位于边界处的原始样本的数量很少,因此新合成的样本主要分布在非边界区域。然而,靠近边界的样本(也称为危险样本)比远离边界的样本更容易被误分类,对分类任务更有意义。因此,BLSM,SMOTE的一个改进版本,只过采样borderline附近的少数例子,这是更符合我们的期望。在BLSM中,容易被错误分类的少数类示例将得到更多的训练。在边界线上的少数例子首先被发现,然后与他们选择的k接近合成,邻居们。本文对BLSM算法作了一些改进,使之适用于一维ECG时间序列数据。具体流程如下。在使用BLSM进行过采样之后,在少数类别中的样本数量显著增加。假设少数类中的原始样本数为num,如果边界样本集D中的样本数为dnum,则最终Mr中的样本数达到(num+s×dnum)在该算法中,s和m的值由我们需要合成的样本。在S、V、F类中,两种分组方案的s值分别为(11,14)、(11,11)、(17,40)。m的值分别为(30,30),(50,50),(60,60)。k的值被设置为5(Chawla等人,2002; Han,Wang,&Mao,2005)。合成ECG心跳模式如图所示。3.第三章。需要强调的是,不同类别的样本数量差异很大。如果BLSM达到了完全的平衡,可能会导致不同类别之间的界限变得模糊,这使得更容易误分类。因此,我们对少数类进行合成,使其数量仅为多数类的一半。3.2.2.上下文特征模块在使用BLSM完成过采样之后,本节中提出了上下文特征模块(CTFM)来扩展先前获得的样本。CTFM可以将少数类的样本数从N增加到2N,使所有类达到平衡。相对于数据层的重排序方法,很少有文献考虑特征选择,即选择原始特征的一个子集。在分类问题中,不同类别的样本可能会重叠,这使得分类器很难识别类别之间的边界。当训练数据的分布是偏斜的时,少数样本由于数量少而容易被视为噪声。然而,如果不相关的特征被移除,类之间的边界在某种程度上将不那么模糊。Li,Guo,Liu,Li,and Li(2016)专注于特征选择,然后将其与响应和集成学习相结合,形成自适应多分类器系统,最终解决不平衡问题。Bae和Yoon(2015)提出了一种使用偏最小二乘分析的新特征学习方法,以从不平衡数据集中学习无偏结果。特征提取作为处理维数的另一种方法,将原始特征转化为新的特征集。在解决不平衡问题时,提取的特征往往偏向于预测大多数类样本,导致分类性能不佳。以主成分分析(PCA)为例,(Braytee,Liu,Kennedy,2016)指出PCA算法寻求最大化总方差的正交特征提取器。因此,所提取的特征有利于多数类,因为它们的数量大于少数类。此外,其他特征提取方法也会遇到同样的问题。因此,最近提出了改进的特征提取算法以适应不平衡的训练数据(Moepya,Akhoury,&Nelwa-mondo,2015; Ng,Zeng,Zhang,Yeung,&Pedrycz,2016)。同样,如果我们在本研究中将不平衡数据直接输入DAE或CNN,很容易误导提取器产生有偏见的特征。然而,如果我们保持大多数和少数群体之间的比例不是那么高,这里是2:1,偏差将大大减少。在本研究中,我们构建了一个CTFM模块,包括两个部分:基于DAE的特征提取部分(第一部分)和基于QRS的特征选择部分(第二部分)。在第一部分中,我们选择DAE作为我们的提取器,从第3.2.1节中获得的所有心跳中提取稀疏的高级特征。一方面是J. Jiang,H. Zhang和D.Pi等人专家系统与应用:X 1(2019)1000037图五、提出的CNN的结构和训练示意图。表4在实验中用于训练、验证和测试的ECG搏动的数量。数据分区scheme训练集验证集测试集患者内120,544 60,28649,945病人间121,927 60,963 49,467表5患者间方案测试集ECG心跳分类结果的混淆矩阵Ground truth分类结果NSVFN43,465639167241S480117313435V16325287597F67418293所提取的特征将不会严重偏向多数类,因为不同类的数量相差很大。另一方面,通过DAE将样本的维数减少到与另一部分相同的大小N。在第二部分中,我们重点讨论了如何从上一节中得到的少数类样本中选择重要特征,这可以看作是在少数类中增加了另一批样本。QRS波群是心跳中最突出的部分,提供最重要的信息并反映心室收缩(Šarlija等人,2017年)。PART Ⅱ的功能是截取每个心搏的QRS波群周围长度为N的特征区域。CTFM通过上述两个部分获得的样本是最终输入分类器的样本。第一部分中的DAE如图4所示。DAE通过随机丢弃随机选择的样本的一些输入值来破坏输入,以增强自动编码器的鲁棒性(Wang,Zeng,Ng,Li,2017)。超参数设置如下:学习率,高斯噪声系数分别设置为0.001和0.01。训练在1000个epoch中完成,批量大小为200。这一级的主要目的是将原始输入信号转换成一个较短的段,它可以有效地代表原始信号。过完备表示更有利于后续操作,因此我们只以监督的方式预训练DAE我们不需要重复使用预训练的较低层为实际任务创建一个网络,我们使用标记数据训练它。当损失函数趋于稳定时,编码器此时表示的特征被视为下一阶段的输入另外,为了保证分类器的输入长度N相同,测试样本也要通过同一个DAE结构。到目前为止,我们在数据层面上使用了两种方法来平衡训练数据,MIT-BIH心律失常数据库上不同心跳类型的数量如表2所示。3.2.3.两阶段培训(2PT)两阶段训练(Two-PhaseTraining,2 PT),最早由Havaei等人提出。(2017),是一种处理类不平衡问题的数据和算法级混合方法,已在Buda et al.(2017)中证明了其有效性。在第一阶段,我们将平衡数据输入CNN进行训练,然后神经网络能够在平衡数据的水平上区分不同的类别。在第二阶段,我们用原始的不平衡数据替换输入数据,只微调输出层参数,同时保持前几层的参数不变。这种方法使最终的分类结果更有说服力。3.3.特征提取和分类CNN通常用于2-D图像分类。在本文中,我们修改了传统的结构,设计了一个适合于处理一维心电信号的CNN(图5)。它由一个输入层、三个卷积层、三个最大池化层、一个全连接层和一个输出层组成。每个池化层都跟随相应的卷积层。 输入层MaxPool 1、Max-Pool 2通过等式2卷积。(5)其中内核大小分别为2、4、5,步长分别为1、1、1。层Conv1、Conv2、Conv3的内核大小和步长都设置为2,并且每层的输出遵循等式(1)。(6) 第2.2节。模型中的这些层使用全零填充来保证输入和输出具有相同的大小。 因此,对网络能够包含的卷积层的数量没有限制。最后,将提取的特征与全连接层中的50个神经元连接,然后使用softmax函数对N、S、V和F.以上参数均通过暴力破解技术获得。表3给出了CNN的细节8J. Jiang,H. Zhang和D.Pi等人专家系统与应用:X 1(2019)100003见图6。 两个不同长度的输入部分的示例。J. Jiang,H. Zhang和D.Pi等人专家系统与应用:X 1(2019)1000039表6使用MIT-BIH心律失常数据库中的22个测试记录,采用患者间方案,对SVEB和VEB进行分类。N大小SVEBVEBMAUCAcc-SenSpe PprFmGMAcc-SenSPEPPRFmGM10094.7 44.397.1 51.847.865.697.9 72.697.281.276.6 84.092.213095.2 56.797.464.060.174.398.4 87.998.689.388.6 93.193.715096.8 61.299.2 64.662.978.098.890.499.488.689.594.895.318097.3 64.498.663.764.080.098.8 91.099.390.090.1 95.197.820097.1 64.898.5 62.163.480.099.0 90.898.988.989.8 94.894.1表中的值将原始值乘以100。最好的两个结果被突出显示。表7使用患者内方案,通过MIT-BIH上的不同方法获得SVEB和VEB的分类结果。Gutiérrez-Gnecchiet al. 04The Famous(2017)Tang and Shu(2014)WT QNN 92.8Martis等人Pan-Tompkin + PCANN + LS-SVM93.0Acharya等人(2017)1D-CNNSoftmax94.0Li and Zhou(2016)WPE+ RR随机森林94.6Zadeh和Khazaee(2011)CWTSVM+ GA97.2Li等人(2017)1D-CNNSoftmax97.5建议1DAE +1D-CNNSoftmax98.4建议1基于SVEB和VEB检测的患者内方案。表8使用患者间方案,通过不同方法在MIT-BIH上获得SVEB和VEB方面的分类结果。方法SVEBVEB总体周期提出的2种方法基于SVEB和VEB检测的患者间方案表9解决与CNN不平衡的不同策略。算法策略PCNN PureCNNSMCNN SMOTE+ CNNBSCNN BLSM+ CNNBSDC BLSM+ DAE-CNNBSCP BLSM+ CNN+ 2PTMMNNS BLSM+ CTFM+ CNN+ 2PT以前处理不平衡数据的操作也大大扩展了训练数据量,这对模型的加速收敛造成了压力。我们使用以下技巧来加速训练并解决消失/爆炸梯度问题。利用Xavier的方法(Glorot Bengio,2010)Leaky ReLU是ReLU函数的一个变体,它被用作卷积层和 全 连 接 层 的 激 活 函 数 , 以 避 免 ReLU 死 亡 参 考 Géron(2017),设置α = 0。2在Leaky ReLU中的性能优于α= 0。1、我们常用的这两个技巧可以显著克服训练开始时的梯度消失 / 爆 炸 问 题 。 然 后 , 我 们 使 用 一 个 更 快 的 优 化 器 AdamOptimizer,而不是常规的梯度下降优化器,我们采用指数衰减学习率来优化基本学习率和学习率衰减率分别设置为0.001和0.99在本文中,该算法的训练是在800个epoch中完成的,最小批量为200。验证集用于验证模型每100轮训练。在用经过处理的平衡数据训练CNN之后,根据3.2.3中描述的方法对模型进行微调。测试集的最终性能通过下面定义的八个指标来衡量4. 实验设置4.1. 数据集4.1.1.MIT-BIH心律失常数据库MIT-BIH心律失常数据库包括48个略长于30分钟的双通道ECG记录,数字化速率为360 Hz。记录了两个通道的信号通过将电极以不同的角度放置在胸部。向上-每个信号是修改的肢体导联II(MLII),较低的信号是一个修改过的铅V1,V2,或V5(穆迪马克,2002年)。ECG数据收集自47名受试者,包括25名年龄在32-89岁的男性,22名女性,年龄23-89岁(记录201和202来自同一男性受试者)。数据库中超过100,900次心跳已被注释。每个记录只有一个通道(通道MLII)-ing用于分类任务,排除四个质量较差的记录(102,104,107,217)。ACC森SPEPPRAcc-SenSPEPPRAccur一De等人(二零零四年)94.675.9/38.597.4 77.7/81.985.9Zhang等人(2014年)93.379.193.936.098.6 85.599.592.786.6Kiranyaz等人(2016年) 96.464.698.662.198.6 9598.189.596.6Jiang和Kong(2007)96.650.698.867.998.1 86.699.393.394.5Ince等人(2009年)96.162.198.556.797.6 83.498.187.493.6建议2(MMNNS)97.364.498.663.798.8 91.099.390.096.610J. Jiang,H. Zhang和D.Pi等人专家系统与应用:X 1(2019)100003=图7.第一次会议。( a)SVEB和(b)在不同输入长度下的Acc、Sen、Spe、Ppr、Fm和GM,(b)VEB。在患者间方案中,我们使用DS1作为训练集,DS2作为测试集。处理后的训练集按2:1的比例分为训练具体的数据分区如表4所示。4.1.2.欧洲ST-T数据库欧洲ST-T数据库(Taddei等人,1992)由来自79名受试者的90个经注释的动态ECG记录摘录组成。受试者为70名30至64岁的男性和8名55至64岁的女性。71.每个记录持续两个小时,所包含的两个信号都以每秒250个样本进行采样。两名心脏病专家对每个记录进行逐搏注释,并记录ST段和T波形态、节律和信号质量的变化。4.1.3.MIT-BIH ST变更数据库MIT-BIH ST变化数据库(Goldberger等人,2000)包括28个不同长度的ECG记录。注释文件仅包含搏动标签;它们不包括ST段变化注释,如欧洲ST-T数据库中所述。只选择两个数据集的一个通道进行实验。从这两个数据集获得的心跳被输入我们之前已经训练过的模型。试验结果可从不同方面作进一步的比较和评价。4.2.评估指标为评估分类表现,本研究
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功