没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁24(2021)100592基于机器学习的感染者使用生命体征的Trong Thanh Hana,*,Huong Yen Phama,Dang Son Lam Nguyen a,Yuki Iwata b,Trong Tuan Doa,Koichiro Ishibashib,Guanghao Sun b,c,**a河内科技大学电子和电信学院,河内,100000,越南b电子通信大学信息学与工程研究生院,东京,182-8585,日本c日本东京电子通信大学神经科学和生物医学工程中心,邮编:182-8585A R T I C L EI N FO保留字:登革热医疗雷达非接触式测量机器学习A B S T R A C T目的:健康人与感染者的分类,以及疾病源的早期发现,对预防疾病传播和治疗疾病起着重要作用。由于环境和人为主观因素的影响,目前传统的远程体温计和问卷调查等检疫方法效果不佳。机器学习算法的使用可能更客观,更适合于此目的。方法:本文提出了一种利用医用雷达进行数据采集的非接触式测量系统。然后,从该雷达捕获的数据通过滤波器,以消除干扰并提供重要参数,如心率和呼吸率。最后,通过使用五种机器学习算法来执行健康人和感染者之间的分类。利用测量的数据集,通过训练和测试步骤建立分类模型。结果:基于f1-score参数对算法的分类结果进行评价,准确率均大于80%。特别是深度学习算法给出了98%的最高结果结论:本研究实现了患者分类算法,取得了良好的性能。这可能有利于在欠发达地区的公共卫生中心快速筛查感染患者,那里的人们几乎没有机会获得医疗保健。动机意义:&健康和感染者的分类有助于防止疾病在社区中的传播。有了这样相对准确的结果,将来,该系统可以直接应用于实际。1. 介绍传染病很复杂,可以在人群中迅速传播。最容易传播的地区通常是季风热带气候,或亚热带气候,因为温暖的温度和高湿度,适合病毒生存并引起疾病。有许多疾病,如登革热(由沙粒病毒引起,丝状病毒科主要在斑马蚊子中常见),疟疾(由疟原虫寄生虫引起,在人与人之间传播,这与蚊子叮咬不同),流感H3N8,H2N2(由流感A病毒引起)等。这些疾病的共同特点是感染者通常具有临床症状,症状包括高烧、心率异常和呼吸不稳[1]。为了防止传染病的传播,有必要在机场、汽车站、码头等公共场所检查是否有感染者。在医疗中心,使用温度计测量患者的体温是首先要做的事情之一。然而,体温不足以评估一个人是否被感染。为此,需要更多的参数。在参考文献中。[2,3],使用多普勒雷达和温度计测量生命体征的非接触性感染筛查系统。这些体征包括心率(HR)、呼吸率(RR)、体温和心跳间隔偏差(SDHI)。这些研究表明* 通讯作者。 越南河内河内科技大学电子和电信学院。** 通讯作者。电子通信大学信息学与工程研究生院,东京,182-8585。电子邮件地址:thanh. hust.edu.vn(T.T.Han)。https://doi.org/10.1016/j.imu.2021.100592接收日期:2020年12月9日;接收日期:2021年4月30日;接受日期:2021年4月30日2021年5月17日网上发售2352-9148/©2021的 作者。发表通过 Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊首页:www.elsevier.com/locate/imuT.T. Han等人医学信息学解锁24(2021)1005922Fa100感染者不仅体温高,而且心跳和呼吸也比正常人快。医用雷达[4]用于将微波发射到人体胸部表面并接收反射波。接收的信号被转换到数字域。之后,数字信号被馈送到两个单独的滤波器中,分别是:带通滤波器以收集HR信号,低通滤波器以获得RR信号[2]。机器学习是计算机科学的一个领域,涉及技术的研究和构建,允许系统从给定的数据中自动学习。目前,机器学习是最突出的技术之一,因为它的学习能力与人类相似。它在各种领域带来了很多有效性:图像-语音识别,医疗诊断,信息提取,分类[5]。在医学领域,机器学习被用来分析临床参数的重要性,并将它们结合起来预测疾病,然后制定计划和支持治疗。参数测量通常是某些医学测试(血压,热成像,血液测试)或医学诊断(医学成像,如X射线,MRI等)[ 6,7 ]或有关患者的其他基本身体信息(年龄,性别,体重等)的结果根据这些结果,机器学习可以准确地确定患者这项研究主要集中在两个主要问题:使用医疗雷达系统测量生命信号HR,RR;机器学习算法根据测量的体征自动分类正常人和感染者。在这项工作中,使用医用雷达NJR 4262 J(24 GHz,日本)收集了500个样本的数据集,包括140名正常受试者(河内科技大学(越南)-本文中执行的机器学习算法是朴素贝叶斯分类器(NBC),支持向量机(SVM),决策树(DT),回归逻辑(LR)和长短期记忆(LSTM),这是一种深度学习算法。将比较所有获得的结果,以评估每种方法的有效性本文的结构如下。第二节介绍雷达系统包括硬件系统、信号预处理技术和分类算法。第三节介绍了收集和分类数据的实验模型。第四部分是结论和发展方向2. 材料和方法2.1. 生命体征测量系统呼吸节律成分。这个差值是混频器的输出,称为多普勒频率[8]。因此,通过计算TX和RX之间的差异,将提取目标的运动信息。I和Q信号都包含HR和RR信息,因此 I或Q信号可用于分离关于HR和RR的信息。然而,由于传输和模拟处理方法可能受到噪声的影响,因此打算使用I和Q来提高接收信号的精度。此外,用于信号处理的硬件系统对于I和Q信号是相同的。因此,对于信号I的处理电路是单独考虑的,并且对于Q信号是相同的参考。UWB雷达系统包含一个印刷电路板(PCB),用于放大和过滤接收信号的噪声。特别地,该系统使用FET来放大接收到的信号,并使用范围为0.159-60 Hz的带通滤波器来滤除电路输出端的剩余高频信号。雷达的输出信号通过ADC转换器(Ana-log-to-digital Converter)以获 得 数 字 信 号 。 本 工 作 中 使 用 的 ADC 是 NI USB-6008 ( NationalInstruments),其采样频率为100 Hz,提供足够大的分辨率来恢复信号,并通过LabVIEW直接连接到计算机。输出的数字数据保存为或记事本。这里的数据是测量的潜在价值采样频率为100 Hz。LabVIEW的工作和使用方式与MATLAB Simulink非常相似-一种更常见的构建和处理框图算法的工具。由于本软件是由美国国家仪器公司开发的,与ADC NI USB-6008硬件系统高度兼容,因此本研究采用LabVIEW代替MATLAB Simulink。然后对数据文件进行适当的处理和分类。2.2. 信号处理数据文件包括心率、呼吸率、体温和高频干扰的信息。对于健康的成年人来说,心率在60到100次/分钟的范围内,呼吸频率在100到100次/分钟之间。加料速度为12 ~ 20粒/min,温度为36 ℃利用心脏和呼吸速率的上述频率差,可以执行信号滤波而不影响其他信号。数据中的信息。巴特沃斯滤波器是运动分析和声学电路中最常用的数字滤波器之一,这要归功于其简单性和处理速度。使用巴特沃斯滤波器时最重要的参数是归一化频率fn。基于模拟频率fa和采样频率fs之间的关系,归一化频率被计算为:生命体征测量系统图见图1。在该系统中,超宽带(UWB)雷达组件是NJR 4262 Jfn=2×fs[半周期/样本](1)前端模块采用多普勒24 GHz超高频波,MMIC芯片进行射频处理,内置天线,I/Q输出具有高精度和长期频率稳定性。在提供5 V电源后,雷达NJR 4262 J将高频波(TX)发射到人体胸部(移动目标)的表面,然后接收反射信号(RX)。接收信号的频率与原始频率不同,这是由于心率的增加,健康人和感染者的心率范围是[50,140]次/分钟(bmp),相当于[0.83,2.33]次/秒。在雷达采样频率为100 Hz的情况下,从等式(1)、带宽滤波器输入参数计算如下:f Ln= 2 × 0. 83= 0。0166[半周期/样品](2)图1.一、 生命体征测量系统。T.T. Han等人医学信息学解锁24(2021)1005923100100= ×60(5)∏.)的情况)yy∏y∏n=f Hn= 2 × 2。33= 0。(3)类似地,使用低通滤波器来提取呼吸信号。的彼此独立。此外,分母p(X)是常数,因为它不依赖于y。因此,Eq。(7)按比例改写如下:测量的呼吸率不超过30 bpm或0.5 Hz,因此切割-p(y<$xx x)<$p(y)<$np x y(八)低通滤波器的截止频率为:0一,二,...n⃒i=1(i)|)的方式fnLPF =2×. 5= 0。01[半周期/样本](4)式中,* 表示比例。在下一步骤中,根据滤波后的信号计算心率和呼吸率。存在一些简单的方法,例如,使用诸如傅立叶变换或多信号分类算法的频域转换算法来确定具有最高能量的频率水平然而,呼吸率的二次谐波分量的频带可能与心率混合,使得难以分离分量[9]。该系统中提出的算法是在时域中调查和检测峰值[8]。信号X开始低于T(阈值),超过T一段大于或等于W(宽度)的时间,然后返回到小于T的值。范围W中的最大点称为峰值。对滤波后的信号应用峰值检测算法,可以通过以下方式获得HR:HRn峰BPFbpmt测量在本文中,类变量(y)只有两个结果,健康或不健康。确定向量的类等价于找到具有最大概率的类yny= argmax y∈{0,1}p(y)p(xi|(9)i=1训练步骤的目的是计算py,即类y在Y类中出现的概率,以及p(XI,y),即向量数据x在类y中出现的概率。计算取决于数据类型。有三种常见的类型:Gaussian Naive Bayes,Multinomial Naive Bayes和Bernoulli Naive。在这项研究中,高斯朴素贝叶斯分布函数。Xi服从正态分布,其中μy是平均值,σy2是与类别相关的Xi值的贝塞尔校正方差,[23]中的概率分布为:RR的计算公式为:峰p(xi|y)=1√̅2̅π̅σ̅2yexp(-xi-μy22σ2y(十)RR=nLPF×60bpm(6)没有测量此外,人体的温度是由热计测量的其中(μy,σ2)由最大似然确定:测量仪,平行于使用医疗雷达测量心率和呼吸率。在该系统中,还使用参考装置来比较准确度。(μy,σ2)=nargmaxn=1p(xi)n(μy,σ2)(11)雷达系统。然而,雷达系统的优点是设备不需要与被测对象或患者接触,而参考设备需要触摸或将其贴在人的手指或胸部上。本工作中使用的心率参考装置是脉搏传感器。该传感器由ADC供电,并与雷达同时向ADC发送信号。因此,可以在雷达信号和参考信号之间进行比较,以确定雷达系统在测试步骤中,对于每个新向量x,其类别通过下式估计:ny= argmax y∈{0,1}p(y)p(x i|(12)i=1当特征的数量大并且概率小时,等式(1)的右侧表达式为:(12)是一个很小的数字,很难准确估计这个值。因此,这个方程经常通过取右侧的对数来重写为等价形式2.3. 数据分类y=log(p(y))+∑i=1log(p(xi|(13)利用收集的数据,使用机器学习算法进行分类。它们是四种基本算法:NBC [10],DT [11],SVM [12],LR [13]和一种深度学习算法-LSTM [14]。使用这些算法的原因是它们的分类结果具有相当高的准确性,并且它们易于实现。本节简要介绍了这些算法的数学理论。2.3.1. 朴素贝叶斯分类在机器学习中,朴素贝叶斯分类器(NBC)是一种简单的“概率分类器”,基于贝叶斯定理的应用,在特征之间具有独立的假设。它是最简单的贝叶斯网络模型之一。朴素贝叶斯算法是一种用于构建以特征值X(X1,X2,.)的向量形式表示的模型分类器的技术。Xn),描述n个特征。该算法的思想是基于向量x落入总Y类的类y的概率。根据贝叶斯定理,这个概率可以写为:T.T. Han等人医学信息学解锁24(2021)1005924p(x)2.3.2. 支持向量机支持向量机(SVM)是一种有监督的学习模型,具有相关的学习算法用于数据分析。它通常用于分类和回归问题。利用一组训练数据,每个训练数据被标记为属于不同的类,SVM训练算法构建一个模型,该模型将新数据分配给每个类,并使其成为非概率二元线性分类。SVM模型是空间中的点的表示,其根据最清晰的可能距离被划分为类。SVM算法的思想是在两个类之间找到一个划分平面(超平面).如图2所示,有三条线性分界线:分别为h1、h 2、h 3然而,为了最大化从每个类的最近点到超陆地的距离,h2是最优的选择,它被称为决策边界上的所有点必须满足以下等式:wT x+b=0(14)p(y<$x)=p(x|y)p(y)(七)SVM算法中的最优问题是确定参数(w,b)使得裕度达到最大值。NBC算法假设向量x的每个特征是在训练步骤中,训练数据集。形式(x1,y1)的点T.T. Han等人医学信息学解锁24(2021)1005925()─Y2-(+)≥10 =K= N1-w2mn inyiw xi+b()下一页图二. SVM算法实例。,. xn,yn是给定的,其中y i是1或1。每个yi表示该点指向的类。属于步骤1. 对于一个样本数据点(xi,yi),边际属性(由分支表示)并给出关于目标值的结论(由叶子表示)。树模型,其中目标变量采用一组不同的值,被称为分类树。在这些树结构中,叶子表示类标记,分支表示导致类标记的特征的关联。在分析过程中,决策树可用于直观地表示决策和决策制定。决策树的图像如图3所示,黄色背景椭圆表示要做出的决策。这个决定取决于蓝色矩形框中问题的答案。根据答案,最终的决定是在紫色(健康)和红色(感染)的圆圈。因此,选择最佳的决策属性在该算法中起着至关重要的作用。从选定的属性中,数据被划分为与该属性的值相对应的子节点,然后工作继续应用于后续的每个子节点。一个好的划分是每个子节点中的数据完全属于一个类。为此,使用熵函数来评估划分树的质量在DT中,在处理之后决策树的构造被认为是该决策树的损失函数。这些权重与分配给每个节点的数据点数量成比例。最优问题是找到一个除法,使最终的损失函数达到尽可能小。保证金yi(wTxi+b)基于数据集,决策树构造如下:=mn inw2 (15)步骤1:对于不同的Y类,n个数据点的集合构成集合S,在ny(y∈Y)处的熵计算为:H S∑nylog(ny)(20)步骤2.然后, w,b 是根据以下值的最大值计算的边距:(w,b)=argmaxw,b{margin}()= -y=1n n步骤2:假设所选属性为x,将S中的数据点划分为K个子节点,每个子节点中的点数为m1,m2{1。( T)}. m K,分别。估计每个子节点的总熵权通过K由于这个问题的直接计算比较复杂,应用条件y nwTx nB1个;我1, 2,(w,b)=argminw,b1w22(17)步骤3.在找到平面的参数之后,确定数据点的类别为:class(x)=sgn.wTx+b)(18)其中此外,训练过程创建一组称为支持向量的点,这些点最接近分割表面。这些点的数量占很小的数量,但是有了这些支持向量,完全可以基于拉格朗日对偶函数的特性来确定分离器[15]。在测试步骤中,SVM算法基于假设函数对未知样本进行分类:H(S|x)= ∑ mKH(S K)(21)第三步:最后是信息获取。是从集合之前到集合之后熵的差异的度量。基于属性.G(S)|x)= H(S)-H(S|(22)hw,b1,如果wTx+b≥0-1,否则(十九)标签“1”和“1”分别显示正常类和感染类。2.3.3. 决策树决策树算法是统计学、数据挖掘和机器学习中常用的预测建模方法之一。它使用决策树(作为预测模型),从对某个{(x)==argmaxw,b(十T.T. Han等人医学信息学解锁24(2021)1005926图三. 决策树模型算法T.T. Han等人医学信息学解锁24(2021)1005927N∑|S|=-H()+K(=)=]].)()-()|;)=的(i)|一、步骤4:在每个节点处,基于Eq. (23)、使“信息增益”值最大的属性x*= argmax x G(S|(23)然而,当只有几个时数据点,并尝试拆分节点,以便训练w= arg max w P(y|X,w)(27)步骤1:假设所有数据点都是独立和随机的:P(yxw)(28)i=1过程被正确预测(过拟合)。为了避免这种情况,A一个比较好的方法是修剪[16]。叶节点的修剪是通过向损失函数添加正则化量来完成的:KLK S K(24)k= 1|N|首先,建立一个决策树,其中训练集中的每个点都被正确分类(所有节点的节点都是零)。此时,数据损失为零,但正则化可以很大,并且会很大。然后,在叶节点处进行修剪,使得减少。重复修剪,直到不能再减少。2.3.4. Logistic回归逻辑回归是一种统计模型,其基本形式使用逻辑函数对二元因变量进行建模。它是一种非线性回归模型,用于利用因果关系来估计或预测对象。Logistics Regression的预测输出通常以如下形式表示:f(x)=θ wT x(25)有许多不同的激活函数,但图4中的以下激活函数具有一些重要性质:一个函数,不断接收的实际值,在区间(0,1)阻塞;有导数在所有点,有利于优化.因此符合本研究的分类问题。利用上述模型,假设数据点x落入类1和类0的概率分别为fwT xi和1fwT xi基于训练数据点(具有已知输出),逻辑函数如下所示:P(yi=1|xi;w)=f.(26)P(yi=0 |xi;w)=1-f.(wTxi)其中P y i1 x i;w是已知模型参数w和输入数据xi时输出事件yi1的概率。考虑整个训练集X= [x1,x2,... xn ε Rd ×n 并且y=[y1,y2,使用条件:见图4。 激活功能。T.T. Han等人医学信息学解锁24(2021)1005928--埃夫.)=()当N很大时,N个数的乘积会在计算中产生错误。因此,常用的方法之一是取似然函数的自然对数(以e为底),然后取相反的符号,得到一个函数,即损失函数。寻找最大值的问题变成了寻找损失函数的最小值:J(w)= -logP(y|X,w)(29)步骤2:使用随机梯度下降(SGD)优化损失函数[17]。由于Logistic回归输出是一个sigmoid函数,因此此函数的更新公式将通过以下公式重新计算:J(w;xi,yi)=(zi-yi)xi(30)其中z fwTx步骤3:最后,参数w计算如下:w=w+(yi-zi)xi(31)在建立模型之后,在测试步骤中,数据点x的类别y的确定基于比较两个概率表达式。如果第一个表达式较大,则推断数据点属于类2.3.5. 长短在深度学习中,有流行的模型:卷积神经网络(CNN)和递归神经网络(RNN)。RNN诞生的主要思想是使用内存来存储来自预计算步骤的信息,并基于此可以为当前预测步骤做出最准确的结果。RNN可以将信息从上一层传递到下一层。然而,在实践中,由于梯度的不断减小,信息仅被携带通过有限数量的状态,换句话说,该模型仅从附近的状态学习。因此,LSTM旨在解决这个问题。并不是所有的数据都有重要的信息,LSTM通过选择性地记住或忘记来修改信息。特定细胞状态的信息由三种不同的依赖关系组成:先前的细胞状态,先前的隐藏状态和当前时间的输入。LSTM网络的基本结构见图5。的LSTM网络由细胞组成,其中细胞由forgottenportft,输入端口it和输出端口ot组成。该模型使用两个激活函数tanh和sigmoid。其中,双曲正切激活用于帮助调节通过网络的值。tanh函数确保值保持在1和1,从而调节神经网络的输出sigmoid激活类似于tanh激活。它不是压缩1和1之间的值它有助于更新或忘记数据。LSTM模型的第t个状态包括:输出:ct,ht,c称为cellstate,h是hidden state; Input:ct-1,ht-1,xt,其中xt是t的输入模型的状态,ct-1,ht-1是前一层的输出。被遗忘的端口负责从单元状态中删除信息。LSTM认为不重要的不必要信息将通过sigmoid函数删除。这对于优化LSTM网络的性能f=σbf+xt Uf+ht-1Wf(32)输入端口将信息添加到单元状态。添加信息分为3个步骤:步骤1:调整需要选择并添加到T.T. Han等人医学信息学解锁24(2021)1005929.)图五、LSTM网络的基本结构通过sigmoid函数获取单元格状态,因此值在[0: 1]范围内i=σbi+xt Ui+ht-1Wi(33)步骤2:创建一个包含步骤1中所有值的向量。这是通过使用函数来完成的,输出具有从-1到1的值g=tanh(bg+xt Ug+ht-1Wg)(34)其中Ug和Wg是先前状态的输入和输出权重BG 是输入偏置。步骤3:将sigmoid门的输出值与创建的向量gi相乘,然后通过加法运算符将有用信息添加到细胞状态。输出端口决定下一个隐藏状态是什么,并使用以下步骤计算。步骤1:通过将tanh函数应用于细胞状态来创建向量。第2步:使用sigmoid函数创建一个过滤器,以便能够调整需要从步骤1.一、见图6。 实验模型。步骤3:将过滤器的值与步骤1中的向量相乘,并将其作为下一个单元的输出和隐藏状态o=σ(bo+xtUo+ht-1Wo)(35)3. 实验及结果3.1. 数据采集在这项研究中,实验是在河内技术大学(HUST)的本科生中进行的,年龄在和之间,在测量期间没有任何疾病,并收集了140个健康班级的样本(从2019年9月13日到2019年8月20日)。感染组有360名登革热感染患者,来自越南河内国家热带病医院,年龄为,(2019年9月13日)。除了HR、RR和T等特征外,在测量过程中,还收集了一些额外信息,如性别、年龄和SpO 2指数(外周血氧饱和度)-该指数与心率和呼吸密切相关,如果SpO 2指数降低,则会导致心动过速、呼吸急促等图 6描述了实验的初步情况。所述系统被布置24GHz雷达(NJR 4262 J)位于地面以上90cm处。目标是坐在雷达对面座位上的人,与雷达的距离为。雷达的高度是固定的,座椅将被调整,使目标的胸腔与雷达的高度水平相同。测量信号由ADC数字化,绘制并存储在计算机上以供进一步处理。此外,这些人还将食指放在心电图传感器(脉搏传感器)上,以获得参考ECG信号,并与来自雷达的信号和结果进行比较。在测量过程中,可能会出现一些误差,例如放在桌子上的测量设备的震动,或者坐在雷达测量正确方向的测量结果如图7所示,包括从ADC恢复后的健康人和感染者在图8中,在应用带通滤波器之后,原始信号中的所有高频噪声和呼吸信息被消除,健康人和感染者的心率信号分量被保留。同时,图9示出了低通滤波信号,其包含用于计算RR的信息通过对所获得的信号应用峰值检测算法,提取HR和RR频率。500个样本的总数据集在健康和感染类别的空间3D中呈现,具有三个特征:HR,RR和T,如图所示。 10个。3.2. 分类性能采集样本500份,每个样本均具有HR、RR和T等重要生命体征。它们被用作NBC、SVM、DT和LR分类算法的输入。(详见表4中的Ap-pendix,它给出了一些具体的数据样本.每个样本都有一些信息,包括年龄、性别和测量参数,如HR、RR、T、SpO2等在朴素贝叶斯分类算法中,根据不同的数据类型,有许多方法可以计算分布函数。在这项研究中,假设组件数据类型是连续的,因此使用高斯朴素贝叶斯分布函数来建立模型。在支持向量机算法中,建立模型的有效性取决于核的选择,核参数和惩罚值[18]。T.T. Han等人医学信息学解锁24(2021)10059210[编辑]=我我图7.第一次会议。从ADC 恢复 后的健康人和感染者的原始信号。图8.第八条。 健康人和感染者的HR信号。支持向量机中常见的核函数包括例如,数据集中的数据只被分为2类,数据是相互分布的,但仍然是线性的。用于SVM模型的惩罚常数C指示避免每个训练样本的误分类的优化。C本质上是一个正则化参数,它控制在训练数据上实现低误差和最小化权重范数之间的权衡在C值较大的情况下,优化器会选择一个振幅较小的超平面(如果它表现良好),而不是将所有数据正确分级,这会使分割平面过于拟合。相反,较小的C值将导致搜索具有更大振幅的最佳超平面,其中更多的点被错误地排序。在这项研究中,C是在10000 - 50000的范围内选择在决策树算法中,三个属性HR,RR,T被用来计算具有最大“信息增益”的属性决策树分类器模型的优化取决于配置参数。在建模过程中,参数方法,并通过支持的策略是最大深度的值越大,会导致过拟合,而值越小,会导致欠拟合。在Logistic回归算法中,为了优化多重噪声,选择了惩罚常数为C50000的模型。此外,基本模型是在没有任何标准化的输入数据上实现的。应用在LSTM算法中,心率和呼吸率信号被用作分类的输入信号。每一个信号都是在30秒的时间内收集的,所以长度是3000维。该算法采用考虑一个概率模型,对于每个输入x,ai=sigmol(wT x)(其中w是模型的参数)表示输入落入类别i的概率。必要条件是ai必须为正且它们的和等于1。此外,如果zi=wT x的值(可以取负值和正值)更高,则ai更大。根据这些,softmax函数给出为T.T. Han等人医学信息学解锁24(2021)10059211==∑exp(z)i=-(-)P+R见图9。 RR健康人和感染者的信号。因此,确定正确的感染类别称为阳性,另一类称为阴性。参数真阳性-TP、假阳性-FP、真阴性-TN、假阴性-FN在混淆矩阵中定义,如表1所示。从上面给出的矩阵X,很容易在受试者操作特征(ROC)或精确-召回空间中构造一个点。 在ROC空间中,使用假阳性率(FPR)和真阳性率(TPR)进行绘图。其中,FPR是错误分类样本(假阳性)与总阴性样本(假阳性和真阴性)的比率。TPR是正确分类的样本(真阳性)与总阳性样本(真阳性和假阴性)的比率。在PR空间中,精确度决定了实际属于正类的正类预测的数量,而召回率定义了从所有正图中得出的正类预测的数量。 11数据集中的例子精确度和召回率[22]计算如下:a=exp(zi)见图10。数 据 集。,n=1, 2,P真阳性真阳性+假阳性R真阳性真阳性+假阴性(三十八)(三十九)IC我然后又道:P(y k= i|x k; W)= ai(37)参数f1-score为:F1=2 ×PR(四十)P(yk=i<$xk;W)被理解为数据点x落在在本文中,k为4时,每个子集占整个数据集的25%。具有ROC度量的算法的结果示于如果模型参数(权重矩阵X)W已知,则将其转换为类i3.3. 分类算法为了评估分类模型的准确性,使用k折交叉验证方法[20]。此外,交叉验证还解决了数据的过拟合问题[21]。整个数据集被随机打乱并分成大小相同的子集。其中,k-1个子集用于训练,剩余的子集用于测试。F1分数[22]是一个整体的静态测量,它结合并平衡了精确度和召回率值。由于在本发明中存在分类为健康类和感染类的问题,训练、测试、精确度、召回率和f1得分值在表2中给出。在图12中,所有4种算法的TPR都高于FPR,这意味着正确分类率总是更高。从表2中可以看出,在训练、预测和召回步骤中,决策树算法的结果最高,为88。07%,85。29%和85。分别为15%。其他算法依次实现较低的结果:Logistic回归,朴素贝叶斯和SVM。基于这些结果,可以看出,DTs算法的F1分数参数实现了最高结果(高达表1混淆矩阵实际预测阳性阴性研究,这种评价方法是最合适的。尤其是在T.T. Han等人医学信息学解锁24(2021)10059212在这个疾病筛查系统的建设中,预测错误的病人比预测错误的正常人更危险阳性TP FN阴性FP TNT.T. Han等人医学信息学解锁24(2021)10059213见图11。 SVM分类对于LSTM算法,该模型使用10个epoch来实现(一个Epoch是整个数据集仅通过神经网络向前和向后传递一次的间隔),并通过两个系数进行评估,准确度和损失。建模结果见图13和图14。图13显示了模型的损失,图14显示了模型的准确性。从表3中可以很容易地看到,LSTM算法在第一个epoch上实现了近98%的准确率和2%的损失见图12。 NBC、SVM、DTs、LR的ROC曲线。85. 8%),而SVM算法实现了最低的结果80。百分之四基于模型的执行时间,NBC算法和LR算法的测试时间最短。然而,基于训练和测试时间,决策树算法更好。因此,在所使用的四种算法中,决策树算法是最优和最准确的方法。利用图11中的SVM分类,因为感染者的HR、RR和T参数高于健康者的HR、RR和T参数,所以划分平面可以被分类为2个数据类。表24种算法NBC、SVM、DTs、LR的结果3.4. 分类算法比较在非接触式测量的医用雷达系统中,心率和呼吸频率的估计相对准确,因此分类算法的输入是可靠的。通过评估四个因素,包括训练准确性,测试预测,测试召回和F1分数之间的五个使用的算法,长短期记忆算法具有最高的结果相比,其余四个算法(决策树85。8%,Logistic回归84。6%,朴素贝叶斯83。57%和支持向量机80。4%)。然而,在NBC,SVM,DTs,LR四种算法中,决策树获得了最高的精度结果和最优的执行时间。LSTM是一种使用神经网络模型的深度学习算法该模型具有反馈连接,以改善常见神经网络如RNN(递归神经网络)的消失梯度问题。而其他四种算法是基本算法,不能做到这一点.由于学习和测试过程中的计算更加复杂,LSTM算法的分类结果更加准确,而误差小于训练精度训练次数检验预测测试时间测试召回F1分数朴素贝叶斯83.42%0.66毫秒84.25%0.20 ms83.12%83.57%SVM80.16%4.16毫秒80.26%0.21毫秒80.62%百分之八十点四Logistic回归百分之八十五点四2.02毫秒84.73%0.16毫秒84.71%百分之八十四点六决策树88.07%1.22毫秒85.29%0.22毫秒百分之八十五点一五百分之八十五点八图十三. LSTM模型的损失曲线。T.T. Han等人医学信息学解锁24(2021)10059210=-表3图14. LSTM模型的精度曲线。伦理声明LSTM算法损失准确度火车5% 95.5%测试2% 98%剩下的算法如果数据集很大,具有更多属性,则优选使用LSTM算法,而对于其他四种算法,性能将较低并且更容易过度拟合。此外,通过使用LSTM算法,系统不需要使用峰值检测算法,但与其他算法相比可以达到最高的结果。4. 结论这项研究提出了一种机器学习算法,用于根据医学雷达测量的生命体征(HR,RR,T)对对照组(N 140)与登革热感染者(N360)进行分类,具有很高的准确性。在使用和比较的算法中,有朴素贝叶斯分类器,SVM,逻辑回归,决策树,长短期记忆。长短期记忆被认为具有最高的准确性。这是在实际系统中应用的基础。本研究获得了国立热带病医院(越南)、河内科技大学(越南)和电子通信大学(日本)伦理委员会的批准。资金这项工作得到了JSPS KAKENHI科学研究补助金(B)的支持,19H02385。竞合利益作者声明,他们没有已知的可能影响本文所报告工作致谢作者感谢河内科技大学(越南)和电子通信大学(日本)这两所大学的支持。附录表4数据集中的一些样本号年龄性别参考感染筛查系统诊断T-Body []HR [bmp]SpO2 [%]RR [bmp]HR [bmp]SpO2 [%]121M37.4859810.79583.85795正常221M37749927.68874.62196正常321M37.1879932.11784.91498正常421M36.7769811.30972.08197正常519M37729928.77875.02597正常622M36.7849930.98881.91898正常720M36.9699826.79373.36496正常829M36.9869812.49788.07298正常921F37.7839924.54768.86998正常1020F37.2949914.14489.11598正常1129F40.21259935.15712498发烧1230F37.51229825.29211696发烧1327F37.71059825.4379897发烧1429M391249729.86611895发烧1528F38.51219821.80812095发烧1622M39979724.7519296发烧1738M37.71029822.5959996发烧1829M39.6989828.59598发烧1939M38.11109824.02510697发烧2025F39.71129619.83111797发烧…………………………T.T. Han等人医学信息学解锁24(2021)10059211引用[1] WHO.流行病和大流行病警报和反应。日内瓦,瑞士:世界卫生组织,2007年。[2] Nguyen Cuong V.使用医用雷达和Linu x嵌入式FPGA的非接触式感染筛查系统:实施和初步验证”,Nr. 医学信息学解锁卷。16; 2019.p. 100225[3] 孙广浩,等。设计一种简单易用的感染筛查系统,用于非接触性监测生命体征,以防止大流行性疾病的传播。Nr. 第36届IEEE医学与生物工程国际年会。2014. p. 4811- 4[4] 纽湖日本无线电公司,“NJR 4262系列”,可用:. https://w.w.w.njr的网站。com/download/technologyheet/sensor/NJR4262-rev00-02.pdf,. [2020年1月5日]。访问。[5] 放大图片作者:J.使用机器学习的自动流量分类和应用识别。2005.第250- 257页。https://doi.org//LCN.2005.35.[6] Hoi Steven CH,et al. Batch mode active learning and its application tomedicalimage classification.在:第23届机器学习国际会议论文集,宾夕法尼亚州; 2006年。[7] Jadhav Priyanka S等人,“用于MRI脑图像分类的混合智能技术。数字信号处理2010;20:433 2015年。[8] 杨X,Ishibashi K,Negishi T,Kirimoto T,Sun G.利用多普勒雷达进行短时间非接触式病毒感染甄别系统。第12届生物启发计算国际会议。中国:理论与应用;2017。[9] Yang X等人,通过非接触式微波雷达和机器学习使用生命体征进行登革热筛查。2019年IEEE传感器应用研讨会(SAS)。法国:Sophia Antipolis; 2019。p. 1比6[10] Patil Tina R,Sherekar SS.朴素贝叶斯和J48分类算法用于数据分类的性能分析。 Int J Comput Sci Appl Nr 2013;6(2):256-61.[11] Sugumaran,V. Muralidharan V. Ramachandran,K I,&&机械系统信号处理。21,pp 930-942,10.1016.[12] Yu H,Kim S. SVM教程-分类,回归和排名''。In:Rozenberg G,B?ckT,KokJN,editors. 自然计算手册。Berlin,Heidelberg:Springer; 2012.[13] [10] FelicísimoA′ M,CuarcadosA,RemondoJ,etal. 绘制滑坡敏感性,逻辑回归,多元自适应回归样条,分类和回归树,最大熵方法:比较研究。Landslides2013;10:
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功