深度与手工特征融合多模态架构用于语音病理检测的国际期刊文章总结

160 浏览量更新于2024-01-07 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程科学与技术，国际期刊36（2022）101148完整文章基于深度和手工特征融合的Asli Nur Omeroglu，Hussein M.A.Mohammed，Emin Argun Oral穆罕默德阿塔图尔克大学电气与电子工程系，雅库特，埃尔祖鲁姆25240，土耳其阿提奇莱因福奥文章历史记录：收到2021年2022年1月4日修订2022年3月10日接受2022年4月1日上线保留字：人工智能深度学习多模态萨尔布吕肯语音数据库（SVD）语音病理检测和分类A B S T R A C T自动语音病理检测系统可以有效地帮助临床医生在语音病理的早期阶段进行客观的评估和诊断。本文提出了一种新的多模态架构，利用语音和电声门图（EGG）信号，并探讨其在自动检测语音病理的有效性。所提出的多模态框架结合了两个并行卷积神经网络（CNN），一个用于语音信号，另一个用于EGG信号，以获得深度特征。经典的手工特征也以相同的方式获得。然后将这些特征连接起来以获得更突出的特征集。此外，一个特征选择方法被应用到删除冗余特征。最后，SVM分类器被用来检测语音病理。为了测量所提出的病理检测系统的性能，在Saarbruecken语音数据库（SVD）上进行各种实验，而不排除任何可用的病理或样本。实验结果表明，所提出的语音病理检测方法达到了90.10%的准确率使用所有的语音和EGG样本。敏感性、特异性和F1评分分别为92.9%、所提出的方法提供了更好的性能比文献中给出的所有SVD样本通过交叉验证测试。因此，它是有前途的语音病理自动检测应用。©2022 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍语音疾病是重要和常见的问题，因为它们阻止了人们之间的有效社交。声带麻痹、药物滥用、肿胀和异常发声是导致嗓音病变的主要原因专业人士，如歌手，演员，拍卖商，律师和教师，谁使用他们的声音在比正常更高的水平和更频繁的是在病态的声音问题的全球约有四分之一的专业人士患有嗓音疾病[1]。声音病理的人可能会经历焦虑，抑郁，他们在与他人沟通时面临问题因此，它可能导致各种社会和个人并发症。建议使用侵入性外科手术，即喉内窥镜检查、喉肌电图检查和频闪镜检查来诊断嗓音病变[2]。这些程序需要训练有素的专业人员以及使用特殊和昂贵的设备，因此正确的诊断和进一步的护理可能会被延误，*通讯作者。主要通讯作者。电子邮件地址： asli. atauni.edu.tr （ A.N. Omeroglu ）， eminoral@atau-ni.edu.tr（E.A. 口头）。偏远地区的医疗服务而且，这些过程是痛苦的，有时是创伤性的.因此，正在研究广泛寻找替代方案进行语音病理诊断。一种方法是使用语音信号处理方法来检测这种医疗问题[3，4]。语音病理检测问题可以使用经典的机器学习和基于深度学习的方法以及这两种方法的组合来解决[2]。在由特征提取及其分析组成的机器学习方法中，首先处理语音信号以获得特征，然后基于这些特征将语音信号分类为正常或病态。在这种方法中，存在诸如手动选择适用的语音特征和/或选择合适的分类方法的问题和难题。为了克服这些问题并提高语音病理检测系统的性能，使用基于深度学习的方法可能更有益，这些方法可以自动提取特征以获得更好的分类性能。关于语音病理检测的各种文献研究都集中在深度学习方法上，如卷积神经网络（CNN）、长短期记忆（LSTM）和卷积深度信念网络（CDBN），以更好地识别语音病理[5基于深度学习https://doi.org/10.1016/j.jestch.2022.1011482215-0986/©2022 Karabuk University.出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：www.elsevier.com/locate/jestchAsli Nur Omeroglu，Hussein M.A.穆罕默德和Emin Argun口头工程科学与技术，国际期刊36（2022）1011482通常，方法需要使用大量数据来获得良好的性能，并且这可能不是每次都可用的。为了克服这种高数据需求，在不同的研究中实施了迁移学习和预训练技术[10，11]。此外，经典机器学习和深度学习模型的融合已经变得非常流行，因为它们可以在不同的识别和分类问题中实现更高的性能[12，13]。最近，还研究了这种融合方法以执行语音病理检测[14]。目前的研究提出了一种自动语音病理检测系统，该系统基于Saar-bruecken语音数据库（SVD）的多模态特征融合，同时利用深度学习和经典方法。它采用两种不同的信号，即语音和EGG在一起，和支持向量机（SVM）分类器用于区分病理和正常样本。这种方法使用融合方法有效地结合了手工制作和深度特征，以利用它们提供的此外，在这项研究中，该数据集的所有样本都与文献中的许多其他样本相反本文的主要贡献是：（1）使用语音和EGG的多模态数据来检测语音病理。它的执行意义上说，深和手工制作的功能集获得两种形式。然后将这些特征进行融合，消除冗余据我们所知，这是一种新的方法，使用这种类型的多模态融合来检测语音病理，(ii) 提高了在语音病理检测中使用所有可用SVD样本这包括所有的病理子集，甚至罕见的。本文的其余部分组织如下：2回顾以往的文献中的语音障碍检测。在第三部分中，描述了所提出的语音病理检测系统。实验结果在第4节中演示，并在第5节中讨论。最后给出了结论和未来的研究方向.2. 相关工作表1列出了使用Saarbruecken语音数据库（SVD）的相关研究。表条目根据每项研究中使用的SVD样本总数排序。它很好地说明了文献中存在的各种方法。这些研究表明，在语音或说话人识别应用领域以及语音质量测量领域中广泛使用的特征和信号处理技术在自动语音病理检测领域也取得了重大进展[18因此，有许多方法可以利用不同类型的特征对数据集样本进行分类。用于语音病理检测的最流行的语音特征基于时间、频率和倒谱系数，例如梅尔频率倒谱系数（MFCC）[20 - 23，26]、线性预测倒谱系数（LPCC）[22，27]、抖动、闪烁、谐波噪声比（HNR）[10，22，24，28]、相对谱感知线性预测（RASTA-PLP）、离散小波能量、离散小波熵[1，17，20]、多维语音程序参数（MDVP）[18]、声门信号参数[29，30]和卷积神经网络（CNN）特征[14]。出于分类目的，随机森林（RF）[21]，K-最近邻（KNN）[23]，朴素贝叶斯（NB）[24，31]，支持向量机（SVM）[8，16，17]，高斯混合模型（GMM）[7，20]，深度信念网络（DBN）[15]，卷积神经网络（CNN）[11，32]和长短期记忆（LSTM）[33]方法是广泛首选的。Harar等人[5]，表1中的第一个条目，使用了几乎所有的SVD样本，并通过应用深度学习实现了68%的准确率。ing模型。特别是，他们采用LSTM，一种递归神经网络，用于病理检测目的。Mohammad等人提出了另一种使用CNN的语音病理检测系统，该系统使用了大多数SVD样本[6]。他们的方法使用了2034个数据集样本中的1074个测试样本，达到了94.54%的准确率，忽略了一些SVD数据。在另一项基于深度学习的研究中，Wu等人只使用了六个病理子集。通过应用CDBN[15]和CNN[11]，他们分别实现了71%和77%的准确率。Kadiri等人[9]and Dankovicováetal. [21]通过对选定的/a/、/i/、/u/元音和包含所有71个病理子集的句子应用机器学习模型，分别报告了74.32%和85.71%的准确率另一方面，一些研究仅使用了3个病理子集，并使用统计方法达到了90%以上的准确性[1，23，34]。而其他人仅使用2和6个病理子集，分类准确率达到71%至99.98%[11，16，20，23]。其余的研究将其样本量限制在较小的集合中，而不是SVD数据集中的2041个样本，从而获得较高的准确率。当使用少量数据（总共400个SVD样本）时，基于GMM实现的最高准确度[20]。另一方面，当纳入1970份SVD样本时，使用类似方法获得了67%的准确度[7]。因此，已发表的研究与现有的研究不同，拟议的研究旨在使用所有可用的SVD样本提高健康/病理分类的性能。3. 建议的语音病理检测系统在本节中，讨论了声音病理检测系统的细节。图1示出了所提出的检测框架的框图。它包括特征提取，特征融合和选择步骤，然后由SVM分类器，馈与选定的功能，以区分健康和病理的语音信号。将特征提取应用于SVD数据集中可用的病理和健康受试者的语音样本的语音和EGG信号。另一方面，下面的特征融合步骤结合了深度和手工特征。为此，基于频谱图从两个CNN中提取深度特征，而手工特征是根据MFCC，LPC，F0（音调），频谱斜率和年龄特征获得的。下面给出了特征提取、特征融合、特征选择以及支持向量机参数调整的详细过程。3.1. 基于CNN的提出的用于深度特征提取的2D CNN要求输入数据为图像格式。因此，属于71种语音病理或健康样本的时间序列语音和EGG信号利用短时傅立叶变换（STFT）被变换成2DSTFT是1D输入信号的视觉表示，用于描述其频率内容，并且它们表示输入信号在不同频率下随时间的功率。该2D图的横轴和纵轴分别表示时间和频率，而不同颜色的强度对应于特定时间的频率分量的振幅。在这项工作中，所有的语音和EGG信号的SVD使用预加重滤波器进行滤波，然后获得它们的频谱图图像。该滤波器基本上放大高频以在频谱图图像中的所有频率上获得均匀分布，因为低频内容通常在语音信号中更占主导地位。它被定义为，Asli Nur Omeroglu，Hussein M.A.穆罕默德和Emin Argun口头工程科学与技术，国际期刊36（2022）1011483X-jn×2½]表1关于SVD数据库的研究。参考样本总数试验样品特征分类器准确度（%）注意[5]《中国日报》2040874基于cnnLSTM68.08正常音高为71的选定元音/a/样本[6]美国20341074基于cnnCNN94.54病理正常音高为71的选定元音/a/样本[七]《中国日报》19701970MFCC、HNR、NNE和GNEGMM67病理选定元音/a/、/i/和/u/，正常/h/lhl/l[八]《中国日报》1616404边缘计算SVM98.5pitch 2个子集的71种病理正常音高下的选定元音/a/样本7子集[9]15181518声门源特征SVM74.3271种病理选择元音/a/、/i/、/u/和71个句子样本[10个国家]13701370F0、抖动、微光、HNR、MFCCSVM85.77病理正常音高为71的选定元音/a/样本[第十一届]964240基于cnnCNN77.0病理正常音高下的选定元音/a/样本和671种病理[第十五条]964145基于CDBNCDBN71正常音高下的选定元音/a/样本和6[16个]755755JOLL4RSVM87.8671种病理在正常/h/lhl/l[1]第一章529529熵、峰值和滞后SVM92.79pitch 2个子集的71种病理在正常音高下的选定元音/a/样本3子集[17个]529529最大峰值和滞后SVM90.9871种病理在正常音高下的选定元音/a/样本3子集71种病理[18个国家]506506MDVPSVM99.68在正常音高下的选定元音/a/样本3子集[19个]506506隔行导数模式SVM93.2071种病理在正常音高下的选定元音/a/样本3子集[20个]400400能量熵对比度GMM99.9871种病理正常时的选定元音/a/样本和EGG样本[21日]194194同质性特征微光、抖动、光谱滚降，RF85.71音高和6个子集的71种病理在正常/h/lhl/l时选择元音/a/、/i/和/u/样本MFCC71种疾病[22日][23日]15012015030LSF、MFCC、LPCC、共振峰、抖动、闪烁、光谱质心声门信号参数SVMKNN9493.3正常音高下的选定元音/a/样本71种病理正常音高2子集[24日]12030MFCC、抖动、微光，天真9071种病理正常音高2子集基频Bayes71种病理Hz1-az-11其中0; 1是控制滤波器截止频率的系数。在本研究中，它被选为0.97。相应的频谱图由Eq. 二、12便士Nn¼-1其中s[n]表示滤波后的输入信号，w[n]是定义时间定位的加窗函数，N是离散傅里叶变换（DFT）点，S[k，m]是加窗输入信号的短时傅里叶在所提出的框架中，首先，对于语音和EGG模态，获得292 219大小，然后转发到两个不同的CNN，即AlexNet和VGG-19，进行深度特征提取。考虑到SVD中数据集样本数量相对较少，这些网络无法从头开始正确训练。相反，迁移学习和微调方法被用来从这些预先训练的深度网络中受益[35，36]。它们在许多应用中成功地实现，特别是当样本数量有限时。AlexNet和VGG-19网络都经过大量图像训练，对一般应用程序具有鲁棒性。AlexNet的架构如图2所示。它包含八个层，五个卷积层和三个最大池化层。卷积滤波器的数量显示为每一层。在最后一个最大池化层之后，有两个全连接（FC）层和一个softmax层。另一方面，VGG-19 Net是一个深度CNN模型，包含19个层，其中有5个卷积层块，最大池化层。如图3所示，在该模型中使用具有不同深度的3x3大小的卷积层。第一、第二和第三区块的深度分别为64、128和256。而最后两个块的深度为512，后面是两层完全连接的神经网络和一个softmax层。softmax层的输出给出了所有健康和病理类别的概率。两个网络都使用随机梯度下降算法进行优化，批量大小为64个样本，学习率为0.001此外，在完全连接的层中应用了50%的漏失在如上所述微调CNN之后，softmax和FC 2层被移除，并且从先前的FC100获得深特征。3.2. 手工特征提取3.2.1. MFCCMFCC通常用于语音和说话人识别应用[37此外，MFCC可用于语音残疾识别目的[2，40]。语音信号的短时功率谱是由声道形状的变化形成的，可以用MFCC精确地表示。在语音信号的MFCC计算中，通常对输入信号应用不同的预处理步骤。这些是捕获准静态特性的成帧步骤和获得边缘平滑以及稳定声学内容的窗口化步骤。之后，使用FFT算法获得帧的离散傅里叶变换（DFT）以计算幅度谱和功率谱。然后，通过滤波器组将计算出的光谱映射到Mel尺度上，以提取Asli Nur Omeroglu，Hussein M.A.穆罕默德和Emin Argun口头工程科学与技术，国际期刊36（2022）1011484Fig. 1. 拟议框架的结构。图二. AlexNet架构图三. VGG-19网络的体系结构。每个乐队然后，对频谱的对数值进行离散余弦变换（DCT），将其变换回空间域，得到MFCC系数。在目前的研究中，语音和EGG信号被视为单一的部分，每个窗口使用汉宁和汉明窗口。给出了三角形滤波器组和汉明滤波器组的Mel尺度对数能量谱分别在下限为130 Hz和上限为6800 Hz的频带上。此外，等效矩形带宽（erb率），树皮和对数频率尺度以及每帧的能量被认为是其他MFCC参数。手工特征提取的MFCC参数选择的细节在4中给出。Asli Nur Omeroglu，Hussein M.A.穆罕默德和Emin Argun口头工程科学与技术，国际期刊36（2022）1011485X联系我们3.2.2. 线性预测系数（LPC）基于扬声器源滤波器模型，人类语音可以被视为来自能量源（肺）的唤醒的滤波器（声道）输出[41]。该声道可以被建模为随时间变化的数字滤波器。由于语音路径输出的语音数据本质上是顺序的，因此第n个语音样本的语音声学特性可以表示为过去P个语音样本的组合。结果，声道的数字滤波器等效的传递函数可以用公式表示，G而融合则是将不同的特征进行组合，从而可以从所有特征中获得突出的特征信息。特征融合方法可以以许多不同的方式应用，例如级联，池化和实现门控单元[46]。在这项研究中，两种不同的特征表示，深和手工，融合在特征级融合方案，通常被称为早期融合。它是通过将来自三个不同来源的特征向量连接成一个大的特征向量，然后将其馈送到机器学习模型进行训练来执行的。这些源包括CNN提取的语音特征、CNNHzPð3Þ提取的EGG功能和所有手工制作的功能。1-ak z-kk¼1其中P是极点的数量，G是滤波器增益，并且k是线性预测系数。自回归模型用于在计算LPC参数时最小化误差项[42]。所获得的LPC提供了人类声道模型的估计。在这项工作中，LPC的数量来模拟的病理和健康的声音信号被选为30。3.2.3. 间距音高估计有声信号的基频（F0），在有声声音的产生期间，声带以该基频振动。它是喉功能的一个重要指标文献中有几种计算F0的方法，例如基于自相关、基于频谱、基于倒谱的方法及其组合[43]。在本研究中，使用基于自相关的音调值对数的标准差作为音调。为了估计音调频率特征，使用MATLAB®音调命令，具有52 ms窗口长度，42 ms重叠，使用归一化相关函数方法。3.2.4. 光谱斜率频谱斜率是从语音信号的频率表示导出的频谱形状特征之一[44]。获得显示与光谱数据的最佳拟合线的斜率的单个值，并将其用作另一特征。为此，使用MATLAB®spectralSlope命令，使用单侧幅度谱方法，具有30 ms窗口长度和20 ms重叠参数。一般来说，这些手工制作的功能用于对说话者特征和语音进行建模，以及用于说话者识别[45]。特别地，谱斜率和MFCC定义感知语音特征，而LPC和音高分别对声道和声带进行建模。因此，MFCC与LPC、音高和频谱斜率特征的组合可以唯一地表示说话者的语音特征，并且用作所提出的用于语音障碍检测的手工特征集。在拟议的研究中，设计了一种多模态特征融合算法，将所有这些手工制作的语音特征与基于CNN的深度特征相结合，以更好地表示语音特征。3.3. 特征融合与选择不同来源的信息通常使用三种类型的策略进行组合。即信息/数据融合（低级融合）、特征融合（中级融合）和决策融合（高级融合）[46]。数据融合结合了各种原始数据源，以产生新的原始数据，预计将比每个源提供更多的信息，而决策融合结合了许多分类器的输出，以提供更好和无偏的结果。通过使用相同或不同的特征集，这些分类器可以是相同或不同的类型[47]。特征特征选择是识别冗余或不相关特征的另一个重要过程，从而优化决策算法的计算复杂度和处理速度。在这项工作中，特征选择也被用来找到一个更好的健康和病理样本之间的分类功能的最佳子集。在所提出的研究中，各种特征选择算法进行检查。其中，WEKA®[48]中的信息增益属性评估方法InfoGainAttributeEval函数实现了最佳性能。该方法首先计算每个特征的信息增益，然后根据信息增益从0（无信息）开始，利用香农熵对每个特征进行降序排序1（最大信息量）它还能够使用基于MDL（最小描述长度）的离散化方法[48]离散化特征。最后，保留了大部分信息特征通过将阈值应用于这样的分级特征。3.4. 分类器SVM是一种功能强大的二元分类器，它根据样本与超平面（两个类之间的边界）的相对距离来标记样本。SVM分类器训练的目标是找到最佳超平面，使两类支持向量之间的分离最大化。当样本不是线性可分的时，核也可以用于将样本变换到更高维的空间。它已被证明在许多应用中是有效的，如图像分类，对象识别，语音识别，说话人识别和环境识别[49]。在这项研究中，SVM分类器与RBF核。不同SVM参数是测试运用综合搜索对核尺度c和框约束C进行了优化，计算了分离超平面的复杂度。网格搜索值-这两个优化的使用是针对C^2k和c计算的。2 m，其中k10;. ;10和m10;. ; 10.为了寻求高准确度，最佳参数定义为C= 16，C= 4，利用10倍交叉验证。4. 实验研究本节又分为四个小节。首先介绍了研究中使用的数据集。然后，给出了性能比较的评价指标，并在此基础上建立了实验框架。最后，所有得到的结果。4.1. 数据集对于嗓音病理学的评估，Saarbruecken嗓音数据库（SVD）[50]、阿拉伯语嗓音病理学数据库（AVPD）[27]和马萨诸塞州眼耳医院数据库（MEEI）[51]已在文献中广泛使用[2]。在不同的语言数据库中，元音/a/的发音也得到了广泛的研究[52，53]。研究人员也对其他元音组合进行了评估[53Asli Nur Omeroglu，Hussein M.A.穆罕默德和Emin Argun口头工程科学与技术，国际期刊36（2022）1011486¼¼¼¼ðÞ ðÞð Þ ð Þ在当前研究的所有实验中，使用了Putzer等人[50]记录的公开可用该数据集包括语音和电声门图（EGG）记录的三个元音/ a/，/i/和/u/在四个不同的音调（高，中，低和正常），以及（英语：Goodmorning，how are you？句话记录来自健康或病理受试者。首选使用元音来评估患者的语音质量，与任何可能的语音障碍相关，因为它们避免了有2041个元音/a/音的记录，全部采样在50 kHz，16位分辨率。其中，687例（259例男性和428例女性）来自健康受试者，其余1，354例（627例男性和727例女性）来自患有71种不同疾病的病理受试者。数据集的更多细节可以在[50]中找到。在这项研究中，所有可用的健康和病理/a/元音语音记录在正常音调。4.2. 评估指标在所有实验的分类性能评估中，使用交叉验证方法来克服SVD的样本分布不平衡可能引起的过拟合问题。详细地，通过将数据随机分成k个小集合（选择为10）来利用虽然该模型是通过使用9组10倍来训练的，但它是用剩余的一组来测试的，并且该过程在所有10倍中重复。因此，在10次迭代之后获得模型性能。在准确性（ACC）、灵敏度（SN）、特异性（SP）和F1测量方面评估所提出的声音病理分类模型的性能，定义为，为了更好地演示，实验结果分为三个部分：（i）手工特征的参数选择和融合，（ii）为深度特征提取定制深度网络，(iii) 特征选择以及手工和深度特征的融合4.4.1. 人工语音特征在这项工作中，MFCC被用作主要功能集。MFCC的参数很多，如系数个数、时频增益类型、幅度谱类型等，需要适当调整以获得更好的性能。在其他参数不变的情况下，通过改变系数的个数进行了实证分析。如4a所示，获得了13、20、30、40和50个系数的灵敏度、特异性和准确性测量。对于该评估，MFCC性能在达到30个系数的峰值之前随着系数数目的增加而增加。仅通过调整系数的数目，经典的使用13个系数的方法的分类准确性、敏感性和特异性分别提高到73%、75%和68%。换句话说，使用30个系数将精度提高约5%相比，使用13个系数。对30个MFCC系数的加窗和频谱参数进行了分析，相应的结果如图4b所示。在该图中，另一方面，符号“t”和“m”分别表示用于缩放梅尔域的滤波器组中的三角窗和汉明窗。此外，在谱域中，ACCTPTNTPTNFPFNð4Þ等效矩形带宽（erb率），巴克和对数频率范围，分别。最后，所有这些缩写都被采用TPSN召回计划TP和FN500MATLAB®的VOICEBOX工具箱[57]。在4中，它清楚地表明，调整系数的数量和其他参数的MFCC提高分类性能。SPTNTNSFP精密TP公司简介F12×精度×召回精度×召回ð6Þð7Þð8Þ建议的系统。最高分类准确率为76.38%，敏感性为81.05%，特异性为66.09%。因此，通过调整这些参数，基线系统的分类精度提高了约10.7%。表2显示了所有手工特征的性能比较，例如MFCC，LPC，音调，频谱斜率，年龄及其组合。很明显，性能是其中，真阳性TP和假阴性FN分别代表被识别为病理和健康的病理样品，而真阴性TN和假阳性FP分别代表被算法识别为健康和病理的健康样本。4.3. 实验装置所提出的框架的训练和测试是在Intel Core i9 CPU，2.9 GHz，128 GB RAM PC上在MATLAB®中开发的数据被分成64个样本小批次，并使用Nvidia RTX 2080 Ti GPU进行训练，以获得更高的速度。为了使训练过程更鲁棒，采用带动量的随机梯度下降（SGDM）优化器[56]作为自适应优化器，以获得更好的性能。4.4. 实验结果本节中给出了所提出的用于语音紊乱检测的分类算法的详细实验结果。当语音和EGG模态的MFCC和LPC特征相结合时得到改进此外，最高的准确性与MFCC，LPC和年龄的特征融合虽然F0（音高）和光谱斜率不影响性能，但它们在特征选择过程中也被选为重要特征，形成了具有123个条目和87.41%准确度的特征集，因为它们提供了整体分类性能的改善。4.4.2. 深度特征AlexNet和VGG-19是两种流行的带有迁移学习的预训练CNN模型，已被用于从语音和EGG记录中提取深度特征表3比较了微调的AlexNet和VGG-19在仅语音、仅EGG和组合功能方面的性能。在SVM分类器中使用组合语音和EGG特征，使用VGG-19网络实现了70.70%的准确率，而对于EGG和仅语音以及组合特征集，使用AlexNet实现了几乎相同的69%的准确率。然而，AlexNet的灵敏度增加了约3.5%，略有改善。Asli Nur Omeroglu，Hussein M.A.穆罕默德和Emin Argun口头工程科学与技术，国际期刊36（2022）1011487见图4。 MFCC参数表2手工制作功能集的准确性（ACC）、灵敏度（SN）和特异性（SP）。数量的特征ACC%SN%SP%MFCC（语音）3076.3881.0566.09MFCC（EGG）3078.6482.2370.34MFCC（合并）6082.1285.6074.69LPC（合并）6066.7366.6578.57MFCC + LPC（组合）12082.1285.8174.39MFCC + LPC +年龄（组合）12187.4190.0681.99MFCC + LPC +年龄+ F0（合并）12287.4190.0681.99MFCC + LPC+年龄+F0+光谱斜率（组合）12387.4190.0681.9表3深度特征集的准确性（ACC）、灵敏度（SN）和特异性（SP）。数量的特征ACC%SN%SP%CNN（演讲）100AlexNet69.0873.1055.88美国有线电视新闻网（EGG）10069.3273.4256.26CNN（合并）CNN（演讲）200100VGG-1969.2767.7675.6568.5554.8158.79美国有线电视新闻网（EGG）10067.9669.8256.0CNN（合并）20070.7075.8257.714.4.3. 手工与深度特征提出了将手工特征集和深度特征集融合用于语音病理检测的方法，以互补地改进最终特征集。相应结果见表4。结果表明，当两个特征集融合时，VGG-19网络对语音数据的性能最好相应的分类准确率为87.60%，而AlexNet的分类准确率为86.38%。此外，最高准确度的 VGG-19 网络语音模态的敏感性和特异性分别为90.21% 和82.29%。已经表明，使用适当的特征维度可以提高检测算法的性能[10]。因此，我们认为，实现特征选择以识别和去除冗余特征以及优化计算复杂度和处理速度。在这项研究中，特征选择被应用于检测两种模态及其组合的手工和基于CNN的特征中的最佳特征子集。使用InfoGainAttributeEval特征选择算法对所有数据集样本进行了选择测试。它计算每个特征的信息增益，并使用秩作为搜索方法[48]。结果可以在0（无信息）到1（最大信息）之间变化。不包含信息增益的特征被排除在研究之外，而所有其他信息增益大于0的特征都被包括在内。的表4融合特征集的准确性（ACC）、灵敏度（SN）和特异性（SP）。数量的特征ACC%SN%SP%手工制作+CNN（语音）223AlexNet86.3888.5481.71手工制作+CNN（EGG）22386.0487.9881.70Handcrafted + CNN（组合）323VGG-19网85.6087.5481.24手工制作+ CNN（语音）22387.6090.2182.29手工制作+ CNN（EGG）22387.4690.1382.02Handcrafted + CNN（组合）32387.5190.0882.24Asli Nur Omeroglu，Hussein M.A.穆罕默德和Emin Argun口头工程科学与技术，国际期刊36（2022）1011488获得的信息增益的所有功能进行了计算，前20个选定的功能图。五、在这里，最好的信息增益是通过使用年龄，其次是两个MFCC系数，即第三系数的EGG和语音记录。在使用InfoGainAttributeEval进行特征选择之后获得的测试结果如表5所示。使用VGG-19进行深度特征提取的纯语音模态的准确性、敏感性和特异性分别为88.93%、90.98%和84.66%。另一方面，基于AlexNet的特征提取对于两种模态的融合特征产生了最佳结果。相应的分类准确率、敏感性、特异性和F1测度分别为90.10%、92.9%、84.6%和92.57%。从表2的结果与表5的结果的比较，使用手工特征获得的87.41%的最佳准确率从表5结果与表4的比较中，所提出的框架提供了稍好的性能，与AlexNet相比，准确性提高了5.26%。由于AlexNet比VGG-19更浅，并且语音样本不太多，因此它比VGG-19net更适合。为了更好地评估所获得的结果，建议的混淆矩阵框架也在6。5. 讨论本文研究了多模态信号特征及其融合在奇异值分解语音病理检测中的应用。使用这个数据集有一些困难。首先，它仅包括71种不同病理的1354个样本，并且存在样本很少的病理。例如，这些数据可能不包括在训练分区中，使得分类器不能被很好地训练以识别这种罕见的病理。这会产生不满意的测试结果，特别是在基于CNN的分类器中。 Harar等人，例如，使用所有的方法仅获得68.08%的准确率图五.估计每个特征的信息增益。图六、健康和病理样本的混淆矩阵分类所提出的框架。见图7。不同功能集的性能比较。CNN模型中SVD的可用样本，然后是LSTM[5]。可以通过在SVD中用较少的样本消除病理来提高性能。Wu等人使用基于深度学习的模型实现了71%[15]和77%[11]的另一种解决方案可以是使用利用所有可用样本的transmittance分类器，这也是在当前研究中提出的。其次，687个健康样本的可用性在健康和病理样本之间引入了不平衡的数据分布。拟议的研究计划考虑到这两个障碍。为了解决这些问题，使用语音数据的经典特征。由于初始结果不够高，因此考虑使用其他功能进行为此，EGG数据，第二模态，也包括在语音病理检测研究。表2示出了从语音和EGG模态获得的每个建议的特征集的贡献，以将样本区分为健康或病理。将这两个特征集连接起来，最大准确率为87.41%。为了进一步提高性能，提出了一种将多模态经典特征集与基于CNN的表5使用特征选择的融合特征集的准确性（ACC）、灵敏度（SN）和特异性（SP）数量的特征ACC%SN%SP%F1%Handcrafted and AlexNet fused特点手工制作+ CNN（语音）8289.3291.5884.7489.31手工制作+ CNN（EGG）8389.4191.4185.3192.08Handcrafted + CNN（组合）8890.1092.984.692.57手工制作和VGG-19 Net fused手工制作+ CNN（语音）8288.9390.9884.6691.72手工制作+ CNN（EGG）8388.8390.9184.5191.65Handcrafted + CNN（组合）8888.8890.9884.5391.68Asli Nur Omeroglu，Hussein M.A.穆罕默德和Emin Argun口头工程科学与技术，国际期刊36（2022）1011489见图8。基于SVD的研究比较。功能被利用，我们指的是手工制作的功能集。这样，融合特征可以提供优于手工制作特征的互补信息这种特征融合也在当前研究中与特征选择一起实施，并且其使用导致最高准确度、灵敏度和特异性结果分别增加3.08%、2.41%和4.67%，如图所示。7.第一次会议。也就是说，引入额外的手工特征、多模态和基于CNN的深度特征逐渐将所提出的研究的性能提高到使用所有数据集样本的90.10%的最高准确率。文献中有各种使用SVD进行健康和病理分类的研究，其性能取决于病理的数量以及包含的数据集样本的数量。分类精度对所用SVD样本数的依赖性如图所示。 8，这是从文献中收集的。在该图中，主对角线上的条目表示使用k折验证的分类研究，而非对角线条目表示使用最初生成的随机分离的所有结果在图中分为三个不同的区域。在区域1中，研究使用不到一半的SVD样本作为其测试数据集，有些研究获得了非常高的准确率，如99.98%。另一方面，区域2中的研究使用1000-1500个样本作为其测试数据集，其准确率在85.77%至94.54%的范围内。最后，区域3（标记为图的右上角）代表使用至少四分之三的SVD数据的研究。在该区域，仅当前研究使用了所有可用SVD数据。在图8中沿着对角线方向从区域1移动到区域3导致在特定研究中使用更多的样本和病理。这一变化代表了更困难的分类任务，因此准确率至少降低了67%。因此，使用所有可用的样本来改善这种健康/病理分类的性能是具有挑战性的，就像现实生活中的情况一样。简而言之，考虑到样本较少的罕见病理，语音病理的自动检测是一个难题或早期症状不明显。在拟议的研究中，从不同传感器获得的多模态数据被有效地组合以克服该问题。此外，建议联合使用手工和深度特征，使用不同的方法从这些模态中获得，以提高这种自动语音病理检测方法的性能据观察，EGG信号与传统语音信号一起使用允许获得用于检测语音病理的互补特征此外，深度特征与通常优选的经典特征一样有用，如从图5的基于特征的信息增益形成的所选特征排名列表中可以看出的因此，通过联合使用不同来源的这种信息和互补特征，可以实现病理检测的改进性能。6. 结论和今后的工作针对语音病理检测问题，提出了一种新的多模态特征融合方法。为此，从语音和EGG信号中提取的手工特征和深度特征被有效地集成，以利用它们各自的优点并提高检测性能。进行分析在Saarbruecken语音数据库（SVD）上使用SVM分类器。为此，正常的音高元音/a/语音记录被用来比较所获得的结果与以前发表的研究。手工制作的特征来自LPC、MFCC、音高和频谱斜率，并且使用修改的AlexNet和基于VGG-19的CNN来获得深度特征以对说话者语音的不同特征进行建模。两个特征集首先进行优化，然后使用特征融合方法进行有效处理。特征融合也适用于语音和EGG信号特征。最后，特征选择应用于处理后的特征。所提出的方法的性能进行评估，使用所有可用的SVD样本。与使用标准MFCC特征参数相比，使用特征优化获得了10.7%的准确率，达到76.38%。此外，准确率Asli Nur Omeroglu，Hussein M.A.穆罕默德和Emin Argun口头工程科学与技术，国际期刊36（2022）10114810利用全手工特征得到了87.51%的测试结果，通过深度特征与手工特征的融合，测试结果进一步提高到90.10%。也就是说，在语音病理检测中的显著改进是使用在优化的特征集上的融合特征，随后是选择过程来获得的。在未来的研究中，计划将SVD样本与不同的数据库一起此外，将研究

下载后可阅读完整内容，剩余1页未读，立即下载