自适应时频特征改进语音情感识别系统效率

72 浏览量更新于2024-01-06 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁20（2020）100424基于改进特征提取Shadi Langari*，Hossein Marvi，Morteza Zahedi伊朗Shahrood Shahrood理工大学计算机工程学院A R T I C L EI N FO保留字：语音情感识别人机交互特征提取特征选择进化算法A B S T R A C T人机交互中最重要的问题之一是创建一个能够像人类一样正确听到和响应的系统。这导致了自动语音情感识别系统（SER）的设计，该系统能够通过从语音信号中提取和选择有效特征来识别不同的情感类别。为此，在这项研究中，我们提出了一种新的基于自适应时频系数的特征提取方法，以改善SER。使用柏林情感语音数据库（EMO-DB），萨里视听EX压缩情感数据库（SAVEE），和波斯戏剧广播情感语料库（PDREC）进行模拟。我们的工作的主要贡献是提取新的功能，称为自适应时频特征，分数傅立叶变换的基础上，并将它们与倒谱特征相结合。实验结果表明，该方法在EMO-DB（97.57%的准确率）、SAVEE（80%的准确率）和PDREC（91.46%的准确率）数据集中有效地识别了不同的情感类别。1. 介绍语言是人类之间最快、最自然、最常见的交流方式。语音信号被认为是一种复杂的信号，除了传递信息之外，还包含有关说话者特征的信息，例如性别、年龄、语言、语言特征和情绪状态。随着科技的发展，人机交互的需求越来越大，而人机之间的语音交流是提高人机交互效率的重要途径之一，因此，在过去的几十年里，研究人员一直在研究不同的方法来提高语音识别和说话人识别等系统中人机之间的语音交流效率。语音情感识别系统最重要的目标之一是创建一个能够像人类一样正确地听到和响应的系统。这导致了近年来一个重要而具有挑战性的课题，即自动语音情感识别（SER）[1]。语音情感识别可以在日常的人机交互中发挥有效的作用，并提高这种交互的准确性，速度和亲密度。近年来，SER已被用于许多领域，例如汽车工程、智能手机、电脑游戏、在线呼叫中心和医疗紧急情况。尽管有各种各样的语音情感识别方法，在SER领域的许多挑战。例如，classi的准确性-语音情感识别问题中的特征提取和有效特征的选择通常会影响语音情感识别问题。大多数可靠的在SER中发表的研究，例如在讨论部分中引用的研究，已经使用了诸如音调、能量、MFCC、DFT等声学特征[2]。出于这个原因，我们决定将我们提出的方法与这些研究的结果进行比较，这些研究使用了常见的特征提取方法。在这项研究中，我们试图提高识别率的分类器使用一种新的特征提取方法和我们提出的特征选择。本研究的贡献：我们提出的语音情感识别，该方法倾向于提取有效的特征并选择对分类器的性能具有最大影响的最佳子集。我们的工作的主要贡献是提取新的功能，称为自适应时频特征，分数傅立叶变换的基础上，并将它们与倒谱特征相结合。DFrFT基于时频平面上角度α的旋转，并且通过旋转角度α，信号被映射到从噪声数据（不相关信息）恢复原始信号的空间。因此，我们可以利用这些特征来提高情感识别的准确性。本研究的贡献如下：• 介绍了一种基于最佳自适应角α的分数阶傅立应用一种混合特征选择算法，该算法适合于在考虑局部和全局搜索空间在三种不同语言* 通讯作者。电子邮件地址：shadilangari@shahroodut.ac.ir（S. Langari），h. shahroodut.ac.ir（H. Marvi）。https://doi.org/10.1016/j.imu.2020.100424接收日期：2020年3月9日;接收日期：2020年8月17日;接受日期：2020年9月3日2020年9月15日网上发售2352-9148/©2020的作者。发表通过 Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imu··S. Langari等人医学信息学解锁20（2020）1004242命名法IEMOCAP交互式情感二元运动捕捉KNN K-最近邻BFS向后特征选择LDA线性区别分析Casia中国科学LIBSVM支持向量机CS进一步的命名继续向下页LPCC线性预测倒谱系数DFrFT离散分数阶Fourier变换MFCC梅尔频率倒谱系数DFT离散傅里叶变换PCA主成分分析榆树EX treme学习机PDREC波斯戏剧电台情感语料库FFS前向特征选择RBF径向基函数FIR有限脉冲响应保存Surrey Audio-Visual EX Pressed EmotionGA遗传算法SER语音情感识别GMM高斯混合模型SFFS顺序浮点向前选择嗯隐马尔可夫模型SVM支持向量机表1研究中使用的情感语音数据集的分布。(HP：快乐，SD：悲伤，AG：愤怒，FR：恐惧，BD：无聊，DG：厌恶，NE：中性，SR：惊讶，以及（F）：女性，（M）：男性。数据集HP SD AG FR BD DG NE SR总计EMO-DB 44（F）、27（M）37（F）、25（M）67（F）、60（M）32（F）、37（M）46（F）、35（M）35（F）、11（M）40（F）、39（M）PDREC 36（F）、48（M）、78（F）、67（M）、73（F）、104（M）、21（F）、42（M）、15（F）、14（M）、12（F）、5（M）、88（F）、106（M）、16（F）、23（M）、339（F）、409（M）本研究的组织：本研究的其余部分组织如下。第2节介绍背景概念和相关工作。第3节介绍了所提出的方法。第4节介绍了实验装置和获得的结果。第5节是讨论部分，将研究结果与文献中已发表的作品进行比较和对比。最后，本文在第6节中总结了评论。2. 背景概念和相关工作语音情感识别一般包括三个部分：特征提取、特征选择（约简）和分类。由于情感识别和语音多样性中有效特征的模糊性，特征提取可能被认为是SER中最重要的部分[2]。如研究所示，语音信号是第一类是大多数情感语音数据库的创建，由戏剧或广播演员表达的话语集合组成。第二类是诱导性演讲，它是一种能激发普通演讲者情绪的演讲。这种类型的语音可以是自然的或模拟的，由于专业演员可能会夸大情绪，因此在识别情绪方面比专业演员更可靠。最后一类是自然语音数据库，每一类都是带有真实情感的自发语音的例子。在这项研究中，三个不同的数据集（EMO-DB，SAVEE，PDREC）用于在研究中获得的结果的泛化能力。柏林情感语音数据库（EMO-DB）是根据演员的不同情感表达而建立的。这个集合包含800个语音信号，由10个说话者（5男5女）在七种情绪状态下表达：快乐，悲伤，愤怒，恐惧/焦虑，无聊，厌恶和中性[3]。萨里从声道的输出中产生，声道由视听EX按下情感（SAVEE）数据库记录一个源信号。因此，特殊的信息，如说话人的情绪状态在发言期间可以从声道和特征的激励源提取。在本节中，我们描述了我们工作的理论基础，并回顾了文献，包括情感语音数据集的类型，特征和其他SER研究中的分类。2.1. 情感言语语料库研究综述言语情感评估中的一个重要主题是用于提高和确定系统有效性的数据质量[2]。在创建情感语音数据库时，有许多类型的方法和规则用于收集数据，这导致了各种数据集的扩展。诸如说话者特征、句子中的单词长度和数量、讲话的语言、气氛、记录讲话的方式等问题，在数据收集中发挥重要作用。一般来说，数据库可以分为以下三类：• 基于演员的情感语音数据库• 诱导情感语音库• 自然情感语音数据库。视听情感数据库（快乐，悲伤，愤怒，恐惧，厌恶，惊讶，中性）从四个英语母语男性发言人 [4] 。在波斯戏剧广播情感语料库（PDREC）中，情感句子从广播节目中剪切，包括8种情感：愤怒，无聊，厌恶，恐惧，中性，悲伤，惊讶和快乐（喜悦）[5]。研究中使用的数据分布见表1。2.2. 特征提取方法语音处理的主要步骤之一是从语音信号中提取特征和产生参数，这些特征和参数通常与语音信号的短期频谱或声道的形状有关执行特征提取以关注信号中包含的信息，提高不同类别之间的相似度和不相似度，并降低数据和计算的维度[6]。虽然从每个模式中提取的特征在分类中起着有效的作用，但本研究试图基于所提出的特征提取方法[6]来提高语音情感识别的效率一般来说，在SER中使用两类特征：韵律特征和声道系统特征。第一类是从韵律数据中提取的，即音高、能量和持续时间。例如，持续时间是指产生元音，单词，S. Langari等人医学信息学解锁20（2020）1004243（）下一页KN∑K和类似的结构。每个语音信号的持续时间是不同的，例如，表达愤怒的持续时间短于表达悲伤的持续时间。第二类与声道有关，包括倒谱系数，如MFCC、LPCC、共振峰和DFT谐波。通常，这些特征指示语音频率范围内的能量分布[7]。在许多语言中，韵律特征在向听话者传递语义信息方面起着重要作用，是语言行为的基础因此，这些特征可以用来检测说话者在许多类型的研究中，诸如能量、持续时间、音高及其导数等特征被用作识别的合适特征[9此外，在各种研究中，这些特征通常是从信号中静态提取的，对局部特征进行的研究较少[12]。大多数SER研究使用光谱特征作为从声道，例如线性预测倒谱系数（LPCC）、梅尔频率倒谱系数（MFCC）和共振峰。根据定义，频谱特征用于对说话者的语调模式和音高频率进行建模[13]。音调频率的变化与言语中的情感有着显著的相关性。研究还表明，这些波动会导致其他韵律特征的波动，如时长和能量。频谱特征是直接从语音信号的频谱导出的声学信息。这些特征是使用滤波器组从频谱中导出的，强调语音处理中每个频率分量的相同权重。如一项研究所示，语音信号频谱中振幅较高的区域（如共振峰）受噪声影响较小[14]。正倒频谱可用作倒频谱特征的补充应该注意的是，倒频谱特征仅使用语音功率谱的幅度（能量），而共振峰也使用频率信息。一般来说，共振峰表示声道形状的序列，可以使用它们的功率、情况和带宽来分析这些序列，以从声道中提取特定的情感信息。这种类型的其他共同特征之一是从傅立叶系数中提取的。傅立叶分析将信号分解为基本正弦脉冲，如果它是周期性的，则可以基于一系列谐波正弦和余弦波来描述，例如基频的实系数[15]。换句话说，语音信号可以表示为通过线性时变滤波器传输的激励声门波的输出，该线性时变滤波器模拟喉部的激励特性[16]。在这项工作中，为了提取这些特征，语音信号x m被分割成L帧，使得它可以被表示为根据等式2的傅立叶参数的组合（1）Eq. （二）、2.3. 特征选择方法通常，存在高维度将影响分类的准确性和效率的高概率。因此，应降低特征维数，以确保理想的精度和更短的计算时间[18]。尽管在SER研究的文献中使用了许多特征选择方法，但一些技术在尺寸减小后降低了SER的成功率[19]。SER中使用的一些特征选择方法是：主成分分析（PCA），线性判别分析（LDA）[20]，前向选择的包装方法[21]，前向特征选择（FFS）和后向特征选择（BFS）[22]，或顺序浮动前向选择（SFFS）[23]。2.4. 分类方法语音情感识别系统由两个阶段组成：（1）从语音数据中提取相关特征的处理单元，以及（2）决定语音话语的潜在情感的分类器[2]。在SER中，已经使用了不同类型的分类器：例如高斯混合模型（GMM）、K-最近邻（KNN）、隐马尔可夫模型（HMM）、支持向量机（SVM）、神经网络。在一些研究中，卷积神经网络（CNN）和递归神经网络（RNN）使用SoftMax或SVM作为分类器。对于情绪的分类，并没有一种更好的方法，这意味着每个分类器都有自己的优点和局限性。2.5. 相关工作在这一节中，语音情感识别的几个研究进行了审查。值得注意的是，Ayadi等人[2]对2011年之前的SER研究进行了很好的综述。自2012年以来，许多研究已经进行了情感识别，使用从声道和韵律数据中提取的特征。例如，Koolagudi的研究[ 24 ]的结果识别率高达79。百分之十四在另一项研究中[25]，除了从每帧语音中提取基音周期、共振峰、能量、MFCC、分形维数和密度相关等特征，并在北京航空航天大学情感语音数据库（BHUDES）中利用Fisher线性判别分析和主成分分析进行特征约简。然后，一个三阶段的情感识别模型产生的分类两两，这是类，每个阶段的平均比率为86。5%，68。5%，50。分别为2%。另一项研究[26]使用基于子带的倒谱参数（SBC）xm∑MHlm（co s（2πflm）φl）（1）和MFCs，以最佳方式对SAVEE数据库中的六个类进行（）=k=1N-1k （）Fs+kVignolo等人[27]提出了一种进化优化方法来搜索具有最大识别率H（k）=x（m）e-j2ππ ι;k=0， 1， 2，m=0该模型的谐波部分是语音信号的周期分量的傅立叶级数表示，包括频率，分类精度，以检测语音中的压力和情绪再-对德语和印度语两个数据集的研究结果显示，正确识别率为42。5%，91。3%，分别。在SER分类的新研究中，振幅和相位。如图所示，Eq。（1）、H 1是傅立叶深度学习。正如Mao et al.[28]使用卷积神经网络网络的两阶段情感识别模型：第一阶段是Hi是第i个傅立叶参数的振幅（Hi的平均值）。因此，对于从帧1到帧L的语音信号的所有帧，估计Hk的特征向量。由于所有这些系数包含来自每个特定帧的信息，因此它们被认为是静态特征。除了主系数之外，还可以使用这些特征的一阶和二阶导数来获得关于信号的时间动态的更多信息[15，17]。使用稀疏自动编码器学习语音频谱图的局部不变特征，下一阶段是使用PCA提取判别特征以提高识别率。从本研究中的四个数据集获得的结果显示，平均识别率为79%。另一项研究[29]提出了一种基于三维注意力的卷积递归神经网络来学习SER的判别特征，使用具有delta和delta-delta的Mel谱图作为输入。在IEMOCAP和EMO-DB语料库上的实验表明，为64. 74%和82。分别为82%。SER关注的问题之一是分类问题，在这法耶克的研究 [30个] 提出了一种用于语音情感识别的基于帧的处理公式，S. Langari等人医学信息学解锁20（2020）1004244图1.一、提出的语音情感识别的框图。使用基于傅立叶变换的频谱图的滤波器组和深层多层神经网络来预测输入语音信号的每帧的每类的出现概率。本研究在IEMOCAP（InteractiveEmotional二元运动捕捉数据库）使用所提出的方法是64。百分之七十八Liu等人[31]提出了一种基于相关性的特征选择方法分析和Fisher准则，并使用极端学习机（ELM）决策树作为分类方法在汉语语音数据库（CASIA）。使用Fisher相关系数的想法是去除冗余特征，这是可能的，因为情感识别的特征是从相同的音频源中提取的。在另一项研究[32]中，我们使用了一组基于语音信号的倒谱、频谱和傅立叶系数的特征，然后应用混合进化算法来选择最佳特征。在柏林情感语音数据库中的实验结果表明，分类准确率约为93%。3. 该方法在这项研究中，我们提出了一个框架的语音情感识别的基础上，自适应时频特征提取分数傅立叶变换。该方法如图1中的框图所示。1.一、所提出的语音情感识别包括以下主要步骤：1. 预处理2. 建议的特征提取3. 特征选择4. 分类3.1. 预处理预处理包括预加重分块、加窗和帧分块，其步骤如下：预加重：语音信号通过高通滤波器（FIR）以增加高频带的幅度，如等式（1）所示。其中α是预加重参数，其通常在0.9和1之间：x信号成帧：把连续的语音信号分成固定长度的段（20毫秒，重叠10毫秒）的过程。··S. Langari等人医学信息学解锁20（2020）1004245M-1-jπka[客户端]N-1卢恩e2是DFT特征值的a次方所示⎟1 0 0 ⋯12cos2πn- 1- 4⎛⎞图二. 建议的特征选择流程图。• 加窗：将汉明窗函数应用于帧，如等式（1）所其中，对于w（n），窗口大小为M：w（n）=0. 54比0 46cos（2πn）0≤n≤M-1（4）3.2. 建议的特征提取在SER中，关键的过程是提取必要的信息e2。本文还证明了一个定理，即作为S矩阵的特征函数的Hermite-Gaussian函数（Eq. （7））也是DFT矩阵X的特征函数。已知DFT矩阵X或S的特征向量是偶数或奇数向量。因此，我们将引入一个矩阵XP，它将任意向量分解为它的偶数或奇数分量，例如，5维矩阵XP在等式中示出（八）、考虑到PSP-1变换，从S求公共特征向量的问题归结为求矩阵Ev和Od的特征向量。的信号。在这项研究中，我们提出了一种基于离散分数傅立叶变换（DFrFT）的自适应时频特征提取方法，它是通过扩展经典PSP-1=Ev00Od（六）离散傅里叶变换（DFT）及其特征向量和特征值，根据等式（1）。（5）.Fa[m，n]=∑uk[m]e-jπkauk[n]（5）2-210米 0 112cos2 π1π 0 0⎜ ⎟4π2k=0S=-10 1 2cosπ 2- 4 0 0（7）n哪里 uk[n]表示第k个离散厄米-高斯函数和-jπka⋮ ⋮ ⋱ ⋮⎜⎝⎟⎠根据Candan方程第一个是DFT的特征结构。由于DFT矩阵X只有四个特定的特征值，因此特征值通常为⎛√̅2̅̅n0000⎞S. Langari等人医学信息学解锁20（2020）1004246K01001⎜⎜⎝⎟⎟⎠退化，因此特征向量集不是唯一的。通过选择厄米-高斯函数作为方程中的本征函数来解决这种模糊性。（5）.第二个模糊性发生在取特征值的分数幂时，因为分数幂运算不是单值的。这种模糊性将通过取特征值λa=01001P=00110001-1 0（八）S. Langari等人医学信息学解锁20（2020）1004247[客户端]K+K表2分析了角度α对SER性能的影响。电话：+86-0571 - 8888888传真：+86-0571 - 8888888准确度92.02 92.71 91.58 92.33 93.45 93.08 92.95S的偶特征向量可以形成为U2kn，类似地，S的奇特征向量通过补零和变换U2k+ 1[n]从Od的特征向量导出（等式10）。（9））。U2k[n]=P[eT0;U2k1[n]=P[0. 0 o T ] T（9）其中，Evk和Odk是Ev和Od矩阵的特征向量，k为零。图三. α的最佳值表3EMO-DB数据集上建议SER的混淆矩阵EMO-DBSADN。中性。HPPPl恐惧DISGU。无聊生气SADN。59101100中性。07720000HPPPl02672000恐惧01266000DISGU。01004500无聊00000810生气000000127表4SAVEE数据集上拟议SER的混淆矩阵保存SADN。中性。HPPPl恐惧DISGU。SURP.生气SADN。50201601中性。35700000HPPPl10415238恐惧10545162DISGU。40224912SURP.01282434生气00512151S. Langari等人医学信息学解锁20（2020）1004248我表5在PDREC数据集上提出的SER的混淆矩阵PDREC生气恐惧HPPPlSADN。Nutr.无聊DISGU。SURP.生气1683311001恐惧651600000HPPPl606991000SADN。2011339000Nutr.0001193000无聊000032420DISGU。000003140SURP.100001434图四、使用各种特征提取方法的SER的平均识别精度。交叉点（0≤k≤N/ 2）。在最后一步中，算法F（i）=w*Acc+ 10 *w*f-1（十）应该找到最好的nnum分类. 分数傅里叶变换基于旋转角旋转角为此，训练SVM模型以找到“α”的最佳值当此值为1时，DFrFT为和DFT一样。该步骤的功能描述如下：找到{ max Acc.Fa[m，n]，ti）};0α≤2π且α∈R其中Acc是SVM的准确度，Fa[m，n]和ti是特征其中Acc表示分类器的准确度，f_num表示特征的数量，并且wr和wn分别表示它们的权重。选择、交叉和变异算子继续进行，直到达到终止条件，并且保存上一代中的最佳解以用作CS的初始种群。因此，CS阶段从更接近最优解的种群开始，并且对第i只布谷鸟执行以下Levy飞行xt+1t-λ分别是每个样本i的向量和标签。3.3. 特征选择在SER中通常使用特征选择技术来找到准确识别情绪的特征子集。在这项工作中，我们使用的混合方法组成的遗传算法和布谷鸟搜索的特征选择。在第一步中，GA探索搜索区域，以隔离搜索空间中最有希望的区域。在第二步中，CS被执行，以改善全局搜索，以避免陷入局部最优（从GA获得的解决方案，并找到更好的新的解决方案）。所提出的特征选择如图所示。二、在GA的第一步中，随机生成二进制染色体的n-by-d（特征数）初始群体，并使用适应度函数（等式2）评估因子（10））。我=xi+α <$Levy（λ）;Levy（u）=t 、1<λ ≤ 3（11）最后得到CS模型的最佳参数向量。4. 实验及结果分析4.1. 实验装置在这项研究中，我们使用第2节中提到的特征进行了各种实验，以评估所提出的方法的性能。我们使用了535个EMO-DB语音信号，420个SAVEE信号， 743条PDREC记录来评估我们提出的言语情感识别。在所有实验中，使用10倍交叉验证方法来训练和测试分类器。其他研究报告称，全局特征在分类精度和计算效率方面优于局部特征[2]。因此，每个信号必须首先被分割成帧，然后从每个帧中提取特征，我S. Langari等人医学信息学解锁20（2020）1004249S=-（）（）==表6使用各种特征提取方法的SER的准确性布拉夫为fs-E（fs）标准（fs）（十二）数据集/特征平均准确度平均精度未加权平均加权平均在上面的等式中，fs是从信号s中提取的特征向量，EMO-DB音调+能量+持续时间MFCC+LPCC+共振峰傅立叶参数的建议方法86.65% 52.56% 48.96% 53.27%94.90% 82.32% 81.69% 82.5%97.70% 91.42% 90.87% 91.96%99.31% 97.23% 97.21% 97.57%其中E fs和std fs是它的平均值和标准偏差值。在这项工作中，使用具有RBF核的名为LIBSVM [35]的工具箱进行分类，并将核参数设置为c 10，γ 0。1.两个实验的结果讨论如下：1.SER使用一组通用函数，2.建议的SER。4.2. 结果分析节省间距+能量+持续时间MFCC+LPCC+提出的共振峰傅立叶参数80.68% 31.94% 32.38% 32.38%84.27% 55.20% 53.57% 53.57%84.90% 46.84% 47.14% 47.14%94.29% 80.08% 80%为了评估该方法的性能，我们比较了所提出的SER的结果与语音情感识别的结果使用共同的特征。出于这个原因，我们进行了各种实验，其中一些在本研究中报告。在第一个实验中，我们对每个数据集使用SER中常见的特征提取方法。如在自动情绪识别领域中常见的，使用“未加权平均值”（UA）报告结果“Weighted 在PDREC方法音高+能量+持续时间MFCC+58.60% 13.56% 17% 34.01%86.45% 36.33% 33.64% 45.1%在这项工作中，使用WA和UA测量总体精度，但其他性能指标（如精度和平均精度）也根据公式计算。（13）Eq. （十六）：LPCC+∑l（tpi+tni）=（十三）共振峰Fourier参数88.15% 37.66% 35.89%47.6%平均准确率i=1（tpi+fni+fpi+tni）L建议97.87% 89.98% 87.31% 91.47%∑lTPI=方法平均精度i=1（tpi+fpi）L∑lTPIL（十四）表7比较了几种最佳特征提取方法对识别各种UnweightedAverage（MacroAverageRecall）=i=1（tpi+fni）（十五）情感课加权平均微平均召回∑l TPI（十六）（）=∑li=1类/数据集EMO-DB SAVEE PDRECi=1tpi+fni使用EMO-DB数据集进行训练和测试的结果表明，幸福建议建议愤怒提议81.5%的输入信号被正确分类使用MFCC功能.据观察，使用LPCC特征的情感识别是有效的。悲伤MFCC+ LPCC+共振峰拟议数太低，约为42%。因此，添加了建议建议建议厌恶建议建议MFCC+ LPCC+这些功能，提高了高达46.5%的结果。因此，考虑到交流，WA准确性提高到82.5%（UA为81.69%）。无聊建议中立提议共振峰拟议数统计与声道信息相关的特征（MFCC、LPCC、For-mants）。我们还在SAVEE和PDREC数据集上测试了这个实验惊喜导致为每个特征向量创建曲线。在特征提取步骤中，提取声道和韵律信息，即：MFCC及其一阶和二阶导数的13个系数，LPCC及其一阶和二阶导数的13个系数，前4个共振峰、音高、能量和一阶傅立叶谐波及其一阶和二阶导数的120个系数。此外，120个系数的建议的特征谐波及其一阶和二阶导数被提取。然后，对每条特征曲线应用20个统计函数，包括平均值、最大值、最小值、变异范围、标准差、平均差、第1百分位数、第5百分位数、第10百分位数、第25百分位数、第75百分位数、第90百分位数、第95百分位数、第99百分位数、偏度、四分位数间距、峰度以及10%和25%修剪平均值。在特征选择阶段，该算法的基本参数是巢数n100，变异和交叉的概率分别为0.25和0.85。分类前的最后一步是根据等式使用Z分数归一化方法对特征向量进行归一化。（12）减少说话人多样性对识别率的影响[34]：WA准确率分别为53.57%和45.1%。在实验二中，我们讨论了提取的韵律特征（音高、能量、时长）对语音识别的影响。在EMO-DB、SAVEE和PDREC数据集上使用这些特征的SER结果分别显示WA识别率为53.27%、32.38%和34%。第三个实验是对从傅立叶系数中提取的特征进行的。如图所示，与先前的特征相比，在EMO-DB数据集中使用傅立叶系数的识别率提高到91.96%（WA）和90.87%（UA）。在SAVEE和PDREC中，我们分别获得了47.14%和45.1%（UA：35.89%）的WA准确性。然后，我们评估了所有三个数据集的语音情感识别方法。应当注意，在所提出的特征提取过程的最后一步中，进行了许多实验以找到最佳角度，并且根据表2测试了不同的α值。要素中角度α拟议SER的提取阶段是一个0的情况。85、根据图3.第三章。我们提出的方法在每个数据集上进行，并实现了EMO-DB的准确率（WA，UA）为（97.57%，97.21%），SAVEE为（80%，这些实验的混淆矩阵见表3、4和5。此外，图4和表6显示了结果的比较。作为S. Langari等人医学信息学解锁20（2020）10042410图五. EMO-DB实验的性能评价见图6。 SAVEE实验的性能评价如图4所示，使用所提出的方法的最后一个实验在所有数据集中具有最高的准确度表7显示，我们提出的SER可以更准确地识别每三个数据集中的大多数类。如图如图5和6以及7所示，使用韵律特征（如音高和能量）的SER在所有三个数据集中的所有类别中具有最低的识别率，而我们提出的方法更准确。5. 讨论在前面的部分中，我们进行了几种类型的特征提取实验，并在BERLIN数据库，SAVEE语料库和PDREC数据库中使用我们提出的方法获得了最佳性能。此外，我们将传统的特征提取方法与本文提出的结构进行了比较，以验证SER的有效性，并深入研究了一些创新点作为在引言中提到的时频自适应特征提取方法是基于傅立叶分数变换的，该傅立叶分数变换基于时频平面上的角度“α”的旋转我们使用DFrFT进行特征提取来识别情绪的动机是，通过旋转角度基于这种映射，可以提高情感识别的准确性。由于“α”角的旋转程度由于提出的特征提取时频域信息，我们将其与提供倒谱域信息的MFCC系数相结合。然后，根据所提出方法的框图，采用GA-CS混合特征选择算法，获得了最高的识别率S. Langari等人医学信息学解锁20（2020）10042410表8见图7。 PDREC实验的性能评价。第一阶段是使用语音谱图的稀疏自动编码器来学习局部不变特征，并且在下一阶段中，建议SER和一些以前的作品之间的比较。保存欧士七（2019）[19]72.39%使用PCA提取以提高识别率。与Yogesh等人的工作[ 38 ]相比，所提出的SER的性能略有改善Yogesh等人提出了一种新的粒子群优化辅助的基于生物地理学的算法，用于BSBCF（双谱和双相干特征）和Interspeech2010特征的特征选择。此外，表8显示，我们在柏林数据集中的结果比Kuchibhotla等人的研究结果更准确。[37]，该研究引入了使用声学特征（音调，能量，MFCC）进行SER的最佳两阶段特征选择方法。PDREC建议WA：80% UA：80%Esmaileyan和Marvi（2014年a）[5] 51.51%Esmaileyan和Marvi（2014年b）[39] 60.28%建议WA：91.47% UA：87.31%6. 结论本研究提出一种新的利用自适应时频系数的语音特征提取方法，以提高语音在所有三个数据集中的比率（表6）。值得注意的是，与其他方法相比，我们提出的方法对三种不同语言（德语，英语和波斯语）的三个数据集以及各种说话者的数量和性别实现了最高的识别率。此外，根据表7中所示的结果，所提出的SER具有最高的准确度，以识别所有三个数据集中的更多类别。此外，为了验证我们提出的SER的可行性，它的性能与其他工作进行了比较，为三个数据集。在这项研究中，我们使用EMO-DB，SAVEE和PDREC数据集的比较实验，在SER之间，我们的建议和一些以前的工作。根据表8，所提出的方法具有最高的识别率与其他研究相比。实验结果表明，该方法对EMO-DB和SAVEE的识别率分别提高了13%和7.5%，与Oüzseven的研究[ 19 ]相比选择方法基于情绪对声学特征的变化。此外，表8表明，与其他研究[5，39]相比，PDREC的识别准确性有所提高，这些研究分别使用了从变异函数的离散余弦变换系数中提取的特征如表8所示，Mao et al.该研究使用卷积神经网络进行两阶段情感识别模型。第一情绪识别在所提出的方法中，我们试图找到一组功能，提高语音情感识别的准确性。为了实现这一目标，在时间-频率域中的自适应特征，即分数傅里叶变换，通过调整角度α的最佳值来提取。然后，这些系数和MFCC的组合应用于GA-CS特征选择算法，以选择最有效的特征集。在三个数据集上对该方法与其他特征提取和选择方法的有效性进行了实验比较。实验结果表明，EMO-DB、SAVEE和PDREC数据集的WA、UA准确率分别为97.57%，97.21%、80%，80%和91.46%，87.31%。实验结果表明，与其他方法相比，该方法能够有效地描述和识别各种情感语音数据集的情感特征。由于时间维度在所提出的特征提取方法中可用，因此将来这些特征可以用作LSTM和CNN等深度网络的输入，以利用这些网络的能力来实现高级特征。也可以检查其他分类器，以评估它们的性能对我们提出的模型的影响。另外，与说话人无关的语音情感识别也将受到更多的关注.数据集参考精度EMO-DBMao等人（2014）[28]百分之八十八点三Kuchibhotla等人（2016）[37]92.70%Yogesh等人（2017）[38]百分之九十七点五四[2019年]84.62%提出WA：97.57%普遍获得：97.22%Mao等人（2014）[28]86.70%Yogesh等人（2017）[38]78.44%Liu等人（2018 b）[18]76.40%S. Langari等人医学信息学解锁20（2020）10042411+竞合利益作者声明，他们没有已知的可能影响本文所报告工作确认一个也没有。引用[1] Casale S，Russo A，Serrano S.基于遗传算法的特征子集选择的重音语音多风格分类。演讲通讯2007;49：801-10.[2] El Ayadi M，Kamel MS，Karray F.语音情感识别综述：特征、分类方案与数据库。 Pattern Bronze 2011;44：572-87.[3] 杨伟华，王伟华.德语情感语音数据库。2005年：第九届欧洲语音通信与技术会议。p. 1517-20.[4] Haq S，Jackson PJB.依赖于说话者的视听情感识别。In：Int'l conf. 视觉语音处理;2009。p. 53比8[5] Esmailyan Z，Marvi H.波斯语语音情感自动识别数据库：收集，处理和评估。International Journal ofEngineering，Transactions A：Basics2014;27：79-90.[6] 叶俊宏，包德霖，蔡永文，陈耀庭。基于分段的汉语连续语音情感识别。ComputBehav2011;27：1545-52.[7] Ooi CS，Seng KP，Ang LM，Chew LW.一种新的音频情感识别方法。EX pert SystAppl 2014;41：5858[8] Akçay MB，Oguz K.语音情感识别：情感模型、数据库、特征、预处理方法、支持模态和分类器。2020年演讲通讯;116：56-76.[9] Lee CM，Narayanan SS.在口语对话中检测情绪。IEEE跨语音音频处理2005;13：293-303.[10] KamaruddinN，Wahab A. 语音情感特征提取 J ComputMethods Sci Eng2009;9：1-12.[11] Nwe TL，Foo SW，De Silva Liyanage C.基于隐马尔可夫模型的语音情感识别。演讲通讯2003;41：603-23.[12] Ververweg D，Kotropoulos C，Pitas I.自动情感语音分类。2004年IEEE声学、语音和信号处理国际会议;2004。 I-593.[13] 放大图片创作者：Nan D，J.使用甘精胰岛素的自发语音中的情感识别。收录于：国际语音通信协会年会论文集。INTERSPEECH; 2006年。p. 809- 12[14] ChenJ，Huang YA，Li Q，Paliwal KK.利用动态谱子带质心识别含噪语音。IEEE Signal Process Lett2004;11：258-61.[15] 王凯，安宁，李斌，张英，李玲。基于傅立叶参数的语音情感识别。 IEEETransactions on Affective Computing 2015;6：69-75.[16] Mcaulay R，Quatieri T.基于正弦表示的语音分析/合成。IEEE transacoust语音信号处理1986;34：744-54.[17] Calvo RA，D'Mello S.情感检测：模型、方法及其应用的跨学科综述。IEEETransactions on Affective Computing 2010;1：18-37.[18] 刘子涛，谢强，吴明，曹文辉，梅英，毛继伟。语音情感识别一个改进的大脑情绪学习模型神经计算2018;309：145-56.[19] 奥茨文一种新的语音情感识别特征选择方法。 Appl2019;146：320[20] Jackson P，Haq S，EdgeJ. Audio-visual feature selection and reduction foremotionclassification. In：Int'l conf. On

下载后可阅读完整内容，剩余1页未读，立即下载