没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于联合直方图互信息的语音情感识别Abdenour Hacine-Gharbia,Philippe Ravierb,aLMSE实验室,Bordj Bou Arréridj大学,Elanasser,34030 Bordj Bou Arréridj,阿尔及利亚bPRISME实验室,奥尔良大学,12 rue de Blois,45067 Orléans,INSA-CVL,法国阿提奇莱因福奥文章历史记录:收到2019年2019年6月24日修订2019年7月21日接受在线预订2019年保留字:语音情感识别联合直方图互信息分箱特征选择MFCC系数GMM模型A B S T R A C T互信息(MI)先前已被用来选择语音情感识别(SER)的任务的相关功能。然而,该过程不提供最佳数量的相关特征。我们提出了基于MI的标准来估计这个数字,定义为最小数量的特征,解释变量的类指数。为了最大限度地减少MI估计误差,我们还搜索了最佳的直方图装箱选择考虑三个公式:Sturges,斯科特和LMSE。实现了MMI、CMI、JMI和TMI四种选择策略,并将其应用于39特征向量和高维向量。特征选择结果在基于GMM分类器的独立文本SER系统上得到了验证,并在EMO-db数据库上得到了评价。结果表明,LMSE bin选择提供了最佳的MI估计,并确保了最小数量的功能,轻微的性能下降。特别是,使用所提出的停止准则,CMI策略实现了减少48.72%的情况下的39个特征向量的大小和67.86%的情况下的大尺寸向量。此外,使用识别率标准,JMI策略给出了一个相当的特征约简,性能略有改善,但需要非常高的计算能力。©2019作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍语音情感识别(SER)由于其在安全领域、人机交互、交互式教学、计算机游戏或营销中的广泛应用而在过去十年中受到了很多关注(Huang等人, 2014年)。它旨在利用信号处理和模式识别领域的工具,从语音信号中自动识别说话人的情感状态具体地说,SER系统涉及一个语音分析工具,以有效地从语音信号中提取特征,以及一个模式分类器,以识别输入语音信号的情感类别在文献中,已经 提 出 了 基 于 不 同 特 征 提 取 方 法 和 分 类 方 法 的 几 种 SER 系 统(Shashidhar和Sreenivasa,2012)。*通讯作者。电子邮件地址:philippe. univ-orleans.fr(P. Ravier)。沙特国王大学负责同行审查在几篇论文中通常使用和讨论的特征是短期谱特征,包括线性预测倒谱系数(LPCC )、感知线性预测(PLP)和梅尔频率倒谱系数(MFCC),以及韵律特征,包括能量和音高特征(Basu等人,2017年; Wu等人,2011年)。根据几位作者,结果已经证明了MFCC描述符对于SER任务的效率(Wu等人,2011; Pan等人,2012; Zaidan andSalam,2016;Trabelsi and Bouhlel,2016).此外,研究人员已经提出了几种分类方法,例如隐马尔可夫模型(HMM)(Schuller等人,2003)、高斯混合模型(GMM)(Neiberg等人,2006; Vijesh Joe和Shinly Swarna Sugi,2016),K-最近邻(KNN)(Lanjewar等人,2015)、支持向量机(SVM)和人工神经网络(ANN)(Pao等人,2006; Mannepalli等人, 2018年)。SER系统中可能需要的重要步骤是在特征提取步骤之后选择相关特征。它的主要目的是选择重要的特征,包含相关信息的情感类没有冗余。这减少了计算时间和存储容量,并且进一步可以提高准确度,同时避免众所周知的维数灾难现象(Jain等人, 2000年)。特征选择方法被分为两大类(Kohavi和John,1997)。第一个是https://doi.org/10.1016/j.jksuci.2019.07.0081319-1578/©2019作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comA. Hacine-Gharbi,P.Ravier/沙特国王大学学报1075¼包装器根据分类系统的准确性对哪些方法进行分类,作为特征子集的相关性度量因此,来自包装器类别的方法取决于要构建的分类器(Giannoulis和Potamianos,2012),这需要巨大的计算成本来减小高维特征空间的大小第二个是过滤器类别,该方法基于对描述类有用的特征的相关性。特征和类之间共享的信息量被用作子集特征的相关性度量因此,过滤器类别的方法不依赖于分类器,这大大降低了计算成本,相比包装方法。在Manolov等人(2017)中,作者应用了一种基于互信息估计的滤波器方法算法,作为语音情感识别任务的特征相关性度量。他们已经使用了几种基于互信息最大化标准的策略,该互信息最大化标准使用了布朗的方法(Brown等人,2012年)。但是,使用此工具没有引入两个主要问题。作者(Brown等人,2012)已经提到,连续和有序变量的熵的计算是高度非平凡的,并且需要对实际上未知的分布的估计。事实上,他们已经提出了直方图方法,使用固定宽度的bin来估计熵和互信息。实际上,该工具箱对离散数据进行操作,这需要在应用互信息最大化标准之前对连续变量进行离散化。但直方图提出的方法是一个关键点,必须仔细驱动之前,应用布朗的工具箱。因此,离散化问题是一个问题。此外,工具箱不允许得到互信息的估计值。这些值可以用于确定相关特征的最佳数量。最佳数量问题是这项工作的主要关注点我们首先提出了更多的细节熵和MI计算使用直方图的方法,并研究直方图箱数的选择对估计质量的影响。在此基础上,我们讨论了基于MI值准则的SER任务的最佳特征数。为了验证这一建议,SER系统已进行了第一次使用MFCC功能与能量和他们的第一和第二导数和第二次使用的组合,几种类型频谱特征(MFCC、LPCC、PLP)和韵律特征(音高和能量)。后一种验证研究大特征尺寸。此外,使用柏林情绪语音数据库(Berlin Databaseof EmotionalSpeech,BDB)评估系统性能,该数据库考虑不同的情绪类别,例如愤怒、无聊、厌恶、恐惧、快乐、悲伤和中性(Burkhardt等人,2005年)。2. 情感语音识别系统自动情感识别系统是一种模式识别系统,通常由两个重要阶段组成,训练(学习)阶段和测试(分类)阶段。这两个阶段都需要一个特征提取步骤,将每个时间信号转换为一系列短期特征向量。训练阶段的目标是学习类的情感模式的发生训练数据库使用类建模方法。在测试阶段,系统使用分类器来识别未知输入信号所属的类别。通常,使用信号的测试数据库来对每个信号进行分类,并最终使用精度准则来评估系统性能基于该一般描述,我们在下文中呈现了我们开发的SER系统的架构,其中选择步骤对于估计所选特征的最佳数量功能选择将在第3中介绍。2.1. 建议的体系结构图1显示了我们SER系统的示意图。它示出了用于学习情感发生的训练阶段和用于自动识别系统的性能研究的测试阶段。每个阶段都考虑了短期特征提取。该图还包括本研究中提供的降维选择程序。2.2. 情感建模这项工作中使用的情感识别系统基于GMM方法,该方法通过GMM用n个高斯模型对每个情感进行建模(Vijesh Joe和ShinlySwarna Sugi,2016)。 该系统的实现使用HTK 工具(HiddenMarkov Model Toolkit)来执行,其中我们将GMM视为具有由具有对角协方差矩阵的n个高斯分量的GMM建模的一个状态的HMM模型(Young等人, 1999年)。HMM模型由语音描述符馈送,并且根据若干作者(Wu等人,2011),结果已经证明了MFCC描述符对于SER任务的效率(Pan等人,2012; Zaidan and Salam,2016).在Trabelsi和Bouhlel(2016)中,作者比较了不同描述符(如MFCC,PLP,LPCC和Rasta PLP)的性能结果。研究表明,最好的性能结果与12系数MFCC。为了考虑数据的动态演变,我们使用具有能量及其一阶和二阶导数的MFCC,其形成39分量特征向量(Wu等人,2011年)。通过抑制信号边界的静默来预处理数据库的每个话语,并且通过具有0.97的预加重系数的高通滤波器来滤波(Wu等人,2011年)。然后,使用HTK库的“Hcopy”命令,将每个获得的对应于情感类的话语信号训练数据库的向量序列用于通过使用命令“HEREST”的GMM模型对每个情感类进行接下来,使用命令“HVITE”对测试数据库的每个向量序列进行分类。最后,通过使用命令'HResult'进行性能评估。分类系统的质量通过识别率RR进行评价,定义为:RRO-MO其中O是在分类器的输入处给出的出现的总数,并且M是错误分类的出现的数量。2.3. 语音数据库我们已经使用柏林情感语音数据库(EMO-DB)来评估系统性能(Burkhardt等人, 2005年)。该数据集由10个演员(5男5女)发音的不同文本的10个德语句子(5个短句构成集合A,5个长句构成集合B)组成,这些演员模拟包括中性在内的7种主要情绪状态(愤怒、无聊、厌恶、恐惧、快乐、悲伤)。这些句子来自日常交流,可以在所有应用情感中解释。总的集合由800个话语组成,包括一些第二版本,但是最终的集合仅考虑535个话语,因为对每个话语进行了人工验证(20个听众必须决定在哪个情感版本中,1076A. Hacine-Gharbi,P.Ravier/沙特国王大学学报S F..好吧 Σ1/4jY1/4jYf···g1/4jY.Σ.Σ图1.一、 SER系统图:训练阶段(虚线)使用训练数据库的出现及其对应的文本来学习GMM情感模型;选择步骤(虚线)提取最相关的特征,其降低了问题的维度;测试阶段(实线)决定测试信号属于哪个情感类。当识别率高于80%并且还考虑到超过60%的收听者的句子是自然的时,确定说话者曾经是的并且做出包括数据集的决定)。表1详细说明了7种情绪状态中句子记录的分布以及分别用于测试和训练阶段的出现次数。句子的长度为1-2秒。以48 kHz的采样频率进行记录,随后向下采样至16 kHz。在本工作中,短句的集合A被作为具有277个发音的训练数据库,而长句的集合B被作为具有258个发音的测试数据库由于测试数据库中的句子与训练数据库中的句子不具有相同的文本,因此我们得到了独立文本模式的SER系统。3. 基于互信息的直方图特征提取方法任务。互信息因其能够评价变量间的非线性统计相关性因此,以这样的方式选择子集Sopt,使得Sopt和类标签C之间的MI最大化:Sopt1/4 arg maxIEC2 C; S opt1/4 arg max IEC2 C; S opt1/4 arg max IEC2 C;S opt1/4 arg max IEC2 C; S opt1/4 arg max IEC2 C然而,当S的大小增长时,用于快速构造待测试的集合S的特征组合的数量变得过高。为了避免这个问题,可以采用“贪婪向前”搜索策略。搜索是一个逐个选择的过程,在每一步j给出最好的功能YPj从搜索功能集。这个新的选择特征YPj通过附加已选择的子集Sj-1来增加它作为Sj< $YPj[ Sj- 1:选择YP arg maxi2F- Sj- 1我是。C;Yi;Sj-13.1. 特征选择问题在高维问题中,由于I C; Y i; Sj-1¼ I C; Sj-1I C; Y if Sj-1(Cover和Thomas,1991),(2)可以简化为:许多特征通常是必需的。可以通过变换特征或通过选择特征来实现缩减。YP arg maxi2F- Sj- 1hI.C;YifSj-1i3第一种方法在于变换n个特征Y1; Y2; Yn的初始集合F的特征在k低维子集中功能. 然而,这种解决方案需要计算所有当量(3)也可以在C、Yi和Sj-1之间的3阶多元MI中展开为:的特点以及选择适当的标准,这个转变的定义并不容易。第二YP arg maxi2F- Sj- 13.我的朋友C;Yi;Sj-1方法在于选择k个最相关的特征YP1; YP2···; YPk从形成子集Sopt的集合F中。与前者相反,第二种解决方案只需要在测试阶段为分类任务计算k个选定的特征。这种方法将是首选。特征选择过程使用对分类任务有用的特征子集Sopt是特征的最优子集,如果其信息对于分类器是最大的,则S opt是特征的最I3项可以是正的,这对应于撤销由新特征引入的 如果该项为负,则这意味着Y i和Sj-1是协同的(Brown等人, 2012年)。I3C;Yi; Sj-1的评价当j增长,因为这种评估需要估计高维概率密度函数,而高维概率密度函数对于固定的数据库大小来说不够精确(Drügman等人,2007年)。大多数算法提出了简化(4)以下不同表1EMO-DB语句在7种情绪状态和每个状态中的分布,用于测试/训练。情绪愤怒无聊厌恶恐惧幸福悲伤中性Number127814669716279测试/培训62/6540/4121/2534/3533/3830/3238/41A. Hacine-Gharbi,P.Ravier/沙特国王大学学报1077p10开奖结果b-1/4jYB.阿吉克.- 是 的-fð Þ ð Þ ð Þ ð ÞðÞYPj¼argYmaxI3C;Yi;YPkk/d回合21I C; Yi-j-I3C;Yi;YPkJYi2F-Sj-1YPk2Sj- 1K-1i j 1“pxpyRR.ΣMIM、MIFS、MRMR、CMI、DISR、CIFE、TMI、ICAP等策略(Brown等人,2012;Hacine-Gharbi等人,2013年)。在Brown et al.(2012),作者得出结论,JMI策略在数据库较小时提供了精确性,灵活性和稳定性之间的良好折衷。他们还指出,MRMR和CMI的策略,表现比其他的高相关性和小冗余之间的平衡。我们在下面给出(4)四种策略的选择。斯特奇斯提出k/1 log2N(斯特奇斯,1926年)。Scott提出D3: 5r=N,其中r代表数据标准差(Scott,1992)。在(Hacine-Gharbi等人,2013)最小化均方误差估计的MI。这个LMSE估计器写道:8>1 1vus6Nqb9=>k¼圆 22t141q2ð9Þ⬛ MMI(最大MI):>>;YP arg maxi2F- Sj- 1½IC;Yi]5其中数据的未知相关系数q已被其估计值q代替。此外,MMI标准仅使用IkC; Y i,其发展为IkC;YiHYi-HYifC。此计算需要以下内容⬛ TMI(截断MI)2F- S-j-1k¼1.编号用于熵估计的 L M S E 公 式 (Hacine-Gharbi等人,2013年):.63d3假设数据遵循a,则d<$q38324N12p36N729N2,⬛ 联合互信息“1X.编号范围等于六倍标准差的高斯分布。在此框架内对这三种策略进行了应用和比较的特征选择过程。⬛ 条件互信息YP¼argmax“IC;Yi-maxI3.C;Yi;YP#84. 实验和结果本文进行了几个实验,目的是:(1)给出SER系统的最佳结构参数;(2)研究SER系统的在SER任务中,面元数对特征选择的MI估计的影响;对于JMI和CMI策略,术语I3 C; Y; YP实际上是计算为I Yi; YP I Yi; YP C。变量X和Y之间的MI I X; Y表示为IX;Y的1/4其中px;y是X; Y的联合分布,p x和p y是边际分布。这个连续的定义可以是通过考虑I X; Y公式的离散版本和通过在分布的估计中应用直方图分区来估计。 分区会影响MI离散估计量这就构成了一个装箱问题,在下一节。3.2. 装箱问题所有的策略都面临着MI估计错误与选择的功能数量实际上,MI的最大化过程是基于个体MI估计的总和结果是误差的累积,对于相同的数据,其可以在当前选择的子集和作为选择的特征的函数的类别标签之间产生MI值的非常不同的演变此外,随着样本数量的减少,对于具有MI维度的正确估计,估计误差减小。因此,在MI计算中必须小心,以限制对特征选择标准有害的误差累积,并为语音情感识别任务找到最佳特征数量。均匀直方图分区经常被使用,因为一些现有的公式用于直接估计箱的数量k,或等效地估计箱宽度D。该公式使用的数据样本数为N,并且可能还需要一些经典的数据统计参数。研究了三种配方从MI曲线中提取了一组数据,并利用精度准则对结果进行了验证。4.1. 基于高斯混合模型的SER系统基于GMM分类器的SER系统设计首先需要搜索情感类GMM模型中高斯分量的最佳个数,使其具有最佳的分类准确率。为了实际证明在静态MFCC特征中加入能量和动态特征的重要性,进行了比较研究我们称这种描述符的配置为MFCC_EDA,其中E表示能量,D表示导数D(速度),A表示双导数DD(加速度)。因此,该经验旨在找到高斯分量数量和描述符类型的最佳组合。表2给出了基于GMM模型的SER系统的RR作为不同数量的高斯分量和不同描述符类型的函数。从这个表中,我们可以给出这些要点:- 取高斯分量数等于128并取描述符MDCC_ED或MFCC_EDA获得最佳组合- 能量和动态特征D提高了RR;- 单独添加DD并不能提高RR。在下面的部分中,我们将考虑MFCC_EDA描述符。表3给出了在MFCC_EDA描述符的情况下获得的混淆矩阵。 从这个矩阵中,恐惧和快乐类的性能值最差。XJ- 11/4jYIð6Þð10ÞYP arg maxi2F- Sj- 11千分之一ð7Þ1078A. Hacine-Gharbi,P.Ravier/沙特国王大学学报.Σ.Σ.Σ.Σ.Σ表2识别率作为GMM模型和描述符类型的高斯数n的函数nMFCC_EDAMFCCMFCC_EMFCC_EDMFCC_D161.6349.2251.9462.0257.36252.7154.2653.1060.0862.40468.6060.8560.8564.3466.28864.3463.9561.2464.7363.181672.0962.7964.3473.2665.893275.9767.8367.4471.7171.716480.6274.8173.6477.5274.0312884.5076.3680.2384.8879.8425682.9578.6881.0184.1182.17表3SER系统的MFCC_EDA描述符的混淆矩阵愤怒无聊恶心恐惧快乐神经病伤心.愤怒96.7801.6101.6100无聊085.0000105恶心4.764.7690.480000恐惧11.770052.9417.658.828.82快乐33.3300066.6700神经病02.6300097.370伤心.03.330003.3393.344.2. 用于特征选择的本实验的目的是研究在使用MMI、CMI、JMI和TMI策略进行特征选择时,箱数选择对MI估计的影响。使用的不同分级公式是第3.2节中给出的Sturges、Scott和LMSE公式。图图2-5示出了分别使用MMI、CMI、JMI和TMI选择策略的MI估计I C ; Y j ; S j-1的结果(MI估计是等式1的括号中的 表 达式 )。(2)对于每幅图,我们考虑预览装箱公式与相应的ST,SC,LMSE图例。从预览结果来看,添加DD描述符的13个特征并没有提高RR,因此这些特征不会添加任何解释情感类的信息。从理论上讲,I C; Yj; Sj-1值不能超过熵HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH并且应该达到最佳数量的相关特征的平台(Hacine-Gharbi等人,2013年)。然而,实际上,在选择相关参数之后,MI的曲线可能不会达到平台,这是因为使用启发式方法的MI近似,并且还因为图三.使用带有Sturges、Scott和LMSE箱选择的CMI策略估计I C; Yj; Sj- 1图二.使用Sturges、Scott和LMSE箱选择的MMI策略估计IC; Yj; Sj- 1见图4。使用Sturges、Scott和LMSE箱选择的JMI策略估计I C; Yj; Sj- 1A. Hacine-Gharbi,P.Ravier/沙特国王大学学报1079.Σð- Þ.ΣJ-图五.使用Sturges、Scott和LMSE箱选择的TMI策略估计IC; Yj; Sj- 1。增加熵H(C),表明仅使用具有TMI策略的LMSE分箱选择才达到MI估计的误差主要是由于样本数量的限制造成的。图2-5表明,无论选择策略如何,Scott和Sturges箱选择的互信息随着所选特征的数量迅速增加,并且与LMSE箱选择相比达到了很大的价值。特别是在使用Scottbin选择的TMI策略的情况下,MI曲线达到远高于使用其他bin选择获得的MI曲线和熵的Hohmic值。只有LMSE箱选择允许MI估计使用LMSE箱选择对四种选择策略进行排序。图7示出了使用MMI、CMI、JMI和TMI策略相对于所选择的特征数量的情感RR结果。可以观察到,大约20个特征足以解释类别,因为利用总数为39个特征获得了类似的RR值。然而,在第一次选择的功能之间的策略存在差异。表4和表5分别给出了所选特征的数量以及特征子集增长时相应的RR值从这些表中可以清楚地看出,静态特征的数量占主导地位,这证实了(Trabelsi和Bouhlel,2016)中获得的结果。此外,MMI策略对于6个首先选择的特征给出了最差的性能结果。这可以通过MMI选择过程来解释,MMI选择过程不考虑与已经选择的特征的任何冗余4.4. 最优特征从预览实验中,我们已经从RR和MI曲线中注意到,大于20的特征数量可以近似达到平台。该实验现在旨在搜索给出最佳性能结果的最小数量的特征,分别基于MI估计值(独立于分类器)和RR值(依赖于分类器)独立地采用两个标准。首先,我们遵循与(Hacine-Gharbi和Ravier,2018)中描述的标准相同的标准。该标准考虑了最大-最大值M Imax¼maxM I。C;Yj;Sj1阶的MI估计和a综上所述,图6显示了使用LMSE箱选择的四种策略的MI曲线。TMI策略得到的曲线值比其他策略得到的曲线值高,这可能是由于I3估计在求和中的误差累积此外,CMI、JMI和MMI曲线在大约20个特征处呈现平台然而,TMI大约在30个特征处达到平台因此,在下面的部分中,我们只考虑LMSE bin选择。4.3.基于MMI、CMI、JMI和TMI策略本实验旨在研究SER系统在RR方面的性能,作为所选特征顺序的函数我们骗-参数a对应于MI最大值值MI降低等于1 a%可以通过MI估计误差和启发式MI近似来解释。因此,实验搜索达到MI最大值的最小数量的所选特征。表6示出了对于四个实施例,所选特征的最小数量(#SF)作为以%给出的测试策略RR值也给出了相对于利用特征总数获得的RR(对于39个特征为84.50%)归一化的RR值。通过考虑MImax减少10%,CMI策略给出了特征数量(20)的最佳减少,但RR下降了2.76%。此外,JMI,TMI和CMI给出了一个很好的折衷之间的减少功能的数量和一个小的RR下降约1%。即使该标准与RR无关,它也能提供减少的功能数量,从而提供可接受的性能结果,而无需高成本分类器相关的特征数搜索过程设置。见图6。在LMSE箱选择的情况下,使用MMI、JMI、CMI和TMI策略估计IC; Yj; Sj-1见图7。情绪RR作为所选特征顺序的函数,具有MMI、CMI、JMI和TMI四种策略。几乎达到一个平台。1080A. Hacine-Gharbi,P.Ravier/沙特国王大学学报表4每个策略的前10个选定特征的数量Y1Y2Y3Y4Y5Y6Y7Y8Y9Y10MMI214539106813CMI2135149103828JMI213154938106TMI2131589328427表5获得的前10个选定特征的识别率。Y1Y2Y3Y4Y5Y6Y7Y8Y9Y10MMI42.6446.5148.4553.1056.2063.9568.6067.8372.8774.03CMI42.6448.0650.3956.9859.3064.3463.9571.3271.7173.26JMI42.6448.0652.7156.9859.3064.3464.7369.7771.7174.03TMI42.6448.0652.7156.9860.4764.3467.4467.8368.2269.38表6分类器独立情况下的最佳特征数结果#SF值是达到MI最大值%的最小值。 RR和RR值是对应的识别率及其归一化版本(w.r.t. RR(39))。一1009896949290MMI#SF393533312927RR84.5084.1184.1181.7883.3382.95RR10099.5499.5496.7898.6298.17CMI#SF352926242220RR82.5683.7284.1182.5681.7882.17RR97.7099.0899.5497.7096.7897.24JMI#SF393532302725RR84.5084.1182.9584.5083.7283.33RR10099.5498.1710099.0898.62TMI#SF363229262423RR82.9583.7283.7283.7281.4081.78RR98.1799.0899.0899.0896.3396.78其次,我们考虑一个分类器相关的标准,这是基于RR性能值。该标准搜索给出比针对总特征数(RR(39))获得的值更大或相等的RR值的最小特征数(#FT)表7示出了#FT值、对应的归一化的FT值和对应的归一化的FT值。RRT.为了研究维数灾难现象,还指出了每种策略的最大RR值。因此,报告给出最大RR值(#FM)的特征编号以及对应的归一化RRM值。对于这两种情况,还报告了应用于MI的a值,以便与分类器无关情况下使用的MI准则建立联系。该标准确保了与39个特征的情况下获得的特征相比,具有性能改进的最小数量的特征。JMI策略提供的特征数量最少(19个参数)。使用第一个MI标准,通过取等于83%获得最后一个结果,这表示MI相对于MI最大值下降17%。因此,为了确保能够实现良好性能的最小数量的特征为了验证结果,有必要取80和100.如前所述,这种变化可以用MI的估计误差和不同策略提出的MI近似值来解释。结果显示,使用CMI策略的32个特征(表7中未报告)的最大RR为86.05%。这个峰值可以用维数灾难现象来解释我们从这项研究中得出结论,使用MI曲线可以在不考虑分类器性能的情况下告知最小数量的特征第二个RR标准,需要更多的计算时间,结果表明,最好的妥协的特征减少和RR的改善,特别是与JMI策略。4.5. 不同要素类型本节的主要目的是验证所提出的算法的最佳特征数量估计的情况下,不同的特征类型在大维度。此外,它的目的是表7分类器相关情况下的最佳特征数结果#FT值是最小数量的特征,其给出的RR值大于或等于针对总共39个特征数量获得的RR。RRT值是对应的归一化速率及其a值。#FM值是给出最大RR值的特征的数量(以及它们的RRM和相应的值)。#FTRRTa#FT#FMRRMa/2000年MMI22100.9185.0322100.9185.03CMI27100.4597.4532101.8499.77JMI19100.4583.5826100.9191.22TMI21100.0087.0030100.4597.46A. Hacine-Gharbi,P.Ravier/沙特国王大学学报1081比较不同特征类型的相关性,以识别对解释情感类有用的主要特征类型。 在这项工作中,我们研究了特征的常见组合(Pan等人,2012),其考虑具有从短期分析提取的韵律特征的频谱特征。特别地,每个MFCC频谱特征向量使用相同的信号预处理(抑制信号边界的静默、滤波、加窗)用12个LPCC和12个PLP特征及其一阶和二阶导数来富集这个新的向量形成了108个光谱分量的向量(每种类型36个特征)。短期韵律特征包括能量及其一阶和二阶导数(3个特征)和音高(1个特征)。使用Praat软件(Boersma和Weenink,2018)估计每10 ms的因此,每个信号被转换成一系列矢量,每个矢量有112个分量。在训练阶段和测试阶段中,采用第2中描述的SER系统的相同配置,使用112个特征(除了在以下部分中搜索每个特征组合的高斯数)。4.5.1. 功能组合在本节中,我们使用上一节中描述的不同频谱和韵律类型的特征并采用它们的不同组合来进行比较性能研究。表8示出了使用这些类型的不同组合的识别率,并且还为每种情况选择高斯数(在1和256之间,具有2的幂级数),从而给出最佳识别率。从表8中,我们给出了以下几点:- 单独的频谱特征比单独的韵律特征给出更好的性能结果;该结果证实(Pan等人,2012)中,韵律特征的差分数可能是由特征(能量和音高)的弱数量引起的;- 在某些情况下,与仅使用韵律特征或仅使用谱特征相比,韵律+谱特征的组合- 谱特征和韵律特征之间的最佳组合是具有能量和它们的动态特征的MFCC;与仅韵律特征(E_DA_F0)相比,它提高了30.62%的识别率;将LPCC和PLP特征添加到后者稍微降低了性能结果,这可能是由冗余引起的(Pan等人, 2012)和特征向量的大维度引起维度灾难问题;- 音调F0通过与LPCC或PLP的组合而不是与MFCC或能量的组合而稍微改善了性能结果;最后的结果可能通过特征冗余来证明为了降低维数并可能提高性能,我们在下一节中给出了使用基于MI的特征选择策略从一组112个先前描述的特征中进行降维的结果。4.5.2. 基于MMI、CMI、JMI和TMI策略该研究的目的是尝试在由MFCC_EDA(1-39)、LPPC(40-75)、PLP(76-111)和音高F0(112)的排序向量能量和动态特性分别为13、26和39。从表9中可以注意到,静态MFCC系数大多数是利用前10个所选特征中的至少4个MFCC特征来选择的。其他选择的特征主要来自PLP类型。该选择证实了(Trabelsi和Bouhlel,2016)中给出的结果,该结果显示了MFCC类型在SER任务中的重要性。注意,PLP结构域(77和76)中的特征表8MFCC、LPCC、PLP特征类型加上能量和音高F0的不同组合的识别率。如4.1节中所研究的,动态特征DA总是包括在内(应用于韵律或频谱特征或两者)。韵律特征类型特征组合识别率数量的特征高斯数韵律+频谱光谱MFCC_LPCC_PLPE_DAE_DA_F0LPCC_PLP_DAMFCC_E_DAPLP_E_DALPCC_E_DAMFCC_E_DA_F0MFCC_LPCC_PLP_E_DALPCC_E_DA_F0PLP_E_DA_F0MFCC_LPCC_PLP_E_DA_F054.6582.1753.8884.5081.7881.7877.5283.3381.0179.4683.7284.1133643910839394011140401126412832128128128128128641281281281082A. Hacine-Gharbi,P.Ravier/沙特国王大学学报表9每个策略的112个特征中的前10个选定特征的数量Y1Y2Y3Y4Y5Y6Y7Y8Y9Y10MMI277176457987378CMI2135764049864280JMI213765774014979TMI213764051841983表10识别率获得的前10个选定的功能中的112。Y1Y2Y3Y4Y5Y6Y7Y8Y9Y10MMI42.6446.9046.9049.2251.9458.5358.1461.2469.3866.67CMI42.6448.0650.3958.9161.6364.3465.8969.7770.9365.12JMI42.6448.0652.7158.9158.1460.0862.0263.5765.8968.22TMI42.6448.0652.7156.9861.6357.7565.1266.2868.9968.99表11结果在分类器无关的情况下,使用CMI策略的最优特征数#SF值是达到MI最大值%的最小值。 RR和RR值是对应的识别率及其归一化版本(w.r.t. RR(112))。一1009590858075CMI#SF815343363025RR82.5685.2782.5683.3380.6280.23RR98.16101.3898.1699.1095.8595.39在等级上类似于MFCC域中的特征(2和1),使用MMI策略而不是使用CMI或JMI策略一起选择。这可以通过MMI策略没有考虑特征之间的冗余来解释。表9还显示静态特性总是比动态特性更受欢迎。静态相关优势证实了表4以及Trabelsi和Bouhlel(2016)得出的重要结果。此外,能量是CMI、JMI和TMI策略选择的第二个特征,这证实了韵律特征类型。通过比较表10和表5,使用112-特征选择程序的RR性能结果恶化。这可能是由于选择算法面临许多冗余特征的限制。许多原因可能可以解释这样的局限性:选择策略仍然是启发式的,并采取冗余高达3阶的MI计算;直方图分箱程序导致错误积累的MI在高维。4.5.3. 最佳特征由于特征的数量高于正在进行的研究,这导致更多的误差积累,因此考虑a值之间的更大步长。结果见表11只针对CMI策略。无论a值如何,RR值都在80%以上,如在表6.最佳特征数随着a值的减小而减小,当a= 85%时,最佳特征数的维数约然而,考虑到在112个特征中进行选择,该数量总是高于仅在39个MFCC_E_DA特征中进行选择。注意,已知MFCC系数是变量之间的良好解相关器,并且LPCC和PLP不提供该属性这就解释了使用MFCC功能时性能会更高的原因。5. 结论本研究的目的是估计语音情感识别任务的最佳数量的选择功能。我们研究了四种选择特征集的选择策略根据它们的相关性,基于MI计算。然后,使用基于特征选择集上MI的最大值的标准,将最佳数量估计为特征的最小数量。使用识别率标准进行了比较研究的最佳数量估计的功能。在这项工作中,我们使用直方图的方法来估计MI值,其简单性。然而,这种方法面临的装箱问题,讨论了采取几个箱数的选择,如斯特奇斯,斯科特和LMSE公式。结果通过执行基于GMM分类器的SER系统与特征提取步骤相结合来获得,该特征提取步骤取39个特征向量,其次取112个特征向量。特征向量由MFCC系数的静态、能量及其动态特征D和DD组成。使用EMO-db数据库评估SER系统性能。另外,通过采用包含谱特征和韵律特征的高维向量,也得到了其他结果。结果表明,LMSE选择给出了MI的最佳研究表明,MI为基础的标准相比,识别率曲线的基础上的标准,给出了可接受的性能结果在实际应用中,CMI策略结合基于MI的准则给出了48.72%的高特征减少(从39到20个特征)和67.86%的
下载后可阅读完整内容,剩余1页未读,立即下载
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)