基于鲸鱼优化算法的情感识别多SVNN分类器设计与实现

27 浏览量更新于2024-01-16 收藏 2.32MB PDF 举报

情感识别

语音信号

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于优化的多SVNN分类器语音Kasiprasad Mannepallia，Pamyam Narahari Sastryb，Maloji Sumanaa副教授，KL大学，KLEF，Vaddeswaram，Vijayawada，Guntur（Dist），Andhra Pradesh，522502，印度b印度Telangana 500075海得拉巴Gandipet CBIT教授阿提奇莱因福奥文章历史记录：2018年7月7日收到2018年10月4日修订2018年11月21日接受在线发售2018年保留字：情感识别语音信号多SVNN鲸鱼优化算法帝国主义竞争算法A B S T R A C T情绪识别是一个跨学科的研究领域，近年来受到了研究者的极大关注情感状态的自动识别旨在实现机器与人之间的接口。因此，在文献中使用结合了分数理论和深度信念网络的分数深度信念网络设计了一个被称为分数深度信念网络（FDBN）的说话人情感识别系统。本文提出了一种新的情感识别方法--基于多支持向量神经网络（Multi-SVNN）分类器的鲸鱼帝国主义优化算法（Whale-IpCA），用于语音信号中的情感识别新提出的此外，从输入信号中提取的光谱特征集，并提供给建议的鲸鱼IpCA为基础的多SVNN的识别目的。建议的鲸鱼IpCA的多SVNN的帮助下，如柏林和泰卢固语的标准情感数据库的模拟。从结果中可以看出，所提出的基于Whale-IpCA的多SVNN分类器的FNR、FPR和准确度分别为0.0025、0和0.9987，超过了其他现有的分类器。©2018作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍语音信号在表达说话人的情感方面起着至关重要的作用最近的研究人员集中于从语音信号中识别情感，因为它为构建人工智能系统提供了一种方法（Zhang等人， 2017年）。在模式识别和人工智能等领域，情感识别已经被用于建立人机交互。语音信号中的情绪因说话者的风格而异;此外，与单一情绪相对应的较长持续时间语音的存在会减少其他情绪（Sun和Wen，2017）。因此，有必要针对不同的帧长度来分析语音信号言语情感识别（SER）（Le和Provost，2013）是提取情感的方法*通讯作者电子邮件地址：mkasiprasad@gmail.com（K. Mannepalli）。沙特国王大学负责同行审查语音信号中的情感成分，而情感识别的基本步骤是特征提取和情感识别。SER通过识别语音中的情感来识别说话者的情感状态。在人工智能领域中使用SER使得人机交互更加自然（Badshah等人，2017年）。通过情绪识别系统识别语音中存在的合适情绪有助于语音分析系统，因此，诸如智能和监视的应用通过SER受益（Cao等人，2015年）。考虑用于情感识别的语音信号包含话语的集合，并且语音信号中的每个话语因此，情感识别器需要考虑隐藏在语音的每个话语内的情感。此外，语音中的情感内容根据文化和环境而变化（Ghai等人， 2017年）。情感识别的一个重要考虑因素是提取合适的特征，这些特征描述了说话人的情感。特征提取填补了语音信号中不同情感识别的研究空白使用手工设计的特征（Anagnostopoulos等人，2015; Deng等人， 2017）已被证明不足以区分信号中的情绪。因此，有必要利用https://doi.org/10.1016/j.jksuci.2018.11.0121319-1578/©2018作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comK. Mannepalli等人/Journal of King Saud University385为特征提取提供了更高等级的特征。通过引入特征选择方案，各种研究对SER的发展做出了重大贡献。这些特征仅仅在情感识别中具有更大的意义，因为情感的特征彼此不同。各种特征，例如线性预测系数（LPC）（Rabiner和Schafer，1978）、线性预测倒谱系数（LPCC）（ Atal ， 1974 ）和梅尔频率倒谱系数（ MFCC ）（ Davis 和Mermelstein，1980），显著地有助于情感识别（Wang等人，2015年）。情绪识别系统可以分为维度系统和范畴系统，其中，在维度类型中，情绪被识别为唤醒和效价，而范畴系统识别情绪通常，基于分类类型设计的情感识别器通过分类问题来识别情感（Tashev等人，2017年）。此外，难以从文献中可用的各种特征的集合中识别情感相关特征（Jing等人，2017年）。使用与特定情绪相关/或与语言相关的特征可以增强分类器的性能。在文献中采用的分类器建议监督和无监督的学习计划的情感识别。除了监督学习的各种优点之外，它很难访问带有标记结构的大型数据库此外，使用大量标记的数据增加了训练数据库的时间（Deng等人， 2017年）。传统的情感识别器提取语音中占主导地位的声学特征，并基于这些特征训练分类器（Cao等人， 2015年）。在工作中（Huang et al.，2017），情感识别系统已经使用了深度卷积神经网络（DCNN），并且在工作中（Rajisha et al.， 2016年），人工神经网络（ANN）和支持向量机（SVM）已被用于情感的分类。基于回归的模型（Jacob，2017）在识别受损语音信号中的情感时也有几项工作利用了深度学习（Harár et al.，2017）、随机森林分类器（Cao等人，2017）和高斯混合模型（Tashev等人，2017）用于情感识别，这些深度学习方案研究了这些特征，并且比其他机器学习范式表现得更好为了克服SER系统所面临的困难，这项工作引入了一种新的分类器，用于识别语音中的情感。FDBN（Mannepalli等人，2016a，b）在以前的工作中设计的学习过程中只使用了较少的功能。因此，为了进一步提高FDBN模型的准确性，本文引入了一种基于优化的分类器训练方案。在这里，Whale-IpCA算法是新开发的结合WOA和帝国主义竞争算法，和所提出的Whale-IpCA算法训练的多SVNN分类器分类的语音信号中的情感。通过特征提取过程提取各种特征，诸如光谱通量、光谱峰度、光谱偏度、光谱斜率、光谱扩展和增量幅度调制谱图（增量AMS），作为分类器的输入。本文的主要贡献是将WOA和IpCA相结合，发展了Whale-IpCA，用于语音信号的情感识别。建议的Whale-IpCA用于训练SVNN分类器，以便选择权重最佳的。第一介绍了语音情感识别模型，第二节简要介绍了对语音情感识别做出重要贡献的已有研究成果。第三部分描述了所提出的情感识别系统和第4解释了模拟结果第五节给出了2. 动机2.1. 文献调查本部分介绍了八篇与语音信号中的情感识别相关的文献Zhang等人（2017）提出了一种用于识别语音信号中的情感的DCNN。在这里，DCNN的训练是通过从语音信号中提取高级特征来完成的。从语音信号中提取的每一个特征，安排的帮助下，判别式时间金字塔匹配（DTPM）策略。该方案利用SVM分类器对语音中的情感进行分类。此外，该模型在处理连续维情感识别时，分类率也有所提高.Deng et al.（2017）提出了用于在语音信号中执行情感分类的半监督自动编码器。该模型尝试使用标记和未标记数据进行训练，并且使用具有监督学习目标的无监督自动编码器进行训练。Badshah等人（2017）提出了基于DCNN和矩形核函数的情感识别系统。该方案使用方形内核和池化算子来训练CNN。通过在频谱图中表示信号来识别语音信号中存在的情感。该模型使用较少数量的标记数据用于训练目的，因此，使用矩形核的训练是低效的。 Sun 和 Wen （ 2017 ）提出了用于 SER 的Encourage Softmax（ES）回归模型，该模型通过确保基本分类器之间的多样性来进行情感识别。此外，该方案只利用了大特征集中的较少特征，因此减少了训练时间。Yang等人（2017）提出了阈值融合机制用于集成用于情感分类的SVM分类器的集合将多个SVM分类器的输出进行组合，提高了分类精度但是，该方案没有分析该模型的抗噪特性Cao et al.（2015）提出了基于排名的模型，用于识别语音中的情绪。这里，SVM分类器被利用，并且来自SVM分类器的输出通过基于SVM的方案被安排。基于排序的方法基于多类预测策略得到结果。Mao等人（2014）通过结合CNN提出了SER模型，并且它使用局部不变特征（LIF）用于训练目的。该模型使用了更多的显着特征用于训练目的，但它不适合识别自然语音数据中的情感。Wang等人（2015）提出了用于识别语音质量和语音中的情感的傅立叶参数模型该模型使用语音的感知内容来识别合适的傅立叶参数模型提供了改进的识别率，但未能识别老年人语音中的Dorota Kaminska等人（2017）介绍了一种情绪语音的参数化方法，它使用了情绪识别中使用的一组常见特征，如LPC、感知线性预测（PLP）、MFCC、共振峰、能量和基频。这项工作的主要目标是评估每种特征类型的情感检测的准确性性能取决于SVM和k-最近邻（k-NN）算法与10倍交叉验证。所选特征具有很强的区分性，为它们在情感识别中的应用提供了依据。Fatemeh Noroozi等人（2017 a，b）介绍了一种使用随机森林的基于声音的情感识别方法在这里，成对的特征386K. Mannepalli等人/Journal of King Saud UniversityXFjSk-S kj21r r1ð Þ ð Þ¼.Σð Þ在整个语音信号上，利用诸如标准偏差、平均噪声谐波比、平均自相关、前四个共振峰带宽、前四个共振峰、强度和音调来识别说话者的情绪状态。随机森林是准确的，但耗时。Pavitra Patel等人（2017）开发了一种名为Boosted-GMM算法的提升算法，用于一致和正确地评估类条件高斯混合模型（GMM）。该算法提供了更准确的估计类条件的高斯分布，如声学特征的类条件分布。 Fatemeh Noroozi等人（2017a，b）分析和比较了三种分类器，即随机森林，Adaboost和多类支持向量机用于语音情感识别。每个分类器的决策通过多数表决联合起来。在此基础上，通过缩短特征向量的长度，降低了分类的复杂度。Seyedmajor Mirsamadi等人（2017）分析了深度学习在自动发现语音情感特征方面的应用。此外，他们还引入了一种特征池策略，该策略利用局部注意力来关注语音信号的特定区域，这些区域在情感上更显着。2.2. 挑战从语音信号中识别情感所涉及的各种挑战简述如下：识别不同人的情绪取决于年龄因素。老年人所表达的情感与年轻人的言语信号所表达的情感的二阶矩不同。因此，从成年人的言语中识别情绪是困难的（Wang等人，2015年）。在工作中（Tashev等人，2017），情绪识别在情绪的标记期间面临困难。除了通过在线资源获得的标记数据库之外，有必要定义用于标记每种情感的标准MFCC特征是从语音信号中提取的常用特征之一，但其主要缺点之一是MFCC的缺点在于它不考虑语音帧的相邻系数之间的关系（Sun等人，2015年）。这可能导致从信号中丢失重要的情感内容。对于语音信号中的每个话语，情绪都不同，因此，分析语音信号的话语是必要的。演讲中隐藏的情感因人而异，考虑具有N个语音信号的语音数据库S，并且考虑每个语音信号具有n个情感。存在于语音信号中的情感基于帧而变化，因此语音信号和存在于信号中的情感表示如下：D¼ fEi;16i6ng1其中，D为语音数据库中的语音信号，n为语音信号中的总情感，Ei为语音信号中的情感。第i情感。3.1. 从语音信号中提取特征第一步是从语音信号中提取必要的特征。从语音信号中提取基于谱的特征提高了分类性能，因为梅尔频率倒谱特征需要深度学习，并且还增加了训练多SVNN的复杂度。因此，这项工作利用了光谱特征，如通量，kurto- sis，偏度，斜率，展度和Δ AMS。这些特征集的描述如下，3.1.1. 谱通量谱通量特征度量语音信号中可用的基于频率的特征，并且它通过后续语音帧之间的欧氏距离来识别。频谱通量特征对于区分音乐和语音信号是有用的，因为音乐具有更高的变化率。光谱通量的表达式在以下等式中给出N=22-k¼1其中Srk和Sr-lk表示语音信号中后续帧的频谱值。3.1.2. 谱峭度特征提取过程中涉及的下一个特征是谱峰度（ Vrabie 等人，2003），并且它定义了语音帧之间的统计关系。频谱峰度也可以被定义为信号中语音帧的峰度值，并且它被定义为，基于文化和环境（Ghai等人， 2017年）。3. 提出的基于Whale-IpCA的多SVNN分类器F2a4fSωm;Sωm;Sωm;Sωmga2fSωm;Sωmg2ð3Þ语音信号本研究通过定义基于优化的分类方案来引入情感识别器。图1呈现了所提出的情感识别模型的架构以及各种代表性块。首先，将来自各个用户的语音信号收集在数据库中，然后从语音信号中提取表示情感的特征。从语音信号中提取的特征是频谱通量、kur-tosis、偏度、斜率、扩展和Δ AMS。从信号中提取的特征作为多SVNN分类器的训练信息，这是在这项工作中所涉及的情感识别。选择合适的权值和偏置的多SVNN分类器被认为是一个优化问题，是通过建议鲸鱼IpCA算法。Whale-IpCA算法综合了WOA算法和Imperialist竞争算法的优点。最后，提出的基于Whale-IpCA的多SVNN分类器识别语音信号中的合适的情感。其中，fSω mg 2Sm;Scm和Scm表示语音帧S m的复共轭;项a4和a2表示四阶和二阶累积量。3.1.3. 谱偏度谱偏度（Laurier等人，2010）指示语音信号的频谱分布在其平均值周围的不对称性。频谱偏度还指示通过分布的频谱的能级。如果在分布的左侧能量水平低，则语音信号的频谱偏斜度值将非常高。3.1.4. 光谱斜率语音信号的频谱斜率表示信号在高频期间具有低能量测量语音信号的斜率指示声音的性质频谱斜率可以通过将线性回归应用于从信号获得的傅立叶幅度谱来测量●●●●K. Mannepalli等人/Journal of King Saud University387ð Þ不-K不K日ð - ÞFig. 1. 基于Whale-IpCA的Multi-SVNN说话人情感识别体系结构。3.1.5. 频谱扩展频谱扩展特征计算语音信号的总带宽，并且其被表示为，Pkgk-SC m2 jSm;k j第这里，多SVNN分类器用于识别隐藏在语音信号中的情感。从信号中提取的特征用于训练Multi-SVNN，并通过使用Pro-SVNN来识别分类器的最优权值Whale-IpCA算法F5¼PkjSm;kjð4Þ其中，SC m是指光谱质心，其测量语音信号的亮度。上述表达式构成高阶矩，这些值表征了信号的不对称性和峰值。3.1.6. 德尔塔AMSDelta-AMS（Kim等人， 2009）特征包括由于时间和频率的变化而在语音信号中出现的各种类型的增量特征。Δ AMS特征的表达式简述如下，F6¼Qs;k½qs;k;Dqs;k;Dqs;k]5其中，Dqs;k和Dqs;k表示增量特征向量3.2.1. 用于情感识别图2示出了所提出的情感分类器系统以及多SVNN的架构。在多SVNN架构中，SVNN系列被布置用于对语音信号中的每个情感进行分类。考虑语音信号具有n个情感，那么，多SVNN分类器需要n1个SVNN单元。此外，还提供了从每个SVNN中提取的特征为了训练的目的。多SVNN中的每个SVNN都被训练成对单个情感进行分类，最后，n1 SVNN对最后两种情绪进行分类。每个SVNN的输出表达式表示如下，“的。X6！#识别不同的时间和频率。光谱通量、光谱偏度、光谱扩展和光谱斜率等特征的维数为[1*1]，而Delta AMS的特征大小为[1*92]。谱峰度具有[1*32]的特征大小。因此，从语音信号提取的特征的总大小是[1*128]。3.2. 基于Whale-IpCA的多SVNN对本节介绍了所提出的基于多SVNN分类器的情感识别由于语音信号中的情感在信号与信号之间以及在信号内部是不同的，因此需要考虑一系列的SVNN来进行情感识别。第1页其中，Ff指示提供给SVNN分类器的特征，并且J1指的是在输入和隐藏层中提供的权重。提供给SVNN分类器的特征乘以重量，表示为J2。等式中的项w1和w2（6）分别指隐藏层和输出层中的偏差3.2.2. Multi-SVNN的适应度通过多SVNN分类器进行情感分类的主要标准之一是定义合适的适应度。为多SVNN定义的用于定义输出Oi¼J1×log信号FfωJ2第一章2016年12月26日388K. Mannepalli等人/Journal of King Saud UniversitynJ JJ JnJ J我图二、Multi-SVNN的架构也影响适应度函数。多SVNN分类器的适应度函数的表达式表示如下，B¼x最大值X最小值XRX。O i-Oω。ð7Þ1/1步骤1：随机选择SVNN中存在的权重和偏置，并且用于多SVNN训练的解向量定义如下：我不知道。Zjt ;16j6Y100其中，Zj表示随机解，Y表示总和其中，Oi和Oωi 表示Multi-SVN MN的输出，地面实况信息，R表示输出的正则化因子，xmax和xmin表示权重向量特征，特征J×JT8x最大值1/4最大值1/4最小值1/4最小值1/4最小值1/4最小值9/43.2.3. 使用Whale-IpCA如图3所示，在所提出的Whale-IpCA算法的帮助下，分别训练多SVNN中采用的SVNN分类器。多SVNN的训练是基于所提出的Whale-IpCA。基于所提出的Whale-IpCA算法，通过训练多SVNN来识别隐藏在语音中的情感为了发现隐藏在语音信号中的情感，有必要找到合适的权重和偏差用于训练目的。为多SVNN中的每个SVNN声明最优权重和偏置可以被认为是一个优化问题。基于所提出的Whale-IpCA算法，得到了多SVNN的权值和偏差。所提出的Whale-IpCA算法是混合WOA（Mirjalili和Lewis，2016）和IpCA（Atashpaz-Gargari和Lucas，2007）。现有的WOA通过鲸鱼的行为定义优化过程，而IpCA依赖于殖民行为。使用WOA的优点是，对于较大的搜索空间，易于获得局部最优，解向量的个数。步骤2：适应度度量：Multi-SVNN训练的下一步是定义用于选择合适权重和偏差的适应度标准从Eq. （7）作为每个SVNN的适应度度量。步骤3：基于Whale-IpCA的解决方案更新：在该步骤中，基于所提出的Whale-IpCA算法更新解决方案。建议鲸鱼IpCA提供了三种类型的解决方案更新表示在环绕猎物阶段，开发阶段，和探索。基于所选择的搜索概率和系数向量的值，选择必要的更新。当s的值为0.5和A1时，解更新是基于如等式中指定的环绕猎物阶段来完成的。（十六）、对于s< 0.5和AP1的值，解决方案更新取决于方程中指定的探索阶段。（21）. 对于s> 0.5和A1的值（十九）、1) 基于包围猎物的更新：在这里，鲸鱼试图通过包围行为捕获猎物。因此，在包围猎物阶段，猎物的位置被明确定义，而搜索空间需要定义。现在，基于现有的WOA，基于包围猎物行为的解更新简要如下，！快去！别这样！答：C！别这样！答：Zt11在哪里，条款！A和！C表示在WOA中定义的系数向量IpCA在较大的搜索空间中很容易找到全局最小值因此，WOA和IpCA的整合提供了改进的结果。所提出的基于Whale-IpCA的多SVNN的训练中涉及的步骤描述如下，！A1/42：！p：！q-！Q！C2：！Qð12Þð13ÞK. Mannepalli等人/Journal of King Saud University389ωð ÞðÞ2.2gd2gdJ J！ð Þ2gd×Zωt1图三. 使用建议的Whale-IpCA训练多SVNN。其中，p和q的值分别从2到0变化;和[0，1]！Zt1！Zt1emzcos 2pe mzcos 2pz！在所提出的Whale-IpCA中，基于WOA的解决方案是ð þÞ ¼ωð Þ½þ-2gdZt1根据从IpCA获得的解决方案更新进行替换。因此，基于IpCA的解决方案更新（Atashpaz-Gargari和Lucas，2007）表示如下：em zco s2pz！Z T192gd！快一点！你别说了！Zti142gd2.2gdemzcos 2pz. ！阿姆斯emzcos2pz从WOA获得的更新，Eq.（11）成为，！快去！别这样！答：C！别这样！A：1小时！你别说了！吉尔特·吉尔吉ð15Þ3）具有探索阶段的解更新：在探索阶段，现有的WOA为解更新选择随机解空间，而不是在包围猎物阶段中使用的最佳解由探索阶段中的WOA表示的解更新被表示为，重新排列上述方程，得到了Whale-IPCA在环绕食饵阶段的解更新，并且它是！快去！Z兰德别..答：C！Z兰德别说了！答：Zt21表示为，在哪里，术语！Zt是指随机解。现在，应用！2gd .！h！！我！一个！Σ兰德Zt1！Zωt1-A：C2gd-A-A：2gdZωtð16Þ解决方案更新的基础上现有的帝国主义竞争算法，rithm，在方程。（14），Eq。（21）. 解决方案更新基于2）随剥削阶段的解决方案更新：在剥削阶段，鲸鱼根据定义的解决方案在勘探阶段对拟议的鲸鱼IpCA的影响表示为，！Zt≤1g/d .！Zt 1-！答：C-！A：1！Zt22因此，当搜索空间的概率s> 0.5时，2gd-！一兰德2gdrand并且系数向量为A1，则在开发阶段期间WOA的解更新表示为，！我不知道。！别这样！Ztemzcos2pzZωt17其中，m定义对数螺旋的形状，并且具有范围[-1，1]中的随机值。现在，在中应用IpCA的解决方案更新！Zt 以基于所提出的Whale-IpCA得到合适的解更新。在开发阶段基于Whale-IPCA的解决方案更新表示如下：！我不知道。！Zωt一小时！你别说了！我不知道你在说什么！Zωtð18Þ重新排列上述方程得到所提出的Whale-IpCA的最终表达式，并且其推导为：！Zt1其中，术语g定义常数，d表示距离测量每个殖民地之间的应用Eq.（14）在解决方案中cos2pz2gdþð20Þ390K. Mannepalli等人/Journal of King Saud University步骤4：根据适应度找到最佳解：最后，通过评估每个解的适应度来确定最佳解，并将提供最小适应度值的解声明为最佳解。步骤5：终止：在迭代Max结束时，终止训练算法，并识别Multi-SVNN的最佳权重和偏差。3.2.4. 测试Multi-SVNN考虑对来自数据库的测试语音信号进行情感识别。然后，获得测试信号的特征，并将其作为输入提供给多SVNN分类器。在多SVNN中，基于最优权重，分类器识别语音信号中的情感，并且从SVNN分类器最终获得的情感类别表示为，f快乐;悲伤;正常;厌恶;愤怒;喜悦g23K. Mannepalli等人/Journal of King Saud University391¼¼ðÞ表1给出了使用所提出的基于Whale-IpCA的Multi-SVNN的说话人情感识别的伪代码。最初，从每个语音信号中提取的特征作为输入提供给多SVNN进行分类。SVNN中涉及的权重和偏差是通过训练获得的，并且是通过所提出的Whale-IpCA来完成的。然后，基于最优权重，多SVNN分类器识别每个语音信号中的情感，并找到相应的情感类。4. 结果和讨论在这里，所提出的情感识别器的仿真结果。在不同的数据库和参数下对所提出的基于Whale-IpCA的Multi-SVNN分类器进行了评估。4.1. 实验装置在MATLAB工具中对所提出的基于Whale-IpCA的多SVNN分类器进行了仿真实验。此外，仿真环境中的PC具有4 GB RAM的配置。Windows 10操作系统和英特尔I3处理器。参数化数值：人口尺寸为Y¼30，总迭代，info/docu/#docu，2017年11月访问，泰卢固语数据库泰卢固语数据库，http://www.bhimalapuram.co.in/telugusoft/mysql4telugu.html ，2017年11月访问，其描述如下，柏林数据库：柏林数据库包含来自十个演员的语音话语的集合，这些演员以德语提供不同的情感语音录音由五名男性和五名女性演员的声音组成。言语提供了情感，如中性，愤怒，恐惧，喜悦，悲伤，厌恶和无聊。泰卢固语数据库：泰卢固语数据库由六个用泰卢固语演讲的人组成。泰卢固语数据库中的情绪可以分为五类，如愤怒，无聊，快乐，中性和悲伤。4.1.2. 评估指标所提出的基于Whale-IpCA的Multi-SVNN的评估是用诸如假阳性率（FPR）、假阴性率（FNR）和准确度的度量来完成的，并且评估度量的数学表达式如下所示准确性：准确性指定所提出的情感识别器的正确性，并且它在等式（24）中表示。TP-2000最大1/450，正则化因子R=[0，2]。ACC¼TP CIPFPFUN 美国田纳西州24小时4.1.1. 数据库描述基于Whale-IpCA的Multi-SVNN分类器http://emodb.bilderbar。表1所提出的情感识别器的伪代码与基于Whale-IpCA的多SVNN。其中，TP表示正确情感到正确类别的分类，TN表示错误情感到正确类别的正确分类，FP表示正确情感到不正确类别的分类，FN表示分类把错误的情绪分配给不正确的类FPR：FPR定义了分类器实现的假阳性数量与阴性总数的比率，并且它表示为，SL.没有基于Whale-IpCA的多SVNN情感识别器FPRFPFPFTTNð25Þ输入：来自语音数据库的输出：演讲参数：迭代t，最大迭代Max开始//多SVNN的训练对于数据库D中的每个语音信号，提取特征对于每个特征向量，训练Multi-SVNN调用所提出的Whale-IpCA算法基于Whale-IpCA算法端返回最优解端//测试Multi-SVNN对于测试信号基于训练好的多SVNN的端返回信号的情绪端//Whale-IpCA算法开始For（tMax）<初始化填充使用等式（7）定义总体的适应度使用方程（16）使用等式（20）修改Whale-IpCA的开发阶段使用等式（22）将t递增1端返回最优解端FNR：FNR被定义为未命中率，使得分类器无法识别数据中的不正确情绪，并且它被表示为，FNRFN26FNFUNTP4.1.3.比较模型将从所提出的基于Whale-IpCA的Multi-SVNN获得的实验结果与现有技术（诸如自适应分数深度信念网络（ AFDBN ）（Mannepalli等人，2016a，b），分数深度信念网络（FDBN）（Mannepalli等人，2016a，b），DBN泰卢固语数据库，http：//www.bhimalapuram.co.in/telugusoft/mysql4telugu.html ， 2017 年11月访问，Dorota Kaminska et al. （2017），Boosted-GMM算法（Patel等人，2017），深度递归神经网络（Mirsamadi等人，2017），Fatemeh Noroozi等人（2017 a，b），以及使用RF的基于Vocal的情感识别（Noroozi等人，2017年a，b）。在这项工作中使用的比较模型，提高了可行性的情感识别的数据库。AFDBN：AFDBN利用自适应理论和分数阶理论确定DBN的权值，最终发现语音中的情感信息。FDBN：分数理论与DBN一起使用（Mannepalli等人，2016a，b），用于识别演讲中的情绪。DBN：DBN使用隐马尔可夫模型来识别语音信号中存在的情感。DBN在（Badshah等人，2017年），用于解决功能中普遍存在的尺寸问题。392K. Mannepalli等人/Journal of King Saud University4.2. 基于Whale-IpCA的多SVNN性能分析通过改变滤波器组通道和语音信号的帧长度来评估所提出的基于Whale-IpCA的多SVNN分类器用于识别数据库中存在的情感的性能。所提出的用于柏林和泰卢固语数据库的基于Whale-IpCA的多SVNN分类器的分析描述如下：4.2.1. 使用柏林数据库分析不同滤波器组通道图4呈现了针对不同滤波器组信道使用柏林数据库对所提出的基于Whale-IpCA的多SVNN的性能分析。图4.a显示了使用FNR度量的柏林数据库的基于Whale-IpCA的Multi-SVNN对于滤波器组信道值为15，所提出的基于Whale-IpCA的多SVNN对于柏林数据库的65%和75%训练实现了0.403148和0.05的FNR值。基于FPR的分析，如图所示。 4.b显示，所提出的基于Whale-IpCA的Multi-SVNN在滤波器组信道值为15的情况下对于数据库的65%和85%训练具有0.130039和0.05的FPR值。所提出的基于Whale-IpCA的多SVNN实现的FPR和FNR的最小值是在滤波器组信道的最高值处。此外，在柏林数据库中对所提出的模型进行了精度分析，如图4.c所示，表明所提出的模型在滤波器组通道为15的情况下在75%的训练时具有0.95的最高精度值。4.2.2. 使用柏林数据库分析不同帧长度的模型图5呈现了所提出的基于Whale-IpCA的多SVNN的性能分析，其使用柏林数据库来改变帧长度。图5.a呈现了基于FNR度量使用柏林数据库的基于Whale-IpCA的多SVNN的结果。对于帧长度为128的帧，所提出的基于Whale-IpCA的Multi-SVNN在柏林数据库的65%和75%训练下实现了0.181764和0.068885的FNR值。基于FPR的分析，如图所示。 5.b，图四、使用柏林数据库对基于Whale-IpCA的多SVNN进行性能分析，以基于（a）FNR、（b）FPR和（c）准确度改变滤波器通道K. Mannepalli等人/Journal of King Saud University393图五、基于（a）FNR、（b）FPR和（c）准确度，使用柏林数据库针对不同帧长度对基于Whale-IpCA的多SVNN进行性能分析实验结果表明，所提出的基于Whale-IpCA的Multi-SVNN在帧长为128的数据库的65%和85%训练时具有0.190656和0.05的FPR值。所提出的基于Whale-IpCA的多SVNN实现的FPR和FNR的最小值是在滤波器组信道的最高值。最后，在柏林数据库中对模型进行了精度分析. 5.c，表明所提出的模型在75%的训练和128帧长度下具有最高的准确度值0.95。4.2.3. 使用泰卢固语数据库分析不同滤波器组通道图6呈现了所提出的基于Whale-IpCA的多SVNN的性能分析，其使用泰卢固语数据库来改变滤波器组信道。图6.a呈现了基于FNR度量使用柏林数据库的基于Whale-IpCA的多SVNN的结果。对于滤波器组信道值为15，所提出的基于Whale-IpCA的多SVNN实现了对于泰卢固语数据库的65%和75%训练，FNR值相同，均为0.385754。如图6.b所示，基于FPR的分析表明，所提出的基于Whale-IpCA的多SVNN算法在滤波器组信道值为15的情况下，对于泰卢固语数据库的65% 和 85% 训练， FPR 值为 0.246403 和 0.162276 。所提出的基于Whale-IpCA的Multi-SVNN算法在滤波器组信道的最高值处实现FPR和FNR的最小值。此外，在泰卢固语数据库中对所提出的模型的准确性分析（如图6.c所示）表明，所提出的模型在75%的训练时具有最高的准确性值0.734554，滤波器组通道15.4.2.4. 使用泰卢固语数据库分析不同帧长度的模型图 7提出了通过改变帧长度使用泰卢固语数据库的所提出的基于Whale-IpCA的多SVNN的性能分析。图 7.a介绍了基于Whale-IpCA的结果394K. Mannepalli等人/Journal of King Saud University图六、使用泰卢固语数据库对基于Whale-IpCA的 Multi-SVNN进行性能分析，用于基于（a）FNR、（b）FPR和（c）准确度的不同滤波器信道基于FNR度量的泰卢固语数据库的多SVNN。对于帧长度为256，所提出的基于Whale-IpCA的多SVNN在泰卢固语数据库的65%和75%训练下实现了0.383423和0.303369的FNR值。如图7.b所示，基于FPR的分析表明，所提出的基于Whale-IpCA的多SVNN对于帧长度为256的泰卢固语数据库的65%和85%训练具有0.158367和0.146415的FPR值。所提出的基于Whale-IpCA的多SVNN实现的FPR和FNR的最小值是在滤波器组信道的最高值。此外，在图7.c所示的泰卢固语数据库中对所提出的模型的准确性分析表明，所提出的模型具有最高的准确性值，当帧长度为256时，在训练数据的85%处为0.954.3. 基于Whale-IpCA的多SVNN的比较分析在这里，所提出的基于Whale-IpCA的Multi-SVNN算法的性能与其他现有的算法进行了比较，对于不同的训练百分比4.3.1. 使用柏林数据库进行比较分析图8给出了所提出的Whale-IpCA算法与柏林数据库的各种训练百分比的其他现有技术的比较分析。图 8.a根据FNR值对柏林数据库中的模型进行了比较分析。这里，现有的技术，如AFDBN，FDBN，DBN，Dorota Kaminska等人，Boosted-GMM算法，深度递归神经网络，Fatemeh Noroozi等人，和使用RF的基于声乐的情感识别已经实现了0.0614，0.0686，0.1404，0.065，0.1045，0.0714，0.0319和0.0682，用于柏林数据库的87%训练。另一方面，所提出的Whale-IpCA算法具有最小的FNR值为0.0023的87%的柏林数据库的训练。在基于FPR的分析中，如图8.b所示，现有的AFDBN，FDBN，DBN，Dorota Kaminska等人，Boosted-GMM算法，深度递归神经网络，Fatemeh Noroozi等人，使用RF技术的基于声音的情感识别具有0.0603、0.0883、0.15910.0743、0.1237、0.0803、0.0309和0.0773，而建议的Whale-IpCA与K. Mannepalli等人/Journal of King Saud University395图7.第一次会议。基于（a）FNR、（b）FPR和（c）准确度，使用泰卢固语数据库针对不同帧长度的基于Whale-IpCA的多SVNN的性能分析在87%的数据库训练中，SVNN具有0.0015的低值。图8.c显示了柏林数据库比较模型的准确性分析。在这里，现有的AFDBN，FDBN，DBN，Dorota Kaminska等人，Boosted-GMM算法，深度递归神经网络，Fatemeh Noroozi等人，使用RF模型的基于声音的情感识别具有0.94、0.9084、0.8355、0.9242、0.87195、0.9169而 Whale-IpCA 算法在柏林数据库 87% 的训练集上的准确率为0.9985，优

下载后可阅读完整内容，剩余1页未读，立即下载