基于改进高斯混合隐条件随机场模型的音频情感分类

43 浏览量更新于2023-12-09 收藏 617KB PDF 举报

情感分类

计算技术

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志22（2021）45全文基于改进高斯混合隐条件随机场模型的音频情感分类Muhammad Hameed SiddiqiJouf大学计算机科学系，Sakaka，沙特阿拉伯阿提奇莱因福奥文章历史记录：收到2019年2020年1月23日修订2020年3月29日接受2020年4月15日网上发售保留字：情感分类条件随机场隐马尔可夫模型高斯混合模型A B S T R A C T对人类情绪的分析在提供关于患者的足够信息以监测他们的情绪从而更好地管理他们的疾病方面起着重要作用在过去的十年中，基于音频的情感识别已经成为这些领域的一个迷人的研究兴趣。大多数情况下，基于音频的情感系统依赖于识别阶段。现有的模型存在一个共同的问题，即客观性假设问题，这可能会降低识别率。因此，本研究提出了一种改进的基于隐条件随机场模型的情感语音分类器。在这个模型中，我们引入了一种新的方法，将多面传播的帮助下，采用完全协方差高斯具体功能的组合。由于这种结合，所提出的模型解决了现有分类器的大部分局限性。一些著名的功能，如梅尔频率倒谱系数（MFCC）提取在我们的实验。该模型已被验证和评估两个公开可用的数据集，如柏林数据库的情感语音（EST-DB）和eNTER FACE为了与现有技术进行验证和比较，我们使用了10倍交叉验证方案。所提出的方法在分类的p值0.03下实现了显著改善。此外，我们还证明，计算明智的，我们的计算技术是比较便宜的对国家的最先进的作品。©2020 THE COUNTORS.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍情感通常是一种由冲动表现出来的心理状态。情感不仅是判断人的心理状态的一个很好的指标，而且是在日常谈话中传达我们意图的一个有效来源这是因为人类情感的自动识别是一个迷人的参数，以提高计算机提供的设施的优越性，如人机交互[1，2]，无所不在的医疗保健系统中的存在某些生理变化，如说话、血液密度、心脏信号、面部表情等，其表达人类情感（emo- tions）。在这些变化中，大多数研究人员指出，音频语音是情绪的主要来源[4因为音频信号是人与人之间最广泛、最自然的交流方式。电子邮件地址：mhsiddiqi@ju.edu.sa开罗大学计算机和信息系负责同行审查。通常，在典型的基于音频的识别系统中有两个步骤：第一步骤从输入数据中提取最显著的特征;而第二步骤为输入数据决定适当的标签。在基于音频的情感识别系统中，在特征提取阶段已经提出了许多方法来提取最重要的特征。这些特征（称为连续语音特征）有四个类别，如声音音高、共振峰、活力[11，1，10]、语音质量特征[1，12]（例如刺耳、紧张、呼吸）、频谱特征[11，13]（例如无偏差外推测量、梅尔频率倒谱系数）和Teager能量算子（TEO）[14]。在语音分类的文献[7]中，某些系统[15]建议一些合适的特征选择高度依赖于识别任务;因此，应该考虑。此外，他们指出，对于语音演示，MFCC特征是最重要的特征。由于新的特征提取方法不在本研究的范围内，因此，我们正在利用现有的技术来摘录MFCC特征，这些特征将进一步用于所提出的模型。虽然有相对大量的最新研究集中在细化分类阶段https://doi.org/10.1016/j.eij.2020.03.0011110-8665/©2020 THE COURORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com46M.H. Siddiqi/ Egyptian Informatics Journal 22（2021）45PPk;l2不通过其过渡缺口的每状态稳定性，不.Σ;[11，8，12，9，2]。大多数情况下，在现有的基于音频的情感识别系统中，作者使用了一致性学习模型[1]，如高斯混合模型，隐马尔可夫模型，人工神经网络，支持向量机等。某些研究[16-此外，其他领域如语音分类[23]，姿势分类[24，25]指出HMM是一种乘法学习方法，因此它比其判别对应部分（如HCRF）精确度最低。本研究的主要贡献如下：以前的HCRF技术是不够的，因为不习惯的规范，可能会降低识别率。因此，在这项工作中，已经提出了一个识别模型，减少假设，利用全协方差分布，这是本研究的第一个目标本研究的第二个目的是表明，所提出的模型显着降低了复杂性，对繁琐的技术。在该方法中，有限记忆Broyden-Fletcher-Goldfarb-Shanno（L-BFGS）技术已被用于找到最佳点，这是该模型的另一个目标，以在训练阶段确定某些因素来扩展训练数据的条件概率。所以，为了计算条件概率，我们只使用了进一步用于计算梯度的前向和后向方法。因此计算时间被彻底压缩。为了显示所提出的模型的意义，进行了一组实验，表现出最好的性能相比，最新的作品。2. 相关工作最近，在基于语音数据的情感识别领域中有越来越多的研究工作，以提高这种系统的准确性[1]。然而，这些尝试中很少有真正提高语音数据学习模型的效率。[1]的作者已经正确地指出，尽管许多分类方法[26-与GMM、ANN、SVM等相比，HMM在各种数据集上的准确性仍然具有可比性。此外，HMM还具有处理序列的优势和能力初始数据，例如帧级特征的处理而GMM，状态规范化，并且另外，HCRF维护隐藏状态以能够吸收连续记录的未知构造。因此，CRF和HCRF可以与加权分数一起工作，使得所使用的参数集相对较大，作为MEMM和HMM的补充。我们建议读者对HCRF及其局限性进行深入详细的分析[34]。已经有一些方法利用HCRF模型并显示出良好的结果。这些都在[35，36]中解释和介绍。然而，这些系统没有解决HCRF的局限性。在[34]中，作者认为只有HCRF可能被利用对角（倾斜）协方差高斯传播。特别地，变量被认为是成对自治的。今后，该模型被称为对角协方差高斯混合隐条件随机场。此外，作者指出，通过一组特定的固定价格，每个状态下的观测结果的可靠性收敛于高斯过程。然而，这种假设不受训练算法的支持，因此这些假设可能会适得其反，即降低模型的效率。对于更深入的研究，我们建议读者参考[37，38]。为了解决HCRF和其他学习模型在语音数据情感识别方面的局限性，在下面的部分中，我们提出了基于HCRF方法的新方法，该方法能够公开利用全协方差高斯传播的组合。我们的方法得到了现有的HCRF的好处。我们应用和测试我们的模型对语音数据进行情感识别，并将其结果与通过HMM和HCRF与对角协方差高斯函数获得的结果进行比较。3. 该方法如前所述，当前版本的HCRF模型没有使用完整的协方差矩阵，无法保证参数的收敛性。这导致现有的HCRF模型不能生成一组值，其中临时概率被建模为通常的实度函数的混合物。因此，在特征函数中，我们包括高斯传播的组合，以解决上述问题。我们的函数（特征）由以下等式给出：之前fZ;K;YdK不ANN和SVM缺乏这一点，不能处理特征序列过渡Xt 1.t00向量。然而，HMM存在一些局限性，如fk k0Z;K;Y¼t1/2d-k千分之一：z;y8k;k;2[23、25、24]。隐马尔可夫模型的主要局限性是由于其传播性质和状态间的客观性假设，f观察者ve。Z;K;Y=X日志.XLCObsrN.y2;ukl;Rkl！：dktk：z;3解释。针对隐马尔可夫模型的局限性，提出了一种最大熵马尔可夫模型。该模型显示了某些操作/任务的更好结果，包括[30]第31话，一个人，一个人，K然后，在步骤S102，t1/2l¼1k;lt;;承认自动语音[32].然而，最大1昏0比1 y2-uk;l=0：1熵马尔可夫模型本身存在弱点/问题N.y2;uk;l;Rk;l..实验BX-1。Σk;lC; β4标签偏见[33]。MEMM中的标签偏差主要是由2012年12月. R. 1@y2-uklA在每一个缺口上都有缺口保护。为了解决MEMM中的标签偏差，提出了条件随机场[33]和隐藏条件随机场（HCRF ）[23 ，25] 。CRF 和HCRF 是MEMM的推广，是MEMM的一般化形式，因此继承了MEMM的性质.CRF和HCRF都使用全局标准化，而MEMM这里，L表示实度函数的数量，Dim表示观测的维数CObsr表示具有平均值uk;l和周围物质（协方差矩阵）k;l的第n个因子的亲合质量。我们可以修改C;u和为了通过投资建立任何标准固体的融合●●●不2k;l2M.H. Siddiqi/ Egyptian Informatics Journal 22（2021）4547k;lk;lPRK0fZ;K;YkkkkPKSDKX.Σ普什基XX.Z; K; YDC不Lk;l不一定需要通过以下方式来合理化KKKing，我们简要地展示了梯度计算方法：XObserv eObservekt;l不KkfkZ;K;YJ ;;¼苯并咪唑dKPriordKPriorKK1þBKkt-1;ktþCdK跃迁过渡kk0C观察N：y2;uk l; R k l一fkk0Z;K;Yexpc Z;K;YKkt-1;ktBKk1þþC观察k;lkt;lCCObsrN yt;uk;l; Rk;l！C.¯与Eq. （三）、因此，符合反射权重的训练阶段，这使我们能够修复K观测值<$8k因此，我们可以将条件概率写为：fScor e.ZjY;X;u;C;KXaTkXb1k：11KK到目前为止，在初始（训练）阶段，我们专注于找到训练数据的参数（;u;C;K），这些参数能够最好地利用条件概率。我们现在更感兴趣的是利用现有的一口井已知的技术在所提出的模型，以寻找最佳的事实。然而，为了计算这个，我们只使用了前向0RKPriorf Prior. Z;K;YX实验B过渡过渡。CQC观察者ve概率（如其他现有工程所使用的）。此外，委员会认为，我们重新使用它的合成值来计算倾斜度。这KB@k k0。CITICA.X轴Z;K;X可显著降低计算成本以下为j;规范化;;u; C; Kc;6Þ让我们表示¯PriorPrior0个既往XT .过渡时期200c.Z;K;Y=XKkfk1X.Z;K;Y.ΣBKk1þKkt1;kt=1转换Z;K;YX实验BKk1;k2;：：;kTt1-日C观察N y2;u;R kt;lkk0kk0@B. XL¼.快！CAkk0.Σ波斯特里奥河ZYXu常模Y;P;u;C;K评分ZjY;P;u;C;K规范化;ð7Þ8从Eqs。6，8，12我们推导出dScoreZjY; P; u; C; Kc;x dc.Z; K; Y=exp. C. Z;K;YKKK其中，Norm=Y;P;u;C;K=归一化因子。¼XfPrio r.Z;K;Y=exp.C.Z;K;Y利用等式（7）和（8），重新评估条件概率使用向前和向后算法，如下所示一步一步：K11130先前Xs。Transitionn101t1/2dScoreZjY; P; u; C; Kc;x dc.Z; K; Y=exp. C. Z;K;YKKas¼exp@.XL日志.快！CX过渡。Σ. .ΣΣX.0Σ¼.过渡l¼1kt;l.XL不奥布斯尔t;t;.快！！K不1/4at;kbt1;k014t1/2.Σas-1kk0expKk0klogl¼1 Ck;lN：ys;uk;l;Rk;l;dScore Z Y;;u;C;K观察结果直流Y;S;X奥布斯尔exp.C.Z; K;Yð9ÞdCk;lKdCk;l0个既往XT .过渡期101观察者veK¼K实验C.Z;K;YbskX实验Bt¼sXXN.y;uk;l ;Rk;l. .ΣΣ@BX.ΣCA1/4 tdhlt1/4lhexpc Z;K;YKfkskg;ks1;：：;kT日志C观察结果N：y2;u;RBLK方法和向后方法计算时的条件后 ZY;u;CK¼K波斯特里奥河ZjY;X;u;C;KΣl¼1kt;lþKð12Þ; C;KXK<$k1;k2;：：;fks<$kg¼l¼1不kt;lkt;lKt1/248M.H. Siddiqi/ Egyptian Informatics Journal 22（2021）45N 尤X.Σ¼XLN. yt;uk;l;Rk;lat;kctX.k0=exp.过渡日志. XL观测.快！！t¼1XC观测值N。yt;ukl;Rklbs1k0Kkk0不l¼1¼M.H. Siddiqi/ Egyptian Informatics Journal 22（2021）4549l¼1Ck;l：s;k;l;Rk;l;ð10Þl¼1ð15Þk;l;;50M.H. Siddiqi/ Egyptian Informatics Journal 22（2021）45表1M.H. Siddiqi/ Egyptian Informatics Journal 22（2021）4551在10倍交叉验证方案下，所提出的模型以及不同数量的状态和混合物的平均识别率准确率（%）。1混合物2混合物3种混合物4种混合物5混合物6种混合物7混合物8混合物1状态57.7265.6667.9371.7170.5773.7873.9372.642国家57.1870.5779.3169.9972.9873.7873.3872.663个州61.4971.5171.5073.7873.3472.2470.9370.794个州64.6971.0873.4672.0973.2672.1670.5567.225个州65.8371.9573.5171.9370.4368.7067.3763.096个州63.2171.7074.8971.1565.6563.6464.3661.587个州69.4772.8572.8869.6464.6365.7360.8260.278个州66.7571.8872.9567.2268.8963.4961.7661.0052M.H. Siddiqi/ Egyptian Informatics Journal 22（2021）45不PdScoreZ jY;;u;C;K杜Mk;l铜;铜Fig. 1.三种技术的识别率与2个状态和3个混合物对DB-DB数据集。表2针对eNTER FACE'05数据集的10倍交叉验证方案下，所提出的模型模型以及不同数量的状态和混合物的平均识别率准确度1混合物2混合物3种混合物4种混合物5混合物6种混合物7混合物8混合物1状态51.0052.7650.4961.8960.2259.9556.8854.752国家53.2760.8263.5164.6350.6458.8862.8557.473个州61.5857.3663.6455.6561.1554.8961.7063.214个州63.0957.3758.7060.4361.9365.7360.9553.835个州57.2249.5552.1663.2662.0963.4659.0856.696个州60.7959.9364.2463.3453.7861.5059.5161.497个州62.6663.3858.7862.9859.9949.3150.5757.188个州57.6453.9363.7860.5761.7163.9355.6657.72图二、三种技术对eNTER FACE'05数据集的2种状态和6种混合物的识别率ctXbt;k16LPXCObsrcNyt;uk;l;Rk;lk;lt¼1XCObs rN. y;u;R此外，我们得到关于u的梯度，类似地如下：l¼1k;l不k;lk;lð17Þ¼at;kctM.H. Siddiqi/ Egyptian Informatics Journal 22（2021）4553P¼不Lð Þ ðþ ÞXk;lcRk;l图3. 在不同的混合数、状态数和输入序列长度上，比较所提出的方法相对于前向/后向的梯度计算时间（17））。dScoreZ jY;;u;C;KdRk;lCObsrcNyt;uk;l;Rk;lat;kct1t¼1XCObs rN. y;u;R初始值/点，并收集一组中每次运行的结果。在这些结果中，我们然后选择参数集。这种方法提供了最好的结果，如我们在下面的部分中所示l¼1k;l不k;lk;lð18Þ4. 结果评价和讨论使梯度如等式中所示计算。在公式（13）-（18）中，我们现在利用L-BFGS算法并找到条件概率的局部最大值。由于我们无法定义或找到全局最大值，因此我们使用不同的本节介绍了所设计的方法的实验结果此外，本节还介绍了实验框架、数据集和结果。54M.H. Siddiqi/ Egyptian Informatics Journal 22（2021）45.ΣðÞ为了对公共基准数据集进行公平评估，我们使用了EST-DB数据集[39]和eNTER FACE首先，从每个数据集，我们提取梅尔频率倒谱系数（MFCC）。然后，采用10折交叉验证方案将上述两个数据集分成训练部分和验证部分。然后，我们对这些数据集执行分类算法，这些算法是：1）我们提出的FCGM-HCRF，2）HMM模型和3）使用对角协方差高斯混合的HCRF模型接下来，为了公平地比较我们的算法与其他算法，我们使用配对t检验计算p值。这些比较的评价结果见下文。4.1. 柏林情绪语音数据库-该数据集由来自德国的10名男女演员的表达性感叹词组成其中50%是男性，50%是女性。话语（或说出的句子）是处于7种定义的情感状态之一的一组预定义的句子：1）中性、2）无聊、3）厌恶、4）恐惧、5）悲伤、6）喜悦和7）愤怒。每一个成功的演员和女演员的尝试已经评估了一组20名法官和最后的总结发言，只有选择，如果80%的听众已经正确认识。在我们对这个数据集的实验中，我们使用不同数量的状态和高斯混合来运行HMM。在表1中，对于每对状态和混合数，我们给出了10倍的平均分类率。从表1中可以看出，具有恰好两个状态和三个高斯混合的HMM给出了最高准确度的结果。因此，我们应用该HMM的初始值来训练和评估FCGM-HCRF和DCGM-HCRF算法。这些算法与HMM相比的结果如图所示。1.一、4.2. eNTER FACE我们现在介绍我们对eNTER FACE'05数据集的评估该数据集包括由44名受试者/演员制作的一千三百二十（1320）个视频视频中的每个演员都试图模拟六种不同的情绪：1）愤怒，2）厌恶，3）恐惧，4）快乐，5）悲伤和6）惊讶。这些情绪是在阅读5个不同的预定义句子时模拟的。首先，我们从原始视频文件/数据中提取音频然后，我们使用这些系数来生成测试和训练数据集，类似于我们在DB-DB数据集中所做的。我们还重复了计算初始点和评估所提出的模型的相同过程，就像我们对DB-DB数据集所做的那样。在eNTERFACE'05数据集上，我们的基准算法与所提出的方法的比较结果如表2和图2所示。二、4.3. 计算复杂度在本节中，我们简要讨论了与其他方法相比，所提出的方法的计算复杂性现有的HCRF算法通过一系列的前向和后向算法来计算梯度然而，我们只执行一次向前和向后算法，并将结果缓存在内存中供以后使用。因为-前后向算法的复杂度为O TQ 2M为长度为T的输入序列、大小为Q的状态和混合数为M。这种复杂性可以从方程中看出/推导出来。（9）和（10）。另一方面，我们提出的算法与缓存计算梯度的复杂性O TM。这些复杂性理论结果的证明可以在等式中看到。（13）在3中，我们提出了一个比较分析的总执行时间时，倾斜计算使用向前的方法和表3在两个标准数据集下，该模型与现有方法的比较结果（单位：%）。最先进的方法准确度标准差[41]72. 0 ± 1. 2[42]70.5 ±3.8[43]63.6 ±2.2[44]77.0 ±2.7[45]67.7 ±1.5[46]78.3 ±2.5[47]79.2 ±1.1[48]72.3 ±2.5[49]76.4 ±2.5拟定方法79.3 ±3.8向后方法与所提出的具有缓存的方法相比报告的执行时间是使用Matlab R2013a 测量的，该 Matlab R2013a 运行在具有 Duo 3.6GHz处理器和4 GB主内存的英特尔机器所提出的模型进行了比较与国家的最先进的方法使用。现有方法的相应识别率以及所提出的模型在Berlin情感语音数据库（BER-DB）和eNTER FACE'05视听情感数据集上的从表3中可以清楚地看出，与其他最新系统相比，所提出的模型表现出更好的性能。这是因为所提出的模型采用了全协方差分布，考虑了矩阵的大部分系数，这是提高性能的主要原因之一此外，这项工作表明，现有的HCRF模型有一个共同的问题，由于它可能会降低识别率。这个缺陷被称为客观性假设问题。因此，提出了基于全协方差分布的模型，以减少所提出的模型能够考虑矩阵的所有系数5. 结论基于音频的情感识别在过去十年中受到了广泛的目前已经提出了几种基于音频的情感识别系统，然而，对于大多数系统来说，正确地对情感进行分类仍然是一个主要问题。存在一些可能降低准确性的属性，例如突出特征的提取，以及在特征空间中存在低类间变化的情况下发生的不同情绪之间的高相似性。因此，我们提出了一个新版本的HCRF算法，使用全协方差高斯密度函数。理论和实验证明了该方法的识别率比现有算法有较高的精度。我们还通过使用p值进行检验和比较，证明了这些改进在统计学上是正确的。此外，我们的算法不仅提高了情感识别的准确性，而且在训练HCRFs模型时，与其他算法相比，它的理论复杂度也更低。如前所述，我们提出的方法具有线性复杂度，而现有方法具有二次复杂度。这扩展了HCRF的功能，使其能够用于更实用和可扩展的应用程序。虽然本文的范围仅限于基于音频的情感识别，但是，它是完全可能的，以将其扩展到其他相关领域的识别，包括语音识别，基于声学的上下文感知，手势识别等。引用[1] CowieR，Douglas-Cowie E，Tsapatsoulis N，Votsis G，Kollias S，Fellenz W，TaylorJG.人机交互中的情感识别。IEEE Signal ProcessMag 2001;18（1）：32-80.M.H. Siddiqi/ Egyptian Informatics Journal 22（2021）4555[2] 放大图片作者：J.结合声学特征与语言信息的混合支持向量机-信念网络语音情感识别。 2004 IEEE International Conference on Acoustics ， Speech ， and SignalProcessing，Vol. 1.一、IEEE; 2004年。pp. I-577.[3] TacconiD，Mayora O，Lukowicz P，Arnrich B，Setz C，Troster G，Haring C.活动和情绪识别支持精神疾病的早期诊断。2008年第二届医疗保健普适计算技术国际会议。IEEE; 2008年。p. 100比2[4] 放大图片作者：Rahman MA，Hossain MF，Hossain M，Ahmmed R.基于主成分分析和t统计的多通道脑电信号情感特征提取与分类。埃及InfJ.[5] Alsayat A，Elmitwally N.阿拉伯语情感分析的综合研究（挑战与应用）。埃及InfJ.[6] Nalini N，Palanivel S.音乐情感识别：mfcc与剩余相位的联合证据。 Egypt Inf J2016;17（1）：1-10.[7] El Ayadi M，Kamel MS，Karray F.语音情感识别综述：特征、分类方案和数据库。Pattern Geneva 2011;44（3）：572-87.[8] 作者：A.用于情感识别的类级谱特征。Speech Commun2010;52（7-8）：613-25.[9] Iliev AI，Scordilis MS，Papa JP，Falcão AX.基于声门特征的最优路径森林分类口语情感识别。Comput SpeechLanguage 2010;24（3）：445-60.[10] Lee CM ， Narayanan SS ， et al. Toward detecting emotions in spokendialogs. IEEE跨语音音频处理2005;13（2）：293[11] Banse R，Scherer KR. 声乐情感表达中的声学特征。JPersonality Soc Psychol1996;70（3）：614.[12] Gobl C ， Chasaide AN. 音质在沟通情感、情绪和态度中的作用。演讲通讯2003;40（1-2）：189-212.[13] NweTL，Foo SW，De Silva LC. 基于隐马尔可夫模型的语音情感识别。演讲通讯2003;41（4）：603-23.[14] 蒂格尔·H发声时口腔气流的一些观察。IEEE transacoust语音信号处理1980;28（5）：599-601.[15] 薛毅，薛波，张明.自适应粒子群算法在大规模分类特征选择中的应用。ACM跨知识发现数据（TKDD）2019;13（5）：50。[16] Cairns DA，Hansen JH.压力条件下语音的非线性分析与分类。 J Acoust Soc Am1994;96（6）：3392-400.[17] 傅丽，毛旭，陈丽.基于svm/hashion融合系统的说话人无关情感识别。2008年国际音频、语言和图像处理会议。IEEE; 2008年。p. 61比5[18] 作者：Lee CM，Narayanan SS，Pieraccini R.结合声音和语言信息进行情感识别。第七届口语处理国际会议（Seventh International Conferenceon Spoken LanguageProcessing）[19] Otsuka T，Ohya J.基于图像序列中重要帧自动提取的HMM识别多人面部表情。In：Proceedings of International Conference on Image Processing，vol. 2，IEEE; 1997.p. 546-49[20] 放大图片作者：J.基于隐马尔可夫模型的语音情感识别。2003年IEEE声学、语音和信号处理国际会议，2003年。诉讼（ICASSP'03），第2卷，IEEE; 2003，第II-1页。[21] Kotropoulos C.情感语音识别：资源、特征和方法。演讲通讯2006;48（9）：1162-81。[22] Womack BD，Hansen JH.用于组合重音语音分类和识别的n通道隐马尔可夫模型。IEEE跨语音音频处理1999;7（6）：668-77.[23] Gunawardana A，Mahajan M，Acero A，Platt JC.用于电话分类的隐藏条件随机字段。第九届欧洲语音通信和技术会议。[24] 王SB，Quattoni A，MojanL-P，Demirdjian D，Darrell T. 用于手势识别的隐藏条件随机场。2006年IEEE计算机协会计算机视觉和模式识别会议（CVPR'06），第2卷。IEEE; 2006年。p. 1521- 7[25] 张文，王伟.隐藏的条件随机字段。 IEEE跨模式肛门马赫Intell 2007;10：1848-52.[26] Farzaneh-Gord M ， Mohseni-Gharyehsafa B ， Arabkoohsar A ， AhmadiMH，Sheremet MA.应用人工神经网络算法精确预测沼气热力性质。可再生能源2020;147：179-91。[27] [10]杨文辉，陈文辉. 综述了纳米流体动态粘度的机器学习建模方法。更新SustainEnergy Rev2019;114：109345。[28] KahaniM，Ahmadi MH，Tatar A，Sadeghzadeh M. 多层感知器人工神经网路与最小平方支援向量机模式之发展以预测二氧化钛/水奈米流体流经非直线路径之努塞尔数与压降。Numer HeatTransfer，Part A：Appl 2018;74 （4）：1190-206.[29] BaghbanA，Kahani M，Nazari MA，Ahmadi MH，Yan W-M. 灵敏度分析及机器学习方法在预测奈米流体流经盘管之热传性能之应用。 Int J Heat MassTransf2019;128：825-35.[30] 拉特纳帕克河词性标注的最大熵模型。自然语言处理中的经验方法会议。[31] McCallum A，Freitag D，Pereira FC.信息提取与分割的最大熵马尔可夫模型。ICML 2000;17：591-8.[32] 郭宏凯，高耀 . 语音识别的最大熵直接模型 IEEETrans Audio ， Speech ，Language Process 2006;14（3）：873-81.[33] Lafford J，McCallum A，Pereira FC.条件随机场：用于分割和标记序列数据的概率模型。[34] Siddiqi MH，Ali R，Khan AM，Park Y-T，Lee S.基于逐步线性判别分析和隐条件随机场的人脸表情识别。IEEE Trans Image Process2015;24（4）：1386-98.[35] 李伟杰，李伟杰 . 用于会议分段的隐藏条件随机场。 2007 IEEE InternationalConference on Multimedia andExpo。IEEE; 2007年。p.639- 42[36] Mahajan M，Gunawardana A，Acero A.隐条件随机场的训练算法。2006年IEEEInternationalConferenceonAcousticsSpeechandSignalProcessingProceedings，Vol.1，IEEE; 2006.p.[37] [10] 李文辉，李文辉. 基于高斯混合隐条件随机场的人体活动识别。 ComputatIntellNeurosci 2019.[38] LeeS，Lee Y-K，等. 基于隐条件随机场的情感语音分类。见：第二次信息和通信技术研讨会论文集。ACM; 2011年。p.146比50[39] 杨文，李文.德语情感语音数据库。第九届欧洲语音通信和技术会议。[40] [1] Martin O，Adell J，Huerta A，Kotsia I，Savran A，Sebbe R.多模态漫画镜。在：eINTERFACE[41] Lotz AF，Faller F，Siegert I，Wendeavor A.从受干扰语音到真实世界车内环境中情感计算的情感识别。Sprachkomnakation的论文：ElektronischeSprachsignalverarbeitung 2018;2018 ： 208-15。[42] Zamil AAA，Hasan S，Baki SMJ，Adam JM，Zaman I.基于分类帧投票机制的语音情感检测。2019年国际机器人、电气和信号处理技术会议（ICREST）IEEE; 2019.p.281- 5[43] Kerkeni L，Serrestou Y，Mbarki M，Raoof K，Mahjoub MA.语音情感识别方法与实例研究。In：ICAART（2）; 2018.p. 175-182.[44] Tursunov A，Kwon S，Pang H-S.利用音色特征从语音中识别效价维度的情感。应用科学2019;9（12）：2470。[45] Choudhury AR，Ghosh A，Pandey R，Barman S.使用激励源和频谱特征从语音信号中识别情感，IEEE应用信号处理会议（ASPCON）。IEEE2018;2018：257-61.[46] Bhavan A，Chauhan P，Shah RR，et al. Bagged support vector machinesforemotion recognition from speech.基于知识的系统2019;184：104886。[47] AvotsE ，Sapin'skiT ，BachmannM ， Kamin'skaD. 野外视听情感识别。Mach VisAppl2019;30（5）：975-85.[48] HajarolasvadiN，Demirel H. 基于k-means聚类和频谱图的3D cnn语音情感识别。Entropy2019;21（5）：479.[49] Ma Y，Hao Y，Chen M，Chen J，Lu P，Košir A.视听情感融合：一种深度有效加权方法。 Inf Fusion 2019;46：184-92.

下载后可阅读完整内容，剩余1页未读，立即下载