语音情感分类的统计特征选择策略及其效果分析

需积分: 10 0 下载量 173 浏览量 更新于2024-08-09 收藏 354KB PDF 举报
"语音情感分类的统计特征选择方法-研究论文" 本文主要探讨了一种基于统计方法的特征选择策略,该策略应用于语音情感分类。在情绪识别领域,尤其是在语音信号处理中,有效的特征选择至关重要,因为它能提高模型的性能并减少计算复杂度。研究者从萨里视听表达情感数据集中提取了与能量、频谱和共振峰相关的特征,这些特征被认为与人类情感表达紧密关联。 首先,研究者使用Shapiro-Wilk和Anderson-Darling两种统计检验来测试所提取特征的正态性,检验的显著性水平设为95%。正态性检验有助于确定特征是否符合正态分布,这对于后续的分析和建模过程至关重要。如果特征非正态分布,则可能需要进行转换或采用非参数方法。 接下来,根据正态性检验的结果,特征被分为了模型1、模型2和模型3。这一划分可能是为了适应不同类型的统计分析和建模需求。例如,正态分布的特征可能更适合线性模型,而非正态分布的特征则可能在非线性模型中表现出色。 随后,研究者应用了主成分分析(PCA)作为降维技术,进一步减少特征维度并保留关键信息。PCA通过对原始特征的线性变换,将高维数据转换为低维表示,同时保持数据集的方差。这有助于减少过拟合风险,提高模型的泛化能力。 在模型训练阶段,作者采用了K最近邻(KNN)、神经网络(NN)、随机森林(RF)和支持向量机(SVM)四种不同的分类器。这些算法各有优缺点,KNN简单但计算量大,NN具有较强的非线性建模能力,RF擅长处理大量特征,而SVM在小样本情况下表现优秀。 实验结果显示,对于愤怒、恐惧、高兴、悲伤和惊讶五种情感,提出的特征选择方法在大多数情况下(除厌恶和中性情感外)优于主成分分析。具体来说,准确率达到了94.99%(愤怒)、89.11%(厌恶)、90%(恐惧)、89.33%(高兴)、93.02%(中立)、95.24%(悲伤)和90.23%(惊讶)。这些结果表明,所提方法在大多数情感分类上具有较高的准确性和有效性。 这项研究提出了一个基于统计的特征选择方法,通过结合正态性检验和主成分分析,有效地提升了语音情感分类的性能。这种方法对于理解和改善人机交互、语音识别系统以及情绪识别技术有重要的理论和实践意义。未来的研究可以探索更多的情感类别,优化特征选择策略,并尝试结合其他机器学习或深度学习模型以提高情感分类的精度。