说话人性别识别:MFCC与SVM结合的新方法

5星 · 超过95%的资源 需积分: 45 136 下载量 148 浏览量 更新于2024-12-03 6 收藏 520KB PDF 举报
“基于MFCC和SVM的说话人性别识别”是利用梅尔频率 cepstral 系数(MFCC)的特征提取技术和支持向量机(SVM)的分类算法来实现对语音的性别判断。该技术首先通过建立一个普通话语音性别数据库,收集并整理大量的语音样本。MFCC 是一种常见的语音特征提取方法,它模拟人类听觉系统的特性,将声音信号转化为一系列代表语音特征的系数。这些系数能够有效地捕捉语音中的关键信息,如音调、音高和频率等,对于区分男性和女性的声音特别有效。 在性别识别过程中,MFCC 提取的特征被输入到SVM 分类器中。SVM 是一种监督学习模型,以其优秀的泛化能力和处理小样本数据的能力而闻名。它通过构造最大边距超平面来划分数据,能够找到最佳分类边界,从而提高分类的准确性。在这个应用中,SVM 被用来训练模型,根据MFCC 特征来区分男性和女性的语音。 实验结果显示,采用MFCC 和 SVM 的结合方法,说话人性别识别的准确率达到了98.7%,这个成绩显著优于其他传统的分类器。这表明,MFCC 提取的特征与SVM 的强大分类能力相结合,能够非常有效地完成语音性别识别任务,具有很高的实用价值。这种技术不仅可用于语音识别系统,还可以应用于语音合成、语音情感分析等领域,对于提升人机交互的体验有着重要的意义。 关键词:模式识别,分类器,性别识别,支持向量机,梅尔频率频谱系数。这项工作是在国家自然科学基金和重庆工学院青年教师科研基金的支持下完成的,由肖汉光和何为共同研究,其中何为是主要联系人,从事机器学习和模式识别的研究。论文详细探讨了MFCC 和 SVM 在说话人性别识别中的应用,并与其他分类方法进行了比较,进一步验证了这种方法的有效性和优越性。