多层特征与性别模型提升汉语口音识别准确率
需积分: 0 155 浏览量
更新于2024-09-07
收藏 449KB PDF 举报
该篇论文深入探讨了中文口音辨识领域的研究方法,由侯珏和刘轶两位作者共同完成。他们提出了一个两阶段的策略,旨在提高汉语口音识别的准确性和性能。首先,他们采用了多层特征的概念,这是通过整合传统梅尔频率倒谱系数(MFCC)参数和基频曲线特征来实现的。这些音段特征和超音段特征能够捕捉汉语口音的独特特性,比如音节的发音方式和音调变化。
基频曲线片段被采用三次多项式进行拟合,这种方法有助于捕捉不同口音之间的细微差别。传统的基于高斯混合模型(GMM)的处理方式未能充分利用多维特征,因此,作者引入了支持向量机(SVM)这一机器学习工具,它在决策阶段表现出更强的特征融合能力。
论文特别强调了性别相关模型的应用。考虑到口音可能与说话者的性别有关,通过分阶段的方式,他们构建了性别相关的高斯混合模型,这进一步提升了辨识的精确性。实验结果在863汉语口音数据集上验证了这一方法的有效性,相较于仅使用MFCC特征且不考虑性别因素的传统方法,他们的方法能够显著降低约20%的相对误差。
这篇论文的核心贡献在于结合多层特征、性别相关模型以及支持向量机技术,开发出了一种新颖且有效的中文口音识别系统。这对于语音识别技术,特别是针对汉语口音的个性化识别具有重要的理论价值和实践意义。研究者们通过细致的特征工程和模型设计,展示了在实际应用中如何提升口音识别的准确性,为今后相关领域的研究提供了新的思路和参考。
2019-09-20 上传
2019-08-21 上传
2019-07-22 上传
2019-08-15 上传
2019-07-22 上传
2019-07-22 上传
weixin_39840914
- 粉丝: 436
- 资源: 1万+
最新资源
- Ansys Comsol实现力磁耦合仿真及其在电磁无损检测中的应用
- 西门子数控系统调试与配置实战案例教程
- ELM多输出拟合预测模型:简易Matlab实现指南
- 一维光子晶体的Comsol能带拓扑分析研究
- Borland-5技术资料压缩包分享
- Borland 6 技术资料分享包
- UE5压缩包处理技巧与D文件介绍
- 机器学习笔记:深入探讨中心极限定理
- ProE使用技巧及文件管理方法分享
- 增量式百度图片爬虫程序修复版发布
- Emlog屏蔽用户IP黑名单插件:自定义跳转与评论限制
- 安装Prometheus 2.2.1所需镜像及配置指南
- WinRARChan主题包:个性化你的压缩软件
- Neo4j关系数据映射转换测试样例集
- 安装heapster-grafana-amd64-v5-0-4所需镜像介绍
- DVB-C语言深度解析TS流