汉语数字语音识别系统的特征提取与端点检测分析
版权申诉
38 浏览量
更新于2024-04-04
收藏 969KB DOCX 举报
第二章 汉语数码语音的特征提取及端点检测方法分析
在语音识别系统中,模拟的语音信号在完成A/D转换后成为数字信号,但时域上的语音信号很难直接用于识别,因此我们需要从语音信号中提取语音的特征,一方面可以获得语音的本质特征,另一方面也起到数据压缩的作用。目前通用的特征提取方法是基于语音帧的,即将语音信号分为有重叠的若干帧,对每一帧提取kHz ms语音特征。例如采用的语音库采样率为11kHz,因此我们采用的帧长为220个采样点(即20ms),帧ms步长(即每一帧语音与上一帧语音不重叠的长度)为110个采样点(即10ms)。
现有语音识别系统采用的最主要的两种语音特征包括:
1. 线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)。该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能也较差。
2. Mel频标(Mel-frequency Cepstral Coefficient,MFCC)。MFCC是一种描述语音信号频谱特征的参数,它模拟了人耳对频谱的感知特性。MFCC参数可以较好地表示语音的频谱特征,对于噪声和语音识别的性能也相对较好。
在特征提取的基础上,需要进行端点检测,即确定语音信号的起始点和结束点。端点检测方法的主要目的是剔除语音信号中的静音段及非语音干扰,提高语音识别系统的准确性。
要进行端点检测,首先需要对语音信号进行预处理,如去除直流分量、增强信号峰值等。之后,可以采用以下几种方法进行端点检测:
1. 短时能量法。该方法通过计算每一帧语音信号的能量来判断语音的起始和结束点,当能量超过设定的阈值时认为是语音信号,否则认为是静音部分。
2. 过零率法。通过统计语音信号每一帧过零点的个数,当过零率超过设定的阈值时认为是语音信号的边界。
3. 立方差法。该方法结合了短时能量和过零率的信息,通过计算语音信号每一帧的立方差来确定语音信号的起始和结束点。
通过合理选择特征提取方法和端点检测方法,可以有效地提高汉语数码语音识别系统的准确性和稳定性。在实际应用中,还可以结合深度学习等新技术来进一步提升系统的性能,为语音识别技术的发展做出贡献。
123 浏览量
125 浏览量
127 浏览量
595 浏览量
733 浏览量
630 浏览量
580 浏览量
534 浏览量
714 浏览量
竖子敢尔
- 粉丝: 1w+
- 资源: 2468
最新资源
- 【容智iBot】8iBot=RPA+AI:数字化生产力为企业赋能.rar
- 操作系统课件+实验.rar_mightpol_wonsps_操作系统_操作系统实验
- TestYo:测试
- iocage-plugin-zabbix5-server
- 时代变频器在纺织机械行业中的应用.rar
- 【容智iBot】7你知道AI人工智能对我们的意义吗?.rar
- gimp-plugin-pixel-art-scalers:Gimp插件,用于使用hqx,xbr和scalex等Pixel Art Scalers重新缩放图像
- SpringBoot2.7整合SpringSecurity+Jwt+Redis+MySQL+MyBatis完整项目代码
- tarsnapper:tarsnap包装器,使用gfs-scheme使备份失效
- HC110110017 链路状态路由协议-OSPF-ospf.rar
- AreSolutionsClinicMobile:Spring世博会命令行界面,API消费和Spring启动
- Map-Fu-开源
- webbrowser自动填表,并获取网页源码(iframe框架也可获取网页源码)
- janeway::milky_way:具有对象检查和许多其他功能的Node.js控制台REPL
- 批量单词翻译
- indicator:财务指标(EMA,MACD,SMA)