离散隐马尔可夫模型在非特定人关键词语音识别中的应用

5星 · 超过95%的资源需积分: 12 60 浏览量更新于2024-10-02 1 收藏 218KB PDF 举报

"该资源主要介绍了基于离散隐含马尔可夫模型（HMM）的非特定人关键词提取语音识别系统，该系统针对自然语音环境，能够判断并定位预定义的关键词。系统通过优化的置信度策略提高识别准确性和效率，适用于资源有限的嵌入式平台。" 正文: 在语音识别领域，隐含马尔可夫模型（HMM）是一种广泛应用的声学建模工具，尤其在非特定人的语音识别系统中。非特定人语音识别意味着系统不针对特定个体进行训练，而是设计成能识别任何人的语音，这增加了系统的普适性但同时也带来了识别挑战。本研究设计的系统专注于关键词提取，即从一段语音中识别出预定义的关键词，并确定它们出现的位置。与传统的全语音识别系统不同，关键词提取系统旨在减少不必要的计算负担，只关注目标词汇，避免对无关语音的识别，这对于资源受限的嵌入式设备尤其重要。系统采用了离散HMM作为声学模型，离散HMM通过将连续的语音信号离散化，简化了模型处理的过程，降低了计算复杂性。然而，仅使用离散HMM可能限制了模型对语音变化的捕捉能力，因此研究者提出了一种基于前向-后向搜索的关键词假设二次识别的置信度策略。这种方法通过对初步识别结果进行再确认，提高了识别的准确性，尤其是在关键词出现的置信度判断上。关键词提取的一个关键挑战是区分关键词和非关键词语音，研究中提到的置信度策略就是解决这个问题的手段之一。通过计算每个识别结果的置信度，系统可以更准确地判断是否为关键词，并且在识别过程中有效地剔除无关语音，降低了误识别率。此外，系统还借鉴了大词汇量连续语音识别的一些技术，如上下文相关的半音节模型，这些技术提升了关键词提取的性能。然而，复杂的模型并不适合嵌入式应用，因此，研究提出了一个适合低成本嵌入式平台的解决方案，这表明在保持识别性能的同时，系统设计还需考虑实际应用的硬件限制。关键词提取语音识别系统在诸如智能家居、智能助手等应用场景中有广泛的应用潜力，能够实现实时的语音交互和命令识别。通过不断优化模型复杂度和提高识别效率，此类系统将进一步推动语音技术的发展，使其更加智能化和用户友好。

基于离散

!""

的非特定人关键词

提取语音识别系统

汪鹏

刘加

刘润生

清华大学电子工程系

北京

%&&&’()

提要

设计了一个基于离散隐含马尔可夫整词模型的非特定人汉语小词表关键词提取语音识

别系统

提出一种基于对前向

后向搜索得到的关键词假设做二次识别的置信度策略

将该

置信度用于关键词提取系统的说话验证

得到了良好效果

关键词

语音识别

关键词提取

隐含马尔可夫模型

置信度

拒识

中图分类号

0%1,2(

文献标识码

文章编号

*%45%67(’0$1&&2)&26&2(56&7

收稿日期

*1&&16%16&(,

作者简介

汪鹏

$%0548)#

男

硕士研究生

从事关键词语音识别的研究

基金项目

国家自然科学基金

批准号

*4&151&%4),

由于语音识别越来越多地面向实用

目前很多语音识别方面的研究都致力于开发可以接受自然语

音的系统

面向非特定人

语音的环境也更加自然

语音自然度的另一个典型现象就是相同的语义信

息可以用不同的语音序列表达

其中可以定义若干个关键词

关键词的集合称为关键词表

关键词提

取系统的任务就是对一段语音判断其中是否出现预先定义的关键词

如果出现关键词

还可以进一步

给出关键词在整段语音中的位置

如果采用一般语音识别系统的方法对关键词表以外的语音也一并识

别出来

对于系统在模型的存储量和搜索空间上的浪费都是比较可观的

这对资源紧张的嵌入式系统

显得更为突出

因此

在识别阶段把关键词和无关语音区分开来并抛弃

吸收

)

无关语音的关键词提取

技术成为解决此问题的有效方法

关键词提取语音识别系统通常采用连续概率密度的隐含马尔可夫

!""

)

模型

9!""

)

:%;

或者半

连续

!""

模型

<9!""

)

:1;

作为声学模型

随着关键词提取研究的逐渐发展和完善

这项课题也越

来越趋向于借鉴大词汇量连续语音识别

=>9<?

)

的诸多技术

比如上下文相关的半音节模型等

:2;

模

型也越来越复杂

这类系统尽管能够在较大词汇量上达到较好的关键词提取性能

但是系统复杂度

大

不适于嵌入式应用

为了能够在低成本嵌入式平台上实现关键词提取语音识别系统

本文提出一

个基于离散

!""

@!""

)

整词模型的关键词提取系统

并以该系统的前向

后向搜索识别算法为基

础提出一种基于关键词假设二次识别的置信度策略

用于关键词提取后的说话验证过程

关键词提取系统

A,A

前端处理

为降低系统运算量

本系统对所用数据库中的

B!C

采样率数据重采样到

’

B!C

使用

但量

化仍维持

位线性

F9"

量化不变

语音信号按

174

个采样点为帧长进行分帧

帧移采用

%1’

个采样

点

这样设置参数是为了系统移植到

@<F

平台时可以利用基

GG.

等快速算法

因此

本系统一帧语

音的长度为

分帧后的语音经过预加重

加汉明窗后经特征提取得到

维

"G99

参数

由于语音由模拟信号

变换成为数字信号的过程中

要经过预滤波

采样

变换

在这些过程中都会引入信道畸变

而

倒谱均值减

9IJEKLMH "INO<MPKLNQKRSO

9"<

)

是一种抵消信道畸变的简单有效方法

因此还要对

>ST,(%

吉林大学学报

理学版

) /S,2

1&& 2

年

月

UVW?/3=VGUX=X/ W/X>Y?<X.Z $<9XY/9YY@X.XV/

[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[

) 2(5827%

下载后可阅读完整内容，剩余5页未读，立即下载

wojiushishanqiu

粉丝: 3
资源: 9

离散隐马尔可夫模型在非特定人关键词语音识别中的应用

最新资源