"汉语连续语音识别技术及其在移动机器人导航中的应用研究"

版权申诉

98 浏览量更新于2024-04-06 收藏 1.68MB DOC 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

汉语连续语音识别的研究已经进行了十多年，取得了一定的成果，但仍然有许多重大的技术问题亟待解决。首先，声学模型的鲁棒性和准确性有待进一步提高，需要深入研究语境相关的声学建模，特别是汉语三音子模型；其次，当训练和识别的环境由于信道和背景噪声的不同或者说话人自身原因而导致系统识别率下降，需要我们深入研究自适应的方法；最后，我们还需要研究技术的可移植性，即如何将识别结果二次利用，以期加快新领域的研究速度。本文的主要研究工作围绕这些关键技术问题展开。首先，研究了基于决策树的三音子建模技术。针对汉语语音识别，我们研究了决策树建模中必须解决的几个主要问题，包括汉语基本建模单元的选择、问题集的设计原则、决策树建模复杂度的优化。在建模单元的选择中，本文在比较以往汉语语音识别中用到的建模单元的基础上，提出了新的建模方法，该方法使用将六个零声母附加到标准声韵母序列的新的声韵母集合作为识别基元，并根据这种识别基元结合语音学和语言学的先验知识设计了问题集，利用基于决策树的状态共享策略建立上下文相关三元声韵母模型。在用基于HTK工具构建的识别系统上进行实验，结果表明，新的声韵母基元与标准声韵母相比，识别性能得到了显著的提升。其次，我们研究了在不同环境下的自适应方法。由于环境的多样性，从而导致了系统的识别率下降，我们需要研究如何在不同环境下调整模型参数以提高识别性能。本文使用了基于最大似然线性回归的方法进行自适应，通过建模观察给定环境下的音频特征和理想输出之间的关系，从而调整模型参数以提高识别性能。实验结果表明，这种自适应方法在不同环境下的识别率都有所提升。最后，我们研究了技术的可移植性。在移动机器人导航中，语音识别是一个重要的应用场景，如何将语音识别的结果有效地应用到导航系统中是一个具有挑战性的问题。本文提出了一种基于分段识别结果的导航方法，即将连续语音输入分段成独立的语音识别结果，然后根据这些结果识别出导航命令。在实际的移动机器人导航系统中进行测试，结果表明，这种基于分段识别结果的导航方法具有较高的准确性和稳定性，可以有效地应用到移动机器人导航中。综上所述，本文针对汉语连续语音识别中的关键技术问题进行了深入研究，提出了相应的解决方案，并在实验中验证了这些方法的有效性。这些研究成果为汉语连续语音识别技术的进一步发展和移动机器人导航系统的应用提供了重要的参考和指导。希望未来的研究能够进一步探索和完善这些方法，为语音识别技术和移动机器人导航系统的发展做出更大的贡献。

资源详情

资源推荐

法直接观测到马尔可夫过程的内部状态序列以及其转移过程。

HMM 分为一阶模型和二阶、三阶等等高阶模型，在语音识别中常用的是一阶隐马尔

可夫模型。同高阶相比，一阶模型参数少，训练、解码的计算量都比较少，更重要的是它

也可以提供很高的准确度。本文语音识别系统中声学模型就是基于一阶 HMM 的。

根据以上论述，我们可以设有一个马尔可夫过程，它有 N 个状态，T 个时刻，某个

时刻 t 只能处于这 N 个状态中的某一个状态，那么任意时刻 t 所处的状态为

。我们可以

这样定义隐马尔可夫模型：一个隐马可夫模型包括三个参数(A,B,π)，其中：

A = {

}，

= P(

=1~N :其中的

表示从状态

转移到状态

的

概率；

B = {

( )

j t

b o

}，

( )

j t

b o

= P(

)，

＝1～N，t＝1～N：其中

( )

j t

b o

表示在状态

时随机变量

的概率密度分布函数。

= {

}，

= P(

)，

＝1～N：其中

表示初始状态处于

的概率。

根据以上定义，隐马尔可夫模型可以被描述为一个拓扑结构，它由节点和路径组成。

每一个节点表示一个状态，各个状态之间可以任意跳转。图 2-2 是一个隐马尔可夫的有限

状态图。

图 2-2 隐马尔可夫模型拓扑结构示意图

Fig.2-2 HMM topology configuration

上图中一个圆圈节点表示一个状态，每一条弧线表示一种可能的路径跳转。模型的参数有

状态集 S＝{1，2，……，N}（N 表示模型的状态数，如上图的 N=5），初始化参数，状态

转移概率和某一状态时的概率密度分布函数。分别对应上文提到的

、A 和 B。本文中所

用到的概率密度函数都是混合高斯密度函数，记为

( , )

ik ik ik

b C N u ij

å å

（2.1）

式中

( , )

N u ij

＝

2 2

1 1

exp

(2 ) | |

ij ij

u ij u

æ ö

ç ÷

è ø

（2.2）

式中，

表示每个高斯的加权系数，

表示均值，

表示方差矩阵。

2.2.2 隐马尔可夫模型的三个基本问题

为了将 HMM 应用于实际，还需要解决一系列关键技术。这些技术可以归纳为以下三

个方面：

1. 给定观察序列

和模型

),,(

��

BA�

，计算

)|(

�

。这是评估问题，也就是给定模型和输

出观察序列，如何计算从模型生成观察序列的概率。也可以把它看作是评估一个模型和给

定观察输出序列的匹配程度。后一种观点是非常有用的。可以用来在一系列候选对象中选

取最佳的匹配。

2. 给定观察序列

OOOO ...

�

和模型

),,(

��

BA�

，求在某种有意义的情况下最优的相关状

态序列

qqqQ ...

�

。这个问题可以理解为对输出观察的最佳“解释”，它试图揭示模型的

隐藏部分，比如说查找“正确”的状态序列。必须弄清楚的就是几乎所有的退化模型都没

有所谓“正确”的状态序列。所以在应用中，通常都使用一个优化策略来最大可能的解决

这个问题。关于这个问题的应用有研究模型的结构，查找连续语音识别中最优的状态序列，

或者计算单独状态的平均统计数据等等。

3. 如何调整模型参数

),,(

��

BA�

，使得

)|(

�

最大？这是模型的训练问题，它试图优化

模型的参数来最佳的描述一个给定的观察序列是如何得来的。

解决评估问题的经典算法有前向算法和后向算法，解决第二个问题的有 Viterbi 搜索

算法，解决最后一个训练问题的算法有 Baum－Welch 算法，下面将对这几个经典算法做

一个详细的描述。

a 前向算法

[23]

问题 1 是计算在给定模型

的条件下，产生观测序列

的概率，即求

)|(

�

。给定模

型

产生某一状态序列 Q＝{

，

，……，

( )

}的概率为：

)|(

�

＝

1 1 2q q q

……

q qT

（2.3）

式中

是初始状态，

是初始状态

的概率，

1 2q q

是从初始状态

转移到 t＝2 时的状态

的概率。

在该状态序列 Q＝{

，

，……，

q q qT

}条件和模型已经给定的情况下，产生观

测序列

＝{

，

，……，

} 的概率为：

( | , )P O Q

＝

( )

……

( )

q T

＝

( )

q t

（2.4）

式中

( )

q t

是状态

产生观测

的概率，即

( ) ( | , )

q t T T

b P q

o o l

（2.5）

状态序列 Q 的观测序列 O 同时发生的联合概率为上二概率之积，即

( | , ) ( | , ) ( | )P O Q P O Q P Q

l l l

（2.6）

将所有可能状态序列所对应的（2.6）式联合概率求和，便得到给定模型

条件下产生观

测序列

的概率，即

( | ) ( , | )

allQ

P O P O Q

l l

（2.7）

将（2.6）式、（2.4）式和（2.3）式代入上式后得到

1 2....

( | )

q q q

P O

l p

( )

1 2

( )

…

( )

q T

（2.8）

该式可以解释如下：初始（t＝1）状态为

的概率是

，在这个状态下以概率

( )

产生

输出符号；在 t＝2 时，以概率

1 2

q q

使状态从

转移到

，同时以概率

( )

产生输出符号

。这一过程从上述方式一直继续下去，知道完成最后一次转移并输出最有一个符号为

止（t＝T）。

按照定义来计算

( | )P O

需要用（2T－1）

次乘法和

N -

次加法，尽似的可以认

为计算需要的次数为 2T

。即使在 N 和 T 都很小的情况下，运算量也十分巨大。因此，

需要寻求高效的算法。而前向和后向算法就是一种高效算法。

定义前向变量

( )

a i

：

1 2

( ) ( , ,..., ; | )

t T t i

a i P q S

o o o l

= =

（2.9）

这就是说，前向变量

( )

a i

是指在给定模型

的条件下，产生 t 以前的部分观测符合序列，

且 t 时刻又处于状态

的概率。前向变量

( )

a i

可按下列步骤进行迭代计算：

（1）初始化：

( )

a i

( )

i i

b O

， 1

i N£ £

（2.10）

（2）迭代计算：

1 1 1

( ) ( ) ( ) ( ) 1, 2,...,1,

t j t t

i i b o j t T T

b b b

+ +

é ù

= = - -

ê ú

ë û

1t T£ £ -

j N£ £

（2.11）

（3）最后计算

( | )P O

( )

（2.12）

第一步是把前向变量初始化为状态

和初始观测

的联合概率。

第二步迭代计算是前向算法的核心部分。可以用图 2-3 加以说明。不管 t 时刻模型处

在哪个状态（N 个可能状态的任何一个），它都会以一定概率在 t+1 时刻转移到状态

去。

因此，在时刻 t+1 处于状态

的概率应该等于 t 时刻各种可能状态转移到

的概率之和。

由于

( )

a j

是观测到符号序列{

，

，…，

}，而且 t 时刻又处于状态

这一联合事

件发生的概率，于是乘积

( )

t ij

i a

表示观测到符号序列{

，…，

}，而且由 t 时刻

的状态

转移到 t+1 时刻的状态

这一联合事件发生的概率。将这些乘积对时刻所有 N

个可能状态求和，便得出观测到符号序列{

，

，…，

}且在 t+1 时刻处于状态

的

概率。一旦完成以上计算且已知状态

，容易得出，将求和结果乘以

( )

j t

b O

即可得到

( )

a j

。（2.11）式是对所有状态

来计算的，对任一给定 t 都要这样做，所以迭代计算是

对 t=1,2,…,T－1 进行的。

第三步，将最后一次迭代计算的结果

( )

a i

对

求和，便得到

( | )P O

。因为根据前向

变量的定义（2.7）式，有

( )

a i P=

（

,……,

；

＝

）（2.13）

所以，将所有

( )

a i

对

求和便得到

( | )P O

。

考虑（2.11）式所需的计算量。经过计算，不难看出计算

( )

a i

的计算量大约是

N T

比起按定义直接计算的

，前向算法已经把计算量减少到了非常低的水平。因此格型

结构为基础的前向算法可以大大减少运算量。

( )

a i

( )

a j

图 2-3 前向变量计算示意图

Fig.2-3 forward variable calculation sketch map

b 后向算法

和前向算法类似，可以得到另一种相似的算法即后向算法

【24】

，它的计算过程如图

2-4。前向算法和后向算法统称为前向－后向算法。为了推导后向算法，首先定义后向变

量

( )

：

( ) 1,

1 i N£ £

（2.14）

它是指在已经给定模型

和 t 时刻处于状态

的条件下，产生部分观测序列

{

1, 2,...,t t T

O O O

+ +

}的概率。后向变量也可以用迭代算法进行计算，步骤如下：

（1）初始化：

1 j

2 j

N j

剩余65页未读，继续阅读

omyligaga

粉丝: 61
资源: 2万+

"汉语连续语音识别技术及其在移动机器人导航中的应用研究"

机器人的语音识别技术.doc

人工智能-语音识别-汉语连续语音识别中自适应技术的研究.pdf

语音识别与机器人动作控制程序设计.docx

机器人导航中,已经有地图后,如何如实现语音指令命令机器人去指定位置

移动机器人模糊控制matlab,MATLAB移动机器人的模糊控制设计仿真.doc

ROS移动机器人导航

unity baidu语音识别+图灵聊天机器人+baidu语音合成

移动机器人的技术与应用场景

山东省高校机器人大赛机器人灭火比赛程序.zip

RVC移动机器人导航

在移动机器人的自主导航实验中，怎么在Rviz图上显示移动机器人的路径

移动机器人速度规划代码

机器人语音识别的国内外现状

自主移动机器人在火星探测机器人上的应用

通过机器人的摄像头或激光雷达获取图像或点云数据，进行障碍物检测和识别，并在导航过程中避开障碍物。代码

移动机器人 高德地图api 自动导航

详述信号处理技术在机器人领域的应用

基于 SLAM算法的移动机器人定位导航控制技术

移动机器人建图导航实验内容

自主移动机器人导论pdf

最新资源

移动机器人高德地图api 自动导航