基于RNN与MLP的语音识别系统对比研究

需积分: 0 16 浏览量更新于2024-08-04 收藏 409KB PDF 举报

本文主要探讨了基于神经网络的语音识别技术在提高语音识别系统准确率方面的应用。作者滕云、贺春林和岳淼针对一般语音识别系统存在的准确率较低问题，选择了循环神经网络(RNN)和多层感知器(MLP)这两种神经网络结构作为识别模块的核心技术进行研究。首先，神经网络因其优秀的抽象分类能力，已经成为语音识别系统设计中的重要工具。循环神经网络(RNN)通过其特有的时间序列处理能力，能够捕捉到语音信号中的时序信息，适合处理连续的语音信号。而多层感知器(MLP)，作为前馈神经网络的一种，虽然不直接处理时序数据，但其多层结构允许它学习复杂的非线性映射，对于特征的抽象表示非常有效。作者构建了两种不同类型的语音识别系统，一种采用RNN作为识别模块，另一种则使用MLP。RNN通过内部状态的记忆机制，可以考虑之前的信息来预测当前的语音特征，从而提高识别性能。而MLP则通过多个隐藏层的学习，能够对输入特征进行多层次的处理，提高了识别精度。特征提取模块是整个系统的关键部分，它运用线性预测编码(LPC)和倒谱编码器将原始语音信号转化为LPC倒谱空间中的曲线，这样既减小了模型的复杂度，又保留了语音的重要信息。通过这种方式，特征提取模块提供了识别模块所需的有效输入。实验结果显示，尽管RNN在某些情况下可能展现出强大的记忆能力，但在这次研究中，多层感知器(MLP)的方法在识别准确率上超过了循环神经网络，达到了85%的较高水平。这表明MLP在处理语音识别任务时表现更为优越。总结来说，本文深入研究了神经网络在语音识别中的应用，特别是在RNN和MLP的选择与对比分析上，强调了特征提取和识别模块在语音识别系统中的作用，并通过实验证明了MLP在提高识别准确率上的优势。这一研究成果对于改进语音识别系统的性能和实际应用具有重要意义。

展开

2010

年

月重庆师范大学学报

（

自然科学版

） Jul． 2010

第

卷第

期

Journal of Chongqing Normal University（ Natural Science） Vol． 27 No． 4

DOI： 10． 3969 /J． ISSN． 1672-6693． 2010． 04． 018

基于神经网络的语音识别研究

滕云

，

贺春林

，

岳淼

（

西华师范大学计算机学院

，

四川南充

637002）

摘要

：

由于具有良好的抽象分类特性

，

神经网络现已应用于语音识别系统的研究和开发

，

并成为解决识别相关问题

的有效工具

。

为解决一般语音识别系统准确率较低的问题

，

本文分别给出了由循环神经网络

（ RNN）

和多层感知器

（ MLP）

组成识别模块的两种语音识别系统

，

并对二者识别的准确性进行了比较

。

介绍了特征提取模块的主要工作

步骤并讨论了组成识别模块的上述两种神经网络结构

。

其中

，

特征提取模块利用线性预测编码

（ LPC）

倒谱编码器

，

把输入语音翻译成

LPC

倒谱空间中的曲线

；

而识别模块完成对某个特征空间曲线之间的联系和单词的识别

。

实验

结果表明

，MLP

方法准确率高于

RNN

方法

，

而

RNN

方法准确率可达

85% 。

关键词

：

神经网络

；

语音识别

；

循环神经网络

；

多层感知器

；

线性预测

；

矢量量化

中图分类号

： TP391

文献标识码

： A

文章编号

： 1672-6693（ 2010） 04-0073-04

一个语音识别系统主要由两个不同的模块组

成

：

特征提取和识别

［1］

，

如图

所示

。

特征提取模块

使用标准的线性预测编码

（ LPC）

倒谱编码器

，

它把

输入语音翻译成

LPC

倒谱特征空间中的曲线

。

这

些在降维空间中的曲线能对说出的词汇提供可靠的

表征

，

同时降低了训练的复杂度和减轻了识别的工

作

。

图

语音识别系统组成框图

特征提取模块的输出并不能得到由上述特征空

间曲线表征的单词

。

它仅仅是把输入的语音压力波

转换成某个特征空间的曲线

。

这些曲线之间的联系

和单词的识别是由识别模块完成的

。

本文分别用二

种神经网络

［2-5］

来构建识别模块

，

即循环神经网络

（ Recurrent neural networks，RNN ）

和多层感知器

（ Multi layer perceptrons，MLP）。

基本原理

在识别阶段使用神经网络

，

本文实现了一个简

单的依赖于语音识别系统的扬声器

，

它能够识别单

个的阿拉伯数字

“0”～“9”。

另有许多其他方法被

有效地用于语音识别

，

比如

，

模式识别方法

、

隐马尔

可夫模型

（ HMM）

方法等

［6］

，

但本文使用的是神经网

络

。

使用具有神经网络能力的模式识别以及其他的

数学和信号处理工具

，

一个语音识别系统能正确地

辨识出简单的字

。

系统可识别出经过训练的样本

，

且也能够归纳到同一个字的其他样本

。

当使用较大

的词汇量时

，

系统识别的准确率将降低

。

开发这种语音识别程序的第一步是设计一个特

征提取器

。

依照在人类生物学研究中所取得的阶段

成果及其发展

，

特征提取模块可被模型化

［7］

。

它能

够把输入的声音转换成内部的表示

，

而通过它可重

建原始信号

。

这个阶段可依照听力器官功能模型

化

，

它首先把输入的空气压力波转换成液体压力波

，

然后再把它们转化成特定的神经元放电模式

。

特征提取模块的输出应能在后继阶段对这些数

据开始工作之前降低问题的复杂度

。

此外

，

在输入

空间中点序列之间存在的相关关系必须被保留在输

出空间的点序列之中

。

特征提取模块对信号空间中

收稿日期

： 2010-03-10

资助项目

：

四川省教育厅重点科研项目

（ No． 08ZA018）；

校级科研项目

（ No． 06A002）

作者简介

：

滕云

，

男

，

讲师

，

硕士

，

研究方向为软件理论

、

算法理论和图形图像

、

信号处理

。

下载后可阅读完整内容，剩余3页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

Jaihwoe

粉丝: 21

基于RNN与MLP的语音识别系统对比研究

实现领域驱动设计

推荐给教师的书

网络编程Netty框架深度解析：NIO核心技术、线程模型与高性能网络应用设计

美高森美提供的SmartFusion2 SoC FPGA双轴电机控制套件带有模块化电机控制IP集和参考设计.doc

基于三菱FX1S PLC和威纶通触摸屏的双伺服打孔机控制系统开发详解

太远市-小店区-街道行政区划_140105_Shp数据-wgs84坐标系 (1).rar

乌兰察布市-乌兰察布市-街道行政区划_150900_Shp数据-wgs84坐标系.rar

呼伦贝尔市-满洲里市-街道行政区划_150781_Shp数据-wgs84坐标系.rar

临汾市-尧都区-街道行政区划_141002_Shp数据-wgs84坐标系.rar

Java基于springboot+vue的资产管理系统源码+数据库（高分项目）

最新资源