改进的GSV-SVM方言识别提升语音识别准确率

95 浏览量更新于2024-08-26 收藏 425KB PDF 举报

本文主要探讨了一种创新的语音识别技术——基于子空间映射和得分规整的Gaussian Scaled Vector (GSV)-Support Vector Machine (SVM) 方言识别系统。针对汉语普通话、青海方言和藏语安多方言之间的细微差异和高混淆度问题，该系统旨在提升识别准确率。首先，Gaussian Scaled Vector (GSV) 是一种利用最大后验概率准则自适应生成的核函数，它能够有效地捕捉不同方言数据中的非线性特征。通过KL核，Gaussian分布被用来表示输入数据，这使得GSV在处理复杂方言模式时具有较好的适应性和鲁棒性。系统的核心步骤是将GSV进行低维子空间映射。子空间映射技术，如主成分分析(PCA)或线性判别分析(LDA)，有助于减少数据维度，提取出最具区分性的特征，从而降低噪声影响并突出方言间的差异。这样做的目的是将高维的方言数据转换到一个低维空间，使得原本难以分辨的方言特征变得更容易区分。接着，映射后的低维数据被用于训练多个SVM模型。每个SVM模型负责处理特定方言的数据，通过对得分域进行规整，进一步增强模型对不同方言的识别能力。得分规整是指调整和优化SVM模型的决策边界，使其在不同方言之间达到最优的分类效果。实验结果显示，这种基于子空间映射和得分规整的GSV-SVM方言识别系统在实际应用中取得了显著的效果。它能够有效地处理方言间的混淆，提高识别精度，对于解决语音识别中由于方言差异导致的识别难题具有重要意义。总结来说，本文的研究贡献在于提出了一种结合了高斯超矢量、降维技术和得分规整的方言识别策略，它通过优化数据表示和模型训练，成功地提高了方言识别的性能，为实际的语音识别系统提供了有效的解决方案。这项研究对于推动多语言和方言识别技术的发展具有积极的推动作用。

２０１３

年

１

月

第

３４

卷

第

１

期

计算机工程与设计

ＣＯＭＰＵＴＥＲ

ＥＮＧＩＮＥＥＲＩＮＧ

ＡＮＤ

ＤＥＳＩＧＮ

Ｊａｎ．２０１３

Ｖｏｌ．３４



Ｎｏ．１

基于子空间映射和得分规整的

ＧＳＶ

－

ＳＶＭ

方言识别

王

烨

１

，

屈

丹

１

，

李弼程

１

，

刘

崧

２

（

１．

信息工程大学信息工程学院

，

河南郑州

４５０００２

；

２．

杭州恒生数字有限公司

，

浙江杭州

３１００００

）

摘

要

：

为了提高语音识别中方言识别由于差异性小混淆度高造成识别率低的问题

，

针对汉语普通话

、

青海方言和藏语安

多方言设计一个基于子空间映射和分数归一化技术的

ＧＳＶ

－

ＳＶＭ

方言识别系统

。

利用最大后验概率准则自适应生成

ＫＬ

核

的

ＧＳＶ

，

对

ＧＳＶ

进行低维子空间映射

；

再利用映射后的空间训练多

ＳＶＭ

模型进行得分域规整与识别

。

实验结果表明

，

采

用该系统可以有效对混淆度高的方言进行识别

。

关键词

：

方言识别

；

高斯超矢量

；

主分量分析

；

线性判别分析

；

得分规整

中图法分类号

：

ＴＰ３９１

文献标识号

：

Ａ

文章编号

：

１０００

－

７０２４

（

２０１３

）

０１

－

０２７８

－

０５

收稿日期

：

２０１２

－

０１

－

１９

；

修订日期

：

２０１２

－

０３

－

２７

基金项目

：

国家自然科学基金项目

（

６１１７５０１７

）

作者简介

：

王烨

（

１９８５

－

），

女

，

河南郑州人

，

硕士研究生

，

研究方向为语种识别

；

屈丹

（

１９７４

－

），

女

，

吉林九台人

，

博士

，

硕士生导师

，

研究方向为语音识别

；

李弼程

（

１９７０

－

），

男

，

湖南湘潭人

，

博士

，

博士生导师

，

研究方向为智能信息处理

；

刘崧

（

１９８１

－

），

男

，

黑龙江林

甸人

，

助理工程师

，

研究方向为信号与信息处理

、

广播与电视工程

。

Ｅ

－

ｍａｉｌ

：

ｗａｎ

ｇｙ

ｅ１０２４

＠

１６３．ｃｏｍ

ＧＳＶ

－

ＳＶＭ

ｄｉａｌｅｃｔ

ｒｅｃｏ

ｇ

ｎｉｔｉｏｎ

ｂａｓｅｄ

ｏｎ

ｓｕｂｓ

ｐ

ａｃｅ

ｍａ

ｐｐ

ｉｎ

ｇ

ａｎｄ

ｓｃｏｒｅ

ｐ

ｒｏｃｅｓｓｉｎ

ｇ

ＷＡＮＧ

Ｙｅ

１

，

ＱＵ

Ｄａｎ

１

，

ＬＩ

Ｂｉ

－

ｃｈｅｎ

ｇ

１

，

ＬＩＵ

Ｓｏｎ

ｇ

２

（

１．Ｉｎｓｔｉｔｕｔｅ

ｏｆ

Ｉｎｆｏｒｍａｔｉｏｎ

Ｅｎ

ｇ

ｉｎｅｅｒｉｎ

ｇ

，

Ｉｎｆｏｒｍａｔｉｏｎ

Ｅｎ

ｇ

ｉｎｅｅｒｉｎ

ｇ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｚｈｅｎ

ｇ

ｚｈｏｕ

４５０００２

，

Ｃｈｉｎａ

；

２．Ｈａｎｄｓｏｍｅ

Ｄｉ

ｇ

ｉｔａｌ

Ｃｏｍ

ｐ

ａｎ

ｙ

Ｌｉｍｉｔｅｄ

，

Ｈａｎ

ｇ

ｚｈｏｕ

３１００００

，

Ｃｈｉｎａ

）

Ａｂｓｔｒａｃｔ

：

Ｔｏ

ｄｅｖｅｌｏ

ｐ

ｔｈｅ

ｌｏｗ

ｏｔｈｅｒｎｅｓｓ

ａｎｄ

ｈｉ

ｇ

ｈ

ｃｏｎｆｕｓｉｏｎ

ｐ

ｒｏｂｌｅｍ

ｉｎ

ｄｉａｌｅｃｔ

ｒｅｃｏ

ｇ

ｎｉｔｉｏｎ

，

ｄｅｓｉ

ｇ

ｎ

ａ

ＧＳＶ

－

ＳＶＭ

ｄｉａｌｅｃｔ

ｒｅｃｏ

ｇ

ｎｉｔｉｏｎ

ｓ

ｙ

ｓｔｅｍ

ｂａｓｅｄ

ｏｎ

ｓｕｂｓ

ｐ

ａｃｅ

ｍａ

ｐｐ

ｉｎ

ｇ

ａｎｄ

ｓｃｏｒｅ

ｐ

ｒｏｃｅｓｓｉｎ

ｇ

，

ｗｈｉｃｈ

ａｉｍｓ

ａｔ

ｍａｎｄａｒｉｎ

，

Ｑｉｎ

ｇ

ｈａｉ

ｄｉａｌｅｃｔ

ａｎｄ

Ｔｉｂｅｔａｎ

ｄｉａｌｅｃｔ．Ｆｉｒｓｔｌ

ｙ

，

ａｄａ

ｐ

ｔｉｎ

ｇ

ＫＬ

ｋｅｒｎｅｌ

ｂａｓｅｄ

ＧＳＶ

ｕｎｄｅｒ

ＭＡＰ

ｒｕｌｅ

，

ｉｎ

ｏｒｄｅｒ

ｔｏ

ｍａ

ｐ

ＧＳＶ

ｉｎｔｏ

ｌｏｗ

ｄｉｍｅｎｓｉｏｎ

ｓｕｂｓ

ｐ

ａｃｅ．Ｔｈｅｎ

ｔｈｅ

ｓｕｂｓ

ｐ

ａｃｅ

ｉｓ

ｕｓｅｄ

ｔｏ

ｔｒａｉｎ

ｍｕｌｔｉ

ｐ

ｌｅ

ＳＶＭ

ｍｏｄｅｌｓ

ｔｏ

ｐ

ｒｏｃｅｓｓ

ｓｃｏｒｅｓ

ａｎｄ

ｔｅｓｔ．Ｅｘ

ｐ

ｅｒｉｍｅｎｔｓ

ｓｈｏｗ

ｔｈａｔ

ｔｈｅ

ｐ

ｒｏ

ｐ

ｏｓｅｄ

ｓ

ｙ

ｓｔｅｍ

ｃｏｕｌｄ

ｅｆｆｅｃｔｉｖｅｌ

ｙ

ｒｅｃｏ

ｇ

ｎｉｚｅ

ｈｉ

ｇ

ｈｌ

ｙ

ｃｏｎｆｕｓｅｄ

ｄｉａｌｅｃｔｓ．

Ｋｅ

ｙ

ｗｏｒｄｓ

：

ｄｉａｌｅｃｔ

ｒｅｃｏ

ｇ

ｎｉｔｉｏｎ

；

ＧＳＶ

；

ＰＣＡ

；

ＬＤＡ

；

ｓｃｏｒｅ

ｐ

ｒｏｃｅｓｓ

０

引

言

语种识别方法

：

基于并行音素识别器与语言模型和统

计模型两种方法

［

１

］

。

基于并行音素识别器的方法是将用于

区分不同语种的典型音素经过标注后训练建模

，

这些音素

的排列方式体现该语种的结构

。

该方法的缺点是需要专业

的语言学知识建立音素集合

，

并且大量的语料需要人工标

注

。

基于统计模型的方法是根据参数向量空间的概率统计

分布构建不同语言的模型

，

不需要语言学知识

，

实验语料

也无需标注

。

由于该方法良好的移植性

，

使其得到了广泛

的应用

。

基于统计模型的方法主要有高斯混合模型

－

全局背

景模型

（

Ｇａｕｓｓｉａｎ

ｍｉｘｔｕｒｅ

ｍｏｄｅｌ

－

ｕｎｉｖｅｒｓａｌ

ｂａｃｋ

ｇ

ｒｏｕｎｄ

ｍｏｄ

－

ｅｌ

，

ＧＭＭ

－

ＵＢＭ

）

［

２

］

，

支持向量机

（

ｓｕ

ｐｐ

ｏｒｔ

ｖｅｃｔｏｒ

ｍａｃｈｉｎｅ

，

ＳＶＭ

）

［

３

］

和高斯超矢量支持向量机

（

ＧＭＭ

－

Ｓｕ

ｐ

ｅｒｖｅｃｔｏｒ

ＳＶＭ

，

ＧＳＶ

－

ＳＶＭ

）

［

４

］

３

种

。

其中

ＧＳＶ

－

ＳＶＭ

方法结合

ＧＭＭ

较好的鲁棒性和

ＳＶＭ

优越的区分性

，

比单独使用

ＧＭＭ

或

ＳＶＭ

取得了更好的识别效果

，

应用最为广泛

，

而且成为

ＮＩＳＴ

评测的主要方法

。

本文设计了一套完整的基于

ＧＳＶ

－

ＳＶＭ

的方言识别系

统

。

主要针对普通话

、

青海方言和藏语中的安多方言进行

识别

。

由于汉语和藏语同属汉藏语系

，

且青海方言与普通

话的差异更小

，

因此对于这

３

种方言的区分难度相比于不

同语系语言的区分难度要大得多

。

为提高系统的识别能

力

，

又增加子空间映射和得分规整

。

实验结果表明

，

采用

本文设计的系统

，

对各种方言的识别率均能达到

９０％

以上

。

１

ＧＳＶ

－

ＳＶＭ

语种识别系统

产生式模型

ＧＭＭ

是通过大量的训练数据以及较高的

模型混元数对语种的统计特征分布进行较好的描述

，

因而

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38684509

粉丝: 4
资源: 914

改进的GSV-SVM方言识别提升语音识别准确率

基于子空间辨识的PEMFC电特性状态空间模型构建

MATLAB实现的子空间辨识与控制算法源码

PCA降维与SVM多分类实现MNIST识别

HOG+SVM：传统图像处理下的目标检测与识别详解

基于SSM与Vue的电子书籍敏感字识别系统源码

稀疏子空间聚类：原理、算法与应用

高维数据自动子空间聚类算法进展与改进

基于深度学习的图像识别技术综述

高效子空间聚类算法在高维数据中的研究与应用

基于pyqt5实现的车牌识别系统及数据集

最新资源