普通话音素评分模型：MFCC特征与SAGA算法应用

3 浏览量更新于2024-08-13 收藏 1.27MB PDF 举报

"基于特征比较和模拟退火遗传算法的普通话音素评分模型 (2012年)，由王健、关添和叶大田在清华大学学报(自然科学版)发表，探讨了一种针对发音障碍者和外语学习者的普通话发音矫正方法。文章中，研究人员利用Mel频率倒谱系数(MFCC)作为声音特征，结合动态时间弯折(DTW)算法进行语音相似度比对，并引入模拟退火遗传算法(SAGA)构建评分模型，以实现自动化的发音评分。实验结果显示，SAGA评分模型在音素评分的准确性上超过94%，优于仅使用局部优化算法的方案。" 这篇论文的核心知识点包括： 1. Mel频率倒谱系数(MFCC)：MFCC是一种广泛用于语音识别和处理的特征提取技术，它能有效地捕捉语音信号的频谱特性，将声音波形转换为易于处理的参数表示，有助于区分不同的音素。 2. 动态时间弯折(DTW)：DTW是一种计算两个序列相似性的方法，尤其适用于时间轴不完全对齐的序列。在本研究中，DTW被用来衡量发音样本与标准发音之间的相似度，即使发音速度不同也能找到最佳匹配路径。 3. 模拟退火遗传算法(SAGA)：SAGA是一种结合了模拟退火和遗传算法的全局优化方法。在语音评分模型中，SAGA用于寻找最佳的评分策略，通过模拟退火过程避免早熟收敛，而遗传算法则帮助优化评分规则，提高评分的准确性和鲁棒性。 4. 发音障碍者和外语学习者的发音矫正：该模型的目标是帮助这两类人群改进发音，通过对他们的发音进行自动评分，提供反馈，从而辅助发音训练和纠正。 5. 模型性能评估：论文对比了SAGA算法与局部优化算法的效果，证明了SAGA在音素评分上的优越性，超过94%的正确率显示了模型的有效性。 6. 应用场景：这种评分模型可以应用于语言学习软件、语音识别系统以及语音治疗领域，为用户提供实时的发音评价和指导。通过这些技术，研究人员为发音矫正提供了新的工具，不仅提高了评分的准确性，还降低了依赖于人工评估的复杂性，具有重要的实际应用价值。

ISSN1000-0054

CN11-2223

清华大学学报

(

自然科学版

)

JTsin

hua Univ

(

Sci& Tech

2012

年第

卷第

期

2012

Vol.52

No.6

880-884

基于特征比较和模拟退火遗传算法的普通话音素评分模型

王

健

关

添

叶大田

(

清华大学生物医学工程系

北京

100084

;

清华大学深圳研究生院

生物医学工程研究中心

深圳

518055

)

收稿日期

2009-12-08

基金项目

国家自然科学基金资助项目

(

300800234

);

深圳市基础研究基金资助项目

(

JC200903180546A

);

广东省自然科学基金资助项目

(

10151805702000000

)

作者简介

王健

(

1985

—),

女

(

汉

四川

博士研究生

。

通信作者

叶大田

教授

E-mail

dt-dea@mail.tsin

hua.edu.cn

摘

要

为了帮助发音困难者障碍者和外语学习者矫正普

通话发音错误

提出基于

Mel

频率倒谱系数

(

Melfre

uenc

strumcoefficient

MFCC

)

特征比较和模拟退火遗传算

法

(

simulatedannealin

enetical

orithm

SAGA

)

的普通话

音素评分模型

。

该模型采用动态时间弯折

(

namictime

war

DTW

)

算法对普通话音素进行相似度比对

并基于

SAGA

评分机制对发音进行自动评分

。

本文对比了不同优

化算法

(

SAGA

和局部优化算法

)、

不同

DTW

算法对语音评

分的影响

。

结果发现

SAGA

评分模型下的音素评分正确

率大于

94%

远远优于局部优化算法

。

此外

在

SAGA

评

分模型下

搜索路径为平行四边形的改进

DTW

算法具有最

优的评分结果

。

因此

基于

MFCC

和

SAGA

的评分模型适

用于普通话音素评分

。

关键词

特征比较

;

Mel

频率倒谱系数

(

MFCC

);

改进动态

时间弯折

(

DTW

)

算法

;

模拟退火遗传算法

(

SA-

);

音素评分

中图分类号

TN912.34

文献标志码

文章编号

1000-0054

(

2012

)

06-0880-05

Pronunciationscorin

modelforMandarin

Phonemesbasedonfeaturecom

arisonusin

asimulatedannealin

enetical

orithm

WANGJian

GUANTian

YEDatian

(

1.De

artmentofBiomedicalEn

ineerin

Tsin

huaUniversit

Bei

100084

China

;

2.ResearchCenterofBiomedicalEn

ineerin

GraduateSchool

atShenzhen

Tsin

huaUniversit

Shenzhen518055

China

)

Abstract

A Mandarin Phoneme

ronunciationscorin

modelwas

develo

edtohel

lewithdifficult

ronunciationand

learnin

forei

n lan

es to rectif

y p

ronunciation errors. The

methodusesfeaturecom

arison ofthe Melfre

uenc

strum

coefficient

(

MFCC

)

and asimulated annealin

g g

enetical

orithm

(

SAGA

)

.Thed

namictimewar

(

DTW

)

orithmisusedto

evaluatethe

honemesimilarit

andtoautomaticall

com

utethe

scoresforthese

honemesbasedontheSAGAscorin

mechanism.

This

ercom

ares

honemescoresusin

differento

timization

orithms

(

SAGA and local o

timization

)

and different DTW

orithms.Theresultsshow thattheSAGA modelaccurac

betterthan 94%

nificantl

betterthanthelocal-o

timization

model.Moreover

thecombinationofSAGAandtheim

rovedDTW

orithm with a

arallelo

ram search

ath resultedin the best

ronunciationscore.Thus

the modelbased on the MFCC and

SAGA methodsisa

riatefor

ronunciationscorin

ofMandarin

Phonemes.

words

featurecom

arison

;

Melfre

uenc

strumcoefficient

(

MFCC

);

roved d

namictime war

orithm

(

DTW

);

simulated annealin

g g

enetic al

orithm

(

SAGA

);

honemescorin

语音发音评分能为发音困难者

、

外语学习者提

供发音评估结果和矫正意见

是发音学习的一种重

要辅助手段

。

目前国外已开发出较成熟的计算机自

动评分系统

如

SRI

的

VILTS

、

WebGrader

、

EduS-

eak

CMU

的

FLUENCY

、

Entro

的

Subarashii

。

现有语音自动评分的研究对象主要包括英语

、

法语

、

荷兰语

、

日语的字

、

词

、

短语和句子

。

为了提高语音

自动评分和人工专家评分之间的相关性

评分方法

从文本依赖型

[

]

发展到文本独立型

[

]

再发展到

多种评分方法的结合

[

]

。

目前主流的评分方法主要

包括基于隐

Markov

模型

(

HMM

)

的对数似然评分

、

基于

HMM

的音素后验概率评分

、

段分类评分

、

段

时长评分等

[

]

。

然而

上述研究中没有针对汉语的语音评分系

统

。

汉语发音评分系统的研究主要集中在中国大陆

和台湾省

。

评分方法主要有

种

基于

HMM

的方

法

[

810

]

和特征比较法

[

]

。

前者是对学习者的语音

特征进行训练

建立

HMM

模板库

然后采用不同

的方法对各语音单元进行测度计算

并转化成直观

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38655998

粉丝: 11
资源: 890

普通话音素评分模型：MFCC特征与SAGA算法应用

基于音素分类的汉语语声转换算法

基于发音特征的汉语普通话语音声学建模

基于音素分割的随机音素分割模型语音识别

g2pM:基于新的开放基准数据集的汉语普通话的神经音素到音素转换包

论文研究-基于上下文三音素DBN模型的连续语音识别.pdf

基于特征音素的说话人识别方法

普通话语音识别中的基本音素分析 (2006年)

基于音素分割的随机音素段模型语音识别

藏语语音合成：三音素HMM模型提升切分准确率

汉语连续语音识别：基于音素类单元的随机轨迹模型研究

最新资源