英语口语重复修正检测：语法网络与搜索过滤算法

自然科学

论文

需积分: 8 108 浏览量更新于2024-08-11 收藏 433KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇论文是2011年发表在《清华大学学报(自然科学版)》上，由黄中、李宏言、王士进和徐波等人共同撰写的科研成果，主要研究了英语口语重复修正检错的技术，特别是在计算机辅助语言教学中的应用。文章提出了一种基于音节单元的Weighted Finite-State Transducer (WFST) 网络的容错对齐和搜索过滤算法，旨在提高口语重复修正的准确性和效率。" 正文: 在计算机辅助语言教学中，口语重复修正检错是一个关键问题，它涉及到语音识别技术以及自然语言处理的深度应用。论文提出的算法利用WFST构建了一个能够处理语音识别错误的模型。WFST是一种数学工具，用于描述和操作有限状态的转换系统，它可以处理有权重的符号序列，对于语音识别中可能出现的各种错误，如音节的误识别，提供了有效的包容性处理。该算法首先对识别后的语音进行对齐，然后通过WFST网络对邻近匹配词进行二次识别，允许一定程度的容错。这个过程旨在捕获可能的修正和替换部分，这些部分作为后续搜索过滤的输入。搜索过滤算法使用查询和模板来查找并纠正潜在的重复或不流畅的部分。为了评估和优化搜索过滤效果，论文中提到了两种算法：k-difference算法和n-gram算法。k-difference算法基于序列假设，通过比较不同位置之间的相似度来判断重复；而n-gram算法则是基于随机假设，通过统计相邻词汇出现的概率来判断流畅度。这两种算法可以结合使用，以提高检测的准确性和置信度。实验结果显示，不使用二次容错对齐时，以音节为基本建模单位的多n-gram混合搜索过滤方法表现最佳。而当引入二次容错对齐后，F-measure（精确率和召回率的调和平均值，用于衡量系统的整体性能）能进一步提升3%至4%，显示出该算法的有效性和改进潜力。这篇论文提出的算法为解决计算机辅助语言学习中的口语重复修正难题提供了一种创新方法，通过WFST和搜索过滤技术的结合，提高了系统对不流畅口语的检测能力，对提高教学质量和效率具有重要意义。

资源详情

资源推荐

ISSN

1000-0054

清华大学学报(自然科学版)

2011

年第

卷第

期

CNIT::'2223/N

Tsinghua

Univ (Sci &

Tech)

2011

l. 51 ,

No.9

26/33

1282-1287

英语口语重复修正检错中语法网络和搜索过滤算法

黄中，李宏言，王士进，徐波

(中国科学院自动化所研究所，数字内容技术研究中心，北京

100190)

摘

要:针对口语重复修正检错这一计算机辅助语言教学

中的难点，提出一种基于音节单元

WFST

(weighted

finit

sta

transd

ucer)

网络的容错对齐和搜索过滤算法。该算法

将对齐后识别结果中邻近匹配词所对应的脚本建立上述语

法网络进行二次识别下的容错对齐，得到的候选被修改部分

和替换部分作为搜索过滤的查询和模板。最终，重复修正检

错结果由搜索过滤算法的置信度决定。为此，提出了基于顺

序假设的

k-difference

算法和基于随机假设的

n-gram

算法。

实验表明

不使用二次容错对齐时，以音节为建模单元的多

n-gram

混合搜索过滤取得了相对最优的结果

使用二次容

错对齐时，能够使

F-measure

获得

3~4

个百分比的进一步

提升。

关键词:计算机辅助语言教学;语法网络;流利度

中图分类号:

391

文章编号:

1000-0054(2011)09-1282-06

文献标志码

Repair filtering and grammar network for

automatic detection of lack of

uency

HUANG

shen,

hongyan.

WANG

shijin ,

(Digital Information Research Center, Institute automation.

Chinese Academy

Science. Beijing

100190.

China)

Abstract:

The

detection of

the

lack of speech fluency is a difficult

task in

computer

aided language learning.

This

paper

presents

second-pass recognition

grammar

based

weighted finite-state

transducer

(WFST)

and repair filtering.

The

system

first

performs

fine-grained re-match on successive

matched

words

in the recognized

speech.

generating

candidates for repair.

Then

k-difference

and

n-gram

repair

filtering is used to filter

out

false positive errors.

The

final decision is

contro

ed by

the

confidence score for

the

repair

filtering.

The

results

show

that

with

single-pass recognition.

multi-gram based sy

able repair filtering gives

the

best

performance

and introducing second pass

re-match

via

the

able

WFST

brings

about

another

3 % - 4 % increase in

the

F-measure

Key

words:

computer

aided language

learning;

grammar

network;

fluency

随着语音识别技术在近年来的迅速发展，计算

机辅助语言教学

computer

aided

language

learn-

ing

CALL)

在技术和应用层面都得到了空前的发

展。针对口语学习者发音流利程度进行自动评估的

工作得到了广泛的研究，研究主要从流利在主观感

觉中的各项指标出发，利用人工评分对其进行训练，

构造多元线性或神经网络等非线性回归模型。如

Cucchiarini

等人在该领域早期的研究旧，以及目前

在

ETS

考试中采用的

TOFEL

iBT[2J

系统。

流利检错是一种更加贴近应用的方法，是指利

用语音识别技术自动检测学习者不流利部分出现的

位置、持续时间、错误类型等，从而提供快速准确的

反馈。一般来讲，不流利现象可分为错误停顿、重复

修正、插入语气等，而本文只关注重复修正检错。目

前对于重复修正的研究多基于

Shriberg

给出的定

义阳，共分为

部分:被修改部分

reparandum)

、

插入语

interregnum)

、替换部分

Crepair)

，前两部

分以

interruption

point)

进行分隔。如图

所

示。本文的目的就是要利用识别技术自动检出被修

改部分，给学习者提供快速、准确的反馈。

,.--"--0.

need two tickets , no,

'-一

--v

一~、.-'

被修改部分

插入语

旦分

川一部

时「换

阳一替

图

重复修正不流利语旬的组成

与发音诊断和流利评估相比，围绕流利诊断的

研究却提及较少。以国际斯坦福研究所(巳

l)为代

表的研究单位

←叫-

言模型以及韵律和词性分层相结合的方法，在

"switch

board"

电话语音库中取得了不错的结果，但

其训练不流利语言模型时需要提供详细的不流利标

注脚本。目前只有极少数英美人士电话语料提供这

种标注，且与

CALL

中非母语学生学习英语在不流

收稿日期:

2011-07-15

基金项目:国家自然科学基金重点项目

(90820303)

作者简介:黄申

0984

一)

.男(汉)

.陕西，博士研究生

通信作者·王士进，助理研究员.

E-mail:

sjwang@hitic.ia.ac.cn

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38668672

粉丝: 6
资源: 907

英语口语重复修正检测：语法网络与搜索过滤算法

CRC检错码-网络计算机实验二

纠错码检错码的PPt，概念、算法深入浅出，轻松掌握。。

checksum校验和算法

差错编码的检错与纠错能力

crc校验码在二进制对称信道中的检错性能

检错码和纠错码的优缺点

信息论在网络通信中的作用

crc校验码检错能力

vscode联合modelsim检错

检错码和纠错码的主要区别

java crc16校验算法

数据链路层的检错和纠错是什么

LTE中的迫零算法的实现

码距与检错、纠错的关系

码的最小码距与其检错和纠错能力有何关系

tcpip参考模型的网络层提供的是

海明码1111001101011检错及纠错

大型机系统结构的流水线算法特点

相对于奇偶校验,交叉奇偶校验的检错与纠错能力的提高需要付出哪些方面的代价?

最新资源