没有合适的资源?快使用搜索试试~ 我知道了~
首页语音合成简介及其多音字消歧
语音合成简介及其多音字消歧

本文首先介绍了语音合成的国内外发展现状,接着简述了语音合成过程的基本原理。并对合成过程中的核心问题之一——字音转换问题作了重点说明。对于语音合成技术中的多音字消歧问题,先介绍了传统消歧方法,并在此基础上引出了最大熵模型消歧法。
资源详情
资源评论
资源推荐

语音合成简介及其多音字消歧
摘要:本文首先介绍了语音合成的国内外发展现状,接着简述了语音合成过程的基本原理。并对合成过
程中的核心问题之一——字音转换问题作了重点说明。对于语音合成技术中的多音字消歧问题,先介绍了传
统消歧方法,并在此基础上引出了最大熵模型消歧法。
关键词:语音合成历史;最大熵模型;最大熵原则;特征选择
1 引言
从某种角度来说,语音和文本一样,都
可以看做语义的外在显性载体。语音合成的
基本任务就是通过“文本——语音”转化,实
现语音由一种载体到另一种载体的传递。将
合成文字转换为注音,是早期文本语音转换
系统就面临的问题,但时至今日仍未能彻底
解决,表明了该问题的复杂性。造成汉语拼
音注音难问题主要有以下几个方面:一是命
名实体的检测,二是数字串的读法,三是多
音字及连续变调。多音字消歧则是字音转
换的核心问题之一。字音转换问题一直是
中文语音合成系统中不可缺少的模块,而
多音字消歧是字音转换的核心问题。
2 语音合成的国内外发展历史及现状
语言合成技术的研究已有二百多年的历
史,但是真正有实用意义的近代语音合成技
术是随着计算机技术和数字信号处理技术的
发展而发展起来的。近几十年来国际和国内
的研究主要集中在按规则文语转换,即将书
面语言转换成口头语言。
2.1 国外
语音合成发展历史上代表事件主要如下
所述。(1)早期的研究主要是采用参数合
成方法。代表性产品有 Holmes 的并联共振
峰合成器和 Klatt 的串/并联共振峰合成器。
只要精心调整参数,这两个合成器都能合成
出非常自然的语音。而最具代表性的文语转
换系统要数美国 DEC 公司的 1987 年生产
的 DEC talk。该系统采用 Klatt 的串/并联
共振峰合成器,可以通过标准的接口和计算
机连网或 单独接到电话网上提供各种语音
信息服务,它的发音清晰,并可产生七种不
同音色的声音,供用户选择。(2)自 80 年
代末期起,语言合成技术又有了新的进展,
特别是 1990 年基音同步叠加方法的提出,
使基于时域波形拼接方法合成的语音的音色
和自然度大大提高。(3)九十年代初,基于
PSOLA 技术的法语、德语、英语、日语等
语种的文语转换系统都已经研制成功。这些
系统的自然度比以前基于 LPC 方法或共振
峰合成器的文语合成系统的自然度要高,并
且基于 PSOLA 方法的合成器结构简单易于
实时实现,有很大的商用前景。(4)最近几
年,一种新的基于数据库的语音合成方法正
引起人们的注意。在这个方法中,合成语句
的语音单元是从一个预先录下的庞大的语音
数据库中挑选出来的, 不难想象只要语音
数据库足够大,包括了各种可能语境下的语
音单元,理论上讲有可能拼接出任何语句。
由于合成的语音基元都是来自自然的原始发
音,合成语句的清晰度和自然度都将会非常
高。
-2.2 国内
国内的汉语语音合成研究起步较晚,但
从八十年代初就基本上与国际上研究同步发
展。大致也经历了共振峰合成、LPC 合成至
应用 PSOLA 技术的过程。在国家 863 计划,
国家自然科学基金委,国家攻关计划,中国
科学院有关项目等支持下,汉语文语转换系
统研究近年来取得了令人举目的进展,其中
不乏成功的例子:如 1993 年中国科学院声
学所的 KX-PSOLA;1993 年清华大学
TH_SPEECH;1995 年中国科技大学的
KDTALK 等系统。这些系统基本上都是采用
基于 PSOLA 方法的时域波形拼接技术,其
合成汉语普通话的可懂度、清晰度达到了很
高的水平。然而同国外其它语种的文语转换
系统一样,这些系统合成的句子及篇章语音
机器味较浓,其自然度还不能达到用户可广
泛接受的程度,从而制约了这项技术的大规
模进入市场。


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论2