第2章 神经计算模型及情感语音合成方法
神经计算模型及情感语音合成方法
2.1 DIVA 模型概述
DIVA(Directions into Velocities of Articulation)模型是 1994 年由波士顿大学
的 Guenther 教授第一个提出,它是一种基于人类生理特征的言语感知与产生的
神经计算模型
[10-14]
,随后,他 继续通过核磁共振技术(fMRI)对模型的原理进行
证明并对模型结构进行了大量的补充与完善
[12]
。Guenther 提出 DIVA 模型起初
是为了探究婴儿如何学习言语发音时所需的运动技能(motor skill),并将模型
可计算性和模型的自组织(self-organizing)特性作为模型的早期目标
[11]
。总体来
说,言语产生的整个神经控制过程中包含了听觉(auditory),体感(somatosensory)
和运动(motor)等生理信息的整合。这些信息分别对应于大脑皮层的颞叶(temporal
lobe),顶叶(parietal lobe)和额叶(frontal lobe)。除此之外,还涉及到一些的皮层下
结构(subcortical structures),例如小脑(cerebellum),基底节(basal ganglia)和脑干
(brain stem)等负责言语产生的神经控制系统
[14]
。
2006 年之后,Guenther 等人将所提出的 DIVA 模型做了进一步的改进与验
证,主要由前馈控制和反馈控制组成的运动控制模块组成
[11]
。整个 DIVA 模型主
要分为两个部分,由两个控制子系统构成的:前馈控制子系统和反馈控制子系统,
其中反馈系统中又分为两个子系统:听觉和体觉控制子系统。DIVA 模型利用
Maeda 语音合成器
[15]
实现从基音频率、共振峰等发音参数到发音运动的映射,进
而合成语音。DIVA 模型中的语音生成过程:首先是激活语音集 Speech Sound Map
(SSM)中的神经元,其对应于布洛卡区的后下部,称为额叶岛盖,接着,SSM 神
经元的激活通过前馈和反馈控制子系统会生成位于运动皮层的运动指令,运动指
令会通过反馈子系统不断修正,最终通过 Maeda 合成器产生出正确的语音。在
这个过程中,SSM 神经元在产生和感知同一个声音时被激活,镜像神经元就具
有这种性质
[13]
。
如图 2-1 所示,模型可以分为三个部分,其中包括前馈控制子系统、反馈控
制子系统以及 Maeda 语音合成器部分(图下方的声道模型)。图中,每个方框都
分别表示一组神经元集合,它们在模型中都具有不同的作用。方框中下面括号里
的文字表示集合中神经元所在的大脑皮层区域;箭头则代表了两种不同神经元集
合之间的映射(转换)计算,而且这个计算过程被假设为神经突触从一个集合映
射到另一个集合的转换过程。突触权值的计算是在模型中学习阶段所获得的。学
万方数据