基于神经网络的语音合成功能及优化方法

90 浏览量更新于2024-01-02 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用14（2022）200077基于神经网络的语音合成系统Dimokritos Panagiotopoulosa，Chelsea， Chelsea Orovasa， Dimitrios Syndoukasba西马其顿大学产品与系统设计工程系，Koila 50100，希腊b西马其顿大学工商管理系，Grevena 51100，希腊Ar ticlei n f o ab st ract文章历史：2021年12月10日收到2022年3月17日修订2022年3月31日接受2022年4月6日在线发布保留字：人工神经网络机器学习自治系统语音合成这项工作的灵感来自于神经系统通过监测其行为的最终效应来控制生物体中专门致动器机制的行为的能力。我们认为，作为一个例子，这种致动器机制的人类声道神经元学习激活其肌肉它能移动软腭、下颌、舌头和嘴唇，以表现出所需的语音活动。作为这种设置的技术近似，我们使用人工神经网络（ANN）和语音合成器，我们研究了人工神经网络的能力，以估计合成器的参数为目标所需的语音活动。在这种设置中，我们假设训练误差是通过测量原始（目标）和合成语音信号之间的“感知距离”来获得的。因此，需要在处理语音合成器的输出之后测量训练误差，而不是直接在这种对误差测量的操作要求限制了广泛使用的基于梯度反向传播的ANN训练算法的应用，但可以通过以下方法来满足：我们先前提出的“启发式增强梯度近似”（HEGA）算法。我们还提出了增强HEGA，进一步优化其性能，在这个苛刻的应用程序。© 2022作者由Elsevier Ltd.发布。这是一个CCBY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）1. 介绍为了探索生物体使其行为适应环境的能力，我们考虑了人类婴儿在学习母语的第一阶段的情况。此时，当看护者或父母引发婴儿的注意力时，他们试图说出清晰简单的单词。在说话前阶段，婴儿试图控制其声道中的肌肉并产生类似于说话的声音（Oller ，2000; Oller等人，2021; Warlau-mont 等人， 2013年），可能是为了回应或模仿感知到的声音。最后，特别是在出生后的第一年，婴儿成功地再现了一些可理解的单词，同时通过与周围环境的相互作用继续进行进一步的发展。在学习发出语音的过程中，模仿是很重要的。实际上，有实验结果表明，儿童∗通讯作者。电子邮件地址： dpanagiotopoulos@uowm.gr （ D.Panagiotopoulos ），chorovas@uowm.gr（C.Orovas），dsyndoukas@uowm.gr（D.Syndoukas）。目的语的语言（Boysson-Bardies和Vihman，1991）。婴儿通过听觉感知人类语音，他们也感知他们产生的声音，并试图控制他们的语音产生机制，目的是减少听到的声音和产生的声音之间的感知差异。没有其他关于他们的神经子系统的“期望”活动的信息，这些神经子系统兴奋他们的声道中的肌肉。已经通过采用强化学习和Kohonen自组织映射类型的人工神经网络研究了用于控制模型关节中的上述肌肉的言语前运动学习（Warlaumont等人， 2013年）。在这项工作中，我们提出了一种方法来实现捕获和模仿语音的交互循环，我们建立了一个适当的系统，以便在其上运行实验。该系统的基本组成部分是语音合成器和人工神经网络（ANN），通过提供适当的参数值来控制合成器。这与刺激声道肌肉的人类神经子系统相一致。在这样的仿生设置中（Wang等人，2021），ANN的训练由所生成的音频信号与作为输入给出的原始语音信号之间的近似的成功来指导。从这个意义上说，它并不...https://doi.org/10.1016/j.iswa.2022.2000772667-3053/© 2022作者。出版社：Elsevier Ltd这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）目录可在ScienceDirect智能系统及其应用期刊主页：www.elsevier.com/locate/iswaD. 帕纳乔托普洛斯角Orovas和D.辛杜卡斯智能系统与应用14（2022）2000772fsFig. 1. 语音合成模型。由于大多数监督训练算法需要知道ANN输出处的误差，因此我们选择应用HEGA算法（Panagiotopoulos等人，2010），其可以利用不一定在ANN的输出处而是在更远的点处测量的误差，即，在由ANN驱动的系统的输出处，其中梯度是困难的或不可能反向传播（特别是如果这样的系统是传统上，有三种基本方法来产生人工语音：（a）连接合成，（b）共振峰合成和（c）语音的发音合成（Jurafsky和Martin ， 2022; Makhoul ， 1984; Rabiner 和 Schafer ， 2007;R.Rabiner和Schafer，1978）。连接语音合成器必须预先加载来自记录的人类声音的人类声音的小片段，它们可以重新排列这些小片段以便组装语音（Oloko-Oba等人，2016年）。由于它是基于人类的录音，因此拼接是听起来最自然的语音合成类型，并且它被必须覆盖有限词汇库的机器广泛使用。共振峰合成器是声道和声门的行为模型，由声源和滤波器组成，如图1所示。滤波器是作为一个时变线性系统来实现的，它模拟了声乐系统中的共振效应（Makhoul，1984; Rabiner andSchafer，2007; R.Rabiner and Schafer，1978）。源用于激励线性系统。发音语音合成（Shadle和Damper，2001）是生成声音的最复杂的方法。图1中的时变滤波器是作为一个令人惊讶的复杂的人类发声器官的模型，通过结合机械，电气和电子组件，如有必要。从理论上讲，这有望在所有三种方法中给出最真实、最人性化的声音。虽然许多研究人员已经尝试模仿人类的语音盒，发音合成仍然是迄今为止探索最少的方法，主要是因为它的复杂性。然而，由于其重要性，对这一领域的研究兴趣仍然很活跃（Padmini等人， 2021年）。最近，已经遵循了一种新的语音合成方法，其不像共振峰和发音语音合成器那样采用参数滤波器来塑造激励信号，而是依赖于深度神经网络（Ning等人，2019）来学习信号的样本在时域中的依赖性，并使用它来重建信号（例如，Wavenet，Oord等人，2016年）。这种依赖性由完全概率和自回归模型表示，其中每个音频样本的预测分布以时间深度中的所有先前分布为条件，该时间深度足以重新创建表达所支持的语言特征的信号。基本上，它可以编码多达109人的语音特征（根据Oord等人，2016年），它可以用他们的声音说话，通过选择他们中的任何一个。为了让系统说出一个单词或短语，它必须输入一系列语言特征，这些特征定义了单词或短语的发音。Wavenet已经用于Tacotron（Wang等人，2017）和Tacotron 2（Shen等人，2018）文本到语音（TTS）系统。这些系统从文本中提取语言特征序列，并将其输入Wavenet，然后Wavenet实际上用人类的声音说出文本。这样的系统已经实现了它们的商业使命，即能够通过自然语音传达任何文本，尽管它们的计算成本是一个不确定的参数（Thompson等人， 2021年）。传统的共振峰和发音合成器是专用语音合成系统，与诸如Wavenet的基于统计参数概念的语音合成系统相比，其不对语音信号的结构进行编码（因为它们是由人类产生的），而是对可以产生这种信号的机制进行建模。这些模型也是参数化的，它们产生自然发音的能力取决于它们的体系结构。预计任何架构改进都将增加其参数化，进一步加强参数值自动估计的要求（Jurafsky和Martin，2022）。共振峰合成中的滤波器或发音合成中的机制取决于必须适当控制的许多参数，以便产生将形成所需音素并最终形成单词的声音信号。由于这些系统的复杂性，当参数值需要随时间变化时，参数值的指定不是一项简单的任务。在这一方向上，已经结合了长短期记忆（ LSTM ）（ Batista 等人，2019）和遗传算法（GA）（Borges等人， 2008年）。然而，它们仍然依赖于传统的系统，例如。DECtalk（Bickley和Bruckert，2002），用于控制共振峰合成器，并且在GA的情况下，由于非常大的搜索空间，它们被限制在参数的小子集中。如前所述，在本文中，我们提出了一种基于神经网络的方法，用于在每个连续的时间窗口指定合成器的所使用的合成器可以从现有的传统模型中改编。目前，我们选择将这种方法应用于共振峰合成是因为它的成熟，但在未来，它可以很容易地扩展到发音合成以及。作为演示，我们构建了一个学习模仿人类语言中单词的系统。也就是说，给定人类说出的单词作为输入信号，系统可以合成并输出类似的声音信号。第二简要介绍了语音合成子系统这是用于这项工作的目的。第三节介绍了驱动合成器的神经网络的系统结构和控制过程，第四节讨论了从信号中提取语音特征。第5节介绍了训练人工神经网络的方法，以估计合成器第6节介绍了我们的测试和结果，让系统学习不同复杂度的样本语音信号的合成，最后，我们给出了结论和进一步工作的重点。2. 语音合成器模块L ets（t）是连续时间t中的速度信号，t∈R+0. 在离散时间中，它是s（n），其中t=nTS，n∈N0是第n个样本，TS=1，其中fs是采样频率。s（n）可以是syn。通过激励信号通过适当的滤波器，如图 1 所示。 1.如果S（z）、U（z）和H（z）是s（n）的z域表示，激励信号和滤波器的传递函数，如图所示。 1，那么，它是S（z）=H（z）U（z）（1）H（z）的简单实现基于线性预测编码（LPC）（Makhoul，1984; Rabiner和Schafer，2007; R.Rabiner和Schafer，1978），其中存在可用于估计滤波器参数的数学过程。然而，在基于LPC的实现中，H（z）是全极点模型函数，并且所产生的语音听起来是“机器人的”。语音产生的更准确建模可能需要在滤波器的传递函数中具有零D. 帕纳乔托普洛斯角Orovas和D.辛杜卡斯智能系统与应用14（2022）2000773≤ ≤ =]+图2. 系统的模块图。从所述语音信号估计所述语音合成模型的参数。前共振合成器考虑共振峰频率共振（极点）和反共振（零点），以实现滤波器传递函数所需的复杂性，产生更接近自然的语音。这些模型缺乏正式的数学程序来估计其参数。正如我们在本文中所示，这些参数可以估计的神经网络。为了这项研究的目的，我们考虑使用Klatt 的共振峰合成器（ Klatt ，1980）。这种合成器相当复杂，但它能够产生接近自然人类语音的声音（Kewley-Port和Nearey，2022）。Klatt的合成器中的基本构建块该频率合成器的结构包括谐振器和幅度控制的级联和并联部分。该频率合成器中所有谐振器的幅度控制和F、BW参数加起来有33个控制参数。在我们的实验中，我们使用神经网络来控制所有这些参数-ters加上脉冲发生器的基频F0，其对应于发声的音高。此外，还有五个参数采用固定值。这些是SW开关的状态，它被固定以将音源连接到级联部分（因为它也是Klatt，1980的典型选择），采样率SR，在我们的实现中为11025 Hz，每帧波形样本数NWS（ NWS=SR× 帧的时间长度），整体增益控制 G0 （dB ）（Klatt，1980年表I中的典型值为47 dB），以及级联共振峰数NFC，NFC=5，因为它是Klatt（1980年）中的典型值。此外，在SR=11.025 KHz的情况下，它是NWS= 128个样本，并且每个帧的宽度是11.6ms。虽然人类语音信号是非平稳的，但是当在短的连续的窗口中分析它时，假设窗口宽度不大于创建过程中涉及的时间常数，它的波形仍然可以根据准平稳特征来描述（Aversano等人，2001年）。如果要通过人工合成来近似音频信号，则宽度应为5 - 20 ms，以获得良好的声音再现，并且应该在每个窗口的开始处更新合成器的参数。如果要分析音频信号以进行特征提取，则宽度应为20 - 40 ms，以便具有足够的样本来获得可靠的频谱估计。Klatt建议在合成话语时每5 - 10 ms更新谐振器控制参数F和BW的值。在我们的例子中，我们每11.6毫秒更新一次，因为这是NWS的时间长度，声音再现仍然非常好。3. 合成器的神经网络控制所提出的系统的示意图在图2中描绘。处理原始语音信号s（n）和合成语音信号s（n），以提取用于估计它们的接近度的语音特征。然后，如第5节所述，使用该参数来指导可训练模块中的学习，该模块估计必须馈送给合成器。由于这些信号是非平稳的，它们的特性随时间变化。因此，为了估计它们的接近度，必须指定它们上的窗口序列，并提取每个窗口上的信号特征以进行比较。这些窗口必须足够小，以便将特征提取为准静止的，并且必须足够大，通常大于构成合成信号的帧，以便能够估计这些特征的值。合成器模块在前一节中介绍，而窗口中信号的分段、可训练模块的结构及其输入在分段方面的定义将在本节中讨论。语音特征的分析将在第4中讨论。3.1. 分段和成帧令s（n），0 ≤n≤N− 1为必须通过合成再现的原始语音信号，如图2所示。还假设M个样本的狄利克雷窗口被应用于s（n），以便帧化连续的重叠段用于特征提取。让这些线段以a在M上的百分比重叠，0 ≤a<1。然后，这样的连续帧之间的步长是（1-a）·M个样本。这在图3中示出。宽度M被选择为使得存在足够的样本以便提取每个帧中的信号段的频率内容。合成器在连续的、非重叠的、每个（1 −a）·M个样本的段中生成信号s（n）。这些都集中在时间与尊重到应用于原始语音的M个样本的对应窗口。选择百分比a，使得每个合成片段足够小。在我们的实现中，M= 256个样本，a=50%，采样率为11.025 Khz，（1-a）·M跨度为11.6ms，M跨度为23.2ms。设4是组成s ∈（n）的线段序列中的一个线段的指数。它是14L N1。（1−a）·M为了使s（n）近似于原始s（n），合成-sizer3.2.可训练估计模块设PS是给定合成器的参数向量（在我们的例子中，这是Klatt生成第4段所需的该向量的值是Ps（4）。可训练估计模块学习针对每个分段4估计Ps（4），如图2的图中所示。该模块由在[0，1]中的N个par十进制输出的前馈神经网络，其中N个par是Ps的大小，后面是去归一化模块，如图4所示。正如第2节所述，在我们的案例中，我们有N标准杆等于34D. 帕纳乔托普洛斯角Orovas和D.辛杜卡斯智能系统与应用14（2022）2000774=。PPP图三. 分段和成帧程序。sigmoid函数由Eq. （3）、φ（x）11+e−αx（三）其中α表征φ（x）的斜率。在我们的实验中，我们使用α=1。可训练参数是网络中每个神经元的权重和阈值见图4。用于估计合成器参数值的可训练模块。神经网络可以具有一个或多个隐藏的神经元层。每个神经元由Eq. （2）、。 N3.2.1.ANN输出由于每个神经元的输出f由等式(2) 以及（3），它取区间（0，1）中的值。因此，神经网络只能输出在区间[0，1]中归一化的合成器参数的所需值。为了获得这些参数的实际值，必须对它们进行（NN）f=φw ii−θi=1（二）参数P。因此，如果OP是神经网络的输出之一功，其对应于参数P，则O（DN）是来自去归一化模块的对应输出，其被馈送到其中I1，. 。。.. 。。，wN是θ是阈值，φ是表征其输出f的激活函数。激活就是逻辑合成器，并且该模块实现Eq. （四）：O（DN）=Pmin+O（NN）×（Pmax−Pmin）（4）图5. 四个实验的收敛性能平均超过10个会话。前20万次迭代以log10值的x轴显示，因为我们希望关注第一次迭代的行为D. 帕纳乔托普洛斯角Orovas和D.辛杜卡斯智能系统与应用14（2022）2000775见图6。两个实验阶段的平均收敛性，每个实验阶段有两百万次迭代。错误水平在学习过程的早期下降，然后继续寻找进一步的优化。图7. 每个实验的两个阶段的平均最小误差值。每个会话的长度为200万次迭代，第二个会话（黄色条）是第一个会话（蓝色条）的延续。由于相应的误差差异很小，结合图1和图2中的曲线图，5和6可以看出，学习的最大部分发生在第一次会议上。(For有关本图例中颜色的解释，请参阅本文的网页版本图8. 迭代，在十次试验中取平均值，其中误差值在每次实验中最后一次减小。黄色条对应于每个实验的第二阶段（在200万次迭代后开始），这是第一阶段（蓝色条）的延续。搜索和优化在大部分可用迭代中处于活动状态。(For有关本图例中颜色的解释，请参阅本文的网页版本。）在第2节中，我们从Klatt的参数集中指定了需要由ANN控制的34个参数的集合。（4）适用于所有这些参数。3.2.2.神经网络输入可训练模块将每个段的索引4映射到合成器参数值的适当集合，并将它们馈送到合成器。为了在神经网络中具有更鲁棒的输入以及权重分布的更好平衡，神经网络的输入不是单个多值实体（接受十进制数），而是二进制数字化实体的向量。因此，索引4被表示为l位二进制数，然后将其应用于神经网络的l个二进制输入。如果L是构成将被考虑的最大语音信号的段的数量，则它应该是2l>L。在我们的实验实现中，l=9，因此L≤511。因此，可以被编码和再现的语音信号的最大长度是511 × 11.6ms，即，将合成语音的特性与原始语音的特性进行比较，对于所有的L个段，并且神经网络被训练为使总体误差最小化。当误差非常小时，s（n）听起来类似于s（n）。在下一节中，我们提出了被认为是用于估计语音信号之间的接近度的信号特征，而训练过程在第5中提出。4. 语音特征提取当合成器用于再现人的语音时，每一个合成的帧必须非常接近原始语音信号中它们对应的帧。为了估计每个帧的合成器参数的适当值，语音帧必须由一组定义良好的特征来表示，并且需要对这些特征进行操作的帧之间的接近度测量来评估和改进这种近似。语音特征提取已经在语音识别领域中被广泛研究（Cheng等人，2005; Karpagavalli andChandra，2016）. 我们选择使用Mel频率倒谱系数（MFCC），因为它们广泛用于语音识别任务（Ittichaichareon等人，2012; Nickel，2006; Patel和Rao，2010; Wang等人，2002年，工作顺利。MFCC是基于Mel标度的特征向量，其将纯音的感知频率或音高与其实际测量的频率相关联。人类的听觉系统无法辨别两个间隔很近的频率之间的差异，并且随着频率的增加，这种效果变得更加明显。Mel标度通过将频谱映射到对数标度来对此进行建模D. 帕纳乔托普洛斯角Orovas和D.辛杜卡斯智能系统与应用14（2022）2000776。2KK。。根据等式（五）。f在每个段中的功率谱，其在声学上表征它。此外，MFCC的大小也取决于（五）信号段的能量，因为它的每一个的频率分量取决于信号的强度。因此，MFCC算法开发了一个滤波器组，它是一组部分重叠的等腰三角形滤波器，均匀分布在Mel频谱上，并且一个滤波器的下边界位于前一个滤波器的中心频率处，而上边界位于下一个滤波器的中心频率处。设K为这些滤波器的个数。如果S4（m）表示M点第4段的FFT谱，原始语音信号，然后，|S4（m）|2，0 ≤m≤M− 1，是它的 M/2如果被比较的两个信号具有不同的强度，但在其它方面听起来相同，则它们的特征向量一致，但它们彼此是倍数，因此它们的欧几里德距离可能很大，而它们的角距离为零或接近零。这一观察结果使我们使用两个向量之间角度的余弦作为其相似性的度量（Novotnovsky，2018; Sidorov等人，2014）而不是其他广泛使用的度量，例如均方误差（MSQE）、平均绝对误差（MAE）等。点功率谱也让|Hk（m）|2表示频率mag-当向量重合时，余弦为1，它们的相似度很高-第k滤波器的对数响应。那么，第k个滤波器的滤波器输出Xk可以由以下等式est，并且误差最小，值为零。因此，两个声学特征向量fA和fB之间的近似将评价m= M −1ABXk=2m=0|S|H k（m）|，1 ≤ k ≤ K（6）|, 1 ≤ k ≤ K(6)误差（fA，fB）=1− cos（fA，fB）=1−F·f|FA|·|fB|（十）MFCC系数由下式给出：上面的等式给出了两个信号之间的误差，每个都只有一个特征向量假设这篇演讲-MFCCj= ，2· 。k=110 - 12-2016刘晓波（π·j·（k − 0. （5））（7）Knals由L个分段组成，则Error（fA（4），fB（4））是两个信号A和B之间的第4个然后，两个信号之间的总误差为：其中j从1变化到p，包括1和p，其中p是计算为所有段上的误差的平均值，Mel标度倒谱在我们的实现中，它是K=24并且p =24。36.Overall_Error（fA，fB）1=L·L4=1误差（fA（4），fB（4））（11）静态特征向量可以通过零阶附加系数由尽管上述公式可以用于短信号或长信号，但是期望在信号之间具有相对低的变化MFCC0= ，1· 。k=1ln（Xk）（8）在训练过程中，单个片段的错误，这反过来又限制了信号的长度到小句子（单个单词和音节很容易考虑）。第4段假设原始语音信号中的M个样本的片段，从时刻r开始，其能量的对数由下式给出：5.2.训练方法图2中所示的ANN通过使用HEGA算法的并行版本来训练（Panagiotopoulos等人，2010年）能量对数=lnn=r+M−1n=r第2（n）条（九）模式，具有附加的改进，如稍后在算法的呈现中指出的。正如已经提到的那样，该算法的选择是基于以下事实：由于语音信号中的所有段不具有相同的能量，但是它们的能量的变化是整个信号的重要特征，所以在段的特征向量中编码每个段的能量也是重要的。这是通过将MFCC0或能量日志或两者结合在静态特征向量中来实现的。本节中讨论的特征被聚合在每个帧的特征向量中。在下一节中，在误差度量的定义中假设这个特征向量，因为它在训练过程中使用。5. 训练人工神经网络学习语音合成器5.1. 的误差由于合成器的期望参数值为每个段是未知的，所需的ANN输出也是未知的。因此，在合成器之后，通过比较产生的语音信号B与原始语音信号A来测量训练误差。误差被测量为表征原始语音信号和合成语音信号的特征向量之间的距离。每个向量中的分量是MFC系数和能量，如前所述。MFC系数携带有关梯度不能被计算，因为训练误差不能直接在ANN的输出处获得，而是从由ANN控制的复杂系统的输出推断。因此，其它广泛使用的训练算法，例如反向传播及其最近的变体Adagrad（Duchi等人，2011年），RMSprop（在Ruder，2017年）和Adadelta（Zeiler，2012年），基于真实梯度的计算不能使用。此外，根据Panagiotopoulos等人（2010），HEGA与其他不需要直接计算输出误差梯度的算法相比，实现了更好的性能。HEGA的并行版本在单处理器计算机上实现了比顺序版本更快的执行速度，并且执行时间根据数量按比例缩小当并行硬件可用时处理器的数量（Panagiotopoulos等人，2010年）。该算法以迭代方式进行，k≥ 1为迭代次数。最初，权重被随机初始化，并且多个参数也被设置为适当的值。这些参数是学习率η、动量mom（其是可选参数）、权重上的最小扰动强度Pert强度和小常数δw（其确定在搜索朝向训练误差的最小化的路径时临时应用于每个权重的递增或递减试验步骤）。该算法的基本步骤，在每个它的迭代，是：• 在权重空间中准备一个随机方向的固定长度向量δwKKfMEL（f）=1127·ln1+700D. 帕纳乔托普洛斯角Orovas和D.辛杜卡斯智能系统与应用14（2022）2000777（k−1），用作向量的更新步骤D. 帕纳乔托普洛斯角Orovas和D.辛杜卡斯智能系统与应用14（2022）2000778=v|CCw（k−1）F˜·Ek·我我K2−1K˜C cCδwi神经网络中的权重。假设Q是ANN中的w个信号的总数，则其为δωw=[δωw1δωw2。。。其中δωwi=RndSgni·δw且RndSgnir且通常为Rs+1，或-1（两者具有相同的概率），对于第i个分量，其中1≤i≤Q。• 令wC（k−1）为权重向量的当前值，设E，EOerall_Error（f A，f B），为当前值C原始语音波形A和语音波形A之间的误差使用权重向量wC（k-1）产生的波形B1）。• 修改权重到得到wF=wC（k−1）+δw（k−1），并重新计算相应的误差为 EF=Overall_Error（f A，f B|w）。• 修改的权重再次到得到wB=wC（k−1）−Panagiotopoulos等人（2010）中综述的其他竞争性算法，并且它们在这种苛刻的应用中失败。然而，这个版本的HEGA正在挣扎，因为训练误差越来越低。然后，通过添加修改参数η、δ w和Pert强度的规则，而不是像Panagiotopoulos等人（2010）那样保持它们恒定，在收敛速度和可以实现的训练误差下限方面都获得了显著改善。这些规则如下所示。5.3. 用于调整训练参数的规则设EC是在Nw次迭代的窗口上计算的EC那么，在第k次迭代时，它是δw（k−1）和重新计算的对应误差作为EB=Overall_Error（f A，f B|w）。⎪⎧1·E（i）i fK>NB• 考虑以下三种情况：情况1：EFEB且EF≤EC，<情况2：EB≤min（EC，EF），EC（k）=0⎪⎩NwC wi=k−Nw+11 。Ki=1Max是EC（十二）如果在情况1中，则w[i]（k）=w[i]（k− 1）−η·EF−EC+mom·w [i]（k− 1）训练通常，这是在它开始下降之前的前几次迭代期间，但我们认为它的值已平滑第一次Nw次迭代，所以它是C CδwC我K其中，i=0，并且设置E=1。E（i）或k≤N（十三）Cw[i]（k）=w[i]（k）−w[i]（k− 1）MaxkC wi=1C c C如果在情况2中，则w[i]（k）=w[i]（k−1）+η·EB−EC+mom·w[i]（k−1）其中，C[i]（ 0）= 0，并设置关于试验步长δ w的规则是，它应该随着训练的改进而减小，其中E C的值指示训练的水平，以便在权重接近权重空间中的最小误差点时允许对权重进行更细粒度的试验。通过根据以下公式在第k次迭代时估计δ w来满足该规则：wC[i]（k）=wC[i]（k）−wC[i]（k− 1）如果在情况3中，则对于每个权重w[i]，进行如下：δw（k）=。δw0eλ（k）K1−1K1−1如果k>Nw（十四）C(i) 如果EC（current）/= EC（previous），指示新的局部最小值，则通过设置pert i（k）= Pert Strength将当前扰动强度perti（k）重置为其最小值。(ii) 以相等的概率随机选择以下两个动作（a）或（b）中的一个：(a) wC[i]（k）=wC[i]（k− 1）+ RndSgni×perti（k− 1），设置 wC[i]（k）= 也有条件地-对于情况3中的下一次重新进入，增加第i个权重的扰动强度，如下所示：如果perti（k）Nmax×Pert强度，则<δw0if k≤Nw其中参数δw0是提供给算法的初始试步，常数K1是控制速率的新参数δw和λ（k）的指数下降定义为EC（k）。数学-Max附录中给出了该公式的数学推导关于学习率η的规则是，它应该随着训练的改进而类似地降低，并且还应该随着EC偏离EC而降低。通过降低学习速率，权重以较低的速度更新，这导致更平滑的收敛。当EC偏离EC时，要么EC增加，因此，其pert（k）=pert（k−1）+Pert强度发散率必须降低，或者EC较低，表明培训正在研究一条更好的道路，(TheNmax限制应用的增量。的典型值最大值为5）。(b) wC[i]（k）=wC[i]（k− 1）+mom×wC [i]（k− 1），并设wC[i]（k）=因此，它应该不那么咄咄逼人。这两起案件都表明，认为学习率应该降低。通过根据以下公式估计η来满足该复杂规则⎨⎧ηη（k）=·eλ（k）K2−1·e−K3·（μ（k）−1）2I fK>N（十五）2可接受的误差阈值，并且当前迭代k为η0·e−K3·（μ（k）−1）如果k≤ N w小于最大允许迭代限制。与Panagiotopoulos等人（2010）的算法相比，上述算法的一个改进是在情况3中添加步骤（i），其控制扰动强度perti的重置，而不是在情况1和2中这样做。在上述算法中，每个向量中的所有元素都是参数η0是提供给算法的初始学习速率，常数K2是随着训练的改进控制学习速率的指数下降速率的新参数，常数K3是控制具有与平均误差的偏差的指数下降参数μ（k）定义为比值EC（k）。C F B CEC（k）pert可以并行地并且彼此独立地更新。HEGA算法的第一个版本能够训练驱动合成器的ANN，而我们也尝试应用关于扰动强度Pert_Stregth的规则是，它应该随着训练的改进而类似地减小，以允许在权重接近阈值时对权重的较小强度的扰动案例3：ENw（十六）PS0，如果k≤Nw其中参数PS0是提供给算法的初始扰动强度，常数K4是控制指数下降速率的新参数。在利用这些规则增强原始HEGA之后，它将被称为AdaHEGA（即，自适应HEGA）。6. 实验结果6.1. 实验本节中介绍的实验检验了在前几节中描述的系统重新产生各种长度的语音片段的能力，这些语音片段可以连接到任意语音产生。这样的语音片段可以是单词或音节。作为指示，在这些实验中，我们选择了四个相对较大的语音片段，其中三个对应于整个单词，第四个对应于一个小句子。虽然在实际应用中，不需要学习任何长于单个单词的东西，因为这会损害合成任意句子的灵活性，但在我们的实验中，我们也考虑了一个小句子，以显示块系统学习长于单个单词的语音结构的能力。前三个语音片段是希腊语中的单词“ena”和“dyo”（“ena”表示“一”，“dyo”表示“两”）以及更复杂的单词“Alzheimer”。第四个片段是“这是一个审判演讲”。所有这四个都是作者的声音（希腊口音）的录音，相应的语音波形在本节的其余部分被称为ena，dyo，alz和this。采样率为11025 Hz，这些声音的波形和相应的频谱图可以在图1和图2中看到。9和10的ena和dyo，也在图。11和12为阿尔兹和这个。这些波形文件可在线获取。1四个实验的技术细节描述于表1中。在该表中，我们可以看到每个波形的长度（以ms为单位）、组成波形的11.6ms帧的数量以及1原始语音和合成语音的波形文件可在http://users.uowm.gr/chorovas/hegasp/hega-speech-samples.html中找到以及所使用的神经网络的结构。在所有这些情况下，人工神经网络有9个输入和34个输出单元。所有这些人工神经网络都由单个隐藏层组成，其大小从10（ena，dyo）到12（alz）或18个单位（this）不等。通常，隐藏层的数量和大小可以根据输入波形的长度和复杂度而变化，基于在网络的训练时间和大小方面所实现的最佳性能（当然，足够大的网络可以统一地用于可变长度的语音信号）。对于所有这些ANN，我们在实验中使用相同的训练参数值，即dw0=0.2，n0=0.1，PS0=5e-07和mom=0.03，用于试验步骤，学习率，扰动力量和动力。如前一节所述，控制上述参数调整的附加参数固定为以下值：K1= −2，K2= − 3，K3= 6，K4= −8，Nw=20。每个实验阶段都被设置为运行，直到呃-ROR将下降到0.03的阈值以下，或者将达到两百万次迭代下面介绍的所有实验在那之后，我们允许他们继续运行另外一组200万次迭代（将第一次会话结束时的权重和阈值作为初始值），以观察系统的长期行为。学习四个语音信号中每一个的再现的实验重复了十次，每次都是一个独立的会话，具有不同的初始随机配置的ANN权重，在下面的小节中，我们报告了平均结果。6.2.讨论结果四个实验的收敛行为，作为每个实验十个阶段的平均值，可以在声音长度帧网络ena372毫秒329-10-34DYO384毫秒339-10-34alz1188毫秒1029-12-34这小行星68881719-18-34D. 帕纳乔托普洛斯角Orovas和D.辛杜卡斯智能系统与应用14（2022）20007710图10. dyo的原始波形和合成波形。子图（a）和（b）的第（i）行中的图对应于原始语音，而第（ii）行中的图对应于合成语音。图中括号中的数字对应于合成语音的误差值图11. alz的原始波形和合成波形。子图（a）和（b）的第（i）行中的图对应于原始语音，而第（ii）行中的图对应于合成语音。图中括号中的数字对应于合成语音的误差值图12. 原始的和合成的波形。子图（a）和（b）的第（i）行中的图对应于原始语音，而第（ii）行中的图对应于合成语音。图中括号中的数字对应于合成语音的误差值D. 帕纳乔托普洛斯角Orovas和D.辛杜卡斯智能系统与应用14（2022）20007711→Cd（ EC（ k））d（ EC（ k））图5和6.这些图形中的红色水平虚线对应于0.2、0.1和0.07的误差水平。一个合成的声音开始被理解时，错误下降到以下0.1正如我们从这些图表中看到的，甚至可以在第一个十万次迭代中发生。在图5中，我们可以看到前20万次迭代的平均性能。由于第一次迭代期间的误差下降相当大，因此x轴以对数标度表示。在该图中，我们可以观察到在前数千次迭代期间误差值的快速下降以及之后为了进一步优化合成语音的质量而进行的持续努力（图1）。 6）。虽然可以相对快速地产生一个像样的解决方案，但系统可以继续运行以进一步优化其响应。每个实验的第一次和第二次两百万次迭代的平均最小误差值可以在图7的图表中看到。由于两个会话的相应最小误差值之间的差异不大，因此我们可以认为优化过程的最大部分发生在每个实验的第一个会话期间（即，在前200万次迭代中）。在图8中，我们可以看到在十次试验中平均的迭代，其中每次实验中的最后一次误差值减小。正如我们所看到的，有一个持续的优化过程，一直持续到允许迭代的极限。此外，尽管如前所述，错误的最大下降发生在第一个会话期间，但这并不意味着系统在第二个会话期间处于非活动状态。更好的解决方案仍然会被派生出来，并且这种行为会一直持续到迭代这种行为表明AdaHEGA算法采用了成功的局部极小值逃逸策略，如第5所述。通过比较原始语音模式和合成语音模式的频谱图，如图1和图2所示。如图9、10、11和12所示，可以观察到，所产生的波形包括在对应的原始模式中发现的所有语音特征。这也可以通过听合成的语音模式来验证。7. 结论在这项工作中，我们提出了一种方法，允许人工神经网络它控制语音合成器的参数，任意复杂度语音大小。进一步的工作可能包括通过探索更复杂的、生物启发的语音产生模块来进行发音语音合成的实验。有人还

下载后可阅读完整内容，剩余1页未读，立即下载