改进的语音时长规整算法：分段处理提高合成质量

需积分: 10 123 浏览量更新于2024-09-11 收藏 691KB PDF 举报

"语音时长规整算法是用于调整语音信号长度的技术，广泛应用于语音通信、识别和教学等领域。同步叠加算法(SOLA)是其中常用的一种方法，因其简单计算和良好的语音合成质量受到青睐。然而，SOLA在处理高压缩比例和低采样率语音时，语音质量会显著降低，主要是因为它忽视了语音的感知特性，特别是在关键的感知区域。为解决这个问题，文章提出了一种改进的分段时长规整算法，将语音分为压扩敏感、次敏感和非敏感三部分，对不同区域应用不同的压扩比例，以保护敏感区域，提高合成语音的质量。实验表明，这种方法在高压缩比和低采样率下能有效提升语音质量。关键词包括语音处理、时长规整、同步叠加和梅尔倒谱系数。" 在语音信号处理中，时长规整是一个重要的技术，主要目的是改变语音的速度，延长或缩短语音长度而不影响其感知特征，如基音周期和共振峰结构。同步叠加算法(SOLA)是一种在时域中实现的典型方法，通过重叠并添加经过时间缩放的语音帧来实现。尽管SOLA算法简单实用，但当压扩比例增大，尤其是对于低采样率的语音信号，合成的语音质量会降低。为了改进SOLA算法的不足，文章提出了一个创新策略，即根据语音的频谱变化速度和能量分布，将语音信号划分为三个感知等级：敏感、次敏感和非敏感部分。对于这些不同区域，采用不同的压扩比例进行时长规整。这样，敏感区域的语音特征能够被更好地保留，从而在压扩过程中减少对语音质量的影响。在实际应用中，这种分段时长规整算法可以有效地提高合成语音的质量，特别是在面临高压缩比和低采样率的挑战时。文章的实验结果证实了这一方法的有效性，它在处理高压缩程度和低采样率语音时，显著提升了合成语音的质量，这在语音处理领域具有重要的实践价值。此外，梅尔倒谱系数(Mel-frequency cepstral coefficients, MFCC)是语音识别和处理中的关键特征提取技术，它能够捕捉到人类听觉系统对声音频谱的感知特性。在本文中，尽管未详细阐述MFCC的具体应用，但可以推断，在进行语音时长规整时，MFCC可能被用来评估和分析语音的感知特性，以指导算法的优化。这项工作为语音时长规整提供了新的思路，通过分段处理和适应性压扩，增强了算法在处理各种语音条件下的性能，对于语音信号处理的研究和实践具有积极的贡献。

展开

收稿日期

：

２００５－０９－２４

；

修回日期

：

２００６－４－６

；

基金项目

：

安徽省自然科学基金

（

０５０４２０１０２

）

作者简介

：

黄昊

（

１９８１－

），

男

，

四川人

，

研究方向

：

为数字声学与音频信

息隐藏

。

通信地址

：

黄昊

，

Ｅ－ｍａｉｌ：ｈｕａｎｇｈａｏ＠ｍａｉｌ．ｕｓｔｃ．ｅｄｕ．ｃｎ

１

引言

语音时长规整可广泛应用于语音通信

、

语音识

别

、

语言教学等场合

。

语音的时长规整算法

（

ＴＳＭ

，

ｔｉｍｅ－ｓｃａｌｅｍｏｄｉｆｉｃａｔｉｏｎ

），

其目的在于改变语音速

率

，

延长或缩短语音长度

，

同时保持原语音的基音周

期

，

共振峰结构等感知特征

。

语音时长规整可分为时域和频域两类算法

。

在

这些算法当中

，

ＪｏｈｎＭａｋｈｏｕｌ

和

ＡｍｒｏＥｌ－Ｊａｒｏｕｄｉ

于

１９８６

年提出的同步叠加算法

（

ＳＯＬＡ

，

ｓｙｎｃｈｒｏｎ－

ｏｕｓｏｖｅｒｌａｐａｎｄａｄｄ

）

［

１

］

因计算简单

，

语音合成质

量好

，

便于实时实现而得到广泛应用

。

但是

ＳＯＬＡ

算

法随着压扩比的增大

，

尤其对低采样语音信号

，

压扩

程度较大时

，

所合成语音的感知性能也会显著下降

。

其原因在于

ＳＯＬＡ

算法忽略了分析语音本身的感知

特性

，

在压扩过程中无视对分析语音本身的感知敏

感区域的损害

。

压扩比越大

，

损害就越严重

，

导致合

成语音质量显著下降

。

对此本文提出一种改进的时长规整算法

，

先将

分析语音划分为压扩敏感部分

，

次敏感部分和非敏

感部分

，

对次敏感区域和非敏感区域用

ＳＯＬＡ

算法

用不同压扩比进行时长规整

，

而保留原分析语音敏

感区域

，

使得合成语音质量在压扩比增大情况下相

比较于原

ＳＯＬＡ

算法有所提高

。

摘要

：

一般的同步叠加算法在进行语音时长规整时

，

当压扩程度大且语音采样率低时

，

所得合成信号的语音质量

会显著下降

。

其原因在于同步叠加算法忽略了语音本身的感知重要部分

，

过度压扩会损害语音的感知效果

。

针对此

现象文章提出一种先根据频谱变化快慢和能量大小将语音划分为感知敏感

，

非敏感和次敏感部分

，

对各部分采用

不同压扩比进行同步叠加的分段时长规整算法

，

希望能够提高合成语音质量

。

实验证明该算法在压扩程度高

、

低采

样率时对语音质量有显著改善

。

关键词

：

语音处理

；

时长规整

；

同步叠加

；

梅尔倒谱系数

中图分类号

：

ＴＢ５５６

文献标识码

：

Ａ

文章编号

：

１０００－３６３０

（

２００７

）

－０６－１１９１－０５

Ｔｉｍｅ－ｓｃａｌｅｍｏｄｉｆｉｃａｔｉｏｎｏｆｓｅｇｍｅｎｔｅｄｓｐｅｅｃｈ

ＨＵＡＮＧＨａｏ

，

ＧＵＯＬｉ

，

ＺＨＥＮＧＤｏｎｇ－ｆｅｉ

第

２６

卷第

６

期

２００７

年

１２

月

声学技术

ＴｅｃｈｎｉｃａｌＡｃｏｕｓｔｉｃｓ

Ｖｏｌ．２６

，

Ｎｏ．６

Ｄｅｃ．

，

２００７

分段语音时长规整算法

（

中国科学技术大学电子科学与技术系

，

合肥

２３００２７

）

黄昊

，

郭立

，

郑东飞

（

ＤｅｐａｒｔｍｅｎｔｏｆＥｌｅｃｔｒｏｎｉｃＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄ

ＴｅｃｈｎｏｌｏｇｙｏｆＣｈｉｎａ，Ｈｅｆｅｉ２３００２７

，

Ｃｈｉｎａ

）

Ａｂｓｔｒａｃｔ

：

ＴｈｅｃｏｎｖｅｎｔｉｏｎａｌＳＯＬＡｍｅｔｈｏｄｏｆｔｉｍｅ－ｓｃａｌｅｍｏｄｉｆｉｃａｔｉｏｎｅｎｃｏｕｎｔｅｒｓｔｈｅｐｒｏｂｌｅｍｔｈａｔｔｈｅｈｉ－

ｇｈｅｒｔｈｅｍｏｄｉｆｉｃａｔｉｏｎｒａｔｅ，ｔｈｅｌｅｓｓｉｎｔｅｌｌｉｇｉｂｌｅｔｈｅｔｉｍｅ－ｓｃａｌｅｍｏｄｉｆｉｅｄｓｐｅｅｃｈｓｉｇｎａｌ，ｂｅｃａｕｓｅｏｆｔｈｅｎｅｇｌ－

ｅｃｔｏｆｄｉｆｆｅｒｅｎｔｃｏｎｔｒｉｂｕｔｉｏｎｓｔｏａｒｔｉｃｕｌａｔｉｏｎｏｆｄｉｆｆｅｒｅｎｔｓｐｅｅｃｈｓｉｇｎａｌｐａｒｔｓ．Ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｐａｒｔｉ－

ｔｉｏｎｔｉｍｅ－ｓｃａｌｅｍｏｄｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｔｈｅｋｎｏｗｌｅｄｇｅｔｈａｔｈｏｗｆａｓｔｓｐｅｃｔｒｕｍｃｈａｎｇｅｓａｎｄｈｏｗ

ｍｕｃｈｅｎｅｒｇｙｔｈｅｓｉｇｎａｌｃｏｎｔａｉｎｓ，ａｎｄｂｏｔｈｐｌａｙａｃｒｉｔｉｃａｌｒｏｌｅｉｎｓｐｅｅｃｈｐｅｒｃｅｐｔｉｏｎ．Ａｆｔｅｒｉｄｅｎｔｉｆｙｉｎｇｐｏｒ－

ｔｉｏｎｓｗｉｔｈｄｉｆｆｅｒｅｎｔｓｐｅｃｔｒｕｍａｎｄｅｎｅｒｇｙｏｆａｓｐｅｅｃｈｓｉｇｎａｌ，ｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄａｐｐｌｉｅｓｔｉｍｅｓｃａｌｅ

ｍｏｄｉｆｉｃａｔｉｏｎｔｏｄｉｆｆｅｒｅｎｔｐｏｒｔｉｏｎｓｗｉｔｈｄｉｆｆｅｒｅｎｔｍｏｄｉｆｉｃａｔｉｏｎｒａｔｅ．Ｔｈｅｒｅｓｕｌｔｏｆｓｕｂｊｅｃｔｉｖｅｐｒｅｆｅｒｅｎｃｅｔｅｓｔ

ｉｎｄｉｃａｔｅｓｔｈａｔｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｉｓｓｕｐｅｒｉｏｒｔｏｔｈａｔｏｆｔｈｅｃｏｎｖｅｎｔｉｏｎａｌＳＯＬＡｍｅｔｈｏｄ．

Ｋｅｙｗｏｒｄｓ

：

ｓｐｅｅｃｈｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ；ｔｉｍｅ－ｓｃａｌｅｍｏｄｉｆｉｃａｔｉｏｎ；ＳＯＬＡ；ＭＦＣＣ

下载后可阅读完整内容，剩余4页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

baidu_38483802

粉丝: 0

改进的语音时长规整算法：分段处理提高合成质量

最新资源