汉语语音识别研究：语速、音量和音调的影响

版权申诉

110 浏览量更新于2024-07-02 收藏 1.43MB PDF 举报

"该文档是关于汉语语音识别中语速、音量和音调调整的研究，探讨了语音识别的历史、发展、技术以及在汉语环境下的挑战和进展。" 在人工智能领域，语音识别是一项核心技术，其目标是使计算机能够理解和解析人类的语音输入，转化为可处理的文本或指令。语音识别系统广泛应用于人机交互、办公自动化、通信、机器人等多个领域，其发展得益于声学、语音学、语言学、人工智能等多个学科的交叉融合。语音识别的历史可以追溯到20世纪50年代，随着时间的推移，技术经历了显著的进步。60年代末至70年代初，线性预测编码（LPC）和动态时间规整（DTW）技术的引入解决了语音特征提取和不同长度匹配的问题，特别是对于特定人的语音识别效果显著。80年代，研究重点转向连接词语音识别和统计模型技术，例如多级动态规划算法。90年代以后，细化模型设计、参数提取优化和系统自适应成为关键，推动了语音识别技术的商业化进程。对于汉语语音识别来说，由于汉语的复杂性，如四声调的存在和丰富的词汇结构，研究面临更多挑战。从70年代开始，我国在引进并改进国外理论技术的基础上，逐步发展出适合汉语的语音识别方法，缩小了与国际水平的差距。这包括对汉语连接词、连续语音和语境的理解，以及对语速、音量和音调变化的适应。语速、音量和音调是影响语音识别准确性的关键因素。语速快慢可能导致语音信号的压缩和拉伸，对特征提取造成困扰；音量大小可能影响信号的质量和噪声比，低音量可能导致部分语音信号难以辨识；音调变化则直接影响到汉语的语义理解，因为汉语的声调变化可以改变词汇的意义。因此，对这些因素的调整和处理是提高汉语语音识别系统性能的重要手段。研究人员通过各种算法和技术，如自适应滤波、噪声抑制、特征增强等，来改善系统对不同语速、音量和音调的适应性。此外，利用深度学习模型，如卷积神经网络（CNN）、循环神经网络（RNN）和长短期记忆网络（LSTM），可以训练出更强大的模型来捕捉这些变化的模式。汉语语音识别是一个涉及多学科知识的复杂领域，需要不断的技术创新和理论研究来应对汉语特有的挑战。随着技术的持续进步，未来汉语语音识别将更加智能化，为人们的日常生活和工作带来更大的便利。

第二章语音语速的调整

此不详细列出）。从拉宽的语音波形的细节，我们可以看出语音信号具有很强的“时

变特性”，即它的“短时性”。在某些短时段中语音信号呈现出随机噪声的特

性，另一些短时段则呈现出周期信号的特征，其它短时段是二者的混合。简而言

之，语音信号的特征是随时间而变化的。只有在一段时段阳Ｊ隔中，语音信号爿‘保

持相对稳定一致的特征，这段时间一般可以取为５～５０ｍｓ。这一特点是语音信号数

字处理的一个重要出发点，对语音信号的分析必须建立在这一特点的基础上。

二、语音信号的短时能量、短时平均幅度和短时过零率

由于语音信号的准平稳特性，任何语音信号数字处理算法和技术都建立在“短

时”基础上。为了实现语音的各种调整，象以时域量度来描述语音信号的一些例

子包括短时能量、短时平均幅度和短时过零率都必须被大家所了解。这些描述的

方法很好，因为所要求的数字处理实现起来非常的简单，而且对估计语音信号的

重要特性提供了有用的基础。下面就对语音信号的这些短时参数进行详细介绍。

考虑到语音信号的短时平稳特性，语音信号应该进行分段处理。信号流的分

段是采用可移动的有限长度窗口进行加权的方法来实现的，也就是一段语音ｓ（ｎ）

要经过加窗处理，这就是用一定的窗函数ｗ（ｎ）来乘ｓ（ｎ），从而形成加窗语音ｓ。（Ⅳ）。

在语音信号数字处理中常用的窗函数是方窗和哈明窗，它们的表达式如下（其中Ｎ

为窗口长度）：

方窗

ｗ（，ｚ）＝｛Ｌ．

哈明窗

ｎ＝０一（Ｎ—１）

。：其它值

（２＿１）

ｗ（炉Ⅶ０．５４＋０．６４ｃｏｓ㈣州＝’

陋：，

在计算上面提到的三个短时参数时使用的一般就是以上所讲的方窗或哈明

窗。这些短时处理技术，可以表示成数学形式

Ｑ＝∑丁ｋ（Ｊｉ｝）ｈ（Ｈ一女）（２－３）

对语音信号（或者是经线性滤波后滤出所要求的频段）做变换了１¨，该变换可以是

线性的，也可以是非线性的，它可以依赖于某个可调参数或一组参数。然后把所

得到的序列乘以窗序列，这个窗序列位于与抽样标志相一致的时间上，最后对乘

积的所有非零值求和。通常窗序列宽度是有限的，所以Ｑ值就是序列７１ｋ（｜ｉ｝）】的部

分加权平均值的序列。

汉语语音识别中语迷、音蛰和音凋调祭的研究

１）．短时平均能量

短时平均能量可以按照（２．３）式定义为

Ｅ＝∑ｘ２（ｋ）ｗ（ｎ－ｋ）

（２－４）

ｋ＝一。

此处相当于（２—３）式中的７１ｂ（≈）】＝ｘ２（七），因为这罩的窗函数采用的是方窗函数

所以，ｗ（ｎ—ｋ）的非零值范围为０≤１３一ｋ≤Ｎ一１，也就是Ⅳ一Ｎ＋１≤ｋ≤月，故（２－４）

式的ｋ的上下限可以自＂一Ｎ＋ｌ至月，即

邑＝∑ｘ２（七）（２－５）

（２．５）式即表示肝这个时刻的语音信号的瞬时能量。

如果令ｈ（ｎ）＝ｗ（ｎ）可以把（２—４）式表示成图２．４的形式

｛—ｐ

图２．４短时能晕的方框表示

由图２．４可以看出，语音信号的瞬时能量就是信号ｘ２（＂）经过冲激响应为ｈ（ｎ）

的数字滤波器滤波后的结果。

综上所述，语音的瞬时能量表示取决于ｈ（ｎ）的抉择。在实际计算中，不同的

窗口选择（形状、长度），将决定短时平均能量的性质。无论什么形状的窗口，窗

口序列Ｎ的长度将起决定性的作用。所谓窗口长度的长或短，都是相对于语音信

号的音调周期而言的。通常认为在一个语音帧内，应含有１～７个音调周期为好。

可是人的语音的音调周期是变化的，从女性小孩的２ｍｓ至老年男子的１４ｍｓ（即音

调频率为５００Ｈｚ至７０Ｈｚ），所以通常折衷的选择Ｎ为１００～２００点左右。若采样率

为１０ｋＨｚ，则相当于每帧的长度（即窗口序列的长度）约为１０～２０ｍｓ为宜。

２）．短时平均幅度

从短时平均能量Ｅ，这个参数的定义可以看到，对于大电平信号，由于其平方

处理就显得过分灵敏。对于这种情况，可以采用另一种度量语音信号幅值变化的

参量，它叫做“短时平均幅值Ｍ。”。Ｍ。同样也是一帧语音信号能量大小的表征，

它与Ｅ。，的区别在于计算时小取样值和大取样值不因取平方而造成较大差异，在某

些应用领域中会带来一些好处。当窗起点为ｎ＝０时，语音信号的短时平均幅度用

Ｍ．表示，其计算公式为：

Ⅳ～Ｉ

Ｍｏ＝∑ｌｊ。０ｌ

（２－６）

第二章语音语速的调整

同样，当窗的起点为任意整数ｍ时，就表示为Ｍｍ。

３）．短时平均过零率

所谓过零率就是一帧语音中语音信号波形穿过横轴（零电平）的次数。对于

离散时问序列，过零则是指序列取样值改变符号。所以它可以利用相邻两个取样

改变符合的次数来计算。

对于宽带信号，为了反映其过零率随时间的变化情况，不能采用长时平均过零

率，必须采用短时平均过零率，其定义如下：

ＺⅣ＝∑Ｉｓｇｎ［ｘ（ｋ）ｌ－ｓｇｎ［ｘ（１ｃ一１）１ｗ（ｎ一≈）

（２．７）

式中

ｗ（班《２Ⅳ蕊＿

ｐ。，

这里用素‘而不是１’作为幅值，是考虑了对该窗口范围内的过零数取平均的意

思（因为在此范围内共有Ⅳ个样本，而每个样本取用两次）。

其中ｓｇｎ［．】是如下形式的函数，它表示若信号值等于或大于零，则取为＋ｌ（即

正号），若信号值小于零则取为．１（即负号）。即

ｓｇｎ阱｛Ｌ。，蓑

∞。，

考虑到ｗ（ｎ—ｋ１的非零值范围为＂一ｔ≥０，即＿ｊ｝ｓ”，以及／＇１－－ｋ≤Ｎ一１，故

ｋ２月一Ⅳ＋１，因此式（２－７）可以改写为

Ｚ。＝Ｚｌｓｇｎ［ｘ（ｋ）］－ｓｇｎ［ｘ（七一１）】（２－１０）

实验结果表明，浊音语音的能量集中在大约３ｋＨｚ以下，而对于清音语音，其

能量则大多数出现在较高的频率上。由于高的频率对应有高的过零率，低的频率

对应有低的过零率。于是，若测得的过零率高，则对应一般为清音，反之则一般

为浊音。一般的经验数据是，对于清音语音，其过零率为每１０ｍｓ内ｚ”≥４９，而

对于浊音语音，其过零率为每１０ｍｓ内Ｚ。≤１４。

三、汉语语音的特点

汉语是世界上最大的语种。汉语标准语音指的是北京语音。汉语语音的特点如

下：

＜ｌ＞音系简单。这是指音素、音节少（大约有６４个音素，但只有４００个左

右音节，如考虑每个音节有五个音调，也只不过１２００多个有调音节）。例如：１）

剩余52页未读，继续阅读

programhh

粉丝: 8
资源: 3817

汉语语音识别研究：语速、音量和音调的影响

人工智能-语音识别-基于元音长度调整的中语言语音识别.pdf

人工智能-语音识别.zip

stm32语音识别智能垃圾桶中语音播报模快语速和音量调节低了会有怎么样

ai语音产品测试 (1).pdf

mind+语音识别模块

人工智能在语音处理上的应用

cnn+gru 语音识别

matlab语音识别0-9

基于matlab的语音情感识别

最新资源