高效音频时长调整：改进WSOLA算法提升运算效率

114 浏览量更新于2024-08-30 收藏 820KB PDF 举报

本文主要探讨了改进波形相似叠加（Waveforms Similarity Overlap-and-Add, WSOLA）算法在处理高采样率音频时存在的效率问题。传统的WSOLA算法在处理这些高精度音频时，由于计算复杂度较高，可能导致运算速度变慢。针对这一挑战，研究人员提出了一个由粗到精的音频时长调整方法。首先，算法采用短时均值包络作为初步匹配的基础。短时均值包络是通过对音频信号在固定时间窗口内的平均值进行计算，得到一个反映其能量变化趋势的简化版本。这种方法可以快速筛选出两个音频片段之间的大致匹配区域，减少不必要的计算量，从而提高匹配的效率。接下来，细化包络阶段进一步增强了精确性。在初步匹配的基础上，算法会对音频波形进行更细致的分析，可能是通过计算互相关系数来确定最佳的重叠部分。互相关系数衡量的是两个信号之间的相似程度，更高的系数意味着更好的匹配度。通过这种方法，算法能够找到更为精确的时间尺度变换，使调整后的音频在保持原有内容的同时，适应新的时长需求。此外，文章强调了一个关键点，即利用音频的优化低能量率特征参数来动态调整分析窗长度。这意味着算法可以根据音频信号的特性灵活地选择合适的窗口大小，这在处理混合音频时尤其重要，因为它能确保调整过程中的鲁棒性和适应性。优化低能量率特征参数有助于捕捉音频中重要的信息，同时减少噪声干扰，从而提升整体处理效果。实验结果显示，这种改进的WSOLA算法在处理高采样率音频时，不仅显著降低了计算负担，提高了运算效率，而且显著改善了混合音频的处理质量。因此，这种方法对于音频信号处理领域的实际应用具有重要的意义，特别是在需要高效、精确音频时长调整的场景中。本文提供了一种有效的方法来克服高采样率音频处理中的技术瓶颈，为音频信号处理技术的发展提供了新的思路。

第 27 卷第 5 期

2009年9月

应用科学学报

JOURNAL OF APPLIED SCIENCES — Electronics and Information Engineering

Vol. 27 No. 5

Sep. 2009

文章编号: 0255-8297(2009)05-0514-06

改进波形相似叠加算法的音频时长调整

许雪琼，余小清，李昌莲，万旺根

上海大学通信与信息工程学院，上海 200072

摘摘摘要要要: 针对波形相似叠加算法在处理高采样率音频时效率低的缺点，提出由短时均值包络到细化波形的逐步匹配方

法. 首先基于短时均值包络进行粗匹配，在此基础上细化包络，进行再匹配以实现音频时长调整. 该算法降低了计算量，

提高了运算效率. 在进行音频时长调整过程中，还利用音频的优化低能量率特征参数动态调整分析窗长度，实验表明这

种处理方法对混合音频的处理效果有很大改进.

关键词: 音频时长调整；调整因子；短时均值包络；互相关系数；优化低能量率

中图分类号: TN912 文献标志码: A

Time-Scale Modiﬁcation of Audio Signal Using Improved WSOLA

Algorithm

XU Xue-qiong, YU Xiao-qing, LI Chang-lian, WAN Wang-gen

School of Communication and Information Engineering, Shanghai University, Shanghai 200072, China

Abstract: To improve eﬃciency of the waveform similarity overlap-and-add (WSOLA) algorithm in audio signal

processing at high sampling rate, this paper proposes a matching method that is progressively performed from

the short time mean envelop to the signal waveform. We compute a rough matching envelop based on short time

mean envelop, and then perform an exact waveform matching for time-scale modiﬁcation of the audio signal. The

algorithm reduces computation complexity, and improves eﬃciency with good outcome. In addition, the length of

analysis windows is dynamically adjusted based on the modiﬁed low energy ratio parameter. Experiments show that

it signiﬁcantly improves processing results of mixed audio.

Keywords: time-scale modiﬁcation of audio signal, time-scaling factor, short time mean envelop, cross-correlation

coeﬃcient, modiﬁed low energy ratio

音频时长调整算法的思想是在保持音频原始特

性(如基音周期、共振峰等)不变的前提下，调整音频信号

的时间长度，即实现音频的变速不变调处理

[1]

. 音频时

长调整算法的研究在音频信号处理中有着重要意义. 例

如，在语音识别、说话人识别中可以通过音频时长调整

实现识别模板和参考模板的时间对齐. 同时，音频时长

调整研究在广播电视台对时间的要求方面也发挥了重要

作用，如电视节目利用音频时长调整达到视音频流的同

步，还可以随时调整播放速度以达到严格的时间要求

[2]

音频时长调整算法也可用于语言、歌曲学习播放器等，

大大提高了学习效率

[3]

. 另外，通过调整音频时长还可

以改善拥塞网络中的语音听觉效果

[4]

现有的音频时长调整算法主要是针对语音信号进行

处理，针对音乐等其他类型音频的时长调整算法还很少.

已有算法主要是根据共振峰、基音周期、线性预测分析

法(linear predictive coding, LPC)、相位等参数找到合适

拼接点实现高质量的语音信号时长调整. 但由于语音参

数多，提取算法较复杂且提取准确性低，调整后语音的音

收稿日期: 2009-03-05; 修订日期: 2009-05-06

基金项目: 国家自然科学基金(No.60872115)；上海市科委国际合作基金(No.075107035)；上海市教委电路与系统重点学科基金(No.J50104)；上

海市重点学科和科委重点实验室基金(No.S30108)资助项目

通信作者: 万旺根，教授，博导，研究方向：音频信号处理、数据挖掘、虚拟现实等，E-mail: wanwg@staﬀ.shu.edu.cn

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38684806

粉丝: 4

高效音频时长调整：改进WSOLA算法提升运算效率

基于相似波形的LMD改进算法：抑制端点效应并提升EEG特征提取

基于相似波形的LMD端点延拓算法提升EEG特征提取

实时音频波形可视化工具：CGAudioPaint

matlab开发-波形相似，重叠，速度和音频叠加

深入探讨波形合成算法在beep函数中的应用

【音频时域分析】：Wave库波形显示与分析技术的实战应用

高级波形生成技术揭秘

【算法深度剖析】：《数字信号处理》第3版中的算法实战指南

sqrt函数在音频处理中的妙用：从音频合成到语音识别，打造出色音频效果

【构建复杂波形的秘籍】：Waveform生成语言实战指南

最新资源