MP3压缩域中多话者语音分割的改进BI-C算法研究

144 浏览量更新于2024-08-28 收藏 544KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

本文主要探讨了在MP3压缩域中进行语音分割的方法和实际应用。MP3是一种广泛使用的音频压缩标准，它通过有损编码减少了音频文件的存储空间，但同时也可能导致某些信息的丢失，如语音细节。针对说话人改变点检测这一关键问题，作者提出了一种创新的策略。首先，研究者针对MP3格式的特点，对传统的BIC（Bayesian Information Criterion）检测算法进行了改进，以适应压缩后的音频数据。BIC是一种用于模型选择和参数估计的有效统计工具，但在压缩域中，原始算法可能无法准确捕捉到语音特征。作者通过优化BIC算法，使其能够在MP3压缩条件下有效地检测多话者的改变点，提高了检测的精度。接着，作者借鉴了MFCC（Mel Frequency Cepstral Coefficients）在非压缩音频中的广泛应用，提出了一个在压缩域内利用MDCT（Modified Discrete Cosine Transform）系数计算MFCC特征参数的新方法。MDCT是一种常用的频域分析技术，能够保留音频信号的重要时频特性。通过这种方法，即使在压缩情况下，也能提取出有用的语音特征，这对于后续的语音分割任务至关重要。实验结果显示，尽管工作在压缩的MP3格式下，利用压缩域内的MDCT-MFCC特征参数进行语音分割，依然能够达到与非压缩音频相当的分割精确度。这表明该方法在实际应用中具有很高的实用价值，尤其是在资源有限或者需要高效处理大量音频数据的场景中。研究团队由常辽豫、余小清、万旺根、李昌莲和许雪琼组成，他们分别在压缩域音频分类检索、语音信号处理、数字媒体等多个领域有着深厚的研究背景。他们的合作展示了跨领域的协同研究力量，为MP3压缩域下的语音处理技术发展做出了贡献。本文的核心内容是针对MP3压缩音频，提出了一种结合改进型BIC算法和MDCT-MFCC特征参数的语音分割策略，该方法对于解决说话人改变点检测问题具有显著的优势，并且在压缩条件下仍能保持较高的分割精度，为压缩音频的处理和分析提供了新的思路和技术支持。

资源详情

资源推荐

　　收稿日期 : 2008 - 10 - 10;修回日期 : 2008 - 12 - 15。　　基金项目 :国家自然科学基金资助项目

(

60872115

)

;上海市国际合作基金资助项

目

(

075107035

)

;上海市教委电路与系统重点学科项目

(

J50104

)

。

　　作者简介 :常辽豫

(

1982 -

)

,男 ,河南漯河人 ,硕士研究生 ,主要研究方向 :压缩域音频的分类检索 ; 　余小清

(

1958 -

)

女 ,上海人 ,副教授 ,

主要研究方向:语音信号处理、音频信息检索; 　万旺根

(

1961 -

)

,男 ,上海人 ,教授 ,主要研究方向 :数字媒体、虚拟现实、音视频分类与检索 ; 　

李昌莲

(

1985 -

)

,女 ,江苏南通人 ,硕士研究生 ,主要研究方向 :音频场景分析 ; 　许雪琼

(

1985 -

)

,女 ,福建泉州人 ,硕士研究生 ,主要研究方向 :

音频分类检索。

文章编号 : 1001 - 9081

(

2009

)

04 - 1188 - 05

MP3压缩域中语音分割的研究与实现

常辽豫 ,余小清 ,万旺根 ,李昌莲 ,许雪琼

(

上海大学通信与信息工程学院 ,上海 200072

)

(

yxq@ staff. shu. edu. cn

)

摘　要 :针对说话人改变点检测问题 ,在 MP3格式下用改进型 B IC算法实现了多话者改变点的检测。根据非压

缩域中 MFCC的求取过程 ,提出了一种在压缩域 MP3格式下利用 MDCT系数计算 MFCC特征参数的新方法。在此基

础上 ,使用改进型 B IC改变点检测算法检测说话人改变点。实验表明在相同的 B IC检测算法下 ,利用在压缩域中提取

的 MFCC特征参数进行语音分割 ,可以得到和非压缩域相似的分割精确度。

关键词 :压缩域 ; B IC检测 ;语音分割 ;MDCT系数

中图分类号 : TP274　　文献标志码 : A

Research and realization of speech segmentation in M P3 compressed doma in

CHANG L iao2yu, YU Xiao2qing, WAN W ang2gen, L I Chang2lian, XU Xue2qiong

(

School of Comm unication and Inform ation Engineering, Shanghai University, Shanghai 200072, China

)

Abstract: This article proposed an app roach for detecting the voice change of speakers by employing improved Bayesian

Information Criterion

(

B IC

)

algorithm in MPEG12layer3

(

MP3

)

comp ressed domain. According to the process of MFCC

calculation in raw audio, a new Mel2Frequency Cep stral Coefficients

(

MFCC

)

algorithm by utilizingModified Discrete Cosine

Transform

(

MDCT

)

coefficient in MP3 domain was p resented. Based on these coefficients, the improved B IC algorithm was

employed to decide which point was the voice change point of speakers. The experimental results show that using the MFCC

coefficients extracted in MP3 domain for speech segmentation, sim ilar segmentation precision can be obtained as that in

uncompressed domain.

Key words: compressed domain; Bayesian Information Criterion

(

B IC

)

detection; speech segmentation; Modified

D iscrete Cosine Transform

(

MDCT

)

coefficient

0　引言

音频分割是音频信号进一步应用的基础 ,其重要性是显

而易见的。作为音频分割的一部分 ,话者改变点检测是音频

检索及说话人识别的关键性工作 ;已有众多学者作了相关的

研究。然而 ,传统音频分割算法大都是基于非压缩域格式 ,对

于压缩域中音频分割的研究却相对较少 ;即使涉及到音频分

割也大都是关于不同类别的划分。如文献 [ 1 - 2 ]讨论了

MPEG标准下无声、语音、音乐或其他声音划分 ;文献 [ 3 ]对

MPEG标准下语音识别进行了研究 ,但并未给出语音分割的

具体方法。随着压缩音频数据增多尤其是 MPEG凭借其易于

传输存储、质高量小的优点成为多媒体数据压缩通用标准 ,实

现压缩域中的话者分割具有积极意义。

若以传统方式实现压缩域音频分割 ,必先进行音频解码 ,

而后从解码后的数据中提取特征并对特征分析 ,这完全可以

实现分割目的。这势必会造成计算量加大

[3 ]

,不能保证实时

实现。由于 MPEG音频编码时已考虑了人耳听觉感知特性 ,

为利用这些感知信息和减少计算量 ,可以直接在 MPEG12

layer3码流中以部分解码运算得到数据 , 从而实现 MFCC

(

Mel2Frequency Cepstral Coefficients

)

特征参数的求取。同时 ,

由于不用考虑解码过程中的子带合成 ,用于解码部分的计算

量是极小的。基本实现过程为 :首先 ,从 MP3

(

MPEG12layer3

)

码流中经部分解码 , 得到 MDCT

(

Modified D iscrete Cosine

Transform

)

系数 ,随后 ,通过压缩域中 Mel滤波处理每一帧的

MDCT系数以形成每一帧的 15维 MFCC系数向量 ,最后 ,用

改进型的 B IC

(

Bayesian Information Criterion

)

改变点检测算法

实现多个说话人的改变点检测。

1　压缩域 MFCC特征提取

与普通实际频率倒谱分析不同 ,MFCC特征的分析着眼

于人耳听觉特性。类似于听觉临界带的划分它是在 Mel频率

域通过 Mel三角滤波器对音频信号滤波得到的一种特征参

数。

1. 1　压缩域 MDCT系数

特征参数选取的正确与否对检测结果至关重要。文献

[ 4 - 5 ]在非压缩域中采用 MFCC、谱质心、短时傅立叶变换等

特征实现了分割 ;与此类似 ,我们采用了压缩域中 MFCC作为

特征参数。在非压缩域中 ,特征参数可从原始数据直接结算

得到 ;而压缩音频已经过滤波、声学模型处理和 MDCT变换等

过程 ,显然不能采用直接求取的方法。因此 ,在 MP3格式下 ,

第 29卷第 4期

2009年 4月

计算机应用

Journal of Computer App lications

Vol. 29 No. 4

Apr. 2009

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38557068

粉丝: 4
资源: 862

MP3压缩域中多话者语音分割的改进BI-C算法研究

GSM语音压缩编码源代码

jpeg压缩纯C语言实现

语音通信系统的设计 实现局域网内部语音通话 包括了语音采集、网路传输、编码压缩、解压缩编码和语音播放

文本压缩、语音压缩、图像压缩、视频压缩异同

Matlab未分割压缩图与分割后压缩图对比案例

mp3压缩算法 matlab

matlab分割语音端点检测_如何实现语音端点检测

使用python实现语音通信系统的设计 实现局域网内部语音通话 包括了语音采集、网路传输、编码压缩、解压缩编码和语音播放

文字压缩、语音压缩、图像压缩、视频压缩之间的相同点和不同点

语音信号处理语音压缩编码Matlab

语音信号a率压缩算法c语言,基于OMAP5912平台的语音压缩算法实现

matlab语音压缩编码lpc csdn

hive的压缩文件能分割吗

语音压缩编码方式分成几类

基于MATLAB的JPEG图像压缩编码算法的设计与实现

信号处理学习之语音信号处理matlab实现

基于pca的图像数据压缩编程实现国内外研究现状

语音信号频谱分析的研究背景与意义

G.711A律语音编码的matlab实现

文件压缩程序的设计与实现

最新资源

语音通信系统的设计实现局域网内部语音通话包括了语音采集、网路传输、编码压缩、解压缩编码和语音播放

使用python实现语音通信系统的设计实现局域网内部语音通话包括了语音采集、网路传输、编码压缩、解压缩编码和语音播放