收稿日期 : 2008 - 10 - 10;修回日期 : 2008 - 12 - 15。 基金项目 :国家自然科学基金资助项目
(
60872115
)
;上海市国际合作基金资助项
目
(
075107035
)
;上海市教委电路与系统重点学科项目
(
J50104
)
。
作者简介 :常辽豫
(
1982 -
)
,男 ,河南漯河人 ,硕士研究生 ,主要研究方向 :压缩域音频的分类检索 ; 余小清
(
1958 -
)
女 ,上海人 ,副教授 ,
主要研究方向:语音信号处理、音频信息检索; 万旺根
(
1961 -
)
,男 ,上海人 ,教授 ,主要研究方向 :数字媒体、虚拟现实、音视频分类与检索 ;
李昌莲
(
1985 -
)
,女 ,江苏南通人 ,硕士研究生 ,主要研究方向 :音频场景分析 ; 许雪琼
(
1985 -
)
,女 ,福建泉州人 ,硕士研究生 ,主要研究方向 :
音频分类检索。
文章编号 : 1001 - 9081
(
2009
)
04 - 1188 - 05
MP3压缩域中语音分割的研究与实现
常辽豫 ,余小清 ,万旺根 ,李昌莲 ,许雪琼
(
上海大学 通信与信息工程学院 ,上海 200072
)
(
yxq@ staff. shu. edu. cn
)
摘 要 :针对说话人改变点检测问题 ,在 MP3格式下用改进型 B IC算法实现了多话者改变点的检测。根据非压
缩域中 MFCC的求取过程 ,提出了一种在压缩域 MP3格式下利用 MDCT系数计算 MFCC特征参数的新方法。在此基
础上 ,使用改进型 B IC改变点检测算法检测说话人改变点。实验表明在相同的 B IC检测算法下 ,利用在压缩域中提取
的 MFCC特征参数进行语音分割 ,可以得到和非压缩域相似的分割精确度。
关键词 :压缩域 ; B IC检测 ;语音分割 ;MDCT系数
中图分类号 : TP274 文献标志码 : A
Research and realization of speech segmentation in M P3 compressed doma in
CHANG L iao2yu, YU Xiao2qing, WAN W ang2gen, L I Chang2lian, XU Xue2qiong
(
School of Comm unication and Inform ation Engineering, Shanghai University, Shanghai 200072, China
)
Abstract: This article proposed an app roach for detecting the voice change of speakers by employing improved Bayesian
Information Criterion
(
B IC
)
algorithm in MPEG12layer3
(
MP3
)
comp ressed domain. According to the process of MFCC
calculation in raw audio, a new Mel2Frequency Cep stral Coefficients
(
MFCC
)
algorithm by utilizingModified Discrete Cosine
Transform
(
MDCT
)
coefficient in MP3 domain was p resented. Based on these coefficients, the improved B IC algorithm was
employed to decide which point was the voice change point of speakers. The experimental results show that using the MFCC
coefficients extracted in MP3 domain for speech segmentation, sim ilar segmentation precision can be obtained as that in
uncompressed domain.
Key words: compressed domain; Bayesian Information Criterion
(
B IC
)
detection; speech segmentation; Modified
D iscrete Cosine Transform
(
MDCT
)
coefficient
0 引言
音频分割是音频信号进一步应用的基础 ,其重要性是显
而易见的。作为音频分割的一部分 ,话者改变点检测是音频
检索及说话人识别的关键性工作 ;已有众多学者作了相关的
研究。然而 ,传统音频分割算法大都是基于非压缩域格式 ,对
于压缩域中音频分割的研究却相对较少 ;即使涉及到音频分
割也大都是关于不同类别的划分。如文献 [ 1 - 2 ]讨论了
MPEG标准下无声、语音、音乐或其他声音划分 ;文献 [ 3 ]对
MPEG标准下语音识别进行了研究 ,但并未给出语音分割的
具体方法。随着压缩音频数据增多尤其是 MPEG凭借其易于
传输存储、质高量小的优点成为多媒体数据压缩通用标准 ,实
现压缩域中的话者分割具有积极意义。
若以传统方式实现压缩域音频分割 ,必先进行音频解码 ,
而后从解码后的数据中提取特征并对特征分析 ,这完全可以
实现分割目的。这势必会造成计算量加大
[3 ]
,不能保证实时
实现。由于 MPEG音频编码时已考虑了人耳听觉感知特性 ,
为利用这些感知信息和减少计算量 ,可以直接在 MPEG12
layer3码流中以部分解码运算得到数据 , 从而实现 MFCC
(
Mel2Frequency Cepstral Coefficients
)
特征参数的求取。同时 ,
由于不用考虑解码过程中的子带合成 ,用于解码部分的计算
量是极小的。基本实现过程为 :首先 ,从 MP3
(
MPEG12layer3
)
码流中 经 部 分 解 码 , 得 到 MDCT
(
Modified D iscrete Cosine
Transform
)
系数 ,随后 ,通过压缩域中 Mel滤波处理每一帧的
MDCT系数以形成每一帧的 15维 MFCC系数向量 ,最后 ,用
改进型的 B IC
(
Bayesian Information Criterion
)
改变点检测算法
实现多个说话人的改变点检测。
1 压缩域 MFCC特征提取
与普通实际频率倒谱分析不同 ,MFCC特征的分析着眼
于人耳听觉特性。类似于听觉临界带的划分它是在 Mel频率
域通过 Mel三角滤波器对音频信号滤波得到的一种特征参
数。
1. 1 压缩域 MDCT系数
特征参数选取的正确与否对检测结果至关重要。文献
[ 4 - 5 ]在非压缩域中采用 MFCC、谱质心、短时傅立叶变换等
特征实现了分割 ;与此类似 ,我们采用了压缩域中 MFCC作为
特征参数。在非压缩域中 ,特征参数可从原始数据直接结算
得到 ;而压缩音频已经过滤波、声学模型处理和 MDCT变换等
过程 ,显然不能采用直接求取的方法。因此 ,在 MP3格式下 ,
第 29卷第 4期
2009年 4月
计算机应用
Journal of Computer App lications
Vol. 29 No. 4
Apr. 2009