语音感知哈希算法:融合MFCC与LPCC的创新应用

0 下载量 22 浏览量 更新于2024-08-27 收藏 225KB PDF 举报
"融合MFCC和LPCC的语音感知哈希算法" 本文主要探讨了一种融合MFCC(Mel Frequency Cepstral Coefficients)和LPCC(Linear Predictive Coding Coefficients)的语音感知哈希算法,旨在提高语音识别的鲁棒性以及对小范围篡改的检测和定位能力。该算法基于人类听觉模型,充分利用了语音信号处理中的关键特征,以实现高效且精确的语音认证。 首先,算法采用MFCC作为基础特征提取方法。MFCC是一种广泛用于语音识别的技术,它通过模拟人耳对不同频率声音敏感度的Mel滤波器组,将时域语音信号转换为频域的倒谱系数,从而捕获语音的关键信息。在该算法中,对MFCC的滤波器数量进行了控制,以适应不同的语音帧,确保每一帧都能得到代表性的梅尔频率倒谱参数。 接着,算法引入了LPCC,这是一种利用线性预测分析计算语音的倒谱参数的方法。LPCC考虑了语音信号的时间相关性,能提供更丰富的语音特征。通过融合MFCC和LPCC,算法可以结合两者的优势,增强特征表示的全面性和稳定性。 然后,算法使用分块方法处理融合后的特征矩阵,并应用2D NMF(Non-Negative Matrix Factorization,非负矩阵分解)对特征块进行降维处理,减少计算复杂度的同时保留主要信息。非负矩阵分解是一种无监督学习方法,能发现数据的潜在结构,对于语音特征的压缩和表示非常有效。 最后,对经过2D NMF分解后的系数矩阵进行哈希构造,生成语音感知哈希串。哈希函数将高维特征转化为固定长度的哈希值,保持了原始信息的不可逆性和碰撞的低概率,使得在比较和验证过程中能有效识别语音样本的相似性。通过哈希匹配,算法可以判断两段语音是否匹配,从而实现语音认证。 实验结果显示,这种融合MFCC和LPCC的语音感知哈希算法不仅提高了哈希认证的鲁棒性,还能检测到语音中的小范围篡改,并准确地定位篡改位置。这在语音安全领域具有重要的应用价值,如防止非法篡改、保护语音通信的隐私以及在语音识别系统中确保输入语音的准确性。 关键词涉及的领域包括语音识别、信息安全技术、语音感知哈希、自适应倒谱系数以及篡改定位。该研究工作受到国家自然科学基金和甘肃省自然科学基金的资助,为语音识别和信息安全提供了新的理论和技术支持。
2014-09-12 上传