改进相位自相关系数在说话人识别中的应用
需积分: 9 195 浏览量
更新于2024-08-12
收藏 268KB PDF 举报
"说话人识别中语音特征参数研究 (2009年),作者:杨建华,于小宁,发表于《六理学院学报》,主要探讨了线性预测倒谱系数(LPCC)和美尔倒谱系数(MFCC)在说话人识别系统中的应用,并提出了一种改进的相位自相关系数方法。
说话人识别是一种生物特征识别技术,它通过分析语音信号来确定说话人的身份。在构建说话人识别系统时,特征参数的选择和提取是核心环节,因为它们直接影响系统的识别性能。本文主要研究了两种常见的语音特征参数:
1. **线性预测倒谱系数(Linear Prediction Cepstral Coefficients, LPCC)**:
线性预测编码是一种分析语音信号的方法,它基于语音信号的线性预测模型。通过对语音信号进行傅里叶变换,然后计算倒谱系数,可以得到反映语音频谱特性的参数。LPCC是进一步对倒谱系数进行差分处理得到的,增强了时间上的局部特征,对于说话人识别系统具有较高的辨别能力。
2. **美尔倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)**:
美尔倒谱分析结合了人类听觉系统的特性,首先将频率轴转换为美尔尺度,然后进行滤波、取对数和倒谱变换。MFCC能够模拟人类听觉感知,捕捉到语音中的主要音调和节奏信息,因此在语音识别中广泛使用。
在基础研究之上,作者提出了**改进的相位自相关系数**,这是一种优化的特征参数。传统的自相关系数主要关注信号的时间相关性,而改进的相位自相关系数可能考虑到了相位信息,从而提高了识别的准确性。通过实验比较,发现该改进方法能显著降低系统的误识率,即减少了将一个说话人误识别为另一个说话人的概率,从而提升了系统的整体性能。
这项工作不仅深入研究了现有语音特征参数的优势与不足,还提供了新的方法来优化这些参数,对提高说话人识别系统的性能有着重要的理论和实践价值。对于未来的语音识别研究,尤其是在噪声环境下或大规模说话人数据库的应用,改进的相位自相关系数可能成为一个有效的工具,有助于推动整个领域的进步。
458 浏览量
109 浏览量
134 浏览量
2021-05-17 上传
2021-05-07 上传
2021-05-17 上传
2021-09-26 上传
点击了解资源详情
103 浏览量

weixin_38683193
- 粉丝: 2
最新资源
- 初学者入门必备!Visual C++开发的连连看小程序
- C#实现SqlServer分页存储过程示例分析
- 西门子工业网络通信例程解读与实践
- JavaScript实现表格变色与选中效果指南
- MVP与Retrofit2.0相结合的登录示例教程
- MFC实现透明泡泡效果与文件操作教程
- 探索Delphi ERP框架的核心功能与应用案例
- 爱尔兰COVID-19案例数据分析与可视化
- 提升效率的三维石头制作插件
- 人脸C++识别系统实现:源码与测试包
- MishMash Hackathon:Python编程马拉松盛事
- JavaScript Switch语句练习指南:简洁注释详解
- C语言实现的通讯录管理系统设计教程
- ASP.net实现用户登录注册功能模块详解
- 吉时利2000数据读取与分析教程
- 钻石画软件:从设计到生产的高效解决方案