改进相位自相关系数在说话人识别中的应用

需积分: 9 195 浏览量更新于2024-08-12 收藏 268KB PDF 举报

"说话人识别中语音特征参数研究 (2009年)，作者：杨建华，于小宁，发表于《六理学院学报》，主要探讨了线性预测倒谱系数（LPCC）和美尔倒谱系数（MFCC）在说话人识别系统中的应用，并提出了一种改进的相位自相关系数方法。说话人识别是一种生物特征识别技术，它通过分析语音信号来确定说话人的身份。在构建说话人识别系统时，特征参数的选择和提取是核心环节，因为它们直接影响系统的识别性能。本文主要研究了两种常见的语音特征参数： 1. **线性预测倒谱系数（Linear Prediction Cepstral Coefficients, LPCC）**：线性预测编码是一种分析语音信号的方法，它基于语音信号的线性预测模型。通过对语音信号进行傅里叶变换，然后计算倒谱系数，可以得到反映语音频谱特性的参数。LPCC是进一步对倒谱系数进行差分处理得到的，增强了时间上的局部特征，对于说话人识别系统具有较高的辨别能力。 2. **美尔倒谱系数（Mel-Frequency Cepstral Coefficients, MFCC）**：美尔倒谱分析结合了人类听觉系统的特性，首先将频率轴转换为美尔尺度，然后进行滤波、取对数和倒谱变换。MFCC能够模拟人类听觉感知，捕捉到语音中的主要音调和节奏信息，因此在语音识别中广泛使用。在基础研究之上，作者提出了**改进的相位自相关系数**，这是一种优化的特征参数。传统的自相关系数主要关注信号的时间相关性，而改进的相位自相关系数可能考虑到了相位信息，从而提高了识别的准确性。通过实验比较，发现该改进方法能显著降低系统的误识率，即减少了将一个说话人误识别为另一个说话人的概率，从而提升了系统的整体性能。这项工作不仅深入研究了现有语音特征参数的优势与不足，还提供了新的方法来优化这些参数，对提高说话人识别系统的性能有着重要的理论和实践价值。对于未来的语音识别研究，尤其是在噪声环境下或大规模说话人数据库的应用，改进的相位自相关系数可能成为一个有效的工具，有助于推动整个领域的进步。

六理学院学报

JOURNAL OF DALI UNIVERSITV

研究

第

期

2009

1t:

月

Vol.8

NO.8

∞

杨建华，于小宁

(西安工业大学电子信息工程学院，西安

710032)

[摘要]在说话人识别系统中，特征参数的选择和提取对系统的识别性能有关键性的影响。研究了两种重要

的语音特征参数，线性预测倒谱系数和美尔倒谱系数，在此基础上提出改进的相住自相关系数，通过实验对

几种参数进行了对比，结果表明改进的相位自相关系数能够使系统的误识率明显下降。

[关键词]说话人识别;特征参数;线性预测倒谱系数;美尔倒谱系数

[中图分类号]

TN912

[文献标识码]

[文章编号]

1672-2345(2009)08-0032-04

Study

the

Acoustic

Features

Speaker

Recognition

Yang Jianhua

, Yu Xiaonin

(College of Electronic Infonnation Engineering

Xi'

an University of Technology, Xi'an 710032, China)

(Ab

喝

tract

J In speaker recognition system, the feature selection and extraction is one of the most important problems in speaker

recognition. The

two

main acoustic feature parameters LPCC and

MFCC

were

studied.

币

ameliorative phase auto correlation

coefficient was proposed based on

them.ηle

experimentation results showed that the ameliorative phase auto correlation coefficient

could obviously improve the recognition accuracy of the speaker recognition system.

(Key

words

J speaker recognition; feature parameter; linear prediction cepstrum coefficients (LPCC); mel-frequency cepstrum

coefficients( MFCC)

说话人识别是指通过对说话人语音信号的分

析处理，自动确认说话人是否在所记录的说话者集

合中，以及进一步确认说话人是谁。说话人识别和

语音识别的区别在于，它不注重包含在语音信号中

的文字符号以及语义内容信息，而是着眼于包含在

语音信号中的个人特征，提取说话人的这些个人信

息，以达到识别说话人的目的。

说话人识别技术的关键问题之一就是提取反

映说话人个性的语音特征参数。语音参数的选择是

整个说话人识别系统的基础，对正确识别率有着直

接的影响，目前常用的特征参数包括线性预测倒谱

[收稿日期]

2008-11-26

系数

(LPCC)

、美尔倒谱系数

(MFCC)

等。

LPCC

参数

和

MFCC

参数分别根据人的发声原理和昕觉感知原

理，从人的声音提取出能量分布谱，从中获得声纹

的独特特征，这两种参数在实用中得到了较好的效

果(

)。

我们对几种重要的语音参数进行了研究，并在

此基础上提出一种

PAC-MFCC-Sigmoid

特征。通过

实验，证明这种特征识别方法能使说话人识别系统

的误识率有明显的降低。

说话人识别语音特征参数及提取

1.1

LPCC

参数是基于语音的线性预测分析

乍者简介]杨建华

(1980

斗，男，陕西西安人，助教，主要从事信息与信息处理研究.

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38683193

粉丝: 2

改进相位自相关系数在说话人识别中的应用

LPC语音特征参数研究及其在说话人识别中的应用

深入研究噪声环境下说话人识别的特征参数提取

使用Praat进行情感说话人识别：语音特征与分析技术

电话信道下应用DMFCC进行说话人识别 (2009年)

改进的智能机器人语音识别方法 (2009年)

用于语音识别的空问相关性变换 (2009年)

基于神经网络的语音情感识别分类.pdf

嵌入式语音识别系统：抗噪特征与FPGA实现

MFCC与CHMM技术在语音情感识别及教育应用的研究

空间相关性变换提升语音识别性能

最新资源