基于Mel频率倒谱系数的虚拟仪器说话人识别系统设计

需积分: 5 88 浏览量更新于2024-08-07 收藏 887KB PDF 举报

本文探讨的是"与文本无关的说话人识别系统的设计与实现"（2008年），该研究聚焦于利用现代信息技术和信号处理方法在虚拟仪器平台上构建一个高效的语音识别系统。作者杨洁和张勇在山东省农业科学院的研究工作中，针对实际应用场景，采用了微型麦克风与计算机声卡来实时采集语音信号，这确保了系统的实时性和便捷性。首先，他们对采集到的语音信号进行了关键步骤的处理，包括噪声抑制和端点检测。噪声抑制是通过信号处理技术减少背景噪音对识别性能的影响，端点检测则是确定语音片段的起始和结束点，这对于准确的特征提取至关重要。他们选择美尔频率倒谱系数（Mel Frequency Cepstral Coefficients, MFCC）作为特征参数提取方法，这是因为MFCC能够有效地捕捉语音信号的频谱特性，同时具有良好的降维效果，有利于后续的模式识别。接着，文章的核心技术部分介绍了改进的矢量量化-隐马尔可夫识别算法（Improved Vector Quantization - Hidden Markov Model, VQ-HMM）。这种算法结合了矢量量化（Vector Quantization）的离散化过程和隐马尔可夫模型（HMM）的时序建模能力，使得系统能够学习说话人的语音模式，并在不依赖文本输入的情况下进行识别。这种文本无关的特性使其适用于无文字环境下的身份验证或个性化服务。实验结果显示，作者设计的系统在运行速度上表现出色，表明其具有高效能；同时，较高的识别率证明了该系统的准确性，这对于许多实际应用如智能家居、电话交互系统或安防系统等有着显著的优势。此外，论文还强调了在农业数字化和农业遥感领域的潜在应用，这反映了科学研究与实际产业需求的紧密结合。这篇论文提供了一种基于虚拟仪器平台的先进说话人识别技术，不仅提升了语音识别的精度和效率，而且展示了其在非文本依赖场景中的实用性，对于推动信息技术在农业和其他领域的智能化应用具有重要意义。

收稿日期: 20070620

作者简介: 杨洁( 1979- ), 女, 硕士, 研究实习员。主要研究领域为信号处理、农业数字化, 农业遥感。

文章编号: 10024026( 2008) 04005705

与文本无关的说话人识别系统的设计与实现

杨洁

, 张勇

( 1. 山东省农业科学院可持续发展研究所, 山东济南 250100; 2. 山东省农业科学院, 山东济南 250100)

摘要: 在虚拟仪器平台上, 通过微型麦克与计算机声卡对语音信号进行实时采集, 并进行消噪处理和端点检

测, 以美尔频率倒谱系数及其差分作为特征参数提取方法, 应用改进的矢量量化- 隐马尔可夫识别算法, 设计

了与文本无关的说话人识别系统。系统运行结果表明, 本文实现的系统运算速度快, 且具有较高的识别率。

关键词: 美尔倒谱系数; 改进的矢量量化- 隐马尔可夫算法; 文本无关; 说话人识别; 虚拟仪器

中图分类号: TN912. 34    文献标识码: A

Th e Design and Implementation of Textindependent

Speaker Identification System

YANG Jie

, ZHANG Yong

( 1. Institute of Agriculture Sustainable Development , Shandong Academy of Agricultural Sciences ,

Jinan 250100, China; 2. Shandong Academy of Agricultural Sciences, Jinan 250100, China)

Abstract: A microphone and a computer sound card are employed to acquire realtime speech signals and

perform noise suppression and endpoint detection on a LABVIEW platform. By using the Mel Frequency

Cepstrum Coefficient , speaker recognition s characteristic parameter is extracted. The textindependent

speaker identification system is designed through Improved VQ ( V ector Quant ization)HMM ( Hidden

Markov Model) algorithm. The results show that it has high computation speed and higher recognition

rate.

Key words: MFCC; improved VQHMM algorithm; textindependent; speaker identification; LABVIEW

  语音是人类进行相互通信和交流的最方便、快捷的手段。在高度发达的信息社会中, 用数字化的方法进

行语音的传送、储存、识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一

[ 1]

。说话人

识别是根据人的语音信号来识别人的一种生物认证技术, 在金融、国家安全、司法、电子商务、电子政务等应

用领域具有特殊的现实意义。

LabVIEW 语言

[ 2]

是美国国家仪器公司( National Instruments, NI) 的创新软件产品, 是一种功能强大的图形

化编程语言, 可提供与真实仪器相似的用户界面, 使用数据流编程方法来描述程序的执行, 用图标和连线代

替文本的形式编写程序。该系统带有专业的数学分析程序包, 能够运用一般的数学运算、逻辑运算和输入输

出功能, 基本上可满足复杂的工程计算和分析要求

[ 2]

。

本文在 LabVIEW 平台, 选用以人耳的听觉频率非线性感知特性作为特征参数的提取方法和改进的矢量

量化- 隐马尔可夫识别算法, 构建了与传统仪器相似的用户界面的文本无关说话人辨认系统, 运算速度快且

具有较高的识别率。

第 21 卷 第 4 期

2008 年8 月

山东科学

SHANDONG SCIENCE

Vol. 21 No. 4

Aug. 2008

下载后可阅读完整内容，剩余4页未读，立即下载

Syndergaard

粉丝: 6
资源: 936

基于Mel频率倒谱系数的虚拟仪器说话人识别系统设计

Python深度学习实现交通标志识别系统设计

深度学习实现的中文语音识别系统毕业设计指南

Python深度学习实现中文语音识别系统详解

改进的说话人适应测试归一化方法在无文本依赖的语音识别中的应用

语音识别技术详解：从概念到应用

语音识别技术详解：从基础到应用

语音识别技术详解：从定义到应用

Python实现的动物识别专家系统及其规则库构建

STM32实现语音控制LED灯的智能识别与播报系统

Kotlin开发的播放器（默认支持MediaPlayer播放器，可扩展VLC播放器、IJK播放器、EXO播放器、阿里云播放器）

最新资源