近地无线光通信下变长度语音的卷积神经网络声纹识别

版权申诉

87 浏览量更新于2024-07-02 收藏 5.26MB PDF 举报

"本文主要探讨了基于变长度语音数据的卷积神经网络(CNN)声纹识别技术在近地无线光通信信道环境下的应用和优化。研究中，针对变长度语音特征参数与CNN输入不匹配的问题，以及无线光通信信道传输引入的噪声影响，提出了一种基于特征聚类的CNN声纹识别方案，旨在提高识别率和鲁棒性。首先，声纹识别技术因其便捷性、非接触性和高效性在多个领域如司法鉴定、刑事侦查和军事中得到了广泛应用。然而，实际场景中的语音数据通常是变长度的，这给特征提取和后续的识别带来了挑战。传统的特征提取方法，如梅尔频率倒谱系数(MFCC)，得到的特征参数与语音时长紧密相关，与CNN的固定长度输入要求不匹配。其次，随着无线通信技术的发展，语音传输信道多样化，尤其是在近地无线光通信信道中，语音数据可能携带特定的噪声，这对声纹识别的准确性提出了新的要求。论文针对这一问题，对经过无线光通信信道传输的带噪语音进行了预处理改进，增强了模型对噪声的抵抗能力。论文的核心贡献在于设计了一种结合特征聚类的CNN声纹识别模型，有效地解决了变长度语音的输入匹配问题，并且在经过无线光通信信道传输的语音数据上提高了识别性能。通过对多种聚类方法的比较，选择了一种适合该场景的方法，使得CNN能够适应变长度语音的输入，提升了识别的准确性和泛化能力。实验部分，论文在声学-音素连续语音语料库、自建的无噪语音库以及经过近地无线光通信信道传输的带噪语音库上，对比了高斯通用背景模型、身份向量模型和提出的CNN模型。实验结果显示，基于特征聚类的CNN方案在带噪语音库上的表现优于其他两种传统方法。关键词包括：近地无线光传输信道、变长度语音、卷积神经网络、声纹识别。这些关键词突出了研究的焦点和应用场景，展示了在现代通信环境下声纹识别技术的挑战和解决方案。"

第一章绪论

第一章为绪论，主要对声纹识别的研究意义、研究背景、应用场景等做一个

较为全面的论述。再分别从特征提取角度和模式识别匹配等方面的国内外发展现

状出发，对说话人识别进行系统分析。最后围绕想要解决的问题，在输入限制性

条件下，给出本文想要完成的技术指标。同时对本文的研究内容进行概述，并对

全文的结构安排进行说明。

第二章首先关注声纹识别的第一个环节，即语音的预处理部分。本章将对声

纹识别预处理部分相关的理论基础进行叙述和仿真实验，主要包括声纹识别的预

处理部分的端点检测以及基于近地无线光信道的滤波处理环节。通过本章节介绍，

明确本文使用的声纹识别方案在预处理部分应进行端点检测和滤波处理，以获得

较高质量的语音供声纹识别后续环节使用。

第三章将关注声纹识别的特征提取部分。在获得语音素材以后，需要确定使

用哪种特征提取方案。本文选择了较为常用 LPCC，MFCC，PNCC 三种方案，分

别对其算法原理等理论基础进行叙述，通过理论分析以及仿真实验，确定本文使

用的声纹识别方案采用

MFCC

的原因。

第四章将对声纹识别的识别匹配模块的方案进行分析。本文选择了经典的

GMMUBM 方案和 I-Vector 方案作为基准实验，再结合基于特征聚类的卷积神经网

络的技术方案，采用经过近地无线光信道传输的数据，在改进的预处理方法和数

据规整之后，再把规整后的变长度数据通过一种有效的方法转为固定大小的数据

输入卷积神经网络，从而实现卷积神经网络的声纹识别方案。通过对三种方案的

原理叙述和理论分析阐述了三者的优缺点，通过对其原理，识别流程进行系统梳

理从而发掘 CNN 方案对于带噪语音的识别优势。

第五章针对分别使用 GMMUBM，I-Vector，CNN 作为识别核心的三种不同的

声纹识别技术方案进行仿真验证和实验结果分析。对比不同混合度，不同数据集

下 GMMUBM 方案的表现，不同语音数据库下 I-Vector 方案的表现以及 CNN 方案

在不同数据集，不同聚类方法，不同模型参数下的识别表现，进一步佐证 CNN 方

案在自建带噪语音库中的有效性和识别优势。

第六章为总结与展望，对全文的内容进行总结和工作展望。

1.5 本章小结

本章节从研究背景出发叙述了声纹识别理论研究和工程应用方面的发展现状，

研究意义所在。对声纹识别的特征提取，模式识别部分的研究动态进行详细阐述。

继而由国内外动态出发，叙述了各种算法的优势和不足之处，从而引出本文想要

解决的问题，技术指标和研究内容。最后叙述了本文的论文目录和整体框架。

万方数据

第二章预处理模块相关理论基础

2.2 基于近地无线光信道的滤波器设计

2.2.1

基于近地无线光传输的声纹识别系统工作原理

激光因其方向性强、单色性好、光功率集中等特点被广泛应用于声音探测。

基于近地无线光传输的声纹识别系统示意图如图 2-4 所示，探测目标发出声音引

发玻璃反射面的振动，发射装置投射到反射面上的激光随即受到该振动的调制。

接收装置接收到反射激光后，对激光信号进行解调，即可探测到场所内的声音信

息。其中，反射面多为目标场所内窗玻璃、水杯、花瓶等的表面，这些物体的表

面易受声波的声压作用产生振动，且对激光有较好的反射。

图 2-4 基于近地无线光传输的声纹识别系统示意图

发射装置是包括半导体激光器在内的一套光学系统。本论文选用的半导体激光

器为氦氖激光发生器，该激光器发出连续的红光。

接收装置主要包括光电探测器、光学接收系统和后继电信号处理系统。光电探

测器对一定波长范围内的光敏感，可以将接收到的光能量转化为相应的电信号。

目前较常用的光敏探测器有：硅光电池、铟砷化镓光电探测器、四象限探测器等。

本文选用的光电探测器为四象限探测器（4QD），它具有频率响应快和电流响应

线性度好等优点。

4QD

接收反射回的光斑并输出相应光电流，经转换电路光电流

转换为电压，电压信号经放大器放大，再经后端电路处理输出。

为了对近地无线光传输声音探测中的噪声进行具体分析，在实验室环境下搭建

该激光声音探测测试系统。该测试系统的模型设计如图 2-5 所示，将激光照射在

目标场所的玻璃平面，然后接收由玻璃面反射的激光束。随后对该激光束进行一

系列光电探测、放大、滤波去噪和解调，还原出场所内的声音信号。

万方数据

剩余85页未读，继续阅读

programcx

粉丝: 42
资源: 13万+

近地无线光通信下变长度语音的卷积神经网络声纹识别

基于深度学习神经网络的声纹识别方法.pdf

基于Mel时频谱-卷积神经网络的变压器铁芯夹件松动故障声纹模式识别.pdf

基于卷积神经网络的声纹识别

卷积神经网络进行声纹识别

卷积神经网络进行声纹识别代码

基于深度学习的声纹识别

声纹识别-GMM-UBM.pdf

基于resnet的声纹识别

概述一下声纹识别的技术背景

噪声声纹识别数据集需要怎样制作

最新资源