深度神经网络下的语音活动检测特征与架构研究

需积分: 42 115 浏览量更新于2024-10-29 2 收藏 17.34MB ZIP 举报

知识点： 1. Matlab编程语言：Matlab是一种高级数学计算和工程绘图软件，广泛应用于工程计算、信号处理、控制系统等领域。Matlab具有强大的矩阵运算能力，内置丰富的函数库，便于用户进行算法设计和仿真实验。 2. 语音活动检测（SAD）：语音活动检测技术的主要目的是识别语音信号中的活跃语音部分和非语音部分。这在语音信号处理中非常关键，例如在语音识别、语音增强和语音编码等应用中。SAD对于节省存储空间、提高通信效率和质量都有重要作用。 3. 深度神经网络（DNN）：DNN是一种多层前馈神经网络，能够通过非线性映射关系学习输入数据的复杂模式。DNN在语音识别、图像识别、自然语言处理等许多领域中都取得了显著的成果。 4. 特征提取：在语音信号处理中，特征提取是从原始语音信号中提取出有意义的信息的过程，以供后续的模式识别和分类任务使用。常见的特征包括MFCG（Mel频率倒谱系数）、RASTA-PLP（相对谱方法）、AMS能量和过零率等。 5. MFCC特征：Mel频率倒谱系数（MFCC）是语音处理中常用的特征提取方法。MFCC基于人耳的听觉感知特性，能够有效地表示语音信号的频谱特征，是语音识别中最常用的特征之一。 6. RASTA-PLP特征：RASTA-PLP是一种通过滤波器组对语音信号进行处理，并提取语音信号的谱特征的方法。RASTA-PLP能够有效地抑制非语音部分的影响，对语音信号的平稳段进行编码。 7. AMS能量和过零率：AMS能量是一种表示语音信号能量特征的方法，而过零率是表示语音信号频率特征的方法。这两种特征在语音信号的处理中都有重要应用。 8. 多分辨率MFCC（MR-MFCC）：MR-MFCC是一种新型的语音信号特征提取方法。与传统MFCC相比，MR-MFCC增加了对语音信号的多分辨率频谱表示的编码，能够更好地捕捉到语音信号的局部信息和频谱时间上下文。MR-MFCC的提取过程包括从25ms和200ms窗口计算MFCC，并将结果连接到一个80维的特征向量中。 9. Python编程语言：Python是一种广泛使用的高级编程语言，具有简洁易读的语法。Python支持多种编程范式，具备丰富的库资源，使其在数据科学、机器学习、网络开发等领域具有广泛应用。 10. 开源软件：开源软件是指其源代码可以被公开获取和修改的软件。开源软件通常由社区共同维护，开发者可以自由地使用、修改、分发和贡献代码。开源软件的开发模式促进了知识共享和技术发展。根据给定文件信息，该工具包主要介绍了如何在Matlab环境下使用深度神经网络进行语音活动检测的特征和架构研究，该研究工作基于威斯康星大学麦迪逊分校电气和计算机工程系硕士论文。代码工具包提供了多种声学特征提取方法，并通过Matlab调用Python脚本来提取特征，包括MRCG、MFCC、RASTA-PLP、AMS能量和过零率，以及新开发的MR-MFCC特征。这些特征被用于深度神经网络模型中，以提高语音活动检测的性能和准确性。

资源目录

收起资源包目录

深度神经网络下的语音活动检测特征与架构研究（186个子文件）

make_wav_scp.m 436B

data_reader_DNN_v2.py 6KB

clean_speech.mat 1KB

choose_snr.m 591B

timit_train005.mat 7KB

ams_ex.py 4KB

fft2melmx.m 5KB

lifter.m 955B

global_normalize_factor.mat 12KB

getAllFiles.m 6KB

testing_wav_size.m 1KB

invpostaud.m 1KB

timit_train6.mat 10KB

powspec.m 2KB

feat_setting.py 803B

timit_train003.mat 6KB

data_reader_bDNN_v2.py 7KB

test_data_prep.m 8KB

timit_train004.mat 10KB

eng_zc.m 426B

feature_extractor.py 21KB

melfcc.m 4KB

fft2barkmx.m 1KB

dolpc.m 648B

global_normalize_factor.mat 2KB

config.py 386B

readhtk.m 3KB

binary_saver.m 520B

hz2bark.m 608B

LICENSE 1KB

acoustic_feat_ex.py 12KB

deltas.m 823B

main.py 1KB

config.py 386B

test.py 5KB

data_reader_bDNN.py 6KB

config.py 218B

timit_train002.mat 8KB

add_diff.m 447B

feat_ex.py 2KB

invaudspec.m 1KB

hz2mel.m 972B

utt_data_dep.mat 27KB

cep2spec.m 1KB

feat_ex_time.m 669B

Frame_Length.m 220B

config.py 218B

GetSubDirs.m 388B

config.py 386B

deltas.m 823B

lpc2spec.m 946B

rastafilt.m 1018B

rasta_plp_ex.m 227B

test_data_prep_dep_2.m 9KB

postaud.m 2KB

clean_noisy_im.m 878B

test_data_prep_dep.m 7KB

mel2hz.m 912B

global_normalize_factor.mat 7KB

tsne_print.m 1KB

data_reader_DNN.py 6KB

global_normalize_factor.mat 341B

clean_data_prep.m 4KB

config.py 386B

Truelabel2Trueframe.m 874B

feat_ex_time.py 2KB

invpowspec.m 1KB

invmelfcc.m 2KB

ispecgram.m 1KB

spec2cep.m 2KB

config.py 386B

train_data_prep_2.m 15KB

config.py 386B

powspec.m 2KB

bark2hz.m 536B

process_options.m 5KB

my_zero_cross.m 225B

config.py 386B

data_reader_RNN.py 8KB

global_normalize_factor.mat 2KB

Main_test_feat_ex.m 1KB

test_feat_extract.m 2KB

test_data_cut.m 2KB

utt_data.mat 69KB

timit_train001.mat 9KB

audspec.m 1KB

getAllFiles_demo.m 3KB

run_feat_ex.m 417B

Main_feat_ex.m 1KB

make_reco2dur.m 514B

global_normalize_factor.mat 1KB

utt_data_test.mat 27KB

lpc2cep.m 829B

train_data_prep.m 15KB

getAllFiles_demo.html 13KB

README.md 5KB

global_normalize_factor.mat 4KB

acoustic_feat_ex.m 4KB

rastaplp.m 2KB

eer_test.py 1KB

共 186 条

weixin_38740144

粉丝: 1

深度神经网络下的语音活动检测特征与架构研究

改进RASTA_PLP语音特征参数提取算法研究

RASTA--PLP 语音信号的特征提取

matlab中的plp代码-PLPS:极坐标对数相位屏

matlab经典小代码-Accent-Classification:口音分类

rastaplp(samples, sr, dorasta, modelorder)：从wav文件中提取rasta-plp特征-matlab开发

matlab分时代码-SPL3:孟加拉数字的语音识别

数据融合matlab代码-Text-Dependent-Speaker-Verification-:嘈杂条件下基于文本的说话人验证的功能和模型

plp-editor-dynForm:使用 https 的 plp-editor 实现

matlab生成代码调用-Gender-Recongnition:性别认同

matlab的egde源代码-matlab_speech_features:用Matlab编写的用于ASR和说话人识别的一组语音特征提取功能

最新资源