Python深度学习实现中文语音识别与模型源码解析

版权申诉

5星 · 超过95%的资源 31 浏览量更新于2024-10-15 收藏 31.98MB ZIP 举报

该资源为一个使用Python语言开发的中文语音识别系统，集成了深度学习技术。该系统包括声学模型和语言模型两大部分，其中声学模型负责将输入的语音信号转换为带有声调的拼音，而语言模型则将这些拼音进一步识别为汉字。本系统可以广泛应用于中文语音处理领域，如语音输入、语音助手、语音翻译等。声学模型部分主要包括以下内容： 1. GRU-CTC声学模型：位于acoustic_model文件夹下，主要代码实现在gru_ctc_am.py中。GRU（门控循环单元）是一种用于处理序列数据的循环神经网络（RNN）变种，特别适用于语音识别场景。CTC（Connectionist Temporal Classification）是一种用于训练序列模型的算法，适用于标签和输入长度不一致的情况。 ***N-CTC结构的中文语音识别模型：在cnn_ctc_am.py中，基于科大讯飞DFCNN的CNN-CTC结构，与GRU-CTC相比，在网络结构上有了一些改造。CNN（卷积神经网络）通常用于图像处理，但在语音识别中，CNN能够有效提取频谱特征。 3. 使用DFCNN框架搭建的声学模型：在cnn_with_fbank.py中，代码进行了部分改动，将部分卷积层改为inception结构。inception结构能够捕捉不同尺度的特征，这在处理语音信号时尤其有用。 4. 使用pulse版数据集的模型：在cnn_with_full.py中，推荐直接训练这个模型。这表明资源可能还包含了一套专门针对中文语音的训练数据集。语言模型部分主要包括以下内容： 1. 基于CBHG结构的语言模型：位于language_model文件夹下，在CBHG_lm.py中实现。CBHG（Convolution-Bank + Highway + GRU）是一种结合了卷积神经网络（CNN）、Highway网络和GRU的结构，起初被用于谷歌的声音合成项目WaveNet中，现在被移植到这个语音识别项目中，作为基于神经网络的语言模型。整个系统通过深度学习的方法，不仅能够处理常见的中文口语，还能在一定程度上处理带方言或有口音的语音输入。系统的设计使得开发者可以灵活地替换模型和训练数据集，从而优化识别效果。根据提供的压缩包子文件的文件名称列表，这个资源的名称为"my_ch_speech_recognition-master"，暗示这是一个主要针对中文语音识别的项目，其源码可能托管在GitHub等代码托管平台，并且采用主分支（master）作为主要开发分支。考虑到这是一份开源资源，开发者可以通过阅读源码、测试系统、修改参数等方式，深入学习和掌握中文语音识别技术。同时，这个资源可以作为一个起点，进一步开发更为复杂和高效的中文语音识别系统。对于有兴趣在语音识别领域深入研究的开发者，这个资源无疑是一个宝贵的工具。标签中提到了“软件/插件”，这可能意味着该项目的成果不仅限于源码本身，可能还包括了可以直接集成到其他应用中的软件组件或插件。这样的设计可以方便开发者在自己的产品中快速集成语音识别功能。综上所述，这份资源为中文语音识别领域提供了完整的深度学习模型实现，不仅包括了复杂的神经网络架构设计，还提供了完整的数据处理流程和优化建议。通过该资源的学习和应用，开发者可以在中文语音识别领域取得快速进展。

展开

资源目录

收起资源包目录

Python深度学习实现中文语音识别与模型源码解析（90个子文件）

dev.wav.lst 436KB

read_data_prime.py 23KB

train.syllabel.txt 7.06MB

zh.tsv 23.69MB

test.syllabel.txt 638KB

test.syllabel.txt 552KB

acoustic_model.cpython-36.pyc 5KB

dev.syllabel.txt 1.22MB

dev.syllabel.txt 151KB

gen_aishell_lable.py 2KB

gen_dict.py 13KB

train.syllabel.txt 10.3MB

train.syllabel.txt 4.29MB

test.wav.txt 129KB

test.syllabel.txt 552KB

train.syllabel.txt 1.65MB

train.py 4KB

test.wav.lst 463KB

data_load.py 4KB

dev.wav.lst 31KB

README.md 3KB

.st-cmds.swp 12KB

FSMNCell.py 3KB

my_develop.py 3KB

.gitignore 433B

read_prim_data.py 2KB

model_layers.py 13KB

dev.wav.lst 436KB

test.wav.lst 443KB

dev.syllabel.txt 1.22MB

test.wav.lst 91KB

train.syllabel.txt 4.29MB

text.cpython-36.pyc 3KB

__init__.py 0B

test.syllabel.txt 420KB

test.wav.lst 443KB

train.syllabel.txt 1.64MB

gru_ctc_am.py 11KB

train.wav.lst 7.67MB

train.wav.lst 3.44MB

lable.txt 11.84MB

test.wav.lst 129KB

dev.wav.lst 39KB

test.syllabel.txt 145KB

read_prim_data.py 2KB

dev.syllabel.txt 547KB

cnn_with_full_data.py 8KB

cnn_with_fbank.py 14KB

train.wav.lst 3.44MB

train.wav.lst 3.45MB

dev.syllabel.txt 547KB

dev.wav.lst 909KB

linshi.py 13KB

test.wav.lst 463KB

aishell_pre.py 5KB

dict.txt 32KB

train.wav.lst 6.29MB

read_data_aishell.py 22KB

train.syllabel.txt 7.06MB

hyperparams.py 600B

train.wav.lst 371KB

build_corpus.py 3KB

prepro.py 3KB

test.syllabel.txt 638KB

train.wav.txt 6.29MB

modules.py 13KB

vocab.pkl 158KB

keras_test.py 2KB

train.wav.lst 7.67MB

.gitattributes 66B

test.syllabel.txt 145KB

cnn_ctc_am.py 12KB

hyperparams.py 600B

dev.syllabel.txt 151KB

dev.wav.lst 31KB

gen_thchs_lable.py 3KB

eval.py 2KB

dev.wav.txt 39KB

feature_extract.py 2KB

test.syllabel.txt 423KB

train.wav.lst 371KB

dev.syllabel.txt 44KB

GetData.py 18KB

README.md 3KB

dev.wav.lst 909KB

audio.cpython-36.pyc 2KB

CBHG_lm.py 16KB

dev.syllabel.txt 44KB

train.syllabel.txt 10.3MB

共 90 条

身份认证购VIP最低享 7 折!

30元优惠券

云哲-吉吉2021

粉丝: 4217

Python深度学习实现中文语音识别与模型源码解析

最新资源