首页基于卷积神经网络的语音识别

基于卷积神经网络的语音识别

时间: 2023-11-22 19:50:31 浏览: 256

DFCNN-master:这是一个基于全卷积神经网络的语音识别系统

基于全卷积神经网络的中文语音识别系统基于全卷积神经网络的中文语音识别系统简介简介通过git克隆仓库以后，需要将数据列表目录下的文件全部复制到数据集目录下，也就是将其跟数据集放在一起。 $ cp -rf datalist/ * dataset/ 目前可用的模型有24、25和251 本项目开始训练请执行： $ python3 train_mspeech.py 本项目开始测试请执行： $ python3 test_mspeech.py iters_num （这里的iters_num为迭代的step数，可以在生成的step_dfcnn.txt文件里查看）测试之前，请确保代码中填写的模型文件路径存在。 ASRT API服务器启动请执行： $ python3 asrserver.py 模型模型语音模型语音模型 CNN + LSTM / GRU + CTC 语言模型基于概率图的最大

基于卷积神经网络的语音识别是将语音信号的时频谱视为图像，利用卷积神经网络的特性来进行声学建模和语音识别。卷积神经网络在图像领域取得了很大的成功，因此也被应用于语音识别中。卷积神经网络具有平移不变性的特点，这意味着它可以识别图像中的特征无论其在图像中的位置如何。在语音识别中，语音信号的时频谱可以被看作是一张图像，其中包含了语音的特征。通过使用卷积神经网络，可以利用卷积的平移不变性来克服语音信号的多样性，包括说话人的多样性和环境的多样性。在基于卷积神经网络的语音识别中，通常会使用多层卷积层和池化层来提取语音信号的特征。卷积层用于对特征进行加工和处理，使其更适合用于深度神经网络的分类。池化层则用于减小卷积核的尺寸，从而可以训练更深、效果更好的卷积神经网络模型。总结来说，基于卷积神经网络的语音识别利用卷积的平移不变性来处理语音信号的多样性，将语音信号的时频谱视为图像，并使用卷积神经网络来提取和识别语音的特征。

阅读全文