给我一些语音识别的数据库
时间: 2024-01-03 08:04:52 浏览: 98
以下是一些常用的语音识别数据库:
1. TIMIT:美国国家标准技术研究所(NIST)开发的一个英语语音数据库,包含了630个说话人的16位kHz采样率的读出单词和句子的音频。
2. WSJ:美国华尔街日报语音数据库,包含约300小时的英语语音数据,用于语音识别的训练和测试。
3. VoxForge:一个开放的语音数据库,包含多种语言和方言的语音数据,可用于语音识别的研究和开发。
4. LibriSpeech:一个英语语音数据库,包含约1000小时的语音数据,用于语音识别的训练和测试。
5. AISHELL-1:一个汉语普通话数据库,包含约170小时的音频数据,用于语音识别的研究和开发。
6. MALACH:一个希伯来语语音数据库,包含约60小时的音频数据,用于语音识别的研究和开发。
7. CHiME-4:一个英语语音数据库,包含约10小时的音频数据,用于语音识别在嘈杂环境下的研究和开发。
这些数据库都有其特定的应用场景和研究方向,可以根据具体需求选择合适的数据库。
相关问题
基于matlab语音识别怎么建立数据库
要建立一个基于MATLAB语音识别的数据库,可以按照以下步骤进行:
1. 选择合适的语音信号,可以使用公开数据集或自己录制的语音数据。
2. 对语音信号进行预处理,包括去噪、分帧、加窗等操作。
3. 提取语音信号的特征,比如MFCC、PLP等特征。
4. 使用聚类算法(如K-Means)将特征向量聚类成若干类别。
5. 将每个语音信号对应的特征向量归为其所属的类别,形成一个数据库。
6. 对于新的语音信号,提取其特征向量,并通过比较与数据库中已有的特征向量的相似度,找到最相似的语音信号类别,从而实现语音识别。
MATLAB中已经内置了许多语音信号处理和识别的工具箱,可以帮助完成上述步骤。
阅读全文