有没有公开的语音数据集
时间: 2024-06-04 20:11:40 浏览: 9
有许多公开的语音数据集,其中一些包括:
1. LibriSpeech: 一个大型的语音识别数据集,包括读取数字、短语和整本书籍的音频和文本。
2. Common Voice: 由Mozilla维护的一个多语言的语音数据集,包括各种性别、年龄和口音的人的语音样本。
3. VoxCeleb: 一个包含名人语音的数据集,用于说话人识别和验证。
4. TIMIT: 一个常用的语音识别数据集,包含美国英语的读音和文本。
5. Speech Commands: 一个包含短语和单词的语音数据集,用于语音控制和命令。
6. VCTK Corpus: 一个包含英国口音的语音数据集,用于说话人识别和语音合成。
这只是一小部分公开的语音数据集,还有许多其他数据集可供使用。
相关问题
介绍thchs30语音数据集
THCHS30是一个中文普通话语音数据集,由清华大学自动化系智能与网络化实验室发布。该数据集包含了30个普通话发音人的语音数据,每个发音人都有约1000句话,总计约30小时的语音数据。语音数据来源于新闻联播、采访、广播剧等多种场景,其中包含了不同的口音、语速和语调。
THCHS30数据集的录制使用了一些高质量的录音设备,在录制过程中,语音数据被采集成16kHz的单声道wav格式。同时,该数据集还提供了文本转换结果,可以用于语音识别、语音合成等相关任务的训练和测试。该数据集也在Kaldi中提供了相应的数据处理脚本,方便使用者进行数据的处理和模型训练。
THCHS30数据集的发布,对于促进中文语音识别和语音合成的发展具有重要的意义。同时,由于其数据量较小,因此可以被广泛地应用于学术研究和教育培训等领域。
语音数据集wsj0下载
由于版权问题,我们不能提供WSJ0数据集的下载链接,但您可以通过以下步骤获取该数据集:
1. 访问LDC网站:https://www.ldc.upenn.edu/
2. 注册并登录账号
3. 搜索“WSJ0”,选择相应的数据集
4. 购买该数据集,按照LDC网站的规定进行使用
请注意,WSJ0数据集是一个付费数据集,您需要购买才能使用。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)