thchs30数据集标签文本
时间: 2023-06-05 19:02:21 浏览: 77
thchs30数据集标签文本是汉字语音识别任务中使用的一种语音识别数据集,包含30个说话人的语音数据,每个说话人有约1000句不同的汉字文本,标注了每个汉字的发音,用拼音表示。这个数据集的数据分为训练数据集、开发数据集和测试数据集三部分,其中训练数据集包含约29,000句汉字文本,开发数据集和测试数据集各包含约1,000句汉字文本。每个说话人的语音数据均来自于标准普通话的朗读,涵盖了不同口音、语速和情感的语音数据,具有一定的代表性。这个数据集的标签文本采用了独特的标注方法,将每个汉字的发音用标准普通话中的拼音表示,在进行语音识别的训练和测试过程中,使用这些拼音标签来对汉字文本进行自动处理。这种标注的方法使得数据集的使用更加方便和灵活,可适用于不同的模型和系统。同时,这个数据集的标签文本也具有一定的技术难度,在使用时需要考虑到拼音的不同发音方式、多音字和声调等问题。
相关问题
thchs30数据集下载
thchs30数据集是一个开源的30小时中文语音数据集,可以在http://www.openslr.org/18/上下载。下载地址为。下载过程可能会比较耗时,请耐心等待。下载完成后,解压数据即可使用。数据集包括25小时的语音训练数据,2分14秒的开发数据和6分15秒的测试数据。你可以将thchs30数据集用于中文语音识别的训练和评估。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* [使用kaldi+清华大学开源语料数据集thchs30训练语音识别模型](https://blog.csdn.net/nlp_traindata/article/details/87551591)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *3* [kaldi例子thchs30笔记(一)](https://blog.csdn.net/weixin_43587572/article/details/114632859)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
data_thchs30数据集格式
THCHS30数据集是一个中文语音识别的数据集,包含了30小时的中文语音数据和相应的拼音标注数据。该数据集的格式如下:
1. 音频文件:数据集中的音频文件以 WAV 格式存储,采样率为16kHz,16位单声道。
2. 拼音标注:每个音频文件都有相应的拼音标注,标注文件为 TXT 格式,每行表示一个音频文件的拼音序列。拼音使用汉语拼音的声母韵母表示,用数字表示声调。
例如,对于一个音频文件 "A11_0.wav",它的拼音标注文件 "A11_0.txt" 可能长这样:
```
zhe4 shi4 yi2 ge4 ce4 shi4.
```
3. 语言模型:THCHS30数据集还包含了一个基于拼音的语言模型,用于中文语音识别任务。该语言模型是一个以拼音序列为输入,中文字符序列为输出的神经网络模型。模型的输入是音频文件对应的拼音序列,输出是基于该拼音序列生成的中文字符序列。
数据集中的语言模型文件格式为 ARPA 格式,可由多种工具进行训练和测试。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)