FSDD：免费口语数字数据集，促进语音识别技术研究

下载需积分: 49 | ZIP格式 | 15.66MB | 更新于2024-11-21 | 65 浏览量 | 举报

1 收藏

资源摘要信息:"free-spoken-digit-dataset是一个免费提供的语音数字音频数据集，它的设计理念与著名的图像识别数据集MNIST类似，旨在为机器学习和语音识别研究领域提供高质量的训练素材。FSDD包含了来自6位不同发音者录制的3,000个口头数字录音，每个发音者对0到9的数字各录制了50次。所有录音均为单声道8kHz的wav格式文件，特点是录音被修剪过，开始和结束部分接近静音，以减少不必要的计算和数据处理。数据集使用Zenodo DOI进行版本控制，并利用git tags来确保数据集的可重复性和准确引用，这使得该数据集具有开放性质，能够随时更新和增加新的数据。文件命名遵循特定的规则，即{digitLabel}_{speakerName}_{index}.wav，例如录音文件“7_jackson_32.wav”表示是数字7的录音，由名为jackson的发音者录制，索引为32。 FSDD的组织者鼓励人们贡献自己的录音，但要求这些录音必须是单声道8kHz wav文件，并且进行了修剪，以减少开始和结束时的静音。参与贡献者在提交录音时，还应更新***ta.py文件，以包含发言人元数据，从而保证数据集的完整性和实用性。该数据集对于那些致力于提高语音识别技术性能的研究人员和开发人员来说非常有用，特别是对于那些想要在无监督学习、半监督学习或有监督学习模型上进行实验的人员。由于FSDD的简洁性和标准化，它也适用于教学和学术研究目的，可以作为数字语音识别模型的训练或验证数据集。从技术角度来看，FSDD数据集的使用涉及到几个关键的IT知识领域。首先是在数据处理方面，它需要使用音频处理工具来管理wav文件，例如修剪和分析录音的开始和结束静音部分。其次是在数据集的版本控制方面，Zenodo DOI和git tags的使用表明了数据集的管理和版本化需要遵循开源软件和数据共享的最佳实践。此外，FSDD也对Python编程语言有所涉及，因为Python是数据科学和机器学习领域广泛使用的语言之一，许多处理和分析此类数据集的工具都是用Python编写的。总的来说，free-spoken-digit-dataset为语音识别和机器学习社区提供了一个宝贵的资源，既包含了大量的真实世界的数据，又具备了高度的可访问性和良好的组织结构，使得研究人员和开发者能够专注于开发和测试他们的算法，而无需担心数据收集和预处理的复杂性。"

资源目录

收起资源包目录

FSDD：免费口语数字数据集，促进语音识别技术研究（2000个子文件）

9_theo_30.wav 13KB

4_lucas_39.wav 12KB

5_lucas_20.wav 12KB

9_theo_27.wav 14KB

6_jackson_8.wav 13KB

9_theo_29.wav 13KB

9_lucas_25.wav 13KB

2_lucas_49.wav 19KB

7_lucas_8.wav 13KB

1_lucas_3.wav 13KB

__init__.py 0B

6_jackson_11.wav 14KB

7_theo_36.wav 34KB

6_jackson_14.wav 12KB

6_jackson_17.wav 12KB

6_jackson_21.wav 12KB

metadata.py 721B

4_lucas_19.wav 12KB

fsdd.py 2KB

6_jackson_9.wav 13KB

say_numbers_prompt.py 2KB

8_lucas_2.wav 13KB

7_george_29.wav 16KB

3_lucas_22.wav 12KB

6_jackson_32.wav 13KB

0_lucas_27.wav 14KB

2_lucas_9.wav 15KB

trimmer.py 4KB

1_lucas_16.wav 14KB

2_lucas_16.wav 15KB

7_lucas_28.wav 18KB

pip_requirements.txt 140B

README.md 3KB

6_jackson_23.wav 13KB

8_lucas_0.wav 18KB

7_lucas_24.wav 19KB

6_jackson_15.wav 14KB

.gitignore 26B

6_jackson_18.wav 13KB

0_lucas_24.wav 16KB

6_lucas_33.wav 15KB

6_lucas_3.wav 14KB

2_lucas_46.wav 15KB

2_jackson_21.wav 12KB

3_lucas_16.wav 12KB

9_lucas_12.wav 18KB

8_lucas_7.wav 12KB

0_jackson_49.wav 12KB

7_lucas_15.wav 14KB

5_lucas_45.wav 14KB

3_lucas_36.wav 14KB

6_jackson_25.wav 12KB

0_lucas_44.wav 12KB

6_jackson_10.wav 13KB

6_jackson_3.wav 14KB

3_lucas_9.wav 20KB

6_jackson_0.wav 13KB

6_lucas_22.wav 15KB

2_lucas_12.wav 14KB

5_lucas_1.wav 18KB

1_lucas_18.wav 12KB

1_lucas_41.wav 12KB

8_lucas_28.wav 16KB

6_jackson_12.wav 13KB

0_lucas_9.wav 18KB

9_theo_28.wav 16KB

0_george_10.wav 12KB

3_lucas_7.wav 21KB

8_lucas_14.wav 14KB

9_theo_16.wav 36KB

9_lucas_13.wav 14KB

6_jackson_30.wav 12KB

0_lucas_36.wav 12KB

1_lucas_36.wav 12KB

0_lucas_39.wav 14KB

9_lucas_48.wav 19KB

8_lucas_5.wav 14KB

7_lucas_22.wav 16KB

6_jackson_46.wav 12KB

train-test-split.py 628B

0_lucas_48.wav 12KB

1_theo_31.wav 12KB

6_jackson_27.wav 13KB

7_theo_37.wav 12KB

6_jackson_6.wav 12KB

7_lucas_46.wav 14KB

1_lucas_33.wav 16KB

spectogramer.py 2KB

4_lucas_47.wav 17KB

__init__.py 0B

5_lucas_21.wav 14KB

5_theo_36.wav 16KB

1_lucas_13.wav 15KB

7_lucas_29.wav 20KB

0_lucas_42.wav 13KB

9_lucas_24.wav 13KB

split_and_label_numbers.py 3KB

6_jackson_38.wav 12KB

5_lucas_30.wav 12KB

7_lucas_7.wav 16KB

共 2000 条

slaslady

粉丝: 45
资源: 4620

FSDD：免费口语数字数据集，促进语音识别技术研究

moons的数据集

free-spoken-digit-dataset-v1.0.8.zip

spoken-digit-recognition:LLSTM语音数字识别

Jointly-Discovering-Visual-Objects-and-Spoken-Words:联合发现视觉对象和口语单词的论文的实现

retrieve-spoken-languages-service:检索口语电影

语音识别数据集-spoken_numbers_pcm

说话人识别数据集--Spoken Speaker Identification based on Gaussian Mixture Models-1

说话人识别数据集--Spoken Speaker Identification based on Gaussian Mixture Models-2

Speech-Recognition-System-of-Spoken-Digits

最新资源