全面梳理：全球语音数据集精选与来源

语音数据集

需积分: 27 197 浏览量更新于2024-07-06 收藏 239KB DOCX 举报

身份认证购VIP最低享 7 折!

30元优惠券

语音数据集整理文档提供了一系列广泛的语言和用途的音频数据集，对于语音识别、机器学习和自然语言处理等领域研究具有重要意义。以下是一些关键数据集的详细介绍： 1. Mozilla Common Voice: 由Mozilla开发，这是一个大规模的多语言语音数据集，目前拥有1965小时的音频数据，涵盖70种语言，主要通过在线平台和移动应用收集。它强调的是社区贡献，特别是中文数据，已收集了超过4万份语音样本。 2. Tatoeba: 这是一个翻译和口语音频数据库，虽然没有明确提到具体时长，但因其包含丰富的多语言对话，对于语音合成和跨语言研究很有价值。 3. VoiCES Dataset: 专门的语音数据集，用于特定的应用场景或研究目的，但具体细节未详。 4. LibriSpeech: 一个用于英语语音识别的知名数据集，由LibriVox项目提供，包含了大量的读取文本的语音样本。 5. HUB5 English和VoxForge: 分别是针对英语和多语言的语音数据集，对提高语音识别性能有很大帮助。 6. VoxCeleb: 大规模的人类语音和视频数据库，分为VoxCeleb1和VoxCeleb2两个版本，适合人脸识别和说话人验证研究。 7. TIMIT: 英语语音识别数据集，常用于训练和评估语音识别系统。 8. CHIME: 专注于噪声条件下说话人识别和语音增强的研究，包含不同场景的语音数据。 9. TED-LIUM: 一系列 TED 演讲的转录数据集，提供了高质量的口语样本，分为TED-LIUM2和TED-LIUM3两个阶段。 10. Google AudioSet: 一个庞大的音频标签数据集，用于训练音频分类模型，覆盖各种类别，包括语音样本。 11-16. CCPE、FreeST American English Corpus、CSTR VCTK、LibriTTSCorpus等数据集，分别提供各种语言的读音和发音研究素材。 17-19. AMI Corpus、FreeST Chinese Mandarin Corpus、Primewords Chinese Corpus Set等针对中文的语音数据集，适用于中文语音处理研究。 20-24. AISHELL数据集：一系列中国普通话和方言语音数据集，涵盖了多个版本，包括开源版、家居环境、语音唤醒词等不同应用场景。 25. Aidatatang: 提供了多个小时数的中文语音数据集，如完整的1505小时和200小时数据，用于训练深度学习模型。这些数据集不仅丰富了研究者的资源库，还促进了跨语言、语音识别、说话人识别、语音合成等技术的发展。使用时需注意版权和许可问题，确保合法使用。

资源详情

资源推荐

地址：899$0/0/9 

6.VoxForge：

）基本信息

带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例。&'$ 创建

的初衷是为免费和开源的语音识别引擎收集标注录音（在 /&／"&，B04 以及

 平台上）

）特点

555以 -1 协议开放所有提交的录音文件，并且制作声学模型。以供开源语音识别引擎使用，

如 "&，**1，:/（$/）和 !3（注意：!3 有分发限制）。

推荐应用方向：语音识别

）链接

下载地址：

899444>&C$$99040

7.人类语音的大规模视听数据集

（VoxCeleb）

）基本信息

& 是一个大型人声识别数据集。它包含来自 D//视频的 位名人的约 

万段语音。数据基本上是性别平衡的（男性占 ％）。这些名人有不同的口音、职业和年

龄。开发集和测试集之间没有重叠。

该数据集有  个子集：& 和 &

7.1 VoxCeleb1

& 包含超过  万个针对 7 个名人的话语，这些话语是从上传到 D// 的

视频短片中提取的。

发音人数：

视频数量：

音频数量：%

下载地址：

899444&/@9E>$$909>&9>&

(&

说话人深度识别数据集 & 包含超过  万个 %7 个名人的话语，从上传到

D// 的视频中提取，& 已经与 & 或 *B 数据集没有重叠的说话人

身份。

发音人数量：训练集：++，测试集：)

视频数量：训练集：%+，测试集：+

音频数量：训练集： + +，测试集：%(

内容时长： 小时以上

发布时间： ) 年

下载地址：

899444&/@9E>$$909>&9>&

）数据集特点

、音频全部采自 D//，是从网上视频切除出对应的音轨，再再根据说话人进行切分；

、属于完全真实的英文语音；

、数据集是文本无关的；

、说话人范围广泛，具有多样的种族，口音，职业和年龄；

、每句平均时长 )，最大时长 ，最短时长 ，短语音较多；

%、每人平均持有句子 % 句，最大持有  句，最小持有  句；

(、数据集男女性别较均衡，男性有 %+ 人（F），女性有 % 人；

)、采样率 %@!，%，单声道，1,B. 音频格式；

+、语音带有一定真实噪声，非人造白噪声，噪声出现时间点无规律，人声有大有小；

 、噪声包括：环境突发噪声、背景人声、笑声、回声、室内噪音、录音设备噪音；

剩余30页未读，继续阅读

houxm

粉丝: 15
资源: 22

全面梳理：全球语音数据集精选与来源

收集数据的方法.docx

系列手持式气象站的汇总整理.docx

大学计算机信息技术理论题(整理).docx

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚复制到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，请注意验证你提供的代码中的方法，麻烦给我源码。

.docx文件在vscode打开后。.docx文件发生了错误

使用python将xx文件夹下的.sv文件复制到mode.docx文件并另存为.sv文件名的.docx文件

将每个子文件夹里的.docx文件都合成一个.docx文件

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚同步到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，麻烦给我源码

将xx文件夹下的每个子文件夹里的.docx文件都合成一个.docx文件

用Python编写程序，合并多个给定的.docx文件内容为一个.docx文件，并保持原来多个文件内容的格式

"linkUrl ": [ {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, ] 遍历这个数组

接口文档示例.docx

使用python编写代码将一个文件夹下的所有子文件夹下的.sv文件按照文件名称为model.docx的文件格式转化为与.sv同名的.docx的文件，页眉写上该.SV文件的名称

在vs code里怎么打开.docx文件

raise PackageNotFoundError( docx.opc.exceptions.PackageNotFoundError: Package not found at 'example.docx'

查阅资料了解.docx 文档结构，然后编写程序，输出“test.docx”文档正文中所有红色的文字

最新资源