VidTIMIT数据集:多模态研究的金标准
1星 需积分: 5 82 浏览量
更新于2024-08-05
收藏 837B TXT 举报
"VidTIMIT Audio Video Dataset国内源下载"
VidTIMIT是一个综合性的多模态数据集,主要用于视觉语音识别(lip reading)、多视角人脸识别、多模态语音识别以及人脸识别等研究领域。该数据集包含了43位参与者的视频和音频记录,他们各自背诵了10个短句。这些句子选自TIMIT语料库的测试部分,旨在提供一个标准的实验平台,便于研究人员在不同任务上进行比较和验证。
数据集的结构设计考虑了时间间隔,确保了参与者在不同时间(会话1、会话2和会话3)的表现差异。会话之间的平均间隔分别为7天和6天,这样可以模拟真实生活中人们在不同时间状态下的表现。每个参与者前6个句子分配给会话1,接下来2个句子分配给会话2,最后2个句子分配给会话3。头两个句子对所有参与者是相同的,剩下的8个句子因人而异,增加了数据的多样性。
此外,每个参与者在录制过程中还执行了一组头部旋转动作,包括向左、向右、向上、向下,以及回到中心位置。这一设计不仅增加了视觉信息的丰富度,还为研究面部表情和头部运动与语音的关系提供了宝贵的素材。
视频部分使用广播质量的数字摄像机在办公环境下拍摄,确保了高清晰度。每个参与者的视频被保存为一系列编号的JPEG图像,分辨率为512 x 384像素,压缩质量设置为90%,以平衡图像质量和文件大小。音频部分则以单声道、16位、32千赫的WAV文件格式存储,保证了音质。
VidTIMIT数据集的可用链接为:[链接](https://storage.googleapis.com/kaggle-data-sets/98090/230239/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20211124%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20211124T042353Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=host&X-Goog-Signature=6d71dc5e8e0466396bded0545c0255e099be1d59ab7789f914790e8288d00a582fc02dc3c0d9623b6e4ebcfd5e349f4071b3b539ff64d1894192313c7560559f053f72e28c0ea7aaed4bb2486ffbed574864f1353f39089cbde4f2007a3312c24c44cfb68de27e9603ba256d31b0ddbe868a09e5a9b4c0cc1a6fdf22e1daee2ca74b4807ebc3fe460e60bbe473c6ab06f2c1aed85c2bbb72a903d2826cb58925c18ad296f6fb9253bd030f3c488e3afdc8ab2ac13c25043fdddfb108ceff1101711224c5f2368b0c286d1406df02387e002fb4d6b81b808cbef620b3615f0a2f0e0fb09a64e29944a71bb25b694c5a0388663a667b095c0e85ce6ab89977fd36)
通过VidTIMIT,研究者可以深入探索视觉和听觉信息如何相互补充,以提高语音识别的准确性和鲁棒性,同时也为面部动作识别和跨时间的人脸识别提供了宝贵的资源。由于其精心设计和丰富的数据内容,VidTIMIT已经成为多模态研究领域的一个重要工具。
2007-06-07 上传
2020-10-29 上传
2021-03-12 上传
a15570741002
- 粉丝: 7
- 资源: 17
最新资源
- Raspberry Pi OpenCL驱动程序安装与QEMU仿真指南
- Apache RocketMQ Go客户端:全面支持与消息处理功能
- WStage平台:无线传感器网络阶段数据交互技术
- 基于Java SpringBoot和微信小程序的ssm智能仓储系统开发
- CorrectMe项目:自动更正与建议API的开发与应用
- IdeaBiz请求处理程序JAVA:自动化API调用与令牌管理
- 墨西哥面包店研讨会:介绍关键业绩指标(KPI)与评估标准
- 2014年Android音乐播放器源码学习分享
- CleverRecyclerView扩展库:滑动效果与特性增强
- 利用Python和SURF特征识别斑点猫图像
- Wurpr开源PHP MySQL包装器:安全易用且高效
- Scratch少儿编程:Kanon妹系闹钟音效素材包
- 食品分享社交应用的开发教程与功能介绍
- Cookies by lfj.io: 浏览数据智能管理与同步工具
- 掌握SSH框架与SpringMVC Hibernate集成教程
- C语言实现FFT算法及互相关性能优化指南