VidTIMIT数据集:多模态研究的金标准

1星 需积分: 5 7 下载量 82 浏览量 更新于2024-08-05 收藏 837B TXT 举报
"VidTIMIT Audio Video Dataset国内源下载" VidTIMIT是一个综合性的多模态数据集,主要用于视觉语音识别(lip reading)、多视角人脸识别、多模态语音识别以及人脸识别等研究领域。该数据集包含了43位参与者的视频和音频记录,他们各自背诵了10个短句。这些句子选自TIMIT语料库的测试部分,旨在提供一个标准的实验平台,便于研究人员在不同任务上进行比较和验证。 数据集的结构设计考虑了时间间隔,确保了参与者在不同时间(会话1、会话2和会话3)的表现差异。会话之间的平均间隔分别为7天和6天,这样可以模拟真实生活中人们在不同时间状态下的表现。每个参与者前6个句子分配给会话1,接下来2个句子分配给会话2,最后2个句子分配给会话3。头两个句子对所有参与者是相同的,剩下的8个句子因人而异,增加了数据的多样性。 此外,每个参与者在录制过程中还执行了一组头部旋转动作,包括向左、向右、向上、向下,以及回到中心位置。这一设计不仅增加了视觉信息的丰富度,还为研究面部表情和头部运动与语音的关系提供了宝贵的素材。 视频部分使用广播质量的数字摄像机在办公环境下拍摄,确保了高清晰度。每个参与者的视频被保存为一系列编号的JPEG图像,分辨率为512 x 384像素,压缩质量设置为90%,以平衡图像质量和文件大小。音频部分则以单声道、16位、32千赫的WAV文件格式存储,保证了音质。 VidTIMIT数据集的可用链接为:[链接](https://storage.googleapis.com/kaggle-data-sets/98090/230239/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20211124%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20211124T042353Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=host&X-Goog-Signature=6d71dc5e8e0466396bded0545c0255e099be1d59ab7789f914790e8288d00a582fc02dc3c0d9623b6e4ebcfd5e349f4071b3b539ff64d1894192313c7560559f053f72e28c0ea7aaed4bb2486ffbed574864f1353f39089cbde4f2007a3312c24c44cfb68de27e9603ba256d31b0ddbe868a09e5a9b4c0cc1a6fdf22e1daee2ca74b4807ebc3fe460e60bbe473c6ab06f2c1aed85c2bbb72a903d2826cb58925c18ad296f6fb9253bd030f3c488e3afdc8ab2ac13c25043fdddfb108ceff1101711224c5f2368b0c286d1406df02387e002fb4d6b81b808cbef620b3615f0a2f0e0fb09a64e29944a71bb25b694c5a0388663a667b095c0e85ce6ab89977fd36) 通过VidTIMIT,研究者可以深入探索视觉和听觉信息如何相互补充,以提高语音识别的准确性和鲁棒性,同时也为面部动作识别和跨时间的人脸识别提供了宝贵的资源。由于其精心设计和丰富的数据内容,VidTIMIT已经成为多模态研究领域的一个重要工具。