VidTIMIT数据集：多模态研究的金标准

1星需积分: 5 82 浏览量更新于2024-08-05 收藏 837B TXT 举报

"VidTIMIT Audio Video Dataset国内源下载" VidTIMIT是一个综合性的多模态数据集，主要用于视觉语音识别（lip reading）、多视角人脸识别、多模态语音识别以及人脸识别等研究领域。该数据集包含了43位参与者的视频和音频记录，他们各自背诵了10个短句。这些句子选自TIMIT语料库的测试部分，旨在提供一个标准的实验平台，便于研究人员在不同任务上进行比较和验证。数据集的结构设计考虑了时间间隔，确保了参与者在不同时间（会话1、会话2和会话3）的表现差异。会话之间的平均间隔分别为7天和6天，这样可以模拟真实生活中人们在不同时间状态下的表现。每个参与者前6个句子分配给会话1，接下来2个句子分配给会话2，最后2个句子分配给会话3。头两个句子对所有参与者是相同的，剩下的8个句子因人而异，增加了数据的多样性。此外，每个参与者在录制过程中还执行了一组头部旋转动作，包括向左、向右、向上、向下，以及回到中心位置。这一设计不仅增加了视觉信息的丰富度，还为研究面部表情和头部运动与语音的关系提供了宝贵的素材。视频部分使用广播质量的数字摄像机在办公环境下拍摄，确保了高清晰度。每个参与者的视频被保存为一系列编号的JPEG图像，分辨率为512 x 384像素，压缩质量设置为90%，以平衡图像质量和文件大小。音频部分则以单声道、16位、32千赫的WAV文件格式存储，保证了音质。 VidTIMIT数据集的可用链接为：[链接](https://storage.googleapis.com/kaggle-data-sets/98090/230239/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20211124%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20211124T042353Z&X-Goog-Expires=259199&X-Goog-SignedHeaders=host&X-Goog-Signature=6d71dc5e8e0466396bded0545c0255e099be1d59ab7789f914790e8288d00a582fc02dc3c0d9623b6e4ebcfd5e349f4071b3b539ff64d1894192313c7560559f053f72e28c0ea7aaed4bb2486ffbed574864f1353f39089cbde4f2007a3312c24c44cfb68de27e9603ba256d31b0ddbe868a09e5a9b4c0cc1a6fdf22e1daee2ca74b4807ebc3fe460e60bbe473c6ab06f2c1aed85c2bbb72a903d2826cb58925c18ad296f6fb9253bd030f3c488e3afdc8ab2ac13c25043fdddfb108ceff1101711224c5f2368b0c286d1406df02387e002fb4d6b81b808cbef620b3615f0a2f0e0fb09a64e29944a71bb25b694c5a0388663a667b095c0e85ce6ab89977fd36) 通过VidTIMIT，研究者可以深入探索视觉和听觉信息如何相互补充，以提高语音识别的准确性和鲁棒性，同时也为面部动作识别和跨时间的人脸识别提供了宝贵的资源。由于其精心设计和丰富的数据内容，VidTIMIT已经成为多模态研究领域的一个重要工具。

a15570741002

粉丝: 7
资源: 17

VidTIMIT数据集：多模态研究的金标准

YCB_video_dataset.txt

深入了解DataSet Video

js DataSet数据源处理代码

Kinetics Human Action Video Dataset 人体动力学行为视频数据集-数据集

video deblurring dataset dvd part1

video deblurring dataset dvd part4

video deblur dataset gopro part4

video deblur dataset gopro part6

video deblur dataset gopro part8

video deblur dataset gopro part5

最新资源