SpeakingFaces数据集：多模态面部识别与语音交互研究

需积分: 13 120 浏览量更新于2024-11-08 1 收藏 24.63MB ZIP 举报

资源摘要信息:"SpeakingFaces数据集是一个大规模的视听数据集，它结合了高分辨率的热图像和可见光谱图像流，以及与之同步的面部图像和讲说100个命令性短语的受试者的音频记录。数据集涵盖了142位受试者，总共有13,000多个同步数据实例，容量约为3.8TB。该数据集旨在推动用户身份验证、面部识别、语音识别和人机交互等领域的研究发展。" 1. 数据集构成和特点： - SpeakingFaces数据集包含了同步的高分辨率热图像和可见光谱图像，以及受试者说出的100个命令性短语的音频记录。 - 数据集覆盖了142位不同的受试者，总共收集了13,000多个同步数据实例。 - 数据集的大小约为3.8TB，提供了丰富的信息用于训练和测试多模态生物特征识别系统。 2. 应用领域： - 用户身份验证：可以用于开发和测试多模态用户身份验证系统，结合视觉和音频信息提升身份识别的准确性和安全性。 - 面部识别：数据集中的面部图像可以用于训练面部识别算法，增强算法在不同光照和温度条件下的鲁棒性。 - 语音识别：同步的音频数据可用于语音识别技术的研究和开发。 - 人机交互：为研究交互式系统提供了大量的数据支持，尤其是需要结合视觉和听觉输入的交互设计。 3. 技术工具和平台： - 依赖项和记录数据使用的操作系统：使用Windows 10系统进行数据的收集和处理。 - MATLAB：用于数据预处理的编程和开发环境，具体版本为MATLAB 2019.x。 - 工具箱：需要安装计算机视觉工具箱以及ROS工具箱来支持相关的数据处理和分析任务。 - Python和相关库：Ubuntu 16.04系统下，使用Python 3.xx版本，并安装OpenCV 4.xx、NumPy、Pandas、SciPy和imutils等库进行数据预处理和分析。 4. 数据采集设备： - FLIR T540热像仪：采集热图像，分辨率为464×348像素，视场角（FOV）为24度。 - Logitech C920 Pro HD网络摄像机：采集可见光谱图像，该摄像头内置双立体声麦克风，支持高清视频拍摄。 5. 开源和共享： - 标签"系统开源"说明了SpeakingFaces数据集是公开可用的，研究者可以根据自己的需要自由地下载和使用该数据集。 - 数据集的源代码存储在一个名为"SpeakingFaces-master"的压缩包子文件中，研究者可以通过访问这个存储库来获取数据集的源代码和相关文档。 6. 研究和开发： - SpeakingFaces数据集的公开旨在鼓励研究人员在多模态生物特征识别、人机交互和机器学习领域进行深入的探索和创新。 - 研究者可以利用该数据集进行算法的训练和验证，通过对比分析不同算法在处理同步视听数据时的性能，来改进现有技术和提出新的研究方向。 7. 下载和使用说明： - 研究者需要根据自己的操作系统和编程环境，安装相应的软件和依赖库。 - 在使用SpeakingFaces数据集之前，需要遵守相关的许可协议和使用条款。 - 数据集的使用应当注明数据集的来源，并在发布研究成果时，适当引用相关文献和链接到已发表的论文。 8. 进一步的资料和资源： - 访问SpeakingFaces数据集的官方网站或存储库页面，可以获取更多关于数据集的详细信息、使用说明和技术文档。 - 研究者可以查看与数据集相关的已发表论文，以获得更深入的了解和对数据集采集及应用背景的洞见。 SpeakingFaces数据集作为一项重要的开源资源，对于推动计算机视觉、语音识别和人工智能领域的研究具有极大的促进作用。通过对该数据集的研究，可以为相关领域的研究者提供新的视角和方法，帮助他们设计出更加高效、准确的多模态识别系统。

收起资源包目录

SpeakingFaces数据集：多模态面部识别与语音交互研究（81个子文件）

SpeakingFaces.iml 284B

5_1.png 327KB

README.md 3KB

6_0.png 134KB

README.md 479B

align_session_two_all.py 2KB

10_1.png 317KB

build_pix2pix_data.py 6KB

options.py 2KB

build_face_img_data.py 10KB

extract_images_from_videos.m 2KB

.gitignore 39B

3_0.png 142KB

real_trial_1_emb.pkl 2.28MB

timelapse_v3.png 1.18MB

profiles_settings.xml 174B

misc.xml 201B

8_0.png 102KB

face_recognition_test.py 3KB

8_1.png 212KB

9_1.png 216KB

7_0.png 95KB

2_0.png 125KB

9_0.png 95KB

10_0.png 134KB

1_0.png 108KB

README.md 7KB

embeddings.py 2KB

align_crop_session_two.py 8KB

record_only_video.m 3KB

6_1.png 310KB

3_1.png 312KB

alignment_info_train.csv 11KB

salvage_audio.py 5KB

align_session_one_all.py 2KB

5_0.png 137KB

subjects.csv 5KB

imtools.py 2KB

aligned_session_two.png 342KB

aligned_session_one.png 525KB

4_1.png 267KB

LICENSE 1KB

2_1.png 240KB

matched_features.xlsx 41KB

res10_300x300_ssd_iter_140000.caffemodel 10.17MB

align_session_one.py 4KB

alignment_info_valid.csv 2KB

imtools.cpython-37.pyc 5KB

speakingface.jpg 34KB

trim_audio.py 5KB

main.py 23KB

build_cycleGAN_data.py 6KB

valid.csv 46KB

artifact_detector_v3.py 10KB

thermal2visible.png 1.69MB

train.csv 206KB

embeddings_128.pickle 1.2MB

arcface_embeddings.py 2KB

record_audio_video.m 4KB

aligned_markers_v3.png 1.61MB

aruco_detection.py 2KB

vcs.xml 180B

find_rgb_shifts.py 4KB

__init__.py 1B

nine_positions_v5.png 1.54MB

trim_beginning.py 4KB

setup.png 1.37MB

7_1.png 213KB

4_0.png 126KB

dataset.py 14KB

extract_images_by_commands.py 5KB

1_1.png 126KB

model.py 6KB

deploy.prototxt.txt 27KB

aligned_session_two_manual.png 342KB

missing_positions_v2.py 6KB

alignment_info_test.csv 2KB

extract_video_audio_by_commands.m 5KB

arcface_face_rec_test.py 5KB

modules.xml 278B

salvage_video.py 6KB

共 81 条

weixin_38612095

粉丝: 10
资源: 921

SpeakingFaces数据集：多模态面部识别与语音交互研究

最新资源