端到端多视角唇读实现：OuluVS2数据集在Python的运用

需积分: 8 163 浏览量更新于2024-12-21 收藏 218KB ZIP 举报

资源摘要信息:"减去图像均值matlab代码-End-to-End-Multi-View-Lipreading:端到端多视角唇读" 知识点概述： 1. 项目简介： End-to-End-Multi-View-Lipreading是一个端到端的多视角唇读项目，该项目主要在OuluVS2数据集上进行了测试，旨在实现自动唇读技术。该项目使用Python进行编程实现，并提供了一套完整的代码资源供研究者使用。 2. 使用条件：为了运行该项目的代码，使用者需要具备一些软件依赖。主要依赖包括miniconda2、matplotlib、pydotplus、scikit-learn、Python、Pillow、西诺（CPU）和千层面（不学习）。项目建议使用miniconda进行Python环境管理，miniconda可以从官网下载，且无需安装CUDA。 3. 环境配置：在配置项目环境时，需要考虑操作系统、Python版本、Theano版本及千层面版本。项目代码经过在Ubuntu 16.04、Python 2.7.13、Theano 0.9.0、千层面0.2.dev1环境下的测试，保证了代码的兼容性和稳定性。 4. 数据集介绍： OuluVS2是一个由芬兰奥卢大学计算机科学与工程系机器视觉研究中心收集的视听数据库，该数据库旨在促进视觉语音识别（自动唇读）的研究。使用该数据集前需要签署许可协议，并且项目提供相关脚本以供使用者进行数据集的预处理。 5. 研究引用：项目作者鼓励使用者在研究成果中引用相关论文，以便跟踪和推广该项目的影响力。相关的论文为《端到端多视图唇读》，作者包括S. Petridis、Y. Wang、Z. Li和M. Pantic，该论文发表在英国机器视觉会议上。 6. 项目标签与文件：该项目采用了"系统开源"的标签，意味着代码是公开的，并允许用户自由地查看、使用和修改。在提供的压缩包子文件中，"End-to-End-Multi-View-Lipreading-main"为项目的主要文件名，这暗示了主程序代码、文档说明和相关资源的存放位置。 7. 项目特点及应用：端到端多视角唇读技术是一个高度集成的解决方案，它通过分析唇部运动和面部表情，将视频信号转换成文字，对于提高听障人士的沟通效率有重要作用。此外，这项技术也广泛应用于安全验证、用户认证等领域。

资源目录

收起资源包目录

端到端多视角唇读实现：OuluVS2数据集在Python的运用（83个子文件）

3stream_0_30_45_final.ini 2KB

2stream_30_45_final.ini 1KB

signal.py 4KB

oulu_4stream_experiments.txt 211B

io.py 1KB

1stream_test.ini 881B

1stream_test60.ini 871B

1stream_test30.ini 871B

adenet_3stream.py 13KB

lcn.py 5KB

extract_encoder_from_1stream_final.py 3KB

1stream_final.py 15KB

4stream_0_30_45_90_final.ini 2KB

oulu_2stream_experiments.txt 366B

5stream_0_30_45_60_90_final.ini 3KB

oulu_1stream_experiments.txt 158B

4stream_final.py 27KB

data_structures.py 2KB

3stream_30_60_90_final.ini 2KB

preprocessOulu.pdf 107KB

3stream_0_30_90_final.ini 2KB

extract_lstm_from_1stream_final.py 4KB

ouluPreprocessingScript.m 3KB

test_35_5_12.txt 34B

pretrained_encoder.py 791B

objectives.py 2KB

computeIter.m 368B

train_35_5_12.txt 101B

run_experiments.oulu_4stream.sh 1KB

run_experiments.oulu_5stream.sh 1KB

run_experiments.oulu_2stream.sh 1KB

3stream_0_45_90_final.ini 2KB

2stream_60_90_final.ini 1KB

run_experiments.oulu_3stream.sh 1KB

1stream_test45.ini 871B

ffmpeg.py 6KB

LICENSE 11KB

adenet_4stream.py 17KB

3stream_0_45_60_final.ini 2KB

2stream_45_60_final.ini 1KB

2stream_30_90_final.ini 1KB

regularization.py 596B

deltanet_majority_vote.py 9KB

4stream_0_30_60_90_final.ini 2KB

2stream_30_60_final.ini 1KB

1stream_test90.ini 881B

plotting_utils.py 10KB

updates.py 3KB

2stream_0_30_final.ini 1KB

3stream_0_30_60_final.ini 2KB

4stream_0_45_60_90_final.ini 2KB

adenet_3stream_dropout.py 7KB

3stream_30_45_90_final.ini 2KB

5stream_final.py 30KB

2stream_final.py 20KB

.gitignore 1KB

preTrainEncoderWithRBMs.m 2KB

run_experiments.oulu_1stream.sh 1KB

3stream_30_45_60_final.ini 2KB

adenet_2stream.py 10KB

README.md 6KB

draw_net.py 5KB

3stream_final.py 24KB

adenet_v2_2.py 6KB

datagen.py 12KB

4stream_30_45_60_90_final.ini 2KB

nonlinearities.py 597B

2stream_0_60_final.ini 1KB

val_35_5_12.txt 15B

2stream_45_90_final.ini 1KB

layers.py 10KB

3stream_45_60_90_final.ini 2KB

oulu_3stream_experiments.txt 394B

4stream_0_30_45_60_final.ini 2KB

divideDataIntoTrainTestSubjInd.m 743B

2stream_0_45_final.ini 1KB

preprocessing.py 27KB

adenet_5stream.py 20KB

2stream_0_90_final.ini 1KB

oulu_5stream_experiments.txt 45B

computeTargetsPhrases.m 584B

computeMeanImRemovedSeq.m 542B

3stream_0_60_90_final.ini 2KB

共 83 条

weixin_38628362

粉丝: 6
资源: 897

端到端多视角唇读实现：OuluVS2数据集在Python的运用

减去图像均值matlab代码-Data-and-code-masters:数据和代码大师

减去图像均值matlab代码-PCA-Image-Compression:PCA-图像压缩

matlab精度检验代码-end-to-end-multiview-lipreading:端到端多视图唇读

订单分批matlab代码-end-to-end-lipreading:端到端视听语音识别的Pytorch代码

语谱图matlab代码-LipReading:唇读

bbc模型matlab代码-lip-reading:视频和音频预处理代码以及用于唇读的3DCNN代码

视频图像跟踪matlab代码-lip-tracking-with-snake-active-contour-and-particle-filt

matlab精度检验代码-MIM-lipreading:纸的代码和模型

eps图片转化为matlab代码--Wave2lip-:使用PaddleGAN套件的Wave2lip模型给照片上的人“配音、配嘴型儿”~~

matlab水平集图像分割代码-LIP_SSL:自我监督的结构敏感学习（CVPR'17）的代码存储库

最新资源