端到端视觉语音识别：零次学习视觉关键字定位

164 浏览量更新于2024-06-20 收藏 792KB PDF 举报

"视觉关键字定位的纯视觉自动语音识别方法" 本文深入探讨了“视觉关键字定位（KWS）”这一技术，这是一种使用视频信息来确定文本查询是否出现在特定记录中的问题。作者关注的是在真实世界环境中，即训练时未见过的词汇（零次学习）的视觉KWS。他们设计了一个端到端的架构，由三个关键部分组成： 1. 时空残差网络：这是一种先进的视觉特征提取器，能够从视频中捕捉到嘴和嘴唇运动产生的时空模式。时空残差网络利用深度学习技术，通过学习连续帧之间的差异来理解口型变化，从而帮助识别出语音内容。 2. 字素到音素模型：基于序列到序列的神经网络，这个模型用于将字母（字素序列）映射到它们的发音（音素）。与传统KWS方法仅依赖字素序列不同，此模型引入了一个字形到音素的编码-解码器结构，使系统能学习单词的发音，即使这些单词在训练时未曾出现。 3. 递归神经网络的堆栈：这个组件负责学习如何关联视觉特征和关键字的表示。通过递归神经网络，系统能够处理复杂的序列数据，有效地将视觉特征与预期的关键字匹配。在实验中，该系统在LRS2数据库上展示了非常有前景的视觉KWS结果，即使是在训练过程中未见过的关键词。与依赖自动语音识别（ASR）的基线方法相比，该系统表现更优，并显著提升了其他近期提出的ASR免费KWS方法的性能。文章指出，传统的ASR方法面临的挑战之一是词汇表外（OOV）词汇的存在，即那些在训练数据中没有出现过的词汇。为了解决这个问题，该工作的重点是构建一个能处理未知词汇的系统，这是通过端到端学习和使用字形到音素转换来实现的。这项工作为纯视觉ASR提供了一种创新的解决方案，尤其适用于无音频输入的情况下，例如在嘈杂环境或隐私敏感的应用场景。通过结合深度学习和递归神经网络，该方法有望进一步推动视觉KWS和视觉ASR领域的进展，增强系统的泛化能力和适应性。

T. 斯塔菲拉基斯湾Tzimiropoulos

短短语）转换成固定长度的表示向量。所提取的表示连同用声学自动

编码器提取的音频特征表示一起被传递到前馈神经网络，该前馈神经

网络被训练以预测关键字是否出现在话语中。虽然这种仅音频的方法

与我们的方法在概念上有某些相似之处，但实现方式在几个方面有所

不同。我们的方法部署了一个字到音素模型来学习关键字表示，它不

使用自动编码器来提取视觉序列的表示，更重要的是，它学习如何从

低级别的视觉特征，而不是从视频级表示的关键字相关的视觉信息

[33]的作者最近提出了一种使用单词作为识别单元的视觉KWS方法

他们与我们一起部署了ResNet特征提取器（由我们的团队在[34，35]

中提出并在LRW [2]上进行了训练），并且他们展示了他们的网络在

发现LRW中出现

他们的方法的瓶颈是单词表示（每个单词对应于

一个标签，而不考虑单词作为字素序列这样的非结构化单词表示可以

在闭集单词识别/检测任务上表现良好，但是防止该方法推广到在训

练期间看不见的单词。

零射击学习可以在具有不可见单词的KWS和用于检测新类（诸如

对象或动物）的零射击学习之间进行类比。具有未见过单词的KWS本

质上是一个零射击学习问题，其中属性（字母）在类（单词）之间共

享，以便从可见类中学习到的知识转移到未见过的类[37]。此外，类

似于其中未给出感兴趣对象的边界框的典型零激发学习训练设置，

KWS训练算法仅知道在给定训练视频中是否说出特定单词，而不具有

关于确切时间间隔的信息。由于这些原因，零触发学习方法，例如从

图像特征空间到语义空间学习映射（[38，39]）与我们的方法有关。

最后，最近的方法在动作识别中使用表示向量来编码，例如3D人体

骨骼序列也与我们的方法有一定的相似性[40]。

该方法

3.1

系统概述

我们的系统由四个不同的模块组成。第一模块是视觉特征提取器，其

接收图像帧序列作为输入（假设已经应用了面部检测器，如在LRS2

中），并且输出特征。时空残差网络用于此目的，其在单词级视

觉ASR中表现出显着的性能[34，35]。

该架构的第二模块接收用户定义的关键字（或更一般地文本查

询）作为输入，并以

输出关键字的固定长度表示。该映射通过字素

到音素（G2P）来学习

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

端到端视觉语音识别：零次学习视觉关键字定位

一种语音识别和关键词识别的方法

基于关键字的语音识别

自动语音识别

通过关键字识别实现语音到手势的转换

DenseNet和BiLSTM的有效结合，可用于关键字识别

使用视觉单词嵌入和RNN表示单词图像以在历史文档图像上发现关键字

watson-multimedia-analyzer:使用Watson视觉识别，语音到文本，自然语言理解和音调分析器来丰富媒体文件的Node应用程序

通过关键词识别实现语音到手势的转换

通过基于排名的邻居搜索和基于学习的关键字传播来改善图像注释

在VB中使用TTS技术.rar_VB speech_vb 语音_vb语音_语音_语音 VB

最新资源