音频-视觉语音编解码器：提升AR/VR语音体验

44 浏览量更新于2025-01-16 收藏 14.59MB PDF 举报

"音频-视觉语音编解码器：通过重新合成重新思考音频-视觉语音增强" 本文介绍了一种创新的音频-视觉语音增强技术，旨在提升增强现实/虚拟现实环境中的高保真度电信体验。传统的音频处理方法在噪声环境中可能无法生成清晰且自然的语音，而该框架通过整合音频和视觉信息，特别是在嘴唇运动中捕获的语音相关细节，解决了这一问题。作者们提出了一种音频-视觉语音编解码器，它利用来自目标说话者的音频和视觉线索，生成神经语音编解码器的编码，进而从噪声中有效地合成出干净、真实的语音信号。这个编解码器特别关注说话者的个性特征，因此能够构建针对特定个体的模型，从而更好地保留语音的独特性。在训练过程中，模型首先通过神经语音编解码器学习压缩和解码目标说话者的干净语音信号，以理解自然语音的编码模式（如图1所示）。在嘈杂的音频输入中，模型能够利用这些编码来生成一个抑制噪声和背景声音的频谱图掩码，从而实现语音增强。实验部分，研究人员在一个大词汇量、自由度较高的自然语音数据集上验证了该方法的有效性，并与现有的音频-视觉语音增强基线进行了比较。在定量评估和人工评估研究中，该方法均表现出色，表明它在改善语音质量和可理解性方面具有显著优势。此外，论文还引用了人类从视觉信息中解码语音的能力，指出观看说话者的面部可以帮助提高在噪声环境下的听力，甚至在听力受损时成为重要的辅助手段。因此，音频-视觉语音增强技术对于提高通信质量和用户体验，尤其是在增强现实/虚拟现实应用中，具有极大的潜力。这篇论文提出的音频-视觉语音编解码器是一种先进的语音处理技术，它利用多模态信息来提升语音清晰度，尤其是在复杂声学环境中。通过开发个性化模型，该方法进一步增强了对特定说话者语音特征的保留，为未来相关领域的研究和应用提供了新的方向。

8229

结果表明，我们的方法可以产生更高质量、更自然的语音输

出。神经语音编解码器。现代音频通信系统依赖于语音编解

码器来高效地压缩和传输语音。神经语音编解码器使用神经

网络将输入语音压缩为低比特率的表示，可以通过网络传输

并在接收端解码为音频波形[59]。低比特率的表示通常是通

过自编码学习到的人类语音的离散表示[19,26,28,

38]或通过自监督训练获得的语音特征[44]。虽然其中一些方

法考虑了噪声语音的影响[28,

67]，但它们的主要重点是对清晰语音的压缩。在我们的工

作中，我们提出了一个音频-视觉语音增强框架，该框架根

据嘈杂的音频和视觉输入生成神经音频编解码器的清晰语音

编码。神经语音合成。高质量的神经语音合成通常基于一个

两阶段的流程[29]，首先从输入生成语音的低分辨率中间表

示，然后从这个表示中合成音频波形[29,31,37,

46]。语音合成的著名例子包括文本到语音合成和视频到语

音合成，其中第一阶段是从文本[33,43,51,

61]或无声视频[10,12,32,

45]输入生成中间表示。我们的方法类似地基于一个两阶段

的流程，但我们使用神经语音编解码器学习到的语音编码作

为我们的中间表示，并且我们将语音编码的生成条件设置为

嘈杂的音频和视觉输入，而不是文本或无声视频。

3.方法

让S'和V分别表示个体语音的音频和视觉流，其中S'包含各种

环境噪声（即干扰说话者、背景声音、混响）。我们的目标

是合成一个高质量、干净的语音S。我们的方法包括两个学

习组件，如图2所示：

生成语音编码：我们学习一个离散语音码本，捕捉目标说

话者话语的丰富词汇，可以用来合成说话者声音的高质量

音频。

条件自回归模型：在说话者的音频视觉输入的条件下，我

们训练一个自回归模型来生成语音编码，确保代码序列遵

循说话者语音的自然分布。

我们的框架受到高质量的两阶段生成模型的启发，例如VQ-

VAE[38]，它首先学习一个

对数据进行离散编码，然后学习使用概率模型生成代码序列

。在这里，我们将代码生成条件设置为说话者的音频视觉输

入，用于语音合成。

3.1.生成语音编码

我们将个体的干净语音表示为来自码本Q=

{qk}Kk=1的条目序列，其中每个qk是一个N维向量。基于这

些编码，任何干净语音段S∈RT都可以从一个代码Z∈

RT'×N中近似合成，其中T'是输入音频的时间范围。由于编

码器沿时间轴压缩输入信号，我们通常有T'<

T。我们首先使用编码器网络˜E将语音映射到编码，该网络

对S的mel频谱图表示进行操作：

˜Z=˜E(melspec(S))∈RT'×K.(1)

然后，我们将这个编码转换为T'个序列

通过从Gumbel-softmax分布[25]中采样并选择与Q中相应

索引的代码，获得代码。对于一个时间编码Z=[Z1,∙∙∙,ZT'

]，第t个代码为

Zt=qk,k=Gumbel(˜Zt,1:K).(2)

我们用hQ表示从连续值嵌入˜Z到代码Z的转换。实际上，捕

捉个体语音的完整范围可能需要一个数量巨大的码本Q的数

量K。为了增加语音码本的表达能力，我们采用常用的多头

代码[25,

49]的概念，将码本Q中的每个代码替换为一组H个子代码

Q(h)={q(h)k}˜Kk=1,h=1,...,H.(3)

换句话说，我们不是使用一个大小为K的大码本，而是使用

H个大小为˜K的小码本。这样，我们的语音码本的大小可以

以指数方式增长，即K=

˜KH，增加了语音码本的表达能力，而不会导致编码大小的

指数增长。在这种情况下，编码˜Z的维度为T'×H×˜K，每个

时间代码为

Zt=q(h)kH

h=1,k=Gumbel(˜Zt,h,1:˜K).(4)

最后，从学习到的编码中重构语音的解码器由一个mel频谱

图解码器˜D和一个将解码的mel频谱图转换回波形域的神经

声码器G组成。因此，我们的语音编解码器架构包括一个编

码器E=hQ◦

˜E，将输入语音的mel频谱图映射到编码，以及一个解码器

D=G◦˜D，将

剩余10页未读，继续阅读

cpongm

粉丝: 6

音频-视觉语音编解码器：提升AR/VR语音体验

路边叫卖语音合成器：提升喇叭叫卖效率

深入解析语音朗读与识别技术应用

实现Android平台科大讯飞在线语音合成技术

微信小程序音频编解码技术：提升音质与压缩率，音频质量优化终极指南

【RoboMaster音频处理】：语音合成与听觉反馈，赋予机器人声音

多媒体处理不再难：HOT-51增强版音频与视频编解码技术快速入门

语音合成代码matlab-resume:恢复

多模态大型语言模型VITA-1.5：融合视觉与语音的近实时交互系统

VQ-CPC模型：语音转换与声学特征提取的前沿技术

语音识别与合成：让机器听懂和模仿人类声音的8大步骤

最新资源