没有合适的资源?快使用搜索试试~ 我知道了~
音频-视觉语音编解码器:重新合成思考音频-视觉语音增强
Karren Yang1 Dejan Markovi´c2 Steven Krenn2 Vasu Agrawal2 Alexander Richard21MIT2Meta Reality Labs Researchkarren@mit.edu{dejanmarkovic,stevenkrenn,vasuagrawal,richardalex}@fb.com1https://github.com/facebookresearch/facestar/releases/download/paper_materials/video.mp482270音频-视觉语音编解码器:通过重新合成重新思考音频-视觉语音增强0摘要0由于面部动作(如嘴唇运动)包含了与语音内容相关的重要信息,因此音频-视觉语音增强方法比仅音频的方法更准确。然而,目前的最先进方法在具有挑战性的声学环境中仍然难以生成没有噪音伪影和不自然失真的干净、真实的语音。在本文中,我们提出了一种新颖的音频-视觉语音增强框架,用于增强增强现实/虚拟现实中的高保真度电信。我们的方法利用音频-视觉语音线索生成神经语音编解码器的代码,从噪声信号中有效合成干净、真实的语音。鉴于说话者特定线索在语音中的重要性,我们专注于开发适用于个体说话者的个性化模型。我们在一个自由度较大的、大词汇量的自然语音数据集上展示了我们方法的有效性,同时还使用了现有的音频-视觉数据集,在定量指标和人工评估研究中优于语音增强基线。请参阅补充视频以获取定性结果1。01. 引言0人类具有从视觉信息(如嘴唇运动)中提取语音内容的非凡能力。研究表明,观看说话者的面部可以改善人类在嘈杂环境中的听力[41,57],并且当听力受损时,人们自然而然地学会阅读嘴唇运动[24]。受到这些观察的启发,音频-视觉语音增强方法利用说话者的视觉输入在嘈杂环境中隔离他们的声音[35]。例如,通过将目标说话者的面部帧与嘈杂的音频频谱图集成,最近的深度学习模型可以生成一个抑制不相关的声音和背景声音的频谱图掩码。0图1.音频-视觉语音编解码器。我们的模型通过利用音频-视觉语音线索合成神经语音编解码器的离散代码来进行语音增强。(a)在训练过程中,我们首先通过训练神经语音编解码器来压缩和解码目标说话者的干净语音信号,从而学习自然语音的代码簿。然后,我们在噪声音频和视觉输入的条件下训练一个自回归概率模型来生成代码序列。(b)在推理过程中,我们使用自回归模型生成一系列语音代码,然后使用语音编解码器的解码器模块合成语音。0输出为[1, 11,18]。这些模型对于减少噪音并改善视频的语音可懂度在下游应用中非常有用。然而,在越来越多的电信应用中,超出语音可懂度的输出语音质量和真实感变得至关重要。一个例子是增强现实/虚拟现实中的社交远程存在,旨在实现虚拟环境中人们之间逼真的面对面对话。沉浸式虚拟对话需要极高质量的语音信号:每个说话者的声音在虚拟环境中呈现时必须听起来干净和真实,就像真实对话正在那里进行一样。目前的最先进方法在这些应用中存在两个主要问题。首先,82280它们通过使用噪声音频作为模板[1, 11,18]生成语音,而不是明确地建模语音的分布,这可能会导致噪声渗透和其他不自然的失真,破坏沉浸感。其次,它们专注于学习在大规模人群中具有良好泛化性能的音频-视觉语音线索,但可能无法捕捉到需要更高保真度模型的个体说话者特定线索。主要贡献。在这项工作中,我们采用了与现有工作不同的方法,克服了这两个限制。我们的主要贡献如下:(1)我们提出了音频-视觉(AV)语音编解码器,这是一种用于AV语音增强的新框架。AV语音编解码器不是使用噪声音频输入作为生成增强输出的模板,而是明确地建模语音的分布,并在音频-视觉线索的条件下重新合成干净的语音。我们的方法如图1所示。在训练过程中,我们首先通过训练神经语音编解码器来学习自然语音的构建模块,通过离散代码簿对干净语音信号进行压缩和解码。随后,我们在噪声音频和视觉输入的条件下训练一个自回归概率模型来生成代码。在测试时,我们从自回归模型中获取语音代码,并使用神经语音编解码器的解码器模块合成干净语音。我们的方法类似于高质量的两阶段图像生成技术,该技术在预训练的图像组件词汇表上学习概率先验[13, 38]。(2)我们不像大多数最新工作那样采用通用说话者框架,而是专注于利用个体说话者特定的音频-视觉线索进行更高保真度的语音增强。为此,我们引入了Facestar2,一个高质量的音频-视觉数据集,其中包含两个说话者的10小时语音数据。用于基于视觉的语音合成任务的现有音频-视觉数据集要么在干净、受控的环境中捕获,词汇量小且受限[7,21],要么从具有可变音频质量和不可靠嘴唇运动的“野外”视频中策划[45]。相比之下,Facestar包含了在高音频和视觉质量下记录的自由度较大的大词汇量自然语音,可以开发高质量的个性化语音模型。(3)从实证上看,我们的个性化AV语音编解码器在仅2kbps的发射机到接收机传输速率下,在定量指标和人工评估研究中优于音频-视觉语音增强基线。据我们所知,我们的工作是第一个能够在高噪声和混响环境中实现高保真度增强现实/虚拟现实中所需质量的音频-视觉语音增强的工作。解决可扩展性问题。除了引入高质量的个性化AV语音编解码器外,我们还采取了措施来解决可扩展性问题。02 https://github.com/facebookresearch/facestar0解决其可扩展性问题。尽管个性化模型通常用于高保真应用,例如,个性化的视觉化身可以在虚拟现实中实现极其逼真的人类视觉表现,克服了奇异山谷效应[34,62],但一个缺点是它们通常需要对目标个体的大量数据进行训练。自然而然地,我们会想到如何在少量数据的情况下获得高质量的个性化模型,以便将高保真的电信扩展到大量用户。作为第一步,我们提出了一种简单的策略,用于将AV语音编解码器个性化到新的个体,只需少量新数据,这种策略类似于扩展个性化文本到语音模型的方法[4]。具体而言,我们引入了一个多说话人扩展的AV语音编解码器,其中包含一个说话人身份编码器,可以在多说话人数据集上进行预训练,然后用目标说话人的少量数据进行微调。我们在GRID数据集上演示了这种个性化策略。我们多说话人模型的另一个好处是它可以实现从一个说话人到另一个说话人的声音转换,从而在AR/VR中开启创造性的应用。02. 相关工作0仅音频的语音增强。人类从嘈杂的环境中分离出目标说话人的能力[41,57]启发了对计算方法进行语音分离和增强的广泛研究。早期的问题形式假设来自多个麦克风的输入[9,65],而最近的方法也考虑了单声道的情况[23, 50, 53,54]。这包括单声道语音分离方法,解决了从单个音频轨道中分离混合说话者的问题[23, 36, 60,66],以及单声道语音增强方法,解决了从嘈杂语音中去除非语音背景声音[8, 30, 42, 55, 56, 63]和混响[8,56]的问题。我们的工作也专注于单声道语音增强的任务,但我们与仅音频的研究不同之处在于,我们利用额外的视觉流来指导语音合成。音频-视觉源分离。视频中音频和视觉线索之间的对应关系导致了利用音频-视觉信息进行声音源分离的方法[14, 40, 47, 52]。最近,已经为语音[1, 2, 6, 11,15, 18, 39]和音乐[16, 64, 69,70]开发了深度学习框架的音频-视觉分离方法。在语音领域,这些方法依赖于面部识别[6, 18, 70]和/或唇部运动[1, 18,39]来抑制与视觉流中的说话者不对应的声音。我们同样考虑音频-视觉语音增强的任务,但我们的框架与这些方法不同之处在于,我们在音频-视觉输入的条件下进行语音合成,而不是使用声音分离框架(例如生成频谱图掩码)。我们的研究82290结果表明,我们的方法可以产生更高质量、更自然的语音输出。神经语音编解码器。现代音频通信系统依赖于语音编解码器来高效地压缩和传输语音。神经语音编解码器使用神经网络将输入语音压缩为低比特率的表示,可以通过网络传输并在接收端解码为音频波形[59]。低比特率的表示通常是通过自编码学习到的人类语音的离散表示[19, 26, 28,38]或通过自监督训练获得的语音特征[44]。虽然其中一些方法考虑了噪声语音的影响[28,67],但它们的主要重点是对清晰语音的压缩。在我们的工作中,我们提出了一个音频-视觉语音增强框架,该框架根据嘈杂的音频和视觉输入生成神经音频编解码器的清晰语音编码。神经语音合成。高质量的神经语音合成通常基于一个两阶段的流程[29],首先从输入生成语音的低分辨率中间表示,然后从这个表示中合成音频波形[29, 31, 37,46]。语音合成的著名例子包括文本到语音合成和视频到语音合成,其中第一阶段是从文本[33, 43, 51,61]或无声视频[10, 12, 32,45]输入生成中间表示。我们的方法类似地基于一个两阶段的流程,但我们使用神经语音编解码器学习到的语音编码作为我们的中间表示,并且我们将语音编码的生成条件设置为嘈杂的音频和视觉输入,而不是文本或无声视频。03. 方法0让S'和V分别表示个体语音的音频和视觉流,其中S'包含各种环境噪声(即干扰说话者、背景声音、混响)。我们的目标是合成一个高质量、干净的语音S。我们的方法包括两个学习组件,如图2所示:01.生成语音编码:我们学习一个离散语音码本,捕捉目标说话者话语的丰富词汇,可以用来合成说话者声音的高质量音频。02.条件自回归模型:在说话者的音频视觉输入的条件下,我们训练一个自回归模型来生成语音编码,确保代码序列遵循说话者语音的自然分布。0我们的框架受到高质量的两阶段生成模型的启发,例如VQ-VAE [38],它首先学习一个0对数据进行离散编码,然后学习使用概率模型生成代码序列。在这里,我们将代码生成条件设置为说话者的音频视觉输入,用于语音合成。03.1. 生成语音编码0我们将个体的干净语音表示为来自码本Q ={qk}Kk=1的条目序列,其中每个qk是一个N维向量。基于这些编码,任何干净语音段S ∈ RT都可以从一个代码Z ∈RT'×N中近似合成,其中T'是输入音频的时间范围。由于编码器沿时间轴压缩输入信号,我们通常有T'
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功