没有合适的资源?快使用搜索试试~ 我知道了~
首页CVAE在人工带宽扩展中的潜在表示学习:提升语音质量的关键
CVAE在人工带宽扩展中的潜在表示学习:提升语音质量的关键
0 下载量 114 浏览量
更新于2024-08-30
收藏 275KB PDF 举报
"该篇文章《利用条件变分自动编码器进行人工带宽扩展的潜在表示学习》由作者Pramod Bachhav、Massimiliano Todisco和Nicholas Evans撰写,主要关注于在宽带设备与窄带设备协同工作时,通过改进的降维技术来提升语音质量的问题。传统的ABE(人工带宽扩展)方法依赖于记忆机制,这可能导致延迟和复杂性增加。文章的核心创新在于首次将条件变分自动编码器(CVAEs)应用于监督降维中,特别是针对高维对数谱数据的建模。 CVAEs在本研究中被用来构建有向图模型,目的是提取潜在的窄带表示,从而避免直接处理高维特性,降低计算负担。相比于传统的降维技术,如回归模型,CVAEs的学习过程能够生成潜在概率表示,这种表示对于估计高带频率成分具有更高的效能。作者通过客观和主观评估证明,使用CVAEs得到的带宽扩展后的语音信号质量得到了显著提升。 文章的索引项涵盖了关键概念,包括变分自动编码器(VAEs)、潜在变量、人工带宽扩展、降维以及语音质量优化。这些技术在无线通信领域具有实际应用价值,特别是在NB向WB网络的迁移过程中,能有效减少成本并提供更好的用户体验。 总结来说,这篇论文提出了一种新颖的方法,利用CVAEs在语音信号处理中进行高效且高质量的带宽扩展,这不仅提高了技术的性能,还可能推动相关领域如通信工程、信号处理和机器学习的进一步发展。"
资源详情
资源推荐
Latent Representation Learning For Artificial Bandwidth
Extension Using A Conditional Variational Au…
博客作者:凌逆战
论文地址:https://ieeexplore.ieee.xilesou.top/abstract/document/8683611/
地址:https://www.cnblogs.com/LXP-Never/p/10714401.html
利用条件变分自动编码器进行人工带宽扩展的潜在表示学习
作者:Pramod Bachhav, Massimiliano Todisco and Nicholas Evans
摘要摘要
当宽带设备与窄带设备或基础设施一起使用时,人工带宽扩展人工带宽扩展(ABE)算法可以提高语音质量。大多数ABE解决方案都使用
某种形式的memory(记忆),这意味着高维特性表示会增加延迟和复杂性。因此发展了降维技术以保持效率。因此提取紧凑的
低维表示,然后与标准回归模型一起用于估计高频段分量。
以往的研究表明,某种形式的监督对于优化ABE的降维技术降维技术至关重要。本论文研究了条件变分自动编码器条件变分自动编码器(conditional
variational auto-encoders,,CVAEs)在监督降维中的首次应用。利用有向图模型的CVAEs对高维对数谱数据进行建模,提
取潜在的窄带表示法。
与其他降维技术的结果相比,客观和主观的评估表明,使用CVAEs学习的潜在概率表示产生的带宽扩展语音信号质量显
著提高。
index Terms(索引项):变分自动编码器,潜在变量,人工带宽扩展,降维,语音质量
1 介绍介绍
传统窄带(NB)网络和设备通常支持0.3-3.4kHz的带宽。为了提高语音质量,今天的宽带(WB)网络支持50Hz-7kHz的带
宽。随着NB网络向WB网络的过渡,需要大量的投资[1],人工带宽扩展人工带宽扩展(ABE)算法被开发出来,当WB设备与NB设备或基础设
施一起使用时,可以提高语音质量。ABE用于从可用NB分量中估计缺失的3.4kHz以上的highband(高带高带)(HB)频率分量,通常
使用从大量WB训练数据中学习的回归模型。
ABE算法要么使用经典的源滤波器模型[2,3],要么直接对复杂的短期频谱估计进行操作[4,6]。在这两种方法中,使用
contextual information(上下文信息)或memory(记忆),可以更可靠地估计HB成分。一些特定的back-end(后端)regression(回
归)模型[7 9]以时间信息的形式捕获memory,而其他解决方案[4、10、11]则相反地在front-end(前端)捕获记忆,例如通过delta
特征或从相邻帧提取的静态特征。虽然memory的使用提高了ABE的性能,但它意味着使用更高维度的特性,因此,ABE回归
模型更复杂,计算要求更高。考虑到ABE通常需要在电池驱动的设备上运行,这是不可取的。
为了减少复杂性的增加,[12,13]研究了在固定维度的约束下,通过delta mel频率倒谱系数频率倒谱系数(MFCC)包含记忆。然而,研
究发现,互信息的增益被MFCC inversion(转换)中涉及的重建伪影所抵消[13]。我们自己的工作[14]提出了一种方法,将
memory(记忆)以相邻帧的静态特性的形式包含进来。为了保持效率,采用了降维方法。我们后续的工作[15]表明,由对数谱系
数组成的memory(记忆)可以使用半监督堆叠自动编码器半监督堆叠自动编码器(semi-supervised stacked auto-encoders, SSAE)学习一种紧凑
的、低维的ABE特征表示。本文的工作旨在探索生成建模技术的应用,以进一步提高ABE性能。目标是对高维谱数据(包括
memory(记忆))的分布建模,并提取更高层次、更低维的特征,从而在不影响复杂性的情况下提高ABE回归模型的可靠性。从
本质上讲,我们寻求一种专门针对ABE的降维降维(DR)形式。
变分自编码器变分自编码器(VAEs)及其条件变分自动编码器条件变分自动编码器(CVAEs)概率深度生成模型能够对复杂的数据分布进行建模。与堆叠式自堆叠式自
动编码器动编码器(SAEs)学习的瓶颈特性相比,隐藏表示是概率的,可以用来生成新的数据。受其在图像处理中的成功应用[16 18]的
启发,它们在众多的语音处理领域越来越受欢迎,如语音建模与转换[19,20]、语音转换[21]、语音合成[22]、语音增强用于语
音活动检测[23]、情感识别[24]和音频源分离[25]。
CVAEs通过combination(联合)潜在变量和条件变量来生成数据。本文工作的思路是通过辅助神经网络对条件变量进行优
化,以学习higher-level(更高层次)的NB特征,这些特征是针对ABE任务中缺失HB分量的估计而定制的。这项工作的新贡献是:
(i) 第一次将VAEs和CVAEs应用于DR的回归任务,如ABE;
(ii) 将CVAE与probabilistic encoder(概率编码器)结合,以auriliary(辅助)神经网络的形式,得到条件变量;
(iii) 联合优化的一种方法;
(iv) 他们应用于extract(提取)probabilistic(概率)NB潜在表示,以估计在其他标准ABE框架中丢失的HB数据;
(v) 所提出的方法来大幅提高ABE性能。
本文的其余部分组织如下。第2节描述了基线ABE算法。第3节介绍了基于VAE和CVAE的特征提取方案,第4节实验,第5
下载后可阅读完整内容,剩余6页未读,立即下载
weixin_38742520
- 粉丝: 15
- 资源: 940
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 多功能HTML网站模板:手机电脑适配与前端源码
- echarts实战:构建多组与堆叠条形图可视化模板
- openEuler 22.03 LTS专用openssh rpm包安装指南
- H992响应式前端网页模板源码包
- Golang标准库深度解析与实践方案
- C语言版本gRPC框架支持多语言开发教程
- H397响应式前端网站模板源码下载
- 资产配置方案:优化资源与风险管理的关键计划
- PHP宾馆管理系统(毕设)完整项目源码下载
- 中小企业电子发票应用与管理解决方案
- 多设备自适应网页源码模板下载
- 移动端H5模板源码,自适应响应式网页设计
- 探索轻量级可定制软件框架及其Http服务器特性
- Python网站爬虫代码资源压缩包
- iOS App唯一标识符获取方案的策略与实施
- 百度地图SDK2.7开发的找厕所应用源代码分享
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功