C-VAE与VAWGAN在非平行语音转换中的融合提升

版权申诉

137 浏览量更新于2024-06-27 收藏 2.59MB DOCX 举报

本文主要探讨了一种创新的语音转换技术，结合了i向量和变分自编码相对生成对抗网络（i-vector and Variational Autoencoder-Relative Generative Adversarial Network, VAE-RGAN）。语音转换技术的目标是保留语音内容不变，同时改变说话人的声音特征，使其模拟其他人的发音，特别关注的是非平行文本条件下的转换，因为这种场景在实际应用中更为常见，如跨语种转换和医疗辅助系统。传统的语音转换方法面临的主要挑战是缺乏平行文本数据。第一类方法尝试通过语音重组技术，如自动语音识别（ASR）系统标记音素或文语转换系统合并语音片段，将非平行文本转化为可处理的平行形式。这类方法简单易行，但受限于ASR或文语转换系统的准确性。第二类方法则是从统计学角度出发，利用背景说话人的信息进行模型自适应，如说话人自适应和说话人归一化。这种方法依赖于平行训练数据，且系统复杂性较高，因为它需要针对每个源-目标说话人对单独建立转换模型，对于多对多转换支持不足。第三类方法，也就是本文的核心部分，采用C-VAE、VAWGAN和StarGAN等模型，这些方法直接处理非平行文本，通过解码语义信息和说话人个性特征，实现了多对多的语音转换。C-VAE通过条件编码器捕获源说话人的语义，而解码器则学习目标说话人的特性；VAWGAN则结合了变分自编码和 Wasserstein GAN，提供更精细的控制和更好的生成质量；StarGAN作为多任务学习的框架，能够同时处理多种语音风格转换，显著降低了对平行数据的依赖。基于i向量和变分自编码相对生成对抗网络的语音转换技术，通过巧妙地融合深度学习模型和多对多转换策略，提高了语音转换的自然度和个性化程度，尤其在非平行文本条件下，具有很高的实用价值和研究前景。然而，尽管如此，技术的进一步优化仍需关注模型的泛化能力、计算效率以及对噪声和质量下降的鲁棒性，以便在实际应用中更加稳定和高效。

利用 one-hot 标签表征说话人身份, 而 one-hot 标签只是用于指示不同说话人, 无法携带更

为丰富的说话人个性信息. 通过提升 WGAN 的性能或找到生成性能更加强大的生成对抗网

络, 有望获得更好自然度的语音, 进一步引入含有丰富说话人个性信息的表征向量能够有助

于提升说话人个性相似度.

2. 改进的基于 VARSGAN + i-vector 的语音转换方法

2.1 RSGAN 的原理

为进一步提升 VAWGAN 的性能, 通过找到一个生成性能更加强大的 GAN 替换

WGAN 是本文的一个研究出发点. 2019 年 Baby 等

[13]

通过实验证明相比于最小二乘 GAN

[19]

和 WGAN

[11]

, RSGAN 生成的数据样本更稳定且质量更高. RSGAN 由标准生成对抗网络发

展而来, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相

对值, 在训练生成器时真实样本也能参与训练. 为了将鉴别器的输出限制在[0, 1]中, 标准生

成对抗网络常常在鉴别器的最后一层使用 sigmoid 激活函数, 因此标准生成对抗网络鉴别器

定义为:

$$ \begin{array}{l} D(x) = {\rm{sigmoid}}(C(x)) \end{array} $$

(2)

式中, $ C(x) $为未经过 sigmoid 函数激励的鉴别器输出. 由于鉴别器的输出由真实样

本和生成样本共同决定, 因此可以使用下述的方法构造相对鉴别器:

$$ \begin{array}{l} D(\tilde x) = {\rm{sigmoid}}(C({x_r}) - C({x_f})) \end{array} $$

(3)

$$ \begin{array}{l} {D_{rev}}(\tilde x) = {\rm{sigmoid}}(C({x_f}) - C({x_r})) \end{array} $$

(4)

式中, $ {x_r} $表示真实样本, $ {x_r} \in P $, $ {x_f} $表示生成样本, $ {x_f} \in Q

$, $ D(\tilde x) $表示真实样本比生成样本更真实的概率, $ {D_{rev}}(\tilde x) $表示生成样

本比真实样本更真实的概率. 经过如下推导:

$$ \begin{split} {1 - {D_{rev}}(\tilde x)} =& 1 - {\rm{sigmoid}}(C({x_f}) - C({x_r}))=\\ & {\rm{sigmoid}}(C({x_r}) - C({x_f}))= D(\tilde x)

\end{split} $$

(5)

可得

$$ \begin{array}{l} \ln (D(\tilde x)) = \ln (1 - {D_{rev}}(\tilde x)) \end{array} $$

(6)

进而可得 RSGAN 的鉴别器和生成器的目标函数:

$$ \begin{array}{l} {L_D} = - {{\rm{E}}_{({x_r},{x_f})\sim(P,Q)}}[\ln ({\rm{sigmoid}}(C({x_r}) - C({x_f})))] \end{array} $$

(7)

$$ \begin{array}{l} {L_G} = - {{\rm{E}}_{({x_r},{x_f})\sim(P,Q)}}[\ln ({\rm{sigmoid}}(C({x_f}) - C({x_r})))] \end{array} $$

(8)

式中, sigmoid 表示鉴别器最后一层使用 sigmoid 激活函数.

剩余14页未读，继续阅读

罗伯特之技术屋

粉丝: 4494
资源: 1万+

C-VAE与VAWGAN在非平行语音转换中的融合提升

面向生成对抗网络的互优化，可实现可靠的语音识别

基于条件生成对抗网络的语音增强.pdf

机器学习生成对抗网络(附代码)

ChatGPT技术与生成对抗网络的结合.docx

ChatGPT技术的生成式对抗网络研究.docx

基于混合变分自编码器回归模型的软测量建模方法.docx

基于生成对抗网络的僵尸网络检测.docx

融合自注意力机制的长文本生成对抗网络模型.docx

使用 CycleGAN 进行生成式图像转换.docx

ChatGPT技术的生成对抗网络应用与对抗样本防御.docx

最新资源