可控表达性TTS系统的参数

115 浏览量更新于2024-01-25 收藏 548KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响8（2021）100055原始软件出版物ICE-Talk 2：可控表达性TTS与感知评估工具的接口NoéTits，Kevin El Haddad，Thierry Dutoit地址：31 Boulevard Dolez，7000 Mons，Belgium自动清洁装置关键词：可控表达语音合成接口知觉实验考核评价A B标准在本文中，我们提出了开放源代码1工具，便于使用可控的TTS系统在实验中，跨域的TTS系统的民主化。ICE-Talk是一个基于Web的GUI，允许使用通过文本字段和可点击的2D绘图，可控制TTS系统的参数。它使可控TTS的潜在空间的研究。提供了一种设计感知实验的工具，包括三个步骤：预先合成覆盖代表可控维度的2D图的样本，包括模板问题内的此界面，并将其集成到称为turkle的Mechanical Turk系统代码元数据当前代码版本v2用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2020-65可再生胶囊的永久链接https://codeocean.com/capsule/6457578/tree/v1合法代码许可证Apache 2.0使用git的代码版本控制系统使用python的软件代码语言、工具和服务编译要求、操作环境依赖性如果可用，链接到开发人员文档/手册https://github.com/noetits/ICE-Talk/blob/master/README.md支持电子邮件，以了解问题1. 导言和动机语音合成是人机交互的重要组成部分。然而，到今天为止，在这种交互中，由文本到语音（TTS）系统生成的语音的表达性还没有得到充分的研究。原因是在基于深度学习的TTS系统中难以访问控制语音表达的变量[1]。为了解决这个问题，我们提出了一种工具，允许通过图形界面控制这些变量，从而有助于使用基于深度学习（DL）的TTS系统的民主化。该接口允许通过基于DL的模型的潜在空间直接和直观地控制基于DL的模型的合成参数以图形的方式。因此，它允许实施几个有趣的应用程序和实验，如听力测试，由于实验的简单原型，这种系统的评估。实际上，在语音合成中，众所周知，客观测量质量的概念有时会产生误导，因为它们并不总是与主观感知很好地相关。有一些工具可以通过主观测试来评估合成语音的自然度。然而，可控表达语音合成领域需要实验和协议来评估这种系统的可控性。本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。*通讯作者。电子邮件地址：noe.tits@ alumni.umons.ac.be（N. 乳房）。1https://github.com/noetits/ICE-Talk。https://doi.org/10.1016/j.simpa.2021.100055接收日期：2020年12月20日;接受日期：2020年12月22日2665-9638/©2021作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsN. 奶子，K。El Haddad和T.Dutoit软件影响8（2021）10005522. 相关工作到目前为止，有一些开源Web接口允许使用DL TTS模型。2它们允许编写文本，发送到模型并获得合成语音作为一个可以收听的音频对象。因此，文本是我们可以访问的唯一控制变量。最近，基于Tacotron团队的研究开发了允许给出具有扬声器特性的TTS音频的接口3[2，3]。它允许选择参考音频文件并从模仿参考声音的文本合成语音。然而，不可能与表示声学可变性的潜在空间相互作用。ICE-Talk [4]提供了一个能够可视化和探索语音表达空间并合成相应表达语音的Web界面，它是基于[5]的概念证明。然而，这种系统的可控性方面是难以评估的，并且需要设计感知实验，其中用户必须解决测量这种可控性的任务。在本文中，我们提出了一个扩展版本的ICE谈话，允许研究可控表达TTS的可控性。它是一个集成的界面内的问卷模板，使之有可能建立感知实验，涉及用户与ICE的谈话互动。3. 关于ICE-Talk 23.1. 系统架构图 1描述了系统架构的不同组件。它由在表达数据集上训练的DL无监督TTS模型组成（见第3.2节）。为了使该模型可用作Web服务，并在Web界面和TTS模型之间传递文本、音频和风格信息，使用Falcon Web框架4。Falcon允许弥合python代码和Web界面之间的差距，允许通过Web应用程序使用深度学习框架（见图1）。 2）的情况。3.2. 基于可控DL的TTS我们使用深度卷积文本到语音（DCTTS）的修改版本[6]，这是一种最先进的深度学习序列到序列（seq2seq）模型，通过设计用于表示语音风格变化的潜在空间具有可控的表现力，如[5]所述。TTS seq 2seq模型通常由编码器-解码器结构组成。文本被编码为一个潜在的表示，然后用基于注意力的解码器解码，以预测梅尔频谱图反转成音频波形。在[5]中，为了获得用于可控表达的语音风格表示，添加了梅尔频谱图编码器。它由1D卷积层堆栈组成，然后是平均池化，以获得8D编码向量。该操作确保获得时不变信息。因此，它可以包含关于韵律统计的信息，例如音高平均值、平均说话速率，但不包含音高演变。3.3. Web界面该接口包含潜在空间的2D表示，该潜在空间是网络数据分布的内部表示。这种2D表示是通过应用于系统的高维潜在空间的降维来获得的。该接口还3https://github.com/CorentinJ/Real-Time-Voice-Cloning。4https://falcon.readthedocs.io/en/stable/。Fig. 1. 系统架构。图二. ICE-Talk网页界面。它由文本字段、表示包含在数据集中的声音可变性的潜在空间的图像以及用于收听的音频播放器构成到合成的话语。包含用于系统输入的文本框隐空间表示输出语音的一些控制参数（例如表达能力）的分布，并且是经过训练获得的。N. 奶子，K。El Haddad和T.Dutoit软件影响8（2021）1000553图三. 任务示例。通过编写文本并点击2D空间上的一个点，生成一个音频信号，其中参数值与点击的点相对应。Web界面以HTML5和JavaScript实现，以使用该服务。降维有几种可能性：UMAP ，PCA或 t-SNE。鼠标的点击使用JavaScript以像素坐标检测并映射到缩减的数据空间。然后使用最近邻回归来计算2D数据点，并且查找表给出潜在空间的对应8D点。文本和8D矢量被馈送到生成句子的模型，并将其保存到wav文件中。音频wav文件然后作为HTML5音频对象提供和播放3.4. 感知评估工具研究可控表达文语转换系统的可控性然后可以使用界面来播放对应于空间的不同区域的预合成样本。示范可以从github repository获得5我们提供了一个问题模板，如图3所示，它包括这个界面，可以集成在turkle中，turkle是一个开源的Web服务器，相当于亚马逊此模板显示了一个参考音频，用户应该通过点击它来探索2D空间。然后，可以要求参与者使用2D界面来产生与给定参考中相同的表现力。我们假设，如果参与者能够在空间中找到与参考相对应的表现力，这意味着他能够使用这个界面来找到他心目中的表现力我们提供了一个设计感知测试的工具首先，我们提供了一个Python脚本来生成一组预定义的sentences，通过将其离散化为一组点来覆盖2D潜在空间5https://github.com/noetits/ICE-Talk。6https://github.com/hltcoe/turkle。N. 奶子，K。El Haddad和T.Dutoit软件影响8（2021）10005544. 结论和今后的工作我们提出了ICE-Talk的扩展，[5]的研究结果的概念证明，这是一种允许构建涉及用户与ICE-Talk交互该工具将能够研究和评估可控表达TTS系统的可控性，以及参与者对系统的行为和感受。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作确认NoéTits的资金来自FRIA（https://app.dimensions.ai/details/grant/grant.8952517）赠款（比利时工业和农业研究培训基金引用[1]N. Tits，一种控制合成语音中情感表达的方法-一种深度学习方法，在：2019年第8 届情感计算和智能交互研讨会和演示国际会议（ ACIIW ）， 2019 年，pp.1http://dx.doi.org/10.1109/ACIIW.2019.8925241[2] Y. Jia，Y. 张河，西-地 Weiss，Q. Wang，J. Shen，F. Ren，P. Nguyen，R. Pang，I.L.Moreno，Y. Wu等人，从说话人验证到多说话人文本到语音合成的转移学习，在：神经信息处理系统的进展，2018年，第10页。4480-4490[3] C. Jemine等人，自动多扬声器语音克隆（硕士论文），大学de Liège，列日，魁北克，2019年。[4] N. 奶子， K. E. Haddad ， T. Dutoit ， ICE-Talk ： an interface for a controlledexpressive talking machine，in：Proc.Interspeech 2020，2020，pp.482-483[5] N. Tits，F. Wang，K.E. Haddad，V. Pagel，T. Dutoit，通过音频分析控制表达性语音合成的潜在空间的可视化和解释，在：Proc. Interspeech 2019，2019，pp. 4475-http://dx.doi.org/10.21437/[6] H. 立花湾Uenoyama，S.Aihara，高效可训练的文本到语音系统基于具有引导注意力的深度卷积网络，在：2018年IEEE声学，语音和信号处理国际会议（ICASSP），IEEE，2018年，pp. 4784-4788

下载后可阅读完整内容，剩余1页未读，立即下载