多模态信息瓶颈下的非成对模态翻译问题的解决方法及其应用

20 浏览量更新于2023-10-12 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7598多模态信息瓶颈下的纽约州立大学水牛城Buffalo，NYshuangma@buffalo.eduDanielMcDuffMicrosoftRedmond，WAdamcduff@microsoft.comYale SongMicrosoftRedmond，WAyalesong@microsoft.com摘要深度生成模型已经导致了跨模态生成的重大训练这些模型通常需要在模态之间具有直接对应关系的配对数据。我们引入了新的问题，翻译实例从一个模态到另一个没有配对的数据，利用一个中间模态共享的其他两个模态。为了证明这一点，我们采取的问题，翻译images语音。在这种情况下，可以利用具有一个共享模态的不相交数据集，例如，图像-文本对和文本-语音对，其中文本作为共享模态。我们称这个问题为我们提出了一个多模态信息瓶颈的方法，学习之间的对应关系，从非成对的数据（图像和语音），利用共享的模态（文本）。我们解决了跳跃模态生成的基本挑战：1）使用单个模型学习多模态表示，2）桥接两个不相关数据集之间的域间隙，以及3）从未配对数据学习模态之间的对应关系。我们展示了图像到语音合成的定性结果;这是第一次在文献中报道这样的结果。我们还表明，我们的方法提高了性能的transmartecross-modal生成，这表明它提高了解决个别任务的数据效率。1. 介绍深度生成模型的最新进展在许多跨模态生成任务中显示出令人印象深刻的结果，包括文本到图像[36]，文本到语音[27]，图像到视频[29]，视频到声音[56]合成。训练这些模型通常需要大量配对样本，这些样本在来自不同模态的实例之间具有直接对应关系，这限制了它们对新（已经进行了一些尝试产品编号：https://github.com/yunyikristy/skipNet图1.跨模态生成通常需要模态之间具有直接对应关系的配对数据。然而，该数据并不总是可用的（例如，图像到语音），在这种情况下，可以通过经由中间模态（文本）桥接两个现有数据集来完成生成。我们提出了一种方法，直接生成输出的学习多模态对应从不成对的数据提供多个不相交的数据集。为了消除图像到图像跨域转换的上下文中的这种约束，在具有循环一致性约束的未配对示例上训练网络[58，59，9]。然而，那些方法通常假设两个域来自相同的模态，例如，马和斑马的图像;正如我们稍后所展示的，这些方法在假设不再成立的跨模态场景（例如图像到语音）中往往会失败。在这项工作中，我们的目标是学习从一个模态到另一个模态的映射，我们的主要思想是利用现成的数据集，不直接提供配对样本的两种方式，我们感兴趣的，但有“跳过”的对应关系，通过一个共享的两个所需的方式。例如，对于图像到语音合成，我们可以利用具有图像-文本和文本-语音对的两个现有数据集，其中文本用作共享模态。对此的一个简单的解决方案是分别训练两个网络，每个网络用配对数据解决任务中的任一个，并依次运行它们，例如，给定一个图像，生成文本，并使用它来生成语音。然而，这种方法不是端到端可训练的，并且存在几个问题，例如两个模型之间的域差异和信息丢失。我们引入了一个新的任务跳跃模态生成，旨在通过“跳过”一个跨模态转换为另一个模态7599A，i A，ii=1由两个不同的数据集共享的中介模态。有几个原因可以解释为什么这是一个需要解决的有趣问题。从实践的角度来看，利用现成的数据集来解决新任务可以实现新的应用。此外，用多个数据集训练单个模型可能会提高数据效率，提高每个数据集最初设计的任务的性能;后来，我们根据经验证明了我们提出的模型确实如此。从理论的角度来看，跨多种模态转换的能力可能表明该模型更接近于找到不同感觉输入的统一抽象表示[33，12]。实现这一点意味着来自一个的信息可以被转换成任何其他模态。我们的实验表明，我们提出的方法可以跨不同的图像，文本和语音模态的组合翻译实例。我们专注于解决跳跃模态生成中的三个关键挑战：学习以统一的方式表示多模态数据、解决多数据集域不一致性、以及学习来自未配对数据的对应性。为此，我们提出了一种新的生成模型，可在多个不相交的数据集上以端到端的方式进行训练。我们的模型由特定于模态的编码器/解码器和一个多模态信息瓶颈（MIB），学习如何在一个共享的潜在空间中表示不同的模态。MIB将每个模态特定编码器输出变换到共享模态空间（例如，文本），并通过作为信息瓶颈的内存网络进一步处理它[43]。这有助于我们获得多个模态的统一抽象表示，捕获我们通过共享模态解决两个跨模态生成任务来训练我们的模型，使模型能够学习多模态对应。我们使用两个现有的数据集-提供图像-文本对的COCO [ 6 ]数据集和提供据我们所知，这是第一次报告图像到语音合成的结果。我们还评估了我们的方法在每个跨模态生成任务的数据集最初收集，并表明我们优于以前的国家的最先进的方法在每个任务，这表明我们的方法也提高了数据效率。为了总结我们的贡献，我们：（1）引入跳跃模态生成作为多模态表示中的一个新任务。2. 相关工作跨模态合成：在涉及语言、视觉和声音的跨模态合成方面已经取得了很大的进展。对于视觉和语言，图像到文本的合成（图像字幕）一直是一项受欢迎的任务，其中注意力机制已经显示出特别强的结果[48，52，54，28，32，2]。在文本到图像合成中，大多数现有方法基于深度生成模型[14，23]。Reed等人[36]Zhanget al.[55]他们是最早显示出有希望的结果的人使用注意力机制已报告了进一步的改进[53，26]。对于语言和声音，语音到文本（ASR）可能是最成熟的研究主题，深度学习已经取得了很大进展[17]。使用深度神经网络的文本到语音合成最近受到了很多关注，其中包括WaveNet [44]，DeepVoice [4，13，34]，VoiceLoop [42，30]，Char2Wav [39]和Tacotron [49，50]。我们的工作是不同的，从所有现有的研究线在跨模态合成，我们不需要配对的样本来训练一个模型。相反，我们利用不同数据集之间的共享模态来学习没有配对数据可用的模态之间的跳过对应关系。跨域合成：跨领域模态内合成也是一个广泛研究的课题。Pix2pix [19]是第一次尝试通过对配对数据进行训练来跨不同图像域进行翻译（例如，草图到照片）。从那时起，许多方法从无监督学习的角度解决了这个问题，消除了对配对数据的需要[58，41，26，5，21]。基于循环一致性的方法[58]在这个问题空间中特别有效。不幸的是，跨域合成方法往往失败的跨模态的情况下，因为不同的模态之间的较大的域间隙。我们在实验中经验性地验证了这一点。Lioret al. [41]在人脸和表情符号之间转换。它们利用面部具有刚性低维结构（例如，面部标志），并使用预先训练的人脸分类器来获得人脸和表情符号的有效表示。与他们的方法不同，在这项工作中，我们对数据类型没有任何假设。3. 方法给定具有一个共享模态的两个交叉模态数据集，例如，文本图像数据集A={（xtxt，ximg）}N学习;（2）提出一种学习正确的方法以及文本-语音数据集B={（xtxt，xspch）}M，与B，i B，ii=1来自非配对数据的模态之间的响应;（3）重新─端口逼真的图像到语音合成结果，这在以前的文献中没有报道;（4）表明我们的模型提高了数据效率，在跨模态生成任务上优于以前的结果。文本作为共享模态-我们的可以模拟所有三种模式的数据我们分别用特定于模态的编码器和解码器Ej和Dj设计我们的网络，其中j={文本，图像，语音}。注意我们模型的定义对modali是不可知的7600一编码器多模态信息瓶颈解码器ݔ模态Transformer记忆融合模块ݕݑݔݖݖBݖݑݕݑݖݔݑݕݔ模态分类器ݕ图2. 我们的模型由特定于模态的编码器E（·）和解码器D（·）以及学习在共享嵌入空间中表示不同模态的多模态信息瓶颈组成。我们使用两个涉及图像的不相交数据集端到端地训练模型文本和语音（A和B）。模态分类器C仅在训练期间使用。关系;编码器/解码器可以根据数据集和应用换出我们的主要技术贡献是多模态信息瓶颈（MIB），其由模态TransformerT和记忆融合模块M组成（参见图2）;模态分类器C仅在训练期间使用。T将来自不同编码器的输出变换到共享模态空间（文本）中;M充当信息瓶颈[43]，并进一步处理信号以产生紧凑、统一的抽象表示。我们使用输出来生成不同模态的实例。3.1. 模态特定编码器图像编码器：我们将图像馈送到三层CNN并执行最大池化以获得输出eimg∈R512。文本编码器：我们通过一个66个符号的可训练查找表将文本处理成一个128-D字符级嵌入然后，我们将每个嵌入馈送到两个全连接（FC）层中。输出序列被馈送到CBHG [49]以获得128-D嵌入的序列;我们使用[49]的原始参数设置。最后，我们在序列上应用平均池化，并将其馈送到具有512个单元的一个FC层中，以获得输出etxt∈R512。语音编码器：我们使用80个频带从音频波形中提取梅尔频谱图，这是声音的时频表示。我们将其视为维度为t× 80的单通道图像，其中t表示时间。我们将其馈送到一个两层全卷积网络中，并使用具有512个单元的GRU [8]进一步处理它，一次馈送5 × 80块。我们将GRU的最后一个状态作为输出espch∈R512。3.2. 多模态信息瓶颈神经科学家已经开发出理论，即大脑形成多模态信号的统一表示[12，33]。在计算上对此进行建模是非常具有挑战性的，因为包含在不同模态中的信息通常不能直接比较。模态之间的实例映射不是双射的，也不是单射的，也不是满射的。在文本和图像/语音之间尤其如此;句子“There is a little blue bird”可以映射到描绘鸟的不同形状和姿势的图像，或者映射到具有不同语调、音调、重音和节奏的语音信号。相反，某些图像和声音是无法形容的。为了解决多模态数据建模的问题，尽管有这些挑战，我们关注于如何结构化和紧凑的文本表示;图像和音频包含比文本具有更高可变性程度的更丰富的信息。因此，我们使用文本作为管道来学习图像和语音之间的对应关系这具有信息瓶颈的影响[43]，这限制了某些特定模态信息的流动，并帮助模型学习从未配对的数据中对齐图像和语音。模态Transformer：我们从转换开始-从图像和语音形式到共享的语篇形态诱导的潜在空间。模态TransformerT是将每个模态ej的嵌入映射到zj∈R256的三层残差网络。为了确保执行所需的转换，我们使用一个对抗性的目标，鼓励zj是indis- tinguishable从彼此相对于文本模态。为此，我们设计了一个模态分类器C，它具有两个FC层和一个代表三种模态的3路softmax分类器。然后我们将对抗性损失定义为Ladv=min max LT+ LC（1）T C7601一B一B一B图像编码器原始图像文本编码器字符嵌入语音编码器梅尔谱图图像解码器文本解码器语音解码器2×4×图像文本序列梅尔谱图图3. 模态特定编码器和解码器的架构。我们在辅助材料中提供参数设置。其中最小最大博弈定义为两项ΣLT= −EΣlogC（T（eimg））txtΣ Σ- - E级logC（T（espch））txtΣLC=−EΣlogC（zimg）imgΣ Σ— ElogC（zspch）spchΣΣ-ElogC（ztxt）txtΣ Σ— ElogC（ztxt）txt其中C（·）j意味着我们从相应的范畴中获取值为了与GAN训练[14]进行类比，C充当模态鉴别器，T试图欺骗C相信所有zj都来自文本模态。在实践中，我们添加了梯度反转层[11]来训练我们的模型，而不必在最小-最大目标之间进行选择。记忆融合模块：接下来，我们提取具有在成对模态之间共享的最相关信息的统一抽象表示u，j一个原则性实现这一点的方法是通过信息瓶颈（IB）方法[43]，该方法寻求一种编码机制，当使用一组外部变量表示时，该编码机制最大限度地保留输入信号中的信息。我们的记忆融合模块的设计部分受到记忆网络[51]和多头自我注意力[45]的启发。简而言之，我们定义一个外部存储器M，其存储表示模态不可知的图4. 多模态信息瓶颈的体系结构。作为M中的基向量的线性组合，其权重由缩放的点积注意[45]给出，“抽象概念”，这是所有涉及的模态所共有的。模型在向前传递期间从存储器读取，并且在反向传播期间写入到存储器我们使用uj=softmax.zjKT/√ΣDK 男（2）多头自注意[45]作为我们的编码机制，相对于共享M将zj编码为uj。形式上，我们定义一个外部存储器M∈Rnk×dk，其中nk是基向量的个数，dk是每个基向量的维数.我们还定义了一个中间变量K∈Rnk×dk，我们使用它与M一起形成我们通过将M与256个大小为1的 1D内核进行卷积来计算K最后，我们计算uj直观地说，zj用作查询来搜索相关键，确定从存储器中读取的位置。softmax内部的缩放点积可以理解为查询和键之间的我们采用四个部分头的多头自注意，使模块共同注意来自不同位置的不同子空间的记忆融合模块的训练：使嵌入LSTMLSTM嵌入式FC层重塑Conv2d嵌入式注意RNN RNN RNN解码器RNN解码器RNN解码器RNNCBHGConv2DConv2DBatchNormConv2DMax-pooling嵌入FC层-脱落CBHG平均池化FC层嵌入2×Conv2DBatchNormGRU×× × ×× ×××最终GRU状态嵌入7602一一BB甲乙丙期望的信息瓶颈效应要求仔细设计学习目标。一种流行的方式是对每个模态施加自动编码器类型的重构损失。在我们的场景中，这对应于，例如，uimgreconstructingximg. 虽然这将有助于网络学习为了限制每个模态内存在的多余信息，它将错过学习跨模态对应的机会。最重要的是，这将防止网络学习模态不可知的表示，这对于跳过模态生成很重要，而是学习由不同模态表示的冗余概念因此，我们解决了由两个配对数据集提供的跨模态生成任务。具体而言，我们的目标是模式。我们共享外部存储器以编码来自不同模态的嵌入。在我们的跨模态重构目标的训练下这使我们能够获得紧凑的多模态数据表示在第4节中，我们证明了这不仅提高了跳过模态生成的泛化能力，而且提高了每个单独的跨模态生成任务的数据效率。3.3. 模态特定解码器图像解码器：我们将uj馈送到一个具有1024重建xj关于UJ而xj关于UJ在跨模态单位，并将输出重新整形为R4×4×64. 然后我们时尚.我们将损失定义为L重建= Limg+ Lspch+ Ltxt（三）使用四个解卷积层对其进行上采样，以生成大小为128× 128像素的图像在训练期间，我们A BA，B我们使用图像和语音模态的l1ΣNutxt到解码器用于交叉模态生成。文本解码器：我们使用两层LSTM作为文本解码器。在使用uj初始化它之后，我们展开它以生成Limg=1ximg−Dimg（utxt）直到我们得到句尾标记。期间一i=1A我A我训练时，我们将Uimg或Uspch馈送到解码器。Lspch=1ΣMxspch−Dspch（utxt）语音解码器：我们使用的是[47]它包含一个注意力RNN（一个两层残差Bi=1B我B我具有256个单元的GRU）和解码器RNN（单层对于文本模态，我们使用交叉熵损失：GRU，256个细胞）。我们用uj初始化两个RNN，并展开它们以生成一系列t× 80的mel谱图。L文本1ΣN=−.ΣCExtxt，Dtxt（uimg）大块的在每一步，我们预测多个，非重叠这是一种可以加速转换的方法甲乙丙Ni=11ΣMA我.A我Σgence [49].我们使用Griffin-Lim算法[15]将预测的梅尔频谱图转换为音频波形-CExtxt，Dtxt（uspch）（六）txtMB，iB我在培训期间，我们为您在解码器中，在推断时-i=1在这里，我们根据66个符号类别逐个字符地比较两个句子。注意，Ltxt的计算取决于A和B两者，并且文本解码器必须用作图像到文本生成器和语音到文本生成器的双重目的。这使得我们的网络能够学习图像和语音之间的跳跃模式对应关系它还最大限度地提高了我们的内存融合模块中的信息瓶颈效应，因为外部存储器的条件是所有三种组合的方式。多模式信息瓶颈的解释：MIB中的两个组件通过相关但不同的目标相互补偿。模态Transformer将这有助于我们以更稳定的方式进一步处理信号;否则，存储器融合模块必须处理来自三个不同空间的信号，这三个不同空间可能具有不同的统计特性。然后，存储器融合模块鼓励u，j包含在u，j之间最相关的对应信息。有时我们馈送uimg用于跳过模态生成。3.4. 学习目标与优化我们通过最小化损失函数来训练模型L=L重建+αLadv（7）这里我们设α=0。1在我们的实验中我们使用ADAM优化器 [22] 从头开始训练整个网络，初始学习率为0.002。我们使用8个批量训练我们的模型100个epoch。4. 实验我们从两个角度评估我们提出的方法：1）图像到语音合成; 2）多模态建模的有效性。我们在两个数据集上训练模型：包含图像文本样本的COCO [ 6 ]，以及包含22，377个美式英语音频文本样本的内部数据集EMT-4，总共24小时。所有的音频样本都由一个女性说话者读取。NM7603图5. 图像到语音合成结果。出于演示的目的，我们手动转录了音频结果。红色：不正确的单词预测，绿色：与基线相比正确/更细粒度的单词预测，黄色：不正确的单词发音，蓝色：与基线相比正确 / 更好的单词发音。音频样本可在https://bit.ly/2U7741S4.1. 跳过模态生成我们定性和定量地验证了图像到语音合成的跳过模态生成，将我们的与两个基线进行比较：分段方法和CycleGAN [58]。分段方法依次使用两个单独的模型[54] ，例如，图像到文本，然后是文本到语音。CycleGAN [58]最初被提出用于从未配对的数据进行图像到图像的转换。为了了解模型如何推广到跨模态的情况，我们直接在两个数据集的图像和音频样本上训练它。为了进行公平的比较，我们使用与我们相同的编码器-解码器架构设计了两个基线，并使用相同的数据集从头开始训练它们。定性评价。我们让七位人类评委评估我们的跳跃生成模型和两个基线生成的语音。二十语音样本生成使用的模型，导致140个独立的评价。评委们看到了源图像，并听取了演讲。他们被要求选择具有最准确内容的音频样本和具有最接近人类声音的语音的样本。他们还选择了他们认为最高的样本-所有质量。样品的例子可以在这里找到：https://bit.ly/2U7741S平均78.6%（标准差= 27.6%）的受试者选择了我们的最高质量内容。基于音频质量，65.0%（标准差= 35.7%）的受试者认为我们的质量最高基于总体质量，74.3%（标准差= 33.9%）的受试者选择了我们的。总之，我们的受试者选择我们的频率是基于所有三个质量指标的其他基线的三倍。图5显示了我们的用户研究中使用的一些示例;为了呈现的目的，我们手动转录合成的音频结果。我们从两个方面分析了结果：1）语音样本是否2)语音样本中的发音质量是否真实？分段方法有时会错误地预测单词，例如，图5（b）键盘与遥控器我们还看到，我们的方法产生的结果具有更细粒度的细节，例如，(g)飞行与滑雪，（h）摩托车未通过基线。这些表明，我们的方法是优于基线的建模多模态数据。分段方法的一个限制是不能处理数据集之间的域间隙某些概念出现在一个数据集中，但不出现在另一个数据集中。这确实是我们的情况：两个数据集的词汇表仅重叠26%（COCO有15，200个单词，EMT- 4有17，946个单词; 6，874字重叠）。这个领域差距问题反映在我们的结果中：（e）基线结果中“浆果”和“葡萄”的发音不正确，（ c ）和（f）也是如此。这些词（浆果7604B@1B@2B@3B@4WERCycleGAN [52]26.220.111.39.212.1分段[54]68.251.939.230.14.1我们69.252.140.829.93.9表1. 跳过模态生成结果。B@k是BLEU分数。B@1B@2B@3B@4苹果酒香料[第54话]70.953.740.230.4––[第52话]71.850.435.725.0––RFNet [3]76.460.446.635.8112.520.5UD [20]77.2––36.2113.520.3我们74.155.241.130.6––[20]78.963.248.137.0116.222.4[3]79.864.048.937.1117.822.5表2. COCO上的图像到文本生成结果葡萄、生日、药草）不出现在EMT-4数据集中，这意味着文本到语音模型必须执行零激发合成。这反映在图中。5（c，e，f）-见黄色文字。我们的结果显示，尽管在相同的数据集上进行了训练，但这些词汇表外的单词具有出色的质量。为了量化我们模型的单词表达能力，我们使用ASR [44]分析了合成语音的词汇量。我们的模型产生了2，761个唯一单词的词汇表，而分段基线产生了1，959个唯一单词;这是802个单词，比基线增加了40%。最后，我们在图6中显示了其他结果，其中我们从同一图像合成语音和文本作为输入（语音结果是手动转录的）。我们看到文本和语音结果在语义上非常相似，因为它们描述了相同的内容。这与上面的其他结果一起表明，该模型已经学会了提取多模态数据的统一抽象表示，因为不同的解码器可以可靠地合成包含类似内容的样本定量评价。为了定量评估图像到语音的合成结果，我们使用基于WaveNet [44]的预训练ASR模型，并将文本输出与COCO输入图像对应的地面实况句子进行比较。我们使用BLEU分数和单词错误率（WER）报告结果。表1示出了我们的方法以最高BLEU分数实现最低WER（除了BLEU-4）。4.2. 交叉模态生成为了以客观的方式评估我们的方法，我们转向跨模态生成，其中存在最先进的方法和广泛使用的每个任务的指标。图片→文字：我们比较了四个最近的图像帽-表3. 语音转文本（左）和文本转语音（右）结果。BLEU-1 /I2TWER /S2T我们的w/oM65.26.99我们的M →FC65.96.32我们的，不含T68.66.01Ours w/oLadv69.85.87我们74.13.88表4.对图像到文本（I2T）和语音到文本（S2T）的消融结果，评估包括记忆融合模块（ M ）、模态 Transformer（T）、对抗性损失（Ladv）的不同模块的贡献M→FC意味着我们用两个FC层代替M以匹配参数的数量。型号：[24][25][26][27][28][29结果示于表2中。请注意，我们的方法（我们的）使用3层CNN作为图像编码器，而所有四个基线都使用更深的CNN，并对额外的数据集进行预训练/微调具体来说，ATT和SAT都使用GoogleNet [40] 作为图像编码器， GoogleNet [40] 在ImageNet [ 10 ]上进行了预训练尽管我们的模型使用了更浅的CNN，但它的性能远远优于ATT和SAT。其他两个基线使用更复杂的图像编码器：RFNet [20]结合了ResNet-101[16] ， DenseNet[18] ， Inception-V3/V4/Resnet-V2 [40]，所有这些都在ImageNet [ 10 ]上进行了预训练。 UpDown（UD）[3]使用更快的R-CNN [37]，Resnet-101 [16]在ImageNet [10]上进行预训练，并在Visual Genome [24]和COCO [6]上进行微调。为了公平比较，我们用RFNet（Ours w/ [20]）和UD（Ours w/ [3]）替换了3层CNN。与基线相比，这提高了性能，并显示了我们方法的数据效率：因为我们的模型可以有效地处理多模态数据，即使模态不匹配，它也可以利用外部数据源。这有助于我们的模型从大量的数据中学习更强大的多模态表示，这是传统的双模态模型所不可能做到的。语音→文本：我们将我们的方法与四种ASR模型进行了比较， DeepSpeech2 [1] ， Seq2Seq [7] ， PolicyLearning [57]和Gated Convnets [25]。所有模型都是在LibriSpeech语料库上进行端到端训练的[31]。特别地，与我们的模型类似，Seq2Seq模型结合了多头注意力[46]来关注编码特征的多个位置。为了进行公平的比较，我们在LibriSpeech语料库上微调了我们的模型。表3显示我们的模型优于基线WERWER政策[57]5.42[35]第三十五话10.8DeepSpeech2 [1]5.15[49]第四十九话10.6GateConv [25]4.80Tacotron 2 [38]10.5Seq2Seq [7]4.01消费税[50]10.2我们3.88我们10.57605图6. 图像到语音（I2S）和图像到文本（I2T）合成结果。手动转录I2S结果以供展示。语音转文字的任务我们的多模态信息bottleneck是在更大范围的数据上训练的，这有助于它们学习更强大的表示。此外，由于文本模态来自两个不相关的数据集，因此跨模态重构损失（等式10）是不相关的。（3））强制模型解决更具挑战性的优化问题，这导致了我们实验中看到的改进结果。文本→语音：我们比较了四种文本到语音（TTS）模型：Tacotron [49]，Tacotron 2 [38]，Deep- Voice3[35]，and GST [50]. Tacotron [49]是一种仅在重建损失上训练的RNN-CNN自回归模型，而GST通过合并信息瓶颈层（他们称之为全局样式令牌）对其进行了扩展。对于两个基线，我们使用相同的Griffin-Lim算法[15]作为声码器。为了定量评估合成结果的质量，我们再次使用基于WaveNet [44]的预训练ASR模型来计算每个模型合成的样本的字错误率（WER）。表3显示所有三种方法的性能相似。我们认为一个限制因素是声码器，并期望使用WaveNet等深度声码器获得更好的结果[44]。消融研究。我们研究了模态TransformerT和记忆融合模块M的贡献，评估图像到文本和语音到文本的任务。表4报告了图像到文本实验的BLEU-1分数在这两个跨模态生成任务中，当我们移除内存融合模块M（我们的w/oM）时，性能显著下降。这表明M型的演奏最多在多模态数据建模中的重要作用。我们还将M替换为两个数量相似的FC层参数为M。这略微改善了性能（B@1/I2 T 65.2 vs. 65.9，WER/S2 T 6.99与6.32）。我们的模型仍然以较大的幅度（74.1和3.88）优于此基线。当我们移除模态TransformerT时，我们还看到性能显著下降。这表明了将特定模态嵌入到共享潜在空间中的重要性;如果没有这个组件，M必须处理来自三种不同模态的信号，这是一项相当困难的任务。我们还测试了对抗性损失的贡献（等式10）。（1）），我们用它来训练T。在没有这个损失项的情况下，每一次训练的结果与在没有T的情况下的结果相似，这表明对抗性损失在训练T中起着至关重要的作用。5. 结论我们提出了一个新的生成模型的跳跃模态生成。我们展示了我们的方法上的一个具有挑战性的图像到语音合成任务，没有配对的数据。与依赖于配对数据的可用性的传统跨模态生成不同，我们的模型使用文本作为共享模态，从两个不相关的数据集（图像到文本和文本到语音）直接学习图像和语音之间的对应关系。我们在图像到语音合成以及各种跨模态生成任务上显示了令人满意的结果，这表明该模型也受益于提高的数据效率。7606引用[1] Dario Amodei等人深度演讲二：英文与国语之端到端语音辨识。InICML，2016.[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。[3] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。[4] SercanOümerArik， Mik eChrzano wski， AdamCoates ，GregDiamos，Andrew Gibiansky，Yongguo Kang，XianLi，John Miller，Jonathan Raiman，Shubho Sengupta，and Mohammad Shoeybi.Deep Voice：实时神经文本到语音。ICML，2017。[5] Sagie Benaim和Lior Wolf。单侧无监督的域映射。在NIPS，2017年。[6] 陈新蕾，方浩，林宗毅，罗摩克里希纳·韦丹坦，索拉布·古普塔，彼得·多尔，和C.劳伦斯· 齐特尼克。Microsoft COCO 字幕：数据收集和评估服务器。CoRR，abs/1504.00325，2015。[7] Chung-Cheng Chiu，Tara Sainath，Yonghui Wu，RohitPrab- havalkar，Patrick Nguyen，Zhifeng Chen，AnjuliKannan，Ron J.Weiss，Kanishka Rao，Katya Gonina，Navdeep Jaitly ， Bo Li ， Jan Chorowski ， and MichielBacchiani.采用序列到序列模型的最新语音识别技术在ICASSP，2018年。[8] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。在EMNLP，2014年。[9] Yunjey Choi、Min-Je Choi、Munyoung Kim、Jung-WooHa、Sunghun Kim和Jaegul Choo。StarGAN：用于多域图像到图像翻译的统一生成对抗网络在CVPR，2018年。[10] J. Deng，W.东河，巴西-地索赫尔湖李凯李飞飞。Imagenet：一个大规模的分层图像数据库。 2009年IEEE计算机视觉和模式识别会议，2009年。[11] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督ICML，2015。[12] 玛丽·H·贾尔德和弗兰克·贝隆内。人类多模态物体识别过程中的听觉-视觉整合：行为和电生理研究。认知神经科学杂志，11（5）：473[13] Andrew Gibiansky，Sercan Arik，Gregory Diamos，JohnMiller，Kainan Peng，Wei Ping，Jonathan Raiman，andYanqi Zhou.低沉的声音2：多说话者神经文本到语音转换。在NIPS，2017年。[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS。2014年[15] D.格里芬和宰林基于修正短时傅立叶变换的信号估计。IEEE Transactions on Acoustics ， Speech ， and SignalProcessing，1984.7607[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），2016年。[17] Geoffrey Hinton，Li Deng，Dong Yu，George Dahl，Abdel- rahman Mohamed ， Navdeep Jaitly ， AndrewSenior ， Vincent Vanhoucke ， Patrick Nguyen ， BrianKingsbury，et al.用于语音识别声学建模的深度神经网络。信号处理杂志，2012年。[18] G. Huang，Z.柳湖，加-地v. d. Maaten和K. Q.温伯格密集连接的卷积网络。2017年[19] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA.埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR，2017年。[20] Wenhao Jiang，Lin Ma，Yu-Gang Jiang，Wei Liu，andTong Zhang.用于图像字幕的递归融合网络。VittorioFerrari ， Martial Hebert ， Cristian Sminchisescu 和 YairWeiss，编辑，ECCV，2018。[21] Taeksoo Kim 、 Moonsu Cha 、 Hyunsoo Kim 、 JungKwon Lee和Jiwon Kim。学习发现跨域关系与生成对抗网络。ICML，2017。[22] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。见ICLR，2014年。[23] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。见ICLR，2014年。[24] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson ， Kenji Hata ， Joshua Kravitz ， StephanieChen，Yannis Kalantidis，Li-Jia Li，David A.作者：Michael S.伯恩斯坦和李飞飞。可视化基因组：使用众包密集图像注释连接语言和视觉。 InternationalJournal of Computer Vision，2017。[25] Vitaliy Liptchinsky ， Gabriel Synnaeve ， and RonanCollobert. 基于字母的语音识别。 CoRR ，abs/1712.09444，2017。[26] Shuang Ma，Jianlong Fu，Chang Wen Chen，and TaoMei. DA-GAN：实例级图像。在CVPR，2018年。[27] 马爽，丹尼尔·麦克达夫，耶鲁·宋。神经TTS风格化与对抗和合作游戏。2019年，在ICLR。[28] AlexanderMathews ， LexingXie ， andXumingHe.Semstyle：学习使用未对齐的文本生成风格化的图像标题在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。[29] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测。ICLR，2016年。[30] Eliya Nachmani，Adam Polyak，Yaniv Taigman和LiorWolf。根据一个短的未转录的样本拟合新的扬声器。在ICML，2018。[31] Vassil Panayotov，Guoguo Chen，Daniel Povey，andSanjeev Khudanpur.自由语：一个基于公共领域有声读物的ASR语料库。在ICASSP，2015年。美国电气与电子工程师协会。[32] Cesc Chunseong

下载后可阅读完整内容，剩余1页未读，立即下载