自我注意力转移网络的语音情感识别方法与虚拟现实智能硬件

158 浏览量更新于2024-01-24 收藏 811KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Citation：Ziping ZHAO，Keru Wang，Zhongtian BaO，Zixing ZHANG，Nicholas Jummins，Shihuang SUN，HaishuaiWANG，Jianhua TAO，Björn W.舒勒。用于语音情感识别的自我注意力转移网络。虚拟现实智能硬件，2021，3（1）：43-54DOI：10.1016/j.vrih.2020.12.002虚拟现实智能硬件2021年12月3日第1·文章·用于语音情感识别的自注意转移网络ZipinggZHAO1，KeruWangg1，ZhongTianBAO1，ZixinggZHANG2，Nichola s as as amINS3，4，Shihuang gSUN5，HainiWanG5，JianhuaTAO6*，BjornW. SCHULLER1，2，31. 天津师范大学计算机与信息工程学院，天津3003872. GLAM语言组，音频音乐，伦敦帝国理工学院，SW7 2AZ，英国3. 德国奥格斯堡大学嵌入式智能医疗保健和健康讲座，861594. 生物统计学和健康信息学系，IoPPN，伦敦国王学院，伦敦，SE5 8AF，英国5. 美国费尔菲尔德大学计算机科学与工程系6. 中国航天科学院模式识别国家重点实验室，北京100190*通讯作者，jhtao@nlpr.ia.ac.cn投稿时间：2020年9月17日修订日期：2020年12月28日接受日期：2020年12月29日国家自然科学基金（62071330）、国家杰出青年科学基金（61425017）、国家自然科学基金重点项目（61831022）、天津市自然科学基金重点项目（18JCZDJC 36300）、模式识别国家实验室开放项目、天津师范大学高级访问学者项目、欧盟地平线2020研究与创新计划和EFPIA支持的创新药物倡议2联合承担项目（115902）。摘要背景作为人机交互的一个关键因素，从人类语音中自动检测情感状态一直被认为是机器学习模型的一项具有挑战性的任务。语音情感识别（SER）的一个重要挑战是从语音中学习鲁棒的和有区别的表示。虽然机器学习方法已被广泛应用于SER研究，但可用的注释数据量不足已成为阻碍此类技术扩展应用的瓶颈。例如，在一个实施例中，深度神经网络）。为了解决这个问题，我们提出了一种深度学习方法，该方法将知识转移和自我注意力结合起来用于SER任务。在此，我们应用具有增量和增量-增量作为输入的对数梅尔谱图。此外，鉴于情绪是时间依赖的，我们应用时间卷积神经网络来模拟情绪的变化。我们进一步引入了一个注意力转移机制，它是基于自注意力算法来学习长期依赖关系。在我们提出的方法中，自我注意力转移网络（SATN）利用注意力转移从语音识别中学习注意力，然后将这些知识转移到SER中。基于交互式情感二元运动捕获（IEMOCAP）数据集的评估表明了所提出的模型的有效性。语音情感识别;注意转移;自我注意;时间卷积神经网络2096-5796/©版权所有2021北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.com虚拟现实智能硬件2021年12月3日第11介绍长期以来，自动识别人类语音的情感状态一直被认为是机器学习算法的一项具有挑战性的任务。如何从语音信号的声学内容中提取鲁棒性、区分性和情感显著性特征的问题对于语音情感识别领域的研究人员来说仍然至关重要。各种机器学习方法已经解决了这一挑战。最近，递归神经网络（RNN）在语音情感识别（SER）方面表现出优越的性能[1- 3]。RNN优于其他模型，因为它们能够学习顺序语音数据，并且在许多相关的语音问题上也表现得非常好[4，5]。然而，这些框架也受到某些限制的影响。首先，RNN非常难以训练[6]。此外，RNN只能从语音数据中捕获有限的时间信息，这使得这种方法不适合处理长期数据[7]。多年来，机器学习研究人员一直致力于通过创新的训练架构和策略来促进RNN的训练[8]。为了解决这些挑战，最近提出了基于时间卷积网络（TCN）的方法。这种研究方法优于递归网络，因为它的训练复杂度要低得多。此外，这种方法可以更好地捕获长期依赖关系[9]。然而，TCN也有局限性，特别是与应对语音中长距离模式之间的依赖性有关[7]。自我注意机制[10]可以帮助捕获长期的上下文依赖关系，已经证明了它在几个自然语言处理（NLP）任务中捕获上下文依赖关系的能力[10- 13]最近，他们已经实现了最先进的SER性能[14]。然而，由于模型中包含的注意力机制，模型中可训练参数的数量有所增加，这对于较小的（关于唯一示例的数量）情感语料库来说是次优的[15]。然而，可以将注意力机制与迁移学习框架结合起来[16-19]。鉴于上述发现，我们提出了一个新的模型，利用一个精心设计的自我注意转移机制，以促进跨任务的SER的注意为基础的TCN范式的培训。最近注意力转移机制的成功鼓励我们为这些任务引入注意力转移网络（ATN）[4，16]。在本研究中，我们进一步探讨了基于TCN的自我注意模型和师生框架对SER注意转移的贡献。此外，受SER背景下3D对数梅尔频谱特征所取得的积极成果的启发[20，21]，我们还在本研究中采用对数梅尔、三角洲和三角洲-三角洲作为TCN模型的3D输入。我们进一步比较了师生框架和自我注意机制对注意转移的有效性。我们提出的模型具有许多优点：（1）它提供了一种基于TCN的自我注意力转移机制，能够捕获长期的时间模式及其依赖关系;（2）它自动转移来自语音识别的自我注意力，并同时解释应该同时转移的信息。鉴于教师网络是在类似的任务上训练的，我们的目标是提高学生网络的学习能力。据我们所知，这是第一次对SER任务进行这样的研究。2相关研究正如在引言中所讨论的，一些现有的研究已经应用了深度学习（例如，rnn和44ZHAOZipingetal：Self-atetintansfernet t tt a n s fer n et tworksforpe echemotinreci nt in ti nCNN）到SER任务[22- 24]。RNN的优点已经在SER的上下文中报道[1- 3，25，26]。最近，由于其有利的平行性，灵活的感受野和稳定的梯度，TCN[27]已被证明在各种任务中有效地捕获长距离模式[28，29]。此外，注意力机制在深度学习社区中已被广泛接受。应用注意力的最终目的是提高决策的准确性。注意力机制已成功用于语音识别[30]，NLP[31，32]和语音情感识别[3，26，33]任务。自我注意机制也被发现在各种任务中产生有希望的结果，包括NLP[10- 13]和与语音相关的任务[34，35]。与传统的机器学习方法不同，深度学习在很大程度上依赖于大量的训练数据[36]。然而，缺乏训练数据已成为SER中不可避免的问题[37]。因此，知识转移是一种在只有少量标记训练数据可用的情况下用于提高网络性能的技术，已广泛应用于不同的环境[38，39]。最近，一种称为注意力地图的知识转移机制[16]已经被应用于表明，学习较小的“学生”网络来模拟较大的注意力地图和高级“教师”网络架构可以在这些较小的网络中产生实质性的性能改进。作者将注意力用于从在线图像到视频的跨领域知识转移[17]。类似地，Zhuo等人提出了一种用于传统领域自适应的注意力转移方法[18]。然而，这两项研究都是基于CNN的，目前还没有关于TCN注意转移框架的研究。基于文献综述，我们发现现有的研究提供了令人信服的证据表明，增加自我注意和注意转移模块是有效的。因此，所提出的方法结合这两个模块的SER。迄今为止，没有现有的研究已经集成了这两个模型，这类问题。3该方法我们首先提供了一个介绍我们的方法在“跨任务”语音情感识别，然后详细描述了所提出的方法。3.1设计方法的框架所提出的方法包括两个关键任务：(1)语音识别，和（2）语音情感识别（图1）。所提出的方法的目的是提高性能的目标域（即。例如，语音情感识别）使用源任务中的空间注意力图（即，语音识别）。由于目标数据量不足，映射是在数据丰富的任务上学习的，因为在训练过程中获得了高质量的注意力。假定适合于训练自动语音识别（ASR）系统的数据的数量显著大于SER数据的数量图1所设计模型的框架。该模型首先训练基于自注意的编码器-解码器模型。在学习语音识别网络中隐藏层的参数后，模型冻结其参数。在下一步中，模型通过语音识别任务训练注意力权重，然后将这些权重输入语音情感识别系统。45k= 1=∑虚拟现实智能硬件2021年12月3日第1我们可以期望经训练的ASR系统对说话者和条件变化更鲁棒。因此，作为一种可能的解决方案，使用ASR作为源任务的迁移学习可能是情感识别中利用从语音识别任务中获得的知识的有效方法。从这个角度来看，在所提出的框架中包括三个关键模块：（1）我们训练基于注意力的编码器-解码器网络（或教师网络）用于语音识别以学习初始注意力图，（2）该模型通过应用自我注意力转移机制来模拟教师网络的注意力图来训练用于SER任务的（较浅）学生网络[16]，以及（3）我们的混合模型的最后一个组件是语音情感识别模块，其中TCN模块与自我注意力机制相结合。在所提出的模型中，TCN被用来捕获高层次的特征表示。后两节将进一步探讨自我注意机制的优点。3.2标准软注意标准的软注意力机制用于在解码阶段通过注意力权重（权重的信息序列）选择相关的编码隐藏向量[32]。在每个时间步长i，注意力权重αi，j通过使用softmax函数在存储器中归一化标量值ei，jα=exp（ei，j）i、j ∑Texp（ei，k），（1）其中ei，j是用于确定位置j周围的输入和位置i处的输出匹配得有多好的对准评分机制。计算如下：ei，j=α（si-1，hj），（2）其中si表示解码器的状态，hj表示隐藏状态序列的第j个条目h=h1，...，hT，且α是一个已知的参数m i n i c“e n e r g y f un cti on“。通常，使用非线性的单分层结构网络是一种简单的方法;然而，也使用了其他功能（s i-1和h j之间的相似性）[32]。值得注意的是，我们在本研究中使用tanh作为非线性激活函数。注意力层的输出，表示为ci，是编码器隐藏状态序列h的加权平均，其定义如下：ciTαi，jhj，（3）j= 1最后，基于si，ci更新解码器状态si，并且解码器输出yi如下：si=fi-1，yi-1，c，（4）yi=g（si，ci），（5）当fixed是一个TCN时，gixed是一个明显的非线性函数，它会占用输出空间的解码器状态。在本研究中，除非另有说明，“软注意”是指整体注意方法。在全局注意力中，考虑编码器的所有隐藏状态以使得能够导出上下文向量。3.3时域卷积网络与WaveNet[9]类似，在本研究中利用TCN学习时间动态表示[40]。46因果循环给定长度为T的序列数据x，我们表示x = x1，...， x T（其中x t表示i= 0时ZHAOZipingetal：Self-atetintansfernet t tt a n s fer n et tworksforpe echemotinreci nt in ti n在时间步t）和y=y1，...，yT（每个时间步的预测）。根据因果约束，yt的预测仅取决于过去的观测xt，而不取决于未来的观测。例如，双向RNN不属于因果约束[40]。扩张卷积。由于标准卷积具有一定的滤波器大小，因此它们的时间理解是固定的。在[27]之后，利用扩张卷积来实现指数大的感受野更具体地，给定输入x = x1，.， x T∈ RT，长度为T，滤波器f：0，...，k-的1π→ π，序列的元素s上的扩张卷积运算FF（s）=（x*df）（s）=∑k-1f（i）<$x（T-di ），（6）其中d表示膨胀因子，k表示滤波器大小，并且*表示卷积运算。当d= 1时，扩张卷积被简化为标准卷积。图2展示了一个扩张的因果卷积。3.4Self-attention自注意力被定义为一种基于编码器-解码器结构的注意力技术，该结构不采用任何形式的递归;相反，它使用图2扩展因果卷积的插图。输入序列的元素之间的加权相关性[10]。在这种范式下，编码器将输入序列映射到几个注意力矩阵中，而解码器使用这些矩阵来生成新的输出令牌。Transformer是一种利用自注意力的模型，已被证明在几个NLP任务中实现了最先进的性能，其计算成本比传统RNN低一个或两个数量级（取决于模型的大小）[11- 13]。应该注意的是，本节只关注编码器的实现，因为我们提出的混合网络不需要解码器。自注意力用于计算查询、键（输入的属性）和值（输出），- 通过输入序列X的线性变换，在给定的隐藏序列H中的帧，如下：Q=Wq X;K=Wk X;V=Wv X，（7）其中矩阵Q、K和V分别表示输入/输出序列的查询、键和值的集合，Wq、Wk和Wv表示学习的线性运算。对查询和关键字进行缩放点积运算以获得相似性权重，然后通过softmax函数对其进行归一化。注意力矩阵计算如下：2016 - 05 - 2500：00：00（8）其中dk是缩放因子，其被设置为K的维数。此外，Z是注意力矩阵（N×dk），其中N表示输入序列中的元素数量。3.5注意力转移网络最近关于注意力转移的研究主要集中在计算机视觉相关的任务和为CNN设计的空间注意力地图上[16，18]。在这些方法中，首先通过Lp范数池化来计算两个域的特定卷积层中的激活图，之后计算域差异。47QKTDKk= 1S1虚拟现实智能硬件2021年12月3日第1在注意力地图的二阶相关统计中最小化[18]。基于这一概念，我们设计了一个TCN的自我注意转移过程。关于基于激活的注意力模型，本节描述了用于定义空间注意力地图的方法，以及注意力信息如何在教师网络和学生网络之间传输。首先，给定一个卷积层，其激活张量A∈RC×H×W，其中C指的是具有空间维度H×W，空间注意力图由映射函数F表示（其中A是输入，空间注意力图作为F的输出），其表示如下：F：RC×H×W →RH× W。（九）由于隐藏单元的绝对值表示其相对于相应输入的重要性，因此可以通过从通道维度统计计算所有绝对值来设计空间注意力图。因此，我们有以下空间注意力映射：（F（A））i，j=∑C<Ak，i，jp，i∈$1，2，<$，Handj∈$1，2，<$，W，（10）其中i和j是空间索引。给定教师网络中的空间注意力地图，注意力转移旨在学习做出正确预测的学生网络，并学习与教师网络中相似的注意力地图。为了保持一般性，假设教师和考虑具有相同空间分辨率的学生注意力图。注意力地图可以插值以匹配形状。因此，损失可界定如下：LT=LSER+WAT×LAT，，（11）其中LSER表示语音情感识别任务中的损失，WAT表示注意力转移的比例，并且LAT表示注意力转移中的损失LAT可以计算如下：LAT=∑<$ Qj-Qj，（12）j∈I其中I表示注意力图索引，表示语音情感中的第j个识别，并且Qj表示讲话识别任务L1标准化的注意力图被用于注意力转移过程4实验和结果4.1数据集我们使用IEMOCAP数据集进行了实验，IEMOCAP数据集是语音情感识别研究社区中的一个基准数据集。IEMOCAP数据集包含两个演员的对话和视听记录的转换[41]。因此，我们能够使用该数据集执行语音情感识别和语音识别任务。IEMOCAP分为脚本和即兴部分。为了避免语义信息引起的混淆，我们只使用了即兴部分。表1中列出了每个情感类别的最终实例数。4.2特征在这项研究中，我们使用了一个3D logmels频谱图作为输入。我们的光谱图是使用[21]中概述的提取过程创建的。简而言之，来自40维梅尔尺度对数滤波器组的输出用于构建每个谱图。我们计算了帧长度和25 ms步幅上的特征SERSERS48ZHAOZipingetal：Self-atetintansfernet t tt a n s fer n et tworksforpeechemotinreci nt i n ti n表1四个情感类中的样本数量（即，快乐、中性、愤怒和悲伤）届会议N.H.S.A.总12231321046252122171911002253031981491909062741741958184534528728013331731总10999476082892943和10ms。在最后一步中，我们计算了声谱图的delta和delta-delta，它们反映了情绪变化的过程。在整个处理完成之后，原始的40维特征变为能够为分类器提供更多信息的120维特征。4.3实验设置和性能测量模型中的参数。我们所有的模型都使用PyTorch1框架实现。由于在时间和计算效率方面存在限制，我们将训练迭代次数设置为100。在我们的实验中，每个实验中的模型都训练了100个epoch。一旦每个时期的训练完成，保存模型的参数，并利用开发的IEMOCAP集来评估TCN性能。在开发集上调整模型之后，我们加载了在开发集上获得最佳性能的超参数，以在测试集上执行最终的情感预测。在IEMOCAP数据集上，我们使用leave-one-session out策略进行了五重交叉验证，与先前研究中使用的方法一致[33，42]。每个训练过程涉及使用来自四个会话的八个发言者作为训练数据;剩余的会话被分成两个部分，其中一个用作验证数据，另一个用作测试数据。为了进行注意力转移，训练源任务（语音识别），并收集从语音识别任务获得的注意力图。使用IEMOCAP数据集和基于自注意的编码器-解码器模型来训练语音识别模型。我们使用CMU发音词典[43]来减少语音识别任务中原始转录的状态数量。此外，我们使用了具有5层1D卷积模块的TCN，并且在语音识别预训练任务中将膨胀因子1，2，4，8和16用于编码器。我们使用了一个包含256个单个存储单元块的长短期记忆（LSTM）来进行解码。采用固定学习率为10- 4的Adam优化器训练编码器-解码器模型。在学习了TCN网络中的参数之后，我们冻结了网络的参数。在完成上述训练步骤后，该模型对语音情感识别模型进行训练。我们还应用TCN进行训练，学习率为10- 4。为了比较，我们使用BLSTM网络来代替TCN。在对比实验中，我们将3D logmels谱图作为输入输入到一层BLSTM网络中，该网络具有128个前向隐藏结节和128个后向隐藏结节。评价指标。使用标准评价标准评价两个数据集生成的结果。对于IEMOCAP生成的结果，使用的评价指标是未加权的准确性，第1页https://pytorch.org/49N虚拟现实智能硬件2021年12月3日第1加权准确度（分别为UA和WA）。4.4结果和讨论我们进行了实验，以验证自我注意力转移网络（SATN）的性能。为了进行比较，表2列出了在IEMOCAP上成功开发的四个基准模型的结果，这些模型采用了基于全局软注意力[32]的TCN和全局软注意力转移网络。我们还比较了所提出的方法与基于自我注意力的TCN模型没有注意力转移。表2在IEMOCAP数据集方法Dev.测试WA [ %]UA [ %]WA [ %]UA [ %]以前报告的方法DNN+ELM[44，45]-RNN+ELM[45]注意力+RNN[3]GMM+HMM[46]--57.9-62.9-63.5-55.052.163.958.860.3建议的自我注意力模型（AT表示注意力转移）BLSTM+软关注63.862.959.659.7BLSTM+自我关注63.764.560.060.5BLSTM+柔和注意力，带AT65.665.662.162.2BLSTM+自我注意w/AT66.968.163.864.5TCN+软关注65.566.661.862.5TCN+自我关注67.567.463.764.2TCN+软注意，带AT67.267.963.464.4TCN+自我关注w/AT68.669.565.066.1虽然RNN（例如，具有LSTM的RNN）已经证明了它们在语音情感识别方面的效率，但HHMM相对于这些新兴的SER LSTM的主要优势在于，基于HMM的架构在动态建模中也是有效的。因此，最新的方法利用基于HMM的架构也被纳入比较。为了监督注意力的产生，一个基于注意力的编码器-解码器模型被实现用于语音识别任务。对于语音识别模块，我们使用单词错误率（WER）作为评估指标，其定义如下：标记，预测值= 100 ×Ns +ND +NI%，（13）其中N表示单词的总数，并且Ns、ND和NI分别表示替换、删除和插入的数量。随后，在IEMOCAP的测试集上，利用基于TCN的自我注意力模型获得了47.7%的WER。从结果中，我们观察到所提出的方法在IEMOCAP数据集上的WA和UA方面优于现有方法（表2）。可以观察到，测试集上的最佳WA （65.0% ）和UA （66.1% ）以及开发集上的最佳WA（68.6%）和UA（69.5%）是通过我们的具有注意力转移机制的基于自我注意力的TCN模型实现的（表2）。这表明与[45]中给出的基线DNN-ELM模型相比有显著改善（单侧z检验中p<0.05我们还使用混淆矩阵（图3）来分析我们提出的50ZHAOZipingetal：Self-atetintansfernet t tt a n s fer n et tworksforpe echemotinreci nt in ti nIEMOCAP数据集上的方法。每个折叠实验应用混淆矩阵，并且通过平均所有矩阵获得最终混淆矩阵。我们观察到，悲伤和快乐是两个容易识别的类，他们的分类率相对较高，特别是悲伤的样本，达到70.13%的准确率与我们提出的方法。直觉上，悲伤的样本具有明显的语音特征，如低音和慢速。然而，在实验过程中，中性类遭受了更多的错误分类。一些中性的样本被错误地归类为快乐。我们认为这是因为很多人在高兴的时候，并没有太多的声音反应。同时，我们的新的基于TCN的自我注意模型图3我们提出的方法在IEMOCAP数据集上的混淆矩阵。无论在IEMOCAP测试和开发集上是否采用任何注意力策略或注意力转移机制，都优于基于注意力的BLSTM。此外，尽管基于BLSTM的自我注意力转移模型的性能不如基于TCN的自我注意力转移模型的性能，但考虑到IEMOCAP数据集测试集上的UA和WA，它优于[3，44-在注意力转移机制方面，发现没有注意力转移的注意力模型不如具有注意力转移机制（具有BLSTM或TCN）的注意力模型有效。因此，将注意力转移机制与基于注意力的TCN模型相结合可以帮助处理SER任务。这支持了我们的假设，即学习刺激教师网络的注意力地图是一种有用的方法。此外，全局软注意力模型[32]的有效性低于有或没有注意力转移的自我注意力模型，尽管它优于在[44]在UA和WA方面，IEMOCAP数据集的开发和测试集5结论我们提出的基于注意力的模型，称为SATN，结合了自我注意力与SER任务的知识转移。该模型的两个主要贡献如下。首先，我们建立了一个自我注意力转移方法，转移自我注意力，以应用SER跨任务。一方面，TCN结构使模型能够学习具有复杂时空模式的长期数据。另一方面，时间注意力块捕捉这些模式之间的依赖关系。其次，IEMOCAP数据集上的实验结果表明，我们提出的基于TCN的系统组合的有效性在未来的研究中，我们将调查使用分层自我注意学习表征和其他SER相关的任务，如情绪检测。竞合利益我们声明我们没有利益冲突。引用[1]王文军，王文军，王文军.放弃情感类--在：会议记录INTERSPEECH 2008，第9届年会51虚拟现实智能硬件2021年12月3日第1第12届澳大拉西亚国际语音科学与技术会议（Australasian International Conference on Speech Science andTechnology）2008年，第5972[10]杨文辉，李文辉.使用深度神经网络的端到端多模态情感识别。IEEE Journal of Selected Topics in SignalProcessing，2017，11（8）：1301-1309 DOI：10.1109/jstsp.2017.27644383作者：Jiang C，Jiang C.基于局部递归神经网络的语音情感自动识别关注2017年IEEE声学、语音和信号处理国际会议（ICASSP）New Orleans，LA，USA，IEEE，2017，2227DOI：10.1109/icassp.2017.79525524赵志平，包宗泰，张志新，邓建，康明斯N，王宏生，陶建华，舒勒B.通过分层注意转移网络和注意自动编码器从语音中自动评估抑郁症。IEEE Journal of Selected Topics in Signal Processing，2020，14（2）：423DOI：10.1109/jstsp.2019.29550125赵志平，包宗泰，张宗祥，康明斯N，王海生，舒勒B.层级注意转移网络用于语音抑郁评估。ICASSP 2020-2020IEEE声学，语音和信号处理国际会议（ICASSP）。巴塞罗那，西班牙，IEEE，2020，7159DOI：10.1109/icassp40776.2020.90532076作者：J.J. T，J.J.关于训练递归神经网络的困难。第30届国际机器学习会议（International Conference on MachineLearning，ICML）美国佐治亚州亚特兰大，2013年，13107杨伟，王晓，王晓，王晓，王晓.自我注意时间卷积网络用于长期日常生活活动检测。2019年第16届IEEE高级视频和信号国际会议监视（AVSS）。中国台湾台北，IEEE，2019，1DOI：10.1109/avss.2019.89098418Bengio S，Vinyals O，Jaitly N，Shazeer N.使用递归神经网络进行序列预测的预定采样。第28届神经信息处理系统国际会议论文集-第1卷。蒙特利尔，加拿大，MITPress，2015，11719范登Oord A，Dieleman S，Zen H，Simonyan K，Vinyals O，Graves A，Kalchbrenner N，Senior A，KavukcuogluK. WaveNet：原始音频的生成模型。201610Vaswani A，Shazeer N，Parmar N，Uszkoreit J，Jones L，Gomez AN，Kaiser Jiang，Polosukhin I.你需要的只是关注第31届神经信息处理系统国际会议论文集。长滩，加利福尼亚州，美国，Curran Associates Inc. 2017年，600011Scialom T，Piwowarski B，Staiano J. Self-attention architectures for answer-agnostic neural question generation。在：计算语言学协会第57届年会的会议意大利佛罗伦萨，斯特劳兹堡，PA，美国，计算语言学协会，2019，6027DOI：10.18653/v1/p19-160412沈涛，周涛，龙刚，蒋军，潘S，张春。DiSAN：用于RNN/CNN自由语言理解的定向自注意网络。201713李晓萍，宋建国，高丽玲，刘晓玲，黄文斌，何晓宁，甘春。Beyond RNNs：Positioning Self-Attention with Co-Attention for Video Question Answering. AAAI人工智能会议论文集，2019，33：8658DOI：10.1609/aaai.v33i01.3301865814Tarantino L，Garner P N，Lazaravia A.用于语音情感识别的自我注意。In：Interspeech. ISCA，2019DOI：10.21437/interspeech.2019-282215Cummins N，Scherer S，Krauberski J，Schnieder S，Epps J，Quatieri T F.使用言语分析评估抑郁和自杀风险的综述言语交际，2015，71：10DOI：10.1016/j.specom.2015.03.00416Zagoruyko S，Komodakis N.更加关注注意力：通过注意力转移提高卷积神经网络的性能。201652ZHAOZipingetal：Self-atetintansfernet t tt a n s fer n et tworksforpe echemotinreci nt in ti n17李军，王毅，赵强，康康哈利.用于视频识别的网络图像的注意力转移。第25届ACM多媒体国际会议论文集。美国加州山景城，计算机协会，2017年，1DOI：10.1145/3123266.312343218卓建斌，王世华，张文国，黄庆民.深度无监督卷积域自适应。第25届ACM多媒体国际会议论文集。美国加州山景城，纽约，美国，ACM，2017DOI：10.1145/3123266.312329219Kim J，Park S，Kwak N.复杂网络释义：通过因子转移进行网络压缩。第32届神经信息处理系统国际会议论文集。加拿大蒙特利尔，Curran Associates Inc，2018，2765-277420孟宏，严天宏，袁锋，魏华伟.使用深度学习网络从3D log-mel谱图中识别语音情感。IEEE Access，2019，7：125868DOI：10.1109/access.2019.293800721陈明英，何晓娟，杨军，张宏.基于注意力模型的3D卷积递归神经网络用于语音情感识别。IEEE信号处理快报，2018，25（10）：1440DOI：10.1109/lsp.2018.286024622毛庆荣，董明，黄志文，詹永忠.使用卷积神经网络学习语音情感识别的显著特征。IEEE Transactions onMultimedia，2014，16（8）：2203DOI：10.1109/tmm.2014.236079823黄志文，董明，毛清荣，詹永忠。使用CNN进行语音情感识别。第22届ACM多媒体国际会议论文集。美国纽约，ACM，2014DOI：10.1145/2647868.265498424张永永，杜军，王正荣，张建生，涂永华.基于注意力的全卷积网络语音情感识别。2018亚太信号与信息处理协会年度峰会暨会议（APSIPA ASC）檀香山，HI，美国，IEEE，2018DOI：10.23919/apsipa.2018.865958725Tzinis E，Potamianos A.基于分段的递归神经网络语音情感识别。2017年第七届情感计算与智能交互国际会议（ACII）San Antonio，TX，USA，IEEE，2017，190-195DOI：10.1109/acii.2017.827359926黄春文，纳拉亚南。语音情感识别中注意力辅助的子话语结构发现。In：Interspeech 2016. ISCA，2016DOI：10.21437/interspeech.2016-44827Bai S J，Kolter J Z，Koltun V.对序列建模的通用卷积和递归网络的经验评估。201828李C，弗林M D，维达尔R，赖特A，哈格G D.用于动作分割的时间卷积网络和侦测2017年IEEE计算机视觉与模式识别会议（CVPR）Honolulu，HI，USA，IEEE，2017，1003-1012DOI：10.1109/cvpr.2017.11329杜志英，吴世文，黄丹，李文祥，王永华.时空编码器-解码器全卷积网络用于基于视频的维度情感识别。IEEETransactions on Affective Computing，2019 DOI：10.1109/taffc.2019.294022430[10]杨文军，李文军，李文军.基于注意力的语音识别模型。第28届神经信息处理系统国际会议论文集。加拿大蒙特利尔。MIT出版社，2015年，577-58531Vinyals O，Kaiser L，Koo T，Petrov S，Sutskever I，Hinton G.语法作为一门外语。第28届神经信息处理系统国际会议论文集。蒙特利尔，加拿大，麻省理工学院出版社，2015年，277353虚拟现实智能硬件2021年12月3日第132作者：Jiang Jiang，Jiang Jiang.通过联合学习对齐和翻译的神经机器翻译。第三届国际学习表征会议（ICLR）San Diego，CA，USA33赵志平，郑英，张志新，王宏生，赵永庆，李春.通过集成基于注意力的双向LSTM-RNN和FCN来探索时空表示，用于语音情感识别。In：Interspeech 2018. ISCA，2018 DOI：10.21437/interspeech.2018-147734李永春，赵婷，川原.使用自我注意机制和多任务学习改进端到端语音情感识别。In：Interspeech 2019. ISCA，2019DOI：10.21437/interspeech.2019-259435作者：J. J.语音识别中联结主义时间分类的自注意网络。ICASSP 2019-2019 IEEE声学，语音和信号处理国际会议（ICASSP）。Brighton，United Kingdom，IEEE，2019，7115DOI：10.1109/icassp.2019.868253936谭C，孙芳，孔T，张W，杨C，刘C。关于深度迁移学习的综述。人工神经网络和机器学习-ICANN。查姆施普林格国际出版社，2018年，第27037[10]邓J，徐晓智，张志新，Frühholz S，Schuller B.用于语音情感识别的半监督自动编码器。IEEE/ACMTransactions on Audio，Speech，and Language Processing，2018，26（1）：31-43 DOI：10.1109/taslp.2017.275933838Yim J，Joo D，Bae J，Kim J.知识蒸馏的礼物：快速优化，网络最小化和迁移学习。2017年IEEE计算机视觉与模式识别会议（CVPR）檀香山，HI，美国，IEEE，2017年，7130DOI：10.1109/cvpr.2017.75439Romero A，Ballas N，Kahou SE，Chassang A，Gatta C，Bengio Y. Fitnets：细深网的提示。在：会议论文集第三届国际会议上学习表示（ICLR），圣地亚哥，加利福尼亚州，美国，2015年40张文辉，张文辉，张文辉.口语句子的音频语言嵌入。ICASSP 2019-2019 IEEE声学，语音和信号处理国际会议（ICASSP）。英国布莱顿，IEEE，2019年，7355DOI：10.1109/icassp.2019.8682553412006年10月27日，李文辉，李文IEMOCAP：交互式情感二元运动捕捉数据库。语言资源与评价，2008，42（4）：335-359 DOI：10.1007/s10579-008-9076-642赵志平，包宗泰，张志贤，康明斯N，王海生，舒勒B W.用于离散语音情感识别的注意增强联结主义时间分类。In：Interspeech 2019. ISCA，2019DOI：10.21437/interspeech.2019-164943伦佐·K CMU发音词典。http：//www.speech.cs.cmu.edu/cgi-bin/cmudict，2007年44Han K，Yu D，Tashev I.使用深度神经网络和极限学习机的语音情感识别。In：Interspeech. 201445Lee J，Tashev I.基于递归神经网络的语音

下载后可阅读完整内容，剩余1页未读，立即下载