多尺度差异对抗网络实现跨语料语音情感识别的优越性

29 浏览量更新于2024-01-24 收藏 606KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

引文：郑万禄，郑文明，宗元。跨语料语音情感识别的多尺度差异对抗网络。虚拟现实智能硬件，2021，3（1）：65-75DOI：10.1016/j.vrih.2020.11.006虚拟现实智能硬件2021年12月3日第1·文章·跨语料语音情感识别的多尺度差异对抗网络郑万禄，郑文明*，王元忠东南大学儿童发展与学习科学教育部重点实验室，学习科学研究中心，南京210096* 通讯作者，wenming_zheng@seu.edu.cn投稿时间：2020年9月8日修订日期：2020年10月22日接受日期：2020年11月24日国家自然科学基金（U2003207; 61902064）和江苏省前沿技术基础研究项目（BK 20192004）资助。在人机交互应用中最关键的问题之一是基于语音识别人类的情感。近年来，跨语料库语音情感识别这一具有挑战性的问题引起了广泛的研究。然而，训练数据和测试数据之间的域差异仍然是实现改进的系统性能的主要挑战。方法提出了一种新的多尺度差异对抗（MSDA）网络，用于跨语料库SER的多时间尺度域自适应。例如，将分层级别的域鉴别器集成到所述情感识别框架中，以减轻所述源域和目标域之间的差距。具体来说，我们提取两种语音特征，即，手工制作的特点和深层次的特点，从三个时间尺度的全球，本地和混合水平。在每个时间尺度中，域抽取器和特征提取器相互竞争，通过欺骗抽取器来学习最小化两个域之间差异的特征。结果大量的实验对跨语料库和跨语言的SER进行了组合数据集，结合了一个中文数据集和两个英文数据集在SER中常用的。MSDA是由对抗过程，其中三个判别器是在串联工作与情感分类器提供的强判别力的影响。因此，相对于所有其他基准方法，MSDA实现了最佳性能。结论在一个中文和两个英文数据集上对所提出的结构进行了测试。实验结果表明，我们强大的判别模型解决跨语料库SER的优越性。人机交互;跨语料语音情感识别;层次判别器;领域自适应1介绍准确的情感识别是人机交互场景的重大挑战，因为2096-5796/©版权所有2021北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.com虚拟现实智能硬件2021年12月3日第1机器无法理解说话者的情绪状态。因此，它无法解释说话者的情绪。人类的言语传达了丰富的信息流，自然地传达了人类之间的情感。因此，一个新的研究领域-语音情感识别（SER）-已经出现。它是一个利用音频信号来解码个体情绪状态的过程[1 - 3]。除了情绪之外，其他因素，包括环境噪声，口语和记录设备质量变化也会影响识别的性能[4]。此外，大多数现有的SER专注于使用一个标记语料库中的训练和测试数据。在大多数情况下，由于数据稀缺和注释新数据的成本高昂，它们侧重于单一语文。然而，对于实际的人机交互场景，不同条件之间存在巨大的数据集偏差，这降低了它们对新数据的泛化能力。因此，这种系统的性能将下降。研究人员已经被这个问题所激励，以探索用于跨语料库SER训练模型的更鲁棒的系统[4- 6]。为了解决跨语料库SER中的数据稀缺问题，最近的方法集中在用于训练SER模型的数据增强上[7-10]。一个明显的缺陷是生成的新数据不遵循与原始数据库中的数据相同的分布;因此，噪声会阻碍识别性能。另一种主流方法采用迁移学习的概念，通过最小化训练数据（源域）和测试数据（目标域）之间的分布距离来创建更通用的模型[11，12]。语音信号具有独特的序列模式，并且情感信息沿着信号不均匀地分布。在大多数传统的研究中，为了捕捉语音的时间线索，SER被视为对应于两个时间尺度的动态或静态分类问题，即子话语和整个话语[13- 16]。因此，可以在上述两个时间尺度上单独实现域对准。然而，这种方法可能不足以应付观察到的高方差。受这些观察结果的启发，我们提出了一种新的多尺度差异对抗（MSDA）框架，以减轻不同语料库中不同时间尺度的特征分布差异。MSDA的特点是由三个层次的鉴别器从底部到顶部，这是美联储与全球，本地和混合水平的功能，从标记的源域和未标记的目标域。具体而言，每个话语被分块成固定数量的段，具有50%的重叠率，以形成全局和局部语音信号，用于有序地提取低级手工和高级深度语音特征。在这里，我们使用基于注意力的双向长短期记忆（Bi-LSTM）模型为一个话语内的所有片段建立话语内结构关系。除了这两个子级别的结构，我们制作了一个混合级表示混合全球和本地级别的功能，形成混合级功能。这三个层次的特征提供了互补的观点，并弥补了它们的弱点。随后，在上述三个层次上实施领域判别过程，以协同提高模型的判别能力。情感分类器可以在这样的对齐分布中跨不同的数据集执行得更好。本文的主要工作如下：（1）提出了一种新的情感语音特征提取方法。例如，（2）我们进一步提出了一种新的分层差异对抗网络，该网络消除了语料库和语言之间的差距，同时保留了情感相关信息;（3）我们在一个中文数据集和两个英文数据集上进行了广泛的实验，证明了我们的模型的优越性。66WANLUZHENGETAL：多个可伸缩的数据存储器是一种用于压缩压缩数据的可靠的数据存储器2相关工作现实生活中的跨语料库SER由于其广泛的现实世界适用性而受到越来越多的关注[6]。源域和目标域之间的分布差距是导致识别性能差的最根本因素之一。直观地说，关键是要发现一个通用的功能表示在这两个领域，这样的分布差距是尽可能减轻。为了更好地处理观察到的高方差，在早期的研究中已经提出了特征归一化方案。Schuller等人对每个语音特征进行了说话人标准化（SN ）、语料库标准化（CN ）和说话人语料库标准化（SCN），以进行跨语料库评估。为了减少域之间的不相似性[5]，Yang等人提出了一种使用最大平均差异的再生核希尔伯特空间中的传递分量分析（TCA）框架[12]。通过将数据投影到学习的传递分量上，可以在子空间中学习样本外泛化表示。与传统的特征对齐方法相比，深度卷积神经网络（DCNN）已被证明具有从语音信号中自动提取显著情感特征的能力[14，17- 19]。近年来，受生成对抗网络（GAN）[21]的对抗思想的启发，[7-9]的作者实现了生成迁移模型，以识别跨不同语音语料库或语言的更一般化的表示。Sahu等人使用高斯分布样本点来训练普通GAN和条件GAN模型，以生成模拟原始模型的合成表示[7]。然后，将合成生成的样本与真实数据一起用于外部语料库上的分类。然而，值得注意的是，在生成数据样本时也会引入不需要的噪声。在[3，10，17，19]中也存在同样的问题，这些问题将人工数据应用于真实世界条件。最近，已经提出了利用域分类器[21，22]来测量域差异的各种方法，为此，在特征提取器中采用最小-最大博弈。这个对抗过程最初是从源域和目标域中的两个真实数据分布中实现的。因此，它保留了它们的初始数据属性。区分性对抗学习已经在领域对抗神经网络（DANN）中实现[21]，以学习训练和测试数据的共同表示。在此基础上，[11]的作者提出了一种从可用的未标记数据中一致地提取有用信息的解决方案，该解决方案提高了跨不同语音语料库的情感识别性能。语音信号具有独特的顺序性质，因此SER可以被视为根据两个时间尺度的动态或静态分类问题，即基于帧和基于回合[13]。Haytham选择帧级语音片段作为输入，以探索前馈和递归神经网络架构[14]。Schuller等人提供了九个语音语料库的基准测试，并证明了话语级建模在平均水平上比帧级具有显著优势[15]。相比之下，Jeon等人开发了一种两步法来做出决策级别的决策[16]。从一个句子中的三个子句子段（单词，短语，基于时间的段）的预测首先生成，然后组合，以获得一个句子级的决定。他们证明，基于时间的分段实现了最佳性能，优于基于时间的方法。上述方法中的情感识别过程是在单个时间尺度内完成的，这促使我们综合不同时间尺度语音信号的优点。67虚拟现实智能硬件2021年12月3日第13方法给定一个标记的源数据集S和一个未标记的目标数据集T，在相同比例的数据样本，MSDA模型被用来捕捉语音的多时间尺度的情感特征，然后减轻S和T之间的特征分布差异在每个相应的时间尺度。在下文中，我们将详细介绍MSDA模型，然后应用它来处理跨语料库SER任务。图1显示了MSDA网络体系结构。我们的模型有三个主要模块：（1）三个特征提取器，Fg、Fl和Fh;（2）三个域鉴别器，Dg、Dl和Dh;以及（3）单个情绪状态分类器C，如图1所示。图1跨语料库语音情感识别的MSDA网络结构，由三部分组成：特征提取器、领域判别器和单个情感分类器。黑线和红线以及箭头分别表示源域和目标域路径。3.1三个层次的特征特征提取器的目标是提取更多的情感信息特征，以提高SER性能。整个过程包括两个阶段，即手工特征提取和深度特征学习，这是在三个层次上进行的。具体地说，整个话语，被称为“全局语音信号”，被分块成N个片段，在时间轴上的重叠率为50%，以形成一个序列的“本地信号”，其中我们假设每个片段包含相同的情感类别的话语，它属于。使用openSMILE工具包[23]在INTERSPEECH 2010语言挑战[22]中提供的IS10特征集被提取用于全局和局部信号。IS10特征集总共包含1582个特征，其中包括一组表达说话人情感的声学低级描述符[24]，例如韵律特征。特征提取后，对于后续的Bi-LSTM模块来说，不同长度的序列可以具有固定的长度。然后，进行基于特征的z归一化以独立地归一化源样本和目标样本。上述两级特征分别记为Xg∈R1× d和Xl= [xl;xl;其中d= 1582是特征向量的维数。3.1.1全局级特征1 2N为了提取全局特征，我们采用两层卷积网络作为特征68attattattattWANLUZHENGETAL：多个可伸缩的数据存储器是一种用于压缩压缩数据的可靠的数据存储器萃取器Fg：Gg=FgXg，（1）其中X g的大小从1 ×d调整为14 ×113 × 1。Fg有两个卷积层，后面是全局最大池化层和dropout层。3.1.2局部特征为了捕获时间关系结构并突出情感信息部分，我们采用了基于注意力的Bi-LSTM模型[25]来提取片段序列中更具区分性的语音特征。几种基于注意力的Bi-LSTM方法已被证明在序列到序列学习任务中有效工作[26，27]。Bi-LSTM有两个隐藏层（前向和后向），单元大小为1582。 L（·）表示Bi-LSTM函数，H（·）表示Bi-LSTM态. 恩，我们有H l=LX11，X21，，   .（二）注意到情感信息在信号上分布不均匀，我们引入注意力分数向量α= [α1，不同的演讲片段。在这种情况下，我们可以获得以下深度局部级别特征G1：3.1.3混合级特征拉特 =αH l.（三）上述两个特征在互补的时间尺度上相互补充。为了进一步增强语音特征的丰富性，我们还制作了混合级表示，该混合级表示将全局和局部级别的特征混合以馈送到另一个深度特征提取器Fh中，用于捕获更高级别的情感特征Gh。我们将Xg和Gl在垂直方向上叠加，形成混合级特征集Xg，Gln∈R2 × d 然后将其调整为28 ×113 ×1。Gh=FhXg，Gl好吧（四）在这种情况下，我们最终得到三个层次的特征，即，Gg，Gl和Gh，通过一个渐进的特征提取过程，它利用人工设计的感知特征和自动特征学习的优点。此外，该程序可以彻底挖掘不同时间尺度的结构关系。3.2分层域鉴别器当应用在训练数据集上训练的模型时，训练数据集和测试数据集之间的特征分布的差异导致明显的错误分类。这促使我们提出了一组分层域鉴别器，Dg，Dl和Dh，其作用对应于上述三个层次的深层语音情感特征。这些特征在对抗过程中与情感分类器竞争，从而缓解了每个级别的训练和测试数据集之间的特征分布差距。领域判别器本质上是一种二元分类器，其作用是区分数据来自源领域还是目标领域。我们打算最大化域分类器的损失。它们造成的问题越多，就越难判断数据来自何处，这表明在分配一级，这两个领域的关系越来越近。我们为所有源数据和目标数据分别设置了两个域标签，即0和1。每个域CIDD由三个完全连接的层组成，再加上ReLU激活以生成最终输出。区分损失可以定义为交叉熵损失：69GSSDDDλ=-1，（10）pD我S不D我S不D我我S不虚拟现实智能硬件2021年12月3日第1Lg=∑d log（DgG，G），Ll =∑d log（Dl，G），Lh=∑d log（DhGh，Gh），其中di表示域标签，Dg和Dl旨在分别在全局和局部级别上校正源数据XS和目标数据XT之间的特征分布差异，Dh旨在减轻整个混合级别上的特征分布差异。梯度反转层（GRL）位于特征提取器和域卷积器之间，域卷积器在基于反向传播的训练期间将梯度乘以某个负常数。在前向传播期间，它作为标识转换执行。反转操作使两个域的特征表示收敛，从而减小两个域之间的间隙。3.3情感分类器作为跨语料SER的主要任务，设计了一个单一的情感分类器，与上述三个不同时间尺度的不同鉴别器协同工作。情感标签预测器C的输入是在第3.1.3节中提取的混合语音特征Gh。混合语音特征Gh和情感标签预测器C一起形成标准前馈架构。C由三个完全连接的层组成，再加上ReLU激活，以生成最终的M（M是情感类别的数量）输出，每一种情绪类别。源数据XS的混合级特征Gh通过网络传播，并且使用交叉熵度量来计算情感分类损失：Lc=∑yi log（Gh）i，（八）我其中yi是源数据XS的地面实况标签。网络的总损失试图最小化情感分类器的分类误差，同时最大化域分类器的误差，其可以被公式化为：L=Lc-λ（Ll+Lg+Lh），（9）其中λ是正则化乘数，其具有控制损失的两个部分之间的权衡的作用。同时，Dg、Dl和Dh共享根据以下表达式确定的相同参数λ：21 + exp（-γp）其中p是训练进度，从0到1线性变化。同时执行三个鉴别器和一个分类器的训练，这意味着同时更新权重以相互竞争。随着训练数据的变化，领域和情感分类器都会重新调整它们的权重，以找到满足所有条件的新表示。最终，该网络将生成与域对齐的数据分布和与情感相关的特征。4实验4.1语音语料库我们使用了三个数据集，即IEMOCAP[28]，CASIA[29]和MSP-improv[30]，来评估我们的模型解决跨语料库SER问题的能力。这些数据集在几个方面有所不同：语言，说话者数量和类别分布。它们都是由性别平衡70我（五）我（六）、（七）WANLUZHENGETAL：多个可伸缩的数据存储器是一种用于压缩压缩数据的可靠的数据存储器专业演员。在评价实验中，我们选择了四个情绪类别的样本，即：例如，中性、生气、高兴和悲伤的情感类别，从而它们共享相同的情感类别，并且可以服务于跨语料库的语音情感识别任务。所选情感语料库的基本信息如表1所示。我们考虑了语料库中的类别平衡，因为IEMOCAP是一个高度不平衡的数据集。[31- 33]的作者将兴奋与快乐融合在一起，以实现更平衡的标签分布。我们遵循这个设置，并对其他两个语料库使用相同的类。对于模型评估，选择三个语料库中的两个分别作为源域S和目标域T。然后，角色被改变了。因此，有六组实验。表1情感语料库语料库语言科目话语情绪IEMOCAP英语10例（5例男性）5527中立，快乐，愤怒，悲伤Casia中国4例（2例男性）800中立，快乐，愤怒，悲伤MSP-improv英语12（6名男性）1282中立，快乐，愤怒，悲伤主题：主题的数量;话语：使用IEMOCAP由十位专业演员的语音语料库组成。根据记录的场景，每个话语可以进一步分为即兴或脚本的演讲部分，并标注为八个情感标签。为了平衡每个样本的比例，我们将兴奋和快乐合并为快乐。最后，它由中性（1706），愤怒（1102），快乐（1636）和悲伤（1083）组成，总和为5527。平均发声长度为4.5s，标准差为3.1s。CASIA是一个绝对平衡的中文语料库，包含六种不同的情绪：愤怒、恐惧、快乐、悲伤、惊讶和中性。它由四个专业演员模拟，每个演员提供300句话MSP-Improv控制每对对话中的固定词汇内容;然而，它传达不同的情绪（愤怒，快乐，悲伤，中性）。在本节中，我们选择了目标阅读和目标即兴部分，因为它们与情感相关性最强，分布最平衡。情绪分布为中性（524），愤怒（284），快乐（224）和悲伤（186），总和为1218。平均发声长度为4.1s，标准差为2.9s。4.2实现细节在所有实验中，我们设置N= 5和超过250 ms的语音片段长度，以提供足够的信息来识别情绪[18]。因此，子句数不宜太大。类似地，极小的块数会产生太多的信号重叠，这会干扰模型处理局部信息的能力。因此，我们训练网络的初始学习率为0.01，动量为0.9，权重衰减为1e-5。在每个卷积层和全连接层之后采用批量归一化[28]层。对于所有基线方法，我们训练了超过500个epoch，批量大小为50。我们把γ设为10。通过TensorFlow深度学习框架对Adadelta进行了优化。全局特征提取器Fg具有128的通道大小以及用于两层的5和3然后是ReLU层，它被用作激活函数。我们在全局最大池化和dropout层之后构建了每个话语的128维编码。混合特征提取器Fh具有类似的结构Fg，除了其第一核大小为10。这三个域鉴别器遵循与情感分类器相同的结构和超参数。5结果为了验证我们的模型在跨语料库SER中的有效性，我们进行了以下实验71虚拟现实智能硬件2021年12月3日第1基线。(1)TCA模型[12] 由全局级特征训练;（2）DANN[21] 受过全球水平的培训;(3)由对应于局部级别的局部级别特征训练的局部D;（4）由对应于混合级别的混合级别特征训练的混合D;（5）由用于分类器C的混合级别特征训练的没有D的混合，而没有来自任何级别的分类器;（6）由用于分类器C的混合级别特征训练的MSDA模型和包含一起工作的Dg Dl和Dh结果示于表2- 4中。我们采用加权准确度（WA）和未加权准确度（UA）作为度量标准。没有标准的实验范式存在调查跨语料库SER性能。许多结果是通过随机分割的训练集、验证集和测试集计算的。此外，其他方法在不同的语料库和情感组合中评估给定的模型。因此，我们的研究结果与大多数已发表的结果没有直接可比性。我们的目标不是针对这些跨语料库SER的最先进的分类准确性，而是专注于评估MSDA在经典迁移学习框架（即TCA和DANN）中的性能，如第2节所述。之所以选择它们，是因为它们衍生了各种方法，并且比较更具代表性。表2中的结果表明，我们的MSDA模型在跨语料库SER中优于传统的分布对齐方法。MSDA是一个动态对抗框架，其中参数根据预测结果进行调整。此外，它是一个综合性的神经网络，可以在多个时间尺度上最大限度地减少域差异。表2三种语音语料库源目标TCADANNMSDAWA（%）UA（%）WA（%）UA（%）WA（%）UA（%）CasiaIEMOCAP30.1728.8029.5630.3734.8832.51IEMOCAPCasia31.2531.2529.8729.8740.1340.13CasiaMSP-improv28.1628.8332.1030.7737.1929.70MSP-improvCasia29.2529.2529.3829.3837.3837.38IEMOCAPMSP-improv30.2128.2533.2530.0343.4334.59MSP-improvIEMOCAP29.3127.1533.2528.9436.8633.15在表3中，没有示出全局D，因为它基本上与DANN相同。根据该表，局部D利用了语音信号的序列性质，因此，与仅话语级特征相比，局部D具有轻微的增加。将这些改进归功于Bi-LSTM注意力模块是令人信服的。在此基础上，Hybrid D吸收了全局和局部特征相结合的混合级特征，然后进行对抗训练，从MSP-Improv到CASIA，WA比DANN明显提高了5.75%由更强的判别器，包括，Dg，Dl和Dh，MSDA提供了令人信服的证据，我们的模型肯定提高了单级判别能力。它使绩效提高了10.01%（43.43%至33.42%）WA和13.75%表3三种语音语料库源目标当地D混合DMSDAWA（%）UA（%）WA（%）UA（%）WA（%）UA（%）CasiaIEMOCAP31.5132.8531.0130.7634.8832.51IEMOCAPCasia32.8732.8732.8732.8740.1340.13CasiaMSP-improv32.4327.8532.4327.8537.1929.70MSP-improvCasia33.6333.6333.6333.6337.3837.38IEMOCAPMSP-improv33.4233.0533.4233.0543.4334.59MSP-improvIEMOCAP31.1332.1635.8630.6736.8633.1572WANLUZHENGETAL：多个可伸缩的数据存储器是一种用于压缩压缩数据的可靠的数据存储器（41.19%至27.44%）从MSP-Improv到IEMOCAP的UA。这表明，仅仅在单一层面上进行领域歧视是不够的。没有D的Hybrid和MSDA都是由混合级特征训练的。在表4中观察到，当输入从全局和局部级别导出的相同混合级别特征时，Dg、Dl和Dh的不足导致来自MSP的WA和UA的最大7.76%的显著性能下降即兴表演。这是由于源语料库和目标语料库或不同语言之间的分布存在巨大差异。它揭示了在一个语料库上训练的模型不能直接应用于另一个未标记的语料库。表4三个语音语料库源目标不含D的MSDAWA（%）UA（%）WA（%）UA（%）CasiaIEMOCAP27.3224.4534.8832.51IEMOCAPCasia30.1330.1340.1340.13CasiaMSP-improv30.2127.1337.1929.70MSP-improvCasia27.3727.3737.3837.38IEMOCAPMSP-improv28.1625.0843.4334.59MSP-improvIEMOCAP33.6224.9636.8633.15通过结合多尺度特征和三个水平的分层判别器，可以观察到从MSP-Improv到IEMOCAP的显著改善：WA为15.27%（43.43%到28.16%），UA为8.79%（34.59%到25.80%）我们还可以观察到，跨语言SER比跨语料库更难，尽管它使用相同的语言情况。由于英语和汉语同属一门语言，在表达方式、语言习惯、语法规则等方面存在着许多差异。MSDA在所有方法中获得了最好的整体性能，这意味着联合减少来自不同时间尺度的训练和测试数据之间的分布差异可以帮助跨域场景6结论本文提出了一种用于跨语料库语音情感识别的多尺度差异对抗网络模型。MSDA集成了多个时间尺度的深度语音特征，在对抗训练网络中同时训练一组分层域判别器和一个情感分类器。我们的模型消除了分布的差异，在一个层次的方式，同时保留不同的语料库和多种语言之间的情感相关的信息。在强鉴别器的支持下，该模型实现了优异的性能。在三个语料库上进行的大量实验结果证明了该模型的有效性。竞合利益我们声明我们没有利益冲突。引用1Swain M，Routray A，Kabisatpathy P.语音情感识别的数据库，特征和分类器：综述。国际语音技术杂志，2018，21（1）：93DOI：10.1007/s10772-018-9491-z2[10]杨文军，王晓，王晓刚.用于表演交互的语音情感识别。音频工程学会杂志，2018，66（6）：45773虚拟现实智能硬件2021年12月3日第1DOI：10.17743/jaes.2018.00363张晓刚，王晓刚，王晓刚.视听传播评估中的情感预测和内容轮廓估计。International Journal of Monitoring andSurveillance Technologies Research，2014，2（4）：62DOI：10.4018/ijmstr.20141001044放大图片作者Gideon J，McInnis M.用对抗性判别域泛化（ADDoG）改进跨语料库语音情感识别。IEEETransactions on Affective Computing，2019：1 DOI：10.1109/taffc.2019.29160925Schuller B，Vlasenko B，Eyben F，Wollmer M，Stuhlmarta A，Wendeira A，Rigoll G.跨语料声学情感识别：差异与策略。IEEE Transactions on Affective Computing，2010，1（2）：119DOI：10.1109/t-affc.2010.86恩塔兰皮拉斯与语言无关的语音情感识别。音频工程学会杂志，2020，68（1/2）：7-13DOI：10.17743/jaes.2019.00457Sahu S，Gupta R，Espy-Wilson C.使用生成对抗网络增强语音情感识别。In：Interspeech 2018. ISCA，2018DOI：10.21437/interspeech.2018-18838杨志华，李志华，李志华.基于CycleGAN的情感风格转移作为语音情感识别的数据增强。In：Interspeech 2019.ISCA，2019，35DOI：10.21437/interspeech.2019-22939[10]张志，张军，任军，林志华，张军.有条件的对抗训练，从言语中预测情绪。2018年IEEE声学、语音和信号处理国际会议（ICASSP）2018年，6822DOI：10.1109/ICASSP.2018.846257910Salamon J，Bello J P. Deep convolutional neural networks and data augmentation for environmental sound classification.IEEE Signal Processing Letters，2017，24（3）：279DOI：10.1109/lsp.2017.265738111Abdelwahab M，Busso C.用于声学情感识别的领域对抗。ACM Transactions on Audio，Speech，and LanguageProcessing，2018，26（12）：2423DOI：10.1109/taslp.2018.286709912潘世杰、曾逸伟、郭振堂、杨强.通过传输分量分析的域自适应。IEEE Transactions on Neural Networks，2011，22（2）：199DOI：10.1109/tnn.2010.209128113Kotropoulos C.情感语音识别：资源、特征和方法。言语交际，2006，48（9）：1162DOI：10.1016/j.specom.2006.04.00314吴晓鹏，王晓刚，王晓刚.评估用于语音情感识别的深度学习架构。神经网络，2017，92：60DOI：10.1016/j.neunet.2017.02.01315Schuller B，Vlasenko B，Eyben F，Rigoll G，Wendeirs A.声学情感识别：性能的基准比较。2009年IEEE自动语音识别理解研讨会。2009年，552-557 DOI：10.1109/ASRU.2009.537288616全俊辉，夏荣，刘永.基于子句段判决的句子级情感识别。2011 IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP）2011年，4940-4943 DOI：10.1109/ICASSP.2011.594746417[10]杨文军，李文军.基于卷积神经网络的连续语音情感识别。音频工程学会杂志，2020年。68（1/2）、1418张S，黄天，高伟.基于深度卷积神经网络和判别时间金字塔匹配的语音情感识别。IEEE Transactions onMultimedia，2018，20（6）：157674WANLUZHENGETAL：多个可伸缩的数据存储器是一种用于压缩压缩数据的可靠的数据存储器DOI：10.1109/TMM.2017.276684319Vrysis L，Tsipas N，Thocolia I，Dimoulas C. 1D/2D深度CNN与一般音频分类的时间特征集成。音频工程学会杂志，2020，68（1/2），6620[10]杨文，杨文，杨文.生成性对抗网。第27届神经信息处理国际会议论文集麻省理工学院出版社，2014年，第267221Ganin Y，Ustinova E，Ajakan H，Germain P，Larochelle H，Laviolette F，Marchand M，Lempitsky V.神经网络的域对抗训练。机器学习研究杂志，2016，17（1）：209622穆勒角2010年国际语言挑战赛。Proc Interspeech，2010，279423放大图片作者：Wöllmer M，Schuller B.慕尼黑多功能和快速开源音频特征提取器。第18届ACM多媒体国际会议论文集。意大利佛罗伦萨计算机机械，2010，1459DOI24[1]张勇，张松，陈晓，张晓，张晓.基于三重信息瓶颈的无监督语音分解。202025[10]张晓刚，王晓刚，王晓刚，王晓刚，王晓刚.用于增强视听情感分类的上下文敏感学习。IEEE Transactions onAffective Computing 2012，3（2）：184DOI：10.1109/T-AFFC.2011.4026作者：Jiang Jiang，Jiang Jiang.通过联合学习对齐和翻译的神经机器翻译。计算机科学，201427Vinyals O，Kaiser L，Koo T，Petrov S，Sutskever I，Hinton G.语法作为一门外语。在：第28届神经信息处理系统国际会议论文集-第2卷。加拿大蒙特利尔，麻省理工学院出版社，2015年，第2773282005年10月20日，李文辉，李文IEMOCAP：交互式情感二元运动捕捉数据库。语言资源与评价，2008，42（4）：335 DOI：10.1007/s10579-008-9076-629中国科学院自动化研究所语音情感数据库。http：//www. datatang.com/ data/3927730[10]杨文辉，李文辉. MSP-IMPROV：研究情绪感知的二元交互行为语料库。IEEE Transactions on AffectiveComputing，2017，8（1）：67-80 DOI：10.1109/TAFFC.2016.251561731Li H，Tu M，Huang J，Narayanan S，Georgiou P. Speaker-Invariant Affective Representation Learning viaAdversarial Training. ICASSP 2020-2020 IEEE声学、语音和信号处理国际会议（ICASSP），2020年，7144DOI：10.1109/ICASSP40776.2020.9054580。32杨伟，王伟，王伟.语音情感识别的表征学习。Interspeech，2016，3603-360733徐勇，徐宏，邹杰. HGFM：一种基于层次粒度和特征的声学情感识别模型。ICASSP 2020-2020 IEEE声学，语音和信号处理国际会议（ICASSP）。2020，6499-6503 DOI：10.1109/ICASSP40776.2020.905303975

下载后可阅读完整内容，剩余1页未读，立即下载