没有合适的资源?快使用搜索试试~ 我知道了~
工程科学与技术,国际期刊24(2021)760全文文章基于卷积长短期记忆深度神经网络的Serhat Hizlisoya,Serdar Yildirimb,Zekeriya Tufekciaa土耳其阿达纳,Kandukurova大学计算机工程系b土耳其阿达纳,阿达纳Alparslan Turkes科技大学计算机工程系阿提奇莱因福奥文章历史记录:收到2020年2020年9月23日修订2020年10月30日接受2020年11月14日网上发售保留字:音乐情感识别卷积长短期记忆深度神经网络土耳其情感音乐数据库A B S T R A C T在本文中,我们提出了一种基于卷积长短期记忆深度神经网络(CLDNN)架构的音乐情感识别方法。此外,我们还构建了一个新的土耳其情感音乐数据库,该数据库包含124段土耳其传统音乐,每段持续时间为30 s,并在构建的数据库上对所提出的方法的性能进行了评估。除了标准的声学特征外,我们还利用通过向卷积神经网络(CNN)层提供对数梅尔滤波器组能量和梅尔频率倒谱系数(MFCC)获得的特征。 分类结果表明,当使用长短期记忆(LSTM)+深度神经网络(DNN)分类器将新特征集与标准特征相使用所提出的系统与10倍交叉验证获得99.19%的总体准确度。具体而言,实现了6.45分的改善。 此外,结果还表明,与k-最近邻(k-NN)、支持向量机(SVM)和随机森林分类器相比,LSTM + DNN分类器在音乐情感识别准确率上分别提高了1.61、1.61和3.23个百分点。©2020 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍音乐一直在我们的生活中服务于许多社会和个人目的[1]。音乐情感识别(MER)是音乐信息检索(MIR)的一个子领域,其目的是应用机器学习和信号处理技术来确定音乐的情感内容音乐情感识别系统具有许多应用领域,诸如音乐建议系统(Spotify)、自动播放列表生成、音乐治疗等。然而,确定音乐的情感类别具有相当大的挑战性,需要解决音乐摘录的情感标注、特征提取和分类算法的选择等问题建立一个音乐情感识别系统,需要建立一个有标注的情感音乐数据库.有两种方法,即,分类的和维度的,用于标记音乐中的情感。在分类方法中,情绪的特征是离散的标签,如悲伤,快乐,愤怒和恐惧[2]。在第二种方法中,情感在维度空间中表示罗素*通讯作者。电 子 邮 件 地 址 : shizlisoy@cu.edu.tr ( S.Hizlisoy ) , syildirim@atu.edu.tr(S.Yildirim),ztufekci@cu.edu.tr(Z. Tufekci)。由Karabuk大学负责进行同行审查[3]提出了一个由两个维度组成的模型:效价和唤醒。塞耶这些维度影响可能影响情绪反应的潜在刺激[5唤醒轴显示了从平静到兴奋的情绪,而效价则显示了兴奋与快乐的衡量标准。分类模型是有问题的,因为在类别数量上没有共识在维模型的情况下没有这样与分类方法相比,维模型的优点是减少了不确定性。该模型为人们提供了一种可靠的方法来测量情绪分为两个不同的维度。因此,二维模型被应用于音乐摘录的注释。Panda等人[9]提出了一个由903个音频片段组成的数据库,通过MIREX情绪分类任务[10]标记了5个情感聚类。Y.-- C. Lin等人[11]使用AMG的标签创建数据库7922首音乐中有183个情感标签[12]。由Y.H.Yang et al.[13]包含了1240首中国流行音乐,并使用了效价和唤醒度排名方案进行了注释。另一个大型数据库由M. Soleymani et al.[14].在这个数据库中,音乐摘录选自免费音乐档案(FMA)。AMG 1608含1608https://doi.org/10.1016/j.jestch.2020.10.0092215-0986/©2020 Karabuk University. 出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页:www.elsevier.com/locate/jestchS. Hizlisoy,S.Yildirim和Z.Tufekci工程科学与技术,国际期刊24(2021)76076130-665名受试者在效价和唤醒方面注释的各种音乐流派的第二音乐片段[15]。谷歌在2017年推出了AudioSet[16],其中包括直接从YouTube视频中提取的200多万个10-s音频摘录音频摘录被标记为527个类别[17]。音乐情感分析数据库(DEAM)由1802个摘录和完整的音乐组成,注释了效价和唤醒[18]。在这项研究中,我们构建了一个土耳其情感音乐数据库,由124个土耳其传统音乐摘录。MER的研究人员已经探索了几种声学特征。与音乐和情感相关的特征被采用,例如定时,动态,发音,音高[19,20],旋律,和声[21,22],音调[23]和节奏[19,24]。还使用了经典音频特征,如能量[22]、过零率(ZCR)[19]、MFCC[19]、对数梅尔滤波器组能量、线性预测系数(LPC)[19]、色度图、质心[19]、扩展、偏度、峰度、斜率、滚降[19,24]、通量[19]和对比度。也有一些工具可以提取这些功能,例如 openSMILE[25] , MIRRENT[22] , YAAFE[26] , jAudio[23] 和Marsyas[27]。在这项研究中,这些工具中的一些被用来提取上述特征。此外,深度学习确保了为MER找到合适功能的替代方法。与现有的声学特征相比,研究人员已经探索了CNN通过深度架构自动学习情感信息的成就,该架构可以从注释信号中提供更高级别的表示。CNN[17,28-然而,在这方面,在音乐情感识别中,进行了一些研究来使用CNN[28,33,34] 在以前的研究中,CNN被馈送原始音频信号、频谱图或伽马音调滤波器组[17,28,32,35]。MFCC和对数梅尔滤波器组能量是语音识别中最广泛使用的特征[35音乐也可能是如此。因此,在这项研究中,MFCC和对数梅尔滤波器组能量被馈送到CNN作为输入来提取特征。SVM[11,39],k-NN[40],随机森林(RF)[41],DNN[17,42],LSTM[17,42,43],高斯混合模型(GMM)[44]和深度卷积神经网络(DCNN)[28]被用作MER的分类器。Sarkar等人[28]表明,DCNN分 类 器 优 于 MER 的 k-NN 和 SVM 分 类 器 。 Sainath 等 人 。 [40] 将CLDNN与LSTM,CNN + LSTM和LSTM + DNN的性能进行了比较,结果表明CLDNN优于其他分类器。因此,在这项研究中,我们提出了CLDNN架构,使用MFFC和对数梅尔滤波器组能量作为输入。这种架构以前应用于语音识别和音乐检测[17,35也有很多研究采用深度学习用于MER[28,34,43]。在这项研究中,我们提出了一种由四个卷积层,LSTM层和全连接(FC)层组成的技术,用于音乐情感识别[35]。本文件的结构如下。土耳其情感音乐数据库的细节在第2节中介绍。第3节提供了系统的概述,包括特征提取和分类。在第四节中,描述了实验是如何进行的。第5节介绍了结果和讨论。最后,第6提到了未来可能的工作,并总结了论文。2. 新的情感土耳其音乐数据库创建数据库是一个劳动密集型和耗时的过程。最近已经创建了许多不同语言的数据库用于音乐情感识别[14,46,47]。但是,土耳其人-音乐不属于MER的研究范围。在这项研究中,一个新的土耳其情感音乐数据库(TEM)创建。该数据库由124个土耳其传统音乐摘录组成,持续时间为30 s,代表了音乐中最突出的部分。一般而言,MER中采用两种方法来创建数据库。在第一种方法中,只有音乐信号可用于评估器,而在第二种方法中,还呈现具有Meta数据的歌词。在这项研究中,我们遵循第一种方法,涵盖各种体裁和风格。21名大学生对音乐选段进行了评价。每种音乐的情感内容在效价和唤醒维度的[-5,5]量表上进行评级。效价维度代表从积极到消极的轴,而觉醒代表从兴奋到平静的轴。在注释过程中,评估者被允许多次收听音乐摘录,他们能够通过名为AnnoEmo的程序[48]更改他们的注释,这也可以在图中看到。1.一、所有注释者均自愿参与本研究。每个音乐摘录都由21名对土耳其音乐非常了解的学生注释。他们不仅是音乐的听众,而且能够使用乐器。每个注释者都注释了数据集中的所有124个音乐摘录。注释员的性别分布为29%女性和71%男性。每个摘录的注释的平均值是通过取所有注释者对唤醒和效价的决定的平均值来计算的注释者评分的平均值 图 2表示注释者对音乐摘录在效价和唤醒维度上的评分的平均值的分布。从图2可以看出,基于注释者对音乐摘录的评价在效价-唤醒维度上的平均分布,音乐摘录被分布到三个象限中。因此,在本研究中,我们着重于3类音乐情感分类。右上象限包含高唤醒和正效价(HAPV)情绪,如快乐,而左下象限包含低唤醒和负效价(LANV)情绪,如悲伤,左上象限包含高唤醒和负效价(HNV)情绪,如愤怒,如图2所示。 音乐选段在三个象限中的分布分别为75、38和11。此外,图3解释了标准偏差的分布。唤醒和效价的标准差的平均值分别为0.243和0.276。为了评估注释者在分类类别方面的一致性,我们利用Krippendorf的a和组内相关系数作为评定者间可靠性测量。表1中给出的结果表明,注释者之间在分类类方面的一致性相当高。3. 用于音乐情感识别的CLDNN结构本节介绍了基于CLDNN架构的土耳其音乐情感识别方法。该架构使用CNN的输出作为特征,LSTM + DNN作为分类器。图4表示所提出的方法。LSTM层由200个隐藏单元组成。 LSTM的输出连接到2个全连接(FC)DNN层。FC层将特征转换到更容易找到输出目标的更具鉴别力的空间中。 每个FC层都有100个隐藏单元,它们由整流线性单元(RCU)激活,该单元处理负值的阈值0[49]。最后,添加softmax输出层以获得最终决策。S. Hizlisoy,S.Yildirim和Z.Tufekci工程科学与技术,国际期刊24(2021)760762×Fig. 1. AnnoEmo的快照,用于注释唤醒和效价值。图二.注释者对音乐摘录的评价平均值在效价-唤醒维度上的分布图三. 每个情绪基元的标准差的分布。表1分类类的注释器之间的注释一致性。唤醒价克里彭道夫0.7500.747公司简介0.8080.8063.1. 用于特征提取的一维CNN在本文中,我们使用一维CNN提取音乐情感识别的特征。CNN每个卷积层都有许多过滤器来产生新的特征图。网络的深度是非常可观的,以实现更好的精度。然而,随着网络深度的增加,精度可以达到饱和点,然后下降。在卷积层之后,通常添加池化层,通过对矩阵的每个子部分取平均值或最大值来减少模式中的参数数量最后,展平图层将要素转换为1768个特征向量,30年代音乐节选。 图表5和表2说明了所提出的CNN的详细结构,其利用Keras实现[50]使用tensorflow后端。在[28]中,原始音频信号和梅尔缩放的频谱图作为输入被馈送到CNN以获得特征。他们的结果表明,使用基于原始音频信号的CNN特征对MER性能没有显着改善[28]。因此,我们不使用基于原始音频的CNN功能用于MER。对数梅尔滤波器组能量可以被认为是梅尔缩放频谱图的平滑版本。因此,基于对数梅尔滤波器组能量的特征可以给出比基于梅尔缩放频谱图的特征更好的性能。对数梅尔滤波器组能量和MFCC是最广泛使用的特征,因为它们被认为传达了语音识别和MER的最相关信息。因此,我们建议使用对数梅尔滤波器组能量和MFCC作为CNN的输入,以获得基于CNN的特征。S. Hizlisoy,S.Yildirim和Z.Tufekci工程科学与技术,国际期刊24(2021)760763图四、CLDNN的架构图五、1D CNN的结构,由卷积层、最大池化层和平坦层组成在本文中,log-mel滤波器组能量和MFCC作为输入馈送到CNN以获得特征。通过将10秒的音乐分成三个,实现足够的数据大小用于应用深度学习的特征提取,然后每20 ms使用30 ms汉明窗口计算作为S. Hizlisoy,S.Yildirim和Z.Tufekci工程科学与技术,国际期刊24(2021)760764××cf表2考虑不同类型输入和不同输入大小的CNN的卷积层(C)、池化层(P)和平坦层(F)的配置描述Log-Mel滤波器组能量MFCC输入形状500 ×26昏暗滤波器滤波器大小步幅500 ×13昏暗滤波器滤波器大小步幅C14916410149164101P112264441226444C21201283112012831P230128443012844C328128312812831层P3712844712844C4612821612821P421283321283F12561256结果,50013个MFCC和500个每10秒的音乐计算26个对数梅尔滤波器组能量。这些特征如表2所示,将这些特征馈送到CNN,以针对每10秒的音乐生成256个基于CNN的作为所有这些的结果,我们为每30秒的音乐获得768个基于CNN的MFCC特征和768个基于CNN的对数梅尔滤波器组能量特征。组合这些功能的原因是为了防止10秒音乐的过度拟合,其中一些保留为测试,一些保留为训练。因此,在分类过程中使用了124个持续时间为30 s的土耳其音乐摘录。3.3. 特征选择特征选择是一种通过选择最显著的特征来减小特征大小的方法。在这项研究中,我们应用基于相关性的特征选择(CFS)[51]方法进行特征选择。CFS是一种算法,旨在通过使用目标函数评估每个特征子集来找到彼此无关且与类高度相关的特征子集。CFS计算特征子集F的启发式度量为:NT图6显示了计算对数梅尔滤波器组能量和MFCC的步骤。第一步,音乐选段分为MeritF ¼pffinffiffiffiþffiffiffiffiffinffiffiffiðffiffinffiffiffiffi-ffiffiffiffi1ffiffiffiÞffiffitffiffifffifffið1Þ利用汉明窗重叠帧。在第二步骤中,针对每一帧计算离散时间傅立叶变换(DTFT)。然后计算震级谱的平方。第四步给出滤波器组能量,其通过对每个梅尔缩放三角形滤波器组中的所有能量求和来计算。 第五步的输出是通过取梅尔滤波器组能量的对数来计算的对数梅尔滤波器组能量。在最后一步中,通过对对数梅尔滤波器组能量进行离散余弦变换(DCT)3.2. 标准音频功能在这项工作中,标准的音频特征是利用公共可用的工具提取的,如MIRtoolbox[20],OpenSMILE[23]和jAudio[21]。MIRtoolbox提供了一组功能,可以从音乐摘录中提取音乐特征,例如音色,音调和音高[1]。类似地,jAudio也是从音乐摘录中提取音乐相关特征的工具,包括谐波变化检测函数(hcdf)、模式、不和谐性、音调、色度图、键清晰度、速度和波动。OpenSMILE能够提取通常从音频信号的短时频谱获得的许多低级描述符(LLD)(例如,能量、MFCC、基于Mel的特征、音调和频谱特征(例如滚降、方差、质心、通量、偏斜度、斜率、峰度、扩展、减小、对比度)。在这项工作中,我们提取了低级别的功能与音色和能量与openSMILE工具包。对于每个音乐摘录,总共提取了7368个标准特征(openSMILE = 6553个特征,jAu- dio = 468个特征,MIRToolbox = 348个特征)。其中,n是子特征空间F中的特征的数量,tff是平均特征-特征互相关性,并且tcf是平均类-特征相关性。CFS使用对称信息增益计算tff和tcf4. 实验装置在这项研究中,我们进行了3类音乐情感分类,因为音乐摘录分布到三个象限的唤醒价平面的基础上的平均值的分布注释者的评级。利用不同的信息源进行特征提取。除了标准的音频特征之外,CNN还被用来使用对数梅尔滤波器组能量和MFCC来提取特征。在这项研究中,我们使用了四个卷积层,每个卷积层分别由64、128、128和128个滤波器组成,以产生特征映射。基本的模块,如;codeU和批量归一化是在每个卷积层之后实现的。在池化层中,有4个和3个最大池化层,以减少维数而不填充。此外,应用0.05的丢弃率以减少过拟合。选择学习率为0.0001的自适应矩估计(ADAM)[52]优化器来找到最佳特征。选择10个样本的批量大小用于训练CNN,并且在早期停止的情况下训练多达100个时期。此外,分类交叉熵被选为优化神经网络的损失函数。为了确定最相关的特征,我们应用CFS方法。所有的分类实验都是利用10倍交叉验证进行的。在10倍交叉验证中,数据集图第六章MFCC和Log-Mel滤波器组能量的提取S. Hizlisoy,S.Yildirim和Z.Tufekci工程科学与技术,国际期刊24(2021)760765PL简体中文1/4i被随机分成10等份之后,对数据进行分层,以获得所有训练集近似相同的类分布。然后,选择9个部分作为训练数据,剩余部分用于测试以计算错误率。这个过程重复10次,直到每个子集都被用作训练数据和测试数据。结果以平均准确度(Eq. (2)、回忆(Eq. 其中Ri是真正被分类为类别Ci的音乐摘录的数量的比率(Ci= HAPV,C2= HANV,并且C3=LANV)与数据中属于类别Ci的音乐摘录的数量的比率,精度Pi(等式4),其中Pi是指真正分类的音乐摘录的数量与分类器分类为类别Ci的音乐摘录的总数的比率,并且f-测量(等式5)用于多类别分类的每个类别,其中I、FNi、FPi、TNi和TPi是指类别、假阴性、假阳性、真阴性和真阳性的数量。然后通过对数据集的结果进行平均来计算除准确度之外的所有评估指标。LTPiTPiFNiFPiTNi电压精度<$i<$1×100Ω 2 ΩRTPi3TPi见图7。CFS从组合要素集中的每个要素类型中选择的要素数。表4使用不同特征集的LSTM + DNN架构的分类性能。P¼TP ið4ÞTPiFPiF2Pi RiPiRi5. 结果和讨论ð5Þ图7中给出了每个特征集的特征。从图中可以观察到,每一个特征都有特征选择首先,我们评估了分类性能的具有各种特征集的LSTM +DNN分类器。通过将不同的信息源馈送到CNN层来获得特征。这些信息源是分别标记为fea_set1和fea_set2的对数梅尔滤波器组能量和MFCC。 建议的特征集的分类性能是com-permitted的标准音频特征(fea_set3)从音乐摘录中提取。还评估了特征集的特征级组合和特征选择对分类性能的影响。所提出的分类器的性能在表4中以分类精度给出。最好的结果是通过组合特征集实现的。具体而言,通过组合新特征集(fea_set1和fea_set2)和标准特征集(fea_set3),性能从87.09%提高到91.93%,而不应用CFS,如表4所示。这一结果表明,新的功能提供了额外的判别信息的音乐情感识别。表3显示了每个特征集在特征选择过程之前和之后的特征数量结果表明,应用基于相关性的特征选择,特征集的大小大大减少。所选的fea-表3要素数和CFS为每个要素集选择的要素数。特征类型特征数所选功能Fea_set176861Fea_set276850Fea_set3736880Fea_set1 + Fea_set38136103Fea_set2 + Fea_set38136112Fea_set1 + Fea_set2 + Fea_set38904110集.此外,从表4可以看出,改进的性能通过采用特征选择来实现。如表4所示,在对组合特征集应用CFS之后,性能从92.74%增加到99.19%。这些结果表明,基于CNN提出的特征为音乐情感分类提供了额外的信息。针对表5中的标准特征集和表6中的组合特征集,将LSTM+ DNN分类器的性能与SVM、k-NN和随机森林分类器进行了比较。表5中的结果显示,对于标准特征集,在应用CFS之后,LSTM + DNN产生了3.23、2.42和0.81分的改进在音乐情感识别准确率方面,分别与k- NN、SVM和随机森林分类器进行了比较。对于组合特征集1.61、1.61和3.23点,实现了改进。从表5和表6中可以看出,LSTM + DNN分类器在准确率、召回率、精确度和f度量方面比SVM、k-NN和随机森林分类器给出了更好的结果。详细的分类结果为每个情绪类别(HAPV=高唤醒积极效价,HANV =高唤醒消极效价,LANV =低唤醒消极效价)的每个类别,表7中给出了因子。6. 结论在本文中,我们实现了基于深度学习的土耳其音乐情感识别架构。建立了一个由124首土耳其传统音乐选段组成的土耳其情感音乐数据库,以评价该方法的可行性。音乐摘录被标注在效价和唤醒维度上。我们使用了3类音乐情感,因为分类音乐摘录是根据注释者的平均分布分为三个象限的,特征完整功能集适用CFSFea_set187.0993.54Fea_set290.3296.77Fea_set387.0992.74Fea_set1 + Fea_set388.7098.38Fea_set2 + Fea_set388.7096.77Fea_set1 + Fea_set2 + Fea_set391.9399.19我S. Hizlisoy,S.Yildirim和Z.Tufekci工程科学与技术,国际期刊24(2021)760766表5在使用标准特征的准确性方面,在特征选择之前和之后,所提出的方法与其他分类器的性能比较(fea_set3)。k-NN随机森林SVMLSTM + DNN完整功能集CFS完整功能集CFS完整功能集CFS完整功能集CFS精度83.8789.5187.0991.9387.0990.3287.0992.74F-measure0.8390.9040.8430.9180.8660.9050.8640.926精度0.8400.9190.8440.9170.8620.9070.8610.925召回0.8390.8950.8710.9190.8710.9030.8710.927表6在特征选择之前和之后,所提出的方法与其他分类器的性能比较方面的精度使用组合特征set(fea_set1 + fea_set2 + fea_set3)。k-NN随机森林SVMLSTM + DNN完整功能集CFS完整功能集CFS完整功能集CFS完整功能集CFS精度88.7097.5887.9095.9689.5197.5891.9399.19F-measure0.8780.9760.8520.9570.9040.9740.9150.992精度0.8740.9780.8540.9610.9190.9760.9150.992召回0.8870.9760.8790.9600.8950.9770.9190.992表7分类器在使用组合特征集进行特征选择之前和之后在每个类的召回率、精度和f-度量方面的性能(fea_set1 + fea_set2 + fea_set3)。完整功能集CFS召回精度F-measure召回精度F-measureHAPV0.9600.8890.9230.9731.0000.986k-NN汉夫0.2730.4290.3330.9091.0000.952雇员协会0.9210.9720.9461.0000.9270.962HAPV0.9730.8590.9130.9870.9490.967RF汉夫0.0910.5000.1540.6361.0000.778雇员协会0.9210.9460.9331.0000.9740.987HAPV0.9740.9250.9491.0001.0001.000SVM汉夫0.3030.5500.4450.7271.0000.842雇员协会0.9870.8810.9311.0000.9620.980LSTM + DNNHAPV0.9730.9240.9481.0000.9870.993汉夫0.5450.7500.6320.9091.0000.952雇员协会0.9210.9460.9331.0001.0001.000评估。采用1D-CNN结构,使用对数梅尔滤波器组能源和MFCs。实验结果表明,在标准音频特征的基础上增加新的特征可以提高分类性能.特征选择的效果也进行了研究。通过采用基于相关性的特征选择方法减小特征尺寸,提高了性能在本文中,我们还进行了实验,将LSTM + DNN分类器架构的性能与其他分类器进行了比较,从而获得了更好的性能。将来,我们将增加数据库的大小,以包括来自低唤醒阳性效价(LAPV)象限的样本。我们也将评估系统与不同的数据库,并探讨跨数据库的性能的方法。竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。引用[1] R. Panda,R.P. Paiva,在音频音乐中使用支持向量机进行自动情绪跟踪,在:第130届音频工程。Soc. Conv. 2011年2011年[2] Y.冯,Y. Zhuang,Y.广西壮族自治区Pan,通过检测情绪进行流行音乐检索,在:SIGIR 论 坛 ( ACM Spec.Interes 。 Gr. Inf. Retrieval ) , 2003 : pp. 375-376.https://doi.org/10.1145/860500.860508.[3] J.A. Russell , A circumplex model of affect , J. Soc. Psychol. ( 1980 ) ,doi.org/10.1037/h0077714.[4] R.E. Thayer,Modern Perspectives on Mood,in,Biopsychology Mood Arousal(1989).[5] S. Mo,J. Niu,A Novel Method Based on OMPGW Method for Feature Extraction在 自 动 音 乐 情 绪 分 类 , IEEE trans.Affect 。Comput.3045 ( 2017 ) ,https://doi.org/10.1109/TAFFC.2017.2724515。[6] L. Lu,L.刘宏军,张宏军,音乐音频信号的自动情绪检测与跟踪,IEEE音频,语音语言处理。14(2006)5-18,https://doi. org/10.1109/TSA.2005.860344。[7] Y.H. 杨耀昌林英芬<英>香港实业家。,1930--人Su,H.H.陈文,一种音乐情感识别的回归方法16(2008)448https://doi.org/10.1109/TASL.2007.911513[8] R.马列罗河Panda,P. Gomes,R.P. Paiva,用于音乐歌词分类和回归的概念相关特征,IEEETrans.Affect。Comput.9(2018)240https://doi.org/10.1109/TAFFC.2016.2598569[9] R. Panda,R.P. Paiva,音乐情感分类:数据集采集和比较分析,第15届国际音乐节,Conf. 数字。音频效应DAFX 2012 Proc.(2012年)。[10] R. 潘 达 湾 Rocha , R.P. Paiva , 具 有 标 准 和 旋 律 音 频 特 征 的 音 乐 情 感 识 别 ,Appl.Artif。内特尔29(2015)313https://doi.org/[11] Y.C.林永宏杨惠熙<英>来华传教士。Chen,Exploiting online music tags for musicemotion classification , ACM Trans , Multimed 。 Comput. Commun. 7 S(2011),https://doi.org/10.1145/2037676.2037683。[12] A. Aljanaki音乐中的情感:表示和计算建模2016 149[13] H.H.杨怡萱、陈文,CRC出版社,美国,音乐情感识别,2011。[14] M. Soleymani,M.N.卡罗,E.M.施密特,C.Y. Sha,Y.H.杨,《1000首歌曲的音乐情感分析》,CrowdMM,第二届ACM国际工作会议论文集。众包多时间。2013(2013)1https://doi.org/10.1145/[15] 是的陈永宏杨俊昌王海Chen用于音乐情感识别的AMG 1608数据集,ICASSP IEEEInt.Conf. 声音。语音信号处理。- -一种Proc. 2015-Augus(2015)693 697 10.1109/ICASSP.2015.7178058[16] J.F. Gemmeke,D.P.W. Ellis,D. Freedman,A.詹森,W。 R.C.劳伦斯摩尔,M. Plakal,M. Ritter,Audio Set:An ontology and human-labeled datasetfor audio events , ICASSP , IEEE Int. Conf. Acoust. 语 音 信 号 处 理 。 -(2017)776https://doi.org/10.1109/ICASSP.2017.7952261S. Hizlisoy,S.Yildirim和Z.Tufekci工程科学与技术,国际期刊24(2021)760767[17] D. de Benito-Gorron , A. Lozano-Diez , D.T. Toledano , J. Gonzalez-Rodriguez,在大型音频数据集中探索用于语音和音乐检测的卷积,递归和混合深度 神 经 网 络 , Eurasip , J. 音 频 、 语 音 、 音 乐 处 理 。 2019 ( 2019 )1https://doi.org/10.1186/s13636-019-0152-[18] A. Aljanaki,Y.H.杨,M.Soleymani,开发音乐情感分析的基准12(2017)1https://doi.org/10.1371/journal。pone. 0173392.[19] G. Tzanetakis湾Tzanetakis,音频信号的处理、分析和检索系统,电子期刊。Univ.Princeton,NJ,2002,p. 198.[20] A. de Cheveigné , H. Kawahara , YIN , 用 于 语 音 和 音 乐 的 基 频 估 计 器 , J.Acoust。美国社会(2002),https://doi.org/10.1121/1.1458024。[21] C. 哈特,M.Sandler,M.高晓松,音乐声音中谐波变化的检测会议展览(2006)21https://doi.org/10.1145/[22] O. Lartillot P. Toiviainen Mir in matlab (II ):A toolbox for musical featureextraction from audio,Proc. 8th Int Conf. Music Inf. Retrieval,ISMIR 2007,2007,127 130[23] C. McKay jAudio : Towards a standardized extensible audio music featureextractionsystem2005.加拿大麦吉尔大学http://citeseerx.istpsu.edu/viewdoc/download? doi=10.1.1.148.5866 rep=rep1 type=pdf[24] E. Pampalk , A. Rauber , D. Merkl , 基 于 内 容 的 音 乐 档 案 组 织 和 可 视 化 ,Proc.ACMInt.Multimed。会议展览(2002)570https://doi.org/10.1145/641118.641121[25] F. 艾 本 湾 Schuller , openSMILE : ) , ACM SIGMultimedia Rec.6 ( 2015 )4https://doi.org/10.1145/2729095.2729097[26] B. Mathieu,S. Essid,T.作者:J. Richard,Yaafe,一个易于使用和高效的音频特征提取软件,Proc.11th Int,Soc.Music Inf.Retr。Conf. ISMIR(2010,2010,)441-446.[27] G. Tzanetakis , P. Cook , MARSYAS : A Framework for Audio Analysis ,Organised Sound. 4(2000)169https://doi.org/10.1017/S1355771800003071[28] R.萨卡尔,S。Choudhury,S.杜塔A。Roy,S.K. Saha,基于深度卷积神经网络的音乐情感识别,Multimed。Tools Appl.(2019),https://doi.org/10.1007/s11042-019-08192-x.[29] A.L. Maas,P. Qi,Z. Xie,A.Y. Hannun,C.T. Lengerich,D. Jurafsky,A.Y.Ng , Building DNN acoustic models for large vocabulary speech recognition ,Comput.Speech Lang.41(2017)195 https://doi.org/10.1016/j. csl.2016.06.007网站。[30] L. 圣 玛 丽 亚 - 格 拉 纳 多 斯 湾 Munoz-Organero , G. Ramirez-Gonzalez , E.Abdulhay,N. Arunkumar,使用深度卷积神经网络对生理信号数据集进行情绪检测(AMIGOS),IEEE访问。7(2019)57https://doi.org/10.1109/ACCESS.2018.2883213[31] K. 西蒙尼扬河Zisserman Very Deep Convolutional Networks for Large-ScaleImage Recognition 2014 1 14http://arxiv.org/abs/1409.1556[32] S. Abdoli,P. Cardinal,A. Lameiras Koerich,使用1D卷积神经网络进行端到端环境声音分类,ExpertSyst.Appl.(2019),https://doi.org/10.1016/j.eswa.2019.06.040。[33] X. 刘 , 智 - 地 Chen , X. Wu , Y. Liu , Y. Liu , 基 于 CNN 的 音 乐 情 感 分 类 ,(2017)。 http://arxiv.org/abs/1704.05665。[34] T.柳湖,加-地汉湖,澳-地Ma,D.郭,基于音频的深度音乐情感识别,AIP Conf.Proc. 1967(2018),https://doi.org/10.1063/1.5039095。[35] C.- W.黄胜胜Narayanan在深度卷积递归神经网络中表征卷积类型以实现鲁棒语音情感识别2017 1 20http://arxiv.org/abs/1706.02901[36] P. Tzirakis,G. Trigeorgis,文学
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建Cadence PSpice仿真模型库教程
- VMware 10.0安装指南:步骤详解与网络、文件共享解决方案
- 中国互联网20周年必读:影响行业的100本经典书籍
- SQL Server 2000 Analysis Services的经典MDX查询示例
- VC6.0 MFC操作Excel教程:亲测Win7下的应用与保存技巧
- 使用Python NetworkX处理网络图
- 科技驱动:计算机控制技术的革新与应用
- MF-1型机器人硬件与robobasic编程详解
- ADC性能指标解析:超越位数、SNR和谐波
- 通用示波器改造为逻辑分析仪:0-1字符显示与电路设计
- C++实现TCP控制台客户端
- SOA架构下ESB在卷烟厂的信息整合与决策支持
- 三维人脸识别:技术进展与应用解析
- 单张人脸图像的眼镜边框自动去除方法
- C语言绘制图形:余弦曲线与正弦函数示例
- Matlab 文件操作入门:fopen、fclose、fprintf、fscanf 等函数使用详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功