CLDNN架构在土耳其情感音乐识别中的应用与新数据库构建

0 下载量 15 浏览量 更新于2025-01-16 收藏 932KB PDF 举报
"这篇研究论文提出了一种基于卷积长短期记忆深度神经网络(CLDNN)的音乐情感识别方法,特别针对土耳其情感音乐数据库。文章构建了一个包含124段30秒土耳其传统音乐的新数据库,并在此基础上评估了所提议的识别系统。通过结合标准声学特征和通过卷积神经网络(CNN)层处理的对数梅尔滤波器组能量和梅尔频率倒谱系数(MFCC)特征,系统在10倍交叉验证中达到了99.19%的总体准确度,比其他传统分类器如k-最近邻(k-NN)、支持向量机(SVM)和随机森林有显著提升。" 在文章中,研究人员首先介绍了音乐情感识别(MER)的重要性,它作为音乐信息检索(MIR)的一部分,旨在利用机器学习和信号处理技术来解析音乐的情感内容。建立这样的系统面临的主要挑战包括情感标注、特征提取和选择合适的分类算法。 接着,文章详述了所构建的土耳其情感音乐数据库,这是一个专门用于音乐情感研究的独特资源,包含124段30秒的土耳其传统音乐样本。为了提取音乐特征,研究者不仅使用了传统的声学特征,还创新性地利用了CNN来处理对数梅尔滤波器组能量和MFCC,这有助于捕获音乐的更深层次结构。 然后,他们提出了一种融合了LSTM和DNN的分类器,该分类器在处理这些新特征时表现出色。通过10次交叉验证,该系统实现了99.19%的整体准确率,对比k-NN、SVM和随机森林分类器,其性能提升了1.61%到3.23%不等,证明了CLDNN架构的有效性和优越性。 最后,研究强调了这种深度学习方法在音乐情感识别领域的潜力,尤其是在处理特定文化和风格的音乐时,为音乐推荐系统、自动播放列表生成和音乐治疗等领域提供了更为精准的情感理解工具。 这篇研究展示了深度学习技术如何能够增强音乐情感分析的准确性,尤其是在面对特定文化背景的音乐时,同时提出了一个新的数据库和特征提取方法,为未来的研究提供了宝贵的资源和参考。