没有合适的资源?快使用搜索试试~ 我知道了~
音乐流派分类方法及其有效性
Egyptian Informatics Journal(2012)13,59开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com原创文章探索音乐流派分类Antonio Jose Homsi Goulart,Rodrigo Capobianco Guido*,Carlos Dias Maciel收稿日期:2011年12月31日;修订日期:2012年3月6日;接受日期:2012年2012年4月18日在线提供摘要在这封信中,我们提出了不同的音乐流派分类方法。所提出的技术由特征提取阶段和随后的分类过程组成,探索用作输入的参数的变化和分类器架构。对三种音乐风格进行了测试,即蓝调,古典和休闲音乐,这被一些音乐家非正式地认为是音乐流派之间的“大划分者”,显示了所提出的算法的有效性,并建立了每种音乐风格和每个分类器的每组参数之间的相关性。与其他作品不同,熵和分形维数是分类所采用的特征©2012计算机和信息学院,开罗大学。由爱思唯尔公司制作和主持All rights reserved.1. 介绍许多事实使得自动音乐流派分类(AMGC)智能系统在当今至关重要。在电脑上下载和存储音乐文件的方便性,互联网上大量的专辑,免费或付费-*通讯作者。电子邮件地址:guido@ieee.org(R.C. Guido)。1110-8665© 2012计算机和信息学院,开罗大学。制作和主办Elsevier B.V.保留所有权利。开罗大学计算机和信息系负责同行审查。http://dx.doi.org/10.1016/j.eij.2012.03.001负载、对等服务器以及当今艺术家故意在他们的网站上分发他们的歌曲的事实,使得mu-sic数据库管理成为必须。另一个最近的趋势是通过流媒体消费音乐,提高了基于流派偏好播放类似歌曲的在线广播电台的受欢迎程度。此外,在网络上按流派浏览和搜索,以及在个人便携式音频播放器上的千兆字节歌曲中选择特定曲调的智能播放列表生成,都是促进音乐挖掘的重要任务另一方面,正如前面所描述的,音乐流派的分类是一项模糊和主观的任务。 此外,这也是一个受到质疑的研究领域,要么是因为分类准确性低,要么是因为有人说,人们无法对甚至没有明确定义的类型进行分类[1尽管如此,最终用户已经习惯于按流派浏览物理和在线音乐收藏,并且这种方法被证明至少是合理有效的。特别是,最近的一项调查[1]发现,终端用户更倾向于按类型而不是按推荐、艺术家相似性或音乐相似性进行浏览和搜索,尽管这些制作和主办:Elsevier关键词音乐体裁分类;熵;分形;小波;支持向量机60AJ H Goulart等人替代品也都很受欢迎。另一项研究[2]表明,体裁对听众来说非常重要,一件作品比作品本身更能激发人们对它的喜爱。最后,[3]表明范畴化在音乐欣赏和认知中起着重要作用考察了第二节中描述的作品,加上人们的一般印象,我们发现,没有人反对这样一个事实,即在某首歌中注意到的不规则程度可能是其流派的标志。此外,当考虑信息在其中的分布时,即,例如,一首古典歌曲似乎比同一时间段的儿童旋律有更多的“信息”或内容。因此,用分形维数和熵来表征信号的这些性质是有效的假设。基于这一观点,我们研究了它们在AMGC中的性能。本工作的其余部分组织如下。第二部分回顾了音乐流派分类技术的文献,涵盖了该领域的最新技术。第3节详细描述了所提出的方法。第4节列出了我们采用的不同分类方案、输入参数和音乐风格进行的测试。最后,在第5节中给出了有益的评论和结论,表明取得了显著的成果,有力地促进了这一领域的进一步研究2. 文献综述McKay和Fujinaga[4]详细阐述了为什么研究人员应该继续努力加强AMGC领域的论文。他们指出的问题与分类中的模糊性和主观性以及音乐风格的动态性手动分类唱片需要大量的专业知识和时间,而且在按流派分类音乐时,人类注释者之间的一致性也有限。很少有流派有明确的定义,它们之间往往有很大的重叠。此外,分类往往是由艺术家或专辑,而不是由个人录音,和元数据中发现的mp3标签往往有不可靠的注释。最后,新的体裁定期推出,对现有体裁的理解随着时间的推移而变化。Dannenberg等人的开创性工作。[5]基于朴素贝叶斯和神经网络方法,确定了音乐家即兴创作的四种风格之一。他们测试的是表演者的能力,不断产生故意和不同的风格。本集团精心制作数据库以培训分类员,并在四种风格之间分类时达到98%的准确率。当使用八个分类器,训练返回该领域的另一个经典作品是Tzanetakis和Cook的作品[6]。他们提出了三种不同的特征集来表示音色纹理,节奏和音高内容。使用短时傅立叶变换(STFT)、Mel频率倒谱系数(MFCC)、小波变换(WT)[7]和一些附加参数来获得特征向量。有了这些向量,他们可以通过使用真实世界的音频集合来训练统计模式识别分类器,例如简单高斯,高斯混合模型和k-最近邻[7]。他们对10种音乐类型的正确分类率为61%。Li等人[8]对音色纹理、节奏内容特征和音高内容特征与基于Daubechies小波系数直方图(DWCH)的特征进行了比较研究。对于分类,他们使用了支持向量机(SVM),线性判别分析(LDA)和其他一些学习方法。 他们还测试了一对多(OAA)和循环(RR)方法的使用。他们使用音乐的第一秒和中间部分进行测试。当使用DWCH特征和基于OAA方法的SVM分类器时,实现了最佳的整体准确性(74.2%),该测试是用歌曲的中间部分(第31Ezzaidi和Rouat[9]提出了两种方法。他们把音乐片段分成帧,然后从平均光谱能量中得到MFCC.最后,为了比较的目的,他们使用高斯混合模型(GARCH)[10],获得了最高99%的识别率。Silla等人。[11]根据时空分解维度,采用了从音乐的开始、中间和最后部分的不同时间段采用了朴素贝叶斯、决策树、k近邻、支持向量机和多层感知器神经网络。最好的准确率是65.06%时,使用轮循时空Panagakis和Kotropoulos[12]提出了一个音乐流派分类框架,该框架考虑了人类听觉感知系统的特性,即,基于稀疏表示的音乐和流派分类的2D听觉时间调制。他们获得的准确性超过了GTZAN和IS-MIR 2004数据集报告的任何比率,即,91%和93.56%。Paradzaniel等人[13]探索了声学信息、节拍相关和音色特征。为了获得声学信息,他们使用了通过对人类听觉滤波器进行建模而增强的分段高斯建模(PGM)特征。为此,他们获得了PGM特征,然后应用临界频带滤波器,等响和特定响度感觉。 为了提取与心跳相关的特征,他们使用小波变换,得到二维心跳直方图。对于音色特征,他们收集了所有检测到的音符及其谐波的相对幅度在其他问题中,他们的结果显示:(i)当使用感知动机的PGM而不是基本的PGM时,准确率为43%对40.6%;(ii)为每种类型训练不同的NN这表明,在这一领域已经做了大量的工作,但大多数方法都是探索音色结构,节奏内容,音高内容或它们的组合。如上所述,我们的工作探索了熵和分形维数的使用,从而消除了和声,旋律,节拍和速度等音乐信息的使用。信息理论的概念是我们方法的基础3. 所提出的方法我们的方法包括一个特征提取阶段,然后是一个分类步骤。在测试的第一阶段,我们采用了五个分量的特征向量。这些特征探索音乐流派分类的不同方法61-直接从数字音乐文件中提取。特别地,每首歌曲被分成1024个样本的帧,其中连续帧之间有50%的重叠。然后,对于每个帧,我们通过能量方法计算熵(E)[14],即,1P023其他案件。第二个被训练在古典音乐的情况下返回1,第三个在休闲音乐的情况下返回1。第二类分类器也使用了三个SVM,但是训练每个SVM在识别其类型时返回1,从不返回1。在每种测试中使用了时间和频率特征向量。当我们用频率值得到更好的结果时,在第二种SVM架构中,分形维数-i¼0pilog2pilog1采用Sion作为特征向量中的第六元素, 进行了一项初步测试,以检查这些额外的信息是否会P是总信号能量的比例,即,该en-帧的能量除以整个信号的能量。采用这一标准是因为它比振幅和频率方法更稳定。一旦我们有了每帧的熵值,我们就可以形成特征向量,由以下组成:– 特征1:每个音乐帧的熵的平均熵。– 特征2:每个音乐帧的熵的标准差。– 特征3:每个音乐帧的所有熵中的最大熵。– 特征4:每个音乐帧的所有熵中的最小熵。– 特征5:音乐信号的连续帧之间的最大熵差。在进行所有测试之后,我们采用第六个元素作为特征向量,即通过盒计数法[15]在时域上获得的每帧的分形维数。然后,使用先前参数的最佳组合(包括这个新参数)和最佳分类器架构进行新的实验。在所有的测试中,我们使用了90首同样分为三种不同类型的曲调,即蓝调,古典音乐和休闲音乐。所有的歌曲都是从CD上撕下来的,44.1 kHz采样率,16位分辨率,波形格式。特征提取的第一阶段基于时间分析。熵值直接从波文件中提取。在第二步中,我们通过离散小波变换将歌曲样本转换到对于最终测试,通过盒计数法在时域上再次获得每帧的分形维数。分类阶段基于组合SVM的使用[7]。第一种类型的分类器基于三个SVM的训练。每个人都被训练在蓝调,古典或休息室的情况下分别返回值1,改善分类。4. 测试和结果歌曲分为训练和测试阶段。使用10%的每种风格进行训练,剩下90%用于测试;使用20%进行训练,允许使用80%进行测试,依此类推,直到90%用于训练,10%用于测试。一首用于训练的歌曲从来没有用于测试。在每一轮中,每一步的曲调都是随机指定的。测试使用了五种配置。第一个(结果如表1所示)包括时域特征提取和第一类分类器。第二个测试(表2)也是使用时域进行的,但使用的是第二类分类器。第三个实验(表3)使用第一种类型的频域特征提取和分类器进行。对于第四个测试(表4),我们使用频域特征提取,然后进行第二类分类。结果表明,在频域上提取的特征具有较高的分类精度。我们还可以注意到,用一种特定的流派训练每个SVM而不提及其他流派,比教分类器什么是流派,什么不是更好,正如我们在表格中观察到因此,我们使用我们获得的最佳组合(频域特征提取和第二类分类器)进行了一次分形测试(表5),并将分形维数作为特征向量中的第六个元素。总体而言,我们认为基于频率的参数比基于时间的参数显示出更好的结果。特别是,分形维数对分类没有贡献,在准确性方面恶化了结果,因此,它不被认为是区分音乐流派的好参数。另一个有趣的事实是,所提出的分类架构基于M个独立的SVM,M是音乐风格的数量,改进了传统的基于一个或几个分类器的分类方案。表1根据时间特征和分类器的第一个架构获得的分类,如文中所述。在每一列中,我们在括号中显示了属于每一种风格的歌曲数量。粗体显示的值对应于我们观察到的更高精度。培训测试准确蓝调准确度经典Accuracy酒廊10%(3)90%(27)21/27= 77.8%25/27= 92.6%14/27= 51.8%20%(6)80%(24)22/24= 91.8%20/24= 83.3%8/24= 33.3%30%(9)70%(21)17/21= 80.9%17/21= 80.9%10/21= 47.6%40%(12)百分之六十(十八)13/18= 72.2%13/18= 72.2%9/18= 50%百分之五十(十五)百分之五十(十五)12/15= 80%11/15= 73.3%13/15= 86.8%百分之六十(十八)40%(12)7/12= 58.3%8/12= 66.8%6/12= 50%70%(21)30%(9)8/9= 88.9%8/9= 88.9%6/9= 66.8%80%(24)20%(6)3/6= 50%2/6= 33.3%1/6= 16.8%90%(27)10%(3)2/3= 66.8%2/3= 66.8%0/3= 0%62AJ H Goulart等人表2 用时间特征和第二类分类器获得的分类培训测试准确蓝调准确度经典Accuracy酒廊10%(3)90%(27)10/27= 37%25/27= 92.6%23/27= 85.2%20%(6)80%(24)9/24= 37.5%19/24= 79.2%16/24= 66.7%30%(9)70%(21)13/21= 61.9%15/21= 71.4%20/21= 95.2%40%(12)百分之六十(十八)11/18= 61.1%15/18= 83.3%17/18= 94.5%百分之五十(十五)百分之五十(十五)7/15= 46.8%14/15= 93.3%9/15= 60%百分之六十(十八)40%(12)4/12= 33.3%10/12= 83.3%5/12= 41.8%70%(21)30%(9)3/9= 33.3%9/9= 100%4/9= 44.5%80%(24)20%(6)3/6= 50%6/6= 100%3/6= 50%90%(27)10%(3)1/3= 33.38%2/3= 66.8%3/3= 100%表3利用频域特征和第一类分类器获得的分类。培训测试准确蓝调准确度经典Accuracy酒廊10%(3)90%(27)14/27= 51.8%23/27= 85.2%25/27= 92.6%20%(6)80%(24)16/24= 66.8%16/24= 66.8%19/24= 79.2%30%(9)70%(21)18/21= 85.8%10/21= 47.6%13/21= 61.9%40%(12)百分之六十(十八)12/18= 66.8%15/18= 83.3%11/18= 61.1%百分之五十(十五)百分之五十(十五)10/15= 66.8%11/15= 73.3%8/15= 53.3%百分之六十(十八)40%(12)7/12= 58.3%8/12= 66.8%8/12= 66.8%70%(21)30%(9)9/9= 100%6/9= 66.8%7/9= 77.8%80%(24)20%(6)6/6= 100%4/6= 66.8%3/6= 50%90%(27)10%(3)3/3= 100%2/3= 66.8%3/3= 100%表4用频域特征获得的分类和第二类。培训测试准确蓝调准确度经典Accuracy酒廊10%(3)90%(27)23/27= 85.1%24/27= 88.8%24/27= 88.8%20%(6)80%(24)19/24= 79.2%16/24= 66.8%19/24= 79.2%30%(9)70%(21)17/21= 80.9%18/21= 85.8%18/21= 85.8%40%(12)百分之六十(十八)13/18= 72.2%16/18= 88.8%15/18= 83.3%百分之五十(十五)百分之五十(十五)12/15= 80%13/15= 86.6%12/15= 80%百分之六十(十八)40%(12)10/12= 83.3%11/12= 91.8%10/12= 83.3%70%(21)30%(9)7/9= 77.8%8/9= 88.8%7/9= 77.8%80%(24)20%(6)6/6= 100%4/6= 66.8%3/6= 50%90%(27)10%(3)3/3= 100%2/3= 66.8%3/3= 100%表5 以分形维数作为新的特征和第二类分类器,利用频域特征进行分类培训测试准确蓝调准确度经典Accuracy酒廊10%(3)90%(27)18/27= 66.8%18/27= 66.8%26/27= 96.3%20%(6)80%(24)18/24= 75%16/24= 66.8%20/24= 83.3%30%(9)70%(21)16/21= 76.2%16/21= 76.2%19/21= 90.5%40%(12)百分之六十(十八)13/18= 72.2%11/18= 61.1%15/18= 83.3%百分之五十(十五)百分之五十(十五)13/15= 86.6%13/15= 86.6%15/15= 100%百分之六十(十八)40%(12)8/12= 66.8%11/12= 91.8%10/12= 83.3%70%(21)30%(9)6/9= 66.8%9/9= 100%7/9= 77.8%80%(24)20%(6)5/6= 83.3%6/6= 100%5/6= 83.3%90%(27)10%(3)3/3= 100%3/3= 100%3/3= 100%5. 结论在这篇文章中,我们描述了一种基于一些特定参数和一组探索音乐流派分类的不同方法63SVM的音乐流派分类组合算法。我们的分类器提供了最高100%的准确率,但需要整个数据库的80%另一方面,当只使用10%的数据库来训练它时,正确识别率从51.8%变化到92.6%。因此,尽管通过使用数据库的相当大一部分进行训练达到了完全准确性,但适度的训练数据集足以产生强大的分类率,即,建议的AP-64AJ H Goulart等人proach展示了突出的结果,具有相当大的推广能力。在计算成本方面,由于DWT计算,所提出的基于频率的方法需要额外的努力来运行,然而,如上所述,它呈现了更好的结果。无论如何,基于频率和基于时间的实现都相当快,允许基于数字信号处理器(DSP)或现场可编程门阵列(FPGA)的实时使用。引用[1] Lee JH,Downie JS.音乐信息需求,使用和寻求行为的调查:初步发现。收录于:音乐、信息检索国际会议论文集;2004年。[2] 北AC,哈格里夫斯DJ。喜欢音乐风格。音乐科学1997;1(1):109[3] Tekman HG,Hortacsu N.文体知识方面:不同的文体是什么样的,我们为什么要听它们?《心理学与音乐》2002;30(1):28[4] McKay C,Fujinaga I.音乐类型分类:值得追求吗?如何改进?收录于:第七届国际音乐、信息检索会议(ISMIR-06);2006年。[5] 放大图片作者:Dannenberg RB,Thom B,Watson D.音乐风格识别的机器学习方法。收录于:国际计算机音乐会议论文集; 1997年。p. 344-7[6] Tzanetakis G,Cook P.音频信号的音乐类型分类。IEEE跨语音音频处理2002;10(5):293[7] 放大图片作者:Duda RO,Hart Peter E,Stork David G.模式分类。 第2版,John Wiley Sons; 2001年。[8] 李T,荻原M,李Q.基于内容的音乐体裁分类的比较研究。在:第26届年度国际ACM SI-GIR会议上的研究和开发信息检索。Toronto:ACM Press.p. 282-9[9] Ezzaidi H,Rouat J.使用发散和平均信息测量的自动音乐流派分类。2006年世界科学、工程与技术学会研究报告[10] Deng L,O'shaugnessy D,Deng Deng.语音处理:一种动态优化方法。Marcel Dekker; 2003.[11] Silla Jr CN,Koerich AL,Kaestner CAA.一种自动音乐流派分类的机器学习方法J Braz Comput Soc 2008;14(3).[12] Panagakis Y,Kotropoulos C,Arce GR通过听觉时间调制的稀疏 表 示 进 行 音 乐 流 派 分 类 。 第 17 届 欧 洲 信 号 处 理 会 议(EUSIPCO); 2009年。[13] 放大图片作者:J. 多专家系统的自动音乐流派分类。。研究报告;2009年。[14] Cover T,Thomas J.信息论的要素第2版,John Wiley Sons;2006年。[15] 阿凯迪分形语音处理北京:清华大学出版社.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功