没有合适的资源?快使用搜索试试~ 我知道了~
尼日利亚歌曲流派分类的机器学习研究及结果分析
沙特国王大学学报用机器学习模型萨基纳特岛放大图片创作者:A.Abolabib,Adeoye B.奥沃德依阿a尼日利亚奥贡州Ago-Iwoye Olabisi Onabanjo大学数学科学系bAfrica4AI,约翰内斯堡,南非阿提奇莱因福奥文章历史记录:2021年4月30日收到2021年7月8日修订2021年7月9日接受2021年7月15日在线提供保留字:音乐类型分析SHAP音色纹理速度分类A B S T R A C T音乐信息检索(MIR)是从音乐中提取高层次信息的任务,如流派,艺术家体裁分类是MIR的一个重要且快速发展的研究领域。迄今为止,只有少量的研究工作已经完成了对尼日利亚歌曲的自动流派分类。因此,本研究提出了一个新的音乐数据集,即ORIN数据集,仅由尼日利亚歌曲组成该研究数据集包含来自五个流派的478首尼日利亚传统歌曲:富士,juju,highlife,waka和apala。音色纹理和节奏特征是使用Librosa Python库从每首歌曲的30秒片段中挖掘出来的对于流派分类,ORIN数据集在4个不同的分类器上进行训练-k-最近邻,支持向量机,极端梯度提升(XGBoost)和随机森林-具有85-对五种不同体裁的分类结果表明,XGBoost分类器是一个更好的模型,具有最高的准确率为81.94%,召回率为84.57%。本研究使用全局均值(Tree SHAP)方法来确定特征重要性和对分类模型的影响。对个别流派的进一步分析发现,一些流派之间的音色属性有一定的接近性。这一分析得到了人类观察的证实。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍音乐用于愉悦、娱乐和放松,并且具有广泛的影响,包括社会和生理的影响(Eerola等人,2018年; Li等人,2003; Ramji等人,2019年)的报告。MIR是一项具有挑战性的任务,它将歌曲组织成具有相似特征的集群,这些集群可以根据其应用领域进行不同的处理(Corröea和Rodrigues,2016)。MIR中常见的一些组的例子是流派,情绪和艺术家(Fu等人,2011年)。音乐体裁的演变导致体裁重叠,这使得体裁分类成为一个复杂而具有挑战性的问题。该任务通常涉及两个阶段:音频特征提取和机器学习(ML)建模。梅尔频率频谱系数(MFCC)广泛用于音乐*通讯作者。电 子 邮 件 地 址 : sakinat. oouagoiwoye.edu.ng ( S.O.Folorunso ) , Sulaimon.Africa4AI.com(S.A. Afolabi),hardehoyeh001@gmail.com(A.B.Owodei)。沙特国王大学负责同行审查体裁分类,因为它们易于实现和鲁棒的噪音。使用梅尔倒频谱频率,可以捕捉到的人耳的音乐歧视是检查(洛根,2000年),他发现梅尔规模适合音乐建模。据我们所知,本文是第一次探索的任务,传统的尼日利亚音乐的自动音乐流派分类。音乐流派分类是MIR的一个研究领域,但仍然通过将其添加到音频文件的元数据来手动完成尼日利亚音乐然而,这项任务是耗时和主观的。在Tzanetakis和Cook(Tzanetakis和Cook,2002)关于体裁分类的早期工作中,作者创建了GTZAN数据集。他们提出了基于信号处理的音色纹理,节拍相关和音高特征来表示GTZAN音乐数据库中的歌曲。然后,他们应用ML模型进行类型分类,分类准确率为61%。其他早期工作,如Li等人的工作(Li等人,2003年),使用其他特征提取方法:Daubechies小波系数直方图在不同的ML模型上实现78.5%的分类准确率GTZAN数据集。对于非西方音乐,Martins de Sousa等人(Martinsde Sousa等人,2016)提出从GTZAN中提取频谱、时域、音调、节奏、音效和高级特征,并提出巴西音乐数据集(MBD),https://doi.org/10.1016/j.jksuci.2021.07.0091319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comS.O. Folorunso,S.A. Afolabi和A.B. 奥沃德伊沙特国王大学学报6267ð Þ ð Þð Þ¼ð ÞÞ半]X¼2-半]半]不不分类使用支持向量机(SVM)。在GTZAN和MBD数据集上分别获得了79.7%和86.11%的平均值。Bahuleyan(Bahuleyan,2018)从音频数据集生成频谱图(Gemmeke等人,2017),并使用卷积神经网络(CNN)模型进行学习,准确率为63%。他还提取了光谱和时域特征,并在四个分类器上学习,其中XGBoost达到了59%的最佳准确率。Pye(2000)提出了一种新的参数化MP3CEP,它基于MPEG Layer III音频的部分解压缩来从音乐中提取特征,并与MFCC特征进行了比较。在MP3CEP中,使用GMM模型挖掘特征的准确率最高达到92%。这些研究说明了通过提取音乐中固有的特征并应用非刚性设计算法将音乐分配到各种流派中的非手动可能性然而,正如在这些研究中所看到的,通过应用ML的不同技术来提高分类性能还有很大的空间因此,本研究使用k-NN、SVM、RF和XGBoost分类器(Chen和Guestrin,2016)进行音乐流派分类,因为其集成树方法具有强大的准确性这些分类器它们在语音识别任务中很受欢迎。为了挖掘音色纹理特征,首先通过部署汉明窗函数将声音信号分离成固定间隔的静态帧,该汉明窗函数在固定间隔处丢弃边缘效应。然后为每个帧计算音色纹理特征,并计算这些特征的描述性统计特征(最大值、最小值、平均值、峰度和偏度)和方差(Li等人,2003年)。图1示出了MFCC工艺流程。2.2. 梅尔频率频谱系数(MFCC)MFCC旨在捕获短期基于频谱的特征。基于短期傅立叶变换(STFT)测量各个帧的幅度谱的对数,根据梅尔频率缩放来组装和平滑频率仓,这旨在与感知一致。MFCC是通过使用离散余弦变换(DCT)对梅尔谱向量进行去相关来产生的。STFT可以在数学上表示为(1):应用于所挖掘的STFT t fZax tswse ds1来自5个音乐流派的478首尼日利亚歌曲。目的是仅基于对这些特征的分析,使用ORIN数据集评估音乐流派分类的质量。沙普利·阿迪-;-一个ðþ Þð Þ-j2pfpð Þ用TreeExplainer(Tree SHAP)(Lundberg等, 2020年),以解释模型预测,并显示降序特征的重要性。通常,这些特征排序对于XGBoost分类器用于测量特征重要性的三个选项(权重、增益和覆盖)是不同的因此,SHAP方法避免了当前方法的不一致性问题,因此,增加了检测数据集中真实特征依赖性的能力,并有助于建立SHAP摘要图,其简洁地显示特征效应的大小这项研究的独特贡献是三方面的:(i)建立一个新的歌曲数据集,ORIN,这将作为一个除了收集公开可用的MIR数据集;(ii)建立一个自动的尼日利亚歌曲的音乐流派分类形式,可以支持-其中x t 是我们感兴趣的信号函数也称为高斯或汉恩函数ws0,其中s>T= 2且T是窗口宽度MFCC方程由方程(2)描述,其中f=频率melf1125 ω ln1f= 100 2以下是频域特征描述符:i. 谱质心:该特征被视为所提出的STFT幅度谱的横截面(3)PNMt½n] ωn1/4吨移植或取代人工方法;及(iii)引入全球平均树SHAP方法显示特征的重要性和影响Cn1Mt½n]ð3Þ分类模型的输出。SHAP方法的优点是它避免了当前方法的不一致问题,因此增加了检测数据集中真实特征依赖性的能力,并有助于构建SHAP 摘 要 图 , 其 简 洁 地 显 示 特 征 效 应 的 幅 度 、 流 行 度 和 方 向(Lundberg等人, 2020年)。本文的结构如下:在介绍(第1节)之后,第2节回顾了特征挖掘方法,然后是第3,描述了所采用的方法for this study研究.第4介绍了实验结果和其中Mt n是在帧t和频率仓n处的傅里叶变换(FT)的维数。质心是光谱形状的比例,其中其高值意味着在较高频率下的“较亮”纹理(Li等人, 2003年)。ii. 滚降(Roll-off):这被认为是85%的幅度分布集中在其以下的频率Rt。滚降是用于估计如(4)所描绘的谱形状的另一个属性。第五节提出结论和建议-为今后的工作。XRt M½n]¼0:85ωM½n]42. 特征挖掘方法特征挖掘是计算表征音频部分的数量解释的方法(Tzanetakis和Cook,2002)。本研究考虑了音色、文本特征和节奏iii. 光谱通量:这被认为是如等式(5)并将ML模型应用于挖掘的特征。FNtn¼1nn=1-Nt-1 [1/2n]2005年2.1. 音色纹理特征音色纹理特征是区分节奏和音高内容相同或相似的其中Ntn和Nt-1n是FT在当前帧t和前一帧t1的标准化维数,光谱通量测量局部光谱变化的量。n1S.O. Folorunso,S.A. Afolabi和A.B. 奥沃德伊沙特国王大学学报6268ð ÞphXip2XCð Þt2n-1Fig. 1. MFCC工作流程。iv. 时域零交叉(ZCR):这在符号函数被分配用于正自变量的值1和用于负自变量的值0时发生,并且Xn是帧t的时域信号。ZCR测量信号的噪声,如等式(6)所示。Z¼1XNjsign[nv. 光谱带 宽:第 p 阶光谱 带宽等于关 于光谱质心的 第 p 阶矩(Tjoa,2017),计算公式为(7)1S20世纪初,这种上流社会的音乐类型出现在加纳,并传播到西非的其他地区(柯林斯,1989年)。如今,这是一种在尼日利亚、利比里亚和冈比亚等西非国家流行的类型。因此,它是唱在不同的语言和一些最近的非洲音乐融合音乐有他们的根源在这一流派。Highlife是用吉他,圆号,萨克斯管和小号演奏的。阿帕拉是另一种音乐流派,起源于20世纪30年代殖民时代的约鲁巴人。演奏时使用的乐器有dundun(会说话的鼓)、agidigbo(长方形木箱,金属键像钢琴一样拨动)、sekere(一个装满珠子的葫芦)、tom-tom和agogo(锣)(Lasisi,2012;Okafor,1989)。如今,这是一种音乐流派,是与老年人在约鲁巴地区的尼日利亚,因为它是不那么vi. 均方根能量(RMSE):如等式(8)所示计算信号中的能量:富士音乐流派始于20世纪70年代的一个小团体。被称为Aji的人用约鲁巴语唱歌,在拉各斯的凌晨时分,像agogo sekere、sakara和煎蛋卷鼓这样的乐器的声音唤醒了Mus-Nn1 jxnj8在斋月期间,穆斯林在斋戒开始前进食(Omojola,2006年)。与阿帕拉不同的是,此外,可以计算均方根值使用等式(9):是一种时髦的音乐,这使得它在约鲁巴年轻人中很受欢迎。瓦卡音乐有一个快节奏的节拍源于r1XNxn2由dundun,agidigbo,9逐 帧 获 得 RMSE 值 , 然 后 计 算 所 有 帧 的 平 均 值 和 标 准 差(Bahuleyan,2018)。3. 材料和方法3.1. 数据在我们的研究目标中使用的ORIN数据集来自互联网上公开发布的感兴趣的歌曲。该研究数据集由478首不同类型的尼日利亚歌曲组成。我们任意地认为每个流派中的曲目数量足以让我们实现分类器。每首歌曲的持续时间为30秒,它们都以.wav格式存储为音频文件。每个音频文件都以22,050赫兹(Hz)的速率进行采样,分辨率为32位单声道分辨率,这使我们能够在构建模型时提取大量特征。图2显示了一个30秒长的音频文件的波形可视化。除了上流社会的音乐类型外,检索到的大部分音乐曲目都是用约鲁巴语演唱的。约鲁巴语是尼日利亚西南部的一种主要语言。下载ORIN数据集的具体目的是创建一个多类ML分类模型,用于对上述音乐流派进行分类。ORIN数据集的流派分布如表1所示。计算统计特征(最大值、最小值、平均值、峰度和偏度)和这些特征中的每一个的方差,并将其作为特征相加,得到134个特征和歌有富士风格的基调。就像富士一样,它也受到了伊斯兰教的影响。juju音乐流派是一个分支的高生活音乐流派,往往是由一个乐队的10人,包括歌手和乐器演奏(阿拉贾布朗,1989年)。一些在柔术歌曲中使用的本土乐器和效果是dundun和kunbe鼓,agidigbo,sekere和agogo,吉他和手风琴。3.2. 特征提取在音乐音频处理的上下文中,特征提取需要在数字上导出或量化可以在音频文件的特定片段或帧中找到的属性,并且这是为了在处理信号时应用ML数学、统计和其他种类的算法而完成的。在本研究中,提取了与音色纹理和节奏内容相关的特征,并在本节中进行了描述。通常在指定的短时间范围内针对声音的每个帧导出音色纹理。该方法的基础是短时傅里叶变换,利用短时傅里叶变换计算信号的正弦波分量和相位分量信号频率随时间演变的局部部分的变化(Banerjee等人, 2010年)。音色纹理特征可用于区分构成类似节拍或旋律的声音可以从音色纹理计算一系列特征,包括以下内容:(i)梅尔频率倒谱系数-计算的目的是捕获短期的基于频谱的(ii)光谱质心-KNn1j j康加舞、阿戈舞和塞凯雷舞。所有已知的瓦卡歌手都是妇女,即BatileAlake、Salawa Abeni和Kuburatu Alaragbo。现代S.O. Folorunso,S.A. Afolabi和A.B. 奥沃德伊沙特国王大学学报6269图二. 歌曲信号的波形可视化。表1ORIN数据集。特征描述类型均方根能量数值谱质心谱质心数值频谱带宽频谱带宽数值滚降频谱滚降数值过零率过零率平均值 数 值mfcc:0 - 12 MFCC数值采样静音采样静音数字对比度对比度数值bandwidth带宽数字平面度平面度数值速度速度数字节奏内容特征描述歌曲信号随时间的运动它们包含诸如特定歌曲的拍号、节奏规则性、节拍和速度等细节 节奏内容特征是使用节拍直方图(BH)获得的,节拍直方图(BH)从歌曲中提取突出的周期性,并且基于捕捉人类听觉系统基本频带上的节奏和其他波动的心理声学模型(Li等人,2003; Silla等人,2010年; Lidy和Rauber,2005年)。BH是通过将所有24个临界频带的每个调制频率仓的大小相加以形成每个调制频率的“节奏能量”的直方图来实现的直方图包含60个箱,其反映0和10 Hz之间的调制频率。对于给定的音频片段,节奏直方图特征集通过取处理的每6s段的直方图的中值来计算,从而产生60维特征空间(Lidy和Rauber,2005)。节奏表示音乐的速度,类型Apala100Highlife 100标称以每分钟心跳数(bmp)测量(Baniya等人,2015; Logan,2000)。3.3. 方法度以及音乐家何时以大声音的形式引入情感;(iii)频谱滚降-计算以描述频谱形状;(iv)频谱通量-测量局部频谱的变化幅度;(v)零交叉-导出以量化信号噪声;(vi)频谱平坦度-提取以测量声音中的噪声/音调水平(Dubnov,2004);(vi)频谱对比度-获得以确定频谱中的峰和谷之间的差异(Nogueira等人,(vii)光谱带宽-离开单色器的出射狭缝的辐射的波长或频率间隔,其在连续背景与发射谱线或具有可忽略的固有宽度的吸收带的峰值之间的一半的辐射功率水平处设定的限制之间(Passey等人, 1975年)。提取后,我们还计算了方差和离散度水平的信息,如平均值,偏度,峰度,标准差,最小值和最大值。此外,借助于Librosa python库0.6.3(McFee等人, 2019),一个用于音频和音乐分析的Python软件包,我们计算了上面讨论的特征以及构建模型所需的其他特征。我们使用快速傅立叶变换(FFT)和跳跃长度的大小分别为1024和512毫秒(ms)。FFT用于将音频信号从时域转换为频域(Ravnik和Grum,2019)。图图3-6示出了一些特征的可视化。我们为这个研究项目得出的第二组特征这指的是描述音频信号的时间运动的特征,例如节奏。由于数据集中有两类以上的音乐流派,即highlife,fuji,juju,waka和apala,我们着手建立一个多类分类器来准确分类尼日利亚音乐。在上一节中,讨论了构建分类器采用四种不同的分类器(k-NNXGBoost分类器被提出用于音乐流派分类,因为它在预测方面具有高水平的性能。XGBoost是一种可扩展的基于决策树的梯度下降增强ML算法,由Chen和Guestrin开发,2016年,具有执行回归和分类任务的能力。除了它是可调用的,它是非常快的,并有一个内置的系统来处理离群值。它可以固有地处理连续和非线性数据。此外,它与大数据兼容,并具有选择最佳变量的能力。此外,该算法支持随机梯度提升,并且对过拟合和欠拟合避免具有鲁棒性。众所周知,它的使用在数据科学中提供了最先进的性能,是一个竞争获胜的算法。它是一个开源软件包,并在本研究中借助Scikit-Learn Python实现。在这项研究中,我们使用以下超参数调整模型:learning_rate = 0.05,n_estimators = 1000,max_-depth = 2和booster = gbtree。我们将数据集分成85:15的训练-测试比率。因此,获得的结果基于15%的试验数据。基于准确率、召回率和混淆矩阵对XGBoost分类器模型进行了评估。图7显示了我们的模型构建过程。Juju120富士99Waka39总478S.O. Folorunso,S.A. Afolabi和A.B. 奥沃德伊沙特国王大学学报6270图3.第三章。歌曲文件的计算MFCC的可视化见图4。 歌曲文件的计算频谱质心的可视化。图五. 歌曲文件的计算频谱滚降的可视化。图六、歌曲文件的计算ZCR的可视化S.O. Folorunso,S.A. Afolabi和A.B. 奥沃德伊沙特国王大学学报6271ðÞðÞ2我nK见图7。音乐类型分类器框架。3.4. 分类模型和算法当以向量的形式从歌曲中挖掘特征时,音乐流派分类问题现在变成了多类分类问题。问题的输入是一组训练实例,形式为x i;y i,其中x i是数据点,y i是其标签,从有限的标签集合fy1;y2;·· ·;yng中选择:在本研究中,标签表示为由y i表示的音乐流派。这里的任务是建立一个函数f的模型,其目标是以将数据点x0s映射到它们各自的标签y0s。用于音乐类型分类的机器学习模型有k-NN、SVM、MLP和RF.设计方法的算法如下:算法:自动音乐流派分类输入:M=[x,y,z]//.wav文件格式的音乐文件输出:y = [0,1,2,3,4]//分类音乐流派开始//使用librosa将音乐文件特征提取为数字版本mysql_array =[];//遍历音乐目录ForminMbit_music = convert_music_to_bit(d)//将提取的音乐保存到音乐数组music_array.save(bit_music)端//预测提取的音乐的流派y=predict_genre(music_array)端3.4.1. k-最近邻模型其中,k=数据集中的邻居数,x=数据集中的实例数,y=要预测的3.4.2. 支持向量机SVM 最初是为了解决二进制分类问题而开发的( Vapnik ,1998)。通常,SVM分类器在表征两个唯一类的一组训练向量之间构建SVM将输入向量从低维特征空间转换到高维特征空间,并在高维特征空间中构造最优超平面,特别是如果分类问题不是线性可分的。支持向量是超平面附近的训练实例因此,SVM是非常强大的离群值,由于这个超平面建立这些支持向量。WωXi<$b≥1;8Xi;其中yi <$$> 1<$11<$WωXib≥-1;8Xi;其中yi¼- 1< $12<$如yi<$WωXi<$≥1;8Xi<$13<$目标函数是找到:min1kWk2;s:t y<$WωXi<$b<$$> ≥1< $14<$3.4.3. 极限梯度提升分类器XGBoost分类器(Chen和Guestrin,2016)是一种高度可扩展、高效和便携的优化分散梯度提升算法(Chen等人,2020年)。XGBoost分类器基于决策树的集合,这些决策树用于训练具有xi的许多特征的数据,以预测类别或标签yi。目标函数由(15)示出:k-NN算法通过n t定义未分类点使用模态类投票从其预定义k-近邻训练点 例如,那些音色特征与物镜1/4×1。yi;ybitXXfi151/11/1匹配将被分类在一起。应用不同的k值将产生不同的分类性能。因此,建议使用小的正整数值,因为大的k值可能给出差的分类和预测性能(Bzdok等人,2018年)。等式(10)表示在等式(11)中的汉明距离函数。k-NN分类其中n是树的大小,l是训练损失函数,X是正则化项。然后,XGBoost将损失函数的泰勒展开式提高到2阶,并去掉所有常数,因此步骤t的目标现在变为(16):X1200DH¼Xi¼1jxi-yij10我的天1/1gifixi2hi ftxiþXðfiÞ ð16ÞS.O. Folorunso,S.A. Afolabi和A.B. 奥沃德伊沙特国王大学学报6272By≈By¼-¼¼ðÞTPFFN<¼ ×我我我其中gi和hi如(17)中所定义● 科恩8>g¼@我L.y;byt-1我我将N个项目分类为C相互排斥的类别。 其17Þ值范围在-1和+1之间j0表示一个模型随机猜测,值+1表示良好分类>:h¼@2L.y;byt-1ð而1表示较差的分类(Chicco等人, 2021年)。3.4.4. 随机森林(RF)RF模型需要一组未修剪的分类或回归树(Breiman,2001)。这些树是由训练数据的训练引导样本通过随机特征选择生成的。分类是通过多数表决,当一个巨大的j2×双列直插式TP×TN- 双列直插式FN×FP双 列直插式TP双列直插式FP×双列直插式FP双列直插式TP双列直插式FN×双列直插式FN双列直插式TN双列直插式4. 结果和讨论ð22 Þ已生成多棵树。在这些树上投票的过程形成了随机森林。需要调优以实现有效分类的两个参数是树的数量和森林中每棵树生长的属性3.5.模型评估采用以下指标评估本研究中使用的模型的性能混淆矩阵是一个表格,说明了一个模型的优点和缺点矩阵中的元素aij表示模型预测为类j的类i的测试示例的数量。对角元素aii对应于正确的预测(Folorunso和Adeyemo,2013;Fitkov-Norris和Folorunso,2013)。表2显示了混淆矩阵,其中真阳性(TP)显示了正确分类为阳性的阳性类别的比例,真阴性(TN)显示了正确分类为阴性的阴性类别的比例假阳性(FP)显示被错误分类为阳性类别的阴性类别的比率,而假阴性(FN)显示被错误分类为阴性类别的阳性类别的比率以下是混淆矩阵度量:模型的准确性说明了正确分类的测试样本的比例。在本节中,我们提供了一些提取的特征的统计分布信息,提取的每个特征都提供一个值数组因此,我们必须解决各自的描述性统计,如平均值,最小值,最大值,峰度,标准差和偏度水平。4.1. 特征的统计分布图8示出了一些所选特征的图(主要是平均值),即频谱质心、滚降、频谱通量、MFCC、节奏和ZCR。垂直轴显示每个特征的值,而水平轴显示频率(freq)。可以看出,一些特征(即,谱质心和滚降均值)具有大于4000的均值,而其它特征(即,光谱通量、光谱平均值和ZCR)具有范围从400到3值。也可以看出,所有显示的fea-曲线在其各自的值范围内振荡很大。高光谱质心涉及音乐家在歌曲中提高他/她的声音的情况。因此,高光谱质心表示更明亮的声音。频谱平坦度的值越接近1,频谱越接近白噪声。图8示出了平均频谱平坦度为0.13,指示几乎没有或没有白噪声。光谱通量表明,光谱中的信号有时变化缓慢,有时变化迅速节奏,它表示一首歌曲的节奏,显示了一个值范围准确度TPTPTNFPFNð18Þ每分钟20到230次心跳(bpm)。因此,一个低值,如24 bpm表示节奏非常慢的音乐,而范围在168和200 bpm之间的值表示非常快的音乐。带宽,● 精度是TP与所有阳性实例的比率精密TP19公司简介类别(流派)的召回率/真阳性率(TPR)是被正确分类为属于该类别(流派)的实例(歌曲)与实际属于该类别(流派)的所有实例的比率。召回=召回TPR公司简介● F1_Score是查全率和查准率之间的平均值对于人的听觉,具有20到20,000Hz的上频率和下频率的“低频”是指3500Hz的值ZCR的最高平均值是27,ZCR是从正到零再到负的符号变化率,反之亦然。4.2. 分类结果本节介绍了对本研究结果的讨论。使用Sklearn(Pedregosa等人,2011年)与四个不同的分类器:k-NN,SVM,RF和XGBoost,在ORIN数据集。基于准确率、召回率、精确率和F1_Score对这些所获得的分类结果如图所示。 9(a)至(d)。对于所有指标,值越接近1越好F1S核心2精度×召回精确度和召回率表2混淆矩阵。ð21Þ该模型如果所有指标的结果都大于50%,则性能明显优于随机猜测或模型表现不佳。4.2.1. 模型评估图9(a)示出了由ORIN数据集上的各种分类模型获得的分类精度。k-NN的分类准确性显着较差(51%)从图9(a)中的曲线,可以观察到XGBoost分类器曲线总是●●1000吨我1000吨我-房预测A类B类A类TPFNB类FPTNS.O. Folorunso,S.A. Afolabi和A.B. 奥沃德伊沙特国王大学学报6273图8.第八条。所选要素的绘图更高,显示出其优于其他型号。同样,图。 9(b)显示了ORIN数据集的各种分类模型获得的F1_Score。从图中可以观察到,XGBoost分类器的性能优于其他ML模型,其值为0.84,而k-NN的性能最差,其值为0.47。 图9(c)示出了在上测试的分类模型的召回。具有XGBoost分类器的ORIN数据集指示具有0.85的值的优异分类性能。所述召回率值XGBoost分类器的分类精度比其他模型更接近1结果证明是一种较好的分类模型。 图 9(d)显示了使用XGBoost分类器在ORIN数据集上测试的分类模型的精度,表明具有0.83的值的优异XGBoost分类器的召回值比其他模型接近1,因此被证明是一个更好的分类模型。由于XGBoost分类器优于其他类型分类模型,因此我们只对XGBoost分类器进行进一步分析(如混淆矩阵和模型解释)关于我们数据集的大小,(Pye,2000)和(Soltau例如,1998年)也建立了一个自动音乐流派分类的小数据集,虽然有更高的分类准确率在六,音乐类型(蓝调、独立摇滚、轻音乐、舞蹈、古典音乐和歌剧)和四种音乐类型(摇滚、流行、电子音乐和古典音乐)。4.2.2. 混淆矩阵本节展示了XGBoost分类模型如何针对尼日利亚音乐流派进行分类。 结果总结见图11。 10表3以混淆矩阵的形式提供了关于歌曲的流派分类perfromance的详细信息表中的列指示正确的类型,而行指示预测的类型。例如,行的单元格1,值为15的第1列意味着17首apala歌曲中有15首被正确分类为apala,而1首歌曲被错误分类为juju,1首歌曲被错误分类为highlife。正确分类的歌曲比例位于混淆矩阵的对角线上(以粗体突出显示)。图10(a)解释了阿帕拉歌曲的分类:88.24%的阿帕拉歌曲被正确分类为阿帕拉(17首歌曲中的15首)。一首(6%)歌曲被误归类为highlife,一首(6%)歌曲被误归类为juju,而没有(0%)被误归类为fuji或waka流派。这些结果表明,阿帕拉是很好的-S.O. Folorunso,S.A. Afolabi和A.B. 奥沃德伊沙特国王大学学报6274见图9。 分类结果。定义和独特的世界上的尼日利亚音乐和它的timbral属性是非常不同的富士和瓦卡。图10(b)显示了富士歌曲的分类:84.62%的歌曲(13首歌曲中的11首)被正确分类为富士。其中两首(15%)被误归类为highlife,而没有一首(0%)被误归类为apala,juju或waka。这一结果表明富士和highlife之间的接近,在响度和能量投入到音乐中。富士和highlife之间一致的错误分类值也表明了音色属性的接近。图10(c)描绘了highlife歌曲的分类:72.22%的歌曲(18首歌曲中的13首)被正确地分类为highlife。S.O. Folorunso,S.A. Afolabi和A.B. 奥沃德伊沙特国王大学学报6275图10个。用混淆矩阵对所有歌曲的类型进行分类表3混淆矩阵与XGBoost分类器的结果。流派Apala富士HighlifeJujuWaka召回Apala15011088.24%富士01120084.62%Highlife02133072.22%Juju02214077.78%Waka00006百分百平均召回84.57%有两首(11%)歌曲被错误地归类为富士,3首(17%)歌曲被错误地归类为juju,而没有一首(0%)歌曲被错误地归类为apala或waka。这些结果表明,highlife在所有其他ORIN音乐流派中的音色是独特的。它接近juju可能是由于这样一个事实,即一些乐器发挥和是相同的。图10(d)显示了juju歌曲的分类:77.78%的歌曲(18首中的14首)被正确地分类为juju。仅4首歌曲发生了误分类:2首(11%)歌曲被误分类为highlife,2首(11%)歌曲被误分类为fuji。没有(0%)被错误分类为apala或waka。这些结果表明,在juju,highlife和fuji之间的相似性,但与其他流派(waka和apala)截然不同。图10(e)解释了Waka歌曲的分类:100%的Waka歌曲被正确地分类为Waka(6首歌曲中的6首)。所有其他类型都达到0%的错误分类。瓦卡歌曲也显示了尼日利亚音乐宇宙中定义明确和明显的独特性。它的音色特性与其他流派有很大的不同。总之,一些类型显示出高分类点:highlife在5种类型中的3种中的结果高达32%; Juju在5种类型中的2种中的结果高达23%,而富士则高达22%S.O. Folorunso,S.A. Afolabi和A.B. 奥沃德伊沙特国王大学学报6276图十一岁解释ORIN数据集的单个歌曲分类的图图12个。解释ORIN数据集的所有歌曲分类的图流派。这些分析表明,这些体裁具有类似于许多其他体裁的音色和速度特征。相反,阿帕拉,富士和和歌流派的歌曲分类正确率一直很高,分别为88.24%,84.62%和100%。这可能是由于它们的音色特性在数据集中的独特性。4.3. 模型解释解释复杂ML模型的预测和分类的能力可以帮助消除准确性与可解释性的权衡,从而允许ML的更广泛的适用性(Lundberg等人,2018年)。Shapley(Shapley,1953)是一个博弈论可以用来描述任何ML模型的结果的策略。它使用来自博弈论的经典shapely值及其对Tree Explainer的相关扩展将最优信用分配与局部解释连接起来,Tree Explainer是一种新的用于树的局部解释方法,其能够实现最优局部解释的易处理计算,如由来自博弈论的期望性质所定义的(Lundberg et al., 2020年)。图中的力图。图11显示了有助于预测的特征,该预测将模型输出从其基础值向前推进。此基础值是训练数据集的平均模型输出。预测值较高的特征被标记为红色,预测值较低的特征被标记为蓝色。每组特征按照其影响和标签的降序排序(Chen和图十三. ORIN数据集的汇总图。S.O. Folorunso,S.A. Afolabi和A.B. 奥沃德伊沙特国王大学学报6277见图14。 ORIN数据集的mfcc_11_min和mfcc_4_mean之间的依赖性图。图15. ORIN数据集的roloff_kurtosis和mfcc_1_max之间的依赖关系图。Guestrin,2016)。 图 11显示了来自列车集的第j条记录。模型基础值为1.735。但是第j条记录的输出值是0.97.将该记录的分类值推高的特征是:mfcc_11_mean = -0.8362和bandwidth_std = 432.9,而将值推低的特征是flux_skew = 2.42、mfcc_10_max = 33.35、flux_kurtosis = 7.935、contrast_min = 5.709和mfcc_4_std = 16.2。图12中所示的曲线图等于将图11中的特征解释旋转90°并水平地对每个特征进行解释。SHAP汇总图显示了特征影响的程度、流行率和方向(Lundberg等人,2018年)。X轴是SHAP值,表示通过观察模型输出上的该特征引起的对数风险比的变化,而y轴表示通过所有样本(歌曲)的SHAP值幅度图图13(a)是基于整个训练实例上的shapley值的平均幅度的典型条形图。这些值按特征重要性的降序排序。图13(a)显示,在134个特征中,mfcc_11_mean是最重要的特征,其次是mfcc_4_min。此外 , 大 多 数 重 要 特 征 都 基 于 mfcc 值 , 包 括 : mfcc_12_mean ,mfcc_10_max,mfcc_7_skew。图13(b)示出了XGBoost分类模型训练数据集的汇总图。还有19个特征按重要性降序显示,其中mfcc_11_mean最重要,因此,其总体影响大于mfcc_11_min,而mfcc_11_min是建模中最不重要的特征。这适用于所有歌曲,除了bandwidth_std gain重要的歌曲,它们比mfcc_11_mean影响更大。明确地说,bandwidth_std会影响S.O. Folorunso,S.A. Afolabi和A.B. 奥沃德伊沙特国王大学学报6278通过较大的值影响少数预测,而mfcc_11_mean通过较小的值影响所有预测计算所有特征的SHAP值会影响模型预测。高mfcc_11_mean值可降低对模型输出的影响MFCC特征出现11次,而FFT特征出现8次,这显示在其精度值中。局部特征依赖图显示了音乐流派分类中的全局和个体模式变化SHAP依赖图显示了单个特征对数据集每个实例的预测效果。特征值呈现在X轴上,而SHAP值中的预测效果呈现在y轴上,其中还可以选择附加特征用于着色以突出可能的相互作用。图中显示的信息比传统的部分依赖图更鲁棒(Lundberg等人, 2020年)。它解释了特征交互对输入空间的定义区域的影响SHAP依赖性图再现了ORIN数据集的mfcc_11_mean的正确流派分类点,同时还强调了mfcc_4_min对流派分类的影响对于不同mfcc_11_mean的歌曲是不同的(如图14所示)。在直至> 5的值范围内,mfcc_11_mean对模型有正影响(0.0 SHAP值0.2)同时,mfcc_4_min对模型的影响与mfcc_11_mean的SHAP值相同,直至类似地,对于图15,对于小于0.0的值,roloff_kurtosis特征积极地影响模型。因此,mfcc_1_max是否影响模型位置?直到它的值变为150。5. 结论本研究提出了一个新的歌曲数据集,ORIN,包括尼日利亚歌曲的体裁分类的基础上,k-NN,SVM,RF和XGBoost分类模型。这些模型是在从Librosa库的ORIN数据集挖掘的音色和节奏特征根据研究中使用的所有指标,观察到XGBoost分类器在用于ORIN音乐流派分类的所有模型中表现最好XGBoost分类器对ORIN数据集的准确率为81.94%,召回率为84.57%。基于XGBoost分
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 多功能HTML网站模板:手机电脑适配与前端源码
- echarts实战:构建多组与堆叠条形图可视化模板
- openEuler 22.03 LTS专用openssh rpm包安装指南
- H992响应式前端网页模板源码包
- Golang标准库深度解析与实践方案
- C语言版本gRPC框架支持多语言开发教程
- H397响应式前端网站模板源码下载
- 资产配置方案:优化资源与风险管理的关键计划
- PHP宾馆管理系统(毕设)完整项目源码下载
- 中小企业电子发票应用与管理解决方案
- 多设备自适应网页源码模板下载
- 移动端H5模板源码,自适应响应式网页设计
- 探索轻量级可定制软件框架及其Http服务器特性
- Python网站爬虫代码资源压缩包
- iOS App唯一标识符获取方案的策略与实施
- 百度地图SDK2.7开发的找厕所应用源代码分享
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功