音乐流派分类：极限梯度提升在WebConference任务中的应用

135 浏览量更新于2023-10-16 收藏 13.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19230使用极限梯度提升检测音乐流派0Benjamin Murauerbenjamin.murauer@uibk.ac.at奥地利因斯布鲁克大学因斯布鲁克0Günther Spechtguenther.specht@uibk.ac.at奥地利因斯布鲁克大学因斯布鲁克0摘要0本文总结了我们在WebConference2018中作为CrowdAI音乐流派分类挑战“学习从网络音频中识别音乐流派”的贡献。我们利用了音乐分析领域的不同方法来预测给定mp3音乐文件的音乐流派，包括用于频谱图分类的卷积神经网络，使用各种数值音频特征的深度神经网络和集成方法。我们通过极限梯度提升分类器获得了最佳结果。0ACM参考格式：Benjamin Murauer和GüntherSpecht。2018年。使用极限梯度提升检测音乐流派。在2018年Web会议伴侣，2018年4月23日至27日，法国里昂。ACM，美国纽约，纽约，5页。https://doi.org/10.1145/3184558.319182201 引言0在2018年WebConference任务“学习从网络音频中识别音乐流派”中，目标是自动预测30秒音频片段的音乐流派。参与者为任务提供原始mp3文件作为输入。这些文件是免费音乐档案[6]的一部分，该档案收集了超过100,000首可供下载的音乐曲目。由于输入文件是原始音频，需要多个步骤来预测每个曲目的流派，这些步骤在图1中显示，由灰色块描述表示。首先，必须找到曲目的表示形式，以便分类模型可以使用，其中分类器的类型可能决定从曲目中提取的特征的类型。例如，可以使用卷积神经网络（CNN）与图像特征一起使用，而随机森林分类器则需要数值特征。在我们的方法中，我们提取了两种不同类型的特征和各种不同的分类器来预测曲目的流派。整体工作流程如图1所示，各步骤的详细信息在相应的部分中解释。本文的剩余部分结构如下：第2节讨论相关主题和工作。第3节详细描述任务和数据集，第4节解释了计算特征，第5节列出了所有已测试的分类器，并在第6节中讨论了它们的性能。0本文发表在知识共享署名4.0国际许可下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18 Companion，2018年4月23日至27日，法国里昂© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31918220mp3文件01. 数据集02. 特征提取03. 分类0数值特征频谱图0ExtraTrees XGBoost DNN CNN0essentia0librosa0图1：提取的特征和测试的分类器。02 相关工作0音乐流派分类是一个众所周知的目标，有许多不同的方法可以解决它。在MediaEval2017研讨会上举行的类似任务中，分类标签除了主要流派外还包括子流派。此外，曲目可以具有的流派数量没有限制，导致了一个多标签多输出的分类任务。与本挑战所处理的任务相反，MediaEval挑战的组织者没有直接提供音频文件，而是只发布了预计算的特征。不同的解决方案被证明是有效的，包括深度神经网络（DNN）[10]或分层分类与投票方案的组合[13]。虽然这些方法使用低级特征和计算，但其他解决方案也考虑了音乐理论。Franklin[7]使用长短期记忆（LSTM）单元来提取高级特征，这些特征随后可以用于各种目的。Li等人[11]已经证明CNN可以用于从原始音频数据中提取特征，然后可以用于各种不同的任务。其他用于流派预测的方法使用频谱图（即曲目中频率强度的图像表示）与CNN相结合，将任务转化为图像分类问题[9]。最后，CNN和递归神经网络（RNN）模型的组合显示出比单独使用任一解决方案更好的效果。Chen和Wang[2]利用三个不同的CNN来处理频谱图的不同方面，计算高级描述符，然后将其馈入LSTM层。Costa等人[5]在频谱图图像上使用CNN和SVM进行手动选择的特征。然后，他们将这些图像预测与在声学特征上训练的SVM的结果相结合，通过不同的操作将两个领域的结果融合在一起。0音轨：挑战＃1：从音频中学习识别音乐流派 WWW 2018，2018年4月23日至27日，法国里昂L = − 1NN�n=1C�c=1yncln (pnc)Fm1 = 1CC�c=1Fc119240流派歌曲数量0摇滚 7,103 电子 6,314 实验 2,251嘻哈 2,201 民谣 1,519 乐器 1,350流行 1,186 国际 1,018 古典 619旧时/历史 510 爵士 384 乡村 178灵魂/节奏布鲁斯 154 口语 118布鲁斯 74 轻音乐 210总计25,0000表1：训练数据集的流派分布0在本文中，我们实现了一系列不同的流派预测方法。我们选择使用两种集成方法，这些方法在类似任务上已被证明有效[13]，并且代表了一种易于计算的基准。此外，我们从当前研究中选择了两种有着相似任务的有希望结果的方法[9,10]：一种是基于数值声学特征的DNN，另一种是使用音轨图像表示的CNN。03 数据集和任务描述0预测音乐流派的整体任务分为两个部分：在第一阶段，参赛者必须使用提供的脚本上传对于提供的测试集的预测流派。在第二阶段，参赛者必须上传包含提交解决方案模型的docker镜像，然后使用该模型对先前未知的第二个测试集进行流派预测。提供的训练和测试数据是自由音乐档案库[6]的一个子集。训练集包含25,000个mp3格式的音频文件，以及包含其真实流派的元信息。虽然每个音轨的长度为30秒（除了一些损坏的文件），但它们的流派涵盖了各种不同的类别以及高度不平衡的分布，如表1所示。测试集包含35,000个格式相同但未标记的mp3文件。对于这些音轨中的每一个，需要预测其相应的流派。参赛者不必提供硬分类，而是允许为每个流派提供概率（例如，p（摇滚）=0.9，p（电子）=0.06，p（嘻哈）=0.04）。为了衡量预测的流派与真实情况的匹配程度，挑战组织者预定义了两个不同的度量标准：首先，主要排名使用平均对数损失（L）得分，计算方法如下：0其中N是样本数量，C是不同类别（即流派）的数量，ync是一个二进制标签，表示第n个样本是否属于第c个类别。0样本属于类别c（即y nc表示正确的标签），pnc是提交解决方案提供的第n个样本属于类别c的概率。由于L是一种损失度量，较低的值意味着更好的预测。其次，平均F1分数（F m1）仅用于在相同L分数的排名中打破并列。它的定义如下：0其中，F c1表示特定类别c的F1分数（精确度和召回率的调和平均值）。然而，由于评分的高准确性和L度量的连续性，两个解决方案很难出现并列的情况，因此必须使用F m1度量。由于参赛者只需要在挑战的第二阶段中将他们最好的模型包含在docker镜像中，因此我们专注于探索第一阶段的不同方法。一旦第二阶段开始，我们将仅优化我们最佳的方法。04 特征提取0为了预测音轨的流派，我们首先需要从原始mp3文件中提取特征，然后将其输入到各种分类模型中。如图1所示，特征提取显示为第二步，我们使用了几种不同的分类器，它们需要不同的歌曲输入表示。因此，我们从音频文件中提取了两组不同的特征：一个是使用essentia库提取的数值声学特征集，另一个是使用librosa创建的音轨图像表示。在本文的剩余部分，我们将数值特征称为essentia提取的值（参见表2），与librosa提取的图像特征相对应。首先，我们使用essentia框架进行音频分析，提取了一个数值特征集。Essentia提供了一个独立的二进制应用程序，用于处理各种不同的音频格式，选择它是为了更容易配置docker镜像，这是挑战任务的第二部分所需的。表2显示了使用essentia提取的一部分特征。这些特征从低级别的频谱能量带到高级别的构造特征（例如舞蹈性，即某人能否跳舞到这首音轨上？）。其中一些特征（例如音轨的键或音阶）是分类而不是数值。为了在更多不同的分类模型中使用它们，它们在之前被转换为一种独热编码。特征类别“节奏节拍位置”为essentia检测到的每个节拍提供一个位置。由于不同音轨的节拍数量显然不同，这导致每个音轨的特征数量不同。因此，该特征类别的所有条目都被丢弃。请注意，这些节拍之间的平均距离仍然作为“节奏bpm”包含在特征集中。默认情况下，essentia尝试从音轨中提取元信息，包括音轨的艺术家、专辑或流派。由于这些字段不会影响流派预测，因此在特征提取过程中被忽略。01 http://essentia.upf.edu 2https://librosa.github.io0赛道：挑战 #1：从音频中学习识别音乐流派 WWW 2018，2018年4月23日至27日，法国里昂19250图2：从测试集中提取的谱图示例。较亮的像素表示在相应的时间点上具有更强的频率（y轴）0特征名称示例值0低水平平均响度 0.938 低水平melbands偏度均值 2.246低水平光谱通量中位数 0.112 节奏bpm 83.583 ... ...舞蹈性 1.101 音调键'E' 音调和弦'major'0表2：使用essentia提取的示例音频特征。其中一些特征是分类的（例如音调键），对于某些分类模型需要进行独热编码。所有特征值都进行了z标准化。0由于某些特征代表了声学特征并且无法进行测试，因此它们被从训练集中删除。在进行这些特征选择步骤之后，用于分类的特征数量从2,717个减少到2,677个。在将它们输入到相应的模型之前，所有值都被归一化为零均值和1.0标准差。其次，为了提取图像表示，我们使用了[9]中提出的方法，并为每个音轨计算了mel谱图像，这已被证明在预测流派的任务中非常有效[4,12]。图2展示了这样一个谱图的示例。该方法的关键思想是不同的音乐流派在特定频率范围的分布和出现模式上具有不同的模式，这些模式在图像中显示出来。因此，原始频率被归一化为mel刻度，这更准确地表示听众感知的频率[15]。通过使用librosa库的相应函数，将训练集和测试集中的所有音轨转换为500×1,500像素的图像。尽管原始图像（即图2）具有0为了节省内存，CNN模型只使用灰度像素进行颜色映射。这不会减少图像中存储的信息，因为映射是线性的，仅用于为人类产生视觉上令人愉悦的输出。05分类模型0为了预测所提供音轨的流派，我们依赖于机器学习模型。因此，使用了计算特征的几种不同的分类器。这些分类器在图1的第三步中表示出来。我们将我们的方法分为两种类型，具体取决于在前一步中提取的特征用于哪个模型。05.1数值特征模型0对于数值特征集，我们使用了三种不同的分类模型。我们首先使用scikit 3库测试了两个集成分类器：(1)ExtraTrees是随机森林分类器的一种变体，使用极端随机树进行分类[8]。我们将其作为可靠的基准方法，用于比较其他模型。(2)XGBoost分类器使用极端梯度提升[3]，在各种任务中都表现出良好的效果，从推荐工作[14]到通过加权特征重要性来辅助神经网络[16]。除了性能好之外，我们选择XGBoost是因为它的多功能性和简单性，便于并行化。我们使用了网格搜索方法和5折交叉验证来调整每个分类器的参数。由于时间限制，网格搜索过程中没有包含所有可能的参数，仅限于使用的树的数量（n_estimators），使用的特征数量（如果使用所有特征则获得最佳性能），以及在XGBoost的情况下，树的最大深度。03 http://scikit-learn.org/0赛道：挑战 #1：从音频中学习识别音乐流派 WWW 2018，2018年4月23日至27日，法国里昂XGBoostn_estimators=1,000, max_depth=30.820.74XGBoostn_estimators=3,000, max_depth=50.850.78ExtraTreesn_estimators=1,0000.920.74ExtraTreesn_estimators=2,0000.920.74ExtraTreesn_estimators=2,000, balanced weights0.960.73CNN*1.650.48DNN*1.440.7719260FC（tanh）2000个单元的dropout0FC（tanh）2000个单元的dropout0FC（relu）2000个单元的dropout0FC（elu）2000个单元的dropout0FC（tanh）500个单元的dropout0softmax0图3：深度神经网络架构。FC表示带有括号中指定的激活函数的全连接层。0参数值0输入维度2,677 dropout概率0.5激活函数（输入）tanh激活函数（层2）tanh，relu，elu激活函数（层3）tanh 初始化器He优化器adam 批量大小500表3：深度神经网络找到的最佳参数。0除了这些集成方法之外，我们还构建了一个深度神经网络，沿用了Me- diaEval2017挑战赛的获胜解决方案[10]。网络的架构显示在图3中。在每个密集层中，都进行了随机的dropout（p =0.5）和批量归一化，以防止过拟合。在第二层中，使用了三种不同的激活函数，以尽可能隐式地表示内部特征。下一个密集层使用双曲正切激活函数，因为在我们的实验中，这提供了最好的结果。最后，最后一层使用softmax来计算每个流派的概率。最佳性能参数列在表3中。由于DNN的性能明显低于集成方法，我们没有对该模型进行广泛的参数搜索。相反，我们专注于提高其他更有前途的解决方案。05.2 图像特征模型0对于第二组特征，将曲目表示为图像，使用了[9]建议的分类方法构建了一个CNN，该CNN在曲目的频谱图上进行训练。该网络的架构显示在图4中，0参数值0输入维度400×1,200像素，1个通道卷积核大小3×3像素滤波器映射数量4 最大池化大小2 批量大小25 dropout概率0.5激活函数（卷积）relu 激活函数（密集）tanh 全连接单元50优化器adam 初始化器glorot uniform 填充same0表4：卷积网络找到的最佳参数。0分类器参数LFm10表5：测试模型的结果和参数。*DNN和CNN分类器的参数分别列在表3和表4中。0而使用的详细参数列在表4中。由于我们计算机的GPU内存限制（GTX1060，6GBVRAM），无法使用之前提取的图像的完整尺寸（即500×1,500像素）。相反，图像必须缩小为400×1,200像素。为了更好地利用内存，我们在每个卷积步骤中使用了较小的卷积核大小（3×3像素）堆叠了两个卷积层。在每个池化层之后，引入了随机的dropout（p =0.5）进行正则化。由于布局原因，这些层在图表中没有显示。06 结果0所有分类器的结果可以在表5中看到。从所有测试的模型中，只有ExtraTrees根据类别不平衡自动平衡样本权重。然而，正如表5所列，这种优化技术导致了稍微更高的损失。对于所有其他分类器，没有采取明确的措施来解决类别不平衡。可以看到，传统的集成方法优于神经网络，其中XGBoost的损失最低为L =0.82，而CNN的表现最差，损失为L =1.65。这个结果与当前研究的现状相矛盾，许多顶级方法在类似任务中使用神经网络[9, 10]。0曲目：挑战＃1：从音频中学习识别音乐流派WWW 2018年4月23日至27日，法国里昂[2] Ning Chen and Shijun Wang. High-level music descriptor extraction algorithmbased on combination of multi-channel cnns and lstm. In Proceedings of the18th International Society for Music Information Retrieval Conference (ISMIR’2017),pages 509–514, 2017.[3] Tianqi Chen and Carlos Guestrin. XGBoost: A Scalable Tree Boosting System.In Proceedings of the 22nd SIGKDD Conference on Knowledge Discovery and DataMining, pages 785–794. ACM, 2016.[4] Keunwoo Choi, George Fazekas, Mark B. Sandler, and Kyunghyun Cho. Convolu-tional recurrent neural networks for music classification. CoRR, abs/1609.04243,2016.[5] Yandre M.G. Costa, Luiz S. Oliveira, and Carlos N. Silla. An evaluation of convo-lutional neural networks for music classification using spectrograms. AppliedSoft Computing, 52:28 – 38, 2017.[6] Michaël Defferrard, Kirell Benzi, Pierre Vandergheynst, and Xavier Bresson. FMA:A Dataset for Music Analysis. In Proceedings of the 18th International Society forMusic Information Retrieval Conference (ISMIR’2017), 2017.[7] Judy A. Franklin. Recurrent neural networks for music computation. INFORMSJournal on Computing, 18(3):321–338, 2006.[8] Pierre Geurts, Damien Ernst, and Louis Wehenkel. Extremely randomized trees.Machine Learning, 63(1):3–42, 2006.[9] Grzegorz Gwardys and Daniel Grzywczak. Deep Image Features in Music Infor-mation Retrieval. International Journal of Electronics and Telecommunications,60(4):321–326, 2014.[10] Khaled Koutini, Alina Imenina, Matthias Dorfer, Alexander Rudolf Gruber, andMarkus Schedl. MediaEval 2017 AcousticBrainz Genre Task: Multilayer Percep-tron Approach. In Working Notes Proceedings of the MediaEval 2017 Workshop.CEUR-WS.org, 2017.[11] Tom LH. Li, Antoni B. Chan, and Andy HW. Chun. Automatic Musical PatternFeature Extraction Using Convolutinoal Neural Network. In Proceedings of theInternational MultiConference of Engineers and Computer Scientists, volume 1,2010.[12] Thomas Lidy and Alexander Schindler. Parallel convolutional neural networksfor music genre and mood classification. MIREX 2016, 2016.[13] Benjamin Murauer, Maximilian Mayerl, Michael Tschuggnall, Eva Zangerle,Martin Pichl, and Günther Specht. Hierarchical Multilabel Classification andVoting for Genre Classification. In Working Notes Proceedings of the MediaEval2017 Workshop. CEUR-WS.org, 2017.[14] Andrzej Pacuk, Piotr Sankowski, Karol Węgrzycki, Adam Witkowski, and PiotrWygocki. Recsys challenge 2016: Job recommendations based on preselectionof offers and gradient boosting. In Proceedings of the Recommender SystemsChallenge, pages 10:1–10:4, 2016.[15] Stanley Smith Stevens, John Volkmann, and B. Edwin. A scale for the measure-ment of the psychological magnitude pitch. Journal of the Acoustical Society ofAmerica, 8(3):185–190, 1937.[16] Huiting Zheng, Jiabin Yuan, and Long Chen. Short-Term Load Forecasting UsingEMD-LSTM Neural Networks with a Xgboost Algorithm for Feature ImportanceEvaluation. Energies, 10(8), 2017.19270输入400×1,2000卷积4个滤波器0卷积4个滤波器0最大池化池大小=20卷积4个滤波器0卷积4个滤波器0最大池化池大小=20全连接50个单元0softmax16个单元0图4：卷积神经网络架构。由于布局原因，此图中省略了dropout层。0在这一点上，DNN模型的性能不佳可能是由于各种不同因素造成的。鉴于时间有限，我们无法分析和确定哪些网络设计选择对于给定问题最重要。有趣的是，DNN方法的Fm1分数与集成解决方案相当。至于CNN，我们认为更多的GPU内存可以构建一个更准确的模型。尽管在手头的资源中可能找到一个性能更好的模型，但由于硬件限制，我们无法探索不同的网络布局。具体而言，内存限制了以下参数的增加（参见表4）：0•卷积后的密集单元数量（50）•每个卷积使用的滤波器数量（4）•批量大小（25）•输入维度（400×1,200像素）•卷积层数量0由于这些参数中的每一个都可能增加CNN模型的表达能力（例如，[9]和[4]每个使用5个卷积层），我们认为测试更大的值可能会得到更好的预测结果。特别是较少、较小的层和减小的图像尺寸的组合可能是CNN模型性能落后于其他方法（如XGBoost）的一个可能解释。07 结论0在这篇论文中，我们使用了不同类型的分类器来预测未标记的音乐曲目的流派。我们提取了两组不同的特征，分别给出了每个曲目的数值和图形表示。这些特征与已经对类似问题有效的各种模型结合使用。对于数值特征，我们使用了集成方法（XGBoost，ExtraTrees）以及用于分类的深度神经网络。图形特征被输入到了一个CNN中。我们得到的最佳结果是使用数值特征集的XGBoost分类器，平均对数损失为L =0.82，而ExtraTrees方法的损失为0.92，DNN和CNN模型的损失分别为1.44和1.65。由于GPU内存限制，许多有前途的方法，特别是更复杂的神经网络，无法被实现或优化。0参考文献0[1] Dmitry Bogdanov, Alastair Porter, Julián Urbano, and Hendrik Schreiber. TheMediaEval 2017 AcousticBrainz Genre Task: Content-based Music GenreRecognition from Multiple Sources. In Working Notes Proceedings of theMediaEval 2017 Workshop . CEUR-WS.org, 2017.0挑战#1：从音频中学习识别音乐流派赛道 WWW 2018，2018年4月23日至27日，法国里昂

下载后可阅读完整内容，剩余1页未读，立即下载