音乐转录模型深度解析：LSTM与char-rnn/folk-rnn实践

需积分: 0 85 浏览量更新于2024-08-04 收藏 550KB DOCX 举报

本周的IT周报主要围绕一篇关于使用LSTM进行音乐转录建模和合成的论文进行深入解析。该论文的重点在于如何利用长短期记忆(LSTM)网络构建音乐转录模型，以适应音乐组合的特定语境。作者构建了两种类型的模型：char-rnn和folk-rnn。 char-rnn模型基于单个字符的词汇表，训练在连续的文本文件上，采用了ABC记谱法，共处理大约23000个文本词汇。模型的网络结构包含3个隐藏层，每层有512个LSTM模块，其输入数据经过筛选，仅保留了标题、表、键、单元注释长度和抄写等5个字段，以减少噪声。这个模型的输入文本长度达到了13515723个字符，共135种独特的字符。相比之下，folk-rnn模型则在完整的转录上运行，数据处理更为精细。作者从原始数据中删除冗余，清洗后得到4056459个记号，包括音高、持续时间和度量等，总共有137种不同的记号类型。folk-rnn模型的训练数据更加聚焦于音乐本身的结构。在模型构建过程中，作者借助了char-rnn项目的Python代码作为参考，学习了TensorFlow的基础知识，其中包括神经网络过程的可视化方法以及Optimizer优化器的应用。通过这些学习，作者得以更深入地理解模型的构建和训练流程。这份周报不仅涵盖了论文的核心内容，还结合实际编程实践，展示了如何将理论知识转化为实际操作，以及如何通过TensorFlow这样的工具进行模型的训练和优化。这对于理解和应用深度学习在音乐领域具有重要的价值。

至此，folk – rnn 模型的数据集包含有 4056459 个记号，其中 2816498 个是音高，

602673 个是持续时间，520290 个是度量。这些记号有 137 种，并且每个记号都

成为了模型的词汇表元素。

训练模型

使用“char-rnn”实现构建和训练 char-rnn 模型（关于 charrnn 可参考

https://github.com/karpathy/char-rnn），如图：

这个使用的是 RMSProp 算法（此算法属于优化算法的一种，在 tensorflow

中也有对应的 RMSPropOptimizer 类），使用的是 50 个样品的小批量，每一个 batch

都包含 50 个字符，并采用一个渐变的裁剪策略来避免梯度爆炸。对于详细的训

练过程，诸如初始 learning rate 的设置，drop rate 的设置等等，由于篇幅较长，

此处就不粘贴翻译了，可参考原文第 7 页。

模型输出结果

训练好模型之后，作者使用 folk - rnn 系统生成了 6101 个完整的文本。表和

剩余10页未读，继续阅读

懂得越多越要学

粉丝: 23
资源: 307

音乐转录模型深度解析：LSTM与char-rnn/folk-rnn实践

2017-8-27周报-王旭1

2017-8-20周报-王旭1

2017-9-10周报-王旭1

推荐10本OA系统开发工程师进阶书籍

基于 NB-IoT 技术的环境温湿度监测系统的研制 茅敏敏 1,2，居家奇 1 ，欧阳玉玲 3 ，金妍 1,2 文献综述

基于SpringBoot的助农电商系统的国内参考文献

SSM框架的外文文献和翻译1000

怎样学习8086汇编语言

2017-8-3周报-王旭1

2017-9-24周报-王旭1

最新资源

基于 NB-IoT 技术的环境温湿度监测系统的研制茅敏敏 1,2，居家奇 1 ，欧阳玉玲 3 ，金妍 1,2 文献综述