符号音乐的表征学习

40 浏览量更新于2024-02-05 收藏 4.29MB PDF 举报

表征学习

学位论文

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

符号音乐的表征学习马蒂厄·普朗引用此版本：马修·普朗象征音乐的表征学习。声音[cs.SD]。索邦大学，2021年。英语NNT：2021SORUS489。电话：03329980v2HAL Id：tel-03329980https://hal.science/tel-03329980v22022年7月11日提交HAL是一个多学科的开放获取档案馆，用于存放和传播科学研究文件，无论它们是否已这些文件可能来自法国或国外的教学和研究机构，或来自公共或私人研究中心。L’archive ouverte pluridisciplinaireT H H S E D E D O C T O R AT D E S O R B O N E U N I V E R S I T O信息专业ED130- Ecole doctorale Informatique，Télécommunications et Electronique（Paris）Sciences et Technologie de la Musique et du Son（UMR9912）Institut de Recherche et de Coordination Accoustique MusiqueEquipe Représentations Musicales.R E P R E S E N TAT I O N L E A R N I N G FOR O R S Y M B O L I C M US I CMATHIEU 普兰supERVIsÉpAR：pHIlIppEEEslInGdIRIGÉ pAR：cAR losAGO n四月2021Mathieu Prang：象征音乐的表征学习博士生研究员，2021年四月一辈子的音乐就够了，但一辈子的音乐还不够。- 谢尔盖·拉赫玛尼诺夫生活中没有什么可怕的，只有需要理解的。现在是时候去了解更多，这样我们就可以减少恐惧。- 玛丽·居里A B标准深度语言处理模型最近成功的一个关键部分在于学习有效单词嵌入的能力。这些方法提供了结构化空间的降维与有趣的度量关系属性。这些，反过来，可以被用来作为有效的输入表示处理更复杂的任务。在这篇论文中，我们专注于学习符号域中的复调音乐嵌入空间的任务。为此，我们探索两种不同的方法。第一个是受自然语言处理（NLP）领域工作的启发，依赖于预测任务，而第二个是基于变分自动编码器（VAE）的潜在空间。我们介绍了一种基于卷积网络的嵌入模型，该模型具有一种新型的自调制分层注意力，在每一层计算该注意力以获得音乐信息的分层视觉。我们表明，该模型在所有参考符号音乐预测数据集上的预测准确性都有大幅提高。我们通过分析音乐元素之间的度量关系，进一步评估嵌入空间的质量。我们表明，有趣的几何结构，自然发现的模型，这反映了音乐理论的属性。然而，我们注意到类似的元素可能被编码在不同的嵌入区域中，这表明在训练过程中缺乏对潜在空间拓扑的控制。为了克服这种影响，我们提出了另一种基于VAE的系统，VAE是一种自动编码器，它将潜在空间的数据分布限制为接近先验分布。由于复调音乐信息的复杂性，输入表示的设计是一个关键的过程。因此，我们引入了一种新的表示符号音乐数据，它转换成一个连续的信号的复调乐谱。为了做到这一点，我们将非线性音高映射到具有随机虚部的主要频率，从而允许以最小分辨率执行逆傅立叶变换。我们评估的能力，学习有意义的功能，从音乐的角度来看，并进行了广泛的基准对最近的复调符号表示。我们表明，我们的信号表示提高了学习的稳定性，从而更好地重建和解开的功能。这一改进反映在从我们的类信号表示中学习到的空间的度量属性中，IV具有音乐理论的特性。最后，我们通过开发几个用于增强音乐知识和表达的创造性应用程序，通过旋律修改或作曲家识别等任务，展示了由此产生的嵌入空间的潜力。vR S U MUn élément clé du récent successès des modèles d'promissage profond de traite-ment du langage réside dans la capacité à transmittings“embeddings”de motsefficaces.Cesmethodesfournissentdesespacesvectorielsstructurésdedimension réduite ayant des relations metriques intéressantes.Ceux-ci ， aproxtour ， peuvent être utilisés comme des représentations d'entrée efficacespour traiter des tâches plus complex.在这一点上，我们专注于在象征性领域中为多声部音乐“嵌入”空间的技巧。为了这件事，我们两个探索不同的方法。第一次是在语言训练和预测领域的现实工作的启发，第二次是在自动变分编码器的潜在空间（VAE）的基础上在此基础上，我们引入了一种基于ré- seau卷积的嵌入模型，该模型具有一种新型的注意力层次自动模块化机制，该机制可以通过计算获得音乐信息的层次视觉Nous montrons que ce modèle permet une augmen- tation importante de laprécision de prédiction sur tous les jeux de données de musique symbolique deréférence.我们通过分析音乐学科之间的关系来评价嵌入空间的质量。我们认为，构成音乐理论特性的几何结构是由模型自然形成的。然而，我们认为类似的要素可能存在于空间的不同区域中，这就需要对潜在的空间属性进行控制在这种情况下，我们提出了一个基于VAE的其他系统，即一种自动编码器，它限制了空间数据的分布，从而实现了一种可选择的分布。复调音乐是信息传播的一种类型，其表现形式的选择是一个至关重要的过程。我们介绍了一种新的象征性音乐表现形式，它将一个多声部的分区转换成一个连续的信号。为了做到这一点，我们用一个有效的傅里叶逆变换来实现一个小的解的变换，来代替那些被称为第一的符号。我们应评估感兴趣的音乐家在这方面的能力vi本文通过对多声部音乐在文学作品中的主要表现形式的比较，探讨了多声部音乐在文学作品中的表现形式。我们的 montrons que notre représentation“signal-like”améliore la stabilité de这一改进在空间的美学特性中体现出与Enfin，nous montrons le potentiel de nos espacesVIIA C K N O W L E D G M E NT S首先，我要感谢我的导师Philippe Esling给我这个研究项目的信任。他友好的指导和专家的建议使这项工作非常愉快和迷人。除了他对各种事物的热情愿景之外，我还可以从他丰富的科学知识中受益，这使我能够提高我在许多领域的能力。我也非常感谢他的人性，这促使他关心周围的人。我要感谢卡洛斯·阿贡，他以可靠和积极的态度指导了这篇论文，确保了我们的交流总是愉快的。我也衷心感谢IRCAM所有未来和已经经验丰富的研究人员，他们通过他们富有洞察力的评论帮助我。特别是ACIDS团队的成员，LéopoldCrestel 、 Axel Chemla-Chuu-Santos 、 Tristan Carsault 、 Adrien Bitton 、 Jean-François Ducher 、 Constance Douwes 、 Théis Bazin 、 Ninon Devis 、 AntoineCaillon、Cyran Aouameur和Clement Tabary，他们对我的工作表现出了真正的兴趣，并为我的工作提供了许多精彩的想法。我借此机会向所有与我共度宝贵时光的朋友表示衷心的感谢，他们给了我走得更远所需的能量。我对Hadrien Foroughmand有一个特别的想法，他为我提供了始终如一的支持，从我们早年的高等教育到我们各自的论文结束，他给了我许多难忘的时刻。最后但并非最不重要的是，特别感谢我的家人的爱和难以置信的支持。感谢我的父母，他们用对音乐和科学的热爱养育了我，并鼓励我追求一切。感谢我的母亲，多年来，她的精神力量一直给我留下深刻印象，她对他人的爱和奉献构成了我最重要的鼓舞力量。感谢我的两位杰出的兄弟，多年来他们的英明指导给了我很多帮助。最重要的是，我的爱，支持，和可怕的卡米尔谁给我的力量，克服困难，并保持对我的信心。谢谢VIII公司简介缩略语.十五1第1节介绍1.1动机11.2论文结构和主要贡献32浏览52.1导言. 52.2象征性音乐52.2.1音乐作为象征52.2.2计算机科学的符号音乐表示法2.2.3音乐空间92.3机器学习工具112.3.1基础知识122.3.2具体工具222.4嵌入空间322.4.1幻影与形式主义322.4.2成功的模式332.4.3空间表现形式372.5象征性的音乐空间402.5.1预测412.5.2基于VAE432.6结论443基于预测的FRAMEWORk473.1一、导言. 473.2CNN-LSTM模型473.2.1动机473.2.2建筑学493.2.3分层注意力调节513.2.4数据和培训3.3方法评价3.3.1预测结果533.3.2嵌入式数据可视化573.4结论594v AE-BAs EDFRAMEWORk614.1一、导言. 614.2动机614.3复调音乐表现63IXnT tx四、3 .第三章。1类信号表示。 . . . . . . . . . . . . . . . . . .63四、3 .第三章。2基准。 . . . . . . . . . . . . . . . . . . . . . . . . . . . .64四、4 空间评价。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .68四、四、1音乐分析. . . . . . . . . . . . . . . . . . . . . . . . . .68四、四、2个结果。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .70四、5 结论。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .735ApplICATIOns74五、1 导言。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .74五、2 作曲家分类。 . . . . . . . . . . . . . . . . . . . . . . . . .74五、二、1设置。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .75五、二、2讨论。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .76五、3 创意支持工具 . . . . . . . . . . . . . . . . . . . . . . . . . .77五、3 .第三章。1属性向量运算. . . . . . . . . . . . . . . . . . . .77五、3 .第三章。2插值。 . . . . . . . . . . . . . . . . . . . . . . . . . . .83五、3 .第三章。3讨论。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .84五、4 结论。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .856联系我们87六、1总结与讨论。 . . . . . . . . . . . . . . . . . . . . . . . .87六、2未来的作品。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .89六、3 总体结论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .901991年，L I S T O F I G U R E S图2.1音乐符号在各个时代的演变（a）用楔形文字刻在泥板上的第一个乐谱可以追溯到公元前1400（b）古希腊音乐-公元前128年写的一种符号，其中字母代表笔记（由安妮贝利斯转录）。 (c)纽姆一家沿着一条线编码简单旋律的符号表示，发出固定的声音（11世纪）。 . . . . . . . . . . . . . .6图2.2从乐谱学习符号音乐的表征（一）. 钢琴卷（b）是最广泛的代表。MIDI样（Oore等人，2018）表示（c）编码它作为一个事件序列，而NoteTuple（霍桑例如，2018）表示（d）编码时间偏移，音高数、速度和持续时间的两个值。. . .8图2.3音高空间的不同表现形式，用于发现音乐中的代数模式。(a)该委员会-Cle表示的马林梅森（梅森，1972年），（b）由Henry Klumpenhouwer（Klumpen-houwer，1991年）和（c）在六弦琴中使用的音圈软件（Bigo和Andreatta，2017）。. . . . . . . . . . . . . .10图2.4不同学习率值对控制策略的影响梯度下降的收敛性 . . . . . . . . . . . . . . . . . .14图2.5根据其复杂性，模型可能倾向于不...（左）、（中）或（右）有足够的容量问题（右） . . . . . . . . . . . . . . . . . . . . . .16图2.6分离数据集以减轻过拟合。 . . .16图2.7生物神经元（左）通过仿射近似转换和激活函数（右）。 . . . . . . . . . . .17图2.8一个具有四层的全连接网络。单位之间两个相邻层完全成对连接。. . . . . . .19图2.9向前和向后传球的计算图。21图2.10具有两个卷积层的一个人，一个人。连接网络进行分类。 . . . . . . . . . . . . . .23Xi图目录xii图2.11(Top)残差卷积神经网络（CNN），其中红线表示层之间的跳过连接(He例如， 2016年）。（下）密集连接的CNN，其中所有层都彼此连接（Huang等人，2017年）。24图2.12循环神经网络（RNN）的循环通过以下方式展开：时间. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .25图2.13自动编码器架构。x被编码到一个潜在空间中z. 解码器的目的是重新构造来自z的估计x。 .27图2.14变分自动编码器（VAE）的结构，在数据平滑组织的潜在空间中，感谢正规化。 . . . . . . . . . . . . . . .29图2.15重新参数化技巧。 . . . . . . . . . . . . . . . . . .30图2.16（左）标度点积注意力机制。（右）多-头部注意力机制。 . . . . . . . . . . . . . . . . . . .31图2.17一组可视化，显示依赖于到向量之间的差异相关的词在一个em-使用GloVe学习的bedding空间（“字表示 . . . . . . . . . . . . . . . . . . . .33图2.18一个经典的词嵌入神经架构。的函数定义为f（wt，.. ，wt-n+1）=g（i，C（wt-n+1），.其中g是神经网络，C（i）是第i个单词fea。真向量（图片来自Bengio et al.， 2003年）。.............................. 34图2.19Word 2 vec的连续词袋和跳过语法架构（Mikolov et al. ，2013）。该模型试图从一个由之前的单词组成的上下文中预测一个给定的单词在目标之后，反之亦然。..................................................................36图2.20具有分层解码器的MusicVAE导体RNN提供子序列，解码器RNN（Roberts）从子序列递归地解码最终输出例如， 2018年）。............................................................................44图3.1倍频程卷积应用于钢琴滚动帧。......................................................49图3.2.我们的建议由两个主要部分组成。（左）卷积网络在每个卷积层都有一个单独的注意力机制。这允许在处理的每一个层次上注意最显著的信息。（右）输入充当对注意力模式的查询。ule，它分别作用于每个要素地图50图目录xiii图3.我们模型的第二部分是一个非常低容量的LSTM网络，以确保嵌入学习结构化空间。这一层预测一系列嵌入事件之后的事件。解码器镜像编码器，输出预测的钢琴侧倾帧。.................................................................. 51图3.4根据嵌入空间的维数，我们的完整HAM模型的预测准确率得分。.............................................................................................................. 56图3.图5从我们的嵌入中出现的关系的例子Col-ors取决于根音符。每个音符都链接到相应的和弦。...................................................................................... 58图4.[1]分数表示为钢琴滚动矩阵，其中每个重复音高都映射到主要频率。然后，取伪音频信号相位的角色，将等于1j的虚部添加到矩阵的每个值最后，在所得频谱图上计算ISTFT，以获得最终的类信号表示64图4.图2重构的类信号表示的示例。尽管事实上重建误差稍微模糊了波形，但相应的钢琴滚动和最终得分是完美地恢复。...................................................................................... 67图4.图3潜在空间维度对钢琴滚动和类信号表示的影响。(a)帧级重建精度的结果。(b)吉隆坡潜水员的结果-因子为10367图4.4个不同潜在空间的t-SNE图，使用我们的原则性合成数据，其中这些音乐小节在训练期间没有颜色表示音调（（a）具有3个音调，（b）具有6个音调）。我们用困惑30和1000次迭代。.............................................................................71图4.5原始子系统与其实现之间的归一化平均L2距离，取决于非子系统的数量和声...................................................................................................... 72图5.1通过执行属性向量运算引起的属性变化的百分比。左边的图是-图中表示减法，而右图表示加法。79图5.2使用C全音阶隶属度和平均复调属性执行的属性向量算法的示例。通过从先验分布中随机抽样生成未改变的条形图，属性向量在添加到原始潜码之前乘以中间刻度上描绘的因子。对于C全音阶属性，属于该音阶的音符已被着色为红色，以缓解视觉化.................................................................................................. 80图5.3使用第8个音符和第16个音符切分属性执行的属性向量算术示例。通过从先验分布中随机采样生成未改变的条，并且属性向量在被添加到原始潜在代码之前乘以中间刻度上描绘的因子。切分音开头的音符被涂成红色，让视觉更清晰...................................................................................... 81图5.4使用平均音符持续时间和密度属性执行的属性向量算法的示例。通过先验分布的随机抽样生成未更改的条形图，属性向量乘以中间在被添加到原始的潜在代码之前。.................................................. 82图5.5随机选择的训练点之间的插值生成。第一个黑色条和最后一个黄色条是原始的训练样本，而其他的则是由我们的系统生成的选择插值步骤来生成在起点和终点之间有6小节。............................................................ 84XIVL I S T O F TA B L E S表2-只有在这个比率中，来自非歧视性单词（如水和时尚）的噪音才能抵消，因此大值（远大于1）与冰的特定属性相关，而小值（远小于1）与蒸汽的特定属性相关。（表和文本来自GloVe：单词表示的全局向量Pennington，Socher，Manning，2014）37表3de=3055表4for different不同input输入representation表示. ...........................66表472表5-图10示出了MAESTRO数据集（Hawthorne等人， 2019年）。... 75表5-此外，本发明还提供了一种方法，我们在测试集上显示分类任务的结果。76表5其中一部是作曲家的作品。.............................................................. 77A C R O N Y M SNLP自然语言处理NN神经网络RNN递归神经网络LSTM 长短期记忆XVACROnYM sxviCNN卷积神经网络变分自动编码器ML机器学习AM注意力机制可扩展标记语言（XMLGD梯度下降SGD随机梯度下降MSGD小批量梯度下降ReLU整流线性单元MSE均方误差AE自动编码器PCA主成分分析t-SNEt-分布随机邻域嵌入NADE神经自回归分布估计RBM约束Boltzmann机火腿分层注意调制公元前二进制交叉熵MAESTRO录音和音频编辑为同步轨道和组织CBOW连续字袋手套用于单词表示的I N T R O D U C T I ON1当听到音乐作品或阅读其乐谱时，人类能够直观地解释输入数据中的复杂信息集事实上，由于我们一生中不断发展的音乐体验，我们可以很容易地将未知的音频信号与音乐流派、节奏或和声等已知概念联系起来。这些概念可以被认为是高级抽象，与声学信号值等低级抽象相反。在过去的几十年里，计算机音乐领域已经精确地解决了围绕音乐概念分析的问题。事实上，只有首先了解这类信息，我们才能提供更先进的分析和作曲工具，以及提高我们音乐知识的方法。如今，人们已经追求了各种各样的方法，最近来自机器学习领域的灵感显著在这篇论文中，我们一直专注于机器学习中提出的一个非常有前途的想法，嵌入空间的想法。这种特殊的方法包括设计模型，这些模型能够将音乐数据投影到更小的空间中，其中度量属性反映了高级音乐理论概念。这些空间非常强大，因为它们本身可以用作分析甚至组合工具，也可以用作复杂任务的输入表示。事实上，由于这些空间提供了有效组织的音乐信息，它们可以以更简单的方式解决更复杂的问题。在这一章中，我们定义了本文的背景和目标。我们将首先解释我们在计算机音乐这个特定领域的动机，通过强调允许我们研究的重大突破，但我们也强调了剩下的挑战。最后，我们概述了这份手稿的全球结构，并介绍了我们的主要贡献。1.1动机伴随着计算机的出现，人们对计算机用于音乐产生了极大的兴趣。他们的计算方面似乎是一种将我们从物理边界中解放出来的方式，创造了新颖的音乐形式，11.一、1 动机2能够产生具有不寻常音色特性的大阵列声音的部件。这种好奇心很快蔓延到创作用于作曲，录音和分析音乐的工具。半个多世纪以来，艺术家和科学家一直在研究问题和艺术作品上合作，推动这一领域随着计算资源的扩展而携手并进。这些技术可能性已经被艺术家抓住，激发了他们对研究人员和工程师新工具的需求。因此，电脑音乐在重塑现代音乐中扮演了重要的角色，甚至成为流行音乐的主要支柱之一。虽然在这一领域逐渐出现了各种各样的科学挑战事实上，乐谱在各个时代都在发展，直到成为一种独立的完整语言。然而，由于其内部结构和构造，计算机并不适合直接处理这种具有复杂形状和独特符号的多维类型的数据。因此，首先必须将符号音乐转换为机器可读的格式。出于这个原因，音乐的表现形式必须改变，并以不同的方式思考，才能在我们的领域中发挥作用。这个特定的问题激起了研究界的巨大兴趣，导致了各种各样的表征，我们在这里称之为音乐空间。尽管它们的代数性质是为有效处理而量身定制的，但它们的真正价值可以通过音乐理论信息的底层组织来评估。虽然通常针对不同类型的效率，但所有这些形式化都有一个相似的发展过程，试图通过已知的数学规则来构建空间。不幸的是，这通常限制了这些空间在西方音乐中的有限应用范围，并且通常不容易适用于其他背景。然而，通过最近深度学习领域的兴起，新的可能性已经出现。虽然通过计算机模拟人类神经元行为的想法可以追溯到20世纪中叶，但缺乏计算能力和足够的数据量极大地阻碍了该框架的可用性。然而，在过去的十年中，技术进步已经允许训练所谓的深度架构，其中人工神经元堆叠在连续的层中。这些成就带来了计算机科学的革命，开辟了各个领域的整个研究领域。在所有这些新挑战中，有一个问题引起了人们的特别兴趣：计算机是否能够自己学习有意义的音乐表现？1.一、2选择性使成一体;使成一体的nd主要贡献3最近，自然语言处理（NLP）领域的不同突破为我们的总体目标提供了基石与我们的工作特别相关的是单词嵌入空间的发展迈出了巨大的一步。在这种情况下，使用大型句子数据集来理解单词之间的关系。我们的目标是找到一个空间，其中单词表示为点（向量），其距离关系反映了它们的语义相似性。通过使用这些向量作为其他机器学习任务的代表性基础，科学家们取得了巨大的进步，并为各种强大的应用开辟了可能性。例如，Palangi等人，2016年使用单词嵌入来执行有效的文档检索或Web搜索。类似地，Tang等人，2014年开发了一个工具，根据他们的情绪对来自Twitter的消息进行在我们的背景下，语言和音乐领域之间的结构相似性可以假设共享一些逻辑等价。事实上，一个句子是由分层定位的单词组成的，类似于由音符组成的旋律。此外，这种学习空间对于音乐分析和作曲领域也是非常有价值的，作为一种潜在的分析和知识推理工具，也可以作为其他创造性应用的新表示。此外，这种连续的空间可以提供直接的方式来执行旋律的生成或转换。最有趣的挑战之一是将这些空间与感知或信号处理知识联系起来，就像在其他领域所做的那样（Aytar，Vondrick和Torralba，2016; Karpathy和Fei-Fei，2015; Kiros，Salakhutdinov和Zemel，2014;Mroueh，Marcheret和Goel，2015）。有了这些组合空间，我们可以找到一些关于音乐的新的相关特征，并开发强大的分类或推荐工具。从这些有趣的前提出发，我们决定致力于这些象征音乐的嵌入空间。1.2选择性使成一体;使成一体的nd迈恩贡献首先，第2专门介绍与我们的工作有关的最新第2节. 2，我们介绍了音乐符号的基本原理，同时强调了它在不同时代音乐发展中的重要性。然后，我们解释了如何记谱法已适应计算机科学与有效的数字表示和强大的概念，音乐空间。第2节. 3、我们详细介绍了机器学习（ML）领域的核心原理。我们从揭示基本概念开始，允许开发在本论文中使用最后，我们在第2节中提供。4a全球

下载后可阅读完整内容，剩余1页未读，立即下载