没有合适的资源?快使用搜索试试~ 我知道了~
视觉信息学4(2020)99中国传统音乐潜在空间的视觉探索沈静怡,王润琪,沈汉伟地址:2015 Neil Ave,Columbus,OH 43210ar t i cl e i nf o文章历史记录:在线预订2020年4月6日保留字:音乐信息检索潜空间分析长短期记忆自动编码器中国传统音乐a b st ra ct生成紧凑有效的数据数值表示是许多机器学习任务的基本步骤。传统上,使用手工制作的功能,但随着深度学习开始显示其潜力,使用深度学习模型来提取紧凑的表示成为一种新趋势。其中,从模型的隐空间中提取向量是最常用的方法。在自然语言处理和计算机视觉中,有几项研究集中在潜在空间的视觉分析上。然而,相对较少的工作已经做了音乐信息检索(MIR),特别是将可视化。为了弥补这一差距,我们提出了一个可视化的分析系统,利用自动编码器,以促进分析和探索中国传统音乐。由于缺乏合适的中国传统音乐数据,我们从预先录制的音频集合中构建了一个标记数据集,然后将其转换为频谱图。我们的系统将从两个深度学习模型(一个完全连接的自动编码器和一个长短期记忆(LSTM)自动编码器)中学习到的音乐特征作为输入。通过交互式选择、相似度计算、聚类和收听,我们发现编码数据的潜在表示使我们的系统能够识别出基本的音乐元素,这为将来进一步分析和检索中国音乐奠定了基础©2020作者(S)。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍音乐信息检索(Music Information Retrieval,MIR)是信息检索领域的一个活跃的研究分支,它是一个多学科的研究领域,旨在为数字音乐创建有效的表示,分析突出的音乐信息,开发基于内容的检 索方 案 , 并 提供 用 户友 好 的 界面 ( 例 如, Downie ( 2005 ,2004))。具体来说,MIR有两个主要方向:从原始音频中提取特征来描述音乐,以及利用诸如歌词、表演者和听众偏好等附加因素来形成内容丰富的音乐描述符。 在本文中,我们对前者感兴趣。通常 , 相 关 的 MIR 任 务 包 括 特 征 提 取 ( 例 如 , Laden and Keefe(1989),Eck andSchmidhuber(2002),Nam et al.(2012),Dieleman and Schrauwen ( 2013 ) , Dieleman and Schrauwen(2014),Costa et al. (2017))、相似性比较(例如,West和Lamere,2006年; Slaney等人。,2008; Schluter and Osendorfer,2011; Janssen et al. ,2017)、分类(例如,Costa等人(2017),Yu等人(2020)),以及音乐推荐等应用(例如,McFee et al. ,2011; van denOord et al. ,2013; Koenigstein et al. ,2011),音乐生成(例如,Kim等人 (2009),van den Oord et al. (2016))、音乐转录(例如, Sigtia等人 (2015))、音乐可视化(例如,Foote*通讯作者。电子邮件地址:osu.edu(J. Shen),osu.edu(R.Wang),osu.edu(H.-W. Shen)。https://doi.org/10.1016/j.visinf.2020.04.003(1999),Cooper et al.(2006),Yim et al.(2009))和其他鼓舞人心的方向。其中,开发紧凑而有效的音乐表征是这一过程的关键步骤在传统的音乐检索中,音乐信息并不总是得到很好的保存,并且所涉及的特征工程过程是繁琐和耗时的。MIR的一个转折点是机器学习和深度学习技术的最新发展。受计算机视觉和自然语言处理(NLP)的启发,科学家们试图使用卷积神经网络(CNN)来 提 取 音 频 特 征 Dieleman 和 Schrauwen ( 2014 ) , Lee 等 人( 2017 ) , van den Oord et al.( 2016 ) , Choi et al.(2016),Korzeniowski和Widmer(2016)),递归神经网络(RNN)(例如, Sigtia等人 (2015),Li et al. (2016))和自动编码器(例如,Meyer等人(2017))。在此基础上,他们进行音乐分类,操作,预测和合成。尽管性能卓越,但深度学习的功能由于神经网络模型的黑盒性质,很难解释这些模型。为此,许多研究人员试图利用可视化方法来解释深度神经网络以及这些模型在计算机视觉和NLP领域(例如,(Zhu和Chen,2007; Zeiler和Fergus , 2013; Garcia-Gasulla et al. , 2015; Liu 等 人 ,2018;Camargo and González,2014a)).一些研究试图可视化音乐特征,例如MFCC(例如,Panda等人,2019年),但还没有太多的视觉分析来理解从深度神经网络中提取的音乐特征。2468- 502 X/©2020作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表视觉信息学期刊主页:www.elsevier.com/locate/visinf100J. 申河Wang和H.-W. 沈/视觉信息学4(2020)99此外,值得注意的是,大多数MIR任务集中在西方音乐,特别是流行音乐和西方古典音乐。中国传统音乐作为一种丰富而复杂的艺术形式,几乎被忽视。造成这种现象的因素有两个。首先,与西方音乐相比,中国传统音乐被相对较小的群体所知,这导致了相对较小的数据集集合。第二,最具影响力的MIR会议,音乐信息检索评估交换(MIREX)的任务是数据集绝大多数是西方音乐此外,中国传统音乐不是由和声组成的,而是更多的旋律。西方音乐和中国传统音乐之间的这种继承性差异使得研究者很难将西方音乐分析的方法直接应用于中国传统音乐(例如,分析从深度神经网络提取的特征因此,我们的工作旨在为这一被忽视的领域,中国传统音乐的信息检索。具体来说,我们希望提供一个工具,可以帮助检索信息,从传统的中国音乐,比较表演,作为辅助教学和学习,探索不同的音乐群体的属性,并产生一个平滑的融合不同的音乐作品。要实现这些目标,最基本的步骤是音乐表征分析和评价,这是我们的论文的重点。为了开始我们的研究,需要一个适当的数据集。为此,我们首先从领域专家推荐的30多张专辑中建立了一个传统的中国音乐集合,然后我们将集合中的音频转换为每个音乐的乐器和演奏者标签的声谱图。频谱图从原始音频波信号中捕获频率和幅度,从而为进一步的音乐分析提供基础。然而,由于频谱图的复杂性和高维性为了解决这个问题,我们利用两个深度神经网络,一个完全连接的自动编码器和一个长短期记忆(LSTM)自动编码器,来提取紧凑的音乐表示。以逐列的频谱图作为输入,全连接的自动编码器可以学习每列的压缩潜在表示,这将被视为音符潜在向量。由于音乐是由时变信号组成的,因此时域中的特征包含基本的时间信息。因此,我们将一个音乐片段以适当的采样率产生的音符潜在向量馈送到LSTM自动编码器中,从中我们得到一个代表时间相关信号的潜在向量,称为片段潜在向量。在试图提供可视化的探索和分析的潜在表示,我们提出了一个可视化的分析系统,Mu- sicLatentVIS。该系统由潜在空间的二维(2D)投影、包括热图、平行坐标的可视化列表以及供用户选择音乐或表演者组的菜单组成用户可以点击2D投影,聆听音乐的特定片段,探索潜在的空间。通过在2D投影中移动,发现聚类和比较潜在向量,用户可以定位音乐的一些有趣的属性此外,我们使用几个评估任务来证明我们的系统的有用性。2. 相关工作2.1. 音乐信息检索中的特征提取在MIR领域中,长期以来人们认识到对有效和信息丰富的音乐表示而不是原始音频的需求。如Peeters(2004)所述,传统的MIR使用手工制作的特征来表示音频,例如自相关系数,过零率(例如,Kumarbanchhor and Khan(2012),Xu等人(2003)),不和谐性(例如,Agostini等人(2003)),光谱质心(例如,Agostini等人(2003))、光谱对比度(例如,Jiang等人(2002))、Mel频率倒谱系数(MFCC)、短时傅立叶变换(STFT))等。然而,采用这些手工特征总是需要预处理步骤,诸如降维(例如,主成分分析(PCA)和线性判别分析(LDA))来避免维数灾难并去除冗余特征。受最近在计算机视觉和NLP中成功利用深度学习模型的启发,一些MIR研究利用神经网络进行特征提取,以减少特征工程工作。Dieleman和Schrauwen(2014)将1D CNN直接应用于原始音频信号以进行特征学习。Lee等人(2017)提出了一种样本级深度CNN模型,具有较小的滤波器长度和子采样长度,以从波形中学习表示。van den Oord等人(2016年)提出了WaveNet,这是一种利用扩张卷积提取特征并自回归生成原始音频波形的生成模型。Li等人(2016)采用深度双向长短期记忆(DBLSTM)来捕获音乐特征序列的上下文相关性Chuan等人(2018)探索了word2 vec,这是Mikolov等人(2013)提出的一种shal- low神经网络,可以通过具有语义含义的向量表示单词,作为一种特征提取方法来捕获音乐中有意义的关系。2.2. 用于特征提取的由 于 LSTM 具 有 对 序 列 的 时 间 依 赖 性 建 模 的 能 力 , 而Autoencoder在特征提取方面表现出色,因此首先由Srivastava等人提出。(2015),LSTM Autoencoder被用来学习视频表示。此外,Marchi et al. (2015)利用具有双向LSTM的去噪自动编码器Zhao等人(2018)提出了一个强大的LSTM自动编码器,用于有效的面部去遮挡。他们的LSTM自动编码器由两部分组成,一部分 是 人 脸 编 码 , 另 一 部 分 是 遮 挡 去 除 。 除 了 视 频 , LSTMAutoencoder还展示了其对音频建模的潜力例如,Tang et al.(2018)使用LSTM自动编码器来学习舞蹈合成的声学和运动特征之间的映射。2.3. 潜在空间的视觉分析自动编码器是一种神经网络,设计用于提取数据集的潜在表示;然而,由于自动编码器的编码模式不清楚,因此不能保证自动编码器提取的潜在向量是人类可解释的,如Hristov等人所述。(2018)和Liu et al. (2019年)。为了解释潜在空间,提出了许多视觉方法首先,研究人员必须验证从Autoencoder获得的潜在空间是否值得信赖,例如,如果数据样本之间的内部相关性被保留在潜在空间中。广泛使用的方法是通过使用t分布随机邻域嵌入( tSNE ) 、 主 成 分 分 析 ( PCA ) 或 均 匀 流 形 近 似 和 投 影(UMAP)将高维数据投影到2D空间。通过比较原始空间和潜在空间中的聚类Nabney等人(2005)提供了用于识别具有相似主题的文档集合的交互式聚类。第二,采用领域特定的方法来可视化潜在空间中的语义。Liu等人(2019)为对立概念创建了一个属性向量图。Ji等人(2019)根据医学文档中的层次结构Camargo和González(2014 b)将图像和文本投射到潜在空间上,以展示它们之间的关系J. 申河Wang和H.-W. 沈/视觉信息学4(2020)99101Fig. 1. 概况.2.4. 音乐表现以前,研究人员一直致力于设计音乐的适当视觉表示以提高音乐理解,例如,Cruz等人(2018)提出使用形状,颜色和动作来表示音乐结构。受最近在NLP中可视化嵌入的成功启发,Pandaet al. (2019)从概率主题模型的潜在空间中提取音乐片段的特征,然后使用所得的概率标签来解释音乐。为了可视化,他们选择了一个圆环图来表示概率分布,并选择了一个线图来可视化随时间的分布。但是,潜在表征的实际潜在语义意义是缺失的。3. 音乐潜在特征提取正如我们之前提到的,我们工作的基本目标是对音乐表现的视觉分析和评估本节主要介绍了音乐特征的提取过程。首先,我们选择谱图作为音乐的初始表示,因为谱图包含音乐信号的频率和幅度信息。但由于频谱图中存在冗余,我们使用两个神经网络模型来提取更紧凑的特征。具体来说,我们建议使用自动编码器的潜在空间来生成我们的音乐特征,即用于音符潜在向量的全连接自动编码器和用于音乐片段潜在向量的长短期记忆(LSTM)自动编码器。在此基础上,对音乐潜空间进行视觉我们的音乐特征生成过程的工作流程如图所示。 1(A):3.1. 数据预处理为了获得一个全面的中国传统音乐数据集,我们建立了一个由373首谱图格式的音乐作品组成的数据集,涵盖了60多位音乐家演奏的17种乐器大多数音乐都是从商业CD中收集的。有三个主要原因使我们利用商业CD收藏,而不仅仅是从音乐家的录音,我们有机会。首先,由于市场竞争激烈,商业光盘的质量一般较好。第二,专业的音乐工作室有更好的录音设备。第三,如果我们自己记录这么大的数据,成本太高。从技术的角度来看,音乐可以被看作是一系列音符或音符组合(西方音乐中所谓的和弦),音符可以被分解为某些频率。出于这个原因,我们计算频谱图(由Muller等人所述的短时傅立叶变换生成的频率-时间表示)。(2011)),而不是使用波形(图二. 二胡音乐的声谱图片段,梁晓。该列有501个频率仓,每个时间步长为0.025 s,颜色表示幅度值。颜色越亮,振幅越大频谱图是一个二维矩阵,其列表示频率点,行表示时间,并且矩阵中的值是特定时间步长处的特定频率点的幅度。从图中的频谱图。2,我们注意到每个音符都是由一个重要的基频(表示为f0)和泛音组成的复杂音调。根据Wood和Bowsher(1980)的说法,泛音由谐波分音组成(f0的倍数,如2 f0,3 f0,4 f0,. . . )和非调和分音。Wood和Bowsher(1980)认为基频决定音高,泛音对应乐器的音色,振幅决定音符的响度虽然频谱图是一种有用的表示,但它的主要性质意味着它是高维的,并且通常是稀疏的,具有固有的冗余,这对于视觉分析来说并不理想。正如我们之前提到的,音符是f0和泛音,因此不需要至少2/3频率仓来表示音符。然而,音乐频谱图可以可以被进一步分组为具有不同贡献的若干频带,这意味着更简洁的表示是可能的。因此,下一步是从频谱图中提取更紧凑的信息,为此我们使用深度神经网络。我们注意到频率仓中的幅度分布并不是神经网络的理想尺度,因此在将数据输入神经网络之前,我们将将原始数据转换为对数标度,然后对对数标度数据进行3.2. 模型架构在自动特征工程中,Autoencoder是一种无监督的深度学习模型,广泛用于为其输入提取紧凑表示。由编码器和解码器组成,自动编码器可以使用其编码器f将输入x编码为潜在表示f(x)。然后,潜在表示f(x)可以通过解码器g解码为输出g(f(x))。Autoencoder的目标是最小化输入x和重建输出g(f(x))之间的差异出于降维的目的,自动编码器通常被设计为具有潜在表示f(x)具有比输入x更小的维度的约束。通过这种方式,自动编码器被迫学习最基本的功能,102J. 申河Wang和H.-W. 沈/视觉信息学4(2020)99××××=图三. 全连接自动编码器。数据。因此,学习的潜在表示f(x)可以用作输入的紧凑特征由于声谱图具有和不具有时间相关性)。在我们的工作中,我们利用两种不同的自动编码器进行特征提取。3.2.1. 全连接式自动编码器如前所述,由于沿着频率轴的谱图的冗余,使用自动编码器从谱图的每一列提取音符特征而无需时间信息是可行的。由于人们可以从单个音符中识别出音高、响度和音色等音乐信息,因此无论音符有多短,谱图的一列都足以描述音符,除了它的持续时间。出于这个原因,我们也将声谱图的一列称为音符样本。我们选择一个全连接层的自动编码器(全连接自动编码器)来学习音符特征。这个自动编码器包括一个输入层和两个完全连接的隐藏层作为编码器,另外两个完全连接的层作为解码器。我们使用均方误差(MSE)作为损失函数来衡量输入和输出之间的差异,并迫使模型从输入中学习特征。编码器将5011维度的输入频谱图的列加密为大小为321的潜在向量,并且解码器将潜在向量解密回5011向量。通过细致的实验,我们设计了我们的模型如Fig. 3.第三章。在训练之后,全连接自动编码器的编码器部分第4.2节中对潜向量的评估表明,音符潜向量可以成功地捕获音符的三个特征:音色,音高和响度。3.2.2. LSTM自动编码器本节的目标是从音乐的持续时间中提取潜在向量,即,音乐片段。虽然卷积在提取特征时表现良好,但它们不适合为音乐等时间序列数据建模时间信息另一方面,递归神经网络(RNN),特别是LSTM,能够学习输入序列的时间相关性一般来说,LSTM由一个单元状态组成,它是前一个输入的记忆,一个遗忘门,用于从记忆中删除信息,一个输入门,用于调节将哪些信息添加到记忆中,以及一个输出门,用于根据输入和记忆控制输出什么。该方案允许LSTM提取输入序列的长期和短期依赖关系。为了提取具有时间相关性的音乐特征,我们采用了LSTM自动编码器。作为常规Autoencoder的变体,LSTM Autoencoder也由编码器和解码器组成受Sutskever等人(2014)提出的序列到序列模型的启发,该模型通常用于将句子翻译为另一种语言,LSTM自动编码器可以类似地具体来说,LSTM编码器逐步处理输入序列,在输入整个序列后,编码器的输出被视为压缩的潜在表示。然后,LSTM解码器逐步解码潜在表示并输出重建序列。在构建LSTM自动编码器模型之前,我们需要决定如何将音乐片段表示为序列。为了表示单个音乐片段,我们可以使用T个时间步长的频谱图,每个时间步长具有501个元素,或者我们可以从该片段中采样一组音符潜在向量根据我们的领域专家的建议,他们是长期的中国音乐表演者,我们知道为了区分或理解音乐片段的语义,音乐片段需要至少10秒。由于原始频谱图的采样率为20 kHz,这意味着频谱图中的一列只是持续时间为0.025 s的小切片,因此10 s的频谱图切片将具有400个时间步长(时间轴上的长度),这对于典型的LSTM来说很难通过时间迭代处理然而,如第3.1节所述,每种仪器都有不同的主频组合,这意味着频谱图沿频率轴具有事实上,为了同时捕捉音乐的旋律和节奏,我们的由于这个原因,更期望沿时间轴的均匀采样。考虑到音乐片段的有意义的持续时间、谱图的冗余以及计算复杂度和重构准确度,在大量实验之后,我们选择通过将每个谱图沿着时间轴分成大小为20的仓并从每个仓中挑选第一时间步来使用下采样表示该采样率可以减少冗余并保留音乐旋律。至于频率轴上的冗余换句话说,我们使用一组20个音符潜在向量来表示10秒的音乐片段。这里的一个限制是,我们正在准确性和计算复杂性之间进行权衡。一个可能的未来工作是使用更自适应的下采样方法来减少冗余。这20个音符潜在向量是时间依赖的,LSTM模型需要逐步处理它们。为了便于更有效的训练,我们进一步将20个音符特征向量重新整形为4个时间步,每个时间步由5个级联向量组成。因此,LSTM自动编码器的最终输入是一个具有4个时间步长的时变序列。每个时间步是一个160维向量(325160)。在这这样,我们可以同时考虑音乐片段的时间和空间相关性。我们的LSTM自动编码器的架构是一个堆叠的LSTM,如图所示。 四、 图 4(A)和(B)分别是编码器和解码器。如前所述,我们总共有4个时间步长。在编码过程中的每一个时间步,我们将160维的向量送入编码器,并更新包含当前时间步信息然后我们得到这个时间步的大小为16的输出向量。编码器的最后一个时间步的输出J. 申河Wang和H.-W. 沈/视觉信息学4(2020)99103见图4。LSTM自动编码器。(A)和(B)分别是编码器和解码器的结构。在(C)中,每个绿色编码器块表示编码阶段期间的时间步长,灰色块表示每个时间步长的输入数据。编码后,生成一个片段潜在向量(黄色块)这个音乐片段。我们把这个向量称为分段特征向量。在解码过程中,段特征向量作为解码器的每个时间步长的输入。损失函数是均方误差(MSE)。一旦模型被良好地训练,给定表示音乐片段的音符潜在向量的集合,编码器部分就可以提取对应的片段潜在向量。总 之 , LSTM Autoencoder 有 两 个 优 点 : ( 1 ) 像 常 规Autoencoder一样,它作为一种无监督学习方法用于音乐片段特征提取,例如,类似的输入将具有类似的压缩表示。(2)它能够学习复杂的时间信息。4. MusicLatentVIS为了更好地理解音乐数据并促进分析过程,我们与领域专家E1和E2密切合作。E1是大学民族乐团的指挥,也是一名20多年的竹笛演奏家。E2是一位传统的中国音乐表演者,他演奏了14年的古筝和12年的二胡他们都对研究音乐表现感兴趣。为了展示我们的视觉界面和进行实验,我们选择了四种有趣的乐器(即竹笛,二胡,琵琶和古筝)演奏的324首音乐作品,因为它们是中国传统乐器的代表,吸引了主要观众。在训练完全连接的Autoencoder和我们的工作旨在从中国传统音乐中检索信息。更具体地说,我们的目标是通过我们的交互式视觉分析系统MusicLatentVIS来比较,评估和分析音乐的潜在表现。4.1. 可视界面受近年来在MIR中通过神经网络进行特征提取的成功的启发,我们对音乐表示的分析和评估感兴趣,特别是对传统的音乐表示,图五. 音乐片段潜在向量的t-SNE投影。每个点由表演者着色,代表一个10秒的音乐片段。我们可以看到有相同的表演者集群。中国音乐。为了实现这一点,我们需要了解所有潜在的载体。然而,高维向量很难直接可视化,因此我们采用了一种非线性降维方法t-SNE(t-distributed StochasticNeighbor Embedding)由于t-SNE利用距离的分布来模拟相似性并试图最小化低维对象和高维对象之间的差异,因此2D投影的可视化可以从数据中显示一些重要的高维结构。因此,t-SNE投影可以帮助探索潜在空间(例如,高维潜在空间中的可能簇)。例如图图5示出了音乐片段的t-SNE投影潜在的载体,由表演者着色t-SNE中数据点的着色当用户将鼠标悬停在某个数据点上时,相关信息(包括乐器、演奏者、音乐名称和该片段的开始时间索引)将出现,如图所示。5(A)。为了提供那些被遮挡的2D点的清晰视图,我们的系统允许用户刷一个区域或使用鼠标滚轮放大投影区域。图6(B)是用户通过拖动鼠标滚轮放大后在领域专家的建议下图图7示出了以下两种情况下的t-SNE投影的比较:谱图数据和我们注意到潜在变量。正如我们在第3.2.2节中提到的,经过训练的全连接Au- toencoder的编码器可以提取紧凑的特征,可以去除不需要的和图7中的视图有助于识别编码器的性能。我们将501维音符样本投影在左侧面板上,将32维音符潜在向量投影在右侧面板上。乐器(音色信息)是用颜色编码的。音高聚类由文本标记,例如,La4表示视唱练耳中的La。每个音符样本也有一个悬停在标签包含音高,响度和音色信息的细节。为了促进更有效的浏览和查询,在考虑所有数据样本的情况下,如果用户可以专注于数据的子集来执行比较,或信息检索。为了帮助分析数据样本的子集,MusicLatentVIS支持两种t-SNE投影的选择方法:(1)用户可以通过相应的下拉菜单按表演者或按音乐名称选择数据的子集,(2)用户可以通过鼠标刷来选择数据点(例如,用户可以在t-SNE投影上用鼠标刷一个区域104J. 申河Wang和H.-W. 沈/视觉信息学4(2020)99=图六、 我们的 交互式视觉分析系统的概述。详情见第4.1节。矩形画笔区域内的点将被选中)。选择后,如图所示。如图6(A)所示,选定的数据样本将被突出显示并保留以供进一步分析,而其他数据样本将被灰显。视觉分析的基本任务是理解潜在表征的值分布。为所选择的音乐片段生成平行坐标图和潜在热图。平行坐标图对于比较音乐表示的集合的多个变量是有用的在平行坐标图中,每个垂直轴表示一个潜在维度,并且一个垂直轴表示音乐片段潜在向量。由于在视觉编码中,位置的变化比颜色的变化更有效,因此平行坐标图可以很容易地找到数据模式,例如。音乐表征沿着一个潜在维度的值分布所显示的每种颜色图 6(E)总是与图中相应点的颜色一致。6(A)。图图6(C)是潜在值的热图,其中每行表示一个分段潜在向量,每列表示一个潜在维度(即,假设存在N个所选的分段潜在向量,并且每个向量具有k个变量,则为这些潜在向量生成的热图将具有N行和k列)。为了清楚地看到每个维度内的值分布,热图的每个维度都单独着色。从特定维度的所有潜在向量中的最低值到最高值,此热图中相应矩形的颜色设置为从蓝色到红色。与更好地追踪累积模式但更容易具有视觉聚类的参数坐标图不同,热图是一种空间填充视觉表示,其在寻找二维趋势方面更有效。为了确定哪个维度贡献最大,在区分所选子集中的段时,我们计算该子集中的所有数据样本中的每个维度的方差。这给了我们一个解释尺寸的线索潜在热图和平行坐标图两者的列(或坐标轴)通过维度的变化以降序排序,这意味着左侧的维度将具有更高的变化并且将对区分音乐片段做出更多 图 6(D)是显示排序方差的文本区域以及维度索引。在这个例子中,我们可以看到前3个维度是dim-12,dim-0和dim-5,方差分别为0.18058,0.15348和0.10123。它们对区分蓝色和橙色集群的贡献最大。为了评估潜在向量是否可以捕获原始音乐片段的相似性,我们的系统允许用户基于所选片段之间的余弦相似性生成热图,如图所示。9 .第九条。首先,计算所选择的段特征向量的所有对相似性热图中的位置(i,j)处的颜色对第i个和第j个潜在向量之间的相似性热图上较亮的颜色表示较高的余弦相似性,这意味着更相似。此外,由于聚类可以根据数据的相似性将数据重新组织成组,因此对我们的音乐片段隐向量采用聚类方法进行音乐信息检索或音乐片段之间的比较是合理的。为了实现这一点,我们的系统允许用户采用如图6(F)所示的聚类技术。聚类结果是基于LSTMAu- toencoder的n维(n16)段特征向量计算的. 根据用户的需求或探索兴趣,他们可以选择分层聚类,K-means和DBSCAN与用户自图6(G)是将出现聚类结果的文本区域。4.2. 潜在特征性能评价在本节中,我们研究所提取的特征(即,音符潜在向量和片段潜在向量)对于表示谱图的每个音符样本或每个音乐片段的显著信息是有意义的和有效的。首先,在训练完成后,我们从第3.2为了比较音高、响度和音色,我们收集了一个由我们的领域专家执行的简单测试数据集:我们记录了4个音乐音阶,从ocave 4中的视唱练耳Do到ocave中的SoD大调5号,由竹笛、二胡、琵琶、古筝演奏。我们把竹笛的笔尖涂成蓝色,二胡涂成橙色,琵琶涂成J. 申河Wang和H.-W. 沈/视觉信息学4(2020)99105=图7.第一次会议。 左图用于音 符 样 本 的t-SNE投影,右图用于音符潜在向量的t-SNE投影。绿,郑如红。每种乐器有12种音高音高簇用文本标记,例如Do4、Re4和Do5等。对于传统中国音乐,惯例是不用字母标记音高,例如D4、E4和D5等,因为演奏中国传统音乐的音乐家会读乐谱,唱视唱。每个音符的记录持续0.25 s,因此每个音符转换为声谱图后有10个音符样本。我们还将录音复制到4个响度级别(在悬挂标签中标记为l1,l2,l3和l4)。为了得到中国传统音乐谱图的分段特征向量,我们首先将每个谱图沿时间轴连续细分为10秒的分段,然后丢弃剩下的部分不到10秒。对于每个十秒的片段,我们沿着时间轴每隔20列取一次频谱图,得到下采样的频谱图数据20列,每列501个维度。然后,下采样的频谱图被逐列地馈送到我们预先训练的全连接Autoencoder的编码器中,以提取相应的音符潜在向量。这20个音符潜在向量被用作LSTM Autoencoder的编码器的输入,之后,我们有以下评估任务来测试提取的潜在向量的有效性:T1验证音符特征向量是否能够捕捉音高、响度和乐器信息。优美的旋律总是人们听音乐时首先想到的。音准是旋律美的保证。我们对音符样本和音符潜在向量进行聚类,以测试音高变化是否被编码到音符潜在向量中。我们的比较面板(图。7)示出了音符样本和音符特征向量之间的差异和相似性。在笔记样本的面板上(图中的左侧面板)。 7),我们可以观察到,由相同的乐器演奏的相同音符(例如图7所示的左侧面板上的Fa4集群)。7(A))是最突出的集群,但不同乐器演奏的相同音符并没有聚集到一个明显的集群(即不是所有相同的颜色都形成明显的集群)。在音符潜在向量的面板上(图7中的右侧面板),我们仍然注意到由相同乐器演奏的相同音符的集群,并且它们更紧密(例如,图中所示的簇Fa4。 7(B));此外,我们甚至可以认识到一些更不同的组相同的音高音符发挥不同的乐器(例如,明显的一组So显示在图。7(C))。例如,有Do、Re、Mi、So和La的大型音高组包含所有四种乐器。因此,音符潜在向量更多与原始音符样本相比,对音高敏感尽管如此,我们注意到Fa和Ti并不像其他音高那样形成一个紧密的音高组;然而,该领域的专家说,Fa和Ti在表演者中总是以不同的方式演奏,因为传统的中国音乐,即五声音阶音乐,并没有给出Fa和Ti的明确音高因此,我们可以得出结论,音符的潜在向量能够获得的音高变化,使音高特征的区别。我们观察到的音符的第二个属性是音符的响度,音符的变化会改变音乐中的情感。在这两个面板上,我们可以识别出四个响度级别的一些小集群。如图2所示,两侧二胡的Fa4簇。 7(A)和图。7(B)有四个不同的响度聚类;然而,我们不能断定音符潜向量是否增强了响度的差异,因为我们可以发现一些音符,例如图7(D)中所示的二胡的Do 5和Re 4, 图中所示的竹笛。7(E)具有更清晰的子集群由于响度的差异,图7(F)和图7(G)中所示的琵琶的Fa4和Mi5等一些音符没有保留音符潜在投影中的清晰子簇。然而,仍然清楚的是,音符潜在向量编码一些响度信息。音符的第三个属性是音色,有一定音乐背景的人可以从中区分乐器。两个面板都没有明显的某些乐器的大集群,但我们注意到,具有相同音高的音符样本或音符潜在向量都没有重叠,即。没有具有不同颜色的点因此,音符潜在向量也编码音色信息,尽管是音高而不是音色主导聚类的分离。T2验证分段特征向量是否能够区分不同的音乐表达。音乐表演最重要的方面之一由于音乐是表演者情感状态的表达在MusicLatentVIS中,我们从音乐名称的下拉菜单中选择了“光明星”,这导致一个子集包含两个演奏者(帅柴和俊荣)用二胡演奏相同的音乐。 正如我们之前提到的,这个t-SNE投影是n维(n16)段潜在向量的2D可视化. t-SNE中的每个点表示10秒的音乐片段。我们应用了层次聚类,其中欧氏距离作为相似性的度量,两个作为聚类的数量,而沃德链接(也称为Ward linkage)。最小方差106J. 申河Wang和H.-W. 沈/视觉信息学4(2020)99××× +×× +×见图8。 音乐的t-SNE投影和聚类结果:光明星。t-SNE中每个突出显示的点都是这段音乐的10秒片段。(A)是聚类结果。选定的数据点按聚类着色。(B)显示了由实际表演者着色的聚类。通过在(C)中的平行坐标图上刷动,识别可以完全分离表演者的维度(dim-1和dim-10)。(D)是按维度方差排序的潜在向量的热图。每个(D)中的行表示16维的潜在向量当合并两个聚类时试图最小化聚类内方差的方法)。在那之后,我们可以看到对应的点被突出显示并通过聚类结果着色,一个聚类为橙色,另一个为蓝色,如图所示。8(A)。橙色集群更密集。出于好奇,我们重新着色这些数据样本的表演者在图。8(B)其中紫色的集群是帅柴和黄色集群是俊荣。令人惊讶的是,我们注意到它们与我们之前的层次聚类结果一致。它们的热图和平行坐标在图1中生成。 8(C)和图。8(D)。通过在具有与图8(B)相同的配色方案的潜在维度的平行坐标上进行刷涂,我们发现dim-1(即,第二高方差维数)和dim-10可以完全分离这两个聚类,如图8(E)和图8(E)所示。 8(F).在我们领域专家的帮助下,我们注意到,虽然两位演奏者演奏的音乐节奏相同,但他们与伴奏不同:柴先生有伴奏,而荣先生没有,因为这首歌,荣先生希望特别提示二胡的美感。这也可能是柴的聚类更稀疏的原因,这意味着柴的聚类在不同的音乐片段中有更多的变化。由于伴奏的采用是演奏者表达音乐的一部分T3 验证分段特征向量是否能够指示音乐模式的变化。这里的音乐为了达到我们的验证目标,我们从我们的数据集中选择了两首名为“台湾风清”和“分红莲”的歌曲前者由演奏家方金龙用琵琶演奏,后者由演奏家季秋用筝演奏“台湾风清”的长度同样的,我们按时间对10秒的片段潜在向量进行排序,并生成其余弦相似性的热图,如图所示。9.第九条。正如我们之前讨论的,余弦相似度是基于从我们的LSTM自动编码器中提取的分段特征向量计算的。如果我们选择N个音乐片段,在考虑这些片段的每一对之后,我们将具有大小为N N的余弦相似性矩阵。该矩阵中的第(i,j)个值指示第i个向量与第j个向量之间的余弦相似性。由于每个向量表示十秒的持续时间,因此实际上第(i,j)个值是两个音乐片段之间的相似度:一个是来自i的第i个片段 第10至(i第一章第10秒,另一个是从第j10秒到第(j1)10秒的第j段。位置(i,j)处的颜色是第i个片段和第j个片段之间的相似度越是相似,就越是明亮我们可以直观地评估哪对片段相似/不相似,因此可以识别时间模式。相似性矩阵的对角线上的模式意味着连续的音乐模式,而非对角线上的模式意味着两个重复的模式(在时间上重复)。‘‘Tai Wan Feng Qing’’ has 32 points in total, so its cosinesimilarity matrix is我们注意到从第12段到第14段有一个较亮的正方形,如图9(A)所示。这表示在30秒的持续时间内的一致性(即,从120到150秒)。此外,我们还发现了图18 - 22中第18段至第22段的模式。 9(B),我们的领域专家证实,在第180秒左右会发生突然的速度变化,这个时间段(从180秒到230秒)比之前和之后的节奏更快。图9(C)中从第25段到第26段的模式我们也可以在图中找到一个重复模式。 9(D),这意味着第29段与第30段相比具有非常相似的行为。这可以从沿着图中突出显示的水平条纹的相同颜色变化图案中看出。 9(D)两段之间。听音乐的时候,我们意识到在那个时期有一种统一的柔和风格至于图右侧的“奋红莲”。9,我们可以清楚地看到许多高度相关的音乐片段(例如,如图所示,50至120 s的段和120至160 s的段图 9(G)和图。9(H))。领域专家定位了几个段(例如,10至30秒的片段和J. 申河Wang和H.-W. 沈/视觉信息学4(2020)99107∼见图9。音乐的余弦相似性热图。左边是“台湾风清”,右边是“粉红莲”。每行i是第i个片段与其他片段之间的余弦相似度。对余弦相似度值进行编码颜色(越亮越相似)。见图10。左侧是完全连接的Autoencoder的训练损失,批量大小为512,学习率为0.001。右边是训练损失LSTM Autoencoder的批量大小为128,学习率0.001和0.5的丢弃率,以避免过拟合。图中120至150 s。 9(E)和图。9(H))是“无声”的片段,这意味着它们只包含几个单独的音符,而
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功