基于内容的音乐图像检索与自/跨模态特征嵌入

146 浏览量更新于2023-10-16 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2174× ∼∼×∼基于内容的音乐图像检索使用自模态和跨模态特征嵌入存储器中冢孝之滨崎正孝后藤产业技术综合研究所{takayuki.nakatsuka，masahiro.hamasaki，m.goto} @ aist.go.jp摘要本文描述了一种基于深度度量学习的方法，用于对一段音乐及其代表图像（即，音乐音频信号及其封面艺术图像）。我们训练音乐和图像编码器，以便在共享的嵌入空间中，正音乐图像对的嵌入彼此靠近，而随机对的嵌入彼此远离。此外，我们提出了一种称为自和跨模态特征嵌入存储器的机制，该机制将任何先前迭代的音乐和图像嵌入存储在存储器中，并使编码器能够挖掘用于训练的信息为了进行这样的训练，我们构建了一个包含78，325个音乐图像对的数据集。我们在此数据集上证明了所提出的机制的有效性：具体来说，我们的机制优于基线方法，1 .一、933 .第三章。平均倒数秩为38，二、193 .第三章。56次召回@50， 528次第891章为了中位数排名。1. 介绍我们能仅仅通过看一段音乐的封面艺术来想象Steve和Sorger描述了封面艺术的功能参数之一是如何表达里面的音乐[43]。Libeks等人表明封面艺术包含有助于将音乐置于情境中的视觉特征[21]。尼格斯说：[...] 视觉图像表示特定的声音。[30]第30段。换句话说，我们确实可以通过看音乐的封面艺术来获得有关音乐的信息。为支持这一想法，以与Kendrick Lamar合作而闻名的设计师Vlad Sepetov说：“我希望有人看到专辑封面，欣赏其中的美学和形象，让艺术品引导他们的听觉体验。”他继续说道：“......第一次看袖子会告诉你如何去听阿尔-图1：本研究中任务的概念设计。我们的目标是开发一种方法，用于跨模态检索的图像匹配的输入音乐（反之亦然）。流浪汉”[3]的文件。Vad解释说：“尽管他们自己并不是严格意义上的发声，但专辑封面是深刻的音乐。专辑封面代表了其中包含的音乐，更进一步说，他们调解我们的听觉体验。相反，我们的观看体验是由音乐介导的。”[47]第47段。通过这种方式，一首音乐和它的封面艺术被设计成彼此紧密联系。本文的目标是开发一种方法，可以实现跨模态检索任务的音乐和图像，利用这种关联之间的音乐和它的封面艺术，如图1所示。跨模态音乐图像检索方法有利于各种音乐信息检索（MIR）应用。例如，这些方法使已经创作了新的音乐作品的音乐家能够从一组可用图像中找到该音乐的封面艺术。作为另一示例，给定任何新图像，这些方法可以创建与该图像匹配的歌曲的播放列表此外，这种跨模态检索方法可以提供洞察音乐和图像之间的潜在关系，在一个庞大的音乐收藏。到目前为止，已经提出了几种与音乐和图像相关的开创性方法[4，19，22，28，29，32，36然而，那些方法采用使用包括标签（情绪、情感、视频等）的元数据的方法和文本描述。该方法带来的问题在于，这样的元数据没有被分配给所有音乐和图像，并且通常在数据集或服务平台之间变化朋克（音乐）朋克（图片）交叉模态古典（音乐）检索方法古典（图像）2175此外，还提到，带有mi- nor标签的音乐和图像很难检索[13，48]。因此，这种元数据必须一致地分配给大量数据，这给注释者带来了沉重的负担，并且可能要求他们具有技术音乐知识。因此，在这项研究中，我们研究了一种基于内容的音乐图像检索方法，该方法只利用一段音乐及其封面艺术，而不需要任何额外的元数据。为了实现基于内容的音乐图像检索，我们采用了深度度量学习（DML）方法[13，34，45，59]，如图2所示。在这种方法中，我们训练两个编码器，它们分别将音乐片段和图像片段嵌入到共享的嵌入空间中，假设一对音乐片段和图像用于同一首歌（即，原始音乐图像对）是正的，而用于不同歌曲的一对音乐图像是负的。然后，编码器被训练以使得嵌入（即，点音乐共享嵌入空间图像共享嵌入空间）中正对的那些彼此接近一旦编码器被完全训练，我们就可以使用它们在共享嵌入空间中嵌入音乐查询，并根据共享嵌入空间中嵌入的相似性检索与查询匹配的图像（反之亦然）。成功的DML的关键是挖掘信息对，以便损失函数向编码器返回有意义的反馈[39，50，53]。在基于内容的方法中，DML的瓶颈在于编码器只能挖掘少量的肯定实例;也就是说，在该假设下，只有原始音乐-图像对可以是正对。为了克服这个瓶颈，我们提出了一种自和跨模态特征嵌入存储器（SCFEM）机制，该机制受到现有特征存储器机制的启发[51，60]。所提出的机制在存储器中存储并直接使用任何先前迭代的音乐和图像特征嵌入。因为我们的机制使编码器能够从记忆中挖掘更多信息的积极对，除了信息的消极对，而不是现有的机制[51，60]，我们的机制在基于内容的跨模态检索任务中特别也就是说，假设在当前迭代中的一段音乐和图像的嵌入与它们自己存储的嵌入之间的每一对都是正的，我们的机制使得编码器能够获得额外的信息正对。为了解决缺乏包括音乐片段及其封面艺术的数据集的问题，我们构建了一个私人数据集，称为音乐封面艺术（MCA）数据集，其中包含78，325个音乐图像对（用于试播的30秒音频预览及其封面艺术）。然后，我们根据平均倒数排名[7]、召回@k和中间排名[45]定量评估了我们的机制在该数据集上的有效性。结果表明，我们的机制优于各种基线方法.按音乐查询按图像查询图2：我们的方法概述。我们训练编码器，以便在共享的嵌入空间中，同一首歌曲的音乐和图像的嵌入通过计算共享嵌入空间中嵌入之间的相似性，我们可以检索与给定音乐片段匹配的图像，反之亦然。2. 相关工作2.1. 跨模态音乐图像检索与音乐和图像相关的多模态检索在MIR任务中显示出其潜力[2，9，27]。然而，音乐和图像的跨模态检索还处于研究的早期阶段.Mattek和Casay进行了一项关于美学的实验，参与者被展示了十首音乐和十幅图像，并要求评估他们的联想[26]。这项研究的一个重要方面是，它确定了音乐和图像之间的跨模态效应。在我们的研究中，我们也专注于音乐和图像之间的这种关联，特别是封面艺术，开发一个跨模态检索方法的音乐和图像。一些研究提出了使用元数据的方法，包括情感和情绪等标签，以及歌词和描述等文本[4，19，22，28，29，32，36问题在于，这样的元数据不一定被分配给所有音乐和图像。这个问题可能导致由于缺少元数据而不能执行跨模态音乐图像检索，而一段音乐和一幅图像彼此紧密关联。此外，音乐和图像可以被分配对其不通用的元数据。也就是说，不同的数据集或服务平台经常单独分配不同种类的元数据，某些元数据仅被分配给音乐（或图像）。此外，将这种元数据添加到大量数据中给anno带来了沉重的负担查询匹配图像匹配的音乐查询音乐编码器图像编码器歌曲A歌曲B歌曲B歌曲C歌曲C培训检索2176nnnnnnnnn∈R}R}n}nnz（一））+1 −��（二）：班级中心（三））*（四）正类（C）+（x）+）*（）补偿&（n*很好，&（y，）*阿克斯，&n[Wu等人2018][Zhong等人2019][Zhou et al.二○二二年]&（[Kim等人，2020][Jin et al. 2021][Ko et al. 2021年][Yu等人2021][Deng等人二○二二年]n*：Anchor：正实例图3：对于正的情况（即，原始）音乐图像对。现有机制最多构建一个信息积极对，而我们提出的机制可以通过利用自我和跨模态特征嵌入来构建多个信息积极对交叉批处理内存（XBM）[51]不能挖掘正对，因为它只存储当前epoch而不是过去epoch的前一次迭代的嵌入。tators和可能需要他们有音乐的技术知识。因此，已经提出了不使用元数据的音乐和图像的基于内容的跨模态检索[13，34，45，59]。Hong等人提出了一种软模态内结构约束，其中具有相似音乐（或图像）的实例的嵌入在用于基于内容的视频音乐检索（CBVMR）的共享嵌入空间中变得彼此接近Yi等人提出了一种交叉模态变分自动编码器，其匹配微视频的潜在变量，所述微视频包括视频、一段音乐和短T e xts[59]。Pre'tetet etal. 通过用原始模块[34]替换已知模块，对CB-VMR [13]中提出的特征提取模块的效果进行了评估Sur'ıs等人提出了一种基于变换器的编码器，该编码器将通过对比语言图像预训练（CLIP）[35]和解纠缠音乐表示学习[18]计算的音乐视频的嵌入定位为彼此接近在本文中，我们介绍了一种新的跨模态音乐图像检索的特征记忆机制2.2. 特征记忆机制特征记忆机制在训练期间存储过去的嵌入，并使编码器能够从存储的嵌入中挖掘信息对，已经证明了其在各种计算机视觉任务中的潜力[11，14，17，20，49，51，55一些研究已经将这种特征记忆机制应用到跨通道提取方法中，源代码和二进制代码[61]，RGB同等级[8，14，17]。问题在于，基于内容的跨模态检索任务在从特征嵌入记忆中挖掘信息实例方面比其他任务更具限制性。在基于内容的方法中，只有原始的音乐图像对成为正对，导致特征嵌入存储器中的正实例和负实例的数量不平衡因此，很难用现有的特征分类机制[51，55，60，66，67]建立信息积极对，而这些机制不能受益于使用类[8，14，15，17]。相比之下，我们提出的机制可以存储比现有机制更多的过去嵌入，这有助于在当前迭代的嵌入和它们自己存储的嵌入之间建立信息积极对3. 方法本节描述了所提出的利用基于对的DML的方法。我们的目标是设计两个编码器，将每首音乐和每幅图像嵌入到一个共享的嵌入空间中，并优化编码器，使正音乐图像对的嵌入彼此靠近，负音乐图像对的嵌入彼此远离。3.1. 问题说明我们用一段音乐的复杂声谱图作为音乐编码器的输入，遵循先前的研究[24，52，65]，并且RGB图像作为图像的输入图像和红外图像[23]，以及食物图像，编码器设X={xnDxNn=1 且Y={yn∈烹饪食谱[40]。据我们所知DyNn=1 是一组复杂的光谱图和一组特征记忆机制的有效性尚未在音乐和图像的跨模态检索如图3所示，处理过去嵌入的主要机制如下：（1）更新环境管理系统，移动平均线的层理[55，66，67];（2）补偿─其中Dx是每个复频谱图的维数，Dy是每个图像的维数，并且N是歌曲的数目。其次，设ZX={zx∈RD}N且ZY={zy∈嵌入以适应最新的网络参数-RDzNn n=1n（3）直接使用过去的嵌入[51，60];（4）从那些在n=1分别是复数频谱图和图像的嵌入集合，其中Dz是每个嵌入的维数。设S是一个维很好，n阿克n音乐（y，*nn（x）+图像（Cnn我们的SCFEM机制：Anchor：正面实例⋯⋯数据增强2177SM.Σ1ΣΣmIJ我我IJΣLF（B）=m这里，m是一个小批量大小;P和N是一组位置，τIJfMJ1...i j iji=1（xi，yj）∈NDz，即音乐图像共享嵌入空间。我们训练将X映射到ZX的音乐编码器fM（·;θ）店第三纪元2023年（4（即，xzx）和图像编码器f（·;f），n−−→n我音乐Y到ZY（即， yfIzy），使得嵌入zx和音乐yn−→nn嵌入ℒZN接近。这里，θ和θ是各个编码器的参数。3.2. 学习框架我们首先描述一个基本的学习框架，图像对比图像嵌入⋮SCFEM56722基于对的DML。然后，我们介绍SCFEM机制的关键组件，如图4所示。3.2.1关节包埋技术开发跨模态检索方法的一种实用方法是使用基于对的DML，使得在共享嵌入空间中任何正对彼此靠近，任何负对彼此远离[13，34，45，59]。对于基于对的DML，一般对加权（GPW）框架[50]提供了GPW公式F（B），用于分析基于对的损失函数L（B），如下所示：图4：我们提出的机制的示意图，该机制通过将每个锚点与内存中的嵌入进行比较来训练编码器。当前迭代的嵌入存储在存储器中。该机制使我们能够使用自和跨模态特征嵌入记忆来定义损失函数。我们的问题规范的策略与现有的基于内容的跨模态检索方法相同[13，34，45，59]。不同的是，我们在音乐图像域中处理任务，而他们在音乐视频域中。对于这个问题规范，使用对比学习[5，11，31，42]是一种有效的方法。1ΣΣ（B）.B IJ方法[45]。在这里，我们使用一个对比损失函数，InfoNCE [31]如下：M1ΣIJIJMeBi+/τM=mwBBij−你好，BBi j。（一）L批次（B）=−i=1M logmj=1eBij/τi=1（xi，yj）∈N（xi，yj）∈P1eBi+/τ−IJeB i=1 M一组负对和一组正对;w B=B是第1次迭代时的权重;B是一个简单的吉卜伊杰L其元素（i，j）被定义为zx和zy之间的余弦相似度的相似度矩阵（即，Bij=sim（zx，zy）=y y其中τ是一个称为温度标度的超参数，它控制损失函数的标度，+表示锚的正实例r.h.s.中的每一个术语等式(3)表示方程中考虑的每种类型的对。（二）、权重wB由等式2导出。(2)和（3）如下：z xTz/|Z x||z|）. 当量 (1)表明它对ij很重要J适当地设计小批量大小m，可能对的数量，分配给.1−χBχ（（xi，yj）∈P），Bij，以及对P和NIJ，其中应包括ijBIJ（（xi，yj）∈N），用于训练的信息对。对于基于对的跨模态DML，我们可以构建两个其中χB=eBij/τ/{τ（eBi+/τ+τIJ（xi，yj）∈NIJeBij/τ）}。对的类型[13，34，45，59]：其中一个音乐作品在另一种情况下，图像被用作锚点。因此，Eq. (1)可以重写如下：权重w_B可以和w_B一样被导出。然后，我们通过最小值来估计最佳参数θ和θ如下最小化损失函数L批mBB（yi，xj）∈Nθ，θ，θ=arg minbatch。θ，（五）F（B）=mwijBij+wijBij1Σ国B存储器-mwijBij+我的意思是，受“慢漂移”现象的启发i=1（xi，yj）∈P其中w=B。（B）. . 而B（yi，xj）∈P= sim（zy，zx）.（二）第（ 101）纪MMi=1j=1BijL、（3）/τwB=（四）3.2.2自我- 和交叉模态特征嵌入2178一种新的机制称为自和跨模态特征嵌入存储器（SCFEM）。这种机制可以是缝-i j.吉卜·吉. L.i jij作为一个基于对的DML框架，2179LLΣΣS/τLLL（C）=−ΣN我ΣNJMNj=1y伊季报IJ我JIJ我Je=0我weJ联系我们模块，并且可以使用少量的计算资源执行，即使我们的机制可以在每次训练迭代中处理Cij=sim（zy，t，zx，t-e∈Mx））。使用GPW公式对损失函数Lself和Lcross进行详细分析，请参见补充材料。最后，通过包括两个损失函数， L自我和设Mx，My∈RN×Dz×E是一个音乐特征嵌入，L交叉，在Eq.（5），我们可以估计最佳参数。Ding存储器和图像特征嵌入存储器，其中E是要存储在特征嵌入存储器中的时期的数量。我们的机制首先参数θ和θ如下：θ，θ= arg min（Lbatch+λselfLself+λcrossLcross），需要初始化特征嵌入存储器Mx和My在训练开始我们的机制可以其中λ自我θ，和λ横（八）是用来平衡一旦编码器被预热就被触发（即，训练已经稳定在编码器的局部最优参数在每次迭代时，嵌入被存储在特征嵌入存储器中。当存储的嵌入的数量超过特征嵌入存储器的大小时，存储在特征嵌入存储器中的最早嵌入被替换为当前迭代处的嵌入。在这里，所提出的机制的重要方面是，我们可以定义两个损失函数-一个使用自模态特征嵌入存储器，另一个使用跨模态特征嵌入存储器-因为音乐和图像特征嵌入存储器都是可用的。也就是说，所提出的机制使编码器能够从mu-sic和图像特征嵌入存储器中挖掘信息对。令self和cross分别为使用自模态和跨模态特征嵌入记忆的如Eq。（3）、损失函数Lself可以写成：功能协调发展的3.3. 跨模态音乐图像检索一旦编码器的训练完成，我们就可以如下估计给定的一段音乐和封面艺术图像的相似性。首先，我们计算一段给定音乐的复声谱图。然后，我们使用经过训练的编码器来获得复杂频谱图和封面艺术图像的嵌入。最后，我们计算得到的嵌入之间的相似性。高相似性指示给定对是匹配的。4. 实验和结果本节描述了比较实验，以评估我们的机制的有效性。为了定量评估每种方法的性能，我们设置了两个任务：按音乐查询，其中一段音乐被用作检索对应图像的查询;以及m E−1Sx/τ图像，其中图像用作查询以检索L（S）=−1logweei+S/τ对应的音乐片段。本节还介绍了自我M i=1e=0Nj=1X伊季报对所得嵌入进行定性分析。m E−1Sy/τ-1个对数weei+，（6）i=1e =04.1. 实验装置4.1.1数据集其中S是相似性矩阵，其元素（i，j）被定义为小批量的实例与存储在自模态特征嵌入存储器中的实例之间的余弦相似性（即，Sx=sim（z x ， t，z x ， t-e∈Mx）和我们构建了私人MCA数据集，该数据集包含音乐摘录（大约30秒的音频信号，44.1 kHz采样率）进行试听，艺术（正方形RGB图像）。这些音乐摘录Sy= sim（z y，t，z y，t-eMy）），w eE-1是一组权重。与self类似，损失函数cross可以是如下所示（通常，代表性的音乐部分）已经在互联网音乐服务上被裁剪，从中抓取摘录，这是其他研究经常做的[1，45，59]。相应的封面图片被抓取到m E−1C/τ1横M i=1e =0日志WEEj=1I+eCij/τ同时还研究与讨论我们收集歌曲，与不同的封面艺术图像和封面艺术相关联m E−1C/τ图像与不同歌曲相关联（即，one-to-one-1Σ ΣI+logeC.（七）/τ音乐与图像的关系此数据集其中C是相似性矩阵，其元素（i，j）被定义为小批量的实例与存储在交叉模态特征嵌入存储器中的实例之间的余弦相似性（即，Cij=sim（zx ， t，zy ， t-e∈My）和vice）。我们将数据集随机分为训练集、验证集和测试集，比例为八比一（即，训练集：62，659首歌曲;验证集：7，833首歌曲;测试集：7，833首歌曲）。Mi=1e =0j=1eIJ包含40，151位艺术家的78，325首歌曲，包括各种音乐流派（超过250种，根据服务，2180×××−×××按音乐查询按图像查询MRRR@50 R@100中位数等级MRRR@50 R@100中位数等级随机1. 2210- 30. 641. 2839171. 22 10- 30. 641. 28 3917[13]第十三话34× 10−30. 751. 5236861. 27× 10- 30.61139 3656基线（HRFormer [62]）3. 37× 10−32. 094. 1957年5月3日42× 10−32. 084. 06 1926w/数据扩充3. 82× 10−32.八四五3. 81× 10−32. 565. 22 1626[51]第五十一话：23× 10−32. 785.5. 04× 10−3 3.22609 1600+ w/SCFEM（Ours）1. 14× 10−27. 四十五十二310669. 75× 10−37. 0611. 8 1059表1：在按音乐查询和按图像查询设置中，MCA数据集的测试集的MRR、R@ k和中位数排名的结果，其中k分别设置为50和100。4.1.2实现细节音乐表示：使用 nnAudio [6]通过短时傅里叶变换（STFT）[10]计算复杂的频谱图，其中Hann窗口，频率箱F为1，025，步幅大小为512。然后，裁剪复频谱图，使得裁剪后的复频谱图的形状为2F256（即，帧长度大约为3秒的音乐音频信号）。音乐编码器将裁剪后的复声谱图嵌入到256维共享嵌入空间中。在训练音乐编码器时，我们随机裁剪复杂的频谱图以进行数据增强。对于测试，我们使用了每段音乐的裁剪后的复频谱图的嵌入的平均值，其中我们从音乐音频信号的开始以50%的重叠迭代地裁剪复频谱图图像表示：图像大小调整为256 px 256 px。图像编码器将调整大小的图像嵌入到256维共享嵌入空间中。在训练图像编码器时，使用了一种仿射变换，包括随机旋转（[ 25，25]），随机翻译（[0. 15，0。[15]）和随机缩放（[0. 75，1。[25]是一个应用到所有图像上进行数据扩充。编码器架构：我们使用HRFormer [62]作为骨干网络.骨干网络的最后一层被设置为嵌入层而不是分类器。培训选项：我们从头开始训练编码器，并通过超过5万次迭代对其进行预热。我们的实现基于PyTorch [33]。我们使用Adam优化器[16]，学习率为1。010-4我们使用八个NVIDIA A100 40 GB PCIe GPU加速器进行为期三天的培训。我们根据经验设置权重（λ self=0. 3，λcross=0。2）关于损失函数，使得每个损失函数的值近似相等。我们还设置了最初在MOCO [31]中使用的温度缩放值（即，τ= 0。07）。4.1.3基于排名的评估我们在跨模态任务中使用了三个标准的评价指标进行比较实验：平均recipro，cal rank（MRR）[7]、recall@k（R@k）和median rank[45]。4.2. 条件为了证明所提出的机制的有效性，我们将其与以下基线方法进行了比较。• 基线：HRFormer [62]作为每个编码器的骨干网络，没有任何数据增强或特征记忆机制。• 基线w/数据增强：HRFormer作为每个编码器的骨干网络，具有数据增强功能，没有功能记忆机制。• 基线+ w/ XBM：HRFormer作为每个编码器的骨干网络，具有数据增强和交叉批存储器（XBM）机制[51]。在这项研究中，当E=1时，XBM与所提出的机制相同。这一基线也与跨时期学习[60]，尽管他们的方法使用在一个不确定时期存储在存储器中的否定实例。• 基线+带SCFEM（我们的）：HRFormer作为每个编码器的骨干网络，具有数据增强和我们提出的SCFEM。这里我们设E=2，w0=w1=1。0的情况。此外，我们在这里包括以下方法的结果以供参考。• 随机：我们使用随机估计。• CBVMR：我们测试了CBVMR [13]，但它在输入表示方面与我们的研究不同，因为它专注于音乐和视频（而不是图像）的跨模态检索我们没有使用视频级特征，而是直接使用了帧级特征，并使用了他们论文中描述的白化打印UNR分量分析。4.3. 结果表 1 列出了按音乐查询和按图像查询设置中的MRR、R@k和中位数排名结果我们提出的机制优于基线方法，×2。70块3 MRR为38，×2。6203. R@50为562181∼× ∼ ×∼∼按音乐查询按图像查询MRR R@50 R@100中位等级MRR R@50 R@100中位等级E= 1（XBM [51]）4. 23× 10−3 2. 785.5. 04× 10−3 3.22609 1600E=2，w1=1。0个1. 14×10-27四十五十二310669. 75×10−37. 0611. 81059E=3，w1=w2=0. 5.1. 10×10-280012. 910149. 49×10−36. 9212 21002E=3，w1=0。6，w2=0. 41. 13×10-280412. 910341. 05×10−27. 5012. 31010E=3，w1=0。7，w2=0. 31. 11×10-275312. 710141. 09×10−27. 4912. 0982E=3，w1=0。8，w2=0. 21. 26×10-277813. 010241. 09×10−27. 三十四十二51022E=3，w1=0。9，w2=0. 11号。10×10−2 7.9112910091. 07×10−27. 四十七十二。21010表2：内存大小和重量的比较。1.00.80.60.40.2按音乐查询按图像查询优于无数据增强的情况。这一结果表明，我们使用的数据增强对训练有效，而现有的基于内容的跨模态检索方法[13，34，45，59]直接使用音乐和图像特征作为训练数据，而无需数据增强。4.4. 消融和比较研究0.00 2500 50007500K0 2500 5000 7500K我们提供了消融和比较研究，以验证我们的SCFEM机制中每个组件的有效性和预热编码器的必要性。图5：经验累积分布函数（CDF）k按音乐查询和按图像查询设置。2.01.51.04.4.1骨干网骨干网络的选择对性能有很大的影响。为了研究这种影响，我们比较了几种众所周知的神经网络模型作为主干，包括基于 CNN 的模型 [12 ， 41 ， 46]和基于Transformer的模型[25，62]。我们使用τ=1。0在这个实验中。图 6 显示了结果，证实了在本文中使用HRFormer [62]作为主干0.50.0SwinVGGEfficientNet骨干网ResNetHRFormer（Ours）4.4.2内存大小由于我们的SCFEM机制可以在内存中存储更多先前迭代的音乐和图像嵌入，并利用所有这些来获得更多的正实例，因此我们比较了不同内存大小的性能，图6：骨干网的比较。和528在按音乐查询设置中排名891;和通过1 .一、93二、MRR为85，二、193 .第三章。R@50为39，541867在按图像查询设置中排名。图5显示了两种设置下关于k的经验累积分布函数（CDF）这些CDF说明了我们的SCFEM机制的优势，几乎所有的R@k水平。这一结果表明，我们的机制，可以挖掘更多的信息实例的特征分类，是有效的，在这项研究的检索任务。此外，基线方法与数据增强权重（w0=1. 0是固定的所有条件）。虽然E=2和w0=w1=1。表2中列出的结果可以进一步提高性能。请注意，当增加内存大小时，需要设置适当的权重我们把对它们的最佳设置的研究留给未来的工作。4.4.3包埋尺寸为了研究共享嵌入空间的维数的影响，我们比较了Dz=64、128、256和512时的R@50性能。结果条件+ 带SCFEM（我们的）带数据增强+w/XBM基线召回@k任务按音乐查询按图像查询R@5021822.102.052.001.951.901.851.8064 128 256（我们的）包埋尺寸图7：嵌入大小的比较。512第一主成分（贡献率：11.3%）3.583.563.54图9：音乐和图像嵌入的主成分分析。3.523.503.483.460 5000 10000 15000 20000 25000 30000迭代另一个在共享的嵌入空间中。有趣的是，金属和朋克歌曲的嵌入在共享的嵌入空间中彼此接近，这一结果支持了第1节中描述的音乐作品与其封面艺术之间图8：没有预热和基线的拟议机制的验证损失（HRFormer[62]）。如图7所示，证实了表1中使用的Dz=256是最佳选择。4.4.4预热编码器由于编码器的参数在训练的初始阶段被大量更新，因此它们的嵌入在迭代期间改变太多，并且不期望是存储器中的信息实例。因此，我们的SCFEM机制仅在编码器预热后应用，如第3.2节所述。在图8中，我们比较了所提出的没有预热的机制和基线方法的验证损失，这证实了如果我们的机制在训练中过早应用，预热是必要的）。4.5. 定性分析还进行了定性分析，以进一步研究所获得的嵌入的性质我们对测试集中总共686首歌曲的音乐和图像的嵌入应用了主成分分析（PCA），这些歌曲被分类为金属，爵士，古典，电子和朋克（请注意，包括这些类别标签的元数据在我们的训练中根本没有使用）。图9显示了相同类别的歌曲的嵌入相对接近于每个5. 结论在这项基于内容的音乐图像检索研究中，我们提出了一种称为自和跨模态特征嵌入记忆（SCFEM）的机制，它可以无缝集成到一个基于对的DML框架。本文的贡献可概括如下。首先，所提出的机制可以存储任何先前迭代的嵌入，以便从特征记忆中挖掘信息对。这种方法充分利用了特征嵌入记忆机制在音乐图像检索任务中的作用。其次，我们的比较实验使用基于排名的评价指标（即，平均Reciprocal秩、召回@k和中值秩）证明我们的机制优于基线方法。我们还证明了内存大小的增加提高了性能。第三，定性分析显示，风格相似的音乐和图像在共享嵌入空间中彼此接近。该机制不仅适用于MIR任务，也适用于其他计算机视觉任务中的硬挖掘问题我们相信，这种拟议的机制开辟了实现广泛的跨模态任务的可能性。确认这项工作得到了日本 JST CREST 基金编号JPMJCR20D4 和日本 JSPS KAKENHI 基金编号22K18017的部分支持。任务按音乐查询按图像查询SCFEM，不带基线举起手臂条件Co金属爵士电子古典朋克验证损失第二主成分（贡献率：7.1%）R@502183引用[1] Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，PaulNatsev ， George Toderici ， Balakrishnan Varadarajan ，and Sudheendra Vijayanarasimhan. Youtube-8 m：一个大规模视频分类基准。arXiv预印本arXiv：1609.08675，2016。[2] Eric Brochu，Nando De Freitas，和Kejie Bao。专辑封面的声音：可能的多媒体和信息检索。《人工智能与统计国际研讨会论文集》，第49-56页，2003年[3] 吉姆·卡罗尔袖子的艺术：每一张专辑封面讲述了一个故事，2016年。可用：https：//www.irishtimes.com/culture/music/the-art-of-the-sleeve-every-album-cover-tells-a-story-1.2821084（2022年7月7日访问）。[4] Jiansong Chao，Haofen Wang，Wenlei Zhou，WeinanZhang和Yong Yu。TuneSensor：一个语义驱动的数字相册音乐推荐服务。在2011年国际语义网会议（ISWC）上[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在国际机器学习会议（ICML）的会议记录中，第1597-1607页[6] 简伟卓，汉斯·安德森，凯特·阿格雷斯和多琳·赫雷曼斯。nnAudio：一个使用1D卷积神经网络的动态GPU音频到频谱图转换工具箱IEEE Access，8：161981[7] 尼克·克拉斯维尔。平均倒数排名，第1703页。SpringerUS，2009.[8] Zelu Deng ， Yujie Zhong ， Sheng Guo ， and WeilinHuang. Insertion：通过自我监督改进实例检索。在AAAI人工智能会议（AAAI）的会议记录中，第516-524页[9] 彼得·邓克，斯蒂芬妮·诺瓦克，安德烈·贝高和科妮莉亚·兰兹。基于内容的照片和音乐情绪分类：通用多模态分类框架和评估方法。在ACM国际多媒体信息检索会议论文集，第97-104页[10] D. 加博沟通理论。《电气工程师学会杂志》，94（73），1947年。[11] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的论文集中，第770-778页，2016年[13] Sungeun Hong ， Woobin Im ， and Hyun S Yang.CBVMR：使用软模态内结构约束的基于内容的视频音乐检索。在ACM国际多媒体检索会议（ICMR）的会议记录中，第353-361页[14] 金真朝、陶公、董东禹、戚楚、建王、长胡王、介绍。挖掘图像之外的上下文信息进行语义分割。在IEEE/CVF计算机视觉国际会议（ICCV）论文集中，第7231-7241页，2021年[15] 金永铉朴元杓和申宗柱宽脸：一次看成千上万的人进行面部识别。在欧洲计算机视觉会议（ECCV）的会议记录中，第536-552页[16] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。在国际学习表征会议（ICLR）的会议记录中，第1- 13页[17] 高炳洙，古根茂，金汉奎。使用基于内存的虚拟课程进行深度度量学习。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第11792-11801页[18] Jongyuan Lee，Nicholas J Bryan，Justin Salamon，ZeyuJin，and Juhan Nam.度量学习与分类在分解音乐表征学习中的应用。在国际音乐信息检索会议（ISMIR）的会议记录中，第439-445页[19] Bochen Li和Aparna Kumar。视频查询：跨模态音乐检索。在国际音乐信息检索会议（ISMIR）的会议记录中，第604-611页[20] Suichan Li，Dapeng Chen，Bin Liu，Nenghai Yu，andRui Zhao.用于视觉识别的基于记忆的邻域嵌入。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第6102-6111页，2019年。[21] 詹妮斯·利贝克和道格拉斯·特恩布尔。你可以通过专辑封面来判断一个艺术家：使用图像进行音乐注释。IEEE MultiMedia，18（4）：30[22] 刘建良和陈颖川。基于潜在因素和情绪的背景音乐推荐。基于知识的系统，159：158[23] Jiarun Liu ， Yifan Sun ， Feng Zhu ， Hongbin Pei ， YiYang，and Wenhui Li.学习记忆增强的跨模态人员再识别单向度量。在IEEE/CVF计算机视觉和模式识别会议（CVPR）中，第19366[24] 刘云，张辉，张学良，杨林菊。实谱逼近的语音增强算法在IEEE声学，语音和信号处理国际会议（ICASSP）中，第5746-5750页[25] Ze Liu，Yutong Lin，Yue Cao，Han Hu，Yixuan Wei，Zheng Zhang ， Stephen Lin ， and Baining Guo. SwinTransformer：使用移位窗口的分层视觉Transformer。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第10012-10022页[26] 艾莉森·马特克和迈克尔·凯西从特征提取的角度看跨模态美学：试点研究。在国际音乐信息检索会议协会（ISMIR）的会议论文集，第585-590页2184[27] 鲁道夫·梅尔以自组织地图分析影集艺术的相似性。自组织地图国际研讨会论文集，第357-366页，2011年[28] Pratik Mazumder ， Pravendra Singh ， Kranti KumarParida，and Vinay P Namboodiri. Avgzslnet：通过从多模态嵌入重构标签特征的视听通用零拍摄学习。在IEEE/CVF计算机视觉应用冬季会议（WACV）论文集，第3090-3099页[29] Otniel-Bogdan Mercea，Lukas Riesch，A Koepke，andZeynep Akata.视听广义零射击学习与跨模态注意力和语言。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第10553-10563页[30] 基思·尼格斯。制作流行音乐：流行音乐产业中的文化与冲突。爱德华·阿诺德，2011年。[31] Aaron van den Oord、Y

下载后可阅读完整内容，剩余1页未读，立即下载