没有合适的资源?快使用搜索试试~ 我知道了~
D´ıdac Sur´ısˇ “(didacsuris@cs.columbia.edumusicvideo.cs.columbia.eduˇ “(105640是时候在音乐和视频中进行艺术对应了0哥伦比亚大学0Carl Vondrick哥伦比亚大学 Bryan Russell Adobe研究 JustinSalamon Adobe研究0查询视频 检索到的音乐0查询音乐 检索到的视频0西班牙语男歌手以雷鬼节奏唱歌,与视频中人的舞蹈节奏相匹配0由青少年女声演唱的流行歌曲,迪士尼频道风格0重金属音乐,有鼓和电吉他,男歌手尖叫0女主唱在吉他和鼓的伴奏下演唱流行音乐0播放的是放克摇滚音乐,有人声和吉他0简单的基础上有英语说唱音乐,男声0电子舞曲,无人声,快节奏0泡泡流行音乐,有节奏0这是检索到的音乐曲目的频谱图0这是作者提供的音乐曲目的描述(模型未使用),只是为了帮助可视化图表0图1.我们提出了一种方法,可以为给定的视频推荐音乐曲目,反之亦然。我们对两个信号的长期时间上下文进行建模,使我们的模型能够捕捉它们之间的高级艺术对应关系。我们的模型学习了一个强大的视听表示,使我们能够检索看起来和听起来对人类自然的视频和音乐。左侧显示查询视频片段和相应的检索音乐片段,右侧显示相反的检索方向。我们的模型的视听对应关系利用了音乐流派或节奏等艺术属性。0摘要0我们提出了一种基于时间对齐和艺术层面上的对应关系来推荐给定视频的音乐曲目,反之亦然的方法。我们提出了一种自监督的方法,可以直接从数据中学习这种对应关系,而无需任何人工注释。为了捕捉解决任务所需的高级概念,我们建议对视频和音乐信号的长期时间上下文进行建模,使用Transformer网络来处理每个模态。实验证明,这种方法明显优于不利用时间上下文的替代方法。我们的贡献的组合使检索准确性提高了10倍以上,超过了先前的最新技术水平。这种显著改进使我们能够引入各种分析和应用。例如,我们可以根据视觉定义的属性来条件化音乐检索。0ˇ “ ( 该工作部分在Adobe研究实习期间完成。01. 简介0音乐是视频创作的重要组成部分,例如特色电影的配乐,广告音乐,视频博客中的背景音乐或社交媒体中音乐的创造性使用。然而,为视频选择合适的音乐很困难 -视频创作者需要确定在视频中不同时刻使用何种音乐,然后搜索这种音乐。这些任务中的每一个都存在困难:对于非专业人士来说,选择适合视频氛围的音乐可能很困难,即使您知道自己想要什么类型的音乐,使用传统的基于文本的方法进行搜索也可能很困难。很难用文字描述一首歌的“感觉”,基于元数据的搜索引擎不适合这个任务。根据视频素材提供相关音乐的自动化工具对于从初学者和业余爱好者需要简单解决方案的人到寻找灵感的传播者和专业人士都非常有价值。逆向问题,匹配105650将给定歌曲的视频镜头与之配对同样面临着很大的挑战,解决这个问题有可能开启新的创意应用。因此,自动化工具在视频和音乐之间进行双向检索具有很大的吸引力。虽然其他音频-视觉任务旨在建立两种模态之间离散事件的物理对应关系(例如,人拍手的声音与执行拍手动作的人的视觉运动)[5-7],但这些对应关系通常不是决定音乐与视频配对的关键因素。配对任务的决定因素通常是“艺术性”的和非物理性的,可能包括视频的整体视觉风格或美学,以及音乐的流派、情绪或“感觉”。此外,系统还可以将音乐流派与视觉属性(例如,描绘的场景类型或演奏的乐器)或呈现特定性别或种族的人群进行配对。研究这些因素的相互作用对于理解和揭示系统如何做出决策以及减轻潜在偏见[26]非常重要。为了解决这些任务,我们希望训练一个音频-视觉模型,从视频数据中直接学习配对视频和音乐音频剪辑的程度,或者说它们是否相互对应。一旦训练完成,该模型可以用于检索与给定输入视频配对良好的音乐,以及检索与给定输入音乐曲目配对良好的视频剪辑(参见图1中的一些示例)。此外,我们还希望了解经过训练的模型如何将上述音乐流派和视觉属性相关联。由于手动收集描述视频和音乐音频的情绪的大规模注释数据非常困难,我们利用自我监督,即从数据固有结构中学习。由于我们可以访问已由人类创作者将音乐和视频配对在一起的大量视频集合,我们利用这些数据来学习什么样的配对是好的。模型同时接收由人类创作者配对的大型集合和随机配对的音频/视频轨道,并且被训练以区分这两个集合。以前的方法通常依赖于相应的短视频和音乐片段或聚合多个片段的特征[51]。然而,由于视频和音乐之间的对应关系通常是一种艺术性的关系,它往往依赖于长时间范围的时间上下文,这在短片段或聚合多个片段特征中很难捕捉到。例如,电影中的某个场景会影响下一个场景中音乐的“情绪”,而歌曲高潮的接近程度会影响视频剪辑的编辑[33,42,52]。此外,这些先前的方法优化度量损失,在训练过程中不对困难样本进行加权[15],并且利用在固定词汇表上训练的模态特定的视觉基础特征。0最后,虽然这些方法评估了检索准确性,但它们没有研究模型如何将音乐流派和视觉属性相关联。为了解决这些挑战,我们做出了以下贡献。首先,我们首次展示了时间上下文对于这种艺术性对应关系学习任务的重要性。我们通过利用Transformer架构[63]来建模长时间范围的时间上下文,并采用其他视频-音乐检索的最佳实践(例如,在训练过程中优化对比损失,基于每种模态的强基础特征),从而使检索准确性大幅提高10倍。其次,我们对模型进行了详细分析,揭示了视频中存在的视觉属性(例如场景类型和乐器)是模型用来与不同音乐流派建立艺术性对应关系的。这个分析包括了“属性”,其过于简化的定义或表示,例如性别和种族,可能导致潜在的偏见。第三,我们通过几个应用程序展示了学习到的视听表示的有用性,包括将音乐查询与视觉属性结合起来,以检索具有相同流派的音乐,其中视觉属性在音频信号中得到音乐化的表示。最后,我们研究并讨论了与我们的模型相关的偏见问题。由于我们的任务涉及到基于人类进行的视频-音乐配对的艺术性对应关系的学习,而不是基于物理的视听对应关系,因此它带来了新的重要挑战和考虑,涉及到偏见、文化意识和挪用等方面。02. 相关工作0从视频中提取音乐。已经提出了几种框架来为给定的视频推荐音乐。然而,它们中的大多数都有我们在本文中解决的局限性。基于启发式的方法[ 38 , 57]只考虑音乐视频的一般情绪和用户的听歌历史。情绪类别是独立为两种模态进行注释的,需要为每个视频和音频片段进行手动注释,并且仅限于有限数量的预定义离散类别。用于音乐和视频的跨模态排序损失[ 33 , 42 ,071 ]和学习音频特征[ 51]已被用于获得最先进的结果。我们在这些基础上做出了三个关键贡献,使检索准确性提高了十倍:1)提出了一个模拟时间上下文的框架,2)使用了噪声对比损失[ 47],该损失在自监督设置中表现更好,3)使用了最先进的特征提取模型。音乐合成本身就是一个困难的任务,也可以根据给定的输入视频进行条件化。通过观察弹奏的手指生成MIDI文件的方法[ 29 , 58 ],以及......where s(yv, ym) ising common practice we implement as the cosine similaritys(yv, ym) =105660直接使用频谱图生成声音(foley)的方法[ 31]已经被提出,但它们只能利用低级信号,不能捕捉到视频的任何艺术方面。使用预训练的音乐生成模型,将其与视频进行条件化[ 19],将音频视觉对应限制在几个预定参数(例如能量、方向和斜率)上,这些参数无法以自监督的方式学习。最近的一项研究[ 52]通过采访专业编辑人员并对现有视频数据进行统计分析,研究了一些音乐特征(例如节拍)与视频编辑操作(例如剪辑)之间的关系。他们观察到一些对应关系需要上下文信息;例如,一些编辑人员在视频的高潮时刻将剪辑视频与节拍紧密结合,或选择视频内容以强调音乐高潮。这样的发现表明,对于对应关系学习,建模时间上下文可能具有价值。我们的论文定量地证明了上下文的重要性,同时展示了如何在技术上最好地实现这一点。文献中对长视频的建模通常是先在不同的时间位置计算表示,然后将它们组合起来,通过平均或学习更复杂的时间特征组合[ 66 – 68]。我们建议使用Transformer [ 63]来模拟音乐和视频两种模态的长期时间上下文,Transformer使用注意力机制来建模长序列,在过去几年中已成为许多自然语言处理任务的最先进方法。最近,它们已经被应用到其他领域,如图像[ 14 , 16 , 22 , 23 , 43 ],视频[ 4 , 8 , 9 ,11 , 46 , 65 , 69 ],音频[ 32 , 64 ],多模态输入[ 28],甚至提出了模态不可知的Transformer [ 4 , 35],都取得了显著的成功。视频Transformer的输入可以是像素本身,也可以是来自预训练网络的特征(例如[ 46])。我们在这种方法的基础上进行了改进,并尝试了卷积[24 , 41 , 53 ]和基于Transformer的[ 11]基础特征,用于视觉和音乐两种模态。音视频自监督学习已在一些论文中进行了研究[ 3 , 5 – 7 , 48 , 60 , 70],这些论文处理物理事件和声音,如狗、汽车或乐器的声音,或声音源的位置。然而,这些论文没有涉及更高级的艺术音乐-视频对应关系。音乐条件下的视频编辑主要集中在将音乐与舞蹈视频同步。方法从调整视频速度以适应音乐[ 20]到直接生成人们跳舞的像素,以静态图像和音乐轨道为条件(例如[ 27 , 40 , 54])。这种方法侧重于舞蹈,虽然与音乐有关,但依赖于音乐节拍和人体动作之间的低级对应关系。本文侧重于更高级别的对应关系,其中情感、故事和上下文是关键因素,在舞蹈视频中并未考虑这些因素。0视觉Transformer0t t0音乐Transformer0基础视觉特征提取器0基础音乐特征提取器0图2.方法。我们将音乐视频分为视觉和音乐片段,预先计算强大的模态特定基础特征,并使用上下文Transformer分别处理它们。我们使用InfoNCE损失进行自我监督模型。03. 音乐视频预训练(MVPt)0在接下来的章节中,我们将介绍我们提出的方法,即音乐视频预训练(MVPt)。输入和输出。在训练过程中,框架的输入是一组视频和音乐对V(音乐视频),其中音乐和视频由人类创作者进行了艺术性配对。每个原始音乐视频都经过处理,以获得视觉轨道xv和音乐轨道xm的基础表示。此外,每个音乐视频被分成L个时长为t的片段。相应地,这些片段由一个视觉片段和一个音乐片段组成。将视频分成片段使我们能够1)将音乐视频作为序列处理,从而利用时间上下文,以及2)以更细粒度的时间分辨率对每个片段进行单独的预测。我们的模型将xv和xm作为输入,并分别输出表示yv = fv(xv)和ym =fm(xm),其中f(.;θ)表示其参数θ进行优化的函数。有关框架概述,请参见图2。跨模态自我监督。视频和音乐轨道之间有很强的对应关系。在视频上播放的音乐与视频内容有艺术上的关联。我们利用这种对齐作为监督:给定一个视觉片段的表示,我们的模型被训练来预测相应音乐片段的表示,反之亦然。我们优化的能量函数计算视频和音乐片段表示之间的相似性,并鼓励正(对应)对具有较高的相似性值,负(不对应)对具有较低的相似性值。在实践中,这是通过使用InfoNCE对比损失[47]来实现的:0L v → m = -0V �0i0L �0l0� log exp � s ( y v i,l , y m i,l ) /τ�0� V j � L l exp � s ( y v i,l , y ) /τ �0�0� , (1)0|| y v ||∙|| y m || . τ是我们设置的超参数Chance100010000.050.250.500.050.250.500.50105670表1. MusicVid-YT8M的片段级检索结果。我们的每个贡献都提高了模型的准确性。0中位数排名 ↓ 召回率 ↑0V → M M → V V → M M → V 平均0R@1 R@5 R@10 R@1 R@5 R@10 R@1002 + CLIP和DeepSim特征 176 107 3.06 6.31 9.69 4.71 8.14 12.14 10.91 3 + Transformers(音乐时间) 27 26 16.5327.04 37.14 16.50 26.86 37.17 37.15 4 + Transformers(视觉时间) 24 24 17.23 27.54 38.64 17.07 26.85 38.43 38.545 + InfoNCE(MVPt,我们的方法) 19 12 17.33 29.12 39.33 19.98 34.81 45.41 42.3706 MVPt + X3D特征 28 27 8.47 19.66 28.87 8.83 19.88 29.20 29.03 7 MVPt + TimeSformer特征 40 36 6.81 16.87 25.837.36 17.51 26.34 26.0908 MVPt + t = 4.5秒 52 52 11.70 17.18 24.79 10.62 16.60 24.55 24.67 9 MVPt + t = 11秒 7 6 28.97 47.71 65.82 29.3747.52 65.32 65.570Chance 1000 1000 0.05 0.25 0.50 0.05 0.25 0.50 0.500表2. MusicVid-YT8M的轨道级检索结果。我们的每个贡献都提高了模型的准确性。0中位数排名 ↓ 召回率 ↑0V → M M → V V → M M → V 平均02 + DeepSim 音频特征 142 94 1.41 5.23 9.01 2.29 8.55 13.80 11.41 3 + CLIP 视觉特征 64 45 3.00 11.13 18.56 5.03 15.7024.09 21.33 4 + Transformers w/o position 24 21 5.09 19.58 32.40 5.86 21.81 35.70 34.05 5 + 时间嵌入 18 17 5.99 23.2038.33 6.22 24.43 40.68 39.50 6 + InfoNCE(MVPt,我们的模型) 13 13 6.09 24.91 41.89 6.36 25.73 42.65 42.270对于 τ = 0.3 ,遵循 [15]。L m → v 定义对称,最终损失为L = L v → m + L m →v,用于使用随机梯度下降训练模型。上下文模型 f v 和 fm。音乐和视频不仅是具有强烈时间成分的信号,它们还是同步的:一种模态的变化与另一种模态的变化在时间上对齐。因此,时间上下文对音频视觉对应关系有很大影响,需要相应地进行建模。为此,我们使用 Transformer 网络[63],其注意机制计算序列中每个元素需要关注序列中的其他元素的程度。我们在输入中添加了一个 [CLS]标记,表示完整的视频。基础特征。在我们的实验中,我们使用从视觉和音乐原始信号中获得的深度预计算基础特征。这使我们能够1)建立在最先进的模型基础上,并利用大规模预训练,以及 2)减轻 Transformer网络的表示需求,使其能够将其表示能力集中在建模时间上下文和跨模态对齐上。具体来说,我们使用 CLIP [53]作为视觉特征,使用解耦的音乐标签嵌入(DeepSim)[41]作为音乐特征。我们对每个持续时间为 t的段落提取的基础特征进行时间平均。推理。在推理时,模型接收一个视频0作为输入,将其分割成段落,并为所有段落计算上下文特征。对于每个视觉段落,它推荐与视觉段落的内容以及周围的上下文信息都匹配的音乐段落。音乐段落是从包含所有可用音乐段落的池中选择的(测试)数据集,根据训练期间使用的相似度度量标准进行选择。音乐到视频的检索同样进行。有关实现细节,请参见附录 B。04. 检索实验0我们在两种不同的设置下展示了检索实验结果。在第一种设置(“tracklevel”),我们检索一个完整的音乐音频轨道,给定一个完整的查询视频(反之亦然)。这种设置允许在整个(未修剪的)视频的级别上评估检索的质量。在第二种设置(“segmentlevel”)中,我们旨在评估两种模态之间更精细的对齐,即在给定一个短视频片段的情况下检索一个短音乐片段。在段落级和轨道级设置中,我们模型的输入是由完整音乐视频组成的 L =30个段落。给定一个查询视觉轨道(或音乐轨道),我们计算与每个音乐轨道(或视频轨道)的特征距离,在训练期间使用的相似度度量标准选择音乐片段。音乐到视频的检索同样进行。有关实现细节,请参见附录 B。5010015020001020304050105680表3. MovieClips 的段落级结果。我们的贡献也适用于电影,不仅限于音乐视频片段。0中位数排名 ↓ 召回率 ↑0V → M M → V V → M M → V 平均01 基准 + DeepSim + CLIP 189 128 2.1 5.8 9.36 2.94 8.48 13.34 11.35 2 基准 + DeepSim + CLIP + InfoNCE 74 58 2.53 7.9514.99 4.05 12.93 23.85 19.42 3 MVPt(我们的模型) 21 21 15.08 25.55 36.25 14.99 25.94 36.87 36.5604 MVPt + X3D 特征 28 28 8.58 19.08 28.52 8.90 19.74 29.69 29.110Chance 1000 1000 0.05 0.25 0.50 0.05 0.25 0.50 0.500序列长度(秒)0召回率@100Transformer0MLP0图3.时间上下文。随着我们去除时间上下文,Transformer的准确性下降,表明时间上下文的重要性。0N个目标候选样本的池子,这些样本在模型训练期间没有被看到,我们在所有实验中设置N =2000,遵循Pr´etet等人的设置[51]。这些候选样本中只有一个是正确的配对(真实值)。然后,我们根据这个距离值对候选样本进行排序,并使用两个不同的标准来评估检索的成功程度。召回率@K(越高越好):我们查看K个最接近的候选样本,并且如果真实值配对在其中,则认为检索成功,并报告测试集中成功检索的百分比。中位数排名(越低越好):我们返回真实值配对在排序后的候选列表中的位置;然后报告测试集中位置值的中位数。我们的方法是通用的,并适用于任何包含音乐的视频数据。我们在两个不同的数据集上评估我们的方法。YT8M-MusicVideo:我们利用来自YouTube8M数据集[2]的10万个标记为“音乐视频”的视频,平均轨道持续时间为4分钟。对于这个数据集,我们使用持续时间为6.7秒的片段。MovieClips:我们收集来自MovieClipsYouTube频道[45]的所有视频。从这些视频中,我们选择连续至少20秒包含音乐的部分。我们通过在AudioSet[30]上训练PANN模型[37]并使用它来检测数据中的音乐区域来完成此操作。数据集中所选视频轨道的最终数量为2万个,平均持续时间为42秒,我们使用持续时间为3.3秒。有关数据集统计信息和创建过程的更多信息,请参见附录A。基线。我们在之前的基础上构建了我们的贡献。0Pr´etet等人的一种方法[51]。他们提出了一个类似的框架,但是使用三元组损失而不是In-foNCE损失进行训练,使用MLP模型而不是Transformer,并且对于视频使用ImageNet基础特征,对于音乐使用OpenL3[17]基础特征。我们将这个模型称为“基线”。基线模型的输入是轨道级别设置下所有基础特征在时间上的平均值,以及片段级别设置下单个片段的基础特征的平均值。我们重新实现的基线在我们的测试集上取得了接近Pr´etet等人在MVD数据集[56]上报告的结果(12.10%)的检索准确率(9.86%的轨道级别召回@10),但我们无法访问MVD数据集。MVD是YT8M-MusicVideo数据集的手动筛选子样本,因此可以预期结果类似(同一父数据集),但稍微更好(为了清晰的音频-视觉对应关系而筛选)。消融实验。在我们的结果中,我们展示了修改模型各个组件如何增加检索准确率。请注意:1)MLP基线对于每个模态都可以访问相同的一组基础特征,但是在将特征作为MLP的输入之前,通过平均池化操作进行聚合;2)在我们的Transformer模型中,我们将模型参数的数量(5.5M)与基线MLP相匹配,因此模型容量不是我们方法的优势。在使用Transformer时,对于每个片段输入都添加了时间编码。这种设置允许Transformer在上下文信息之上利用时间信息。在片段级别设置中,对于两种模态都使用时间编码可能导致学习的捷径,即模型根据序列中的位置将视觉片段与音乐片段关联起来。因此,在片段级别实验中,我们禁用其中一种模态的时间嵌入。我们报告两种选项的结果,指示哪种模态保留时间编码为“音乐时间”或“视觉时间”。请注意,Transformer仍然能够使用上下文信息。结果。我们在Tab.1和3中展示了YT8M-MusicVideo和MovieClips的片段级别结果,分别在YT8m-MusicVideo数据集的Tab.2中展示了轨道级别结果。结果显示了我们的每个贡献如何增加检索准确率。105690图4.性别和种族与音乐流派。对于一个具有流派注释(在训练过程中未使用)的音乐片段,我们从FairFace[36]数据集中检索最接近的人脸图像。我们绘制了检索图像的性别和种族,对每个流派进行了归一化处理(每列总和为100)。有关偏见的讨论,请参见第6节。0通过Transformer对时间上下文进行建模对模型的性能至关重要(表1中的第2行、第3行和表2中的第4行)。此外,结果表明,在视觉轨道(表1中的“视觉时间”,第4行)中表示时间信息(在上下文之上)比在音乐轨道(表1中的“音乐时间”,第3行)中建模时间信息略微更有益。0此外,如表1(第6行和第7行)和3所示0(第4行),使用像X3D [25]或TimeSformer[10]这样的基于视频训练的基础特征,虽然比基线模型更好,但性能比使用在图像上训练的CLIP基础特征要差。我们认为这个结果的原因是CLIP已经在更大、更通用的数据语料库上训练了具有大词汇量的图像与自然语言句子的对齐,而ImageNet、X3D和TimeSformer模型则是在固定词汇分类任务上训练的。最后,使用更长的片段可以提高片段级别的检索性能,但会牺牲更精细的时间表示(表1中的第9行)。0为了研究时间上下文的重要性,我们在输入序列较短的情况下评估了我们的模型,给定相同的片段长度t。如图3所示,随着序列长度的减小,模型的准确性也会降低,这证明了时间上下文的重要性。相比之下,MLP版本甚至无法利用长时间上下文。0最后,为了展示我们的方法从艺术角度捕捉到了对应关系,我们进行了人类实验:给定一个查询视频(或音乐)片段,我们要求人类选择我们的模型检索到的一个音乐(或视频)片段和基线模型检索到的另一个片段中更喜欢的那个。71.4%的回答更喜欢我们的方法,验证了我们的观点(p值<0.01),即从艺术角度来看,我们的模型更可取。更多细节请参见附录C.2。0注意力权重0注意力权重0时间0图5.注意力可视化。我们展示了两个不同示例中每个输入片段的注意力权重的聚合(我们只展示了部分)。在每种情况下,我们用红色突出显示包含人们唱歌或演奏乐器的片段。我们注意到这些片段对应于具有较高注意力值的片段,这意味着模型更喜欢使用这些与音乐相关的信息而不是与音乐无关的时刻。05. 分析与应用在本节中,我们探索了我们的音乐视频模型学到了什么,展示了它学会了使用各种信号,从相对低级的信号(如音乐节奏)到高级的信号(如音乐流派)。此外,我们对模型的检索准确性进行了定性评估,并展示了检索方向返回与查询相匹配的样本的水平,以至于忽略了唇同步,通常在人眼(和耳朵)看起来和听起来都是正确的。最后,我们展示了如何通过条件检索结果来返回包含特定属性的样本,并可视化我们模型中的注意力。05.1. 定量分析0我们考虑了八个音频、视觉或音频视觉属性:颜色亮度和色调、节奏、背景场景、乐器、年龄、种族和性别。我们特别包括后两者,以便研究与偏见相关的问题。我们采用了与机器学习中的公平性相关的工作[36]中的种族和性别的定义。我们研究每个属性对我们模型的预测结果的影响。我们在YT8M-MusicVideo数据集上进行了所有分析。有关更多细节,请参见附录C。颜色亮度和色调。对于测试集中的每一帧,我们通过一个因子r来修改其亮度。然后,我们按照第4节中的说明进行检索,并计算不同r值下的平均Recall@10。令人惊讶的是,对于亮度变化高达30%(r∈{0.7,1.3})的情况下,Recall@10的准确性仅下降了1个百分点(42.37% →41.24%),因此亮度在我们模型的准确性中并不起重要作用,这表明它可能正在使用更高级的视觉线索,我们接下来将进行分析。同样,我们分析了色调的重要性:虽然比亮度更重要,但色调对模型的性能并不关键。节奏。我们通过一个因子r对查询音乐信号进行时间拉伸。105700通过修改其速度因子r(即使其变慢或变快),我们评估检索并计算不同r值下的平均Recall@10。当以30%的速度修改节奏(r∈{0.7,1.3})时,Recall@10的准确性下降超过5个百分点(42.37% →36.96%)。我们在附录C.3中展示了Recall@10作为r的函数的曲线,其中包括亮度、色调和节奏。随后的属性都以相同的方式进行评估。我们选择了一个包含关于该属性的注释并且在属性类别上平衡的图像数据集。我们使用我们模型的视觉分支为数据集中的所有图像计算表示,并将它们用作目标候选。请注意,我们的基本CLIP特征是在图像级别上操作的;我们将单个基本CLIP特征传递给我们的Transformer模型。然后,我们使用我们测试集中的音乐片段作为查询,并从平衡的数据集中返回排名第一的检索图像。最后,我们绘制了一个(音乐流派)-(视觉属性)的矩阵,对每个音乐流派进行了归一化。使用musicnn[50]收集的音乐流派注释仅用于分析,而不用于训练。请注意,由于目标检索(图像)数据集是平衡的,对于每个属性值的偏好完全由模型确定。性别。我们使用FairFace数据集[36],其中包含按性别、种族和年龄分类的人脸图像。我们在图4中展示了结果,并在第6节中讨论了潜在的偏见。值得注意的是,存在一种偏见,并且与我们在现实世界中所期望的一致,比如女性图像与“女性歌手”这一流派相关联,以及训练数据中的偏见,比如男性图像与“嘻哈”、“硬摇滚”或“重金属”相关联。不到一半的流派对一个性别有很强的偏好,这意味着模型通常不依赖于这个属性来推理流派。种族。使用FairFace数据集,我们重复了之前的分析,并在图4中展示了结果。如预期的那样,鉴于我们的训练数据中观察到的偏见(附录A.1),“嘻哈”主要与黑人相关联,而“乡村”主要与白人相关联。我们将一些意外的关联归因于我们的训练数据集中某些种族的代表性不足。年龄。我们发现年龄对模型来说并不像其他属性那样重要,因此我们将分析移至附录C.3。视觉场景。我们使用Places数据集[72],其中包含205个场景类别的图像。我们观察到场景属性与音乐流派也有相关性,尽管比之前的属性要少。供参考,我们列出了最常检索和最不常检索的场景,并在附录C.3中展示了流派→场景表。0最常检索:户外赛道、室内舞台、音乐录音室、拳击场、棒球场、棒球场、武术健身房、鞋店、舞厅;最不常检索:峡谷、住宅区、雪地、拱门、阁楼、沙漠植被、裂缝、防火通道、陵墓、水塔0查询视频检索音乐0柔和的摇滚音乐0孩子们用口琴和班卓琴唱一首活泼的歌曲的音频0重金属音乐,有强烈的鼓和吉他成分0独立音乐0图6。我们在数据集之外的一组随意捕捉的视频上测试了YT8M-MusicVideo模型,并展示了我们的模型如何推广到不自然含有音乐的场景。0查询已检索0悬疑音乐,音量非常低0非常柔和和缓的钢琴音乐,以大调为主,快乐/浪漫的情绪0图7。在MovieClips数据集中的检索。我们展示了视频到音乐的检索示例,并展示了我们的模型如何利用情感进行对应。0视觉对象(乐器)。我们使用OpenImages数据集[39]中的乐器图像,并按照以前的属性研究进行处理。如图8 a)和8d)中的属性调节(下面的描述)所示,该模型在视觉和音乐模态中学习到了一些乐器(例如吉他、鼓)的强大且有用的表示。附录C.3中显示的流派→乐器表明,大多数音乐流派更倾向于检索吉他图像,尤其是对于硬摇滚、重金属、金属和朋克流派。这是可以预期的,因为1)吉他是这些流派中最常见的乐器,2)与这些流派相关的视频剪辑主要由人们演奏歌曲组成,而不是其他流派,其中内容更具电影感。05.2.定性分析和应用0检索示例。展示我们模型质量的最佳方法是在真实示例上进行测试。我们在YT8M-MusicVideo和MovieClips中使用视觉和音乐片段进行模型评估,如图1所示。在图6中,我们在YT8M-MusicVideo数据集之外的一组随意捕获的视频上测试了YT8M-MusicVideo训练的模型,并展示了我们的模型如何推广到不自然包含音乐的场景。+++105710重金属音乐,以快节奏的强电吉他演奏和男声咆哮为特色0重金属音乐,以快节奏的强电吉他演奏和女声咆哮为特色0输出音乐 男性图0女性歌手在钢琴伴奏下唱歌0吉他的图像0女性歌手在吉他伴奏下唱歌0d)b)0鼓的图像 吉他的音乐 输出视频0输出音乐0输入音乐 非英文音乐 输出音乐0英文说唱音乐 德文说唱音乐0输出音乐0流行摇滚音乐,有吉他和鼓演奏。在它们之上,一个男人唱歌0图8.属性调节。给定表示属性的数据,例如一组吉他图像来表示“乐器”属性,我们可以调节我们模型的检索。我们的模型没有经过任何属性注释的训练。这种调节是跨模态的,意味着视觉属性可以调节音乐输出,反之亦然。请注意,此图不是过程的图表;我们展示了实际示例。这些操作可以在其他示例中一致地复制,跨音乐流派。输入、输出和任何调节属性可以在任何模态中定义。0属性调节。我们知道我们的模型可以捕捉到一系列的音频视觉属性,因此我们提出使用这些属性的表示来调节检索过程。为了找到特定属性(例如吉他)的表示y_a,我们使用带有标记图像和/或音频的辅助数据集来表示该属性(例如吉他的图像),计算它们的表示,并对它们求平均以获得属性的表示。我们通过将查询片段的表示y与属性的表示y_a相加来实现调节:y_conditioned = y +y_a。如果我们想要去除属性,我们使用减法:y_conditioned = y -y_a。我们可以多次应用这些操作,用于使用任一模态定义的属性。为了解决在对来自不同领域的数据进行调节时可能出现的超出分布问题,我们发现当我们使用y_a而不是y_a时,可以获得更好的结果。= y_a - 00b ∈D y b ,其中 D是获得条件图像或音乐曲目的数据集(例如,一个包含乐器图像的数据集)。0总的来说,这个过程产生了各种应用,从视频编辑——我们希望特定属性存在——到音乐或视频搜索。我们在图 8中展示了这种方法的多样性。例如,给定一个不包含乐器的音乐曲目,我们可以检索到一个包含该乐器的类似音乐曲目。这个乐器可以通过视觉数据来定义,如示例 a)所示,也可以通过音乐来定义,如示例 d)所示。我们还可以根据语言进行条件筛选。具体来说,在示例 b)中,我们列出了一组带有非英语歌唱的音乐曲目,并使用它们来检索与查询输入在风格上相似但是使用非英语语言的音乐。有趣的是,该模型可以很好地表示英语(以及因此表示非英语),但在表示其他语言时不太一致,可能是由于数据集中英语音乐曲目的比例较高所致。0注意力。我们在图 5 中可视化了视觉Transformer f v的注意力结果。对于每个示例,我们绘制了在每个视频片段(由图像帧表示)上计算的注意力权重,使用了注意力回滚[ 1]。这些可视化结果显示,模型更关注明确演奏乐器或唱歌的视觉片段,而不是更多电影化的内容。06. 讨论和限制0音乐和视频之间的对应关系是一种艺术性的对应关系。艺术和文化本质上与语言、国籍、性别和种族等概念紧密相连。然而,计算机视觉仍然没有处理它们的工具。结果是一个依赖偏见的框架,以及偏见在现实世界应用中可能产生的所有已知负面影响 [ 34 , 44 , 59]。然而,与其他识别应用程序不同 [ 18],在艺术对应的背景下,一个对这些因素不变的框架可能导致文化特征的抹消或文化挪用。另一方面,明确放大音乐和文化之间的联系——正如音乐行业经常做的那样 [ 55]——可能加剧某些偏见或关联。在本文中,我们采用了一种描述性的方法,并展示了模型正在学习的对应关系。我们认为本文是对进一步研究和讨论文化与偏见在艺术对应学习中相互作用及其所带来的挑战的邀请。这些进展将需要计算机科学和社会学之间的合作。关于如何适当地设计这样一个用于实际应用的系统的复杂问题仍然是一个悬而未决的问题。最后,我们的领域和本文中缺乏这些概念的明确定义和精确评估,这是未来工作的一个有趣方向。[1] Samira Abnar and Willem Zuidema. Quantifying attentionflow in transformers.In Proceedings of the 58th AnnualMeeting of the Association for Computational Linguistics,pages 4190–4197, Online, July 2020. Association for Com-putational Linguistics. 8[2] Sami Abu-El-Haija, Nisarg Kothari, Joonseok Lee, PaulNatsev, George Toderici, Balakrishnan Varadarajan, andSudheendra Vijayanarasimhan.Youtube-8m:A large-scale video classification benchmark.arXiv preprintarXiv:1609.08675, 2016. 5[3] Triantafyllos Afouras, Andrew Owens, Joon Son Chung, andAndrew Zisserman. Self-supervised learning of audio-visualobjects from video. In European Conference on ComputerVision, 2020. 3105720参考文献0[4] Hassan Akbari, Linagzhe Yuan, Rui Qian, Wei-HongChuang, Shih-Fu Chang, Yin Cui, and Boqing Gong. VATT:Transformers for Multimodal Self-Supervised Learning fromRaw Video, Audio and Text. arXiv:2104.11178 [cs, eess] ,Apr. 2021. arXiv: 2104.11178. 30[5] Jean-Baptiste Alayrac,Adri`a Recasens,RosaliaSchneider,Relja Arandjelovi´c,Jason Ramapuram,JeffreyDe Fauw,Lu- cas Smaira,Sander Dieleman和AndrewZisserman.自监督多模态通用网络。神经信息处理系统(NeurIPS),2020年。0[6] Humam Alwasse
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功