双模态关联记忆：声音和图像的弱配对关联学习

190 浏览量更新于2023-10-26 收藏 12.3MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

105340通过双模态关联记忆实现声音和图像表示的弱配对关联学习0Sangmin Lee 1 Hyung-Il Kim 2 Yong Man Ro 1 �01 韩国科学技术院图像和视频系统实验室 2 韩国电子通信研究院0{ sangmin.lee,ymro } @kaist.ac.kr hikim@etri.re.kr0摘要0无标签的数据表示学习由于不需要人工注释而受到越来越多的关注。最近，表示学习已经扩展到双模态数据，特别是与人类基本感官密切相关的声音和图像。现有的声音和图像表示学习方法必须需要大量具有对应配对的声音和图像。因此，在缺乏配对双模态数据的弱配对条件下，确保方法的有效性是困难的。事实上，根据人类认知研究，人脑中与某种模态相关的认知功能可以通过接收其他模态来增强，即使这些模态没有直接配对。基于这一观察，我们提出了一个新的问题来处理弱配对条件：如何通过使用其他未配对的模态数据来增强某种模态的表示。为了解决这个问题，我们引入了一种新颖的双模态关联记忆（BMA-Memory）与键值切换。它能够利用少量配对的双模态数据建立声音-图像关联，并利用易于获取的大量未配对数据来增强建立的关联。通过提出的关联学习，可以通过使用其他未配对的模态数据（例如图像）来加强某种模态（例如声音）的表示。01. 引言0无标签的数据表示学习是通过利用数据中自动生成的监督信号从未标记的数据中学习通用特征。由于人们手动注释大规模数据非常耗时和劳动密集，因此这类表示学习方法在工业和研究领域受到越来越多的关注。在这个背景下，表示学习已经应用于各个领域，如计算机视觉[10, 15,17]，自然语言处理[7, 12]等0� 通讯作者0双模态0（BMA-Memory）0键值切换0未配对的图像数据0或0图像记忆声音记忆0未配对的声音数据0输入图像0输入声音0相关声音0相关图像0丰富的输入和相关模态的表示0即使使用未配对的数据0图1.提出框架的概念。该模型可以通过BMA-Memory将一种模态（例如声音）与另一种模态（例如图像）关联起来，以获得丰富的表示。未配对的模态可以增强模态之间的关联。0声音信号处理[4,39]。最近，随着在各种多感官环境中获取数据样本，提出了针对双模态数据的表示学习方法。它们旨在通过利用双模态数据之间的对应关系来学习特征表示。特别是，许多双模态表示学习方法研究了听觉和视觉之间的对应关系，这与人类基本感官密切相关。这些方法主要尝试从音频-视频[26, 31]或声音-图像[34,38]数据中学习双模态表示，而不需要标签。然而，现有的双模态表示学习方法需要大量具有对应配对的数据。因此，在缺乏配对双模态数据的弱配对条件下，确保方法的有效性是困难的。根据神经生物学研究，与某种模态相关的认知功能可以通过接收其他模态来增强，即使这些模态没有直接配对。基于这一观察，我们提出了一个新的问题来处理弱配对条件：如何通过使用其他未配对的模态数据来增强某种模态的表示。为了解决这个问题，我们引入了一种新颖的双模态关联记忆（BMA-Memory）与键值切换。它能够利用少量配对的双模态数据建立声音-图像关联，并利用易于获取的大量未配对数据来增强建立的关联。通过提出的关联学习，可以通过使用其他未配对的模态数据（例如图像）来加强某种模态（例如声音）的表示。105350在人脑中，通过接收其他模态的刺激来记忆多模态信息并将其相互关联。有几种情况，例如视觉刺激到多感官认知[41]，听觉刺激到视觉认知[5]，触觉刺激到视觉认知[18]。这是可能的，因为人类在大脑中记忆多模态信息并将其相互关联。双模态认知功能密切相关并相互影响。基于这一观察，我们提出了一个新的问题，即如何通过使用其他未配对的模态数据来增强特定模态的表示学习，这在以前的研究中尚未得到妥善解决。为了将双模态表示学习扩展和推广为人脑，需要设计这样一种方法。就声音-图像数据而言，我们可以预期甚至从未配对的声音数据和图像数据中增强图像表示。基于这个背景，我们将重点放在声音-图像层面的表示上，而不是音频-视频层面，因为弱配对条件在声音-图像数据中更自然地观察到。例如，我们可以通过网络搜索轻松获取大量的动物图像，而获取动物声音数据则很困难。在这种弱配对条件下，值得从其他易于获取的模态数据（例如图像）中增强难以获取的模态（例如声音）表示。在本文中，我们提出了一种新颖的双模态关联记忆（BMA-Memory），它能够学习声音和图像表示。BMA-Memory可以将双模态特征存储在声音-图像子记忆中，并通过键值切换方案自然地相互关联。由于可以通过BMA-Memory回忆起另一种模态，因此我们可以从单模态输入中获得包括输入和关联模态在内的丰富表示。基于该记忆，我们引入了弱配对关联学习来处理缺乏配对数据的弱配对条件。BMA-Memory可以利用少量配对的双模态数据建立声音-图像关联，并利用易于获取的大量未配对模态数据增强所建立的关联。在未配对的关联学习中，我们从未配对数据中构建伪双模态对以增强双向关联。结果是，即使使用其他未配对的模态数据，某种模态的表示也可以得到增强。所提出方法的概念如图1所示。本文的主要贡献如下。0•我们引入了一种新颖的带有键值切换的双模态关联记忆（BMA-Memory），用于学习声音和图像表示。它存储双模态的声音-图像特征并相互关联。它能够从单模态输入中获取包括输入和关联模态在内的丰富表示。0•我们提出了弱配对关联学习来处理弱配对条件。它有效地处理了增强特定模态表示的问题。0即使在弱配对条件下，也可以通过使用其他未配对的模态数据来增强表示学习。02. 相关工作02.1. 双模态表示学习0无标签的数据表示学习是通过使用数据中自动生成的监督信号从无标签数据中学习特征的方法。为了学习表示，定义了预训练任务以自我监督的方式训练模型。各种预训练任务已被研究，以利用数据的结构特性。这些方法包括旋转预测[15]、空间上下文预测[13]和拼图[33]。近年来，对比学习的表示学习方法在学习图像表示方面显示出显著的效果[10,20]。从预训练任务学习到的表示通过其他下游任务（如分类和检索）进行评估。最近，表示学习方法已经扩展到双模态数据，因为在各种多感官环境中获取了数据样本[11, 22,26, 31, 34, 38, 42,44]。特别是与基本人类感官密切相关的声音和视觉已经得到了显著的研究。这些方法主要尝试从音频-视频或声音-图像数据中学习双模态表示。在音频-视频数据的情况下，Korbar等人[26]提出了一种考虑音频-视频对的时间同步的表示学习方法。Alwassel等人[1]引入了带有音频-视频聚类的双模态表示学习。在[32]中，提出了一种用于音频-视频数据的表示学习方法，通过探索双模态一致性将潜在配对的多个实例作为正例进行分组。还尝试利用声音和图像数据之间的双模态对应关系。在声音-图像数据中，Owens等人[34]引入了从图像预测相应声音的表示学习方法。Senocak等人[40]提出了一种用于图像中声音定位的学习声音-图像表示的算法。在[38]中，作者通过使用知识蒸馏来增强声音-图像数据的增强表示学习。这些现有方法需要潜在配对的双模态数据。为了解决这个问题，我们提出了一种从未配对数据中学习声音-图像表示的新方法，并考虑了弱配对条件。我们算法的优势在于，即使利用其他未配对的模态数据，它也可以增强某种模态输入的特征表示。此外，与主要用于检索的双模态半监督方法[3, 6,9]将不同模态在共同空间中对齐相比，我们的工作不同之处在于目标是以自我监督的方式从无标签的双模态数据中学习通用特征。105360（键）图像0声音0（值）0双模态0（BMA-Memory）0键值切换0投影0声音特征0编0配对0联想损失0声音0（键）0图像0（值）0配对联想学习0使用小型配对声音-图像数据0�0�0声��0�0投影0�0�,��0�0�,��0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�0�pair0��0图像特征0编0��0*此训练与无配对联想学习同时进行0:正样本:负样本0图2.提出的使用BMA-Memory进行配对联想学习的方法，以在训练时利用小型配对声音-图像数据。BMA-Memory包括具有键值切换方案的图像和声音子记忆。在训练过程中，使用配对的图像和声音使这些记忆相互关联。02.2. 增强记忆网络0增强记忆网络是指具有外部记忆组件的神经网络，它使得读写历史信息成为可能。增强记忆网络已被提出来解决深度学习领域的各种问题。它们被应用于多个任务，如目标跟踪[14, 43]、异常检测[16, 36]、预测学习[19, 28,29]和少样本学习[8, 23,45]。存在将记忆网络应用于自监督学习方案的方法。Lai等人[27]引入了一种带有增强记忆网络的自监督密集跟踪模型，该模型存储了过去帧的信息。Han等人[19]提出了一种带有增强记忆网络的预测编码框架。他们试图通过估计记忆中可能的未来状态来学习视频表示。与现有的记忆网络相比，我们提出了一种新颖的BMA-Memory，它具有键值切换方案，可以在自监督方式下自然地将声音与图像相互关联起来。基于BMA-Memory，我们提出了利用训练时的小型配对声音-图像数据的配对联想学习。03. 提出的方法0双模态数据的表示学习可以如下形式化。设xv和xs分别表示输入图像和声音数据（即，频谱图）。目标是通过自监督学习（即，预训练学习）联合优化两个函数（Fv，Fs），从（xv，xs）中获得不同的声音和图像表示（hv，hs）。注意，hv = Fv（xv）和hs =Fs（xs）。然后，通过BMA-Memory提出了一种新的键值切换方案，可以在自监督方式下自然地将声音与图像相互关联起来。基于BMA-Memory，我们提出了弱配对联想学习，用于构建和增强模态之间的关联。0通过下游任务（例如，图像或声音分类）验证表示的有效性。03.1. 双模态联想记忆0图2显示了在使用小型配对数据进行学习的情况下，具有双模态联想记忆（BMA-Memory）的弱配对联想学习的过程。BMA-Memory用于存储声音和图像特征，并将这些模态链接起来。该记忆能够从图像数据中回忆出声音特征，反之亦然。通过利用输入和回忆模态的特征，我们可以获得更丰富的表示。首先，输入图像xv和声音xs通过各自的特征编码器（Ev，Es）成为图像特征fv∈Rc和声音特征fs∈Rc。我们采用2D-Conv架构，ResNet-18和ResNet-10[21]用于图像和声音编码器。注意，输入xs具有声谱图像的形式。提取的图像和声音特征用作内存查询，以访问图像记忆Mv和声音记忆Ms，它们是BMA-Memory中的子记忆。图像和声音记忆具有矩阵形式Mv ={mvr}nr=1∈Rn×c和Ms ={msr}nr=1∈Rn×c，其中n个槽和c个通道。行向量mvr∈Rc表示Mv的第r个记忆项。BMA-Memory通过键-值记忆结构将一个模态空间映射到另一个模态空间。它减轻了不同模态之间不一致分布的域差异。我们引入了键-值切换过程，以自然地将这些记忆关联起来。因此，对于图像输入，图像记忆成为键，声音记忆成为值。键-值记忆在. . .. . .1𝑤2𝑣𝑤3𝑣𝑤𝑛−1𝑣𝑤𝑛𝑣𝑚1𝑠𝑚2𝑠𝑚3𝑠𝑚𝑛−1𝑠𝑚𝑛𝑠𝑚1𝑣𝑚2𝑣𝑚3𝑣𝑚𝑛−1𝑣𝑚𝑛𝑣𝑀𝑣𝑀𝑠𝑑(·, ·)̸̸̸105370在声音输入的情况下（见图2），获取键记忆Mv和Ms得到寻址向量Wv = {wvr}nr=1∈Rn和Ws ={wsr}nr=1∈Rn。注意，每个寻址向量用于访问每个值记忆的组件。内存寻址方案如图3所示。在图像输入特征fv的情况下，寻址过程可以表示为0wvr = exp(d(fv, mvr)/τm) / Σnr=1 exp(d(fv,mvr)/τm), (1)0d(fv, mvr) = fv ∙ mvr0||fv||||mvr||, (2)0其中d(∙,∙)表示余弦相似度函数，exp(∙)/exp(∙)表示softmax函数，τm是一个记忆温度。Wv用于访问值记忆的组件，将其从图像空间转换为声音空间。注意，值记忆表示Wv的Ms。Wv的每个分量wvr可以被视为对应的值记忆槽msr的注意权重。Ms输出声音记忆特征fs,mem∈Rc，如下所示。0fs,mem = Σn0r = 1 wvrmsr. (3)0最后，将图像特征fv和声音记忆特征fs,mem连接起来，得到目标表示hv = [fv;fs,mem]。hv包含了输入图像和关联声音的信息。对于输入声音特征fs，整体寻址过程与fv的情况完全相同。只是声音和图像的术语互换了。在训练阶段，通过反向传播更新Mv和Ms的权重[16, 28]。目标损失将在下一节中描述。03.2. 弱配对联想学习03.2.1 配对联想学习0我们提出了弱配对联想学习，包括配对联想学习和非配对联想学习。所提出的模型是使用小型配对声音-图像数据进行训练的，如图2所示。配对联想学习的目标是以自监督的方式建立图像和声音记忆之间的联系。通过第i个配对输入图像xvi和声音xsi，我们可以分别获得目标特征表示hvi和hsi。然后，它们通过由2层MLP组成的投影头部传递，使得zvi和zsi成为[10]。zvi和zsi表示实际用于预训练自监督学习的投影。如果zv和zs来自一对（或同一段）音频，我们将它们视为正集（例如，zvi，zsi）。否则，我们将其视为负集（例如，zvi，zsj）。使这样的正集明显接近可以使记忆关联对应的模态。目标损失称为配对联想损失Lpair，其具有噪声对比的变分形式。0图像记忆声音记忆0双模态0(BMA-记忆)0寻0向量0逐元素求和0相似度度量0图3.BMA-Memory在图像记忆（键）到声音记忆（值）的情况下的详细键值寻址过程。请注意，声音记忆（键）到图像记忆（值）的操作可以反之进行。0损失[10, 20]，应用于小批量样本（批量大小=N）。当有N个zv样本和N个zs样本时，除了自身和来自同一剪辑的样本之外，其余样本可以被视为特定样本的负样本。我们设置Zp = {zpi}2Ni=1 ={zv1，...，zvN，zs1，...，zsN}。成对联想学习的损失定义为0Lpair = -102N0i=1 log �0� 2N j=1 1[j ≠ i] exp(d(zpi,0（4）其中k+和τl分别表示来自样本剪辑的正样本（例如，zvi对于zsi）和损失温度参数。1 [j ≠ i] ∈{0，1}表示一个指示函数，当j ≠i时为1。通过最小化Lpair，我们可以在正集合内相互吸引，在负集合内相互排斥。这使得可以从图像数据中回忆出不同的声音模态，反之亦然。当不使用不成对的数据时，训练仅通过最小化Lpair进行。03.2.2 不成对的联想学习0此外，该模型可以通过使用不成对的数据进行训练，以加强由成对联想学习构建的声音-图像关联。为此，我们构建了包括双向记忆关联（I → S，S →I）的伪双模态对。我们算法的优势在于它可以通过利用其他不成对的模态数据来增强特定模态输入的特征表示。例如，我们可以通过额外使用不成对的声音数据来加强输入图像数据的表示，反之亦然。图4显示了利用第i个不成对声音xs_i的情况。首先，我们通过将增强算法应用于xs_i来获得增强样本x's_i。作为x's_i的增强算法，我们采用了SpecAugment [35]，它随机屏蔽频率和时间带。ℎ′′𝑖𝑠̸105380图像0(键)0声音0(值)0双模态0(BMA-记忆)0键-值切换0不成对的0联想损失0声音0(键)0图像0(值)0不成对的联想学习0使用声音数据（图像数据没有配对）0增强0w′i0s0投影0图wi0v0增强0w′0v0*非配对图像也可以反过来使用0f′i0s0f′i0v,mem0f′i0s,mem0h′i0s0z′i0s0z′i0s0z′i0′s0z′i0′s0z′i0′s0声wi0s0：正样本：负样本0Lunpair0*z′i0′s来自不同的0增强样本w′′i0w_i的s0s0图像特征0编0E_v0循环记忆0寻址0声音特征0编0E_s0伪0双模态对0图4.提出的使用BMA-Memory进行非配对联想学习，以在训练时利用非配对声音数据。在训练过程中，可以进一步利用非配对图像或声音以自我监督的方式增强BMA-Memory的图像和声音子记忆之间的关联，从而提升表示能力。通过非配对联想学习，可以通过利用非配对的不同模态数据来增强某个模态的表示。与非配对声音数据的情况类似，非配对图像数据也可以以类似的方式使用（记忆访问I→S，I→S→S→I）。0在该算法中，通过声音-图像（键-值）记忆，从x′si中获取f′v,memi。与成对的联想学习不同，f′v,memi被重新用作伪图像记忆查询，通过图像-声音（键-值）记忆。通过这种循环寻址，我们得到主要由图像和声音记忆特征组成的h′si=[f′v,memi;f′s,memi]。使h′si具有判别性可以增强图像和声音记忆之间的关联对齐，因为h′si包含双向关联（I→S，S→I）。因此，使用声音的非配对学习也可以加强S→I以及I→S的关联，从而改善图像表示。为此，我们使用非配对联想损失Lunpair来优化模型。对于Lunpair，我们将正样本集设置为来自同一声音样本（或同一剪辑）的投影（例如z′si和z′′si）。z′′si是从x′′si投影而来的，它是xsi的不同随机增强样本。z′′si可以被视为伪双模态对的投影。我们将负样本集设置为来自不同声音样本的投影（例如z′si和z′′sj）。Lunpair也是基于小批量中的单元应用的。与Lpair类似，我们可以设置Zup={zupi}2Ni=1={z′s1,...,z′sN,z′′s1,...,z′′sN}。对于非配对声音数据，非配对联想学习的损失函数可以写成0Lunpair = -10对于每个样本i，我们计算lp(d(zupi,0在计算中，对于每个样本i，我们计算与其0（5）非配对联想学习与配对学习同时进行。模型训练使用总损失L = Lpair +Lunpair进行，同时考虑配对和非配对的情况。0数据。成对数据通过图2的路径传递，不成对数据通过图4的路径传递。然后它们一起进行优化。注意，不成对的图像xvi也可以用于不成对的联想学习。在这种情况下，我们在不成对的联想学习过程中采用[10]的图像增强。04. 实验04.1. 数据集0为了验证提出的方法，我们采用包含图像和/或声音数据的公共数据集。我们使用ACIVW [38]和Kinetics-400[24]数据集进行自监督预文本任务的学习。对于下游任务，我们使用ACIVW [38]和DCASE-2018[30]数据集。ACIVW。ACIVW[38]包括在野外条件下5小时的多模态数据，由声光相机获取。原始信号以12.8kHz的采样频率从128个麦克风获取。视频帧以480×640像素和每秒12帧的速度捕获。它还包括36×48×512的多光谱声学图像，具有空间和听觉信息。它由10个具有野外条件的类别组成：无人机、购物车、交通、火车、船、喷泉、钻头、剃须刀、吹风机和吸尘器。ACIVW主要用于研究图像和声音之间的对应关系。总共有9k个声音-图像对。与[38]一样，我们使用数据集的70%来训练具有预文本任务的模型。其余部分用于验证具有下游任务的模型。Kinetics-400。该数据集[24]包含约230k个训练样本105390方法训练数据类型Top-1准确率0监督学习图像0.7690L3 Vision Network�[2] 图像+声音 0.5440Audio-Visual（H）�[38] 图像+声音0.667Audio-Visual（H）�[38]（带迁移学习）图像+声音+声学图像0.7320提出的方法� 图像+声音+不成对的声音 0.7720AVID-CMA†[32] 图像+声音0.7380（不带不成对的联想学习）图像+声音0.7450提出的方法† 图像+声音+不成对的声音 0.7780表1.ACIVW数据集上的图像分类性能结果。除了有监督模型外，所有其他模型都是使用ACIVW数据集进行自监督训练的。不成对的声音来自Kinetics-400数据集。�和†分别表示通过KNN和线性评估协议获得的准确性。0包括骑自行车、跳萨尔萨舞、扣篮篮球和吹喇叭等400个类别的视频。每个片段持续约10秒，它们来自不同的YouTube视频。因此，它涵盖了大范围的图像和声音变化。由于视频是从YouTube获取的，它们具有可变的帧率和分辨率。我们在每个片段的中间采样一帧图像和一段声音。该数据集用于使用预文本任务训练模型，特别是在不成对的联想学习中。DCASE-2018。这是检测和分类声音场景（DCASE）[30]的2018年版本。该数据集包括来自六个欧洲城市的声音录音，涵盖十个不同的声音场景：机场、公交车、地铁、地铁站、公园、公共广场、购物中心、街道（行人）、街道（交通）和有轨电车。录音采用48kHz的采样率获取。我们使用DCASE-2018数据集验证具有基于声音的下游任务的模型。04.2. 实现细节0每个图像都被归一化到[0,1]的强度，并调整大小为224×224像素。具有2秒的原始声音信号被预处理为150×200的对数梅尔频谱图形式。我们采用ResNet-18[21]作为我们的图像编码器，根据[38]采用ResNet-10作为声音编码器，因为图像和声音都具有空间信息。内存槽大小n固定为1,000。根据[10]，内存和损失温度参数（τm，τl）都设置为0.1进行所有实验。用于训练具有预文本任务的模型的投影特征具有128维潜在空间，如[10]所示。所有提出的模型都使用学习率为0.0002和批量大小为256的Adam优化器[25]进行训练。实验在TITAN RTXGPU的服务器系统上进行。我们使用PyTorch[37]实现模型。0方法训练数据类型 Top-1准确性0监督学习声音 0.9710L 3音频网络 � [ 2 ] 图像+声音 0.3610HearNet � [ 38 ] 图像+声音 0.757 HearNet � [ 38 ] (带迁移学习)图像+声音+声学图像 0.7950提出的方法 � 图像+声音+非配对图像 0.9360AVID-CMA † [ 32 ] 图像+声音 0.9020（不带非配对联想学习）图像+声音 0.9310提出的方法 † 图像+声音+非配对图像 0.9560表2.ACIVW数据集上声音分类的性能结果。除了监督模型外，所有其他模型都是以自监督的方式使用ACIVW数据集进行训练的。非配对图像来自Kinetics-400数据集。�和†分别表示从KNN和线性评估协议获得的准确性。04.3. 下游任务评估0为了评估表示质量，我们遵循线性评估协议[ 10]，该协议主要用于表示学习领域。首先，我们在目标表示上使用我们的冻结网络训练一个线性分类器。然后，我们通过线性分类器评估测试准确性以检查表示质量。如果我们想评估我们模型的图像表示能力，我们使用从图像输入获得的表示h v = [ f v ; f s,mem]进行图像下游任务。我们使用从声音输入获得的表示h s =[ f v,mem ; f s]进行声音下游任务（见图2）。此外，我们还利用k最近邻（KNN）来评估表示。图像识别。表1显示了在ACIVW数据集上进行图像数据分类的性能比较结果。所有模型都是使用ACIVW数据集的训练集进行训练的。为了评估图像表示，我们利用从图像输入获得的特征hv（见图2）。我们将我们的方法与现有的声音-图像作品[ 2 , 38 ]和适用的音频-视频作品[ 32]进行比较。除了监督模型外，其余模型都是以自监督的方式进行训练的。监督模型是使用ACIVW数据集的标签信息进行训练的。请注意，监督模型和我们的模型具有与[ 38]相同的ResNet-18骨干架构。如表所示，所提出的方法优于其他方法。所提出的模型超越了“音频-视觉（H）”模型，该模型包括了包含图像和声音信息的配对声学图像。请注意，与声学图像配对相比，非配对声音更容易获得。通过利用来自Kinetics-400的非配对声音，所提出的方法实现了比onrethe105400方法训练数据类型检索准确性0排名1 排名2 排名3 排名4 排名50L 3音频网络 [ 2 ] 图像+声音 0.097 0.119 0.242 0.267 0.3010HearNet [ 38 ] 图像+声音 0.289 0.344 0.424 0.480 0.6140DualCamNet [ 38 ] 图像+声音+声学图像 0.334 0.370 0.429 0.482 0.6240提出的方法（不带非配对联想学习）图像+声音 0.498 0.541 0.588 0.614 0.7050提出的方法图像+声音+非配对图像 0.522 0.553 0.612 0.669 0.7660表3. ACIVW数据集上双模态检索（声音到图像检索）的性能结果。所有模型都是以自监督的方式使用ACIVW数据集进行训练。0方法训练数据类型 Top-1准确性0监督学习声音 0.5950L 3音频网络 � [ 2 ] 图像+声音 0.3230HearNet � [ 38 ] 图像+声音 0.354 HearNet � [ 38 ] (带迁移学习)图像+声音+声学图像 0.3760提出的方法� 图像+声音+不成对图像 0.4200AVID-CMA† [32] 图像+声音 0.4210（无不成对关联学习）图像+声音 0.5380提出的方法† 图像+声音+不成对图像 0.5620表4.在零样本设置下，在DCASE-2018数据集上进行声音分类的性能比较结果。除了监督模型外，所有模型都是使用ACIVW进行训练并在DCASE-2018上进行测试的。�和†分别表示KNN和线性评估协议得到的准确率。0其他方法和监督模型在图像识别方面的性能比较。结果表明，即使使用来自不同数据集的不成对声音数据，不成对关联学习也可以增强图像表示。声音识别。表2显示了在ACIVW数据集上进行声音分类的性能比较结果。与之前的结果类似，除了监督模型外，模型都是以自监督方式使用ACIVW数据集进行训练的。为了评估声音表示质量，我们利用从声音输入中获得的特征hs（见图2）。如表所示，所提出的方法超过了其他自监督方法。使用不成对图像数据进行不成对关联学习可以增强声音识别性能，这意味着即使利用不成对的图像数据，声音表示也得到了增强。请注意，不成对的图像来自Kinetics-400数据集。因此，最终模型在性能上与监督模型相当。零样本声音识别。此外，我们进行了0在DCASE-2018上进行声音分类实验，以验证零样本设置中的泛化能力。在这个实验中，模型以自监督的方式使用ACIVW数据集进行训练，并在DCASE-2018数据集上进行验证。请注意，监督模型是使用带有标签信息的DCASE-2018数据集进行训练的。如表4所示，与其他方法相比，所提出的方法表现更好。特别是当额外使用不成对的图像时，所提出的方法的性能与监督模型相当。这些结果表明所获得的特征表示在不同数据集上具有良好的泛化能力。双模态检索。我们还进行了双模态检索，以验证声音和图像表示在自监督方式下如何相互关联。我们选择一个声音样本，并找到与该声音样本接近的图像。如果声音和检索到的图像具有相同的类别，则判断为正确。请注意，双模态检索是基于训练时用于匹配的图像投影zv和声音投影zs进行的。检索到的图像根据声音和图像特征之间的距离进行排序。实验在ACIVW数据集上进行。如表3所示，我们的方法在所有条件下在双模态检索方面优于其他自监督方法。排名表示要检索的候选项数。特别是当使用不成对的图像进行不成对关联学习时，它显示出更好的检索性能。可以看出，使用不成对的模态数据的学习方案加强了图像和声音模态之间的关联。04.4.成对数据量的补偿0表5显示了如何通过使用其他不成对的模态数据来有效地补偿成对数据量的减少。如表所示，当ACIVW的成对数据减少到20%（1k个图像）时，图像分类的性能明显下降。有趣的是，通过使用提出的与不成对声音（Kinetics-400）进行不成对关联学习，我们可以0.730.750.770.790.690.710.730.750.770.79105010050010005000A slight performance decrease is observed with ex-tremely large unpaired data (See Figure 5). It seems thatit is due to the severe imbalance of paired data volume andunpaired data volume because the training combination ofunpaired data keeps changing even with the limited paireddata. Effectively dealing with the extremely large amountof unpaired data can be investigated in further works.105410配对数据量非配对关联学习训练数据类型 Top-1 准确率0100% � 图像 + 声音 0.7450� 图像 + 声音 + 非配对声音 0.778020% � 图像 + 声音 0.6930� 图像 + 声音 + 非配对声音 0.7490表5.根据ACIVW中训练配对数据量的不同，对图像分类的性能评估。00K 5K 10K 50K 230K0Top-1准确率0非配对数据量0图5.根据Kinetics-400中非配对声音数据量的不同，对图像分类的性能评估。0通过使用其他非配对模态数据（即声音数据），可以获得超过使用完全配对数据的性能。换句话说，只使用20%的图像数据，我们就能够通过利用其他非配对模态数据（即声音数据）获得与100%情况相竞争的图像识别性能。此外，可以看到当配对数据量有限时，非配对数据的提升效果更为显著。04.5. 非配对数据量的影响0图5显示了ACIVW上图像分类的准确率，根据Kinetics-400中非配对声音数据量的不同。230k表示使用了Kinetics-400中的全部非配对声音数据，而0k表示没有使用非配对关联学习的模型。如图所示，最佳性能并不总是在无条件使用所有数据时实现。当适度使用非配对数据时，可以获得更高的性能。当使用50k的非配对数据时，性能最高，随后随着数量的减少而下降。请注意，有6k个训练声音-图像对。当非配对和配对数据的数量不平衡严重时，增加非配对数据并不能帮助增强表示。04.6. 内存大小的影响0我们进行实验观察内存大小n对表示学习性能的影响。内存大小n表示图像和声音子内存中的槽位数量。我们在ACIVW数据集上进行图像分类，使用指数比例（10、50、100、500、1,000、5,000）改变n。图6显示了结果。随着内存容量的增加，性能趋向于增加，在n=500左右饱和。然后保持相对稳定的值。考虑到指数比例，结果表示对n>500的内存大小设置具有鲁棒性。0Top-1准确率0内存大小n0图6.内存大小对图像分类在ACIVW上的影响。内存大小以指数比例变化。0极大非配对数据量会导致轻微的性能下降（见图5）。这似乎是由于配对数据量和非配对数据量之间的严重不平衡造成的，因为即使配对数据有限，非配对数据的训练组合仍在不断变化。如何有效处理大量非配对数据可以在进一步的研究中进行探讨。05. 讨论06. 结论0本研究的目标是在弱配对条件下，通过利用非配对模态数据来学习声音-图像表示。为此，我们提出了具有键值切换的BMA-Memory，以有效存储声音-图像特征并以自监督方式关联两种模态。通过BMA-Memory，我们可以获得包含输入和关联模态信息的丰富表示。基于这个内存，我们设计了弱配对关联学习，以建立和增强声音和图像之间的关联。它能够通过使用不同的模态数据来增强某个模态的表示。结果表明，该方法优于其他声音-图像表示学习方法。此外，我们通过进行消融研究和数据量分析来验证该方法的有效性和实用性。0致谢。本工作得到了由MSIT（编号2020-0-00004）资助的IITP资助。105420参考文献0[1] H. Alwassel, D. Mahajan, B. Korbar, L. Torresani, B. Ghanem,and D. Tran. 通过跨模态音频-视频聚类进行自监督学习. Advances inNeural Information ProcessingSystems（NeurIPS），33：9758-9770，2020年。 20[2] R. Arandjelovic and A. Zisserman. 看、听和学习.在国际计算机视觉会议（ICCV）上，页码609-617，2017年。 6,70[3] Y. Aytar, L. Castrejon, C. Vondrick, H. Pirsiavash, and A.Torralba. 跨模态场景网络.IEEE模式分析与机器智能交易，40（10）：2303-2314，2017年。 20[4] A. Baevski, S. Schneider, and M. Auli. vq-wav2vec:自监督学习离散语音表示.在国际学习表示会议（ICLR）上，2019年。 10[5] B. Barakat, A. R. Seitz, and L. Shams.通过听觉而非视觉训练改善视觉节奏感知. CurrentBiology，25（2）：R60-R61，2015年。 20[6] A. K. Bhunia, P. N. Chowdhury, A. Sain, Y. Yang, T. Xiang, andY. Song.更多照片就是你所需：用于细粒度基于草图的图像检索的半监督学习.在计算机视觉和模式识别会议（CVPR）上，页码4247-4256，2021年。 20[7] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P.Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S.Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child,A. Ramesh, D. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E.Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S.McCandlish, A. Radford, I. Sutskever, and D. Amodei.语言模型是少样本学习器.在神经信息处理系统（NeurIPS）上，卷33，页码1877-1901，2020年。 10[8] Q. Cai, Y. Pan, T. Yao, C. Yan, and T. Mei.用于一次性图像识别的记忆匹配网络.在计算机视觉和模式识别会议（CVPR）上，页码4080-4088，2018年。 30[9] L. Castrejon, Y. Aytar, C. Vondrick, H. Pirsiavash, and A.Torralba. 从弱对齐数据中学习对齐的跨模态表示.在计算机视觉和模式识别会议（CVPR）上，页码2940-2949，2016年。 20[10] T. Chen, S. Kornblith, M. Norouzi, and G. Hinton.对视觉表示进行对比学习的简单框架.在国际机器学习会议（ICML）上，页码1597-1607，PMLR，2020年。 1, 2, 4, 5, 60[11] Y. Chen, Y. Xian, A. Koepke, Y. Shan, and Z. Akata.通过组合对比学习提取音频-视觉知识.在计算机视觉和模式识别会议（

下载后可阅读完整内容，剩余1页未读，立即下载