学习和音频的对应关系

23 浏览量更新于2023-10-20 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1LRLRLRLRLRLR从右到左：学习视觉和声音的空间对应Karren Yang杨晓敏Bryan RussellAdobeResearchhttp://karreny.github.io/telling-left-from-right贾斯汀·萨拉蒙Adobe研究摘要自我监督视听学习旨在通过利用视觉和音频输入之间的对应性来捕获有用的视频表示。现有ap-（一）视频SPATIAL AUDIOLR观察员研究主要集中在语义匹配上，在感官流之间形成我们提出了一种新的自我监督任务，以利用正交原则：将所述音频流中的空间信息与所述视觉流中的声源的位置进行匹配。我们的方法简单而有效.我们训练一个模型来确定左和右音频通道是否被翻转，迫使它在整个视频中进行空间定位视频SPATIAL AUDIOLR观察员（b）第（1）款音频和音频流。为了训练和评估我们的方法，我们介绍了一个大规模的视频数据集，YouTube-ASMR-L300K，空间音频包括超过900小时的R 录像我们证明，理解空间相关性-音频&视频空间对齐？是/否spondence使模型能够在三个视听任务上表现得更好，在监督和自我监督基线上实现定量增益，这些基线不利用空间音频线索。我们还展示了如何将我们的自我监督方法扩展到具有ambisonic音频的360度视频。1. 介绍考虑图1（a）。在这里，我们基于空间音频1示出了两个示例视频，其具有所描绘的说话者随时间的感知位置。在第一个视频中，请注意，我们对说话者从左向右移动的空间感知在视觉和听觉流之间是一致的，而在第二个视频中，两种模式之间存在明显的差异（左右音频通道已经翻转，因此声音来自错误的方向）。这种效果是由于这两个视频中的空间音频信号：音频通过使用分离的左和右（即，立体声）通道来传递影响空间感知的双耳线索[30]。因为人类拥有在KY的暑期实习期间在Adobe Research完成的工作1这些录像在补充材料中提供。我们鼓励你戴着耳机观看和收听视频。图1. (a)基于使用空间音频线索感知的扬声器位置，我们可以确定基于视觉和声音的声源的左/右位置何时对齐（顶行）或翻转（底行）。(b)我们教一个模型来理解视听空间对应，通过训练它来分类视频的左右音频通道是否在我们的视觉和听觉之间建立空间对应的能力，我们可以立即注意到，视觉和音频流在第一视频中是一致的我们建立视听空间对应的能力使我们能够更有效地解释和导航世界（例如，一个响亮的咔嗒声吸引我们的视觉注意力，告诉我们去哪里看;当与一群人互动时，我们利用空间线索来帮助我们消除不同说话者的歧义）。反过来，理解视听空间对应可以使机器与现实世界更无缝地交互，提高视频理解和机器人导航等视听任务的性能在视频中的视觉和音频流上学习有用的表示是具有挑战性的。虽然已经使用强监督训练数据学习了强特征[18]，但难以获得大量注释到9932音频子网合并可视子网9933为了克服这一挑战，最近提出了许多自监督学习这些方法主要通过将音频中的语义信息或时间信息与视觉流中的声源的存在或运动相匹配来学习音频和视觉表示，而不利用视听空间关系。相反，我们寻求明确地专注于空间对应性，并探索一种完全正交的方法，以视听特征学习的基础上匹配的音频流中的空间线索的在具有空间音频的视频迅速激增的时候（例如，由于手机语音和AR/VR技术的进步，了解如何利用这些数据来学习强大的音频和视觉表示具有重要的科学和实际意义。在这项工作中，我们研究了一种简单而有效的方法来教机器理解视听空间对应-学习分类视频的左右音频通道是否已经翻转，如图1（b）所示。我们推测，一个模型需要建立音频和视觉输入之间的空间对应关系，以解决这个任务。因此，我们的工作的主要贡献是研究空间理解的有用程度，通过（i）提出一种新的自我监督的前文本任务，用于教学视听空间对应和（ii）评估学习功能的一系列下游视听任务，可能会受益于强大的多模态空间表示。评估我们任务的关键是在具有空间音频的大型视频数据集上进行训练的能力。作为我们贡献的一部分，我们引入了来自YouTube的ASMR视频的新视频数据集（我们证明了机器通过空间理解来改善视听任务。在三个下游任务上-（我们还将左右借口任务扩展到具有立体混响音频的360度视频，并将学习到的嵌入应用于360度声音定位。2. 相关工作视频中的自我监督学习。由于在获得用于监督训练的大规模注释数据方面的挑战，许多工作已经提出利用视听对应进行自监督学习[3，8，22，26，27、28、29]。这些任务学习视听表征或者通过利用共享的语义信息[3，29]或者通过利用时间相关性[22，26，27，28]。然而，它们不利用空间对应来进行自我监督，而且大多数只将单声道音频作为输入。验证我们的努力是关于视听对应任务的先前工作，用于预测视觉和音频信号是否来自同一视频[3]，以及视觉和音频信号是否在时间上对齐[22，27]。这些任务根据语义或时间信息的对应来学习音频和视觉表示。相反，我们的对应任务被设计成教导模型将空间音频线索与视频中声源的位置相匹配，并利用空间关系。视听源分离。视听源分离利用视觉信息来帮助分离声音混合物。已经提出了许多自我监督的方法来解决这个任务[10，13，15，27，32，36]，包括混合和分离框架，该框架将音频轨道与视频组合，然后训练模型以使用视觉信息将它们分离[10，27，36，37]。为了杠杆化视觉线索，这些分离模型学习音频表示，该音频表示捕获声音的语义[37]或时间模式[10，36]，以便分别将它们与视觉帧相匹配。还提出了在没有明确混合的情况下分离音频[13，15]或同时共同分割视频[32]的策略。然而，所有这些方法仍然基于匹配的语义或时间模式来学习音频表示，并且不利用空间线索。声音定位。使用多个麦克风估计声音的到达方向传统上使用波束成形算法来解决，例如操纵功率响应[6]，其不学习音频表示并且不能容易地处理多个声源的并发性。最近，已经提出了基于神经网络的方法用于到达方向估计[1，19，23]。这些模型学习空间音频表示，但它们是通过强监督来训练的，而我们建议通过利用视听空间对应来使用自我监督来学习空间音频线索一个独立的研究流集中在视频中的声源定位[5，11，17，21]，包括在自我-监督方式[4，27，33]。然而，这些方法不利用空间音频。最近，Ganet al. [12]提出了使用预先训练的视觉网络作为老师来学习在视频中定位车辆的空间音频表示。相比之下，我们的表征是通过杠杆化视听空间对应来学习的，而没有明确地建模教师的目标位置。音频空间化。最近已经提出了几种用于音频空间化的自监督方法，其任务是使用并发的视觉流将单声道音频转换为空间音频，以将音频注入空间。9934i=1图2.来自我们YouTube-ASMR数据集的视频示例。[14，25，24].与我们类似，这些方法使用空间音频作为自我监督信号。例如，Gaoet al. [14]提出了一种具有视觉流的U-Net架构，以将单声道音频输入（通过下混立体声音频生成）转换为立体声输出，在训练期间使用原始立体声音频作为目标。在他们的模型中，视觉特征提供了从单声道音频中缺失的补充空间信息，以产生立体声音频。相比之下，我们的音频表示直接从立体声音频中学习空间线索，以便将声音的感知定位与其在视频中的位置相与我们相似的还有Luet al. [24]提出了一个空间对应分类器，但他们将其作为对抗性损失应用于辅助音频空间化，而我们提出了用于自监督特征学习的空间视听对应任务3. YouTube-ASMR数据集从具有空间音频的视频中学习是一个相对较新的领域。虽然空间音频内容的量正在增加，但目前很少有具有空间音频的视频数据集，其中视觉内容与音频内容在空间上对齐。因此，我们引入了一个新的大规模的ASMR视频数据集，从YouTube上收集，包含立体声音频。ASMR（自主感觉梅里亚反应）视频可在线获得，并且通常具有单个演员或“ASMR专家”在面对设置有立体声/双耳或配对麦克风的摄像机时发出不同声音的特征我们数据集的屏幕截图如图2所示这些视频中的音频包含双耳线索，当用耳机听时，会产生一种高度身临其境的体验，表1.目前的大规模视频数据集与空间音频。我们的YouTube-ASMR-300 K数据集拥有最独特的剪辑和最长的总持续时间。总共2000个10秒的片段。这对于在不同的空间线索上训练模型很重要。数据集URL可在标题页上列出的项目网站上获得。4. 学习分辨左右问题表述。空间音频使听众能够推断声源的位置。在立体声音频的情况下，诸如左右信号到达的时间差（耳间时间差）和左右信号的电平差（耳间电平差）之类的双耳线索有助于感知声源被定位到左边或右边[30]。我们假设，这些双耳线索可以用来学习有用的多模态表示，通过教一个模型识别时，视频和音频在空间上不对齐。在训练期间，我们提供视频剪辑作为输入，其中我们以概率0.5翻转音频流中的通道的顺序，即，如果原始音频由a（t）=（ aL（t），aR（t））给出，其中aL（t）和aR（t）是作为时间t的函数的左声道和右声道，则翻转的音频是aR（t）=（aR（t），aL（t））。该变换切换音频通道之间的耳间时间和电平差形式上，令D={（v，a，y）i}N是我们的视频数据集，其中v是视觉流，a是音频流，并且y在指示A是否相对于V翻转。我们用参数w训练神经网络fw（v，a）以最大化由对数似然给出的分类交叉熵目标，听者感知到的声音就好像是发生在他们周围一样。因此，在这些视频中的视觉和空间音频内容之间存在强对应性。X（v，a，y）∈Dylogfw （v，a）+（1−y）log（1−fw（v，a））。（一）我们的完整数据集YouTube-ASMR-300 K由大约300K的10秒视频剪辑和空间音频组成。从这个完整的数据集中，我们还手动策划了来自30个ASMR通道的30K片段的子集，这些片段具有更多的空间移动声音事件，用于训练我们的模型。我们称之为 YouTube-ASMR。我们将视频片段以80-10-10的比例分为训练集、验证集和测试集。与现有数据集相比，YouTube-ASMR-300 K（1）至少大8倍（表1），（2）在野外收集，（3）包含运动声源（例如，用户在视场上挥动音叉），这是我们推测，解决翻转任务需要理解视听空间对应关系，因为模型必须将音频信号中对象的位置与对象视觉信号的位置相匹配。空间对齐网络。我们在图3（a）中说明了我们的网络。该网络包括两个流-对于视觉，我们的基础模型使用ResNet-18的公共PyTorch实现[16]数据集#独特的视频持续时间（小时）Lu等人[24日]N/R9.3[14]第十四话N/R5.2[25]第二十五话1146114YouTube-ASMR352096YouTube-ASMR-300K337259049935图3.（a）空间视听对应任务的模型架构详见正文。（b-d）利用我们预先训练的功能进行下游任务的网络架构：（b）定位/跟踪，（c）音频空间化，以及（d）源分离。(note我们只应用空间卷积而不应用时间卷积）。我们使用以6 Hz采样并调整为256 x 256的帧对于音频，我们的基础模型使用具有SE [20]的堆叠残差块，将输出时间维度与视觉网络的时间我们使用以16 kHz采样的音频的我们的双流网络与以前的视听对应任务的架构相当[3，22]。然而，一个关键的区别是，我们的模型需要由视觉子网络检测到的声源的位置。虽然在融合之前对视觉子网络的特征进行空间池化适用于其他对应任务，但我们发现我们的任务有必要在与音频融合之前将视觉特征沿空间维度平坦化而不进行池化。用于音频空间化任务的模型也需要了解声源在视觉帧中的位置，以类似的方式处理视觉特征[14，25]。对于下游任务的应用，我们可以使用来自音频子网络、视觉子网络或融合表示的特征。训练我们在YouTube-ASMR数据集和FAIR-Play数据集上训练和评估我们的模型[14]。后一个数据集由大约2K 10秒的演奏乐器的人的视频剪辑组成。虽然这个数据集比YouTube-ASMR小，但我们使用它来展示我们方法的通用性对于这两个数据集，我们使用从完整剪辑中采样的3秒剪辑，引入概率为0.5的翻转音频示例。我们应用随机裁剪并移动帧的颜色/对比度以进行数据增强。为了解释音频和视觉信息中可能的左右偏差，我们应用视频和音频通道的随机左右翻转（注意：同时翻转两者维持视听空间对准或缺乏视听空间对准，且因此不改变预测目标）。为了优化，我们使用SGD（动量=0.9），对于YouTube-ASMR，学习率为0.01，最多700万个样本，对于FAIR-Play，使用1-4个GPU，学习率为80万个样本。基线和消融。我们的基础模型是使用ResNet-18作为可视化子网络架构从头开始训练的，如图3（a）所示。为了确定我们的模型是否可以在自我监督的情况下获得有效的视觉特征，我们使用ResNet-18对ImageNet分类进行了预训练，并对我们的任务进行了微调（“ImageNet上的为了评估运动特征的重要性，我们使用MCx作为视觉子网络从头开始训练模型[35]，该模型使用3D时空卷积并设计用于视频分类（为了确定语义音频特征是否提高了任务性能，我们强制模型在仅采用单声道音频输入的第三个单独流（ “+Monoaudio”）中学习语义音频特征。该第三流使用与立体声音频相同的音频子网络（具有一个输入声道而不是两个），并且类似地通过沿着时间维度的关联特征来融合。最后，为了确定所学习的音频特征是否额外地受益于具有传统计算的空间音频线索，我们通过在立体声音频输入中引入三个额外通道（“+GCC-Phat”）来将使用具有相位变换的广义交叉相关计算的特征[7]集成到音频流结果我们在表2中报告了在YouTube-ASMR和FAIR-Play上训练的视听空间对应模型的测试集分类精度。我们的模型表现良好，并符合监督基线;事实上，YouTube-ASMR数据集上的表现与人类在200个剪辑的子样本上的表现相当（约80%，N=2个受试者）。这一结果表明，我们的模型架构非常适合于匹配空间9936模型YouTube-ASMR公平竞赛在ImageNet80.492.6我们80.193.6运动80.471.3+单声道音频81.396.3公司简介80.194.1表2.在YouTube-ASMR和FAIR-Play数据集上训练的借口任务的测试集分类准确性我们从头开始训练的基础模型的性能优于或优于使用ImageNet分类的监督特征的模型。音频线索与视频帧中的声源位置，并且两个数据集中的空间音频线索对于学习声源的视觉特征而言足够丰富我们没有使用MCx网络获得收益，这表明3D时空卷积特征可能不是这些数据集上任务的组成部分。我们观察到使用双音频模型（“+单声道音频”）的增益当存在来自不同方向的多个声源时）。最后，GCC-Phat特征没有提高模型性能，这表明我们的音频子网络以完全自我监督的方式学习了传统上使用波束成形算法计算的空间定位线索。在下游任务分析中，我们使用我们的基础模型和从头开始训练的ResNet-18视觉子网络，专注于评估使用空间音频线索而不是语义线索学习的视听特征5. 下游任务5.1. 声音定位我们的空间对应任务是否学习了一种有效的表征，将空间音频线索映射到视觉流中声源的位置？为了回答这个问题，我们首先评估从保留数据中提取的音频嵌入是否包含空间信息。具体来说，我们计算学习的音频特征与声源的近似空间位置之间的相关性，我们基于两个音频通道之间的对数能量差来确定声源的近似空间位置。我们发现，音频特征与声源的位置（R=0。790，见补充）。在图4（a）中，我们示出了使用我们的音频嵌入随时间自动跟踪的声源我们通过对学习的音频嵌入的第一主成分的值进行分箱并将分箱分配到视频帧中的不同水平位置来例如，请注意第一行中的黄色条从左到右跟随移动主体这些结果表明表3. YouTube上的视听定位结果- ASMR测试数据（1991 -4，9-10）和过滤后的测试数据（1995 -8）。详情见正文。我们的模型优于基线，并且使用来自翻转任务的预训练权重-不执行预训练。音频子网络学习空间线索以便解决所提出的视听对应任务。接下来，我们评估我们的模型是否已经学会将音频嵌入中的空间线索与视觉流中声源的位置相具体来说，我们确定视觉子网络涉及哪些区域，如补充中所述我们定性地发现，视觉注意力是指向视觉框架中的声源的，并且视觉注意力的区域与基于两个音频通道之间的对数能量差（R=0. 286，补充）。在图中-图4（b），我们已经看到了这种对应的例子dence. 请注意，在顶行中，视觉子网络倾向于说话者总的来说，分析表明，我们的空间对齐模型学习了一种表示，将空间音频线索映射到视觉流中声源的位置使用立体声跟踪探测面部。为了利用我们预先训练的特征进行声音定位，我们在YouTube- ASMR数据集上设计了一个新的视听人脸跟踪任务目标是使用立体声音频和从同一视频的不同部分获取的视觉参考帧来生成用于发声面部的边界框（图3（b））。在实践中，这样的系统可以用于增强基于视觉的跟踪，空间声音可以允许系统通过声音对象视觉遮挡进行推理。虽然YouTube-ASMR中的声音是由各种物体产生的，但我们专注于跟踪人脸有三个原因：（1）几乎所有的视频都以面向前方的个体为特征，（2）许多声音是基于嘴的声音（例如，耳语，吃东西），包含有用的信号定位的脸，和（3）预先训练的视觉网络，如Reti，模型AP50IOUX错误y误差单声道音频10.230.611.910.4立体声音频15.134.810.010.7视觉上下文27.941.012.95.5我们43.447.19.15.5单声道音频13.923.817.310.0立体声音频26.039.09.79.6视觉上下文21.627.020.76.5我们44.145.010.85.9- 前言23.935.112.48.9+前言34.939.512.36.59937图4. (a)YouTube-ASMR上的声音定位结果仅使用音频。(b)使用音频子网络（左）和视觉子网络（右）的重要区域捕获的空间线索的定位结果比较。该模型的视觉注意力被定位到声源，并对应于音频子网络学习的空间线索（c）YouTube-360上仅使用音频的声音定位结果naFace [9]提供了一个廉价但可靠的伪地面真实标签来源。我们的任务是由甘等人的动机。[12]，其提出了在没有视觉输入的情况下从立体声和摄像机元数据跟踪车辆。模型我们的模型（如图3（b）所示）是围绕我们的预文本任务中预训练的音频和视觉子网络构建的。对于输入，该模型采用以包含定位目标的帧为中心的一秒音频剪辑，以及来自同一视频的不同部分的参考视觉帧。输入通过子网络并连接成一维向量。与Ganet al相似。[12]特征然后通过几个去卷积块以预测边界框相对于锚（先前）框的坐标。我们使用YOLOv2 [31]的对象检测损失进行训练。我们使用prefit任务中的预训练权重初始化音频和视觉子网络，并对整个网络进行微调。结果对于评估，我们考虑三个指标：（1）在交并（IOU）阈值设置为50的情况下的平均精度（“AP50”），（2）每帧最高置信度框的平均IOU（“IOU”），以及（3）每帧最高置信度框的x和y坐标中的平均误差，作为帧尺寸的百分比（“X误差”、“Y误差”）。表3的表1-4显示了我们的模型对几个基线的性能：仅使用单声道或立体声音频的模型（“单声道音频”和“立体声音频”），以及仅使用视觉上下文的模型（“视觉上下文”）。我们发现我们的模型优于所有的基线。然而，令人惊讶的是，使用立体声音频的性能提升并没有更大。我们假设，许多视频可能具有固定的面部（使视觉上下文模型做得很好），或包含不来自面部的声音。因此，我们还在测试视频的子集上评估了我们的模型，这些测试视频可能包含移动的面部和嘴部声音，即，我们过滤了面部水平位置有较大左右偏移的视频两个音频通道之间的能量差。表3的表5-8显示了在该测试夹子集上评估的模型。我们现在观察到使用立体声音频时的显著改进。最后，为了确定我们从prefect任务中预训练的特征对该任务的帮助程度，我们使用固定的子网络权重（没有微调）在完整数据上训练我们的模型使用预训练的权重（5.2. 音频空间化（上混）上混的目标是将单声道音频转换为多声道空间音频，为听众提供声音在空间中定位的感觉。最近的工作已经使用并发视觉流来提供空间信息[14，24，25]。具体地，该模型的任务是通过将声音与其源在视频帧中的感知位置相匹配来上混音频流。由于我们的空间对齐模型将空间音频线索与视觉声源相匹配，因此我们假设预训练的特征可能对上混任务有用。模型我们采用高等人的单声道到双耳的框架。[14]第10段。该模型将单声道音频和视觉帧作为输入，并通过为两个通道之间的差异产生复杂的掩码来产生双耳（双通道）空间音频作为输出，如图3（c）所示。我们使用U-Net来上混音频输入，并将我们预先训练的视觉特征连接到该网络的最内层。我们的模型实现与Gao等人的模型实现几乎相同。[14]除了我们使用Tanh激活来产生复合掩模而不是Sigmoid激活，因为我们注意到用于产生差异掩模的Sigmoid层的不对称性使上混在一个方向上偏置。这些效果之所以明显，是因为我们的数据集中有很强的双耳线索。切换到Tanh活化层解决了偏差并定量改善了结果，因此我们保持了这一变化。9938表4. YouTube-ASMR和FAIR-Play数据集上的上混测试集错误。我们的预训练特征优于其他特征，包括在ImageNet分类上训练的ResNet-18。基线和评价标准。我们将预训练的视觉子网络特征（“翻转任务”）与几个基线进行比较：㈠无视觉特征;（ii）未经任何培训的 ResNet-18（“无预培训”）;（iii）ResNet-18在检测不匹配语义信息的视听对应任务（“不匹配任务”）方面接受培训[3]或（iv）移位时间对齐（(v)ResNet-18在ImageNet（“监督”）上训练[14]第10段。对于训练和评估标准，我们使用输出和目标复杂频谱图之间的L1距离，该距离在时间频率区间上平均。结果测试集误差如表4所示。我们来自空间对齐检测任务的预训练特征改善了YouTube- ASMR和FAIR-Play数据集上的音频空间化，优于所有基线。基于YouTube-ASMR上的Wilcoxon符号秩检验，我们的模型与其他模型之间的差异是显著的（p<0. 05）。1为轮班任务，p为<0。05休息）2.这一结果表明，我们的借口任务，它使用空间音频线索，以指导视频子网络，成功地教视觉子网络提取特征对应于声源。重要的是，我们的特征优于其他视听自我监督对应任务的预训练特征这些结果表明，在YouTube-ASMR和FAIR-Play数据集中，音频中的空间信息可能是比语义信息更丰富的信号源总的来说，我们表明，空间音频线索是一个强大的替代语义音频线索学习视觉功能的自我监督的方式。5.3. 视听源分离接下来，我们在声源分离上评估我们预先训练的视听特征由于我们使用的是具有空间音频的视频数据集，因此双耳提示也可能很有价值2空间化实例见项目网站表5.在YouTube- ASMR和FAIR-Play数据集上进行的源分离的测试集错误我们的预训练特征优于其他自监督特征，并提高了监督ResNet-18特征的性能。帮助分离;人类听众不仅可以基于音色的差异，而且还可以根据声源的空间位置来区分声源。因此，我们假设，联合视听表征，捕捉空间信息可以提高这项任务的性能。模型为了验证这一假设，我们使用了适用于立体声音频的混合和分离框架[37][14]。我们的模型将混合立体声音轨和视觉帧作为输入，并产生对应于给定视觉流的分离音频（图3（d）），而Gao等人。[14]使用两个视觉流进行分离。我们使用U-Net为混合音频输入生成掩码，并产生分离的输出。预训练的视听特征连接到网络的最内层。基线和评价标准。我们将我们的预训练的视听网络与源分离任务的几个基线进行比较：（i）没有视听特征;（ii）我们的网络没有任何预训练（“没有预训练”）;网络在检测（iii）不匹配的语义信息（“失配任务”）[3]或（iv）移位的时间对齐（“移位任务”）[22，27]的对应任务上训练，其使用非空间音频线索来学习视觉特征;(v)ResNet-18在ImageNet分类（“supervised”）上训练。对于训练和评估标准，我们使用输出和目标幅度谱图之间的L1距离，该距离在时间-频率箱上平均。结果测试集的评价结果示于表5中。来自视听空间对应任务的预训练特征对于YouTube-ASMR和FAIR-Play数据集上的源分离都很有用，除了在ImageNet上训练的强监督ResNet-18模型之外，其性能优于所有基线这一观察结果与源分离任务取决于在视觉上区分不同声源的事实相一致，ImageNet分类非常适合这一点。另一方面，我们的特征从音频和视觉帧中捕获声源的空间位置，这可能以互补的方式有助于源分离任务，例如，如果混合的声音视觉子网络YouTube-ASMR公平竞赛监督0.08580.403无视觉特征0.09240.418无预培训0.08910.413不匹配任务[3]0.08770.412转换任务[22，27]0.08610.409翻转任务（我们的）0.08530.401视觉子网络YouTube-ASMR公平竞赛无视觉特征0.09460.423无预培训0.09530.422不匹配任务[3]0.09230.423转换任务[22，27]0.09180.422翻转任务（我们的）0.08980.410监督0.08850.362我们的+监督0.08630.3509939来自两个不同的地方为了确定是否是这种情况，我们通过将我们的视听特征与预训练的ImageNet特征（添加我们的功能比只使用强监督的ResNet-18功能有了显着的提升。基于YouTube-ASMR上的Wilcoxon符号秩检验，该模型与其他模型之间的差异显著（p<0.05）。05所有任务）。这些结果表明，捕捉视听空间对应是有用的声源分离。6. 360度视频我们用于学习视觉和声音之间的空间对应的借口任务可以扩展到具有全球一阶立体混响（FOA）音频的360度将任务推广到该领域的关键动机是学习可以应用于到达方向（DOA）估计的环绕声的空间表示[2]。然而，具有DOA注释的记录极难获得，并且目前训练模型依赖于强监督标签的合成数据集[1，2，19，23]。为了解决这一约束，我们引入了我们的视听对应任务的泛化，该任务以自我监督的方式从具有真实空间音频的360度视频中学习强空间音频线索问题表述。一阶立体混响（FOA）将立体声音频扩展到3D设置，具有额外的通道以在时间t捕获声音深度和高度：a（t）=（a w（t），a y（t），a z（t），a x（t）），其中a w（t）表示全方向声压，并且（a y（t），a z（t），a x（t））分别是前-后、上-下和左-右声压梯度。FOA通常提供有360度视频，以给观众全球面环绕图像和声音体验。类似于立体声音频的情况，我们可以训练一个模型来检测360度视频中的视觉和音频流是否在空间上对齐为了生成未对齐的示例，我们提出了一种变换，aω（t）=（aw（t），ax（t）sinθ+ay（t）cosθ，az（t），ax（t）cosθ−a y（t）sin θ），它将音频绕z轴旋转θ。实施细节、培训和结果。我们使用与视场视频和立体声音频相同的模型架构（如图3所示）。主要区别在于音频子网络的输入具有四个FOA通道，而不是两个立体声通道。为了训练我们的模型，我们使用YouTube-360数据集，其中包含超过1000个带有FOA音频的360度视频[25]。我们的模型在YouTube-360测试集上达到了约60%的分类准确率;详见补充说明。声音定位。在视听空间对应任务上训练的音频子网络是否学习了360度环绕声的强表示？我们首先调查是否音频嵌入提取方法平均误差从零开始20.5预训练权重17.5基于随机嵌入的78.6我们嵌入29.5表6. Tau Spatial Sound数据集上的DOA估计性能。显示的误差是以度为单位的平均预测误差（越低越好，最大值为180，随机值为90）。基于4重交叉验证，顶级模型的标准差为1.17和0.62。包含360度空间音频提示的数据。我们观察到，音频特征与基于使用主成分分析的无监督投影的声音的方向能量强相关。与第5.1节类似，我们基于前两个主成分对嵌入进行分箱，并将分箱投影到视频的水平范围内，以使用我们的自监督音频特征跟踪视频我们在图4（c）中显示了定性结果：请注意，从左到右跟踪移动为了确定学习的空间音频线索是否对空间音频定位任务提供定量提升该数据集由400分钟长的多个声音事件的记录组成，这些声音事件沿X-Y平面（每10度）合成上混到36个不同方向我们的目标是预测的到达方向（DOA）的声音事件给定FOA音频输入。我们首先将从头开始训练的基线模型与使用预训练音频子网络的权重初始化的模型进行了比较。我们发现，我们的预训练权重在基线上提供了显着的提升，使用方位角的误差作为评估标准（表6）。接下来，我们使用预训练的音频子网络提取Tau Spatial Sound音频片段的嵌入，并使用线性SVM执行分类，仅提供来自每个方位角的事件的一个示例（一次性学习）。即使在这种情况下，我们也能够预测到达方向，平均误差只有大约30度。这些结果表明，使用我们的自我监督任务提取的空间信息是有用的声学定位。7. 结论我们已经展示了一种简单而有效的方法，用于从具有空间音频的视频中进行自我监督表示学习，并将其应用于三个下游视听任务。我们的方法的关键是能够在具有空间音频的大型视频语料库上进行训练。我们的工作开辟了探索网络架构和跨模态自监督训练损失的可能性[34]，这些网络架构和跨模态自监督训练损失以有效的方式联合利用视觉和空间音频通道中存在的空间和语义线索9940引用[1] Sharath Adavanne、Archontis Politis、Joonas Nikunen和Tuomas Virtanen。使用卷积递归神经网络对重叠源的声音事件定位和检测。IEEE Journal of Selected Topics inSignal Processing，13（1）：34[2] SharathAdavanne ， ArchontisPolitis 和 TuomasVirtanen。用于声音事件定位和检测的多房间混响数据集。arXiv预印本arXiv：1905.08546，2019。[3] Relja Arandjelovi和Andrew Zisserman。看，听，学。IEEEInternationalConferenceonComputerVision（ICCV），2017年[4] Relja Arandjelovic和Andrew Zisserman。会发出声音的物体。在欧洲计算机视觉会议（ECCV）的会议记录中，第435-451页[5] Zohar Barzelay和Yoav Y Schechner。和谐的运动2007年IEEE计算机视觉和模式识别会议，第1-8页。IEEE，2007年。[6] 塔拉斯但是科，弗兰·冈萨雷斯·普拉，卡洛斯·塞古拉，克莱门特·纳多和哈维尔·埃尔南多。双源声事件检测和定位：在智能房间中的在线实现。2011年第19届欧洲信号处理会议，第1317-1321页IEEE，2011年。[7] Yin Cao ， Turab Iqbal ， Qiuqiang Kong ， MiguelGalindo，Wenwu Wang，and Mark Plumbley.使用强度向量和广义互相关的两阶段声音事件定位和检测技术报告，DCASE 2019 Chal- lenge，2019年6月。[8] 弗吉尼亚河使用未标记数据学习分类神经信息处理系统的进展，第112-119页，1994年[9] Jiankang Deng，Jia Guo，Yuxiang Zhou ，Jinke Yu，Irene Kotsia，and Stefanos Zafeiriou. Retinaface：在野外的单阶段密集面部定位。 arXiv 预印本 arXiv ：1905.00641，2019。[10] Ariel Ephrat、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、William T Freeman和Michael Rubinstein。在鸡尾酒会上聆听：一种用于语音分离的与说话人无关的视听模型。 ACM Trans.Graph，37：11，2018.[11] 约翰·W·费舍尔三世，特雷弗·达雷尔，威廉·T·弗里曼和保罗·A·维奥拉。学习视听融合和分离的联合统计模型。神经信息处理系统的进展，第772-778页，2001年[12] 甘闯，赵航，陈培豪，考克斯，托拉尔巴.具有立体声的自监督移动车辆跟踪IEEE International Conference onComputer Vision（ICCV），2019。[13] Ruohan Gao，Rogerio Feris，and Kristen Grauman.通过观看未标记的视频学习分离物体声音。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。[14] Ruohan Gao 和 Kristen Grauman 。 2.5D 视觉音效。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年。[15] Ruohan Gao和Kristen Grauman。共同分离视觉对象的声音。 IEEE International Conference on Computer Vision（ICCV），2019。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[17] John R Hershey和Javier R Movellan。视听：使用视听同步来定位声音。神经信息处理系统的进展，第813-819页，2000年[18] Shawn Hershey，Sourish Chaudhuri，Daniel PW Ellis，Jort F Gemmeke ， Aren Jansen ， R Channing Moore ，Manoj Plakal ， Devin Platt ， Rif A Saurous ， BryanSeybold，et al.用于大规模音频分类的Cnn在2017年IEEE国际声学、语音和信号处理会议（icassp），第131-135页。IEEE，2017年。[19] 托妮·赫沃宁使用卷积神经网络对空间音频位置和内容进行分类在音频工程学会大会138。音频工程学会，2015年。[20] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页[21] Einat Kidron，Yoav Y Schechner，and Michael Elad.像素的声音。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2005年。[22] Bruno Korbar，Du Tran，and Lorenzo Torresani.从自监督同步中协作学习音频和视频模型神经信息处理系统进展，2018。[23] Kuba Lopatka，Jozef Kotus和Andrzej Czyzewski。在存在背景噪声的情况下，对声学事件进行检测、分类和定位，以便对危险情况进行声学监测。Multimedia Toolsand Applications，75（17）：10407[24

下载后可阅读完整内容，剩余1页未读，立即下载