自监督学习：融合视频与音频的多感官表示方法

78 浏览量更新于2024-06-20 收藏 5.36MB PDF 举报

"多感官融合的自监督学习表示视频和音频的联合特征" 这篇论文探讨的是如何利用自监督学习方法来构建视频和音频的多感官融合表示。作者安德鲁·欧文斯和Efros来自加州大学伯克利分校，他们提出了一种创新的策略，旨在模仿人类通过多种感官理解世界的模式。他们强调，当视觉和听觉事件同时发生时，如球的撞击声和说话时嘴唇的移动，这些事件之间存在内在关联，可以作为学习的信号。在传统计算机视觉研究中，通常只关注单一模态的数据，而这篇论文则倡导利用跨模态的时间共现作为学习的线索。论文的核心是设计一个自监督的训练模型，该模型无需依赖任何人工标注的数据，而是通过预测视频帧和音频是否在时间上对齐来学习联合的多感官表示。这个“借口”任务让网络在对齐和错位的视听流中进行区分，从而强制网络学习到将视觉运动与音频信息相结合的表示。论文展示了这种自监督学习的多感官表示在多个应用中的实用性。首先，它可以用于声源定位，即在视频中可视化声音的来源；其次，它有助于视听动作识别，结合视觉和听觉信息来识别特定的动作；最后，它能够实现屏幕上/屏幕外音频源的分离，例如，可以从背景声音中分离出讲话人的声音，消除翻译的干扰。实验结果表明，这种方法能有效地提升视听任务的性能，证明了通过自监督学习融合视觉和音频信息的潜力。作者提供的代码、模型和视频结果可供进一步研究和应用，以促进多感官融合在计算机视觉领域的进步。这篇论文贡献了一种新的、无监督的多感官学习框架，这将有助于计算机视觉系统更好地理解和解释视听数据，模拟人类对多模态输入的处理能力，并可能在多媒体分析、交互式系统和增强现实等领域产生深远影响。

欧文斯和埃弗

罗斯

基于稀疏性的因子分解方法;[39]使用了聚类方法。其他方法使用面部检测和多

麦克风波束形成[40]。这些方法对声音和运动之间的关系做出了强烈的假设，

并且大多数被应用于实验室录制的视频。研究人员已经提出了基于学习的方法

来解决这些限制，例如。[41]使用混合模型来预测分离掩模。最近，[42]提出了

一种卷积网络，可以隔离屏幕上的语音，尽管这种模型相对较小（在来自一个

扬声器的视频上进行测试）。我们通过将我们的表示与

-net [43]回归模型相结

合，对更具挑战性的互联网和广播视频进行屏幕上/屏幕外源分离。

与我们同时独立的工作，一些小组已经提出了源分离和声音定位的密切相关的

方法Gabbay等人[44，45]使用视觉到声音的方法来分离语音，并提出了卷积分离

模型。与我们的工作不同，他们假设说话者的身份是已知的。Ephrat等人[46]和

Afouras et al.[47]使用面部检测和跟踪系统将不同的说话者分组，从包含多个说

话者的视频中分离用户选择的说话者的语音。Zhao等人的工作[48]和Gao et

al.[49]对于多个可见对象（例如，乐器）。这个任务涉及到将物体与它们通常

根据其外观发出的声音相关联，而我们的任务涉及到分离多个扬声器的“细粒

度”运动分析任务。最近也有关于使用网络的注意力地图来定位声源的工作这些

方法与我们的方法类似，但它们主要定位静态图像中的对象和环境声音，而我

们的方法则响应视频中的动作。

学习自我监督的多感官表征

我们建议使用自我监督来学习表示，通过训练模型来预测视频的音频和视频流

是否

瞄准声音在训练过程中，我们向神经网络提供视频剪辑。其中一半的视频

和音频流是同步的;在另一组中，我们将音频移动了几秒钟。我们训练一个网络

来区分这些例子。更具体地，我们学习模型

（

y| I

，

），其预测图像流是否

I和音频流A通过最大化对数似然来同步：

L（

）

[log（

（

| I

，

））

log（

（

））]

、

（

）

，

θ t

其中As是偏移s秒的音轨，t是随机时间偏移，θ是模型参数，y是流同步的事

件。这个学习问题类似于噪声对比估计[54]，它训练模型来区分真实示例和噪

声;这里，噪声示例是未对齐的视频。

融合的视听网络设计解决这一任务需要跨模态的低层次信息例如，为了检测人

类语音视频中的未对准，该模型必须将嘴唇的细微运动与声音中的话语我们假

设，早期融合的音频和视频流是很重要的建模行动，产生的信号，在这两种方

式。因此，我们建议使用具有早期融合设计的3D多感觉卷积网络（CNN）来解

决我们的任务（图2）。

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

自监督学习：融合视频与音频的多感官表示方法

基于多层次特征优化的自监督视频表示学习_Enhancing Self-supervised Video Representati

导航系统感官融合

感官学习

一种跨感官的人工智能模型，通过识别图像、视频、音频、文本、深度、热和惯性测量单元等关系，实现了不同形式信息的"连接"

感官

调动多种感官学习语文

论文研究-计算机辅助感官评估实验的自学习控制.pdf

感官智力游戏学习教案.pptx

一年级科学感官总动员PPT学习教案.pptx

多模态学习：图像识别的全感官之旅

最新资源