大规模视频学习：无标签分离物体声音与视觉上下文

119 浏览量更新于2024-06-20 收藏 2.23MB PDF 举报

视觉和声音的多模态感知在理解现实世界中起着至关重要的作用，尤其是在场景理解和事件解析中。本文研究的核心是"从未标记的视频学习分离物体声音"，这是基于深度多实例多标签学习框架的一项创新工作。研究者们，来自德克萨斯大学奥斯汀分校、IBM Research和Facebook AI Research的Ruohan Gao、Rogerio Feris和Kristen Grauman，提出了一个解决音频源分离问题的新方法。在传统的计算机视觉中，虽然对象识别取得了显著进步，但视频中的对象声音识别一直是个挑战，因为实际场景中的声音通常是混杂在一起的，而非作为独立的音频源存在。为了解决这个问题，该团队提出了一种通过观看未标记视频来学习音频与视觉对象之间的关系的方法。他们的模型能够识别并区分出特定对象的声音，如吉他的弹奏声和萨克斯风的吹奏声，即便这些声音并未在训练过程中孤立出现。他们的研究采用了深度学习技术，尤其是多实例多标签学习，使得模型能够在不需预先标识对象或声音的情况下，识别出音频信号中与视觉对象相关的频率特征。这种方法的目的是通过视觉上下文提供线索，帮助解码音频频率基础，进而实现音频源的准确分离。这项工作的成果体现在视频辅助的音频源分离和音频去噪领域，达到了前所未有的先进水平。通过实验，他们展示了这种分离方法不仅提高了音频源的分离质量，而且还能达到对象级别的声音识别，这对于增强虚拟现实、增强现实和交互式媒体体验具有重要意义。本文的研究填补了多模态感知中的一个空白，促进了视听融合领域的研究，有望推动未来的人机交互和智能感知系统的发展。它强调了跨模态学习在提升复杂场景理解和处理能力方面的潜力，对于音频与视觉的深度结合具有深远的影响。

Ruohan Gao，Rogerio Feris，Kristen

Grauman

跨模态，例如，音频、文本和视觉[6]。与这些方法相关，我们共享从

具有同步音频和视觉通道的未标记视频中学习的目标然而，尽管它们

的目的是改善音频或图像分类，但我们的方法发现了关联，以便隔离

每个对象的声音，最终任务是视听源分离。

音频源分离

源分离（从纯音频输入）在信号处理文献中已经研究了几

十年。一些方法假设访问多个麦克风，这有助于分离[20，56，82]。

其他加速器是一种操作

输入

[

39、69、72、76、

77]

，以实现

“

盲

”

分离

流行的方法包括独立分量分析（ICA）[40]，稀疏分解[86]，计

算听觉场景分析（CASA）[22]，非负矩阵分解（NMF）[25，26，

51，76]，概率潜在变量[25，26，51，76]，概率潜在变量[25，26，

51，76]

able models [38，68]和deep learning [36，39，66]。NMF是一种传统方法，

仍然广泛用于无监督源分离[31，41，44，72，75]。然而，现有的方法通

常需要监督才能获得良好的结果。以单独声源的隔离录音形式进行强有

力的监督[69，77]是有效的，但难以确保野外任意声源的安全。可替代

地，“未成形”音频源是专门使用辅助工具来引导该过程的，诸如乐谱

[ 35]、文本[ 50]或手动用户引导[ 11、19、77]。我们的方法采用现有的

NMF优化[26]，针对其效率进行选择，但与上述任何方法不同，我们解

决了由自动检测到的视觉对象通知的音频分离。

视听源分离

使用

视觉

信息指导音频源分离的思想可以追溯到[15，

27]，其中相互信息用于学习视觉和听觉信号的联合分布，然后应用

于分离人类说话者。后续工作探索了视听子空间分析[62，67]，由视

觉运动通知的NMF [61，65]，统计卷积混合模型[64]以及相关的时间

起始事件[8，52]。最近的工作[62]同时尝试定位和分离;然而，它假设

存在移动对象，并且仅旨在将视频分解为背景（假设低秩）和前景声

音/像素。现有方法几乎总是处理人们说话或演奏乐器的视频[8，12，

15，27，52，61，62，64]-其中显著运动信号伴随音频事件的域（例

如，嘴或小提琴弓开始移动，吉他弦突然加速）。一些研究进一步假

设来自书面乐谱的侧面线索[52]，要求每个声源都有一个单独活动的

周期[12]，或者使用MoCap捕获的地面实况运动[61]。

而以前的工作相关的低层次的视觉模式，特别是运动和发病事件

的音频通道，我们建议从视频中学习不同

的对象

看起来和声音，是否

有一个对象移动与明显的相关性的声音。我们的方法假设访问视觉检

测器，但假设没有关于新的测试视频的边信息。此外，虽然现有的方

法分析一个单一的输入视频隔离，并在很大程度上被约束到人类的扬

声器和仪器，我们的方法学习了一个有价值的先验音频分离从一个大

的图书馆的

未标记

的视频。

剩余18页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

大规模视频学习：无标签分离物体声音与视觉上下文

多模态Transformer：革新视觉语言导航的性能记录

微软发布'宇宙一代'多模态ChatGPT：跨模态学习新突破

层次化多模态LSTM：视觉语义嵌入的创新解决方案

多模态AI：产业链突破与未来发展

多模态增强：提升介导触摸交互体验

多模态综述：从VQA到Transformer的演进

多模态优化：协同进化策略与山谷探索法

深度学习驱动的多模态交叉模态散列：噪声与缺失值的解决方案

GPT-4多模态突破：看图说话与代码生成

多模态GPT：下半年AI技术的超级场景应用

最新资源