无监督学习神经网络：关联视觉对象与口语

154 浏览量更新于2024-06-20 收藏 1.49MB PDF 举报

本文主要探讨了一种神经网络学习方法，该方法旨在关联视觉对象和口语，特别是在无监督的情况下。研究者提出了一种模型，能够从原始的图像像素和语音波形数据中学习到视听相关的局部化信息，同时执行图像-音频检索任务。此模型不依赖传统的监督方式，如标签、分割或模态之间的对齐。通过在Places205和ADE20k数据集上的实验，模型显示出能隐式学习到语义相关的对象和单词检测器。关键词涵盖的领域包括视觉和语言的研究、声音处理、语音识别、卷积网络、多模态学习以及无监督学习。作者指出，尽管人类婴儿能以极弱的监督方式学习语言和识别物体，但他们想探究机器是否也能在类似条件下联合学习这两个领域。为此，他们开发了一个模型，能够从未经对齐和未注释的原始语音音频和图像中发现单词和对象，并建立它们之间的联系。近年来，将视觉和自然语言处理（NLP）相结合的研究受到广泛关注，这得益于深度神经网络在处理多模态数据中的强大能力。然而，当前的大多数工作仍然依赖于预处理过的书面文本，其中单词已经被分割和标准化。相比之下，本文提出的模型直接处理原始的语音音频和图像，克服了这种限制，增强了模型在实际场景中的泛化能力。通过这种联合学习的方法，模型能够捕捉到跨模态的复杂关系，为图像-音频检索提供支持。这为多模态理解和交互打开了新的可能，例如在图像识别、语音识别和自然语言理解等方面的应用。此外，这种方法还可能对语音识别技术的进步产生积极影响，尤其是在处理各种口音、说话速度和背景噪音等挑战时。这项工作为构建更智能、更自主的多模态系统提供了新的研究方向和工具。

D. Harwath等人

数据集。我们通过收集额外的200，000个字幕来增强这个数据集，总共产生了

402，385个用于训练的图像/字幕对和1，000个用于验证的额外对为了对我们的

模型定位对象和单词的能力进行细粒度分析，我们从ADE20k数据集[59]中收集

了9，895张图像的额外标题集，其基础场景类别在Places 205标签集中找到。

ADE20k数据包含像素级对象标签，当与声学帧级ASR假设相结合时，我们能够

确定哪些基础单词与哪些基础对象相匹配。在所有情况下，我们都遵循原始的

Places音频字幕数据集，并为每张图像收集1个字幕。数据的汇总统计如图2所

示。虽然我们没有针对口头字幕的确切地面实况转录，但我们使用Google ASR

引擎来导出我们用于实验分析的假设（但不是训练，除了基于文本的模型的情

况在所有40万个字幕中识别出44，342个独特单词的词汇表，这些字幕由2，683

个独特的说话者说出。单词和说话者的分布都遵循长尾幂律（图2）。我们还注

意到，口头字幕的自由形式的性质通常会导致比文本字幕数据集中存在的更

长，更具描述性的字幕虽然MSCOCO [32]每个字幕平均包含10多个单词，但地

点音频字幕平均为20个扩展的Places 205音频字幕语料库、ADE20k字幕数据和

模型训练代码的 PyTorch 实现可在 www.example.com 上获得

http://groups.csail.mit.edu/sls/downloads/placesaudio/。

模型

我们的模型类似于

Harwath

等人

[19]

的模型，其中一对卷积神经网络

（

CNN

）

[29]

用于将视觉图像和语音音频字幕独立编码到共享的嵌入空间

中。我们的模型与先前工作的区别在于，我们不是将整个图像和口语映射到

嵌入空间中的固定点，而是学习在

空间和时间上分布的表示，使我们的模型

能够直接在两个模态

内共同定位。我们的模型经过训练以优化基于排名的标

准

，

19]

，使得属于一起的图像和字幕在嵌入空间中比不匹配的图像

字幕对更相似具体地，在一批

个

图像

字幕对（

，

）（其中

表示第

个

图像的网络的图像分支

的输出

，并且

表示第

个字幕的音频分支

的输出

）

上，我们计算损失：

max

（

，

（

，

imp

）−

（

，

）

+η

）

+ max

（

，

（

imp

，

）-

（

，

）

+η

）

，

（

一

）

其中

（

，

）表示图像

和音频字幕之间的相似性分数

imp

表示第

个随机选择的冒名顶替者图像，

imp

表示

第

个冒名顶替者

J J

caption，并且

是margin超参数。我们对冒名顶替者的图片和说明进行

对于来自相同小批量的每对，并且在我们的实验中将η固定为1的选择

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

无监督学习神经网络：关联视觉对象与口语

神经网络方法

基于概率神经网络的烤烟烟叶质量的相关性分析 (2010年)

测量加权有符号异构信息网络中不同类型对象的相关性

网络游戏-基于相关性分析和ELM神经网络的软测量方法.zip

网络游戏-一种基于相关性剪枝神经网络的Xen虚拟机恶意进程识别系统及方法.zip

相关性：相关性分析方法

抑郁症患者的视觉注意反应与大脑神经网络传输特征相关性研究.pdf

利用空间相关性提升视觉对象检索效果

神经网络剪枝方法：权衰减与相关性分析

导航地图视觉相关性分级系统与方法研究

最新资源