没有合适的资源?快使用搜索试试~ 我知道了~
从原始感觉输入中联合发现视觉对象和口语David Harwath、Adria`Recasens、D'ıSur 'ıs、Galen Chuang、Antonio Torralba和James Glass麻省理工[dharwath,recasens,didac,torralba]@csail.mit.edu,glass@mit.edu抽象。在本文中,我们探索神经网络模型,学习关联段的口头音频字幕与语义相关的部分,他们所指的自然图像。我们证明,这些视听相关的本地化出现从网络内部表示学习作为一个副产品的培训,以执行图像-音频检索任务。我们的模型直接在图像像素和语音波形上操作,并且不依赖于任何传统的监督,其形式为标签、分割或训练期间模态之间的对齐我们使用Places205和ADE20k数据集进行分析,证明我们的模型隐式地学习语义耦合的对象和单词检测器。关键词:视觉和语言,声音,语音,卷积网络,多模态学习,无监督学习1介绍婴儿面临着一个令人印象深刻的学习挑战:他们必须学会用视觉感知周围的世界,并学会用语言进行交流。他们必须发现世界上的事物和与之相关的词语当两个输入都是原始形式时,他们必须解决这个问题:未分割,未对齐,并且在视觉域中具有巨大的以及在声学域中(由于每个人的独特语音、说话速率、情绪状态、背景噪声、口音、发音等)。婴儿以极弱的监督方式学习理解语音和识别物体,辅助不是地面实况注释,而是观察,重复,多模态上下文和环境交互[12,47]。在这篇论文中,我们并不试图对人类的认知发展进行建模,而是询问一个机器在面临类似的约束时,是否可以联合学习口语和视觉感知;也就是说,具有未对齐、未注释的原始语音音频和图像形式的输入(图1)。为此,我们提出了能够联合发现原始语音音频中的单词,原始图像中的对象,并将它们彼此关联的模型。最近,人们对连接视觉和自然语言处理(NLP)社区的兴趣激增,这在很大程度上要归功于深度神经网络在多模态数据中有效建模复杂关系的能力。目前的工作结合视觉和语言[2,13,14,23,28,33,34,40,41,49,50,52]2D. Harwath等人依赖于书面文本。在这种情况下,语言信息以预处理的形式呈现,其中单词已经被分割和聚类。文本词car在句子之间没有变化性(除了同义词、大写等),并且它已经与其它单词分开这与儿童学习语言的方式截然不同语音信号是连续的、有噪声的、未分段的,并且表现出大量的非词汇变化。将原始语音信号分割和聚类成离散单词的问题类似于图像中的视觉对象发现的问题-本文的目标是共同解决这两个问题。最近的工作集中在视觉和声音之间的跨模态学习[3,4,36,37]。这项工作的重点是使用环境声音和视频来发现世界上产生声音的物体。在我们的工作中,我们还将使用视觉和音频模态,除了音频对应于语音。在这种情况下,问题更具有挑战性,因为语音信号的部分涉及对象的类别更短,产生更具挑战性的时间分割问题,并且类别的数量要大得多。[19]第一次研究使用视觉和语言,但它只是图1:我们模型的输入:与语音音频波形配对的图像。用于使用全局嵌入来关联全语音信号和图像。因此,结果集中在图像和语音检索。在这里,我们介绍了一个模型,能够分割的话在语音和图像中的对象,而无需监督。本文的研究前提如下:给定图像和描述该图像的原始语音音频记录,我们提出了一种神经模型,该神经模型可以突出图像的相关区域,因为它们在语音中被描述。我们的方法的独特之处事实上,语音和图像在训练期间都是完全未分割、未对齐和未注释的,除了我们知道哪些图像和口语字幕属于一起的假设之外,如图1所示我们训练我们的模型在整个图像和整个字幕级别执行语义检索,并证明视觉对象和口语单词的检测和定位作为这种训练的副产品出现。2先前工作视觉对象识别和发现。现有技术的系统使用用于训练数据的边界框注释来训练[16,39],然而其他工作研究弱监督或无监督对象定位[5,7,9,56]。大量的研究也集中在无监督的视觉对象发现上,在这种情况下,没有可用的标记训练数据集这一领域最早的作品之一从原始感觉输入中联合发现视觉对象和口语单词3是[51],其利用迭代聚类和分类算法来发现对象类别。进一步的工作借鉴了文本主题模型的思想[45],因为某些对象集通常会出现在同一图像场景中。最近,CNN已经适应了这项任务[10,17],例如通过学习将通常彼此相邻的图像块相关联。无监督语音处理。由于深度神经网络的复兴,自动语音识别(ASR)系统最近取得了长足的进步训练一个最先进的ASR系统需要数千小时的转录语音音频,以及专家精心制作的发音词典和文本语料库,覆盖数百万甚至数十亿个单词,用于语言模型训练。对昂贵的、高度监督的训练范式的依赖限制了ASR在世界主要语言中的应用,占全世界使用的7,000多种人类语言的一小部分[31]。在语音社区内,存在持续的努力来开发较少依赖于转录和其他形式的监督的算法通常,这些采用分段和聚类算法的形式,其目标是在音素或单词的边界处划分口语话语的集合,然后将捕获相同底层单元的片段分组在一起流行的方法基于动态时间规整[21,22,38]或语音信号的贝叶斯生成模型[25,30,35]。迄今为止,神经网络在该领域中主要用于学习帧级声学特征[24,42,48,54]。视觉与语言的融合。图像和自然语言文本的联合建模已经迅速普及,包括诸如图像字幕[13,28,23,49,52],视觉问答(VQA)[2,14,33,34,41],多模态对话[2,28,23,49,52]等任务日志[50]和文本到图像生成[40]。虽然大多数工作都集中在用文本表示自然语言,但有越来越多的论文试图直接从语音信号中学习。这方面的一个主要早期努力是Roy [44,43]的工作,他学习了对象图像与监督音素识别器输出之间的最近,Harwath等人证明了这一点[19]语义对应关系可以在信号水平上在图像和语音波形之间学习,随后的工作提供了证据,证明近似音素和单词的语言单位被这些模型隐含地学习[1,8,11,18,26]。本文遵循同样的研究路线,引入了“匹配图”网络的思想视觉与声音的融合。许多最近的模型已经集中于整合其他声学信号以执行对象和环境声音的无监督发现[3,4,36,37]。我们的工作集中在语音和单词发现。但是,将这两种类型的信号(语音和环境声音)结合起来,为未来的研究提供了许多机会,超出了本文的范围。3语音字幕数据集为了训练我们的模型,我们使用Places Audio Caption数据集[19,18]。该数据集包含通过Amazon Mechanical Turk收集的大约200,000个录音,这些录音是人们口头描述Places 205 [58]图像中的图像内容4D. Harwath等人JJ数据集。我们通过收集额外的200,000个字幕来增强这个数据集,总共产生了402,385个用于训练的图像/字幕对和1,000个用于验证的额外对为了对我们的模型定位对象和单词的能力进行细粒度分析,我们从ADE20k数据集[59]中收集了9,895张图像的额外标题集,其基础场景类别在Places 205标签集中找到。ADE20k数据包含像素级对象标签,当与声学帧级ASR假设相结合时,我们能够确定哪些基础单词与哪些基础对象相匹配。在所有情况下,我们都遵循原始的Places音频字幕数据集,并为每张图像收集1个字幕。数据的汇总统计如图2所示。虽然我们没有针对口头字幕的确切地面实况转录,但我们使用Google ASR引擎来导出我们用于实验分析的假设(但不是训练,除了基于文本的模型的情况在所有40万个字幕中识别出44,342个独特单词的词汇表,这些字幕由2,683个独特的说话者说出。单词和说话者的分布都遵循长尾幂律(图2)。我们还注意到,口头字幕的自由形式的性质通常会导致比文本字幕数据集中存在的更长,更具描述性的字幕虽然MSCOCO [32]每个字幕平均包含10多个单词,但地点音频字幕平均为20个扩展的Places 205音频字幕语料库、ADE20k字幕数据和模 型 训 练 代 码 的 PyTorch 实 现 可 在 www.example.com 上 获 得http://groups.csail.mit.edu/sls/downloads/placesaudio/。4模型我 们 的 模 型 类 似于 Harwath 等 人 [19] 的 模 型 , 其 中 一 对 卷 积神 经 网 络(CNN)[29]用于将视觉图像和语音音频字幕独立编码到共享的嵌入空间中。 我们的模型与先前工作的区别在于,我们不是将整个图像和口语映射到嵌入空间中的固定点,而是学习在空间和时间上分布的表示,使我们的模型能够直接在两个模态内共同定位。我们的模型经过训练以优化基于排名的标准[6,27,19],使得属于一起的图像和字幕在嵌入空间中比不匹配的图像/字幕对更相似具体地,在一批B个图像/字幕对(I j,A j)(其中I j表示第j个图像的网络的图像分支的输出,并且A j表示第j个字幕的音频分支的输出)上,我们计算损失:ΣBL=j=1max(0,S(Ij,Aimp)−S(Ij,Aj)+η)Σ+ max(0,S(Iimp,Aj)-S(Ij,Aj)+η),(一)其中S(I,A)表示图像I和音频字幕之间的相似性分数Iimp表示第j个随机选择的冒名顶替者图像,Aimp表示第j个冒名顶替者J Jcaption,并且η是margin超参数。我们对冒名顶替者的图片和说明进行对于来自相同小批量的每对,并且在我们的实验中将η固定为1的选择从原始感觉输入中联合发现视觉对象和口语单词5相似性函数是灵活的,我们将在4.3节中进行探讨。这个标准直接使图像的语义检索从字幕,反之亦然,但在本文中,我们的重点是探索如何对象和单词本地化自然出现作为一个副产品的训练计划。我们的双分支匹配映射网络的图示如图3所示。接下来,我们描述每个输入模式的建模。4.1图像建模我们遵循[19,18,15,8,1,26],利用VGG16网络[46]的架构形成图像分支的基础。然而,在所有这些先前的工作中,VGG网络的权重都是在ImageNet上预先训练的,因此它们的模型中内置了大量的视觉辨别能力我们证明了我们的模型不需要这种预训练,并且可以以完全无监督的方式进行端到端的训练。此外,在这些现有工作中,分类层下方的整个VGG网络被用于导出单个全局图像嵌入。这种方法的一个问题是,将conv5的输出耦合到fc1涉及平坦化操作,这使得难以恢复conv5以上的任何神经元与负责其输出的空间定位刺激之间的关联。我们在这里通过仅保留VGG网络中通过conv5的卷积组来解决这个问题,并丢弃pool5和它上面的所有内容。对于224 × 224像素的输入图像,网络的这一部分的输出为(a)(b)第(1)款(c)(d)其他事项图2:400k口语字幕的统计。从左到右,图表示(a)字幕持续时间(以秒为单位)的直方图,(b)字幕长度(以单词为单位)的直方图,(c)字幕中的估计词频,以及(d) 每个演讲者的字幕数量。工作将是跨越512个通道的14乘14特征图,其中图内的每个位置拥有可以直接与输入相关的感受野为了将图像映射到共享嵌入空间中,我们将3 × 3,1024通道线性卷积(无非线性)应用于conv5特征映射。图像预处理包括将最小尺寸调整为256个像素,进行随机的224 × 224裁剪(中心裁剪用于验证),并根据全局均值和方差对像素进行归一化6D. Harwath等人图3:视听匹配图模型架构(左),连同示例匹配图输出(右),显示时空相似性的3-D密度。Conv层显示为蓝色,池化层显示为红色,BatchNorm层显示为黑色。每个conv层后面都有一个ReLU。音频网络的第一卷积层使用1帧宽并且跨越整个频率轴的滤波器;因此音频网络的后续层是具有相应宽度11、17、17和17的1-D卷积音频网络中的所有maxpool操作都是沿时间轴的1-D,宽度为3。示例声谱图输入约为10秒(1024帧)被示出以说明池化比率。4.2音频字幕建模为了对口语音频字幕进行建模,我们使用类似于[18]的模型,但是经过修改以在训练期间输出跨音频的特征图,而不是单个嵌入向量。音频波形表示为对数梅尔滤波器组频谱图。计算这些涉及首先通过均值减法去除每个记录的DC分量,然后进行预加重滤波。然后使用具有IOms移位的25ms汉明窗来计算短时傅立叶变换我们采取每帧的平方幅度谱,并计算40个Mel滤波器频带中的每一个内的对数能量我们将这些最终频谱图视为单通道图像,并使用图3中显示的CNN对其进行建模。[19]利用每个频谱图到固定长度的截断和零填充。虽然这使得批量输入模型,它引入了一定程度的不受欢迎的偏见到学习的表示。相反,我们填充到足够长的长度以完全捕获批次内的最长字幕,并且在单独的基础上截断每个字幕的输出特征图以移除对应于零填充的帧我们在网络的前端使用BatchNorm [20]层,而不是手动归一化频谱图。接下来,我们讨论用于将视觉和听觉特征图彼此关联的方法。从原始感觉输入中联合发现视觉对象和口语单词7r,c,:4.3加入图像和音频分支Zhou等人[57]证明了应用于几种流行CNN架构的conv5层的全局平均池化不仅为图像分类任务提供了良好的准确性,而且还能够在conv5层恢复给定目标类的空间激活图,然后可以用于对象定位。用于训练的整个输入上的池化表示然后可以被解池化以用于局部化分析的想法是强大的,因为它不需要训练数据的局部化注释,或者甚至不需要用于目标函数或网络本身中的局部化的任何显式机制,超出已经以卷积感受野的形式存在的机制虽然我们的模型执行排名任务而不是分类,但我们可以将类似的想法应用于图像和语音特征图,以计算它们的成对相似性,希望恢复对象和单词的本地化令I表示图像网络分支的输出特征图输出,A是音频网络分支的输出特征图,并且Ip和Ap是它们的全局平均池化对应物。相似性函数的一个直接选择是池化嵌入之间的点积,S(I,A)=IpTAp。请注意,这实际上等同于第一次计算3阶张量M,使得Mr,c,t=ITAt,:,然后计算M的所有元素这里我们使用冒号(:)来表示选择所有元素分度平面;换句话说,Ir,c,i是表示图像特征图的(r,c)坐标的1024维向量,并且Ati是表示音频特征图的第t帧的1024维向量。在这方面,两者之间的相似性全局平均合并的图像和音频表示简单地是所有音频帧和所有图像区域之间的平均我们将该相似性评分函数称为SISA(sum image,sum audio):SISA(M)=1N N n越南r ΣNcΣNtMr,c,t(2)RCtr =1 c =1 t =1因为M反映了小图像区域(可能包含对象)和小音频片段(可能包含单词)之间的局部相似性,所以我们将M称为图像和音频字幕之间的“匹配图”张量。由于它是不完全现实的,期望所有的文字内的标题,同时匹配的图像内的所有对象,我们考虑计算图像和音频字幕之间的相似性,使用几种替代功能的匹配图密度。通过用简单的最大值替换图像块上的平均求和,MISA(最大图像,和音频)有效地将字幕的每个帧与最相似的图像块匹配,然后在字幕帧上进行平均:MISA(M)= 1ΣNtmax(Mr,c,t)(3)Ntt=1r,c通过保留图像区域上的总和但在音频字幕上取最大值,SIMA(sum image,maxaudio)将每个图像区域仅与具有与该区域最高相似性的SIMA(M)=1ΣNr ΣNcmax(Mr,c,t)(4)NrNcr=1c =1t8D. Harwath等人在下一节中,我们将探索使用这些相似性来学习图像中的对象与其标题中的口语之间的语义5实验5.1图像和字幕检索所有模型都使用等式1中概述的采样边缘排名目标,使用批量大小为128的随机梯度下降来训练。我们使用0.9的固定动量和0.001的初始学习率,每70个时期衰减10倍;通常我们的模型在不到150个时期内收敛我们使用来自Places音频字幕数据集的1,000个图像/字幕对来验证图像/字幕检索任务的模型,类似于[19,18,8,1]中描述的模型。此任务用于提供单个高级度量,其捕获模型在语义上桥接音频和视觉模态的学习程度。虽然提供了模型的整体能力的良好指示表1显示了使用SISA、MISA和SIMA相似性函数训练匹配图模型时获得的图像/字幕召回分数,其中既有完全随机初始化的网络,也有在ImageNet上预训练的图像分支。在所有情况下,MISA相似性度量是表现最好的,尽管所有三个度量都获得了可观的分数。不出所料,使用预先训练的图像网络显着增加了召回分数。在表1中,我们将我们的模型与之前发布的两个语音到图像模型的重新实现进行了比较(这两个模型都使用了预训练的VGG16网络)。我们还比较了对自动语音识别(ASR)派生的文本转录的口头字幕的基线我们使用的基于文本的模型是基于语音和图像模型的架构,但用对单词序列进行操作的CNN代替了语音音频分支。ASR文本网络使用200维的单词嵌入层,然后是512通道,具有ReLU非线性的3个单词的窗口的一维卷积窗口大小为3且无非线性的最终卷积将这些激活映射到1024多模态嵌入空间中。我们比较的两个先前发布的基线都使用了完整的VGG网络,从fc2输出中获得了整个图像的嵌入。在预训练的情况下,我们对MISA模型的最佳回忆分数在整体上优于[19],在图像回忆上也优于[18];标题召回分数略低于[18]。这表明,在去除VGG的全连接层时不会有太多损失,并且可以以本地化匹配图的形式获得很多5.2语音识别对象定位。为了评估我们的模型ADE 20 k图像包含像素级对象蒙版和标签-结合通过ASR生成的时间对齐转录(我们使用公共Google SpeechRecognition API用于此目的),我们可以将每个匹配图单元格与特定视觉从原始感觉输入中联合发现视觉对象和口语单词9表1:针对三个匹配图相似性函数的1,000个图像/字幕的保持集合的回忆分数。我们还展示了使用自动语音识别衍生的文本字幕的基线模型的结果。(P)表示使用在ImageNet语音ASR文本图片到图片图片型号R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10R@1 R@5 R@10SISA.063 .191.274.048 .166.249.136 .365.503.106 .309.430Misa.079 .225.314.057 .191.291.162 .417.547.113 .309.447司马.073 .213.284.065 .168.255.134 .389.513.145 .336.459SISA(P).165 .431.559.120 .363.506.230 .525.665.174 .462.611MISA(P).200 .469.604.127 .375.528.271 .567.701.183 .489.622SIMA(P).147 .375.506.139 .367.483.215 .518.639.220 .494.599[19](P).148 .403.548.121 .335.463------[18](P).161 .404.564.130 .378.542------对象标签以及词标签。这些标签使我们能够分析哪些词与哪些对象相关联我们通过执行语音提示的对象定位来做到这一点给定语音中从时间t1开始到时间t2结束的单词,我们通过对t1和t2之间的匹配图求和来导出图像上的热图。我们然后将热图归一化为位于区间[0,1]内,对热图进行阈值化,以及针对单词引用的任何对象,计算检测掩码与ADE20k标签掩码的交集与并集(IoU)由于语音中会出现大量不同的单词,并且单词与ADE 20 k对象之间不存在一对一映射,因此我们手动定义一组100个单词-对象配对。我们选择通常出现的(至少9个出现频率)对,这些对是明确的,例如单词对于每个单词-对象对,我们计算在ADE 20 k图像及其相关标题中一起出现的单词-对象对的所有实例的平均IoU分数然后,我们对所有100个词-对象对的这些分数进行平均,并在表2中报告每个模型类型的结果。我们还报告了第5.1节中描述的ASR基于文本的基线模型的IoU得分。图4显示了使用非预训练语音MISA网络的几个查询词的定位热图的采样5.3视听模式的聚类我们考虑的下一个实验是使用完全随机语音MISA网络从ADE20k匹配图一旦为图像和字幕对计算了在实践中,我们在特定于匹配图的基础上将该阈值设置为高于平滑匹配图的平均值的1.5个标准差接下来,我们提取10D. Harwath等人图4:针对若干单词/对象对的语音提示定位图。从上到下并且从左到右,查询是 从 从 语 音 中 提 取 的 口 语 单 词 “WOMAN” 、 “BRIDGE” 、 “SKYLINE” 、“TRAIN”、“CLOTHES”和“VEHICLES”的实例每个图像体积连接分量及其在图像和音频上的相关联的掩模。我们将这些掩码中的图像和音频特征图平均化,为每个分量生成一对向量因为我们发现图像和语音表示呈现不同的动态范围,所以我们首先分别通过所有导出的图像向量和语音向量的平均L2范数来重新缩放它们我们将每个分量的图像和语音向量连接起来,最后执行Birch聚类[53],第一步使用1000个目标聚类,最后一步使用凝聚的最终步骤产生135个聚类。为了得到每个聚类的单词标签,我们将最频繁的单词标签作为属于聚类的组件的重叠。为了生成对象标签,我们计算属于分配给特定聚类的每个ADE20k类的像素数,并选取最常见的标签。我们在图5中显示了前50个最纯簇的标记及其纯度。5.4概念发现:建立一个图像-词词典图5显示了我们的模型学习的集群。有趣的是,音频和图像网络能够同意知识的共同表示,将类似的概念聚集在一起。由于两种表示都直接乘以点积,因此两个网络必须就这些不同维度的含义达成一致。为了进一步探索这一现象,我们决定分别对图像和音频网络的每个维度进行可视化,然后找到一种定量策略来评估一致性。从原始感觉输入中联合发现视觉对象和口语单词11图5:通过我们的方法发现的一些集群(语音和视觉)每个聚类都用最常见的单词(大写字母)和对象(小写字母)联合标记对于每个聚类,我们显示单词(蓝色)和对象(红色)标签的精度,以及它们的调和平均值(品红色)。前50个集群的平均集群大小为44。为了可视化与图像路径中的每个维度相通过图像网络运行一组图像,并且选择激活最多特定维度的图像。然后,我们可以可视化顶部激活图像中的空间激活同样的过程也可以用于音频网络。表2:ADE 20 K上的语音提示和ASR提示的对象定位IoU分数,跨100个单词-对象对平均。兰德表示随机初始化的模型,而'Pre.'表示在ImageNet上预训练的图像分支全帧基线IoU为0.16语音ASR文本模拟Func.随机的Pre.随机的Pre.工作,我们得到一组描述最大程度地激活神经元。最后,通过时间图,我们可以找到描述的哪一部分产生了激活。一些最活跃的单词和图像可以在图6中找到。我们展示了四维空间SIMA.1607 .1857 1995年SISA.1637 .1970 .1750.2161MISA.1795 .2324 .2060.2413它们在音频神经元中关联的最活跃的单词,以及在图像神经元中最活跃的有趣的是,这些概念对是完全独立发现的,因为我们没有使用最终激活(在点积之后)来挑选图像。这对意象词让我们可以探索多个问题。第一,我们是否可以通过只听图像的描述来构建图像-单词词典?如图6所示,我们确实做到了。重要的是要记住,这些对是以完全无监督的方式学习的,没有网络先前学习的任何概念此外,在没有书面表示的语言的情况下,我们可以使用完全相同的技术来创建图像-音频词典。另一个重要的问题是,更好的视听词典是否表示更好的模型架构。我们期望一个更好的模型应该学习更多的总体概念。在本节中,我们提出了一个度量来量化这种词典质量。12D. Harwath等人Σ我我词图像观念价值词图像观念价值建筑0.78表0.65家具0.77花0.65水0.72岩石0.51图6:匹配图像网络中最活跃的图像和音频网络中最活跃的单词,我们可以建立图像-单词对,如图所示。我们还定义了一个概念值,它捕获了两个网络之间的协议,范围从0(无协议)到1(完全协议)。这个度量将帮助我们计算每个神经元和每个特定模型的质量。为了量化字典的质量,我们需要在书面描述和图像激活之间找到一个共同的空间同样,这个公共空间来自分割数据集。使用[59],我们可以通过每个神经元对检测到的最多的对象进行我们通过网络接近。从ADE20k数据集中提取10,000张图像因此,我们有一组与图像神经元相关联的对象标签(来自分割类),以及一个使用WordNet树,我们可以计算这些概念之间的词距离并定义以下度量:|Oim|C=i=1wi Simwup(oim,oau),(5)其中oim∈Oim,其中Oim是TOP5分段中存在的类的集合。images和Simwup(.,. )是基于Wu和Palmer WordNet的相似度,具有范围[0,1](越高越相似)。我们用wi对相似性进行加权,wi与该类别的像素到图像的掩蔽区域中的交集与并集使用这个指标,我们可以为每个维度分配一个值,这可以衡量音频网络和图像网络在这个特定概念上的一致程度。六个概念对的数值如图6所示我们看到具有更高价值的神经元是如何右下角的神经元示出了低概念值的示例,其中音频词是有趣的是,我们发现c> 0。6是一个很好的指标,一个概念已经学会。最后,我们分析了学习的概念和表3中使用的架构之间的关系。有趣的是,在三种不同的情况下,这四个保持相同的顺序,表明架构确实影响了学习的概念数量。从原始感觉输入中联合发现视觉对象和口语单词135.5匹配图可视化和视频我们可以通过几种方式来可视化匹配图。图3中所示的3维密度可能是在-表3:由具有不同损耗的不同网络学习的概念的数量我们发现它始终是最高的MISA。相反,我们可以把它当作一堆掩模覆盖在图像之上并作为视频回放。我们语音ASR文本模拟Func.随机的Pre.随机的Pre.使用matchmap score来modu-延迟图像的Alpha通道司马1661249696与语音同步SISA210192103102dio。所得到的视频能够Misa242277140150突出显示说话者描述的图像。图7:左侧示出了两个图像及其语音信号。每个颜色对应的sponds从两个匹配图从一个完全随机的MISA网络的一个连接组件右侧的掩码显示与每个语音片段相对应的片段。我们将从ASR转录中获得的字幕词显示在面具下。请注意,这些词从来没有用于学习,只是用于分析。我们还可以从密度中提取体积连通分量,并将它们向下投影到图像和频谱图轴上;在图7和图8中示出了这种情况的可视化。我们应用少量的阈值和平滑,以防止匹配图过于分散。我们使用大小为7帧的时间最大池化窗口,并将分数归一化为落在区间[0,1]内并求和14D. Harwath等人图8:使用完全随机MISA语音网络发现的图像片段和语音片段的附加示例到1.我们将匹配图内总质量的前p个百分比之外的所有单元格归零。在实践中,p值在0.15和0.3之间产生有吸引力的结果。6结论在本文中,我们介绍了视听我们将这些网络应用于语义图像/语音字幕搜索,语音提示对象本地化,视听聚类和概念发现,以及实时,语音驱动,语义突出显示。我们还引入了Places音频字幕数据集的扩展版本此外,我们还为ADE 20k数据集引入了近10,000个字幕。未来的工作有许多途径,包括扩展模型以处理视频、环境声音、其他语言等。可以直接生成给定口头描述的图像,或者生成描述视觉场景的人工语音可以利用超越简单口头描述并明确解决场景内对象之间关系的更集中的最后,人类语言学习的一个关键因素是对话反馈回路,未来的工作应该研究将该机制添加到模型中。致谢作者要感谢丰田研究所公司。支持这项工作。从原始感觉输入中联合发现视觉对象和口语单词15引用1. Alishahi,A.Barking,M.,Chrupala,G.:在接地语音的循环神经模型中的音系编码在:CoNLL(2017)2. Antol,S.,阿格拉瓦尔,A.,卢,J,Mitchell,M.Batra,D.,Lawrence,Z.Parikh,D.:VQA:可视化问答。在:Proc. IEEE计算机视觉国际会议(ICCV)(2015)3. 阿兰杰洛维奇河齐瑟曼,A.:看,听,学。In:ICCV(2017)4. Aytar,Y.冯德里克角Torralba,A.:Soundnet:从未标记的视频中学习声音表示。在:神经信息处理系统的进展29,pp。8925. Bergamo,A.,巴扎尼湖Anguelov,D.,Torresani,L.:使用深度网络自学目标定位。CoRRabs/1409.3964(2014),http://arxiv.org/abs/1409.39646. Bromley,J.,居永岛LeCun,Y.,Sa? ckinger,E.,Shah,R.:签名验证使用“连体”时延神经网络。在:Cowan,J.D.,Tesauro,G.,Alspector,J.(编辑)Advances in Neural Information Processing Systems 6,pp.七三七七四四03 The Dark(1994)7. Cho,M.Kwak,S.,施密德角Ponce,J.:野外无监督对象发现和定位:基于零件的匹配与自下而上的区域建议。IEEE计算机视觉与模式识别会议(CVPR)(2015)8. Chrupala,G.,Gelderloos湖Alishahi,A.:视觉接地语音信号模型中的语言表示。在:ACL(2017)9. 辛比斯河,Verbeek,J.,Schmid,C.:基于多重多实例学习的弱监督目标定位。IEEE Transactions on Pattern Analysis and Machine Intelligence(PAMI)39(1),18910. Doersch,C.Gupta,A.,Efros,A.A.:基于上下文的无监督视觉表征学习预测. CoRRabs/1505.05192(2015),http://arxiv.org/abs/1505.0519211. Drexler , J. , Glass , J. : 无 监 督 语 音 识 别 的 视 听 特 征 分 析 Grounded LanguageUnderstanding Workshop(2017)12. Dupoux,E.:人工智能时代的认知科学:逆向工程婴儿语言学习者的路线图。在:认知(2018)13. Fang,H.,中国农业科学院,古普塔,S.,Iandola,F.,Rupesh,S.,邓湖Dollar,P.,高,J.,他,X.,Mitchell,M. C.的方法,PJ Zitnick,C.L.,Zweig,G.:从标题到视觉概念再到后面。IEEE计算机视觉与模式识别会议(CVPR)(2015)14. 高,H.,毛泽东,J.,周杰,黄志,Yuille,A.:你在跟机器说话吗?多语言图像问题回答的数据集In:NIPS(2015)15. Gelderloos湖Chrupaa,G.:从音素到图像:视觉基础语言学习的递归神经模型中的表征水平。在:arXiv:1610.03342(2016)16. 格尔希克河Donahue,J.,Darrell,T.,Malik,J.:丰富的特征层次结构,用于精确的对象检测和语义分割。IEEE计算机视觉与模式识别会议(CVPR)(2013)17. Gue'rin,J.,吉巴鲁岛 Thier y,S.,Nyiri,E.:CNN特征在无监督分类方面也很出色CoRRabs/1707.01700(2017),http://arxiv.org/abs/1707.0170018. Harwath,D.,Glass,J.:从联合视听分析中学习类词单元。In:Proc.计算语言学协会(ACL)年会(2017)19. Harwath,D.,Torralba,A.,Glass,J.R.:具有视觉上下文的口语无监督学习在:Proc.神经信息处理系统(NIPS)(2016)20. Ioffe,S.,Szegedy,C.:批量归一化:通过减少内部协变量偏移来加速深度网络训练机器学习研究杂志(JMLR)(2015)21. Jansen,A.,Church,K.,赫尔曼斯基,H.:以零资源进行大规模的口语术语发现。In:Proc.2010年国际语音通信协会(INTERSPEECH)年会16D. Harwath等人22. Jansen,A.,Van Durme,B.:使用随机化算法的高效口语术语发现。IEEE自动语音识别和理解研讨会(ASRU)(2011年)23. Johnson,J.,Karpathy,A.,李菲菲:Densecap:用于密集字幕的全卷积定位网络。在:Proc. IEEE计算机视觉和模式识别会议(CVPR)(2016)24. Kamper,H.,Elsner,M.,Jansen,A.,Goldwater,S.:基于无监督神经网络的弱自顶向下约束特征提取。国际声学、语音和信号处理会议(ICASSP)(2015)25. Kamper,H.,Jansen,A.,Goldwater,S.:使用声学词嵌入的无监督分词和词典IEEE Transactions on Audio,Speech and Language Processing24(4),66926. Kamper,H.,解决S Shakhnarovich,G. Livescu,K.:以视觉为基础的学习-从未转录的语音中预测单词。在:INTERSPEECH(2017)27. Karpathy,A.,Joulin,A.,李菲菲:用于双向图像句子映射的深度片段嵌入。在:Proc.神经信息处理系统(NIPS)(2014)28. Karpathy,A.,Li,F.F.:用于生成图像描述的深度视觉语义对齐。In:Proc.IEEE计算机视觉与模式识别会议(CVPR)(2015)29. LeCun,Y.,博图湖Bengio,Y.,Haffner,P.:基于梯度的学习应用于文档识别。Proceedings of the IEEE86(11),227830. Lee,C.Glass,J.:声学模型发现的非参数贝叶斯方法In:Proc.计算语言学协会(ACL)年会(2012年)31. 刘易斯议员西蒙G.F. Fennig,C.D.:民族语:世界语言,第十九版。SIL International.在线版本:02 http://www.ethnologue.comTheDog(2016)32. Lin,T.,Marie,M.Belongie,S.,Bourdev,L.格尔希克河Perona,P.,Ramanan,D.Zitnick,C.L.,Dollar,P.:Microsoft COCO:上下文中的公共对象收录于:arXiv:1405.0312(2015)33. Malinowski,M.,Fritz,M.:一种基于不确定输入的真实场景多世界问答方法。在:NIPS(2014)34. Malinowski,M.,Rohrbach,M.,Fritz,M.:问问你的神经元:基于神经的方法来回答有关图像的问题。In:ICCV(2015)35. 翁德尔湖伯基特湖Cernocky,J.:声学单元发现的变分推理在:第五届研讨会口语技术资源不足的语言(2016)36. Owens,A.,Isola,P.,McDermott,J.H.,Torralba,A.,阿德尔森E.H.弗里曼,W.T.:视觉指示的声音。In:2016 IEEE Conference on Computer Vision and PatternRecognition,CVPR 2016,Las Vegas,NV,USA,June 27-30,2016. pp. 240537. Owens,A.,吴,J.,McDermott,J.H.,弗里曼,W. T.,Torralba,A.:环境声音为视觉学习提供监督,pp。80138. Park,A. Gl
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功