没有合适的资源?快使用搜索试试~ 我知道了~
8908.看、听、说:多模态弱监督密集事件字幕Tanzila Rahman1,2徐必成1,2LeonidSigal1,2,31英属哥伦比亚大学2人工智能向量研究所3加拿大CIFAR人工智能主席{trahman8,bichengx,lsigal}@ cs.ubc.ca摘要多模态学习,特别是在成像和语言模态中,在许多高层次的基本视觉理解问题上取得了惊人的进步,从语言基础到密集的事件标题。然而,大部分研究已经限于根本不考虑对应于视频的音频的方法,或者对服务于声音或声源本地化的视听相关性进行建模的方法。在本文中,我们提出的证据,音频信号可以携带惊人的信息量,当涉及到高层次的视觉语言任务。具体来说,我们专注于弱监督密集事件字幕在视频中的问题,并表明,音频本身几乎可以媲美性能的一个国家的最先进的视觉模型,并结合视频,可以提高国家的最先进的性能。在ActivityNet Captions数据集上进行的大量实验表明,我们提出的多模态方法优于最先进的单峰方法,并验证了特定的特征表示和架构设计选择。1. 介绍人类通常通过多种感官方式感知世界,例如看、听、闻、触摸和品尝。假设两个人坐在一家餐馆里;看到他们在桌子对面表明他们可能是朋友或巧合的同伴;听,甚至是他们谈话的粗俗举止,都能使他们关系的本质更加清楚。在我们的日常生活中,还有许多其他的例子,产生强有力的证据表明,多模态同现给我们更充分的感知事件。回想一下,从无声电影中感知故事的复杂性是多么困难。多模态感知在心理学[10,42],神经学[33]和人机交互[37]等领域得到了广泛的研究。然而,在计算机视觉领域,从多个模态学习表示的进展受到限制,特别是对于高级虚拟任务,其中这种模态(例如,音频或声音)带音轨的输入视频密集事件字幕一群朋友坐在客厅里聊天。...其中一个朋友用吉他弹了一首歌,其他人听着。.一个朋友在结束后惊讶地坐回椅子上。.宋这两个朋友祝贺他的吉他表演和握手。图1:多模态密集事件字幕。 说明我们的问题定义,其中我们使用音频特征和视觉信息来以弱监督的方式生成视频的密集字幕。可以发挥重要作用。最近的作品[27,31]提出了在不受约束的视频中定位音频(声源定位)或在视频字幕中利用声音的方法[15,16,44,38]。然而,这些方法考虑相对短的短视频,即,通常约20秒,并专注于描述一个单一的突出事件[47]。更重要的是,虽然他们表明音频可以在一定程度上提高视觉模型的性能,但这种改进通常被认为是边缘性的,音频的作用被认为是次要的(或不像视觉信号那样重要)[16,44]。我们认为声音(或音频)实际上可能比社区意识到的更重要。考虑一下前面提到的无声电影的例子。声音的缺乏使它明显更困难,如果不是不可能的,在许多情况下,描述丰富的流动的故事和组成事件。有了这种直觉,我们专注于密集的事件字幕[22,43,49](又名:视频中事件的密集字幕[20]),并赋予我们的模型利用丰富的听觉信号的能力,......时间8909缩放和字幕。图1展示了我们的多模态密集事件字幕任务的一个示例。与传统的视频字幕相比,密集事件字幕处理更长和更复杂的视频序列,通常为2分钟或更长。据我们所知,我们的工作是第一个解决密集的事件字幕与声音,处理声音作为一个一流的感知模态。音频特征可以以许多不同的方式表示。为我们的任务选择最合适的代表是具有挑战性的。为此,我们在这项工作中比较不同的重要的是,我们表明,单独的音频信号可以实现令人印象深刻的性能上的密集事件字幕任务(媲美视觉计数器的一部分)。将音频与视频信号合并所需的融合形式是另一个挑战。我们考虑和比较各种融合策略。密集事件字幕为视频提供了详细的描述,这有利于深入的视频分析。然而,训练完全监督模型需要字幕注释和相应的时间分段坐标(即,每个事件的开始和结束时间),这是非常困难和耗时的收集。最近,[12]提出了一种在弱监督设置中进行密集事件字幕的方法。该方法在训练期间不需要时间段注释。在评估过程中,该模型能够检测所有感兴趣的事件并生成相应的字幕。受[12]的启发和建立,我们以弱监督的方式处理我们的多模态密集事件字幕。捐款. 我们的贡献是多方面的。 首先,据我们所知,这是第一个工作,ad-dresses密集事件字幕任务在多模态设置- ting。在这样做的时候,我们提出了一个基于注意力的多模态融合模型来整合音频和视频信息。其次,我们比较了不同的音频特征提取技术[4,11,23],并分析了它们对任务的适用性。第三,我们讨论和测试不同的融合策略,将音频线索与视觉功能。最后,在ActivityNet Captions数据集[20]上进行的大量实验表明,音频模型本身几乎可以与视觉模型的性能相媲美,并且结合视频,使用我们的多模态弱监督方法,可以提高最先进的性能。2. 相关工作音频特征表示。最近,计算机视觉社区已经开始探索音频特征来学习无约束视频中的良好表示。Ay- tar等。[4]建议一个健全的网络,让老师学习声音的表现形式。早期的作品[27,31,35]解决了声源定位问题,以确定哪些像素或区域负责在视频中产生指定的声音(声音接地)。例如,[31]介绍了一种由声音信息引导的基于注意力的定位网络。在[27,35]中提出了音频和视觉网络之间的联合表示以定位声源。Gao等人[14]使用多实例多标记学习框架来公式化音频源分离的新问题该框架将通过非负矩阵因子化(NMF)提取的音频基映射到检测到的视觉对象。近年来,音频事件检测(AED)[8,29,36]在研究界受到关注。大多数AED方法定位音频事件,然后对每个事件进行分类。视频分析中的多模态特征。 将音频与视觉特征相结合(即,多模态表示)通常可以提高网络在视觉中的性能,特别是在视频分析中[2,3,16,38,44]。Ariav等人[3]提出一种端到端的深度神经网络,通过结合音频和视觉模态来检测语音活动。使用多模态紧凑双线性池(MCB)融合来自两种模态的特征以生成语音信号的联合表示。作者在[2]中提出了一种用于自我中心活动识别的多模态方法,其中视听特征与多核学习和提升相结合最近,多模态方法也越来越流行的视频字幕[38,44]。在[16]中,提出了一种多模态注意力机制来融合不同模态的信息。 Hori等人[17]通过应用基于最小贝叶斯风险解码[21,34]的假设级集成来扩展[16]中的工作,以提高覆盖质量。Hao等人[15]提出多模态特征融合策略,以最大限度地发挥视听共振信息的优势。Wang等人[44]引入分层编码器-解码器网络以自适应地学习多个模态的意向表示,并且融合每个模态的全局和局部上下文以用于视频理解和句子生成。在[38]中提出了一个用于探索句子生成过程中的模态选择的模块,旨在解释生成的句子中的单词如何与音频和视觉模态相关联。视频中的密集事件字幕。在视频中密集事件字幕的任务首次引入[20]。该任务涉及检测视频中发生的多个事件大多数的作品[26,48]解决这个问题的两个阶段的方式,即,首先是时间事件提议生成,然后是针对每个提议的事件片段的句子字幕。在[48]中,作者采用了时间动作建议网络来定位视频中感兴趣的建议,然后为每个建议生成描述。Wang等人[43]提出了一种双向建议方法,该方法有效地利用过去和未来的上下文来进行建议预测。在[49]中,使用可区分的掩蔽方案来确保提议和字幕8910t=1模块。Li等[22]提出了一个连续性回归组件来统一事件定位和句子生成。Xu等[46]提出了一种端到端联合事件检测和描述网络(JEDDi-Net),该网络采用区域卷积3D网络[45]进行建议生成和细化,并提出了分层字幕。Duan等人[12]在弱监督设置中制定密集事件字幕任务,其中在训练和评估期间没有地面实况时间段注释。他们将任务分解为一对双重问题,事件字幕和句子本地化,并提出了一种迭代的训练方法。我们的工作受到[12]的激励,并建立在他们的框架之上。然而,重要的是,我们融合了音频和视觉特征,并探索了各种融合机制来解决多模态弱监督密集事件字幕任务。我们注意到,[12]是迄今为止在弱监督设置中用于密集事件上限的唯一方法。3. 多模态密集事件字幕在这项工作中,我们考虑两个重要的方式,音频和视频,在弱监督设置生成密集的字幕。弱监督意味着我们在训练期间不需要地面实况时间事件片段。我们的多模态架构的概述如图2所示。该架构由两个模块组成,一个句子定位器和一个字幕生成器。给定视频中的一组初始随机提议片段,字幕生成器为指定片段生成字幕然后,句子定位器使用生成的字幕细化相应的片段。字幕生成器再次被用来细化字幕。该过程可以迭代地进行,以达到一致的片段和标题;在实践中,我们按照[ 12 ]中的观察使用一次迭代。我们首先从音频、视频和字幕中提取特征对于每种模态,编码器用于对输入进行编码。我们使用带有GRU [9]单元的递归神经网络(RNN)作为编码器。然后,我们在音频、视频和字幕特征之间应用交叉注意力。然后采用一种注意力特征融合机制,然后采用一个全连接层来产生时间段。字幕生成器将音频和视频的编码特征以及所得到的时间片段作为输入。该方法基于时间段对音频和视频特征进行软掩模裁剪,并采用上下文融合技术生成多模态上下文特征。然后,字幕解码器(也是具有GRU单元的RNN)为每个多模态上下文特征生成一个字幕我们讨论并比较了三种不同的上下文融合策略,以找到最合适的一种从音频和视频在秒。第3.1条然后,我们提出了我们的弱监督的方法在SEC。3.2. 最后,我们在3.3节中展示了三种不同的上下文融合策略。3.1. 特征表示我们认为这两个功能,从音频和视频modali-ties密集的事件字幕。选择最合适的特征提取过程通常是具有挑战性的,特别是对于音频模态。我们描述了不同的特征提取方法来处理音频和视频输入。3.1.1音频特征处理ActivityNet Captions数据集[20]不提供音轨。因此,我们通过原始URL从YouTube视频中收集了所有音频数据。一些视频不再在YouTube上提供。总的来说,我们能够收集到大约15,840个与Activ- ityNet视频相对应的音轨。为了处理音频,我们考虑并比较了三种不同的音频特征表示。MFCC功能。梅尔倒频谱(MFC)是数字信号处理中常用的声音表示法。梅尔频率倒谱系数(MFCC)是共同组成MFC的系数-我们将音频从44 kHz下采样到16kHz,并使用25作为采样率。我们选择128个MFCC特征,其中2048作为FFT窗口大小,512作为连续帧之间的样本数(即,跳长度)。CQT功能。恒定Q变换(CQT)是一种时间-频率表示,其中频率仓在几何上间隔开,并且所有仓的中心频率与带宽(Q因子)的比率相等[7]。CQT的动机来自人类听觉系统和西方音乐中音调的基本频率[30]。我们通过选择64 Hz和60作为最小频率和频率箱的数量来执行特征提取与上述MFCC特征类似,我们使用2048作为FFT窗口大小,使用512作为跳长。我们使用没有最后一个分类层的VGG-16 [32]将MFCC和CQT特征转换为512维表示。SoundNet功能。SoundNet [4]是一个学习表示原始音频波形的CNN。声学表现是通过200万个视频及其配套音频学习的;利用它们之间的自然同步。我们使用预训练的SoundNet [4]模型从第8个卷积层提取1000维音频特征(即,conv8)对于每个视频3.1.2视频特征处理我们的多式联运。给定输入视频V={vt}Tv,其中vt是视频在下文中,我们首先描述如何在时间t提取特征帧,Tv是视频长度,3D-CNN模型8911上下文融合软蒙版裁剪软蒙版裁剪t=1t=0t=0交叉注意输入视频C3D功能字幕文本嵌入注意力特征融合线性时间片段输出标题交叉注意输入音频音频特征编码特征句子定位器标题生成器图2:我们的多模式架构。该模型由句子定位器和字幕生成器两部分组成。句子定位器将音频、视频和字幕作为输入,并为每个字幕生成时间段字幕生成器使用具有音频和视频特征的结果时间片段来为每个片段产生字幕用于将输入视频帧处理成视频中的完整视觉或音频信息序列一个上下文分段-视觉特征{ft=F(vt:vt+ δ)}Tf.这里,δ表示每个特征ft的时间分辨率,Tf是特征序列的长度。我们使用从编码器中提取的特征F由ActivityNet Captions数据集[20]提供,其中F是预先训练的C3D [18]网络,δ=16帧。所得C3 D特征的维度是大小为Tf×D的张量,其中D=500且Tf=Tv/δ。3.2. 弱监督模型弱监督意味着我们不需要视频(视觉和音频统称)和字幕之间的地面真实时间对齐我们进行一对一对应假设,这意味着我们假设每个字幕描述一个时间段,并且每个时间段仅对应于一个字幕。这种解释适用于当前的基准数据集和大多数真实场景。我们采用两个网络模块,一个句子定位器和一个字幕生成器。给定一个字幕,句子定位器将在上下文中产生一个时间段,而字幕生成器将生成一个具有给定时间段的字幕。我们使用上下文来引用编码的视频或音频。符号。我们使用GRU RNN来编码视频的这将产生一个输出序列段S由(c,l)表示,其中c和l分别表示O内段3.2.1句子定位器句子定位器尝试通过考虑字幕和编码的完整视频(上下文)来定位视频中的给定字幕。形式上,给定(视频或音频)上下文O和编码的字幕C,句子定位器将在O中回归时间片段S。结合上下文和字幕的特点,首先将交叉注意应用于其中。然后,注意力特征融合,其次是一层全连接的神经网络,用于产生的时间段。在[10]之后,我们使用15个预定义的时间段,并使用全连接层在句子本地化中生成15个偏移最后的片段是时间片段和偏移值的总和。目的是微调偏移值以获得最佳定位。交叉注意交叉注意由两个子注意组成,一个是标题注意Attc,一个是上下文注意Atto。对于上下文O和标题C,我们首先计算ho和C之间的注意力:Attc= softmax((ho)TαcC)CT,(1)特征向量,每帧一个,O={ot∈Rk}To和然后计算hc和O之间的注意力:最终隐藏状态ho∈Rk,其中To是视频的长度。在实践中,我们得到两组这样的向量-tors(一组用于视频,一组用于相应的音频“帧”),为了清楚地表述下面的内容,我们省略了下标。 标题的编码方式与输出Atto= softmax((hc)TαoO)OT,(2)其中α c∈ Rk× k和α o∈ Rk× k是可学习的注意力权重,()T是矩阵转置运算. 我们RNN的特征,C={ct∈Rk}Tc最后一个隐藏-注意,Atto是大小为1×k的向量,包括atten。den状态为hc∈Rk,其中Tc为大写字母的字长.我们使用上下文来引用视觉/音频帧的加权特征;类似地Attc是有关注字幕特征的大小为1×k字幕解码器(GRU)一个男人.....交叉注意......8912(a) 乘性混合融合(b) 多模型上下文融合(c) MUTAN融合图3:上下文融合策略。三种融合策略被示出:(a)乘法混合融合,(b)多模态上下文融合,以及(c)MUTAN融合。当训练我们的多模态方法时,仅在视觉模态和字幕之间计算字幕注意力Attc,并且我们使用等式(1)生成视频注意力Attv和音频注意力Atta二、当我们训练我们的单峰方法时,该方法使用音频(或视频)信息来生成字幕,字幕注意力Attc在音频(或视频)和字幕之间计算。注意特征融合。在获得子注意力之后,我们使用多模型特征融合技术[13]将它们融合在一起:其中σ(·)是S形函数,L是缩放因子。当L足够大时,该掩码函数变成执行精确裁剪的阶跃函数公司现采用国际将上下文特征的归一化加权和(由掩码加权)作为表示S的特征。该操作在剪切帧上近似传统的均值池化。3.3. 上下文融合由于音频和视觉表示来自两种不同的模态,因此在多模态环境中将它们合并在一起是一项至关重要的我们使用三种不同的语境Att总和=属性c+属性v+属性a(三)合并技术(图 3)融合视频V′和音频在归一化软掩模裁剪之后获得的A′属性点=属性c·属性v·属性a(4)属性fc= fc(属性c||附件五||附件a)(5)ping操作。 我们把V′和A′看作行向量。Att融合=属性总和||Att点 ||Attfc(六)乘法混合融合。乘法混合-真融合可以使模型自动聚焦于内点,从一个更可靠的方式形成和减少强调,其中+和·是逐元素加法和乘法。阳离子,||是列级连接,fc(·)是一个单层全连接神经网络。3.2.2Caption Generator给定上下文O中的时间片段S,字幕生成器将基于S生成字幕。用句子定位器生成的3.2.1),字幕生成器首先对上下文应用软掩码裁剪,然后使用上下文融合机制(第3.2.1节)。3.3)将剪切的上下文融合在一起。然后,融合的上下文被馈送到字幕解码器(也是GRURNN)以生成相应的字幕。软面具剪辑。从上下文得到时间段S,即,剪切操作是不可微的,这使得在端到端训练中难以处理为此,我们利用关于时间步长t的连续掩模函数来执行软裁剪。用于获得S的掩码M定义如下:M(t,S)=σ(−L(t-c+l))−σ(−L(t-c-l)),(7)第25章不可靠的人给定一对特征V′和A′,乘法混合融合首先将这两个上下文相加,然后将所添加的上下文与两个原始上下文连接。也就是说,它产生如下的最终上下文,Cfinal=(V′+A′)||V′||A′(8)其中+和||分别是元素级加法和列级级联。多模态上下文融合。 这种融合策略与Eq. 六、但在这里,我们将融合技术应用于A′和V′(片段,而不是完整的视频上下文),Cfinal=(V′+A′)||(V′·A′)||fc(V′||A′)。(九)Mutan Fusion。 MUTAN融合首先在[6]中提出,通过融合视觉和语言特征来解决视觉问答任务。 我们采用融合方案来融合V′和A′。 利用Tucker分解[39]的思想,我们首先降低V′和A′的维数,最终上下文总和ConcatConcat线性最终上下文总和Concat乘法音频上下文视频情境音频上下文视频情境音频上下文视频情境8913V′′=tanh(V′×Wv)(10)A′′=tanh(A′×Wa)(11)2 2塔克分解WvWo最终上下文WaTc沐滩8914其中Wv和Wa是可学习的参数,tanh(·)是双曲正切函数。然后,我们产生最终的上下文如下:C=((Tc×1V′′)×2A′′)(12)Cfinal=squeeze(C)×Wo,(13)其中Tc和Wo是可学习的参数。×i,i∈ {1,2}表示张量与矩阵的模i积,×是矩阵乘法运算。Tc对视频和音频模态之间的交互进行建模,其是3维张量;挤压算子挤压把它放进一个ro wv ector。3.4. 训练损失我们遵循[12]中提出的训练过程和损失函数来训练我们的网络。我们采用循环一致性[50]的思想来训练句子定位器和字幕生成器,并将时间段回归视为分类问题。最后的训练损失公式为:L=Lc+λsLs+λrLr(14)其中λs和λr是可调超参数。Lc是字幕重建损失,其是测量两个句子之间的相似性的交叉熵损失。LS是段重建损失,其是L2损失。它测量两个时间段之间的相似性。Lr是时间段回归损失,它也是一个交叉熵损失,因为我们把时间段回归看作是一个分类问题。4. 实验在本节中,我们首先描述了我们实验中使用的数据集,它是ActivityNet Captions数据集的扩展[20](第二节)。4.1)。然后,我们提出了实验设置和实施细节(第 2 节) 。4.2)。 最后, 我们 讨论了 两个单 峰(即,使用音频或视频模态进行训练)和多模态方法(第二节)。4.3)。4.1. 数据集ActivityNet Captions数据集[20]是视频中大规模密集事件字幕的基准。该数据集由20,000个视频组成,其中每个视频都用一系列时间对齐的字幕进行注释。平均而言,一个视频对应3.65个字幕。然而,除了字幕之外,当前数据集仅提供视觉帧的C3D特征[18],没有原始视频。为了获得这些视频的音轨,我们需要在YouTube上找到原始视频并下载音频特征MCRB@1B@2B@3B@4S预训练MFCC模型2.706.466.745.521.740.670.213.51CQT2.385.605.724.371.570.460.132.90SoundNet2.635.766.996.281.810.380.123.44最终模型MFCC 3.369.568.516.682.551.230.604.20CQT 3.258.977.436.342.690.930.323.63SoundNet 3.419.218.507.192.150.490.134.22表1:仅音频结果。图中显示了仅使用音频的预训练和最终模型的密集字幕结果(out 10009个视频)用于培训,3880个视频(4917个视频)用于验证。我们在整个实验中使用这些可用的训练/验证视频。4.2. 实验设置和实施细节我们遵循[12]中的实验协议来训练和评估所有模型。我们把[12]中提出的模型作为我们的基线,即,仅使用音频或视觉特征的单峰模型由于用于训练和验证的视频数量与原始数据集的差异,我们使用[12]1提供的PyTorch实现从头开始运行所有实验。所有GRURNN(音频/视频/字幕编码器和字幕解码器)的隐藏层和输出层的尺寸设置为512.我们还按照[12]构建单词词汇表(包含6,000个单词)并对单词进行预处理。训练弱监督意味着我们没有地面实况时间段。我们首先只训练字幕生成器(预训练模型),然后一起训练句子定位器和字幕生成器(最终模型)。为了训练预训练模型,我们输入整个上下文序列(假建议,S=(0. 5,1))。我们使用预训练模型的权重来初始化最终模型中的相关权重。对于预训练模型和最终模型,我们在单模态和多模态设置中训练它们。为了训练单峰模型,我们分别对音频和视频使用0.0001和0.01的初始学习率,并带有交叉熵损失。在训练我们的多模态模型时,我们将已使用预训练权重初始化的网络部分的初始学习率设置为0.0001,其他网络组件的初始学习率设置为0.01。方程中的λs和λr14都设置为0.1。我们使用动量因子为0.8的随机梯度下降来训练网络。试验. 为了测试预训练的模型,我们选择一个随机的地面实况描述以及随机的时间段,而不是整个视频,这与训练不同。对于最终模型,遵循[12],我们从15个随机猜测的时间段开始字幕生成器与上下文特征一起应用于过滤的片段以产生密集的事件字幕。通过提供的URL。 大约5,000个视频是无效的-现在可以在YouTube我们能够找到8026视频1https://github.com/XgDuan/WSDEC8915输入视频..........一大群人一个大型的军乐队走下来更多的人在玩耍融合策略MCRB@1B@2B@3B@4SMiou预训练模型乘性混合融合3.598.127.517.122.741.220.564.58-多模态上下文融合3.557.917.547.242.781.280.624.45-MUTAN融合3.718.207.717.452.921.310.634.78-最终模型乘性混合融合4.8913.9710.399.924.171.850.885.9529.87多模态上下文融合4.9413.9010.379.954.201.860.895.9829.91MUTAN融合4.9313.7910.3910.004.201.850.906.0130.02表2:融合策略。测试结果为不同的上下文融合策略,整合音频和视频模态示出了预训练和最终模型。我们使用MFCC音频功能和C3D视频功能的所有实验。模型MCRB@1B@2B@3B@4SMiou预训练模型单模态(C3D视频功能)[12]3.668.207.427.062.761.290.624.41-单峰(SoundNet音频功能)2.635.766.996.281.810.380.123.44-单模态(MFCC音频功能)2.706.466.745.521.740.670.213.51-多模式(SoundNet音频+ C3D视频功能)3.728.027.507.122.741.230.584.46-多模式(MFCC音频+ C3D视频功能)3.718.207.717.452.921.310.634.78-最终模型单模态(C3D视频功能)[12]4.8913.819.929.453.971.750.835.8329.78单峰(SoundNet音频功能)3.419.218.507.192.150.490.134.2225.57单模态(MFCC音频功能)3.369.568.516.682.551.230.604.2027.16多模式(SoundNet音频+ C3D视频功能)5.0314.2710.359.754.191.920.946.0429.96多模式(MFCC音频+ C3D视频功能)4.9313.7910.3910.004.201.850.906.0130.02表3:多模态结果。 使用MUTAN融合的单峰和多峰模型之间的比较。时间输入视频..........(a) 地面实况一台摄像机镜头对准一个坐在地上的男孩,镜头对准他骑着滑板。有几个镜头显示了人们骑在滑板上,摔倒和大笑。更多的片段显示了孩子们在滑板上表演技巧和骑着过去的相机。(b) 预训练模型(视觉)一个人坐在一个滑板上,并导致他骑在周围的几个镜头。(c) 预训练模型(音频+视觉)一个人被认为是骑在路上,跳了很长。.(d) 最终模型(视觉)一个人被认为是骑在滑板上的板和跳跃的梁。(e) 最终模型(音频+视觉)一个人被认为是骑在滑板的道路,而相机捕捉他的动作。(a) 地面实况有人看见他在一条街上走着,中间有一群人在跳舞街道一个接一个。仪器和摄像机摇镜头来捕捉它们。(b) 预训练模型(可视化)(c) 预训练模型(音频+视频)(d) 最终模型(目视检查)看到一大群人站在一大群人面前,人们看到一大群人在街上走来走去,而一群人在旁边观看。一大群人站在街上,拿着乐器站在一大群人面前。(e) 最终模型(音频+视频)一大群人站在街道周围,一群人在旁边观看一个乐队正在街上演奏乐器。图4:定性结果。预 训练和最终的模型结果都显示在两个视频中。字幕来自(a)地面实况;(b)仅使用视觉特征训练的预训练模型;(c)多模态预训练模型;(d)最终模型仅使用视频特征进行训练;(e)我们用于视频中密集事件字幕的多模态最终模型8916模型MCRB@1B@2B@3B@4S单峰(C3D)[9]7.0924.4614.7914.326.232.891.358.22多模式(SoundNet音频功能+ C3D视频功能)7.0224.2214.6614.186.132.881.417.89多模式(MFCC音频功能+ C3D视频功能)7.2325.3615.3715.236.583.041.468.51表4:具有真实时间段的结果。模型MCRB@1B@2B@3B@4S单峰(C3D)[9]4.5810.459.278.73.391.500.69-多模态(SoundNet + C3D)4.7010.329.408.953.401.530.735.51多模式(MFCC + C3D)4.7810.539.609.233.621.690.825.56表5:完整数据集上的预训练模型结果。评估指标。我们使用传统的评估指标来衡量上限结果的性能:ME-TEOR(M)[5],CIDER(C)[40],Rouge-L(R)[24],Spice(S)[1]和Bleu@N(B@N)[28]。对于分数计算,我们使用[20]2提供的官方脚本。在适当的情况下,我们使用平均交集对并集(mIoU)来衡量段定位性能。4.3. 实验结果由于音频特征可以以多种方式表示[4,30,41],因此找到最佳表示是一项挑战。我们使用不同的音频表示对预训练模型和最终模型进行实验,[19][3.1.1.表1显示了仅使用音频特征的预训练模型和最终模型的实验结果。我们可以看到,MFCC和soundNet都可以生成类似的结果。如第3.3、在多模态环境下,选择一个好的融合策略,将音视频特征结合起来是另一个关键点。表2示出了使用MFCC音频表示和C3D视觉特征的不同上下文融合技术的比较(第2.1.1节)。3.1.2)对于预训练模型和最终模型。在所有的融合技术中,我们发现MUTAN融合是最适合我们的弱监督多模态密集事件字幕任务。因此,我们决定使用MUTAN融合技术为我们的多模态模型时,比较,ING单峰选项卡. 3示出了用于在单模态和多模态方法之间进行比较的测试结果我们可以看到,我们的多模态方法(具有C3D视频功能的MFCC和SoundNet音频)在大多数评估指标中优于最先进的单峰方法[12特别是在Bleu@3和Bleu@4分数上,它分别导致9%和13%的改善通过对单模型方法的比较,我们惊讶地发现,仅使用音频特征就可以获得具有竞争力的性能。我们用GT片段训练了我们的字幕生成器结果示于表4中。我们还使用完整的数据集对预训练字幕生成器进行了实验,对于一些视频,au-2https://github.com/ranjaykrishna/densevid_evaldio数据不可用(视为缺失数据)。我们考虑零特征向量丢失的音频。结果示于表5中。此外,我们随机选择了15个验证视频,并邀请了20人进行人类评估,以比较我们的多模态模型和视觉模型。我们的多模态模型的强制选择偏好率为60.67%。图4展示了预训练模型和最终模型的一些定性结果。它显示地面实况字幕以及由单峰模型和我们的多模态模型生成的字幕。箭头段指示地面实况或检测到的时间事件段。我们利用C3D视觉功能以及音频功能。我们可以看到,我们的多模态方法优于单模态方法,无论是在字幕质量和时间段的准确性。与[12]类似,我们也有两个局限性。一个是有时我们的多模态模型不能正确地检测事件的开始。另一个是,大多数时候我们的最终模型只生成大约2个事件标题,这意味着多模态方法仍然不足以检测弱监督设置中的所有事件克服这两个局限性是我们今后工作的重点。5. 结论音频是计算机视觉社区中较少探索的模态。在本文中,我们提出了一个多模态的方法密集事件字幕在弱监督设置。我们将音频功能与视觉功能相结合,为给定的视频生成密集的事件标题。讨论并比较了不同的特征表示方法和上下文融合策略。大量的实验表明,音频功能可以发挥至关重要的作用,并结合音频和视觉模态可以实现比最先进的单峰视觉模型更好的性能。致谢:这项工作部分由Vector Institute for AI,CanadaCIFAR AI Chair , NSERC Canada Research Chair(CRC)和NSERC Discovery and Discovery AcceleratorSupplement Grants资助。8917引用[1] Peter Anderson,Basura Fernando,Mark Johnson,andStephen Gould. Spice : 语 义 命 题 图 像 帽 评 估 。 在European Conference on Computer Vi-sion,第382-398页中。施普林格,2016年。8[2] MehmetAliArabacquet , FatihOüzkan , ElifSure r ,PeterJan co vi c,andAlptekinTemizel. 使用视听特征的多模态 以 自 我 为 中 心 的 活 动 识 别 arXiv 预 印 本 arXiv :1807.00612,2018。2[3] 伊多·阿里亚夫和以色列·科恩使用波网编码器和残差网络的 端到 端多模 式 IEEE Journal of Selected Topics inSignal Processing,2019。2[4] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音网络:从未标记的视频中学习声音表示. 神经信息处理系统的进展,第892-900页,2016年二、三、八[5] Satanjeev Banerjee和Alon Lavie。Meteor:一个自动的评估指标,与人类的判断有更好的相关性. 在acl机器翻译和/或摘要的内在和外在评估措施研讨会集,第65-72页,2005年。8[6] HediBen-Younes,Re' miCadene,MatthieuCord,和Nico-las Thome.Mutan:用于视觉问答的多模态折叠融合。在IEEE国际计算机视觉会议论文集,第2612-2620页,2017年。5[7] 朱迪思·C·布朗常q谱变换的计算。美国声学学会杂志,89(1):425-434,1991年。三、八[8] Emre Cakir , Toni Heittola , Heikki Huttunen , andTuomas Virtanen. 使用多标签深度神经网络的多音声音事件检测2015年国际神经网络联合会议(IJCNN),第1-7页IEEE,2015年。2[9] KyunghyunCho,BartVanMerrieünboer,CaglarGulcehre , Dzmitry Bahdanau , Fethi Bougares ,Holger Schwenk,and Yoonge Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv:1406.1078,2014。3[10] 理查德K达文波特,查尔斯M罗杰斯,和我斯蒂尔罗斯-塞尔。类人猿的跨通道知觉。Neuropsychologia,11(1):21-28,1973. 1[11] 史蒂文·戴维斯和保罗·默梅尔斯坦。连续口语句子中单音节词识别的参数表征比较IEEE声学、语音和信号处理汇刊,28(4):357-366,1980。2[12] 段旭光,黄文兵,甘闯,王敬东,朱文武,黄俊洲视频中的弱神经信息处理系统的进展,第3063-3073页,2018年。二三六七八[13] Jiyang Gao , Chen Sun , Zhenheng Yang , and RamNevatia. Tall:通过语言查询的时间活动定位。IEEEInternational Conference on Computer Vision , 第 5267-5275页,2017年。5[14] Ruohan Gao,Rogerio Feris,and Kristen Grauman.通过观看未标记的视频学习分离物体声音。在欧洲计算机视觉会议论文集(ECCV),第35-53页,2018年。2[15] Wangli Hao,Zhaoxiang Zhang,and He Guan.整合视觉和音频提示,增强视频字幕。第三十二届AAAI人工智能会议,2018。一、二[16] Chiori Hori , Takaaki Hori , Teng-Yok Lee , ZimingZhang,Bret Harsham,John R Hershey,Tim K Marks,and Kazuhiko Sumi.基于注意力的多模态视频描述融合。在IEEE计算机视觉国际会议论文集,第4193-4202页一、二[17] 霍里,霍里,高明,蒂姆K马克斯,和约翰R赫尔希。早期和后期集成音频功能,用于自动视频描述。2017年IEEE自动语音识别和理解研讨会(ASRU),第430-436页。IEEE,2017年。2[18] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEEtransactionsonpatternanalysisandmachineintelligence,35(1):221-231,2013。四、六[19] Wenxin Jiang,Alicja Wieczorkowska,and Zbigniew WRas '.基于短时谱匹配的复调声乐器估计。计算智能基础第2,第259Springer,2009.三、八[20] Ranjay Krishna、Kenji Hata、Frederic Ren、Li Fei-Fei和Juan Carlos Niebles。视频中的密集字幕事件。在IEEE计算机视觉国际会议论文集,第706-715页,2017年
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功