没有合适的资源?快使用搜索试试~ 我知道了~
1多模态聚类网络无标签视频Brian Chen1Andrew Rouditchenko2Kevin Duarte3Hilde Kuehne4,6Samuel Thomas5,6 Angie Boggust2Rameswar Panda5,6 Brian Kingsbury5,6Rogerio Feris5,6David Harwath7James Glass2Michael Picheny8张 世富11哥伦比亚大学,2麻省理工学院CSAIL,3中佛罗里达大学,4歌德大学法兰克福5IBM Research AI,6MIT-IBM Watson AI Lab,7UT Austin,8NYU-Courant CS CDS{bc2754,sc250}@ columbia.edu,{roudi,aboggust,glass}@ mit.edu,kevinduarte@knights.ucf.edu{kuehne,rpanda}@ ibm.com,{stomas,rsferis,bedk}@ us.ibm.com,harwath@cs.utexas.edu,map22@nyu.edu摘要多模态自监督学习正受到越来越多的关注,因为它不仅可以在没有人类监督的情况下训练大型网络,还可以在各种模态中搜索和检索数据。在这种情况下,本文提出了一个框架,从一个预先训练的骨干,学习一个共同的多模态嵌入空间,除了在不同的模态共享表示,强制执行一组语义相似的stances。为此,我们扩展了实例级对比学习的概念,在训练管道中使用多模态聚类步骤来捕获模态之间的语义相似性由此产生的嵌入空间使得能够跨所有模态检索样本,即使是从看不见的数据集和不同的域。为了评估我们的方法,我们在HowTo100M数据集上训练了我们的模型,并在两个具有挑战性的领域(即文本到视频检索和时间动作本地化)中评估了其零拍摄检索能力1. 介绍为了鲁棒地学习视觉事件和概念,人类很少单独依赖视觉输入。相反,丰富的多模态环境被用于通过将多个感觉信号与各种语言表示相结合来进行理解许多最近的技术试图模仿这种范例来训练有效的计算机视觉模型,特别是那些从自然存在多种模态的视频中学习的模型[1,2,36]。在多模态视频数据上学习既有好处也有挑战。每个视频实例具有信息是有益的图1:多模态聚类网络(MCN)将对比损失与聚类损失相结合,对比损失学习特征表示在不同模态(如视频,音频和文本(蓝框))中接近描绘相同语义概念的场景切碎或油炸)。(黄色方框)。信息可在多个模态。例如,对应于视频中的口头叙述的文本信息提供了除了视觉和音频模态之外的有价值的语言模态[7,21,25]。本工作80128013集中在学习跨多个模态的联合嵌入空间的问题。考虑到来自不同模态的特征通常不具有可比性,目标是学习到公共空间中的投影,其中来自不同域但具有相似内容的特征彼此接近然而,创建有效的联合多模态嵌入空间并不容易。首先,这些模态中的每一个是不同的,即。关于其源、如何对其进行采样和处理以及其结果特征表示。此外,在真实世界的数据中,可用于从每个模态学习这些预测的监督不幸地是弱的,例如。音频序列可能与它们的视觉表示不对齐,并且相应的叙述可能存在或可能不存在于相同的时间间隔[2,32]中。为了处理这种性质的多模态数据,一些最近的方法使用对比损失[18,19]来学习例如。联合嵌入空间中的特征表示。目标是使从相同时间实例提取的样本彼此更接近,同时保持来自不同时间的样本分开。最近的工作[1,32]表明,这种训练对于大规模数据上的预训练模型是有用的,而无需额外的监督,并且所产生的模型在几个任务上实现了有竞争力的性能,例如。当在各种数据集上进行微调时在动作分类中由对比损失引起的一个这可能对学习的表示具有相当大的不利影响。在用于学习表示的不同公式中,不是比较单个实例,而是首先使用某种聚类算法创建实例的聚类[2,5,11,29]。这种方法鼓励语义上彼此相似的样本(即,相同聚类中的样本)在嵌入空间中接近。然而,如果我们对来自多模态的特征进行聚类,则这些聚类可能仅单独出现在模态内,将音频实例与音频实例、视觉对象与视觉对象等聚类。因此,将来自不同模态的实例这导致我们提出的方法,将这两种方法作为互逆信息。我们提出了一个多模态学习框架,该框架通过从视觉、音频和语言模态中训练跨模态投影头来学习联合表示,并使用大量自然叙述的视频。所提出的多模态聚类网络(MCN)采用了一种新颖的架构,将前面描述的两种表示学习范式中有前途的想法结合起来:通过实例级别的对比损失和语义一致性进行学习在集群级别。作为我们的方法的另一个新功能结果特征允许我们在线性时间内跨不同模态进行检索。图1提供了我们的方法的高级概述。为了评估我们提出的方法,我们解决了零杆学习在两个方面的挑战问题:多模态视频检索和多模态时间动作本地化。我们在HowTo100M数据集上训练系统[33]并评估其在YouCook2上的检索能力[44]和MSR-VTT [42]数据集及其在CrossTask[46]数据集和Mining YouTube [26]数据集上的时间动作分割任务仅使用来自预先训练的骨干的特征,MCN在召回率上显著优于绝对3%的最佳文本到视频检索基线,并且优于3的时间动作定位基线。1%的召回率,都是在零触发设置下。捐款. 这项工作的贡献有三-倍:(i)我们提出了一种新的方法,通过结合对比损失和聚类损失的多模态联合空间学习的好处。与以前的作品,使用单独的方式创建集群,我们的方法显示了使用多模态联合集群的重要好处。(ii)我们表明,该模型可以在联合空间中跨三种模式(视频,音频,文本)进行学习。(iii)我们展示了显着的性能增益多个下游任务中这些结果表明,学习的公共空间表示可以改善最先进的结果,而无需对目标数据集进行任何额外的训练2. 相关工作从多模态数据中学习。当前的方法不是收集新的注释数据集[12,38当特定的语言资源(如自动生成的语音识别字幕)在叙事视频数据集中可用时,如How2 [39]或HowTo100M [33],则使用利用这些资源的适当代理任务这种视觉字幕对最近已被广泛用于视觉和语言任务中的自监督模型[3,16,17,28,31,35,40,45]。在其它方法如[2,6,8,21,30,37],通过仅使用相应的原始语音信号来避免对这些语言转录本的需要最近,从叙述视频以及生成的语音字幕中从头开始训练的模型也已成功开发[32]。在视频中自然存在的三种形式,视觉,音频和语言流,通过[1]中的这种学习框架的多模态变体与这些作品不同的是,本文的目标是学习联合EM-8014∈T∈A∈Vi=1∈∈A → T →∈{}∈ V ×A×TV →图2:跨域群集与联合聚类。(a)以前的方法,如XDC执行聚类在分离的空间,并使用伪标签作为监督其他领域。(b)我们的方法在联合空间中从不同模态的特征进行聚类,以学习多模态聚类。最好用彩色观看。在三个模态子中嵌入零激发多模态下游任务,其中我们创建了一个嵌入空间,不同模态子上的特征是直接可比较的。对比学习几种最先进的图像自监督表示学习方法的核心技术是实例对比学习[13,22]。在该范例中,模型被训练以放置从相同实例提取的样本,例如,图像的变换或裁剪彼此靠近,同时将来自不同实例的样本推得更远。鉴于其与噪声对比估计(NCE)的相似性,只要两个样本来自不同的时间段,它们就会被视为一个负对,在MIL-NCE [32]中,多实例学习和NCE的优点结合在一起。这种方法的优点是,它现在允许补偿在视频和对应的文本字幕中固有地发现的未对准。上述逐实例对比学习的一个固有缺点是,当构建正对和负对时,它对样本之间的固有语义相似性是不可知的在我们的工作中,我们缓解了这个问题,通过放宽跨模态的语义级相似性的实例级相似性,通过引入一个聚类组件,学习语义相似性多模态实例批内。深度无监督聚类。考虑到高昂的成本为了计算大数据集中的所有成对比较,不是将上面讨论的对比学习范例应用于每个单独的实例,更实际的解决方案是在训练期间区分实例组。这是通过首先预训练模型以在简单的级联方法中导出数据的合适特征表示来保持表示固定,然后使用聚类算法对实例进行分组,然后使用派生的类分配作为监督来更新模型的权重[10,43]。相比之下,代替保持聚类步骤独立于表示学习阶段,最近的技术联合学习视觉嵌入和聚类分配[5,6,11,41]。虽然这两种方法都可以通过整合整个数据集的全局信息来产生可解释的聚类结果,从而使下游任务受益,但在大型数据集上运行聚类算法会减慢训练速度。然而,这个问题可以通过以在线方式执行聚类来解决[11]。这些在线模型同时学习聚类和表示图像数据。然而,为了提高聚类的性能,利用叙事视频中存在的各种模式中可用的相关但非常互补的信息也是至关重要的[5]。为了学习更好的音频和视频特征提取器,最近的作品XDC [2]和SeLaVi [5]将这种聚类思想扩展到多模态空间。虽然这些方法专注于学习更好的特征提取器为每个域分别,我们的目标是学习一个联合多模态嵌入丁。如图2所示,这些跨域聚类方法(左)创建单独的聚类,并使用跨域伪标签作为每个特征提取器的监督。相比之下,我们的模型(右)创建了一个跨所有模态的公共嵌入空间,并联合执行聚类。3. 学习聚类多模态数据为了有效地从未标记的叙述视频构建联合表示空间,我们从n个叙述视频剪辑开始。每个视频剪辑与其对应的视觉表示、音频表示和文本叙述相关联。给定该输入,学习联合嵌入空间,其中具有语义相似的视觉、音频和文本内容的视频剪辑的嵌入彼此接近,并且当内容不相似时彼此分开,如图1所示。使用[32]中的符号,对于每个剪辑,让视频v表示其视觉表示,a表示其对应的音频,t表示使用自动语音识别(ASR)系统生成的其匹配的文本叙述给定一组相关联的视频、音频和文本叙述的n元组(vi,ai,ti)n()n,如图1所示。在图3(a)中,我们首先构造三个参数化映射从原始视频、音频和文本信号导出嵌入表示。 变换f:Rd导出d维嵌入表示f(v)从视频剪辑v中提取的音频和文本,变换g:Rd和h:Rd,产生类似的d维音频和文本嵌入:g(a)=zRd和h(t)Rd. 在这项工作中,f将从固定长度剪辑中预提取的2D和3D特征作为输入,g的输入是从音频片段中提取的对数梅尔频谱图,并且对于h,我们使用基于句子的神经模型,该神经模型将一组单词转换为单个向量。关于模型架构的更多细节在第4节中。接下来,我们引入三个损失函数来引导和正确地定位这些嵌入在联合嵌入空间中。8015ΣΣ一个--JΣ图3:我们提出的框架的说明。 我们的框架包括四个部分:(a)从几个模态中提取特征并将其投影到关节空间。(b)成对计算对比损失,以跨模态拉近特征。(c)在批处理中跨来自不同域的特征执行多模态聚类。(d)跨多模态质心的特征执行联合预测,以将语义相似的嵌入放在一起(e)正则化的重建最好用彩色观看。对比损失LMMS用于确保来自三种模态中的每一种的表示是可比较的。一单独损耗Lta又给出为:二次聚类损失L集群鼓励陈述BLta=−B日志eh(ti)·g(ai)−δBKΣ(3)从所有模态的语义相似的样本到在学习的嵌入空间中保持接近第三次重新--i=1eh(ti)·g(ai)−δ+eh(timp)·g(ai)k=1̸施工损失L重建规范多模态K=I.h(t)·g(a)−δΣΣ更稳定的聚类训练的共同空间特征。最终的模型被训练以最小化这些损失的总和。+logeih(t)·g(a)−δ我ΣBh(t)·g(aim p)ei i+eijj=1j=iL=L个MMS+L个集群+L个重建(1)3.1. 学习联合空间为了学习三种模态的关节空间,我们计算所有模态对(v,t)、(t,a)、(a,v)上的对比损失,如图3(b)所示这种损失最大化了对应于来自相同实例(视频剪辑)的任何两种模态的表示之间的相似性,同时最小化了来自两种模态的冒名顶替者对从视频的一个剪辑到另一个的相似性。在这项工作中,我们使用了Masked Margin Softmax(MMS)函数[24],该函数根据批次B内学习到的嵌入向量的点积定义了来自两种模态的表示之间的相似性来自三种模态V、A、T中的每一种的特征针对每个批次进行组装。总对比损失LMMS是使用三种模态中的每一种的成对损失的总和:LMMS=Lta+Lvt+Lva(2)其中,Lta、Lvt、Lva分别表示与成对模态(t,a)、(v,t)、(a,v)相关联的损失。对于一对模态,例如文本模态和音频模态,可以使用其中IMP表示来自两个模态的冒名顶替者对,所述冒名顶替者对从一批中采样但不同时出现。如可以在Lta情况中看到的,该损失试图在每个批次内区分正或真嵌入对和冒名顶替者或负对。使用两个单独的部分,分别枚举阳性和阴性样本的空间:在一种情况下,给定文本样本与各种否定音频样本配对。在第二种情况下,音频样本与各种否定文本样本配对。(i,j,k)是给定批次中的视频剪辑的各种索引。δ是凭经验选择的裕度超参数。通过将所有特征投影到相同的空间并确保它们的相似性被成对地最大化,成对对比损失的这种公式化确保了跨不同模态的特征是可比较的。3.2. 聚类多模态特征为了确保语义相关的实例的表示在学习的联合多模态空间中接近,除了上述对比损失之外,还包括自监督聚类步骤作为训练过程的一部分。在线K-means聚类我们应用标准的聚类算法k-means,该算法以一组向量作为输入,在80161BΣΣh(t)·µ三角形矩阵C=µ1,..,µ k和群集分配每个多模态实例n的Lv′=−B在我们的情况下,由融合的多模态特征产生的特征M:M=( f ( v ) +g ( a )+h ( t ) ) /3(4)我们把它们聚在一起分 成 k 个 不 同 的 组 。 更 准 确 地 说 , 它 输 出 一 个d×kcen。--一般化[27]。我们在来自三种模态的公共空间特征之上执行重建损失,以在聚类期间稳定特征训练。对于每种模态,例如视觉模态,个体损失Lv’又被给出为:ΣBi=1以下问题:N其中f’(v)表示通过馈送的重构特征将V分成两个线性层作为编码器和解码器。然后我们min1ΣminM−Cy(五)对每个模态的损失求和:C∈Rd×kNn=1n n2yn∈{0,1}kL重构=Lv′+La′+Lt′(9)然后我们得到一个质心矩阵C*和一组赋值(yn*)n≤N。与仅使用赋值(标签)的基于伪标签的方法[10]不同,我们使用使用质心矩阵进行语义学习。为了覆盖用于聚类的变体语义信息,我们使用来自先前批次的特征来收集足够的实例用于在线学习。语义质心学习 学习更接近其多模态语义质心的特征。我们建议使用质心作为对比损失参考目标。该目标将来自三个模态的特征拉得更靠近接近其多模态实例特征Mn的质心,并且将特征推得远离另一质心。对于每个模态,例如文本模态,个体损失Lt又被给出为:4. 实验4.1. 实现细节对于所提出的MCN模型的视觉分支,我们遵循[33]并使用来自在ImageNet [15]上训练的ResNet- 152模型[23]的预训练2D特征以每秒一帧的速率提取特征,以及来自在Ki- netics [12]上训练的ResNeXt-101模型[20通过将2D和3D特征连接到4096维向量中并随时间最大池化特征来计算视频剪辑特征。对于网络的音频分支,我们计算log-mel频谱图并使用预先训练的DAV-Enet模型[21]来提取音频特征。对于文本分支,[33]中提出的特征提取过程是Lt=−1Bi=1日志eh(ti)·μ′−δKeikk=1(六)用于提取文本表示:GoogleNews预先训练的Word2vec模型[34]提供了单词嵌入,然后是给定句子中单词的最大池化其中μ’是多模态实例特征Mi和μ’的最近质心。我们稍后对来自三种模态的损失进行求和:L簇=Lv+La+Lt(7)最后,投影的特征学习更接近其质心特征之间的三个,也学习更接近相似的语义。多模态特征重构。重建可以帮助捕获被对比学习/聚类抑制的特征[14]。在切洋葱的视频中,在背景中具有切洋葱的声音以及在前景中具有单词onion的语音/文本两者的情况下,对比学习/聚类可能将更多地集中于将视频与声音(背景)或语音(前景)相关联我们假设重建损失将迫使从背景和前景中捕获重建也是一项辅助工作,有助于正规化训练和提高来提取句子嵌入。请注意,所有骨干都是固定的,并且在训练期间不会进行微调。每个特征提取分支之后是单独的全连接层和用于在公共嵌入空间中投影特征的门控单元。为了允许成对比较,来自每个不同模态的特征被设置为4096维向量。更多细节可以在补充中找到。4.2. 数据集训练数据集。我们的模型在HowTo100M [33]教学视频数据集上进行训练,该数据集包含120万个视频及其相应的音频,包括语音和环境声音以及自动生成的语音转录。下游数据集。YouCook2[44]数据集包含3.5K烹饪指导视 频 剪 辑 , 其 中 包 含 从 YouTube 收 集 的 文 本 与Howto100m数据集不同,YouCook2中的文本描述是人工注释的。MSR-VTT[42]数据集包含关于各种主题的200 K人类注释视频剪辑-字幕对。我们使用相同2f′(v)−f(v)8017DYouCook2 MSRVTT方法Mod型号TRR@1 R@5 R@10R@1 R@5 R@10随机--0.030.150.30.010.050.1米耶赫[33]VTR152+RX101N6.117.324.87.219.228.0MDR [3]VTR152+RX101N---8.021.329.3MIL-NCE*[32]VTR152+RX101N8.123.332.38.423.232.4MCN(我们的)增值税R152+RX101N18.135.545.210.525.233.8MDR [3]VTR152N---8.422.030.4ActBERT [45]VTR101+Res3DN9.626.738.08.623.433.1SSB [35]VTR(2+1)D-34+R152N---8.723.031.1MMV FAC [1]增值税TSM-50x2Y11.733.445.49.323.031.1MIL-NCE [32]VTI3D-GY11.430.642.09.422.030.0MIL-NCE [32]VTS3D-GY15.138.051.29.924.032.4表1:文本到视频检索系统的比较Mod表示使用的模态,其中V:视频,A:音频,T:短信了TR指示是否使用可训练骨干。CrossTask MYT方法Mod型号TR召回IOD IOU召回IOD IOU跨任务[46]VTR152+I3DN22.4-----跨任务[46]VTR152+I3DN31.6-----[26]第二十六话VTTSNN- ---14.5 7.8[26]第二十六话VTTSNN- ---19.2 9.8米耶赫[33]VTR152+RX101N33.626.6 17.515.017.2 11.4MIL-NCE*[32]VTR152+RX101N33.230.2 16.314.926.4 17.8MCN(我们的) 增值税R152+RX101N35.133.6 22.218.132.0 23.1ActBERT [45]VTR101+Res3DN37.1-----ActBERT [45]VT+ Faster R-CNN N41.4-----MIL-NCE [32]VTI3D-GY36.4-----MIL-NCE [32]VTS3D-GY40.5-----表2:时间动作定位系统的评估在我们的实验中,使用[33]中构建的1 K视频剪辑-字幕对测试集。CrossTask[46]数据集包含2.7K涵盖各种主题的教学视频。每个任务的操作步骤和顺序都是从wikiHow文章中收集的,每个帧都有手动注释MiningYoutube[26]数据集集中于五个简单菜肴的YouTube视频。测试集包含250个烹饪视频,每个任务50个,这些视频都有密集的注释,即每个帧用其各自的动作类来标记。4.3. 下游任务为了证明所提出的模型的有效性,我们在两个下游任务中评估了从网络中得出的嵌入:文本到视频检索和时间动作定位。我们专注于zero-shot任务,因为我们想要访问在训练期间学习的跨模态语义嵌入的质量。当使用我们的模型进行检索时,我们通过计算两者的相似度并使用平均值来比较查询文本对于动作定位,我们计算每个帧的视频-音频对到每个相应的标签嵌入的相同距离,并且因此能够将视频帧与所提供的动作步骤中的每一个对齐。文本到视频检索。这个任务的目标是给定其地面实况文本查询描述,来自视频池的匹配视频。 该模型在两个视频描述数据集上进行测试,并在召回指标上进行评估:R@1、R@5、R@10。这些评估用于证明对比损失的有效性和学习的联合嵌入空间跨越三种模态。文本到完整视频检索。传统的文本到视频检索任务尝试将字幕(或地面实况文本查询)与单个视频剪辑匹配。由于单个标题可以引用数据集中的许多单独剪辑,因此该任务是有限的。为此,我们提出了文本到完整视频检索的任务,其目标是匹配一组描述视频的多个部分的字幕(或文本查询)到整个视频。这是比单个剪辑检索更现实的任务,因为各种现实世界应用需要从复杂的文本查询中检索完整的视频。我们使用召回指标对YouCook2数据集进行评估:R@1、R@5、R@10。时间动作定位。我们进一步评估我们的模型上的两个时间动作定位任务。CrossTask [46]数据集考虑剪辑级动作检测的任务这里,针对同一视频的一组剪辑给出了一组无序的动作标签,并且必须用相应的动作标签对剪辑进行分类。性能报告为召回率,并计算为正确预测的剪辑与视频中剪辑总数的比率,如[46]中所MiningYoutube [26]数据集考虑了帧级时间动作分割的任务。这里,每个测试视频都提供了相应的动作及其顺序,包括背景。目标是找到给定动作顺序的视频的正确的逐帧分割我们遵循[26]中列出的推断程序来计算给定相似性输入矩阵的比对。数据集采用两个评估指标:交集大于检测(IoD)[9],定义为G∩D:地面真实动作G和预测D的交集与预测D之间的比率,以及Jaccard指数,这是一个交集大于并集(IoU),给定为G∩D。G∪D4.4. 与最先进方法的零镜头视频检索。 我们首先检查YouCook 2和MSR-VTT数据集上的文本到视频检索任务的结果(表1)。我们只与未在相应数据集上进行微调的基线模型进行比较,以进行公平比较。为了允许不同方法之间的可比性,我们尽可能使用如[33]中所述的固定视觉特征提取主干。对于基线MIL-NCE*[32],我们将他们的训练策略应用于我们使用的相同视觉特征集ResNet-152( R152 ) 和 ResNeXt-101 ( RX 101 ) [33] 。 在YouCook2上,我们的模型显著优于相同架构上的先前作品,并且与具有可训练视觉骨干(TR)的模型相比,显示出甚至具有竞争力的结果我们的方法在MSR-VTT上的表现也优于其他基线收益是,8018CrossTask方法NMI↑ ARI↑ Acc.↑ H随机3.2 3.2 9.4 1.30 47.5MCN(我们的)65.5 48.5 57.6 0.34 83.8表3:通过视频片段上的GT文本注释评估的CrossTask数据集上的聚类度量的性能然而,没有YouCook2上显著。我们把这归因于这样一个事实,即既不是可用的音频,也不是文本描述是教学性质,因此,语义-表4:YouCook2数据集上的文本到完整视频检索系统的比较预测列表示用于获得视频级预测的方法:剪辑上的多数投票(MV-Clip)、视频上的多数投票(MV-Video)和字幕平均(Caption Avg.)。cally远离我们的训练集。零镜头动作定位。我们在表2中检查了CrossTask和MiningYouTube数据集上的 动作本地化任务。对 于CrossTask,给定视频中的每一帧,我们对给定的标签执行零次分类并计算召回率。在这种零拍摄设置中,模型计算视频文本相似性以定位类似于[33]的动作步骤标签。我们的方法优于最先进的自监督学习方法[32,33]和完全监督方法[46],特别是在IOU和IOD指标中,该指标还将来自背景类的假阳性预测视为行动步骤。[33]和MIL-NCE* [32]中的方法与我们的方法直接可比,因为它们使用与我们相同的特征提取器。相比之下,MIL-NCE [32]使用更强的视频骨干,[45]使用其他特征模态,例如区域特征以及更强的语言模型。我们还在MiningYoutube [46]时间动作本地化基准上评估了我们的模型。我们的方法在自监督[32,33]和弱监督[26]学习方面都优于最先进的方法更多的设置,包括每个模型的数据和计算资源,在补充。聚类度量。我们进一步评估我们的系统相对于[5]提出的各种聚类度量结果示于表3中。每个指标的定义都包含在附录中。它表明,我们学习的多模态特征更接近地面实况分布,并且在集群内具有更高的纯度。4.5. 全视频检索为了解决从一组字幕中检索完整视频的问题,我们将每个视频分成一组剪辑,与查询进行比较。我们评估三种不同的方法:在剪辑预测的多数投票中,我们获得每个剪辑/字幕对的前k个预测作为投票,并选择具有多数投票的视频。对于视频上的多数投票,针对每个字幕采取视频的所有剪辑上的最大预测以获得损失YR10MR10CTR MYT-IOUNCE39.233.533.921.5MIL-NCE40.033.033.721.1MMS43.732.934.322.1MMS +集群44.333.734.522.6MMS+集群+重构45.233.835.123.1表5:对不同损失的消融研究,包括对比学习损失、附加聚类和重建损失的选择。视频/字幕对。然后,选择这些预测的前k个作为投票,并且预测具有最多投票的视频。最后,我们的字幕平均方法涉及获得最大的预测超过所有的视频剪辑是采取每个字幕,然后平均在一个查询中的字幕集。这给出了针对整个视频的单个预测。我们在YouCook2数据集上检查了文本到完整视频检索任务的结果(表4)。在获得完整视频预测的三种方法中,字幕平均比两种多数投票方案都获得更好的结果。此外,我们发现,我们的方法优于以前的工作在这个任务上的R@1的 6.8%的改进由于我们获得了完整的视频预测,因此我们还使用子任务标签集作为查询字幕集对CrossTask数据集执行全视频分类,其中我们实现了68.7%的前1准确率。4.6. 消融研究为了更好地理解用于构建所提出的MCN模型的各种算法设计选择的贡献,我们对以下下游任务进行了一组消融研究:YouCook 2 R@10(YR 10)、MSR-VTTR@10(MR 10)、CrossTask平均召回率(CTR)和Min-ingYoutube IOU(MY-IOU)。对于每种设置,我们使用第4.1节所述的三种模态的相同特征提取器进行公平比较。补充中有更多消融。方法预测R@1R@5R@10随机-0.231.152.32MCN(我们的)MV-Clip38.867.476.8MCN(我们的)MV视频38.867.778.4MCN(我们的)标题平均值53.475.081.4Miech等人[33个]标题平均值43.168.679.1MIL-NCE*[32]标题平均值46.674.383.7Miech等人[33] 61.846.157.0 0.3981.5MIL-NCE* [32] 62.045.656.7 0.3782.48019图4:YouCook2上文本到视频检索任务的定性结果排名靠前的剪辑显示出与所描述的任务以及彼此之间的高相似性,而不会在视觉上过于相似。通过明确地鼓励来自不同域的语义上接近的特征聚集在一起来提高性能。4.7. 定性分析我们对模型进行定性分析,以进行零镜头文本到视频检索,如给定一个开放式词汇表标题,我们的模型可以检索图5:CrossTask数据集上“Make French Toast”任务的t-SNE可视化最好用彩色观看。方法目标标签YR10MR10CTR MYT-IOUSinkhorn交换硬39.033.433.621.1Sinkhorn交换软41.833.934.522.1Sinkhorn联合硬44.433.434.621.1Sinkhorn联合软43.632.434.121.6K-means交换硬41.332.833.221.0K-means联合硬44.333.134.621.4K-means质心硬45.233.835.123.1表6:使用各种方法、损失预测目标和标签类型对不同聚类管道的消融研究选择不同的损失。在我们的第一组实验中,我们发现所提出的聚类不仅对于聚类相关任务而且对于检索(MSR-VTT)任务都是至关重要的,如表5所示。这验证了我们的假设,语义上接近的实例应该紧密地聚集在联合嵌入空间。此外,对比损失(MMS)的选择在我们的模型中显示出更好的结果。聚类方法的不同选择。我们评估了(1)选择不同的聚类方法,如Sinkhorn聚类[6]和K-means [4]的性能。(2)不同的预测目标,例如使用交换预测,其使用其他模态的伪标签用于预测目标,如[11,2]。或者使用平均特征伪标签作为三种模态的联合预测此外,使用聚类的质心作为目标。(3)不同的预测标签,包括硬标签(独热)或软标签(连续)。详细说明见补充说明。如表6所示,我们的方法鼓励每个模态特征移动到更接近语义质心,这提高了正确的对应视频段。我们还可视化的功效,使用多模态嵌入(级联的视频和音频表示),仅使用视觉嵌入。来自CrossTask数据集的表示使用t-SNE图可视化。我们观察到,对于如图5(b)所示的多模态特征,语义相关的实例(基于地面实况类)往往比从对比度损失训练的单模态视觉特征更紧密地(a)看起来更分散。此外,多模态特征对于不同的动作显然更可分离。5. 结论我们开发了一种新的自监督多模态聚类网络,通过处理多模态数据中存在的局部(通过对比损失)和全局(通过聚类损失)语义关系来学习一个共同的多模态聚类网络是在没有任何手动注释的情况下在大型叙事视频语料库上训练的我们在多个数据集上的广泛实验表明,创建一个具有聚类损失的联合视频-音频-语言嵌入空间我们的方法可以扩展到更多的模态,如光流或情感特征,并应用于其他多模态数据集,用于学习联合表示空间,而无需人工注释。鸣谢:我们感谢IBM向麻省理工学院捐赠Satori GPU集群。这项工作由IARPA通过DOI/IBC合同号D17 PC 00341支持。美国政府被授权为政府目的复制和分发重印本,尽管其上有任何版权注释。免责声明:本文所载的观点和结论是作者的观点和结论,不应被解释为必然代表IARPA,DOI/IBC或美国的官方政策或认可,无论是明示或暗示。政府的8020引用[1] Jean-BaptisteAlayrac 、 AdriaRecasens 、 RosaliaSchneider 、 Relja Arandjelovic 、 Jason Ramapuram 、Jeffrey De Fauw 、 Lu-cas Smaira 、 Sander Dieleman 和Andrew Zisserman 。 自 监 督 多 模 态 通 用 网 络 。 在NeurIPS,2020年。一、二、六[2] Humam Alwassel 、 Dhruv Mahajan 、 Bruno Korbar 、Lorenzo Torresani、Bernard Ghanem和Du Tran。跨模态音视频聚类的自监督学习。在NeurIPS,2020年。一二三八[3] Elad Amrani 、 Rami Ben-Ari 、 Daniel Rotman 和 AlexBronstein。用于自监督多模态学习的使用密度估计的噪声估计。在AAAI,2021年。二、六[4] 大卫·亚瑟和谢尔盖·瓦西里茨基。k-means++:仔细播种的优点。技术报告,2006年。八个[5] 浅野由纪,曼德拉·帕特里克,克里斯蒂安·鲁普雷希特,安德里亚·维达尔迪.通过多模式自我监督从头开始标记未标记的视频。在NeurIPS,2020年。二、三、七[6] Yuki Markus Asano , Christian Rupprecht , and AndreaVedaldi. 通过同时聚类和表示学习的自标记在ICLR,2020年。二、三、八[7] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴看,听,读 : 深 度 对 齐 表 示 。 在 arXiv 预 印 本 arXiv :1706.00932,2017。一个[8] Angie Boggust,Kartik Audhkhasi,Dhiraj Joshi,DavidHar- wath , Samuel Thomas , Rogerio Feris , DanGutfreund , Yang Zhang , Antonio Torralba , MichaelPicheny,et al.在未标记的视频中接地口语单词。在CVPRW,2019年。二个[9] Piotr Bojano wski,Re'mi Lajugie,Francis Bach ,Iv anLaptev,Jean Ponce,Cordelia Schmid和Josef Sivic。排序约束下视频中的弱监督动作标注2014年,在ECCV。六个[10] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类在ECCV,2018。三、五[11] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在NeurIPS,2020年。二、三、八[12] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。二、五[13] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐和杰夫·弗雷·辛顿.视觉表征对比学习的一个简单框架。在ICML,2020。三个[14] 陈婷和李拉拉。对比损失的有趣特性。在arXiv预印本arXiv:2011.02803,2020。五个[15] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei.Imagenet:一个大规模的分层图像数据库。CVPR,2009。五个[16] Jianfeng Dong , Xirong Li , Chaoxi Xu , Xun Yang ,Gang Yang,Xun Wang,and Meng Wang.基于文本的视频检索的双重编码在IEEE Transactions on Pattern Analysisand Machine Intelligence。IEEE,2021。二个[17] Valentin Gabeur , Chen Sun , Karteek Alahari , andCordelia Schmid. 视 频 检 索 的 多 模 态 Transformer 。 在ECCV,2020年。二个8021[18] MichaelGutmann和AapoHyv¨rinen。Noise-Contrastiveestimation : A new estimation principle forunnormalized statistical models. AISTATS,2010年。二个[19] Raia Hadsell,Sumit Chopra,and Yann LeCun.通过学习一个不变映射来降低维数. CVPR,2006。二个[20] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗?在CVPR,2018年。五个[21] David Harwath、Adria Recasens、D´ıdac Sur´ıs、GalenChuang、Ant
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功