没有合适的资源?快使用搜索试试~ 我知道了~
自我监督学习对于大规模未标记数据的利用至关重要
1不输入文本给牛排调味,盐和胡椒粉小心地把牛排翻到到锅里。另一边现在让它休息和享受美味的牛排视频BERT输出视频VideoBERT:一个视频和语言表示学习Chen Sun、Austin Myers、Carl Vondrick、Kevin Murphy和CordeliaSchmid输入视频输出视频期货视频BERT图1:VideoBERT文本到视频生成和未来预测。(上图)给定一些分成句子的食谱文本,y=y1:T,我们通过计算xx=arg maxkp(x t=k)来生成视频令牌序列x = x 1:T|y)使用VideoBERT。(下图)给定一个视频代币,我们展示了VideoBERT在不同时间预测的前三个未来代币鳞片在这种情况下,VideoBERT预测一碗面粉和可可粉可能会在烤箱中烘烤,并可能成为布朗尼或纸杯蛋糕。我们可视化视频令牌使用的图像从训练集最接近的特征空间中的质心摘要自我监督学习对于利用YouTube等平台上丰富的未标记数据变得越来越而大多数现有的方法学习低层次的表示,我们提出了一个联合的视觉语言模型来学习高层次的功能,没有任何明确的监督。特别是,受其最近在语言建模方面取得的成功的启发,我们建立在BERT模型的基础上,学习视觉和语言令牌序列的双向联合分布,这些令牌分别来自视频数据的矢量量化和现成的语音识别输出我们将VideoBERT用于许多任务,包括动作分类和视频字幕。我们证明了它可以直接应用于开放词汇分类,并确认大量的训练数据和跨模态信息对性能至关重要此外,我们在视频字幕上的表现优于最先进的技术,定量结果验证了该模型能够学习高级语义特征。1. 介绍深度学习可以从标记数据中受益匪浅[24],但这很难大规模获得。因此,最近人们对“自我监督学习”很感兴趣在图像和视频领域中已经提出了各种各样的这样的代理任务。然而,这些方法中的大多数集中在低级别特征(例如,纹理)和短时间尺度(例如,持续一秒或更短的运动模式)。我们有兴趣发现与在较长时间尺度上展开的动作和事件相对应的高级语义特征(例如,分钟),因为这样的表示对于各种视频理解任务将是有用的。在本文中,我们利用关键的洞察力,人类语言已经演变的话来描述高层次的对象和事件,从而提供了一个自然的“自我”监督的来源。特别是,我们提出了一种简单的方法来模拟视觉域和74647465输入文本将白菜切成小块,放入锅中,加入酱油和... 片.然后翻炒然后继续翻炒放在盘子里,现在可以上菜了视频BERT输出视频输入视频输出视频期货视频BERT图2:VideoBERT的其他文本到视频生成和未来预测示例,有关详细信息,请参见图1通过结合三种现成的方法来扩展语言领域:将语音转换为文本的自动语音识别(ASR)系统;应用于从预训练视频分类模型导出的低级时空视觉特征的矢量量化(VQ);以及最近提出的BERT模型[6],用于学习离散令牌序列上的联合分布。更准确地说,我们的方法是应用BERT学习形式p(x,y)的模型,其中x是“视觉单词”的序列有了这样一个联合模型,我们可以轻松地处理各种有趣的任务。例如,我们可以执行文本到视频的预测,它可以用来自动说明一组指令(如食谱),如图1和图2的顶部示例所示。我们还可以执行更传统的密集视频字幕的视频到文本任务[10],如图6所示。 在第4.6节中,我们证明了我们的方法在YouCook II数据集[38]上,视频字幕的表现明显优于之前的最新技术[39我们也可以以“单峰”的方式使用我们的模型例如,隐含的边缘分布p(x)是视觉词的语言模型,我们可以用它来进行长期预测。这在图1和图2的底部示例中示出。当然,存在关于未来的不确定性,但是该模型可以在比用于视频的其他深度生成模型(诸如基于VAE或GAN的那些模型)高得多的抽象级别上生成合理的猜测(参见例如,[4,5,13,27]),其倾向于预测场景的低水平方面的小变化,诸如少量对象的位置或总之,我们在本文中的主要贡献是一个简单的方法来学习高层次的视频表示,捕捉语义上有意义的和时间上的长程结构。本文的其余部分将详细描述此连接。特别是,第2节简要回顾了相关工作;第3节描述了我们如何将自然语言建模的最新进展适应于视频领域;第4节介绍了活动识别和视频字幕任务的结果;第五节结束。2. 相关工作监督学习。用于视频表示学习的一些最成功的方法已经利用了大的标记数据集(例如,[9,19,36,7])来训练卷积神经网络用于视频分类。然而,收集这样的标记数据是非常昂贵的,并且相应的标记词汇表通常很小并且不能表示许多种类的动作的细微差别(例如,“啜饮”与“饮用”略有不同,“饮用”与“吞咽”略有不同)。此外,这些方法被设计用于表示通常为几秒钟长的短视频剪辑。我们工作的主要区别在于,我们专注于视频中事件的长期演变,并且我们不使用手动提供的标签。无监督学习最近,已经提出了各种从视频学习密度模型的方法。一些使用单个静态随机变量,然后最近的工作使用时间随机变量,例如,[5]的SV2P模型和SVGLP模型。还有各种基于GAN的方法,例如[13]的SAVP方法和[27]的 MoCoGAN我们与这项工作的不同之处在于,我们使用BERT模型,没有任何显式的随机潜变量,适用于从视频中获得的视觉令牌。因此,我们的模型不是像素的生成模型,但它是从像素导出的特征的生成模型,这是已经在其他工作中使用的方法(例如,[30])。自我监督学习。为了避免学习联合模型p(x1:T)的困难,学习形式为p(x t+1:T)的条件模型已经变得流行|x1:t),其中我们将信号划分为两个或更多个块,例如灰度7466L比例和颜色,或前一帧和下一帧(例如,[18]),并尝试从另一个预测(例如,[23]为一个概述)。我们的方法是类似的,除了我们使用量化的视觉词而不是像素。此外,尽管我们学习了一组条件分布,但我们的模型是一个适当的联合生成模型,如第3节所述。跨模式学习。视频的多模态性质也是学习视频表示的广泛监督来源,我们的论文就是基于此。由于大多数视频包含同步的音频和视觉信号,这两种模态可以相互监督,以学习强大的自我监督视频表示[3,20,21]。在这项工作中,我们使用语音(由ASR提供),而不是低级别的声音作为跨模态监督的来源。自然语言模型。我们以NLP社区的最新进展为基础,其中ELMO [22]和BERT [6]等大规模语言模型已经显示了各种NLP任务的最新结果,无论是在单词级别(例如,POS标记)和句子级别(例如,语义分类)。BERT模型然后扩展到多语言数据上的预训练[12]。我们的论文建立在BERT模型的基础上,以捕捉结构在语言和视觉领域。图像和视频字幕。最近已经有很多关于图像字幕的工作(参见例如, [11,8,15]),这是一个模型的形式p(y|x),其中y是手动提供的字幕,x是图像。也有一些使用手动提供的时间分割或估计的分割(参见例如,[10,39])。我们使用我们的联合p(x,y)模型并将其应用于视频字幕,并获得了最先进的结果,如我们在4.6节中讨论的。教学视频。各种文件(例如,[16,2,10,38,39])已经训练了模型来分析教学视频,例如烹饪。我们与这项工作的不同之处在于,我们不使用任何手动标记,并且我们学习了单词和(离散化)视觉信号的大规模3. 模型在本节中,我们简要总结了BERT模型,然后描述我们如何将其扩展为对视频和语言数据进行联合建模。3.1. BERT模型BERT [6]提出通过使用在更详细地,令x={x1,. . .,xL}是一个离散的拓扑集,xl∈ X. 我们可以定义这个集合上的联合概率分布如下:其中φl(x)是第l个θ,Z是配分函数。上述模型是置换不变的。为了捕捉顺序信息,我们可以BERT模型学习每个单词标记以及这些标记的嵌入,然后对嵌入向量求和以获得每个标记的连续表示。每个位置的对数势能(能量)函数定义为:logφ l(x|θ)= x Tf θ(x\l)其中xl是第l个x|l=(x1,. . . ,x l−1,MASK,x l+1,. . . (x L)函数f(x\l)是一个多层双向变换器模型[28],它采用L×D1张量,包含对应于x\l的D1维嵌入向量,并返回L×D2张量,其中D2是每个Transformer节点输出的大小详情见[6]该模型被训练为近似最大化伪对数似然ΣLL(θ)= E xDlog p(x l|x\l; θ)l=1在实践中,我们可以通过采样位置和训练句子来随机优化logloss(从fBERT可以扩展为通过将两个句子连接在一起来对它们进行建模。然而,我们通常不仅对简单地对扩展序列建模感兴趣,而且对两个句子之间的关系感兴趣(例如,这是一对连续的或随机选择的句子)。BERT通 过 在 每 个 序 列 前 面 加 上 一 个 特 殊 的 分 类 标 记[CLS],并通过用一个特殊的分隔符标记[SEP]连接句子来实现这一点。对应于[CLS]标记的最终隐藏除了用[SEP]标记区分句子外,BERT还可以根据句子来对应的联合模型可以写为p(x,y,c),其中x是第一句,y是第二句,并且c={0,1}是指示句子是否在源文件中是分开的或连续的。为了与原始论文保持一致,我们还在序列的末尾添加了一个[SEP]标记,即使它不是严格需要的。所以,一个典型的屏蔽训练句子对可能看起来像这样:[CLS]让我们做一个传统的[面具]美食[SEP]橙色p(x|θ)=1YLφ l(x|θ)θexp.ΣLΣlogφ l(x|θ)鸡与鸡的区别[2019 - 04 - 15]在这种情况下,相应的类标签将是c=1,表示Z(θ)l=1l=1x和y是连续的。7467[CLS]放置牛排在的潘[>][SEP]T1T2T3T4T5T6T7T8的t9T10T11T12T13T14视频BERT[001 pdf 1st-31files] E[CL] E [MASK]E [ M]EtheE盘E[>]Ev()E[MASK]Ev()Ev()Ev()E[SEP][001 pdf 1st-31 files]把面具放在的潘[>][面具][SEP]图3:在视频和文本掩码标记预测或完形填空任务的上下文中的VideoBERT的说明该任务还允许使用纯文本和纯视频数据进行训练,并且还可以使用语言视觉对齐分类目标(此处未显示,请参阅文本以了解详细信息)来训练VideoBERT。3.2. VideoBERT模型为了将BERT扩展到视频,我们仍然可以利用预训练的语言模型和可扩展的实现进行推理和学习,我们决定进行最小的更改,并将原始视觉数据转换为离散的令牌序列。为此,我们建议通过使用预先训练的模型将层次矢量量化应用于从视频中获得的特征来生成一系列“视觉单词”。详见第4.2节。除了它的简单性,这种方法鼓励模型专注于视频中的高级语义和较长范围的时间动态。这与大多数现有的自监督视频表示学习方法形成对比,后者学习低级属性,如局部纹理和运动,如第2节中所讨论的。我们可以将语言句子(使用ASR从视频中导出)与视觉句子相结合,以生成这样的数据:[CLS]橘子鸡配[MASK]酱[>] v01 [MASK] v08 v72 [SEP],其中v01和v08是视觉标记,[>]是我们引入的用于组合文本和视频句子的特殊标记。有关说明,请参见图3虽然这个完形填空任务自然地扩展到语言和视觉标记的序列,但应用BERT所使用的下一个句子预测任务就不那么简单了。我们提出了一个语言-视觉对齐任务,其中我们使用[CLS]标记的最终隐藏状态来预测语言句子是否与视觉句子在时间上对齐请注意,这是语义相关性的噪声指示器,因为即使在教学视频中,说话者也可能指的是视觉上不存在的东西。为了解决这个问题,我们首先将相邻的句子随机连接成一个长句,以允许模型学习语义对应,即使两者在时间上没有很好地对齐。第二,由于即使是相同的动作,状态转换的速度也会有很大的不同,在不同的视频之间,我们为视频令牌随机选择1到5步这不仅有助于模型对视频速度的变化更加鲁棒,而且还允许模型在更大的时间范围内捕获时间动态并学习更长期的状态转换。我们把对结合视频和文本的其他方式的研究留给未来的工作。总的来说,我们有三种训练机制对应于不同的输入数据模式:纯文本、纯视频和视频文本。对于纯文本和纯视频,使用标准掩码完成目标来训练模型。对于文本视频,我们使用上述语言视觉对齐分类目标。总体培训目标是各个目标的加权和。文本目标迫使VideoBERT做好语言建模;视频目标迫使其学习“视频语言模型”,其可用于学习动态和预测;并且文本-视频目标迫使其学习两个域之间的对应关系。一旦我们训练了模型,我们就可以在各种下游任务中使用它,在这项工作中,我们定量评估了两个应用程序。在第一个应用程序中,我们将其视为概率模型,并要求它预测或输入已被掩蔽的符号我们在第4.4节中对此进行了说明,在该节中我们执行在第二个应用程序中,我们提取[CLS]令牌的预测表示(从模型的内部激活导出),并使用该密集向量作为整个输入的表示。这可以与从输入导出的其他特征组合以用于下游监督学习任务。我们在4.6节中演示了这一点,在那里我们执行视频字幕。4. 实验和分析在本节中,我们描述了我们的实验装置,并显示定量和定性的结果。74684.1. 数据集在语言和视觉领域,深度学习模型在越来越大的数据 集 上 一 直 表 现 出 显 着 的 性 能 提 升 。 例 如 , “ 大型”BERT模型(我们使用的)是在BooksCorpus(8亿单词)和英语维基百科(25亿单词)的级联上进行预训练的因此,我们想用一个大规模的视频数据集来训练VideoBERT。由于我们对语言和视觉之间的联系很感兴趣,我们希望找到其中所说的话更有可能涉及视觉内容的视频。直观地说,这通常是教学视频的情况,我们特别关注烹饪视频,因为它是一个经过充分研究的领域,现有的注释数据集可用于评估。不幸的是,这样的数据集相对较小,所以我们转向YouTube收集大规模的视频数据集进行训练。我们使用YouTube视频注释系统从YouTube中提取了一组公开可用的烹饪视频,以检索与“烹饪”和“食谱”相关的主题的视频。我们还根据视频的持续时间过滤视频,删除超过15分钟的视频,生成一组312K的视频。该数据集的总持续时间为23,186小时,或大约966天。作为参考,这比下一个最大的烹饪视频数据集YouCook II大两个或多个量级,YouCook II由2K视频组成,总持续时间为176小时[38]。为了从视频中获取文本,我们利用YouTube数据API[ 1 ]提供的YouTube自动语音识别(ASR)工具包来检索带时间戳的语音信息API返回单词序列和预测的语言类型。在312K的视频中,180K具有可以通过API检索的ASR,其中120K预计是英文的。在我们的实验中,虽然我们将所有视频用于纯视频目标,但我们仅将来自英语ASR的文本用于VideoBERT的纯文本我 们 在 YouCook II 数 据 集 [38] 上 评 估 了VideoBERT,该数据集包含2000个YouTube视频,视频具有手动注释的分割边界和标题。平均每个视频有7.7个片段,每个字幕有8.8我们使用提供的数据集分割,其中1333个视频用于训练,457个用于验证。为了避免预训练过程中的潜在偏差,我们还从预训练集中删除了YouCook II中出现的任何视频。4.2. 视频和语言预处理对于每个输入视频,我们以20 fps采样帧,并从视频上的30帧(1.5秒)非重叠窗口创建剪辑。对于每个30帧的剪辑,我们应用预训练的视频ConvNet来提取其特征。在这项工作中,我们使用S3D [34],它添加了可分离的时间Inception网络[25]主干的卷积。我们在最终的线性分类器之前进行特征激活,并应用3D平均池化来获得1024维特征向量。我们在Kinet- ics [9]数据集上预训练S3 D网络,该数据集涵盖了YouTube视频中的各种动作,并作为每个片段的通用表示。我们使用分层k均值对视觉特征进行标记化。我们通过视觉检查聚类的一致性和代表性来调整层次结构级别d的数 量和每 个级别 k的聚 类我们 设置d=4和k=12,总共产生124=20736个聚类。图4示出了该“矢量量化”过程的结果。对于每个ASR单词序列,我们通过使用现成的基于LSTM的语言模型添加标点符号来将单词流分解为句子。对于每个句子,我们遵循BERT [6]中的标准文本预处理步骤,并将文本标记为WordPieces [33]。我们使用BERT作者提供的相同词汇表,其中包含30,000个令牌。与可以自然地分解成句子的语言我们使用一个简单的启发式来解决这个问题:当ASR语句可用时,它与开始和结束时间戳相关联,并且我们将落入该时间段的视频令牌视为片段。当ASR不可用时,我们简单地将16个令牌视为一个段。4.3. 模型预培训我们从文本预训练的检查点初始化BERT权重。具体而言,我们使用[ 6 ]作者发布的BERT LARGE模型,使用相同的骨干架构:它有24层Transformer模块,每个模块有1024个隐藏单元和16个自我注意头。我们通过为每个新的“视觉单词”添加20,736个条目到单词嵌入查找表来添加对视频令牌的支持。我们初始化这些条目的S3D功能,从他们相应的集群质心。输入嵌入在预训练期间被冻结。我们的模型训练过程在很大程度上遵循BERT的设置:我们在Pod配置中使用4个Cloud TPU,总批次大小为128,我们训练模型50万次迭代,或大约8个epoch。我们使用Adam优化器,初始学习率为1 e-5,线性衰减学习率时间表。培训过程大约需要2天。4.4. 零拍动作分类一旦经过预训练,VideoBERT模型就可以用于7469图4:来自预训练视频的视频句子对示例。我们将每个视频片段转换为一个标记,然后用相应的视觉质心表示。对于每一行,我们显示原始帧(左)和视觉质心(右)。我们可以看到,标记化过程保留了语义信息,而不是低级别的视觉外观。接受过YouCook II数据培训,也没有使用YouCook II中使用的相同标签。更准确地说,我们想计算p(y|其中x是序列视觉标记,y是单词序列。由于模型是经过训练的,句子中,我们将y定义为固定句子,一些定性结果见图5对于定量评估,我们使用YouCook II数据集。在[37]中,作者为YouCook II的验证集收集了63个最常见对象的地面实况边界框但是,没有动作的地面实况标签,并且许多其他常见对象没有标签。因此,我们收集动作和对象标签,这些标签来自地面实况字幕,以解决这个缺点。我们运行一个现成的词性标注器对地面真实标题检索100个最常见的名词和45个最常见的动词 , 并 使 用 这 些 来 推 导 地 面 真 实 标 签 。 虽 然VideoBERT的词块词汇表使其能够有效地执行开放词汇分类,但因此更有可能做出语义上正确的预测,这些预测与更有限的地面事实不完全匹配。因此,我们报告了前1名和前5名的分类准确性指标,后者旨在解决这个问题,我们为未来的工作留下了更复杂的评估技术。最后,如果有多个动词或名词与视频片段相关联,如果它与其中任何一个相匹配,我们认为预测正确。我们报告了YouCook II验证集的性能。表1显示了VideoBERT及其消融的前1名和前5名准确度。为了验证VideoBERT实际上使用了视频输入,我们首先删除VideoBERT的视频输入,只使用语言图5:使用VideoBERT预测给定视频片段的名词和动词。详情见正文。视频剪辑首先被转换为视频标记(每个示例显示两个),然后使用它们的质心进行可视化。7470方法监督动词top-1(%)动词前5名(%)对象top-1(%) 对象前5名(%)S3D [34]是的16.146.913.230.9BERT(语言优先)没有0.00.00.00.0VideoBERT(语言优先)没有0.46.97.715.3VideoBERT(交叉模态)没有3.243.313.133.7表1:YouCook II数据集上的操作分类性能详情见正文方法数据大小动词top-1(%)动词前5名(%)对象top-1(%) 对象前5名(%)视频BERT10K0.415.52.917.8视频BERT50K1.115.78.727.3视频BERT100K2.924.511.230.6视频BERT300K3.243.313.133.7表2:YouCook II数据集上的动作分类性能与预训练数据大小的函数模型p(y)来执行预测。我们还使用来自纯文本BERT模型的语言先验,该模型在烹饪视频上没有进行微调。我们可以看到VideoBERT的表现明显优于两个基线。正如预期的那样,VideoBERT的语言先验适应于烹饪句子,并且优于vanilla BERT模型。然后,我们与使用YouCook II的训练分割训练的完全监督分类器进行比较。我们使用预先计算的S3D特征(与VideoBERT的输入相同),随着时间的推移应用平均池化,然后是线性分类器。表1示出了结果。正如我们所看到的,监督框架在top-1动词准确性方面优于(See图5是动作标签的模糊性的说明。)然而,前5名的准确性指标显示,VideoBERT实现了与完全监督的S3D基线相当的性能,而无需使用YouCook II的任何监督,这表明该模型能够在这种“零拍摄”设置中具有竞争力4.5. 大型训练集我们还研究了预训练数据集大小的影响。在这个实验中,我们从预训练集中随机选取10K、50K和100K的视频子集,并使用与上述相同的设置对VideoBERT进行预训练,训练时间相同。表2显示了性能。我们可以看到,准确性随着数据量的增加而单调增长,没有显示出饱和的迹象这表明VideoBERT可能会受益于更大的预训练数据集。4.6. 字幕的迁移学习我们进一步证明了VideoBERT作为特征提取器的有效性为了只提取视频输入的特征,我们再次使用一个简单的填空任务,通过将视频标记附加到模板句子我们提取了脂肪-对于视频令牌和屏蔽掉的文本令牌,取它们的平均值并将两者连接在一起,以便由下游任务中的监督模型使用。我们根据[39]的设置评估视频字幕上提取的特征,其中地面实况视频分割用于训练将视频片段映射到字幕的监督模型。我们使用与他们相同的模型,即Transformer编码器-解码器,但我们将编码器的输入替换为上述VideoBERT我们还将VideoBERT特征与平均池化的S3 D特征连接起来;作为基线,我们还考虑只使用S3 D特征而不使用VideoBERT。我们将Transformer块层的数量设置为2,隐藏单元大小设置为128,Dropout概率设置为0.4。我们在训练分割上使用5折交叉验证我们训练模型进行4万次迭代,批量大小为128。我们使用与VideoBERT预训练相同的Adam优化器,并将初始学习率设置为1 e-3,并采用线性衰减时间表。表3显示了结果。我们遵循机器翻译的标准实践,并计算在语料库水平上微平均的BLEU和ME-TEOR分数,以及报告ROUGE-L [14]和CIDER [29]分数。对于基线方法[39],我们使用作者提供的预测重新计算度量。我们可以看到VideoBERT始终优于S3D基线,尤其是CIDER。我们还可以看到,跨模态预训练的性能优于仅视频版本。此外,通过连接VideoBERT和S3D的功能,该模型在所有指标上都实现了最佳性能。图6显示了一些定性结果。 我们注意到 预测的单词序列很少完全等于基本事实,这解释了为什么表3中的度量(测量n-gram重叠)在绝对值上都很低值然而,从语义上看,结果似乎是合理的。[39]使用的度量在视频级别上进行了宏平均,并且可能会受到不期望的稀疏伪影的影响。使用他们提供的评估代码,VideoBERT +S3D的B@4为1.79,METEOR为10.80。7471方法BLEU-3BLEU-4流星ROUGE-L苹果酒Zhou等[39]第三十九届7.533.8411.5527.440.38S3D [34]6.123.249.5226.090.31VideoBERT(仅视频)6.333.8110.8127.140.47视频BERT6.804.0411.0127.500.49视频BERT + S3D7.594.3311.9428.800.55表3:YouCook II上的视频字幕性能我们遵循[39]中的设置,并在给定地面实况视频片段的情况下报告验证集上的字幕性能数字越高越好。图6:VideoBERT和S3D基线生成的字幕示例。在最后一个示例中,VideoBERT未能利用完整的时间上下文,因为它错过了纸巾帧。5. 讨论和结论本文采用功能强大的BERT模型来学习视频的联合视觉语言表示。我们的实验结果表明,我们能够学习高级语义表示,并且我们在YouCook II数据集上的视频字幕方面优于最先进的技术我们还表明,该模型可以直接用于开放词汇分类,其性能与训练集的大小单调增长。这项工作是学习这种联合表示的方向的第一步。对于许多应用程序,包括烹饪,重要的是使用空间细粒度的视觉表示,而不仅仅是在帧或剪辑级别工作,这样我们就可以区分各个对象及其属性。我们设想使用预训练的对象检测和语义分割模型,或使用非监督技术以获得更广泛的覆盖范围。我们也想在多个时间尺度上显式地建模视觉模式,而不是我们目前的方法,跳过帧,但建立一个单一的词汇表。除了改进模型之外,我们还计划评估我们在其他视频理解任务以及烹饪之外的其他(For例如,我们可以使用最近发布的手动标记说明视频的COIN数据集[26]。我们相信,从视频和语言中进行大规模表征学习的未来前景非常光明。鸣 谢 。 我 们 要 感 谢 Jack Hessel 、 BoPang 、 RaduSoricut、Baris Sumengen、Zhenhai Zhu和BERT团队分享了令人惊叹的工具,这些工具极大地促进了我们的实验; Justin Gilmer、Abhishek Kumar、David Ross和Rahul Sukthankar进行了有益的讨论。陈想感谢Y。M.灵感7472引用[1] YouTube数据API。https://developers.google的网站。com/youtube/v3/docs/captions. 5[2] Jean-Baptiste Alayrac , Piotr Bojanowski , NishantAgrawal,Josef Sivic,Ivan Laptev,and Simon Lacoste-Julien. 从 叙 述 式 教 学 视 频 中 进 行 非 监 督 式 学 习 在CVPR,2016年。3[3] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音网络:从未标记的视频中学习声音表示.InNeurIPS,2016. 3[4] MohammadBabaeizadeh 、 Chelsea Finn 、 DumitruErhan、Roy H Campbell和Sergey Levine。随机变分视频预测。在ICLR,2018年。2[5] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。在ICML,2018。2[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。二三五[7] Chunhui Gu , Chen Sun , David A Ross , CarlVondrick,Caroline Pantofaru,Yeqing Li,SudheendraVijayanarasimhan , George Toderici , Susanna Ricco ,Rahul Sukthankar,et al. AVA:时空局部原子视觉动作的视频数据集。在CVPR,2018年。2[8] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义CVPR,2015。3[9] Will Kay , Joao Carreira , Karen Simonyan , BrianZhang,Chloe Hillier,Sudheendra Vijayanarasimhan ,Fabio Viola,Tim Green,Trevor Back,Paul Natsev,etal. 人 体 运 动 视 频 数 据 集 。 arXiv 预 印 本 arXiv :1705.06950,2017。二、五[10] Ranjay Krishna、Kenji Hata、Frederic Ren、Li Fei-Fei和Juan Carlos Niebles 。 在 视 频 中 的 密 集 字 幕 事 件 。InICCV,2017. 二、三[11] Girish Kulkarni,Visruth Premraj,Sagnik Dhar,SimingLi,Yejin Choi,Alexander C Berg,and Tamara L Berg.婴儿谈话:理解和生成图像描述。CVPR,2011。3[12] 纪尧姆·兰普和亚历克西斯·康纳。跨语言语言模型预训练。arXiv预印本arXiv:1901.07291,2019。3[13] Alex X Lee 、 Richard Zhang 、 Frederik Ebert 、 PieterAbbeel、Chelsea Finn和Sergey Levine。随机对抗视频预测。arXiv:1804.01523,2018。2[14] 林金耀。Rouge:一个用于自动评估摘要的软件包。文本摘要分支,2004年。7[15] Jiasen Lu,Jianwei Yang,Dhruv Batra,and Devi Parikh.神经宝宝的谈话。 在CVPR,2018年。3[16] Jonathan Malmaud 、 Jonathan Huang 、 Vivek Rathod 、Nick Johnston、Andrew Rabinovich和Kevin Murphy。在煮什么使用文本、语音和视觉来解释烹饪视频。在NAACL,2015年3月。3[17] Michael Mathieu,Camille Couprie,and Yann LeCun.超越均方误差的深度多尺度视频预测。ICLR,2016年。27473[18] Ishan Misra,C Lawrence Zitnick,and Martial Hebert.Shuf- fle和学习:使用时序验证的无监督学习。在ECCV,2016年。3[19] Mathew Monfort , Alex Andonian , Bolei Zhou ,Kandan Ra- makrishnan , Sarah Adel Bargal , YanYan,Lisa Brown,Quanfu Fan,Dan Gutfreund,CarlVondrick,et al. Moments in time数据集:100万个视频用于事件理解。TPAMI,2019。2[20] 安德鲁·欧文斯、菲利普·伊索拉、乔什·麦克德莫特、安东尼奥·托拉尔巴、爱德华·H·阿德尔森和威廉·T·弗里曼。视觉指示的声音。在CVPR,2016年。3[21] Andrew Owens 、 Jiajun Wu 、 Josh H McDermott 、William T Freeman和Antonio Torralba。环境声音为视觉学习提供监督。在ECCV,2016年。3[22] Matthew E Peters,Mark Neumann,Mohit Iyyer,MattGardner , Christopher Clark , Kenton Lee , and LukeZettlemoyer.深层语境化的词表征。在NAACL,2018年。3[23] Marc Aurelio Ranzato和Alex Graves。深度无监督学习NIPS 2018年。3[24] Chen Sun,Abhinav Shrivastava,Saurabh Singh,andAbhi-nav Gupta.在深度学习时代重新审视数据的不合理有效性。InICCV,2017. 1[25] Christian Szegedy , Wei Liu , Yangqing Jia , PierreSermanet,Scott E.Reed,Dragomir Anguelov,DumitruErhan,Vincent Vanhoucke,and Andrew Rabinovich.更深的回旋。arXiv预印本arXiv:1409.4842,2014。5[26] Yansong Tang , Dajun Ding , Yongming Rao , YuZheng,Danyang Zhang,Lili Zhao,Jiwen Lu,and JieZhou. COIN:用于综合教学视频分析的大规模数据集。在CVPR,2019年。8[27] Sergey Tulyakov,Ming-Yu Liu,Xiaodong Yang,andJan Kautz. MoCoGAN:分解运动和内容以生成视频。在CVPR,2018年。2[28] Ashish Vaswani,Noam Shazeer,Niki Parmar,JakobUszko-reit , Llion Jones , Aidan N Gomez , LukaszKaiser,and Illia Polosukhin.注意力是你所需要的。在NIPS,2017年。3[29] Ramakrishna Vedantam,C Lawrence Zitnick,and DeviParikh. Cider:基于共识的图像描述评估。CVPR,2015。7[30] Carl Vondrick Hamed Pirsiavash和Antonio Torralba从未标记的视频中识别视觉表示。在CVPR,2016年。2[31] Carl Vondrick Hamed Pirsiavash和Antonio Torralba生成具有场景动态的视频。InNeurIPS,2016. 2[32] Jacob Walker , Carl Doersch , Abhinav Gupta , andMartial Hebert.不确定的未来:使用变分自动编码器从静态图像进行预测。在ECCV,2016年。2[33] Yonghui Wu,Mike Schuster,Zhifeng Chen,Quoc VLe,Mohammad Norouzi,Wolfgang Macherey,MaximKrikun,Yuan Cao,Qin Gao,Klaus Macherey,et al.Google的神经机器翻译系统:弥合人类和机器翻译之间的差距。arXiv预印本arXiv:1609.08144,2016。5[34] Saining Xie , Chen Sun , Jonathan Huang , ZhuowenTu,and Kevin Murphy.重新思考时空特征学习的视频理解。在ECCV,2018。五七八7474[35] 薛天凡,吴嘉俊,凯瑟琳·布曼,比尔·弗里曼.视觉动态:通过交叉卷积网络的概率未来帧合成。在NIPS,2016年。2[36] Hang Zhao , Zhicheng Yan , Heng Wang , LorenzoTorresani,and Antonio Torralba. Slac:稀疏标记数据集用 于 动 作 分 类 和 定 位 。 arXiv 预 印 本 arXiv :1712.09374,2017。2[37] Luowei Zhou,Nathan Louis,and Jason J Corso.弱监督的视频对象从文本接地通过减肥- ing和对象交互.在BMVC,2018年。6[38] Luowei Zhou,Chenliang Xu,and Jason J Corso.从网路教学影片走向程序的自动学习。在AAAI,2018。二三五[39] 周罗伟,周英波,Jason J.Corso,Richard Socher,andCaiming Xiong. 端 到 端 密 集 视 频
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功