没有合适的资源?快使用搜索试试~ 我知道了~
1728冻结时间:一种用于端到端检索的视频和图像联合编码器MaxBain1ArshaNagrani1†Gu¨lVarol1,2AndrewZisserman11牛津大学视觉几何组2LIGM,E´cole des Ponts,Uni v Gustav e Eif fel,CNRS{maxbain,arsha,gul,az}@ robots.ox.ac.uk线性相似性分数补丁+空时Transformer编码器文本编码器空间位置+时间位置0 0 个CLS101一......1N2 0 21...两个N...M0*M 1…视频M x N图像1 x N线性投影帧#1帧#2帧#M“Man“Icy landscape ofmountainous图1:联合图像和视频训练:我们的双重编码模型由图像和视频的视觉编码器和字幕的文本编码器组成与2D或3DCNN不同,我们的时空Transformer编码器允许我们通过将图像视为单帧视频来灵活地训练图像和带有字幕的视频。摘要我们在这项工作中的目标是视频文本检索-特别是 该领域的挑战包括视觉架构的设计和训练数据的性质,因为可用的大规模视频-文本训练数据集(例如HowTo100 M)是嘈杂的,因此只有通过大量计算才能在规模上实现有竞争力的性能。我们在本文中解决这两个挑战我们提出了一个端到端的可训练模型,旨在利用大规模的图像和视频字幕数据集。我们的模型是最近的ViT和Timesformer架构的适应和扩展,并在空间和时间的注意力。该模型是灵活的,可以在图像和视频文本数据集上单独或联合训练它被训练成一只狗-[2]现就职于谷歌研究。学习计划,首先将图像视为我们还提供了一个新的视频-文本预训练数据集WebVid-2 M,由从互联网上抓取的200多万个带有弱字幕的尽管在小一个数量级的数据集上进行训练,但我们表明,这种方法在标准下游视频检索基准测试(包括MSR-VTT,MSVD,DiDeMo和LSMDC)上产生了最先进的结果。1. 介绍联合视觉-文本模型已经变得越来越流行,因为它们能够实现广泛的下游任务,包括文本到视觉检索[29,31,36,59],视觉标题-[24,58,66],和视觉问答[4,27]。它们的迅速发展归功于三个方面的通常改进:新的神经网络架构(例如,transformers [56] for both text and visual input);new......这是什么?............1729大规模数据集;以及新的损失函数,例如,能够处理标签噪声[35]。然而,它们的发展主要在两个独立的轨道上进行:一个用于图像,具有自己的架构,训练数据集和基准[25,29,52];另一个用于具有类似的训练数据集和基准分离的视频[3,5,24,46,65,70]。两者之间唯一的共同联系是,视频网络通常是通过在图像数据集上预训练图像网络来初始化的[6,8]。考虑到图像和视频在多个任务上传达的信息重叠,这种工作分离是次优的例如,尽管对一些人类动作进行分类需要对视频帧进行时间排序,但许多动作可以仅根据它们在帧上的分布或甚至从单个帧进行分类[51]。在本文中,我们向统一这两个轨道迈出了一步,提出了一种双编码器架构,该架构利用Transformer视觉编码器的灵活性来从带字幕的图像、带字幕的视频剪辑或两者进行训练(图10)。①的人。我们通过将图像视为“冻结在时间中”的视频的特殊情况来做到这一点使用基于变换器的架构允许我们使用可变长度序列进行训练,将图像视为单帧视频,这与标准3D CNN[8,18,64]不同,在标准3D CNN中,对图像和视频进行联合训练必须产生实际生成静态视频的成本。此外,与许多最近的视频-文本双重编码方法[16,31,36]这种端到端的训练是通过在网络上抓取一个新的大规模视频文本字幕数据集(WebVid-2 M)来促进的。我们还利用了大型图像字幕数据集,如概念字幕[52]。我们做出以下贡献:(i)我们提出了一种用于视频检索的新的端到端模型,其不依赖于“专家”特征,而是受[6]的启发,采用具有直接应用于像素的修改的划分的空间-时间注意力的Transformer体系结构;(ii)因为我们的体系结构可以优雅地处理不同长度的输入,它是通用的,并且可以在视频和图像数据集上灵活地训练(通过将图像作为单帧视频来处理)。我们通过设计一个课程学习时间表来建立这种灵活性,该时间表从图像开始,然后通过时间嵌入插值在视频数据集上进行训练时,逐渐学会关注不断增加的时间上下文。我们证明这提高了效率,使我们能够用更少的GPU时间来训练模型;(iii)我们引入了一个名为WebVid-2 M的新数据集,由从网络上抓取的250万个视频-文本对组成;最后(iv)我们通过仅使用MSR-VTT [65],MSVD [9],DiDeMo [3]上的视频模态来实现最先进的性能和LSMDC [46] -2. 相关作品视频文本检索的预训练。考虑到大多数视频-文本检索数据集往往是小规模的,用于视频检索的主导范例是使用来自“专家”模型的预提取特征的组合,所述“专家”模型包括针对各种不同任务和在多模态(诸如面部、场景和对象识别、动作分类和声音分类)上训练的MoEE [36],CE [31],MMT [16]和并发工作HiT [30]都遵循这种范式,其中视频-文本对的整体相似性作为每个专家与文本的相似性的加权和获得然而,自从HowTo100M数据集[37](一个大规模的教学视频数据集)发布以来,已经有一系列利用大规模预训练来改进视频文本表示的工作,例如视频问答[50],文本视频检索[41]和视频字幕[71]。虽然语义丰富且多样,但是来自教学视频的文本监督非常嘈杂,并且因此导致大的计算成本,因为竞争结果需要规模。已经提出了一些方法来对抗噪声使用损失函数,如MIL-NCE [35]或直接使用原始音频[1,48]来增加鲁棒性。鉴于现有图像字幕数据集的大小很大,一些人自然地试图通过联合图像-文本预训练来克服视频字幕训练数据的缺乏(例如MoEE [36]和ClipBERT[26])。MoEE [36]通过向需要视频的所有专家流(例如运动和音频特征)输入零来联合训练图像,而ClipBERT [26]将其特征提取器限制为2D CNN。相反,我们提出了一个优雅的基于变换器的编码器,它可以很好地与图像或视频,并可以有效地训练两者。与我们的工作类似,尽管仅适用于图像,但CLIP[42]使用对比损失从互联网上抓取的数百万个文本-图像对中学习有效的联合图像-文本表示。端到端视频表示学习。大量的体系结构开发是由诸如Kinetics [21]等数据集上的动作识别驱动的,其中手动标记比获得数据集的文本描述相对更容易。长期以来 , 这 个 空 间 由 时 空 CNN 主 导 , 如 I3D [8] , 3DResNets [18],S3D [64]或在这里,通过膨胀,图像仅用于初始化视频模型[8]。多网格调度已经被提出用于1730×个∈∈×× ×∈Mp有效的训练[63]。变形金刚的视觉。许多作品使用图像的自我注意力,或者与卷积结合[7,19,56,61],甚至完全取代它们。仅使用自注意块的作品倾向于将其应用于单个像素级别[12,39,43],通常需要技巧来确保计算的易处理性,包括将自注意的范围限制在局部邻域[43],在严重缩小的版本上添加全局自注意,或稀疏键值采样[11]。为了提高效率,ViT [14]将图像分解为一系列补丁,然后将这些补丁的线性嵌入这个想法在DeiT中得到了扩展[54]。对于视频,以前的作品也采用了自注意力块和CNN层,用于动作识别[17]和视频分类[10]。相比之下,我们的架构完全由自我注意力单元组成,并受到ViT [14]的启发,特别是Timesformer [6],它使用了分割的空间和时间注意力。与这些作品不同的是,我们使用可扩展的时间嵌入来允许联合和单独地灵活训练可变长度的视频和图像。我们不知道以前有任何作品使用自我注意力在同一模型中对图像和视频进行训练。3. 方法在本节中,我们描述了我们的基于变换器的时空模型架构(第3.1节)和我们的训练策略(第3.2节)。详情载于附录。3.1. 模型架构输入. 视觉编码器将图像或视频剪辑XRM×3×H×W作为输入,该图像或视频剪辑由分辨率为H W的M个帧组成,其中对于图像M=1文本编码器将单词的标记化序列作为输入。时空斑块遵循ViT和Timesformer [ 6 ]中的协议,输入视频剪辑被划分为MN个大小为P/P的非重叠时空片,其中N=Hff/P2。Transformer输入。补片xRM×N×3×P×P被馈送通过2D卷积层,并且输出被平坦化,形成用于输入到Transformer的嵌入序列zRMN×D,其中D取决于卷积层中的核的数量。学习时间和空间位置嵌入,Es∈RN×D,Et∈RM×D被添加到每个输入令牌:在一些实施例中,每个空间位置嵌入Et,并且相同空间位置(但不同帧)中的所有片块被给予相同的空间位置嵌入Es。从而使模型能够确定斑块的时间和空间位置。此外,学习的[CLS]令牌[13]连接到序列的开始,其用于产生变换器的最终视觉嵌入输出嵌入。时 空 自 我 注 意 障 碍 。 视 频 序 列 被 馈 送 到 空 时Transformer块的堆栈中。我们对由[6]引入的划分的空间-时间注意力进行微小修改,通过用块输入和空间注意力输出之间的残差连接替换块输入和时间注意力输出之间的残差连接,详见附录。每个块顺序地对前一个块的输出执行时间自注意,然后执行空间自注意视频剪辑嵌入从最终块的[CLS]令牌获得文 本 编 码 。 文 本 编 码 器 架 构 是 一 种 多 层 双 向Transformer编码器,在自然语言处理任务中已经显示出巨大的成功[13]。对于最终的文本编码,我们使用最终层的[CLS]令牌输出。投影到普通文本-视频空间。文本和视频编码都通过单个线性层投影到共同的维度。我们通过在两个投影嵌入之间执行点积来计算文本和视频之间的相似度效率我们的模型具有独立的双编码器路径(例如在MIL-NCE [35]和MMV网络[1]中),仅需要视频和文本嵌入之间的点积。这确保了检索推理的成本微不足道,因为它是可索引的,即它允许应用快速近似最近邻搜索,并且在推理时可扩展到非常大规模的检索。给定目标图库中的t个文本查询和v个视频,我们的检索复杂度为O(t+v)。相比之下,ClipBERT [26]将文本和视频作为输入到单个编码器,具有检索复杂度O(tv),因为每个文本-视频组合都必须输入到模型中其他基于专家的检索方法,如MoEE [36],CE [31]和MMT [16]也包含双编码器路径,但是它们仍然需要查询条件权重来计算每个专家的相似性得分,而我们的模型不需要。3.2. 培训战略z(0) =zp,m+Es+Et,(1)损失 我们在检索设置中采用[68],其中匹配p,m p m使得给定帧m内的所有片(但不同的空间位置)被给予相同的时间位置该批中的文本-视频对被视为肯定的,而该批中的所有其它成对组合被视为否定的。我们最小化两个损失的总和,视频到-1731Σ:mM:M:m不Bv2texp(yixj/σ)我我转文本和文本到视频:L=−1Σexp(xy/σ)日志我(二)帧采样。给定包含L个帧的视频,我们将其细分为M个相等的片段,其中M是视频编码器所需的帧在训练期间1ΣBexp(yx/σ)我Bj=1时间,我们在每个段中对第i帧进行采样,以得到视频嵌入i的值是使用步幅S确定的,从而产生视频嵌入的数组Lt2v=−日志ii(三)其中xi和yj是第i个的归一化嵌入视频和第j个文本分别在一批大小为B和σ是温度。图像视频联合训练。在这项工作中,我们在图像-文本对和视频-文本对上进行联合训练,利用两者进行大规模的预训练。我们的联合训练策略涉及图像和视频数据集之间的交替批次。由于注意力机制与输入帧的平方O(M2)成比例,因此交替的批量训练允许图像批次(M=1)在大小上大得多。重量 初始化 和预训练 。在[6]之后,我们使用在ImageNet-21 k 上 训 练 的 ViT [14] 权 重 初 始 化 时 空Transformer模型中的空间注意力权重,并将时间注意力权重初始化为零。残余连接意味着在这些初始化设置下,模型首先等效于每个输入帧由于Transformer架构已经证明了他们的大部分成功,从大规模的预训练,我们利用两个大规模的文本图像/视频数据集的联合训练策略,从而大大提高了性能。时间课程学习。空时变换器架构允许可变长度的输入序列,并且因此允许可变数量的输入视频帧。如果模型仅在长度为m的视频上训练,则时间位置嵌入Et将仅学习到Et。因此,将该模型应用于高达长度M的序列的输入视频将导致Et的添加,其尚未被学习。研究了两种时间扩展方法:插值和补零。可以填零,0→v=[v0,v S,v2S,v M]。 这些视频的意思是嵌入-DING被用作视频的最终嵌入。4. 实验我们首先描述预训练数据集,包括我们的WebVid-2M视频文本数据集(第4.1节),然后是用于我们实验中评估的下游数据集(第4.2节)。然后,我们描述我们的模型的实现细节(第4.3节)。接下来,我们在MSR-VTT数据集上消除了各种训练组件,特别是预训练和我们的时空注意力调整(第4.4节)的影响,以及我们提出的课程策略(第4.5节)。然后,我们在四个基准上与现有技术进行比较:MSR-VTT、MSVD、DiDeMo和LSMDC(第4.6节)。4.1. 预训练数据集我们在图像和视频数据上联合预训练模型。视频预培训:WebVid-2 M数据集。我们在网上搜索了一个新的视频数据集,上面有文字描述。注释,称为WebVid-2 M。我们的数据集包括的250万个视频-文本对,这比现有的视频字幕数据集大一个数量级(参见表1)。按照与Google Conceptual Captions [52](CC3M)相似的程序我们注意到,超过10%的CC 3 M图像实际上是来自视频的缩略图,这促使我们使用这样的视频源来抓取总共250万个文本-视频对。本研究收集的数据的使用通过知识产权局的非商业研究和私人研究1版权例外授权我们目前正在对其数据集进行进一步的分析不M:M,允许模型学习额外的时间多样性和公平性。在训练中从零开始。可替代地,内插可以用于对时间维度EtE:M中的时间嵌入进行上采样。我们研究了两种插值方法:最近邻插值法和双线性这些不同初始化的效果可以在补充材料中找到。我们采用这种扩展策略,以执行课程学习的输入帧的数量最初在更少帧上进行训练在计算上具有显著的节省图2提供了示例视频-字幕对。在字幕创建中使用了各种不同的风格,如从图2(从左到右)可以看出的,其中与第二视频的简洁描述相比,第一视频具有更长的诗意描述第三个视频的标题句子结构不太明确,在结尾处附加了关键词,而第四个视频提到了一个特定的地方(马尔代夫)。时间特定的信息对于第二和第三个示例是重要的,其中诸如“继续谈话”之类的细节同时具有相当的或甚至更好的性能(参见第4.5节)。1www.gov.uk/guidance/exceptions-to-copyright/BΣBEBj=1 exp(xiyj/σ)我们从每个片段均匀地采样单个帧(以类似于TSN[60]和GST [32]的方式在测试1732(秒“Lonely beautiful woman sitting风吹在头发上,露营在海滩附近的水和海岸的颜色。自由和替代小房子的旅客女士喝酒“台球,集中年轻女子在俱乐部“Female cop talking on walkie-talkie, responding emergency call,crime“Get anchor for departure safaridive boat scuba diving图2:WebVid 2 M数据集的视频-字幕对示例:注意不同的字幕样式:从左到右,标题可以是(i)长的,略带诗意的,带有不相交的句子和短语,(ii)简洁而中肯,(iii)具有不太明确的句子结构,在结尾附加关键词,(iv)提到特定的地方(“马尔代夫”)。我们为每个视频显示两个随机采样的帧。当独立地观看某些帧时,将错过“对讲机表1:数据集统计:我们在一个新的数据集上进行训练 , 这 个 数 据 集 是 从 网 络 上 挖 掘 出 来 的 , 叫 做WebVid2M。我们的数据集在视频和字幕的数量上比现有的视频文本数据集大一个数量级。HowTo100M(蓝色高亮显示)是一个视频数据集,带有来自ASR的噪声,弱erage(HowTo为12 vs 4个单词)更多样化(文本词汇多样性的测量,MTLD [34] = 203 vs 13.5)。图像预训练:谷歌概念标题[52]. 该数据集由大约330万个图像和描述对组成。与COCO图像的策划风格不同,概念性字幕(CC3M)图像及其原始描述是从网络上获取的,因此代表了更广泛的风格。原始描述是从与Web图像相关联的Alt-text HTML属性中获取的。数据集域#clips平均长度时间(小时)4.2. 下游数据集我们现在描述我们的模型所评估的下游文本视频数据集MSR-VTT [65]包含10 K YouTube视频和200 K描述。在其他工作[31]之后,我们在9 K train+val视频上进行训练,并在1 K-A测试集上报告结果。MSVD [9]由来自YouTube的1,970个视频的80K英文描述组成,每个视频包含40个句子。我们使用1200,100和670个视频的标准分割进行训练,验证和测试[31,41]。我们注意到,我们的视频数据集在视频持续时间上比HowTo100M小10倍,在配对剪辑字幕的数量上小20倍以上(表1)。我们的数据集由手动生成的标题组成,这些标题在大多数情况下都是格式良好的句子。相比之下,HowTo100M是从连续叙述中生成的,其中不完整的句子缺少标点符号。剪辑文本对是从字幕中获得的,并且可能在时间上不与它们所指的视频对齐,或者实际上可能根本不指视频[37]。另一方面,我们的字幕与视频保持一致,并描述视觉内容。此外,不存在来自不完美的ASR转录和语法错误的噪声,如HowTo100M的情况。我们的数据集在av上也有更长的字幕DiDeMo [3]包含10K Flickr视频,注释了40K句子。在[26,31]之后,我们评估了段落到视频检索,其中视频的所有句子描述都被连接到单个查询中。由于该数据集带有本地化注释(地面实况提议),因此我们报告了具有地面实况提议的结果(其中只有视频中的本地化时刻被连接并用于检索集中,如[26]所做的)以及没有结果(如[31]所做的)。LSMDC [45]由来自202部电影的118,081个视频剪辑组成。验证集包含7,408个剪辑,并且在来自与训练集和值集不相交的电影的1,000个视频的测试集上进行评估这遵循[46]中概述的发送[47]第四十七话烹饪446006K8TACos [44]烹饪7K36018K15.9DideMo [3]Flickr27K2841K87MSR-VTT [65]YouTube10K15200K40猜谜[53]家10K3016K82LSMDC15 [46]电影118K4.8118K158YouCook II [70]烹饪14K31614K176ActivityNet [24]YouTube100K180100K849CMD [5]电影34K13234K1.3KWebVid-2M开放2.5M182.5M13KHT100M [37]指令136M4136M134.5K1733×个×个| |对于具有单独的val和test拆分的下游数据集,我们为75个epoch训练所有模型,并使用具有最低验证损失的epoch来报告测试结果。对于没有val集的下游数据集,我们报告50个时期的结果。4.3. 实现细节所有实验都使用PyTorch进行[40]。使用Adam执行优化,使用的学习率为1 10−5时,我们分别对8帧、4帧和1帧输入使用16、24和96的批量大小。方程中定义的损耗的温度超参数σ。23设置为0. 05。默认的预训练是WebVid-2 M和CC 3M。对于视觉编码器,所有模型具有以下各项:=12个注意力块,补丁大小P=16,序列维度D = 768,12个头部,并且采用4帧作为下游输入。除非另有说明,否则所有模型的文本编码器都被实例化为在英语维基百科和多伦多图书语料库上预先训练的DistilBERT base-uncased [49]。公共文本-视频空间的维度被设置为256.对于视觉增强,我们在训练期间随机裁剪和水平翻转,并且在测试时间中心裁剪最大的正方形裁剪。所有视频的大小调整为224 224作为输入。在测试时,我们以2秒的步幅用于段落检索设置,我们在训练过程中通过随机采样和连接每个视频的可变数量微调时间。使用预提取的专家模型进行视频检索的一个很大的动机是为了节省计算成本。在MSR-VTT上对我们的4帧模型进行50个epoch的微调需要在2个QuadroRTX 6000 k GPU上花费10个小时(每个GPU具有24GB RAM),这与使用预先提取的专家特征的其他作品类似[41]。这表明我们的模型是轻量级的,并且可以在下游视频数据集上快速地进行端到端的微调,并具有足够的预训练(这是一次性的成本)。4.4. 消融研究在本节中,我们研究了不同的预训练策略的效果在补充材料中,我们提供了对不同时间扩展方法、不同视觉主干、不同文本主干的架构消融以及使用我们修改的时空注意块时的改进。预训练的效果。我们比较了MSR-VTT与我们的模型的性能:(i)从头开始训练,(ii)使用ImageNet权重初始化,然后进行微调,以及(iii)使用ImageNet初始化,然后在微调之前在许多不同的视觉文本数据集上进行预训练。对于视频数据,在两个预训练处采样4帧。表2:预训练源:不同预训练源的效果。我们在预训练和微调中使用每个视频4帧。预训练仅执行1个完整的epoch。结果上的1 K-A MSR-VTT测试集的文本视频检索。R@k:召回@K。MedR:中位秩预训练配对数量R@1R@10MedR--5.622.355ImageNet15.254.49.0HowTo-17 M子集17.1M24.163.95.0CC3M3.0M24.562.75.0WebVid2M2.5M26.064.95.0CC3M + WebVid2M5.5M27.368.14.0和微调。 MSR-VTT 1 KA测试集的结果如表2所示。对于HowTo100M,由于计算限制,我们在一个随机的17M子集上进行预训练(我们在撰写本文时可以获得的最大子集),总计19K小时。为了生成文本视频对,我们采样5连续的语音视频对,并将它们连接起来,形成一个更长的视频。这允许对语音和视觉的噪声对准的鲁棒性。我们发现,单独在CC 3 M上进行训练相当不错,优于HowTo-17 M子集。这证明了我们灵活的编码器的好处,它可以在图像上进行廉价的训练,并很容易应用于视频。在WebVid2M上的训练也优于在HowTo17M子集上的训练,尽管要小得多,这证实了HowTo100M数据集是有噪声的。通过在CC3M和WebVid2M上联合训练,有效地利用图像和视频数据,实现了最佳性能。4.5. 课程策略接下来,我们评估我们的课程安排的能力,逐步学习的时间维度的视频,增加输入帧的数量。表3总结了结果。在这里,我们展示了在WebVid 2 M上进行预训练和在MSR-VTT上进行微调时的性能。我们探索两种类型的扩展时间:在训练前和微调阶段。首先,我们观察到单个帧不足以捕获视频内容(18.8R@1)。在预训练阶段执行时间扩展比在微调阶段执行时间扩展更好(26.0 vs 24.9 R@1,4帧)。最后,我们通过在预训练(26.6 R@1)时采用课程策略,以GPU小时计算成本的一半获得了类似的性能(在R@5时略好)。对于8帧,课程甚至更有用,因为我们从1帧开始训练,然后移动到4帧,最后移动到8帧。在这里,我们从一开始就获得了与8帧训练相似或更好的性能,几乎是这是意料之中的,因为1734⇒×个⇒表3:#帧和课程学习的效果在预训练和微调时不同数量的输入帧的效果。表示数据集内课程学习策略。结果是在1 K-A MSR- VTT测试集的文本视频检索。这里的预训练仅在WebVid2M上完成,整个数据集的总预算为一个epoch。PTT:总预训练时间(小时)。PT #帧FT #帧R@1R@10MedR PTT(小时)1118.856.67.016.21424.967.15.016.24426.064.95.045.61⇒4426.665.55.022.18825.467.34.098.01⇒4⇒8827.467.34.036.028.322726252423×个10 20 30 40 50 60总培训时间(小时)图3:显示MSR-VTT测试集上各种模型的零射击性能(R@1,5,10的几何平均值)与其总训练时间(小时)的图表示课程学习策略。表示已完成的数据集历元的倍数。更少的帧显著地减少了前向传递时间,并且能够实现更大的批量大小。请注意,为了进行公平的比较,我们允许表中每行的训练迭代次数相同。我们进一步分析了我们提出的时间课程策略及其对培训时间和准确性的影响。图3显示了MSR-VTT上针对具有和不具有课程的各种检查点的零射击结果。它表明,我们的课程方法产生了显着的培训,ING的准确性增益加速。较短的帧模型能够在较短的时间内通过更多的数据集,这可以在受约束的设置中带来显着的性能优势。时间嵌入的扩展。我们尝试了零填充和插值,并发现我们的模型是强大的时间扩展策略的类型。更多详细结果见补充资料。4.6. 与最新技术MSR-VTT的结果见表4。我们超越了之前所有的工作,包括许多在HowTo100M上进行预训练我们还注意到,我们优于提取专家特征的作品(CE使用9个专家,MMT使用7个),包括对象,运动,面部,场景,声音和语音嵌入。我们甚至优于Sup- port Set[41],它使用来自34层的专家特征,在IG 65 M上预训练的R(2+1)-D模型,与ImageNet ResNet 152特征连接,之后他们添加了一个转换器网络并在HowTo 100M上进行端到端训练。我们还报告了在MSR-VTT上没有微调的零发射结果(表4),优于在HowTo 100 M上训练的MIL-NCE和Support Set。这表明我们的模型更具一般性,并且可以开箱即用,并且WebVid-2 M的域可能比HowTo 100M更接近MSR-VTT的域。我们将公开发布我们模型的重量。对 于 零 拍 摄 和 微 调 设 置 , 我 们 表 明 添 加 COCOCaptions图像数据集进一步提高了我们最先进的MSR-VTT性能,表明模型尚未饱和,额外的预训练数据集将导致更好的下游性能。对于MSVD [9],我们优于所有先前的方法(表5)。特别是,我们的表现优于Support Set [41],即使他们在一个数量级的数据上训练。DiDeMo的结果见表6。请注意,在这个数据集上,我们的零射击性能相当于CLIPBERT在补充材料中,我们进一步展示了LSMDC文本到视频检索的最新结果。5. 结论最后,我们引入了一个双编码器模型,用于文本视频检索的端到端训练,旨在利用大规模图像和视频字幕数据集。我们的模型在许多下游基准测试中达到了最先进的性能,但是我们注意到我们模型的性能尚未饱和,并且可以通过在.几何平均值(R@1、5、10)×0.76×0.8 81帧×0.84× 0.72×0.764帧14帧e×1×0 60×0.64×1.00×0.40×0.560.20×0.201735†表4:与用于文本到视频检索的MSR-VTT的最新结果的比较,1 k-A分割。 E2E:直接在像素上训练,而不使用为其他任务训练的预先提取的专家特征。可见Enc.姓名首字母:用于预训练视觉编码器的数据集,用于视觉文本检索以外的任务,例如对象分类。视觉文本PT:视觉文本预训练数据。蓝色突出显示的行使用其他模态,例如MSR-VTT测试中的声音和语音视频. †对象、运动、面部、场景、语音、OCR和声音分类功能。众多专家†表5:MSVD [9]测试集上的文本到视频检索结果。方法R@1R@5R@10MedRVSE [22]12.330.142.314.0VSE++[15]15.439.653.09.0多重提示[38]20.347.861.16.0CE [31]19.849.063.86.0支持套件[41]23.052.865.85.0支持集[41](HowTo PT)28.460.072.94.0我们33.764.776.33.0完整的HowTo100M数据集,较大的弱配对图像数据集,如Google3BN [20],以及其多数据集组合。鸣谢。作者要感谢Samuel Albanie提供的有用反馈。我们 非 常 感 谢 英 国 皇 家 学 会 研 究 教 授 、 EPSRCProgramme Grant VisualAI EP/T028572/1和Google PhDFellowship的资助。表6:DiDeMo测试集上的文本到视频检索结果。我们显示的结果与地面实况proposals(GT prop。)以及具有微调和不具有(零发射)。方法GT prop.R@1 R@5 R@10 MedRS2VT [57]11.933.6-13.0FSE [69]13.936.0-11.0CE [31]16.141.1-8.3ClipBERT [26]✓20.444.556.77.0我们31.059.872.43.0我们✓34.665.074.73.0Zero-shot我们的21.1 46.0 56.2 7.0我们的✓ 20.2 46.4 58.5 7.0引用[1] Jean-BaptisteAlayrac , Adria`Recasens , RosaliaSchneider,ReljaArandjelo vic´,JasonRamapuram,Jef freyDeFauw , Lu-cas Smaira , Sander Dieleman , andAndrew Zisserman.自我-方法E2E†可见Enc. Init.视觉文本PTPT对数R@1R@5R@10MedRJSFusion [67]✓---10.231.243.213.0土耳其空军[37]✓-100M136M14.940.252.89.0ActBERT [72]✓VisGenome100M136M16.342.856.910.0英雄[28]✓ImageNet,Kinetics 100M136M16.843.457.7-[第23话]✓公司简介100M136M14.7-52.8噪音[二]《中国日报》✗ImageNet,Kinetics 100M136M17.441.653.68.0CE [31]众多专家†-20.948.862.46.0UniVL [33]✗-100M136M21.249.663.16.0ClipBERT [26]✓-COCO,VisGenome5.6M22.046.859.96.0AVLnet [48]✗ImageNet,Kinetics 100M136M27.155.666.64.0MMT [16]T2VLAD [62]✗✗众多专家†100M-136M26.629.557.159.069.670.14.04.0支持套件[41]✗IG65M,ImageNet--27.456.367.73.0支持套件[41]✗IG65M,ImageNet100M136M30.158.569.33.0我们✓ImageNetCC3M3M25.554.566.14.0我们✓ImageNetCC3M、WV-2M5.5M31.059.570.53.0我们✓ImageNetCC3M、WV-2M、COCO6.1M32.561.571.23.0Zero-shot土耳其空军[37]✓-100M136M7.521.229.638.0支持集[41]IG65M,ImageNet100M136M8.723.031.131.0我们✓ImageNetCC3M、WV-2M5.5M23.244.656.67.01736监督多模态通用网络。在NeurIPS,2020年。二、三[2] Elad Amrani、Rami Ben Ari、Daniel Rotman和Alex布朗斯坦 使用密度估计的噪声估计用于自我监督的多模式学习。arXiv预印本arXiv:2003.03186,2020。八个[3] Lisa Anne Hendricks , Oliver Wang , Eli Shechtman ,Josef西维克特雷弗·达雷尔和布莱恩·拉塞尔使用自然语言对视频中的时刻进行本地化。 InICCV,2017. 二、 5[4] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,MargaretMitchell,Dhruv Batra,C Lawrence Zitnick,and DeviParikh.Vqa:可视化问答。在ICCV,2015年。一个[5] 马克斯·贝恩,阿尔沙·纳格拉尼,安德鲁·布朗,安德鲁·齐瑟曼.浓缩电影:基于上下文嵌入的故事检索。在ACCV,2020。二、五[6] Gedas Bertasius , Heng Wang , and Lorenzo Torresani.是时空注意力你需要视频理解吗arXiv:2102.05095,2021。二、三、四[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV,2020年。三个[8] J oaoCarreira和Andr e wZisserman。 Quovadis,开拍认可? 新模型和Kinetics数据集。在CVPR,2017年。二个[9] David Chen和William B Dolan。收集高度并行的数据进行释义评估。在计算语言学协会第49届年会的会议记录中:人类语言技术,第190-200页,2011年。二、五、七、八[10] Yunpeng Chen,Yannis Kalantidis,Jianshu Li,水城Yan和JiashiFeng。 A2-nets:双重注意网络。arXiv预印本arXiv:1810.11579,2018。三个[11] Rewon Child , Scott Gray , Alec Radford , and IlyaSutskever. 用 稀 疏 变 换 器 生 成 长 序 列 。 arXiv 预 印 本arXiv:1904.10509,2019。三个[12] Jean-Baptiste Cordonnier 安德烈亚斯·卢卡斯 和马丁Jaggi自我注意与卷积层的关系。arXiv预印本arXiv:1911.03584,2019。3[13] 杰·德夫林 张明伟 肯顿·李 和克里斯蒂娜图坦诺娃BERT:用于语言理解的深度双向变换器的预训练。在NAACL-HLT,2019年。3[14] Alexey Dosovitskiy Lucas Beyer Alexander KolesnikovDirk Weissenborn、Xiaohua Zhai、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和Neil Houlsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器ICLR,2021年。三、四[15] Fartash Faghri,David J Fleet,Jamie Ryan Kiros和Sanja菲德勒Vse++:用硬否定词改进视觉语义嵌入。arXiv预印本arXiv:1707.05612,2017。八个[16] Valentin Gabeur、Chen Sun、Karteek
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功