没有合适的资源?快使用搜索试试~ 我知道了~
4613重新思考零镜头视频分类:面向实际应用的端到端培训Biagio Brattoli海德堡大学biagio. iwr.uni-heidelberg.de彼得罗·佩罗纳·亚马孙perona@caltech.edu约瑟夫·泰伊·亚马孙tighe@amazon.com克日什托夫chalupkk@amazon.com费多尔·日丹诺夫·亚马孙fedor@amazon.com摘要在大型数据集上训练,深度学习(DL)可以准确地将视频分类为数百个不同的类别。然而,视频数据的注释是昂贵的。Zero-shot learning(ZSL)提出了一种解决这个问题的方法。ZSL训练一次模型,并推广到训练数据集中不存在类的新任务。我们提出了第一个端到端的视频分类中的CRTL算法。我们的训练过程建立在最近的视频分类文献的基础上,并使用可训练的3DCNN来学习视觉特征。 这与使用预训练的特征提取器的先前视频抽取方法形成对比。我们还扩展了当前的基准测试范例:以前的技术旨在使测试任务在训练时未知,但达不到这一目标。我们鼓励在训练和测试数据之间进行域转移,并且不允许针对特定的测试数据集定制ZSL模型。我们的表现远远超过了最先进的水平 。 我 们 的 代 码 、 评 估 程 序 和 模 型 权 重 可 在github.com/bbrattoli/ZeroShotVideoClassification 上 获得。1. 介绍训练图像和视频分类算法需要大型训练数据集[21,27,51,52,53]。 与没有可用的任务特定训练数据,人们仍然可以尝试使用相关信息来训练模型,并将所学习的知识转移到对先前未见过的类别进行分类。这种方法被称为零拍摄学习(zero-shot learning,缩写为zero-shot learning)[29,34],它在图像领域非常成功[41,42,44,45,47,56]。我们专注于用于视频动作识别的CPDL,其中数据源和注释特别昂贵。在亚马逊实习期间完成的工作图1:(顶部)我们的模型是最先进的(在UCF测试数据集上计算的误差)。(下)我们的e2e模型简单但功能强大。[24][25][26][27][28][29]灰色块表示在训练期间固定的模块。颜色(蓝色、红色或橙色、黄色)表示在不同阶段训练的模块。由于可能的人类动作集是巨大的,动作识别是一个很好的人工智能测试平台。在大规模学术数据集上进行训练[11,17,24,25,28,50],监督式3D卷积神经网络(CNN)在这一领域取得了成功然而,现代深度网络在人工智能环境中识别人类行为的能力如何,仍然是一个悬而未决的问题。据我们所知,目前所有的视频处理方法4614识别使用预先训练的视觉嵌入[1,4,18,33,35、54、55、58、59、60、61、64]。这在训练效率和使用先验知识之间提供了良好的权衡。然后,浅层可训练模型将预训练的表示转换为可训练的嵌入,如图所示1(底部)。浅层模型的低训练空间复杂度使它们能够受益于长视频序列[51]和大型特征提取器[21]。相比之下,图像分类[21]、对象检测[36,38,49]和分割[8,20,63]的基础CV域中的最新算法都依赖于端到端(e2e)训练。表示学习是深度网络这就提出了一个问题:e2e网络如何与当前的方法竞争?我们的贡献涉及到OWL视频分类的多个方面新颖造型:我们提出了第一个e2e训练的零射击动作识别模型。训练过程的灵感来自现代监督视频分类,实践。图1表明,我们的方法很简单,但优于以前的工作。此外,我们设计了一种新的简单的预训练技术,目标是视频识别的CNOL场景。Evaluation Protocol: We propose a novelZSLtrainingand evaluation protocol that enforces a realistic ZSLsetting.扩展Roitberg等人的工作。[40],我们在多个测试数据集上测试单个训练模型,其中训练和测试类的集合是不相交的。此外,我们认为,训练和测试域不应该是相同的。深入分析:我们对e2e模型和预训练的基线进行了深入分析。在一系列的指导实验中,我们探索了良好的OWL数据集的特征。我 们 的 模 型 、 培 训 和 评 估 代 码 可 在github.com/bbrattoli/ZeroShotVideoClassification 上 获得。2. 相关工作我们关注的是归纳式学习,其中测试数据在训练时完全未知。有大量关于转导性神经网络的文献[1,33,54,55,59,58,60],其中测试图像或视频在训练期间可用,但测试标签不可用。我们不讨论在这项工作中的转导方法视频分类:现代的基于DL的视频分类方法主要分为两类:2D网络[48,53]操作1-5帧片段和3D网络[5,6,7,12,19,31,46,51,52]操作16-128帧。这种类型的最早的作品之一,Si- monyan和Zisserman [48],只从视频中随机采样1-5帧进行在推理方面,图2:训练和测试类,Word 2 Vec嵌入的t-SNE [30]可视化。红点表示我们使用的训练类,灰点表示我们删除的训练类,以分离训练和测试数据。十字代表测试类。图片是实际的数据集视频帧。对帧进行采样,并且在为视频剪辑取得的所有采样上对分类器输出进行平均。这意味着在推理过程中观看大量视频很重要,但Wang等人[53]表明,在训练过程中对整个视频中的多个帧进行采样可以提高性能,这就提出了一个问题,即训练是否也需要大量的时间背景。然而,基于更强大的3D网络的后期工作[7,12,51]表明,对于大多数数据集,在训练期间采样16帧就足够了。将训练帧数量从16增加到128只略微提高了性能。在这项工作中,我们适应了训练时间采样philosophy的国家的最先进的视频分类的cumil设置。这允许我们训练视觉嵌入e2e。因此,与以前的工作相比,整体架构和推理过程非常简单,并且结果是最先进的1.一、零拍视频分类:零拍摄视频分类的常见做法是首先使用预先训练的网络(如C3D [51]或ResNet [21])从视频帧中提取视觉特征,然后训练将视觉嵌入映射到语义嵌入空间的时间模型[4,13,14,15,16,18,35,61,64]。类名语义嵌入的良好概括意味着该模型可以应用于新视频,4615图3:删除重叠的训练类和测试类。y轴显示最接近测试集UCF和HMDB的动力学类。x轴显示距离(参见等式4)对应的最接近的测试类。在我们的实验中,我们删除了比τ = 0更接近的训练类。05到测试集– to the left of the red line in the输出类不存在于训练数据中。推理简化为找到嵌入是模型输出最近邻居的测试类。Word2Vec [32]通常用于生成地面实况词嵌入。另一种方法是使用手工创建的类属性[23]。我们决定不采用手动方法,因为它更难应用于一般场景。两个有效的最近的方法,哈恩等人。[18]和Bishayetal. [4],从每个视频的16帧的52个剪辑中提取C3D特征。然后,他们学习一个递归神经网络[10,22],将结果编码为单个向量。最后,一个完全连接的层将编码的视频映射到Word2Vec嵌入。图1示出了这种方法。[18]和[4]都使用相同的数据集进行训练和测试,然后将可用的数据集类分成两组。使用预训练的深度网络很方便,因为预提取的视觉特征很容易适应GPU内存,即使是大量的视频帧。替代方法使用生成模型来补偿语义和视觉分布之间的差距[33,62]。不幸的是,per-tuning是有限的,无法微调的视觉嵌入。我们表明微调是至关重要的推广跨数据集。我们的工作类似于Zhuet al。[64]因为这两种方法都学习跨数据集概括通用动作表示。然而,他们提出的模型并没有利用3D CNN的潜力相反,他们利用非常深的ResNet200 [21], 在ImageNet [9, 43]上 进行 预 训练,它不能利用时间信息。正如Roitberget al. [40]以前的作品在与目标数据集的动作重叠的动作上训练他们的模型,这违反了CNOL的假设。例如,Zhuet al. [64]在完整的ActivityNet [11]数据集上训练。这使得他们的结果很难与我们的结果进 行 公 平 的 比 较 。 根 据 我 们 的 定 义 , BRL ( Sec.3.3),Zhuet al.在训练数据集中有23个类与测试数据集重叠。所有其他方法的情况都不同程度地类似。3. 零拍动作分类我们首先在视频分类的上下文中仔细地定义了视频分类这将使我们不仅能够提出一个新的CNOL算法,而且还可以提出一个明确的评估协议,我们希望这将指导未来的研究走向实用的CNOL解决方案。我们停留在归纳设置,如第二节所述二、3.1. 问题设置视 频 分 类 任 务 由 训 练 集 ( 源 ) Ds={ ( x1 ,c1),· · ·,(xNs,cNs)}和视频标签测试集Dt定义,训练集(源)D s ={(x 1,c 1),···,(x Ns,c N s)}由视频x及其类别标签c的对组成。此外,以前的工作通常使用预训练数据集Dp,如第二节所述。二、直观地说,DPL是在Ds(可能还有Dp)上训练分类模型,然后在Dt上进行测试的任何过程,其中Dt与DsDp不重叠。这种重叠的定义各不相同。秒3.3提出了一个比以前的工作所使用的定义更具限制性的定义,并迫使算法转换成更真实的模拟环境。CNOL分类器需要泛化到看不见的测试类。实现这一点的一种方法是在语义类嵌入空间中使用最近邻搜索形式上,给定视频x,我们推断相应的语义嵌入z=g(x),并将x分类为测试类的嵌入集合中z的最近邻。然后,训练的分类模型M(·)输出M(x)= argmin cos(g(x),W2V(c))。(一)c∈Dt其中 cos是余 弦距 离, 并且 使用 Word2Vec函数 [32]W2V:C →R300来计算语义嵌入。函数g=f s<$f v是视觉编码器f v:x<$→y和语义编码器f s:y<$→z∈R300的组合。46163.2. 端到端培训在以前的工作中,视觉嵌入函数fv是手工制作的[60,64]或由预先训练的深度网络计算的[4,18,55,64]。它在优化过程中是固定的,迫使模型开发专注于提高fs。结果模型需要学习将固定的视觉嵌入转换为有意义的语义特征,并且可能非常复杂,如图所示。1(底部)。相反,我们建议同时优化fv和fs这样的e2e培训提供了多种优势:1. 由于fv提供了一个复杂的计算引擎,可以是一个简单的线性层(见图1)。1)。2. 我们可以使用标准的3D CNN来实现完整的模型。3. 在分类任务上预训练视觉嵌入是不必要的。由于GPU内存限制,使用完整视频进行端到端优化是不可行的我们的实现是基于标准的视频分类方法,即使在训练过程中只使用一小段代码,这些方法也是有效的,如第2节中详细讨论的。形式上,给予训练视频/类对(x,c)∈Ds,我们在随机时间t≤(len(x)−16)提取16帧的片段xt。通过最小化损失ΣL=<$W2V(c)−(f s<$f v)(xt)<$2。(二)(x,c)∈Ds推理过程是类似的,但池信息从多个片段后,王等。[53]。秒4.4详细介绍了我们的训练和推理过程。为了更好地理解我们的方法4.4)。这是必要的,因为我们无法访问任何最先进方法的实现不幸的是,我们自己的重新实现取得的结果远远低于他们的作者报告的数字,即使有他们的帮助。3.3. 走向现实主义为了确保我们的WML设置是现实的,我们扩展了[40]的方法,该方法仔细分离了训练和测试数据。这在实践中实现起来很麻烦,并且大多数以前的工作都我们希望我们清晰的训练和评估协议的制定将使未来的研究人员更容易理解他们的模型在真实的模拟环境中的性能。不重叠的培训和测试类:我们的第一个目标是确保D sD p和D t具有“非重叠类”。简单的解决方案源类名与目标类的区别,或者反之亦然,这是不起作用的,因为两个名称稍有不同的类很容易引用同一个概念,如图所示。3. 需要类名称之间的距离。配备了这样的指标,我们可以确保训练和测试类不太相似。形式上,令d:C → C表示所有可能类名C的空间上的距离度量,令τ∈R表示相似性阈值。如果满足以下条件,则视频分类任务完全遵守零拍摄约束<$cs∈Ds<$Dp,mind(cs,ct)>τ.(三)ct∈D t定义d的一种直接方法是使用类名的语义我们将两个类之间的距离定义为:d(c1,c2)=cos(W2V(c1), W2V(c2))(4)其中cos表示余弦距离。这与我们在等式中所做的在RNL设置中使用余弦距离是一致的。1.图2显示了在我们使用上面概述的过程从与测试数据重叠的Kinetics类中移除图3显示了我们数据集中训练类和测试类之间的距离分布在非常接近0和大于0的距离之间存在一个悬崖。1.一、在我们的实验中,我们使用τ=0。05作为一个自然的,无偏见的门槛。不同的培训和测试视频域:我们认为,视频域的D sD p和D t应该不同。在以前的工作中,标准评估协议是使用一个数据集用于训练和测试,使用10个随机分割。这并没有考虑到由于数据压缩、相机伪影等而在现实世界场景中发生的域偏移。出于这个原因,理想情况下,WML训练和测试数据集应该具有不相交的视频源。多个测试数据集:一个单一的CSCL模型应该在多个测试数据集上表现良好。如上所述,先前的工作对每个可用的数据集(通常是UCF和HMDB)进行了重新训练和测试。在我们的实验中,在Kinetics数据集上只发生一次[25],并在所有UCF[50],HMDB [28]和ActivityNet [11]上进行测试。3.4. 轻松的视频预训练在现实世界中,模型只训练一次,然后部署在各种看不见的测试数据集上。一个庞大而多样化的训练数据集对于实现良好的性能至关重要。理想情况下,训练数据集将针对一般推理域进行定制-例如,要在多个然而,获取和标记特定于域的视频数据集是非常昂贵的。另一方面,注释图像要快得多因此,我们设计了一个简单的4617数据集VisualFeat UCF HMDB活动网址[64]ResNet20042.551.8-[60]第六十话-18.319.7-InfDem [39]i3D17.821.3-双向[55]IDT21.418.9-[40]第四十话--23.1-TRAN [4]C3d1919.5-[18]第十八话C3d22.123.5-我们的(605类)C3d41.525.024.8我们的(664类)C3d43.824.7-我们的(605类)R(2+1)D1844.129.826.6我们的(664类)R(2+1)D184832.7-表1:与最先进的标准基准的比较。我们根据评估方案1(第1节)对半个测试类进行评估。4.3)。我们的(605classes)表明我们删除了所有与UCF,HMDB或ActivityNet重叠的训练类我们的(664类)表明我们只删除了与UCF和HMDB重叠的训练类。我们在这两种情况下都优于以前的工作。秒2认为URL数据集增强方案,其从静止图像创建合成训练视频。秒5表明使用此数据集预训练我们的模型可以提高性能,特别是在可用训练数据较少的情况下。我们使用Ken Burns效果将图像转换为视频:在图像周围移动的作物序列模拟类似视频的运动。秒4.1提供了更多详细信息。我们的实验集中在动作识别领域.在动作识别(以及许多其他分类任务)中,视频的位置和场景对动作类别具有很强的预测性。因此,我们选择SUN [57],一个标准的场景识别数据集。图2显示了场景数据集类名的完整类嵌入4. 实验装置为了促进可重复性,我们详细描述了我们的培训这些协议提出了一种训练和评估BML模型的方法,这与我们在第二节中的定义一致。三点三4.1. 数据集UCF101[50]有101个动作类,主要集中在体育方面,有13320个视频来源于YouTube。HMDB51[28]分为围绕体育和日常活动的51个人类动作,包含6767个视频方法UCF HMDB活性Top-1 Top-5 Top-1 Top-5 Top-1 Top-5网址[64]34.2-----664类37.662.526.949.8--605类35.360.624.844.020.042.7表2:所有测试类别的评价与表1相反4.3)。我们应用了一个在与UCF、HMDB和ActivityNet不同的类上训练的模型。然而,我们在UCF 101上超过了- form URL[64]。URL作者不报告完整HMDB51的结果。剩余的先前工作未报告完整UCF 101和完整HMDB 51的结果。来源于商业视频和YouTube。Activi- tyNet[11]包含27,801个未修剪的视频,分为200个类别,专注于日常活动,视频来源于网络搜索。我们只从每个视频中提取标记的帧。Kinetics[25]是目前最大的动作识别数据集,涵盖了广泛的人类活动。第一版数据集包含超过20万个视频,分为400个类别。最新版本有700个类,总共有541624个来自YouTube的视频。[57]第57章:你是谁?3.4)是一个场景下的图像数据集。它包含397个场景类别,总共超过100K的高分辨率图像。我们使用Ken Burns效果将其转换为模拟视频数据集:为了从图像创建16帧视频,我们随机选择“ 开 始 ” 和 “ 结 束 ” 裁剪位置(和裁剪大小),的图像,并线性插值,以获得16作物。然后将它们的大小调整为112 ×112。4.2. 训练协议我们在SEC的实验5使用两种训练方法:培训方案1:从Kinetics 700中删除所有类,其到UCF中的任何类的距离小于τ(参见等式2)。4). 这导致Ki的子集有664个类,我们称之为Kinetics 664。正如在第二节中所解释的。3.3,这个设置已经比以前的方法更严格了,这些方法为每个测试数据集训练新模型。培训方案2:从Kinetics 700中删除所有类,其到UCF中的任何类的距离都小于τ(参见等式2)。4).这导致Kinetics的一个子集,有605个类,我们称之为Kinetics605。此设置的限制性更强,但更接近于真实的BTL。我们的目标是证明可以训练一个适用于多个不同测试数据集的单个BML模型图2显示了所有Kinetics 700类以及101 UCF4618i=1ΣN类和我们删除的类以获得Kinetics 664。4.3. 评价方案我们使用两个协议测试了我们的模型:第一个是SEC。3.3为了模拟真实的BWL设置,第二个与以前的工作兼容。两个评估方案都将相同的模型应用于多个测试数据集。评价方案1:为了使我们的结果与以前的工作相比较,我们使用以下程序:随机选择测试数据集的一半类,50个用于UCF,25个用于HMDB。评估分类器这个测试集。重复10次,并对每个测试数据集的结果取平均值。评价方案2:以前的工作使用UCF [50]和HMDB [28]的随机训练/测试分割来评估它们的算法。然而,我们在单独的数据集Kinetics 664/605上进行训练,并可以在完整的UCF和HMDB上进行测试这使我们能够返回更真实的准确度分数。评估协议很简单:在所有101个UCF类和所有51个HMDB类上评估分类器。4.4. 实现细节在 我 们 的 实 验 中 , fv ( 见 第 二 节 。 3.1 ) 是 R(2+1)D 18 [52]或C3D[51]的PyTorch实现 在预训练设置中,我们使用在Kinetics400上预训练的开箱即用的R(2+1)D 18 [25],而C3 D在Sports-1 M上预训练[24]。 在e2e设置中,我们使用pretrained=False参数初始化模型。视觉嵌入fv(x)是BxTx512,其中B是批量大小,T是每个视频的剪辑数量。在表1和表2中,我们使用T=1进行训练,T=25进行评估。剪辑是16帧长,我们选择他们以下的标准协议建立的Wang等。[53]。 我们与以前的方法类似地在时间上平均f v(x)(视频片段)[51,64]。fs是一个线性分类器,512x300权重fsfv的输出为Bx300形状我们遵循标准协议计算语义em-分类名称的bedding [4,58,64]。Word 2 Vec [32]我们平均多个单词的类名。在极少数情况下,预训练的W2V模型中没有可用的单词(例如,从形式上讲,对于由N个词组成的类名c=[c1,· · ·,cN],我们将其嵌入为W2V(c)=W2V(ci)∈R300.我们将τ设为0。05、分析后,3.3基于图3.最大限度地减少Eq的损失。2我们使用Adam优化器[26],从1e−3的学习率开始。批量大小为22个片段,每个片段16帧。 训练的模型150个时期,在时期60和120处学习率下降十倍。所有的实验都是在Nvidia Tesla V100 GPU上进行的。在[51]之后,我们重塑了每个帧图4:培训班的数量在CNOL中很重要。Or-ange曲线显示了Kinetics 664子集的性能,因为我们保留了所有的训练类并增加了子集大小。蓝色曲线的标记逐渐变亮,表示我们将训练类的数量从2个增加到664个(秒)的单独实验5.2)。对于任何给定的训练数据集大小,测试数据的性能随着训练类的增加而提高。此外,当很少有训练类可用时,e2e模型无法超越基线。到128像素,并在训练时裁剪随机的112x112补丁,在推理时裁剪中心补丁。5. 结果我们的实验有两个目标:将我们的方法与以前的工作进行比较,并研究我们的方法3.2.)第一个是必要的,以验证视频上的e2e网络可以优于使用预训练特征的更复杂的方法。后者将使我们了解在什么条件下e2e培训特别有益。5.1. 与最新技术水平的比较表1将我们的方法与现有方法进行了比较。我们遵循第4.2节和第4.3节所述的培训和评估方案1。我们的协议比以前的方法更具限制性:我们删除了与测试类重叠的训练类,引入了域转移,并将一个模型应用于多个测试数据集。尽管如此,我们优于以前的视频为基础的方法的一个很大的保证金。此外,当在UCF上测试时,我们的URL [64]使用的网络数量级为mag-4619图5:多样化的培训课程对学习者有好处。在这里,我们在50个Kinetics 664类的子集上训练了我们的算法。(左上) 随机统一挑选 的培训班 (Top我们将类 的Word2Vec嵌入聚类到两个聚类中,然后使用每个聚类分别进行训练和评估,并对结果进行平均(下图)在这里,我们对使用三个和六个集群的训练结果进行了该图显示,聚类越多,训练类在语义上的多样性就越小。同时,较少的多样性导致较高的错误。nitude比我们的更深- 18层对200层-23个类在训练和测试之间重叠(见第二节)。2)。5.2. 与基线方法的比较我们的基线方法在第二节中描述。3.2使用固定的、预先训练的视觉特征提取器,但是在其他方面与我们的E2E方法相同。这使我们能够研究评估方案2下e2e培训的益处(参见第4.2节和第4.3节)。使用所有测试类提供了对方法更直接的评估。训练数据集大小:为了研究训练集大小对性能的影响,我们随机对Kinetics 664进行了均匀的子采样,然后重新训练和重新评估了模型。图4显示了e2e算法在两个数据集上的性能始终优于基线这两种算法然而,基线在大约10万个训练数据点处消失,而我们的方法的误差不断减小。这是预期的,因为e2e模型具有更大的容量。培训班数量:在许多视频域中,难以获得不同的数据。小型数据集可能不会图6:使用图像视频的增强预训练我们在越来越小的Kinetics 664类子集上训练我们的算法(第二节)。5.2)。在我们的合成SUN视频数据集上对模型进行预训练后,我们将结果与在相同数据集上的训练进行了比较(第二节)。5.3)。预训练过程可将性能提高10%。只有很少的数据点,而且只包含很少的训练类。我们表明,训练类的数量可以影响训练数据集大小一样多的训练结果。为了获得图。我们对Kinetics 664进行了分类抽样。我们首先随机挑选了2个Kinetics 664类,并仅在这些类上训练算法。我们使用4、10、25、50、100、200、400和所有664个类重复该过程当然,类越少,训练集包含的数据点就越少这一结果在图中进行了比较。4与上述程序,其中我们删除随机的动能数据点-独立于他们的类。该图表明,最好是从大量的类中获得很少的训练样本,而不是从非常少量的类中获得许多训练样本。这种效应对于e2e模型而不是基线更明显。训练数据集类别多样性:我们证明了在更多的培训课程中,EML工作得更好。如果我们收集类和数据点的预算有限,我们应该如何选择它们?我们调查了一组 训 练 类 是 否 应 该 强 调 细 微 的 差 异 ( 例 如 , “ 投篮”vs“传球”vs“射门”等等)或多样性。在图5中,我们以四种方式选择了50个训练类:(左上)我们从整个Kinetics 664数据集中随机选择了50个类,在这些类上训练算法,并在测试集上运行推理。我们重复这个过程十次,平均推理误差。(Top我们将664个类聚类到Word2Vec嵌入空间中的2个聚类中,并在其中一个聚类中随机选择50个类,训练并运行推理。然后我们重复这个过程十次,并将结果平均4620图7:测试类离开训练时的错误。对于每个UCF101测试类,我们计算了它与训练数据集中10个最近邻的距离我们将所有这些距离阈值排列在x轴上。对于每个阈值,我们计算了算法在测试类上的准确性,这些测试类与训练数据的距离大于阈值。换句话说,随着x轴向右移动,模型在累积较小但较难的测试集上进行评估(下)在这里,我们在3个集群之一(左)和6个集群之一(右)中选择了50个类,进行了训练,并对10次运行的推理结果进行了该图显示,我们的方法的测试这个结果并不明显,因为随着阶级多样性的增加,任务变得更加困难。5.3. 使用图像轻松进行预训练前面的部分表明,类数和多样性是CNOL性能的重要驱动因素。这启发了我们开发第二节中描述的预训练方法。3.4:我们在从SUN数据集的静态图像创建的合成视频数据集上预训练模型。图6表明,这个简单的过程始终减少测试误差高达10%。此外图7表明,这种初始化方案使模型对训练类和测试类之间的大的域移位更鲁棒。下一节将更详细地说明后一项调查结果。5.4. 推广和领域转移一个好的CPDL模型可以很好地推广到与训练类显著不同的类。为了研究我们的模型在重域偏移下的性能,我们计算了测试数据子集的准确度,这些测试数据子集与训练数据集的距离越来越大。我们首先在Kinetics 664上然后,对于给定的距离阈值τ(参见第二节),3.3),我们计算了UCF类集合的准确度,这些类与最近的10个Kinetics 664类的平均距离大于τ。图7、说明基础--线模型(未训练的e2e)的性能在τ = 0附近下降到零。五十七我们的方法表现得更好,对于高阈值,精度永远不会降到零。最后,使用SUN预训练进一步提高了性能。UCF 101精度50级101级E2e增强多Top-1 Top-5 Top-1 Top-526.855.519.840.5C43.068.235.156.4CC45.673.136.861.7CC48.074.237.662.5CCC49.277.039.865.6表3:消融研究。数字代表分类准确性。“50类”使用评估协议1(第4.3.)“101班”使用评价方案2。e2e:训练视觉嵌入,而不是固定的、预先训练的基线(第3.2)。增强:使用SUN增强方案进行预训练(第5.3)。多:在测试时,从每个视频中提取多个片段,并对视觉嵌入进行平均(第4.4)。5.5. 消融研究表3研究了我们模型中不同元素对其性能的贡献当视觉嵌入固定时,性能较低。e2e方法大幅提高了性能。我们的类增强方法进一步提高了性能。最后,它有助于从测试视频中提取线性间隔的片段,并平均其视觉嵌入。使用25个片段在不影响模型训练时间的情况下大大提高了性能。6. 结论我们遵循最近的视频分类文献中的实践来训练第一个用于视频识别的e2e系统。我们的评估协议是严格的比现有的工作,和措施更现实的零杆分类精度。即使在这种更严格的协议下,我们的方法也优于以前的作品,其性能是通过训练集和测试集重叠和共享域来测量的。通过一系列有向实验,我们证明了一个好的CNOL数据集应该有许多不同的类。在这种洞察力的指导下,我们制定了一个简单的预训练技术,以提高APDL的性能.我们的模型易于理解和扩展。我们的培训和评估协议 易 于 与 其 他 方 法 一 起 使 用 。我 们 在github.com/bbrattoli/ZeroShotVideoClassification 上 提 供了我们的代码,以鼓励社区建立在我们的见解之上,并为未来的视频搜索引擎研究奠定坚实的基础。谢谢。我们感谢亚马逊对该项目的慷慨支持,以及Alina Roitberg对评估协议的富有成效的讨论。4621引用[1] 艾力克西欧,陶翔,龚绍刚。探索同义词作为零射击动作 识 别 的 上 下 文 2016 年 IEEE 图 像 处 理 国 际 会 议(ICIP),第4190-4194页IEEE,2016.[2] 莎拉·比瑞格兰特·范·霍恩和皮特罗·佩罗纳在未知领域的认知。在欧洲计算机视觉会议,2018年9月。[3] Yoshua Bengio Aaron Courville和Pascal Vincent表示学习:回顾与新的视角 。IEEE Transactions on PatternAnalysis and Machine Intelligence,35(8):1798[4] 米娜·比沙伊,乔治斯·祖普利斯,和扬尼斯·帕特拉斯.Tarn:用于少镜头和零镜头动作识别的时间注意关系网络。arXiv预印本arXiv:1907.09021,2019。[5] 放大图片作者:J. Sch w ab,andB joérnOmme r. 用于详细行为分析的Lstm自我监督在IEEE计算机视觉和模式识别会议(CVPR),2017。[6] UtaBuüchler,BiagioBrattoli,andB joürnOmme r. 通过深度强化学习改进时空在2018年的IEEE欧洲计算机视觉会议(ECCV)上[7] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集,第6299-6308页[8] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议(ECCV)的会议记录中,第801-818页[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[10] Rahul Dey和Fathi M Salemt。门控回流单元神经网络的门变式。2017年IEEE第60届国际中西部电路与系统研讨会(MWS- CAS),第1597-1600页。IEEE,2017年。[11] Bernard Ghanem Fabian Caba Heilbron、Victor Escorcia和Juan Carlos Niebles。Activitynet:用于人类活动理解的 大 规 模 视 频法 律 程 序 中IEEE Conference onComputer Vision and Pattern Recognition , 第 961-970页,2015。[12] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络arXiv预印本arXiv:1812.03982,2018。[13] Chuang Gan,Ming Lin,Yi Yang,Gerard De Melo,and Alexander G Hauptmann.概念并不孤单:探索零拍摄视频活动识别的成对关系。第三十届AAAI人工智能会议,2016。[14] Chuang Gan,Ming Lin,Y. Yang,Y. Zhuang和Alexan-der Hauptmann。探索语义类间关系(sir)用于零射击动作识别。院刊第二十九届AAAI人工智能会议,第3769-3775页,2015年1月。[15] 庄乾、杨天宝、龚伯庆。学习属性等于多源域泛化。在IEEE计算机视觉和模式识别会议的论文集,第87-97页[16] 甘闯,杨毅,朱林超,赵德利,庄月玲.使用名称识别动作:基于知识的方法。国际计算机视觉杂志,120,2016年3月。[17] Raghav Goyal,Samira Ebrahimi Kahou,Vincent Michal-ski , Joanna Materzynska , Susanne Westphal , HeunaKim,Valentin Haenel,Ingo Fruend,Peter Yianilos,Moritz Mueller-Freitag,et al.学习和评估视觉常识的“某事某事”视频数据库。在ICCV,第1卷,第3页,2017年。[18] Meera Hahn,Andrew Silva,and James M.2vec:一种跨模 态 的 行 动 学 习 嵌 入 方 法 。 arXiv 预 印 本 arXiv :1901.00484,2019。[19] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史在IEEE计算机视觉和模式识别会议论文集,第6546-6555页[20] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页[21] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on Computer Vision and PatternRecognition,第770-778页[22] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735[23] Haroon Idrees , Amir R Zamir , Yu-Gang Jiang , AlexGorban,Ivan Laptev,Rahul Sukthankar,and MubarakShah.thumos挑战视频动作识别“在野外”。计算机视觉和图像理解,155:1[24] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模CVPR,2014。[25] Will Kay , Joao Carreira , Karen Simonyan , BrianZhang,Chloe Hillier,Sudheendra Vijayanarasimhan,Fabio Viola,Tim Green,Trevor Back,Paul Natsev,etal. 人 体 运 动 视 频 数 据 集 。 arXiv 预 印 本 arXiv :1705.06950,2017。[26] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[27] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功