没有合适的资源?快使用搜索试试~ 我知道了~
10149跨视频周期一致性麦吉尔大学,米拉王小龙加州大学圣地亚哥分校摘要最近的工作已经大大提高了自监督表示学习的性能。这些方法的核心是图像内不变性学习。一个图像实例的两个不同变换被认为是一个正样本对,其中各种任务被设计为通过比较该对来学习不变表示。类似地,对于视频数据,训练来自相同视频的帧的表示比来自其他视频的帧更接近,即视频内不变性。然而,跨视频关系几乎没有被探索的视觉表征学习。 不像视频内不变性,跨视频关系的地面实况标签通常在没有人工劳动的情况下不可用在本文中,我们提出了一种新的对比学习方法,探索跨视频的关系,通过使用一般的图像表示学习的周期一致性。这允许跨不同的视频实例收集正样本对,我们假设这将导致更高级别的语义。我们通过将我们的图像表示转移到多个下游任务(包括视觉对象跟踪、图像分类和动作识别)来验证我们的方法。我们表现出显着的改进,国家的最 先 进 的 对 比 学 习 方 法 。 项 目 页 面 可 在https://happywu.github.io/cycle_contrast_video上找到。1. 介绍最近对视觉表征的对比学习的兴趣激增[66,29,3,28,57,9,26,41]。我们已经见证了对比学习在各种视觉识别任务中使用大规模人类注释进行监督预训练[26,9]。这种自监督任务的关键是构造同一实例的不同视图和变换,并学习深度表示对视图变化保持不变。为了在对比学习中构造不同的视图以形成正图像对,最常见的方法是在同一实例上使用不同的数据增强(例如:周期一致软最近邻正向查找最近邻后向寻找最近邻图1:图像表示学习的跨视频周期一致性。从视频中的一个帧开始,我们从其他视频中找到它的软最近邻作为向前的步骤,然后当软最近邻在相同视频中找到它的最近帧作为向后的步骤中的开始帧时,实现循环一致性。随机裁剪、图像旋转、彩色化)。然而,简单地在单个实例上执行人工增强已经在多个应用中显示出其局限性[58,67]。例如,Tianetal.[58]已经对不同的增强如何影响不同的下游视觉识别任务进行了详细的分析除了单个图像,研究人员还研究了视频作为获得正对训练图像的来源[49,21,61]。也就是说,同一视频中的两个附近帧可以被视为同一对象实例的时间上的自然增强通过使用时间增强进行训练,表示可以学习视点和变形不变性。然而,这些方法仍然局限于在单个实例中找到正对并学习它们的相似性。在本文中,我们建议使用不同视频而不是同一视频中的正图像对进行对比我们假设这可以潜在地捕获更高级别的语义和分类信息,形成超越低级别的内部实例不变性模型,由以前的方法。具体地,给定来自视频的两个图像帧Ii和Ij,而不是直接将它们用作用于训练的正对[49,21],我们将首先10150--通过合成来自与Ii相似的其他视频的帧来合成Ii帧,然后将合成的帧与Ij进行比较以进行对比学习。假设我们有一个神经网络特征提取器要学习,我们提取图像帧Ii的特征表示为qi,并且提取来自其他视频的帧的表示为U = u1, u2,… 嗯。 给定这些表示,我们计算q i和U之间的相似性,并将其归一化为概率分布。我们使用该概率分布来重新加权和组合特征U作为帧Ii的新特征表示(与Ii更相似的帧将具有更大的权重)。 我们称这个新特征为Ii的软最近邻。然后,我们用这个新的表示和Ij的特征(来自与Ii相同的视频的不同帧)形成训练数据的正对。如图1所示,该过程经历从视频中的一个帧Ii开始、通过匹配来自其他视频的帧来向前搜索、以及在第一视频中向后检索帧Ij的循环。 我们称这个过程为周期一致性对比学习。直观地,强制执行这样的周期一致性可以显式地将具有相似结构的视频帧推得更近,从而导致语义的自然聚类。我们在未标记的视频数据集随机相关视频视图(R2V2)[21]上执行所提出的自监督表示学习,并将学习的表示转移到各种下游任务,包括视觉对象跟踪,图像分类和动作识别。我们强调我们的目标是使用时间信号来学习用于视频级识别任务之外的多个应用的通用图像级表示。我们在多个国家的最先进的approaches显着改善。我们还进行了广泛的消融研究的不同组成部分和我们的方法的设计选择。我们的贡献包括:(i)一个新的跨视频周期一致的对比学习目标,探索跨视频关系,超越以前的图像内和视频内不变学习;(ii)所提出的损失强制来自相同类别(类似视觉结构)的图像表示更接近,而不明确地生成伪标签;(iii)学习的图像表示在包括对象跟踪、图像分类和动作识别的多个下游任务中实现了显著的改进。2. 相关工作对比学习。自监督对比学习方法[23,16,66,29,45,3,28,57,79,9,26,41,10,8]试图通过形成正对和负对来学习不同变换下的图像表示,并使正对的表示具有高相似性,负对具有低相似性。生成正对的典型方式是执行人工在单个图像实例上的cial数据增强。例如,Chenet al.[9]介绍了一种具有不同类型增强的对比学习基线,包括随机裁剪,调整大小,颜色失真,高斯模糊等。He等人[26]提出了MoCo,其引入动量网络来编码大量负样本的队列在这项工作中,我们建立我们的模型的基础上的MoCo框架。然而,我们提出了一个新的目标,而不是通过增强相同的图像来学习正对,它可以在视频中找到正对的样本,用于图像表示的对比学习。从视频中学习自监督图像表示。超越从单个图像学习[15,13,48,14,73,19,56],视频自然地为对象提供时间信息和多视点,其已被广泛用作表征学习中的自我监督信号[22,1,33,61,47,46,42,62,40,7,64,35,46,46,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,47,4 52]。例如,Wang和Gupta [61]使用跟踪来提供监督信号,该监督信号使跟踪的补丁的特征表示相似。最近的作品[21,49,32,69]进一步扩展了对比学习框架下视频帧之间的相似性学习已经示出了具有视点不变性的图像表示我们的工作是由这些以前的作品的动机,超越视点不变性,学习使用积极的对跨视频可能会导致图像表示与更高层次的语义。虽然对比学习也已应用于使用3D ConvNets进行动作识别的视频表示学习[35,24,37,5,51,59,25,34,43],但我们强调我们的工作重点是学习除动作识别之外的多个任务的通用图像表示,包括视觉跟踪和图像分类。周期一致性学习我们的工作受到不同计算机视觉应用中的周期一致性学习的影响,包括3D场景理解[31,74,20,21]。72]、图像对准和平移[75,77,76,78],以及视频中的时空对齐[4,63,39,17,60,32,50,38]。例如,Wanget al. [63]提出在时间上执行前向和后向跟踪以实现用于学习时间对应的周期一致性。Dwibedi等人[17]制定了一个时间周期一致性损失,其将帧从一个视频对准到另一个视频。一对视频,并在视频帧对齐任务中实现了良好的性能。在这两部作品的基础上,Pu- rushwalkam等人。[50]提出在视频中跟踪对象块并同时跨视频对齐它们。虽然这些结果令人鼓舞,但从视频对学习的两种方法[17,50]都需要人类注释者在小规模视频的训练中提供地面实况对(视频级)。在本文中,我们建议10151动量编码器编码器塞吉软(i,qi,u1q,2$穆姆我M--LLLL{}∥ ∥∥∥超越这些限制,并在没有任何人工注释的情况下应用跨视频周期一致性学习这些不仅允许使用大规模视频进行学习,而且还将我们的表示推广到多个下游视觉任务。3. 循环一致性对比学习在本节中,我们首先介绍了具有不同形式的不变学习目标的对比学习。 然后,我们提出了我们的方法与跨视频周期一致性学习。j...对比损失���$i=∑������最近邻维姆3.1. 图像内和视频内不变性自我监督对比学习的核心[26,9]是学习表示,最大限度地提高不同视图之间的一致性,一个图像实例的增强,并同时最小化两个不同且不相关的实例之间的相似性。大多数方法共享相似的学习目标,这是使表示图像内不变。我们描述目标的公式如下。给定查询图像Ii,特征提取器在两个不同的数据增强下将其编码为特征表示qi和ki。图像内不变性学习将q i和k i视为正训练对并最小化它们的表示距离,同时最大化q i和一组负U= 1的表示距离。u1,u2,...μ m,其是表示-从不同的图像中提取图像内不变性对比学习损失函数被定义为,图2:所提出的跨视频周期-一致性丢失周期的流水线。U=u1,u2,…μm是邻居表示集。给定查询特征qi,我们通过组合来自其他视频的帧信息来构造其软最近邻qi。我们使用来自相同视频的k∈y特征kj和q∈i作为对比学习的正对。其中k,j是图像I,j的 特 征 表 示,其从I,i的相同视频采样。视频内试图使来自相同视频的图像的特征表示比来自不同视频的图像更接近。 当采样图像Ij与Ii相同时,帧内视频与帧内图像相同。我们可以看到图像内不变性学习作为视频内不变性学习的特殊情况。3.2. 跨视频周期一致性目标图像内和视频内不变性学习都使相同实例(来自相同图像或视频)的特征表示 然而,没有前-exp(sim(qi,ki)/τ)(一)显式正则化的代表之间的距离L图像内=−logΣu∈{U,ki}、exp(sim(qi,u)/τ)来自同一类的图像(或类似视觉结构的图像例如,不同的猫在-其中τ是温度常数,sim(x,y)=x y/x y是两个要素之间的余弦相似度向量损失函数试图将来自同一图像的qi与来自不同图像的U中的特征进行分类,从而实现图像内不变性学习。虽然图像内不变性学习为我们提供了良好的表示,但静态图像的增强无法捕获实例的视点和变形变化(例如,图像的不变性)。一个人的不同观点或姿势)[49]。自然的是求助于具有跨时间的相同实例的变化的顺序视频数据,将图像内不变性学习扩展到视频内不变性学习。视频内不变性学习将本地时间窗口中相同视频内的帧视为不变集,以在训练中形成正对[53,21,49]。与Eq类似1,视频内不变性对比学习损失被定义为,姿势应该接近,并且来自关于打网球的不同视频的帧的表示也应该类似。在本节中,我们提出在不使用任何地面实况标签的情况下找到具有周期一致性的跨视频对应,并将对应并入对比学习中。新提出的目标的流水线在图2中示出,并且我们将如下介绍公式。我们的新目标包括一个前向和一个后向最近邻过程。给定来自视频V的Ii的编码查询特征表示qi,我们首先在包含来自任何视频的帧的候选集合U中计算其最近邻居qi然后,我们在U和V的并集内向后找到qi的最近邻居。我们强调U不包括来自视频V的任何帧。当q的后向最近邻在期望的不变性学习集中时,实现了循环一致性。exp(sim(qi,kj)/τ)(二)qi来自V。为了使学习可微,我们L帧内视频=−logΣu∈{U,kj}、exp(sim(qi,u)/τ)建议计算软最近邻作为前向10152Σ∥ ∥∥∥LL−←LL我们目标的一步形式上,软最近邻qi的q 在U ={u,u,…u}被计算为,我12Mqi=αu∈Uqi,uu,(3)其中αqi,u是qi和u的归一化相似度,其定义为exp(sim(qi,u)/τ)(四)αqi,u=Σu′∈U、exp(sim(qi,u′)/τ)其中τ是温度,sim(x,y)=xy/ x y是余弦相似度。给定软最近邻qi,我们假设如果一个表示有利于理解高级语义,则q应该在q的不变性集中。记得我们表1:与其他无监督表示预训练方法相比,OTB-100上的视觉对象跟踪性能。添加具有一个附加1x1卷积的SiamFC注意i i并行工作SeCo* 采用两阶段培训策略,其中在视频内不变性学习中,将qi的i个变化量表示为(同一视频中的不同帧的特征)。我们执行非参数分类作为向后步骤,并且跨视频周期对比度损失被定义为,使用在ImageNet上预训练的MoCo作为第一阶段。4. 实验在本节中,我们进行实验以执行不连续的操作。exp(sim(qi,kj)/τ)(五)使用所提出的学习-L周期= −logΣu∈{U,kj}、exp(sim(qi,u)/τ)目标。 我们表明,学习表示其中kj是来自I i的不变集的图像Ij的特征表示,并且我们认为I j和I i是从同一视频V中采样的。直观地,Eq. 3尝试使用候选集中的表示来重建查询特征表示,根据Eq.4.第一章然后,当重构的特征表示接近来自视频V的另一图像的表示时,循环被最小化。通过这种方式,该模型将学习在视频中找到对应,其中具有相似视觉结构的图像被鼓励为相同的,并且同时在视频内不变通过建立视频之间的对应关系,它可以潜在地帮助代表-学习类别级信息的选项。整体学习目标是视频内不变损失L视频内和跨视频周期一致性损失L周期的组合,定义为L=L 帧内视频+λL周期 ,(6)其中λ是两个学习目标的平衡因子我们将在实验中提供λ邻居集U的实现细节。在 我们的实验中,我们使用两个单独的最近邻集为我们的目标周期的前进和后退步骤。等式(1)中的最近邻居集合U3是通过在每次训练迭代从当前存储器组[26]随机采样来选择的。存储器组中的剩余元素被用作负候选,用于在等式(1)中向后找到最近五、顺利转移到各种下游任务中。然后,我们设计了广泛的消融实验,研究所提出的跨视频周期一致性学习方法的有效性4.1. 实验设置数据集。我们在随机相关视频视图(R2V2)[21]数据集上执行无监督表示它有270万个视频,每个视频有4帧。对于较小的模型和消融研究,我们使用它的一个子集来节省时间,它总共有109 k个视频和438 k帧,我们称之为R2 V2-S。网络架构。ResNet-18 [27]因其效率和准确性而被用作主要消融研究的骨干。一个全连接层(512 X64)被用作全局平均池化层之后的投影层以获得嵌入特征。ResNet-50也适用于与其他方法进行比较。根据[67]中的研究,视频内和循环使用单独的投影层,因为它们具有不同的不变性学习目标。根据MoCo[26],我们使用查询编码器网络f q和密钥编码器网络f k,其中f k的参数θ k由f q的参数θq更 新,使用θkmθk+(1m)θq。 动量系数m被设置为0.999,并且用于分类的存储器组大小为65536。温度τ设定为0.07。训练我们使用SGD来优化总共200个epoch的无监督表示学习。在8个GPU中,最小批处理大小为256初始学习率为0.06。其他训练食谱如下[26]。方法骨干数据集OTB精准成功监督[27]ResNet-18ImageNet61.443.0新加坡[11]ResNet-18ImageNet58.842.9MOCO [26]ResNet-18ImageNet62.047.0[21]第二十一话ResNet-18R2V262.946.5我们ResNet-18公司简介六十五6四十八6监督[27]ResNet-50ImageNet65.845.5新加坡[11]ResNet-50ImageNet61.043.2MOCO [26]ResNet-50ImageNet63.746.5SeCo*[71]ResNet-50动力学71.951.8[21]第二十一话ResNet-50R2V240.230.0我们ResNet-50R2V269.349.2我们ResNet-50动力学72.753.310153LLL LLLLL方法骨干数据集ImageNet前1名(%)监督ResNet-50ImageNet76.2MOCO [26]ResNet-50ImageNet67.7MOCO [26]ResNet-50R2V253.6[21]第二十一话ResNet-50R2V254.4我们ResNet-50R2V255.6表2:针对冻结特征的0 TB-100跟踪的表示在具有ResNet-18的R2 V2-S和具有ResNet-18的R2 V2上进行预训练。50.我们清楚地看到,我们提出的跨视频周期一致性学习目标的方法实现了最佳性能。4.2. 转移到视觉对象跟踪我们对学习到的表示进行对象跟踪。使用SiamFc [6]作为跟踪方法,其由预训练的冷冻代表的一个1x1卷积组成在GOT-10 k [30]数据集上进行训练,我们在OTB2015 [65]上进行测试。结果示于表1中。正如我们所看到的,当使用ResNet- 18作为主干时,我们的方法优于以前的非监督表示方法,以及ImageNet监督表示方法,获得65.6的精度,比VINCE [21]提高了2.7,后者在相同的数据集上进行训练。当使用ResNet-50作为主干时,我们的方法也超过了以前的对比学习方法,并且比ImageNet监督预训练模型实现了3.5的精度提高。请注意,当从ResNet-18切换到ResNet-50时,我们观察到单独使用图像内物镜时的性能下降。这也发生在VINCE [21]中,它使用相同的数据集进行预训练。我们认为这是因为每个视频只有4帧,覆盖了很长的时间窗口,使得难以在同一视频内找到对应,这对于跟踪任务很重要。此外,我们报告了使用Kinetics-400 [36]和ResNet-50进行公平比较的自我监督学习方法的结果,在OTB上实现了72.7的精度,超过了之前最好的SeCo [71] 0.8。为了验证我们的方法的有效性,我们对不同损耗分量的跟踪性能进行了烧蚀研究,结果如表2所示。它表明,我们提出的循环明显地改善了只考虑图像内或视频内的示范性学习的方法请注意,当在R2V2数据集中仅使用图像内不变性而不使用视频中的时间不变性进行训练时,跟踪性能将显著下降,这与VINCE [21]中显示的结果一致。表3:与其他无监督表示学习方法相比,ImageNet上冻结特征的线性分类结果。4.3. 转移到图像分类4.3.1与最新技术为了进一步展示我们的方法的通用性,我们将学习到的表示转移到执行静态图像分类任务。我们使用ImageNet数据集[12]来验证我们的方法。我们在冻结表示上应用一个全连接层作为[26,21]中的线性探测设置。结果示于表3中。正如我们所看到的,我们的方法实现了55.63%的ImageNet Top-1准确率,比VINCE [21]提高了1.23%,在相同设置下比MoCo [26]提高了2%,这表明了我们提出的方法用于学习图像表示的有效性4.3.2消融研究在本节中,我们设计了各种实验来展示我们方法的每个 组 件 如 何 影 响 性 能 。 我 们 使 用 ImageNet 以 及ImageNet-100数据集[12]作为消融研究的传输数据集,其中包含来自100个类的126 k训练图像和20 k测试图像。不同损耗分量的影响。在这一部分中,我们研究了使用不同损失来执行无监督表示学习的效果,并验证了转移到ImageNet分类的性能。我们研究了三种不同的不变性学习目标,对应于三种损失函数,(a)图像内不变性、(b)视频内(图像内,视频内不变性),(c)=帧内视频+λ周期(λ=0. 1)(图像内、视频内、跨视频不 变 性 ) 。 在 R2 V2-S ( ResNet-18 ) 、 R2 V2(ResNet-50)数据集上进行无监督表示训练。结果示于表4正如我们所看到的,使用视频内不变性学习目标视频内将ImageNet Top-1的准确率从33.0%提高到33.1%,这表明同一视频内的帧是查询图像的自然视图。此外,我们的方法增加了循环以执行跨视频循环对比学习,进一步将Top-1准确率提高到34.4%,与图像内不变性学习相比,这是绝对1.4%的更深入在骨干ResNet-50中,观察到类似的趋势,因为所提出的L循环的全损失比图像内目标提高了1.8%的Top-1准确度。由此可见,加入L循环不变性帧内帧内交叉骨干图像视频视频OTB精准成功✓ResNet-1853.741.2✓✓ ResNet-1860.145.5✓✓ ✓ ResNet-1865.648.6✓ResNet-5047.434.4✓✓ ResNet-5068.448.9✓✓ ✓ ResNet-5069.349.210154LLLLLLLLL LLL邻居集U2561024409616384累积顶部-1(%)56.6857.3656.8258.48累积前5名(%)84.0483.7883.5283.50表6:消融研究。ImageNet-100在线性分类协议下的准确性,改变邻居集U的大小。表示使用ResNet-18在R2 V2-S上使用全损失进行预训练。表4:不同损失分量的消融在冻结特征上的ImageNet分类。表示在具有ResNet-18的R2 V2-S和具有ResNet-50的R2 V2上进行预训练。我们清楚地看到,我们提出的跨视频周期一致性学习目标的方法实现了最佳性能。邻居集U12825651216384累积顶部-1(%)56.5657.0056.4052.96累积前5名(%)83.1083.0682.6479.46表5:消融研究。ImageNet-100在线性分类协议下的准确性,改变邻居集U的大小。表示仅在具有ResNet-18的R2 V2-S上使用循环进行预训练。当前查询图像的一个视图被包括在邻居集中。使得模型探索跨视频关系,使得跨帧和视频的视觉上相似的实例的特征更接近。图像内或视频内不变性对于良好的表示是必不可少的。虽然探索跨图像或跨视频信息有助于学习更好的表示,但它应该建立在不依赖于实例或视频的表示上。我们进行实验我循环只是为了学习表示法。随机视图(数据表7:消融研究。ImageNet-100在线性分类协议下的准确性当使用前K个最近邻居执行跨视频周期一致性学习时,对K进行消融。使用ResNet-18在R2 V2-S上对表示进行预训练。如何选择邻居?我们进行实验来研究邻居集U的大小如何影响性能。完全损失用于在R2 V2-S数据集上执行无监督表示学习,并且U的大小从256到16384变化。当前查询的视图不会添加到邻居集中。然后,我们通过对ImageNet-100上的冻结表示进行线性分类来评估学习的结果示于表6中。正如我们所看到的,增加邻居大 小 可 以 为 我 们 提 供 更 好 的 表 示 , 代 表 更 好 的ImageNet-100 Top-1准确性。这是预期的,因为U的大邻居大小将给出查询可以找到跨视频的对应关系的更高概率。当使用16384作为邻居大小时,达到58.48%的最佳Top-1准确度,并且我们在下文中将其用作默认设置。我们还研究了如果使用top-K近邻来执行等式中的重建3有助于表征学习。前K个邻居按等级选择。在邻居集合U中的查询qi的第一个(增广)k++。结果示于表5中。正如我们所看到的,当将相似性设置为qi,u 在初始邻居集中,并且邻居大小较小(例如,256),单独使用循环可以学习表示,与使用视频内相比,在ImageNet-100上转换为线性分类时具有更好的性能。然而,当邻居集合较大时,性能下降得更快。另一方面,如果k++不包括在邻居集合U中,则使用256的邻居大小,并且仅循环我们安全地得出,当邻居大小很小并且查询的随机视图k++被包括在邻居集中时, 通过学习使Q1和K ++的相似性最大化,C++解码生成帧内视频。因此,为了使模型真正学习跨视频关系,从相邻集合U中排除k++是必要的。然而,直接学习跨视频的对应性将是困难的,并且在ImageNet-100上显示出45.78% Top-1准确率的更差有必要添加视频内循环(即使用等式中的全损耗),在ImageNet- 100上提升到58.50%的Top-1准确率。选择前K个邻居来构造新的邻居集。然后,使用新的邻居集合执行跨视频周期一致性学习。然后,我们将学习到的表示转移到ImageNet-100上的线性分类任务中。结果示于表7中。我们可以看到,top-1精度在K的宽范围内(从8到128)是稳健的。然而,与随机选择的大小为16384的邻居集U相比,使用前K个邻居显示出更差的性能,其在ImageNet-100上具有58.50%的Top-1准确度。我们想象,一个大的和随机的邻居集可以有更高的概率找到视觉相似的图像,并可以纠正模型因此,我们随机选择邻居U,并将U的大小设置为16384作为默认值。视频内不变性和跨视频关系学习之间的平衡研究了损失项中平衡因子λ的影响。我们使用不同的平衡因子λ进行无监督表示学习,不变性帧内帧内交叉骨干图像视频视频ImageNetTop-1(%)✓ResNet-1833.0✓✓ ResNet-1833.1✓✓ ✓ ResNet-1834.4✓ResNet-5053.8✓✓ ResNet-5055.1✓✓ ✓ ResNet-5055.6K81632128256累积顶部-1(%)57.5257.4057.6457.6256.98累积前5名83.0282.8483.6283.7683.8210155LLLλ0.050.10.30.50.71.0累积顶部-1(%)57.1658.4857.0457.9057.4857.84累积前5名(%)83.0883.5083.8083.5083.1883.70表8:方程中损耗平衡因子λ的消融结果图6显示了ImageNet-100线性分类对冻结表示的Top- 1和Top-5准确度结果表示在具有ResNet-18的R2 V2-S上进行预训练。当量6在R2 V2-S数据集上的性能,并在ImageNet-100数据集上对冻结学习表示进行线性分类。结果示于表8中。我们可以看到,虽然添加循环有助于在ImageNet-100上学习线性分类任务的更好表示,但使用相对较小的(例如,0.1)是最好的这也与我们之前的发现一致,即视频内的视频内变化学习对于构建跨视频周期对比度损失周期是必不可少的。我们设置λ=0。1、以后的事,4.4. 转移到视频动作识别4.4.1与最新技术我们在UCF101 [54]数据集上评估了视频动作识别任务的学习特征表示UCF101拥有来自101个动作类别的13320个视频。我们在UCF101的split1上训练和测试我们的模型。为了简单起见,我们直接使用ResNet而不是基于3D卷积的方法。通过对来自视频的帧表示求平均来获得视频表示,并且一个全连接层用于预测该视频表示上的动作类。在[43]之后,从视频中采样多个剪辑结果示于表9中。正如我们所看到的,我们的方法能够在以ResNet-18为骨干的UCF 101上实现76.8%的top-1准确度,超过了之前最好的68.2%(DPC [24],3D-ResNet 18),具有类似数量的参数。我们还在表9中列出了使用大型3D ConvNets模型的方法的一些结果。我们的方法与这些方法没有直接的可比性,因为我们使用2D ConvNets,与3D ConvNets相比,2D ConvNets不仅具有更少的参数,而且具有更少的FLOP。我们强调,我们的表示能够解决多个下游任务,而以前的3D ConvNets仅用于动作识别。请注意,虽然具有大3D-ResNet 34(32.6M)作为主干的DPC 达 到 75.7% , 但 我 们 的 模 型 具 有 更 少 的 参 数(11.7M),能够超过具有3D-ResNet 18(14.2M)作为主干的DPC值得注意的是,当使用ResNet-50作为主干时,我们的方法能够达到82.1%,超过了具有较大3D ConvNets模型的其他方法(例如,MemDPC)。此外,我们提供了使用我们的方法来训练Kinetics-400和ResNet-50的最终模型,虽然结果比使用R2V2训练略差,但我们没有定制表9:与UCF101上的其他无监督表示方法的视频动作识别准确性比较。我们使用RGB模态的方法进行比较。我们主要与具有与我们相似参数的模型进行比较,并列出一些大型3DConvNet模型(灰色)以供参考。K-400:动力学-400。为Kinetics-400数据集创建一组新的参数,而只是用我们的方法训练一次。实验结果验证了该方法的有效性和跨数据集的可移植性4.4.2最近邻评价为了进一步验证我们的表示可以学习跨视频信息,我们在帧级和剪辑级上对UCF101数据集上的学习表示进行最近邻检索实验。对于帧检索实验,在[7]之后,对每个视频采样10测试集的帧的表示被用来找到训练集上的最近邻居对于剪辑检索实验,在[68]之后,每个视频采样10个剪辑从测试集中提取的剪辑表示的余弦距离被用作排名标准。如果查询样本的类出现在k个最近邻的类集中,则认为是正确的检索。其结果如表10所示。我们的模型是能够超越以前的方法在很大程度上的帧检索和剪辑检索实验。值得注意的是,我们的方法与ResNet-18作为骨干具有优越的准确性时,考虑到小k(例如。k=1,5,10)。例如,我们的方法在帧检索实验上实现了45.8%的前1准确度,其中来自Buchler等人的先前最佳结果。[7]是25.7%,这是一个绝对的20.1%的改善。对于剪辑检索,我们的方法具有39.7%的top-1准确率,与之前最好的14.1%相比,绝对提高了25.6%。这表明我们的方法能够使方法主干(#Param)数据集UCF101[35]第三十五话3D-ResNet 18-完整版(33.6M)K-40062.9[37]第三十七话3D-ResNet 18-完整版(33.6M)K-40063.9[5]第五话I3D(12.1M)K-40066.7DPC [24]3D-ResNet18(14.2M)K-40068.2DPC [24]3D-ResNet34K-40075.7[59]第五十九话R(2+1)D(33.3M)K-40077.1CBT [55]S3dK-40079.5[25]第二十五话R-2D3D(32.4M)K-40078.1临时SSL [34]R(2+1)D(33.3M)K-40081.6VTHCL [70]3D-ResNet50(31.7M)K-40082.1我们ResNet-18(11. 69个月)R2V2七十六。8我们ResNet-50(25. 56个月)K-40081. 6我们ResNet-50(25. 56个月)R2V282岁1XDC [2]R(2+1)D(33.3M)K-40086.8AVID+CMA [43]R(2+1)D(33.3M)K-40087.510156LL方法培训数据Top-1 Top-5 Top-10 Top-20 Top-50帧检索:[44]第44话ImageNet19.728.533.540.049.4OPN [40](CaffeNet)UCF10119.928.734.040.651.6Buchler [7](CaffeNet)ImageNet+UCF10125.736.242.249.259.5我们的(ResNet-18)R2V245.856.261.467.075.2我们的(ResNet-50)R2V252.663.368.173.380.6二尖瓣夹系统回收:订单[68](C3D)UCF10112.529.039.050.666.9[68](R(2+1)D)UCF10110.725.935.447.363.9订单[68](R3D)UCF10114.130.340.051.166.5[5]第五话动力学-40013.028.137.549.565.0我们的(ResNet-18)R2V239.750.355.962.070.7我们的(ResNet-50)R2V246.856.762.167.675.1表10:与其他无监督表示学习方法相比,UCF101上的帧检索和剪辑检索结果。Jigsaw和OPN的结果来自[7]。我们的模型在很大程度上超过了以前的方法,并设法做到这一点,而不使用UCF101样品。类似的帧/视频(短剪辑)的表示更接近,因为它们具有属于相同类别的更高概率此外,我们的模型仅在R2V2数据集上训练,从未见过UCF101数据集的样本,而其他方法则在UCF101上训练。结果表明,我们的方法的可移植性。通过对剪辑表示求平均来获得视频表示我们可以看到,即使我们的模型没有地面实况类来指导表示学习,它也设法使视频表示来自相同的类或具有相似的视觉结构。4.4.3消融研究我们在UCF-100数据集上研究了不同损失对视频动作识别任务的影响。预先训练的表示是固定的,并且添加了一个完全连接的层来预测平均帧表示上的动作类结果示于表11中。正如我们所看到的,对于视频动作识别任务,学习在同一视频中不变的表示是有益的,与相同图像的不变表示相比,使用ResNet-18作为骨干,Top-1的准确率从45.1%提高到48.4%。然而,除了分离它们之外,使相似视频的表示更接近也是有益的,因为添加我们的跨视频周期对比学习损失周期进一步将Top-1准确度提高到50.5%。类似地,当使用ResNet-50作为主干时,添加我们的循环实现了67.1%的最佳结果。结果验证了我们提出的跨视频周期对比学习目标可以学习到很好地转移到视频识别的表示。认知任务总体而言,我们设计了各种消融实验来研究损失的不同组成部分,包括图像识别、视频识别、视频检索、跟踪。再-结果验证了我们提出的跨视频循环对比学习目标损失L循环的有效性。不变性帧内帧内交叉骨干图像视频视频UCF101Top-1(%)✓ResNet-1845.1✓✓ ResNet-1848.4✓✓ ✓ ResNet-1850.5✓ResNet-5062.2✓✓ ResNet-5066.2✓✓ ✓ ResNet-5067.1表11:在冻结特征上学习的不同损失分量UCF动作识别的消融。表示在R2 V2上用ResNet-18和ResNet-50进行预训练。5. 结论在本文中,我们提出了一个跨视频周期一致的对比学习目标,进行图像表示的自监督学习。所提出的方法可以学习探索跨视频关系,不仅使同一视频内的图像的表示更接近,而且使来自具有相似视觉结构的不同视频的表示接近,而不使用地面真值类标签或生成伪标签。我们在未标记的R2V2视频数据集上进行了自监督表示学习,并表明学习的图像表示可以很好地转移到多个下游任务,包括视觉跟踪,图像分类和动作识别。进行了广泛的消融研究,并验证了我们提出的方法的有效性我们希望我们的方法可以打开一个机会,利用跨实例配对数据学习一般的图像表示。鸣谢。 这项工作得到了DARPA LwLL,NSF 1730158 CI-New:认知硬件和软件生态系统社区基础设施(CHASE-CI),NSF ACI-1541349 CC*DNI太平洋研究平台的资助,以及高通公司,TuSimple和Picsart的捐赠。10157引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。在ICCV,2015年。2[2] Humam Alwassel 、 Dhruv Mahajan 、 Bruno Korbar 、Lorenzo Torresani、Bernard Ghanem和Du Tran。跨模态音 视 频 聚 类 的 自 监 督 学 习 。 arXiv 预 印 本 arXiv :1911.12667,2019。7[3] Philip Bachman , R Devon Hjelm , and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示神经信息处理系统进展,第15535-15545页,2019年一、二[4] Aayush Bansal 、 Shugao Ma 、 Deva Ramanan 和 YaserSheikh 。 再 生 甘 : 无 监 督 视 频 重 定 向 。 在 ECCV,2018。2[5] Sagie Benaim 、 Ariel Ephrat 、 Oran Lang 、 InbarMosseri 、 William T Freeman 、 Michael Rubinstein 、Michal Irani和Tali Dekel。Speednet:学习视频中的速度。在IEEE/CVF计算机视觉和模式识别会议论文集,第9922-9931页,2020年。二七八[6] Luca Bertinetto
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功