没有合适的资源?快使用搜索试试~ 我知道了~
1通过观察物体移动来DeepakPathak1,2,*,RossGirshick1,PiotrDolla'r1,TrevorDarrell2,andBharathHariharan11Facebook AI Research(FAIR)2加州大学伯克利摘要本文提出了一种新颖而直观的无监督特征学习方法受人类视觉系统的启发,我们探讨了低级别的基于运动的分组线索是否可以用来学习有效的视觉表示。具体来说,我们在视频上使用无监督的基于运动的鉴于大量证据表明运动在人类视觉系统的发展中起着关键作用,我们希望这种直接的无监督学习方法比文献中研究的巧妙设计的“借口”任务更有效事实上,我们的大量实验表明情况确实如此。当用于对象检测的迁移学习时,我们的表示在多个设置中显著优于以前的无监督方法,特别是当目标任务的训练数据很少时。1. 介绍基于ConvNet的图像表示非常通用,在各种识别任务中表现出良好的性能[9,15,19,50]。通常,这些表示是使用监督学习在大规模图像分类数据集上训练的,例如ImageNet [41]。相比之下,动物视觉系统不需要仔细的人工注释来学习,而是利用其周围环境中几乎无限数量的未标记数据。开发能够在这些具有挑战性的条件下学习的模型是一个基本的科学问题,这导致了最近一系列的工作,提出了无需手动注释即可学习视觉表示的方法这些作品中反复出现的一个主题是"前- “文本任务”:不是直接感兴趣的任务,但是作为训练的副产品可以用于获得良好的视觉表示。示例借口任务包括重建-在FAIR实习期间完成的工作图1. 低层次的外观线索导致不正确的分组(右上)。运动帮助我们正确地将一起移动的像素分组(左下),并将该组识别为单个对象(右下)。我们使用无监督的基于运动的分组来训练ConvNet来分割静态图像中的对象,并表明该网络学习到了很好地转移到其他任务的强大功能对输入进行排序[4,20,44],预测视频流中下一帧的像素[17],对对象跟踪端点进行度量学习[46],对来自视频的混洗帧进行时间排序[29],以及对来自静态图像的补丁进行空间排序[8,30]。这一研究领域的挑战在于巧妙地设计一个借口任务,使ConvNet(或其他表示学习器)学习高级特征。在本文中,我们采取了一种不同的方法,是由人类视觉研究的动机。婴儿[42]和新视力的先天盲人[32]都倾向于过度分割静态物体,但当它们移动时,它们可以正确地分组(图1)。要做到这一点,他们可能依赖于共同命运的完形原则[34,47]:一起移动的像素往往属于一起。解析静态场景的能力随着时间的推移而提高[32],这表明虽然基于运动的分组出现得较早,但静态分组是在以后获得的,可能是由运动线索引导的。此外,[32]中的实验表明,在获得视力后不久,人类受试者能够更好地命名倾向于被看到27012702与静止时的物体相比,受 这 些 人 类 视 觉 研 究 的 启 发 , 我 们 建 议 训 练ConvNets用于对象前地与背景分割,使用无监督的运动分割来提供“伪地面实况”。具体地说,为了准备训练数据,我们使用光流将一起移动到单个对象中的前景像素然后,我们使用生成的分割掩码作为自动生成的目标,并将ConvNet任务分配给没有任何运动信息的单个静态帧来预测这些掩码(图2)。由于具有不同颜色或低级别图像统计的像素仍然可以移动到一起并形成单个对象,因此ConvNet无法使用低级别表示来解决此任务。相反,它可能必须识别倾向于移动的物体并识别它们的形状和姿势。因此,我们推测这个任务迫使ConvNet学习高级表示。我们在两种情况下评估我们的建议。首先,我们测试ConvNet在学习从COCO [27]中的高质量手动标记分割时是否可以学习良好的特征表示,而不使用类标签。事实上,我们表明,由此产生的功能表示是有效的,当转移到PASCAL VOC对象检测。它在没有任何语义类别标签的情况下训练的表示达到了最先进的性能,在ImageNet预训练模型的5点AP内执行,比最好的无监督方法高出10点。这证明了我们提出的任务是合理的,因为它表明,给定良好的地面真值分割,经过训练来分割对象的ConvNet将学习有效的特征表示。然而,我们的目标是在没有人工监督的情况下学习功能。因此,在我们的第二个设置中,我们使用自动生成的当转移到对象检测时,即使大多数ConvNet参数被冻结,我们的表示也保持了良好的性能,当目标任务的训练数据稀缺时,它还允许更好的迁移学习我们的表示质量往往会随着数据量的增加而增加,这表明在网络上有无数视频的情况下,ImageNet预训练的性能可能会超过ImageNet。2. 相关工作无监督学习是一个广泛的领域,有大量的工作;Bengio等人[5]提供一个优秀的调查。在此,我们简要回顾一下这一领域最近的一些工作通过生成图像进行无监督学习。经典的无监督表示学习方法,如自动编码器[4,20]和去噪自动编码器[44],在-图2. 概述我们的方法。我们使用运动线索来分割视频中的对象,而无需任何监督。然后,我们训练一个ConvNet来预测这些静态帧的分割,即。没有任何动作提示然后,我们将学习到的表征转移到其他识别任务中。尝试学习能够以低误差解码原始图像的特征表示。基于重建的目标的另一种方法是使用生成对抗网络训练图像的生成模型[16]。这些模型可以通过与图像编码器联合训练来扩展以产生良好的特征表示[10,11]。然而,为了生成逼真的图像,这些模型必须非常关注低级别的细节,而可能忽略更高级别的语义。通过借口任务进行自我监督。最近的几项研究都集中在提供替代形式的监督(通常称为“借口任务”),而不是生成图像,这些监督不需要手动标记,并且可以通过算法生成。例如,Doerschet al. [8]让Con- vNet预测两个裁剪图像块的相对位置。Noroozi和Favaro [30]通过要求网络排列从3×3网格中裁剪的洗牌补丁来扩展这一点。 Pathak等人[35]第三十五话: 形成图像修复任务。其他借口任务包括从亮度预测颜色通道[25,51]或反之亦然[52],以及从视频帧预测声音[7,33]。这些工作中的假设是,为了执行这些任务,网络需要识别高级概念,例如对象,以便成功。我们将我们的方法与所有这些借口任务进行比较,并表明在许多情况下,提出的对象分割的自然任务会导致从运动和动作中学习。人类视觉系统接收的不是静态图像,而是连续的视频流。定义辅助预文本任务的想法也可以用于视频的无监督学习Wang和Gupta [46]训练一个ConvNet来区分--2703补间单个视频中的跟踪补丁对以及来自不同视频的补丁对。Misra等人[29]要求网络将视频的混洗帧排列成暂时正确的顺序。另一个这样的借口任务是对接下来的几帧进行预测:Goroshin等人[17]预测未来帧的像素,Walker等人。[45]预测密集的未来轨迹。然而,由于视频中的邻近帧往往在视觉上相似(在颜色或纹理上),这些方法可能会学习低级图像统计数据,而不是更多的语义特征。或者,Liet al.[26]使用运动边界检测来引导基于ConvNet的轮廓检测器,但发现这不会导致良好的特征表示。我们的直觉是相似的,但我们的方法产生了语义上强有力的表示。动物和机器人也可以感知自己的运动(本体感受),一个可能的任务是仅从视觉输入预测此信号[2,14,21]。虽然这些线索无疑是有用的,但我们表明,即使在没有这些线索的情况下,也可以学习到强有力的3. 评估特征表示为了衡量学习的特征表示的质量,我们需要一个反映现实世界约束的评估,以得出有用的结论。先前关于非监督学习的工作已经通过使用它们作为初始化来评估表示,以微调ConvNet用于特定的隔离任务,例如对象检测[8]。直觉是,一个好的表示应该作为特定于任务的微调的一个好的起点虽然对每个任务进行微调可能是一个很好的解决方案,但也可能不切实际。例如,移动应用程序可能希望在设备上处理多个任务,例如图像分类、对象检测和分割。但是应用程序下载大小和执行时间都将随着任务数量线性增长,除非计算是共享的。在这种情况下,可能期望具有在以下各项之间共享的一般表示:任务和特定于任务的轻量级分类器另一个实际问题出现时,标记的训练数据的量是太有限的微调。同样,在这种情况下,可能需要使用具有训练的任务特定的“头部”的固定的一般表示,在本文中,我们不强调任何一种情况,而是通过评估各种条件下的学习表征来获得更广泛的理解1. 在多个任务中:我们考虑目标检测,图像分类和语义分割。2. 对于共享层:我们对预训练的Con- vNet权重进行了不同程度的微调,从仅对全连接层进行微调到对所有层进行微调(参见[30]对ImageNet的类似评估)。3. 目标任务训练数据有限:我们减少了目标任务可用的训练数据量。4. 通过学习分组学习特征本文背后的核心直觉是,训练ConvNet将静态图像中的像素分组为对象,而不使用任何类别标签,这将使它学习一个强大的高级特征表示。这是因为仅从低级别线索进行这种分组是困难的:对象通常由多种颜色和纹理构成,并且如果被遮挡,则甚至可能由空间上不相交的区域组成。因此,有效地进行这种分组就是隐式地识别对象并理解其位置和形状,即使它无法命名。因此,如果我们为此任务训练一个ConvNet,我们希望它学习一个有助于识别的表示。为了验证这一假设,我们在COCO的静态图像上使用高质量的手动注释进行了一系列实验[27]。虽然有监督,但这些实验有助于评估a)我们的方法在理想条件下的工作效果如何,b)如果片段质量较低,性能会受到怎样的影响我们现在详细描述这些实验。4.1. 训练ConvNet分割对象我们的任务框架如下:给定一个包含单个对象的图像块,我们希望ConvNet分割对象,即,如果像素位于对象上,则为每个像素分配标签1,否则为0。由于图像包含多个对象,如果我们将整个图像输入ConvNet,则任务是模糊的。相反,我们从图像中采样一个对象,并在地面实况片段周围裁剪一个框。然而,给定一个精确的边界框,ConvNet很容易作弊:盒子中心的斑点将产生低损耗。为了防止这种退化的解决方案,我们抖动的位置和规模的方块。请注意,最近的分割建议方法使用了类似的训练设置[37,38]。我们使用一个简单的ConvNet架构,它将w × w图像作为输入,并输出s × s掩码。我们的网络在一个完全 连 接 的 层 结 束 , s2 输 出 , 后 面 是 一 个 元 素 式sigmoid。得到的s2维矢量被重新整形为s ×s掩码。我们还将地面真值掩码下采样为s × s,并对s2个位置上的交叉熵损失求和以训练网络。4.2. 实验为了与以前的无监督学习工作进行比较,我们使用AlexNet [24]作为ConvNet架构。我们使用s= 56和w=227。我们使用来自COCO数据集[27]的训练集的图像和注释,丢弃类标签,仅使用分割。分割训练是否能产生好的特征?在最近的无监督学习工 作 之 后 , 我 们 使 用 Fast R-CNN [15] 在 PAS- CALVOC 2007上进行了对象检测任务的实验。1我们使用多-1https://github.com/rbgirshick/py-faster-rcnn2704ImageNet [21]监督掩码Context [6](无监督)目标检测(VOC2007)605040图4.我们降低了地面真实掩模来衡量影响30的分割质量。从左右侧20,原始遮罩、扩张和侵蚀遮罩(边界10个错误)和截断掩码(截断可以在任何一侧)。0全部>c1>c2>c3>c4>c5层微调目标检测(VOC 2007)5550图3.我们的代表接受了手动标注的分段训练来自COCO(无类别标签)的部分与ImageNet预训练和上下文预测(无监督)[8]进行比较,在PASCAL VOC 2007上进行对象检测评估。‘454035300 4 8 12 16 20变形核大小0 10 20 30 40 50截短%3 1030 100%数据训练和测试[15]。为了与第3节中描述的动机保持一致,我们使用冻结到不同程度的ConvNet层来我们将我们的表示与ImageNet上的图像分类训练的ConvNet进行了比较,并将Doersch等人训练的表示进行了比较。[8]的一项建议。后者与最先进的技术相比具有竞争力。(与其他最近关于无监督学习的工作的比较稍后出现。结果如图3所示。我们发现,我们的监督表示在所有sce- narios上都比无监督上下文预测模型表现出色,这是可以预料的。值得注意的是,我们的模型与Ima-geNet预训练保持了相当小的差距。这个结果对于没有语义类别标签训练的模型来说是最先进的因此,给定高质量的片段,我们所提出的方法可以学习一个强的表示,这验证了我们的假设.图3还显示,在上下文预测上训练的模型随着更多的层被冻结而迅速退化。这种下降表明模型的更高层已经变得过于特定于借口任务[49],并且可能无法捕获对象识别所需的高级概念。这与ImageNet训练模型的稳定性能形成对比,即使大部分网络被冻结,这表明其更高层用于识别任务。我们发现,这一趋势也适用于我们的代表:即使在大多数ConvNet被冻结的情况下,它也保持了良好的性能,这表明它确实在更高层中学习了高级语义。ConvNet能从噪声掩码中学习吗?接下来,我们询问学习表示的质量是否受到地面实况质量的影响,这很重要,因为从无监督的基于运动的分组获得的分割将是不完美的。为了模拟有噪声的片段,我们使用COCO的降级掩码训练表示。我们考虑两种创建噪声段的方法:在边界中引入噪声并截断掩模。图5. 使用我们的监督ConvNet进行VOC对象检测的准确性,因为噪声被引入到掩码边界中,掩码被截断,或者数据量减少。令人惊讶的是,即使有大的降解,该代表也能保持质量。段边界中的噪波模拟前景泄漏到背景中,反之亦然。为了在训练过程中引入这样的噪声,对于每个裁剪的地面真实掩码,我们使用固定大小的内核随机侵蚀或扩张掩码(图4,第二和第三张图像)。随着核大小的增加,边界变得更嘈杂截断模拟当我们错过对象的一部分时的情况,例如当对象的一部分移动时。具体而言,对于每个地面实况掩码,我们将与边界的固定百分比相对应的像素带归零从四个侧面之一(图4,最后一张图片)。我们使用Fast R-CNN对使用这些噪声地面真实片段训练的表示进行对象检测,其中所有层直到并包括conv 5冻结(图5)。我们发现,学习的表征是令人惊讶的弹性这两种退化。即使有大的,系统的截断(高达50%)或大的边界误差,表示保持其质量。我们需要多少数据? 我们改变了可用于训练的数据量,并使用Fast-RCNN在冻结所有卷积层的情况下评估了对象检测的结果表示。结果显示在图5中的第三个图中。我们发现,随着训练数据量的减少,性能显著下降,这表明良好的表示将需要大量的数据。总之,这些结果表明,即使使用不精确的对象掩模,分割训练也会导致强特征。然而,构建良好的表示需要大量的训练数据。这些观察结果加强了我们在大型未标记数据集上以非监督方式学习特征的情况。平均AP平均AP2705图6. 从左至右:一个视频帧,我们用来训练ConvNet的uNLC的输出,以及ConvNet的输出。uNLC即使在可能杂乱的场景中也能够突出显示移动对象,但通常有噪声,有时会失败(最后两行)。尽管如此,我们的ConvNet仍然可以从这些嘈杂的数据中学习,并产生更好、更平滑的分割。5. 通过观察物体移动来学习我们首先描述我们用来分割视频的运动分割算法,然后讨论如何使用分割的帧来训练ConvNet。5.1. 无监督运动分割运动分割背后的关键思想是,如果在整个视频中有一个相对于背景移动的对象,那么对象上的像素将与背景上的像素不同地移动。因此,分析光流应该提供关于哪些像素属于前景的提示然而,由于每个帧中可能只有对象的一部分移动,因此需要跨多个帧聚合该信息我们采用Faktor和Irani的NLC方法[12]。虽然NLC在视频分割方面是无监督的,但它利用了在标记的边缘图像上训练的边缘检测器[39]。为了有一个纯粹的无监督的方法,我们用无监督的超像素代替了NLC中训练好的边缘检测器。为了避免混淆,我们将NLC的实现称为uNLC。首先,uNLC通过寻找在大部分静态帧中移动的像素,或者如果帧包含显著运动,则寻找在与主导方向不同的方向上移动的像素,基于运动来计算每帧显著性图。然后在超像素上对每个像素的显著性进行平均[1]。接下来,使用位置和外观(颜色直方图和HOG [6])作为特征在视频中的超像素上计算最近邻图。最后,它使用最近邻投票方案来跨帧传播显著性。图7.我们的ConvNet在保持图像上产生的分割示例ConvNet能够识别运动对象(或多个对象)并将其从单个帧中分割出来面具并不完美,但它们确实捕捉到了物体的一般形状。我们发现uNLC在野外的视频上经常失败。有时这是因为在视频中存在单个移动对象的假设不被满足,特别是在由示出不同对象的多个镜头组成的长视频中。我们使用公开的基于外观的镜头检测方法[40](也是无监督的)将视频划分为镜头,并在每个镜头上分别运行uNLC。野外的视频通常也是低分辨率的,并且具有压缩伪影,这可能会降低结果分割。从我们使用强超视的实验中,我们知道我们的方法对这种噪声是鲁棒的。然而,由于大型视频数据集包括大量的帧集合,因此我们简单地基于两个分类丢弃分割不好的帧。具体而言,我们丢弃:(1)标记为前景的像素过多(>80%)或过少(<10%)的帧;(2)在被标记为前景的帧边界的5%内具有太多像素(> 10%)的帧。在初步测试中,我们发现结果对所使用的精确阈值不敏感。我们在YFCC 100m [43]的视频上运行了uNLC,其中包含大约70万个视频。经过修剪,我们最终得到了205,000个视频。我们从每个视频中每个镜头采样5-10帧,以创建160万张图像的数据集,因此我们的帧比ImageNet中的图像略多。然而,请注意,我们的帧来自更少的视频,因此比ImageNet中的图像更相关。我们强调,我们生成这个数据集的方法是完全无监督的,并且在管道的任何部分都没有使用任何形式的监督学习。分割和修剪的代码,以及我们自动生成的帧和片段数据集,将很快公开2706我们的运动分割方法远非最先进的,如图6所示的噪声段所示。尽管如此,我们发现我们的表示对这种噪声具有很强的弹性(如下所示)。因此,我们的目标不是改进运动分割的细节。5.2. 学习从嘈杂的标签中像以前一样,我们给ConvNet裁剪的图像,在尺度和平移上抖动,并要求它预测运动的由于运动分割输出是有噪声的,我们不相信它提供的绝对前景概率。相反,我们将其转换为三重图表示,其中概率为0.4的像素被标记为负样本,概率>0.7的像素被标记为正样本,其余像素被标记为ConvNet仅在正像素和负像素上使用逻辑损失进行类似的技术在早期的分割中已经成功地探索过[3,22]。尽管我们采取了一些步骤来获得良好的分段,但uNLC输出仍然有噪声,并且通常非常不正确,如图6的第二列所示。然而,如果不存在系统误差,则这些基于运动的片段可以被视为关于真实潜在分割的扰动。由于ConvNet的容量有限,它将无法完美地拟合噪声,而可能会学习更接近底层正确分割的东西。一些积极的证据可以在训练ConvNet在其训练图像上的输出中看到(图1)。第三栏)。ConvNet正确识别运动对象及其粗略形状,从而实现比原始运动分割更平滑、更正确的分割。ConvNet还能够推广到看不见的图像。图7显示了来自DAVIS [36],FBMS [31]和VSB [13]数据集的帧的ConvNet输出,这些数据集未用于训练。同样,它能够从单个帧中识别移动对象及其粗略形状当在这些数据集中对人类注释的分割进行评估度量uNLCConvNet(无监督)平均IoU(%)13.124.8精密度(%)15.429.9召回率(%)45.859.3这些结果证实了我们早期的发现,即Con-vNet即使从嘈杂的和经常不正确的地面事实中也能够很好地学习。然而,本文的目标不是分割,而是表示学习。我们将在下一节中评估学习到的表示。6. 评估学习的表示6.1. 转移到目标检测我们首先使用Fast R-CNN评估我们在对象检测任务上的表示我们使用VOC 2007进行交叉验证:我们从一组3个值{0. 001,0。002和0。003}。最后,我们在VOC 2012 train上训练,并在VOC 2012 val上测试一次。我们使用多尺度训练和测试,并在训练过程中丢弃困难的对象。我们给出了ConvNet参数冻结到不同程度的结果。正如第3节所讨论的,一个好的表示应该既可以作为微调的初始化,也可以在大多数ConvNet被冻结时工作。我们将我们的方法与最近的无监督学习工作产生的ConvNet表示进行了比较[2,8,10,30,33,35,46,51]。我们使用公开可用的模型为所有方法显示。与我们的ConvNet表示一样,所有模型都具有AlexNet架构,但在一些小细节上有所不同,例如是否存在批量归一化层[8]或是否存在分组卷积[51]。我们还比较了两个在强监督下训练的模型。第一个在ImageNet分类上训练。第二个是在COCO(见第4节)中手动注释的片段(没有类别标签)上训练的结果示于图8(a)(左)和表1(左)中。我们发现,我们从无监督运动分割中学习到的表示在所有场景中的表现都与以前的无监督学习工作相当或更好。正如我们在第4.2节中看到的,与ImageNet监督表示相比与我们在COCO分割上训练的监督方法类似,我们发现我们在运动分割上训练的无监督方法在层冻结时也表现出稳定的性能。因此,与以前的无监督学习工作不同,我们表示中的上层学习对识别有用的高级抽象概念。我们的方法和以前的工作之间的一些差异可能是因为 训练 数据 来 自不 同的 领域 (YFCC 100m 视 频与ImageNet图像)。为了控制这一点,我们在视频数据集中的帧上重新训练了[8]中的模型(参见表1中的Context-videos)。这两个变体的表现相似:在YFCC上使用conv 5和低于frozen的com-coverage进行训练时,平均AP为33.4%这证实了不同的图像来源并不能解释我们的收益。6.2. 低射传输当训练数据稀缺时,良好的表示也应该有助于学习,正如我们在第3节中所激励的那样。图-2707运动面具(我们的)ImageNet辅助核算面具(我们的)[43]第六届全国政协委员完整的火车集150图像集表1.使用Fast R-CNN和各种预训练的ConvNets在PASCAL VOC 2012上进行的对象检测AP(%)所有模型都使用一致的Fast R-CNN设置进行训练和测试 我们的方法在大多数设置中实现了最佳性能。[2] Doerschet al. [8]使用ImageNet图像训练他们的原始上下文模型。上下文视频模型是通过对来自YFCC的视频帧重新训练他们的方法获得该实验控制了结果表明,用于训练的图像域不会显著影响性能。Norooziet al. [30]使用计算密集型的ConvNet架构(>2倍的微调时间),在conv1处具有更精细的步幅,防止苹果对苹果的比较。尽管如此,当层被冻结或数据有限时,他们的模型比我们的表示效果要差得多,当网络用完整的训练数据进行微调时,他们的模型与我们的模型相当。[21]第一届中国国际汽车工业展览会[8]面具(我们的)[30]第43话:我的世界,我的世界物体检测(VOC 2012):全套列车605550454035302520全部>c1>C2>C3>C4>c5层微调物体检测(VOC 2012):150图像集20151050全部>c1>C2>C3>C4>c5层微调65物体检测(VOC 2007)555045403530105 106 107帧/图像(a) 性能与微调(b)性能与数据图8.使用Fast R-CNN进行对象检测的结果(a)当ConvNet表示被冻结到不同程度时,VOC 2012对象检测结果我们比较了其他无监督和监督的方法。左:使用完整的训练集。右:仅使用150张训练图像(注意不同的y轴比例)。(b)表示质量(具有conv5和低于conv5的冻结的VOC 2007对象检测的平均AP)随训练帧的数量的变化还显示了一些其他方法Context-videos [8]是Doersch等人的代表。[8]在我们的视频帧上重新训练。请注意,表1中的大多数其他方法都使用ImageNet作为训练集。图8(a)(右)和表1(右)显示了当我们有很少(150)个训练图像时,我们如何在对象检测任务上与其他无监督和监督方法进行我们观察到,在这种情况下,实际上对整个网络进行微调是有害的,最好的设置是让一些层冻结。我们的方法在最近的无监督学习方法的所有其他表示中提供了最好的AP整体(通过冻结所有层并包括conv4来实现)。注意,尽管其相对于在之前的无监督方法中,我们的表示在没有监督的情况 下 学 习 了 视 频 轨 迹 , 无 论 是 强 监 督 掩 码 还 是ImageNet版本都有很大的优势。我们将在下面的小节中讨论这一点。6.3. 训练数据量的影响我们表示的质量(通过VOC 2007上的Fast R-CNN性能测量,所有conv层都被冻结)大致随所使用的帧数而增长。拥有396K帧(50K视频),平均AP平均AP平均AP方法所有>C1>C2>C3>C4>c5所有>C1>C2>C3>C4>c5#获胜监督ImageNet56.557.057.157.155.652.517.719.119.720.320.919.6NA辅助核算面具(我们的)51.751.852.752.252.047.513.613.815.517.618.115.1NA无监督[30]第三十话49.050.048.947.745.837.15.98.78.810.19.97.9NAKmeans [23]42.842.240.337.132.426.04.14.95.04.54.24.00自我运动[2]37.436.934.428.924.117.1––––––0修复[35]39.136.434.129.424.813.4––––––0跟踪-灰色[46]43.544.644.644.241.535.73.75.77.49.09.49.00声音[33]42.942.340.637.132.026.55.45.15.04.84.03.50BiGAN [10]44.944.644.742.438.429.44.96.17.37.67.14.60彩色化[51]44.544.944.744.442.638.06.17.98.610.610.79.90[52]第五十二话43.845.645.646.144.137.63.57.99.610.211.010.00背景[8]49.948.844.444.342.133.26.710.29.29.59.48.73[8]第十八话47.847.946.647.244.333.46.69.210.712.211.29.01运动面具(我们的)48.648.248.347.045.840.310.210.211.712.513.311.092708ImageNet [21]跟踪-灰色[43]彩色化[48]背景[6]BiGAN [8]声音[30]辅助核算面具(我们的)运动面具(我们的)图像分类(VOC 2007)7565554535所有>c1 >c2 >c3 >c4 >c5图层微调行动分类(Stanford 40)40302010所有>c1 >c2 >c3 >c4 >c5图层微调语义分割(VOC 2011)45352515所有>c1 >c2 >c3 >c4 >c5图层微调图9. VOC 2007上的图像(对象)分类结果,Stanford 40 Actions上的单图像动作分类结果,以及VOC 2011上的结果显示ConvNet层冻结到不同程度(请注意,每个任务的指标不同比现有的最先进的[8]在一百万个ImageNet图像上训练的更好,参见图8(b)。使用我们的完整数据集(160万帧),准确性大幅提高如果这种对数增长继续下去,如果我们使用大约2700万帧(或300万到500万个视频,与ImageNet中的图像数量相同),我们的表示将与ImageNet上训练的表示相当请注意,来自同一视频的帧非常相关。我们希望通过更多的算法改进来减少这个数字。6.4. 转移到其他任务正如第3节所讨论的,一个好的表示应该跨任务泛化。我们现在展示另外两个任务的实验:图像分类和语义图像分割。对于图像分类,我们测试对象和动作分类。图像分类我们在PASCAL VOC 2007(对象类别)和Stanford 40 Actions [48](动作标签)上进行了图像分类实验。为了与之前的工作进行比较[10,51],我们在训练期间使用随机作物,并在测试期间对10种作物进行平均评分(详见[10])。我们在VOC 2007验证中最小限度地调整了一些超参数(我们增加了步长以允许更长的训练),并对VOC 2007和Stanford 40 Action使用了相同的设置在这两个数据集上,我们像以前一样进行了不同程度的微调。结果在图9的前两个图中。语义分割。我们使用全卷积网络进行语义分割,并使用默认的超参数[28]。所有预训练的ConvNet模型都是在VOC 2011训练集和Hariharan等人发布的额外SBD训练集的图像上进行微调的。[18],并且我们在从SBD序列中移除重叠图像后在VOC 2011 val集上进行测试。图9中的最后一个图显示了当被微调的层的数量变化时不同方法的性能分析. 像物体检测一样,所有这些任务都需要语义知识。然而,在对象检测中,ConvNet在目标对象周围进行了严格的裁剪,这些图像分类任务的输入是整个图像,语义分割涉及在所有位置的滑动窗口中运行ConvNet这种差异似乎发挥了重要作用。我们的表示是在对象作物上训练的,这与对象检测的设置类似,但与图9中的设置完全不同。这种不匹配可能会对我们的表示的性能产生负面影响,无论是对运动分割训练的版本还是强监督版本。这种不匹配也可以解释Wang等人训练的表示的低性能。[46]关于语义分割。然而,当ConvNet逐渐冻结时,我们的方法是一个强大的执行者。 当所有层直到conv5被冻结时,我们的表示优于动作分类的其他方法,仅次于VOC 2007上的图像分类和VOC 2011上的语义分割的着色[51]。我们在动作分类上的更高性能可能是由于我们的视频数据集有许多人在做各种动作。7. 讨论我们已经提出了一种简单直观的无监督学习方法,通过使用来自低级基于运动的分组的片段来训练ConvNets。我们的实验表明,我们的方法可以实现有效的传输,特别是当计算或数据约束限制了我们可以做的特定于任务的调整量。扩展到更大的视频数据集应该允许进一步改进。我们在图6中注意到,我们的网络学会了细化有噪声的输入片段。这是一个很好的sce- nario示例,其中ConvNets 可 以 学 习 从 大 量 噪 声 数 据 中 提 取 信 号 将ConvNet的精细我们把这个方向留给今后的工作。平均AP%平均准确度IoU平均值%2709引用[1] R. Achanta、A.Shaji,K.史密斯,A.Lucchi,P.Fua,和S. 很 好 SLIC 超 像 素 与 最 先 进 的 超 像 素 方 法 的 比 较TPAMI,2012年。5[2] P. Agrawal,J. Carreira和J.马利克学习通过移动来观察。ICCV,2015年。三六七[3] C. Arteta,V. Lempitsky,and A.齐瑟曼。在野外数数。在ECCV,2016年。6[4] Y.本吉奥。学习AI的深度架构。机器学习的基础和趋势,2009年。一、二[5] Y. Bengio,A. Courville和P。文森特表征学习:回顾与新的视角。TPAMI,35(8),2013. 2[6] N. Dalal和B. Triggs用于人体检测的定向梯度直方图CVPR,2005年。5[7] 诉R. 德萨。 使用未标记数据学习分类NIPS,1994年。2[8] C.多尔施A. Gupta和A. A.埃夫罗斯通过上下文预测的无监督ICCV,2015年。一二三四六七八[9] J. Donahue,Y. Jia,O. Vinyals,J. Hoffman,N. 张先生,E. tzeng和T.达雷尔。Decaf:用于通用视觉识别的深度卷积激活功能。ICML,2014年。1[10] J. 多纳休山口 K raühenbuühl和T. 达雷尔。这是一个很好的学习方法.ICLR,2017年。二、六、七、八[11] 迪穆兰岛贝尔加齐湾Poole,A. Lamb,M. 阿尔约夫斯基O. Mastropietro和A.考维尔从对抗中习得的推理ICLR,2017年。2[12] A. Faktor和M.伊拉尼非局部一致性投票的视频分割。BMVC,2014年。5[13] F.加拉索N.纳加拉贾T.卡德纳斯T.布洛克斯,还有B.席勒统一的视频分割基准:符号、度量和分析。ICCV,2013年。6[14] R.加格B.G. G. Carneiro和我里德用于单视图深度估计的无监督CNN:把几何图形放回休息室。ECCV,2016。3[15] R.娘娘腔。快速R-CNN。ICCV,2015年。一、三、四[16] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。NIPS,2014年。2[17] R. Goroshin,M. Mathieu和Y.乐存。学会在不确定的情况下保持线性。NIPS,2015年。第1、3条[18] B. 哈里哈兰山口阿尔韦湖Bourdev,S.Maji和J.马利克从反向检测器的语义轮廓。ICCV,2011年。8[19] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作r列。CVPR,2015年。1[20] G. E. Hinton 和 R. R. 萨 拉 赫 季 诺 夫 用神 经 网 络 减 少Science,2006. 一、二[21] D. Jayaraman和K.格劳曼学习与自我运动相关的图像表示。ICCV,2015年。3[22] P. Kohli,P. H. Torr等人用于强制标签一致性的鲁棒高阶势。IJCV,2009年。62710[23] P. Kr aühenbuühl , C. Doersch,J. Donahue和T. 达雷尔。卷积神经网络的数据ICLR,2016. 7[24] A.克里热夫斯基岛Sutskever和G. E. 辛顿 使用深度卷积神经网络进行图像分类。NIPS,2012年。3[25] G. Larsson,M. Maire和G.沙赫纳洛维奇学习自动着色的表示。ECCV,2016。2[26] Y. Li ,M. Paluri,J. M. 和P. 多尔拉。边缘的无监督学习。CVPR,2016年。3[27] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C. L.Zitni ck.MicrosoftCOCO:上下文中的通用对象。ECCV,2014年。二、三[28] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR,2015年。8[29] I.米斯拉角L. Zitnick和M.赫伯特Shuffle and Learn:使用时序验证的无监督学习。ECCV,2016。第1、3条[30] M. Noroozi和P.法瓦罗通过解决Jigsaw Puzzles的视觉表示的无监督学习ECCV,2016。一二三六七[31] P. Ochs,J. Malik,and T.布洛克斯通过长时间视频分析分割运动对象。TPAMI,36(6),2014. 6[32] Y. Ostrovsky,E.Meyers,S.Ganesh,U.Mathur,和P.辛哈失明恢复后的视觉解析。心理科学,2009年。1[33] A. Owens,J. Wu,J. H.麦克德莫特
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BGP协议首选值(PrefVal)属性与模拟组网实验
- C#实现VS***单元测试coverage文件转xml工具
- NX二次开发:UF_DRF_ask_weld_symbol函数详解与应用
- 从机FIFO的Verilog代码实现分析
- C语言制作键盘反应力训练游戏源代码
- 简约风格毕业论文答辩演示模板
- Qt6 QML教程:动态创建与销毁对象的示例源码解析
- NX二次开发函数介绍:UF_DRF_count_text_substring
- 获取inspect.exe:Windows桌面元素查看与自动化工具
- C语言开发的大丰收游戏源代码及论文完整展示
- 掌握NX二次开发:UF_DRF_create_3pt_cline_fbolt函数应用指南
- MobaXterm:超越Xshell的远程连接利器
- 创新手绘粉笔效果在毕业答辩中的应用
- 学生管理系统源码压缩包下载
- 深入解析NX二次开发函数UF-DRF-create-3pt-cline-fcir
- LabVIEW用户登录管理程序:注册、密码、登录与安全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功