没有合适的资源?快使用搜索试试~ 我知道了~
通过对视频进行Carl Vondrick,Abhinav Shrivastava,AlirezaFathi,Sergio Guadarrama,Kevin MurphyGoogle Research抽象。 我们使用大量未标记的视频来学习视觉跟踪模型,而无需人工监督。 我们利用颜色的自然时间相干性来创建一个模型,该模型通过从参考帧复制颜色来学习对灰度视频进行着色。 定量和定性实验表明,该任务导致模型自动学习跟踪视觉区域。 虽然模型是在没有任何地面真实标签的情况下训练的,但我们的方法学习跟踪得足够好,优于基于光流的最新方法。此外,我们的研究结果表明,跟踪失败与着色失败相关,这表明推进视频着色可以进一步改善自我监督的视觉跟踪。关键词:彩色化,自监督学习,跟踪,视频1介绍视觉跟踪是跨识别、几何和交互的视频分析任务不可或缺的部分然而,收集高性能所需的大规模跟踪数据集通常需要不切实际且昂贵的大量工作。我们认为一种有前途的方法是在没有人类监督的情况下学习跟踪,而是利用大量原始的、未标记的视频。我们提出视频着色作为一个自我监督学习问题的视觉跟踪。然而,我们不是试图直接从灰度帧预测颜色,而是通过学习从参考帧复制颜色来约束着色模型来解决这个任务虽然这看起来可能是一种迂回的方式来着色视频,但它需要模型学习内部指向正确的区域,以便复制正确的颜色。一旦模型被训练,学习的“预测”机制就被实现为一种训练策略。图1将使用我们的问题设置。实验和可视化表明,尽管网络是在没有真实标签的情况下训练的,但自动跟踪的机制出现了。在对从网络上收集的未标记视频进行训练后[1],该模型能够跟踪视频的第一帧中指定的任何分割区域[2]。它还可以虽然仍然没有干净标记的监督数据的替代品,但我们的彩色化模型能够很好地跟踪视频片段和人体姿势,从而优于基于光流的最新方法按运动类型划分的分解性能2冯德里克,什里瓦斯塔瓦,法特希,瓜达拉马,墨菲参考帧参考颜色输入帧目标颜色Fig. 1.自我监督跟踪:我们利用大量未标记的视频来学习用于跟踪的自监督模型。该模型通过指向彩色参考帧并复制颜色通道来学习预测灰度输入帧虽然我们在没有地面真实标签的情况下进行训练,但实验和可视化表明,在这个模型中,跟踪会自动出现。表明彩色化模型比光流更鲁棒,用于许多自然复杂性,例如动态背景、快速运动和遮挡。我们模型的一个关键特征是,我们在训练过程中不需要任何标记数据。我们的假设,我们的实验支持,是学习彩色视频将导致跟踪器内部出现,我们可以直接应用于下游跟踪任务,而无需额外的训练或微调。此外,我们发现跟踪器的故障通常与视频着色失败相关,这表明进一步改进我们的视频彩色化模型可以推进自监督跟踪的进展本文的主要贡献是表明,学习彩色视频跟踪的原因出现。本文的其余部分详细介绍了这一贡献。在第2节中,我们首先回顾了自监督学习和跟踪的相关工作在第3节中,我们提出了我们的方法来使用视频彩色化作为学习跟踪的监督信号通过在参考系中为模型配备在第4节中,我们展示了几个实验来分析我们的方法。由于注释视频是昂贵的,跟踪在机器人和图形学中有许多应用,我们相信学习自我监督跟踪可以产生很大的影响。2相关工作自我监督学习:我们的论文建立在一个不断增长的工作基础上在没有人类监督的情况下训练视觉模型一种常见的方法是通过对视频进行3利用图像和视频中的自然背景,以便学习深度视觉表示[4-16],其可以用作训练下游任务(例如对象检测)的分类器的特征空间。其他方法包括与环境交互以学习视觉特征[17-19],这对于机器人技术中的应用是有用的。一个相关但不同的工作线探索如何学习几何性质或自我监督的循环一致性,例如用于运动捕捉或通信[20-24]。我们还开发了一个自监督模型,但我们的方法侧重于视频中的视觉跟踪分割和人体姿势。此外,我们的方法直接在自然数据上训练,而不使用计算机生成的图形[22,23]。着色:彩色灰度图像的任务一直是主题计算机视觉界的一项重要研究[25-34],启发了本文。除了着色图像的核心问题之外,着色已经被证明是在没有监督的情况下学习图像表示的有用的副任务[9,10]。在视频域[35,36]中也探索了着色的任务,其中方法可以明确地结合光流以提供时间相干性或学习传播颜色[37]。在本文中,我们不强制时间相干性;相反,我们利用它来使用视频着色作为学习跟踪的代理任务。视频分割:我们使用跟踪器的一个任务是视频分割,其中任务是密集地标记视频中的对象实例。视频分割的方法多种多样,但通常可以分为是否从感兴趣的对象开始[38 -41]或不[42-45]。 这项任务具有挑战性,最先进的方法通常使用大量的监督来实现最佳结果[46 - 48],例如ImageNet [49],MS-COCO [50]和DAVIS [2]。相反,我们学习从未标记的视频中进行跟踪。无标签跟踪:我们建立了学习无标签分割视频的开创性工作[51-53]。然而,而不是设计一个跟踪的目标函数的手,我们表明,有一个自我监督的学习问题,导致模型自动学习跟踪自己。Con-,我们的模型是一个通用的跟踪方法,适用于多个视频分析问题,而不仅仅限于视频分割。相同的训练模型可以跟踪片段、跟踪关键点、对视频进行着色,并将任何其他注释从第一帧转移到视频的其余部分,而无需任何微调或重新训练。为了强调我们的跟踪器是通用的,我们显示了三个实质上不同的跟踪任务(着色,视频分割,关键点跟踪)的结果。此外,我们的方法是快速的,跟踪多个对象,并且不需要在测试帧上进行训练,使得我们的方法对于大规模视频分析任务相当实用。术语说明:在跟踪文献的术语上存在一些分歧,我们希望澄清我们的术语。在跟踪中,有两个常见的任务。在任务A中,我们得到了第一帧的标签在任务B中,我们没有得到标记的初始帧。文献通常将任务A令人困惑的术语是,在这两种情况下,您4冯德里克,什里瓦斯塔瓦,法特希,瓜达拉马,墨菲我K灰度视频参考帧目标帧嵌入参考颜色预测颜色图二.型号概述:给定灰度帧,模型用CNN计算每个位置的低维嵌入。使用softmax相似性,模型从目标帧指向参考帧嵌入(实心黄色箭头)。然后,模型将颜色复制回预测帧(黄色虚线箭头)。在学习之后,我们使用指向机制作为视觉跟踪器。请注意,该模型的端口较软,但在此之前,使用纯端口的方法是简单的允许使用监督数据进行训练,即使是对于无监督任务。在本文中,我们的目标是只从未标记的视频中学习。在测试时,我们处理任务A,它指定要跟踪的感兴趣区域。然而,我们称我们的方法为无监督的,因为我们不使用任何标记的数据进行学习。3自监督跟踪我们首先描述如何训练我们的模型用于视频着色,然后讨论如何使用它进行跟踪。请参见图2,以获得我们模型的高级说明。3.1模型令ci∈Rd是参考帧中的像素i的真实颜色,并且令cj∈Rd是目标帧中的像素j我们记yj∈Rd为模型在 cj 或 cj 上 的 预 分 布。该模型将y表示为参考系颜色yj= Σ(1)第一章我其中A是目标和参考帧之间的相似性矩阵,使得行总和为1。若干相似性度量是可能的。我们使用softmax标准化的内积相似度:exp .ΣfTfjAij=Σkexp .fTfj Σ(2)其中fi∈RD是由卷积神经网络估计的像素i因为我们计算的是fiCNNCNNFJCiyJ通过对视频进行5视频帧颜色通道颜色量化图3.第三章。颜色的时间一致性:我们将帧与Kinetics训练集相隔一秒进行可视化[1]。 第一行示出了原始帧,并且第二行示出了来自Lab空间的ab颜色通道。第三行将颜色空间量化为离散的仓,并扰动颜色以使效果更明显。来自网络的未标记视频通常具有时间相干的颜色,这为学习视觉跟踪器提供了出色的大规模训练数据。最后一列显示绿灯亮起的异常。最佳的颜色。对,相似性矩阵可能很大。然而,由于颜色是相当低的空间频率,我们可以使用较低分辨率的视频帧进行操作,从而允许我们在商品硬件上计算和存储所有对。颜色空间中的相似性并不意味着嵌入是相似的。由于softmax,模型只需要指向一个参考像素即可复制颜色。因此,如果存在具有相同颜色的两个对象该属性使模型能够跟踪相同颜色的多个对象(实验表明会发生这种情况)。我们的模型使用类似于注意力网络[54],匹配网络[55]和指针网络[56]的指向机制。然而,我们的方法是无监督的,我们训练模型的目的是使用底层指针机制作为视觉跟踪器。我们的模型指向单个训练示例,而不是跨训练示例。3.2学习我们的方法利用了训练过程中的假设,即颜色通常是时间稳定的。显然,也有例外,例如彩色灯可以打开和关闭。然而,在实践中,来自公共网络的未标记视频通常具有时间稳定的颜色,这为学习跟踪提供了出色的大规模训练数据。图3显示了Kinetics视频数据集[1]上几个视频的颜色一致性我们使用一个大型的未标记视频数据集进行学习。我们训练模型θ的参数,使得预测的颜色yj接近训练集上的目标颜色cjminθΣL(yj,cj)(3)J6冯德里克,什里瓦斯塔瓦,法特希,瓜达拉马,墨菲其中L是损失函数。由于视频着色是一个多模态问题[30],因此我们在将颜色空间量化为离散类别之后使用交叉熵分类损失。我们通过使用k-均值(我们使用16个聚类)对数据集中的颜色通道进行聚类。我们使用随机梯度下降来优化等式3。3.3推理在学习之后,我们有一个模型,可以计算一对目标和参考帧的相似性矩阵A给定一个最初标记的帧,我们使用这个指针在整个视频中传播标签。要做到这一点,我们利用的属性,我们的模型是非参数的标签空间。我们简单地重复使用等式1来传播,但不是传播颜色,而是传播类别的分布。由于A的行总和为1,因此等式1可以被解释为混合模型,其中A是混合系数。我们将描述如何将此模型用于两种不同类型的任务:分段跟踪和关键点跟踪。细分市场跟踪:为了跟踪片段,我们将ci ∈Rd重新解释为指示d个类别的概率的向量。注d可以在学习/推断之间改变。在分段中,类别对应于实例。我们将背景视为另一个类别。初始帧标签c,i将是独热向量(因为我们知道第一帧的基本事实),但是后续帧中的预测c,j将是软的,指示模型的置信度要做出艰难的决定,我们可以简单地选择最有信心的类别。关键点跟踪:与颜色和分割不同,关键点通常是稀疏的,但我们的模型仍然可以跟踪它们。我们将关键点转换成密集表示,其中ci∈Rd是指示关键点是否位于像素i处(如果有的话)的二进制向量在这种情况下,d对应于关键点在最初的画面中。然后,我们继续我们在分割情况下所做的。调节温度:等式1利用参考帧中的所有标签的加权平均来预测目标标签。如果指针不自信,随着时间的推移,这可能会导致模糊的预测,[30]也报告了这种影响。为了对此进行比较,我们可以调整这些数据的“特征”,使其做出更有把握的预测。我们简单地将pre-softmax激活除以推断期间的恒定温度T。设置T= 1使softmax分布在训练时保持不变 我们发现T = 0。五是善于推理。可变长度视频:在推理过程中,我们将需要处理长视频。我们采用递归方法,其中我们总是在给定先前N帧的窗口的情况下传播标签(我们使用N= 3)。最初的窗口将无法在大的基础上进行生产,而生产线将无法满足现代化的生产要求。3.4实现细节我们使用3D卷积网络来生成64维嵌入。为了提高效率,网络为每个输入帧预测32×我们在每个输入上使用ResNet-18网络架构[57]通过对视频进行7参考帧未来帧(灰色)预测颜色真彩色见图4。视频着色:我们给出了一个彩色参考帧的视频彩色化结果。我们的模型学习在许多具有挑战性的变换中复制颜色最好用彩色观看。帧,然后是五层3D卷积网络。请注意,为了给特征提供全局空间信息,我们将空间位置编码为范围[-1,1]中的二维向量,并将其连接到ResNet-18和3D卷积网络之间的特征。模型的输入是四个灰度视频帧,下采样到256× 256。我们使用前三帧作为参考帧,第四帧作为目标帧。模型从所有三个参考帧中提取颜色/标签我们通过将强度缩放到[-1,1]范围内来预处理网络的输入我们在学习中使用每秒6帧的帧速率,在推理中使用全帧速率为了量化颜色空间,我们将训练集中的视频转换到Lab空间,采用ab颜色通道,并使用k-均值对它们进行我们将每个像素的颜色表示为与最近的聚类质心相对应的独热向量。我们对模型进行了400,000次迭代训练。我们使用32的批量大小和Adam优化器[58]。我们使用0的学习率。001,并将其减少到0。0001之后该模型是随机初始化的高斯噪声。请参见附录??以了解包括网络架构在内的更多实施细节。8冯德里克,什里瓦斯塔瓦,法特希,瓜达拉马,墨菲方法监督?段边界身份22.123.6单幅图像彩色化4.75.2光流(从粗到细)[59]13.015.1光流(FlowNet2)[23]26.725.2我们34.632.7完全监督[47,46]C55.162.1表1.视频分割结果。我们在DAVIS 2017上展示性能用于视频分割的验证集数字越大(代表平均重叠)越好。我们与几个在学习过程中不使用任何标记数据的基线进行比较。有趣的是,我们的模型学习了一个足够强大的跟踪器,以优于基于光流的方法,这表明该模型正在学习有用的运动和实例特征。然而,我们仍然无法与严格监督的训练相匹配。4实验我们实验的目标是分析跟踪器可以从我们的视频着色任务中自动出现的程度。我们首先描述我们的实验设置和基线,然后显示两个应用程序的视频分割和人体姿态跟踪。最后,我们将模型学习的嵌入可视化,并分析如何进一步改进跟踪器。4.1实验装置我们在Kinetics [1]的训练集上训练我们的模型由于我们的模型从未标记 的视 频中 学 习, 因 此我 们丢 弃 了标 签 。Kinetics数 据集 是来 自YouTube的300,000个视频的大而多样的集合我们根据任务在其他数据集的标准测试集上评估模型由于我们正在分析跟踪器如何从视频彩色化中脱颖而出,因此我们将其与以下无监督基线进行比较:身份:由于我们为初始测试帧提供了标签,因此我们有一个基线,假设视频是静态的,并重复初始标签。光流:我们使用光流中最先进的方法作为基线。我们试验了两种方法。首先,我们尝试了一个经典的光流实现,它是无监督的,不是基于学习的[59]。其次,我们还使用基于学习的方法,从合成数据中学习[23]。在这两种情况下,我们在帧之间进行估计并扭曲初始标签以产生预测标签。如果扭曲分数高于阈值,则我们将像素标记为属于类别我们试验了几个阈值,并使用性能最好的阈值。我们探讨了递归和非递归策略,并报告了最佳策略。除非另有说明,否则我们使用基于FlowNet2的最佳性能光流[23]。单幅图像彩色化:我们评估了从单个图像着色模型[30]的嵌入而不是我们的嵌入计算相似性的效果。请注意,此任务并非设计用于或最初用于通过对视频进行98060402002 11 20 29 38帧号47 5664图五.性能与时间:我们绘制视频分割平均性能与视频中时间的关系图。我们的方法(红色)比光流(橙色)在更长的时间段内保持更一致的性能。对于长视频,光流平均退化到身份基线。由于视频是可变长度的,我们绘制了中值视频长度。作者的追踪然而,它允许我们量化视频和图像着色之间的差异为了建立这个基线,我们使用[30]的图像着色损失来然后,我们遵循相同的跟踪过程,除了使用单个图像模型的倒数第二层的特征来计算相似性。监督模型:为了分析我们的自监督模型和完全监督方法之间的差距,我们还考虑了最好的监督方法[47,46]。请注意,这些方法在ImageNet、COCO segmentations、DAVIS上进行训练4.2视频彩色化图4显示了给定参考帧的示例视频着色结果,这是模型最初训练的任务。我们使用Kinetics验证集(在训练期间看不到)。该模型学习复制颜色,即使在许多具有挑战性的转换,例如黄油涂在烤面包上,人们在跳舞时变形。由于模型必须从参考帧复制颜色,这表明模型可以对许多困难的跟踪情况是鲁棒的。本节的其余部分将分析这种跟踪机制。4.3视频分割我们使用DAVIS 2017验证集[2]分析了我们的视频分割模型,其中给出了初始分割掩码,任务是预测视频其余部分的分割我们遵循标准的评估协议,使用验证集与提供的代码,并报告两个指标,分数段重叠和边界的准确性。DAVIS 2017中的视频具有挑战性,由多个对象组成,这些对象经历了显着的变形,遮挡和比例变化,背景杂乱。表1显示了视频分割的性能。我们的方法在光流估计中优于多种方法。虽然光流的估计通常相当强,但是由于遮挡和运动模糊,使先前的段变形是具有挑战性相比之下,我们的方法可能会表现出色,因为它还学习了包含大量这些具有挑战性的效果的视频端到端的扭曲机制。光流恒等式平均性能(J)10冯德里克,什里瓦斯塔瓦,法特希,瓜达拉马,墨菲方法身份[23]第23话PCK@.1 PCK@.2 PCK@.3 PCK@.4PCK@.543.145.245.264.562.969.676.073.580.883.580.687.588.585.591.450.037.525.012.50.0DBFM SC OCC MB 何EACS DEF SVLRIOOV ROT AC BC图六、属性性能:我们显示了按描述视频中运动类型的属性分解的平均性能属性来自[60]的表1我们排序的相对增益光流的属性表2.人体姿态跟踪(无监督):我们在屏幕上显示性能。用于跟踪人体姿势的JHMDB验证集PCK@X是在阈值X处正确关键点的概率(数值越大越好)。在严格的阈值下,我们的模型跟踪关键点的性能与光流相似,这表明它正在学习一些运动特征。在宽松的阈值,我们的方法优于基于光流的方法,这表明我们的模型所造成的错误不太严重。我们在图中分析了性能如何随视频长度而变化5.我们的方法保持一致的性能比光流更长的时间段。虽然光流在短时间间隔内工作良好,但误差往往会随着时间的推移而累积。我们的方法也有漂移,但根据经验,着色似乎可以学习更强大的模型。对于长视频,基于光流的跟踪最终会退化到身份基线,而我们的跟踪在更长时间内保持相对较正如预期的那样,当对象开始移动和变形时,标识基线会快速下降我们在图6中按视频属性对性能进行了我们的模型往往优于具有动态背景(DB)和快速运动(FM)的视频的光流,这是传统上对光流具有挑战性的情况由于我们的方法是在也有这些伪影的视频上进行端到端训练的我们的模型还显示了在涉及遮挡(OCC)和运动模糊(MB)的情况下的优势,这对于光流是困难的,因为在这些条件下匹配关键点是由于颜色是低频的,因此在训练期间不会受到模糊和遮挡的我们的模型和光流最具挑战性的情况是由于尺度变化(SV)。为了了解预测的分割,图7显示了一些示例视频和我们方法的预测分割我们的模型可以-识别光流平均性能(J)通过对视频进行11输入预测分段时间见图7。示例视频分段:我们展示了我们的自监督模型在视频分割任务上的结果。颜色表示不同的实例。尽管模型在没有地面实况标签的情况下被训练,但是模型仍然可以在整个视频中传播分段。左列显示模型的输入帧和输入蒙版,其余列显示预测。结果表明,该模型是generally鲁棒的类内变化,如变形,和闭塞。模型通常处理多个对象和杂乱的背景。最好用彩色观看。我们在https://goo.gl/qjHyPK12冯德里克,什里瓦斯塔瓦,法特希,瓜达拉马,墨菲输入预测骨架见图8。人体姿态跟踪:我们展示了我们的自监督模型跟踪人体姿势关键点的结果。尽管模型在没有地面实况标签的情况下进行训练,但模型可以在整个视频的其余部分中传播在第一帧中标记的骨架最好用彩色观看。即使当对象在空间上接近并且具有相似的颜色时,例如多个人穿着相似的白大褂的场景(第三行),也可以在整个视频中成功地跟踪多个实例。为了量化这一点,我们只分析了具有多个对象(范围从两个到五个对象)的视频的性能。 在这种情况下,我们的模型得分为31。段重叠(J)上的0与19。1的光流为基础的方法,表明我们的方法仍然获得了强大的性能与多个对象。最后,我们的模型显示出对大变形(第二行)以及大遮挡(倒数第二行)的鲁棒性。典型的失败包括小对象和缺乏细粒度的细节。4.4姿势跟踪我们使用JHMDB数据集进行人体姿势跟踪实验[3]。在测试过程中,我们给出了一个标记有人类关键点的初始帧,任务是预测后续帧中的关键点。这项任务是具有挑战性的,因为它需要在人经历变形时对关键点进行细粒度定位。我们使用[61]中的标准PCK度量,它测量足够接近地面真实的关键点以下通过对视频进行13时间见图9。可视化学习的嵌入:我们使用PCA将嵌入投影到3维中,并将其可视化为RGB图像。相似的颜色说明嵌入空间中的相似性请注意,学习的嵌入随着时间的推移是稳定的,即使有显著的变形和视点变化。最好用彩色观看标准的做法,我们标准化的规模的人。我们通过人边界框的大小进行归一化更多详情请参见[61]。表2示出了我们的跟踪器相对于基线的性能,用于在给定初始标记的帧的情况下跟踪人类姿势在最严格的评估阈值下,我们的模型获得了与光流相似的性能,这表明我们的模型可能正在学习一些运动特征。在更宽松的阈值,我们的模型优于光流。这表明,来自光流的误差往往比来自我们的跟踪器的误差更极端,即使在定位不完美时也是如此。此外,光流方法是在大量合成数据上训练的,而我们的方法只需要自然可用的视频图8示出了来自我们的模型的关于跟踪人类关键点的定性结果。该模型通常可以相当好地跟踪大的运动,例如第二和第三排。模型的典型故障是由于遮挡,因为关键点一旦从帧中消失就无法恢复。14冯德里克,什里瓦斯塔瓦,法特希,瓜达拉马,墨菲参考帧初始分割掩码预测分割预测颜色地面实况颜色见图10。着色与跟踪:我们展示了一些失败的情况,我们没有正确地跟踪对象,模型也无法传播颜色(红色箭头)。这表明,改善视频着色可以转化为自我监督视觉跟踪器的进一步最好用彩色观看。4.5模型及其失效模式由于我们的模型是在大量未标记的视频上训练的,因此我们有兴趣深入了解模型内部学习的内容。图9通过使用PCA将由我们的模型学习的嵌入向下投影到三维并将其绘制为RGB图像来可视化。结果表明,学习的嵌入空间中的最近邻居往往对应于对象实例,即使在显著的变形和视点变化。虽然我们的实验表明,这些嵌入是有用的跟踪,仍然有失败。例如,图10示出了来自我们的跟踪器的预测分割和对应的预测颜色。此外,我们发现许多跟踪失败也是着色失败。为了量化这种相关性,如果有的话,我们使用跟踪器故障和着色故障这两个事件之间的比值比。如果事件是独立的,我们期望比值比为1.但是,比值比为2。3、提示中度关联。这意味着,在视频编码中,对跟踪的敏感性仍然很小我们期望建立更精确的视频彩色化模型将转化为跟踪改进。5结论本文表明,视频彩色化的任务是一个很有前途的信号学习跟踪,而不需要人的监督。我们的实验表明,学习彩色视频指向一个丰富多彩的参考帧会导致一个视觉跟踪器自动出现,我们利用视频分割和人体姿态跟踪。此外,我们的研究结果表明,改善视频着色任务可能会转化为自我监督跟踪的改善。由于有大量的未标记的视频在全彩色,视频着色似乎是一个强大的信号,视频模型的自我监督学习通过对视频进行15引用1. 凯 , W. , 卡 雷 拉 , J. , 西 蒙 尼 扬 , K. , 张 , B. , 希 利 尔 角Vijayanarasimhan , S. , Viola , F. , Green , T. , 退 后 T Natsev , P. ,Suleyman,M.,齐瑟曼,A.:人体动作视频数据集。arXiv预印本arXiv:1705.06950(2017)2. Pont-Tuset,J.,Caelles,S.,Perazzi,F.,Montes,A. Maninis,K.K.,陈玉,Van Gool,L.:2017年戴维斯视频对象分割挑战赛。arXiv预印本arXiv:1803.00557(2017)3. Jhuang,H. Gall,J.,Zuffi,S.,施密德角布莱克,M.J.:对动作识别的理解。在:国际会议。计算机视觉(ICCV)(2013年12月)31 924. Doersch,C. Gupta,A.,Efros,A.A.:通过上下文预测的无监督视觉表示学习。In:Proceedings of the IEEE International Conference on ComputerVision.(2015)14225. Owens,A.,吴,J.,McDermott,J.H.,弗里曼,W. T.,Torralba,A.:环境声音为视觉学习提供监督。In:European Conference on ComputerVision,Springer(2016)8016. Jayaraman,D.Grauman,K.:学习与自我运动相关的图像表示在:IEEE计算机视觉国际会议论文集(2015)14137. Doersch , C.齐 瑟曼 , A.: 多 任务 自 监督 视 觉 学习 。 IEEE InternationalConference on Computer Vision(ICCV)(2017年)8. 王,X.,他,K.,Gupta,A.:自监督视觉表示学习的传递不变性。arXiv预印本arXiv:1708.02901(2017)9. 张,R. Isola,P.,Efros,A.A.:裂脑自动编码器:通过跨通道预测的无监督学习10. Larsson,G.,Maire,M.,Shakhnarovich,G.:着色作为视觉理解的代理任务。在:CVPR中。第2卷(2017年)811. Pathak,D.,Krahenbuhl,P. Donahue,J.,Darrell,T.,Efros,A.A.:上下文编码器:通过图像修复进行特征学习。In:Proceedings of the IEEEConference on C〇mputerVis i sinandPater nRec 〇 gnit i tin. (2016)253612. 王,X.,Gupta,A.:使用视频的视觉表示的无监督学习。arXiv预印本arXiv:1505.00687(2015)13. 冯德里克角Pirsiavash,H.,Torralba,A.:生成具有场景动态的视频In:Ava ncesI nNe urali nProces sinSystems。(2016)61314. Noroozi,M.,Favaro,P.:通过解决jigsawpuzzles进行视觉表示的无监督学习。In:EuropeanConferenceonComputerVision,Springger(2016)6915. Pathak,D. ,Girshic k,R., 做吧,P 达瑞尔,T Hariharan,B. :通过观察物体的移动来获得感觉。In:Proc. CVPR.第2卷(2017年)16. Isola,P.,Zhu,J.Y.,周,T.,Efros,A.A.:使用条件对抗网络的图像到图像翻译。ArXiv预印本(2017)17. 平托湖Gandhi,D. Han,Y.,Park,Y.L.,Gupta,A.:好奇的机器人:通 过 物 理 交 互 学 习 视 觉 表 现 。 In : 欧 洲 会 议 上CommputerVision,Springnger(2016)318. 阿格拉瓦尔,P.,Nair,A.V.,Abbeel,P.,Malik,J.Levine,S.:学习通过戳戳:直观物理学的经验学习在:神经信息处理系统的进展。(201 6)507419. 吴,J.,Lim,J.J.,张洪,Tenenbaum,J.B.,弗里曼,W.T.:第一百零一章:从未标记的视频中学习物理对象属性。在:BMVC.第2(2016年)716冯德里克,什里瓦斯塔瓦,法特希,瓜达拉马,墨菲20. 董惠英,董惠惠,Yumer,E.,Fragkiadaki,K.:动作捕捉的自监督学习。在:神经信息处理系统的进展。(2017)524221. 周,T.,布朗,M. Snavely,N. Lowe,D.G.:视频深度和自我运动的无监督学习。在:CVPR中。第2卷(2017年)722. 周,T.,Krahenbuhl,P. Aubry,M.,黄,Q,Efros,A.A.:通过3d引导的循 环 一 致 性 学 习 密 集 对 应 。 In : Proceedings of the IEEE Con-Fe-nceonComuterVisi onandPatternRecognition. (2016)11723. Ilg,E.,Mayer,N. Saikia,T.,Keuper,M.,Dosovitskiy,A.,Brox,T.:流动网络2.0:利用深度网络的光流估计的演进。IEEE计算机视觉与模式识别会议(CVPR)第2(2017年)24. 周,T.,Tulsiani,S.,孙,W.,Malik,J. Efros,A.A.:查看由appear-annceflow 合 成 。 In : Europeanconferenceoncomputervision , Springger(2016)28625. Welsh,T.,Ashikhmin,M.,Mueller,K.:将颜色转换为灰度图像。在: ACMTransacti o nso nGraphics( TOG ) 中。 第 21卷,阿、 中 、 蒙(2002年)27726. R.K.古普塔Chia,A.Y.S.,Rajan,D. Ng,E.S.,志勇,H.:使用相似图像的 图 像 着 色 。 In : Proceedingsofthe20thACMinternationalconferenceonMultimedia,ACM(2012)36927. Liu,X.,中国科学院院士,万湖,加-地Qu,Y.,黄,T. T.,林,S.,梁智思Heng,P.A.:内在的彩色化。ACM Transactions on Graphics(TOG)第27卷ACM(2008)15228. Chia,A.Y.S.,Zhuo,S.,R.K.古普塔Tai Y.W.周S.Y. Tan,P.,Lin,S.:网络 图 像 语 义 着 色 。 ACM Transactions on Graphics ( TOG ) 第 30 卷 ACM(2011)15629. Deshpande,A.,Rock,J. Forsyth,D.:学习大规模自动图像着色。在:IEEE国际计算机视觉会议论文集中。(2015)56730. 张 , R. Isola , P. , Efros , A.A. : 彩 色 图 像 着 色 。 In : European Con-ferenceonComputerVision,Springer(201 6)64931. Larsson,G.,Maire,M.,Shakhnarovich,G.:学习自动着色的表示。In:EuropeanConferenceonCom up uterVision,Spr inger(2016)57732. Guadarrama,S.,达尔河Bieber,D.,Norouzi,M.,Shlens,J.,Murphy,K.:像素递归着色。arXiv预印本arXiv:1705.07208(2017)33. Iizuka,S.,Simo-Serra,E.,Ishikawa,H.:要有颜色!:联合端到端学习全局和局部图像先验,用于自动图像着色和同时分类。ACM Transactionson Graphics(TOG)35(4)(2016)11034. 伊罗尼河Cohen-Or,D.,Lischinski,D.:以色彩为例。In:RenderingTechniques,Citeseer(2005)20135. Yatziv湖Sapiro,G.:使用色度混合的快速图像和视频彩色化。IEEE15(5)(2006)1120- 1129中所述的图像处理方法36. Heu,J.H.,Hyun,D.Y.,Kim,C.S.,Lee,S.U.:基于优先源传播的图像和 视 频 彩 色 化 。 In : Image Processing ( ICIP ) , 2009 年 第 16 届IEEEInternationalConferenceon,IEEE(2009)46537. Liu,S.,Zhong,G.,De Mello,S.,顾,J.,Yang,M.H.,Kautz,J.:可切换时间传播网络。arXiv预印本arXiv:1804.08758(2018)38. Badrinarayanan,V.Galasso,F.,Cipolla,R.:视频序列中的标签传播In : Computer Vision and Pattern Recognition ( CVPR ) , 2010 IEEEConference on,IEEE(2010)326539. Ramakanth,S.A.,巴布,R.V.:Seamseg:使用补丁接缝的视频对象分割。在:CVPR中。第2卷(2014年)5通过对视频进行1740. Vijayanarasimhan,S.,Grauman,K.:用于在虚拟设备中进行标签传播的 活 动 帧 选 择 。 In : Europeanconferenceoncomputerisision , Spr inger(2012)49641. Perazzi,F.,Wang,O.,真恶心M Sorkine-Hornung,A.:用于视频分割的全 连 接 对 象 建 议 。 In : Proceedings of the IEEE international con-fe-re-nceoncomputervision. (2015)322742. Grundmann,M.,Kwatra,V.,Han,M.,埃萨岛:高效的基于分层图的视频分割。In:Computer Vision and Pattern Recognition(CVPR),2010IECHION,IEEE(2010)214143. 徐,C.,科索,J.J.:早期视频处理的超体素方法的评价。In:ComputerVision and Pattern Recognition(CVPR),2012 IEEE Conference on,IEEE(2012)120244. Brox , T. , Malik , J. : 通 过 点 轨 迹 的 长 期 分 析 的 对 象 分 割 。 In :Europeanconferenceoncomputerisision,Springger(2010)28245. Fragkiadaki,K.,张,G.,Shi,J.:通过跟踪轨迹嵌入中的不连续性来进行视频分割在:Computer Vision and Pattern Recognition(CVPR),2012,IEEE,IEEE(2012)1846- 1853中46. 杨湖,王玉,Xiong,X.,中国农业科学院,杨杰,Katsaggelos,A.K.:通过网络调制的高效视频对象分割。arXiv预印本arXiv:1802.01218(2018)47. C aelles,S., 我是K K., 彭特-图瑟特,J., Leal-Taix'e,L., Cremers,D. ,VanGool,L.:单镜头视频对象分割。In:CVPR 2017,IEEE(2017)48. Perazzi,F.,Khoreva,A. Benenson河Schiele,B.,Sorkine-Hornung,A.:从静态图像中学习视频对象分割。计算机视觉与模式识别。(2017年)49. Deng,J.,Dong,W.,索赫尔河Li,L.J.,Li,K.,李菲菲:Imagenet:一个大规模的分层图像数据库。在:计算机视觉和模式识别,2009年。CVPR2009。IEEEC〇nference〇n,IEEEE(2009)24850. 林,T. 是的, 我是M Belongie,S., 嗨,J., Perona,P., Ramanan,D. ,Dolla'r,P.,Zitnick,C.L.:微软coco:上下文中的公用对象。In:Europeanconferenceoncomputervi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功