交互传播网络的视频对象分割

160 浏览量更新于2023-10-19 收藏 2.78MB PDF 举报

深度学习方法

视频对象分割

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5247：第三帧…基于交互传播网络的快速用户引导视频对象成吴延世大学李俊英Adobe研究徐宁土坯研究善周金延世大学摘要我们提出了一种用于交互式视频对象分割的深度学习方法。我们的方法是建立在两个核心操作，交互和传播，每个操作是由卷积神经网络进行。这两个网络内部和外部连接，使网络联合训练和相互作用，以解决复杂的视频对象分割问题。我们提出了一种新的多轮训练计划的交互式视频对象分割，使网络可以学习如何理解用户在测试时，我们的方法产生高质量的结果，也运行得足够快，与用户互动。我们在2018年DAVIS挑战赛的交互式赛道基准我们在速度和准确性上都超过了我们还证明了我们的方法可以很好地与真实的用户交互。1. 介绍视频对象分割是从视频序列中分离出背景对象的任务.它是视频编辑中的一项重要任务，从消费级视频编辑到专业的电视和电影后期制作都有广泛的应用。这个问题通常通过全自动方法（即，无监督的前方目标分割[35]）或半监督方法（即，地面实况对象掩模在几帧上给出[5，28]）。然而，这两种解决方案在反映用户的意图或改进不正确的估计方面都有局限性。交互式视频分割可以通过允许以用户友好的形式（例如涂鸦）给出的用户干预来潜在地解决这个问题[37，31，2]。然而，前交互式方法需要大量的用户交互来获得具有视频编辑应用的可接受质量的结果。在本文中，我们的目标是开发一个互动的…...图1：我们提出了一种方法，可以通过与用户交互来估计视频中的对象掩码。目标对象的遮罩是使用用户注释（例如，在帧3处涂写），并且传播所计算的掩码以计算整个视频的掩码。用户可以重复地提供额外的反馈（例如，在帧50处的假阳性和假阴性上涂写）以细化分割掩模。我们的方法以最少的用户交互和时间预算生成高质量的视频对象分割技术，可以估计准确的对象掩模在视频序列与最小的用户交互。交互式视频剪切方法通常遵循转描的过程[4，20]，其中用户顺序地逐帧处理视频在这种情况下，用户验证和更新的对象掩码与多个interac，在每帧。这种旋转式交互需要大量的努力，更适合需要高质量结果的专业用途。最近，Caelleset al.[6]介绍了另一个视频对象剪切的工作流程，可以最大限度地减少用户在这种情况下，我们称之为基于轮的交互，用户在所选帧上提供注释为了细化结果，重复用户注释和分割图计算的过程，直到用户对结果满意这种基于轮的交互对于消费级应用程序和专业用途的快速原型设计框架索引34050………二交互50…第二回合第一………5248效率是主要关注的问题。人们可以根据时间来控制分割的质量，因为更多轮的交互将提供更准确的结果。在本文中，我们提出了一种基于深度学习的方法，用于针对基于圆形的交互场景定制的交互式视频对象分割（图1）。①的人。虽然已经提出了几种用于视频对象分割的深度学习方法[5，28]，但它们对于交互式场景来说通常太慢，即使使用快速视频分割算法[26]，为交互式分割场景设计深度神经网络（DNN）及其训练机制仍然是一项挑战。为了解决这个具有挑战性的问题，我们提出了相互作用和传播网络和一个有效的训练方法。我们的框架由两个深度CNN组成，每个CNN分别专用于核心操作交互和传播。交互网络将用户注释（例如，涂鸦）来分割前景对象。传播网络将在源帧中计算的对象掩码传输到其他相邻帧。这两个网络使用我们的特征聚合模块进行内部这两个网络被联合训练以适应彼此，从而减少了两个操作之间的不稳定行为。我们还提出了多轮训练的概念，这是专门设计来模拟一个真正的测试场景的交互式视频分割。在这种训练策略中，多个用户反馈周期和网络的响应形成了一个单一的训练迭代（见图2）。（3）第三章。这种新的训练方案大大提高了我们模型的性能。我们的框架在DAVIS Challenge 2018 [6]的交互式轨道基准上进行了定量评估，与其他竞争方法相比，实现了最先进的性能[27]。我们还证明了我们的方法与真正的互动剪切用例的实用性我们将发布包含训练模型和图形用户界面的源代码。2. 相关工作2.1. 视频对象分割我们根据不同类型的用户交互将视频对象分割分为三类。无监督方法在无监督设置中，没有用户交互。无监督方法自动运行例如，Jainet al. [18]将外观模型与优化模型相结合，调用流模型来分割视频中的通用对象。Simi- larly，Tokmakovet al.[35]使用具有递归神经网络的运动估计无监督方法的根本局限性在于用户无法选择感兴趣的对象。半监督方法在半监督设置中，提供第一帧中的对象的地面真实掩模。目标是在整个视频序列中传播对象遮罩。许多最近的方法[5，36，24]通过在测试时微调深度网络模型来采用在线学习，以便记住给定对象掩码上目标对象的外观。然后对每一帧进行对象分割。Jampaniet al. [19]通过双边滤波传播对象掩码。Oh等人[26]使用暹罗双流网络并利用合成训练数据。虽然半监督方法不具有非监督方法的限制，但是它们需要在初始帧中完全注释的对象掩模，这可能是昂贵的。此外，半监督方法依赖于额外的信息，如完全注释的掩码或外部工具，以进一步提高输出质量。交互式方法。在交互式设置中，用户可以提供各种类型的输入（例如，边界框、涂鸦或遮罩）以在开始时选择感兴趣的对象。用户还可以提供更多的交互来细化分割结果。这种交互式方法的目标是以最少的用户交互次数获得令人满意的分割结果。许多交互式方法[37，31，9，2，4，20]已经被支持，摆姿势。[37，31，33]用手工制作的能量项求解时空图一些方法找到目标帧和参考帧之间的对应块，然后利用局部分类器[2，44]或现有的块匹配算法[9]。[1，20]通过跟踪解决分割任务最近，[3，6]通过将半监督方法修改为交互式sce- nario，提出了基于深度学习的方法。Benard和Gygli [3]使用深度交互式图像分割方法[39]来选择给定初始笔划或点击的对象，并使用半监督视频对象分割方法[5]来传播对象掩码。与这种两种单独方法的简单组合相比，我们精心设计了两个模块网络，使其相互作用，并使用我们新的多轮训练方案联合训练整个网络。2.2. 与深度神经网络的交互最近，已经引入了几种方法，用于将用户交互与深度神经网络集成以用于各种交互任务。Xu等建议将点击[39]或边界框[38]转换为欧几里得距离5249（a）互动网络跳过连接帧图像Prev.圆形遮罩涂鸦掩模估计ResNet50ROI Align编码器解码器(b)传播网络特征聚合模块编码解码ROI AlignResNet50concat.帧图像Prev.圆形掩模Prev.时间掩模掩模估计图2：整体网络结构。我们有两个深度网络，分别用于（a）交互和（b）传播任务。这两个网络通过（c）我们的特征聚合模块进行内部连接，并且还进行外部连接，以将另一个网络请参见Sec。3.1关于细节用于交互式图像分割的地图。 Zhang etal. [43]结合了用户对图像着色的颜色选择。Sangkloy等人[32]Isolaet al. [16]使用草图来帮助生成逼真的自然图像。与上述仅考虑在图像上给出一次交互的交互方法不同，我们的模型考虑了可能绘制到不同视频帧上的多个用户输入多个用户交互的序列由一个专门设计的称为特征聚合模块的循环块聚合。此外，我们使用前几轮的分割结果作为额外的通道，以考虑交互式视频分割的独特特性。3. 方法给定视频帧上的用户注释（例如，在图像的前景和背景像素上绘制的涂鸦），我们的目标是在给定视频的所有帧中切出目标对象。从最初的用户输入，我们生成仅基于用户注释的所有帧的对象掩码。如果用户提供额外的反馈注释后，审查生成的面具，我们的方法细化的基础上额外的用户注释和以前的面具估计结果的对象面具。为此，我们为任务定义了两个基本操作：相互作用和传播。如图所示，提出了两个专用于每个操作的深度CNN。2（a）、（b）。交互网络根据用户输入为注释帧生成对象掩码（或细化先前的结果）。传播网络通过从具有用户注释的帧开始向前和向后地在时间上传播对象掩码信息来生成对象掩码（或细化先前的结果）。为了防止在传播过程中由于漂移和阻塞而导致的误差积累，传播网络引用了类似于[26，41，42]的可靠视觉记忆。虽然[26，42]采用Siamese网络直接访问参考帧，但我们修改了框架，使其更适合交互式视频对象分割。(c)特征聚合模块(d)解码器块(e)残余块完全连接的网络，但存在瓶颈跳过连接上一个聚合特征图全球平均值池电流聚合特征图低比例块输出电流交互特征图2048×8×8全球平均值池20482048×240964096：逐元素求和上采样2×残余块残余块concatenate&重塑softmax逐行加权和relu+ conv3× 3relu+ conv3× 35250具体而言，由于最可靠的信息包含在交互场景中的用户注释帧中，因此我们允许传播网络访问交互网络的功能。此外，我们提出了一个功能aggregation模块，积累所有以前的参考信息编码的互动网络。这种参考引导的传播是有效的，特别是对于长时间的传播。我们将一系列操作（包括一个帧上的用户交互和向两端连续传播的数量）称为一轮（见图11）。（3）第三章。用户能够重复几轮交互来细化分割结果，直到他们对结果满意为止，如图所示。1.一、这两个网络都是根据上一轮的结果运作。我们在每一轮都使用相同的网络。3.1. 网络设计我们有两个网络，交互和传播，这两个网络都被构造为一个编码器-解码器结构，可以有效地产生一个尖锐的掩码输出。我们在编码器之前采用ROI对齐，使我们的网络关注感兴趣区域（目标对象周围的区域）[13]。我们采用ResNet50 [14]（没有最后的全局池化和全连接层）作为编码器网络，并对其进行修改，以便能够采用额外的输入通道（例如，涂写和先前的掩模）通过在第一卷积层注入额外的滤波器[28，39]。网络权重从ImageNet预训练模型初始化，除了新添加的随机初始化的过滤器。解码器采用编码器的输出，并产生一个对象掩码。为了通过充分利用不同尺度下的信息来重建清晰掩模，解码器还通过跳过连接在编码器内部获取中间特征图。我们通过添加残差块[ 15 ]对特征金字塔网络[21，29]进行修改，并将其用作我们解码器的构建块，如图所示。2（d）、（e）。解码器估计输入图像的四分之一尺度中的对象掩码。对于多对象场景，其中每个对象的涂鸦都是给定的，我们首先估计每个对象的掩模，然后使用[26]中提出的软聚合合并掩模以获得多对象掩模互动网络交互网络的输入包括一个帧、前一轮的对象掩码输入沿着通道维度连接以形成输入张量Xi∈R6×H×W。对象遮罩表示为概率图，填充0到1.如果没有先前的掩码可用（例如，在第一轮），我们为所有像素提供填充0.5的中性掩码的该网络的输出为Y∈i∈RH×W，即目标物体在每个像素上的概率传播网络。传播网络的输入由一帧、在前一帧获得的对象掩码和在前一轮获得的对象掩码组成。类似于交互网络，输入沿着通道维度连接成一个十元数Xp∈R5×H×W.两个对象遮罩用概率表示，并且如果遮罩不可用.与交互网络不同的是，该传播网络的解码器额外地采用了由我们的特征聚集模块计算的参考特征图该传播网络的参考特征图和编码器输出沿着信道维度被级联，并且被馈送到解码器中。功能聚合模块。在交互式视频对象分割中，系统往往需要在不同的帧中进行多轮的用户标注。重要的是要利用所有以前的用户输入良好的perfor-曼斯。为了实现这一点，我们提出了一个功能聚合模块，这是专门设计用于积累信息的目标对象从所有用户交互。我们使用交互网络的编码器输出来生成参考特征图。当新的用户交互触发交互网络时，我们会定期更新特征图。我们设计了这个模块，能够通过自我关注来选择可扩展的功能。如图在图2（c）中，模块首先对特征图的空间维度执行全局平均池化以获得紧凑的特征向量。这些向量被连接起来，并被送入两个具有瓶颈的全连接层。层的输出是整形后的两个通道权重向量（α和β）和softmax。我们放置softmax层以确保α+β=1。这两个特征图按通道加权α和β，然后按求和：Ar=α<$Ar−1+β<$Rr。 Ar和Ar−1分别是在轮次r和r-1处的聚合参考特征图，并且Rr是在轮次r处的交互网络的编码器输出，并且Rr是在通道维度上的逐元素乘法。感兴趣区域（ROI）。虽然用于图像分割的全卷积网络[23]可以处理任何分辨率的图像输入，但性能严重依赖于对象的绝对尺度例如，小的物体很容易被错过，而大于感受野的物体需要通过仅观察物体的一部分来估计这个问题可以在网络知道去哪里看的时候解决在我们的例子中，我们可以从指导（例如，涂鸦和面具）。为了利用指导，我们首先计算包含所有可用指导信息（包括用户涂鸦、来自前一个的掩码5251帧和来自前一轮的掩模），并将ROI设置为通过将紧密框的每一侧加倍来计算的框。然后，所有输入的ROI区域被双线性扭曲成固定大小（例如，256×256（在我们的实现中），然后我们将它们送入编码器[17，13]。最后，在ROI内进行的预测被反向扭曲并粘贴回原始位置。训练损失在ROI对齐空间中计算时变得尺度不变，这使得我们能够不使用复杂的平衡损失函数[5]。请注意，我们在第一轮将ROI设置为整个图像，并使用第二轮的指导开始计算ROI。3.2. 培训多轮培训。为了获得最佳的测试性能，我们使我们的训练循环接近真实的测试场景：用户与我们的模型多次交互，同时以在多个帧上涂写的形式提供反馈。我们提出了一种新的多轮训练方案，其中单个训练样本由多轮用户交互组成。在每一轮，我们的模型都经过训练，通过理解用户的意图（交互网络）和在时间上传播对象掩码（传播网络）来细化前一轮的结果。通过使用可以从另一个网络推断出的先前估计进行估计来联合训练两个网络在每次中间预测时计算损失在每一轮中，通过模拟用户输入来合成用户输入图3显示了我们的多轮训练方案中的单个训练迭代的示例。User Scribble Synthesis. 训练交互模型的一个挑战是收集用户输入数据。对于我们的sce- nario，用户提供涂鸦作为反馈，收集大量训练数据是不可行的。相反，我们用合成生成的用户交互来训练我们的模型。在第一轮中，正面的涂鸦是从前地面区域取样的。在以下轮次中，在假阴性和假阳性区域内合成涂写，其中使用地面真实掩模计算区域。我们从假阴性区域采样阳性涂鸦，从假阳性区域采样阴性涂鸦。我们使用形态学去重化来自动生成类似于[6]的逼真的涂鸦。给定一个候选区域来采样涂鸦，我们首先通过重复二元形态学开运算来去除与主体隔离的小的错误估计。然后，我们执行掩模的去重化，以获得目标区域内的正和负涂鸦。我们使用细化算法[11]的快速实现来进行消隐。可能会引起对SIM卡之间的差距的担忧-1 2 N中间估计数：合成反馈涂鸦：交互网络：传播网络图3：我们的多轮训练方案中的单个训练迭代的示例。多轮网络前馈形成单个训练迭代，使得网络可以体验真实的测试场景并学习如何理解用户意图并更新不正确的估计。在每个中间估计处计算训练损失和真正的涂鸦。我们根据经验验证了我们用模拟用户涂鸦训练的模型可以很好地与真实用户交互，如我们的演示视频所示。图像预训练。众所周知，训练深度网络需要大量的数据。然而，由于费力的人工注释过程，带有对象掩码的视频数据是有限的。我们通过采用两阶段训练来绕过这个问题，我们的网络首先在合成图像数据上进行预训练，然后在真实视频数据上进行微调。在[28]中提出了在图像数据上训练视频分割网络的想法，并且我们遵循[26]中的数据模拟方法。该方法通过应用随机仿射变换和对象合成来产生一组参考和目标帧对该预训练类似于对视频的训练，但是时间传播限于单个步骤，因为不存在连续帧。实施详情。对于预训练，我们结合了带有对象掩码的多个图像数据集（显著对象检测在预训练之后，我们使用来自DAVIS [30]，GyGo [10]和Youtube-VOS [40]训练子集的视频数据来训练我们的网络。为了对训练数据进行采样，我们首先将视频帧的短边调整为480像素，同时保持宽高比。然后，N个连续的400× 400大小的块被…………帧第3第2第152521：当前回合：当前结果第110第2帧0第310帧帧表1：2018年DAVIS挑战赛互动赛道排行榜。根据AUC评分对条目进行排序。Scribble-OSVOS是挑战组织者提出的基线方法[6]。ing函数最终给出类似的性能。我们在实验中使用了一个简单的线性函数对于受限传播，我们传播对象掩码，直到我们到达在任何先前回合中给出用户注释的帧受限传播不仅通过防止漂移来提高精度，而且由于其需要较少的传播次数，所以还提高了运行时这图4：基于圆的测试方案。每一轮，我们通过加权平均用新的估计更新先前的对象掩模。实线和虚线分别指示用于当前估计和先前估计的掩码更新权重。权重与传播距离成反比从视频的随机位置采样，其中N是训练视频剪辑的长度。我们随机跳过帧来模拟快速运动，并且在训练期间N从4逐渐增加到8我们还使用随机仿射变换来增强所有在训练过程中，回合数也从1增加到3。损失由交叉熵函数计算，我们使用Adam优化器，固定学习率为1 e-5。使用单个NVIDIA GeForce 1080 Ti GPU进行视频数据训练大约需要5天时间。3.3. 测试方案在我们的测试过程中观察到的一个潜在问题是，传播的掩码可能比上一轮的掩码更差。这种情况尤其发生在目的地远离用户选择的帧时。我们推测，由于我们的模型是在短视频剪辑上训练的，因此长期传播可能是不稳定的。为了解决这个问题，我们从两个方面修改了我们的测试方案：持续更新和受限传播。在连续更新中，我们通过加权平均用新估计的掩码更新前一轮加权因子与传播距离成正比，并测试了不同的加权函数，如线性和高斯。我们根据经验发现不同的重量-测试方案如图所示。4.第一章4. 实验由于用户输入与分割结果直接相关，反之亦然，因此难以定量地评估交互式视频对象为了解决这个问题的评价，Caelles等人。[6]介绍了一种机器人代理服务，它根据一种算法的中间结果来模拟人类的交互我们使用他们的方法来定量评估我们的方法。4.1. 戴维斯挑战赛为了公平地将我们的方法与最先进的方法进行比较，我们在DAVIS Challenge 2018 [6]中的交互式轨道基准上评估了我们的模型。在挑战中，每种方法都可以与机器人代理进行多达8次交互，并且预计每次交互都可以在30秒内计算每个对象的掩码。每种方法的性能使用两个指标进行评估：曲线下面积（AUC）和60秒时的Jaccard（J@60s）。AUC旨在衡量评估的总体准确性。J@60在有限的时间预算（60秒）内测量精度我们在表1中总结了评价结果。在这两个指标中，我们的方法都比竞争方法有很大的优势[27]。4.2. 定性结果图5显示了我们在DAVIS Challenge 2018中与自动评估机器人进行5次交互我们的方法生成准确的分割结果，即使有多个对象实例的各种对象类型与复杂的运动。在柔软的-重量重量方法AUCJ@60我们0.6410.647Najalan等人[25日]0.5490.395Lin等0.4500.240Huang等人.0.3280.335Scribble-OSVOS0.2990.153Rakelly等人0.2690.273重量52530%25%百分之五十百分之七十五百分百图5：DAVIS-2017验证集的定性结果。所有的用户交互都由[6]提供的机器人代理在5次交互（循环）后，结果蒙版将覆盖到均匀采样的帧在视频中，我们通过真实的用户交互来记录我们的实时演示。4.3. 消融研究我们使用DAVIS-2017验证集进行消融研究，以验证我们的特征聚合模块和训练方案的有效性。具体来说，我们将完整模型与三种变体模型进行比较。NoReference是一个没有特征聚合模块的模型。在无聚合模型中，特征聚合模块被替换为没有特征聚合的简单身份连接。No Multi-Round是一个训练的模型，轮数为1（即，在每次训练时，只有一次来自用户的交互）。随着相互作用数量的增加，消融模型的Jaccard评分如图所示。六、如图6、建议多轮培训对于实现高精度，我们的特征聚合模块通过允许网络从所有先前的用户输入中提取参考信息来进一步提高性能。另一项消融研究是使用训练数据进行的。我们的完整模型首先在静态图像数据上进行预训练，然后使用视频数据进行微调。为了验证预训练的效果，我们比较了在没有预训练的情况下仅在视频数据上训练的不同模型。此外，为了进一步检查视频训练数据量的影响，我们评估了仅使用60个DAVIS-2017训练视频进行微调的变体。表2总结了使用不同训练数据集组合训练如果没有预先训练，我们的表现会明显下降。使用额外的训练视频数据进一步提高了我们的性能。多个对象单个对象5254用户注释帧在传播5帧0.700.650.600.55第一轮第二轮0.500.451 2 3 4 5相互作用次数（轮次）图6：我们在DAVIS- 2017验证集上进行消融研究的结果。我们比较模型与消融从我们的完整模型。每个变体的AUC显示在图例的方括号中。PTDV公司简介AUCJ@60sC0.5550.589CC0.6210.637CC0.6270.657CCC0.6910.734表2：我们比较了使用不同训练数据集组合训练的模型。PT：静态图像的预训练[34，7，8，12，22]。DV、GG和YV：使用[30][31][32][33][34][35][36][37][38][394.4. 失败案例虽然我们的方法在定量和定性评估方面都表现出令人满意的结果，但我们发现很少有失败的情况，如图所示。7.第一次会议。我们观察到，快速和复杂的物体运动可能会导致我们的传播网络漂移的误差积累，如图所示。7（顶部）。我们相信，一个很好的未来方向是增加一个可靠的时间传播的对象掩模的算法我们发现的另一个限制是，我们的方法在当前基于回合的场景中，在非常具有挑战性的场景中可能不太稳定。我们的方法主要是通过额外的用户交互来改善结果，但这并不能保证，如图所示。7（底部）。由于我们在每一轮只从用户那里获取部分符号，因此来自新一轮的传播掩码有时不太准确，并且不能保证我们总能从不同轮中保持更好的结果。这是因为在测试场景中没有安全装置，并且可以通过要求用户确认面罩良好以防止更新面罩来解决图7：失败案例。(top)我们的传播网络可能会遭受由于快速和复杂的对象运动的误差积累（下）我们只从用户那里获取部分注释，对用户意图的误解可能会导致使用额外注释的不稳定预测。5. 结论虽然视频中的对象分割是视频编辑的最基本任务之一，但它需要使用现有工具的大量用户努力和时间。为了使其更容易访问，我们提出了一种新的技术，生成对象分割掩模在视频帧中的用户输入最少。我们的方法由交互和传播网络，共享信息的功能aggregation模块。我们提出了针对交互式任务的多轮训练方案，它在实现高准确率方面起着关键虽然我们的模型是使用合成用户交互进行训练的，但我们的方法不仅在定量评估上表现出最佳性能，而且在真实用户交互中表现出良好的性能。有进一步改善我们制度的方向。传播过程中的漂移仍然是一个主要的挑战，尽管我们通过聚合参考特征和多轮训练大大提高了性能。我们相信，一个更好的语义理解的场景将有助于解决这个问题，通过鲁棒地链接的实例与跨视频帧的外观变化。另一个重要的未来工作是支持高分辨率视频。这是许多基于深度学习的分割算法中的常见问题之一，我们希望可以通过更好的网络架构或将我们的工作与其他后处理模块相结合来解决这个问题。确认这项工作得到了韩国政府（MSIP）资助的信息通信技术促进研究所（IITP）赠款的支持（2018-0-01858）。完成[0.691]无聚集[0.668]无参考文献[0.650]无多回合[0.560]…Jaccard（IoU）5255引用[1] A. Agarwala、A. Hertzmann，D. H. Salesin和S. M.塞茨基于关键帧的跟踪，用于旋转描记和动画。在ACMTransactions on Graphics（ToG），第23卷，第584-591页中。ACM，2004年。2[2] X. Bai，J. Wang，D. Simons和G.萨皮罗视频截图：使用局部化分类器的鲁棒视频对象剪切。ACMTransactions on Graphics（ToG），第28卷，第70页。ACM，2009年。一、二[3] A. Benard和M.吉格利交互式视频对象分割在野外。arXiv预印本arXiv：1801.00269，2017。2[4] B. 布拉特旋转镜：技术和工具的有抱负的艺术家。出版社：Focal Press，2012. 一、二[5] S. 凯尔斯，K.- K. Maninis，J. 蓬-图塞特湖Leal-Taixe'，D. Cremers和L.范古尔单镜头视频对象分割。IEEE计算机视觉与模式识别会议（CVPR）IEEE，2017年。一、二、五[6] S. Caelles，A.Montes，K.-K. Maninis，Y.陈湖，澳-地范古尔F. Perazzi和J.图塞特桥 2018年戴维斯挑战视频对象分割。arXiv预印本arXiv：1803.00557，2018。一、二、五、六、七[7] M.- M. Cheng，N. J. Mitra，X. Huang，P. H. Torr和S.-M. 胡基于全局对比度的显著区域检测。 IEEETransactionsonPatternAnalysisandMachineIntelligence，37（3）：569-582，2015。五、八[8] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：303五、八[9] Q. 范， F.Zhong ， L. 等，中国山杨 D.Lischinski 、D.Cohen-Or和B.尘跳切：视频剪切的非连续掩模传输和插值。 ACM Transactions on Graphics （ TOG ）， 34（6）：195，2015。2[10] I. 弗里德曼 I. 切姆拉， E. 索扬斯基， M. 斯捷潘诺夫I.阿法纳西耶娃湾Sharir，S. Nadir和S. 罗里希 Gygo：visualead 的电子商务视频对象分割数据集。https://github.com/ilchemla/gygo-dataset，2017. 五、八[11] Z. Guo和R. W.大厅两子迭代并行细化算法. Commun.ACM，32（3）：359-373，1989年3月5[12] B. 哈里哈兰山口阿贝湖。 Bourd ev，S. Maji和J. 马力。从反向检测器的语义轮廓。在IEEE计算机视觉国际会议（ICCV）中，第991-998页。IEEE，2011年。五、八[13] K. 他，G.吉基奥萨里山口Dollr和R.娘娘腔。面具R-CNN。IEEEInternational Conference on Computer Vision（ICCV），2017年。四、五[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 IEEE 计算机视觉和模式识别会议（CVPR），第7704[15] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。在欧洲计算机视觉会议（ECCV）中，第630-645页。施普林格，2016年。45256[16] P. Isola，J.- Y. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。arXiv预印本，2017年。3[17] M. Jaderberg ，K. Simonyan 、 A. Zisserman 等人空间Transformer网络。神经信息处理系统的进展，2017-2025页，2015年。5[18] S. D.杰恩湾Xiong和K.格劳曼Fusionseg：学习结合运动和外观，实现视频中通用对象的全自动分割。在IEEE计算机视觉和模式识别会议（CVPR），2017。2[19] 詹帕尼河Gadde和P. V. Gehler视频传播网络。IEEE计算机视觉和模式识别会议，2017年。2[20] W. Li，F.Viola，J.Starck，G.J. Brostow和N.D. 坎贝尔Roto++：使用形状流形加速专业的rotoscoping。ACMTransactions on Graphics（TOG），35（4）：62，2016.一、二[21] T.- Y. Lin，P.杜拉尔河格希克角他，B.Hariharan和S.贝隆吉用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议上，2017年7月。4[22] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Doll a'r 和 C. L. 齐特尼克Microsoftcoco：上下文中的通用对象。在欧洲计算机视觉会议（ECCV），第740-755页。Springer，2014.五、八[23] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在 IEEE 计算机视觉和模式识别会议（CVPR），第3431-3440页4[24] K.- K. Maninis、S. Caelles，Y. Chen，J. Pont-Tuset，L.Leal-Taix e′，D. Cremers和L. 范古尔。没有时间信息的视频对象分割arXiv预印本arXiv：1709.06031，2017年。2[25] M. Kulharia，T. Ajanthan和P. H. S.乇用于密集标签传输的相似性学习。2018年DAVIS视频对象分割挑战赛-CVPR工作室，2018年。6[26] S. W. 哦，杰Y. 李，K.Sunkavalli和S.J. Kim. 基于参考引导掩模传播的快速在IEEE计算机视觉和模式识别会议，2018年。二三四五[27] S. W.哦，杰Y.李，N. Xu和S. J. Kim通过深度网络进行快速用户引导的视频对象分割。2018年DAVIS视频对象分割挑战赛- CVPR研讨会，2018年。二、六[28] F. 佩拉齐 A. 霍雷瓦 R. 本纳森， B. schiele和A.索金-霍恩从静态图像中学习视频对象分割。在IEEE计算机视觉和模式识别会议，2017。一、二、四、五[29] P. O. P i nheiro，T.- Y. 林河，巴西-地Collobert和P. 娃娃。学习细化对象分段。欧洲计算机视觉会议（ECCV），第75-91页。施普林格，2016年。4[30] J. Pont-T uset，F. Perazzi，S. 卡勒山口 Arbel a'ez，A.Sorkine-Hornung和L.范古尔2017年戴维斯视频对象分割挑战赛。arXiv：1704.00675，2017。五、八5257[31] B. L.普莱斯湾S. Morse和S.科恩Livecut：基于学习的交互式视频分割，通过评估多个传播线索 .IEEEInternationalConferenceonComputerVision（ICCV），第779-786页。IEEE，2009年。一、二[32] P. Sangkloy ， J. Lu ， C. Fang ， F. Yu 和 J. Hays.Scribbler：使用草图和颜色控制深度图像合成。在IEEE计算机视觉和模式识别会议，第2卷，2017年。3[33] N. Shankar Nagaraja，F. R. Schmidt和T.布洛克斯视频分割只需几笔。IEEEInternational Conference on ComputerVision（ICCV），第3235-3243页，2015年。2[34] J. 施角，意-地延湖，澳-地Xu和J.贾基于扩展cssd的分层图像 IEEE Transactions on Pattern Analysis andMachine Intelligence，38（4）：717-729，2016。五、八[35] P. 托克马科夫河Alahari和C.施密特利用视觉记忆学习视频在IEEE计算机视觉和模式识别会议（CVPR），2017。一、二[36] P.Voigtlaender和B. Leibe用于视频对象分割的卷积神经网络的在线自适应。2017年英国机器视觉会议。2[37] J. Wang，P. Bhat，R. A. Colburn，M. Agrawala和M. F.科恩互动视频剪辑。在ACM Transactions on Graphics（ToG），第24卷，第585ACM，2005年。一、二[38] N. 徐湾，澳-地Price，S.Cohen，J.Yang和T.煌用于对象选择的深arXiv预印本arXiv：1707.00243，2017。2[39] N.徐湾，澳-地Price，S. Cohen，J. Yang，and T. S.煌深度交互式对象选择。在IEEE计算机视觉和模式识别会议（CVPR）中，第373- 381页，2016年。二、四[40] N. 许湖，加-地Yang，杨氏D.Yue，J.扬湾，澳-地Price，J.Yang，S.科恩Y. 范，Y。Liang和T.煌Youtube-vos：序列到序列视频对象分割。在欧洲计算机视觉会议（ECCV），2018年。五、八[41] L. Yang，Y.Wang，X.Xiong，J.Yang和A.K. 卡萨格洛斯通过网络调制的高效视频对象分割在IEEE计算机视觉和模式识别会议，2018年。3[42] J. S. Yoon，F.作者：J. Kim，S.李，S。申，和我。S.奎恩使用卷积神经网络进行视频对象分割的像素级匹配。IEEEInternationalConferenceonComputerVision（ICCV），2017年。3[43] R. 张杰-Y. Zhu、P.伊索拉岛X.Geng，中国茶条A.S. Lin，T.Yu和A. A.埃夫罗斯实时用户引导的图像彩色化与学习的深度先验。ACM Transactions on Graphics（TOG），36（4）：119，2017。3[44] F. Zhong，X.秦，越-地彭，还有X。孟中断感知视频对象剪切。ACM Transactions on Graphics（TOG），31（6）：175，2012。2

下载后可阅读完整内容，剩余1页未读，立即下载