没有合适的资源?快使用搜索试试~ 我知道了~
1单镜头视频对象分割S. Caelle s1,*K.- K. Manini s1,J. Pont-T uset1L. Leal-T aixe'2D. Cremer s2L. VanGool11ETHZ ürich2TUM ünchen图1.我们的技术的示例结果:第一帧(红色)的分割用于学习要跟踪的特定对象的模型,该模型在其余帧中独立分割(绿色)。每20帧显示一个,总共90个。摘要本文研究了半监督视频对象分割的问题,即,在给定第一帧的遮罩的情况下,将视频中的对象与背景分离。我们提出了基于全卷积神经网络架构的One-ShotVideo Object Segmentation(OSVOS),该架构能够将在ImageNet上学习的通用语义信息连续传输到前景分割任务虽然所有帧都是独立处理的,但结果在时间上是一致和稳定的。我们在两个带注释的视频分割数据库上进行了实验,结果表明OSVOS速度快,并且显著提高了最新技术水平(79.8% vs68.0%)。1. 介绍在经过训练的网络…卷积神经网络(CNN)正在使计算机视觉的许多领域发生革命。例如,它们极大地提高了图像分类[24,47,19]和对象检测[15,14,26]等问题的性能。图像分割最近也被CNN接管 [29,23,51,3,4],深度架构在ImageNet上对图像分类的弱相关任务进行了预训练[44]。深度网络方法的一个主要缺点是它们对训练数据的渴望。然而,对于各种预先训练的网络架构,人们可能会问,对于手头的特定问题,我们真正需要多少训练数据?本文研究了当我们只有一个标记的训练样本时,沿着整个视频分割对象,例如。第一帧。*前两位作者贡献相等...到单镜头视频对象分割本文提出了单镜头视频对象分割(OSVOS),一个CNN架构,以解决半监督视频对象分割的问题,也就是说,视频序列的所有像素分为背景和前景的分类,给 定 其 一 个 ( 或 多 个 ) 帧 的 手 动 注 释 图1 显 示 了OSVOS的示例结果,其中输入是第一帧的分割(红色),输出是序列的90帧中的对象的掩码(绿色)。本文的第一个贡献是在给定单个注释图像(因此是单次)的情况下,使CNN为此,我们将在图像识别[44]上预训练的CNN用于视频对象分割。这是通过在一组具有手动分割对象的视频上训练它来实现的。最后,在测试时对在单个帧中手动分割的特定对象图2示出了该方法的概述。我们的建议符合以下观察结果,即利用这些不同级别的信息来执行对象分割是合理的:从大量类别的一般语义信息,经过对象的通常形状的知识,下至我们感兴趣的特定对象的具体特性,进行分割。本文的第二个贡献是OSVOS独立地处理视频的每一帧,作为副产品而不是作为明确施加的昂贵约束的结果来获得时间一致性换句话说,我们将视频对象分割作为每帧分割问题,给定来自一个(或多个)手动分割帧的对象的模型这与占主导地位的方法相反,在这种方法中,时间一致性起着核心作用,假设对象在一个帧和下一个帧之间不会改变太多。这种方法可以在整个过程中平滑地调整其单帧模型221222图2. OSVOS概述:(1)我们从一个预训练的基础CNN开始,用于ImageNet上的图像标记;它在分割方面的结果虽然符合某些图像特征,但并不有用。(2)然后我们在DAVIS的训练集上训练一个父网络;分割结果得到改善,但还没有集中在特定对象上。(3)通过在单个帧中微调特定目标对象的分割示例,网络可以快速聚焦于该目标。视频寻找其形状和外观在连续帧中逐渐变化的目标,但是当这些约束不适用时失败,不能从诸如遮挡和突然运动的相对常见的情况中恢复。在这种情况下,运动估计已经成为最先进的视频分割算法的关键成分[49,42,17]。开发它不是一个微不足道的任务,无论如何,作为一个人,例如。必须以光流或密集轨迹的形式计算时间匹配[5],这可能是一个更难的问题。我们认为,时间的一致性是需要在过去,因为人们必须克服的主要缺点,然后不准确的形状或外观模型。另一方面,在本文中,深度学习将被证明可以提供目标对象的足够精确的模型,即使在独立处理每帧时也可以产生暂时稳定的结果。这有一些天然的优势:OSVOS能够通过遮挡来分割对象,它不限于某些运动范围,它不需要顺序地处理帧,并且错误不会在时间上传播。在实践中,这允许OSVOS处理例如。监控场景的交错视频,摄像头在重新打开之前可能会失明一段时间。我们的第三个贡献是OSVOS可以在速度和准确性之间的权衡的各种点上工作。 在这个意义上,它可以通过两种方式进行调整。首先,给定一个注释帧,用户可以选择OSVOS的微调水平,使他/她在更快的方法或更准确的结果之间自由选择。实验表明,OSVOS可以运行在每帧181毫秒和71.5%的准确率,并高达79.7%时,处理每帧在7.83 S.第二,用户可以注释更多的帧,当前分割不太令人满意的那些帧,OSVOS将在这些帧上细化结果。我们在实验中表明,结果确实随着更多的监督而逐渐改善,每个序列有两个注释帧的情况下达到84.6%的出色水平,而四个注释帧的情况下达到86.9%,而一个注释的情况下为79.8%。从技术上讲,我们采用了全卷积网络(FCN)[12,27]的架构,适用于密集预测。由于其在准确性和计算效率方面的性能,FCNs最近变得流行[27,8,9]。可以说,在分割方面,FCN的致命弱点是较深层的粗尺度,这导致不准确的局部预测。为了克服这一点,来自不同领域的大量作品使用较大特征图的跳过连接[27,18,51,30]或可学习的过滤器来改善向上扩展[34,52]。据我们所知,这项工作是第一次使用FCNs的视频分割任务。我们在两个视频对象分割数据集(DAVIS [37]和Youtube-Objects [41,20])上进行了实验,结果表明OSVOS显着提高了79.8%与68.0%的最新水平。 我们的技术能够处理DAVIS帧(480×854像素),102 ms。通过提高监管水平,OSVOS可以进一步提高其再结果为86.9%,每个序列只有四个注释帧,从而提供了一个大大加速的rotoscope工具。本文的所有资源,包括训练和测试代码、预先计算的 结 果 和 预 先 训 练 的 模 型 , 都 可 以 在www.vision.ee.ethz.ch/上公开获得cvlsegmentation/osvos/.2. 相关工作视频对象分割和跟踪:当前大多数关于半监督视频对象分割的文献都强制视频序列中的时间一致性以将初始掩码传播到后续帧中。 首先,为了降低计算复杂度,一些作品使用超像素[6,17],补丁[42,11]或evenobjectproposals[38]。 Maürki等。[33]将问题置于双边空间,以便更有效地解决问题。在此之后,通常执行使用先前像素聚合之一的优化;它可以考虑完整的视频序列[38,33],测试网络在测试序列的帧1上进行微调父网络在DAVIS培训集上接受培训基础网络在ImageNet上预先训练测试序列帧N上的结果223帧[17],或者仅帧n中的结果以获得n+1[42,6,11]中的作为其流水线的一部分,一些方法包括光流的计算[17,42],这大大降低了速度。并行工作还使用深度学习来解决视频对象分割。MaskTrack [22]学习通过使用前一帧的检测以及光流和CRF的后处理逐帧细化检测到的掩模。在[21]中,作者将CNN的训练与双边过滤的与这些方法不同的是,OSVOS是一种更简单的流水线,它独立地分割每个帧,并产生更准确的结果,同时也显着更快。在视觉跟踪(边界框而不是分割)的情况下,Nam和Han [32]使用CNN来学习要跟踪的对象的表示,但仅用于查看对于给定帧n中的对象的帧n+1中的最相似窗口。相比之下,我们的CNN从第1帧学习单个模型,并从该模型中分割其余帧用于分割的FCN:在过去的几年里,细分研究一直密切关注CNN的创新思想。在图像识别[24,47,19]中观察到的进步有利于多种形式的分割(语义[27,34],实例级[14,39,8],生物医学[43],通用[29]等)。目前许多表现最好的方法都有一个共同的深层架构,通常在ImageNet上预先训练,可端到端训练。使用CNN进行密集预测的想法由[12]开创,并由[27]以完全卷积网络(FCN)的形式制定作者注意到,通过改变最后一个完全连接的层到1×1卷积,可以通过预测相应大小的图像来产出他们的方法比基于补丁的方法提高了效率,其中需要在重叠补丁中执行冗余计算。更重要的是,通过重新移动参数密集型全连接层,可训练参数的数量显着下降,便于使用相对较少的标记数据进行训练。在大多数CNN架构中[24,47,19],由于空间池化操作或具有步幅的卷积,中间层的激活大小逐渐减小。从下采样的激活进行密集预测会导致粗略定位的输出[27]。在[34,52]中使用了学习如何上采样的解卷积层。在[39]中,来自浅层的激活逐渐被注入到预测中,以有利于局部化。然而,这些架构具有更多的可训练参数,并且它们的使用仅限于具有足够数据的情况。根据FCNs的思想,Xie和Tu [51]分别监督深度网络的中间层进行轮廓检测。多尺度轮廓和分层分割[1,40]之间的二元性进一步研究,Maninis等人[29]通过将CNN引入通用图像分割领域在这项工作中,我们将探索如何训练FCN,以基于非常有限的注释进行准确的本地化密集预测:单个分段帧。3. One-Shot深度学习让我们假设人们想要分割视频中的对象,对于该对象,唯一可用的信息片段是其在一帧中的前景/背景分割。实际上,可以分析实体,创建模型,并在其余帧中搜索它。对于人类来说,这种非常有限的信息量是绰绰有余的,外观、形状、遮挡等方面的变化不会构成重大挑战,因为我们利用强大的先验:首先是“它是一个物体”,然后是“它是这个特定的物体”。我们的方法受到了这种逐步细化的启发。我们训练了一个全卷积神经网络(FCN)的二进制分类任务,从背景中分离的前地对象 我们使用两个连续的训练步骤:首先,我们离线训练大量的对象,以构建一个能够区分前景对象的一般概念的模型,即“Itis an然后,在测试时,我们对网络进行微调,针对我们旨在分割的特定实例进行少量迭代,即, 我们的方法概述如图2所示。3.1. 端到端可训练前台FCN理想情况下,我们希望CNN架构满足以下标准:1. 准确定位分割输出,如第2节所述。2. 从有限数量的注释数据中训练相对较少的参数。3. 相对较快的测试时间。我们从[30]的CNN架构中获得灵感,该架构最初用于生物医学图像分割。它基于VGG [47]网络,修改为精确的局部密集预测(点1)。去除分类所需的全连接层(点2),并且执行有效的图像到图像推断(点3)。VGG 架 构 由 分 组 为 5 级 的 卷 积 加 整 流 线 性 单 元(ReLU)层的组组成。在这两个阶段之间,随着我们深入网络,池化操作会缩小特征图我们连接卷积层以形成来自每个阶段的最后一层(在池化之前)的单独跳过路径。升级操作在必要时进行,并且来自单独路径的特征图被连接以构建具有来自不同细节级别的信息的我们将特征映射线性融合到一个与图像具有相同维度的输出中,并分配损失224功能到它。所提出的架构如图4(1)所示,前台分支。在这种情况下,用于二进制分类的逐像素交叉熵损失(我们保留Xie和Tu的符号[51])定义为:ΣL(W)=−yjlog gP(yj=1|X;W)+(1−yj)log(1−P(yj=1|X;W)J图3. 微调的定性演变:每个序列10秒和1分钟时的结果。Σ=−logP(yj=1|X;W)−Σlog P(yj =0 |X;W)质量和时间之间的权衡:迭代次数越多,j∈Y+j∈Y−允许技术学习,效果越好,但时间越长其中W是CNN的标准可训练参数,X是输入图像,yj∈0,1,j=1,., |X|是X的pixel-wise二进制标记,Y+和Y-是正的和n个标记的pixel。P(·)通过将S形应用于最终层的激活来获得为了处理两个二进制类之间的不平衡,Xie和Tu [51]提出了成本函数的修改版本,最初用于轮廓检测(为了可读性,我们去掉了W用户必须等待结果。 后者不依赖于训练时间:OSVOS能够在102 ms内分割每个480p帧(480×854)。关于微调时间,我们提出了两个不同的-输入模式:可以需要在线微调,通过分割帧并等待整个序列中的结果,或者离线,预先访问要分割的对象特别是在前一种模式下,需要控制专门用于训练的时间量Lmod=−β Σlog P(yj =1 |X)−(1−β)ΣlogP(yj=0|十)、(一)分配用于微调的时间越长,用户等待的时间越长,结果越好。 为了探索这种权衡,j∈Y+j∈Y−在我们的实验中,我们训练了10秒,其中β=|Y−|/|Y|. 等式1所有的训练都用于不平衡的二元任务[23,51,29,30]。3.2. 培训详情线下培训:我们架构的基本CNN [47]是在ImageNet上预训练的,用于图像标记,这已被证明是对其他任务的非常好的初始化[27,51,23,29,18,52]。在没有进一步训练的情况下,网络不能够执行分段,如图2(1)所示。我们将此网络称为因此,我们进一步在DAVIS训练集的二进制掩码上训练网络,以学习如何将对象从其背景,其通常形状等中分割出来的一般概念。我们使用随机梯度下降(SGD)的动量0.9为50000次迭代。我们通过镜像和放大来增加数据。学习速率被设置为10- 8,并且逐渐减小。在离线训练之后,网络学习从背景中分割前景对象,如图2(2)所示我们指这个网络称为在线培训/测试:有了父网络,我们可以继续我们的主要任务(图2(3)中的“测试网络“):在给定图像和第一帧分割的情况下,分割视频中的特定实体。我们通过进一步训练(微调)特定图像/地面实况对的父因此,我们的方法的定时受到两个时间的影响:微调时间(每个带注释的掩模一次)和所有帧的分段(每个帧一次)。在前者,我们有一个每个序列10分钟。图3示出了取决于允许微调的时间的结果质量的演变的定性示例在实验部分中,图8量化了这种变化。消融分析表明,离线和在线培训对于良好的表现至关重要:如果我们直接从ImageNet模型执行在线训练,性能会显著下降。仅放弃针对特定对象的在线训练也会产生明显更差的性能,如图2(2)所示。3.3. 轮廓捕捉在图像分类领域[24,47,19],我们的基础网络是在这里设计和训练的,空间不变性是一种设计选择:无论对象出现在图像中的何处,分类结果都应该相同。这与我们在(视频)对象分割中期望的对象轮廓尽管使用跳过连接[27,18,51,30]来最小化空间精度的损失,但我们观察到OSVOS我们提出了两种不同的策略,以改善在这方面的结果。首先,我们建议使用快速双边求解器(FBS)[2]将背景预测与图像边缘对齐。它在五维颜色位置空间中执行高斯平滑,这导致保留图像边缘这在实践中是有用的因为它是快速的(每帧60毫秒),并且它是可区分的,因此它可以被包括在端到端可训练的深度学习中。225前台分支特定对象-轮廓不太精确边界捕捉将前景蒙版捕捉到精确的轮廓轮廓分支精确轮廓-通用对象图4. 双流FCN架构:主要前景分支(1)由轮廓分支(2)补充,轮廓分支(2)改进边界(3)的定位。建筑学然而,这种方法的缺点是它保留了原始的图像梯度,即。颜色通道中具有高欧几里德差异的像素为了克服这一限制,我们的第二种方法将结果捕捉到学习的轮廓,而不是简单的图像图形。为此,我们提出了一个互补的CNN在第二分支,这是训练检测对象轮廓。所提出的架构如图4所示:(1)示出了主要前景分支,其中前景像素被估计;(2)示出轮廓分支,其检测场景中的所有轮廓(不仅仅是前景对象的轮廓)。这允许我们离线训练,而不需要在线微调特定示例。我们在这两个分支中使用了完全相同的架构,但是针对不同的损失进行了培训。我们注意到,为两个任务联合训练一个具有共享层的网络会降低获得的结果,因此我们保持了两个对象的计算这允许我们仅离线训练轮廓分支,因此不会影响在线计时。由于轮廓需要高召回率,因此我们在PASCAL-Context[31]数据库上进行训练,该数据库为图像的整个场景提供轮廓注释。最后,在边界捕捉步骤(图4(3))中,我们通过超测量轮廓图(UCM)[1,40]计算与计算轮廓(2)对齐的超像素,我们将其设定为低值。然后,我们采用一个前置掩码(1),并通过多数选择来选择超像素4. 实验验证数据库、最新技术和措施:我们实验的主要部分是在最近发布的DAVIS数据库[ 37 ]上完成的,该数据库由50个全高清视频序列组成,所有帧都用像素分割,水平精度。我们使用三种措施:区域相似性在交集(J)、轮廓精度(F)和掩模的时间不稳定性(T)方面。所有评估结果都是在DAVIS的验证集上计算的。我们比较了大量最先进的方法,包括两种最新的半监督技术,OFL [49],BVS [33],以及最初在DAVIS基 准 上 比 较 的 方 法 : [2019 - 04 - 18][2019 - 04 -19][2019 - 04][2019 - 19][201 我们还添加了非监督技术:FST [36],SAL [46],KEY [25],MSG [5],TRC[13],CVOS [48]和NLC [10]。我们增加了两个信息边界:预言机通过从两个分割对象中选择最佳分割对象建议而达到的质量最先进的技术(COB [29]和MCG [40]),并通过从COB(COB)中选择最佳超像素|SP)。为了完整 我们也在Youtube[41],由Jain和Grau- man手动分割[20]。 我们比较OFL[49],BVS [33],LTV [35],[2019-05 -16][2019 - 05 - 16][2019 - 05][2019 - 05 -16][2019 - 05][2019 - 05 -05][2019 - 05 - 05][2019 -05][2019 - 05 - 05]从以前的工作预先计算的评估结果。DAVIS消融研究:为了分析和量化我们算法中每个建议模块的重要性和需求,表1显示了OSVOS与没有每个构建模块的消融版本相比的评估。每列显示:原始方法没有边界捕捉(-BS),没有在DAVIS上预训练父网络(-PN),或者没有在特定序列上执行一次性学习(-OS)。我们以较小的斜体字体显示了相对于我们最终方法的每个指标的损失(蓝色)或增益(红色)我们可以看到,父网络的预训练和一次性学习都发挥了重要作用(我们失去了15。2和27。3分,分别 在 J 中 没 有 它 们 去 除 两 者 , 即 ,使 用ImagenetrawCNN,分割的结果(J=17. (6%)完全随机边界捕捉将增加2。4个点的IM-ing(与前景蒙版重叠超过50%的区域)以形成最终的前景分割。在第二种情况下,我们以准确性换取速度,因为捕捉过程需要更长的时间(每帧需要400ms而不是60这两个细化过程导致性能的进一步提升,并且是完全模块化的,这意味着根据要求,人们可以选择不使用它们,牺牲执行时间的准确性,因为这两个模块都带有一个小的,但可以避免的计算开销。测量我们的-BS-PN-BS-OS-BS- PN-OS-BS平均M↑79.877.42.464.615.252.527.317.662.2回忆O ↑93.691.02.670.523.257.735.92.3衰变D ↓14.917.42.527.813.0−1.916.71.813.1平均M↑80.678.12.566.713.947.732.920.360.4F回忆O↑92.692.00.674.418.347.9 44.72.4衰变D ↓15.019.44.526.4 11.40.6 14.32.4 12.6T平均值M ↓37.633.54.060.923.353.816.246.08.4表1. DAVIS消融研究:OSVOS与没有其某些组件的降级版本的比较。J226半监督无监督边界测量我们的 OFL BVS FCP JMP HVS SEA TSP FST NLC MSG KEY CVOS TRC SAL COB|SP COB MCG平均M↑79岁。868岁0六十岁。0五十八4五十七0五十四650块431岁九点五十五。855153349八点四十八。 247339岁386579.3707回忆O ↑九十三675. 666岁。9七十一562. 661岁4五十三1三十064九点五十五。8 61。6591540493三十096594491. 7衰变D ↓十四岁9二十六岁428岁9-2。039岁423岁六点三十六4三十八岁。10. 01262. 四点十四110. 五点八36. 九点二83.21. 3平均M↑八十663岁4五十八8四十九2五十三152岁9四十八029岁751岁152350八点四十二七点四十四七点四十四1三十四487. 一百七十五。七六二。9F回忆O↑92. 6七十467岁9四十九5五十四261岁0四十六岁。323岁051岁651岁9600375526436十五岁492.488.576. 7衰变D ↓十五岁0二十七岁221岁3-1。1三十八岁。4二十二岁七点三十四5三十五七点二9点 11分。四点五110. 六点十一分七点十二分。九点四3二、33 .第三章。91. 9不平均M↓三十七621岁7三十四529岁6十五岁3三十五0十四岁九点四十一234341岁429. 一百二十五2244376六十四1二十七岁444.1698表2.DAVIS验证:OSVOS与最新技术和实际界限。-BS我们0 20FP-关闭40 60 80 100FP-Far FN联系我们OFL BVS FCP JMP HVS SEAAC80.6 −1.256.617.648.617.652.88.652.47.041.420.443.211.1DB 74.36.544.327.931.933.053.45.940.719.142.913.931.122.7FM 76.55.149.628.244.823.350.711.945.218.034.531.030.930.1MB 73.711.055.522.853.711.550.913.650.911.142.322.539.320.3OCC77.23.767.31.067.3 - 10.449.213.245.116.948.78.538.217.5表3.基于属性的性能:技术质量-图5.我们的方法的错误分析:错误分为假阳性(FP-关闭和FP-远)和假阴性(FN)。值是相对于-BS情况下的误差的总误差像素。证明,并且比传统方法更快,例如在分割的顶部添加CRF [7]。图5通过将OSVOS产生的错误分为假阳性(FP)和假阴性(FN),进一步分析了OSVOS产生的错误类型(有和没有边界捕捉)。FP被进一步划分为近距离和远距离,设置距离对象20像素的划分。我们可以观察到,大多数错误来自假阴性。边界捕捉主要减少误报,包括靠近边界的误报(更准确的轮廓)和远离对象的虚假检测,因为它们不与训练的通用轮廓对齐。与DAVIS最新技术水平的比较:表2将OSVOS与现有技术的其余部分进行了比较。 在区域相似性J方面,OSVOS为11。比SEC高出8个百分点第二名最佳技术和19. 8、第三个最好的 在轮廓精度F方面,OSVOS为17。2和21。8点以上在具有特定属性的序列上的质量以及在没有该属性的序列中相对于该质量的增益(以斜体和较小的字体)。[37]见《易经》中的卦。最先进的技术。OSVOS在大多数序列中具有最佳性能结果是特别令人印象深刻的序列,如漂移,芝加哥或Bmx树,其中大多数技术,niques失败。图7显示了这两个序列的定性结果。在第一排,问题特别具有挑战性,因为烟雾和汽车的初始尺寸很小。在第二行,OSVOS在这种情况下,当骑车人被遮挡时,OSVOS失去了对他的跟踪,但当他再次可见时,OSVOS恢复其余的技术由于严重的遮挡而丢失了对象。训练图像数量(父网络):为了评估重新训练parent网络需要多少注释数据,表4显示了使用DAVIS训练集子集时OSVOS(- BS)的性能。我们在每个视频中随机选择了一个固定百分比的注释帧。我们得出结论,仅使用~200年-他们 我们的结果比用一个ORA-cle从最先进的对象建议COB中选择最佳对象建议。即使oracle将选择最佳的超像素集 合 来形成每个掩模(COB |SP),OSVOS只有6个。7点以下。表3显示了关于DAVIS数据集中注释的不同属性的评价,通过比较方法对具有给定属性(挑战)的序列的性能与对不具有给定属性的序列的性能。OSVOS在所有属性上都具有最佳性能,并且它对这些挑战具有显著的弹性(当属性存在时,性能下降最小-斜体数字)。图6示出了每个序列的结果,J227培训数据100 200 600 10002079质量(J)74.6七十六点九77.2 77.3 77.4表4. 训练数据量:区域相似性(J)是训练图像数量的函数。完整的戴维斯是2079年。通过使用指定帧,我们能够达到与使用完整DAVIS训练分割时几乎相同的性能,因此不需要用于训练过程的完整视频注释。时间:视频对象分割的计算效率对于算法在实践中的可用性至关重要。OSVOS可以适应不同的时间要求,时间越长,效果越好228-OS-BS我们-BS我们的预[33]第三十三话HVS [17]海[42]JMP [11]OFL [49]1.9.80.7我们的[49]第四十九话[33]第三十三话FCP [38].4JMP [11].3HVS [17].2海[42].1[6]第六话0图6. DAVIS确认:区域相似性的每个序列结果(J)。图7.定性结果:第一行,一个特别困难的序列,OSVOS分割得很好。第二排,OSVOS我们可以通过让微调算法在测试时进行更多或更少的迭代来负担。为了显示这种行为,图8显示了处理每个480p帧所需如前所述,OSVOS我们评估的第一种模式是-OS-BS(),在这种模式下,我们不对特定序列进行微调,因此直接使用在这种情况下,质量不是很好(尽管与以前的一些技术相当),但我们只需要对每帧进行CNN的前向传递。.8.7.6.5.1110每帧时间(s)图8. 质量与时间:相对于每帧处理时间的区域相似性。为了考虑微调时间,我们可以考虑两种情况。第一,我们的()或-BS()我们在该序列的长度这样,曲线显示了相对于微调时间的质量增益,加上每帧上的前向传递。使用与消融研究中相同的符号,两条不同的曲线表示我们是否不执行边界捕捉(-BS)或“学”就是“学”,就是“学”。更好的结果是以增加捕捉成本为代价的,因此根据所需的速度,可以选择两者之一。由于OSVOS独立地处理帧,因此也可以离线执行微调,通过预先对要分割的对象的图片进行训练(例如,在比赛前拍一张赛马的照片在这种情况下,OSVOS可以通过CNN的一次前向传递(Ours Pre,-BSPre)来处理每个帧,因此速度相当快。与其他技术相比,OSVOS在所有状态下都更快和/或更准确,从快速模式开始:74岁七对六十。0的BVS(),400 ms,和79. 八对六十八。0在较低速度下的OFL()。结果的细化:我们的技术的另一个优点是,我们可以自然地以更多注释的框架的形式纳入更多的监督。例如,在生产环境中,人们需要一定的质量,低于该质量的结果是不可用的。在这种情况下,OSVOS可以提供一个带注释的帧的结果,然后操作者可以决定质量是否足够好,如果不是,则分割另一帧。然后,OSVOS可以将这些知识纳入进一步微调结果。为了模拟这种情况,我们将结果与N人-通过注释,选择OSVOS表现较差的帧,类似于操作员的操作,即。选择结果不令人满意的帧;并将地面实况注释添加到微调中。表5显示了添加更多注释时质量的演变(0表示我们直接测试父网络即零发射)。我们可以看到,从一个注释到两个注释,质量显著提高,在大约区域相似性(J)漂移希坎Bmx树229注释0 1 2 3 4 5全部质量(J)58.5 79.8 84.6 85.9 86.9 87.5 88.7表5. 渐进式精炼:根据OSVOS训练的带注释帧的数量实现的质量。重叠0.5 0.6 0.7 0.8 0.9我们的78.2七十二二65.8五十九点四四十九点六MDNET [32]66.457.843.429.5十四点七表6. 作为追踪器的评估:在不同重叠级别上与地面实况匹配的边界框的百分比。类别我们的OFL JFSBVSSCFAFSFSTHBTLTV飞机88.2 89.9 89.0 86.8 86.3 79.9 70.9 73.6 13.7(a) 带注释的帧0(c)第88(e)第46伯德85.7 84.2 81.6 80.9 81.0 78.4 70.6 56.1 12.2船77.5 74.0 74.2 65.1 68.6 60.1 42.5 57.8 10.8汽车79.6 80.9 70.9 68.7 69.4 64.4 65.2 33.9 23.7分类70.8 68.3 67.7 55.9 58.9 50.4 52.1 30.5 18.6奶牛77.8 79.8 79.1 69.9 68.6 65.7 44.5 41.8 16.3(b)结果帧35(d)结果帧35(f)结果帧35狗81.3 76.6 70.3 68.5 61.8 54.2 65.3 36.8 18.0马72.8 72.6 67.8 58.9 54.0 50.8 53.5 44.3 11.5摩托车73.5 73.7 61.5 60.5 60.9 58.3 44.2 48.9 10.6火车75.7 76.3 78.2 65.2 66.3 62.4 29.6 39.2 19.6图9.定性增量结果:在帧0、88和46被注释之后,帧35上的分割得到改善。五作为对OSVOS上限的度量,我们对所有带注释的帧进行了微调,并对相同的帧进行了测试(最后一列),这确实向我们表明,五个带注释的帧几乎最大限度地利用了这个架构。图9显示了该过程的定性示例,其中用户注释了帧0,其中只有一个camel可见(a)。在第35帧中,OSVOS还分割出现的第二骆驼(b),其具有几乎完全相同的这可以通过注释另外两个帧88(c)和46(e)来解决(f),这允许OSVOS学习这两个极其相似的对象之间的差异,即使不考虑时间一致性。作为追踪器的评估:视频对象分割也可以通过计算每个分割周围的边界框来评估为视觉对象跟踪(VOT)[28]算法。我们与2015年VOT挑战赛的获胜者进行比较[28]:MDNET [32]。由于我们无 法在VOT Chal-lenge的原始数据集中进行比较(地面实况对象未被分割,因此我们无法对其进行表6显示了来自每种技术的边界框的百分比,这些边界框与高于不同阈值的地面实况边界框具有交集阈值越高,就越需要与地面实况对齐。我们可以看到,OSVOS作为跟踪器在所有机制下都比MDNET具有显著更好的结果,在更高的阈值下具有更多的裕度。Youtube-Objects上的结果:为了完整性,我们还对Youtube对象进行了实验[41,20],其中我们采用了其他论文中预先计算的评估。表7显示,我们的表现略好于现有技术的OFL,后者明显较慢,尽管该数据库中的序列具有明显更少的occlu。平均值78.3 77.6 74.0 68.0 67.6 62.5 53.8 46.3 15.5表7. Youtube-Objects评估:每个类别的平均交叉超过愈合(J)。与DAVIS相比,DAVIS更倾向于使用增强时间一致性的技术。5. 结论深度学习方法通常需要大量的训练数据来解决特定的问题,例如分割视频中的对象。与此相反,人类观察者可以只用一个训练样本就解决类似的问题在本文中,我们证明了可以在机器中重现这种一次性学习的能力:基于在通用数据集上预训练的网络架构,我们提出了一次视频对象分割(OSVOS)作为一种方法,该方法仅在一个训练样本上对其进行微调,随后在DAVIS上的表现优于最先进的11.8个点。有趣的是,我们的方法不需要使用光流算法或时间平滑的时间一致性的显式建模,因此不会随着时间的推移发生误差传播(漂移)。相反,OSVOS独立处理视频的每一帧,并产生高度准确和时间一致的分割。本文的所有资源都可以在www.vision.ee.ethz.ch/上找到分割/osvos/鸣谢:欧盟研究和创新地平线2020框架计划资助的研究(批准号:645331,EurEyeCase)、瑞士技术和创新 委 员 会 ( CTI , 批 准 号 : 19015.1 PFES-ES ,NeGeVA)和ERC整合者补助金“3D整合”。作者感谢armasuisse的支持,并感谢NVidia公司捐赠本项目中使用的GPU。230引用[1] P. 阿尔贝尔·阿埃斯,M. 迈尔角 Fowl k es和J. 马利克轮廓检测与分层图像分割。TPAMI,33(5):898-916,2011. 三、五[2] J. T. Barron和B.浦耳快速双边求解器。在ECCV,2016年。4[3] G. Bertasius,J.Shi和L.托雷萨尼高换低和低换高:从深层目标特征中有效地检测边界及其在高级视觉中的应用。在ICCV,2015年。1[4] G. Bertasius,J.Shi和L.托雷萨尼边界神经场语义分割在CVPR,2016年。1[5] T.布洛克斯和J·马利克通过点轨迹的长期分析的对象分割。ECCV,2010年。二、五[6] J. 张氏D.Wei和J.W. 费希尔三世使用时间超像素的视频表示CVPR,2013。二三五七[7] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。使用深度卷积网络和全连接CRF进行语义图像分割。2015年,国际会议。 6[8] J. Dai,K.他,Y. Li,S. Ren和J. Sun.实例敏感的全卷积网络。在ECCV,2016年。二、三[9] J. 戴,Y.Li,K.He和J.太阳R-FCN:通过基于区域的全卷积网络进行对象检测在NIPS,2016年。2[10] A. Faktor和M.伊拉尼基于非局部一致性投票的视频分割。InBMVC,2014. 5[11] Q. 范 , F.Zhong , L. 等 , 中 国 山 杨 D.Lischinski 、D.Cohen-Or和B.尘跳切:视频剪切的非连续掩模传输和插值ACM事务处理图表,34(6),2015. 二三五七[12] C.法拉贝特角库普里湖Najman和Y.乐存。学习用于场景标注的分层特征TPAMI,35(8):1915二、三[13] K. Fragkiadaki,G.zhang和J.石通过跟踪轨迹嵌入中的不连续性来进行视频分割CVPR,2012。5[14] R.娘娘腔。快速R-CNN。在ICCV,2015年。第1、3条[15] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。CVPR,2014。1[16] M. Godec,P. M. Roth和H.比肖夫基于Hough的非刚性物体跟踪。CVIU,117(10):1245-1256,2013。5[17] M. Grundmann,V. Kwatra,M.汉和我A.艾萨高效的基于层次图的视频分割。CVPR,2010。二三五七[18] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作r列。CVPR,2015。二、四[19] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。一、三、四[20] S. D. Jain和K.格劳曼视频中的超体素一致前地传播。2014年,在ECCV。二、五、八[21] 詹 帕 尼 河 Gadde 和 P. V. Gehler 视 频 传 播 网 络 。 在CVPR,2017年。3[22] A. 霍雷瓦 F. 佩拉齐 R. 本纳森, B. schiele和A.索金-霍恩从静态图像中学习视频对象分割。在CVPR,2017年。3[23] I. Kokkinos使用深度学习推动边界检测的边界。ICLR,2016年。1、4[24] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功