没有合适的资源?快使用搜索试试~ 我知道了~
5849基于卷积三叉神经网络的张元东高丽大学wdjang@mcl.korea.ac.kr昌洙金高丽大学changsukim@korea.ac.kr摘要提出了一种半监督的在线视频对象分割算法,该算法在第一帧接受用户对目标对象的注释我们使用光流矢量将前一帧的分割标签推广到当前帧。然而,传播是容易出错的。因此,我们开发了卷积三叉神经网络(CTN),它有三个解码分支:分离的、确定的前景和确定的背景解码器。然后,我们执行马尔可夫随机场优化的基础上的输出的三个解码器。我们从第二帧到最后一帧顺序地执行这些过程,以提取目标对象的段轨迹实验结果表明,该算法在DAVIS基准数据集上的性能明显优于传统算法.1. 介绍视频对象分割的目的是将视频中的像素聚类成对象或背景。通常,视频对象分割算法可以分为三类:无监督的、半监督的和监督的。无监督算法[11,27,28,33,35,53]不需要任何关于对象的注释。而不是一个符号,他们发现主要对象在视频中使用对象,显着性和运动线索。虽然一些算法[11,35,53]产生单个分段轨道,但其他算法[27,28,33]产生多个分段轨道。半监督算法[15,37,40,54]跟踪并分割目标对象(或前景),其在第一帧中由用户注释。监督算法[1,12,13]在分割过程中交互式地获取用户注释。虽然它们产生精细的片段轨迹,但是注释任务对于用户来说可能是繁重的。随着深度学习的爆炸性研究,许多视觉问题都有了显著的进展,例如,对象检测[18]、轮廓检测[57]和语义分割[7]。编码器-解码器架构[20]广泛用于深度学习系统[7,29,32,38,57]。的编码器从输入图像提取特征。卷积神经网络[18,25,45,47],经过图像分类训练,在许多情况下被微调并用作编码器。由于图像分类试图识别图像中对象的类别[43],因此经过训练的网络可以有效地提取高级特征。解码器设计根据应用而变化。例如,像素级分类算法(例如,轮廓检测[57]和语义分割[32])在解码器中采用卷积层与非池化层。相反,全连接层用于图像级分类问题(例如,图像分类[45]和对象检测[41])。在这项工作中,我们设计了半监督视频对象分割的解码器。据我们所知,这是第一个基于深度学习的半监督视频对象分割方法。我们提出了一种半监督的在线分割算法,它可以从第一帧到最后一帧顺序地从背景中分离出目标对象,并且仅在第一帧处具有最小的用户努力。为了跟踪和分 割 目 标 对 象 , 我 们 开 发 了 卷 积 三 叉 神 经 网 络(CTN),它具有编码器-解码器结构。CTN从三个解码分支输出三个概率图:分离的、确定的前景和确定的背景解码器。首先,我们将一个分割标签图从前一帧传播到当前帧。然后,我们通过CTN预测三个概率图。这三个映射是为两类马尔可夫随机场(MRF)优化问题量身定制的。在MRF优化的开始,我们通过对分离概率图进行阈值化来分配初始像素标签。同时,我们使用明确的前景和背景图来发现像素,应该明确地标记为前地和背景,分别。通过将标签固定在这些确定的像素上,MRF优化器可以更精确地提取目标对象。我们从第二帧到最后一帧执行这些过程。实验结果表明,该算法在DAVIS数据集[36]上的性能优于最先进的传统算法[12,31,37,40]这项工作的三大贡献是:5850开发有效的CTN,为MRF优化提供三个定制的概率图。在实际应用中实现了一种快速在线的长视频分割算法编码器特征解码器在DAVIS基准数据集上表现出色,该数据集由具有挑战性的视频组成。2. 相关工作2.1. 无监督视频对象分割无监督视频对象分割是对视频中主要对象的轨迹进行分割的任务。主要对象频繁地跨视频中的帧出现。受此启发,早期的方法[4,14,34,44]执行运动分割以产生稀疏点轨迹,并使用转换方法(如[14,33])将稀疏轨迹转换为密集段轨迹。代替点跟踪,[27,28,30,59]在视频中跨帧连接对象提案[9为了发现视频中视觉上重要的对象,[11,35,53]采用显着性检测技术。Papazoglou和Ferrari [35]使用光流边界计算运动显着图,称为内外图。Fak- tor和Irani[11]利用运动显着性和视觉显着性将片段轨迹与背景分离。Wang等人[53]首先使用测地线距离计算时空显著性图,然后基于全局外观模型和每帧位置模型执行能量最小化。最近,Janget al. [23]描绘主要对象在视频中基于前景和背景分布的交替凸优化。Xiao和Lee [55]首先生成包含对象的框轨迹,然后将像素分割方案应用于这些框。Bideau和Learned-Miller [2]通过考虑光流矢量的角度和幅度来发现不同的运动对象。2.2. 半监督视频对象分割在半监督视频对象分割中,用户在第一帧识别目标对象,然后在后续帧中自动请注意,半监督算法可以分为离线和在线算法.离线算法在所有帧中同时将目标对象与背景分离相反,在线(或流)算法从第二帧到最后一帧依次执行跟踪和分割任务。虽然离线算法需要巨大的内存空间来处理长视频,但在线算法使用固定的空间,而不管视频的持续时间。离线算法:Tsai等人[49]构造一个体积图,其节点是所有帧中的像素,并执行图1.用于解决视觉问题的编码器-解码器架构[20]在该特定示例中,通过像素级分类来执行语义分割,并且通过图像级分类来预测对象类使用目标外观模型和时空相干性模型的MRF优化。Jain和Grauman [22]首先在视频中生成时间超像素,然后定义要最小化的能量函数。在最小化中,如果两个像素属于相同的时间超像素,则鼓励它们具有相同的标签Perazzi等人[37]通过采用目标对象的边界框作为训练样本来训练支持向量机分类器,然后选择与目标对象高度相似的对象建议。在线算法:Chockalingam等人[6]将目标对象分割成片段,并使用高斯混合模型(GMM)表示,该模型用于在后续帧中跟踪目标Chang等[5]将视频划分为时间超像素,并且通过选择在第一帧处与目标对象重叠的超像素来Ramakanth和Babu [40]使用视频接缝将标签从前一帧传播到当前帧。Varas和Marques [51]在前一帧和当前帧中的分区之间执行共同聚类以解决对象变形。Wen等人[54]将每个帧过分割成超像素以构建目标对象的多部分模型。该算法在帧间匹配的基础上跟踪目标对象,并迭代更新多部分模型。 M aürki等。[31]使用目标对象和背景的颜色和位置特征构建前一帧的网格模型应用于当前帧以描绘目标对象。Tsai等人[50]联合执行半监督视频对象分割和光流细化。在线分段跟踪算法[8,15,52]接受对象框作为用户输入,而不是对象掩码。在[8,15]中,通过Hough投票实现了框中目标对象的分割Wang等人[52]生成基于超像素的外观模型以计算置信度图,然后基于自适应阈值处理将置信度图转换为分割结果。2.3. 编码器/解码器架构许多计算机视觉问题都是基于编码器-解码器架构[20]解决的,如图1所示。编码器从输入图像提取特征。然后,例如,解码器可以执行像素-熊5851帧输入帧间传播卷积三叉神经网络MRF优化分离式解码器成对成本计算图像块分离概率补丁帧编码器光流明确前台解码器MRF优化前景明确的前景传播修补概率修补确定背景解码器分段标号在帧传播地图在帧背景传播斑明确背景概率补丁分段标号在帧图2.所提出的算法概述我们从第二帧到最后一帧顺序执行此过程使用所提取的特征进行等级分类或图像等级分类。Noh等人[32]通过构建与VGG-16网络编码器对称的解码器来执行类别语义分割[45]。受此启发,Yanget al.[57]训练解码器使用少量层来检测对象轮廓。Liu和Han [29]提出了一种显著性检测算法,该算法在解码器中的每一层预测多尺度显著性图。对于每个编码的补丁,Pinheiroet al. [38]通过预测分割掩码和对象性得分来生成对象提议。Dai等人[7]开发共享相同编码特征的多任务解码器,用于实例感知语义分割。3. 该算法(a)S(t−1)(b)反向运动(c)H(t)图3. 分割标签映射的帧间传播。通过采用(b)中的后向光流矢量来传播(a)中的帧t-1的分割标签图S(t-1),以生成(c)中的传播图H(t)。更准确的光流信息,[26]需要更低的计算复杂度。 对于像素p =[x,y]T,我们通过以下方式将分割标签从I(t-1)传播到I(t):H(t)(p)=S(t−1)(x+u(t)(p),y+v(t)(p))(1)我们提出了一个半监督的在线视频对象seg-b b分段算法,它产生一个焦油的分段轨道,其中[u(t)(p),v(t)(p)]T是后向光流vec。获取对象,由用户在第一帧进行注释an-b b符号可以通过采用交互式图像分割技术来执行[16,42,56]。图2是所提出的算法的概述首先,给定前一帧I(t-1)的分割标签映射,我们使用优化流将其传播到当前帧I(t)然后,建议的CTN,其中有编码器-解码器体系结构产生三个概率图:分离的、确定的前景和确定的背景图。这些图被定制用于下一个MRF优化步骤,其使用一元和成对成本来计算当前帧I(t)的分割标签图。我们从第二帧I(2)到最后一帧I(T)执行该过程以产生分段轨道。3.1. 分段标签的传播我们利用I(t-1)的分割标签映射来粗略地定位当前帧I(t)中的目标对象。为此,我们首先计算从I(t )到I(t-1 )的后向光流矢量。在实现中,我们采用两种光流技术之一[19,26];而[19]提供了p在I(t)到I(t−1)中的tor,H(t)是I(t)的传播映射。S(t-1)是I(t-1)的分割标签图,如果对应像素属于前景,否则为0。图3示出了分段标签的帧间传播。我们看到目标物体是粗略估计的。3.2. 基于卷积三叉神经网络的推理由于对象变形、运动模糊、遮挡和光流误差,传播图可能不准确。因此,我们推断分割信息通过CTN,它具有编码器-解码器架构,考虑sider的目标对象的高层次的功能。推断的信息被有效地用于解决二进制标记问题,如将在3.3节中讨论的。图4显示了所提出的网络的架构。网络架构:编码器从224 × 224 × 3的输入图像块中提取特征。我们选择VGG-16网络[45]作为编码器,它由13个卷积组成层、3个全连接层和5个最大池化层。5852Conv4_1Conv4_2Conv4_3Conv5_1Conv5_2Conv5_3背景传播斑前景传播补丁SD-Dec 1取消合并SD-Dec 2取消合并SD-Dec 3解卷SD-Dec 4解卷SD-Dec 5SD-Pred分离概率贴片图像块Conv1_1Conv1_2池化Conv2_1Conv2_2池化Conv3_1Conv3_2Conv3_3池化池化DFD-Dec1解卷DFD-12月2日解卷DFD-12月3日解卷DFD-12月4日解卷DFD-Dec5DFD-Pred确定前景概率补丁编码器分离译码器确定前景解码器确定背景解码器级联DBD-Dec1解卷DBD-Dec2解卷DBD-Dec3解卷DBD-Dec4解卷DBD-Dec5DBD-Pred确定背景概率补丁要解码的编码特征在原始图像中的补丁大小。在这项工作中,所有解池层都将其输入补丁在水平和垂直方向上放大2倍。SD的目标是从背景中分离目标对象首先,我们将编码后的14×14×512特征由于被压缩成相当小的尺寸,前景传播补丁丢失了细节。然而,这是可接受的,因为帧间传播易于出错并且可能是误导的。我们通过采用更小但更可靠的补丁,使解码器对这些错误具有鲁棒性。注意,滤波器是一种低通滤波器,可减少高频噪声分量。然后,我们将连接的数据馈送到卷积层Pinheiro等人[39]表明,编码器的中间输出受此启发,我们将unpooling层的输出和'Conv 4 3'连接起来,并将其再次通过卷积层('SD-Dec 2')和unpooling层。在重复串联、卷积、解池的顺序过程两次之后,我们再次执行串联和卷积在分割中,将标签固定在确定的像素中可以提高标签的准确性。确定的像素表示应该被标记为前景或背景的位置。然而,很难决定在哪里固定标签。因此,我们开发了DFD和DBD来发现确定的像素。DFD识别明确的前景像素。 我们设置SD中使用的连接数据,再次输入。然后,我们将连接的输入数据交替地馈送到卷积层('DFD-Dec 1 Dec 5')和解池层。 在明确的解码器,这是重要的-图4.提出的用于半监督在线视频对象分割的卷积三叉神经网络(CTN)的架构。我们只使用最多13个卷积层的层,如[7,29,41]所示。虽然早期的层编码低级别的功能,后来的表征高级别的属性。我们使用三个解码器从编码特征中得出分割推断:分离解码器(SD)、明确前景解码器(DFD)和明确背景解码器(DBD)。这三个解码器分别为目标对象分割提供功能信息,即前景和背景的二值标记问题。解码器有解池层[58]和卷积层。”““引导者,引导者。倾向于只确定无疑的像素,而不是高质量的对象边界。因此,确定解码器不使用编码器的中间输出。最后一个与此相反的是,DBD找到确定的背景像素。我们首先反转前景传播补丁以计算14×14的背景传播补丁。然后,我们将编码特征补丁形成输入到DBD,它具有相同的architecture作为DFD。DBD产生确定的背景概率补丁。在每个解码器中,最终预测层由卷积层和S形层组成。sigmoid层使解码器产生[0,1]内的归一化输出5853(a)输入图像(c)图像补丁(e)(f)前景对象掩模传播面片(d)地面实况(b)SD的对象掩码(g)Ground-truth(h)用于DFD的Ground-truth掩码用于DBD的表1. 网络解码器的规范。我们对所有三个解码器使用相同的内核设置和标准化策略,即。i∈ {SD, DFD, DBD}。i-Dec1i-12月2日i-Dec3i-Dec4i-Dec5 i-Pred玉米粒大小5×5 5×55 ×55 ×53 ×3内核数量51225612864321BNCCCCCReLUCCCCC图5. 训练数据的预处理。批量归一化(BN)[21]应用于解码器中除预测层之外的所有此外,在批量归一化之后采用了整流线性单元(ReLU)激活函数。我们在所有卷积层中使用5×5内核,除了内核大小为3×3的预测层。表1详细说明了解码器参数。请注意,我们为三个解码器使用相同的内核大小和内核数量。培训阶段:注释视频中所有帧中的对象是一项艰巨的任务。虽然有几个用于视频对象分割的数据集[4,12,23,28],但每个数据集都由12到59的少量视频组成因此,它们不足以训练图4中的网络。因此,我们使用PASCAL VOC 2012数据集[10],该数据集用于对象分类,检测和分割。Hariharan等人[17]在PASCAL数据集中的11,355张图像上注释26,844个对象掩码。在对象掩码中,我们通过丢弃小对象掩码来选择25,093个对象掩码来组成训练数据集。图5说明了如何预处理训练数据集。通过裁剪训练图像及其对象掩模,我们分别为SD提取图像块及其地面真实掩模我们使用与对象大小成比例的边距执行裁剪,如图5(b)所示。请注意,前景传播补丁和地面真实掩码的DFD和DBD是不可用的PASCAL数据集。因此,我们通过简单的图像处理来生成它们。首先,我们降低对象掩码以产生前景传播补丁。我们模仿传播误差,通过在掩蔽区域填充[0.5,1]内的随机像素强度,然后使用圆形掩模进行部分抑制和噪声添加。在图5(e)中,抑制和噪声添加由下式描绘:蓝色和黄色的圆圈。我们根据物体遮罩的大小调整圆形遮罩的半径然后,我们调整退化对象遮罩的大小,以生成图5(f)中的14×14前景传播补丁接下来,我们合成DFD和DBD的地面真实掩模我们应用高斯平滑的对象掩模,然后执行阈值提取的对象掩模的内部区域。实验区域被定义为DFD的地面真实掩模,如图5(g)所示。DBD的地面真实掩模以类似的方式产生,通过采用对象掩模的逆,如图5(h)所示。我们使用Caffe库[24]来训练所提出的网络。我们用八个训练数据组成一个小批量。我们固定编码器的权重参数,如[7,57]所示。我们用随机值初始化解码器中的卷积层。我们采用地面真实掩模和预测概率补丁之间的交叉熵损失。我们通过随机梯度下降来训练所提出的网络。我们将前55个epoch的学习率设置为0.001,接下来的35个epoch设置为0.0001。推理阶段:所提出的CTN需要图像补丁,前景传播补丁,和背景传播补丁作为输入。首先,我们通过分别裁剪当前帧I(t)和传播图H(t)来提取图像补丁和前景传播补丁,其中H(t)中的对象像素周围具有50像素的边缘。然后,重新调整图像块和前景传播块的到224×224×3和14×14。通过对前景图像进行反相得到背景传播图像。建议的CTN输出三个大小为224×224的概率补丁。我们将这些补丁恢复到裁剪之前的大小和位置,以产生三个概率图:分离的概率图RS,确定的前景概率图RF,和确定的 背景概率图注意,这些概率图与输入帧具有相同的大小。如果RS(p)>θsep,则将分离概率图中的每个像素p分类为前景。设L为这样的坐标系,地面像素 在两个概率图RF和RB中,我们将概率高于另一阈值θdef的像素确定为确定像素。设F和B分别表示确定的前景和背景像素的集合3.3. 马尔可夫随机场优化图4中的池化层减少了参数的数量和计算量。然而,它们也降低了预测目标对象的细节。换句话说,前景像素的坐标集L可能不提供足够详细的分割信息。因此,我们进一步提高了分割质量,通过解决两个类(前景或背景)MRF优化,5854问题。为了简化符号,让我们省略帧索引的上标。首先,我们定义一个图G=(N,E),其节点是当前帧中的像素。N和E分别表示节点和边的集合我们通过边缘将每个像素连接到它的四个相邻像素通过组合一元和成对成本,分割标签图S的MRF能量函数E(S)被定义为:(a) I(t−1)(b)I(t)(c)再现部分图6.建议再现对象检测器发现收割pearing部分的腿,这是闭塞在前一帧E(S)=Σp∈ND(p,S)+γ×Σ(p,q)∈EZ(p,q,S)(2)I(t−1). 在(a)中,森林的地面边界是青色的。其中γ控制一元成本D和成对成本Z之间的平衡。为了计算一元成本,我们构建RGB颜色分别为前景和背景的灰度级在这项工作中,我们设置相同数量的高斯分量,K=10,为两个高斯。我们使用L中的像素来构建前景Gray,基于期望值-最大化算法,以及Lc中的那些用于背景Gestro。让我们将高斯成本定义为n(p,s)= min{−logf(p;Ms,k)}(3)K其中f(·;Ms,k)表示Ms,k的概率分布函数,其是前景(s=1)或背景(s=0)的第k个高斯分量。GMM当高斯分布函数具有低概率时,返回高高斯成本。然后,我们将一元成本定义为弗雷姆湖在MRF优化中,我们使用三个相应的一元成本之和。我们采用图割算法[3]来最小化MRF能量函数,从而得到最优的分割标记图S.然后,我们提炼在帧t处,基于标签映射S,我们迭代这两个过程直到收敛。3.4. 再现对象检测目标对象可能会消失并被其他对象遮挡。如果被遮挡部分在当前帧中重新出现,则3.1节中的帧间传播在对应区域中可能是无效的因此,我们试图识别再现的部分。如果没有遮挡并且光流估计是准确的,则后向流矢量应当与对应的前向流矢量的逆矢量相同。基于这种后向-前向一致性[46],我们检测再现像素。具体地,我们首先从像素p=[x,y]T最大值g如果p∈F且S(p)=0,则S(g,0),在帧t中,使用后向运算,将p1× e1p2在帧t-1中,D(p,S)=如果p ∈ B且S(p)= 1,则<$maxg<$(g,1),否则<$max g<$(p,S(p)) 。(四)在p处的垂直流动矢量。接下来,我们执行正向匹配-通过采用从帧t-1到帧t的强制光流矢量,将pπ变换为pπ=[xπ,yπ]T。理想情况下,恢复的像素注意,如果p是F中的前景确定像素,但被标记为背景类S(p)=0,则D(p,S)产生非常高的成本。因此,(2)中的MRF能量函数中的一元成本的最小化阻止F中的前景明确像素被标记为背景。类似地,它阻止B中的背景明确像素被标记为前景。为了鼓励相邻像素具有相同的标签,我们计算成对成本,p=[x,y]T,则p=[x,y]T应该等于原始的pi x elp=[x,y]T 因此,我们计算p的不一致性,√φ(p)=(x−x)2+(y−y)2/(µ高度+µ宽度h)(六)其中µheight和µwidth分别是输入视频序列的高度和宽度。如果不一致性φ(p)大于1/400,则我们声明p是不一致的。接下来,我们应该检测重现的前景像素. exp(−d(p,q))如果S(p)S(q),从不一致的像素集合中。 为此,我们使用Z(p,q,S)=0,否则,(5)在第一帧和第(t-1)帧处的前景和背景灰度再现的部分更有可能是再现的-其中d是像素p和q的颜色和运动特征之间的距离。我们提取RGB颜色特征,并使用后向光流矢量作为运动特征。如果具有相似特征的相邻像素被分配不同的标签,则会产生高的成对成本为了更可靠地估计帧t处的前景和背景颜色,我们采用第一帧和第(t-1)帧处的Gestra以及当前帧处的Gestra。5855而不是背景的。因此,我们确定一个不一致的像素属于再现部分,如果其前景高斯成本低于背景高斯成本。注意,高斯成本在(3)中定义。图6示出了再现对象检测结果的示例。我们在-在MRF优化之前将再现像素包括到前景像素的集合L中5856表2.DAVIS数据集上视频对象分割算法的性能比较[36]。最好的和第二好的结果分别用黑体和下划线表示。区域相似度(RS)轮廓精度(CA)算法平均值↑召回率↑衰减率↓平均值↑召回率↑衰减率↓A.无监督算法NLC [11]0.6410.7310.0860.5930.6580.086CVOS [48]0.5140.5810.1270.4900.5780.138TRC [14]0.5010.5600.0500.4780.5190.066MSG [33]0.5430.6360.0280.5250.6130.057关键[27]0.5690.6710.0750.5030.5340.079SAL [53]0.4260.3860.0840.3830.2640.072FST [35]0.5750.6520.0440.5360.5790.065[23]第二十三话0.5310.6110.0930.5040.5580.088B.半监督算法TSP [5]0.3580.3880.3850.3460.3290.388海[40]0.5560.6060.3550.5330.5590.339JMP [12]0.6070.6930.3720.5860.6560.373FCP [37]0.6310.7780.0310.5460.6040.039BVS [31]0.6650.7640.2600.6560.7740.236Prop-Q0.7550.8900.1440.7140.8480.140Prop-F0.7340.8650.1230.6800.7990.123表3.SegTrack数据集上的Jaccard指数[49]。价值越高最好的和第二好的结果分别用黑体和下划线表示。[50]第二阶段:2015年第一季度:2015年第二季度:2015年第一季度:2015年第二季度:2015年第一季度 Prop-Q女孩0.54 0.52 0.62 0.840.880.890.86降落伞0.560.330.090.780.570.660.61伞0.860.700.930.940.950.940.94猎豹0.460.330.180.630.340.100.40猴狗0.610.220.050.820.540.410.57平均值0.60 0.42 0.370.800.66 0.600.684. 实验结果我们在最先进的DAVIS基准数据集[36]上评估了所提出的算法,该数据集由30个训练视频、20个验证视频和相应的地面实况标签图组成我们使用所有50个视频进行评估,因为它们不用于训练所提出的算法。这些视频的空间分辨率为854×480,每个视频中的帧数从25到104。由于快速运动、遮挡和对象变形,视频非常具有挑战性。我们使用[36]中介绍的性能指标。为了量化区域相似性(RS),我们使用Jaccard指数,其是预测的分割标签图和地面真实掩模的交叉-联合比率。此外,轮廓精度(CA)的F-措施,这是轮廓像素的精度和召回率的组合方面的报告。对于这些指标,我们报告了三个统计数据:意味着回忆和衰退平均值平均所有帧的分数。召回率计算分割分数高于0.5的帧的比例。衰变首先将所有帧分为四个表4.分割分数的算法在各种设置。区域相似性(RS)轮廓精度(CA)设置平均值↑召回率↑衰减率↓平均值↑召回率↑衰减率↓A.消融研究不含DD0.6840.7560.1850.6770.7900.159不含SD0.6630.7970.2480.6650.7920.216B. MRF优化的有效性管理成果框架前0.1310.6630.7910.142管理成果框架后0.1440.7140.8480.140剪辑,然后计算最后一个四分之一和第一个四分之一之间的得分差。表2将所提出的算法与13种传统算法进行了比较:无监督算法[11,14,23,27,33,35,48,53]和半监督的[5,12,31,37,40]。请注意,[12]是一种监督算法,但当仅在第一帧给出用户注释时,它作为半监督算法运行传统算法的得分来自[31,36],除了ACO [23]。对于ACO,我们使用在线提供的源代码。我们报告所提出的算法的两个版本的分数:'Prop-Q'使用最先进的光流技术[ 19 ],而'Prop-F'采用更快的光流技术[ 26 ]。Prop-Q和Prop-F都优于所有传统算法。特别是,在RS召回方面,Prop-Q以相当大的幅度优于第二好的算法FCP [37]此外,就RS平均值而言,Prop-Q优于BVS [31]约13.5%。FCP产生更好的衰减分数比所提出的算法。这是因为,虽然所提出的算法从第一帧到最后一帧顺序地执行分割,但FCP通过同时考虑所有帧中的对象建议来发现目标对象。图7示出了所提出的算法产生空间上准确且时间上相干的分段轨迹,即使当目标对象经历快速运动(为了进行完整的评估,我们在SegTrack数据集[49]上测试了半监督算法,该数据集广泛用于评估视频对象分割技术。表3列出了分割结果的Jaccard指数平均而言,除[54]外,所提出的算法优于然而,[54]对每个序列使用人工调整的参数,而其他序列使用固定的参数。消融研究:我们进行两项消融研究。在这些研究中使用Prop- Q首先,我们去除DFD和DBD,因此在(4)中F=B=B其次,我们使用传播图H(t)来选择MRF优化中的初始前景像素,而不是采用由SD检测到的前景像素的集合L。让我们参考将第一和第二设置设置为5857(a)(b)(c)(d)(e)(f)图7. 所提出的算法的分割结果。(a)在第一帧显示用户注释的目标对象。(b)f(f)是后续帧的分割结果。从上到下,这些帧来自表5. 计算时间的比较。最快的和第二快的算法分别用黑体和下划线表示NLC [11]海[40]JMP [12] BVS [31] Prop-Q Prop-F时间(SPF)45.6213.6927.370.8429.951.33SD,分别。表4列出了每种消融设置的RS和CA评分。在这两种设置中,性能严重下降,这表明所有三个解码器是必要的准确的视频对象分割。(a) θdef=0。7(b) θdef=0。9MRF优化的有效性:表4还测量了所提出的算法在MRF优化之前和之后的分割图的质量。可以观察到,MRF优化进一步细化了分割图。注意,在CTN之后采用再现对象检测技术来增加MRF优化中的初始前地像素由于DAVIS数据集[36]中的许多对象遭受遮挡和收割,因此MRF优化大大提高了性能。运行时间分析:我们以秒/帧(SPF)为单位测量分割算法的运行时间。我们使用配备Titan X GPU和3.0GHz CPU的PC在DAVIS数据集[ 36 ]中的“Blackswan”序列上测试了所提出的算法表5显示,所提出的算法的更快版本Prop-F比大多数算法更快,同时提供更好的性能。参数选择:为了平衡一元和成对成本,我们在(2)中将γ设置为25。该算法有两个可控参数θsep和θdef。θsep阈值化SD的分离映射,而θdef二值化DFD和DBD的两个确定映射。图8显示了θ sep和θ def不同组合的RS和CA评分。可以观察到,所提出的算法在θ sep = 0时提供最佳结果。θdef=0。9 .第九条。因此,这些参数在所有实验中固定使用。图8.根据两个参数的分割质量,θsep和θdef。5. 结论提出了一种半监督的在线视频对象分割算法。首先,将分割标签图从先前帧传播到当前帧。然后,CTN产生三个概率图,为二进制标记问题量身定制。为了描绘目标对象,我们通过采用尾部概率图来执行MRF优化。实验结果表明,该算法在DAVIS基准数据集[36]上的性能明显优于最先进的传统算法[12,31,37,40]确认这项工作得到了韩国国家研究基金会(NRF)的部分支持,该基金会由韩国政府(MSIP)资助(编号:NRF-2015 R1 A2 A1 A10055037),和部 分 由 韩 国 科 学 、 信 息 通 信 技 术 和 未 来 规 划 部(MSIP)在ITRC(信息技术研究中心)支持计划(IITP-2017-2016-0- 00464)下进行,该计划由IITP(信息通信技术促进研究所)监督。10.90.80.70.60.5平均RS召回率RS平均CA召回率CA0.40.10.3 0.50.7θsep0.910.90.80.70.60.5平均RS召回率RS平均CA召回率CA0.40.10.3 0.50.7θsep0.9评分评分5858引用[1] X. Bai , J. Wang , D. Simons 和 G. 萨 皮 罗 VideoSnapCut:使用本地化分类器的健壮视频对象剪切。ACM Trans.Graphics,28(3):70,2009年。1[2] P. Bideau和E.学习米勒。它在动!运动摄像机视频中因果运动分割的概率模型。在ECCV,第433-449页,2016年。2[3] Y.博伊科夫岛Veksler和R.扎比基于图割的快速近似能量最小化 IEEE Trans. 模式分析马赫内特尔,23(11):1222-1239,2001. 6[4] T. Brox和J.马利克通过点轨迹的长期分析进行目标分割见ECCV,第282-295页。2010. 二、五[5] J. Chang,D. Wei和J. W.费雪。使用时间超像素的视频表示在CVPR,第2051二、七[6] P. Chockalingam,N. Pradeep和S.伯奇菲尔德基于水平集的非刚性目标自适应分段跟踪。ICCV,第1530-1537页,2009年。2[7] J. Dai,K.He和J.太阳通过多任务网络级联的实例感知语义分割在CVPR,第3150一二三四五[8] S. Duffner和C.加西亚PixelTrack:一种用于跟踪非刚性对象的快速自适应算法。在ICCV,第2480- 2487页2[9] I. Endres和D.霍伊姆类别独立对象程序。见ECCV,第575-588页。2010. 2[10] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K.威廉斯,J.Winn和A.齐瑟曼。Pascal视觉对象类(VOC)的挑战. 国际计算机目视,88(2):303-338,2010. 5[11] A. Faktor和M.伊拉尼基于非局部一致性投票的视频分割。在BMVC,第1-12页,2014年。一、二、七、八[12] Q. 范 , F.Zhong , L. 等 , 中 国 山 杨 D.Lischinski 、D.Cohen-Or和B.尘JumpCut:视频剪切的非连续掩模传输 和 插 值 。 ACM Trans.Graphics , 34 ( 6 ) : 195 ,2015。一、五、七、八[13] A. Fathi,M. F. Balcan,X. Ren和J. M.瑞格结合自训练和主动学习进行视频分割。在BMVC,第1-11页,2011中。1[14] K. Fragkiadaki,G.zhang和J.石通过跟踪轨迹嵌入中的不连续性来进行视频分割在CVPR,第1846-1853页,2012年。二、七[15] M. Godec,P. M. Roth和H.比肖夫基于Hough的非刚性物体跟踪。载于ICCV,第81-88页,2011年。一、二、七[16] V. Gulshan,C. Rother,A. Criminisi、黑腹拟步行虫A.Blake和A.是的,先生。用于交互式图像分割的测地星凸性。在CVPR,第3129-3136页,2010年。3[17] B. 哈里哈兰山口阿尔韦湖 Bourd ev,S. Maji和J. 马利克从反向检测器的语义轮廓。载于ICCV,第991-998页,2011年。5[18] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。1[19] Y.胡河,巴西-地Song和Y.李有效的粗到细补丁匹配大位移光流。在CVPR中,第5704-5712页,2016年。三、七5859[20] F. J. Huang,Y.- L. Boureau,Y. LeCun,et al.不变特征层次的无监督学习及其在对象识别中的应用。在CVPR,第1-8页,2007中。一、二[21] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移来加速深度网络训练。在ICML,第448-456页,2015中。5[22] S. D. Jain和K.格劳曼视频中的超体素一致前地传播。见ECCV,第656-671页。2014. 2[23] W.- D.张角Lee和C.- S. Kim.通过前地和背景分布的交替凸优化实现视频中的主要对象在CVPR,第696- 704页二、五、七[24] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir- shick,S. Guadarrama和T.达雷尔。Caffe:用于快速特征嵌入的卷积架构。在Proc. ACM Multimedia,第675-678页,2014中。5[25] A.克里热夫斯基岛Sutskever和G. E.辛顿基于深度卷积神经网络的ImageNet分类。在NIPS,第1097-1105页,2012中。1[26] T. 克罗格河Alffte,D.Dai和L.范古尔使用密集逆搜索的快速在ECCV,第471-488页三、七[27] Y. J. Lee、J. Kim和K.格劳曼视频对象分割的关键段。载于ICCV,第1995一、二、七[28] F. Li,T. Kim,A.胡马云D. Tsai和J. M.瑞格通过跟踪多个图形-背景段进行视频分割。在ICCV,第2192-2199页,2013年。一、二、五[29] N. Liu和J.Han. DHSNet:用于显著对象检测的深度层次显著性网络。在CVPR,第678-686页一、三、四[30] T. Ma和L. J. Latecki互斥约束下的视频对象分割最大权团。在CVPR,第670-677页,2012中。2[31] N. M aürki,F. 佩拉齐岛 Wang,和A. 索金-霍恩双向空间视频分割.在CVPR,第743-751页一、二、七、八[32] H. Noh,S. Hong和B.韩用于语义分割的学习反卷积网络在ICCV,第1520第1、3条[33] P. Ochs和T.布洛克斯视频中的对象分割:将点轨线转向稠密区域的一种层次变分方法。在ICCV,第1583一、二、七[34] P. Ochs和T.布洛克斯高阶运动模型和频谱聚类。在CVPR,第614-621页,2012年。2[35] A. Papazoglou和V.法拉利无约束视频中的快速对象分割。在ICCV,第1777-1784页,2
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功