视频序列中主要目标的分割算法基于区域增强和缩小

169 浏览量更新于2023-10-16 收藏 4.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3442基于区域增强和缩小韩国永俊大学yjkoh@mcl.korea.ac.kr昌洙金高丽大学changsukim@korea.ac.kr摘要提出了一种新的视频序列中主要目标的分割算法首先，我们使用颜色和运动边缘为主要对象生成可识别区域。其次，我们估计初始主对象区域，通过利用主对象的递归属性。第三，我们用缺失的部分来扩大初始区域，或者通过反复排除噪声部分来减少它们这个增强和减少过程（ARP）识别每个帧中的主要对象区域。实验结果表明，该算法显着优于国家的最先进的传统算法在最近的基准数据集。1. 介绍主要对象分割（POS）是将视频序列中的单个主要对象从背景中POS适用于许多视觉任务，包括视频总结，动作识别和对象类学习。然而，由于许多困难，如物体变形，遮挡和背景杂波，POS是具有挑战性的。特别地，在没有用户注释或关于主要对象的任何先验信息（例如，其类别）的情况下，难以将主要对象与背景分离。POS与视频对象分割（VOS）密切相关。VOS可分为三类：半监督、多个和无监督VOS。半监督VOS[17，22，23，26，28，35]要求在第一帧进行手动注释，以分割子帧中的目标对象多个VOS [2，7，13，14，18，19，25，32]不需要用户对对象进行注释，但会产生多个分段轨迹。换句话说，在没有地面实况的情况下，多个VOS不能识别多个轨迹中的主要对象。相比之下，无监督的VOS [5，9，16，20，30，33，36]的目标是只找到一个单独的seg-自动地对应于主要对象的片段跟踪。因此，无监督VOS具有与POS相同的目的。在这方面，我们使用术语“POS”和“无监督VOS”交换。在没有关于主要对象的手动注释或地面实况的情况下，POS比半监督或多个VOS更具挑战性。通常，POS方法估计主要对象的初始区域，并且使用主要对象线索（例如颜色或位置）来细化初始结果对象建议通常用于找到初始主要对象区域[16，36]。然而，传统技术[16，36]强烈依赖于每个提议的对象性得分，该得分在每个帧中计算，而不利用主要对象的递归属性。对于初始区域的细化，许多POS方法[9，16，20，36]将交互式图像分割技术[24]扩展他们分别为主要对象和背景构建高斯混合模型（ Gestival ），基于初始区域估计。然而，这些GARCH可能无法准确地对随时间变化的对象和背景信息进行建模，并且容易受到不正确的初始估计的影响。在这项工作中，我们提出了一种新的POS算法产生的视频序列中的主要对象的段跟踪。首先，我们为主要对象生成一个候选区域池。为此，颜色和运动边缘都被用来提高静态和移动对象的召回率其次，我们估计初始区域的主要对象，利用主要对象的递归属性第三，而不是基于GMM的细化，我们细化的初始区域，增加他们与丢失的部分或减少他们排除噪声部分。该增强和减少过程（ARP）基于成本函数来执行。通过迭代地最小化成本函数，我们实现了POS。实验结果表明，该算法在DAVIS [21]和FBMS [2]基准数据集上的性能显着优于最先进的半监督，多重和无监督VOS算法。34432. 相关工作2.1. 视频对象分割半监督VOS：半监督VOS需要用户对目标对象进行注释。在第一帧中手动描绘对象，然后在连续帧中跟踪[23，26，28，35]。Varas等人[28]采用基于区域粒子滤波器来跟踪目标对象。拉玛坎特等人[23]采用接缝雕刻检测物体边界。Yang等[35]使用遮挡物-被遮挡关系来传播带注释的片段。Tsai等人[26]同时考虑VOS和光流估计，并使用分割结果来细化光流矢量。此外，在[17，22]中，用户注释被用于构建对象的应用模型。Perazzi等人[22]为目标对象构造支持向量机（SVM）分类器M aürki等。 [17]优化两个类（即，对于地面或背景）标记问题。多个VOS：多个VOS算法不需要任何手动注释，但它们提供多个分段轨迹。它们产生运动分割结果[2，7，18，19，25]或视频对象建议[13，14，32]。Shi和Malik [25]基于运动特征构建了一个图，并使用归一化切割将帧划分为多个片段。Brox和Malik [2]形成稀疏的长期轨迹并将其聚类。Ochs和Brox [18]通过求解变分问题，将[2]中的稀疏轨迹簇转换为密集分割结果。Ochs和Brox [19]采用谱聚类方法对点轨迹进行分割Fragkiadaki等人[7]分析相邻轨迹之间的不连续性以分割移动对象。对象提案被采样[13，32]或匹配[14]以生成视频对象提案。Lee等[13]对从整个序列中提取的对象建议进行聚类，并根据元素的平均对象得分对每个聚类进行他们选择高等级的集群产生段轨迹。Xiao和Lee [32]通过收集每个建议的k-最近邻来形成建议组，然后使用建议组训练SVM分类器以提取分段轨道。Li等[14]在一帧中提取几个图形-背景片段，并在随后的帧中匹配这些片段以提供多个片段轨迹。对于性能评估，这些多个VOS算法[2，7，13，14，18，19，25，32]要求地面实况在多个航迹中选择最佳分段航迹，因为它们不考虑哪个航迹最突出。POS：POS自动发现一个单一的主要部分，在视频序列的ment轨道。许多POS算法[9，16，20，30，36]通过构建主要对象和背景的模型将分割公式化为两类标记问题，例如。GMM为了构建这些模型，他们获得了主要对象的初始区域，设置运动边界[20]，对象建议[16，36]，或显着图[9，30，33]。Papazoglou和Ferrari [20]为每个帧生成运动Ma和Latecki [16]构建了一个局部连接的对象建议图，并通过优化最大权重团问题为所有帧选择主要对象建议。Zhang等人[36]设计对象建议的分层有向非循环图，并在图中找到最佳路径然而，这些方法[16，36]不考虑主要对象的递归特性，因为它们取决于逐帧计算的建议分数。Wang等人[30]使用测地距离估计显着图并描绘显着对象。Jang等人[9]使用边界先验估计前景和背景的初始概率分布，并通过优化马尔可夫、时空和对抗能量的混合来细化概率分布Yang等[33]设计了一个图，它同时执行分割和外观建模。此外，Faktor和Irani [5]提出了一种非局部一致投票方案。他们在所有帧的非局部连接图上进行随机行走模拟，通过采用显着图作为行走者的初始分布。然而，当显著性图由于背景杂波或背景运动而不准确时，这些显著性相关技术[5，9，30]可能面临困难2.2. 主要对象发现与POS类似，主要对象发现（POD）[10，15，34]也试图识别视频序列中主要对象的位置。但是，它使用边界框定位主要对象，而不是逐像素分层。POD算法还使用显着图[15，34]或对象建议[10]。Luo等人[15]和杨等人。[34]基于每个帧中的显著性分数生成候选框，然后找到最大化显著性分数之和的最佳路径。Yang等[34]采用六种显着图来克服单个显着线索的局限性。Koh等人[10]通过基于进化主对象模型组合对象提议来发现主对象。3. 该算法我们在视频帧序列I ={I（1），. . . ，I（T）}，基于主要对象出现在大多数帧中的假设。输出是一组逐像素的二进制映射，以描绘相应帧中的主要图1示出了所提出的算法的概述。首先，我们为每个帧生成一个候选区域池。其次，我们选择初始的主要对象区域，3444我我输入帧候选区域一代初始区域估计区域的扩大和缩小主要目的分割图1. 所提出的算法的概述。通过利用主对象的递归属性。第三，我们细化的初始区域，通过增加和减少这些区域逐步。3.1. 生成候选区域候选区域：在将每个帧过分割成超像素之后，我们通过递归地合并相邻的超像素来生成候选区域池[27，29]。对于过分割，我们为每帧提取两个超度量轮廓图（UCM）[1]。原始的UCM方法[1]使用颜色边缘生成等高线图。在这项工作中，我们提取另一个UCM使用运动的边缘以及。运动边缘由基于学习的检测器[31]使用光流数据[8]获得。图2显示了这些UCM。在图2（c）中的基于运动的UCM中，轮廓在移动的汽车周围比在图2（b）中的基于颜色的UCM中由UCM中的闭合边界描绘的每个区域成为超像素。因此，我们有基于颜色的超像素和基于运动的超像素，如图所图2（e）和（f）分别。我们通过收集所有这些超像素来初始化帧I（t）的候选区域集合Q（t注意，由相邻超像素共享的每个边界与UCM方法中的边界强度相关联我们递归地合并相邻的超像素，根据它们的边界强度，并将合并的超像素包括到Q（t）中。更具体地说，让我们首先考虑基于颜色的超像素。我们确定共享最弱边界的一对超像素sm和sn。然后，为了提高Q（t）中候选区域的多样性，我们如下生成额外的候选区域：• 对于每个si∈ Nm，我们将超像素sm的并集s l放入Q（t）中，其中Nm表示相邻像素的集合(a)(b)（c）第（1）款(d)（e）（f）（g）图2.“漂移-转弯”序列中第26帧的候选区域生成：（a）输入帧I（t），（b）基于颜色的UCM，（c）基于运动的UCM，（d）地面实况，（e）基于颜色的超像素，（f）基于运动的超像素，以及（g）候选区域集合Q（t）。然后，我们将sm和sn合并为单个超像素smsn。在合并之后，我们选择具有最弱的边界，并重复该过程。当所有超像素被合并到单个集群中时，这种递归合并终止。接下来，使用基于运动的超像素，我们执行相同的过程以进一步扩展候选区域的集合Q（t）前景置信度：在扩展Q（t）之后，我们测量每个候选区域的前景置信度c（t无聊的超像素• 类似地，我们将超像素snsl′的并集放入Q（t），其中sl′∈Nn.q（t）在Q（t）中，定义为c（t）=φ（t）+φ（t）（一）我我我3445我我我我CM我我Cc我我CXCCδMδδ我X其中φ（t）和φ（t）是外观置信度，我我边缘置信度。为了确定外观置信度φ（t），我们使用[9]中的预处理技术获得帧I（t）基于边界先验，[9]估计了初始前景分布，我们认为作为Salien C Y地图。然后，我们通过对候选区域q（t）内的显著值进行平均来计算φ（t）。此外，我们基于基于颜色的边缘得分图E（t）[4]和基于运动的边缘得分图E（t）[31]来确定边缘置信度E（t），其用于生成UCM。然后，由下式给出(a)框架16（b）框架26（c）框架36图3.“漂移-转向”序列中第16、26和36帧的初始主要对象区域在顶行中，主要对象的地面实况边界以黄色表示。（吨）1Σ。（吨）Σ（吨）汽车（即，主要对象）和招牌。如果我们i=|x∈Bi|x∈BiβcEc（x）+βmEm（x）（二）仅依赖于前景置信水平，由于它们的独特颜色，两个对象都可以被视为原色其中Bi是区域q（t）的边界像素的集合。如在[11，12]中，我们假设如果边缘得分图的得分分布更紧凑，则边缘得分图更可靠。因此，我们根据相应的空间方差自适应地设置（2）中的加权参数βc和βm。具体地说，颜色边缘图E（t）的空间方差v为Σǁx−µǁ2×E(t)(x)和主导运动因此，我们还应该利用主要对象的递归性质来精确地分离它，这将在3.2节中讨论。特征描述：我们描述每个的特征f（t）候选区域q（t）在Q（t）中使用视觉词袋方法[6]。给定视频序列I，我们将所有超像素的平均LAB颜色转换为100个码字，vc=xccE（t）（x）（三）并将每个像素与最近的码字相关联。然后，我们构造像素的码字的直方图其中，求和是针对地图中的所有像素x，并且µ在q（t）内，并将其归一化为特征向量f（t）。ci i是质心，x×E（t）（x）µc=。（四）E（t）（x）我们还类似地计算运动边缘图E（t）的方差vm。然后，我们设置βc和βm与相应的方差成反比;3.2. 选择初始主对象区域在Q（t）中的候选区域中，我们选择主区域q（t）并将其作为帧I（t）中的初始主对象区域。嘈杂的环境，如背景杂波和非主要对象，使它很难决定主要区域。为了克服这个问题，我们利用了主对象出现VMβc=，βmvc+vmvc=.（五）vc+vm在视频序列中重复。换句话说，我们通过在序列中找到重复出现的候选区域来确定主区域。接下来，我们根据以下公式对Q（t）中的候选区域进行排名：到他们的前景置信水平。我们选择顶部20个候选区域，并丢弃其他区域。为了提高帧I（t）的主要对象的召回率，我们还将I（t-1）和I（t+1）处的所选候选区域扭曲为I（t）分别使用逐像素光流矢量[8]然后重新排列Q（ t）={q （ t ），q （ t ），. . . ，q（t）}，因此，在特征空间中发现主要区域。基于递归性质，我们假设有限元-I（t）中的主区域q（t）的真实性应该与其它帧中的主区域的真实性相似。因此，我们得到indexδofq（t）by不1 2N（t）（τ）由I（t）中的前20个候选区域和δ= argmind χ（fi得双曲余切值.）（6）从I扭曲的区域（t−1）否则我（t+1） . 因此，N = 60。还有，i：q（t）∈Q（t）τ=1，τ不我们定义置信向量c（t），其第i个元素为在Q（t）中q（t）的fore地面置信度c（t）。其中p（τ）表示主区域我我X3446图2（g）示出了根据前景轮廓以光栅扫描顺序排序的Q（t）剂量水平。我们看到许多候选区域包含在帧I（τ）中，并且采用卡方距离dx来比较两个直方图。在没有任何先验信息的情况下，在开始时，我们通过叠加3447δ我δδN+JδδN+JAug红色R= R红δ2N +1δi(a) 帧t（b）q（t）(c) q（t）\q（t）(d) r（t）(e) b（t）i iδi i(f) q（t）(g) q（t）(h) q（t）\q（t）(i) r（t）(j) b（t）δjδjN+JN+J图4. “跑酷”序列中第57帧中初始主要对象区域q（t）Q（τ）中所有候选区域的特征。带进交流-{q（t），. . . ，q（t）}，得到R（t）={r（t），. . . ，r（t）}，其1N8月1N计算前景置信水平，我们将这些第i个元素组合起来，使用置信向量的候选区域的特征，（吨）（吨）（吨）（吨）（吨）（吨）torc（τ）=[c（τ），. . . ，c（τ）]T。具体来说，我们Ri=qδ q i=qδ （qi\qδ）。（八）1N可以将特征向量p（τ）写为图4（d）示出了增强区域r（t），其是p（τ）=F（τ）c（τ）（7）图4（f）中的原始候选q（t）和a的并集可能在图4（c）中缺少区域q（t）|q（t）。i δ其中F（τ）=[f（τ），. . . ，f （τ）]是其第i列的矩阵我们还减少了Q（t）=1N（τ）（吨）（吨）（吨）（吨）（吨）umn是Q中第i个候选区域的特征向量。{q1，. . . ，qN}，以获得R_red ={rN +1，. . . ，r2N}，其通过应用（7）到（6）中的p（τ），我们得到主区域q（t），对于每个帧I（t）。在获得主要的区域后，元素r（t）（吨）由下式给出（吨）（吨）（吨）（吨）（吨）对于所有帧，我们将其更新如下：rN+j=qδqj=qδqδ\qj ）的情况。（九）1. 我们通过下式更新每个帧I（t）的特征p（t）：图4（i）显示了约化区域r（t）. 设置不同-p（t）←f（t）.N+J图4（h）中的事件q（t）\q（t）包含背景部分。δj2. 利用主要区域的更新特征，我们通过从中的原始候选q（t）减去q（t）|q（t），δjδ通过（6）为每个帧I（t）选择主区域q（t）。图4（f），我们得到无背景区域r（t）。我们交替重复这两个步骤，直到主要区域的特征不变。因此，我们得到通过组合R（t）区域和R（t），我们形成了一组精细的所有帧的初始主要对象区域。图3显示了(t)（吨）AugR（t）<${q（t）}（十）“漂移转向”序列中的三帧。特别是={r（t），. . . ，r（t），r（t），. . . ，r（t），r（t）}1N N+1 2N2N +1图3（b），我们看到汽车的初始区域很好，从图2（g）中的60个候选区域中选择。其中r（t）=q（t）。对于每个细化区域r（t），我们细A背景区域B（t）。具体来说，如图所示3.3. 优化主对象区域第3.2节中的初始区域大致描绘了主要对象。然而，3448我δ我他们可能会排除部分主要的ob.我图4（e），我们用一个标记围绕r（t）放置一个边界框，并从边界框中排除r（t），以获得背景区域b（t），其在图10中示出。We或包括噪声区域（背景或其他对象），我（吨）（吨）（吨）（吨）如图4（f）所示因此，我们试图细化初始区域，通过增加缺失区域并通过去除噪声区域来减少它们。扩大和缩小区域：对于每个帧I（t），我们具有主要对象re的初始估计eq（t）。通过采用第3.1节中的特征描述方案，分别提取ri和bi的特征fr，i和fb，i。主要目标区域：为了确定是增加还是减少q（t）以确定主要对象，我们定义一个成本函数，δ（吨）（吨）（吨）（吨）gion。通过在Q=1中增加候选区域，C（ri ）=Cdata（ri ）+γ·Cse g（ri ），（十一）3449我我∗我δ∗δ我∗δδ我∗(a) 输入帧（b）初始区域（c）第一次迭代（d）第二次迭代（e）第三次迭代（f）收敛图5. 迭代增广归约过程（ARP）中细化区域的演化。从上到下，“跑酷”，“摩托车越野跳”，“野鸭水”，“利比”和“婴儿车”序列。随着迭代的进行，细化区域更准确地表示主要对象。在（a）中，主要对象的地面实况边界用黄色描绘。其中Cdata和Cseg是数据和分割成本，注意，如果r（t）∈R（t），则区域是增广的，而它是γ是自适应权重，以平衡输入-输出之间的关系。约化的，如果r（t）∈R（t）。拉绍格埃什雷德这两个术语的影响。（11）中的数据成本Cdata（r（t））约束：增强的或缩小的）区域R（t）应该与所有帧中的初始主对象区域相似。更我们迭代地执行这个增强和减少过程（ARP）。1. 通过采用r（t）作为初始区域q（t）（即，q（t）←具体而言，它被定义为C（r（t））=1ΣTd（f（t），f（τ）），（12）r（t）），我们构造了（10）中增广或减缩区域的集合R（t）.2. 然后，我们通过最小化来找到最优r（t）aain，数据iTχτ=1r，i δ∗（14）中的C（r（t））。其中f（τ）是帧I（τ）中的初始主对象区域的特征向量。另一方面，赛门-基于不相似性，定义了站点成本Cseg（r（t））。这是重复的，直到r（t）不变。该细化过程在理论上保证收敛，因为（11）中的成本函数在每个迭代处单调递减。我（吨）（吨）并且（10）中的候选集合R（t）在区域ri其背景Bi ，作为最后一次迭代中的解q（t）。图5展示了如何C（r（t））=−d（f（t），f（t））。（十三）最优精化区域r（t）e随迭代进行而变化seg我χr，ib，i∗我们看到，图5（b）中的初始区域是aug-注意，由于（13）中的负号，迷你-Cse g（r（t））的分解使该区域尽可能不同于其背景。我们最小化（11）中的成本函数C（r（t））以从（10）中的R（t）中选择最佳细化区域r（t用缺失区域分割或通过排除噪声区域来减少最终，我们得到了图5（f）中的忠实分割即使是一个主要对象的断开的一部分，在“利比”序列中也会被扩充最后，在ARP收敛之后，所提出的算法产生所有帧的主要对象区域的集合Rr（t）=arg minC（r（t））。（十四）作为输出，3450*（t）我（吨）R={r（1），r（2），. . . ，r（T）}。（十五）ri∈R∗ ∗ ∗3451|Gt|gt表1. 传统的基于GMM的细化技术[20，36]与建议的增强和减少过程（ARP）的比较。‘IR’ means that initial primary objectregions in Section测量IRIR+[20]IR+[36]IR+ARPJ是说0.7190.5800.6700.763召回0.8550.6650.8100.892F是说0.6800.5230.6130.711召回0.8020.5410.7400.828(a)框架62（b）框架63（c）框架64图6. 在“野鸭-水”序列中时间上不一致的初始区域在顶行中，地面实况对象边界以黄色描绘。最下面一行描绘了初始主对象区域。请注意，（11）中较高的权重γ允许细化区域与初始主要对象区域有更大的不同。在迭代ARP之前，我们通过分析不同帧中初始主对象区域的时间一致性来确定输入视频序列的γ。当视频序列产生不一致的初始区域时，如图6所示，这些初始区域应使用高γ进行显著修改，以提供令人满意的分割结果。相比之下，一致的初始区域只需要在低γ下稍微修改。量化时间一致性cy，我们在一个收缩区域q（t，t-1）中区域相似性J被定义为IoU比J=|，其中S p和S g t是估计的分段，|,whereSpandSgtareanestimatedse gmentand地面的真相，分别。此外，轮廓准确度F计算F-度量，即轮廓准确度和召回率的调和平均值ARP的影响：我们在3.3节中分析了所提出的ARP改进的影响。请注意，ARP通过用缺失部分增加初始主要对象区域或通过排除噪声部分减少初始主要对象区域来细化初始主要对象区域。我们将ARP与传统的细化技术进行比较[20，36]。它们决定了类标签（即前地或背景）的每个像素或超像素前景和背景Gestion [24]，它们是从初始区域构建的。表1比较了第3.2节中初始区域（IR）的J和F评分，（t−1）δ精细化的结果，这些初始区域，得到的conven-通过使用光流矢量将前一帧I（t-1）中的qδ内的像素映射到当前帧I（t）然后，我们测量交集与并集（IoU）比率在q（t）和q（t，t−1）之间。我们可以得到这些的平均值λ传统技术和建议的ARP。在表1中，我们δ δ看到常规技术[20，36]相当退化所有帧上的IoU比率，然后将γ设置为VOS的性能。这是因为Gynecology是一种...γ= exp.Σλ−σ2、（十六）从不完整的初始区域构造，不像手动注释。在这种情况下，GARCH无法对节奏变化的对象及其背景信息进行重新建模。其中σ2=0。六、因此，我们设置γ来表示初始主要对象区域的总体不一致性4. 实验结果我们将所提出的算法与DAVIS数据集[21]和FBMS数据集[2]上的传统算法进行了我们在所有实验中使用相同的参数。4.1. DAVIS数据集的评价DAVIS数据集是最近评估VOS算法的基准。它由50个视频序列和3，455个注释帧组成。这些序列由于外观变化、快速运动、遮挡等而具有挑战性。每个序列包含单个对象或两个空间连接的对象，例如，一匹马和它的骑手，在序列中重复出现。我们也把这种相互联系的对象看作是一个单一的主要对象。为了评估分割结果，我们在[21]中测量区域相似性J和轮廓精度F。可靠地相比之下，所提出的ARP显著提高了VOS的性能。定量比较：表2将所提出的算法与传统的半监督VOS[3，17，22，23]、多VOS [2，7，13]和POS [5，9，20，30，36]算法。我们从DAVIS数据集网站[21]获得了传统算法的结果，除了[9，36]。对于[9，36]，我们使用各自作者提供的源代码计算结果在区域相似度J方面，该算法明显优于所有传统算法例如，所提出的算法产生比最先进的POS [ 5 ]高0.122和0.098和半监督VOS [17]算法，分别。在轮廓相似度F方面，该算法也提供了更好的性能。值得指出的该算法不需要任何人工标注，甚至优于半监督和多VOS算法。3452表2.在DAVIS数据集上对所提算法与传统算法在区域相似性方面的比较J和轮廓相似度F.测量半监督VOS[22]第23届世界卫生大会多个VOS[2][7][13][20个][36个] [30个]POS[五]《中国日报》[9]第一章提出J是说0.631 0.6650.543 0.501 0.5690.5750.4660.4260.6410.5310.763召回0.778 0.7640.560 0.6710.6520.4670.3860.7310.6110.892F是说0.346 0.533 0.546 0.6560.525 0.478 0.5030.5360.4450.3830.5930.5040.711召回0.329 0.559 0.6040.613 0.519 0.5340.5790.4210.2640.6580.5580.828图7. 所提出的算法在DAVIS数据集上的主要对象分割结果：“霹雳舞”，“摩托车越野跳”，“足球”和“漂移运行”序列从上到下。分割区域和边界分别以红色和黄色表示表3. FBMS数据集中测试序列的IoU评分比较。视频[20][36][五]《中国日报》[9]第一章提出平均0.5550.4730.4450.5420.598或地面实况来识别主要对象。定性结果：图7显示了DAVIS数据集上的POS结果示例。我们看到，所提出的算法为主要对象产生精确的分段轨迹，即使这些对象遭受外观变形（此外，该算法可以处理快速相机运动的“漂移运行”序列。4.2. 对FBMS数据集的评价FBMS数据集[2]是VOS的另一个基准它由59个视频序列组成，分为29个训练视频序列和30个测试视频序列。我们使用测试集来评估POS算法。我们使用各自作者提供的源代码获得了传统POS算法[5，9，20，36]表3列出了测试集上的平均IoU分数。与传统的POS算法[20]，[36]，[5]和[9]相比，所提出的算法将平均IoU提高了0.043，分别为0.125、0.153和0.056由于篇幅所限，我们在补充资料中提供了更多的实验结果。5. 结论提出了一种基于ARP协议的POS算法我们首先使用颜色和运动边缘为每帧生成候选区域然后，我们估计的主要对象的初始区域，基于主要对象的递归属性。最后，我们采用迭代ARP来细化初始区域，并在每一帧中描绘出主要目标。在DAVIS和FBMS数据集上的实验结果表明，该算法能够有效地分割主要对象，并且在分割效果上明显优于现有的确认这项工作得到了韩国国家研究基金会（NRF）的部分支持，该基金会由韩国政府资助（第 2004/2005号）。NRF-2015 R1 A2 A1 A10055037），以及部分由韩国国防发展局（ADD）和国防采购计划管理局（DAPA）（UC 160016 FD）。3453引用[1] P. 阿尔贝尔·阿埃斯，M. 迈尔角 Fowl k es和J. 马利克轮廓检测与分层图像分割。IEEE Trans.模式分析马赫内特尔，33（5）：898-916，2011. 3[2] T. Brox和J.马利克通过点轨迹的长期分析进行目标分割见ECCV，第282-295页。2010. 一、二、七、八[3] J. Chang，D. Wei和J. W.费希尔三世使用时间超像素的视频表示在CVPR，第2051七、八[4] P. Dol la'r和C. L. 齐特尼克用于快速边缘检测的结构化森林在ICCV，第1841-1848页，2013年。4[5] A. Faktor和M.伊拉尼基于非局部一致性投票的视频分割。InBMVC，2014. 一、二、七、八[6] L. Fei-Fei和P.佩洛娜一种用于学习自然场景类别的贝叶斯层次模型。在CVPR，第2卷，第5244[7] K. Fragkiadaki，G.zhang和J.石通过跟踪轨迹嵌入中的不连续性来进行视频分割在CVPR，第1846-1853页，2012年。一、二、七、八[8] Y.胡河，巴西-地Song和Y.李用于大位移光流的有效的从粗到细的补丁匹配。在CVPR中，第5704-5712页，2016年。三、四[9] W.- D.张角Lee和C.- S. Kim.通过前地和背景分布的交替凸优化实现视频中的主要对象在CVPR，第696- 704页一、二、四、七、八[10] Y. J. Koh，W.-D. Jang和C.-S. Kim. POD：基于对象重现、背景和主要对象模型的进化细化，发现视频中的主要对象。在CVPR中，第4268-4276页，2016年。2[11] Y. J. Koh角，澳-地Lee和C.- S. Kim.基于特征轨迹增强和选择以及鲁棒网格变形的视频稳定。IEEE传输图像处理。，24（12）：5260-5273，2015. 4[12] S.- H.李，J. - W. Kang和C.- S. Kim.使用全局和局部时空特征的压缩域视频显著性检测J. Vis. Commun. Image河，澳-地，35：169-183，2016. 4[13] Y. J. Lee、J. Kim和K.格劳曼视频对象分割的关键段。载于ICCV，第1995一、二、七、八[14] F. Li，T. Kim，A.胡马云D. Tsai和J.瑞格通过跟踪多个图形-背景段进行视频分割。在ICCV，第2192-2199页，2013年。一、二[15] Y. Luo，J. Yuan，and J.陆视频对象发现的时空显著路径发现 J. 目视Commun. Image河，澳-地，38：45-54，2016. 2[16] T. Ma和L. J. Latecki互斥约束下的视频对象分割最大权团。在CVPR，第670-677页，2012中。一、二[17] N. M aürki，F. 佩拉齐岛 Wang，和A. 索金-霍恩双向空间视频分割.在CVPR，第743-751页一、二、七、八[18] P. Ochs和T.布洛克斯视频中的对象分割：将点轨线转向稠密区域的一种层次变分方法。在ICCV，第1583-1590页，2011中。一、二[19] P. Ochs和T.布洛克斯高阶运动模型和频谱聚类。在CVPR，第614-621页，2012年。一、二[20] A. Papazoglou和V.法拉利无约束视频中的快速对象分割。在ICCV，第1777-1784页，2013中。一、二、七、八[21] F. Perazzi，J.蓬蒂塞湾麦克威廉斯湖范古尔M.恶心，A。索金-霍恩视频对象分割的基准数据集和评估方法。在CVPR，第724-732页，2016年。1、7[22] F.佩拉齐岛Wang，M.恶心，A。索金-霍恩用于视频分割的全连接对象建议。在ICCV，第3227-3234页，2015年。一、二、七、八[23] S. A. Ramakanth和R.维·巴布Seamseg：使用补丁接缝的视频对象分割。在CVPR，第376-383页一、二、七、八[24] C. Rother，V. Kolmogorov，and A.布莱克Grabcut：使用迭代图切割的交互式前景提取在 ACM Trans.Graphics，第23卷，第309-314页1、7[25] Shi和J. 马利克使用归一化切割的运动分割和跟踪ICCV，第1154-1160页，1998年。一、二[26] Y.-- H.蔡美儿H.杨，和M。J.布莱克。通过对象流的视频分割。在CVPR，第3899-3908页，2016年。一、二[27] J. R. Uijlings，K. E. van de Sande，T. Gevers和A. W.史默德斯对象识别的选择性搜索。Int. J.Comput.目视，104（2）：154-171，2013. 3[28] D. Varas和F.马克基于区域的粒子滤波视频对象分割。在CVPR，第3470-3477页一、二[29] C.王湖，加-地Zhao，S.梁湖，加-地Zhang，J. Jia，andY.伟.多分支层次分割的对象建议。在CVPR，第3873-3881页，2015年。3[30] W. Wang，J. Shen，and F.波里克利显著性感知测地线视频对象分割。在CVPR，第3395-3402页一、二、七、八[31] P. Weinzaepfel，J. Revaud，Z. Harchaoui和C.施密特学习检测运动边界。在CVPR，第2578-2586页，2015年。三、四[32] F. Xiao和Y. J·李曲目和片段：一种用于视频对象建议的迭代无监督方法。在CVPR中，第933-942页，2016年。一、二[33] J.杨，B. Price，X.沈，Z. Lin，and J. Yuan.自动主视频对象分割的快速IEEE传输图像处理。，25（2）：503-515，2016. 一、二[34] J. Yang，G. Zhao，J. Yuan，X.沈，Z.林湾，澳-地价格和J·勃兰特通过显著性融合和迭代外观估计发现视频中的主要对象。 IEEE Trans. Cir-100系统视频技术。，26（6）：1070-1083，2016. 2[35] Y. Yang，G. Sundaramoorthi和S.索阿托因果视频对象分割中的自遮挡和去遮挡。在ICCV，第4408-4416页，2015年。一、二[36] D. Zhang，O.Javed和M.Shah. 通过空间精确和时间密集提取主要对象区域的视频对象在CVPR，第628-635页，2013中。一、二、七、八

下载后可阅读完整内容，剩余1页未读，立即下载