通过多粒度分析的视频分割

126 浏览量更新于2023-10-16 收藏 15.03MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

130100通过多粒度分析进行视频分割0Rui Yang†，Bingbing Ni†，Chao Ma‡，Yi Xu†，Xiaokang Yang†0† 上海交通大学 ‡ 阿德莱德大学0† {yangrui,nibingbing,xuyi,xkyang}@sjtu.edu.cn，‡ c.ma@adelaide.edu.au0摘要0我们引入了一种多粒度分析框架，以粗到细的方式进行视频分割。我们将视频分割视为时空超像素标签问题。借助现成的物体跟踪器提供的边界体积，我们使用时空多实例学习算法估计前景/背景超像素标签，以在体积内获得粗糙的前景/背景分离。我们进一步使用图割模型在像素级别上细化分割掩码。在基准视频数据集上进行的大量实验证明了所提出的视频分割算法的卓越性能。01. 引言0视频分割旨在将感兴趣的目标对象与嘈杂的背景分离开来，并且在计算机视觉的各种应用中受到广泛关注，例如3D重建[34]，视频摘要[11]等。在过去的十年中，已经提出了许多算法，重点是开发图形模型，例如马尔可夫随机场（MRF）和条件随机场（CRF），以估计每个像素（光流）[6, 30,5]或超像素[22,41]的目标运动。尽管它们在几个数据集上表现出良好的性能，但视频分割仍然面临两个主要挑战。首先，当利用图形模型在像素或超像素级别上计算时间一致性时，连续帧之间经常存在不匹配的对。例如，超像素算法[15, 44,38]使用超像素对每个帧建模时间一致性。由于超像素不匹配引起的不准确性不可避免地逐帧累积，并最终导致视频分割算法失败。我们还注意到，在几个帧之间开发超像素模型在计算上效率低下。其次，由视觉跟踪算法估计的对象级运动通常包含嘈杂的背景，因为跟踪结果以边界框的形式呈现时，边界框并没有紧密地围绕目标对象。视频分割受益于此。0最近视觉跟踪算法的一些进展[24, 28]。0为了解决这些挑战，我们提出了一种新颖的框架，将多实例学习（MIL）算法[8]应用于空间和时间域的视频分割。与大多数机器学习算法将每个训练实例分配一个标签不同，MIL将实例的集合分配给标签。在二元情况下，如果一个包中至少有一个实例是正例，则该包被标记为正例；如果其中所有实例都是负例，则该包被标记为负例。MIL能够根据标记的包作为训练数据来对具有缺失或嘈杂标签的实例进行分类。这激励我们将MIL算法应用于计算时间域中的时间一致性。例如，时间上相邻和相似的超像素始终属于同一个标签（即前景或背景），因为连续帧之间的运动不能太显著。另一方面，由视觉跟踪算法估计的对象级运动以边界框的形式提供了丰富的信息，尽管边界框内部可能存在部分嘈杂的背景。基于最先进的跟踪算法，我们适当地扩大了跟踪的边界框以满足应用MIL的要求，就像[42]中所做的那样。我们发现MIL能够很好地处理嘈杂的背景，并提供真实前景对象掩码的准确包围。这极大地促进了视频分割。0与[42]类似，我们使用超像素[1]作为学习时空MIL算法的实例。由于MIL通常受益于更具辨别力的特征，我们提出了基于多尺度CNN特征的描述符，以增强每个超像素的辨别能力。为了在时间域中获得更好的分割效果，我们使用来自最先进的跟踪器[24,28]的跟踪结果来构建超像素的正负样本袋。为了充分利用时空一致性，我们考虑了时空一致性，并使用短时间跨度内的超像素来构建样本袋。为了初始化样本袋的标签，我们使用超像素聚类范式，通过将具有相似特征的超像素分组。此外，一旦我们有了时空分割结果30110HCF跟踪0边界框0时空MIL 图割优化0多粒度分析0t-10t0t+10超像素像素0图1.所提出模型的概述。对于分割，我们首先采用最先进的跟踪方法生成自适应大小的边界框，将分割任务转化为弱监督问题。然后，我们通过将每个图像的结构信息扩展到多个帧来构建时空MIL模型。在获得这些粗略的超像素级分割结果后，我们应用图割方法在像素级别上进一步改进边界。0通过MIL提取的掩码，我们应用像素级图割算法[20,31]利用时空一致性线索改进分割结果。因此，我们可以将所提出的方法视为视频分割问题的多粒度框架，可以以粗到细的方式有效地从背景中分割目标对象。在最粗的层次（对象）中，我们将现成的对象跟踪器应用于整个视频序列，得到对象边界框的候选体积。在中间层次（超像素）中，我们在候选体积内执行多实例学习，以获得粗略的分割结果。在最细的层次（像素）中，通过类似图割的算法进一步改进分割掩码。我们在两个流行的视频分割数据集Segtrack 2.0[22]和CVPR2016发布的Davis数据集[32]上对我们的算法进行了全面评估。结果表明，我们的视频分割方法优于最先进的算法。我们的贡献有三个方面：01.我们提出了一种新颖的视频分割框架，通过在时空域中应用多实例学习来处理时空超像素不匹配和跟踪边界框中的噪声背景问题。据我们所知，这是首次尝试在视频分割中使用MIL。02.我们以从粗到细的方式探索多层次的信息来从背景中分割目标对象。跟踪结果提供了对象级候选边界框。超像素是目标外观的中间层抽象。我们还应用图割算法来改进分割掩码。0像素级别。03.提出的算法在公共基准数据集上的大规模视频上显著提升了最先进的视频分割算法。02. 相关工作0视频对象分割。已经提出了大量方法来解决视频分割问题。一些作品[12,14]旨在为每个帧的每个像素进行注释。其他作品侧重于将一个或多个对象与背景分离[37, 29, 29, 20, 22, 25,36]。现有算法[4, 16, 39,31]广泛使用图模型来合并相似或相邻的超像素或像素。Galasso等人的工作[13]基于谱聚类开发了一个图模型。Grundmann等人[15]提出了一种贪婪的聚类方法。在[46]中，Yi等人使用马尔可夫随机场进行无约束视频分割，该方法依赖于多个线索的紧密集成。Khoreva等人的工作[19]通过强调分类器和特征的重要性来解决视频分割问题。而Jang等人则将MRF用作优化方法。这些作品利用图模型在几个帧之间保持时间一致性，并改进每个分割的轮廓。Tsai等人为应用图割方法添加了一对一潜在项。这种对象流范式一次考虑两个连续帧，并且无法处理长时间跨度上的噪声不匹配问题。值得注意的是，现有算法在视觉跟踪的进展方面受益甚少，视觉跟踪适应目标外观变化并提供带有对象信息的跟踪边界框。30120多实例学习。多实例学习已经提出了几种变体，包括D-D[27]，EM-DD[49]，自从Dietterich等人在1997年首次引入这种方法以来，MIL在计算机视觉领域引起了相当大的关注。Voila等人[47]引入了Mil-boost，目的是将Adaboost算法[35]与MIL范式相结合。MIL在目标检测任务上表现出良好的性能。最近，MIL成功推动了在线视觉跟踪[48,3]、显著性检测[47]和图像检索[23]。这些工作大多集中在通过在一个或多个帧上训练MIL来建立一种稳健的更新外观模型的方法。在这些任务中，MIL表现出对具有模糊标签的输入实例的鲁棒性，并取得了令人满意的性能。Wu等人[42]提出了一种用于交互式图像分割任务的MILcut方法，其中用户输入一个边界框来初始化分割任务。这些工作都没有尝试将MIL应用于视频分割任务。在我们的工作中，我们利用MIL方法对连续帧的包进行处理，从而获得更好的时间一致性，并从具有噪声标签的实例（超像素）中增强分类能力。与之前的工作[48,3]不同，我们使用扫描线范例为超像素包分配正负标签，并考虑时空关系。03. 方法论03.1. 动机和概述0为了解决具有挑战性的视频分割问题，我们提出了一个多粒度分析框架，以粗到细的方式解决这个问题，如图1所示。在最粗的级别上，我们应用现成的视觉跟踪器在帧之间获取连续的前景对象边界框，从而得到候选前景体积（边界体积）。在中间级别上，我们对边界体积内的超像素应用多实例学习算法来识别前景超像素集合（粗分割），通过探索时空一致性。在最细的级别上，我们对这个粗分割的像素应用基于图割的算法，得到最终的分割结果。我们将在下面介绍这三个处理组件的详细信息。03.2. 粗粒度分析：边界体积生成0最近，基于深度学习的技术在基准数据集上显著提高了视觉跟踪的性能[43]。以边界框形式呈现的跟踪结果提供了丰富的对象信息。为了确保0多尺度特征0CNNVGG0L1 L2 L304096 × 30图2.多尺度CNN超像素特征。L1中的超像素由SLIC生成，通过聚类合并成更大的超像素，其中包含更丰富的拓扑信息。不同尺寸的超像素然后被输入到VGG网络中预测多层CNN特征。0为了顺序地获取边界框内目标对象的轮廓，我们利用最近提出的HCFT跟踪器[24]，该跟踪器通过深度CNN特征学习自适应相关滤波器，以处理显著的外观变化。我们还通过一个尺度估计模块增强了HCFT跟踪器，以获得更紧凑的边界框。为了确保跟踪的边界框为后续处理提供足够和正确的信息，在实现过程中设置了两个缩放因子cp和cn。在每个帧的每个边界框内，我们总是可以找到目标对象，而不受部分噪声背景的影响。而边界框之外完全是背景。03.3. 中等粒度分析：超像素解析0一旦获得了对象边界框（即边界体积）的序列，我们可以首先将前景区域分解为超像素，并将视频分割问题转化为在所有帧上识别前景超像素。基于超像素标记的方法最近在图像分割方面取得了巨大成功，然而，直接将基于图像的算法扩展到视频领域是不可行的。需要解决三个问题。首先，由于视频比图像包含更大的变化，因此在视频中将前景超像素与背景超像素分离开来更具挑战性。为此，我们提出了一种多尺度CNN描述符（特征表示），用于对每个超像素进行编码以进行进一步处理，该描述符继承了多尺度分析和CNN的鲁棒性和区分能力。其次，对象/超像素的外观通常在附近的时间帧上保持一致，应充分利用这种时间一致性属性来增强分割。因此，我们提出了基于视频的MIL算法来有效识别前景超像素。这两个创新将在下面详细解释。̸̸̸̸30130多尺度CNN超像素特征超像素的大小和数量定义了超像素的聚类能力。虽然密集且小的超像素对细节的颜色和纹理变化更敏感，但它们可能不包含与更大的超像素相同数量的结构信息。因此，基于这种考虑，我们为超像素特征表示构建了一个由粗到细的层次模型。具体而言，我们首先使用SLIC[1]方法为每个帧生成包含100-150个像素的小型密集超像素。然后，我们提取每个超像素的RGB和DCNN特征。我们将每个帧输入VGG-19网络，并将输出上采样到帧大小，然后对像素进行平均池化，以获取每个超像素的深度特征。为了构建多尺度超像素表示，我们从最细的过分割开始。对于每个超像素，我们收集其局部连接和相似外观的邻居并合并为大型超像素。我们通过特征向量的欧氏距离定义超像素之间的相似性。在这里，较大的超像素可以被视为其不规则上下文窗口。这个过程迭代了几次Q。然后，我们将从每个级别的超像素提取的DCNN特征连接成一个特征表示向量，其维度为4099×Q，其中3个维度为RGB，4096个维度为CNN特征。多尺度超像素CNN特征提取过程如图2所示。基于视频的多实例学习现在每个边界体积可以被视为一组超像素，并且分割任务可以被定义为推断边界体积中包含的每个超像素的前景/背景标签。根据图像分割中的先前工作，我们可以将这个标签推断问题看作是一个多实例学习问题。多实例学习要求正样本包中至少有一个正实例，并且负样本包中没有正实例。通过探索边界框的紧密性，这些要求可以自然满足[21]。假设我们在图像G中有一个对象P的边界框B，我们将边界框的顶部、底部、左侧和右侧定义为Ba、Bb、Bc、Bd。如果，0( G \ B ) ∩ P = �，0P ∩ Ba ≠ �，P ∩ Bb ≠ �，P ∩ Bc ≠ �，P ∩ Bd ≠ �0我们可以将这个边界框描述为有效且紧密：边界框完全覆盖了对象，并且框的每一边都与对象的轮廓相交。基于这样的特性，我们使用水平或垂直的矩形切片对边界框区域进行采样，其长度或高度与边界框相等，每个样本都包含至少一个正实例，而边界框外的超像素都可以被视为负实例。正如Wu等人在[42]中证明的那样，当0由于其中的对象是连续的，因此可以在单个图像上满足MIL约束。对于视频分割任务，我们将此方法扩展到一组连续的帧上，即在这组帧上同时训练正样本包和负样本包。高效的跟踪算法可以输出具有自适应尺度的准确边界框。这些算法采用区域提议或边缘检测方法来近似边界框到前景对象的边缘，使边界框紧密而高效地包含完整的前景对象和少量背景噪声。通过这种方式，我们构建了一个时空MIL模型，它对于由于MIL的弱监督性质而产生的错误具有鲁棒性。此外，它有利于时间一致性，因为它适用于比超像素更大的一组帧。我们的方法还考虑了每个帧内的拓扑信息。基于多实例学习的视频分割算法（超像素标记）的详细数学形式如下所示。为了训练MIL模型，假设我们在一组图像上有N个包，包括K个连续的帧，其中N =∑Kk=1Nk。在第i个包中，特征向量Xi = {xi1, ..., xij, ...,xim}表示其中M个实例的特征，yi � {0,1}表示包的标签，yij表示未知实例的标签。因此，训练数据具有以下形式：{(X1, y1), ..., (Xn,yn)}，表示实例的特征向量和未知标签。我们将pi定义为第i个包为正的可能性，pij表示第j个实例的可能性。为了保留每个帧内的拓扑信息以及帧之间的时间一致性，我们构建了以下损失函数：0L(φ) = Lt(φ) + λLs(φ)（1）0其中Lt(φ)表示时间项，它表示一组帧中包的负对数似然。Ls(φ)是空间项，它强制实施单帧内的连通性约束。φ表示弱分类器，下面将对其进行解释。这两个项的定义如下：0Lt(φ) = −log0ipyi(1 − pi)(1 − yi)（2）0Ls(φ) =0K0k = 10Nk0i = 10f(α,β)ραβ∥pαi−pβi∥2（3）0在空间项中，f(α,β)指相邻实例对，ραβ表示它们的公共边界的长度。在这种情况下，相邻的超像素倾向于共享相似的标签。对于时间模型Lt(φ)，将φ(xij)定义为一个实例级的弱分类器，我们采用Adaboost框架将弱分类器组合成一个强分类器Φxij。θ为每个弱分类器的权重，R为数量。(9)30140选择的弱分类器，强分类器可以表示为：0Φ(xij) =0r=1 θrφr(ij)（4）0计算每个弱分类器的响应后，通过选择具有最大判别能力的分类器来形成强分类器。每个实例的可能性由softmax函数给出：0pij = 0(1 + exp(−yij))（5）0使用ISR-Boost[18]的似然比，可以通过以下方式推断出包的可能性：0Si =0j � i exp(yij)（6）0pi = Si0(1 + Si)（7）0其中 S是ISR-Boost方法中定义的内部量。根据MIL-boosting方法[45]，方程（2）中实例的权重等于损失函数对 yij的变化的导数，我们对其应用链式法则：0ωtij = ∂l0∂yij = ∂logLt(φ)0∂pi0∂pi∂pij0∂pij ∂yij（8）0在我们的情况下，0ωij = ωtij + ωsij = ∂logL(φ)0∂yij0= ∂lo0∂yij + λ∂logLs(φ)0∂yij0= ∂logLt(φ)0∂pi0∂pi∂pij0∂pij ∂yij +λ∂logLs(φ)0∂pij0∂pij∂yij0根据ISR-boost，0∂pi ∂pij = (101−pij)2（10）0和∂logLs(φ)0∂yij =0f(α,β)2ραβ(piαi−piβi)(11)0方程（9）中的其余部分可以通过对方程（5）和（2）进行简单推导来推导出来。优化过程的目标是找到最佳的强分类器，将前景超像素和背景分开。此优化的每次迭代包含四个步骤：计算权重，使用该权重训练弱分类器，最小化损失函数和更新强分类器。在我们的情况下，总的弱分类器数目为R'，在我们的情况下等于200。03.4. 像素级细化0在前一节中，我们应用了一个时空MIL方法来处理视频分割问题。然而，由于MIL算法通常基于跟踪边界框定义的包，这些边界框在物体边界上通常不准确，MIL的输出倾向于将一些背景超像素偏向于“前景”标签。因此，我们需要一个后处理步骤来对MIL算法在超像素级别上操作的前景对象的轮廓进行细化和平滑。为此，我们提出了一种图割风格的算法用于此细化目的，该算法结合了像素和超像素提供的信息，以建立一个多层次、由粗到细的细化模型。注意，前一步骤的分割结果用于初始化此细化过程。根据Tsai等人的方法，细化过程的代价函数的数学形式定义为：0Etotal = Epixel(µ) + Esp(ν) + Epairwise(µ,ν)(12)0其中E表示视频中每个帧的能量函数，可以进一步扩展为像素、超像素和成对项的能量函数。µ和ν分别表示像素和超像素。在像素项中，我们使用RGB的GMM模型和CNN特征的SVM，而在超像素项中，将RGB特征以及超像素聚类的CNN特征输入能量函数。Epairwise是考虑像素和超像素之间的兼容性的项，可以表示为：0如果标签不同，则为|p(µi)−p(νj)|，否则为0（13），其中我们要求具有相似特征的像素和超像素具有相同的标签。对于每个像素/超像素，我们构建其跨三帧的邻居，即考虑帧内空间一致性和帧间时间一致性。04. 实验04.1. 实现细节0我们首先使用基于HCF-tracking和KCFDP-tracking的跟踪方法为所有帧生成自适应边界框，并使用SLIC-superpixel算法对每个帧进行分解。对于一张854×480的图像，产生大约3200个超像素。为了在超像素级别上为MIL方法生成包，我们将边界框缩小5%（cp=0.05）以采样正包，并将边界框扩大15%以采样负包（cn=0.15），以确保边界框的紧密性和有效性。为了30150表1. Segtrackv2数据集上的分割结果（%）。准确度由重叠比率表示。每个序列的平均结果是出现在同一序列中的对象的平均性能。每个对象的平均准确度是表中列出的所有对象结果的平均值。0序列 [ 38 ] [ 22 ] [ 41 ] [ 20 ] [ 40 ] 我们的0在线？� � � �0女孩 87.9 89.2 83.7 87.7 52.4 87.20鸟跌落 57.4 62.5 77.5 49 32.5 55.20降落伞 94.5 93.4 94.4 96.3 69.9 94.60猎豹-鹿 33.8 37.3 63.1 44.5 33.1 45.20猎豹-猎豹 70.4 40.9 35.3 11.7 14 68.90猴狗-M 54.4 71.3 82.2 74.3 22.1 59.70猴狗-D 53.3 18.9 21.1 4.9 10.2 59.20企鹅-1 93.9 51.5 92.7 12.6 20.8 92.30企鹅-2 87.1 76.5 91.8 11.3 20.8 88.20企鹅-3 89.3 75.2 91.9 11.3 10.3 910企鹅-4 88.6 57.8 90.3 7.7 13 85.20企鹅-5 80.9 66.7 76.3 4.2 18.9 82.60企鹅-6 85.6 50.2 88.7 8.5 32.3 87.80漂移-1 84.3 74.8 67.3 63.7 43.5 85.60漂移-2 39 60.6 63.7 30.1 11.6 38.50蜂鸟-1 69 54.4 58.3 46.3 28.8 70.30蜂鸟-2 72.9 72.3 50.7 74 45.9 73.30BMX人 88 85.4 88.9 87.4 27.9 93.70BMX自行车 7 24.9 5.7 38.6 6 9.50青蛙 81.4 72.3 61.9 0 45.2 83.80蠕虫 89.6 82.8 76.5 84.4 27.4 87.60士兵 86.4 83.8 81.1 66.6 43 85.50猴子 88.6 84.8 86 79 61.7 90.20天堂鸟 95.2 94 93 92.2 44.3 96.30平均/对象 74.1 65.9 71.8 45.3 30.7 75.50平均/序列 76.4 71.4 72.7 58.1 37.7 77.60注意，负样本是在扩展的边界框附近采样的，以便很好地表示近物体背景。我们设置弱分类器的数量 r = 15（共有 R ′= 200 个分类器），λ =0.05，并且使用广义均值作为指数为1.5的softmax模型。当边界框的大小大于整个图像的2/3时，我们直接将整个图像作为正样本。对于多尺度CNN特征提取器，我们提取VGG网络的第3、6、10、14和18层，并进行两次超像素聚类迭代。在像素级别上，我们将每帧输入VGG-19，然后将输出上采样到帧大小，以获取每个像素位置的CNN特征。此外，像素和超像素的CNN和颜色特征的权重分别为3、1、5、1，而像素和超像素的一般权重为1和15，以利用它们在数量上的差异。所有这些参数在实验中对所有数据集都是固定的。04.2. 结果与讨论0我们在两个流行的数据集上进行实验。0表2.Davis数据集上的分割结果（%）。准确度由重叠比率表示。*表示不完整的视频名称。0序列 [ 2 ] [ 10 ] [ 26 ] [ 33 ] [ 31 ] [ 9 ] 我们的0熊 93.7 92.9 95.5 90.6 89.8 90.7 92.90黑天鹅 87.1 93 94.3 90.8 73.2 87.5 94.70BMX颠簸 49 33.6 43.4 30 24.1 63.5 52.80BMX树 47.3 22.9 38.2 24.8 18 21.2 64.20船 61.9 70.5 64.4 61.3 36.1 0.7 63.10断舞 71.3 47.8 50 56.7 46.7 67.3 59.40断舞-�a* 73.3 43 72.7 72.3 61.6 80.4 73.10公共汽车 74.9 66.8 86.3 83.2 82.5 62.9 87.50骆驼 79.5 64 66.9 73.4 56.2 76.8 69.60环形车道上的汽车 78.6 72.6 85.1 71.7 80.8 50.9 88.80车影 70.1 64.5 57.8 72.3 69.8 64.5 82.40转弯的汽车 86.5 83.4 84.4 72.4 85.1 83.3 86.60奶牛 81.1 75.6 89.5 81.2 79.1 88.3 82.20跳舞 47 49 74.5 52.2 59.8 71.8 75.20旋转舞蹈 64.4 44.4 49.2 47.1 45.3 34.7 54.30狗 62.1 67.3 72.3 77.4 70.8 80.9 64.90狗敏捷 66.3 69.9 34.5 45.3 28 65.2 70.30漂移赛车 80.6 24.3 3.3 45.7 66.7 32.4 62.30直线漂移 75.3 61.8 40.2 66.8 68.3 47.3 55.80漂移转弯 85.6 71.7 29.9 60.6 53.3 15.4 68.30大象 68.6 75 85 65.5 82.4 51.8 87.80火烈鸟 85 53 88.1 71.7 81.7 53.9 83.60山羊 64.1 73.1 66.1 67.7 55.4 1 58.40徒步旅行 90 66.4 75.5 87.4 88.9 91.8 93.20曲棍球 77.5 67.7 82.9 64.7 46.7 81 62.20马跳跃高* 64.9 58.6 80.1 67.6 57.8 83.4 86.50马跳跃低* 54.5 66.3 60.1 60.7 52.6 65.1 79.80风筝冲浪 65.4 50 42.5 57.7 27.2 45.3 59.40风筝行走 73.6 50.9 87 68.2 64.9 81.3 86.40利比 65.5 29.5 77.6 31.6 50.7 63.5 85.20露西亚 82 83.6 90.1 80.1 64.4 87.6 82.10水鸭飞行 79.9 53.6 60.6 54.1 60.1 61.7 65.20水鸭 75.5 75.1 90.7 68.7 8.7 76.1 91.60摩托越野赛车 82.7 76.1 40.1 30.6 61.7 61.4 69.90摩托越野跳跃* 76 58.3 34.1 51.1 60.2 25.1 64.40摩托车 68.8 50.6 56.3 71.3 55.9 71.4 82.80滑翔伞 87.7 95.1 87.5 86.6 72.5 88 95.40滑翔伞起飞* 59.9 58.9 64 57.1 50.6 62.8 62.60跑酷 81.5 34.2 75.6 32.2 45.8 90.1 77.10犀牛 86.4 71.6 78.2 79.4 77.6 68.2 89.40轮滑鞋 55.4 72.6 58.8 45 31.8 81.4 89.70黑色滑板车 70.4 62.6 33.7 50.4 52.2 16.2 72.50灰色滑板车 65.3 12.3 50.8 48.3 32.5 58.7 71.30滑板车 68 75.8 78.9 44.9 41 63.4 65.30足球 85.6 9.7 84.4 82 84.3 82.9 92.30婴儿车 60 65.6 76.7 59.7 58 84.9 300冲浪 94.4 94.1 49.2 84.3 47.5 77.5 92.60秋千 70.9 11.5 78.4 64.8 43.1 85.1 82.10网球 71.4 76.5 73.7 62.3 38.8 87.1 58.90火车 53.5 87.3 87.2 84.1 83.1 72.9 91.60平均 72.4 60.7 66.5 63.1 57.5 64.1 75.20Segtrack v2数据集。我们在Segtrackv2数据集[22]上评估了我们的算法。该数据集包含14个视频。#2#5#8#23#2#16#33#49#2#21#35#79#2#20#32#68#2#10#23#4430160图3.我们在Davis数据集上的分割方法的演示结果。输出的掩码轮廓以红色标记。我们的方法能够在变形、运动模糊、外观变化和遮挡等困难情况下分割前景对象。详细信息也得到了很好的保留，如第三行的女孩的头发和天鹅的尾巴。最好以彩色查看。0表3. Davis和Segtrackv2数据集中示例序列的详细分析。跟踪精度通过边界框重叠计算。MIL表示在没有细化的超像素-MIL过程之后计算的分割掩码。像素级精度指最终的分割结果。0方法跟踪（%）MIL 像素级0女孩 92.5% 70.1% 87.2% 降落伞 77.5% 74.2%94.6% 猴狗(M) 69.0% 30% 59.7% 黑天鹅 95.2%73.2% 94.7% 徒步旅行 96.3% 77.9% 93.2% 婴儿车27.6% 17.2% 30.0%0有24个对象和947个标注帧。其中包括一些具有挑战性的视频，包括遮挡、运动模糊、外观变化和形变。其中一些视频包含多个对象之间的交互，可以依次进行分割。在这里，我们在表1中呈现了我们的结果。表1展示了所提算法的平均准确率和每个对象/序列的准确率，以及其他算法的准确率。0最先进的方法[38, 41, 20, 15, 40,22]。粗体字表示准确性由预测模型和真值掩码的重叠（IoU）表示。如表1所示，所提出的算法在该数据集上优于现有方法，特别是对于快速移动、非刚性对象和复杂变形的视频，如BMX-Person、Monkey、Frog、Hummingbird。尽管这些视频包含大的变形或聚集的背景变化，但所提出的方法表现出色。在线超像素跟踪方法[38, 41,15]在这些视频上表现不佳，因为即使一个错误分类也会在整个视频中传播，降低准确性。然而，在所提出的算法中，我们使用MIL方法增强了鲁棒性，这已被证明是有效的。同时，一些方法[40,15]没有考虑像素级信息。它们的结果在物体边界上不准确。在所提出的算法中，边界通过我们的多粒度系统进行了改进。对于外观变化较大的视频，如Bird of30170天堂和降落伞，提出的算法在现有方法[38, 40,15]上取得了良好的结果。通常这些方法会从整个图像中聚合超像素，或者仅考虑两帧之间的时间一致性。所提出的方法允许在粗略边界框内的多个连续帧中计算粒度，以进行MIL算法，因此可以预见到时间外观的变化。我们的方法还有利于前景和背景相似的视频序列，例如企鹅、青蛙，因为多级中增强了时间一致性。Davis数据集。DenselyAnnotated Video SegmentationDataset是由Perazzi等人在CVPR2016中提出的。它包含50个序列，3455个标注帧，以24fps和1080p以及480p的空间分辨率捕获。该数据集中包含视频分割任务的所有主要挑战，包括背景杂乱、变形、运动模糊、尺度变化、相机抖动、外观变化等。对于每个视频帧，他们提供了以二进制掩码形式的像素精确的手动创建的分割真值。展示并比较了十多种视频分割算法的结果。与Segtrack数据集类似，通过交并比（IoU）评估每一帧的结果。表2列出了提出的算法和6种现有方法的准确性。总体而言，我们的算法在其他最先进的方法上取得了更好的结果。从表中可以看出，所提出的方法在处理具有复杂外观变化（摆动、滑板车-黑色、滑板车-灰色、轮滑）、遮挡（狗、公共汽车）、运动模糊（狗、霹雳舞-耀斑）等具有挑战性的视频方面表现出色。图3列出了我们在该数据集上的几个分割结果示例。为了进一步分析我们的多粒度模型，我们在Segtrackv2和Davis数据集中列出了表3中的几个序列的跟踪生成的边界框准确性、MIL-超像素级准确性以及最终像素级准确性。从这个表中可以得出各种结论。首先，跟踪准确性极大地影响分割准确性。即使我们扩展边界框来采样负样本，并缩小它们来采样正样本，不准确的边界框也会导致大的误分类，使得边界周围的像素难以弥补错误。对于序列Drift-straight,Stroller，自适应边界框无法像前景物体一样扩展，因此该视频的准确性分别下降到55.8%和30%。然而，使用其他有利于大尺度变化的跟踪方法可以提高这种类型视频的准确性。理想情况下，当边界框收敛到紧密包围分割真值掩码并且MIL条件完全满足时，相同视频的准确性为91.2%和88.3%，这在一定程度上证明了方法的有效性。0图4.Davis（顶部）和Segtrack（底部）数据集上我们分割方法的演示结果。第一列是原始视频帧。第二列是超像素解析的结果。最后一列表示最终的改进结果。0所提出的方法及其与更好的跟踪方法的有希望的性能。其次，如表中所示，我们的多粒度方法可以有效地改进分割。即使在所提出的方法中，MIL过程中同时考虑了空间和时间信息，超像素仍然可能在边界上缺乏精度，特别是当前景对象不连接或存在孔洞时。如表所示，像素级信息可以将所列视频的准确性提高20%。图4给出了一个生动的例证。05. 结论0在本文中，我们介绍了一种多粒度分析框架，用于视频分割，以粗到细的方式证明了分割问题可以很容易地解决。我们在时间和空间域中都应用了多实例学习来处理时间超像素不匹配和跟踪边界框中的噪声背景的问题。我们展示了我们的方法在流行的数据集上相对于最先进的方法的有利表现。06. 致谢0该工作得到了国家重点研发计划（2016YFB1001003）的支持。该工作部分得到了NSFC（61502301），中国千人计划，国家自然科学基金（61521062），111计划（B07022）和上海数字媒体处理与传输重点实验室的支持。0参考文献0[1] R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua, and S.S¨usstrunk. Slic超像素与最先进的超像素方法相比较. TPAMI,34:2274–2282, 2012. [2] P. Arbel´aez, J. Pont-Tuset, J. T.Barron, F. Marques, and J. Malik. 多尺度组合分组. In CVPR,2014.30180[3] B. Babenko, M.-H. Yang, and S. Belongie.基于在线多实例学习的鲁棒目标跟踪. TPAMI, 33:1619–1632,2011. [4] V. Badrinarayanan, F. Galasso, and R. Cipolla.视频序列中的标签传播. In CVPR, 2010. [5] T. Brox and J. Malik.大位移光流：变分运动估计中的描述符匹配. TPAMI, 33:500–513,2011. [6] J. Chang, D. Wei, and J. W. Fisher.一种使用时间超像素的视频表示. In CVPR, 2013. [7] M. Danelljan,F. Shahbaz Khan, M. Felsberg, and J. Van de Weijer.用于实时视觉跟踪的自适应颜色属性. In CVPR, 2014. [8] T. G.Dietterich, R. H. Lathrop, and T. Lozano-P´erez.使用轴平行矩形解决多实例问题. 人工智能, 89:31–71, 1997. [9] A.Faktor and M. Irani. 非局部一致性投票的视频分割. In BMVC,2014. [10] Q. Fan, F. Zhong, D. Lischinski, D. Cohen-Or, and B.Chen. Jumpcut: 非连续的掩码转换和插值用于视频剪辑. ACMTransactions on Graphics (TOG), 34:195, 2015. [11] A. M.Ferman and A. M. Tekalp.用于时间视频分割和视觉摘要的高效过滤和聚类方法. Journal ofVisual Communication and Image Representation, 9:336–351,1998. [12] F. Galasso, R. Cipolla, and B. Schiele.带有超像素的视频分割. In ACCV, 2012. [13] F. Galasso, M.Keuper, T. Brox, and B. Schiele.用于高效图像和流媒体视频分割的谱图简化. In CVPR, 2014. [14]F. Galasso, N. Shankar Nagaraja, T. Jimenez Cardenas, T. Brox,and B. Schiele. 一个统一的视频分割基准：注释，度量和分析. InICCV, 2013. [15] M. Grundmann, V. Kwatra, M. Han, and I.Essa. 高效的基于层次图的视频分割. In CVPR, 2010. [16] S. D.Jain and K. Grauman. 视频中的超像素一致前景传播. In ECCV,2014. [17] W.-D. Jang and C.-S. Kim.通过短期分层分割和逐帧马尔科夫随机场优化进行流媒体视频分割.In ECCV, 2016. [18] J. D. Keeler, D. E. Rumelhart, and W.-K.Leow. 手写数字的集成分割和识别. 微电子和计算机技术公司,1991. [19] A. Khoreva, F. Galasso, M. Hein, and B. Schiele.基于分类器的图构建用于视频分割. In CVPR, 2015. [20] Y. J. Lee,J. Kim, and K. Grauman. 视频对象分割的关键片段. In ICCV,2011. [21] V. Lempitsky, P. Kohli, C.

下载后可阅读完整内容，剩余1页未读，立即下载