动态记忆视频对象分割的质量感知

120 浏览量更新于2023-11-30 收藏 2.44MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文学习质量感知的动态记忆视频对象分割刘勇1人，余冉1人，尹飞1人，赵新元2人，赵伟2人，夏伟豪3人，杨玉久1人。1清华大学深圳国际研究生院2华为技术3伦敦大学学院{liu-yong20，yu-r19} @ mails.tsinghua.edu.cn，yang. sz.tsinghua.edu.cn抽象的。近年来，一些基于时空记忆的方法已经证明，存储中间帧及其掩码作为分类器有助于分割视频中的目标对象。然而，它们主要集中在当前帧和存储器帧之间的更好匹配上，而没有明确地关注存储器的质量。因此，具有较差分割模板的帧容易被记忆，这导致分割模板误差累积问题，并进一步影响分割性能。此外，随着帧数的增长，内存帧的线性增长也限制了模型处理长视频的能力。为此，我们提出了一个质量感知的D-记忆网络（QDMN），以评估每一帧的分割质量，允许记忆库有选择地存储准确分割的帧，以防止错误积累问题。然后，我们结合分割质量和时间一致性，动态更新内存库，以提高模型的实用性。在没有任何附加功能的情况下，我们的QDMN在DAVIS和YouTube-VOS基准测试中实现了最先进的性能此外，大量的实验表明，所提出的质量评估模块（QAM）可以应用于基于内存的方法作为通用插件，并显着提高性能。我们的源代码可以在https://github.com/workforai/QDMN上找到。关键词：视频对象分割，内存库1介绍给定视频和第一帧的单个或多个对象的注释，半监督视频对象分割（Semi-VOS或One-shot VOS）旨在分割后续帧中的这些对象。Semi-VOS是计算机视觉中最具挑战性的任务之一，具有许多潜在的应用，包括交互式视频编辑，增强现实和自动驾驶。本工作是在华为技术公司†通讯作者arXiv：2207.07922v1 [cs.CV] 2022年7+v：mala2255获取更多论文2Y. Liu等人图1：不同质量的记忆帧的视觉比较第一行显示了MiVOS的内存帧[6]。第二行显示了我们方法的内存帧。黄色框区域说明了误差累积。与其他分割任务不同的是，Semi-VOS的关键问题在于如何充分利用时空信息来识别目标对象。因此，与历史参考帧进行匹配的方法近年来受到了极大的关注一些作品[40，50，52]利用第一帧和前一个相邻帧作为参考。由于参考信息有限，这些方法往往在具有挑战性的场景下失败，例如。目标物体消失一段时间或剧烈变形。为了挖掘更多的信息，时空记忆网络（STM）[29]利用记忆网络来记忆中间帧及其分割掩码作为参考，这已被证明是有效的，并已成为当前的主流框架。许多方法[35，21，6，14，46，36，42，7]进一步发展了STM的特征提取和存储器读出过程，并取得了优异的性能。但是，这些方法主要集中在优化匹配过程，而忽略了匹配目标的影响，即，内存库，对分割结果。具体地，先前的方法以直接的方式选择存储器帧，即，以固定的帧间隔存储。这种方法有两个缺点：（1）具有较差分割结果的帧可能被记忆，并为后续帧提供错误的参考，这导致误差累积问题如图1的第一行所示，如果存储体中存在不准确分割的掩码，则后续帧的分割质量将大大降低。这样的观察启发我们更加关注存储体的设计。由于基于匹配的方法依赖于存储体来识别目标对象，因此存储体的质量（尤其是正确性）非常重要。(2)在现有的方法中，存储体的大小将随着增长而无限扩大这使得这些模型无法处理长视频，极大地限制了它们的实用性。因此，存储体的设计方法是基于时空存储器的方法的一个重要问题。一般来说，我们认为存储体的设计应符合以下原则：（1）Accu-+v：mala2255获取更多论文用于视频对象分割的学习质量感知动态记忆3racy：在单次场景中，存储器组应该由注释帧和尽可能准确地分段的帧组成，以获得正确的监督信息。（2）时间一致性：考虑到运动的连续性，相邻帧中的对象状态趋于相似。换句话说，相邻帧的掩码对当前帧有很大的参考。基于这两个原则，我们可以选择性地存储具有更多参考信息的帧作为内存，并动态更新内存库以处理任意长度的视频。为此，我们提出了一种质量感知的动态记忆网络（QDMN），它引入了一种简单而有效的质量评估模型（QAM）来评估每一帧的分割结果，并决定是否可以将一帧作为参考添加到记忆体中。意识分段质量的提高限制了噪声的影响，并为动态更新存储体提供了准确性凭证。此外，由于相邻帧中的对象与当前目标具有相似的状态，我们引入了时间正则化来惩罚过时的记忆。大量的实验表明，根据准确性和时间一致性原则设计的存储体动态更新策略是合理的性和有效性通过设计高质量的内存库并引入节奏一致性，我们的方法在DAVIS [33]和Youtube-VOS [47]基准上实现了新的最先进的性能，而没有任何花里胡哨的东西。此外，我们还验证了基于内存的方法可以通过简单地将我们的QAM作为视频对象分割任务的通用插件来获得显着的改进。我们的贡献可归纳如下。首先，我们指出了存储体的设计作为半VOS任务的阿喀琉斯之踵，并提出了设计高质量的存储体的策略。其次，我们提出了一种用于Semi-VOS的QDMN，它可以选择性地存储高质量的帧，并利用时间一致性。第三，QDMN可以有效地控制内存帧数，避免内存爆炸。在DAVIS和YouTube- VOS数据集上的实验表明，该方法优于现有的方法.此外，QAM可以用作通用插件来改进基于内存的方法。2相关工作基于简化的方法。基于简化的方法[39，9，8，49，1，15，41]将半监督视频对象分割视为掩码传播任务。MaskTrack [31]将前一个相邻帧的分割掩码与当前图像连接起来作为输入，并在线微调网络。 AGSS-VOS [24]提出了一种注意力引导的解码器，以组合实例特定分支和实例不可知分支。基于掩模置信度和掩模浓度，SAT [3]选择性地将整个图像或局部区域传播到下一帧。基于传播的方法利用了先前相邻帧提供的强先验。它可以更好地处理出现的-+v：mala2255获取更多论文4岁。Liu等人但在遮挡和误差积累问题上存在致命的缺点。基于检测的方法基于检测的方法将半VOS任务分为三个子任务：检测、跟踪和分割。DyeNet [20]使用RPN [34]生成建议，并应用重新识别模块执行匹配。PReMVOS [26]使用Mask RCNN [12]来获得粗略的掩码，并执行光流，重新识别以实现良好的性能。Huang等人 [16]和Sun等人 [38]使用动态模板库将分割集成到跟踪中。基于检测的方法严重依赖于检测器，这极大地限制了这种方法的性能。基于匹配的方法基于匹配的方法通过参考帧和当前帧之间的匹配来识别目标对象，由于其优异的性能和鲁棒性而受到广泛关注。PML [4]提出了一种具有最近邻分类器的像素级嵌入网络。FEELVOS [40]和CFBI [50]分别与第一帧和前一相邻帧AOT [51]通过采用识别机制将多个目标对象关联到同一嵌入空间STM [29]利用记忆网络来记忆中间框架作为参考，这已被证明是有效的，并已成为当前的主流框架。基于STM，KMN [35]和RMNet [46]提出执行本地到本地匹配而不是非本地匹配。SwiftNet [42]和AFB-URR [23]通过计算查询和内存之间的相似性来减少内存重复冗余LCM [14]强调了第一帧和前一个相邻帧的重要性。STCN [7]改进了特征提取，并通过解耦图像和掩模来执行合理的匹配。在基于记忆的思想之后，STM仍然有许多变体，例如JOINT[27]，EGMN [25]，MiVOS [6]，DMN-AOA [22]，HMMN [36]等。虽然这些方法已经取得了很好的性能，他们主要集中在更好地匹配当前帧与内存帧。换句话说，以前的作品致力于优化匹配过程，而忽略了与正确的对象匹配的重要性。此外，他们没有考虑到内存的大小与视频的长度线性增长，这极大地影响了模型在实际场景中的应用，由于硬件内存的限制。3方法3.1概述我们的QDMN的整体架构如图所示二、与STM [29]类似，在视频处理期间，当前帧（第t查询和内存被编码成键和值+v：mala2255获取更多论文用于视频对象分割的学习质量感知动态记忆5图2：QDMN概述（a）是存储体中的参考帧的特征提取(b)QAM是用于评估当前帧是否可以添加到存储体的模块。(c)是用于预测当前帧的分割结果的流水线。通过视觉编码器和相应的卷积层进行映射为了突出视频的时间一致性，首先利用先验掩码对查询特征ft进行增强，得到增强后的特征fe然后通过相应的卷积层将增强的特征编码成密钥KQ和值VQ对空时存储器读取块执行像素级匹配betweenKQ和存储器密钥KM。相对匹配相似度用于寻址记忆值VM，并且将对应的值组合到解码器以进行分割。最后，质量评估模块（QAM）评估分割结果的质量，并决定查询帧是否可以成为内存帧。3.2质量评估模块记忆体的设计是基于记忆网络方法的一个重要问题。对于现有的策略，具有错误掩码的帧可能被记忆，这导致错误累积问题。为了缓解这个问题并确保内存库的准确性，受[17，18]的启发，我们提出了质量评估模块（QAM）来评估分割质量并决定是否可以将帧添加到内存库作为参考。QAM是一个结构简单但有效的模块，由一个分数编码器，四个卷积层和两个MLP层组成它将查询图像It及其分割掩码Mt作为输入，并输出预测的质量分数。由于分数编码器Encs的特征提取过程与+v：mala2255获取更多论文×∈∈∈不不⊕NN我我我我i=16岁。Liu等人评分：0.64评分：0.92评分：0.39评分：0.81图3：具有不同质量分数的分割掩模的图示。这三行分别表示基础事实、分割结果和QAM预测的质量分数。对于记忆编码器EncM（两者都将带有分割掩码的图像作为输入），我们直接使用记忆编码器作为分数编码器，这有助于节省计算和参数。具体地，分数编码器Encs和存储器编码器EncM的结构相同，并且参数共享。QAM首先将查询图像It R3×H×W及其分割掩码Mt R1×H×W送入分数编码器，得到分数特征图fsRC×H/16×W/16，其中H W为输入图像的分辨率然后，将fs输入到卷积层和全连接层以学习分割质量评分SA对于当前帧。分割质量的过程评估可以表示为：fs=Encs（ItMt）;SA=Fc（Conv（fs）），（1）其中表示级联操作。t是当前帧的索引。Conv和Fc分别表示具有S形非线性函数的卷积层和全连接层在训练期间，质量分数的目标值被定义为分割掩码和地面真值之间的掩码IoU。具体计算过程如下：损失=1<$（SA−maskIoU（M，GT））2，（2）其中SA表示第i个对象的分割结果的质量分数，Mi指示分割结果，GTi是基础真值。N表示对象的总数。由于QAM单独评估每个对象的分割质量，因此我们将一帧中所有对象得分的平均值作为该帧的质量得分。此外，考虑到不同视频场景的分割难度不同，我们将视频中所有帧的质量分数归一化，以更好地衡量分割结果的相对质量，这有助于在具有挑战性的场景下记住更多有用的信息具体地说，+v：mala2255获取更多论文S不1不12：S=exp（k-j）不不一minminK不KSA=Ni=1ti，（3）1KKK不阿学习视频对象分割的质量感知动态记忆7每个帧的最终质量分数是其初始预测分数除以第一帧的分数。形式上，该过程可以表示为：1美元SA其中，N表示第t帧中的块的总数，S′A表示第t帧中的分割结果的质量分数，S′A表示第t帧中的分割结果的质量分数。第一帧的分数。图3显示了质量评估的一些可视化结果，前两列是相同的视频，最后两列表示另一个视频。我们可以观察到，在第一列中，驾驶员被认为是汽车的一部分，这是一个糟糕的情况。第三列中的粉红色斑马无法识别，橙色斑马与类似的背景对象匹配。对于困难的情况下，我们的QAM识别这些次优的结果很好，这表明帧的分割精度与其质量分数是一致的。大量的实验也证实了这一点。利用QAM，存储器组可以选择性地存储质量分数高于存储器阈值σ的帧，即具有准确分割掩码的帧这样，即使由于快速对象运动或其他因素导致帧分割不良，也不会影响后续帧或导致误差累积。3.3动态更新内存条随着帧数的增长，存储帧数的无限增加大大限制了存储器的容量。它的实用性的模型在现实世界的情况。因此，有必要限制存储体的大小并动态更新以适应新的场景。由于视频的时间一致性，相邻帧中的目标对象的外观是相似的。相邻帧的掩码对当前帧的分割更有指导意义结合上述分析并考虑到准确性，我们建议在根据这两个原则（Algo-算法：1动态存储体的伪代码输入1：t=2#给出第一帧的地面真值掩码2：j=1#内存帧的相对索引3：当t≤Ldo4：如果SA≥σ，则5：#过滤不准确分割的帧6：j=j+17：如果len（Memory）≤β，则8：Memory.add（{j：[It，Mt，SA]}）#storeIt，Mt，S到内存中的j位置。9：其他10：SR，idmin=inf，inf11：forkinMemory.keys（）do#k是帧在内存条中的相对索引CK13：SR=SA+SC14：如果SR

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

动态记忆视频对象分割的质量感知

首个基于Transformer的分割检测+视觉大模型视频课程（附源码+课件）

自动驾驶感知深度学习pytorch

gee snic 面向对象 分割

python视频画面分割

视频语义分割有什么好用的工具

python 面向对象分割

java将一个XSSFWorkbook对象分割成好几个XSSFWorkbook对象

跟视频语义分割有什么区别

数组对象分割成两个数组对象中间砍一半

视频的多画面分割及视频信号的分配

ffmpeg 将视频固定分割成8分钟的视频

python 面向对象影像分割

用python实现视频分割

语义分割解码器加入边缘感知部分

comsol分割对象

envi均值漂移(meanshift)算法进行对象分割

matlab视频分割

质量分割具体有什么操作

qt widget 视频分割画面

python 根据字幕分割视频

最新资源

gee snic 面向对象分割