层次记忆网络用于视频对象分割

102 浏览量更新于2023-10-13 收藏 3.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12889用于视频对象分割的层次记忆匹配网络Hongje Seong1 Seoung Wug Oh2 Joon-Young Lee2Seongwon Lee1 Suhyeon Lee1 Euntai Kim1，*1延世大学2Adobe Research摘要我们提出了分层记忆匹配网络（HMMN）的半监督视频对象分割。基于最近的基于内存的方法[33]，我们提出了两个高级内存读取模块，使我们能够在多个尺度下执行内存读取，同时利用时间平滑性。我们首先提出了一个内核引导的内存匹配模块，取代了非本地密集内存读取，通常采用在以前的基于内存的方法。该模块在记忆读取中施加时间平滑度约束，从而导致准确的记忆检索。更重要的是，我们介绍了一个层次化的内存匹配方案，并提出了一个top-k引导的内存匹配模块，其中内存读取的细尺度上的粗尺度上的指导。通过该模块，我们有效地执行多尺度的内存读取，并利用高级语义和低级细粒度内存功能来预测详细的对象掩码。我们的网络在 DAVIS 2016/2017（ 90.8% 和 84.7% ）和 YouTube-VOS2018/2019（82.6%）的验证集上实现了最先进的性能和82.5%）和DAVIS 2017的测试开发集（78.6%）。源代码和模型可在线获得：https：//github.com/Hongje/HMMN网站。1. 介绍半监督视频对象分割（VOS）的目标是在给定第一帧处的对象掩模的情况下预测视频的每一帧中的前景对象掩模。最近，基于存储器的VOS方法[33，39，27，21，22，23]取得了巨大的成功。基于存储器的方法的关键思想是在查询（即，当前帧）和存储器（即，具有给定或预测掩模的过去帧）以在像素级检索存储器由于摄像机的视场或视频中的对象可能移动，因此执行时空非局部和密集匹配以计算所有匹配可能性的相似性。现有的基于存储器的*通讯作者。存储器（一）查询存储器（b）第（1）款查询1/2conv1conv11/2conv1conv11/4res2res21/4res2密集匹配res21/8res3res31/8res3密集匹配res31/16Res4密集匹配Res41/16Res4密集匹配Res4存储器（c）第（1）款查询1/2conv1conv11/4res2顶部-已修复的空间在ch ingres21/8res3顶部-已修复的空间在ch ingres31/16Res4核引导稠密匹配Res4图1.先前的基于存储器的方法仅在粗略分辨率下密集地匹配图像特征，如（a）中所示为了在多个尺度下进行存储器读取，可以在每个尺度（b）下天真地应用密集匹配，但是它需要过高的计算成本并且由于噪声低级特征而不鲁棒。在我们的分层存储器匹配架构中，如（c）所示，细尺度匹配由粗尺度匹配引导，从而在多个尺度中实现方法：时间平滑和细粒度的记忆信息。时间平滑性是我们可以为VOS任务假设的强约束之一先前没有存储器的VOS方法通常在两个相邻帧之间应用局部匹配[43，50]或局部细化[34，16，32，49，13，53然而，在基于内存的方法[33]中，非局部匹配完全忽略了约束，并且它增加了错误匹配的风险（例如当存在多个相似实例时，参见图12。（3）第三章。另一个弱点是缺乏细粒度的内存信息。在基于存储器的方法中，查询编码器仅获取当前帧而没有任何目标信息。因此，内存匹配是获得目标对象掩码信息的唯一来源。先前的基于存储器的方法仅在最粗略的分辨率下进行存储器匹配（例如，1/16的输入分辨率[33]），如图所示第1（a）段。在低分辨率下，虽然精确匹配是可能的与高水平12890OO语义特征，我们不能期望细粒度的信息，这也是重要的预测精细详细的面具。在本文中，我们提出了层次记忆匹配网络（HMMN）与两个新的记忆匹配模块。为了利用时间平滑性，我们提出了内核引导的内存匹配模块。我们限制两个相邻帧之间的可能的对应关系到一个局部窗口，并应用内核指导的非本地内存匹配，施加时间平滑度约束。对于远距离帧之间的远程匹配，我们跟踪每个内存像素到查询像素的最可能的对应关系，并根据时间距离应用宽松的内核指导，从而实现从局部到全局内存匹配的平滑过渡。该模块取代了以前基于内存的网络中的非本地内存读取。为了检索细粒度的内存信息，我们提出了top-k引导的内存匹配模块。密集内存匹配的计算成本的增长quadrati- cally增加搜索空间。在精细尺度上天真地执行存储器读取[51]（图2）。1（b））需要极其繁重的计算。此外，在精细尺度下与低级特征匹配的存储器我们的top-k引导内存匹配解决了计算成本和匹配鲁棒性问题。我们首先使用粗尺度的匹配相似性得分对每个查询像素的前k个候选存储器位置进行采样。然后，我们在每个查询像素和对应的可识别存储器位置之间进行精细规模的存储器匹配，如图所示。第1段（c）分段。前k引导的内存匹配降低了匹配的复杂性，在高分辨率显着从（TH2W2）到（kHW），其中T，H和W是时间，高度和宽度的特征图，和k是一个常数。粗到细的分层匹配方案使得我们的细尺度存储器匹配即使具有低级别特征也是鲁棒的。我们注意到，一些以前的作品[19，55]也通过提取k个匹配候选项来降低相反，我们从高级别（即，粗尺度）语义特征，因此将选择语义上更准确的匹配候选我们的贡献总结如下：• 我们提出了内核引导的内存匹配模块，施加时间平滑性约束的非局部匹配与所有的内存帧。• 我们提出了前k引导内存匹配模块，从而产生高效和强大的精细规模的内存匹配。• 通过这两个新的内存匹配模块，我们提出了分层内存匹配网络（HMMN），它可以有效地进行由粗到细的分层内存匹配。• 我们的网络在DAVIS和YouTube-VOS基准测试中都达到了最先进的性能。2. 相关工作半监督视频对象分割：半监督VOS [35，36，48]已经以两种方式解决：在线学习方法和离线学习方法。在线学习方法[5，3，44，1，28，29，47，7，30]在测试时使用第一帧的给定地面真实掩码微调网络微调的目的是让网络检测每个视频的目标对象因此，在线学习方法可以通过训练特定于目标的网络来预期准确的结果，但是它们在运行时受到严重的缺点，因为在测试期间需要在第一帧上多次训练网络。离线学习方法旨在训练一个网络，该网络适用于任何输入视频，而无需测试时训练。它通常通过掩模传播或逐像素匹配来解决。基于传播的方法[34，16，12，20，32，15，4，54，11]训练网络以从第一帧顺序地传播给定掩码。由于传播是在短时间间隔内进行的，因此这些方法通常利用时间平滑度约束，但对遮挡不鲁棒。基于匹配的方法[41，13，52，43，14，50]基于与先前预测的或给定的掩模的匹配来预测当前帧中的前景掩模最近，STM [33]引入了一种用于离线学习VOS的基于存储器的方法，并且在实现快速运行时间的同时展示我们的方法遵循基于内存的方法，我们解决现有方法的主要局限性。基于存储器的视频对象分割：记忆网络[42，31，18]将外部信息存储为键和值，然后通过与键的非本地匹配通过查询来检索值。它首先被提出用于自然语言处理，STM [33]将内存网络重新用于基于内存的VOS。STM使用非本地和密集内存匹配来检索内存，并使用检索到的内存在查询中找到目标对象。EGMN [27]从STM扩展而来，提出了利用查询更新记忆的图记忆网络。GC [21]介绍了一种新的全局匹配方法，用于快速内存匹配。Liang等人[23]提出了一种自适应存储器更新方案，以减少存储器匹配时的冗余计算。 Li等[22]探索了训练和推理的循环机制，以提高性能。KMN[39]还进行了存储器到查询的匹配，然后在查询上应用2D高斯内核以进行鲁棒匹配。先前的基于存储器的方法忽略了时间平滑度，这是VOS的最重要线索之一，因为它们以非局部方式执行存储器匹配。此外，以前的工作仅在最粗糙的分辨率下进行存储器匹配，这12891}{----联系我们记忆：过去的帧（RGB，蒙版）······1/2，641/4，2561/8，5121/16、1024conv1res2res3res4conv1res2res3res4conv1res2res3res4关于我们concat.concat.查询：当前帧（RGB）44内核引导的内存匹配434预测（掩码）Encoder3Top-引导式内存匹配23解码器2Top-引导式内存匹配2图2. HMMN的概述。我们的网络由两个基于ResNet的编码器组成，用于查询和提取多尺度特征的内存帧，在粗尺度上操作的内核引导内存匹配块，在更细尺度上操作的top-k引导内存匹配块，以及一个解码器，用于获取内存读取结果并产生最终的掩码预测。很难期望获得精细的掩模信息。我们通过引入两个匹配模块，内核引导的内存匹配和top-k内存匹配来解决这个问题。请注意，我们的内核引导的内存匹配与KMN [39]中使用的内核化完全不同，KMN [39]基于非局部匹配生成内核，因此不会利用时间平滑性。3. 方法我们的方法，分层记忆匹配网络（HMMN），是基于STM [33]。给定第一帧处的地面实况对象掩模，我们从第二帧到最后一帧顺序地预测目标对象掩模。与预测或给定掩码级联的过去帧被设置到存储器，并且当前帧被用作查询。主要的区别来自于层次记忆的构建和使用分层存储器的目标是在基于存储器的VOS架构上利用从低分辨率语义特征到高分辨率详细特征的多个尺度中的为了有效地从分层存储器中读取信息，我们设计了两种类型的存储器匹配模块基于特征图的尺度：在最粗尺度处的内核引导的密集存储器匹配，以及在精细尺度处的top-k引导的在最粗略的尺度上，我们执行与STM [33]和其他变体类似的密集和非局部查询-内存匹配。但是，我们通过利用时间平滑作为额外线索的内核指导来提高全局匹配的鲁棒性在较细的尺度之后是最粗的级别，我们利用来自最粗级别的匹配结果作为指导来执行稀疏查询-存储器匹配。具体地说，我们采取的top-k内存匹配的每个查询点在最粗的尺度，并使用它们来指导稀疏匹配在更细的尺度。通过这种方式，我们可以检索精细详细的内存信息，同时与密集内存匹配相比，只需要很小的计算成本。我们的网络概述如图所示。二、在我们的网络中，内存和查询帧首先被送入两个独立的基于ResNet50的编码器。两个编码器都从ResNet 50的第S个res块中提取多尺度特征-我们使用三个尺度，其中S2，3，4与相对于输入图像的1/4，1/8，1/16的输出尺度。在每个尺度上，按照从粗到细的顺序，我们通过匹配查询和存储器特征来执行存储器读取，然后输出进一步通过解码器来预测对象掩码。对于最粗尺度的内存匹配，嵌入式查询和内存Q4、M4被送入核引导内存匹配模块，输出更新特征（Z4）和用于内存检索的相似度矩阵引导（g4）对于更细的尺度（S为2或3），使用top-k引导的记忆匹配模块代替。它采用一对嵌入式查询和存储器QS，MS以及指导（g4），并输出更新的特征ZS。最后，解码器获取所有输出特征Z_S（作为输入或通过跳过连接），并进行掩码预测。注意，除了新3×3转换res2conv1res3Res43×3转换残余块细化模块细化模块12892×M⊙·K·→→K·K K·M记忆（1/16）��×H ×W × C4查询（1/16）H×W × C43×3转换3×3转换3×3转换3×3转换��HW×C/2��HW×C/8HW× C/8HW× C/24444��HW×C/8matmul.C/8 ×HW图3.我们的内核引导匹配模块的效果。(a)STM不使用双向存储器到查询匹配。(b)KMN以非局部方式执行存储器到查询匹配，因此它不能利用时间平滑先验。(c)我们的内存到查询的匹配是通过connect-内核生成跟踪历史（1：T-1）（T）（��− 1）HW×1更新跟踪��HW×HW切片（时间=T）HW×HW局部注意力简体中文argmax（T）（T+1）softmax（dim=1）使用局部跟踪，因此它可以对（1：T-1）（T+1）跟踪结果HW×1查询到内存匹配结果。存储器匹配模块，我们保持网络结构的其余部分（例如，编码器和解码器设计）相同��= 1��=��− 1内核生成��STM[33]。HW×HWHW×HWHW×HW3.1. 内核引导的内存匹配随着嵌入式存储器和查询（M4，Q4），例如C/2×HW��matmul.��HW×HW逐元素多值��HW×HW在res4阶段从每个编码器提取，我们首先通过四个独立的3 × 3卷积层对密钥（kM4，kQ4）和值（vM4，vQ4）进行编码。然后，使用如下键执行存储器和查询高×宽 ×高/2concat.4高×宽 ×高/24低点：M4=kM4kQ4，（1）图4.内核引导内存匹配模块的详细实现。我们使用蓝色和红色分别表示内存和查询维度。注意我们可以访问轨道-其中n表示矩阵转置。基于非-局部匹配（ 4），我们通过以下方式计算注意力图（g4）：g4=L1（K（M4）⊙softmax（M4）），（2）其中指示逐元素乘法，L1（）是沿着存储器维度归一化的L1归一化，并且（）是2D高斯核。然后，使用注意力图（g4）检索记忆值，如下所示：使用预先保存的历史（1：T-1）（T），因此仅需要重新计算前一帧和当前帧（T）（T+1）之间的跟踪。相邻帧之间的相似局部位置（即，时间平滑度）被完全忽略。为了利用这种行为，我们另外生成基于时空局部匹配的内核指导（（））。如示于图3（c），我们进行存储器到查询匹配是-vM′4 =vM4g4.（三）为每个内存像素补间两个相邻帧。在这里，我们将匹配限制为仅在低-最后，查询值（vQ4）与窗口大小为s的区域连接。每两triveed value（vM′output.4）沿特征尺寸为在相邻帧中，我们通过在具有最高相似性的局部窗口内选择单个像素来在这里，我们将时间平滑性（即视频的常见和强约束）施加到通过内核先验（）.如果（）=1，输出-put（Z4）将与vanilla mem的输出相同STM [33]中使用的存储器读取块换句话说，STM[33]仅基于非本地查询到存储器匹配来检索存储器（即，softmax（4）），如图所示。第3（a）段。因存储器查询时间=1时间=T时间=T+1预测〮〮〮〮〮〮〮〮〮：本地窗口：内存到查询匹配：查询到内存匹配(c)我们(a)STM(b)KMN12893此，物体可能出现在评分这样，每个存储器像素可以通过逐帧连接本地像素级跟踪来到达最佳匹配的查询像素。基于所得到的内存到查询的匹配，我们为每个内存像素生成标准偏差为σt的2D高斯核。随着存储器到查询的时间距离的增加，跟踪误差可以累积并且时间平滑性约束减弱。因此，我们放松了内核的指导12894硬件× C/8 ×4softmax（dim=2）HW×4�� ×4丢弃添加2H×2W × C/42H ×2W × C/4引导（1/16）记忆（1/8）查询（1/8）4非本地4匹配（matmul.）查询（1/8）一公司��简介4产品型号：2H×2W ×C32H×2W × C/234��×4[（7，3），（7，4），（8，3），（8，4）]处的像素联系我们图5. res 3阶段的top-k选择示例为了简化说明，在该示例中k通过根据TEM控制标准偏差，4HW×C/4��34HW×C/8��34HW× C/834HW× C/43按σt=σ计算的孔隙距离 init +（T-t）σ因子 . 这是-公司简介HW×4�� × C/8matmul.导致从局部到全局存储器的平滑过渡根据查询和存储器特征之间的时间距离进行匹配内核引导的内存匹配模块的详细实现如图1所示。4.第一章请注意，我们的内核指导受到KMN [39]的启发，但目标完全不同。KMN [39]仅将内核用于双向注意的鲁棒匹配，因此内核是基于非局部匹配生成的，如图所示。3（b）款。然而，我们的内核指导是基于完全局部匹配的，并且它有效地HW× C/4 ×4��× C/4 ×42W× C/43利用时间平滑如图所示。3（c）款。3.2. Top-k引导内存匹配在记忆匹配模块中计算稠密时空注意图的主要目的是找出每个查询像素何时何地注意到记忆像素。然而，以高分辨率计算密集注意力图需要非常大的计算资源，因为其计算复杂度相对于特征图大小成二次方地增长。因此，为特征层次结构的更精细级别（res3和res2）计算密集注意力图在计算上我们通过使用top-k指导减少内存中匹配候选的数量来解决这个问题。这里，我们假设高分辨率下的匹配结果应该与低分辨率下的匹配结果相似。通过这个假设，我们重用低分辨率下的密集匹配结果在图1B中描绘了选择k个像素并针对每个查询像素引导到高分辨率的图示。五、基于res 4阶段得到的低分辨率注意图（g4），通过top-k操作为每个查询像素选择k然后，仅执行对来自存储器的所选像素的稀疏匹配。注意，res 4中所选择的k个像素分别对应于res 3和res 2阶段的4k和16k个像素，因此我们在res 3和res 2阶段采用k和k/4来引导每个像素，这种基于稀疏匹配的存储器读取模块可以利用常见张量操作的组合来有效地实现。前k个引导的存储器匹配模块的详细实现在图1中示出。六、前k个引导存储器匹配模块（Z3，Z4，Z5）的输出被称为前k个引导存储器匹配模块（Z3，Z4）的图6. top-k引导内存匹配模块在res 3阶段的详细实现内存和查询dimen- sions表示使用蓝色和红色。补充材料中提供了res2阶段的详细实施情况。Z2）通过相应比例的快捷连接馈入解码器。请注意，在模块中，而不是直接使用检索到的值作为输出，我们放置一个卷积层，然后是Dropout层，然后添加到查询值作为残差。该设计选择是由于以下观察。在没有丢弃的情况下，模型趋向于收敛到不利用粗尺度上的匹配结果的次优状态（即，res4处的存储器）。这种次优模型似乎采取了更容易解决的捷径，简单地依赖于低级掩模信息（即，res2和res3处的存储器），忽略高级语义匹配。我们能够通过在训练期间随机丢弃整个输入特征的dropout层之后通过残余连接以限制性方式传递信息来防止以这种方式，网络必须将top-k引导的记忆匹配模块的输出视为补充信息，以在最粗略的分辨率下细化记忆匹配。4. 实验4.1. 实现细节训练为了与STM [33]进行公平比较，我们遵循相同的训练策略。我们使用ImageNet [38]预训练的权重初始化编码器，并随机初始化其他层。然后，我们使用[8，25，9，40，6，45]中的对象掩码拍摄图像，并在1/16->1/ 8 top-选择查询（1/16）内存（1/16）记忆（1/8）一（4，2）处的像素顶部-高分辨率的屏幕3×3转换3×3转换3×3 conv 3×3conv分层展平顶部-选择HW2H×3×3转换matmul.12895×FJJF方法OLJFJF表1. DAVIS 2016验证集的比较。（+YV）指示YouTube-VOS另外用于训练，并且OL说明在线学习策略在测试时间期间的使用。本表中报告的时间测量值直接来自相应的论文。图像数据集。具体来说，我们通过随机仿射变换增强每个图像来生成三帧。随机仿射变换包括旋转、剪切、缩放、平移和裁剪。在预训练期间，top-k引导的记忆匹配模块（§3.2）中的丢弃率从1逐渐降低到0.5。在图像数据集上进行预训练后，根据目标基准，使用DAVIS 2017 [36]或YouTube-VOS 2019 [48]训练集进行在主训练期间，从视频中随机采样三帧，最大间隔逐渐增加（从0到25）。在top-k引导记忆匹配模块中，丢失率从0.5逐渐降低到0.在预训练和主训练期间，我们使用Adam优化器[17]最小化像素交叉熵损失，学习率设置为1 e-5。我们使用的输入大小为384 384和小批量大小4。根据[33]，当视频中存在多个目标对象时，我们采用软聚合操作推理。如在[33，39]中，我们取第一帧、前一帧和每5帧采样的中间帧用于最粗尺度（M4）中的存储器。对于精细尺度存储器（M3，M2），除非另有说明，否则我们不使用中间我们在训练和推断使用相同数量的k用于前k引导的记忆匹配，其被设置为32。第3.1节中的内核指导仅在推理过程中使用，如KMN [39]。我们尝试在训练过程中使用内核指导，但没有明显的改善。我们将σ init和σfactor的标准差分别设置为3和0.5，并且我们使用的窗口大小为 7 。我们使用单个 NVIDIA GeForce1080 Ti GPU来测量运行时间。4.2. 比较我们将我们的HMMN与DAVIS [35，36]和YouTube-VOS [48]基准上的最先进方法进行比较。对于DAVIS基准测试，在以下主要培训期间使用DAVIS 2017培训集的60个表2.DAVIS 2017验证集的比较方法OLJFJFCINN [1]✓67.564.570.5DyeNet [20]✓68.265.870.5PReMVOS [28]✓71.667.575.7STM（+YV） [33]72.269.375.2加拿大（+YV）[50]74.871.178.5KMN（+YV）[39]77.274.180.3HMMN（+YV）78.674.782.5表3.DAVIS 2017测试开发集的比较共同评估协议[32，49，33，39]。此外，我们使用来自Youtube-VOS的额外训练视频报告了我们在DAVIS基准测试中的结果，以便与一些最近的方法进行公平比较[33，39，2，50，27，37]。对于Youtube-VOS基准测试，使用了3471个视频的训练集。对于所有实验，我们要么使用官方评估代码，要么将结果上传到评估服务器。DAVIS[35，36]是一个密集注释的VOS数据集，主要用于评估VOS模型。为了在DAVIS基准上评估HMMN，我们使用480p分辨率的输入大小用于所有实验。DAVIS数据集分为两组：（1）DAVIS 2016，它是对象级注释数据集（单个对象）;以及（2）DAVIS2017，它是实例级注释数据集（多个对象）。官方的度量，区域相似性和轮廓精度，测量比较。如表1所示，我们的HMMN实现了最先进的性能，同时在DAVIS 2016验证集上快速运行。此外，即使没有额外的YouTube- VOS数据集来训练HMMN，我们也超过了大多数最先进的方法。我们还对DAVIS 2017验证和测试开发集进行了比较，结果见表2和表3。如表中所示，我们的HMMN在DAVIS 2017验证和测试开发集上的得分分别显著优于当前最佳结果的1.9%和1.4%我们在表格中略去了一些类似的作品完整的比较表可在材料。YouTube-VOS[48]是VOS的大规模基准。为了在YouTube-VOS基准上评估我们的HMMN，我们方法OLJFJF时间电子OSVOS [30]✓86.886.687.03.4秒DyeNet [20]✓-86.2-2.32秒[第46话]✓87.186.687.64sSTM（+YV）[33]89.388.789.90.16秒加拿大（+YV）[50]89.488.390.50.18秒KMN（+YV）[39]90.589.591.50.12秒[37]第37话✓76.7--电子OSVOS [30]✓77.274.480.0PReMVOS [28]✓77.873.981.7LWL（+YV） [2]81.679.184.1STM（+YV） [33]81.879.284.3加拿大（+YV）[50]81.979.184.6[27]第27届中国国际音乐节82.880.285.2KMN（+YV） [39]82.880.085.6HMMN80.477.783.112896J J FF不J JFF不不∞∞J FGK*[39]K不时间戴维斯20162017YouTube视频2018 2019✓✓✓✓✓✓✓0.07秒89.282.279.279.30.07秒89.583.379.880.00.07秒90.083.180.780.90.10秒90.883.681.181.20.10秒90.884.181.781.80.10秒90.884.782.682.5表4. YouTube-VOS验证集的比较。G是S、U、S和U的平均值。*表示使用我们的训练设置再现的结果。将输入图像缩小到480p分辨率。我们分别测量了65个可见对象类别和26个不可见对象类别的区域相似性（ S， U）和轮廓准确度（ U， U）在表4中，我们将HMMN与YouTube-VOS 2018和2019验证集上的最新请注意，只有CFBI [50]正式报告了YouTube-VOS 2019验证集的比较，因此我们还报告了使用我们的训练设置的STM [33]和KMN [39]的再现结果如表4所示，我们的HMMN在YouTube-VOS 2018和2019的所有官方指标中都超过了最先进的方法。定性比较。图7示出了与STM [33]和KMN [39]的定性比较在图中，STM[33]当出现多个相似对象或发生几次遮挡时，几乎无法预测目标对象（DAVIS示例）。KMN [39]未能预测一个非常小的对象（YouTube-VOS示例）。另一方面，我们的HMMN预测的目标对象准确地在挑战的情况下。补充材料中提供了更多的定性结果。4.3. 消融实验模块消融。我们对我们提出的两个记忆匹配模块进行了消融研究，以证明这些模块的有效性。我们还将我们的内核引导内存匹配与KMN [39]中提出的内核化方法进行了比较。如表5所示，我们的内核引导比来自KMN的内核引导更有效，并且通过top-k引导的存储器模块使用精细尺度存储器极大地将性能提升到最先进的水平。时间稳定性（）。为了验证我们的HMMN的有效性时间平滑定量，我们评估表5. 模块消融研究。我们报告&和DAVIS和Youtube-VOS的评分。在DAVIS 2016验证集上测量运行时间基线模型是STM [33]。 K* [39]表示[39]中提出的核化，以及K和T分别指示我们的内核引导的存储器匹配和前k个引导的存储器匹配模块DAVIS 2016验证集上的时间稳定性（）[35]。STM[33]、KMN [39]和我们的HMMN分别获得了17.2%、15.2%和13.0%的评分（越低越好）这意味着我们的方法显着提高了STM和KMN的时间稳定性。k像素选择策略。为了验证我们的top-k指导（第3.2节）的有效性，我们研究了对k个记忆像素进行采样的各种策略。如在表6（a）中可以看出，具有简单采样方法（随机、步幅）的精细尺度存储器不提供相对于基线（k=0）的一致改善然而，使用我们的top-k指导的精细尺度内存即使在k的数量很小的情况下也会产生显着的性能改善。K的影响。我们进一步研究了k在训练和推理过程中的作用，将k的数量从32增加到. 这里，k=指示使用不带- out采样的密集内存。如表6（b）所示，与使用前k采样存储器相比，在训练和/或推断中使用密集精细尺度存储器降低了整体性能。我们推测，在细尺度，功能是不够强大的全球和密集的匹配。在这种情况下，top-k指导可以通过将搜索空间限制为几个可靠的选项而有利于抑制噪声。虽然我们的默认设置是为训练和推理设置k=32，但我们观察到，通过调整k可以进一步提高性能。高分辨率内存的压差。表6（c）示出了前k引导的存储器模块中的丢失的影响。正如我们在3.2节中所讨论的，我们的dropout策略使我们的网络能够有效地利用分层记忆进行学习。精细内存管理。表6（d）示出了我们可以通过利用来自从每5个帧采样的中间帧的精细尺度存储器来然而，这种配置需要太多的GPU存储器来存储存储器特征，而性能改进是微不足道的。默认情况下，我们使用第一帧和前一帧作为精细尺度内存来运行HMMN。请注意，我们使用中间帧作为粗尺度存储器。方法OLGJSYouTube视频JU2018FS验证FU设置AGSS-VOS [24]71.371.365.575.273.1电子OSVOS [30]✓71.471.774.366.073.8FRTM [37]✓72.172.365.976.274.1STG-Net [26]73.072.769.175.274.9STM [33]79.479.772.884.280.9AFB+URR [23]79.678.874.183.182.6EGMN [27]80.280.774.085.180.9CFBI [50]81.481.175.385.883.4KMN [39]81.481.475.385.683.3LWL [2]81.580.476.484.984.4HMMN82.682.176.887.084.6YouTube-VOS 2019验证集STM*[33]79.379.873.083.880.5KMN*[39]80.080.473.884.581.4CFBI [50]81.080.675.285.183.0HMMN82.581.777.386.185.0128977×584.4/82.511×984.8/82.4J FG图7. DAVIS 2017测试开发和Youtube-VOS 2019验证集的定性比较。我们将HMMN与STM [33]和KMN [39]进行比较。我们使用红框标记了STM和KMN的显著改进。K06412883.1/80.982.9/80.582.2/80.3培训k32∞32 84.7/82.582.3/81.5培训无脱落81.5/80.7，无脱落84.7/82.5精细尺度存储器帧首页上一页84.7/82.5每5帧84.9/82.525681.9/81.1（b）具有大量k的结果。窗口大小标准偏差（σinit）2· 8282.4/80.33 384.0/82.51 83.6/82.02· 1228163283.3/80.582.2/81.483.2/82.084.7/82.4精细尺度存储级无83.1/80.9res283.2/82.1res383.2/81.65×9×7 84.7/82.5×11 84.7/82.3384.7/82.55 84.0/82.47 83.8/82.483.8/82.2(a)各种k像素选择策略的比较。res2&384.7/82.5(e) 用于前k存储器匹配模块的存储器级。∞84.2/81.0(f)内核引导内存匹配模块中的窗口大小。11 83.7/81.9(g) 核引导记忆匹配模型中高斯核的标准偏差表6. 消融研究。对于每个设置，我们分别报告了DAVIS 2017和YouTube-VOS 2019验证集的结果和分数精细记忆阶段。我们逐阶段消融分级存储器，结果在表6（e）中给出。如表中所示，在两个阶段中使用内存层次结构显示了最佳性能。如果分层存储器仅用于单个阶段，有趣的是，采用更精细规模的存储器（即RES 2级）实现了更好的性能，即使我们在RES 2级将k的数量减少到k/4认为更精细尺度的存储器可以向来自最粗糙尺度的存储器提供更多的补充信息。窗口大小的&标准差σ init。表6（f）和6（g）显示了引导内核的参数搜索实验（§ 3.1）。为s和σinit选择过大和过小的值会降低性能。因此，我们选择适当的窗口大小s和高斯核σinit分别为7×7和35. 结论我们提出了两个先进的内存匹配模块，有效地利用时间平滑和层次记忆。我们通过大量的实验证明了我们的HMMN的功效，并在所有评估的基准测试中实现了最先进的性能，同时保持了快速的运行时间。我们相信，我们提出的两个内存匹配模块可以进一步扩展到其他基于匹配的视觉应用，如视频显著性检测，视频实例分割，和语义对应。谢谢。这项工作得到了工业核心技术开发项目20005062的支持，开发人工智能机器人自主导航技术，用于拥挤空间中的敏捷运动，由贸易部，工业能源（MOTIE，大韩民国）资助。DAVIS 2017测试开发YouTube-VOS 2019验证百分之二十百分之六十百分百百分之二十百分之六十百分百HMMN（我们的）KMNSTM步幅随机top-k推理6412884.9/82.582.6/81.582.8/81.4(c)实验结果与(d)记忆人的比较256∞82.7/81.582.0/78.8 82.1/80.5并且在top-k内存匹配模块agement 战略对于top-k内存匹配模块12898引用[1] Linchao Bao，Baoyuan Wu，and Wei Liu.mrf中的Cnn：通过基于cnn的高阶时空mrf中的推断的视频对象分割。在CVPR中，第5977-5986页，2018年。二、六[2] GoutamBhat、FelixJéremoLa win、MartinDanelljan、An-dreas Robinson、Michael Felsberg、Luc Van Gool和RaduTimofte。学习视频对象分割的学习内容。在ECCV，2020年。六、七[3] Sergi Caelles ， Kevis-Kokitsi Maninis ， Jordi Pont-Tuset，LauraLeal-Taixe'，DanielCremers和LucVanGool。单镜头视频对象分割。在CVPR，第221-230页，2017年。2[4] 陈曦、李作新、叶远、于刚、沈建新、齐东莲。用于实时视频对象分割的状态感知跟踪器。在CVPR，第9384-9393页，2020年。2[5] 程景春，蔡义轩，王胜金，杨明轩。Segflow：视频对象分割和光流的联合学习。在ICCV，第686-695页，2017年。2[6] Ming-Ming Cheng ， Niloy J Mitra ， Xiaolei Huang ，Philip HS Torr，and Shi-Min Hu.基于全局对比度的显著区域检测。IEEE Transactions on Pattern Analysis andMachine Intelligence，37（3）：569-582，2014. 5[7] Kevin Duarte ， Yogesh S. Rawat 和 Mubarak Shah Cap-sulevos：使用胶囊路由的半监督视频对象分割。在ICCV，2019年10月。2[8] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010. 5[9] BharathHariharan，PabloArbela' ez，LubomirBourdev，Subhransu Maji，and Jitendra Malik.从反向检测器的语义轮廓在ICCV，第991-998页。IEEE，2011年。5[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。3[11] Ping Hu，Jun Liu，Gang Wang，Vitaly Ablavsky，KateSaenko，and Stan Sclaroff. Dipnet：用于视频对象分割的动态身份传播网络。在WACV，第1904-1913页，2020中。2[12] 胡元婷，黄家斌，亚历山大·施温。Maskrnn：实例级视频对象分割。在NIPS，第325-334页2[13] Yuan-Ting Hu ， Jia-Bin Huang ， and Alexander GSchwing. Videomatch：基于匹配的视频对象分割。参见ECCV，第54-70页，2018年。一、二[14] Xuhua Huang，Jiarui Xu，Yu-Wing Tai，and Chi-Ke

下载后可阅读完整内容，剩余1页未读，立即下载