视频对象抠图的分层时空语义指导方法

188 浏览量更新于2023-10-15 收藏 2.93MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5120−基于分层时空语义指导的视频对象抠图Yumeng Wang1，2， Xiao Xu1，*，Ziwen Li1，Han Huang1，Cheng Lu3，and YandongGuo1 <$1 OPPO研究院，2西北工业大学，3Xmotorsyandong. live.com摘要不同于大多数现有的方法，需要为每一帧生成三重图，我们重新制定视频对象抠图（VOM）通过引入改进的语义指导传播。所提出的方法可以实现较高程度的帧之间的时间相干性，只有一个单一的粗掩模作为参考。在本文中，我们适应分层记忆匹配机制到时空基线，建立一个有效的和强大的框架，语义指导传播和阿尔法预测。为了增强时间平滑性，我们还提出了一个跨帧注意力细化（CFAR）模块，该模块可以基于跨帧像素之间的时空相关性来细化多个相邻帧（历史帧和当前帧）的特征表示。大量的实验证明了层次时空语义指导和跨视频帧注意力细化模块的有效性，我们的模型优于最先进的VOM方法。我们还分析了模型中不同组件的重要性1. 介绍视频对象抠图（VOM）的目的是从连续的视频帧中识别和预测一个或多个目标前景对象的α抠图该技术已成功应用于许多需要背景替换的领域，例如，实时视频创建、娱乐视频创建和特效电影制作。目前，抠图通常被公式化为图像合成问题。它的目的是从仅3个已知值中求解每个像素的7个未知变量I i=αi Fi+（1α i）Bi，其中像素i的三维RGB颜色I i，而前方RGB颜色Fi、背景RGB颜色Bi和遮片估计α i是未知的。与图像抠图相比，视频抠图的核心挑战之一是在alpha预测中保持时空一致性。和*Yumeng Wang和Bo Xu贡献相同。†通讯作者。帧t帧t+1帧t+2帧t+3(a) 帧(b) 传播三重映射(c) 通过TCVOM(d) 我们预测的阿尔法马特图1.一种最先进的基于三重图的方法TCVOM [34]和我们的方法之间的视觉比较三分图传播网络在某些场景下无法找到理想的三分区域分布，这可能导致抠图过程中语义信息传播失败而我们的分层时空语义引导VOM方法可以有效地保持语义传播的完整性。对于视频对象抠图（VOM），在运行抠图模型之前，需要预先指定感兴趣最近提出的算法[28，34]利用trimap（标记前景，背景和未知区域的草稿）作为约束信息来定位目标区域。这种方法将抠图过程分为两个阶段：trimap生成和基于trimap的alpha预测。它首先通过将一个或多个用户注释的三重图传播到其他目标帧来逐帧生成三重图然后，网络将视频帧和相应的三元图作为alpha预测的输入。虽然这种基于三重图的视频对象抠图方法使问题更易于处理，但仍然存在两个大的挑战。首先，仅给定一个或几个用户注释的参考框架，当前的三重图传播网络难以找到理想的三分区区域分布，这可能导致语义不一致。5121在消光过程中的地层传播故障，如图1所示。其次，手动逐帧检查所传播的三重图或密集地内插用户注释的三重图以供参考对于用户来说可能是相当繁重的为了解决上述问题，我们在时空空间中引入分层语义指导来指导alpha预测，而不是传播的三重图。我们在时空对应网络（STCN）[3]基线之上采用分层内存匹配机制。此外，我们建立了一个新的分层时空语义指导视频对象抠图（HSTSG）框架，以实现有效的语义指导传播和时间相干阿尔法预测。与之前的两阶段VOM方法[28，34]相比，我们的算法仅需要第一帧的注释语义掩码作为目标前景参考。此外，它将语义引导传播和阿尔法预测结合到一个统一的任务中。为了增强预测结果的时间平滑性，提出了一种跨帧注意力细化（CFAR）模块，该模块基于跨帧像素间的时空分布，对多个相邻帧（历史帧和当前帧）的特征表示进行细化。CFAR还可以提高模型为了证明我们的解决方案，我们在多个公共数据集上进行了广泛的实验。实验结果表明，我们提出的方法优于所有国家的最先进的VOM方法。总体而言，本文的贡献如下：• 我们将层次语义指导引入到时空空间中，以指导alpha预测而无需每帧trimap生成，并实现更好的语义传播。• 我们提出了一个基于STCN的时空网络与层次记忆匹配机制，建立更强的时间一致性α预测。我们还将语义指导传播和alpha预测合并到一个任务中，而不依赖于冗余的trimap生成。• 我们提出了一个跨帧注意力细化（CFAR）模块，以提高跨多个相邻帧的时间平滑度。• 大量的实验证明了我们的方法的有效性，优于国家的最先进的（SOTA）的方法在多个VOM基准。2. 相关作品2.1. 图像抠图。基于Trimap的方法。传统上，大多数抠图方法需要一个三重图作为辅助信息，以补偿抠图方程的不适定性。三元图由人类注释，包含前景、背景和未知区域.传统上，[4，7，8，25]利用从前景和背景中采样的像素颜色类似地，[27，13，1]通过从前景和背景像素传播它来确定alpha蒙版。最近，已经提出了深度学习方法来解决端到端的抠图问题。[30 10，18，6]将输入图像与其三重映射连接在一起，并应用编码器-解码器网络以获得抠图结果。[30]还介绍了一个名为AdobeImage Matting（AIM）的大型抠图数据集。尽管这些方法取得了巨大的成功，但由于获得每幅图像的精确三重图的成本很高，因此仍然很难在实践中部署。基于背景的方法其他一些方法试图用相对便宜的替代品来取代trimap。[22 16]提出通过图像和其背景的组合背景图像作为绿色屏幕馈送到网络，因此它可以很容易地区分前景。这种方法取得了很好的效果，但存在计算效率低的问题，因此只能在低分辨率下工作。[16]降低其复杂性以执行高分辨率和实时抠图。然而，当相机抖动或背景变化时，这两种方法都有限制。Trimap自由方法。由于三重图很难产生，人们一直在努力摆脱它。[21，33]直接输出任意图像的抠图结果。但由于缺乏先验信息，有时他们会表现得低于预期。[35，26]是专门为人像抠图设计的，所以他们可以使用人像的语义但它们可能在细节区域（如头发）失败。2.2. 视频抠图。虽然基于图像的抠图已经显示出显著的成功，并且可以简单地逐帧应用于视频，但是存在利用视频的时间相关性来提高抠图质量的若干尝试。视频肖像/人体铺垫。一些基于视频的方法是专门为人类抠图设计的。[12]首先执行单帧遮片，然后通过后处理来加强相邻结果的然而，它不能处理人类移动太快的情况。[17]使用递归神经网络来获取时间信息。借助时间信息，5122查询键编码器KQ我记忆键编码器KM我值编码器VM我−联系我们--−我我我存储器过去帧解码器跳过连接注意力优化分层内存匹配图2.我们的分层时空语义指导视频对象抠图（HSTSG）模型的架构。HSTSG首先提取分层关键特征，然后将它们与历史关键进行比较。然后，提出了一种层次化的内存匹配，从内存库中检索值特征跨视频帧的注意力细化网络之后，集成的时空邻域的多个相邻帧的特征表示。在人类视频抠图方面达到了最先进的效果。视频对象抠图。由于很难获得大而鲁棒[34]发布了一个大型基准数据集及其两阶段视频抠图算法。它首先为每一帧生成三重图，然后使用注意力机制聚合时间特征以逐帧预测alpha蒙版[28]还跨不同的帧传播三重图。对于抠图模块，[28]从多帧中提取不同的空间和时间特征，从而产生空间和时间上连贯的结果。此外，还提出了一种视频对象抠图数据集。我们的工作也在这两个数据集上进行了3. 架构我们的分层时空语义引导视频对象抠图（HSTSG）网络被设计为仅在第一帧的注释语义掩码作为参考的情况下自动预测准确的alpha抠图和相应的语义掩码它可以在同一任务中执行语义传播和alpha预测，而无需生成冗余的trimap。HSTSG网络的架构如图2所示，我们首先提取分层关键特征，然后将其与历史密钥进行比较。然后通过分层内存匹配模块从内存库中查询值特征我们还提出了一个跨视频帧的atten- tion细化网络，以整合跨多个相邻帧的时空邻域的特征表示。3.1. 分级键和值编码器我们设计了基于STCN的分层密钥编码器和值解码器[3].分层关键字编码器将每个查询帧作为输入，并提取分层关键字特征以生成查询帧和存储器帧之间的分层时空对应关系。虽然三图传播在某些场景下（例如，自遮挡、透视变化），然而语义掩码可以在传播过程期间提供鲁棒的二进制估计（即前景或背景）[3]。受此启发，我们利用二进制语义掩码作为语义指导，并与alpha预测一起执行掩码预测。分层值编码器被设计为利用分层语义指导将预测的阿尔法遮罩和语义遮罩嵌入到值特征中。不失一般性，我们分别采用 ResNet50[9] 和ResNet18[9]作为分层密钥编码器和值编码器的主干。从第i个Res 块中提取层次关键特征（查询关键字KQ和存储器关键字KM）和值特征VM，其中输出尺度相对于查询帧为1/4，1/8，1/16，其中i 4，3，2。与以前的基于记忆的方法相比，我们维护了一个分层特征的记忆库来检索相应的多尺度值特征，这些特征可以在全局和局部级别上增强时空相干性。3.2. 分层内存匹配模块考虑到全局和细节的鲁棒性，我们设计了一个分层的topk滤波记忆匹配模块，以利用多个特征层次上的互补使用Top-k过滤的内存读取操作5123联系我们IJIJIJ∈IJJ不不不IJ我JAttn不横⇓不不关键字和值映射。在我们的存储器读取操作开始时，我们计算第s个特征中的每个查询像素和存储器像素之间的亲和度，通过点积如下计算在s级（s1/4，1/8，1/16）的成对亲和度矩阵AffsAffs=kMs·kQs（一）其中Aff s表示在第i，j个位置处的特征向量-ki和kj之间的亲和度得分。然后，我们在第s个特征级别定义前k个滤波引导的软最大归一化亲和度sexp（Affs）Wij=Δijexp（Δ ffs）.exp（Aff s）ksW =ΣIJsiTopk（Affs）国际新闻报exp（Affs），如果i∈Topj（Aff）0，否则（二）VQs=VMsWs（3）重新增强的检索值图3.实现我们的分层内存匹配模块，如3.2节所述。如在最近的存储器读取方法[3，19，2，23，15，11]中，每个查询和存储器像素之间的亲和度匹配首先由存储器匹配模块计算。然而，分层像素到像素密集注意力图生成伴随着高度昂贵的计算成本。其中Topk（Affs）表示在第s级处的Affs的查询帧的聚集读出分层特征VQs可以被计算为具有Ws的存储器特征的加权和。我们遵循[24]来利用所选择的k个最佳匹配在较粗级别（低分辨率，例如1/16）注意力图中的存储器像素，以引导较细级别（较高分辨率，例如1/8）注意力图中的4k检索值VQs与历史相邻查询值连接，以产生跨帧检索值V'Qs，然后将其馈送到跨帧注意力细化模块，以提高时间平滑度。3.3. 跨帧注意力优化。为了增强时间平滑度，我们提出了一个基于变换器的[29]跨帧注意力细化（CFAR）模块，该模块利用来自多个相邻帧（历史帧和当前帧）的时空邻域来基于时空相关性细化VQS我们沿着时间维度将当前查询关键字KQs与KQs和KQs连接起来，t t−1t−2Q成本为了解决这个问题，我们在分层内存匹配模块中引入了top-k过滤，图3显示了我们的内存读取操作的详细实现。产生跨帧查询键Kt。我们首先在第s个特征级别计算相邻查询关键字映射的像素之间的时空亲和度气给定一个查询框架和T记忆框架，我们首先S横=Attn. K<$Qs，K<$Qs（4）计算每个存储器帧的键和值特征。然后在每个特征层上沿时间维度分别连接不同记忆帧的键特征和值特征，生成层次结构的特征映射。然后，可以如下增强跨帧检索值VqsVs=V<$Qs+so ftmax（A ff s）<$L1。第1055章：一夜情（5）KKQ16Q8K年q4K1K1K1Q16Q8年.........KT1KT1KT1Q16Q8年KQ4KQ8KQ16KM16KM8KM4Ck HWTop-k选择HW-KC THWTHWVM16 阿夫夫16Ck4THW引导Top-k选择C4K4HW硬盘4K4 4THWVM8 B.A.A.8引导Ck16 THWTop-k选择16HW16KC16 KKAff4M4坦克历史查询键历史检索值注意力优化密钥编码器AFF5124⊙·Attn横方法三重图设置MSEVMDMAD SSDA dtSSD MESSDdtDIM [30]全三重映射9.9944.3861.8534.552.82[第18话]全三重映射9.3743.5358.8333.032.33GCA [14]全三重映射8.2040.8555.8231.642.15[34]第34话全三重映射7.0737.6550.4127.281.48TCVOM [34]1-三重映射22.1557.4077.2332.182.97HSTSG（我们的）1-面罩12.4837.9756.0928.031.86表1.我们的HSTSG与最先进的方法在VideoMatting108测试集上的结果，使用中等trimap设置。 TCVOM（GCA）是指TCVOM[34]利用GCA [14]作为骨干。方法Trimap/Mask设置DVMMSE（10−3）MAD Grad Conn dtSSD MESSDdtDIM[30]全三重映射3054.5535.3855.1623.480.53[第18话]全三重映射2853.6827.5254. 4419.50.49[第10话]全三重映射2751.7828.5749.4619.370.5GCA[14]全三重映射2247.4926.3745.2318.360.33DVM[28]全三重映射1440.9119.0240.5815.110.25[32]第三十二话全面罩1943.2825.1443.9619.410.42DVM[28]20-三重映射1643.6626.3942.2316.340.28HSTSG（我们的）1-面罩526.7411.1122.6813.920.26表2.我们的HSTSG与最先进的方法在DVM测试集上的结果。“full-trimap” and “20-trimap” means user-annotated trimaps areprovided frame-by-frame and every 20 frames哪里表示逐元素乘法，L1（）是L1标准化，它沿几何维进行标准化。最后，我们采用标准FFN来增强注意力值的特征表示能力：该数据集依赖于绿屏视频片段来提取地面真实的alpha蒙版，其中68个来自互联网的高质量（1080p和4K）蒙版和40个通过自我收集的绿屏蒙版，该数据集在训练集中分为80个片段，在验证集中分为28个片段的Qs交叉 =FFN（Vs）联系我们（六）生成VideoMatting108的地面实况三重图，用随机大小的内核（从1 × 1这些过程通过应用注意机制对全局框架施加局部约束。增强的检索值VQs然后通过对应尺度的快捷连接被馈送到解码器中，以预测当前和相邻查询帧的细化语义掩码和阿尔法遮片。相应的结果也在存储体中更新。4. 实验在本节中，我们首先描述用于训练和测试的数据集。随后，我们将我们的结果与现有的最先进的（SOTA）前景抠图算法。最后，我们分析了我们的分层时空语义引导视频对象抠图（HSTSG）中每个组件的有效性。4.1. 数据集和实验设置。108. biggest biggest VideoMatting108数据集[34]由108个1080p分辨率的视频剪辑组成。的V）+V512551 × 51）在训练中。DVM。[28]第二十八话6500个自然场景的各种现实生活视频作为背景。此外，它还包括来自互联网的绿色屏幕视频剪辑，作为前景色和阿尔法蒙版生成的目标。训练集包含6400个视频，由325个图像加上75个绿屏视频的前景和16个自然背景视频合成。测试集包含248个视频，通过将50个图像加上12个绿屏视频的前景与4个自然背景视频合成评估指标。为了数值评估al-tensin，我们采用SSDA（平均平方差和）、MESSDdt（翘曲时间梯度之间的均方差）和dtSSD（直接时间梯度的均方差）作为时间相干性度量[5]。此外，我们还采用MAD（平均绝对差）、MSE（均方误差）、Grad（梯度误差）和Conn（连通性误差）来评估5126×车架GT GCAMG交配上下文感知TCVOM我们(a) 舞女(b) 狮子图4.在VideoMatting108数据集上比较alpha预测与最先进的方法GCA和CAM将逐帧三重图作为输入，MG将逐帧掩码作为输入。模块VMDHMMM CFAR MSE MAD SSDA dtSSD MESSDdt32.14 72.48 72.363.34✓28.43 64.88 70.15 36.492.91✓ ✓18.20 53.152.82✓ ✓19.41 52.65 64.282.43✓ ✓15.96 30.17 64.672.46✓ ✓ ✓12.48 37.97 56.09 28.031.86表3.模块和培训阶段的消融。“预训练”意味着模型使用DIM数据集上的预训练权重进行初始化。HMMM和CFAR代表了我们的分层记忆匹配模块和跨框架注意力细化。每像素精度[30]。实作详细数据。我们的视频垫子网络的训练包括两个阶段。在第1阶段之前，我们使用在分割数据集[20，31]上训练的STCN [3]的权重初始化我们的基线模型。在第一阶段，我们在DIM数据集上预训练模型[30]。然后，我们继续在第2阶段的视频抠图数据集[34，28]上训练我们的我们重新缩放所有视频帧，训练中的512个512像素块。对于推理，我们使用全分辨率作为输入。为了正确管理训练样本和内存库的持续时间，我们主要遵循STCN的实现细节[3]。补充材料中提供了更多的4.2. 与现有技术方法的比较。为了评估我们的视频抠图方法的性能，我们将我们的HSTSG与最先进的基于trimap或掩码引导的图像抠图方法进行了比较：DIM[30]，IndexNet[18]，Context-Aware[10]，GCA[14]和MG Mating[32]，所有这些都需要逐帧的用户注释三重图或掩码;基于trimap的视频对象抠图：DVM[28]和TCVOM [34]在给定一个或多个用户注释的三重图之后需要三重图传播。我们遵循TCVOM [34]中的trimap传播策略来生成trimap，当这样的注释给出了我们报告了MSE、MAD、SSDA、dtSSD和MESSDdt，以及预测和预训练5127车架GT GCAMG交配上下文感知TCVOM我们(a) 瑜伽(b) 戴围巾的女人图5.与DVM [28]数据集上最先进的方法进行视觉比较特征步幅（m）VMD16 8 4 MSE MAD SSDA dtSSD MESSDdt✓78.23 114.3346.153.60✓52.14 89.37 86.5437.172.88✓24.82 67.41 79.7832.002.58✓ ✓39.43 74.03 79.8330.592.46✓ ✓19.69 58.56 70.2029.122.18✓ ✓17.35 41.10 64.1728.961.91澳门新萄京12.48 37.97 56.09 28.03 1.86表4.不同尺度的层次记忆性能比较地面真相阿尔法马特。为了公平地进行比较，我们在VideoMatting108 [34]和DVM [28]基准测试中微调了这些基于图像的方法。对于基于trimap的方法，我们只测量未知区域上的误差，而对于我们的无 trimapHSTSG，我们测量全局误差。108. biggest biggest 表1显示了我们的HSTSG和其他SOTA模型在Video-Matting 108数据集上的定量结果，该数据集具有用于基于trimap的方法的中等trimap设置。我们观察到，我们的HSTSG在4/5指标上优于DIM [30]和IndexNet [18]，在3/5指标上优于GCA。我们的HSTSG与TCVOM（GCA）[34]相比，仅表现出较小的幅度，其中全三重图设置需要昂贵的手动注释。虽然只给出一个用户注释的trimap或mask，但我们的HSTSG比最先进的VOM方法（TCVOM（GCA）[34]）性能更好，这表明我们的分层时空语义指导机制可以有效地保持语义传播的完整性和时间一致性。VideoMat-ting108 [34]上的一些可视化如图4所示。DVM。表2显示了我们5128存储器管理MSEVMDMAD SSDA dtSSD MESSDdt每5帧57.1977.3184.3534.312.97每3帧56.5478.1682.6333.22.62第一帧+每3帧38.6252.4668.1728.642.18上一个2帧25.3842.1365.6428.721.95首页+上一页2帧12.4837.9756.0928.031.86表5.比较不同的内存管理策略。Top-kVMDk在1/16级MSE MAD SSDA dtSSD MESSDdt1624.34 41.78 62.5429.512.11812.48 37.97 56.0928.031.86431.05 45.62 56.7629.822.08表6.在1/16特征水平下不同kDVM数据集上的HSTSG和其他SOTA模型，具有用于基于trimap的方法的中等trimap设置。我们的方法显示出显着的优越性，所有竞争的方法，在基于trimap或基于掩码的情况下，包括- ING全trimap或全掩码设置和VOM的1-trimap设置。定量结果还表明，由于层次时空语义指导和跨框架注意力细化，HSTSG可以实现更准确的alpha我们在图5中提供了一些比较，以说明我们的HSTSG计算器与其他VOM方法相比的平滑度改进4.3. 消融研究。模块消融。我们对我们提出的层次记忆匹配模块（HMMM）进行了消融研究，并分析了不同组件的意义。如表3所示，我们观察到在图像抠图数据集上进行预训练可以比随机初始化达到更快的收敛，因为预训练可以加速学习过程以快速找到更有意义的语义特征。当应用我们设计的层次记忆匹配模块在STCN基线上时，抠像性能得到了显著提高。我们的HMMM+基线在MSE和18. 1%，这表明我们提出的分层记忆匹配机制可以有助于建立更强的时间一致性。加入恒虚警率后，模型的性能得到了进一步的提高，比基线模型提高了56。1%，41。5%的MSE和MAD。恒虚警模块有利于多个相邻帧间的特征表示，同时也提高了预测帧的时间平滑性。HMMM的不同设置我们调查了影响-在两个因素下的分层存储器匹配结节的有效性：1）特征尺度的选择，2）存储器管理，以及top-k引导设置。我们将记忆读取设置在一定的尺度上，并选择不同的层次组合作为消融。实验在VideoMatting108验证集上进行。如表4所示，对于单刻度内存读取设置，刻度越细，性能越好，其中最佳设置为步幅4。注意，在应用分层存储器读取之后，性能进一步提高，这表明分层特征表示有利于将粗略尺度上的全局语义信息和精细尺度上的对象细节相表5示出了在参考阶段中在不同存储器手动设置下的性能差异，我们观察到在存储器组中取第一个用户注释帧及其最近的两个先前帧的设置可以实现最佳性能。表6显示了不同top-k设置的消融结果。我们观察到，密集的内存读取可能并不总是带来性能增益，可能是因为更密集的内存匹配可能会引入不必要的语义噪声。最后，调整适当的k值（例如，在1/16比例下设置k=8）可以有效地改善模型性能。5. 结论在本文中，我们适应分层记忆匹配机制到时空基线，建立一个有效的和强大的框架，语义指导传播和阿尔法预测。为了增强时间平滑性，我们还提出了一个跨帧注意力细化（CFAR）模块，该模块可以基于跨帧像素之间的时空相关性来细化多个相邻帧（历史帧和当前帧）大量的实验证明了层次时空语义引导和跨视频帧注意力细化模型的有效性，我们的模型优于最先进的VOM方法。对于未来的工作，它可能是可能的视频对象抠图方法扩展到视频3D对象repricing- tion。5129引用[1] Qifeng Chen，Dingzeyu Li，and Chi-Keung Tang.我知道。IEEE Transactions on pattern analysis and machineintelligence，35（9）：2175[2] 何祺郑、戴裕荣和邓志强。模块化交互式视频对象分割：交互屏蔽、传播和差异感知融合。在IEEE/CVF计算机视觉和模式识别会议论文集，第5559-5568页[3] 何祺郑、戴裕荣和邓志强。重新思考具有改进的内存覆盖的时空网络，以实现高效的视频对象分割。神经信息处理系统的进展，34：11781[4] Yung-Yu Chuang，Brian Curless，David H Salesin，andRichard Szeliski.数字抠图的贝叶斯方法。2001年IEEE计算机学会计算机视觉和模式识别会议论文集。CVPR2001，第2卷，第II-II页。IEEE，2001年。[5] Mikhail Erofeev ， Yury Gitman ， Dmitriy S Vatolin ，Alexey Fedorov，and Jue Wang.视频抠图的感知动机基准。在BMVC，第99-1页[6] 马可·福特和弗朗索瓦·皮特。 f，b，阿尔法矩阵arXiv预印本arXiv：2003.07711，2020。[7] Eduardo SL Gastal和Manuel M Oliveira。实时alpha抠图的共享在计算机图形论坛，第29卷，第575-584页。Wiley Online Library，2010。[8] Kaiming He ， Christoph Rhemann ， Carsten Rother ，Xiaoou Tang，and Jian Sun.一种用于alpha抠图的全局采样方法。见CVPR 2011，第2049-2056页。IEEE，2011年。[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[10] 侯七七和凤琉。同时进行前景和alpha估计的上下文感知图像抠图在IEEE/CVF计算机视觉国际会议论文集，第4130-4139页[11] 李虎、张鹏、张邦、潘攀、徐英辉、容瑾。基于记忆的视频对象分割的位置和目标一致性学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第4144-4154页[12] 张汉柯，孙佳宇，李凯灿，严琼，刘文辉. Modnet：通过客观分解的实时无trimap肖像。在AAAI人工智能会议集，第36卷，第1140-1147页[13] Anat Levin，Dani Lischinski和Yair Weiss。一个封闭形式的解决方案，以自然图像抠图。IEEE Transactions onPattern Analysis and Machine Intelligence，30（2 ）：228-242，2007。[14] Yaoyi Li and Hongtao Lu.通过引导上下文注意的自然图像抠图在AAAI人工智能会议论文集，第34卷，第11450-11457页[15] Yongqing Liang，Xin Li，Navid Jafari，and Jim Chen.基于自适应特征库的视频对象分割不确定区域精化神经信息处理系统的进展，33：3430[16] ShanchuanLin ， AndreyRyabtsev ， SoumyadipSengupta ， Brian L Curless ， Steven M Seitz ， and IraKemelmacher- Shlizerman.实时高分辨率背景抠图。在IEEE/CVF计算机视觉和模式识别会议论文集，第8762-8771页[17] Shanchuan Lin ， Linjie Yang ， Imran Saleemi ， andSoumyadip Sengupta.强大的高分辨率视频铺垫与节奏的指导。在IEEE/CVF计算机视觉应用论文集，第238[18] Hao Lu，Yutong Dai，Chunhua Shen，and Songcen Xu.关键因素：学习索引深度图像抠图。在IEEE/CVF计算机视觉国际会议论文集，第3266-3275页[19] Seoung Wug Oh，Joon-Young Lee，Ning Xu，and SeonJoo Kim. 使用时空记忆网络的视频对象分割。在IEEE/CVF计算机视觉国际会议论文集，第9226-9235页[20] Jordi Pont-Tuset ， Federico Perazzi ， Sergi Caelles ，PabloAr-bela'ez，AlexSorkine-Hornung，andLucVanGool. 2017年戴维斯视频对象分割挑战赛arXiv预印本arXiv：1704.00675，2017。[21] Yu Qiao，Yuhao Liu ，Xin Yang，Dongsheng Zhou，Mingliang Xu，Qiang Zhang，and Xiaopeng Wei.用于图像抠图的注意力引导层次结构聚集。在IEEE/CVF计算机视觉和模式识别会议上，第13676-13685页，2020年[22] Soumyadip Sengupta，Vivek Jayaram，Brian Curless，Steven M Seitz，and Ira Kemelmacher-Shlizerman.背景铺垫：世界是你的绿幕。在IEEE/CVF计算机视觉和模式识别会议上，第2291-2300页，2020年[23] Hongje Seong，Junhyuk Hyun，and Euntai Kim.用于视频对象分割的核化存储网络欧洲计算机视觉会议，第629-645页Springer，2020年。[24] Hongje Seong ， Seean-Wug Oh ， Joon-Young Lee ，Seong- won Lee，Suhyeon Lee，and Euntai Kim. 用于视频对象分割的层次分类匹配网络。在IEEE/CVF计算机视觉国际会议论文集，第12889-12898页[25] Ehsan Shahrian，Deepu Rajan，Brian Price和Scott Co-hen。使用综合采样集改进图像抠图。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第636[26] 沈晓勇，陶鑫，高红云，周超，贾继亚.深自动人像抠图。在欧洲计算机视觉会议上，第92-107页。施普林格，2016年。[27] Jian Sun，Jiaya Jia，Chi-Keung Tang，and Heung-YeungShum.泊松铺垫。ACM SIGGRAPH 2004论文，第315-321页。2004年[28] Yanan Sun ， Guanzhi Wang ， Qiao Gu ， Chi-KeungTang，and Yu-Wing Tai.通过时空对齐和聚合的深度视频抠图在IEEE/CVF计算机视觉和模式识别会议论文集，第6975-6984页5130[29] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的。神经信息处理系统的进展，30，2017。[30] Ning Xu，Brian Price，Scott Cohen，and Thomas Huang.深度图像抠图。在IEEE计算机视觉和模式识别会议论文集，第2970- 2979页[31] Ning Xu，Linjie Yang，Yuchen Fan，Dingcheng Yue，Yuchen Liang ， Jianchao Yang ， and Thomas Huang.Youtube-vos：大规模视频对象分割基准测试。arXiv预印本arXiv：1809.03327，2018。[32] Qihang Yu，Jianming Zhang，He Zhang，Yilin Wang，Zhe Lin，Ning Xu，Yutong Bai，and Alan Yuille.通过渐进细化网络进行遮罩引导抠图。在IEEE/CVF计算机视觉和模式识别会议论文集，第1154-1163页[33] Yunke Zhang，Lixue Gong，Lubin Fan，Peiran Ren，Qixing Huang，Hujun Bao，and Weiwei Xu.用于数字抠图的后期融合cnn。在IEEE/CVF计算机视觉和模式识别会议论文集，第7469- 7478页[34] Yunke Zhang，Chi Wang，Miaomiao Cui，Peiran Ren，Xuan-song Xie，Xian-Sheng Hua，Hujun Bao，QixingHuang，and Weiwei Xu.注意引导的时间相干视频对象抠图。第29届ACM国际多媒体会议论文集，第5128-5137页，2021年[35] Bingke Zhu，Yingying Chen，Jinqiao Wang，Si Liu，BoZhang，and Ming Tang.快速深铺垫的肖像动画在手机上。第25届ACM国际多媒体会议论文集，第297-305页，2017年

下载后可阅读完整内容，剩余1页未读，立即下载