没有合适的资源?快使用搜索试试~ 我知道了~
1154基于渐进细化网络的于启航1张建明2张贺2王依琳2林哲2徐宁2白宇彤1阿兰·尤耶11约翰霍普金斯大学2Adobe[24]第27届中国国际纺织品展览会图1:MG和其他抠图方法的视觉比较,包括Photoshop中的商业抠图方法。引导输入(参见第5详情)位于每个图像的左下角。请注意,BSHM [27]具有内部分割预测网络,因此不采用外部掩码。最佳观看放大。摘要本文提出了一种基于粗糙模板的模板引导抠图方法.MG抠图利用网络(PRN)设计,鼓励抠图模型提供自我指导,通过解码过程逐步细化不确定区域。在训练过程中还引入了一系列的制导罩扰动我们表明,PRN可以推广到看不见的类型的指导面具,如三重图和低质量的阿尔法蒙版,使其适合于各种应用程序的管道。此外,我们重新访问了前景色预测问题的抠图,并提出了一个令人惊讶的简单的改进,以解决数据集的问题。对真实和合成基准的评估表明,MG Matting使用各种类型的指导输入实现了最先进的代码和模型可在https://github.com/yucornetto/MGMatting上找到。1. 介绍图像抠图是一个基本的计算机视觉问题,其目的是预测一个alpha抠图,以精确切割在Adobe实习期间完成的工作一个图像区域。它在图像和视频编辑中有许多应用[39,41,21]。大多数以前的抠图方法需要一个注释良好的trimap作为辅助指导输入[39],它明确定义了前景和背景的区域虽然这样的注释使问题更容易处理,但它对用户来说可能是相当繁重的,并且限制了这些方法在许多非交互式应用程序中的有用性。近年来,研究人员开始研究无三重图情况下的抠图问题。一个方向是摆脱任何外部指导,并希望抠图模型可以通过大规模数据集上的端到端训练来捕获语义和细节[45,31]。然而,这些方法都面临着推广的挑战,由于缺乏语义指导时,测试复杂的现实世界的图像。另一系列工作研究了trimap指导的替代方案,减轻了对人类输入的要求[27,32,19,13]。例如,[19,13]提出了自动生成三重图的技术,而[32]则将背景图像作为额外的输入。然而,这些方法通常需要非常特定类型的指导来训练它们,并且因此当指导输入可能具有不同的特性或形式时变得不那么吸引人。在这项工作中,我们介绍了一个面具引导(MG)的抠图方法,它需要一个一般的粗掩模作为指导。MGMatting对制导输入非常鲁棒,1155使用各种类型的掩模引导(例如三重图、粗糙二进制分段掩模或低质量软阿尔法遮片)来获得高质量遮片结果。为了实现这种对指导输入的鲁棒性,我们提出了一个渐进式细化网络(PRN)模块,该模块学习提供自我指导,以通过解码过程逐步细化不确定的抠图区域。为了进一步增强我们的方法对外部指导的鲁棒性,我们还开发了一系列指导掩模扰动操作,包括随机 二 值 化 , 随 机 形 态 学 操 作 , 以 及 更 强 的 扰 动CutMask来模拟训练期间的各种指导输入。除了alpha抠图预测之外,我们还重新讨论了抠图的前景颜色预测问题。如果不能准确地恢复透明区域的前景色,合成后的图像会出现边缘化问题。我们注意到,由于标签噪声和有限的多样性,广泛使用的数据集[41]中的前景色标签对于模型训练来说是次优的作为一个简单而有效的解决方案,我们提出了随机阿尔法混合(RAB)从随机阿尔法蒙版和图像生成合成训练数据。我们表明,这种简单的方法可以提高前景颜色预测的准确性,而不需要额外的手动注释。因此,结合所提出的PRN,MG抠图是能够产生更多的视觉合理的组成结果。我们的贡献可概括如下:• 我们提出了Mask Guided Matting,这是一个通用的Matting框架,可以使用各种质量甚至形式的指导掩码,并在合成和真实世界的数据集上评估了新的最先进的性能。• 我们引入了渐进式细化网络(PRN)以及指导扰动训练管道,作为学习鲁棒抠图模型的解决方案。• 我们研究了用于抠图的前景颜色预测问题,并提出了一个简单的改进方法,使用随机alpha混合。此外,我们还收集并发布了一个高质量的真实图像抠图基准数据集,以评估抠图模型的真实性能。2. 相关工作基于Trimap的图像抠图。大多数抠图方法需要一个三重图作为额外的输入,它将图像分为前景、背景和未知区域。传统的方法通常是基于采样或基于传播的。基于采样的[11,7,15,33,38]通过在确定的前景/背景区域中采样像素来估计前景/背景颜色统计,基于传播的方法[6,20,21,22,35,16]也称为基于仿射的方法,通过将阿尔法值从前景和背景像素传播到未知区域来估计阿尔法遮片。最近,深度学习方法在许多领域都被证明是成功的,包括分类[17,36,25,23],检测[14,2,3]和分割[5,42]。在图像抠图方面也取得了巨大的成功[41]创建了一个抠图数据集,其中包含与各种背景图像合成的注释抠图,并在其上训练了一个深度网络。后来,[30]引入了一个生成对抗框架来改进结果。[37]提出将基于采样的方法与深度学习相结合。[29]引入了一个新的索引引导的上采样和unpooling操作,以更好地保留预测中的细节。[18]提出了两个编码器两个解码器架构来同时估计前景和alpha。[24]通过上下文注意力模块进一步提高性能。免裁剪图像抠图。 值得注意的是,也有一些试验[1,34]来摆脱三重图来预测alpha蒙版。 [45]提出了一种由分割网络和融合网络组成的框架,其中输入仅为单个RGB图像。后来,[27]介绍了一个无trimap框架,包括遮罩预测网络,质量统一网络和用于人体肖像抠图的抠图细化网络。无三重图的抠图性能通过注意力模块进一步提升[31]。然而,这些trimap自由的方法仍然有一些差距,基于trimap的性能。另一个方向是使用替代的指导trimap。[32]引入了一个框架,将背景图像与其他潜在的先验(例如,分割掩模、运动提示)作为附加输入。它显示出巨大的潜力,可以获得与最先进的基于trimap的方法相当的性能。前景颜色净化。许多传统的遮片方法[11,21]被提出来预测阿尔法遮片和前景颜色以提取前景对象。然而,直到最近[18]才将前景预测纳入深度学习框架。后来,[32]还预测前景颜色以减少人为因素,以获得更好的合成结果。然而,这些方法主要增加前景解码器并直接从[41]中的颜色标签学习,这仅提供有限的训练样本,更严重的是,颜色标签可能不准确且有噪声(见图3)。[10]建议使用[21]来获得更平滑的颜色标签。我们的方法与上述算法的不同之处在于以下几个方面:1)我们的模型在更一般的设置中工作,其中仅需要容易获得的粗略掩模,而不需要用户定义或模型预测的材料作为指导。它可以处理不同的质量,甚至各种类型的指导作为输入。因此,它可以用作基于trimap的模型或无trimap的模型,这取决于指导是什么。1156L上采样������→���������−1������−11 −���������′元素级产品元素求和渐进细化模块(PRM)图2:提议的PRN。该网络在多个分辨率下预测alpha matte,而较低分辨率下的一个提供关于下一次预测中要细化的不确定区域的指导。available.我们的模型还可以利用更强的指导来实现更精细的细节。2)我们的方法还可以预测前景颜色。与[18]不同,其中前景预测直接从颜色标签中学习,我们注意到有限的训练数据和不准确的人类标签导致不期望的结果,特别是在边界区域。相反,我们建议使用随机AphaBlending来避免标签中的偏差,这不仅引入了更多样化的训练样本,而且还避免了边界区域中不准确的颜色标签定位。3. MG哑光图像抠图的问题可以用公式表示为:I=αF+(1−α)B,α∈[0,1],(1)其中,I、F、B和α分别指图像颜色、前景色、背景色和alpha蒙版。因为只有我被观察到,这是一个非常不适定的问题。为了解决抠图问题,大多数方法都需要一个三重图输入,它标记了前景区域(即:α=1),背景区(即,α=0)和未知部分。在实践中,三重图输入可能包含各种级别的噪声和错误,使得抠图结果不一致。我们放松了三重映射的强假设,提出了一种模板引导的抠图方法。掩模引导(诸如预测的分割掩模或粗略的手动选择)仅提供前地面区域的粗略空间先验。因此,我们的MG抠图方法需要高层次和低层次特征学习的结合是MG抠图方法设计的关键。为此,我们引入了渐进式细化网络(PRN),它提供了一个由粗到细的自我指导,逐步细化不确定的区域在解码过程中。在下文中,我们将详细介绍PRN、训练公式和一些数据增强技术,以增强我们模型的鲁棒性。3.1. 渐进式精化网络PRN的概述如图2所示。我们的PRN的结构遵循流行的编码器-解码器网络与跳过连接。我们的网络将图像和粗糙的蒙版作为输入,并输出一个蒙版。在解码过程中,PRN在每个特征级别都有一个侧抠图输出。具有深度监督的侧输出已被证明可以改善不同尺度下的特征学习[40]。然而,与[40]不同的是,我们发现线性融合侧输出对于抠图问题并不理想(详情请参见表4)。这是因为更靠近对象边界的图像区域需要较低级别的特征来描绘前景,而识别内部对象区域需要较高级别的指导。为了解决这个问题,我们在每个特征层引入了一个渐进细化模块(PRM)来选择性地融合前一层和当前层的抠图输出具体来说,对于当前层l,我们使用以下函数从前一层的抠图输出αl−1生成自引导掩码gl对输入掩码的更高级语义理解,从而可以检测前景/背景区域,f→g(x,y)=.0<α时为1l−1(x,y)1,<(二)柔软的透明部分坚固耐用。 同时,我们的模型αl−1l0否则。必须捕捉图像的低层次图案,如边缘和纹理,以产生目标蒙版的精细细节。Coordi-首先对αl−1进行上采样,以匹配当前级别的原始抠图输出α′的大小,然后生成图像掩模PRM2跳过-连接PRM101157LLL得到的自导向面罩G1。自引导掩模限定透明区域(即, 0 <α <1)为未知,并用当前原始输出α′替换α l −1的未知区域,以获得当前电平的更新αl:α=α′g+αl−1 (1− gl)。(三)以这种方式,保留了从不确定的更高级别特征预测的置信区域,并且当前级别仅需要专注于细化不确定区域。在实践中,我们分别在步幅8、4和1的三个特征水平处获得alpha哑光侧输出(参见图2),并略微扩大自引导掩码以获得更鲁棒的自引导。1/8图像大小的初始基础蒙版将被逐步上采样和细化,并且不确定的基础蒙版将被逐步上采样和细化。区域也将通过使用所提出的PRM的解码过程逐渐缩小完整的网络经过端到端的训练,以在多个特征级别上自动平衡细化焦点。这种自我指导的细化也使得模型不太依赖于外部掩码指导,从而导致更鲁棒的抠图性能。培训计划。对于损失函数,我们采用l1回归损失、合成损失[41]、拉普拉斯损失[18],并分别将它们表示为Ll1、Lcomp、Llap。我们用α表示地面真值α,用α表示预测α。总损失函数是它们的总和:L(α,α)=Ll1(α,α)+Lcomp(α,α)+Llap(α,α). (四)该损失应用于网络的每个输出端。为了使训练更集中于未知区域,我们进一步用gl调节损失。最后的损失函数可以表示为: Σ图3:来自[41]的常用训练数据中的颜色标签是嘈杂和不准确的,特别是在边界部分附近。请注意,耳朵附近的头发错误地变得粉红色。最好用彩色和放大的方式观看。我们首先用从0到1均匀采样的随机阈值将其二进制化。然后,以随机顺序用从1到30的随机核大小来扩张和/或侵蚀掩模。此外,我们提供了一个更强的指导扰动命名为CutMask,以进一步提高模型的鲁棒性。受成功的自然图像增强Cut- Mix [43]的启发,我们随机选择1/41/2图片大小 然后,两个随机补丁的指南-并且一个修补程序的内容将覆盖另这种更强的扰动提供了额外的局部化引导掩码损坏,使得模型对外部引导掩码中的语义噪声更鲁棒。除了扰动外部制导掩模外,我们注意到扰动内部自制导掩模对提高鲁棒性也非常重要。因此,我们随机扩大自我引导面具,以纳入更多的变化。特别地,在训练期间,来自输出步幅8的自引导掩码被从[1,30]随机采样的K1扩张,并且来自输出步幅4的自引导掩码被K2扩张L最终=wlL(αl·gl,αl·gl),(5)L从[1,15]。 为了测试,我们固定K1= 15和K2= 7。3.2. 前景颜色估计其中wl是分配给dif的输出的损失权重。水平。我们在实验中使用w0:w1:w2=1:2:3gl由等式αl−1生成2,并且G0是填充有1的掩码,使得可以在整个图像上监督基本级别输出,以为下一级别输出提供更全面的语义指导对于数据增强,我们遵循[24]中提出的训练协议,包括随机合成两个前地面对象图像,随机调整图像大小,插值方法,随机仿射变换,颜色抖动。我们随机裁剪了512×512个以未知区域为中心的补丁进行训练。每个补丁被合成到来自MS COCO数据集的随机背景图像[26]。引导扰动。为了确保我们的模型能够适应来自不同来源和具有不同质量的引导掩模,我们提出了一系列的引导扰动,以在训练期间从地面真实的alpha matte给定一个真实的阿尔法蒙版,如Eqn中所示。1,对于前景对象提取,需要解决alpha蒙版和前景颜色两者。然而,只有少数抠图方法学习预测前景颜色[18,32],并且所有这些方法都使用流行的Composition-1 k数据集[41]进行训练。然而,Composition-1 k数据集中存在一些问题。首先,该数据集仅包含431幅具有抠图和前景色地面实况的前景图像,这对于训练前景色模型是非常有限的。此外,使用Photoshop [41]中的颜色净化功能估计的前景色标签有时在边界区域附近有噪声和不准确性(见图3)。这可能会在数据增强过程中将颜色溢出和其他伪影引入图像中,从而使学习不太稳定。此外,仅在alpha值大于零的情况下提供标签,因此现有方法只能应用su-L1158方法伤心MSE(10−3)GradConn基于学习的抠图[46]113.94891.6122.2[21]第二十一话168.191126.9167.9KNN Matting [6]175.4103124.1176.4[41]第四十一话50.41431.050.8[29]第二十九话45.81325.943.7AdaMatting [4]41.710.216.9-[18]第十八话35.88.217.333.2[24]第二十四话35.39.116.932.5我们的TrimapFG31.56.813.527.3我们的三重地图32.17.014.027.9表1:组合物-1k测试集的结果下标表示相应的制导输入,即TrimapFG,Trimap。其他被评估的方法都需要一个trimap作为输入。透视到前景区域[18],导致未定义部分的不稳定行为。为了解决这些问题,我们提出了一种简单而有效的方法,称为随机阿尔法混合(RAB),通过使用随机选择的阿尔法蒙版混合前景图像和背景图像来生成合成训练数据。尽管合成图像可能在语义上没有意义,但是它们可以在透明区域中提供准确且随机alpha混合还可以显著地使训练数据更加多样化,并提高前景颜色预测的泛化。此外,我们还注意到,RAB可以对所有图像应用丢失监督,从而实现更平滑的预测,这是鲁棒合成所需的。(See图四、对于前景估计,我们使用一个基本的编码器-解码器网络训练一个单独的模型,该网络将图像和alpha matte作为输入。损失函数是l1回归损失、合成损失和拉普拉斯损失的总和我们注意到,虽然训练一个单一的模型用于哑光和前景色预测是可能的,但从经验上讲,这会降低抠图性能[18],并且随机alpha混合会破坏抠图模型的语义线索。此外,将前景色预测与遮片分离使得颜色模型可转移到已经给出遮片的用例4. 合成数据集上的实验在本节中,我们报告了我们的方法在传统的合成数据设置下的评估结果,其中测试图像是使用具有地面真实蒙版的前景图像和随机背景图像生成的评价我们遵循以前的方法来评估结果的绝对差之和( SAD ) , 均 方 误 差 ( MSE ) , 梯 度 ( Grad ) 和Connec。表2:Distinction-646测试集上的消光细化结果。使用Distinction- 646训练集训练的方法的结果,如[31]中所报告的,以供参考。其他结果仅在composition-1 k上训练。使用官方评估代码[41]的tivity(Conn)错误网络架构。我们采用[24]中提出的ResNet 34-UNet,其中Atrous空间金字塔池化(ASPP)[5]作为PRN和颜色预测的骨干。第一卷积层被调整为采用由RGB图像以及外部引导输入组成的4通道输入。此外,阿尔法预测头(Conv-BN-ReLU-Conv)分别附接到输出步幅4和8处的特征以获得侧输出。训练阶段。为了与以前的深度图像抠图方法进行公平比较,我们使用Composition-1 k测试[41]来训练我们的MG抠图模型,该测试包含431个前景对象和相应的地面实况al-pha抠图用于训练。该网络使用ImageNet [8]预训练的权重初始化。我们在4个GPU上使用裁剪大小512,批量大小总共为40,Adam优化器β1=0。β2=0。九九九初始化学习率1×10- 3。训练持续100,000次迭代,在前5,000次迭代和余弦学习率衰减时进行预热[28,12]。我们也应用课程学习以帮助PRN培训。特别地,对于前5,000次迭代,输出步幅4和1的预测将由从地面实况alpha生成的引导掩码引导,并且对于接下来的10,000次迭代,引导将从自预测和地面实况alpha均匀且随机地生成之后,每个alpha预测都应该完全依赖于它的自我指导。前景色预测是在完全相同的设置下训练的,除了生成的训练样本由随机前景和阿尔法蒙版合成。值得注意的是,使用RAB,我们可以在整个图像上添加前景色监控,而不仅仅是前景区域,这会产生更平滑和稳定的结果(见图10)。4).测试组合物-1k。该测试集由50个独特的对象与20个背景合成方法伤心MSE(10−3)GradConn[46]第四十六话105.042194.16110.41[21]第二十一话105.732391.76114.55KNN Matting [6]116.6825103.15121.45[41]第四十一话47.56943.2955.90[31]第三十一话48.98941.5749.93[41]第四十一话48.7311.242.6049.55+我们的36.587.227.3735.08[29]第二十九话46.959.440.5646.80+我们的35.825.825.7534.23[18]第十八话36.327.129.4935.43+我们的35.045.424.5533.35[24]第二十四话39.648.232.1638.77+我们的35.935.725.9434.351159方法伤心MSE(10−3)[15]第十五话220.3936.29[21]第二十一话254.1540.89KNN Matting [6]281.9236.29[18]第十八话61.723.24我们49.802.48表3:Composition-1 k数据集的前景结果(α·F)方法整个图像未知区域伤心MSE(10−3)伤心MSE(10−3)基线43.74.539.811.2基线+深度监管37.83.736.39.5基线+融合转换38.13.236.98.8PRN,不带CutMask33.92.932.87.5PRN32.32.532.17.0表4:组合物-1k数据集上的消融研究基线:a ResNet34-UNet with ASPP; Deep supervision:添加边输出和深度监督; Fusion Conv:使用卷积来组合不同的输出。图像选自Pascal VOC [9],因此总共提供1000个测试样本。我们注意到,由于这些合成数据集使用PASCALVOC图像作为可能包含其他显著对象的背景,因此显著性/分割模型可能不适用于获得合理的粗糙掩模。为了更好地将MG Matting与其他基于trimap的方法进行比较 , 我 们 在 两 种 设 置 下 测 试 了 我 们 的 模 型 : 1 )TrimapFG:我们采用trimap中的置信前景区域作为我们网络的粗指导掩码2)Trimap:我们将Trimap归一化为[0,1],未知像素为 0 。 5 、 用 这 个 软 面 膜 作 为 指 导 。 我 们 遵 循Composition-1 k中的评估设置,只计算未知区域上的评估我们分别在表1和表3中总结了alpha结果和前景色结果我们注意到,尽管我们的模型没有使用trimap进行训练,但它仍然在这些看不见的指导类型上表现出很强的鲁棒性和可移植性。我们的模型大大超过了以前最先进的模型。考虑到trimap和trimapFG之间的差距,我们还注意到,我们的前景色预测不仅显著减少了误差,而且还产生了更平滑的结果(见图4),这在复杂的现实世界场景中是期望的,其中阿尔法蒙版可能是嘈杂的。第646章. Distinction-646 [31]是最近的合成抠图基准数据集,它提高了Composition-1 k的多样性。其含有以与组合物-1k类似的方式获得的然而,这个数据集是在没有官方三图或其他图4:前景色净化的视觉比较.每列从左到右:输入图像和地面实况α·F,前景颜色预测和[18]的α·F,我们模型的随机 α共混 请注意,背景颜色混合到预测[18],而我们的模型可以估计更平滑的前景颜色图,并且更鲁棒。类型的指导,使其难以与预先报告的结果进行比较。因此,我们使用这个基准主要作为一个测试平台,以显示我们的方法可以细化由另一种方法产生的哑光。我们测试了一些在Composition-1 k上训练的最先进的基于trimap的基线。我们首先通过阈值化从地面真实的阿尔法蒙版生成三重图,未知区域以20的核大小进行扩张。然后,我们使用这些基于trimap的方法来生成抠图结果。最后,我们使用这些预测的阿尔法遮罩作为我们的MG遮罩方法的指导,并产生精细的遮罩。如表2所示,使用MG消光作为细化方法一致地改善了其他现有技术方法的结果。我们还在表2中显示了[31]报告的结果以供参考。消融研究。为了验证PRN的设计和引入的制导扰动,我们进行了消融研究,如表4所示。在这些实验中使用Trimap作为引导掩模。然而,我们并不认为引导类型是已知的,所以我们有目的地不使用它来通过替换已知的前景和背景区域来对预测进行后处理。相反,我们报告了两个分数计算的整个图像和未知区域分别为一个更全面的评估我们的方法的鲁棒性。我们在表4中报告了不同变体的消融。基地-1160[24]第一届中国国际汽车工业展览会[25[24]第一届中国国际汽车工业展览会[25[24]第一届中国国际汽车工业展览会[25图5:不同方法在我们的肖像测试集上的视觉比较结果。我们将具有代表性的示例与高质量的工作室级别的肖像和带有强噪声的自拍进行MG Mating在不同质量的图像上表现良好我们注意到,我们的结果,虽然只训练了composition-1 k,不仅优于以前的最先进的,但也产生可比或更好的结果比商业方法在PhotoShop。方法整个图像细节伤心MSE(10−3)伤心MSE(10−3)[41]第四十一话28.511.719.174.6[24]第二十四话29.212.719.782.3[29]第二十九话28.511.518.872.7[18]第十八话27.410.718.266.2[45]第四十五话78.639.824.288.3我们26.89.317.455.1表5:真实世界肖像测试集的结果。line指的是没有任何附加组件的纯主干在基线上添加边输出和深度监督,可以提高整个图像或未知区域的性能。我们还尝试使用两个卷积层来融合不同的输出。然而,线性融合侧输出可能不会导致更好的结果。相比之下,所提出的PRN可以更好地协调语义细化和低层次细节细化在不同层次上,从而获得一致的改进。我们还表明,CutMask扰动可以进一步提高性能和鲁棒性。我们还验证了RAB的有效性我们计算了前景色( F ) 在 前 景 区 域 ( 即 背 景 区 域 ) 上 的 MSE 和SAD.α>0)。 基线达到MSE =0。00623和SAD=82。30 , 而 在 RAB 的 情 况 下 , 性 能 提 升 到 MSE=0 。00321,SAD= 62。01号。5. 真实世界肖像数据集上的实验我们注意到,尽管合成数据集是完善的基准,并提供了足够的数据来训练一个好的模型,但在它们上训练的模型是否足够强大,并能在真实图像中产生可比较的结果,仍然是一个悬而未决的问题。例如,[18]发现一些简单的数据增强,如重新JPEG和高斯模糊,可以避免合成数据集的一些缺点,并显着提高模型在真实世界图像上的性能,尽管代价是合成基准上的这就引出了一个问题:合成抠图数据集上的结果能否反映真实图像上的性能?因此,对真实世界图像的评估非常重要。然而,由于缺乏高质量的真实图像的抠图基准数据集,大多数以前的模型主要是通过视觉或用户学习来比较它们的抠图结果为了更好地评估抠图方法在现实世界的sce-nario,我们收集了一个现实世界的图像抠图数据集,收集了637幅不同类型的高分辨率图像,并由专家进行了注释。我们数据集中的图像具有各种图像质量和各种姿势的主题此外,由于数据集主要包含主体易于预测的实体对象,因此我们还标记了覆盖头发区域和其他软组织的细节掩模,这说明了1161Image Mask-Erode30 Mask-Dilate30Ground-Truth Pred-Erode30 Pred-Dilate30图6:我们的模型在给定不同质量指导模板的情况下具有鲁棒性,并产生一致的alpha估计。图像定位。通过计算这些区域中的误差,我们可以进一步比较不同模型捕捉物体细节的能力。我们将发布此数据集,以便在真实图像上更好地对抠图方法进行基准测试。实施细节。我们使用Composition-1 k训练集来训练模型。考虑到两个数据集之间的语义差距,我们使用[32]的数据列表从训练数据中在[18]之后,我们还对输入图像应用re-JEPG、高斯模糊和高斯噪声,以使模型更好地适应真实世界的噪声,这些噪声在合成数据集中很少见。由于这些增强可以改变合成的训练图像的颜色,因此原始颜色标签可能不适用。因此,我们从监督中删除了成分损失。其他训练设置与第二节相同。四、对于基于trimap的基线,我们遵循[32]通过标记自动从分割[44]每个像素具有前景类概率> 0。95作为前地,<0. 05作为背景,其余的作为未知,未知区域进一步扩大k=20,以确保它不会错过长毛。 对于我们的模型,我们在prob = 0时对分割进行阈值化。五是二进制掩码。结果我们将结果与最先进的基于trimap的方法DIM[41] , GCA [24] , IndexNet [29] , Context-AwareMatting [18]和trimap-free方法Late Fusion Matting [45]进行比较,后者在Composition-1 k训练集和额外的肖像数据集上进行训练。基线的结果通过开源的推断演示或提供的预训练权重获得我们在表5中总结了两种设置下的结果:整个图像,其中在整个图像上计算误差,这可以测量整体质量;细节,其中仅在包含头发细节或其他柔软区域的手动标记区域中计算误差与其他方法相比,我们的模型实现了优越的性能,特别是关于细节部分,这说明了它的能力,捕捉边界细节。我们还注意到,无trimap方法LFM表现不佳,这可能是由于他们的肖像训练数据不够多样化,从而限制了他们模型的可推广性(参见图5的示例)。我们将我们的结果与另一种无trimap方法BSHM [27]进行比较。我们联系了作者,并获得了我们肖像数据集的100张图像子集的测试结果。由于[27]只能处理低分辨率图像,因此我们将图像下采样到长边720,并且度量也在此尺度上计算。[27]第27话. 0155和SAD 10。整个图像为66,MSE为0。0910和SAD7 .第一次会议。60的细节区域,而我们的MG抠图获得了卓越的性能与MSE 0。0095和SAD 8. 01为整个图像和MSE 0。0637和SAD 5。94细节鲁棒性指导。 为了验证我们的模型对外部引导掩码的鲁棒性,我们进行了一个实验,以向网络提供扰动的外部引导掩码。特别地,我们分别以核大小10、20、30腐蚀/扩张掩模。我们注意到,该模型预测一致给予不同的扰动外部指导。SAD误差从26增加。8到27。一,二十七。2,27。4,掩模分别被腐蚀10、20和30。对于扩张,SAD错误变为27。0,27。四,二十八。1的内核分别为10、20、30。图中提供了一个直观的例子。六、6. 结论在本文中,我们提出了掩模引导(MG)抠图,一个通用的框架来解决自然图像抠图问题。与以往的方法不同,我们的方法不依赖于某些特定的制导模板。相反,它可以处理通用的指导面具,如三重图,粗糙的分割面具,或低质量的阿尔法蒙版。该模型鲁棒性的关键在于渐进细化网络,它在解码过程中提供自指导,并对不确定区域进行渐进细化此外,本文还提出了 一 种 简 单 有 效 的 方 法 -- 随 机 渲 染 ( RandomRendering)方法,解决了前景色估计中对实验数据集的限制,并学习了一个更好的前景色估计模型,这是一个重要而又很少被研究的方法。此外,我们发布了一个新的具有高质量标签的真实世界抠图数据集,以更好地定量评估现实世界场景中的抠图模型,我们希望这可以为现实生活中的抠图提供一些方向。1162引用[1] YagazizAksoy,Tae-HyunOh,Syl vainParis,MarcPollefeys , and Wojciech Matusik. 语 义 软 分 割 。 ACMTransactions on Graphics(TOG),37(4):1[2] Yutong Bai,Qing Liu,Lingxi Xie,Weichao Qiu,YanZheng,and Alan L Yuille. 通过匹配的语义部分检测-ing:学习从有限的训练数据中归纳出新的观点在ICCV,第7535-7545页[3] Yutong Bai , Angtian Wang , Adam Kortylewski , andAlan Yuille. Coke:用于鲁棒关键点检测的局部对比学习. arXiv预印本arXiv:2009.14115,2020。[4] Shaofan Cai,Xiaoshuai Zhang,Haoqiang Fan,HaibinHuang , Jiangyu Liu , Jiaming Liu , Jiaying Liu , JueWang,and Jian Sun.解开图像抠图。在ICCV,第8819-8828页[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络,atrous卷积和全连接crfs进行语义TPAMI,40(4):834[6] Qifeng Chen,Dingzeyu Li,and Chi-Keung Tang.我知道。TPAMI,35(9):2175[7] Yung-Yu Chuang,Brian Curless,David H Salesin,andRichard Szeliski.一种数字抠像的有效方法。 见CVPR,第2卷,第II-II页。IEEE,2001年。[8] 贾登、魏东、理查德·索彻、李力佳、李凯、李菲菲。Imagenet:一个大规模的分层图像数据库。见CVPR,第248-255页。2009年[9] Mark Everingham 、 Luc Van Gool 、 Christopher KIWilliams、John Winn和Andrew Zisserman。pascal visualobject classes ( pascal visual object classes ) IJCV , 88(2):303[10] 马可·福特和弗朗索瓦·皮特。 f,b,阿尔法矩阵arXiv预印本arXiv:2003.07711,2020。[11] Eduardo SL Gastal和Manuel M Oliveira。实时alpha抠图的共享在计算机图形论坛,第29卷,第575-584页。Wiley Online Library,2010.[12] PriyaGo yal , PiotrDolla'r , RossGirshick , PieterNoord-huis , Lukasz Wesolowski , Aapo Kyrola , AndrewTulloch,Yangqing Jia,and Kaiming He.准确,大的小批量sgd:1小时内训练imagenet. arXiv预印本arXiv:1706.02677,2017。[13] Vikas Gupta和Shanmuganathan Raman。图像抠图的自动三重图生成。2016年信号与信息处理国际会议(ICon-SIP),第1-5页。IEEE,2016年。[14] Kaimi ngHe,Geor giaGkioxari,PiotrDolla'r,andRossGir-shick.面具R-CNN。在ICCV,第2961-2969页[15] Kaiming He , Christoph Rhemann , Carsten Rother ,Xiaoou Tang,and Jian Sun.一种用于alpha抠图的全局采样方法。见CVPR,第2049-2056页。IEEE,2011年。[16] 何开明,孙健,唐晓鸥。快速抠图使用大型核抠图拉普拉斯矩阵。在CVPR中,第2165-2172页。IEEE,2010年。[17] 何开明,张翔宇,任少卿,孙健。用于图像识别的深度残差学习。在CVPR中,第770-778页1163[18] 七七侯和凤琉。同时进行前景和alpha估计的上下文感知图像抠图在ICCV,第4130-4139页[19] 谢长林和李明瑞。用于数字图像抠图的三重图自动生成2013年亚太信号和信息处理协会年度峰会和会议,第1-5页IEEE,2013年。[20] 菲利普·李和吴英。非局部matting。在CVPR中,第2193-2200页IEEE,2011年。[21] Anat Levin,Dani Lischinski,和Yair Weiss。一个封闭形式的 解决方案,以 自然图像抠 图。TPAMI,30(2):228-242,2007.[22] Anat Levin,Alex Rav-Acha,和Dani Lischinski.光谱遮罩。TPAMI,30(10):1699[23] Yingwei Li,Xiaojie Jin,Jieru Mei,Xiaochen Lian,Linjie Yang,Cihang Xie,Qihang Yu,Yuyin Zhou,Song Bai,and Alan L Yuille.轻量级非局部网络的神经结构搜索。在IEEE/CVF计算机视觉和模式识别会议论文集,第10297-10306页[24] Yaoyi Li and Hongtao Lu.通过引导上下文注意的自然图像抠图在AAAI,第34卷,第11450- 11457页[25] Yingwei Li,Qihang Yu,Mingxing Tan,Jieru Mei,Peng Tang,Wei Shen,Alan Yuille,and Cihang Xie.形状-纹理去偏神经网络训练。ICLR,2021年。[26] 林宗义,迈克尔·梅尔,塞尔日·贝隆吉,詹姆斯·海斯,彼得罗·佩罗纳,德瓦·拉马南,彼得·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco:上下文中的常见对象。见ECCV,第740-755页。Springer,2014.[27] Jinlin Liu,Yuan Yao,Wendi Hou,Miaomiao Cui,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功