没有合适的资源?快使用搜索试试~ 我知道了~
1解纠缠图像抠图蔡少凡1人,张小帅1人,2人,范浩强1人,黄海滨1人,刘江宇1人,刘佳明1人,刘佳英2人,王珏1人,孙健1人,美谷科技1人2北京大学计算机科学与技术研究所{蔡少凡,方华强,黄海滨,刘江宇,刘佳明,王珏,孙健}@ megvii.com{jet,liujiaying}@ pku.edu.cn摘要大多数以前的图像抠图方法需要一个粗略指定的三分图作为输入,并估计分数阿尔法值的所有像素的未知区域的三分图。在本文中,我们认为,直接从粗三分图估计alpha蒙版是以前方法的主要局限性,因为这种做法试图同时解决两个困难且本质上不同的问题:识别三分图区域内的真实混合像素,并估计它们的精确alpha值。我们提出了AdaMatting,一个新的端到端的抠图框架,将这个问题分解为两个子任务:trimap自适应和alpha估计。三重图自适应是一个逐像素的分类问题,它通过识别明确的前景、背景和半透明图像区域来推断输入图像的全局结构。Alpha esti- mation是一个回归问题,它计算每个混合像素的不透明度值。我们的方法在单个深度卷积神经网络(CNN)中分别处理这两个子任务。大量的实验表明,AdaMatting具有额外的结构意识和trimap容错。我们的方法在AdobeComposition-1 k数据集上定性和定量地实现了最先进的性能它也是目前在alphamatting.com上对所有常用指标进行在线评估的最佳方法。1. 介绍图像抠图是指准确估计图像和视频序列中前景物体不透明度的问题。它是一系列广泛应用的先决条件,包括电影制作和数字图像编辑。形式上,输入图像I被建模为前景和背景颜色的线性组合平等的贡献者。这项工作得到了国家自然科学基金的部分支持,资助号为#61271269和#61321061。(a)(b)(c)(d)图1.(a)输入图像,(b)输入三重图,(c)我们的抠图结果,(d)对应的三重图自适应结果。行1:来自低质量用户标记的输入三元图(b)包含错误。行2:输入三重图(b)是Graphcut算法的失败情况,其中所有像素被标记为未知。在这两种情况下,所提出的方法可以产生可靠的阿尔法蒙版。如下[10]:Ii=αi Fi+(1 −αi)Bi,αi∈[0,1],(1)其中,Fi、Bi和αi分别表示像素i处的前景、背景颜色和阿尔法蒙版估计。给定输入图像I,图像抠图的目标是同时求解F,B和α。这个问题是高度不适定的,根据Eq。1,对于RGB图像,要求解7个值,但每个像素仅知道3个值。对于大多数现有的抠图算法,约束解空间的基本输入是三重图,一个粗糙的分割指示不透明和未知的区域。该三重图是由用户涂鸦交互式生成的,或者是从二值图像分割结果自动生成的。在任一情况下,输入三重图通常是粗糙的,即,其未知区域(图中的灰色区域)。图1b)包含真实的半透明像素以及大量的不透明像素。这是因为提供准确的三重图对于手动标记来说是乏味的,并且难以使用在低分辨率图像上运行的现有图像分割方法来不幸的是,以前的图像抠图方法往往忽略输入三重图的不准确性,并试图直接88198820估计出一个好的阿尔法蒙版。我们认为,有一个分类问题,没有充分解决在这个过程中。如果我们仔细观察trimap,未知区域中的像素分为三个不同的集合:不透明前景、不透明背景和半透明区域。我们称前两种类型为不透明像素,最后一种类型为混合像素。图像抠图方法的期望行为是为不透明像素产生精确的0或1,同时精确估计混合像素的分数不透明度(范围在0和1之间)。从这个角度来看,两个相关但本质上不同的任务隐含在图像抠图中。第一种方法是对未知区域中的像素进行分类以确定混合像素,我们将此任务称为三重图自适应。第二个是精确计算混合像素的不透明度值,我们称之为alpha估计。我们观察到,这两个任务需要从算法完全不同的能力。Trimap自适应算法更多地依赖于对目标形状和结构的良好语义理解,从而能够有效地在未知区域中基于图像特征识别前景对于α估计,仔细的低水平光度线索的开发是更关键的。此外,trimap自适应可以建模为分类任务,alpha估计可以被视为典型的回归任务。现有的图像抠图方法大多将图像抠图看作是一个单一的回归任务,忽略了图像抠图的分类性质。这一观察结果给我们带来了一个问题,即如何在一个综合解决方案中协调铺垫问题的两个非常不同的方面。此外,现有的抠图方法,特别是基于优化的抠图方法,过于依赖于低层特征,如颜色分布和局部纹理,而缺乏结合高层语义的能力。如最近的工作[38,2]所示,诱导对物体形状和结构的更好理解可以帮助图像填充。虽然声称利用高级特征,但这些方法通常仅依赖于预先训练的特征,并且不使用明确的语义目标作为指导。这是由于现有方法从背景颜色与前景对象相似的区域提取的对象结构不完整。受图像抠图应该被分解为三重图适应和alpha估计的新观察的启发,我们提出了一个简单而强大的图像抠图框架AdaMatting(Adaptation andMatting),它同时解决了上面讨论的局限性。AdaMatting以多任务的方式在两个不同的解码器分支内执行三重图自适应和alpha通过显式地监督模型区分混合像素和不透明像素,然后使用改进的trimap来约束alpha估计,输出时,两个分支分别处理任务的两此外,通过共享两个任务的特征,大大增强了对模型的对象形状和结构信息我们的详细管道见图2我们的主要贡献可归纳如下:• 我们提供了一个新的视角,图像抠图应该被分解为两个任务,即三重图适应和阿尔法估计,并证明,这两个任务的分离对于提高基于CNN的图像抠图模型的性能是必不可少的。• 根据新的视角,我们提出了一种新的管道,其中trimap自适应和alpha估计以多任务方式联合优化大量实验表明,该管道可以更好地使用语义信息,为训练后的CNN模型提供额外的结构感知和trimap容错。• 所提出的方法刷新了最常用数据集Adobe[38] 第 一 次 在 网 上 看 到 的 是 一 个 人 的 照 片 。ting.com2. 相关工作自然图像抠图自然图像抠图本质上是对前景区域进行逐像素不透明度估计。自然抠图算法的典型输入是以涂鸦[33]或三重图[10]的形式,这有助于减少这种不适定问题的解决方案空间。现有的传统方法可以分为基于颜色采样和基于alpha传播的方法。基于颜色采样的方法[10,12,16,11]收集一组已知的前景和背景样本,以找到给定像素的前景和背景的可识别颜色根据对图像统计的局部平滑假设一旦确定了前景色和背景色,我们就可以基于等式(1)计算相应的alpha值。1.一、根据这一假设,提出了各种基于采样的方法,包括贝叶斯抠图[10],共享采样抠图[12],全局采样抠图[16]和稀疏编码抠图[11]。与基于采样的方法相比,基于传播的方法[31,13,7,1,21]避免了基于采样的方法可能遭受的不连续性。这些方法利用邻近像素的亲和力将alpha值从已知区域传播到未知区域。其中一种流行的方法是封闭形式的遮片[21],它通过求解稀疏线性方程组来找到全局最优的α遮片8821GT其他基于传播的方法包括泊松抠图[31],随机游走抠图[13],KNN抠图[7]和信息流抠图[1]。最近,深度学习在包括图像抠图在内的各种计算机视觉任务上表现出了令人印象深刻的性能。Cho等人。[9]提出了一种名为DCNN的端到端架构,该架构利用闭合形式抠图[21]和KNN抠图[7]的结果来预测更好的alpha抠图。Shen等人。[29]提出了一种基于端到端CNN的肖像照片全自动匹配系统。多任务学习方式,然后基于子任务的结果来传播最终遮罩。在本节中,我们首先制定了trimap自适应的任务,然 后 描 述 了 我 们 提 出 的 AdaMatting ( Adaptation 和Matting)的管道和训练方案。3.1. Trimap自适应我们首先正式定义了三重图自适应的任务。设αgt为真实值α martes。图像的相应最优三重图T_opt可以自然Lutz等人利用[23]对抗学习的力量,提取导致视觉上令人愉悦的组成的阿尔法遮罩。Wang等人。[35]表明,基于传播的抠图的语义级成对相似性可以通过深度学习机制来学习。据我们所知,定义为:Topt(x,y)=如果αgt(x,y)=0,如果0αgt(x,y)1,前景如果α (x,y)= 1,(二)对于三重图自适应(即,生成精确的最优三重图)没有现有的工作。最相关的主题是自动生成三重图。三分图的自动生成一直是传统抠图方法的重要组成部分。Wang等人[34]使用由飞行时间距离扫描仪获取的深度信息其他一些算法[8,18]依赖于二进制分割来获得粗三分图。[30]利用RGB图像特征图与形态学膨胀相结合自动生成三分图,并利用区域生长机制对三分图进行细化。[3]首次将完形法则引入抠图问题,使更强大的三重图生成成为可能。最近,[6,29]利用神经网络来生成trimap,大大提高了抠图性能。多任务学习是机器学习的一个子领域,其中多个学习任务在单个模型中同时求解。与为每个任务训练单独的模型相比,学习通过利用它们的相互关系来提高每个任务的学习效率和预测准确性。在计算机视觉中,存在使用多任务学习的各种示例,例如联合对象检测和语义分割[15],同时深度估计和场景解析[37],以及用于处理低 , 中 , 高 级 视 觉 任 务 的 通 用 网 络 [20] 。 最 近 ,Kendall et al.[19]提出了一种结合多个损失函数以使用同方差任务不确定性同时学习多个目标的通用方法。通过动态调整每个目标的权重,与单独训练的模型相比,它们的模型可以获得更优的性能。3. 方法根据前面提到的图像抠图的分解视图,图像抠图中隐含着两个相关但微妙不同的任务,即三重图自适应(分类任务)和阿尔法估计(回归任务)。我们提出了一种新的图像抠图流水线,其中两个子任务同时在一个其中(x,y)代表图像上的每个像素位置给定以三重映射(其可以是粗略的),三重图适配旨在预测最优三重图T_opt。直观地说,在三重图适应中,我们将透明区域从不透明的前景和背景中分离出来。这让人想起语义分割任务,它也将图像划分为离散部分。根据上面定义的T opt,图像抠图任务自然分为两个步骤:(1)决定α是否应该恰好为零、一或两者都不为,(2)如果该区域被认为是非透明的,则计算精确的α。请注意,我们不要求预测标签与输入trimap严格兼容:如果用户输入包含小错误,我们希望我们的模型能够纠正它。有几个原因可以说明为什么分离三重图自适应和alpha估计是有帮助的。首先,这两项任务需要不同的培训策略和模式的操作。此外,分类任务和回归任务通常需要不同的损失目标。因此,一方面,分离这两个任务减轻了回归器的负担,在很大程度上为不透明像素另一方面,当α的精确分数值被隐藏时,对象的语义和结构信息被期望为分类器利用的更多。第二,我们的最终结果是使用预测的T而不是粗略输入进行传播trimap,使我们的模型更强大和容错的粗输入trimap。图1(d)示出了由我们的模型执行的三重图自适应的示例。如可以观察到的,第一输入三重图中的未知区域是宽的且错误的,由于低质量标记而未覆盖所有毛发。在执行三重图适配之后,输出三重图不仅被缩小而且被校正,从而产生更可信的α遮罩。对于第二个输入图像(然而,提出的AdaMatting8822图2.建议的AdaMatting的管道。T-Decoder和A-Decoder分别代表trimap解码器和alpha解码器。对称快捷键链接到两个解码器的不同层。可以令人惊讶地适应一个相当精确的trimap在这种极端的条件下,从而完美地解决了这一困难的情况下,图像抠图。3.2. 网络概述如上所述, 三重图适配需要对物体形状和结构有更多的语义理解,而图像抠图更多地依赖于仔细的低分辨率,对光度线索的水平开发。同时解决这两个任务,同时共享中间表示,可以合理地提高整个模型的性能。因此,我们设计了一个完全端到端的CNN模型,名为AdaMatting。图2描绘了AdaMatting的流水线,其由产生共享表示的一个编码器、随后的两个依赖的解码器组成,解决三重图自适应和alpha估计重构。然后将三重图适配的结果和中间阿尔法遮片发送到传播单元中,形成最终阿尔法遮片。建议的AdaMatting将图像与相应的trimap连接作为输入。首先,前端全卷积编码器(采用ResNet- 50[17])产生深度特征作为共享表示。然后,每个任务使用两个单独的解码器,旨在学习从共享表示到所需的输出。每个解码器由几个3× 3卷积层和上采样模块组成。三元图解码器输出由交叉熵损失引导的3通道分类logit。阿尔法解码器输出1通道中间阿尔法估计,其被转发到传播单元中以用于进一步细化。详细的网络架构如图所示。二、在这里,我们解释了我们模型的主要模块:多任务自动编码器我们的流水线的主要模块是多任务自动编码器,基于广泛使用的U-Net架构设计,因为它实现了在许多计算机视觉任务中取得了巨大成功[27,39,40]。根据观察,trimap自适应更依赖于高级特征,alpha第一步第二步第三步图3.传播的中间α物质的可视化。伪影逐渐被去除,头发逐渐变得更清晰,更容易区分。估计更多地依赖于低级别的估计,对称捷径被链接在用于两个解码器的层的不同级别之间。更具体地说,trimap解码器employs深和中间层对称快捷方式,和阿尔法解码器采用中间和浅层对称快捷方式。此外,最近的工作[25,41]表明,有效感受野的大小对分割任务起着重要作用。为了进一步扩大感受野,同时保持可接受的计算成本,在捷径上采用全局卷积[25]。这种修饰进一步扩大了感受野,有助于获得更可靠和局部一致的结果。受广泛使用的基于传播的方法[31,13,7,1,21]的 启 发 , 我 们 设 计 了 一 个 由 卷 积 长 短 期 记 忆(LSTM)网络的最新进展授权的传播单元[36]。 如图所示,我们的管道。2,该单元由两个ResBlocks [17]和一个卷积LSTM单元组成。在每次递归迭代中,将输入图像、适应的三重图和先前的阿尔法遮片传播结果作为输入。ResBlocks从输入中提取特征,而卷积LSTM单元在传播步骤之间保持记忆。与传统的基于传播的方法类似,传播单元逐步细化预测的alpha mates,产生具有更准确边缘细节的最终结果8823最大迭代器1u并且显著减少不期望的伪像。图3示出了如何在设计的传播单元内细化阿尔法遮片的示例。可以看出,毛发逐渐变得更清晰可辨。此外,在传播过程中消除了模糊环伪影3.3. 多任务丢失多任务学习旨在在一个模型中解决多个任务,同时与单独训练的模型相比,实现更高的效率和性能。它可以被认为是一种通过在互补任务之间共享领域信息来诱导知识转移的方法[32,19]。从实现方面来看,通过利用共享的表示和设计的目标,多个任务能够以有效和高效的方式相互学习特别是在AdaMatting中,两个任务是trimap自适应和alpha估计。如上所述,三重图自适应可以被建模为分割任务,将输入图像分割成实心前景、实心背景和半透明区域。解决这种分割问题的过程可以产生丰富的语义特征,这些语义特征反过来有助于解决alpha matte回归。我们采用任务不确定性损失,而不是线性组合损失[19]。我们的损失可以表述为:测试集后者具有更广泛的对象类型和更复杂的背景场景。在本节中,我们将我们的完整AdaMatting与当前最先进的方法进行定量和定性比较。4.1. 实验设置数据集第一个数据集,alphamatting.com[26],是一个著名的自然图像抠图方法的在线评估基准它包括27幅训练图像和8幅测试图像,分别用“小”、“大”和“用户”三种不同的三重图第二个数据集是Composition-1k[38],它提供了431张前景图像及其地面真实alpha蒙版。为每个前景选择100张来自COCO [4]的背景图像我们完全遵循[38]在使用数据集时使用的组合顺序。评估我们使用四个量化指标进行抠图评估。即绝对差之和实证研究表明,Grad更适合对于抠图方法的感知比较[26]。受[5]的启发,我们使用“poly”学习率策略,其中当前学习率被定义为基础学习率乘以(1− iter)p。基本学习率和p分别设置为0.0001和0.9。L({T∈,α∈},{Topt,αgt1})=2σ21LT(T,T˜(可选)活泼地使用Adam优化器,具有动量和权重衰减分别设置为0.9和0.0001σ1和在多任务丢失中,σ2+σ2Lα({T,αt},αgt)+log2σ1σ2,(三)其中,T和α分别代表三重图自适应和α估计的输出,σ1和σ2代表动态调整的任务权重,LT和Lα分别代表三重图自适应损失和α估计损失。更具体地说,LT是交叉熵损失,Lα是L1损失,计算仅在T(表示为Tu)的未知区域上计算:对于所有的实验,我们训练了120个epoch,批量大小为16。沿着trimap中的未知区域的大小为800×800到320×320的训练块被随机裁剪,然后调整大小为320×320块,因为使用较大块的训练可以引入更多的语义信息.使用随机侵蚀和扩张技术[38]从地面真实阿尔法蒙版对于数据增强,我们对所有图像采用0.75和1.5之间的随机翻转和随机调整大小Lα({Tα,αβ},αgt1)=的|T~|Σ|α(s)−αgts∈T(s)|、(四)并额外添加-45和45之间的随机旋转度由于分类任务和抠像任务的不同,模型权值没有初始化哪里|杜|是T u中的像素数。损失实际上如3.1节所述,将图像抠图分解为两个部分,确保每个解码器分别学习结构语义和光度信息。注意,通过反向传播算法在训练时间期间动态地调整两个任务的折衷参数,这避免了用于最优权重的昂贵且繁琐的搜索过程。4. 实验我们进行了广泛的实验,并在两个公共数据集上证明了我们的方法的有效性:(1)al-phamatting.com[26]和(2)Adobe Composition-1k [38]通过ImageNet预训练[38,23]。训练数据在每个epoch中随机混洗。训练过程大约需要2天时间,每次实验使用8个NVIDIA TITAN X GPU。在推理过程中,全分辨率输入图像和相应的三重图被连接为4通道输入并馈送到网络中。传播单元递归3次。4.2. 结果在alphamatting.com我 们 将 结 果 提 交 给 了 alphamatting.com [26] 。AdaMatting实现了最先进的性能,在所有三个指标上的平均性能排名第一。示出了梯度误差和MSE结果u8824表1.我们的方法和5种代表性最先进技术在alphamatting.com数据集上的平均排名结果[26]。最佳结果以粗体显示。S、L、U代表不同类型的输入三元图。有关详细信息,请访问alphamatting.com。方法梯度误差MSE SAD整体S LU整体SLU整体SLUAdaMatting(我们的)5.22.8 2.8105.33.84.87.54.63.93.86.1SampleNet抠图6.23.1 3.312.16.446.48.95.33.94.57.4[24]第二十四话13.212 10.816.814.314.8 15.1 13.111.21211 10.6DCNN [9]14.617.9十四点四11.61011.67.910.510.512.5 8.6 10.4DIM [38]14.310.8 11219.38811.97.18.36.16.9如果[1]16.419.5十四点一15.11012.598.68.89.98.97.5[22]第23话:我爱你[23]图4. alphamatting.com测试集的两个图像的定性比较。[26]该图显示了测试图像“troll”与trimap“user”的alpha预测在选项卡中。1.一、几个视觉比较如图所示。4.第一章从图中可以看出,我们的结果与其他现有技术相比包含更多的细节。具体来说,对于第一行中的4.3. 关于组合物1k的对于Composition-1 k测试集,我们评估了6种最新的最先进的方法,即Closed Form [21],KNN [7],DCNN[9] , Information Flow [1] , AlphaGAN [24] 和 DeepImage Matting [38]。表2列出了Grad、SAD和MSE的定量结果。显然,我们的模型在所有指标上都比其他所有方法都好得多。由于随机选择背景与数据集中的每个前景对象相结合,许多图像看起来不自然或不真实。此外,在数据集中还存在一些特殊的图像,前景颜色和背景颜色难以区分。图中示出了两个示例。五、可以明显看出,我们的结果包含更生动的细节和显着更少的文物,与所有其他方法相比。5. 讨论从比较国家的最先进的图像抠图模型,很明显,我们的AdaMatting实现supere- rior性能在定量和定性。在本节中,我们将进行更多的实验,以进一步分析每种设计技术的有效性,并测量我们在看不见的真实世界图像上的性能。表2.对Composition-1 k测试集与其他最先进的测试集进行定量比较。梯度损失按103缩放。-PU代表移除传播单元。方法Grad伤心MSE[21]第二十一话126.9168.10.091KNN [7]124.1175.40.103DCNN [9]115.1161.40.087如果[1]38.052.40.030[24]第二十四话--0.031DIM [29]30.050.40.014我们的(-PU)17.944.10.011我们16.841.70.0105.1. 与两阶段方法的比较而不是以多任务的方式训练单个网络,更直观的方法是利用两个级联网络,依次解决三重图自适应和图像抠图。我们称这种模型为Seq-AdaMatting,它不共享两个任务之间的中间表示为了公平比较,两个模型都采用了包括子像素卷积、全局卷积、传播单元和多任务损失在内的所有分量。Adobe Composition-1 k的定量结果列于表中。3 .第三章。从表中可以看出,利用共享表示的原始AdaMatting在所有三个度量上显著优于顺序版本,尽管Seq-AdaMatting具有比AdaMatting多得多的参数(因为Seq-AdaMatting具有两个不同的编码器)。这些结果将-8825输入图像三重映射封闭形式[21] KNN[7] DCNN[9][12]第一届全国政协副主席、全国政协委员输入图像三重映射封闭形式[21] KNN[7] DCNN[9][12]第一届全国人大常委会第十五次会议审议通过了《中华人民共和国电信与信息服务业务经营许可证》。Adobe Composition-1 k测试集上的定性比较。表4.Perf. 三重图自适应(Acc,mIoU)和图像抠图实验证明,使用包含丰富语义信息的共享表示可以有效地帮助提取更好的alpha蒙版。表3.与两阶段序贯方法的定量比较。梯度损失按103缩放。方法Grad伤心MSEAdaMatting -不含PU17.9344.100.0114Seq-AdaMatting23.9746.360.01295.2. Trimap自适应的准确性我们已经提供了适应的可视化示例[ 38 ]第38话:我的世界“D-n”:使用GT alpha的n-扩张作为输入三重图。“Adobe”: Using testset trimap as方法/ Trimap类型累积(%)MiouGrad[28]第二十八话84.959.0480.99[28]第二十八话92.377.8129.8[28]第二十八话90.377.2116.27AdaMatting /D-10094.780.717.68AdaMatting /D-1096.784.217.06AdaMatting /Adobe96.583.616.89从trimap自适应学习高级语义。第二种是5.1节中提到的两阶段方法,它在两个任务之间不共享表征因此,阿尔法估计步骤不受语义的指导。三图在纸和supp。有关定量结果,请参见表1。4.第一章5.3. 结构语义学为了进一步证明结构语义引导的有效性,我们设计了一个实验,将我们提出的AdaMatting(多任务丢失和共享表示)与那些没有语义信息帮助的训练进行第一个是只使用人工智能训练的模型,相位估计损失Lα(即, σ = 1。0在Eq.(5)不涉及三重图适应的特征。我们仔细看看图2中的第二幅图。5、由于球是高度结构化的,包含了大规模的复杂图案。此外,前景和背景之间的颜色相似性增加了图像抠图的整体难度。因此,解决这一问题就需要对物体形状和结构的整体感知.三个模型的阿尔法哑光结果如图所示。7.第一次会议。可以明显地看出,利用从trimap adapta学习的结构语义8826[23]第一届全国人大常委会第十三次会议审议通过了《中华人民共和国宪法》。对真实世界图像的评估结果输入三重图是由纵向分割,然后边界侵蚀。输入图像仅使用Lα的49.548.547.546.545.544.543.542.541.540.539.50 0.10.20.30.40.50.60.70.80.91Alpha估计任务权重0.01450.0140.01350.0130.01250.0120.01150.0110.0105Seq-AdaMatting建议AdaMatting图8. Adobe Composition-1 k测试集上的结果,具有不同的加权损失函数。下面的虚线表示动态加权损失的结果,上面的折线表示线性组合固定重量损失的结果。图7.比较我们的模型在有和没有来自trimap自适应的结构语义特征的情况下进行训练。显然,具有这些特征的一个(最后一个阿尔法蒙版)可以捕捉整体结构,并产生更准确的结果。该模型能够精确地捕捉前景物体的整体形状,从而在不丢失细节的情况下得到准确的抠图结果。没有高级特征的其他模型无法感知对象的全局结构,从而导致alpha蒙版的缺陷。5.4. 多任务丢失分析进 一 步 分 析 多 任 务 丢 失 的 影 响 我 们 在 AdobeComposition-1 k测试集上进行了实验,比较了两种损失:部署的动态加权损失(等式3)和朴素线性组合损失:Lnaive=(1−σ)LT+σLα,(5)其中σ代表预定义的固定权重。注意,在σ = 1的极端情况下。0时,该方法退化为先前工作中使用的α的一步回归[38,9]。我们在相同的设置下训练AdaMatting,除了损失函数。相对于权重σ的所得模型性能如图所示。8.可以观察到σ=1。结果表明,三重图自适应算法的性能明显优于传统的三重图自适应算法,这也验证了三重图自适应算法的重要性.适当调整分类分支和回归之间branch提高了性能。然而,与所有其他损失相比,动态加权损失导致明显更好的结果。5.5. 真实世界图像抠图由于trimap自适应提供了额外的鲁棒性,即使输入trimap包含微小错误,我们的模型也可以生成准确的alpha蒙版。鲁棒性在执行真实世界图像抠图时特别有用。其中一个结果显示在图中。六、正如所观察到的,与其他方法相比,我们的AdaMatting产生了更此外,由于trimap自适应的任务,我们的模型能够校正输入的trimap,即使在标记不正确的区域也能产生准确的alpha值。6. 结论在本文中,我们提出了一种图像抠图的分解视图,其中任务可以分为两个子任务:trimap自适应和alpha估计。从这个角度来看,AdaMatting被提出来解决这两个子任务联合利用多任务损失。通过明确地分离两个子任务并根据不同的目标对其进行优化,该模型可以极大地受益于共享表示,其中包含丰富的语义和光度信息。大量的实验表明,额外的结构意识和trimap容错的AdaMatting。此外,该方法在两个广泛使用的数据集上表现出优异的性能,无论是定性还是定量,为图像抠图建立了一个新的最绝对差总和固定权重MSE=0.0108SAD=41.10动态权值伤心MSE均方误差8827引用[1] Yagız Aksoy,Tunc Ozan Aydın,Marc Pollefeys和ETHZ ürich。为自然图像抠图设计有效的像素间信息流在计算机视觉和模式识别(CVPR),2017年。二三四六七八[2] YagazizAksoy,Tae-HyunOh,Syl vainParis,MarcPollefeys , and Wojciech Matusik. 语 义 软 分 割 。 ACMTransactions on Graphics ( TOG ) , 37 ( 4 ) : 72 ,2018。2[3] 艾哈迈德·卡巴尼和埃里克·杜布瓦一个新的基于完形分组法则的三重图自动生成框架。在Visual InformationProcessing and Communication VI,卷9410,页94100 G中。国际光学与光子学会,2015年。3[4] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新的基准和最先进的 分 析 。 Proceedings of the IEEE Computer SocietyConference on Computer Vision and Pattern Recognition,pages 3686-3693,2014. 5[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017. 5[6] Quan Chen , Tiezheng Ge , Yanyu Xu , ZhiqiangZhang,Xinxin Yang,and Kun Gai. 语义人类铺垫。2018年ACM多媒体会议,第618-626页。ACM,2018。3[7] Qifeng Chen,Dingzeyu Li,and Chi-Keung Tang.我知道。IEEE Transactions on pattern analysis and machineintelligence,35(9):2175-2188,2013. 二三四六七[8] Donghyeon Cho,Sunyeong Kim,Yu-Wing Tai,and InSo Kweon. 光场图像的自动三重图生成和一致IEEEtransactionsonpatternanalysisandmachineintelligence,39(8):1504-1517,2017。3[9] 赵东贤戴宇荣和权仁生使用深度卷积神经网络的自然图像抠图。欧洲计算机视觉会议,第626施普林格,2016年。三六七八[10] Yung-Yu Chuang,Brian Curless,David H Salesin,andRichard Szeliski.数字抠图的贝叶斯方法。 计算机视觉和模式识别,2001年。CVPR 2001年。2001年IEEE计算机协会会议论文集,第2卷,第II-II页。IEEE,2001年。一、二[11] Xiaoxue Feng,Xiaohui Liang,and Zili Zhang.一种基于稀疏编码的图像抠图聚类抽样方法。欧洲计算机视觉会议,第204施普林格,2016年。2[12] Eduardo SL Gastal和Manuel M Oliveira。实时alpha抠图的共享在计算机图形论坛,第29卷,第575-584页。Wiley Online Library,2010。二、七[13] LeoGrady ,ThomasSchiwietz,ShmuelAharon,andRüdigerWestermann.用于交互式α-遮片的随机游走。在Proceedings of VIIP,卷2005,第423二、三、四[14] Dorothy M Greig,Bruce T Porteous和Allan H Seheult。二值图像的精确最大后验估计皇家统计 学会杂志。Series B(Method-ological),pages 271-279,1989. 3[15] Bhara thHariharan,PabloArbela' ez,RossGirshick,andJi-tendra Malik.同时检测和分割。欧洲计算机视觉会议,第297Springer,2014. 3[16] Kaiming He , Christoph Rhemann , Carsten Rother ,Xiaoou Tang,and Jian Sun.一种全局采样的α-mating方法在计算机视觉和模式识别(CVPR),2011 IEEE会议上,第2049-2056页IEEE,2011年。2[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。4[18] 谢长林和李明瑞。用于数字图像抠图的三重图自动在信号和信息处理协会年度峰会和会议(AP-SIPA),2013年亚太地区,第1IEEE,2013。3[19] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。arXiv预印本arXiv:1705.07115,3,2017。三、五[20] Iasonas Kokkinos Ubernet:使用不同的数据集和有限的内存训练通用卷积神经网络,用于低,中,高层次的视觉。在CVPR,第2卷,第8页,2017年。3[21] Anat Levin,Dani Lischinski和Yair Weiss。一个封闭形式的解决方案,以自然图像抠图。IEEE Transactions onPattern Analysis and Machine Intelligence,30(2 ):228-242,2008。二三四六七[22] Chao Li,Ping Wang,Xiangyu Zhu,and Huali Pi.三层图形框架,具有用于alpha mating的sumd特性。计算机视觉和图像理解,162:34- 45,2017。6[23] Sebastian Lutz 、 Konstantinos Amplianitis 和 AljosaSmolic。Alphagan:用于自然图像抠图的生成对抗网络。arXiv预印本arXiv:1807.10088,2018。三五六八[24] Sebastian Lutz 、 Konstantinos Amplianitis 和 AljosaSmolic。AlphaGAN:用于自然图像抠图的生成对抗网络。2018. 6[25] Chao Peng,Xiangyu Zhang,Gang Yu,Guiming Luo,and Jian Sun.大核问题-通过全局卷积网络改进语义分割。arXiv预印本arXiv:1703.02719,2017。4[26] Christoph Rhemann , Carsten Rother , Jue Wang ,Margrit Gelautz,Pushmeet Kohli,and Pamela Rott.一个感知动机的图像抠图在线基准测试 在计算机视觉和模式识别,2009年。CVPR 2009。IEEE会议,第1826-1833页。IEEE,2009年。二、五、六[27] Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-net:用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议,第234施普林格,2015年。4[28] Ehsan Shahrian,Deepu Rajan,Brian Price和Scott Co-hen。使用综合SAM8828pling 套 。 在 Proceedings of the IEEE Confere
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功