语义人体抠图：粗注释数据与细注释数据的综合利用

33 浏览量更新于2023-10-25 收藏 2.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8563使用粗注释刘金林1、2姚元1侯文迪1崔苗苗1谢轩松1张长水2华贤生11阿里巴巴集团2清华大学{ljl191782，ryan.yy，wendi.hwd，miaomiao.cmm}@ alibaba-inc.comxingtong. taobao.comzcs@mail.tsinghua.edu.cnxiansheng. alibaba-inc.com摘要语义人体抠图旨在估计前景人体区域的每像素不透明度。这是相当有挑战性的，通常需要用户交互式三重图和大量的高质量注释数据。注释这种数据是劳动密集型的，并且需要普通用户的很好的技能，特别是考虑到人类非常相比之下，粗略注释的人类数据集更容易从公共数据集获取和收集。在本文中，我们建议使用粗注释数据加上细注释数据，以提高端-(a)图像（b）Trimap（c）DIM没有额外的三重图的到端语义人类抠图（d）无粗略注释（e）我们的（f）α-GT输入.具体来说，我们训练一个掩码预测网络来使用混合数据估计粗略的语义掩码，然后提出一个质量统一网络来统一以前的粗略掩码输出的质量。一个遮片细化网络接受统一的遮罩和输入图像来预测最终的阿尔法遮片。所收集的粗注释数据集显著地丰富了我们的数据集，允许为真实图像生成高质量的alpha遮片。实验结果表明，该方法对国家的最先进的方法进行了验证此外，该方法可以用于细化粗注释的公共数据集，以及语义分割方法，这在很大程度上降低了注释高质量的人类数据的成本。1. 介绍人体抠图是一项重要的图像编辑任务，它可以将人体与背景准确分离。它的目的是估计前景区域的每像素不透明度，使其有价值的使用提取的人的图像在一些重组的情况下，包括数字图像和视频制作。人们可以将此任务称为语义分割问题[4，7，24]，图1.用户交互方法可以在三图的指导下捕捉精确的语义和细节。如果没有trimap和足够的训练数据集，可能会得到不准确的语义估计，这不可避免地导致错误的抠图结果。我们的方法通过利用粗糙的注释数据来实现可比的抠图结果，同时不需要三重图作为输入。实现了对封闭对象的细粒度推理然而，分割技术主要集中在对场景理解的逐像素二值分类，虽然语义信息被很好地标记，但它不能捕捉像人的头发这样复杂的语义细节。铺垫问题可以用一般的方式来表述。给定输入图像I，抠图被建模为前景图像F和背景图像B的加权组合，如下[30]：I z=α z F z+（1 −α z）B z，αz∈ [0，1].（一）其中z表示图像I中的任何像素。已知的信息在方程。1是三维RGB颜色Iz，而RGB颜色Fz和Bz以及alpha遮罩估计αz是未知的。因此，抠图是从3个已知值中求解7个未知变量，这是高度欠约束的。因此，大多数现有的抠图方法都采用一个精心指定的三重图作为约束来减少8564解决方案空间。然而，一个两难的质量和效率方面的trimaps仍然存在。影响抠图算法性能的关键因素三重图将图像分为三个区域，即确定的前景区域、确定的背景区域和未知区域。直观地说，三重图包含的前景边界周围的区域越小然而，设计这样一个精确的三重图需要大量的人力，效率低下。标注质量应在所有数据之间统一，未知区域的大小都会降低最终的alpha蒙版效果。解决这个难题的一个可能的解决方案是自适应地学习从粗到细的三重图[28，6]。相反，另一种解决方案从输入中丢弃了三重映射，并将其用作深度抠图网络的隐式约束[8，33]。然而，这些方法仍然依赖于生成的三重图的质量，当隐式三重图不准确时，不能同时保留另一个局限性来自人类垫的数据。高质量的标注数据对于图像抠图任务是非常重要的由于自然图像中的人拥有各种颜色、姿势、头部位置、衣服、配饰等。前景周围的语义有意义的结构，如人类的头发，毛皮是人类抠图的挑战区域。注释如此精确的α-matte是劳动密集型的，并且需要比普通用户更高的技能。Shen等人[28]提出了一个包含2000幅图像的人体por- trait数据集，但它对人体上半身的位置有严格的约束。广泛使用的DIM数据集[32]在人类数据方面有限，只有213张人类图像。虽然Chenet al. [8]创建了一个大型的人类抠图数据集，它只用于商业用途。不幸的是，在[8]中收集具有35，311张图像的数据集需要超过1，200小时，这在实践中是不期望的。因此，我们认为，有一个解决方案，结合有限的精细注释图像与容易收集的粗糙注释图像的人类抠图。为了解决上述问题，我们提出了一个新的框架，利用粗糙和精细的注释数据的人类抠图。我们的方法可以预测准确的alpha蒙版，具有高质量的细节和足够的语义信息，而不需要trimap作为约束，如图1所示。我们通过提出一个耦合管道与三个子网来实现这一目标。面具预测网络（MPN）的目标是预测低分辨率的粗糙面具，其中包含语义的人的信息。MPN使用精细和粗略的注释数据进行训练，以在各种真实图像上获得更好的性能。然而，MPN的输出可以变化并且相对于不同的输入图像不一致。因此，质量统一网-在混合注释数据上训练的工作（QUN）被引入以将MPN输出的质量水平校正到相同的水平。提出了一种抠像细化网络（MRN），以原始图像及其统一的粗蒙版作为输入，预测最终的精确alpha抠像。与MPN和QUN不同，抠图细化网络仅使用精细注释的数据进行训练。我们还构造了一个混合标注的数据集用于人类抠像任务.该数据集由高质量（精细）注释的人类图像和低质量（粗糙）注释的人类图像组成。我们首先收集了9526张带有精细注释的图像/alpha对。与之前的数据集相比，我们在劳动力定量体积大小[8]内使用仔细注释的alpha matte [28，32我们进一步收集了10597个粗糙的注释数据，以更好地捕捉我们的框架内的准确语义我们遵循[32]将两个数据合成到MS COCO [23]和PascalVOC [12]中的10个背景图像上，以形成我们的数据集。在该数据集上进行了综合实验，证明了该方法的有效性，该模型能够对粗标注的公共数据集和语义分割方法进行细化，进一步验证了该方法的泛化能力这项工作的主要贡献是：• 据我们所知，这是第一种使用粗略注释数据来增强端到端人体抠图性能的方法以前的方法，以trimap作为约束或仅使用足够精细标注数据集。• 我们提出了一个质量统一网络来纠正训练过程中的面具质量，以便利用粗略和精细注释，允许精确的语义信息以及结构细节。• 该方法可用于细化粗注释公共数据集以及语义分割方法，这使得创建精细注释变得容易从粗略的掩码中提取数据。2. 相关工作自然图像抠图。自然图像抠图试图在已知前景和背景的情况下估计三重图中的未知区域。传统的方法可以概括为基于采样的方法和基于亲和度的方法[30]。基于采样的方法[11，14，15，17，19，20，27]利用附近已知的前景和背景颜色来推断未定义区域中像素的alpha值假设两个像素的alpha值具有很强的相关性，如果对应的颜色相似。根据假设，提出了各种采样方法，包括贝叶斯抠图[11]，稀疏编码[14，19]，全局采样[17]和KL发散方法[20]。Com-8565掩模预测网络解码器编码器解码器跳过连接跳过连接质量统一网络残余块解码器跳过连接抠图细化网络编码器编码器下采样图2.我们的网络架构概述。所提出的方法由三部分组成。第一部分是掩码预测网络（MPN），用于预测低分辨率的粗语义掩码。MPN使用粗数据和细数据进行训练第二部分是质量统一网络（QUN）。QUN旨在将掩模预测网络的输出质量调整到相同的水平。然后，经校正的第三部分是抠图细化网络（MRN），采用输入图像和统一的粗蒙版来预测最终的精确alpha抠图。与基于采样的方法类似，基于亲和度的方法[2，3，5，9，16，21，22，29]定义了相邻像素之间的不同亲和度，试图对蒙版梯度而不是每个像素的alpha值进行建模。基于深度学习的方法能够以端到端的方式学习图像和相应的alpha蒙版之间的映射。Cho等人[10]利用封闭式抠图[21]和KNN抠图[9]进行阿尔法抠图重建。Xu等[32]将编码器-解码器结构与以下细化网络集成以预测阿尔法遮片。Lutz等人[25]进一步将生成对抗网络用于图像抠图任务。Cai等人[6]论证了直接从粗略的三重图估计alpha蒙版的局限性，并提出将蒙版分解为三重图适应和alpha估计任务。与上述方法相比，该方法简单地使用RGB图像作为输入，没有指定的三重图的约束。人的形象Matting。作为一种特定类型的图像抠图，人体抠图的目的是估计输入图像中与人体相对应的准确的阿尔法抠图，其涉及语义上有意义的结构，如头发。再-目前，已经提出了几种基于深度学习的人体抠图方法[8，28，34]。Shen等人[28]提出了一种深度神经网络来生成por- trait图像的trimap，并使用前向和后向传播策略为网络优化添加了一个matting层[21]Zhu等[34]使用类似的流水线并设计用于肖像分割的光密度网络和用于学习用于alpha蒙版预测的引导滤波器的特征块[18Chen等人[8]介绍一种自动化的人体铺垫，租m没有喂养trimaps.它结合了一个segmenta- tion模块与一个抠图模块端到端抠图。[33]中的后期融合CNN结构集成了前地和背景分类，展示了其用于人类图像抠图的能力。然而，这些模型需要仔细收集的图像/阿尔法对，这也可能由于缺乏精细注释的人类数据而遭受不准确的语义。3. 该方法我们开发了三个子网络作为一个顺序的管道。第一个是掩码预测网络（MPN），使用不同标注质量水平的数据预测粗语义掩码。二是质量统一网络（QUN）。QUN将来自MPN的输出粗糙掩码的质量第三部分是抠图细化网络（MRN），预测最终精确的alpha抠图.流程图和网络结构如图2所示。3.1. 掩模预测网络由于不需要三重图作为输入，所提出的方法的第一阶段是预测一个粗略的语义掩码。我们使用的网络是一种带跳跃连接的编码器-解码器结构在这个阶段，我们的目标是估计一个粗略的掩码，因此网络不是在高分辨率下我们调整所有训练数据的大小，分辨率为192×160，以便有效地训练掩模预测网络（MPN）。此外，面具预测-8566pG组成使用所有训练数据（包括低质量和高质量注释数据）来训练网络训练LRPN的损失函数是L1损失，N= λ L|α c− α c|1+（1 − λ L）|β c− β c|第一条、第二条p g p g其中输出是2通道掩码，αc表示输出的第一通道，即，预测的前景掩模，αc表示真实前景掩模，βc表示(a)精细掩码（b）粗略掩码（c）（a，b）G p输出的第二通道，即，预测的回归--背景掩模，βc表示真实背景掩模。我们设λ L=0。五是实验。3.2. 质量统一网络由于注释高质量的抠图数据的成本很高，我们建议使用来自不同数据源的混合数据。一些数据被高质量地注释，甚至毛发也与背景很好地分离（图 3（a））。然而，大多数其他数据的注释质量相对较低（图3（b））。使用精细注释数据和粗略注释数据训练掩模预测网络。因此，预测的掩模的质量可能显著变化。由于alpha蒙版预测网络只能在高质量的注释数据上训练，因此粗蒙版质量的变化将不可避免地导致推理阶段的蒙版结果不一致。如图6（c）所示，如果粗略掩模相对准确，则细化网络将很好地工作以输出准确的阿尔法遮片。相反，如果粗糙掩码缺少重要细节，则细化提出了一种通过引入质量统一网络（QUN）来消除数据偏差的方法。质量统一网络旨在通过同时提高粗掩模的质量和降低细掩模的质量来将掩模预测网络的输出质量校正到相同的水平掩模预测网络的输出和原始图像被馈送到质量统一网络以统一质量水平。经校正的粗糙掩模是统一的，并且使得能够实现一致的输入以用于训练以下精确的阿尔法遮片预测阶段。训练QUN网络的损失函数包括两部分：一致性损失和一致性损失。身份丢失迫使QUN的输出与原始输入相比没有太大变化，(d)（d，e）的统一(g)（a，d）的差映射（h）（b，e）的差映射(i)输入图像图3.不同品质的口罩由QUN统一高质量的口罩。（二）低质量口罩。（c）高质量掩模和低质量掩模的差异图（d）QUN的高质量掩模的统一结果(e) QUN低质量口罩的统一结果（f）统一的高质量掩模和低质量掩模的差异(g)统一高质量掩模和原始高质量掩模的差异图。(h)统一低质量掩模和原始低质量掩模的差异图。(i)输入图像。L=|Q（x）−Q（x′）|-是的（四）因此，训练QUN的损失函数是同一性损失和一致性损失的加权和，L群 =λ1L同一性+ λ2L组成。（5）在训练过程中，我们设置λ1= 0。25，λ2=0。五、在图3中，我们展示了QUN的结果。精细掩模（图3（a））和粗掩模（图3（b））分别由QUN统一到图3（d）和（e）。还计算了差异图。我们可以观察到，统一的高质量掩模变得相对较粗，而低质量掩模变得相对较细。因此，统一的掩模比原始的精细掩模和粗糙掩模彼此更接近。3.3. 抠图细化网络L身份= |Q（x）− x|1个以上|Q（x）− x|第一条、第三条其中Q（·）表示质量统一网络。x去注释输入图像和精确掩码，x′表示输入图像和不准确掩码的级联。第二部分是一致性损失。一致性损失迫使精确掩码和不精确掩码对应的QUN的输出接近。抠图细化网络（MRN）的目的是预测准确的阿尔法抠图。因此，我们以更高的分辨率训练MRN（在所有实验中为768×640）。请注意，来自MPN和QUN的粗略掩模分辨率较低（192×160）。将粗掩模集成到MRN中，内部输入特征图，其中输入被缩小4经过几次卷积运算。的输出8567(a) 粗注释数据集(b) 精细注释数据集图4.在我们的数据集中输入图像和相应的注释。我们的数据集由粗注释图像（a）和细注释图像（b）组成。MRN是4通道贴图，包括三个前景RGB通道和一个Alpha蒙版通道。预测与阿尔法蒙版耦合的前地RGB通道能够增加鲁棒性，其起到与[32，8]中使用的组成损失类似的作用。我们用来训练MRN的损失函数是L1损失，L MRN= λ H|RGB p− RGB g|1+（1 − λ H）|α p− αg|1、（六）其中RGBp和RGBg表示预测的RGB前景通道和真实前景通道。αp和αg分别表示预测的阿尔法遮片和地面实况阿尔法遮片。我们设λ H=0。五是实验。3.4. 实现细节我们使用Tensorflow [1]框架实现我们的方法。我们依次对三个网络进行训练。在输入到掩码预测网络之前，我们对192×160分辨率的图像进行下采样操作，包括精细和粗略的注释数据。在每个训练对上随机执行翻转。我们首先训练掩码预测网络20个epoch并固定参数。然后将低分辨率图像和输出的前景蒙版拼接起来作为输入，训练质量统一网络。当训练QUN时，随机滤波器（滤波器大小设置为3或5）、二值化和形态学操作（扩张和侵蚀）被施加到精细注释数据以生成成对的高质量和低质量掩模数据。在训练质量统一网络后，所有参数都是固定的。最后，我们只使用精细注释的数据来训练抠图细化网络整个数据对（图像，alpha matte）随机裁剪为768×640。训练所有网络的学习率是1e-3。MPN和QUN表1.人类抠图数据集的配置数据集训练集人体图像测试人类设置图像Shen等人[28日]17001700300300TrimapDIM [32]2022020011220SHM [8]344933449310201020我们的（粗糙）10597105970125（+11）1360Ours（fine）9324（+202）95260使用批量大小 16 训练 MRN ，使用批量大小 1 训练MRN，因为MRN仅使用高分辨率数据训练。在测试时，我们的流水线的前馈传递被执行，以仅以图像作为输入来输出alpha蒙版预测。多个800×800图像的平均测试时间为0.08秒。4. 人类抠图数据集人类铺垫的一个主要挑战是缺乏数据。Xu等[32]提出了一种通用的抠图数据集，通过将自然图像中的前景对象合成到不同的背景中，该数据集已被广泛用于以下抠图工作[6，25，33]。然而，人体图像的多样性受到严重限制，训练集只有202幅人体图像，测试集只有11幅人体图像。对于人类抠图数据集，Shenet al. [28]收集了一个具有2000张图像的肖像数据集，它假设上半身出现在人类图像中的相似位置，并且图像由Closed From [21]，KNN [9]方法注释，这可能不可避免地有偏差。虽然[8]创建了一个大型的人类时尚数据集用于铺垫，但它仅用于商业用途。为此，我们创建了一个高质量的人类我们仔细地从互联网上收集了9449个具有简单背景的不同人类图像PNG格式的白色或透明背景），每个人的图像在简单处理后都会获得一个注释良好的alpha蒙版将人类图像分为训练集/测试集，分别为9324和125。继Xuet al. [32]，我们首先将DIM数据集[32]中的人类图像添加到我们的训练/测试集中，分别形成然后，我们在MS COCO [23]和PascalVOC [12]中随机抽取10张背景图像，并将人类图像合成到这些背景图像上。在合成过程中，我们确保背景图像不包含人类。人类抠图数据集应该解决的另一个问题是注释的质量。图像抠图任务需要用户为对象指定注释，即，高质量的Alpha Matte。此外，用户交互方法需要精心准备的三图和涂鸦作为约束，这是劳动密集型的并且可扩展性较低。没有用户提供的三图的方法是通过首先生成隐式三图以进一步指导来预测alpha蒙版，从而导致一些伪影以及丢失一些语义8568(a) 图像(b) DeepLab(c) 封闭形式(d) DIM（e）SHM(f) 我们的（精细数据）(g) 我们的（h）Alpha-GT图5.对我们提出的数据集进行定性比较。第一列和最后一列显示了输入图像和地面真实alpha matte，其余列显示了DeepLab[7]，封闭式matting [21]，DIM [32]，SHM [8]的估计结果，我们的方法仅使用精细注释数据进行训练，我们的方法使用混合注释数据进行训练。对于复杂的结构。我们整合粗糙的注释数据来解决这个问题，因为它们更容易获得。我们从 [31] 和Supervisely Person Dataset中收集了另外10597个人类数据，并按照上述设置生成了105970个带有粗略注释的图像。表1显示了现有人体抠图数据集的配置。我们的数据集由精细和粗略注释的数据组成与用户交互式方法[28，32]相比，我们的数据集涵盖了各种高质量的人类图像，使其对于人类抠图模型更加稳健。虽然比自动方法牺牲了高质量注释的数量[8]，但我们引入了粗糙的注释数据，以提高以较低成本提取语义和抠图细节两种注释的数据如图4所示。5. 实验5.1. 评价结果。评估指标。我们采用四个广泛使用的指标对于铺垫评估后，以前的作品[32，8]。度量是MSE（均方误差）、SAD（绝对差之和）、梯度误差和连通性误差。[26]中提出的梯度误差和连接误差用于反映人类对alpha蒙版视觉质量的感知。这些度量的较低值对应于更好地估计的阿尔法遮片。我们将估计的alpha matte和真实的alpha matte归一化为[0，1]以计算这些评估度量。由于不需要trimap，我们计算整个图像并按像素数平均。8569表2.量化结果。方法伤心MSE梯度连接DeepLab [7]0.0280.0230.0120.028[21]第二十一话0.00830.00490.00350.080[32]第三十二话0.00450.00170.00130.0043SHM [8]0.0110.00780.00320.011我们的（无粗略数据）0.00990.00670.00290.0095我们的（不含QUN）0.00760.00420.00240.0072我们0.00580.00260.00160.0054(a)输入图像（b）预测粗糙（c）估计阿尔法（d）估计阿尔法基线。我们选择了最典型的方法，掩模无QUN的与QUN一起Mantic分割方法，传统的抠图方法，用户交互方法和自动方法分别作为我们的基准。这些方法是DeepLab [7]，封闭式抠图[21]，DIM [3]和SHM[8]。请注意，封闭形式的抠图和DIM需要额外的三重图作为输入。DIM和SHM只能使用精细注释的数据进行训练。DeepLab和所提出的方法使用所提出的混合注释数据集进行性能比较。在表2中，我们列出了1360个测试图像的定量结果。语义分割方法DeepLab [7]仅预测粗略掩码，缺乏精细细节（图5（b）），导致最差的定量指标。SHM [8]表现不佳，因为我们的高质量训练数据集的容量有限，并且无法预测某些图像的准确语义信息（图5（d））。相比之下，交互式方法闭合形式抠图[21]和DIM [32]表现良好，受益于三元图提供的输入语义信息。这两种方法只需要估计三重映射中的不确定使用混合训练数据集的方法优于大多数方法，并与最先进的方法相媲美。DIM [32]略优于所提出的方法。注意，所提出的方法只接受输入图像，DIM需要高信息量的三重图作为额外的输入。尽管如此，所提出的方法（图5（g））和DIM（图5（d））的视觉质量看起来非常接近。自我比较。我们的方法可以实现高质量的阿尔法哑光估计，结合粗糙的注释人类数据。粗糙的标注数据促进了所提出的网络准确地估计语义信息。为了验证这些数据的重要性，我们只使用精细注释的数据集单独训练同一个网络。定量结果列于表1中。如果不使用粗数据，性能明显变差。从图5（f）和（g）中，我们还可以观察到，仅用精细注释数据训练的方法遭受不准确的语义估计，并且呈现不完整的α matte。蒙版质量统一网络使最终的抠图细化网络能够适应不同类型的粗蒙版输入。如果没有QUN，图6.自我比较。在没有质量统一网络（QUN）的情况下，发送到抠图细化网络（MRN）的粗略掩码的质量可能会显著变化。当粗糙掩模相对准确时，MRN可以很好地预测alpha蒙版。当粗糙遮罩缺少大多数头发细节时，估计的Alpha蒙版是准确的。配备QUN，在输入MRN之前统一口罩质量。所估计的阿尔法遮片相对于不同种类的粗糙掩模更一致。图7.真实图像抠图结果。所收集的粗注释数据集丰富了我们的数据集显着，并使所提出的方法，以捕捉语义信息，以及预测准确的阿尔法马特为不同类型的输入图像。抠图细化网络可能变化很大，这在推理阶段很难处理我们在表1中列出了没有使用QUN的定量指标。在此比较中使用了精细和粗略注释的数据集。当QUN被移除时，结果明显更糟。为了更好地进行视觉比较，我们将结果显示在图6中。如果粗略掩模相对准确，则预测的阿尔法遮片是精细的。当粗糙遮罩缺少大部分头发细节时，估计的阿尔法哑光效果不好。使用QUN，在输入MRN之前统一面罩质量。估计的阿尔法哑光是更准确和强大的不同种类的粗糙口罩。5.2. 应用于真实图像我们进一步应用所提出的方法从互联网上的真实图像。在真实图像上进行遮片是一项挑战，因为前景与背景平滑融合。在图7中，我们显示了真实图像上的测试结果受益于对我们的混合数据集的充分训练，8570(a) 输入图像（b）Pascal注解 (c)我们的精致(d)输入图像（e）COCO注释(f)我们的精致（g）输入图像（h）DeepLab输出（i）我们的改进图8.使用所提出的方法从公共数据集注释或语义分割方法中提炼粗糙的人体将来自Pascal（b）或Coco（e）数据集注释或DeepLab（h）的粗糙人类遮罩馈送到我们的质量统一网络，然后使用抠图细化网络来生成准确的人类alpha抠图。所提出的方法对于不同种类的输入图像很好地捕获语义信息，并且在细节级别上预测准确的阿尔法遮片。6. 应用所提出的方法中的掩码预测网络旨在捕获粗略的语义信息，随后的网络。来自该网络的语义掩码可以是粗略的或精确的。以下质量统一网络将统一最终消光细化网络的掩模质量因此，如果语义掩码以某种方式排列，所提出的方法仍然能够无缝地工作并生成准确的alpha蒙版。因此，我们可以应用我们的框架来细化粗略的注释公共数据集，例如PASCAL [13]（图8（a-c））和COCO数据集[23]（图8（d-f））。带注释的人类面具被调整大小并用作我们的QUN和MRN的输入即使注释是不准确的，特别是从COCO数据集的注释，所提出的方法设法生成准确的细化结果。我们还可以使用所提出的方法来改进语义分割方法（图8（g-i））。语义分割方法通常在粗糙的标注公共数据集上训练我们将从DeepLab [7]获得的粗糙掩码提供给我们的QUN和MRN。所提出的方法产生令人惊讶的良好的阿尔法蒙版。粗糙遮罩中丢失的细节也能很好地恢复，即使是非常详细的头发部分。7. 结论在本文中，我们建议使用粗注释数据与细注释数据相结合，以提高端到端语义人体抠图的性能。我们建议使用MPN来估计粗糙的语义掩码使用混合注释数据集，然后使用QUN来统一粗糙掩码的质量。统一的掩模和输入图像被馈送到MRN中以预测最终的alpha遮片。收集的粗注释数据集大大丰富了我们的数据集，并使其有可能为真实图像生成高质量的alpha蒙版实验结果表明，该方法对国家的最先进的方法进行比较此外，所提出的方法可以用于细化粗注释的公共数据集，以及语义分割方法，这可能带来一种新的方法，以更少的工作量来注释高质量的人类数据8571引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：A大规模机器学习系统。第十二届{USENIX}SymposiumonOperatingSystemsDesignandImplementation（{OSDI}16），pages 265-283，2016. 5[2] 你好，阿克斯，吴泰贤，西尔·瓦恩·帕里斯，马克·波列夫，和沃伊切赫·马图西克语义软分割。ACM Transactionson Graphics（TOG），37（4）：72，2018。3[3] Yagiz Aksoy、Tunc Ozan Aydin和Marc Pollefeys。为自然图像抠图设计有效的像素间信息流在IEEE计算机视觉和模式识别会议（CVPR）上，第29IEEE，2017年。三、七[4] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence（TPAMI），39（12）：2481-2495，2017。1[5] 薛白和吉列尔莫·萨皮罗。快速交互式图像和视频分割和抠图的测地线框架。IEEEInternational Conference onComputer Vision（ICCV），第1-8页。IEEE，2007年。3[6] Shaofan Cai，Xiaoshuai Zhang，Haoqiang Fan，HaibinHuang ， Jiangyu Liu ， Jiaming Liu ， Jiaying Liu ， JueWang，and Jian Sun.解开图像抠图。IEEE InternationalConference on Computer Vision（ICCV）IEEE，2019。二三五[7] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 一、六、七、八[8] Quan Chen ， Tiezheng Ge ， Yanyu Xu ， ZhiqiangZhang，Xinxin Yang，and Kun Gai.语义人类铺垫。第26 届ACM 国际多媒体会议论文集，第618-626 页。ACM，2018。二三五六七[9] Qifeng Chen，Dingzeyu Li，and Chi-Keung Tang.我知道。IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），35（9）：2175-2188，2013。三、五[10] 赵东贤戴宇荣和权仁生使用深度卷积神经网络的自然图像抠图。欧洲计算机视觉会议（ECCV），第626-643页。施普林格，2016年。3[11] Yung-Yu Chuang，Brian Curless，David H Salesin，andRichard Szeliski.数字抠图的贝叶斯方法。在IEEE计算机视觉和模式识别会议（CVPR）中，第264-271页。IEEE，2001年。2[12] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010。二、五[13] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2007（VOC2007）http://www.pascal-network.org/challenges/VOC/voc2007/workshop/index.html啊88572[14] Xiaoxue Feng，Xiaohui Liang，and Zili Zhang.一种基于稀疏编码的图像抠图聚类抽样方法欧洲计算机视觉会议（ECCV），第204-219页。施普林格，2016年。2[15] Eduardo SL Gastal和Manuel M Oliveira。实时alpha抠图的共享在计算机图形论坛，第29卷，第575-584页。Wiley Online Library，2010。2[16] LeoGrady ， ThomasSchiwietz ， ShmuelAharon ， andRüdigerWestermann.用于交互式α-遮片的随机游走。在Proceedings of VIIP，卷2005，第4233[17] Kaiming He ， Christoph Rhemann ， Carsten Rother ，Xiaoou Tang，and Jian Sun.一种用于alpha抠图的全局采样方法。在IEEE计算机视觉和模式识别会议（CVPR）中，第2049IEEE，2011年。2[18] 何开明，孙建，唐晓鸥。引导图像滤波。欧洲计算机视觉会议（ECCV），第1-14页。施普林格，2010年。3[19] Jubin Johnson ， Ehsan Shahrian Varnousfaderani ，Hisham Cholakkal，and Deepu Rajan.稀疏编码的阿尔法抠图。IEEE Transactions on Image Processing（TIP），25（7）：3032-3043，2016。2[20] Levent Karacan Aykut Erdem和Erkut Erdem。基于kl-发散稀疏采样的图像抠图。IEEEInternational Conferenceon Computer Vision（ICCV），第424-432页。IEEE，2015年。2[21] Anat Levin，Dani Lischinski和Yair Weiss。一个封闭形式的解决方案，以自然图像抠图。IEEE Transactions onPattern Analysis and Machine Intelligence（TPAMI），30（2）：228三五六七[22] Anat Levin Alex Rav-Acha 和Dani Lischinski 。光谱抠图。IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），30（10）：1699-1712，2008.3[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议（ECCV），第740-755页。Springer，2014. 二、五、八[24] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议中，第3431-3440页。IEEE，2015年。1[25] Sebastian Lutz 、 Konstantinos Amplianitis 和 AljosaSmolic。Alphagan：用于自然图像抠图的生成对抗网络。arXiv预印本arXiv：1807.10088，2018。三、五[26] Christoph Rhemann ， Carsten Rother ， Jue Wang ，Margrit Gelautz，Pushmeet Kohli，and Pamela Rott.一个感知激励的图像抠图在线基准测试在2009年IEEE计算机视觉和模式识别会议上，第1826-1833页IEEE，2009年。6[27] 马克·鲁松和卡洛·托马西。自然图像中的α估计在IEEE计算机视觉和模式识别会议（CVPR），第1卷，第18IEEE，2000年。28573[28] Xiaoyong Shen，Xin Tao，Hongyun Gao，Chao Zhou，and Jiaya Jia.深自动人像抠图。在欧洲计算机视觉会议（ECCV）中，第92- 107页。施普林格，2016年。二三五六[29] Jian Sun，Jiaya Jia，Chi-Keung Tang，and Heung-YeungShum. 泊松铺垫。在 ACM Transactions on Graphics（ToG），第23卷，第315-321页中。ACM，2004年。3[30] Jue Wang，Michael F Cohen，等.图像和视频抠图：很好。基金会和Trends研究和愿景，3（2）：97-175，2008年一、二在计算机图形学[31] Zifeng Wu ， Yongzhen Huang ， Yinan Yu ， LiangWang，and Tieniu Tan.早期层次背景学习卷积网络图像分割。2014年第22届国际模式识别会议（ICPR），第1538-1543页IEEE，2014。6[32] Ning Xu，Brian Price，Scott Cohen，and Thomas Huang.深度图像抠图。在IEEE计算机视觉和模式识别会议（CVPR）中，第2970IEEE，2017年。二三五六七[33] Yunke Zhang，Lixue Gong，Lubin Fan，Peiran Ren，Qixing Huang，Hujun Bao，and Weiwei Xu.用于数字抠图的后期融合cnn。IEEE计算机视觉与模式识别会议IEEE，2019。二三五[34] Bingke Zhu，Yingying Chen，Jinqiao Wang，Si Liu，BoZhang，and Ming Tang.快速深铺垫的肖像动画在手机上。第25届ACM国际多媒体会议论文集，第297-305页。ACM，2017。3

下载后可阅读完整内容，剩余1页未读，立即下载