深度卷积神经网络实现的数字抠图方法

19 浏览量更新于2023-10-18 收藏 2.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7469用于数字抠图张云科1、龚立学1、范鲁斌2、任沛然2、黄启星3、包虎军1、徐伟伟1、浙江大学2、阿里巴巴集团3、德克萨斯大学奥斯汀{yunkezhang，gonglx} @ zju.edu.cn，{lubin.flb，peiran.rpr} @ alibaba-inc.com，huangqx@cs.uteaxs.edu，{bao，xww} @cad.zju.edu.cn摘要本文研究了一种深度卷积神经网络的结构，通过将单个RGB图像作为输入来预测前景alpha蒙版。我们的网络是完全卷积的，有两个解码器分支，分别用于然后使用融合分支来整合两个分类结果，其产生作为软分割结果的α值。这种设计为网络提供了比单个解码器分支更多的自由度，以在训练期间获得更好的alpha值。该网络可以隐式地产生三重图，而无需用户交互，这对于没有数字抠图专业知识的新手来说很容易使用。实验结果表明，我们的网络可以实现高质量的阿尔法抠图的各种类型的对象和优于国家的最先进的基于CNN的图像抠图方法的人类图像抠图任务。1. 介绍数字抠图是准确地提取图像中的前景对象，进行对象级图像合成。它的优点是估计像素的alpha（不透明度）值以创建alpha蒙版，从而可以正确地提取前景对象，然后将其与新的背景图像合成以渲染新的场景。从形式上讲，我们假设观察到的图像I是从三个基本图像生成的：前景图像F、背景图像B和阿尔法遮片α，通过以下模型：Ip=αpFp+（1−αp）Bp（1）其中p表示所有图像中的像素，αp的值∈[0，1]。[10，15，36]第一次见面，是在1999年。分三步进行，即（1）学习前景，*通讯作者。作者来自浙江大学，隶属于CAD/CG国家重点实验室.图片我们的阿尔法哑光组成图1.我们的后期融合CNN的两个示例抠图结果，不需要trimap作为输入。左：从我们的训练数据集之外的互联网上收集的两张图像。中：阿尔法遮罩我们的网络预测。右：组成结果。背景颜色模型，（2）计算每个像素属于学习模型的概率，以及（3）获得alpha值。为此，数字图像处理中的一个关键任务是确定像素α值α，它表示图像的软分割。[20]利用谱聚类来计算α。然而，这样的方法通常依赖于用户输入，例如三重图和涂鸦：三重图将图像分成前景区域、背景区域和过渡区域以覆盖模糊或透明的前景对象边界[10]，而涂鸦指定前景和背景上的稀疏像素[35]。早期的作品利用地方色彩作为主要特征，这可能会导致模糊或矮胖的人工事实，如[39]所示。最近的作品（例如[9，31，38，39]）利用完全卷积神经网络（CNN）来学习多尺度特征，从而获得高质量的语义图像分割结果。此外，深度图像匹配（DIM）[39]已经表明，可以通过深度CNN训练直接预测高质量的alpha蒙版。一个大规模的图像抠图数据集。最近的贡献结合了深度CNN学习的多尺度特征，7470光谱抠图法得到α抠图[2]。它是全自动的，但由于要解决大规模的光谱问题，它的缺点是执行速度慢。虽然现有的基于深度学习的数字抠图方法依赖于三重图作为输入，但我们提出了一种全卷积网络（FCN），通过将单个RGB图像作为输入来进行自动图像抠图。我们通过在网络中设计两个解码器分支来实现前景和背景分类，然后使用一个融合分支来融合两个分类结果，从而产生软分割结果。这种设计提供了比单个解码器分支更多的自由度，它是基于这样的观察，即分类分支可以很好地预测硬分割结果，但在像素级预测精确的概率作为alpha值有困难双解码器分支结构允许我们设计一个融合分支来校正分类分支中留下的残差。此外，我们的训练损失鼓励两个解码器分支在硬分割部分彼此一致，并留下软分割部分由融合分支校正。因此，我们的方法可以隐式地产生trimap，而无需任何用户交互，这对于没有数字抠图专业知识的新手用户来说很容易使用。我们在FCN的解码器阶段的双分支网络结构遵循在深度学习中广泛使用的后期融合结构[8，26]，可以归类为一种集成学习，以提高预测alpha值的准确性然而，我们不是简单地最大化或平均两个分类分支的输出，而是学习融合权重。因此，我们在下文中将我们的网络表示为后期融合CNN。我们已经在[39]中的图像抠图数据集上评估了我们的网络，以证明它可以为不同类型的对象生成高质量的抠图结果。此外，我们还构建了一个人类图像抠图数据集，以在这种特定类型的图像上测试网络图1说明了我们的网络在两个互联网图像上的抠图结果，实验结果表明，我们的网络不需要trimaps作为输入，仍然可以达到与最先进的基于CNN的方法相当的结果，并且在人类图像抠图任务上表现出色。2. 相关工作在本节中，我们简要回顾了数字图像抠图的三种主要基于采样的方法[10，13，14，16，29]使用采样像素的颜色来推断图像中过渡区域中像素的alpha值。这些方法的关键任务是（1）收集采样像素[13，16，29，30]，以及（2）构建前景和背景颜色模型从采样像素[10，16，34，35]。这些方法利用自然图像统计的优点来解决不适定的抠图问题，并且当仔细定义三重图时工作良好，使得过渡区域的像素颜色分布与前景/背景区域的像素颜色分布之间存在强相关性。基于亲和度的方法[1，2，3，7，15，19，20，33]将已知前景和背景像素的alpha值传播到未知区域，并且已经证明在处理复杂图像时比基于采样的方法更鲁棒[10，14，29]。使用这些方法生成的阿尔法遮罩的质量与定义的亲和度得分高度相关[15，19，33]。全局优化策略，如谱技术[20]，是二元优化技术的连续松弛，不能保证获得最优解。对于传统方法的深入调查，我们请读者参考[37]以了解更多细节。基于深度学习的抠图方法直接从大规模标记结果中学习从输入图像到其alpha抠图的映射Cho等人。[9]通过结合[19]中描述的封闭形式的抠图公式和KNN匹配的方法[7]提出了一种端到端CNN。Xu等人[39]集成了一个编码器-解码器网络和一个用于数字抠图的子细节细化网络，它将图像和相应的三重图作为输入。Lutz等人[25]提出了一种用于图像抠图的生成对抗网络他们通过添加atrous空间金字塔池化模块[5]来改进[39]的解码器结构，以在多个尺度上对特征进行Wang等人[38]通过使用深度神经网络学习阿尔法遮片传播原理，提出了基于深度传播的图像遮片框架。然而，这些技术需要一个trimap作为输入来初始化传播过程。最近的几种技术研究特定类型对象的图像抠图Chen等人。[6]提出了一种自动化的方法来进行人体抠图。该算法以RGB图像为输入，首先利用三级分割网络预测前景、背景区域和过渡区域分割结果然后被用作用于阿尔法遮片生成的三重图。相比之下，我们的方法通过使用融合网络混合前景和背景概率图来生成最终的alpha蒙版，这避免了困难的trimap生成问题。[31]中基于CNN的肖像抠图通过假设上半身出现在肖像图像中的相似位置，使用平均掩码作为三重图。然而，这一假设并不适用于我们的情况。Zhu等人[41]遵循类似的Chen等人[4]将透明对象抠图公式化为反射流估计，并利用多尺度编码器-解码器网络进行预测。7471输入图像阿尔法遮片Concatenate跳过连接前景概率图前景解码器DenseNet块解码器块3x3 Conv+BN+ReLU3x3转换+S形线性混合128DenseNet编码器背景解码器混合权重贴图线性混合背景概率图跳过连接分割网络融合网络25612812864256融合网络图2.我们的网络架构的高级可视化分割网络由一个编码器和两个解码器组成融合网络是一个没有下采样的完全卷积网络最终的alpha蒙版是使用两个网络的输出的线性混合融合网络中块下方的数字表示不同卷积层的输出通道的数量3. 方法在本节中，我们将介绍我们方法的技术细节。我们从第二节的方法概述开始第3.1条然后，我们详细介绍了结构和训练损失的分割和融合网络在第二节。3.2和3.3。最后，我们给出了我们的网络的训练细节。三点四分。3.1. 方法概述我们介绍了一种新型的端到端神经网络，该网络将包含前景对象的图像作为输入，并输出前景对象的alpha蒙版。1如图所2、该方法的核心思想是利用神经网络模块预测三个图，即前地概率图、背景概率图和混合权重图。通过使用混合权重图来内插前景/背景概率图来给出输出阿尔法遮片。该网络通过三个连续步骤进行训练：分割网络预训练步骤、融合网络预训练步骤和最终端到端联合训练步骤，其训练损失被施加在输出阿尔法遮片上。从形式上讲，我们尝试使用以下融合公式来预测alpha值：从优化的角度来看，αp的导数对于βp为零，B<$p+F<$p=1。（三）Eq的优点二是双重性。首先，如果前地/背景概率图的预测是准确的，则融合网络将专注于学习从前景到背景的过渡区域（意味着等式（1））。3满足），这是解决席子问题。其次，我们可以仔细设计损失函数，以鼓励F<$p+B<$p1在过渡区（见第二节）。3.2），它可以提供有用的梯度来训练融合网络。3.2. 分割网络我们继续描述分割网络的架构特别地，训练损失倾向于实心前景和背景区域的0或1概率。它还试图预测过渡区域中真实alpha值的上界和下界网络结构。细分网络包括一个编码器和两个解码器。编码器提取语义，从输入图像中提取tic特征。两个解码器共享αp=βpF<$p+（1−βp）（1−B<$（p）、（2）相同的编码瓶颈，并分别预测前景和背景概率图我们特别其中，F<$p和B<$p表示像素p处的地面和背景概率的预测值。βp是融合网络预测的混合在我们的实现中，融合网络将输入图像和前景和背景分类分支的逻辑回归2）的情况。1有关网络详细信息，请参阅https://github.com/yunkezhang/FusionMatting上的补充材料。使用DenseNet-201 [18]作为我们的编码器，没有完全连接的层头。每个分支由对应于五个编码器块的五个解码器块组成，并且解码器块遵循[22]中的特征金字塔网络结构的设计。为了增强像素级分割结果，我们采用[28]中的跳过连接来将来自编码器块的多尺度特征（就在平均下采样之前）与通过反卷积层上采样的特征连接起来。7472训练损失。训练损失结合了L1损失、L2损失和交叉熵损失。特别是，我们通过根据alpha matte为不同像素设置不同的权重来控制网络训练过程的行为。我们首先测量预测的概率值和地面真实值alpha值之间的差异：.|F<$−α|，0<α<1.一、Ld（F<$p）=<$p p2p（四）（Fp− α p），α p= 0，1.在过渡区域内，差值被选择为L1，以便恢复阿尔法蒙版的细节，而在其余区域中使用L2损失来惩罚可能的分割错误。我们发现这种设置可以很好地平衡软分割和硬分割。我们还在预测的alpha蒙版的梯度上引入L1损失，因为在分类后去除过度模糊的alpha蒙版是有益的：Lg （ F<$p ） =|x （ F<$p ） −|+|y （ F<$p ） −|.（五）像素p处的前景分类分支的交叉熵（CE）损失由下式给出：CE （ F<$p ） =wp· （ −αplog （ F<$p ） −（1−αp）log（1−F<$p）），（六）当αp=1或0时，权重wp被设置为1，0的情况。5当αp在（0，1）中时。在前景和过渡区域内，我们让α_p为1（在背景区域内为0），使得交叉熵损失促进了seg。在一个实施例中，神经网络可以输出概率值朝向1的上限。然而，其在过渡区域内不提供有用的梯度。因此，我们在过渡区域中采用小的权重，并将其与下面的L1和L2损失相结合，以获得初步的α哑光。前景分类分支相对于图像的最终损失函数为：ΣLF=CE（F<$p）+Ld（F<$p）+Lg（F<$p）。（七）p图3.我们的网络为图2中的两张图像预测的隐式三重图1.一、隐式过渡区域由灰色像素指示，其中预测的前景/背景概率小于1。应用融合网络。此外，强制以不同的损失训练前地和背景分割分支这些特点有利于增强学习效果。如示于图如图3和图4所示，这种分割损失的设计确实导致了有意义的隐式三重图的生成。此外，介于0和1之间的alpha值大多被两个预测概率包围。3.3. 融合网络融合网络的目标是在像素处输出βp以融合前景和背景分类结果。网络结构。它是一个全卷积网络，具有五个卷积层和一个sigmoid层，用于计算混合权重βp（见图2）。网络的输入包括（1）来自最后一个块的特征图前台和后台解码器;（2）来自与输入RGB图像的卷积的特征。通过实验，我们将卷积核的大小设置为3×3，发现采用该核大小的融合网络可以更好地产生alpha蒙版的细节。训练损失。假设前景和背景解码器已经为实心像素提供了合理的分割结果，我们将训练损失设计为倾向于过渡区域中的像素。融合网络的损失函数可以直接根据对于背景分类分支，其损失LB可以可以通过在等式中设置αp=1−αp来简单地计算1、4和五、我们还在每个解码器处施加LF和LB损失两个分支的块，以进一步调节网络的行为，类似于[24]中使用的侧损耗。等式第二章：Lu=Σwp·|βpF<$p+（1−βp）（1−B<$p）−αp|.（八）p注意，交叉熵和过渡区域内的L1损失的组合试图给出比地面真值更大的概率，因为交叉熵损失将概率拖到1。因此，真实的α值可以被包含在由两个探针形成的区间两个分支预测的能力，因为1-B′p在当量2应该小于我们设置中的αp这个德-符号使我们能够回归精确的alpha值，具体地，每当像素w，p的权重被设置为1时，0< α p<1和0。1否则。3.4. 培训详细信息我们使用使用ImageNet-1 K [11]预训练的DenseNet-201网络作为我们的编码器骨干。我们首先对分割网络进行15个epoch的预训练。在融合网络预训练步骤中，7473p图4.分割后括号内的alpha值。左：输入图像。中间：GroundTruth Alpha Matte。右图：红色突出显示像素的地面实况alpha值为黑色-由我们的两个解码器分支输出的两个概率F<$p和1−B<$p表示分割阶段和单独训练融合阶段4个时期。最后，我们进行了7个epoch的端到端联合训练，将融合结果的梯度反向传播到分割和融合网络，以进一步减少训练损失。在联合训练步骤中冻结所有批量归一化层以节省内存占用。循环学习率策略[32]用于加快整个过程中的收敛速度培训程序。基本学习率为5。0×10−4，所有步骤。预训练步骤中的最大学习率为1。5×10−3。较小的最大学习率1 .一、在联合训练步骤中设置0×10−3我们还在进行端到端联合训练时使用特殊的损失来微调整个网络。损失是基于融合网络的损失，同时加上分割网络的损失，以避免过拟合。总体联合训练损失描述如下：L J=L u+w1（L F+L B）+w2Ls。（九）我们设w1=0。5且w2=0。01在我们的实践中直接从[20]中采用第三项Ls来惩罚软分割像素的数量，即：ΣLS=α γ+（1 − α p）γ，γ ∈ [0，1].（十）p其中γ被设置为0。9在我们的实验中4. 实验结果在本节中，我们在两个测试数据集上评估了我们的后期融合CNN。(1)人类图像抠图测试数据集，这是为了衡量我们的方法在特定任务上的性能。为此，我们收集了40张人体图像，其中29个来自互联网，其alpha mattes由设计师精心制作，11个来自[39]中的composition-1 k测试数据集，因为它们的细节非常丰富方法SAD MSE梯度连接共享遮片[19] 16.54 0.022 30.85 15.75综合[30] 13.31 0.014 18.92 11.80基于学习的[27] 15.80 0.020 25.04 13.77全球消光[7] 27.47 0.029 33.76 24.98封闭式[40] 15.92 0.021 25.71 13.87KNN Matting [14] 18.27 0.023 25.11 16.88DCNN [9] 14.92 0.017 21.56 13.02SHM [6] 13.34 0.017 24.41 12.71尺寸[39] 10.39 0.014 19.20 9.64Ours-FG/BG-仅-25 20.93 0.033 44.01仅我们的融合-25 14.23 0.019 24.46 13.26我们的-原始-2510.08 0.01015.579.24我们的-精制-259.75 0.01015.608.96我们的-原始-完整10.87 0.002 16.91 9.80我们的-精制-完整10.49 0.002 16.97 9.52表1.我们的人类图像抠图测试数据集的定量结果仅限我们的FG/BG：预训练的分割网络阶段。仅限我们的Fusion：预训练融合网络阶段。Ours- raw：端到端联合训练网络。Ours-refined：[2017 - 07 - 17 ]第17话：“-25”：在由25像素膨胀产生的过渡区域中计算。“-full”：在整个图像上计算。我们将每个测试图像与来自PASCAL VOC [12]的25个随机背景图像组合，以形成具有1000个图像的测试数据集。该任务的训练数据集独立于测试图像，该测试图像由228张具有高质量阿尔法蒙版的人类图像与来自DIM数据集的另外211个人类前景对象组合而成[39]。类似地，我们将这些前景与从MS- COCO [23]中随机挑选的独特背景图像(2)Composition-[39]中的1 k测试数据集，用于评估我们的网络在自然图像上的表现。该测试数据集包含1000幅图像，由50幅独特的前景图像和20幅背景图像组成。为了进行评估，我们在DIM数据集[39]上训练我们的网络，独立于测试图像。它由431个独特的前景对象与阿尔法蒙版。每个对象由从MS-COCO中随机选取的100个背景图像组成。对于训练过程中的数据增强，我们裁剪以trimap指示的过渡区域中的随机像素为中心的图像和trimap对。裁剪尺寸选择为512×512和800×800。我们我还将所有训练图像的大小调整为512×512来预热网络随机翻转和旋转是应用于所有裁剪和调整大小的训练数据。由于内存的限制，我们在训练中要求图像的长边小于800在推理过程中也会施加此大小约束我们的网络在GPU服务器（配置：E5-2682 CPU，32 G RAM和8 Tesla P100显卡）上的训练时间对于人类图像抠图数据集为2.5天，对于DIM数据集为4天为7474[39]第二届中国国际汽车工业展览会图5.人类图像抠图测试数据集的视觉比较SSS [2]中的段是手工挑选的。[19]第三十九话：我的世界图6. composition-1 k测试数据集上的视觉比较。测试，在800×800图像上的平均运行时间为0.39秒评估指标。评价中使用了四个衡量标准：SAD（绝对差之和），MSE（均方误差），梯度和连接性定义在[39]中。度量的值越低，预测的阿尔法蒙版越好。梯度和连通性度量的详细信息可以在[27]中找到，它们用于反映人类观察时alpha蒙版的视觉质量。对于所有度量的计算，在对测试图像的每个像素p处的度量求和之后，我们然后计算测试数据集中所有图像的平均值人体图像抠图测试数据集的评价。为了将我们的网络与最先进的图像匹配方法进行比较，我们还在此数据集上训练DIM网络，方法是同时输入RGB图像和在0或1，而用于度量计算的三重图的过渡区域由25个像素的扩张生成。由于将图像类型缩小为人类图像降低了分割的难度，因此我们的网络可以与DIM网络密切匹配。表1中报告的不同标准。1.一、如果仅计算三重图过渡区域中的度量，如[39]，则我们的方法在所有四个度量中均优于DIM网络（参见7475我们的无图像TrimapDIM(a) 无Trimap DIM与我们的了图像DIM+小DIM+大Ours(b) 我们的网络和DIM使用不同的trimap。图7.与DIM的比较。（b）中左上角：手动指定的三重图。‘small’ and ‘large’ indicate the size of the图像单分支GTFG BG我们的图像单分支GTFG BG我们的图8.自我比较。单个分支：我们的前景分支加上使用L1损失训练的DIM细化网络。“FG”和“BG”：我们的前景和背景概率图25”和“我们的-精制-25”在选项卡。①的人。在计算整个图像上的四个度量之后，我们的算法的度量稍微增加，表明在这种情况下分割误差得到了很好的控制（参见Tab中的“ours-raw-full”和“ours-refine-full”）①的人。 “ours-FG/BG-Only-25” 和 “ours-Fusion-Only-25”也验证了当我们逐渐将每个子网络添加到后期融合CNN中时，抠图结果得到了改善。图5示出了测试图像中的三个选择的消光结果。请注意，我们的网络适用于人体的各种姿势和尺度，方法SAD MSE梯度连接[19]第十九话115.200.074139.88121.35综合[30]109.800.066116.27107.86学习型[27]100.510.05894.68104.74全球遮片[7]121.460.078125.11133.23封闭式[40]121.180.076130.63120.16KNN Matting [14]133.990.098140.29134.03DCNN [9]122.400.079129.57121.80DIM-Trimap-less-2570.310.11070.0670.05DIM [39]33.640.01730.2331.92Ours-FG/BG-仅-25103.210.07791.85109.27仅限我们的Fusion-2566.050.03469.8069.80Ours-raw-2549.050.02236.5850.70我们的-精致-2549.020.02034.3350.60Ours-raw-full58.340.01141.6359.74我们的-精致-饱满58.290.01136.5859.63表2. Composition-1 k测试数据集上的定量结果。对我们结果的衡量标准与选项卡. 1.一、‘DIM-Trimap-less-25’ denotesthe results of the DIM method without trimap as input during前景例如，从后面看的女人（图中第二行）。5）难以进行深度自动人像抠图[31]。composition-1 k测试数据集的评价。图6显示了该数据集的三个定性结果和视觉比较。可以观察到，即使在具有挑战性的花边图像情况下，我们的结果也与DIM[39]的结果相当。相应的指标报告在表中。二、由于图像尺寸的限制，在后期融合CNN的训练中，我们还计算了调整大小的测试图像上的DIM网络的度量，以进行一致的比较。我们首先计算测试数据集中提供的trimap中过渡区域内的四个metrics，这是[39]中采用的类似策略。很容易观察到，我们的方法在很大程度上超过了这个数据集上的所有非CNN图像抠图方法，因为我们的网络可以利用多尺度特征来更好地理解图像中的语义。与基于CNN的方法相比，我们的网络优于DCNN，但仍不如DIM。正如预期的那样，因为DIM要求比我们的设置更强的输入。具体来说，输入到DIM网络中的trimap可以避免我们案例中可能出现的分割错误。在对完整的数据集进行计算后，我们的结果仍然排名第二。为了进一步验证[39]中使用的细化网络是否可以纠正单个分类分支结果中留下的残差，我们在没有输入trimap通道的情况下训练DIM网络作为比较，并在Tab中的“DIM-Trimap-less-25”行中报告此设置的结果。二、定性比较如图所示。7. a.图7.b显示了两个附加的定性比较，其中DIM网络被馈送以手动指定的三重图。结果表明，DIM网络的抠图质量随着过渡区域的大小而降低7476图9.互联网图像抠图结果。增大因此，重要的是具有对三重图质量鲁棒的图像抠图算法。自我比较。双分支设计提供了三个自由度，这允许优化器在它们之间进行平衡以获得更好的结果。图中的单个分支网络。8是通过丢弃背景和融合分支而创建的。与DIM方法类似，我们还添加了一个全卷积网络作为细化，并仅在训练期间使用L1损失。它的结果包含分割错误，这是由两个分支网络删除，如图所示。8.相比之下，我们的方法的前景和背景概率图在非过渡区域中更“坚实”，我们的后期融合CNN的最终结果表明，我们的融合网络能够融合详细的阿尔法遮罩的前地和背景概率图（八）。网络图像评价。图1和图9显示了收集的互联网图像的抠图结果，以测试我们的方法的泛化能力。2所有的人体图像抠图结果都是通过我们用人体图像抠图数据集训练的网络获得的，其他结果来自用DIM数据集训练的后期融合CNN。实验结果表明，该网络具有捕捉不同类型物体过渡区域的能力。然而，在捕捉的语义特征的困难，2请参阅补充材料了解更多的消光效果。前景可能会导致我们的结果中的分割错误，例如，如图1底行所示的马嘴周围的错误。9 .第九条。5. 结论和未来工作本文提出了一种用于图像抠图的后融合全卷积神经网络。该算法利用两个解码分支进行前景/背景分类，并通过融合网络对分类结果进行融合，得到最终的alpha值。该网络不需要三重图作为输入，大大提高了图像抠图的效率。在未来，我们想探索如何改进解码器网络结构，以进一步减少分割错误。多尺度特征融合网络的最新发展，如Refine-net [21]，可以在后期融合CNN中进行测试。探索如何将两分支设计应用于视频对象抠图也是有趣的。确认我们要感谢匿名评论者的建设性意见。徐伟伟部分基金项目（No.61732016）和浙江实验室。黄启星感谢Snap Research的礼物。徐伟伟和包虎军也得到了中央大学基金的资助。7477引用[1] Y. Aksoy，T. O. Aydin和M.波勒菲斯为自然图像抠图设计有效的像素间信息流。在IEEE计算机视觉和模式识别会议中，第228-236页2[2] Y. Aksoy，T.H. 哦，S。巴黎M.Pollefeys和W.马图西克语义软分割。ACM Transactions on Graphics（TOG），37（4）：72，2018。二、六[3] X. Bai和G.萨皮罗一个快速交互式图像和视频分割和抠图的测地线框架。国际计算机视觉杂志（IJCV），82（2）：113-132，2009。2[4] G. Chen，K.汉和K Y. K.黄。Tom-net：从单个图像学习透明对象抠图。 IEEE计算机视觉与模式识别会议（CVPR），2018年。2[5] L. C. Chen，G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。CoRR，abs/1706.05587，2017。2[6] Q. Chen，T. Ge，Y. Xu，Z. Zhang，X. Yang和K.盖性感的人体垫子。 arXiv 预印本 arXiv ： 1809.01354 ，2018。二、五[7] Q. Chen，中国粘蝇D. Li和C.- K.唐KNN席子。IEEETransactionsonpatternanalysisandmachineintelligence，35（9）：2175-2188，2013. 二、五、七[8] J. 程湾，澳-地Aurlien，and v.D. L. Mark J.集成方法与深度卷积神经网络用于图像分类的相对 CoRR ，abs/1704.01664，2017。2[9] D. 周，Y。-W. 泰和我奎恩使用深度卷积神经网络的自然图像抠图欧洲计算机视觉会议（ECCV），第626施普林格，2016年。一、二、五、七[10] Y.-- Y.庄湾Curless，D. Salesin和R.塞利斯基数字抠图的贝叶斯方法。计算机视觉和模式识别，2001年。CVPR2001年。2001年IEEE计算机学会会议论文集，第2卷，第II-II页。IEEE，2001年。一、二[11] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K.李和F F.李Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）中，第248-255页。IEEE，2009年。4[12] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。International Journal of Computer Vision（IJCV），88（2）：303-338，2010年6月。5[13] X. Feng，X. Liang和Z.张某基于稀疏编码的图像抠图聚类抽样方法。Springer International Publishing，2016. 2[14] E. S. Gastal和M. M.奥利维拉共享采样的实时阿尔法抠图。在计算机图形论坛，第29卷，第575-584页。WileyOnline Library，2010。二、五、七[15] L. Grady，T.Schiwietz，S.Aharon和R.韦斯特曼随机行走的互动阿尔法席德。在 Proceedings of VIIP ，卷2005，第423-429页，2005中。一、二[16] K. 他，C.莱曼角罗瑟，X。Tang和J.太阳一种用于alpha抠图的全局采样方法。2011. 2[17] K. 他，孙杰，还有 X 。唐引导图像滤波。 IEEEtransactionsonpatternanalysisandmachineintelligence，（6）：1397-1409，2013。5[18] G. Huang，Z.柳湖，加-地van der Maaten和K. Q.温伯格。密集连接的卷积网络。在IEEE计算机视觉和模式识别会议，2017年。3[19] A. Levin，D. Lischinski和Y.韦斯一个封闭形式的解决方案，以自然图像抠图。在IEEE计算机视觉和模式识别会议（CVPR），2006 IEEE计算机协会会议，第1卷，第61IEEE，2006年。二五六七[20] A. Levin，A.Rav-Acha和D.Lischinski 光谱抠图。IEEEtransactionsonpatternanalysisandmachineintelligence，30（10）：1699-1712，2008. 一、二、五[21] G. Lin，L.米兰角沈和我D.里德Refinenet：用于高分辨率语义分割的多路径精化网络。 CoRR ，abs/1611.06612，2016。8[22] T.- Y. Lin，P.多尔河B. 格希克角他，B.Hariharan和S. J·贝隆吉用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议（CVPR），第1卷，第4页，2017年。3[23] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象。在欧洲计算机视觉会议（ICCV），第740-755页。Springer，2014. 5[24] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议（CVPR），2015年6月。4[25] S. Lutz，K. Amplianitis和A.斯莫利奇Alphagan：用于自然图像抠图的生成对抗网络。arXiv预印本arXiv：1807.10088，2018。2[26] Y.伦湖，澳-地Zhang和P. N. Suganthan聚类分类与回归的发展、应用及未来方向。 IEEE Comp. Int. 麦格，11（1）：412[27] C.莱曼角Rother，J. Wang，M. Gelautz，P. Kohli和P.罗特。一个感知动机的在线基准图像抠图。在IEEE计算机视觉和模式识别会议（CVPR）中，第1826IEEE，2009年。五、六、七[28] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。3[29] M. A. Ruzon和C.托马西自然图像中的Alpha估计。在IEEE计算机视觉和模式识别会议上，第 1018页。IEEE，2000年。2[30] E. Shahrian，D.拉詹湾Price和S.科恩使用综合采样集改进图像抠图。在IEEE计算机视觉和模式识别会议中，第636-643页，2013年。二、五、七7478[31] X. Shen，X.Tao，H.高氏C.Zhou和J.贾深自动人像抠图。在欧洲计算机可视化会议（ECCV）中，第92-107页。施普林格，2016年。一、二、七[32] L. N.史密斯训练神经网络的周期学习率。计算机视觉应用（WACV），2017年IEEE冬季会议，第464-472页。IEEE，2017年。5[33] J. Sun，J. Jia，C. K. Tang和H. Y.沈泊松铺垫。ACM Transactions on Graphics，23（3）：315-321，2004。2[34] J. Wang，M. Agrawala和M. F.科恩软剪刀：一个交互式工具，用于实时高质量的抠图。在ACM SIGGRAPH中，第9页，2007年。2[35] J. Wang和M.F. 科恩统一图像分割和抠图的迭代优化第十届IEEE计算机视觉国际会议，第936- 943页，2005年。一、二[36] J. Wang和M. F.科恩优化的颜色采样，以实现稳健的抠图。在IEEE计算机视觉和模式识别会议上，第1-8页IEEE，2007年。1[37] J. Wang，M. F.科恩等人图像和视频抠图：一苏尔韦河基础和Trends基础和视觉，3（2）：972在计算机图形学[38] Y. Wang，Y.Niu，山核桃P.Duan，J.Lin和Y.郑基于深度在IJCAI，第999-1006页，2018年。一、二[39] N.徐湾，澳-地L. Price，S. Cohen和T. S.煌深度图像抠图。在IEEE计算机视觉和模式识别会议（CVPR），第2卷，第4页，2017年。一、二、五、六、七[40] Y. Zheng和C. Kambhamettu。基于学习的数字垫。计算机视觉，2009年IEEE第12届国际会议，第889-896页。IEEE，2009年。五、七[41] B. Zhu，Y. Chen，J. Wang，S.刘湾，澳-地Zhang和M.唐手机上的人像动画快速深抠图。第297-305页，2017年。2

下载后可阅读完整内容，剩余1页未读，立即下载