深度图像抠图：基于深度学习的算法解决图像抠像问题

142 浏览量更新于2023-10-17 收藏 4.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1深度图像抠图Ning Xu1，2，Brian Price3，Scott Cohen3，and ThomasHuang1，21贝克曼高级科学技术研究2伊利诺伊大学厄巴纳-香槟分校3Adobe研究{ningxu2，t-huang1}@ illinois.edu，{bprice，scohen}@adobe.com摘要图像抠图是计算机视觉的一个基本问题，有着广泛的应用。当图像具有相似的前景和背景颜色或复杂的纹理时，以前的算法性能较差。主要原因是现有方法1）仅使用低级特征，（2）缺乏高层次的背景。在本文中，我们提出了一种新的基于深度学习的算法，可以解决这两个问题。我们的深度模型有两个部分。第一部分是深度卷积编码器-解码器网络，它将图像和相应的三重图作为输入，并预测图像的alpha蒙版。第二部分是一个小的卷积网络，它细化了第一个网络的alpha蒙版预测，以获得更准确的alpha值和更清晰的边缘。此外，我们还创建了一个大规模的图像抠图数据集，其中包括49300张训练图像和1000张测试图像。我们评估我们的算法的图像抠像基准，我们的测试集，和各种各样的真实图像。实验结果清楚地表明，我们的算法优于以前的方法。1. 介绍抠像是图像和视频中前景的精确估计问题，具有重要的实际意义。它是图像编辑和电影制作中的一项关键技术，有效的自然图像抠图方法可以极大地改善当前的专业工作流程。它需要在不受约束的场景中处理真实世界图像的方法。不幸的是，当前的遮片方法不能很好地通用于典型的日常场景。这部分是由于问题的难度：如公式化的，垫问题是欠约束的，具有7个未知值但只有3个已知值：Ii=αiFi+（1 − αi）Bi αi∈ [0，1].（一）其中，像素i处的RGB颜色Ii是已知的，并且前地颜色Fi、背景颜色Bi和遮片估计αi是未知的。然而，目前的方法在其方法上进一步受到第一个限制是由于当前的方法被设计为求解遮片方程（Eq. ①的人。该方程将遮片问题公式化为两种颜色的线性组合，因此大多数当前算法在很大程度上将其作为颜色问题来处理。标准方法包括对前景和背景颜色进行采样[3，9]，根据抠图方程[14，31，22]传播alpha值，或两者的混合[32，13，28，16]。这种方法主要依赖于颜色作为区别特征（通常与像素的空间位置一起），使它们对前景和背景颜色分布重叠的情况非常敏感，不幸的是，对于这些方法来说，这是自然图像的常见情况，通常会导致低频“拖尾”或高频“大块”伪影，具体取决于方法（见图1顶行）。.即使是最近提出的深度学习方法也高度依赖于颜色相关的传播方法[8，29]。第二个限制是由于关注非常小的数据集。生成抠像的地面实况非常困难，alphamatting.com数据集[25]通过提供地面实况数据对抠像研究做出了重大贡献。不幸的是，它只包含27个训练图像和8个测试图像，其中大部分是显示器上图像前面的对象。由于数据集的大小和限制（例如，室内实验室场景，室内照明，没有人类或动物），它本质上是有偏见的，并且方法被激励以适应这些数据用于出版目的。与所有数据集的情况一样，特别是小数据集，在某些时候，方法将过拟合到数据集，不再推广到真实场景。最近的视频抠图数据集[10]有3个训练视频和10个测试视频，其中5个是从绿屏镜头中提取的，29702971图像三重映射封闭形式我们图1.我们的方法和封闭形式的抠图[22]之间的比较。第一张图片来自Alpha Matting基准测试，第二张图片来自我们的1000张测试图片。使用类似的方法[25]。在这项工作中，我们提出了一种方法，旨在克服这些限制。我们的方法使用深度学习来直接计算给定输入图像和trimap的alpha matte。我们的网络不再主要依赖于颜色信息，而是可以学习alpha mattes中存在的自然结构。例如，毛发和毛皮（通常需要铺垫）具有很强的结构和纹理特征。其他需要垫地的情况（例如：对象的边缘、光学或运动模糊的区域、或半透明区域）几乎总是具有可预期的共同结构或阿尔法轮廓。虽然低级特征无法捕获这种结构，但深度网络是表示它的理想选择。我们的两阶段网络包括一个编码器-解码器阶段，然后是一个用于细化的小残差网络，除了alpha损失之外，还包括一个新的合成损失。我们是第一个展示了在给定图像和trimap的情况下学习alpha蒙版端到端为了训练一个在无约束场景的自然图像中表现出色的模型，我们需要比目前可用的数据集大得多的数据集。使用[25]的方法获得地面实况数据集将非常昂贵，并且无法处理具有任何运动程度的场景（因此无法捕获人类或动物）。相反，受其他合成数据集的启发，这些数据集已被证明足以训练用于真实图像的模型（例如，[4]），我们使用合成创建一个大规模的在简单背景上的物体图像被仔细提取，并合成到新的背景图像上，以创建一个包含49300张训练图像和1000张测试图像的数据集我们进行了广泛的评估，以证明我们的方法的有效性。我们的方法不仅在alphamatting.com挑战赛中获得了第一名，而且在我们的合成测试集上也大大优于以前的方法。我们展示了我们的学习模型可以推广到自然图像，用户研究比较了31个自然图像上的许多先前方法，这些自然图像具有人类，动物和其他物体，在不同的场景和不同的照明条件下。这项研究表明，我们的结果强烈的偏好，但也表明，一些方法，表现良好，当由人类判断时，alphamatting.com数据集实际上执行了比其他方法更差的一致性，这表明这些方法正在过拟合于Webamatting.com测试集。最后，我们还表明，我们比其他方法更强大的trimap放置。事实上，即使在trimap中没有已知的前景和/或背景，我们也可以产生很好的结果，而大多数方法不能返回任何结果（见图1底行）。2. 相关作品当前的遮片方法主要依赖于颜色来确定阿尔法遮片，以及位置或其他低级特征。它们通过采样、传播或两者的结合来实现。在基于采样的方法[3，9，32，13，28，16]中，对已知的前景和背景区域进行采样以找到给定像素的前景和背景的候选颜色使用不同的采样方法，包括沿着最接近给定像素的边界采样[32]，基于光线投射的采样[13]，搜索整个边界[16]，或从颜色聚类中采样[28，12]。在采样的候选者中决定的度量几乎总是包括遮片方程重构误差，可能具有测量样本与给定像素的距离的项[32，16]或前景和背景样本的相似性[32，28]，并且公式包括稀疏编码[12]和KL发散方法[19，18]。像纹理[27]这样的高阶特征很少使用，并且效果有限。在传播方法中，Eq. 1被重新公式化，使得它允许阿尔法值从已知的前景和背景区域传播到未知区域。一种流行的方法是封闭式Matt-ting [22]，通常用作采样后的后处理[32，16，28]。它从前景和背景颜色的局部平滑假设其他传播方法包括随机游走[14]，求解泊松方程[31]和非局部传播方法[21，7，5]。最近，一些深度学习作品已经被提出用于图像抠图。然而，它们并不直接学习给定图像和三重图的alpha蒙版。Shen等人[29]使用深度学习来创建肖像图像中的人的三重图，并使用[22]进行抠图，通过抠图错误将反向传播到网络。Cho等人[8]将[22]和[5]的抠图结果以及归一化的RGB颜色作为输入，并学习端到端深度网络来预测新的alpha抠图。虽然我们的算法和这两个作品都利用了深度学习，但我们的算法与他们的算法有很大不同。我们的算法直接学习给定图像和trimap的alpha蒙版，而另2972pα p g pga B Cd e f图2.数据集创建。（a）具有简单背景的输入图像被手动地（b）所计算的阿尔法遮片和（c）所计算的前景颜色被用作地面实况以将对象合成到（d-f）各种背景图像上。两个工作依赖于现有的算法来计算实际的遮片，使得它们的方法容易受到与先前的遮片方法相同的问题的影响。3. 新建抠图数据集alphamatting.com上的matting基准[25]在加速matting研究的步伐方面取得了巨大的成功然而，由于获得地面实况图像所需的精心控制的设置，数据集仅由27张训练图像和8张测试图像组成。这不仅没有足够的图像来训练神经网络，而且其多样性受到严重限制，仅限于具有静态对象的小规模实验室场景。为了训练我们的抠图网络，我们通过将真实图像中的对象合成到新的背景上来创建一个更大的数据集。我们在简单或朴素的背景上找到图像（图。2 a），包括来自[ 25 ]的27个训练图像和来自[ 26 ]的视频的每五帧。使用Photo- shop，我们小心地手动创建一个阿尔法蒙版（图）.2b）和纯前景颜色（图。2c）。因为这些对象有简单的背景，我们可以为他们拉精确的遮罩。然后，我们将这些视为地面实况，并且对于每个alpha蒙版和前景图像，我们在MS COCO [23]和PascalVOC [11]中随机采样N个背景图像，并将对象合成到这些背景图像上。我们以上述方式创建训练和测试数据集。我们的训练数据集有493个独特的前景对象和49，300张图像（N=100），而我们的测试数据集有50个独特的对象和1000张图像（N=20）。每个图像的三重图是从其地面真实阿尔法蒙版随机扩张的。与以前的抠图数据集相比，我们的新数据集有几个优点。1)它有许多更独特的对象，并涵盖各种席子案件，如头发，毛皮，半透明等。2）许多合成图像具有相似的前景使我们的数据集更具挑战性和实用性。一个早期的问题是，由于图像的合成性质，这个过程是否会产生偏差，这样网络就可以学习如何区分前景和背景照明、噪声水平等。然而，我们通过实验发现，与先前的方法相比，我们在自然图像上取得了更好的结果（见第二节）。5.3）。4. 我们的方法我们使用深度学习解决图像抠图问题给定我们的新数据集，我们训练一个神经网络来充分利用数据。网络由两个阶段组成（图。（3）第三章。第一级是深度卷积编码器-解码器网络，其将图像块和三重图作为输入，并受到alpha预测损失和新的合成损失的惩罚。第二阶段是一个小的全卷积网络，它从第一个网络中细化alpha预测，具有更准确的alpha值和更清晰的边缘。我们将在下面的章节中详细描述我们的算法4.1. 遮片编码解码级我们的网络的第一阶段是一个深度编码器-解码器网络（见图1）。3），它在许多其他计算机视觉任务中取得了成功，如图像分割[2]，边界预测[33]和孔填充[24]。网络结构：网络的输入是一个图像块和相应的三重图，它们沿着通道维连接，从而产生一个4通道输入.整个网络由一个编码器网络和一个解码器网络组成。编码器网络的输入通过后续的卷积层和最大池化层转换为下采样的特征图解码器网络又使用随后的反池化层，其与最大池化操作和卷积层相反，以对特征图进行上采样，并具有所需的输出，在我们的情况下是alpha matte。具体来说，我们的编码器网络有14个卷积层和5个最大池化层。对于解码器网络，我们使用比编码器网络更小的结构，以减少参数数量并加快训练过程。具体来说，我们的解码器网络有6个卷积层，5个解池层，后面是最终的alpha预测层。损失：我们的网络利用了两个损失。第一个损失被称为阿尔法预测损失，这是绝对的在每个像素处的真实alpha值和预测alpha值之间的差。然而，由于绝对值的不可微性质，我们使用以下损失函数来近似它。.Li=（αi−αi）2 + ε2，αi，αi∈ [0，1].（二）背景颜色和复杂的背景纹理，其中αi是像素i处的预测层的输出2973αic pg图3.我们的网络由两个阶段组成，一个编码器-解码器阶段（第二节）。4.1）和一个细化阶段（节。4.2）阈值在0和1之间。 αi是地面真实值α320×320。这使得我们的方法对尺度更具鲁棒性g−6像素i处的值。是一个小值，等于10英寸。Li我们的实验衍生α是简单的。p并帮助网络更好地学习上下文和语义。第三，在每个训练对上随机执行翻转第四，三映射从它们的基Liαi−αitruth alpha martes，帮助我们的模型更加强大，α=.pg.（三）三重图的位置。最后，训练输入是重新生成的。αi我我2 2p（αp−αg）+π第二种损失被称为合成损失，其是地面实况RGB颜色与由地面实况前景、地面实况背景和预测的阿尔法蒙版合成的预测RGB颜色类似地，我们通过使用以下损失函数来近似它。.Li=（ci−ci）2 + 2。（四）其中c表示RGB通道，p表示由预测alpha合成的图像，g表示由地面实况alpha合成的成分损失约束网络遵循成分操作，从而导致更准确的alpha预测。总损耗是两个单独损耗的加权和，即，Loveralll=wl·Lα+（1−wl） ·Lc，其中wl在我们的实验中设置为0.5此外，由于只有由于需要推断trimap未知区域内的alpha值，因此我们根据像素位置对两种类型的损失设置了额外的权重，这可以帮助我们的网络更多地关注重要区域。具体地，如果像素i在三重图的未知区域内，则wi=1，否则wi=0实施情况：虽然我们的训练数据集有49，300张图像，但只有493个独特的对象。为了避免过度拟合以及更有效地利用训练数据，我们使用了几种训练策略。首先，我们随机裁剪以未知区域中的像素为中心的320×320（图像，三重图）对。这增加了我们的采样空间。第二，我们还使用不同大小的训练对（例如，480×480，640×640），并调整其大小，在每个训练阶段之后随机地进行。网络的编码器部分初始化为VGG-16的前14个卷积层[30]（第14层是全连接层由于网络有4个通道输入，我们将第一层卷积滤波器的一个额外通道初始化为零。所有的解码器参数都是用Xavier随机变量初始化的。在测试时，图像和对应的trimap被连接作为输入。执行网络的前向传递以输出阿尔法遮片预测。当GPU内存不足以处理大图像时，可以执行CPU测试。4.2. 遮片细化阶段尽管我们网络第一部分的alpha预测已经比现有的matting al-tax好得多，但由于编码器-解码器结构，结果有时过于平滑。因此，我们扩展了我们的网络，以进一步完善第一部分的结果。这种扩展的网络通常预测更准确的阿尔法蒙版和更清晰的边缘。网络结构：我们的网络的第二阶段的输入是图像补丁及其来自第一阶段的alpha预测（在0和255之间缩放）的级联，从而产生4通道输入。输出是核心，响应地面真实阿尔法马特。该网络是一个全卷积网络，包括4个卷积层。前3个卷积层中的每一个后面都是非线性不存在下采样层，因为我们希望保持在第一阶段中遗漏的非常细微的结构。此外，我们还使用了一种2974表1. Composition-1 k测试数据集上的定量结果。我们的方法的变体以斜体强调。最好的结果用粗体强调。方法伤心MSE梯度连接[13]第十三话128.9 0.091126.5135.3基于学习的抠图[34]113.9 0.04891.6122.2[28]第二十八话143.8 0.071102.2142.7[16]第十六话133.6 0.06897.6133.3[22]第二十二话168.1 0.091126.9167.9KNN Matting [5]175.4 0.103124.1176.4DCNN抠图[8]161.4 0.087115.1161.9(a)(b)（c）第（1）款编码器-解码器网络（单α预测损失）59.6 0.019 40.5 59.3图4.我们的抠图细化网络的效果（a）在─放图像。 (b)我们的抠图编码解码阶段的结果。(c)我们的席子细化阶段的结果。其中输入数据的第4通道首先在0和1之间缩放，然后被添加到网络的输出详细的配置如图所示。3 .第三章。我们的细化阶段的效果如图所示4.第一章请注意，它不会对alpha蒙版进行大规模更改，而只是细化和锐化alpha值。实施情况：在训练过程中，我们首先更新编码器-解码器部分，而不更新细化部分。在编码器-解码器部分收敛之后，我们固定其参数，然后更新细化部分。只有α预测损失（等式10）。2）由于其结构简单而使用除第四阶段外，我们还使用了第一阶段的所有训练策略。在细化部分也收敛之后，最后我们一起对整个网络进行微调我们使用Adam [20]来更新这两个部分。在训练过程中，始终设置10−5的小学习率在测试过程中，给定一个图像和一个trimap，我们的算法首先使用抠图编码器-解码器阶段来获得初始的alpha抠图预测。然后，图像和阿尔法预测被连接作为细化阶段的输入，以产生最终的阿尔法遮片预测。5. 实验结果在本节中，我们在3个数据集上评估我们的方法。1)我们在alphamatting.com数据集[25]上进行评估，这是图像抠图方法的现有基准。它包括8个测试图像，每个测试图像有3个不同的三元图，即“小”，“大”和“用户”。2)由于alphamatting.com数据集中对象的大小和范围有限，我们提出了Composition-1 k测试集。我们的基于合成的数据集包括1000幅图像和50个独特的前景。该数据集具有更广泛的对象类型和背景场景。3)为了衡量我们在自然图像上的表现，我们还收集了第三个数据集，其中包括31张自然图像。自然图像涵盖了广泛的常见的铺垫前景，如人，动物等。编码器-解码器网络54.6 0.017 36.7 55.3+精细化网络5.1. alphamatting.com数据集与alphamatting.com基准测试中的所有其他方法相比，我们的方法获得了最佳结果具体来说，我们的方法在SAD度量方面排名第一。我们的方法对于所有3个三重图的5个图像也具有最小的SAD误差（图1）。（五）。此外，我们的方法在MSE和梯度指标方面排名第二。总的来说，我们的方法是这个数据集上表现最好的方法之一。我们成功的一个关键原因是我们的网络学习结构和语义的能力，这对于在背景场景复杂或背景和前景颜色相似时准确估计alpha蒙版非常重要。例如，在图6中，“巨魔”示例具有非常相似的头发和桥的颜色，而“娃娃”示例具有强纹理背景。以前的方法（从第3列到第6列）的最佳结果在这些硬区域都有非常明显的错误。相反，我们的方法直接学习对象结构和图像上下文。结果表明，该方法不仅避免了以往方法的类似错误，而且预测了更多的细节。值得注意的是，尽管DCNN matting [8]也是一种基于深度学习的方法，但它在小的局部补丁中学习了先前matting方法的非线性组合因此，该方法不能真正理解语义，因此具有与先前的非基于深度学习的方法相同的限制5.2. Composition 1k测试数据集我们进一步评估了7个表现最好的先前方法以及我们在Composition-1 k测试数据集上的方法的每个组成部分。对于所有现有方法，使用作者我们方法的不同变体包括：遮片编码器-解码器网络1）仅具有α预测损失，2）具有α预测损失和合成损失，遮片编码器-解码器网络编码器-解码器网络52.2+ 过滤器[17]0.01630.052.6编码器-解码器网络50.40.01431.050.82975图5.在alphamatting.com数据集上的SAD结果显示了前5种方法我们的方法用一个红色矩形强调[1][2][3][4] [5][ 6][7][15]第六章第一章第七章测试图像“Troll”与trimap“user”和“Doll”与trimap“small”的alpha蒙版预测第一列显示测试图像。对于每个测试图像，从第二列到第六列以降序显示SAD度量下的第一排名结果到第五排名结果。在这两个例子中，我们的方法都取得了最好的结果。图7.不同三重图膨胀水平下的SAD误差解码器网络3）由引导滤波器[17]进行后处理，以及4）由抠图细化网络进行后处理。[25]提出的SAD、MSE、梯度和连通性误差下的定量结果见表1。显然，我们的方法的所有变体都比其他方法具有更主要原因仍然是我们的深度模型能够理解图像的复杂上下文，而其他方法则不能。通过比较我们方法的变体，我们还可以验证我们方法每个组件的有效性：1)合成损失帮助我们的模型学习合成操作，从而导致更好的结果，2）我们的遮片编码器-解码器网络的结果可以通过与先前的边缘保留滤波器（例如，引导过滤器[17]）以及我们的抠像细化网络但后者由于直接使用我们的编码器-解码器网络的输出进行训练，因此在视觉上和定量上都有更明显的改善。我们测试了我们的方法的灵敏度，图中的三重图放置。7.第一次会议。我们评估了我们的数据集的一个子集，包括一个随机选择的图像为每个独特的对象，共50个图像。为了形成trimap，我们将每个图像的地面真实值alpha放大d个像素，以增加d的值。在所有图像上对特定参数d处的SAD误差进行平均。所有冰毒的化验结果-在参数d∈[1，4，7，10，13，16，19]处的ods在图7中示出。显然，我们的方法具有较低且稳定的错误率随着d值的增加，而其它方法的错误率迅速增加。我们的良好表现来自于我们的培训策略以及对图像背景的良好理解。一些视觉示例如图所示8，以证明我们的方法在不同的消光情况下，如头发，洞和半透明的良好性能。此外，我们的方法也可以处理对象没有纯前地像素，如图中的最后一个例子所示8. 由于以前的基于采样和基于传播的方法必须利用已知的前景和背景像素，它们无法处理这种情况，而我们的方法可以直接从数据中学习细节的外观。5.3. 真实图像数据集遮片方法应该很好地推广到现实世界的图像。为了验证我们的方法的性能，2976[13]第十三届全国政协副主席[16][22]第23话：我的世界，我的世界[5][13]第十三届全国政协副主席[16][22]第23话：我的世界，我的世界[5][13]第十三届全国政协副主席[16][22]第23话：我的世界，我的世界[5][13]第十三届全国政协副主席[16][22]第23话：我的世界，我的世界[5]图8. Composition-1 k测试数据集上的视觉比较结果。“Ours-raw’ denotes the results of our matting encoder- decoder stage while“Ours-refined” denotes the results of our matting refinement其他方法对真实图像，我们进行用户研究的真实图像数据集。这些图像包括从互联网上提取的图像以及ICCV 2013图像抠图教程提供的图像。因为我们的实验对象可能不熟悉阿尔法2977martes，我们反而评估组成的结果对于每种方法，计算出的阿尔法蒙版用于将测试图像混合到黑色背景和白色背景上。对于用户测试，我们呈现了两种随机选择的方法的图像和两个合成结果，2978[28]第十三届中国国际纺织品服装展览[16]第22话：我的世界，我的世界，我的世界[28]第十三届中国国际纺织品服装展览[16]第22话：我的世界，我的世界，我的世界图9.示例结果来自我们的真实图像数据集。表2. 用户在真实图像数据集上进行研究。每个成对比较中的首选方法以粗体强调。方法[13个国家][34个][28日][16个][22日][五]《中国日报》[八]《中国日报》我们分享[13]-60.0 78.5 79.6 69.7 40.6 57.883.7学习[34]40.0-60.2 54.6 53.4 27.3 35.183.6[第28话]21.5 39.8-25.8 43.3 20.4 29.278.8全球[16]20.4 45.4 74.2-53.3 30.0 42.084.2封闭式[22]30.3 46.6 56.7 46.7-25.0 38.180.4KNN [5]59.4 72.7 79.6 70.0 75.0-73.397.0DCNN [8]42.2 64.9 70.8 58.0 61.9 26.7-83.7我们16.3 16.4 21.2 15.8 19.63.016.3-用户询问哪些结果更准确和更真实，特别是在精细细节的区域（例如，头发、对象边缘和半透明区域）。为了避免评估偏差，我们在Amazon Mechanical Turk上进行了用户研究。因此，共有392名用户参与用户研究，一张图像上的每个方法对由5至6名唯一用户进行评价。成对比较结果见表1。2，其中每列表示一种方法优于其他方法。例如，用户在83.7%的时间里更喜欢我们的结果[13]。值得注意的是，几乎五分之四的用户更喜欢我们的方法，这很好地证明了我们的方法确实产生了更好的视觉效果。一些视觉结果见图9。2979还值得注意的是，与其他两个实验相比，其他方法在本测试中的排名不同。例如，封闭式抠图[22]是我们在这里比较的方法中排名最低的方法，但对于用户来说，它比除了我们自己和[28]之外的所有其他方法都更好。alphamatting.com另一方面，虽然DCNN [8]是ting.com上现有的最先进的方法，但在真实图像上仅优于两种方法。目前还不清楚这是由于方法过拟合alphamatting.com数据集，还是标准误差度量未能准确测量人类对alpha抠图结果的感知判断。6. 结论为了推广到自然图像，抠图算法必须超越使用颜色作为主要线索，并利用更多的结构和语义特征。在这项工作中，我们表明，神经网络是能够捕捉，ING这样的高阶特征，并应用它们来计算改进的抠图结果。我们的实验表明，我们的方法不仅在标准数据集上优于以前的方法，而且它也能更好地推广到真实图像。2980引用[1] A. Al-Kabbany和E.杜波依斯使用图转换的顺序配对选择的抠图。2016年第21届视觉、建模和可视化国际研讨会。6[2] V.巴德里纳拉亚南，A. Handa和R. 西波拉Seg- net：一个深度卷积编码器-解码器架构，用于强大的语义像素标记。arXiv预印本arXiv：1505.07293，2015年。3[3] A. Berman，A.Dadourian和P.弗拉霍斯从图像中去除选定对象周围背景的方法，10月。17 2000.美国专利6，134，346。一、二[4] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个自然的开放源代码电影光流评估。在2012年欧洲计算机视觉会议论文集中。2[5] Q. Chen，中国粘蝇D. Li和C.- K.唐KNN席子。IEEETransactionsonpatternanalysisandmachineintelligence，35（9）：2175-2188，2013. 二、五、七、八[6] X. Chen和F.他外基于局部采样和自适应特征空间的knn分类的传播抠图方法。计算机辅助设计和计算机图形学，2016年。6[7] X. Chen，中国粘蝇D.Zou，S.Zhiying Zhou，Q.Zhao和P.Tan. 局部和非局部光滑先验的图像匹配。在IEEE计算机视觉和模式识别会议的Proceedings，第1902-1907页，2013年。二、六[8] D. 周，Y。- W. 泰岛 Kweon，D. 周，Y。- W. 泰以及I. 奎恩使用深度卷积神经网络的自然图像抠图。2016年欧洲计算机视觉会议论文集。一、二、五、六、七、八[9] Y.-- Y.庄湾Curless，D. H. Salesin和R.塞利斯基数字抠图的贝叶斯方法。计算机视觉和模式识别，2001年。CVPR 2001年。2001年IEEE计算机协会会议论文集，第2卷，第II-264页。IEEE，2001年。一、二[10] M. Erofeev，Y.Gitman，D.Vatolin，A.Fedorov和J.王.视频抠图的感知动机基准 2015 年英国机器视觉会议（BMVC）的开幕式上1[11] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：3033[12] X. Feng，X.Liang和Z.张某一种基于稀疏编码的图像抠图聚类抽样在欧洲计算机视觉会议上，第204施普林格，2016年。二、六[13] E. S. Gastal和M. M.奥利维拉共享采样的实时阿尔法抠图。在计算机图形论坛，第29卷，第575-584页。WileyOnline Library，2010。一、二、五、七、八[14] L. Grady，T.Schiwietz，S.Aharon和R.韦斯特曼随机行走的互动阿尔法席德。在 Proceedings of VIIP ，卷2005，第423-429页，2005中。一、二[15] B.他，G. Wang，C. Shi，X.因湾，澳-地刘，和X。是林书阿尔法抠图的迭代转换学习2013年图像处理国际会议，第4282- 4286页。IEEE，2013。6[16] K. 他，C.莱曼角罗瑟，X。Tang和J.太阳一种用于alpha抠图的全局采样方法。在2011年IEEE计算机视觉和模式识别会议论文集中。一、二、五、七、八[17] K. 他，J.Sun和X.唐引导图像滤波。在欧洲计算机视觉会议上，第1-14页施普林格，2010年。五、六[18] J. Johnson，E.S. Varnousfaderani，H.Cholakkal，和D.拉简。阿尔法抠图的稀疏编码。IEEE Transactions onImage Processing，2016。2[19] L. Karacan，A. Erdem和E. Erdem基于kl-发散稀疏采样的图像抠图。在IEEE计算机视觉国际会议论文集，第424-432页，2015年。二、六[20] D. Kingma和J. BA. Adam：一种随机优化方法。2015年国际学习表征会议。5[21] P.Lee和Y.吴非局部matting。IEEE计算机视觉和模式识别会议，2011年。2[22] A. Levin，D. Lischinski和Y.韦斯一个封闭形式的解决方案，以自然图像抠图。IEEE Transactions on PatternAnalysis and Machine Intelligence，30（2）：228-242，2008。一、二、五、七、八[23] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象。在欧洲计算机视觉会议上，第740-755页。Springer，2014. 3[24] D.作者：P. Krahenbuhl，J.多纳休，T. Darrell和A. A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。3[25] C.莱曼角Rother，J. Wang，M. Gelautz，P. Kohli和P.罗特。一个感知动机的在线基准图像抠图。IEEE计算机视觉与模式识别会议论文集，2009年。一二三五六[26] E.沙赫里安湾Price，S. Cohen和D.拉詹时间相干和空间精确的视频抠图。在《欧洲图形学进展》中，2012年。3[27] E. Shahrian和D.拉詹加权颜色和纹理样本选择图像抠图。IEEE计算机视觉与模式识别会议论文集，2012年。2[28] E. Shahrian，D.拉詹湾Price和S.科恩利用综合采样集改进图像抠图。在IEEE计算机视觉和模式识别会议的Proceedings，第636-643页，2013年。一、二、五、七、八[29] X. Shen，X.Tao，H.高氏C.Zhou和J.贾深自动人像抠图。2016年欧洲计算机视觉会议论文集。一、二[30] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR，abs/1409.1556，2014。42981[31] J. 孙，J.嘉，CK. Tang和H.-Y. 沈泊松铺垫。在ACMTransactions on Graphics （ ToG ），第 23 卷，第315ACM，2004年。一、二[32] J. Wang和M. F.科恩优化的颜色采样，用于防抖消光.2007年IEEE计算机视觉和模式识别会议，第1-8页。IEEE，2007年。一、二[33] J. 扬湾，澳-地Price，S.科恩，H.李和MH. 杨使用全卷积编码器-解码器网络的对象轮廓检测IEEE计算机视觉与模式识别，2016年。3[34] Y. Zheng和C. Kambhamettu。基于学习的数字垫。2009年IEEE第12届计算机视觉国际会议，第889-896页。IEEE，2009年。五七八

下载后可阅读完整内容，剩余1页未读，立即下载