学习索引：深度图像抠图中的有效上采样算子

154 浏览量更新于2023-10-12 收藏 2.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3266索引很重要：学习索引深度图像抠图郝璐<$戴雨桐<$沈春华<$徐松岑澳大利亚阿德莱德大学（University of Adelaide，Australia）华为诺亚方舟实验室（Noah'sArkLab，HuaweiTechnologies）{豪。卢雨桐。戴春华。shen}@adelaide. edu. au摘要我们表明，现有的上采样运营商可以统一使用的索引函数的概念。该概念受到深度图像抠图的解码过程中的观察的启发，其中索引引导的解池通常可以比诸如双线性插值的其他上采样算子更好地恢复边界细节通过将索引视为特征图的函数，我们引入了“学习索引”的概念在这个框架的核心是一个灵活的网络模块，称为IndexNet，它动态地生成索引的特征地图的条件。由于其灵活性，IndexNet可以用作插件，适用于几乎所有具有下采样和上采样阶段的现成卷积网络。我们证明了IndexNet在自然图像抠图任务上的有效性Composition-1 k matting数据集的结果显示，我们在MobileNetv 2上构建的模型至少显示16。与基于VGG-16的深度铺垫基线相比，改进了1%，训练数据更少，模型容量更低。代码和模型已在以下网址提供：https://tinyurl.com/IndexNetV1。1. 介绍上采样是使用深度卷积神经网络（CNN）进行大多数密集预测任务的重要阶段。频繁使用的上采样算子包括转置卷积[50，32]，解池化[2]，周期性洗牌[41]（也称为深度到空间）和朴素插值[30，4]，然后是卷积。然而，这些运算符不是通用的设计，并且在不同的任务中经常表现出不同的行为。*通讯作者。图1：不同型号的Alpha遮罩。从左到右，Deeplabv3+ [4]，RefineNet [30]，Deep Matting [49]和Ours。双线性上采样无法恢复细微的细节，而unpool- ing和我们学习的上采样算子可以产生具有良好局部对比度的清晰蒙版。语义分割或深度估计中广泛采用的算子是双线性插值，而不是解池。一个原因可能是通过解池生成的特征图非常稀疏，而双线性插值可能生成描绘语义一致区域的特征图这对于语义分割和深度估计尤其如此，其中区域中的像素通常共享相同的类标签或具有相似的深度。然而，我们观察到双线性插值在边界敏感的任务（如图像抠图）中的表现比解池差得多事实上，领先的深度图像抠图模型[49]在很大程度上借用了SegNet [2]的设计当采用其他最先进的分割模型，如DeepLabv 3 + [4]和RefineNet [30]来完成这项任务时，不幸的是，我们观察到DeepLabv 3+和RefineNet都无法恢复边界细节。1），与Seg- Net相比。这让我们思考这些编码器-解码器模型中缺少了什么在对不同的体系结构进行了彻底的比较并进行了彻底的研究（第5.2节）之后，答案终于清楚了--指标很重要。与双线性插值相比，非池化使用最大池化索引来指导上采样。由于浅层中的边界通常具有最大响应，从这些响应中提取的指数记录边界位置。因此，由指数投影的特征图以上分析，3267揭示了这样一个事实，即不同的上采样算子具有不同的特性，并且我们期望当处理特定视觉任务的特定图像内容时上采样算子的特定行为不妨提出这样一个问题：我们是否可以设计一个通用的操作符来对特征图进行上采样，以便更好地同时预测边界和区域？这项工作的关键观察是，最大解池、双线性插值或其他上采样算子是索引函数的某种形式。例如，一个点的最近邻插值相当于将索引1分配给它的邻居，然后映射该点的值。从这个意义上说，指数是模型[24]，因此指数可以建模和学习。在这项工作中，我们将索引建模为局部特征映射的函数，并学习索引函数以在深度CNN中执行上采样特别是，我们提出了一种新的索引引导的编码器-解码器框架，它自然地概括了SegNet。我们引入了索引池化和索引上采样操作符，而不是使用最大池化和非池化，其中下采样和上采样由学习的索引指导。索引是在特征图的条件下动态生成的，并且使用称为In-dexNet的完全卷积网络来学习，而无需监督。IndexNet是一个高度灵活的模块，可用作插件，适用于任何具有耦合下采样和上采样阶段的现成卷积网络。与固定的最大值函数相比，学习的索引函数显示出同时边界和区域划定的潜力。我们证明了IndexNet在自然图像抠图以及其他视觉任务上的有效性在图像抠图中，可以从预测的阿尔法抠图中直观地观察到学习索引的质量通过可视化学习的索引，我们表明，索引自动学习捕捉边界和纹理模式。我们进一步研究了设计IndexNet的替代方法，并通过大量实验表明，IndexNet可以有效地提高深度图像抠图的定性和定量。特别是，我们观察到我们最好的基于MobileNetv2的模型至少有16个。与之前相比，可见的最佳深度模型，即，中基于VGG-16的模型[49]在Composition-1 k抠图数据集上。我们通过使用更少的训练数据和更紧凑的模型来实现这一目标，因此推理速度明显更快。2. 相关工作我们回顾了现有的广泛使用的上采样算子和IndexNet的主要应用-深度图像抠图。深度网络中的上采样上采样是几乎所有密集预测任务的必要阶段。如何恢复降采样后的特征图的分辨率是一个重要的研究课题（解码）。反卷积算子，也称为转置卷积，最初在[50]中用于可视化卷积激活，后来被引入语义分割[32]。为了避免棋盘式假象，后续建议是除此之外，[35]和unpool- ing[2]是生成稀疏索引以指导上采样的两个运算符。索引可以捕获和保持边界信息，但问题是两个运算符在上采样后引入稀疏性。为了致密化，必须使用具有大过滤器尺寸的卷积层。此外，在[41]中引入了周期性洗牌（PS）作为图像超分辨率的快速和内存高效的上采样算子。PS通过重新排列大小为H×W×Cr2到rH×rW×C的特征图。我们的工作主要是受到unpooling operation的启发[2]。我们注意到，重要的是在特征图下采样中发生这种信息的丢失之前保持空间信息Unpooling展示了一个简单而有效的案例，但我们认为还有很大的改进空间。在本文中，我们说明了unpooling算子是一种特殊形式的指标函数，我们可以学习一个指标函数unpooling。在过去的几十年里，图像抠图方法已经从低层次的角度进行了广泛的研究[1，6，7，9，14，15，28，29，45];特别是，它们被设计用于求解抠图方程。尽管在理论上是优雅的，但这些方法严重依赖于颜色线索，在颜色不能用作可靠线索的一般自然场景中呈现抠图的失败。随着深度CNN在高级视觉任务中的巨大成功[13，26，32]，深度抠图方法正在出现。一些最初的尝试出现在[8]和[40]中，其中类抠图方法，如闭合形式抠图[29]和KNN抠图[6]，仍然用作深度网络中的后端虽然网络是端到端训练的，可以提取强大的特征，但性能受到传统后端的限制。这些尝试可以被认为是半深铺垫。最近提出了全深铺垫[49]。在[49]中，提出了基于SegNet [2]的第一种深度抠图方法，并且显著优于其他竞争对手。有趣的是，这种基于SegNet的架构成为许多最近深度抠图方法的标准配置[3，5，47]。SegNet在抠图方面是有效的，但也是计算昂贵和内存效率低下的。例如，当测试高分辨率图像时，推理只能在CPU上执行.我们表明，使用我们提出的In-dexNet，即使是基于MobileNetv 2的轻量级模型也可以超过[49]中基于VGG-16的基线。3268索引合并索引合并解码器4SoftmaxIndexNet编码器2x2，步幅2索引块索引上采样IndexNetLPSPS索引上采样上采样X2最近邻插值具有下采样的编码阶段具有上采样的编码器特征图解码器特征图索引映射元素乘法图2：索引引导的编码器-解码器框架。建议的IndexNet动态预测个别局部区域的索引，有条件的输入本地特征映射本身。预测的索引还用于指导编码阶段中的下采样和对应的解码阶段中的上采样。3. 上采样的索引透视由于上采样运算符是索引函数，在这里我们提供了上采样运算符的统一索引视角unpooling操作符是直接的。我们可以定义它在一个k×k局部区域内的指标函数作为指示函数由于上采样算子可以通过索引函数的概念来统一，因此理论上可以学习自适应捕获局部空间模式的索引函数。4. 索引引导的编码器-解码器框架我们的框架是SegNet的自然概括，Imax（x）=n（x= max（X）），x∈X，（1）示意性地示于图二、为了便于说明，我们假设下采样率和上采样率为2，其中X∈Rk×k.类似地，如果从平均池运算符提取索引，则索引函数采用以下形式：I avg（x）=<$（x∈ X）.（二）如果在上采样期间进一步使用Iavg（x），则其等效于最近邻插值。对于双线性插值和反褶积算子，它们的指标函数具有相同的形式Ibilinear/dconv（x）=W（x∈X），（3）其中W是与X大小相同的权重/滤波器，以及表示逐元素乘法。不同的是，去卷积中的W是学习的，而bilin中的W是学习的。耳插值保持固定。事实上，双线性上采样已被证明是反卷积的特殊情况[32]。注意，在这种情况下，index函数生成软索引。PS操作符的索引意义甚至更加清晰，因为特征图的重新排列本身就是一个索引过程。考虑PS张量Z，大小为1×1×r2的矩阵Z转换为大小为r×r的矩阵Z，索引函数可以用独热编码来l（x）= l（x = Z），l = 1，.，第二条规则，（四）使得 Zm ， n=Z[I1 （ x ） ] ，其中 m=1 ， . ， r ，n=1，…，r，且l =（r − 1）<$m + n。Zl表示Z的第l个元素.类似的符号适用于Zm，n。平均池化乙状我3269池化算子的核大小为2×2。在我们框架的核心是IndexNet模块，它动态地cally在给定特征图的情况下生成索引所提出的索引池化和索引上采样运算符还接收生成的索引以分别引导下采样和上采样。在实践中，多个这样的模块可以被组合并且类似于最大池化层被使用。我们提供的细节如下。4.1. 学习索引、池化和上采样IndexNet将索引建模为特征映射X∈RH×W×C的函数。给定输入X，它生成两个索引映射，用于下采样和上采样. 一个重要索引的概念是索引可以以自然顺序表示，例如，一、二、三、……或者以逻辑形式表示，即，0，1，0，...这意味着索引映射可以用作掩码。事实上，这就是我们在下采样和上采样中使用索引图预测指数与计算机指数的物理符号相同科学，除了我们生成用于平滑优化的软指标，即，对于任何指数i，i∈[0，1]。IndexNet由一个预定义的索引块和两个索引归一化层。索引块可以简单地是示意性定义的函数，例如，最大值函数，或者更一般地，神经网络。在这项工作中，索引块被设计为使用完全卷积网络。根据输出索引图的形状，32702x 2 x C1 x 1 x 4C2x2 xC 1 x1 x4HxW xC H xW x1HxW xCHxW xC整体指数依赖指数图3：整体索引和依赖索引之间的概念差异。索引网络的两个家族：整体索引网络（HIN）和独立（可分离）索引网络（DIN）。它们的概念差异如图所示3 .第三章。HIN 学习一个索引函数I（X）：RH×W×C→RH×W×1。在这种情况下，特征图的所有通道共享holis-tic index map. 相比之下， DIN 学习索引函数 I（X）：RH×W×C→RH×W×C，其中索引映射与特征映射大小相同。我们将在4.2节和4.3节讨论索引网络的具体设计。注意，发送到编码器和解码器的索引图被不同地归一化。解码器索引映射仅通过S形函数，使得对于任何预测索引i∈（0，1）。对于编码器索引图，局部区域索引L的索引通过softmax函数进一步归一化使得i∈Li=1。第二个原因也不是-归一化是为了保证下采样后特征图索引池（IP）使用生成的索引执行下采样。给定一个局部区域E∈Rk×k，IP计算E上的一个算子与相应的指数的加权和为IP（E）=x∈EI（x）x，其中I（x）是指数x。很容易推断出最大池化和平均池化-年龄合并是IP的两种特殊情况。在实践中，该运算符可以很容易地通过特征图和索引图之间的逐元素乘法、平均池化层和常数的乘法来实现，如图1二、索引上采样（IU）是IP的逆运算符。IU对空间上对应于E的d∈R1×1进行上采样，同时考虑相同的索引。设I∈Rk×k是由I（x）s形成的局部索引图，IU对d进行上采样为IU（d）=I<$D，其中<$D表示逐元素乘法，D与I大小相同并且被上采样从D到最近邻插值。去卷积和IU之间的重要差异在于，去卷积将固定的内核应用于所有局部区域，即使内核是学习的，而IU使用不同的内核（索引）对不同的区域进行上采样。4.2. 整体索引网络这里我们实例化两种类型的HIN。回想一下，HIN学习了一个索引函数I（X）：RH×W×C→RH×W×1。一个简单的设计选择是假设特征图和索引图之间存在线性关系。（b）第（1）款图4：整体索引网络。(a)线性索引网络;（b）非线性指数网络。线性整体指数网络。一个例子如图所示。第4（a）段。该网络以完全卷积的方式实现。它首先将2步2×2卷积应用于大小为H×W×C的特征图，尺寸为 H/2×W/2×4 的索引图。索引图（H/2×W/2×1）的每个切片被设计为对应于所有局部区域的某个位置的索引，例如，所有2 ×2区域的左上角。网络最后应用类似PS的洗牌算子将索引图重新排列为H×W×1的大小。在许多情况下，假设线性关系是不够的。一个明显的事实是，一个线性函数甚至不能拟合最大函数。自然，第二种设计选择是在网络中添加非线性。非线性整体指数网络。图4（b）示出了一个非线性HIN，其中特征图首先被投影到大小为H/2×W/2×2C的图，然后是一个批量归一化层和一个用于非线性映射的ReLU函数。然后，我们使用逐点卷积来减少通道尺寸调整为与索引兼容的尺寸。其余的变换遵循其线性对应。注1.请注意，整体索引图由特征图的所有通道共享，这意味着当馈送到 IP 和 IU 时，索引图应扩展到H×W×C的大小。幸运的是，许多现有的软件包支持-在单例维度上移植隐式扩展。该索引图可以被认为是应用于各个局部空间区域的局部注意力图的集合[34]在这种情况下，IP和IU运算符也可以被称为4.3. 依赖指数网络在DIN中，我们发现I（X）：RH×W×C→RH×W×C，即，每个空间索引对应于每个空间激活。这个网络族还具有两个高级设计策略，对应于两个不同的假设。一对一（O2O）假设假设索引图的每个切片仅与其对应的特征图切片相关。它可以用一个局部指数函数来表示Conv洗牌2x2 x4步幅2高x宽x中高/2x宽/2 x4高 x宽 x1（一）Conv+BN+ReLU2x2 x2C，步幅2Conv1x1x4洗牌高x宽 x高高/2x宽/2x2C高/2x宽/2x4高x宽x13271BN+ReLUBN+ReLUBN+ReLUGroupConv 1x1xCgroupNBN：批量归一化有过度拟合的风险相比之下，由HIN生成的索引图由特征图的所有通道共享，因此解码器特征图可以保留其可表达性，而无需在上采样期间强制降低其维度以适应索引图的形状。这为解码器设计提供了很大的灵活性，而DIN的情况并非如此。HxW xCHxW xC4.4. 与其他网络的关系BN+ReLU高/2x宽/2x中高/2x宽/2 x中如果考虑到IndexNet的动态特性，IndexNet与最近的一些网络具有相似的精神图5：深度索引网络。对于O2O，N=C，假设，N = 1对于M2O。被屏蔽的模块是对线性网络来说是不可见的。l（X）：Rk×k×1→Rk×k×1，其中k表示局部区域的大小.与HIN类似，DIN也可以设计为具有线性/非线性建模能力。图图5示出了k=2时的示例。请注意，与HIN不同，DIN遵循多列架构。每一列预测特定于所有局部区域的某个空间位置的gions。O2O假设在具有分组卷积的DIN中可以很容易地满足。线性深度索引网络。如图5所示，一个特征映射通过四个并行卷积层，具有相同的内核大小2×2×C，步幅为2，C组，导致四个大小为H/2×W/2×C的下采样特征映射。最终的索引映射由通过混洗和重新排列得到四个特征图注意四个卷积层的参数不是共享的。非线性依赖指数网络通过插入四个额外的卷积层，可以很容易地从线性DIN修改非线性DIN。它们中的每一个后面都是BN层和ReLU单元，如图所示五、其余部分与线性DIN相同。多对一（M2O）假设假定索引图的每个局部指标函数定义为l（X）：Rk×k×C→Rk×k×1。与O2O DIN相比，实现上的唯一区别是使用标准的convo-用卷积代替群卷积，即，图中N=1五、弱情境下的学习。In-dexNet的一个理想特性是它甚至可以从大型局部特征图预测索引 l （ X ）：R2k×2k×C→Rk×k×1. 这一思想背后的直觉是，如果从k×k区域中识别出局部极大点，则其周围的2k×2k区域可以进一步支持该点是否是边界或只是孤立的噪声点。这个想法可以通过扩大卷积核来容易地实现，并且也适用于HIN。备注2. HIN和DIN都有优点和缺点. 很明显，DIN比HIN具有更高的容量，因此DIN可以捕获更复杂的本地模式，但也空间Transformer网络（STNs）[21]。该算法通过局部网络回归期望的变换参数θ来学习动态空间变换然后，由θ参数化的采样器产生空间变换的输出。这样的转换对于特征图是整体的，这类似于 HIN 。 IndexNet 和IndexNet之间的区别在于它们的学习目标具有不同的物理定义（空间转换与空间索引），而IndexNet是为全局转换而设计的，而IndexNet预测本地索引。动态滤波器网络（DFN）[22]。DFN利用所谓的滤波器生成网络动态生成滤波器参数与在推理期间初始化、学习和保持固定的常规滤波器参数相比，DFN中的滤波器参数是动态的和样本特定的。DFN和In-dexNet之间的主要区别在于设计的动机动态滤波器被学习用于自适应特征提取，但学习的索引用于动态下采样和上采样。可变形卷积网络（DCN）[10]。DCN引入了可变形卷积和可变形RoI池化。其核心思想是预测卷积核和池化核的偏移量，因此DCN也是一个动态网络。虽然这些卷积和池运算符涉及cern空间变换，他们仍然是建立在标准的最大池，并不是专为上采样的目的。相比之下，索引引导的IP和IU是基本算子，并且可以集成到RoI池中。注意力网络[34]。注意力网络是一个广泛的网络家族，采用注意力机制。该机制在推断的注意力图和特征图之间引入乘法交互。在计算机视觉中，这些机制通常指空间注意[46]，通道注意[20]或两者兼而有之[48]。如上所述，在某种程度上，HIN中的IP和IU可以被视为注意力算子，这意味着指数可以被理解为注意力。事实上，最大池化指数是一种硬注意力。值得注意的是，尽管IndexNet在其当前实现中可能与注意力密切相关，但它具有独特的物理定义，并且专门用于上采样而不是细化特征图。此外，注意力是逐点算子，而IP和IU都是逐区域算子。32725. 结果和讨论我们评估我们的框架和IndexNet的任务E0图像抠图该任务特别适合于可视化学习索引的质量。我们主要在Adobe Image Matting数据集上进行实验[49]。这是迄今为止最大的公开可用的抠图数据集。的E2训练集具有431个前景对象和地面实况（ground-truth）α遮罩。1每个前景与100个背景合成E3从MS COCO随机选择的地面图像[31]。的被称为组合物-1k的测试集包括100个唯一的ob-对象。每一个都与10个背景im-E4从Pascal VOC中选择年龄[12]。总的来说，我们有43100张训练图像和1000张测试图像。我们评估E5使用广泛使用的绝对差和的结果(SAD)，均方误差（MSE），以及感知-E6动机梯度（梯度）和连接（连接）er-错误[37]。 [49]实现的求值代码为E7采用在下文中，我们首先描述我们的修改后的D0D1D2D3D4D5D6E8/D7输入层Conv+BN+ReLU依赖转换+BN+ReLU下采样图层编码器特征图解码器特征图Atrous空间金字塔合并上采样层输出层编码级编码器的特点是可扩展的索引基于MobileNetv2的体系结构和培训细节。然后，我们进行了广泛的消融研究，以证明模型设计的选择，比较不同的指数网络，并可视化学习指数。我们还报告了对martamatting的性能。com在线基准测试[37]并将IndexNet扩展到其他视觉任务。5.1. 实现细节我们的实现基于PyTorch [36]。在这里，我们描述了所使用的网络架构和一些基本的训练细节。网络架构。我们基于MobileNetv2 [39]构建我们的模型，只对主干进行了轻微的修改。我们选择 Mo-bileNetv 2的一个重要原因是，这种轻量级模型允许我们在GPU上传输高分辨率图像，而其他高容量骨干则不能。基本网络配置如图所示。六、它也遵循与SegNet相同我们只需改变所有的2步卷积为1步，并在每个编码阶段后附加2步2×2最大池，用于下采样，可以提取索引。如果应用IndexNet思想，则可以分别用IP和IU替换最大池化和非池化层。我们还研究了低级特征融合的替代方法以及是否编码上下文（第5.2节）。请注意，本文中没有考虑抠图细化阶段[49培训详情。为了能够与深铺垫[49]进行直接比较，我们遵循[49]中使用的相同训练配置。4通道输入连接RGB图像及其三重图。我们完全按照8月的数据-1原始论文报告有491张图像，但发布的数据集仅包括431张图像。因此，我们使用比原始论文更少图6：定制的基于MobileNetv 2的编码器-解码器网络架构。我们的修改是黑体字。分割策略，包括320×320随机裁剪、随机翻转、随机缩放和随机trimap扩展。所有训练样本都是即时创建的。我们使用一个如[49]中所述，在训练期间，α预测损失和合成损失的组合。只计算来自三重图的未知区域的损失。编码器参数在ImageNet上进行了预训练[11]。请注意，第4个输入通道的参数使用zer-ros进行初始化。所有其他参数都使用改进的Xavier [16]进行初始化。使用Adam优化器[23]。您将收到30个历元的参数（大约90，000次迭代）。学习率初始设置为0。在第20和26个历元时分别减少了10倍。我们使用16的批量大小并固定骨干的BN层。5.2. Adobe图像抠图数据集模型设计的消融研究。在这里，我们研究了融合低级特征的策略（不融合，如ResNet [17]中的跳过融合或如UNet [38]中的拼接）以及是否编码图像抠图的上下文。因此，建立了11个基线来证明模型设计的合理性。组合物-1k测试组的结果报告于表1中。B3引自[49]。我们可以做以下观察：（一）指数非常重要。消光可以显着受益于只有指数（B3与B4，B5 vs. B6）;ii）最先进的语义分割模型不能直接应用于图像抠图（B1/B2与iii）融合低级特征有帮助，并且串联比跳过连接更好地工作，但以增加计算为代价（B5与B8与B10或B7与B9 vs. B11）;iv）我们的直觉告诉我们，上下文可能对像mat-matt这样的低级任务没有帮助。E1320x320x15x5x1320x320x4320x320x323x3x32，步幅=15x5x32320x320x32320x320x322x2最大池2x2最大取消合并160x160x32160x160x323x3x165x5x32160x160x16160x160x163x3x24，步幅=15x5x16160x160x24160x160x242x2最大池2x2最大取消合并80x80x2480x80x243x3x32，步幅=15x5x2480x80x3280x80x322x2最大池2x2最大取消合并40x40x3240x40x323x3x64，步幅=15x5x3240x40x6440x40x642x2最大池2x2最大取消合并20x20x6420x20x643x3x965x5x6420x20x9620x20x963x3x160，步幅=15x5x9620x20x16020x20x1602x2最大池2x2最大取消合并10x10x16010x10x160ASPP3273号架构骨干融合指数上下文OS伤心MSEGradConnB1B2DeepLabv3+[4]RefineNet [30]MobileNetv2MobileNetv2ConcatSkip没有没有ASPPCRP163260.060.20.0200.02039.941.661.361.4B3SegNet [49]VGG16没有是的没有3254.60.01736.755.3B4SegNetVGG16没有没有没有32122.40.100161.2130.1B5SegNetMobileNetv2没有是的没有3260.70.02140.061.9B6SegNetMobileNetv2没有没有没有3278.60.031101.682.5B7SegNetMobileNetv2没有是的ASPP3258.00.02139.059.5B8SegNetMobileNetv2Skip是的没有3257.10.01936.757.0B9SegNetMobileNetv2Skip是的ASPP3256.00.01738.955.9B10UNetMobileNetv2Concat是的没有3254.70.01734.354.7B11UNetMobileNetv2Concat是的ASPP3254.90.01733.855.2表1：设计选择的消融研究。融合：融合编码器的特点索引：最大池化索引（当索引为“否”时，双线性插值用于上采样）;CRP：链式残差池化[30]; ASPP：空间金字塔池化[4]; OS：输出步幅。最低的错误用黑体字表示。丁，而结果表明，编码上下文通常是鼓励（B5与。B7或B8与B9或B10与B11）。事实上，我们观察到上下文有时可以帮助提高背景的质量;v）基于MobileNetv 2的模型可以像基于VGG-16的模型一样工作，并具有适当的设计选择（B3与B11）。在下面的实验中，我们主要使用B11。索引网络的消融研究。在这里，我们比较不同的索引网络，并证明其有效性。在实验中使用的索引网络的配置如下图。4和5.我们主要研究2×2内核的步幅为2。每当考虑弱上下文时，我们在第一个卷积中使用4×4索引网络层突出的有效性HIN，我们进一步构建了一个称为整体最大索引（HMI）的基线，其中最大池化索引从压缩特征映射X′∈RH×W×1中提取。通过沿通道维度应用max函数来生成XX∈RH×W×C. 我们还报告了将 B11 中使用的MobileNetV2的宽度乘数设置为1时的性能。4（B11-1.4）。这使我们能够证明性能的提高是否是由于模型容量的增加。组合物-1k测试数据集的结果列于表2中。我们观察到，除了最幼稚的线性HIN，所有索引网络一致地减少了误差。特别是，非线性和上下文通常对深度图像抠图有积极的影响。与HMI（HIN的直接基线）相比，最佳HIN（“非线性+上下文”）至少有12个。3%的相对改善。与DIN的基线B11相比，具有“非线性+上下文”的M2O DIN显示至少16个。5%的相对改善。请注意，我们的最佳模型甚至优于具有细化阶段的最先进的DeepMat- ting[49]，并且计算效率高，内存消耗少-可以在超过1920 ×1080高分辨率图像。给出了一些定性的结果在图7中。我们预测的遮罩显示出改进的边缘和纹理（如头发和水滴）描绘。表2：组合物-1k测试集的结果。 GFLOPs是在224×224×4输入上测量的。NL：非线性; C：上下文。最低的错误用黑体字表示。索引图可视化。看看IndexNet学到了什么是有趣的。对于整体索引，索引图本身是一个2D矩阵，易于可视化。关于dependency指数，我们沿着通道维度挤压指数图并计算平均响应。学习索引图的两个示例在图1中可视化。8.我们观察到，初始随机索引对边缘的描绘较差，而学习的索引自动捕获复杂的结构和文本模式，例如，狗的皮毛，甚至水中的气泡5.3. alphamatting.com在线基准我们还报告的结果，对martamatting。com在线基准测试[37]。我们直接测试在Adobe Image Dataset上训练的最佳模型，无需微调。我们的方法（ IndexNetMatting）在方法#参数。GFLOPS伤心MSEGradConnB3 [49]130.55M32.3454.60.01736.755.3B113.75M4.0854.90.01733.855.2B11-1.48.86M7.6155.60.01636.455.7HMI3.75M4.0856.50.02133.056.4NLC∆HINsC+4.99K+19.97K4.094.1155.153.50.0180.01832.131.055.253.5C+0.26M4.2250.60.01527.949.4CC+1.04M4.6149.50.01525.649.2O2O餐饮C+4.99K+19.97K4.094.1150.347.80.0150.01533.726.950.045.6C+17.47K4.1050.60.01626.550.3CC+47.42K4.1550.20.01626.849.3M2O DINC+0.52M+2.07M4.345.1251.050.60.0150.01633.731.950.550.2C+1.30M4.7348.90.01532.147.9CC+4.40M6.3045.80.01325.943.7封闭式[29]168.10.091126.9167.9DeepMatting w. [49]第四十九话50.40.01431.050.83274图7：组合物-1k测试集的定性结果。从左到右，原始图像，trimap，ground truth alpha matte，闭合形式的matting [29]，deepimage image [29]和我们的（M2O DIN与更多结果见补编梯度误差平均秩S巨魔LUS娃娃LU驴S L U大象S L US植物LU菠萝S L UPlasSticL袋US净LU整体SLUIndexNet抠图97.37.612.30.20.20.20.10.10.30.20.20.20.20.20.41.71.92.511.11.31.11.21.20.40.50.5AlphaGAN [33]13.21210.816.80.20.20.20.20.20.30.20.30.30.20.20.41.82.42.71.11.41.50.91.110.50.50.6[49]第四十九话14.310.811210.40.40.50.20.20.20.10.10.20.20.20.61.31.52.40.80.91.30.70.81.10.40.50.5表3：在字母拼接上的梯度误差（前3）。com online benchmark.最低的错误用黑体字表示。图8：HIN（上）和DIN（下）的随机初始化索引图（左）和学习索引图（右）的可视化。最好放大观看。已发表的方法之间的梯度误差，如表3所示。根据图1中的定性结果。9，我们的方法在头发上产生明显更好的哑光。5.4. 其他视觉任务的扩展我们进一步评估其他三个视觉任务的IndexNet。对于图像分类，我们在CIFAR-10和CIFAR-100数据集[25]上比较了三个分类网络（LeNet [27]，MobileNet [18]和VGG- 16 [43]），有/没有IndexNet。对于单目深度估计，我们将IndexNet附加在最近的基于ResNet-50的基线上[19]，并报告NYUDv 2数据集上的性能[42]。在场景理解的任务中，我们在SUN-RGBD数据集[44]上评估了SegNet [2]与/不与IndexNet结果表明，IndexNet始终提高了所有三个任务的性能。我们建议读者参阅补编的定量和定性结果。图9：关于包埋的定性结果。com dataset.从左到右，原始图像，深图像抠图，我们的。6. 结论受图像抠图中观察的启发，我们深入研究了索引的作用，并使用索引函数的概念提出了上采样算子的统一观点。我们表明，指数可以学习与称为IndexNet的灵活网络模块，用于指导下采样和上采样。IndexNet本身也是一个子框架，可以根据手头的任务进行设计。我们对三种索引网络进行了实例化和研究，比较了它们的概念差异，讨论了它们的性质，并证明了它们在图像抠图、图像分类、深度预测和场景理解等任务中的有效性。我们报告的国家的最先进的性能与修改后的 MobileNetv 2 为基础的模型上的Composition-1 k数据集的图像抠图。我们认为IndexNet是设计通用上采样算子的重要一步。我们的模型很简单，有很大的改进空间。它可以作为未来研究的一个强有力的基线。我们计划探索IndexNet对其他密集预测任务的适用性。鸣谢感谢华为技术捐赠GPU云计算资源。3275引用[1] Yagiz Aksoy、Tunc Ozan Aydin和Marc Pollefeys。为自然图像抠图设计有效的像素间信息流在Proc. IEEE计算机视觉和模式识别会议（CVPR），第29-37页，2017年。2[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegNet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence，39（12）：2481-2495，2017。一、二、八[3] Guanying Chen，Kai Han，and Kwan-Yee K Wong.从一张图片学习透明物体的抠图.在proc IEEE计算机视觉和模式识别会议（CVPR），第9233-9241页，2018年。2[4] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。欧洲计算机视觉会议（ECCV），2018年。一、二、七[5] Quan Chen ， Tiezheng Ge ， Yanyu Xu ， ZhiqiangZhang，Xinxin Yang，and Kun Gai.语义人类铺垫。在Proc. ACM Multimedia，第618-626页，2018年。2[6] Qifeng Chen，Dingzeyu Li，and Chi-Keung Tang.KNN垫子。IEEE Transactions on Pattern Analysis and MachineIntelligence，35（9）：2175-2188，2013. 2[7] 陈小武，邹东庆，周志英，赵琴平，谭平.具有局部和非局部光滑先验的图像抠图在proc IEEE计算机视觉和模式识别会议（CVPR），第1902-1907页，2013年。2[8] 赵东贤戴宇荣和权仁生使用深度卷积神经网络的自然图像抠图。在 Proc. European Conference on ComputerVision（ECCV），第626-643页中。施普林格，2016年。2[9] Yung-Yu Chuang，Brian Curless，David H Salesin，andRichard Szeliski.数字抠图的贝叶斯方法。 IEEE

下载后可阅读完整内容，剩余1页未读，立即下载