基于层次神经结构搜索的语义图像分割

128 浏览量更新于2023-10-17 收藏 894KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Auto-DeepLab：基于层次神经结构搜索的语义图像分割刘晨曦1岁，陈良杰2岁，Florian Schroff2岁，Hartwig Adam2岁，魏华2岁，Alan Yuille1岁，李菲菲3岁1约翰霍普金斯大学2谷歌3斯坦福大学摘要最近，神经结构搜索（NAS）已经成功地识别出了超过人类设计的大规模图像分类的神经网络结构在本文中，我们研究NAS的语义图像分割。现有的工作往往集中在寻找可重复的细胞结构，而手工设计的外部网络结构，控制空间分辨率的变化。这种选择简化了搜索空间，但对于表现出更多网络级架构变化的密集图像预测来说变得越来越困难因此，我们提出在搜索单元级结构的同时，搜索网络级结构，形成一个层次结构的搜索空间。我们提出了一个网络级的搜索空间，其中包括许多流行的设计，并制定了一个公式，允许有效的基于梯度的架构搜索（3 P100 GPU天的城市景观图像）。我们证明了所提出的方法的有效性，在城市景观，PASCAL VOC 2012年，和ADE20K数据集。Auto-DeepLab，我们的架构专门搜索ResNet [25]DenseNet [31]DeepLabv3+[11]✗ ✗✗ ✗✗ ✗------CLS克莱斯赛格NASNet [93]✓✗CIFAR-102000CLS[62]第六十二话✓✗CIFAR-102000CLSPNASNet [47]✓✗CIFAR-10150CLSDARTS [49]✓✗CIFAR-104CLSDPC [6]✓✗城市景观2600SegAuto-DeepLab✓✓城市景观3Seg表1：将我们的工作与其他具有两级层次结构的CNN架构进行比较。主要区别包括：（1）我们直接搜索CNN架构进行语义分割，（2）我们搜索网络级架构以及细胞级架构，（3）我们的高效搜索只需要3个P100 GPU天。在人工智能方面，人们对自动设计神经网络架构非常感兴趣，而不是依赖人工智能。语义图像分割，无需任何ImageNet预训练即可达到最先进的性能。11. 介绍深度神经网络已被证明在各种人工智能任务中取得了成功，包括图像识别[38，25]，语音识别[27]，机器翻译[73，81]等。虽然更好的优化器[36]和更好的归一化技术[32，80]肯定发挥了重要作用，但许多进展来自神经网络架构的设计。在计算机视觉中，这对于图像分类[38，72，75，76，74，25，85，31，30]和密集图像预测都是正确的。[16，51，7，64，56，55]。最近，在AutoML和民主的精神在Google实习时完成的工作1Auto-DeepLab代码发布于https://github.com/tensorflow/models/tree/master/research/deeplab。大量依赖专家的经验和知识。重要的是，在过去的一年中，神经架构搜索（NAS）已经成功地识别出在大规模图像分类问题上超过人类设计架构的架构[93，47，62]。图像分类是NAS的一个很好的起点，因为它是最基本和研究最充分的高级识别任务。此外，存在基准数据集（例如，CIFAR-10），相对较小的图像，从而在更少的计算和更快的训练。然而，图像分类不应该是NAS的终点，目前的成功表明有希望扩展到要求更高的领域。在本文中，我们研究了神经架构搜索的语义图像分割，一个重要的计算机视觉任务，分配一个标签，如单纯地从图像分类中移植思想不足以进行语义分割。在图像分类中，NAS通常应用从低分辨率到低分辨率的迁移学习。模型自动搜索细胞网络数据集天数任务1 8283将分辨率图像转换为高分辨率图像[93]，而用于语义分割的最佳架构必须内在地在高分辨率图像上操作。这表明需要：（1）更宽松和通用的搜索空间，以捕获由更高分辨率带来的体系结构变化，以及（2）更有效的体系结构搜索技术，因为更高的分辨率需要更重的计算。我们注意到现代CNN设计[25，85，31]通常遵循两级层次结构，其中外部网络层控制空间分辨率变化，内部单元层控制特定的逐层计算。目前绝大多数关于NAS的工作[93，47，62，59，49]都遵循这种两级分层设计，但只能自动搜索内部单元级别，而手动设计外部网络级别。这种有限的搜索空间对于密集图像预测变得有问题，密集图像预测对空间分辨率变化敏感。因此，在我们的工作中，我们提出了一个网格状的网络级搜索空间，它增强了[93]中首次提出的常用单元级搜索空间，以形成分层架构搜索空间。我们的目标是共同学习可重复的细胞结构和网络结构的良好组合，专门用于语义图像分割。在架构搜索方法方面，强化学习[92，93]和进化算法[63，62]即使在低分辨率CIFAR-10数据集上也往往是计算密集型我们从NAS [69，49]的可微分公式中获得灵感，并开发了一种离散体系结构的连续松弛，该体系结构与分层体系结构搜索空间完全匹配。分层架构搜索通过随机梯度下降进行当搜索终止时，最好的小区架构被greatly解码，并且最好的使用维特比算法有效地解码网络架构我们直接在Cityscapes的321×321图像作物上搜索建筑[13]。搜索非常高效，在一个P100 GPU上只需要大约3我们报告了多个语义分割基准的实验结果，包括Cityscapes [13]、PAS- CAL VOC 2012 [15]和ADE 20 K[90]。如果没有图像-geNet [65]预训练，我们的最佳模型显著优于FRRN-B[60] 8。6%和GridNet [17] 10。Cityscapes测试集上的9%，并与其他ImageNet预训练的最先进模型进行对比[82，88，4，11，6]时，也利用粗略的注释城市景观。值得注意的是，我们最好的模型（没有预训练）达到了与DeepLabv3+ [11]（有预训练）相同的性能，同时是2。在多添加中快23倍.此外，我们的轻型模型达到每小时只有1。比DeepLabv3+低2%[11]，而需要76。7%的参数减少，为4。在Multi-Adds中速度提高65倍。在PASCAL VOC 2012上ADE20K，我们最好的模型优于几个最先进的模型[90，44，82，88，83]，同时使用严格较少的数据进行预训练。总而言之，我们的论文有四个方面的贡献• 我们的研究是将NAS从图像分类扩展到密集图像预测的第一次尝试之一• 我们提出了一个网络级架构的搜索空间，增强和补充了大量研究的细胞第一级，并考虑更具挑战性的网络级和小区级架构的联合搜索。• 我们开发了一个可区分的，连续的配方，进行两级分层架构搜索有效地在3GPU天。• 在没有ImageNet预训练的情况下，我们的模型显著优于FRRN-B和GridNet，并且与其他ImageNet预训练的都市风景的最先进模型在PASCAL VOC 2012和ADE20K上，我们的最佳模型也优于几个最先进的模型。2. 相关工作语义图像分割以完全卷积方式部署的卷积神经网络[42]（FCN [68，51]）在几个语义分割基准上取得了显着的性能。在最先进的系统中，有两个基本组成部分：多尺度上下文模型和神经网络设计。众所周知，上下文信息对于像素标记任务至关重要[26，70，37，39，16，54，14，10]。因此，PSPNet [88]在多个网格尺度（包括图像级）执行空间金字塔池化[21，41，24[50]，而DeepLab [8，9]应用了几个部分。具有不同速率的螺旋卷积[28，20，68，57，7]。另一方面，神经网络设计的改进显着推动了AlexNet [38]，VGG [72]，Inception [32，76，74]，ResNet [36][25]到最近的架构，如 Wide ResNet [86] ， ResNeXt[85]，DenseNet [31]和Xception [12，61]。除了采用这些网络作为语义分割的主干之外，还可以采用编码器-解码器结构[64，2，55，44，60，58，33，79，18，11，87，83]，其有效地捕获长范围上下文信息，同时保持详细的对象边界。然而，大多数模型都需要从ImageNet [65]预训练的检查点进行初始化，除了FRRN[60]和GridNet [17]用于语义分割任务。具体而言，FRRN[60]采用双流系统，其中全分辨率信息在一个流中携带，而上下文信息在另一个池化流中携带。GridNet建立在类似的想法之上，包含具有不同分辨率的多个流。在这项工作中，我们应用神经架构搜索84我我我用于特定于语义分割的网络骨干。我们进一步展示了在没有ImageNet预训练的情况下最先进的性能，并且显著优于FRRN[60]和GridNet [17]上的城市景观[13]。神经网络架构搜索方法神经网络架构搜索旨在自动设计神经网络架构，从而最大限度地减少人力和精力。虽然一些作品[22，34，92，49]搜索RNN细胞进行语言任务，但更多的作品搜索良好的CNN架构进行图像分类。有几篇论文使用强化学习（policy gradients [92，93，5，77]或Q-learning [3，89]）来训练一个递归神经网络，该网络表示生成指定CNN架构的符号序列的策略。RL的另一种选择是使用进化算法（EA），它然而，这些RL和EA方法往往需要在搜索期间进行大量计算，通常需要数千GPU天。 PNAS[47]提出了一种渐进式搜索策略，在保持搜索架构质量的同时显著降低了搜索成本NAO [52]将架构嵌入到潜在空间中，并在解码之前进行优化。此外，一些作品[59，49，1]利用了样本模型之间的架构共享，而不是单独训练每个模型，从而进一步降低了中间池（ASPP）模块使用随机搜索，而我们专注于使用更先进和更有效的搜索方法搜索更基本的3. 架构搜索空间本节介绍我们的两级分层架构搜索空间。对于内部单元格级别（Sec. 3.1），我们重新使用[93，47，62，49]中采用的一个，以保持与以前的作品一致。对于外部网络级别（Sec.3.2），我们提出了一个新的搜索空间的基础上观察和总结了许多流行的设计。3.1. 单元级搜索空间我们将细胞定义为一个小的完全卷积模块，通常重复多次以形成整个神经网络。更具体地，单元是由B个块组成的有向非循环每个块是一个两分支结构，从2个输入张量映射到1个输出张量。单元l中的块i可以使用5元组（I1，I2，O1，O2，C）来指定，其中I1，I2∈I1是输入张量的选择，O1，O2∈ O是应用于对应输入张量的层类型的选择，并且C∈ C是用于组合两个分支的各个输出以形成该块的输出张量Hl的方法细胞的输出张量Hl简单地是以下项搜寻成本我们的工作遵循不同的NAS-块的输出张量H1，. . . ，H 1按照这个顺序1B[69，49]并将其扩展到更广泛的领域，archic设置。神经结构搜索空间早期的论文，例如，可能的输入张量集合Il由前一个单元Hl−1的输出、前一个单元Hl−2的输出和当前单元中前一个块租赁小区{H1，. . . ，Hl}。因此，当我们添加更多块时，1[92，63]，试图直接构建整个网络。怎么-最近的论文[93，47，62，59，49]已经转移到搜索可重复的单元结构，同时保持外部网络级结构手工固定。在[93]中首次提出，该策略可能受到两级模型的启发在单元格中，下一个块有更多的选择作为潜在的输入源可能的层类型O的集合由以下8个运算符组成，所有这些运算符都在现代CNN中流行：现代CNN中常用的archy。我们的工作仍然使用这种细胞级的搜索空间，以保持与以前的作品一致。然而，我们的贡献之一是提出了一个新的，通用的网络级搜索• 3 ×3深度可分卷积• 5 ×5深度可分离卷积• 3×3无菌转化率为2• 5×5无菌转化率为2• 3×3平均合并• 3×3最大合并• 跳过连接• 无连接（零）空间，因为我们希望在这个两级层次结构中联合搜索。我们的网络级搜索空间与[67]有着相似的前景，但重要的区别在于[67]保留了整个此外，[67]在将人脸图像分割为3类[35]时进行了评估，而我们的模型在大规模分割数据集上进行了评估，如Cityscapes [13]，PASCAL VOC 2012 [15]和ADE20K [90]。与我们最相似的工作是[6]，它也研究了用于语义图像分割的NAS。然而，[6]专注于搜索更小的Atrous空间Pyra-对于可能的组合算子C的集合，我们sim-让元素加法成为唯一的选择。3.2. 网络级搜索空间在[93]开创的图像分类NAS框架因此，网络层不是体系结构搜索的一部分，因此其搜索空间从未被提出或设计。此预定义模式简单明了：通过插入“归约像元”（划分空间分辨率的像元）将多个“正常像元”（保持特征张量空间分辨率的像元）均等地我85concat与β→s有关，β2图1：左：我们的网络级搜索空间，L=12。灰色节点表示固定的“主干”层，并且沿着蓝色节点的路径表示候选网络级架构。右图：在搜索过程中，每个细胞都是一个密集连接的结构，如第2节所述4.1.1. 每个黄色箭头都与值集α j→i相关联。三箭之后L lss→sL2秒→秒如图所示，在4.1.2. 最好用彩色观看更多的网络级变化[9，56，55]。在用于密集图像预测的各种网络架构中，我们注意到两个一致的原则• 下一层的空间分辨率要么是两倍大，要么是两倍小，要么保持不变。（a）DeepLabv3中使用的网络级架构[9]。下采样\层12345……L-1L12481632(b)Conv-Deconv中使用的网络级架构[56]。·最小空间分辨率被下采样32。根据这些常见的做法，我们提出了以下网络级搜索空间。网络的开始是一个两层的之后，总共有L个具有未知空间分辨率的层，其中最大值被下采样4，最小值被下采样32。由于每一层在空间分辨率上可相差至多2，因此主干之后的第一层可仅被下采样4或8。我们在图中说明了我们的网络级搜索空间. 1.一、我们的目标是找到一个下采样\层1124816322 3 4 5L-1L在这个L层网格中的好路径。图2我们表明，我们的搜索空间是足够的，以涵盖许多流行的设计。在未来，我们计划进一步放宽该搜索空间，以包括U-net架构[64，45，71]，其中层l可以接收输入从除了l-1之外的l之前的另一层。我们重申，我们的工作搜索的网络级架构，除了细胞级架构。因此，我们的搜索空间严格来说更具挑战性，(c)在堆叠沙漏中使用的网络级架构[55]。图2：我们的网络级搜索空间是通用的，包括各种现有的设计。乘以2并将滤波器的数量乘以2）。这种保持下采样策略在图像分类情况下是合理的，但是在密集图像预测中，保持高空间分辨率也很重要，因此存在比以前的作品更通用。4. 方法我们首先介绍了一个连续的放松（指数许多）离散体系结构，ex-perimentally匹配的层次结构搜索上述。然后，我们将讨论如何通过优化来执行架构搜索，以及如何在搜索终止后解码回离散的架构。下采样\层1 2 3 4 5……L-1L...1sH l12sH l24s H l-2.s H l-1sH l3sH l8sH l41632sH l5...concat作为作为作为如PPPPPP作为作为作为如PPPPPP，β下采样\层12345……L-1L1248163286我J我JJj→i我j→iLJIs→2S4.1. 建筑的不断放松•单元架构我们重复使用[49]中描述的连续松弛每个块我：也被实现为softmax。当量（6）显示了两级层次结构的连续松弛是如何特别地，β控制外部网络级别，因此取决于空间大小和层索引。β中的每个标量控制α的整个集合，而α指定了依赖于我Hl= ΣHl∈IlOj→i（Hl）（1）既没有空间大小也没有层索引。如示于图1、Atrous空间金字塔池化（ASPP）模块附加到每个空间分辨率，此外，我们用它的连续松弛O<$j→i来近似每个Oj→i，定义为：Σ第L层（相应地调整流速）。它们的输出被双线性上采样到原始分辨率，然后求和以产生预测。哪里O<$j→i（Hl）=Σ|O|Ok∈OKj→iOk（Hl）（2）4.2. 优化引入这种连续松弛的优点是，控制不同隐藏状态之间的连接强度的标量现在是连续松弛的一部分k=1Kj→iKj→i=1i，j（3）≥0 i，j，k（4）可分层计算图因此，可以使用梯度下降来有效地优化它们。我们采用[49]中的一阶近似，并将训练数据划分为两个不相交的集trainA和trainB。优化改变-换句话说，αk是归一化标量，国家之间：每个算子Ok∈ O，很容易实现为softmax。从SEC召回。3.1 H l−1和H l−2总是包含在Il中，并且H l是以下的级联：Hl，. . .、H l. 与Eq。（1）和方程（2）、细胞1. 通过wLtrainA（w，α，β）更新网络权重w2. 通过α，βLtrainB（w，α，β）更新架构α，β1B级别更新可以概括为：Hl=Cell（Hl−1，Hl−2;α）（5）4.1.2网络架构在单元内，所有张量具有相同的空间大小，这使得能够在等式（1）中进行（加权）求和。（1）和方程（二）、然而，正如图中清楚地说明的那样。1，张量可以在网络级采取不同的大小。因此，为了建立连续弛豫，每个层l将具有至多4个隐藏状态{4H1，8H1，16H1，32H1}，其中左上角上标指示空间分辨率。我们设计了网络级的连续松弛，以扩展匹配第二节中描述的搜索空间。3.2.我们为图中的每个灰色箭头关联了一个标量.1，网络级更新为：其中损失函数L是计算的交叉熵语义分割的小批量。不相交集分区是为了防止架构过度拟合训练数据。4.3. 解码离散架构细胞结构遵循[49]，我们通过首先保留每个块的2个最强的前代来解码离散细胞结构（具有来自隐藏的强度状态j到隐藏状态i是maxk，0k/=zeroαk;从SEC召回。3.1通过取argmax来选择最可能的运算符。网络架构等式（7）本质上是说，在图中的每个蓝色节点的“外出概率”。1的和为1。事实上，β值可以被解释为跨不同“时间步长”（层数）的不同“状态”（空间分辨率）之间的SLlsl−1sl−2很直观地，我们的目标是找到H=βs→s细胞（2H，H;α）ls→s+βl单元格（sHl−1，sHl−2;α）单元格（2sHl−1，sHl−2;α）（6）最大可能性”从头到尾这条路可以走--使用经典的维特比算法进行有效编码，如我们的实现。2秒→秒其中s = 4，8，16，32，l = 1，2，. . . ，L. 标量β被归一化，使得5. 实验结果在这里，我们报告我们的架构搜索实现-βls+βLs→s+βl→2s=1s，l（7）L lααα2+β872详细信息以及搜索结果。然后，我们报告了基准数据集上的语义分割结果，βs→s ≥0βs→s≥0βs→2s≥0 μs，l（8）我们最好的建筑8842下采样\层1124816322 3 4 5L-1L图3：我们在Cityscapes上的分层神经架构搜索发现的Auto-DeepLab架构灰色虚线箭头示出了在每个节点处具有最大β的连接。atr：心房卷积。sep：深度可分离卷积。5.1. 体系结构搜索实施详细信息我们考虑网络中总共L=12层，并且B=一个单元中的5个块网络级搜索空间具有二、9×104条唯一路径，细胞结构数为5. 6×1014.因此，联合层次搜索空间的大小为10× 19。我们遵循的共同做法，加倍过滤器的图中的每个蓝色节点1，下采样率为s，B×F×s输出滤波器，其中F是控制模型容量的滤波器乘数。我们在架构搜索期间设置F=8步幅2卷积用于所有图4：10次随机试验中40次架构搜索优化期间的验证准确性s→s连接，既可以减少空间大小，也可以减少dou-输入过滤器的数量。双线性上采样，1×1卷积用于所有2s→s连接，既增加了空间大小，又减少了滤波器的数量。[9]中使用的Atrous空间金字塔池化模块有5个分支：一个1×1卷积，三个具有不同Atrous速率的3×3卷积，以及池化图像特征。在搜索过程中，我们通过仅使用一个与atrous的3×3卷积将ASPP简化为具有3个分支而不是5个分支率96. 每个ASPP生产的过滤器数量架构往往会陷入糟糕的局部最优。因此我们在20个epoch之后开始优化α，β。整个架构搜索优化需要大约3天的P100 GPU。图4表明验证精度在整个过程中稳步提高。我们还尝试寻找更长的时期（60，80，100），但没有观察到好处。图3显示了找到的最佳架构。方面网络级架构，在开始时更高的分辨率是优选的（保持在下采样4更长时间），Ssend（在下采样8时结束）。我们还展示了最强的分支仍然是B×F×4。我们在Cityscapes数据集上进行架构搜索[13]语义图像分割。更具体地说，我们使用321×321随机图像作物从半分辨率（512×1024）的图像在训练罚款集。我们随机选择 train fine 中的一半图像作为trainA，另一半图像作为trainA。列车B的一半（见第二节）4.2）。架构搜索优化总共进行40个时期。批处理大小为2，这是由于GPU的性能限制。当学习网络权重w时，我们使用动量为0的SGD优化器。9、余弦学习率从0. 025比0。001，权重衰减为0。0003。softmax之前的α，β的初始值是从标准高斯乘以0采样的。001。它们使用Adam优化器[ 36 ]进行优化，学习率为0。003和重量衰减0。001。我们根据经验发现，如果在w没有得到很好的训练时从一开始就优化α，β，在每个节点处使用灰色虚线箭头进行输出连接我们观察到在前3/4层中下采样和在最后1/4层中上采样的一般趋势。在单元级架构方面，经常使用无环卷积和深度可分离卷积的结合，这表明上下文的重要性已经被学习。请注意，atrous卷积很少被发现在图像分类2的细胞中有用。5.2. 语义分割结果我们评估了我们发现的最佳架构的性能（图1）。3 ） Cityscapes [13] ， PASCAL VOC 2012 [15] 和ADE20K [90]数据集。2在NASNet-{A，B，C}、PNASNet-{1，2，3，4，5}、AmoebaNet-{A，B，C}、在AmoebaNet-B还原池中，仅使用了{A，B，C}ATR+九月九月+九月九月Hl-2...HL-1+Hl塞卜阿特3x35x5+ATR九月+九月concat作为作为作为如PPPPPP89方法FRRN-A [60][第17话]FRRN-B [60]Auto-DeepLab-SAuto-DeepLab-LAuto-DeepLab-SAuto-DeepLab-LResNet-38 [82]PSPNet [88]马皮里[4]ImageNet粗糙✓✓✓✓✓✓✓✓✓✓✓✓mIOU（%）63.069.571.879.980.480.982.180.681.282.082.182.7✓✓[91]第91话我爱你方法ImageNetF多重添加ParamsmIOU（%）自动深度实验室-SAuto-DeepLab-MAuto-DeepLab-L203248333.25B460.93B695.03B10.15M21.62M44.42M79.7480.0480.33FRRN-A [60]--17.76M65.7FRRN-B [60]--24.78M-DeepLabv3+[11]✓-1551.05B43.48M79.55表2：具有不同Auto-DeepLab模型变体的Cityscapes验证集结果。F：控制模型容量的滤波器乘法器。我们所有的模型都是从头开始训练的，并且在推理过程中使用单尺度方法ITR-500KITR-1Mitr-1.5MSDPmIOU（%）表3：Cityscapes验证集结果。我们实验了采用不同的训练迭代（500K，1M和1.5M迭代）和预定丢弃路径方法（SDP）的效果所有模型都是从头开始训练的。我们遵循[9，11]中的相同训练方案简而言之，在训练过程中，我们采用多项式学习率方案，[50]初始学习率为0。05，以及大的作物尺寸（例如，Cityscapes 上的 769×769 和 PAS- CAL VOC 2012 上的513×513以及调整大小的ADE 20 K图像）。批次或-在训练过程中，优化参数[32]被微调。这些模型分别在Cityscapes上进行了150万次迭代，在PASCAL VOC2012上进行了150万次迭代，在ADE20K上进行了400万次迭代。我们采用类似于DeepLabv 3 +[11]的简单编码器-解码器结构具体来说，我们的编码器由我们发现的最佳网络架构组成，并使用ASPP模块[8，9]进行增强，我们的解码器与DeepLabv3+中的解码器相同，它通过利用具有下采样率的低级特征来4.第一章此外，我们重新设计了三个3 × 3卷积的“茎”结构（第一个和第前两个卷积具有64个滤波器，而第三卷积具有128个滤波器。在[88，78]中，该5.2.1城市景观Cityscapes [13]包含5000张大小为1024×2048的图像的高质量像素级注释（训练集、验证集和测试集分别为2975、500和1525）和大约20000张粗略注释的训练图像。根据评价方案[13]，使用19个语义标签进行评价，而不考虑无效标签。在选项卡中。2，我们报告Cityscapes验证集结果。与MobileNets类似[29，66]，我们调整模型容量，表4：在推断期间具有多尺度输入的Cityscapes测试集结果。ImageNet：在ImageNet上预训练的模型。粗糙：模型利用粗糙的注释。通过改变滤波器乘数F.如表中所示，模型容量越大，性能越好，但速度较慢（由较大的Multi-Add表示）。在选项卡中。 3，我们表明，将训练迭代次数从500K增加到1.5M迭代，性能提高了2。8%，当采用我们的轻型模型变体Auto-DeepLab-S时。此外，采用预定丢弃路径[40，93]进一步将性能提高了1。74%，达到79. Cityscapes验证集上的74%然后我们在Tab中报告测试集结果4.第一章没有在任何预训练中，我们的最佳模型（Auto-DeepLab-L）的性能明显优于FRNN-B [60] 8。6%和GridNet[17]第10话9%。通过额外的粗略注释，我们的模型Auto-DeepLab-L在ImageNet上没有预训练[65]，达到了82的测试集性能。1%，优于PSPNet [88]和Mapillary[4]，并达到与DeepLabv3+ [ 11 ]相同的性能，同时需要55。减少2%的多加法计算。值得注意的是，我们的轻型型号Auto-DeepLab-S达到了80。9%，与PSPNet相当，而仅使用10.15M参数和333.25B多添加。5.2.2Pascal VOC 2012PASCAL VOC 2012 [15]包含20个前景对象类和一个背景类。我们使用[23]提供的额外注释来增强原始数据集，从而生成10582（train aug）个训练图像。在选项卡中。5，我们报告我们的验证集结果。我们最好的模型Auto-DeepLab-L，具有单尺度推断，显著优于[19]20。百分之三十六此外，对于我们所有的模型变体，采用多尺度推理将性能提高约1%。进一步在COCO [46]上对我们的模型进行预训练，以进行400万次迭代，从而提高了模型的性能。自动深度实验室-S✓✓✓✓✓75.20自动深度实验室-S77.09自动深度实验室-S78.0090表7：ADE20K验证集结果。我们在推理过程中采用多尺度输入。†：结果分别来自其最新的模型动物园网站。ImageNet：在ImageNet上预训练的模型。平均值：mIOU和像素精度的平均值。Auto-DeepLab-L✓80.75Auto-DeepLab-L✓✓82.04表5：PASCAL VOC 2012确认集结果。我们实验了采用多尺度推理（ MS ）和 COCO 预训练检查点（COCO）的效果。在没有任何预训练的情况下，我们的最佳模型（Auto-DeepLab-L）的性能比DropBlock高出20。百分之三十六我们所有的模型都没有使用ImageNet图像进行预训练。方法ImageNet COCOmIOU（%）自动深度实验室-SAuto-DeepLab-MAuto-✓✓✓82.584.185.6[44]第四十四话✓✓84.2ResNet-38 [82]✓✓84.9PSPNet [88]✓✓85.4DeepLabv3+[11]✓✓87.8摩根士丹利资本国际[43]✓✓88.0表6：PASCAL VOC 2012测试集结果。我们的Auto-DeepLab-L与许多在ImageNet和COCO数据集上预训练的最先进的模型具有相当的性能。我们建议读者参考其他国家的最先进的模型的官方排行榜。性能显著。最后，我们报告了PASCAL VOC 2012测试集的结果，并在Tab中使用我们的COCO预训练模型变体。六、如表中所示，我们最好的模型达到了85的性能。测试集上的6%，优于RefineNet[44]和PSPNet [88]。我们的模型落后于最好的-使用Xception-65作为网络骨干执行DeepLabv 3 +[11]。百分之二。我们认为PASCAL VOC 2012数据集太小，无法从头开始训练模型，在ImageNet上进行预训练在这种情况下仍然是有益的。5.2.3ADE20KADE20K [90]具有150个语义类，以及20000个训练图像和2000个验证图像的高质量注释。在我们的实验中，所有图像都被调整大小，以便在训练期间较长的边为513在选项卡中。7，我们报告我们的验证集结果。我们的模型优于一些最先进的模型，包括Re- fineNet[44] ， UPerNet [83] 和 PSPNet （ ResNet-152 ） [88]; 然而，没有任何ImageNet [65]预训练，我们的性能落后于[11]的最新工作。6. 结论在本文中，我们首次尝试将神经架构搜索扩展到图像分类之外的密集图像预测问题。而不是固定在细胞水平上，我们承认空间分辨率变化的重要性，并通过将网络水平纳入搜索空间来拥抱架构变化。我们还开发了一个可微公式，允许在我们的两级分层搜索空间上进行高效（比DPC[6]快1000倍搜索结果Auto-DeepLab通过从头开始在基准语义分割数据集在Cityscapes上，Auto-DeepLab的表现明显优于之前的最先进水平8。6%，并在利用粗注释时使用ImageNet预训练的顶级模型进行建模。在PASCALVOC 2012和ADE 20 K上，Auto-DeepLab的性能也优于几个ImageNet预训练的最先进模型。对于未来的工作，在目前的框架内，物体检测等相关应用应该是可信的;我们还可以尝试解开不同层上的单元结构α（参见图1）。[77]），计算开销很小。在当前框架之外，更一般的网络级搜索空间应该是有益的（参见：秒3.2）。致谢我们感谢Sergey Ioffe提供的宝贵反馈; Cloud AI和Mobile Vision团队提供支持。CL和AY感谢一图的礼物。[19]第十九话53.4Auto-DeepLab-LAuto-DeepLab-L系列73.7675.26方法ImageNetmIOU（%）像素访问（%）平均值（%）Auto-DeepLab-SAuto-DeepLab-MAuto-DeepLab-L40.6980.6042.1943.9881.7260.6561.6462.85[90]第90话我的世界✓34.90 74.5254.71RefineNet（ResNet-152）[44]✓40.70--UPerNet（ResNet-101）[83]†✓42.66 81.0161.84PSPNet（ResNet-152）[88]✓43.51 81.3862.45PSPNet（ResNet-269）[88]✓44.94 81.6963.32方法MS CocomIOU（%）自动深度实验室-S71.68自动深度实验室-S✓72.54Auto-DeepLab-M72.78Auto-DeepLab-M✓73.69自动深度实验室-S✓78.31自动深度实验室-S✓✓80.27Auto-DeepLab-M✓79.78Auto-DeepLab-M✓✓80.7391引用[1] K.艾哈迈德和L.托雷萨尼Maskconnect：梯度下降的连通性学习。在ECCV，2018。3[2] V.巴德里纳拉亚南，A. Kendall和R.西波拉Segnet：用于图像分割的深度卷积编码器-解码器架构。arXiv：1511.00561，2015。2[3] B. 贝克岛古普塔，加-地Naik和R.拉斯卡使用强化学习设计在ICLR，2017。3[4] S. R. 布勒奥湖Porzi和P. 孔蒂德河用于dnn内存优化训练的就地激活在CVPR，2018年。二、七[5] H. 蔡氏T.陈威Zhang，Y.Yu和J.王. 通过网络变换进行有效的体系结构在AAAI，2018。3[6] L- C. Chen，M.D. Collins，Y.Zhu，G.帕潘德里欧湾Zoph，F. Schroff，H. Adam和J.史伦斯寻找用于密集图像预测的有效多尺度架构在NIPS，2018年。一、二、三、七、八[7] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。2015年，国际会议。一、二[8] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。TPAMI，2017。二、七[9] L- C. Chen，G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。arXiv：1706.05587，2017。二四六七[10] L- C. Chen，Y.杨，J.Wang，W.Xu和A.L. 尤尔。注意比例：尺度感知语义图像分割。在CVPR，2016年。2[11] L- C. Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。在ECCV，2018。一、二、七、八[12] F.胆Xception：使用深度可分离卷积的深度学习。在CVPR，2017年。2[13] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集在CVPR，2016年。二三六七[14] J. Dai，K. He和J. Sun.用于联合对象和填充物分割的卷积特征掩蔽CVPR，2015。2[15] M. Everingham，S. M. A.埃斯拉米湖V. Gool，C. K. I.威廉斯，J. Winn和A.齐瑟曼。pascal视觉对象类挑战回顾。 IJCV，2014年。二三六七[16] C.法拉贝特角库普里湖Najman和Y.乐存。学习用于场景标注的分层特征。PAMI，2013年。一、二[17] D.富鲁尔，R.埃莫内，E.弗罗蒙特，D. 穆瑟莱，A. Tremeau，和C.狼用于语义分割的剩余conv-deconv网格网络。在BMVC，2017年。二、三、七[18] 傅军，刘军，杨文。Wang和H.陆用于语义分割的堆叠去卷积网络。arXiv：1708.04943，2017年。292[19] G. Ghiasi，T.Y. Lin和Q.诉乐Dropblock：卷积网络的正则化方法。在NIPS，2018年。七、八[20] A. 朱斯蒂D. Ciresan， J. Masci， L. 甘巴德拉，还有J. 施密特胡博使用深度最大池卷积神经网络进行快速图像扫描载于ICIP，2013年。2[21] K. Grauman和T.达雷尔。金字塔匹配内核：使用图像特征集的判别分类。载于ICCV，2005年。2[22] K.格雷夫河K. Srivastava，J.库特尼克湾R. Steunebrink和 J. 施密特胡博Lstm ：搜索空间奥德赛。 arXiv：1503.04069，2015年。3[23] B.

下载后可阅读完整内容，剩余1页未读，立即下载