面向实时语义分割的图引导架构搜索

71 浏览量更新于2023-10-25 收藏 12.49MB PDF 举报

实时语义分割

轻量级网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Peiwen Lin1,∗Peng Sun2,∗Guangliang Cheng1Sirui Xie3Xi Li2,†Jianping Shi1,†1SenseTime Research2Zhejiang University3University of California, Los Angeles{linpeiwen,chengguangliang,shijianping}@sensetime.com{sunpeng1996,xilizju}@zju.edu.cnsrxie@ucla.edu42030面向实时语义分割的图引导架构搜索0摘要0设计轻量级语义分割网络通常需要研究人员在性能和速度之间找到平衡，由于神经网络的有限可解释性，这通常是经验性的。为了使研究人员摆脱这些繁琐的机械试验，我们提出了一种名为图引导的架构搜索（GAS）流程，用于自动搜索实时语义分割网络。与以前使用简化搜索空间并堆叠可重复单元形成网络的方法不同，我们引入了一种新的搜索机制，其中通过单元级多样性和面向延迟的约束可以有效地探索轻量级模型。具体而言，为了产生单元级多样性，通过单元独立的方式消除了单元共享约束。然后，图卷积网络（GCN）作为单元之间的通信机制无缝集成进来。最后，将面向延迟的约束赋予搜索过程，以平衡速度和性能。在Cityscapes和CamVid数据集上进行的大量实验证明，GAS在准确性和速度之间实现了新的最先进的平衡。特别是，在Cityscapes数据集上，GAS在Titan Xp上以108.4FPS的速度实现了73.5%的mIoU的最佳性能。01. 引言0作为计算机视觉中的基本主题，语义分割[26, 51, 9, 7]旨在预测图像的像素级标签。借助CNNs[38, 18, 19, 12]的强大能力，许多工作在公共语义分割基准[13, 15,4]上取得了显著的性能。为了追求更高的准确性，最先进的模型变得越来越大和更深，因此需要高计算资源和大内存开销，这使得在资源受限的平台上（如移动设备、机器人、自动驾驶汽车等）部署变得困难。最近，许多研究致力于设计和改进具有轻计算成本和令人满意的分割准确性的CNN模型。例如，一些工作[1, 34]通过修剪算法减少计算成本，ICNet[50]使用图像级联网络来合并多分辨率输入。BiSeNet [47]和DFANet[22]利用轻量级骨干网络加速，并配备了精心设计的特征融合或聚合模块来补充准确性下降。为了实现这样的设计，研究人员通过大量的试错来获得架构设计的专业知识，以仔细平衡准确性和资源效率。为了设计更有效的分割网络，一些0� 前两位作者对本文贡献相同。† 通讯作者0图1.在只有精细训练数据的Cityscapes测试集上，不同网络的推理速度和mIoU。我们的GAS在速度和性能之间实现了最先进的平衡。标记*表示在TitanXp上重新测量的速度。最佳观看效果请使用彩色显示。0高计算资源和大内存开销，这使得它难以部署在资源受限的平台上，如移动设备、机器人、自动驾驶汽车等。最近，许多研究致力于设计和改进具有轻计算成本和令人满意的分割准确性的CNN模型。例如，一些工作[1,34]通过修剪算法减少计算成本，ICNet[50]使用图像级联网络来合并多分辨率输入。BiSeNet[47]和DFANet[22]利用轻量级骨干网络加速，并配备了精心设计的特征融合或聚合模块来补充准确性下降。为了实现这样的设计，研究人员通过大量的试错来获得架构设计的专业知识，以仔细平衡准确性和资源效率。为了设计更有效的分割网络，一些01230123012301230123012301230123012342040研究人员已经探索了自动神经架构搜索（NAS）方法[25,53, 30, 21, 36, 5,44]并取得了优秀的结果。例如，Auto-Deeplab[24]在同一轮中搜索单元结构和下采样策略。CAS[49]搜索具有自定义资源约束和多尺度模块的架构，该模块在语义分割领域[9,51]中被广泛使用。特别地，CAS在移动设置[50, 22,47]中实现了最先进的分割性能。与ENAS [36]，DARTS[25]和SNAS[44]等通用NAS方法一样，CAS也搜索两种类型的单元（即正常单元和降维单元），然后重复堆叠相同的单元以形成整个网络。这简化了搜索过程，但也增加了在有限的单元多样性下在性能和速度之间找到良好平衡的难度。如图2(a)所示，单元往往倾向于学习复杂的结构以追求高性能而没有任何资源约束，整个网络将导致高延迟。当应用低计算约束时，单元结构倾向于过于简化，如图2(b)所示，可能无法达到令人满意的性能。与传统的简化搜索空间的搜索算法不同，本文提出了一种具有新搜索空间的新型搜索机制，其中通过精心设计的单元级多样性和面向延迟的约束可以充分探索具有高性能的轻量级模型。一方面，为了鼓励单元级多样性，我们使每个单元结构独立，因此具有不同计算成本的单元可以灵活堆叠以形成图2(c)中的轻量级网络。通过这种方式，简单的单元可以应用于具有高计算成本的阶段以实现低延迟，而复杂的单元可以选择在具有低计算成本的深层中以实现高准确性。另一方面，我们将现实世界的面向延迟的约束应用于搜索过程中，通过该约束搜索到的模型可以在性能和延迟之间取得更好的平衡。然而，简单地赋予单元在探索自己的结构时的独立性会增加搜索空间并使优化更加困难，这会导致精度下降，如图5(a)和图5(b)所示。为了解决这个问题，我们将图卷积网络（GCN）[20]作为单元之间的通信传递者纳入其中。我们的想法受到[29]的启发，不同的单元可以被视为多个机构，其实现社会福利可能需要它们之间的通信。具体而言，在前向过程中，从第一个单元开始，每个单元的信息通过GCN传播到下一个相邻的单元。我们的消融研究表明，这种通信机制倾向于引导单元选择较少参数的操作，同时实现满意的性能。0以前的工作0（b）低延迟，低性能0（a）高延迟，高性能0我们的工作0（c）低延迟，高性能0图2.（a）由复杂单元堆叠而成的网络导致高延迟和高性能。（b）由简单单元堆叠而成的网络导致低延迟和低性能。（c）单元多样性策略，即每个单元具有独立的结构，可以灵活构建高准确性的轻量级网络。最佳观看效果请使用彩色显示。0工厂准确性。我们将该方法命名为图引导架构搜索（GAS）。我们在标准的Cityscapes [13]和CamVid[4]基准上进行了大量实验。与其他实时方法相比，我们的方法位于图1中的右上区域，这是性能和延迟之间的最新权衡。主要贡献可以总结如下：0•我们提出了一种新的搜索框架，用于实时语义分割，其中可以有效地探索具有高性能的轻量级模型的新搜索空间。0•我们将图卷积网络无缝地集成到神经架构搜索中，作为独立单元之间的通信机制。0•使用GAS搜索的轻量级分割网络可以在实际应用中进行定制。值得注意的是，GAS在Cityscapes测试集上达到了73.5％的mIoU，并在NVIDIA TitanXp上以每秒108.4帧的速度处理769×1537像素的图像。02. 相关工作0语义分割方法 FCN[26]是语义分割的先驱工作。为了提高分割性能，一些重要的工作利用了各种重型骨干网络[38, 18, 19,12]或有效的模块来捕捉多尺度上下文信息[51, 7,8]。这些杰出的工作都是为了高质量的分割。!!"#!!!!$42050GCN0构建图0推理0（a）网络架构0普通单元_00GGM03x3卷积步长203x3卷积步长103x3卷积步长20GGM0缩减单元_10GGM0... ... ASPP0（b）GCN引导模块（GGM）0图3.我们的图引导网络架构搜索的示意图。在缩减单元中，与输入节点相邻的所有操作都是步长为2的操作。（a）骨干网络，由一系列独立的单元堆叠而成。（b）GCN引导模块（GGM），它在相邻单元之间传播信息。α k 和α k − 1 分别表示单元 k 和单元 k − 1 的架构参数，α ′ k是由GGM为单元 k 更新的架构参数。虚线表示GGM仅在搜索过程中使用。最佳观看效果请使用彩色显示。0分割，这对实时应用是不适用的。在有效的分割方法方面，有两个主流。一种是使用相对较轻的骨干网络（例如ENet[34]）或引入一些高效的操作（深度可分离卷积）。DFANet[22]利用轻量级骨干网络加速并配备了一个跨级特征聚合模块来弥补精度下降。另一种是基于多分支算法，由多个路径组成。例如，ICNet[50]提出使用多尺度图像级联来加速推理。BiSeNet[47]使用两个路径将空间和上下文信息的提取分离开来。0神经架构搜索（NAS）旨在自动搜索网络架构。大多数现有的架构搜索方法基于强化学习[52, 17]或进化算法[37,11]。虽然它们可以达到令人满意的性能，但需要数千个GPU小时。为了解决这个耗时的问题，已经开发了一次性方法[2,3]，通过训练一个父网络，每个子网络都可以继承权重，从而大大解决了耗时的问题。根据搜索空间的类型，它们可以大致分为基于单元和基于层的方法。对于基于单元的方法，ENAS[36]提出了一种在子网络之间共享参数的策略，而DARTS[25]将离散的架构分布放松为连续的确定性权重，从而可以使用梯度下降进行优化。SNAS[44]提出了新颖的搜索梯度。0在反向传播的同一轮中训练神经操作参数和架构分布参数。此外，还有一些优秀的工作[10,32]通过逐渐减小搜索空间的大小来降低优化的难度。对于基于层的方法，FBNet [42]，MnasNet[39]，ProxylessNAS[5]使用多目标搜索方法，同时优化准确性和实际延迟。0在语义分割领域，DPC[6]是首个将元学习技术引入网络搜索问题的工作。Auto-Deeplab[24]在同一轮中同时搜索单元结构和下采样策略。最近，CAS[49]搜索具有自定义资源约束和多尺度模块的架构，该模块在语义分割领域被广泛使用。[31]通过使用强化学习在训练过程中使用一组辅助单元来过度参数化架构。最近，NAS也被用于目标检测，例如NAS-FPN [16]，DetNAS[48]和Auto-FPN [45]。0图卷积网络（Graph ConvolutionNetwork）图结构数据上的卷积神经网络是深度学习研究中的一个新兴领域。Kipf[20]提出了一种基于高效变体的卷积神经网络的可扩展方法，该方法直接在图上操作，以实现更好的信息传播。之后，图卷积网络（GCNs）[20]被广泛应用于许多领域，如视频分类[41]和动作识别[46]。在本文中，我们将GCNs应用于𝑖"𝑖#𝑥"𝑥#c∈Iixi =�c∈Ii�Oh,i(c) =�c∈IiM�m=1zmh,iomh,i(c)(3)Zh,i = fαh,i(Gh,i) = softmax((logαh,i + Gh,i)/λ)(4)42060图4. 我们GAS中单元的结构。每个彩色边表示一个候选操作。0模型化网络架构搜索中相邻单元的关系。03. 方法0如图3所示，GAS使用带有GCN引导模块(GGM)的方法，通过一系列独立的单元来搜索最优网络。在搜索过程中，我们考虑延迟以获得具有计算效率的网络。这个搜索问题可以表述为：min a ∈ A L_val + β * L_lat (1)0其中，A表示搜索空间，L_val和L_lat分别是验证损失和延迟损失。我们的目标是搜索一个最优的架构a ∈A，以在性能和速度之间取得最佳平衡。本节将介绍GAS中的三个主要组成部分：1）网络架构搜索；2）GCN引导模块；3）面向延迟的优化。03.1. 网络架构搜索0如图3(a)所示，整个主干以图像作为输入，首先经过三个卷积层进行滤波，然后通过一系列独立的单元。接下来使用ASPP[9]模块提取多尺度上下文以进行最终预测。单元是一个有向无环图（DAG），如图4所示。每个单元有两个输入节点i_1和i_2，N个有序的中间节点，表示为N = {x_1, ...,x_N}，以及一个输出节点，输出所有中间节点N的连接。每个节点表示网络中的潜在表示（例如特征图），该DAG中的每条有向边表示一个候选操作（例如卷积、池化）。我们的工作中N的数量为2。每个中间节点将其所有前面的节点作为输入。这样，x_1有两个输入I_1 = {i_1,i_2}，节点x_2以I_2 = {i_1, i_2,x_1}作为输入。中间节点x_i可以通过以下方式计算：0x_i = ...0... O_h,i(c) (2)0其中，h和i是边(h,i)上选择的操作。为了搜索选择的操作O_h,i，搜索空间用一组来自完全可分解联合分布p(Z)的独热随机变量表示[44]。具体而言，每个边都与一个独热随机变量相关联，该变量作为掩码与该边上的所有可能操作O_h,i = (o_1_h,i, o_2_h,i,..., o_M_h,i)相乘。我们将这个独热随机变量表示为Z_h,i =(z_1_h,i, z_2_h,i, ...,z_M_h,i)，其中M是候选操作的数量。在这种方式下，搜索过程中的中间节点为：0为了使 P ( Z )可微分，使用重新参数化[27]将离散的架构分布松弛为连续的：0其中α h,i是边(h, i)处的架构参数，G h,i = − log ( − log (U h,i ))是Gumbel随机变量的向量，Uh,i是均匀随机变量，λ是softmax的温度。对于候选操作集O，我们只使用以下8种操作以更好地平衡速度和性能：0• 3 × 3最大池化 • 跳跃连接 • 3 × 3卷积 • 零操作 •3 × 3可分离卷积 • 3 × 3扩张可分离卷积（扩张=2）• 3 × 3扩张可分离卷积（扩张=4） • 3 ×3扩张可分离卷积（扩张=8）03.2. GCN引导模块0细胞之间相互独立，因此细胞之间的相互关系对于高效搜索非常重要。我们提出了一种新颖的GCN引导模块（GGM），以自然地连接相邻细胞之间的操作信息。我们的GGM的总体网络架构如图3(b)所示。受到[41]的启发，GGM将相邻细胞之间的通信表示为一个图，并对图进行推理以进行信息传递。具体而言，我们利用相邻细胞中边的相似关系构建图，其中每个节点表示细胞中的一条边。通过这种方式，可以通过对该图进行推理将前一个细胞的状态变化传递到当前细胞。如第3.1节所述，令α k表示细胞k的架构参数矩阵，αk的维度为p×q，其中p和q分别表示边的数量和候选操作的数量。对于细胞k，细胞k-1的架构参数αk-1也是一个p×q的矩阵。为了将前一个细胞k-1的架构参数信息融合到当前细胞中α′k = αk + γΦ2(G(Φ1(αk−1), Adj))(5)Adj = Softmax(φ1(αk) ∗ φ2(αk−1)T )(6)42070k并生成更新的α'k，我们将细胞k-1和细胞k之间的信息传播建模如下：0其中Adj表示细胞k和细胞k-1之间推理图的邻接矩阵，函数G表示图卷积网络（GCNs）[20]在图上进行推理。Φ1和Φ2是两个不同的1D卷积变换。具体而言，Φ1将原始架构参数映射到嵌入空间，Φ2将其转换回源空间进行GCN推理。γ控制两种架构参数信息的融合。对于函数G，我们通过它们的相似性构建细胞k-1和细胞k之间的推理图。给定细胞k中的一条边，我们计算该边与细胞k-1中所有其他边之间的相似性，并使用softmax函数进行归一化。因此，两个相邻细胞k和k-1之间的图的邻接矩阵Adj可以通过以下方式建立：0其中我们有两个不同的变换φ1 = αk w1和φ2 = αk-1w2用于架构参数，参数w1和w2都是q×q的权重，可以通过反向传播学习。结果Adj是一个p×p的矩阵。基于这个邻接矩阵Adj，我们使用GCNs在图上进行信息传播，如方程7所示。每个GCNs层都添加了一个残差连接。GCNs允许我们根据图关系定义的邻居计算节点的响应，因此进行图卷积等效于在图上进行消息传播。0G(Φ1(αk-1), Adj) = AdjΦ1(αk-1)Wgk-1 + Φ1(αk-1) (7)0其中Wgk-1表示维度为d×d的GCN权重，可以通过反向传播学习得到。所提出的精心设计的GGM将图卷积网络无缝地集成到神经架构搜索中，可以在相邻cell之间桥接操作信息。03.3. 延迟导向优化0为了获得实时的语义分割网络，我们在搜索过程中考虑了实际的推理延迟，这将使搜索过程朝着找到最优轻量级模型的方向进行。具体而言，我们创建了一个GPU延迟查找表[5,42, 49,39]，记录了每个候选操作的推理延迟。在搜索过程中，每个候选操作m在0边(h,i)将被分配一个由预先构建的查找表给出的latmh,i成本。这样，cell k的总延迟累积为：0latk = �0h,i0m = 1 zmh,i latmh,i (8)0其中zmh,i是第3.1节中所述的软化的one-hot随机变量。给定一个架构a，总延迟成本估计为：0LAT(a) =0k = 0 latk (9)0其中K指的是架构a中的cell数量。每个操作latmh,i的延迟是一个常数，因此总延迟损失对架构参数αh,i可微分。总损失函数设计如下：0L(a, w) = CE(a, wa) + βlog(LAT(a)) (10)0其中CE(a,wa)表示架构a的交叉熵损失，wa表示架构a的参数，LAT(a)表示架构a的总延迟，以微秒为单位，β是控制准确性和延迟之间平衡的系数。架构参数α和权重w在同一轮反向传播中进行优化。04. 实验0在本节中，我们进行了大量实验证明了我们的GAS的有效性。首先，我们将我们方法搜索到的网络与其他方法在两个标准基准上进行了比较。其次，我们对GCN引导模块和延迟优化设置进行了消融研究，并对GCN引导模块进行了深入分析。04.1. 基准和评估指标0数据集为了验证我们方法的有效性和鲁棒性，我们在Cityscapes [13]和CamVid[4]数据集上评估我们的方法。Cityscapes[13]是一个用于城市场景理解的公开数据集。它包含了来自50个城市的5,000张高质量的像素级细粒度注释图像（分别用于训练、验证和测试集的2975、500和1525张），尺寸为1024×2048。密集注释包含30个常见类别，其中19个用于训练和测试。CamVid[4]是另一个具有对象类别语义标签的公开数据集。它总共包含701张图像，其中367张用于训练，101张用于验证，233张用于测试。图像分辨率为960×720，包含11个语义类别。FCN-8S [26]512x102465.3227.234.4PSPNet [51]713x71381.21288.00.78DeepLabV3∗ [7]769x76981.3769.231.3SegNet [1]640x36057.030.333ENet [34]640x36058.312.778.4SQ [40]1024x204859.846.021.7ICNet [50]1024x204869.526.537.7SwiftNet [33]1024x204875.126.238.1ESPNet [28]1024x51260.38.2121.7BiSeNet [47]768x153668.49.52105.8DFANet A§ [22]1024x102471.310.0100.0DFANet A† [22] 1 1024x102471.319.0152.6CAS [49]768x153670.59.25108.0CAS∗ [49]768x153672.39.25108.0GAS769x153771.89.22108.4GAS∗769x153773.59.22108.442080评估指标为每个类别的交并比均值（mIoU）、网络前向时间（延迟）和每秒帧数（FPS）。04.2. 实现细节0我们在一台工作站上使用Pytorch 0.4[35]进行所有实验，并且在所有实验中，推理时间都是在一块Nvidia Titan XpGPU上报告的。整个流程包含三个顺序步骤：搜索、预训练和微调。它从目标数据集上的搜索过程开始，根据优化的α获得轻量级架构，然后进行ImageNet[14]预训练，接着在特定数据集上进行200个epoch的微调。在搜索过程中，架构包含14个cell，每个cell有N=2个中间节点。考虑到速度，网络的初始通道数为8。对于训练超参数，将mini-batch大小设置为16。架构参数α通过Adam进行优化，初始学习率为0.001，β=(0.5,0.999)，权重衰减为0.0001。网络参数使用带有动量0.9、权重衰减0.001和余弦学习调度器的SGD进行优化，将学习率从0.025衰减到0.001。对于gumbelsoftmax，我们将方程4中的初始温度λ设置为1.0，并逐渐降低到最小值0.03。在Cityscapes上的搜索时间大约需要10个小时，使用16块TitanXPGPU。关于微调的细节，我们使用mini-batch8和SGD优化器进行网络训练，使用“poly”调度器将学习率从0.01衰减到零。根据[43]，在线自举策略应用于微调过程。对于数据增强，我们使用随机翻转和随机调整大小（尺度在0.5到2.0之间）。最后，我们使用固定大小随机裁剪图像进行训练。对于GCN引导模块，我们在相邻的两个cell之间使用一个图卷积网络（GCN）[20]，每个GCN包含一层图卷积。方程7中GCN参数W的卷积核大小为64×64。我们在实验中将γ设置为0.5，方程5中的γ。04.3.实时语义分割结果0在这部分中，我们将GAS搜索的模型与其他现有的实时分割方法在语义分割数据集上进行比较。推理时间是在NvidiaTitan Xp GPU上测量的，并且其他方法在CAS[49]中报告的Titan XpGPU的速度用于公平比较。此外，如果原始论文在不同的GPU上报告速度并且在CAS [49]中没有提及，则在TitanXp上重新测量速度。Cityscapes上的结果。我们在Cityscapes测试集上评估了GAS搜索的网络。在提交到Cityscapes在线服务器之前，将验证集添加到训练网络中。0方法输入尺寸 mIoU (%) 延迟时间(ms) FPS0表1.在Cityscapes测试集上的比较结果。使用细粒度和粗粒度数据训练的方法用�标记。标记§表示在TitanX上的速度，标记†表示在Titan Xp上重新测量的速度。0Cityscapes在线服务器。按照[47,49]的方法，GAS将大小为769×1537的输入图像调整为原始图像大小1024×2048。总体而言，我们的GAS在所有方法中以108.4FPS的速度获得了最佳性能。只使用细粒度数据且没有任何评估技巧，我们的GAS获得了71.8%的mIoU，这是实时语义分割性能和速度之间的最新权衡。当将粗粒度数据添加到训练集中时，GAS实现了73.5%的mIoU。完整的比较结果如表1所示。与与我们具有相似速度的BiSeNet [47]和CAS[49]相比，我们的GAS在多个性能指标上超过它们分别3.4%和1.3%。与SegNet [1]、ENet [34]、SQ [40]和ICNet[50]等其他方法相比，我们的方法在速度上取得了显著的改进，同时在性能上超过它们分别约14.8%、13.5%、12.0%、2.3%。0CamVid上的结果。我们直接将在Cityscapes上搜索的网络转移到Camvid上，以验证GAS的可转移性。表2显示了与其他方法的比较结果。使用输入尺寸720×960，GAS在148.0FPS下实现了72.8%的mIoU，这也是性能和速度之间的最新权衡，证明了GAS的卓越可转移性。01在合并DFANet的BN层后，原始论文和我们的测量之间仍然存在速度差异。我们怀疑这是由于实现平台的不一致性，DFANet具有优化的深度卷积（DW-Conv）。GAS还使用了许多使用DW-Conv的候选操作，因此，如果DW-Conv像DFANet一样正确优化，我们的GAS的速度仍然能够击败它。SegNet [1]55.634.0129.4ENet [34]51.316.3361.2ICNet [50]67.128.9834.5BiSeNet [47]65.6--DFANet A [22]64.78.33120CAS [49]71.25.92169GAS72.86.53153.1Table 2. Results on the CamVid test set with resulotion 960 ×720. ”-” indicates the corresponding result is not provided by themethods.68.5 66.9 69.4 72.4 60.062.064.066.068.070.072.074.0(a) Cell shared(6.5M)(b) Cell independent(4.24M)(c) Cell independent + FC(3.12M)(d) Cell independent + GCN(2.18M)mIoU (%)GAS72.3108.2GCN with d = 1671.6108.6GCN with d = 3271.8102.2GCN with d = 6472.4108.4GCN with d = 12872.1104.1GCN with d = 25671.5111.242090方法 mIoU (%) 延迟时间(ms) FPS04.4. 消融研究0为了验证我们框架中每个组件的有效性，我们进行了广泛的GCN-Guided模块和延迟损失的消融研究。此外，我们还对GCN-Guided模块在搜索过程中的作用提供了一些见解。04.4.1 GCN-Guided模块的有效性0我们提出了GCN-Guided模块（GGM）来建立细胞之间的连接。为了验证GGM的有效性，我们进行了一系列的实验，采用不同的策略：a）由共享细胞堆叠的网络；b）由独立细胞堆叠的网络；c）基于策略b，使用全连接层推断细胞之间的关系；d）基于策略b，使用GGM推断细胞之间的关系。实验结果如图5所示。这里报告的性能是在Cityscapes验证集上进行的五次重复实验的平均mIoU，延迟损失权重β =0.005。水平轴下方的数字是五个架构的平均模型大小（例如2.18M），紫色线是每种策略的mIoU的方差。总体而言，只有独立细胞时，性能大幅下降，因为搜索空间扩大使得优化更加困难。通过在细胞之间添加通信机制，可以缓解这种性能下降。特别是，我们的GCN-Guided模块相比于全连接机制（即设置(c)）可以带来约3%的性能提升。0GCN-Guided模块的有效性0图5.GCN-Guided模块在Cityscapes验证数据集上的有效性消融研究。最佳观看效果为彩色。0与随机搜索的比较如[23]所讨论的，随机搜索是超参数优化的竞争基线。为了进一步验证GCN-Guided模块的有效性，我们从搜索空间中随机采样了十个架构，并在Cityscapes验证集上进行评估，使用ImageNet预训练。具体而言，我们在实验中尝试了两种类型的随机设置：a）完全随机搜索，没有任何约束；b）从搜索空间中随机选择满足速度要求约108FPS的网络。结果如表3所示，其中每个值是十个随机架构的平均结果。总之，GAS搜索得到的网络在性能和延迟之间取得了出色的平衡，而随机搜索将导致高开销，没有任何延迟约束，或者在延迟约束下性能较低。0方法 mIoU (%) FPS0随机设置 (a) 69.6 61.20随机设置 (b) 65.8 105.60表3. 与Cityscapes验证集上的随机搜索比较。0维度选择在方程7中，GCN权重W的维度选择也很重要，因此我们进行了不同GCN权重维度（用d表示）的实验。实验结果如表4所示，其中的值是在Cityscapes验证集上进行的五次重复实验的平均mIoU，延迟损失权重β =0.005。实验结果表明，当d = 64时，GAS的性能最佳。0方法 mIoU (%) FPS0表4. GCN-Guided模块不同GCN权重维度的消融研究。0推理图对于GCN-Guided模块，除了第3.2节中描述的方式，我们还尝试了另一种构建推理图的方式。具体而言，我们将细胞中的每个候选操作视为推理图中的一个节点。给定维度为p×q的细胞k的架构参数αk，我们首先将αk和αk-1展平为一维向量α'k和α'k-1，然后进行矩阵乘法得到邻接矩阵Adj =α'k(α'k-1)T。与第3.2节中的“边相似性”推理图不同，我们将这个图称为“操作标识”推理图。我们对这两种方式进行了比较实验。42100在Cityscapes验证集上使用相同的延迟损失权重β =0.005比较不同类型的图的结果如表5所示。0推理图 mIoU (%) FPS0边缘相似度 72.4 108.40操作-相同 70.9 102.20表5. 边缘和操作的推理图比较结果。0直观地说，“操作-相同”的方式为其他细胞提供了更精细的操作选择信息，但它也破坏了边缘的整体属性，因此在做决策时不考虑同一边缘上的其他操作信息。在可视化网络后，我们还发现“操作-相同”的推理图倾向于使细胞为所有边缘选择相同的操作，这增加了在性能和延迟之间进行权衡的难度。这也可以从表5的结果中得到验证。因此，我们选择“边缘相似度”的方式构建推理图，如第3.2节所述。0网络可视化我们在补充材料中展示了GAS搜索到的网络结构。有一个有趣的观察是，通过GGM选择的操作比没有GGM的GAS具有更少的参数和更低的计算复杂度，更倾向于使用更多的扩张或分离的卷积核。这展示了当细胞知道其他细胞愿意贡献多少时，负担共享概念的出现。04.4.2 延迟约束的有效性0如上所述，GAS通过面向延迟的优化提供了在性能和速度之间灵活取得卓越平衡的能力。我们在方程10中进行了一系列不同损失权重β的实验。图6显示了mIoU和延迟随β变化的情况。当β较小时，我们可以获得更高准确性的模型，反之亦然。当β从0.0005增加到0.005时，延迟迅速减小，性能略有下降。但当β从0.005增加到0.05时，性能迅速下降，而延迟下降有限。因此，在我们的实验中，我们将β设置为0.005。我们可以清楚地看到，面向延迟的优化对于平衡准确性和延迟是有效的。04.4.3 GCN引导模块的分析0一个问题是GCN在搜索过程中扮演了什么样的角色。我们怀疑它的有效性来自以下两个方面：1）搜索一个轻量级的网络结构，以实现性能和速度之间的卓越平衡。0图6. 在Cityscapes数据集上的验证准确性，对不同延迟约束进行了比较。最佳效果以彩色显示。0由于我们不允许细胞结构之间共享，以鼓励结构多样性，因此学习细胞独立地进行搜索使得搜索更加困难，并不能保证更好的性能，因此GCN引导模块可以被视为搜索过程中的正则化项。2）我们已经讨论过在上述章节中，p(Z)是一个完全可分解的联合分布。如方程4所示，对于当前细胞，如果架构参数αh,i依赖于前一个细胞的概率αh,i，则p(Zh,i)成为条件概率。在这种情况下，GCN引导模块起到了在概率分布p(Z)中建模条件的作用。05. 结论与讨论0本文提出了一种新颖的图引导架构搜索（GAS）框架，用于解决实时语义分割任务。与现有的NAS方法不同，将相同的搜索单元堆叠到整个网络中，GAS探索搜索不同的单元结构，并采用图卷积网络来连接单元之间的信息传递。此外，还在搜索过程中赋予了延迟导向的约束，以平衡准确性和速度。大量实验证明，GAS的性能远优于最先进的实时分割方法。未来，我们将扩展GAS的应用领域：1）我们将直接为分割和检测任务搜索网络，而无需重新训练。2）我们将深入研究如何有效地结合NAS和图卷积网络。0致谢本文在中国北京的商汤研究中进行，并得到了中国教育部重点科技创新研究项目、浙江省自然科学基金（GrantLR19F020004）和浙江大学赵克平高科技发展基金的支持。42110参考文献0[1] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla.Segnet: 一种用于图像分割的深度卷积编码器-解码器架构. IEEEtrans. PAMI, 39(12):2481–2495, 2017. [2] Gabriel Bender,Pieter-Jan Kindermans, Barret Zoph, Vijay Vasudevan, andQuoc Le. 理解和简化一次性架构搜索. 在ICML, 2018. [3] AndrewBrock, Theodore Lim, James M Ritchie, and Nick Weston.Smash: 通过超网络进行一次性模型架构搜索. arXiv:1708.05344,2017. [4] Gabriel J. Brostow, Jamie Shotton, Julien Fauqueur,and Roberto Cipolla. 利用运动点云的结构进行分割和识别.在ECCV (1), 2008. [5] Han Cai, Ligeng Zhu, and Song Han.Proxylessnas: 在目标任务和硬件上进行直接神经架构搜索.arXiv:1812.00332, 2018. [6] Liang-Chieh Chen, Maxwell D.Collins, Yukun Zhu, George Papandreou, Barret Zoph, FlorianSchroff, Hartwig Adam, and Jonathon Shlens.为密集图像预测搜索高效多尺度架构. 在NeurIPS, 2018. [7]Liang-Chieh Chen, George Papandreou, Florian Schroff, andHartwig Adam. 重新思考用于语义图像分割的空洞卷积. CoRR,abs/1706.05587, 2017. [8] Liang-Chieh Chen, Yukun Zhu,George Papandreou, Florian Schroff, and Hartwig Adam.具有空洞可分离卷积的编码器-解码器用于语义图像分割. 在ECCV,2018. [9] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, and Alan L Yuille. Deeplab:用深度卷积网络、空洞卷积和全连接CRF进行语义图像分割. IEEEtrans. PAMI, 40(4):834–848, 2018. [10] Xin Chen, Lingxi Xie,Jun Wu, and Qi Tian. 渐进可微架构搜索:架接搜索和评估之间的深度差距. arXiv:1904.12760, 2019. [11]Yukang Chen, Qian Zhang, Chang Huang, Lisen Mu, GaofengMeng, and Xinggang Wang. 强化进化神经架构搜索. CoRR,abs/1808.00193, 2018. [12] Franc¸ois Chollet. Xception:使用深度可分离卷积的深度学习. 在CVPR, 2017. [13] MariusCordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld,Markus Enzweiler, Rodrigo Benenson, Uwe Franke, StefanRoth, and Bernt Schiele.用于语义城市场景理解的Cityscapes数据集. 在CVPR, 2016. [14]Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and LiFei-Fei. Imagenet: 一个大规模的分层图像数据库. 在CVPR, 2009.[15] Mark Everingham, SM Ali Eslami, Luc Van Gool,Christopher KI Williams

下载后可阅读完整内容，剩余1页未读，立即下载