iNAS：设备感知显著对象检测的集成NAS

114 浏览量更新于2023-10-14 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4934MaxF×个× ××iNAS：用于设备感知显著对象检测的集成NAS顾玉超1高尚华1曹旭生1杜鹏2卢少平1程明明1*1南开大学科技学院2华为技术https://mmcheng.net/inas/摘要现有的显着目标检测模型通常只关注主干特征提取器或显着头部，而忽略了它们之间的关系。强大的骨干仍然可以实现次优性能，而显着性头部较弱，反之亦然。此外，模型性能和推理延迟之间的平衡对模型设计提出了很大的挑战，特别是在考虑不同的部署场景时。考虑到集成神经架构搜索（iNAS）空间中的所有组件，我们提出了一种灵活的设备感知搜索方案，该方案仅对SOD模型进行一次训练，并在多个设备上快速找到高性能但低延迟的模型。一个进化搜索与延迟组采样（LGS），提出了探索我们扩大搜索空间的整个延迟区域。通过iNAS搜索的模型实现了与SOTA方法相似的性能，但减少了3.8、3.3、2.6、华为Nova6 SE、英特尔酷睿CPU、Jetson Nano和NvidiaTitanXp 上的延迟为 1.9 。代码发布于https://mmcheng.net/inas/。1. 介绍显著对象检测（SOD）旨在分割图像中最有吸引力的对象[1，59]。作为预处理步骤，许多下游应用需要SOD，即，图像编辑[8]、图像检索[22]、视觉跟踪[24]和视频对象分割[20]。这些应用通常需要在多个设备上以低推理延迟部署SOD模型，即，GPU、CPU、移动电话和嵌入式设备。每个设备都具有独特的属性。例如，GPU擅长大规模并行计算[43]，而嵌入式设备以低计算预算为代价是节能的[27]。因此，不同的部署场景需要完全不同的SOD模型设计。最先进的（SOTA）SOD方法大多设计手工显著性头部[36，44，47，78，81]以从预训练的骨干中聚集多级特征。*M.M.程（cmm@nankai.edu.cn）为通讯作者。9594939291]900 1 2 3 4Huawei Nova6 SE速度（FPS），批量= 1图1.我们的iNAS和最新的最先进的SOD模型之间的移动延迟和性能比较。例如，在一个实施例中，[23][24][25][26][27][28][29]禁止推理延迟往往会阻止他们被应用到其他设备上，除了GPU。另一方面，为资源受限场景设计的手工低延迟SOD模型[16，46]遭受大的性能下降。由于模型性能和推理延迟之间的矛盾，手动设计不同设备的SOD模型会导致繁重的工作量。因此，我们的目标是一个设备感知的搜索方案，以快速找到合适的低延迟SOD模型在多个设备上。在不同设备上实现低延迟SOD模型存在几个障碍，如图所示。二、首先，由于不同的并行计算能力、IO瓶颈和实现，操作符的相对延迟在不同的设备之间变化。将为一个设备设计的SOD模型转移到另一个设备将导致次优延迟和性能。其次，传统的手工SOD模型设计了更强大的显着头[36，44，47，81]或更有效的骨干[16，46]，而忽略了它们的关系。类似地，大多数神经架构搜索（NAS）方法专注于分类任务的主干[35，53]或包含固定的分段头[33，34]，同时忽略主干和头的关系。我们观察到一个强大的骨干实现3 .第三章。8倍高速我们CSNet [16U2Net[46]我[BASN] R3Net-R [44]等[47]t [10]PoolNet-R[36]第三十六话R [64]EGNet-R[78] NLDF[第四十二届]4935设计空间GPU人性化设计手机设备感知搜索嵌入式设备骨干头部署装置图2. iNAS将主干和头端设计统一到一个完整的设计空间，并针对不同设备专门设计低延迟SOD模型具有弱显著性头部的次优效率，反之亦然。这些障碍阻止了社区使用手工或NAS方案来设计设备感知的低延迟SOD模型。为了解决这些问题，我们提出了一个设备感知的搜索方案，具有一个完整的搜索空间来训练模型一次，并在多个设备上快速找到高性能但低延迟的SOD模型。具体来说，我们提出了一个整体搜索空间的SOD模型，整体考虑骨干和显着头。为了满足SOD模型的多尺度要求，同时避免多分支结构增加的延迟，我们构建了一个可搜索的多尺度单元（SMSU）。SMSU支持具有不同内核大小的可搜索并行卷积我们还将手工显着头部[25，36，41，44，75]概括为可搜索的传输和解码器部分，从而产生丰富的显着头部搜索空间，用于与骨干空间合作。对于多尺度架构，所提出的积分SOD搜索空间明显大于用于分类任务的NAS空间[2，72]。在训练一次超网之后，以前的方法采用均匀采样的进化搜索[2，21，72]来探索搜索空间。均匀采样可以确保一个层内的不同架构然而，采样模型的总体延迟服从多项式分布，这导致极低延迟或极高延迟区域被欠采样。这种不平衡采样问题阻止了均匀采样探索我们扩大的搜索空间的整个延迟区域。为了克服这种不平衡的采样问题，我们提出了一个延迟组采样（LGS），介绍了设备的延迟，以指导采样。通过将逐层搜索空间划分成若干延迟组，并且聚合特定延迟组中的样本，LGS保留了非线性延迟。弹簧在欠采样区域，但控制过采样区域的采样与均匀抽样相比，LGS进化搜索可以探索整个积分搜索空间，在更高更宽的Pareto前沿上找到一组模型。本文的主要贡献是：• 一个完整的SOD搜索空间，它考虑了主干-头的关系，并涵盖了现有的SOTA手工SOD设计。• 一种具有延迟组采样的设备感知演进搜索，用于探索所提出的搜索空间的整个延迟区域。• 在五个流行的SOD数据集上对iNAS进行了全面评估。我们的方法可以达到类似的per-performance与手工SOTA方法，但大大减少了不同设备上的推理延迟，这有助于扩大SOD的应用程序到不同的部署场景。2. 相关工作2.1. 显著目标检测。传统的SOD方法[1，6，55，83]主要依赖于手工特征和启发式先验。[28，29，79]早期尝试使用卷积神经网络（CNN）来提取补丁级特征。受FCN [41]的启发，最近的SOD方法[39，57，60]将SOD制定为逐像素预测任务，其实现了对传统或基于CNN的方法的大幅改进。我们建议读者全面调查[1，59，82]。大多数SOD方法手工制作显著性头部以有效地融合由预训练的骨干提取的多级特征的多尺度信息[14，23，51]，例如，ResNet [23].这些方法[4，17，25，36，38，58，67]继承了编码器-解码器结构，其中解码器负责自下而上的特征融合。传输层[12，44，74，75，80]被包括在显著性头部内，从而实现自下而上和自上而下的特征融合。将边缘线索引入显着头部以进行精确边界细化的方法[30，62，78]与我们的搜索空间正交。随着SOD模型的逐渐复杂化，推理成绩稳步提高，但抑制性推理的潜伏期却不断增加。最近的工作[16，20，63，64，81]试图设计轻量级模型，以消除大的推理延迟。其中，CPD [64]和ITSD [81]设计了轻量级显着头，分别在CPU和GPU上实现了快速。CSNet [16]设计了一个轻量级的SOD骨干网，以实现手机和嵌入式设备上的低延迟。然而，当硬件特性完全不同时，分离设计和部署设备会导致次优延迟。在这项工作中，我们引入了一个积分搜索空间，4936手工显著头积分搜索空间[44]第四十四话：我的世界 [41]第四十一话：我的世界 [25]第25图3.最近手工SOD模型的设计和建议的整体搜索空间。骨干传输解码器跳过连接上采样下采样骨干运输解码器阶段操作者决议渠道层内核水平内核融合物水平内核融合物干Conv256x256-384x38432-401313,5,7,91-513,5,7,92-51MBconv1128x128-192x19216-241-232MBconv6128x128-192x19224-322-3323,5,7,91-523,5,7,92-43MBconv664x64-96x9632-482-33,5,7,933,5,7,91-533,5,7,92-34MBconv632x32-48x4864-882-43,5,7,943,5,7,91-543,5,7,925MBconv632x32-48x4896-1282-63,5,7,96MBconv616x16-24x24160-2162-63,5,7,953,5,7,91-553,5,7,917MBconv616x16-24x24320-3521-23,5,7,9表1.建议的积分搜索空间的详细配置涵盖了大多数手工SOD设计。基于我们的整体搜索空间，我们提出了一个设备感知的搜索方案，它实现了类似的性能SOTA方法，但大大减少了不同设备上的延迟。2.2. 神经架构搜索。神经结构搜索（NAS）展示了其自动设计各种任务的高效网络的潜力[15，18，32，34，49，70，73，76]。基于强化学习[84，85]和进化算法[48，65]的早期方法后来，可区分NAS [19，35]和一次性NAS [2，21，72]利用权重共享[45]的思想来降低搜索成本，其中一次性NAS将超网训练和架构搜索解耦。大多数one-shot NAS方法[2，21，72]以改进超网训练为目标，并采用均匀采样的进化搜索来探索搜索空间。然而，我们发现均匀采样时，考虑到模型延迟导致不平衡的采样问题。除了搜索方法之外，搜索空间在NAS中起着至关重要的作用。早期方法[35，45，48，65]利用基于小区的搜索空间，其中小区由多个可搜索操作组成。基于基于单元的搜索空间，Auto-deeplab [34]还支持搜索尺度变换的宏观结构。为了适应分割任务，Auto-deeplab结合了固定的并行ASPP [3]解码器。然而，基于细胞的搜索空间的搜索结构具有复杂的分支连接。连接，这在当前的深度学习框架中难以并行化[52]，限制了其在低延迟应用中的潜力。利用人类专家知识，MnasNet [53]和后续工作[9，54，61]开发了基于MobileNet [50]的搜索空间，其支持比基于单元的搜索空间更硬件友好的架构然而，由于这些方法是为分类任务而设计的，因此它具有较少的多尺度表示能力，并且不能直接应用于SOD。iNAS与Auto-deeplab和MnasNet的不同之处在于两个设计原则：1）对所有组件的整体搜索减少了整体推理延迟; 2）可搜索的多尺度单元支持搜索多分支结构，而没有额外的推理延迟成本。为了充分探索所提出的积分搜索空间，我们提出了延迟组采样来解决以前的单次NAS方法[2，21，72]的不平衡采样问题。与FairNAS [9]不同，FairNAS [9 ]旨在提高在超网训练阶段优化不同组件的公平性，我们提出的延迟组采样希望在搜索阶段以平衡的方式探索搜索空间。3. 方法3.1. 一体化SOD设计空间。以前的手工SOD模型[1，39，59]主要基于固定的预训练骨干（例如，VGG [51]和ResNet [23]），并设计显着性头以融合来自主干的多级特征一些4937∗∗11γ（i）12 2γ（i）2×个使多分支结构能够在训练中捕获多尺度特征表示，并采用重新参数化策略[11]将多个分支融合成单个分支以进行快速推理。我们在图中示出了SMSU的两个分支设置4（a，b）。SMSU可以提取具有不同核大小的多尺度特征表示。具体来说，假设有3×3Conv和5×5Conv的深度方向上的卷积参数分别记为W1∈RC×1×3×3和W2∈RC×1×5×5。3×3Conv和5×5Conv后的批次范数（BN）参数表示为µ1、σ1、γ1、β1和µ2、σ2、γ2、β2，分别给定输入特征F∈ RC×H ×W，我们将输出特征表示为W中的M = F，其中是卷积。两个分支的融合可以表示为(a) SMSU（培训）（b）SMSU（部署）（一）（一）（一） σ（i）（一）F输出=（M −µ）1−β1（一）（一）（一） σ（i）（一）为BN参数=BN parameters==+（M −µ）2−β，2其中i表示第i个信道。等式（1）描述了SMSU在训练时间的多尺度融合。在部署中，我们将卷积权重及其后续BN参数合并为单个卷积，定义为(c)多分支结构图4.可搜索多尺度单位（SMSU）的图示。V（i）=γ（i）σ（i）W（i），b（i）=−µ（i）γ（i）σ（i）+β⑴，⑵最近的工作已经注意到预先训练的骨干AC-大部分的延迟成本[16]。他们为SOD设计了轻量级的主干，而不是然而，这两种设计策略都将骨干和解码器设计分开，这阻碍了在整体设计空间中找到低延迟高性能的SOD模型。本节介绍了一个完整的SOD设计空间，由基本搜索单元（即，可搜索的多尺度单位）。3.1.1中的可搜索显着性头部。第3.1.2条。3.1.1可搜索的多尺度单位。由于先前的通用主干占了大部分延迟成本，因此SOD主干的最近设计[16，46]用组卷积[66]或可分离卷积[50]代替了普通卷积以减少延迟。为了捕获图像中的多尺度表示，他们设计了几个分支来编码具有不同感受野的特征并融合多尺度特征。然而，多分支结构不是硬件友好的[50，61，77]，这将减慢推理速度。例如，CSNet [16]减少了13。ITSD-R [81]的4次触发器，但仅在GPU上实现类似的推理延迟。因此，我们提出了一个可搜索的多尺度单元（SMSU），它自动支持找到合适的多尺度融合。SMSU其中V是合并卷积权重，b是偏置。然后，我们在给定的分支中对小内核进行零填充，以匹配最大内核的大小。最后，我们对这两个分支进行平均，以获得单个卷积权重和偏差。引入的两分支融合可以容易地扩展到任何分支。因此，我们能够在SMSU中搜索融合核组合。我们用SMSU代替了MobileNet搜索空间的反向瓶颈，并在Tab中总结了搜索空间。1.一、3.1.2可搜索显着头。以前的手工显着头结合传输或解码器，以融合来自主干的多级特征。高级特征提供显著对象的粗略位置，并且低级特征提供用于恢复边缘和边界的详细信息。如图3，典型的传输设计[44，75]能够实现多级特征的自下而上和自上而下融合。我们的可搜索传输连接到主干网的所有在我们最大的子传输中，每个级别可以聚合来自所有五个分辨率级别的特征，如Amulet[75]，而我们最小的子传输仅保留身份分支，如FCN[41]。下采样+++BatchNorm��公司简介BatchNorm��公司简介Swish��×��DwiseSwish=��公司简介BatchNormSwish��公司简介BatchNormSwish��×��Dwise��×��DwiseBatchNormBatchNorm4938上采样支路由1×1Conv-BN构成4939minMaxGG{1}|}∪∪∪∪←算法一：使用LGS进行进化搜索输入：训练的超网、初始群体大小N、延迟查找表（LUT）、延迟组G、后代大小k、交叉概率p。、突变概率pm、迭代iter。输出：人口P的帕累托边界。1 计算延迟（即，LATl和LAT1）在每个层L中基于下界延迟上界下界延迟上界LUT;minMax(a) 美国（b）LGS2 将每一层l中的（LATl，LATl）分成G图5.均匀采样（US）和延迟组采样（LGS）的图示组;每个延迟组的3个样本N个子模型Pi i = 1。. . G;4 设置初始群体P = P1…… PG;5 评估P中模型的性能;6，对于j = 1…帖都7对于每个Pido8Si←从帕累托边界选择k模型Pi;9S = S1…SG;Sdo中每个型号10个图11在概率pc和pm下交叉和变异模型。12评估S中模型的性能;13P=P∪S图6. iNAS搜索和部署的图示。和最大池操作/双线性插值。我们的可搜索运输涵盖了许多SOTA SOD运输设计[12，37，44，80]。与传输不同，解码器[25，36]仅支持自底向上的预测细化，并逐渐添加低级特征以恢复边界。因此，我们不支持解码器中的自顶向下融合分支。来自相邻分辨率级别的标识和上采样分支是固定的，而其他分支是可搜索的。最大的子解码器具有与DSS [25]类似的结构，而最小的子解码器与FCN [41]类似。可搜索的解码器涵盖许多手工SOD解码器设计[4，38，58，64，67]。考虑到多尺度融合的最佳感受野在不同分辨率下可能不同，我们使用SMSU作为传输和解码中的基本搜索单元。虽然多尺度融合被证明是有效的在超混沌算法中，如何在时延约束下修剪冗余融合分支并选择合适的融合核是一项劳动密集型的工作。我们提出的显着头使这些关键组件可搜索，自动设计的骨干，以尽量减少推理延迟。3.2. 延迟组采样。以往的单次方法采用均匀采样的进化搜索，在考虑模型延迟时会导致不平衡采样问题。所示14P选择P的帕累托边界;15 返回P在图5中，整个搜索空间由逐层块选择组成。每个层内的块选择在延迟方面不同。假设我们逐层均匀地对块进行采样，总体采样模型的累积延迟将服从多项式分布，即，极低等待时间或极高等待时间区域是欠采样的，而中间等待时间区域是过采样的。为了探索我们的整体搜索空间的整个延迟区域，我们提出了延迟组采样（LGS）。给定延迟查找表（LUT），我们将逐层搜索空间划分为若干延迟组。为了获得特定延迟组中的模型，我们在每个层对该延迟组内的块进行采样。虽然在每个局部延迟组内样本仍然是不平衡的，但如果我们划分足够的组，我们可以在全局延迟范围内获得平衡的样本此外，在选择精英后代时，我们还保持了不同潜伏期组的后代数量的平衡设备感知演进搜索的一般流水线在图1中描绘。六、我们首先在目标设备上构建延迟查找表（LUT）。然后，我们进行进化搜索的基础上LGS。搜索后的模型继承了超网权值，无需再训练即可直接部署。如算法所示1中，使用LGS的进化搜索包含四个阶段：层-1层-2...n层...............部署训练的SuperNetSampleNet初始化人口帕累托边界交叉变异精英后代样本数样本数49403 .第三章。3倍高速二、6倍高速×个GGVGG-16/VGG-19NLDFCVPR17[42]66.689.48 505.590.905 0.063 0.8750.753 0.0800.813 0.065 0.805 0.902 0.048 0.8790.822 0.098 0.805[25]第二十五话48.755.85不适用0.921 0.052 0.8820.781 0.063 0.7900.825 0.056 0.916 0.040 0.8780.831 0.093 0.798PiCANetCVPR18[39]59.8234.21不适用0.931 0.0460.794 0.068 0.8260.851 0.0540.921 0.0420.856 0.078CPD-VCVPR19[64]24.083.78 266.400.936 0.0400.793 0.057 0.8180.864 0.043 0.924 0.033 0.9040.861 0.072 0.845ITSD-VCVPR20[81]17.089.97 494.930.939 0.040 0.9140.807 0.0630.876 0.042 0.927 0035 0.906 0.869 0.068 0.856PoolNet-VCVPR1948.808.81不适用0.941 0.0420.806 0.056 0.8330.876 0.042- -0.865 0.072 0.852EGNet-VICCV19[78]120.15 11.58不适用0.943 0.0410.809 0057 0.8360.877 0.0440.930 0.0340.858 0.077MINet-VCVPR20[44]71.7614.78不适用0.943 0.036 0.9190.794 0.0570.877 0.0390.930 0.0310.865 0.064 0.854ResNet-34/ResNet-101/ResNetXt-101R3NetIJCAI18[9]26.19335.140.934 0.040 0.9100.795 0.0630.831 0.0570.916 0.0360.835 0.092CPD-RCVPR19[64]7.19124.090.939 0.037 0.9180.797 0.056 0.8250.865 0.0430.925 0.0340.859 0.071BASNetCVPR19[47]97.5116.37不适用0.942 0.0370.805 0.056 0.8360.859 0.048 0.8650.928 0.0320.854 0.076 0.838PoolNet-RCVPR1938.179.13不适用0.944 0.0390.808 0.056 0.8360.880 0.040 0.8830.932 0.0330.863 0.075 0.849EGNet-RICCV19[78]120.85 12.01不适用0.947 0.0370.815 0.0530.888 0.039 0.8870.935 0.0310.865 0.074 0.852MINet-RCVPR20[44]42.687.38不适用0.947 0.0330.810 0.0560.884 0.037 0.8840.935 0.0290.867 0.064ITSD-RCVPR20[81]9.653.57 164.760.947 0.0340.820 0.061 0.8400.882 0.041 0.8840.934 0.0310.870 0.066 0.859手工SOD骨干CSNetECCV20[6]0.723.6395.750.916 0.065 0.893 0.775 0.081 0.805 0.813 0.075 0.822 0.898 0.059 0.881 0.828 0.103 0.813U2-NetPR20[46]9.774.45173.610.943 0.041 0.918 0.813 0.060 0.837 0.852 0.054 0.858 0.928 0.037 0.908 0.847 0.086 0.831在不同设备iNAS（GPU）-S0.431.3248.560.944 0.037 0.921 0.819 0.055 0.842 0.872 0.043 0.875 0.930 0.033 0.914 0.864 0.071 0.852iNAS（嵌入式）-S0.411.5340.990.944 0.038 0.920 0.816 0.056 0.840 0.871 0.043 0.875 0.931 0.033 0.915 0.865 0.070 0.852iNAS（GPU）-L0.701.9471.700.947 0.036 0.924 0.824 0.052 0.846 0.879 0.040 0.881 0.935 0.031 0.918 0.867 0.071 0.852iNAS（嵌入式）-L0.632.3063.390.947 0.036 0.924 0.820 0.055 0.842 0.875 0.041 0.879 0.935 0.031 0.919 0.865 0.070 0.852表2.与现有SOD方法的比较。FLOP和延迟是用224 224个输入图像测量的。N/A表示由于内存不足错误，无法在嵌入式设备上部署。九五九五九五1 .一、9倍高速九四九四九四9392我们的CSNet [16]U2Net [46]91PoolNet-R[36]EGNet-R [78]90DSS [25]93MINet-R [44]92BASNet [47]R3Net [10]CPD-R [64]NLDF [42]91ITSD-R [81]9093929190]100200300400500600700八百NVIDIA GTX TITAN Xp速度（FPS），批量大小= 32电话：0510 - 15202530传真：0510 - 15202530Intel Core CPU速度（FPS），批量大小= 15 10 15 20 25Jetson Nano Speed（FPS），批量= 4图7.与现有SOD方法在不同设备上的速度比较iNAS可实现SOTA性能和一致的加速。• S1：初始化。我们将每层中的块选择的延迟范围划分为G个延迟组。我们为初始群体P采样N个候选者，其中每个等待时间组具有N个样本。• S2：选择。我们从P的帕累托边界选择k个模型到候选集合S中，其中每个延迟组包含k个样本。• S3：交叉。对于S中的每个模型，它与S中的另一个模型交叉的概率为pc。我们允许交换脊椎中的级式配置和交换头部中的级式配置。• S4：突变。对于S中的每个模型，每个构型具有突变的概率pm。然后，我们将S合并到群体P中，并继续S2，直到目标迭代iter。LGS和均匀采样之间的主要区别在初始化阶段，LGS对不同延迟区域的样本进行而均匀采样对中间等待时间区域进行过采样。然后在选择步骤中，LGS在不同组中保留一定数量的精英后代，这使得进化搜索能够在不同的延迟区域中找到更好的模型。4. 实验4.1. 实施详情。超网训练的细节。我们使用Pytorch [52]和Jittor [26]库实现iNAS。我们将搜索空间组织为嵌套超网[2，72]。具体地，较小卷积核的权重从较大核的中心部分复制，然后由全连接层变换。并且，较低索引通道和层也共享。超网在DUTS-TR上进行了100 个epochs 的ImageNet预训练。训练批大小设置为40。我们使用亚当优化器与学习MaxFMaxFMaxF方法FLOPs（G）延迟（毫秒）GPU嵌入式ECSSD（1000）maxF MAESmDUT-O（5168）maxF MAESmDUTS-TE（5019）maxF MAESm香港大学-IS（4447）maxF MAESmPASCAL-S（850）maxF MAESm我们MINet-R [44]CSNet[ U2Net[ PoolNet-R第十六章]46][36个]BASNet [47R3Net [10]CPD-R [64]]EGNet-RDSS [25[78个国家]NLDF [42]ITSD-R [81]我们CSNet [16个]U2Net [46个]R3Net [10个国家]CPD-R [64个]4941联系我们联系我们94.694.894.794.494.694.294.093.840 50 60 70延迟（ms）94.594.494.394.230 40 50 60 70延迟（ms）(a) 搜索太空探索。B：骨干，H：头部。可搜索低延迟拱高性能拱骨干头延迟（ms） maxF 延迟（ms）maxF✗✗45.170.94145.170.941✓✗41.200.94163.560.946✗✓36.200.94044.300.942✓✓33.060.94461.240.947(b) 定量分析的整体和局部搜索。图8.整体搜索和部分搜索的比较。1 e-4的速率和多学习速率计划[40]。我们对每次迭代的最大、最小和两个中间模型进行采样，并融合它们的在[25]之后，我们在每个解码器级别的预测上添加深度监督超网培训需要 17 个小时，使用 4 台 TeslaV100。搜索和部署的详细信息。我们将初始population大小N设置为1000，并将延迟组G设置为10。进化迭代iter被设置为20。每个选择步骤保留k=100个后代。交叉和突变概率（pc和pm）被设置为0.2。为了评估每个子模型的性能，我们从超网中复制它们的权重，并微调它们的BN参数200次[71]。我们使用Pytorch-Mobile [52]库在手机上构建LUT。在其他设备上，我们直接使用Pytorch工具包对其速度进行基准测试。搜索阶段在一个Tesla V100 GPU上花费0.8 GPU天数据集。超网使用DUTS-TR数据集进行训练[56]。我们对五个流行的SOD数据集进行评估，即，ECSSD[68]、DUT-O [69]、DUTS-TE [56]、HKU-IS [28] ， PASCAL-S [31] ， containing 1000 ，5168，5019、4447和850对图像和显著性图。评估指标。遵循常见设置[39，47]，我们使用MAE[7]，最大F-测量（Fβ）[6]和S-测量（Sm）[5]作为评估指标来评估我们的结果。由于我们的目标是设计低延迟SOD模型，因此推断延迟也被用作评估度量。图9.进化搜索与均匀采样（US）和建议的LGS的比较。搜索开发GPU延迟（ms）CPU移动嵌入式GPU1.9448.90397.1771.70设备感知1.9442.99339.6163.39等待时间减少0%的百分比12.1%百分之十四点五百分之十点九表3.GPU和专用设备上搜索的比较4.2. 绩效评估。与最先进的技术相比选项卡. 2显示了我们搜索的模型和以前的手工SOD方法之间的iNAS（GPU）-L是一个在GPU上搜索的大型模型，它需要与CSNet相似的FLOP，但在ECSSD上减少了47%的推理延迟并提高了3.1%的Fβ，这表明FLOP与推理延迟并不高度我们还在图中示出了我们在不同设备上搜索的模型的延迟比较。图1和图7。我们的方法实现了类似的性能SOTA，但减少了1.9，3.3，2.6，3.8延迟GPU，CPU，嵌入式设备和手机上，分别。与以前的最快方法相比，iNAS搜索的最快模型的速度分别提高了2.1、3.7、2.5 ，以及这些设备上的4.8。目前的SOD模型大多是为GPU设计的，而忽略了其他设备。一些基于ResNet和基于VGG的方法甚至不能应用于嵌入式设备，由于内存不足的错误。相比之下，我们的设备感知搜索模型在所有设备上实现了一致的延迟降低。设备感知搜索。为了验证设备感知搜索的有效性，我们比较了在GPU和Tab中的专用设备上搜索的模型。3 .第三章。我们对目标设备上iNAS（GPU）-L的延迟进行了基准测试。通过一致的性能，在专用设备上搜索的模型在CPU、移动电话和嵌入式设备上分别实现了12.1%、14.5%和10.9%的延迟减少。这种观察验证了设备感知搜索可以找到合适的模式。积分搜索空间Fix-B+ Search-H Search-B+ Fix-H Fix-B + Fix-H6.43毫秒14.52毫秒LGS美国实际延迟界限US的延迟界限MaxFMaxF494294.794.694.594.494.394.294.194.040 50 60 70延迟（ms）头延迟增长→图11.把背面和背面之间的对应关系可视化骨/头延迟和性能。图10.由反向瓶颈（IB）[50]和我们提出的可搜索多尺度单元（SMSU）构建的搜索空间的比较。用于目标设备的ELS以减少等待时间。积分搜索空间iNAS支持SOD的完整搜索空间。图8验证了积分搜索空间的重要性对于基线网络，我们使用MobileNetV2结构[50]作为固定骨干，并结合Amulet传输[75]和DSS解码器[25]以形成固定显着头部。如图8（b），固定基线网络在CPU上获得45.17ms的推理延迟，并且在ECSSD上获得94.1%。仅启用可搜索主干或可搜索显着头部将延迟的下限降低到41.20ms（-8.7%）或36.20ms（-19.8%），具有类似的性能。而使用积分搜索空间大大降低了下限延迟到33.06毫秒（-26.8%），但提高了最快的架构的性能到94.4%。类似地，性能的上限图8（a）示出了积分搜索空间相对于部分可搜索空间具有始终更好的帕累托边界，并且显著地改善了延迟和性能两者的手工结构。潜伏期组抽样。图9比较了基于均匀采样和所提出的延迟组采样（LGS）的演进搜索。搜索空间的下限和上限延迟分别为32.12ms和74.14ms。如图9，均匀采样得到的上、下限潜伏期分别为38.55ms和59.62ms，仅占整个潜伏期范围的50.2%。而LGS保证每个延迟组具有均衡的样本和后代，因此可以探索99%的搜索空间。因此，我们提出的LGS获得了更广泛的帕累托前沿均匀采样。可搜索的多尺度单位。图10验证了所提出的可搜索多尺度单元（SMSU）的有效性。我们比较了由SMSU构造的搜索空间与反向瓶颈（IB）。SMSU构造的搜索空间增强了IB的多尺度能力，显示出良好的搜索性能更好的延迟性能帕累托边界。我们观察到，更高延迟模型的改进更大，因为宽松的延迟约束使大内核成为可能，这支持更强大的多尺度内核组合。4.3. 观察为了探索性能与骨干和头部延迟的关系，我们将骨干和头部延迟分成10组，并在每个网格中采样20个模型，得到2000个样本。观察图11，我们发现（1）一个更复杂的骨干不断提高性能;（2）复杂显著头并不总是最佳选择。这些观察结果显示了为什么整体搜索空间可以减少模型延迟，即，iNAS可以为特定延迟的骨干选择适当的显著性头因为选择适当的显著性头部以获得更好的延迟-性能平衡没有明显的模式，所以搜索可以是用于设计低延迟SOD模型的有效解决方案。5. 结论在这项工作中，我们提出了一个整体搜索（iNAS）空间的SOD，概括了手工SOD模型的设计。整体搜索可以自动找到骨干网和头端的对应关系，并获得最佳的性能-延迟平衡。然后，我们提出了一个延迟组采样来探索我们的整个积分搜索空间。实验表明，iNAS具有与手工SOTA SOD方法相似的性能，但大大减少了它们在各种设备中的延迟。我们的工作铺平了道路，SOD的低功耗设备上的应用。谢谢。本研究得到了国家自然科学基金（61922046）、&教育部科技创新项目、BNRist（No.BNR2020KF01001）和中央大学基础研究基金（南开大学，第10001001号）。63213090）。SMSUIBMaxF骨干延迟增长→业绩增长→4943引用[1] Ali Borji、Ming-Ming Cheng、Qibin Hou、Huaizu Jiang和Jia Li。显著对象检测：一个调查。计算视觉媒体，5（2）：117-150，2019。一、二、三[2] Han Cai，Chuang Gan，Tianzhe Wang，Zhekai Zhang，and Song Han.一次性：训练一个网络并使其专业化以实现高效部署。在国际会议学习中。代表。，2020年。二、三、六[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE传输模式分析马赫内特尔，40（4）：834-848，2017. 三个[4] Shuhan Chen，Xiuli Tan，Ben Wang，and Xuelong Hu.显著对象检测的反向注意以Eur. Conf.Comput.目视，第234-250页，2018年。二、五[5] 程明明和范小平。结构-措施：一种评估前景贴图的新方法。 Int. J. Comput. 目视，129（9）：2622-2638，2021. 七个[6] Ming-Ming Cheng ， Niloy J Mitra ， Xiaolei Huang ，Philip HS Torr，and Shi-Min Hu.基于全局对比度的显著区域检测。IEEE传输模式分析马赫内特尔，37（3）：569-582，2015. 二、七[7] Ming-Ming Cheng，Jonathan Warrell，Wen-Yan Lin ，Shuai Zheng，Vibhav Vineet，and Nigel Crook.基于软图像抽象的高效显著区域检测在Int. Conf.Comput.目视，第1529-1536页，2013。七个[8] Ming-Ming Cheng ， Fang-Lue Zhang ， Niloy J Mitra ，Xiaolei Huang，and Shi-Min Hu.Repfinder：查找近似重复的场景元素以进行图

下载后可阅读完整内容，剩余1页未读，立即下载