快速神经架构搜索用于目标检测的NAS-FCOS

168 浏览量更新于2023-10-23 收藏 871KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11943NAS-FCOS：用于目标检测的快速神经架构搜索王宁，杨高，陈昊，王鹏，田智，沈春华，张燕宁中国西北工业大学计算机科学学院中国·空天地海一体化大数据应用技术国家工程实验室澳大利亚阿德莱德大学摘要深度神经网络的成功依赖于重要的架构工程。最近，神经架构搜索（NAS）已经出现，作为通过自动搜索最佳架构来大大减少网络设计中的人工努力的承诺，尽管通常这种算法需要过量的计算资源，例如，几千个GPU日。到目前为止，在目标检测等挑战性视觉任务中，NAS，特别是NAS的快速版本，研究较少在这里，我们建议搜索的解码器结构的对象检测器的搜索效率被考虑在内。更具体地说，我们的目标是使用定制的强化学习范式有效地搜索特征金字塔网络（FPN）以及简单的无锚对象检测器（即FCOS [24]）的预测头。通过精心设计的搜索空间、搜索算法和评估网络质量的策略，我们能够在4天内使用8个V100GPU高效地发现的架构超过了最先进的对象检测模型（如 Faster R-CNN ， RetinaNet和FCOS ）1。五比三COCO数据集上AP中的5个点，具有可比的计算复杂度和内存占用，证明了所提出的NAS用于对象检测的功效。1. 介绍目标检测是计算机视觉的基本任务之一在过去的几年里，这项任务的最先进的方法是基于深度卷积神经网络（如Faster R-CNN [20]，RetinaNet [11]），由于其令人印象深刻的性能。通常，目标检测网络的设计比图像分类网络的设计复杂得多，因为前者需要同时定位和分类图像中的多个目标，而后者需要同时定位和分类图像中的多个目标。联合国妇女发展组织、青年团和人道主义协调委员会对这项工作作出了同样的贡献只需要输出图像级标签。由于其复杂的结构和众多的超参数，设计有效的目标检测网络更具挑战性，通常需要大量的人工努力。另一方面，神经架构搜索（NAS）方法[4，17，32]在大规模搜索空间中自动发现性能最佳的神经网络架构方面表现出令人印象深刻的与手工设计相比，NAS方法是数据驱动的而不是经验驱动的，因此需要更少的人工干预。如[3]中所定义的，NAS的工作流程可以分为以下三个过程：1）根据一定的搜索策略从搜索空间中抽取结构;2）评估采样架构的性能;以及3）基于性能更新参数。阻碍NAS在更现实的应用中使用的主要问题之一是其搜索效率。评估过程是最耗时的部分，因为它涉及到神经网络的完整训练过程。为了减少评估时间，在实践中，代理任务通常被用作较低成本的替代。在代理任务中，输入、网络参数和训练迭代通常被缩小以加速评估。然而，在代理任务和目标任务之间的样本之间往往存在性能差距，这使得评估过程有偏差。如何针对具体问题设计既准确又高效的代理任务是一个亟待解决的问题。提高搜索效率的另一种解决方案然而，该解决方案导致显著增加的存储器消耗并且将其自身限制于小到中等大小的搜索空间。据我们所知，研究对象检测网络的高效和准确的NAS方法很少触及，尽管它的重要性。为此，我们提出了一种快速和节省内存的NAS方法的对象检测网络，这是能够发现性能最好的架构内显着减少搜索时间。我们11944整体检测架构基于FCOS [24]，FCOS是一种简单的无锚一级对象检测框架，其中使用我们提出的NAS方法搜索特征金字塔网络和预测头。我们的主要贡献总结如下。• 在这项工作中，我们提出了一种快速和内存效率的NAS方法，用于搜索FPN和头部架构，并精心设计了代理任务，搜索空间和评估策略，仅用28个GPU天就能找到超过3000个架构的具体地，这种高效率通过以下设计实现。— 跳过主干微调阶段— 采用渐进式搜索策略，减少扩展搜索空间所占用的时间开销;— 使用更具鉴别力的标准来评估搜索到的体系结构。— 采用一种有效的无锚一级检测框架，具有简单的后处理;• 利用NAS，我们探讨了FPN和头部之间的工作负载关系，证明了头部权重分担的重要性• 我们表明，NAS-FCOS的整体结构是通用和灵活的，因为它可以配备各种骨干，包括MobileNetV2，ResNet-50，ResNet-101和ResNeXt-101，并超越了使用Compa的最先进的对象检测算法。计算复杂度和内存占用。更具体地说，我们的模型可以通过以下方式改善AP1 .一、五点零三分。与FCOS对应产品相比，上述所有型号均为52. 相关工作2.1. 对象检测用于对象检测的深度神经网络框架可以大致分为两种类型：一级检测器[12]和两级检测器[6，20]。两阶段检测框架首先使用区域建议网络（RPN）生成类独立的区域建议，然后使用额外的检测头对其进行分类和细化。尽管实现了最佳性能，但两阶段方法具有明显的缺点：它们在计算上是昂贵的，并且具有许多需要被调整以适合特定数据集的超参数。相比之下，单级探测器的结构要简单得多。它们直接预测对象类别，由单个CNN主干生成的特征图的每个位置处的边界框。请注意，大多数最先进的对象检测器（包括一级检测器[12，16，19]和两级检测器[20]）基于每个卷积特征图位置处不同尺度和纵横比的锚框进行预测。然而，锚框的使用可能导致对象和非对象示例之间的高度不平衡并且引入额外的超参数。最近，无锚一级检测器[9，10，24，29，30]由于其简单的全卷积架构和减少的计算资源消耗而吸引了越来越多的研究兴趣2.2. 神经架构搜索NAS通常很耗时。我们已经看到了从24，000 GPU-天[32]到0的巨大改进。2GPU-天[28]。诀窍是首先构建一个包含完整搜索空间的超网，并使用双层优化和有效的权重共享一次性但是，大量的内存分配和近似优化的困难，禁止搜索更复杂的结构。最近研究人员[1，5，23]提出应用单路径训练来减少由超网的近似和模型简化引入的偏差。DetNAS [2]遵循这一思想来寻找有效的对象检测架构。单路径方法的一个限制是搜索空间被限制为顺序结构。单路径采样和权重梯度的直通估计向优化过程引入了大的方差，并且禁止在该框架下搜索更复杂的在这个非常简单的搜索空间内，NAS算法只能为手动设计的模块做出琐碎的决定，如内核大小。目标检测模型与单路径图像分类网络的不同之处在于其融合多层次特征并将任务分配给并行预测头的方式特征金字塔网络（FPN）[4，8，11，14，27]，旨在处理这项工作，在现代目标检测模型中发挥着重要作用。NAS-FPN [4]的目标是基于一级框架RetinaNet [12]搜索FPN替代方案特征金字塔结构采用递归神经网络（RNN）控制器进行采样。RNN控制器采用强化学习（RL）进行训练。然而，搜索非常耗时，即使使用ResNet-10主干的代理任务被训练来评估每个架构。由于这三种研究（[2，4]和我们的）都集中在对象检测框架上，我们展示了它们之间的差异，DetNAS [2]旨在搜索更好的主干设计，而NAS-FPN [4]搜索FPN结构，我们的搜索空间包含11945FPN和头部结构。为了加快基于RL的NAS的奖励评估，[17]的工作提出使用渐进式任务和其他训练加速方法。通过缓存编码器特征，它们能够非常有效地训练具有非常大批量大小的语义分割在本文的续集然而，直接将该技术应用于对象检测任务并没有获得类似的速度提升，因为它们要么不使用全卷积模型[11]，要么需要复杂的后处理，无法随批量大小扩展[12]。为了减少后处理开销，我们采用最近引入的无锚单阶段框架，即FCOS [24]，通过取消RetinaNet中锚框匹配的处理时间，显着提高了与基于锚点的方法相比，FCOS显著减少了训练内存占用，同时能够提高性能。3. 我们的方法在我们的工作中，我们寻找锚无全卷积检测模型与快速解码器自适应。因此，可以容易地应用NAS方法。3.1. 问题公式化我们基于我们的搜索算法上的一个阶段的框架FCOS由于其简单性。我们的训练元组{（x，Y）}由大小为（3×H×W）的输入图像张量x和FCOS输出目标Y组成金字塔表示，它是每个大小为（（K+4+1）×Hl×Wl）的张量yl的列表，其中Hl×Wl是金字塔p层上的特征图大小（K+4+1）是FCOS的输出通道，三个项分别是长度为K的独热分类标签、4个边界框回归目标和1个中心因子原FCOS中的网络g：x→Y_n由骨干b、FPNf和多层预测头h三部分组成。第一骨干b：x→C将输入张量映射到一组中级特征C={c3，c4，c5}，分辨率为（Hi×Wi）=（H/2i×W/2i）。然后FPN f：C→P将特征映射到特征金字塔P ={p3，p 4，p 5，p 6，p 7}。然后将预测头h：p → y应用于P的每个级别，并收集结果以创建最终预测。为了避免过拟合，相同的h通常应用于P中的所有实例。由于不同尺度的目标需要不同的有效感受野，因此在目标检测网络设计中，选择和合并中间层次特征C的机制尤为重要因此，大多数研究[16，20]是在设计f和h时进行的，同时使用广泛采用的主干结构，如ResNet [7]。遵循这一原则，我们的搜索目标是决定何时从C中选择哪些特征以及如何合并它们。为了提高效率，我们在目标数据集上重复使用预训练的b中的参数，然后搜索最佳结构。为了方便下面的陈述，我们调用网络组件来搜索，即f和h，一起为目标检测网络的解码器结构f和h负责检测工作的不同部分f提取以金字塔表示P中的不同对象尺度为目标的特征，而h是应用于P中的每个特征以避免过拟合的统一映射在实践中，人们很少讨论使用更多样化的f来提取不同层次的特征的可能性，或者h中需要在不同层次上共享多少层。在这项工作中，我们使用NAS作为一个自动的方法来测试这些可能性。3.2. 搜索空间考虑到f和h的函数不同，我们分别采用了两种搜索空间。针对FPN结构的特殊性，建立了一个具有新的总体连接和f输出设计的基本模块。为了简单起见，序列空间被应用于h部分。我们用原子操作替换单元结构，以提供更大的灵活性。为了构造一个基本块，我们首先从采样池X中选择两个层x 1，x 2，然后对它们中的每一个应用两个操作op1，op2，并且聚合操作agg将两个输出合并为一个特征。为了构建深度解码器结构，我们应用多个基本块及其输出添加到采样池中我们的基本块bbt：Xt−1→Xt在时间步长t将采样池Xt−1转换为Xt=Xt−1<${xt}，其中xt是bbt的输出。候选操作列于表1中。我们只包括可分离/深度卷积，以便解码器可以是有效的。为了使解码器能够在不规则网格上应用卷积滤波器，这里我们有也包括可变形的3×3卷积[31]。对于聚合操作，我们包括逐元素求和和级联，然后是1 ×1卷积。解码器配置可以由一个se表示ID描述0可分离卷积3 ×31扩张率为3的可分卷积3 ×32扩张率为6的可分卷积5 ×53跳过连接4变形3 ×3卷积表1.搜索过程中使用的一元运算11946我我1 27序列由三个部分组成，FPN配置，头部配置和重量分担阶段。我们在下面的章节中对每一个都进行了详细的描述我们的解码器结构的完整图如图所示。1.一、3.2.1FPN搜索空间如上所述，FPNf将卷积特征C映射到P。首先，我们将采样池初始化为X0=C。我们的FPN是通过应用基本块来7倍至采样池，f：=bbf<$bbf<$· ·<$bbf。为了产生金字塔特征P，我们收集最后三个基本块输出{x 5，x 6，x 7}作为{p 3，p 4，p 5}。为了允许跨所有层共享信息，我们使用创建全局特征的简单规则。如果存在未被后面的块采样的悬挂层xt，{bbf|i>t}也不属于最后三层 325。0333×#TPU17000<三十八岁。0NAS-FPN7@256 R-501125 5333×#TPU1700044. 8DetNAS-FPN-更快-442200四十2DetNAS-RetinaNet-442200三十三岁。3NAS-FCOS（我方）@256R-50189 628300039岁8NAS-FCOS（我方）@128-256X-64x4 d-101361 6283000四十六岁。1表3.与其他NAS方法的比较对于NAS-FPN，输入大小为1280×1280，搜索成本应该由用于训练每个架构的TPU数量来计时注意，这里NAS-FPN @256的FLOP和AP来自NAS-FPN [4]中的图11，NAS-FPN7@256将搜索到的FPN结构堆叠7次。输入图像被调整大小，使得它们在DetNASNet [2]和我们的模型中的较短尺寸为800像素。h，其中原始FPN是固定的，另一个是搜索整个解码器（f+h）。如表4所示，搜索f比只搜索h带来的好处略多而我们结合f和h的渐进式搜索取得了更好的结果。图9.两种不同RL奖励设计的比较。垂直轴表示从验证数据集上的代理任务获得的AP。4.3.3变形卷积如前所述，可变形卷积被包括在f和h的候选操作集合中，其能够适应对象的几何变化。为了公平比较，我们还将整个标准的3 ×3FPN中3×3可变形卷积原FCOS的结构，并重复两次，使-使用的FLOP和参数几乎等于我们搜索的解码器FPN-FCOS @256搜索空间-AP三十七4模型因此，新模型被称为DeformFPN-FCOS。事实证明，我们的NAS-FCOS模型仍然实现了更好的性能（AP = 38。9例仅使用FPN检索，以及NAS-FCOS @256仅h三十八岁。7AP =39。8与FPN和头部搜索）比NAS-FCOS @256仅f三十八岁。9DeformFPN-FCOS模型（AP = 38. （4）在这种情况下，NAS-FCOS @256f+h39岁8站姿表4.使用ResNet-50骨干网在不同搜索空间下获得的AP之间的比较。例如用于分割mIOU和用于对象检测的AP然而，我们发现，使用AP作为奖励在短期搜索轮中并没有显示出明显的上升趋势（图中的蓝色曲线）。第9段）。我们进一步分析了可能的原因是，控制器试图学习从解码器到奖励的映射，而AP本身的计算是复杂的，这使得难以在有限的迭代次数相比之下，我们清楚地看到AP的增加与验证损失作为RL奖励（图中的红色曲线）。第9段）。4.3.2有效搜索空间为了进一步讨论搜索空间f和h的影响，我们设计了三个实验进行验证。一种是在原头固定的情况下搜索f，一种是搜索302520151051002003004005006007008009001000步骤AP119525. 结论在本文中，我们提出了使用神经架构搜索，以进一步优化设计目标检测网络的过程。在这项工作中，表现最好的检测器可以有效地搜索使用精心设计的代理任务，搜索策略和模型评估指标。COCO上的实验证明了我们发现的模型NAS-FCOS的效率及其与各种骨干架构一起使用的灵活性。确认NW、YG、PW参与的这项工作得到了国家自然科学基金项目（No.61876152，No.U19B2037）的部分资助。CS11953引用[1] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。在Proc. Int. Conf.学习.代表，2019。[2] Yukang Chen ，Tong Yang ，Xiangyu Zhang，GaofengMeng，Chunhong Pan，and Jian Sun.DetNAS：对象检测的神经架构搜索。在Proc.神经信息进展。过程系统，2019年。[3] Thomas Elsken，Jan Hendrik Metzen，and Frank Hutter.神经架构搜索：一个调查。在J.马赫。学习. Res. ，2019年。[4] Golnaz Ghiasi，Tsung-Yi Lin，Ruoming Pang，and QuocV.乐NAS-FPN：学习用于对象检测的可扩展特征金字塔架构。正在进行IEEE会议对比可见光帕特识别，2019年。[5] Zichao Guo ， Xiangyu Zhang ， Haoyuan Mu ， WenHeng，Zechun Liu，Yichen Wei，and Jian Sun.采用均匀采样的单路径在 arXiv 预印本 arXiv ： 1904.00420 ，2019。[6] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。正在进行IEEE会议对比可见光帕特识别，第2961-2969页[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。欧洲药典配置文件可见，第630-645页[8] Alexander Kirillov ， Ross Girshick ， Kaiming He ， andPiotr Dollr.全景功能金字塔网络。正在进行IEEE会议对比可见光帕特识别，2019年。[9] Tao Kong，Fuchun Sun，Huaping Liu，Yunning Jiang，and Jianbo Shi. Foveabox ： Beyond anchor based objectdetector.在arXiv预印本arXiv：1904.03797，2019。[10] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在proc EUR. Conf. Comp. 目视，第734[11] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。正在进行IEEE会议对比可见光帕特识别，第2117-2125页[12] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在Proc.IEEEConf. Comp.目视帕特识别，第2980-2988页，2017年。[13] Chenxi Liu ， Liang-Chieh Chen ， Florian Schroff ，Hartwig Adam，Wei Hua，Alan Yuille，and Li Fei-Fei.自动 deeplab：用于语义图像分割的分层神经结构搜索。在proc IEEE会议Comp. 目视帕特识别，2019年。[14] Huanyu Liu ， Chao Peng ， Changqian Yu ， JingboWang，Xu Liu，Gang Yu，and Wei Jiang.用于全景分割的端到端网络。在proc IEEE会议Comp. 目视帕特识别，2019年。[15] 柳寒笑，凯伦西蒙尼扬，杨一鸣。Darts：差异化架构搜索。在Proc. Int. Conf. 学习.代表，2019。[16] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander Berg.11954SSD：单次触发多盒探测器。欧洲药典配置文件可见，第21-37页[17] Vladimir Nekrasov ， Hao Chen ， Chunhua Shen ，and Ian Reid.通过辅助细胞的紧凑语义分割模型的快速神经架构搜索在proc IEEE会议对比可见光帕特识别，2019年。[18] Hieu Pham， Melody Y. 放大图片作者：Guan ，Barret Zoph.Le和Jeff Dean。通过参数共享进行高效的神经架构搜索。在Proc. Int. Conf.马赫学习. ，2018年。[19] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3：一个渐进的改进。在arXiv预印本arXiv：1804.02767，2018。[20] 任少卿、何开明、罗斯·格尔希克、孙健。更快的R-CNN：用区域建议网络进行实时目标检测。在Proc.神经信息进展。过程系统，第91-99页[21] Mark Sandler、Andrew Howard、Menglong Zhu、AndreyZh-moginov 和 Liang-ChiehChen 。Mobilenetv2：反演残差和线性瓶颈。正在进行IEEE会议对比可见光帕特识别，第4510-4520页[22] John Schulman，Filip Wolski，Prafulla Dhariwal，Alec Rad-ford，and Oleg Klimov.邻近策略优化算法。在arXiv预印本arXiv：1707.06347，2017。[23] Dimitrios Stamoulis ， Ruizhou Ding ， Di Wang ，Dimitrios Lymberopoulos ， Bodhi Priyantha ， JieLiu，and Diana Marculescu.单路径NAS：在4小时内设计硬件高效

下载后可阅读完整内容，剩余1页未读，立即下载