没有合适的资源?快使用搜索试试~ 我知道了~
19126基于辅助单元Vladimir Nekrasov陈浩 Chunhua Shen Ian Reid澳大利亚阿德莱德大学电子邮件:{vlaidian.nekrasov,hao.chen01,chunhua.shen,ian.reid} @ adelaide.edu.au摘要为特定任务自动设计神经网络架构是一个非常有前途的,尽管本质上是困难的,探索途径。虽然这一领域的大多数成果都是在图像分类和语言建模问题上取得的,但在这里,我们专注于密集的每像素任务,特别是使用全卷积网络的语义图像分割。与上述领域相反,全卷积网络的设计选择需要几个扩张卷积-到一个更困难的优化问题的解决。在这项工作中,我们特别感兴趣的是寻找高性能的紧凑分割架构,能够使用有限的资源实时运行为了实现这一点,我们故意在训练时间期间通过一组辅助单元过度参数化架构,这些辅助单元提供中间监督信号并且可以在评估阶段期间省略。辅助单元的设计由控制器发出,该控制器是使用强化学习训练的具有固定结构的神经网络。更重要的是,我们展示了如何有效地搜索这些架构在有限的时间和计算预算。特别是,我们依赖于一个渐进的策略,终止不看好的架构进行进一步的训练,并在Polyak平均耦合知识蒸馏,以加快收敛。定量地,在8GPU天,我们的方法发现了一组架构,在语义分割,姿态估计和深度预测任务上,在紧凑的模型中表现得与 最 先 进 的 水 平 相 当 。 代 码 将 在 此 处 提 供 :https://github.com/drsleep/nas-segm-pytorch1. 介绍多年来,神经网络架构的设计一直被认为是人类专家的职责--*同等缴款。她的职责是指定使用哪种类型的架构,应该有多少层,卷积层应该有多少通道等等。这种情况不再是因为自动神经架构搜索-一种通过非人类专家(算法)预测神经网络结构的方法-正在快速增长。潜在地,这很可能意味着,该算法将在给定数据上发现一组最适合且高性能的体系结构,而不是手动地针对手头的新任务调整单个最先进的几十年前,这种算法基于进化编程策略,其中迄今为止最好的架构经历了突变,并且它们最有前途的后代必然会继续进化[2]。现在,我们已经达到了这样一个阶段,即通过在可能的架构候选人中迭代搜索并最大化保持集上的预期得分,二级神经网络(通常称为控制器)在循环中取代人类[47]。虽然这后一种方法背后缺乏理论工作,但已经取得了一些有希望的经验突破[3,48]。在这一点上,重要的是要强调这样一个事实,即这些成就需要大量的计算资源-Zoph和Le的工作超过20,000GPU-天[47],而Zoph等人则为2,000。48.虽然一些工作已经将图像分类和语言处理任务的数字减少到个位数[21,28],但我们考虑更具挑战性的密集每像素任务,这些任务为输入图像中的每个像素产生输出,并且之前没有提出有效的训练机制虽然在这里,我们只集中在语义图像分割,我们提出的methodol-logy可以立即应用到其他每像素的预测任务,如深度估计和姿态估计。在我们的实验中,我们证明了发现的分割架构,后者的问题的可转移性。值得注意的是,它们都在计算机视觉和机器人应用中发挥着重要作用,并且到目前为止一直依赖于手动设计的用于真实世界场景的准确低延迟模型19127我们工作的重点是自动发现紧凑的高性能全卷积架构,能够以低计算预算实时运行,例如在Jetson平台上。为此,我们明确地寻找不仅能提高保持集的性能,而且能促进训练阶段优化的结构。具体来说,我们考虑全卷积网络的编码器-解码器类型[23],其中编码器由预训练的图像分类器表示,解码器结构由控制器网络发出。控制器生成编码器和解码器之间的连接结构,以及要应用于每个连接路径的操作序列(形成所谓的单元)相同的细胞结构用于形成辅助分类器,其目标是提供中间监督并隐式地过度参数化模型。过度参数化被认为是深度学习模型成功背后的主要原因,一些理论工作已经在简化的情况下解决了这个问题[8,37]。除了实证结果,这是所描述的方法背后的主要动机。最后,但并非最不重要的是,我们设计了一个搜索策略,允许- mits找到高性能的架构,在短短几天内,只使用几个GPU。具体来说,我们在这里追求两个目标:(一)防止ii.)尽快实现可靠的性能评估。为了实现第一个目标,我们将搜索过程中的训练过程分为两个阶段。在第一阶段,我们固定编码器在第二阶段,我们端到端地训练整个模型我们在第一阶段之后验证性能,并终止对没有前途的对于第二个目标,我们采用Polyak平均[29]和知识蒸馏[12]来加速收敛。总之,我们在这项工作中的贡献是提出一个有效的神经架构搜索策略,每像素密度的任务,(i)允许采样紧凑的高性能架构,以及(ii.)可以在低计算平台上实时使用,例如JetsonTX2。具体而言,上述各点是通过以下方式实现的:• 制定一个渐进的战略,能够在培训初期淘汰不合格的候选人;• 通过知识提取和Polyak平均,开发一个能够快速提供可靠结果的语义分割训练计划• 寻找一个过度参数化的辅助细胞,提供更好的训练,并在推断过程中过时。2. 相关工作传统上,架构搜索方法一直依赖于进化策略[2,39,40],其中网络的种群(通常与它们的权重一起)不断变异,并且不太有希望的网络被丢弃。现代神经进化方法[22,30]依赖于相同的原理,并受益于可用的计算资源,使它们能够实现令人印象深刻的结果。估计目标函数概率密度的贝叶斯优化方法长期以来一直用于超参数搜索[4,36]。用于架构搜索的贝叶斯方法的扩展是一项正在进行的工作,并且很少有基于内核的方法已经显示出可靠的性能[14,41]。最 近 , 基 于 强 化 学 习 ( RL ) 的 神 经 架 构 搜 索(NAS)策略在图像分类和自然语言处理任务上取得了最先进的成果[3,47,48]。这些算法依赖于巨大的计算资源,包括一个单独的神经网络,即所谓的感兴趣值得注意的是,收敛需要数千次迭代和GPU天。这些方法不是从头开始搜索整个网络结构,而是倾向于寻找细胞-可以以前馈方式多次堆叠的可重复图案。最近已经提出了使NAS方法更有效的几种解决方案。特别地,Phamet al. [28]展开所有可能架构的计算图,并允许在不同架构之间共享权重。这大大减少了收敛所需的资源数量.在类似的研究中,Liuet al. [21]利用渐进策略,其中网络复杂性逐渐增加,同时并行训练排名网络以预测新架构的性能。围绕搜索问题的连续松弛已经建立了一些方法。尤其是Luoet al. [24]使用编码器将体系结构描述嵌入到潜在空间中,使用估计器预测给定嵌入的体系结构的性能。虽然这些方法使搜索过程更有效,但它们是通过牺牲搜索空间的表现力来实现的,因此可能达到次优解。在语义分割[17,18,19]中,到目前为止,所有的架构都是手动设计的,密切关注图像分类挑战的获胜者。在过去几年中出现了两个突出的方向:编码器-解码器类型[17,23,27],其中以具有空间粗糙输出掩码为代价来学习更好的特征;而其他流行的方法丢弃了几个 下采样层并且依赖于 去采样层,19128用于保持感受野大小完整的相关卷积[6,44,46]。Chen等人[7]还表明,这两种范式的结合在不同的基准测试中产生了更好的结果。在语义分割中的NAS方面,独立于我们并与我们的工作并行,Chen等人提出了一种简单的图像分类NAS方法。[5]的文件。他们随机搜索单个分割单元设计,并在7天的时间内使用近400个GPU获得富有表现力的结果。与此相反,我们的方法首先能够在很短的时间内找到紧凑的分割模型。其次,它在搜索设计和搜索方法方面有很大的不同。为了更清楚地介绍我们的想法,我们简要地回顾了知识蒸馏,Hinton等人提出的一种方法。[12]使用在当前任务上预先训练的单个(或一组)大型网络的输出来成功地训练紧凑模型在其中,预训练网络的logits被用作小型网络的额外正则化器。换句话说,后者必须模仿前者的输出。这种方法被证明可以为小网络提供更好的学习信号。因此,它已经在多个领域找到了自己的方式:计算机视觉[45],强化学习[31],持续学习[16] -仅举几例。3. 方法我们从问题的公式化开始,继续进行辅助细胞和知识蒸馏损失的定义,并得出结论与整体搜索策略。我们主要关注两个研究问题:(i.)如何尽可能快地获得对分割模型性能的可靠估计;及(ii.)如何通过过度参数化来改进分割架构的训练过程,在推理期间过时。3.1. 问题公式化我们考虑密集预测任务T,对于该任务,我们有多个训练元组{(Xi,yi)},其中Xi和yi都是具有相等空间和任意第三维度的3维张量在这项工作中,Xi是一个3通道RGB图像,而yi是一个C通道独热分割掩码,C等于类的数量,对应于提出了一种基于语义的图像分割方法。此外,我们依赖于一个带有参数θ的映射f:X→y,它由一个完全卷积的神经网络表示。我们假设网络f可以进一步分解为两部分:e-代表编码器,d-代表解码器。我们使用来自预训练分类网络的权重初始化编码器e,该网络由减少输入的空间维度的多个下采样操作组成的另一方面,解码器部分可以访问具有变化的空间和信道尺寸的编码器的多个输出。搜索的目标是选择要使用哪些特征图以及要对它们应用哪些操作接下来,我们将详细描述解码器搜索空间。3.1.1搜索空间我们将注意力限制在解码器部分,因为目前从头开始执行完整的分割网络搜索是如上所述,解码器可以访问来自预先训练的编码器的具有不同尺寸的多个层。为了保持采样架构紧凑且大小大致相等,每个编码器输出都经过具有相同数量输出通道的单个1×1卷积。我们依赖于一个递归神经网络,即控制器,来顺序地生成要使用的层的索引对,以及对它们应用什么操作特别地,该操作序列被组合以形成单元(参见图1中的示例)。①的人。相同但具有不同权重的单元被应用于采样对内的每个层,并且两个单元的输出被求和。将结果层添加到采样池中。层对的采样次数由超参数控制,我们在实验中将其设置为3,允许控制器恢复诸如FCN [23]或RefineNet [17]的编码器-解码器所有未采样的求和输出在被馈送到单个1×1卷积之前被级联,以减少最终分类层后面的通道数量每个单元格都有一个输入,控制器首先决定对该输入使用哪个操作。然后控制器通过在两个位置中的两个位置进行替换采样来进行,即,第一个操作的结果和两个相应的每个操作的输出相加,所有三个层(来自每个操作及其求和结果)以及初始两个层可以在下一步进行采样。在单元内对位置进行采样的次数由另一个超参数控制,在我们的实验,以保持所有可能的ar的数量-1 .把数量控制在可行的范围内。单元内所有现有的非采样求和输出被求和,并用作单元输出。在这种情况下,我们求助于求和,因为关联可能导致不同架构之间的可变大小的输出基于现有的语义分割研究,我们考虑11个操作:1考虑到对称-19129解码器结构向前传球辅助细胞奥克斯克勒夫选择索引输入0选择操作细胞块4concatconv1x1细胞conv1x1OP1细胞op0yconv1x1细胞CLFOP2conv1x1细胞块5输出索引1索引3索引2索引3OP1索引0索引1OP2op0012 3012 30 123 401 23 401 20 10 101 201 2选择选择选择选择选择选择选择选择选择指数指数指数指数op指数指数opop第四组第五组第一组第二样本解码器连接样本单元结构图1-编码器-解码器辅助搜索布局示例。控制器RNN(底部)首先生成编码器和解码器之间的连接(左上),然后对单元内使用的位置和操作进行采样(右上)。所有单元(包括辅助单元)共享发射设计。在这个例子中,控制器首先对两个索引(块1和块3)进行采样,这两个索引都通过相应的单元,然后求和以创建块4。然后,控制器对合并到块5中的块2和块3进行采样。由于块4未被采样,因此它与块5连接并被馈送到1×1卷积,然后是最终分类器。块4的输出还通过用于中间监督的辅助单元为了发出单元设计,控制器首先对应用于单元输入(op 1)的第一操作进行采样,然后对两个索引进行采样两个操作• conv1×1,• conv3×3,• 可分离卷积3×3,• 可分离的conv5×5,• 全局平均池化,然后是上采样和conv1 ×1,• conv3×3,膨胀率为3,• conv3×3,膨胀率为12,• 可分离卷积3×3,扩张率为3,• 可分离卷积5×5,膨胀率为6,• 跳过连接,• 零操作,有效地使路径无效。具有2个解码器块的搜索布局的示例,2个细胞分支描绘在图1中。1.一、22有关搜寻范围及抽样程序的详情,请参阅附录A3.2. 搜索策略我们将训练集随机分为两个不相交的集合- Meta-train和Meta-val。元训练子集用于在给定任务上训练采样架构(即,语义分割),而另一方面,元值用于评估训练的架构并向控制器提供标量,在强化学习文献中通常称为奖励给定采样序列,其对数概率和奖励信号,控制器通过邻近策略优化(PPO)进行优化[34]。因此,存在两个训练过程:给定任务上的采样架构的内部优化,以及控制器的外部优化我们接下来集中讨论内部循环。3.2.1进展阶段我们将内在训练过程分为两个阶段。在第一阶段,编码器权重是固定的,并且其输出是控制器RNN解码器编码器输出块0块1块2块319130put是预先计算的,而只有解码器正在训练。这导致解码器权重的快速适应和采样架构的性能的合理估计我们利用一个简单的启发式来决定是否继续训练第二阶段的采样架构具体地说,当前的奖励值正在与迄今为止看到的奖励的运行平均值进行比较,如果它更高,我们继续训练。否则,在概率为1−p时,我们终止训练过程。概率p在整个搜索过程中被退火(从0开始)。第9段)。这背后的动机很简单:第一阶段的结果虽然有噪声,但仍然可以提供对采样结构的电势的合理估计。至少,他们会提供一个可靠的信号,表明采样的架构是没有希望的,而只花几秒钟。这种简单的方法鼓励在搜索的早期阶段进行探索,类似于多臂强盗问题中经常使用的贪婪策略[42]。3.2.2基于知识蒸馏和权重平均的快速训练语义分割模型需要多次迭代才能收敛。部分地,这通过从预训练的分类网络初始化编码器部分不幸的是,解码器没有这样的东西。幸运的是,我们可以探索几种提供更快收敛的替代方案。除了定制我们的优化超参数,我们还依赖于两个技巧:首先,我们在每个阶段跟踪参数的移动平均值,并在最终验证之前应用它们[29]。其次,我们在当前架构和预先训练的教师网络的logit之间附加了一个额外的l2我们可以预先计算教师这两种方法的结合使我们能够在没有显著开销的情况下尽快获得对语义分割模型性能的非常可靠的估计3.2.3通过辅助单元的我们进一步寻找在快速搜索期间以及在语义分割模型的较长训练期间简化优化的方法因此,仍然与具有紧凑但准确的模型的目标保持一致,我们明确地旨在找到执行在训练期间有益而在评估期间过时的步骤的我们在此考虑的一种方法是在主细胞对之间的每次求和之后附加一个辅助细胞- 辅助单元与主单元相同,并且可以被调节为直接输出地面实况,或者模仿教师同时,它在训练或测试期间都不影响主分类器的输出,并且仅仅为网络的其余部分提供更好的最后,每个采样架构的奖励仍然由主分类器的输出决定为了简单起见,我们只对所有辅助输出应用分割损失。中间监督的概念在神经网络中并不新颖,但据我们所知,以前的工作仅仅依赖于一个简单的辅助分类器,我们是第一个将解码器的设计与辅助单元的设计联系我们在消融研究中证明了这样做的定量益处(第21节)。4.2)。此外,我们寻找也可以作为中间监督者的细胞背后的动机源于不断增长的经验(以及在某些假设下的理论)证据,即深度网络受益于训练期间的过度参数化[8,37]。虽然辅助单元提供了过度参数化的隐含概念,但我们可以显式地增加通道的数量,然后采取修剪。尽管如此,修剪方法往往会导致非结构化网络在运行时速度方面没有任何实际好处,而我们的解决方案只是允许在运行期间省略未使用的层。推论4. 实验我们对PASCAL VOC进行了广泛的实验,这是一个建立的语义分割基准,包括20个语义类(和背景),并提供了1464个训练图像[9]。对于搜索过程,我们通过利用BSD的注释将其扩展到超过10000个[11]。与通常所做的一样,在搜索过程中,我们保留10%的图像用于验证采样架构,为控制器提供奖励信号。对于第一阶段,我们预先计算4000张图像的编码器输出,并存储它们以进行更快的处理。该控制器是一个具有100个隐藏单元的双层递归LSTM所有的单元都是从均匀分布随机初始化的。 我们使用PPO [34]进行优化,学习率为0。0001我们网络的编码器部分是MobileNet-v2 [32],在 MS COCO [20] 上 预 训 练 , 使 用 Light-WeightRefineNet解码器[26]进行语义分割。我们省略了最后几层,并考虑层2、3、6、8的四个输出作为解码器的输入;用于编码器输出自适应的1×1卷积层在搜索期间具有48个输出通道,在训练期间具有64个输出通道。使用Xavier方案随机初始化解码器权重[10]。为了执行知识蒸馏,我们使用Light-Weight RefineNet-152 [26],并应用系数为0的损失。3、使用网格搜索。69131(1200、1600)(800,1200](400,800]【四千】RL 级 −1 RL级 −2 RS 级−1 RS级−20.3 0.4 0.5 0.6 0.7奖励第一阶段,第二阶段为1(在停止临界未被触发的情况下作为奖励信号,我们考虑三个量的几何平均值:即,(一)平均交并(IoU),或Jaccard指数[9],主要用于语义分割基准;ii.)频率加权IoU,其通过存在于每个类中的像素的数量来缩放该类IoU,以及iii.)mean-pixel accuracy(平均像素精度),即平均每个类别的正确像素数。在计算时,我们不包括背景类,因为它往往会扭曲的结果,由于大量的像素属于背景。如上所述,我们保持了奖励的运行平均值,图2-较高的峰对应于较高的密度。知识蒸馏输出是预先计算的第一阶段,并省略在第二个在时间的利益应用Polyak平均,衰减率为0的情况。九比零。99、相应的批次标准化统计数据在这两个阶段都进行了更新。我们所有的搜索实验都是在两个1080Ti GPU卡上进行的,搜索过程在4天后结束。所有运行时测量都在单个1080Ti卡上进行,或者在JetsonTX 2上进行,如果另有说明。特别是,我们执行正向传递100次,并将平均结果与标准偏差一起报告。4.1. 搜索结果对于采样架构的内部训练,我们设计了一种快速稳定的训练策略:我们利用亚当学习规则[15]的解码器部分的网络,和SGD与动量的编码器。特别地,我们分别使用3e-3和1e-3的学习率。我们对每个采样架构进行了5个epoch的预训练,0.700.650.600.55基线+Polyak +Polyak+AUX +Polyak+AUX+KD图3-在第一阶段结束后,采样架构。我们在图2中可视化了这两个阶段的奖励进度。从中可以明显看出,发出的体系结构的质量随着时间的推移而增长-甚至可能更多的迭代会导致更好的结果,尽管我们没有探索以节省时间。另一方面,虽然随机搜索有可能偶尔抽样体面的架构,它发现只有一小部分,他们在COM-基于RL的控制器。此外,我们评估了包括Polyak平均,辅助细胞和知识蒸馏对每个训练阶段的影响。为此,我们随机抽样并训练了140个架构。我们在图中可视化奖励的分布。3.所有测试设置在两个阶段上都显著优于基线,并且当使用上述所有组件时,在第二阶段上获得最高4.2. 中间监督的作用--通过中间监督细胞搜索过程完成后,我们选择RL控制器发现的10个具有最高回报的架构,并继续进行额外的消融研究,旨在评估所提出的辅助方案在允许架构进行更长时间训练的情况下的益处。特别是,我们在BSD和PASCAL VOC上训练每个架构20个时期,在PAS-CAL VOC上训练30个为了简单起见,我们省略了Polyak平均和知识蒸馏。正在测试三种不同的设置:具体地说,我们估计中间监督是否有帮助,以及辅助细胞是否优于普通的分类器这些消融研究的结果如图所示。4.辅助监督架构实现显著更高的平均IoU,并且特别地,具有辅助细胞的架构在10种情况中的8种情况下获得最佳结果,在所有设置和架构中达到3个阶段-1阶段-2搜索迭代奖励79132细胞CLF没有一[20]第20话 培训设置73类似于前面提到的,第一阶段训练了30个epoch(在COCO+BSD+VOC上),72第二阶段-50(BSD+VOC),最后一个-100(VOC仅)。在每个阶段之后,学习率减半。71此外,在最后一个阶段的中途,我们冻结了批量范数统计数据,并将学习率减半。70我们通过系数为0的辅助单元利用中间监督。3,0。25,0。2,0。15、跨越舞台69架构图4X轴上的每个刻度对应于不同的架构。4.3. 搜寻奖励与训练绩效我们进一步测量了搜索过程中获得的回报与经过更长时间训练的相同架构获得的平均IoU为此,我们从控制器探索的架构中随机抽取了30个架构:为了公平的比较,我们抽样了10个搜索性能较差的体系结构(奖励小于0。4),10个中等奖励(0。4和0。6),和10个高奖励(>0。(六)。我们在BSD+VOC和VOC上培训每个架构,如第1.1节所述。4.2,根据其奖励和平均IoU对每个进行排名,并测量斯皮尔曼排名相关系数。如可见于图5、每个阶段后的奖励之间以及最终奖励与平均IoU之间存在很强的相关性。这表明我们的搜索过程能够可靠地区分性能较差和性能良好的架构。X图6我们可视化了编码器和解码器之间的连接结构(top)以及单元设计(底部)。表示逐元素求和应用于每个分支的操作缩放到它们之间的最高空间分辨率(通过双线性插值),而定量结果见表1。3与最先进的紧凑模型相比,我们的方法发现的架构实现了具有竞争力的性能,甚至在相同的输出分辨率下,浮点运算的同时,所发现的架构可以在通用GPU卡和JetsonTX2上实时运行 4质量(Fig. 7),我们的模型能够更好地识别相似和容易混淆的类(例如,行3中Horse-Dog我们设想了最高性能AR的结构-0.70.60.50.40.30.3 0.4 0.5 0.60.7搜索:Stage-1(a) ρ= 0。93410.70.60.50.40.30.50 0.55 0.60 0.65培训:BSD+VOC/VOC(b)ρ = 0。9239图6中的架构(arch0)。通过多个分支编码不同尺度的信息,它类似于语义分割中的几个突出块,特别是ASPP模块[7]。重要的是,通过我们的方法发现的细胞在感受野大小的控制方式上不同。而ASPP仅依赖于各种膨胀率,这里以级联方式排列的具有不同内核大小的卷积此外,这种设计在计算上更有效,并且具有更高的表现力,因为中间特征很容易重用。图54.4. 完整的培训结果最后,我们从Sect. 4.2并在完整的训练集上训练每个人,4.5. 可转移到其他密集输出任务4.5.1姿态估计我们进一步应用发现的架构上的任务的姿态估计。特别是,MPII [1]和MS COCO Key-3附录B中提供了每类测量值。4有关Jetson运行时的说明,请参阅附录C5其他体系结构见附录A。解码器结构小区小区细胞浓度conv1x1细胞conv1x1单元结构conv3x3间隙Sep5x5率6conv3x3速率3Sep5x5率6ySep3x3Sep5x5率6平均IoU,%搜索:Stage-2块0搜索:Stage-2块1块2块379133模型ValmIoU,%,MADS,B帕拉姆湾输出分辨率时间,ms(JetsonTX 2/1080Ti)[32]第三十二话75.75.84.532×3269.67±0.538.09±0.53[32]第三十二话75.98.732.164×64122.07±0.5811.35±0.43[26]第二十六话76.29.33.3128×128144.85 ±0.4912.00±0.26我们的(arch0)78.04.472.6128×128109.36±0.3914.86±0.31我们的(arch1)77.12.952.864×6467.57±0.5411.04±0.23我们的(arch2)77.33.472.964×6464.60±0.338.86±0.26表1所有网络都共享同一个骨干网- MobileNet-v2。浮点数和运行时间在512×512输入上测量。对于DeepLab-v3,我们使用作者提供的官方模型。4.5.2深度估计最后,我们在NYUDv2 [35]上训练架构进行深度预测。根据之前的工作[25],我们仅使用来自Kinect传感器的具有深度注释的25K训练图像,并在表3中报告了654张图像的验证结果。在其他紧凑的实时网络中,我们在所有指标上都取得了明显更好的结果,而无需任何额外的技巧。还应注意,[25]与语义分割联合训练深度模型,从而使用额外的信息。[32]第二十六话:与你同行的人图7PASCAL VOC,以及Light-Weight-RefineNet(RF-LW)和DeepLab-v3(DL-v3)。所有的模型都依赖于MobileNet-v2作为编码器。点[20]数据集被用作我们的基准。MPII包括25K图像,其中包含40K人和16个注释的身体关节。评估指标为PCKh [33],阈值为0。5和0。1.一、COCO数据集包含250K人的200K图像,具有17个身体关节。基于对象关键点相似性(OKS)6,我们报告了10个不同OKS阈值的平均精确度(AP)和平均召回率(AR)。我们的定量结果见表2。7我们遵循Xiao等人的训练方案。[43]and do not tune调整our architectures架构.从结果中可以看出,即使与更强大的基于ResNet-50的模型相比,所发现的架构也实现了具有竞争力的性能MPIICoco模型平均值@0.5平均值@0.1APAR帕拉姆湾DeepLab-v3+[7]86.631.70.6680.7005.8ResNet-50 [43]88.533.90.7040.76334.0我们的(arch0)86.531.40.6580.6912.6我们的(arch1)87.032.00.6590.6942.8我们的(arch2)87.131.80.6590.6932.9表2使用翻转对于COCO,与[43]中相同的检测器用于所有模型。DeepLab-v3+是我们基于官方代码的重新实现。6http://cocodataset.org/#keypoints-eval7其他定性和定量结果见附录B。表3对于RMSE,abs rel 和sqr rel 值越低越好,而对于准确度(δ),值越高越好。5. 讨论和结论毫无疑问,人工设计神经结构是一项繁琐而困难的任务。在具有挑战性的密集预测问题(如语义分割)上提出紧凑且高性能的架构设计甚至更加复杂在这项工作中,我们展示了一种简单可靠的方法,可以在合理的时间和计算资源内搜索完全卷积的架构我们的方法是基于小型网络的过度参数化,使它们能够收敛到更好的解决方案。我们在PASCAL VOC上手动设计了最先进的紧凑架构,取得了有竞争力的性能,而在2个GPU卡上只搜索了4此外,best found架构在其他密集的每像素任务(姿态估计和深度预测)上也取得了出色的结果。我们未来的目标包括探索过参数化和搜索空间描述的替代方法。确认VN、CS、IRCS还得到了GeoVision CRC项目的支持回复应提交给CS。我们arch0arch1arch2RF-LW [25]CReaM [38]RMSE(直线)0.5230.5260.5250.5650.687RMSE(log)0.1840.1830.1890.2050.251绝对值相对值0.1360.1310.1400.1490.190sqr rel0.0890.0860.0930.105−δ1。250.8300.8320.8200.7900.704δ1。2520.9670.9680.9660.9550.917δ1。2530.9920.9920.9920.9900.977参数m2.62.82.93.01.579134引用[1] M.安德里卢卡湖Pishchulin,P. Gehler和B.席勒2D人体姿态估计:新的基准和最先进的分析。正在进行IEEE会议对比可见光帕特识别,2014年。[2] P. J. Angeline,G. M. Saunders和J. B.波拉克一个进化-一种构造递归神经网络的算法。IEEE Trans.神经网络,1994年。[3] B. 贝克岛古普塔,加-地Naik和R.拉斯卡使用强化学习设计神经网络架构程序国际会议学习.代表,2017年。[4] J. Bergstra,D. Yamins和D. D.考克斯 创造一门科学型号搜索:用于视觉架构的数百个维度的超参数优化。在Proc. Int. Conf.马赫学习. ,2013年。[5] L. Chen , M. D. Collins , Y. Zhu , G. 帕 潘 德 里 欧 湾Zoph,F. Schroff,H. Adam和J.史伦斯寻找高效的多尺度架构密 集 图 像 预 测 。 arXiv : 比 较 Res. Repository ,abs/1809.04184,2018.[6] L. Chen,G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。Deeplab:使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。IEEE传输模式分析马赫内特尔,2018年。[7] L. Chen,Y.Zhu,G.帕潘德里欧F.Schroff和H.Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。欧洲药典配置文件目视,2018年。[8] S. Du和J.李你关于过度参数化的力量二次激活的神经网络在proc Int. 马赫会议学习. ,2018年。[9] M. 埃弗灵厄姆湖,澳-地J. 诉古尔角K. I. 威廉斯,J.M.温和A.齐瑟曼。Pascal Visual Object Classes(VOC)国际计算机Vision,2010年。[10] X. Glorot和Y.本吉奥。理解困难训练深度前馈神经网络。在Proc. Int. Conf.人工智能&Stat. ,2010年。[11] B. 哈里哈兰山口阿贝拉埃斯湖D. Bourdev,S.Maji和J.妈-喜欢从反向检测器的语义轮廓 在proc IEEE国际会议对比可见光,2011年。[12] G. E. Hinton,O. Vinyals和J. Dean.从知识中提炼-神经网络中的边缘 Proc. 神经信息学进展过程。系统,2014年。[13] S. Hochreiter和J.施密特胡博长短期记忆。神经计算,1997年。[14] K. Kandasamy,W.Neis wanger,J.Schneider,B.Po'czos,以及E.邢神经结构搜索与bastonion优化和最佳运输。arXiv:比较Res. Repository,2018.[15] D. P. Kingma和J.BA. 亚当:一种随机的方法优 化 . arXiv : 比 较 Res. Repository , abs/1412.6980 ,2014。[16] Z. Li和D.霍伊姆 学而不忘。 在procEUR. Conf. Comp. 目视,2016年。[17] G. Lin,L.米兰角沈和我D. 里德RefineNet:用于高分辨率语义分割的多路径细化网络。正在进行IEEE会议对比可见光帕特识别,2017年。[18] G. 林角,澳-地申岛D. Reid和A.范登亨格尔。高效用于语义的深度结构化模型的分段训练细分Proc. IEEE Conf.对比可见光帕特识别第3194-3203页[19] G.林角,澳-地Shen,中国古猿A.范登亨格尔和我里德探索上下文与语义分割的深层结构化模型。IEEE传输模式分析马赫内特尔,2017年。[20] T.林,M。迈尔,S。J. Belongie,J. Hays,P. Perona,D.Ra-manan,P. Doll a'r和C. L. 齐特尼克MicrosoftCOCO:上下文中的常见对象 在proc EUR. Conf. Comp. 目视,2014年。[21] C.刘湾,澳-地Zoph,M. Neumann,J. Shlens,W.瓦湖,加-地李鹏说,L. Fei-Fei,A. L. Yuille,J. Huang,和K.墨菲渐进式神经结构搜索。欧洲药典配置文件可见,2018年。[22] H. 刘先生,K. 西蒙尼扬O. 维尼亚人C. 费尔南多和K. Kavukcuoglu用于高效体系结构搜索的分层表示。程序国际会议学习. 代表,2018年。[23] J. Long,E.Shelhamer和T.达雷尔。完全卷积语义分割的网络。正在进行IEEE会议对比可见光帕特识别,2015年。[24] R. Luo,F.田氏T.Qin和T.刘某神经结构优化mization Proc. 神经信息学进展过程系统,2018年。[25] V. Nekrasov, T. 达摩西丽, A. 斯佩克 T. 德拉蒙德C.沈和我D.里德使用非对称注释的实时联合语义分割和深 度 估 计 。 arXiv : 比 较 Res.Repository ,abs/1809.04766,2018.[26] 诉涅克拉索夫角沈和我D. 里德轻型精炼网用于实时语义分割。在《英中机器视觉学报》上。Conf. ,2018年。[27] H. Noh,S. Hong和B.韩 学习反卷积网进行语义分割。正在进行IEEE国际配置文件目视,2015年。[28] H.范,M。Y.关湾,澳-地Zoph,Q. V. Le和J. Dean. Ef通过参数共享进行有效的神经结构搜索在程序国际会议马赫学习. ,2018年。[29] B. T. Polyak和A. B.朱迪茨基随机近似的平均加速。SIAM Journal on Control and Optimization,1992.[30] E. 真的S穆尔,A.Selle,S.Saxena,Y.L. 末松,J. Tan,Q. V.Le和A.库拉金图像分类器的大规模进化。在Proc. Int. Conf.马赫学习. ,2017年。[31]A. A. Rusu,S.G. 科尔梅纳雷霍角Gu?lcehre,G.德雅丹,J. Kirkpatrick,R.帕斯卡努河谷Mnih,K. Kavukcuoglu和R. 哈 德 塞 尔 政 策 升 华 。 程 序 国 际 会 议 学 习 .Representations,2016.[32] M. Sandler , A. G. Howard , M. Zhu , 中 国 茶 青 冈 A.Zhmoginov和L.尘反演残差和线性瓶颈:用于分类、检测和分割的移动网络。Proc. IEEE Conf.对比可见光帕特识别,2018年。[33] B. 萨普和B。Taskar MODEC:多模式分解-人体姿态估计的可行模型 在proc IEEE Conf. Comp. Vis.帕特识别第3674-3681页[34] J·舒尔曼, F. 沃尔斯基 P. Dhariwal, A. 雷德福,还有O.克里莫夫近似策略优化算法。arXiv:比较Res.Repository,2017.[35] N. Silberman,D. Hoiem、P.Kohli和R.费格斯。室内79135分割和支持从RGBD图像的推断。在Proc. EUR. Conf. Comp. 目视,2012年。[36] J. Snoek,H.Larochelle和R.P. 亚当斯机器学习算法的实用在Proc. Advances in Neural Inf.过程系统,2012年。79136[37] M. Soltanolkotabi,A. Javanmard和J. D.李你对过参数化浅层神经网络优化前景的理论分析. IEEE Transactionson Information Theory,2018。[38] A.斯佩克Dharmasiri和T.德拉蒙德 CReaM:Con-使用卷
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功