协同多任务神经架构搜索与硬件感知提高边缘设备上的密集预测

113 浏览量更新于2023-10-16 收藏 715KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1400使用协同多任务神经架构搜索Thanh Vu1*Yanqi Zhou2Chunfeng Wen3<$Yueqi Li3Jan-Michael Frahm1Chapel Hill2谷歌研究第三季第3集TheMoonshotFactory{tvu，jmf} @cs.unc.edu@ google.com{fannywen，yueqili} @google.com151050-50 25 50 75 100GFLOPS图1：我们提出的方法的概述。首先，EDNAS框架利用多任务密集预测（MT-DP）和硬件感知NAS的协同和联合学习左边是这些组件的协同关系的图示。其次，JAReD损失减少了深度估计噪声，并进一步提高了准确性。右边是我们提出的技术在CityScapes上的性能，与最先进的MT-DP方法相比摘要在这项工作中，我们提出了一种新颖的可扩展的解决方案，以解决在边缘平台上开发高效密集预测的挑战我们的第一个关键见解是，多任务学习（MTL）和硬件感知神经架构搜索（NAS）可以协同工作，大大有利于设备上的密集预测（DP）。实证结果表明，这两种范式的联合学习在提高DP准确性方面令人惊讶地有效，与单任务NAS的迁移学习和MTL中的现有最先进方法相比，都具有优异的性能，所有这些都只有1/10的计算量。据我们所知，我们的框架，命名为EDNAS，是第一个成功地杠杆年龄的协同关系的NAS和MTL的DP。我们的第二个关键见解是，多任务DP的标准深度训练可能会对MTL评估造成显著的不稳定性和相反，我们提出了JAReD，一种改进的，易于采用的联合绝对相对深度损失，*在X实习期间完成的工作†在X时完成的工作。这减少了高达88%的不期望的噪声，同时提高了精度。我们对标准数据集进行了广泛的评估，对强基线和最先进的方法进行了基准测试，并对发现的最佳架构进行1. 介绍近年来，计算机视觉在许多下游边缘应用中得到了很好的整合，例如自动驾驶[2，11，38，44，52，65，68]，移动视觉，Sion [16，24，25，60，61，63]，机器人[27，35，42]，甚至计算农业[12，28，37]，由深度神经网络的快速创新推动。在许多这些应用程序中，像素级密集预测任务，如语义分割或深度估计可以发挥关键作用。例如，自动驾驶智能体正在使用语义和深度信息来检测车道，避开障碍物并定位自己的位置。在精准农业中，这些任务的输出可用于作物分析、产量预测、多任务学习精度速度负无代理转移目标减排任务边缘上的稠密预测硬件-Aware NAS速度精度扩展性相对准确度增益（%）1401L现场机器人导航等。随着越来越多的神经模型被部署到现实世界中，多年来对开发用于密集预测的边缘高效架构的兴趣不断增长。然而，为边缘设备设计快速有效的密集预测模型是一项挑战。首先，像素级预测（如语义分割和深度估计）从根本上比其他一些流行的视觉任务（包括图像分类或对象检测）慢这是因为在将输入图像编码为低空间分辨率特征之后，这些网络需要对其进行上采样以产生高分辨率输出掩码。事实上，密集估计可能比它们的对应物慢几倍甚至一个数量级，这取决于特定的模型，硬件和目标分辨率。因此，实时密集预测模型不仅在设计上是不平凡的，而且它们可以容易地成为利用其输出的系统中的延迟瓶颈。对于像Coral TPU[13]这样的平台上的边缘应用程序，由于有限的计算资源，尽管需要低延迟，例如，以实时通知用户其次，为这些边缘环境开发模型一方面，建筑设计过程需要大量的时间、人力和专业知识，开发过程从几个月到几年不等另一方面，边缘应用可能需要部署在各种平台上，包括手机、机器人、无人机等。不幸的是，为一种硬件发现的最佳设计可能无法推广到另一种硬件。所有这些共同对开发快速有效的边缘密集预测模型提出了挑战。为了解决这些问题，我们的第一个关键见解是密集预测的多任务学习（MTL-DP或MT-DP）和硬件感知神经架构搜索（h-NAS）可以协同工作，不仅相互受益，而且还显着提高准确性和计算。据我们所知，我们的框架，命名为EDNAS1，是第一个成功地利用NAS和MTL的这种协同关系进行密集预测。事实上，一方面，用于多任务密集预测的最先进方法[4，22，36，40，53，58，66]，其中相关任务一起联合学习，主要集中在学习如何在任务之间有效地共享一组固定的模型组件，但不考虑这样的集合本身是否是MTL开始时的最佳选择。此外，这些作品通常研究针对强大的图形加速器（如V100 GPU）进行推理的大型模型，并且不适合边缘应用。另一方面，NAS方法旨在自动学习神经元组件及其连接的最佳集合。但目前“通过多任务NAS实现边缘高效的密集预测”的缩写文献通常集中在简单的任务，如分类[7，33，62]或单任务训练设置[19，34]。相比之下，我们联合学习MTL-DP和NAS，并利用它们的优势来解决上述问题，从而产生一种新颖且改进的方法来有效地进行边缘密集预测。我们的第二个关键见解是，MTL-DP中使用的标准深度估计训练可能会在评估准确性方面产生显著波动。实际上，我们的分析揭示了绝对深度和相对深度的潜在不期望的大变化我们假设这是由标准的深度训练实践造成的，1损失函数这可能会造成严重的负面影响-影响MT-DP评估的准确性，因为任意的重要的是，我们要提高对这一问题的认识，并适当解决这一问题，因为分割和深度信息可以说是边缘应用中最常见的两个共同学习和使用的任务为此，我们提出了JAReD，这是一种易于采用的增强损失，可以联合并直接优化相对和绝对深度误差。建议的损失是非常有效的，同时减少噪音波动和提高整体预测精度。我们对CityScapes [14]和NYUv2 [50]进行了广泛的评估，以证明EDNAS和JAReD损失的有效性和稳健性。实验结果表明，我们的方法可以产生显着的收益，高达DP精度分别为+8.5%和+10.9%，大大高于先前的技术水平，参数和FLOP计数仅为1/10①的人。2. 背景及相关作品一般来说，密集预测模型通常是手动设计的，孤立的，或者不一定受到有限边缘计算的约束[10，27，34，35]。具体来说，用于密集预测的多任务学习（MTL-DP）[4，5，20，22，53，58]的工作通常采用固定的基础架构，如DeepLab [9]，并专注于学习有效共享的组件，例如。通过跨任务通信模块[5，20]，自适应树状分支[4，22，58]、跳层[53]等。（图2）。另一方面，神经架构搜索（NAS）研究到目前为止主要集中在图像分类问题[1，7，29，33，39，62]或孤立的学习任务[19，34，54，67]。很少有人探索密集预测任务的联合训练的架构然而，如前所述，边缘效率可能使MTL-DP和NAS都受益。据我们所知，我们的研究是第一个报告成功联合优化这两个学习范式的密集预测。接下来，我们将概述MTL和NAS这两个领域详情请参阅1402(a) 硬参数共享[36，66]（b）学习分支[22，4，58]（c）学习跳过层[53]（d）搜索层（我们的）图2：与现有方法的概念比较虽然目前的MT-DP方法专注于如何更好地共享一组固定的层，但我们反而学习了更好的层集合来共享。红色的组件是可学习的，而其他组件是固定的这些全面的调查：MTL [8，15]，密集预测的MTL[59]，NAS [46]和硬件感知NAS [3]，。神经架构搜索（NAS）。在过去的几年里，神经架构搜索（NAS）已经成为一种自动化网络设计过程的解决方案。NAS方法已经显示出显著的进步，并且超过了许多手工制作的模型[34，54，55，56]。在我们的案例中，我们对硬件感知NAS感兴趣[6，63，67]，它可以发现适合一个或多个目标边缘平台的高效架构。这通常是通过将硬件感知NAS作为多目标优化问题[6，54，63]并添加硬件成本（例如延迟，内存和能量）以及预测准确性来指导搜索来完成的。然而，目前的研究往往集中在图像分类[1，7，29，33，39，62]或孤立的学习任务[54，67]。然而，同时执行多个密集预测任务可以对推理速度和准确性都有显著的好处，因为任务可以将彼此的训练信号作为归纳偏差来杠杆化，以因此，我们有兴趣将硬件感知NAS与密集预测任务的多任务学习相结合，以在边缘设备上实现更好的准确性和更好的推理速度为此，只有有限数量的研究[4，22，53，58]开始探索类似的问题，我们将在下面讨论。用于密集预测的MTL。多任务学习（MTL）[8，15]的目标是共同学习多个任务，以利用跨任务信息来提高每个任务的预测质量。在边缘应用的背景下，我们也对MTL的属性感兴趣，该属性让任务共享计算并在一次通过中输出多个任务预测，从而提高整体推理速度。这对于密集预测特别有用，因为它们往往比分类[24，26，48，55，56]或检测[57，64]等对应物在计算上更昂贵。实现这一目标的MTL的一个流行公式被称为硬参数共享（ HPS ） [36 ， 66] 。与软参数共享（SPS）[20]相比，由于单独的每个任务子网络，其多任务模型大小与任务数量呈线性HPS模型由于其紧凑的架构结构而更加边缘友好。具体而言，HPS架构通常由提取所有任务的联合特征的共享主干和最标准的设置是让所有任务头在同一点分支[36]。这也是我们在这项工作范围内选择的设置。此外，最近的研究已经开始探索从数据中学习自适应共享架构的策略[4，22，40，53，58]。Attention [40]和Layer-skipping[53]已被用于有效地学习单个共享模型，同时修改其行为以输出所需的特定于任务的预测。其他研究[4，22，58]选择通过学习任务的分支来增强HPS架构换句话说，学习的模型可能有多个分裂点，其中一些任务可以更早地分支，而另一些任务则共享更多的层。这些方法的一个共同主题是，给定一个固定的起始架构，重点是学习这种网络的哪些组件应该共享。我们的工作将重点转移到基础网络，而是询问在这种架构中应该包含哪些组件，以最好地受益于多任务密集预测。3. 方法3.1. EDNAS：联合MTL-DP和h-NAS协同学习。我们的主要想法是，我们可以利用多任务推理来显著减少多个密集预测任务的计算，同时利用硬件感知NAS来同时改善边缘延迟、设计可扩展性和多任务学习。MT-DP和NAS这两种范式的结合，不仅有利于边推理，而且有利于彼此。图1说明了这些关系。首先，关于边缘应用，一次输出多个预测的多任务模型[59]是有吸引力的，因为它们在任务之间共享计算，以避免多个推理运行并通过设计线性改善整体延迟。然而，这种多任务设置也会导致性能下降，称为负迁移。虽然大多数目前的作品将这个问题归因于神经元组件的不适当共享，但我们...1403------S.T. mi=Ymwi，j假设流行的基础网络（如DeepLab [9]-ResNet [23]）的组件可能针对其原始的单个任务进行了很好的调整例如，当任务数量增加时，某些层可能需要更多通道来捕获所需的细微差别特征。此外，这些模型可能需要部署在不同的边缘平台上，因此需要相应地优化其组件。这促使我们探索NAS作为一种系统的和可扩展的方法，以发现可能更适合多任务学习和边缘推理的组件其次，从NAS的角度来看，直接搜索多任务架构可能会产生更好的重新配置，准确但昂贵的基准测试方法使用真实的物理设备，便宜但不准确的基准测试方法使用代理度量，如FLOP、MAC或参数数量。此外，通过不同地配置这样的模拟器，我们可以注入特定于硬件的信息并使搜索偏向于适应不同的目标边缘平台。与以前的工作不同[54，67]，我们使用简单但有效的指标和任务的嵌套加权积将Acc（）的概念扩展到多任务设置。令Mi=Mi，1，Mi，2，.，m i，K是任务 T i 的感兴趣的度量的集合，例如， mIoU 、PixelAcc用于语义分割。我们的多任务Acc（）可以表示为：结果比转移单任务搜索架构到多任务设置后NAS。在某种程度上，我们正在删除一个代理目标及其假设，即适用于分割等单个任务的架构也Acc（a，T，wa）=我是1/NMi（六）最适合多任务学习。硬件感知多任务目标。给定一个固定集合2001年1月1日至2003年12月31日，i、j（七）N个任务T=T1，T2，. T N，我们将问题公式化多任务NAS作为一个多目标搜索。我们的目标是发现最佳模型，对于T中的所有任务都具有高准确性，并且在特定边缘设备上具有低推理延迟。设a是具有从搜索空间A采样的权重wa的架构，并且h是目标边缘硬件。我们的优化可以表示如下：maxRwd（a，T，h，wa）（1）一个新的S.T.wa=argminLoss（a，T，wa）（2）Wa和Lat （ a ， h ） ≤lh（3），其中Rwd（）是目标或奖励函数，lh是取决于硬件的目标边缘延迟，应用领域。受[54]的启发，我们使用奖励函数Rwd（）的加权乘积来联合优化模型的准确性和受硬件相关要求约束的延迟，如推理延迟、芯片面积、能量使用等。这允许灵活的定制，并鼓励多目标学习的帕累托最优解[17]。在这项工作中，我们专注于推理延迟Lat（a，h）作为主要的硬件约束。αLat（a，h）βLJ这种扩展的公式是直接的和可扩展的，即使当任务或指标的数量增加。由于我们的目标是发现多任务网络，这些网络可以在所有任务中表现良好，而不会对单个任务产生偏见，因此我们在制定过程中平等对待所有任务奖励。边缘友好的基础架构。以前的作品[4，22，36，53，58]通常使用更大的网络，如ResNet[23]或VGG [51]骨干与ASPP [9]解码器。然而，由于其有限的计算资源，此类模型不适合Coral TPU [13]等边缘平台。为此，我们提出使用Efficient-Net [55，56]骨干和BiFPN融合模块[57]，这些模块已被证明具有显著更好的FLOP和参数效率（例如，一个数量级低）相比，他们的同行[32，55，57，67]。这些优点使它们成为构建边缘友好模型的有希望的候选模块。为了在节省计算的同时生成多任务输出，我们在所有任务中共享大部分网络，包括EfficientNet骨干和BiFPN模块，并且仅使用小的每个任务头。这使我们的模型保持紧凑，并避免随着任务数量的增加而显着增加大小。我们也将Swish激活和基于注意力的融合替换为Rwd（a，T，h，wa）=Acc（a，T，wa）H（四）[55]中的ReLU6和Sum运算，以进一步提高效率。在边缘的科学我们平衡紧凑的高效网络-S.T.β=p如果Lat（a，h）≤lhq否则（五）使用4个BiFPN融合模块代替3个类似模块的骨[57]以提高准确性。多尺度融合模块从主干的3-7级获取特征{P3，P4，P5，P6，P7}.Σ1404我们使用内部循环精确性能模拟器，以估计NAS期间这提供了一个中间地带，这些组件共同构成了我们的边缘友好型基础架构，我们将使用它作为NAS的种子和评估MTL性能的基准模型。1405L×L×LJared改善%↑ 0.8↓ 36.0↓ 4.7↓ 56.8↓ 8.6↓ 87.8表 1：深度估计噪声和JAReD 损失。我们使用标准1在CityScapes上训练了一个用于分割和深度预测的模型，并提出了JAReD损失。在3次运行中获得平均值和标准差。除了mIoU，低一点更好。边缘友好搜索空间。现代NAS通常保留基本体系结构的某些方面，以保持搜索空间易于处理并降低计算成本。因此，重要的是要有一个良好的初始化体系结构，以种子搜索。为此，我们利用上面设计的基础架构和Pyglove [43]，这是一个Python AutoML库，支持通过符号程序对NAS组件进行灵活的层级突变对于多任务评估来说是有问题的，因为一个模型可能纯粹偶然地任意地和错误地此外，这甚至可能通过等式4中的目标函数中的噪声任务准确度来干扰联合学习MT-DP和NAS换句话说，如果训练精度本身不稳定且不可靠，NAS识别良好的架构将是一个挑战。联合绝对-相对深度我们假设噪声深度结果是由于流行的MT-DP训练[36，53，59]仅依赖于1个损失，其专注于优化绝对深度并且仅隐式学习相对深度。对于单眼设置，由于尺度模糊性，直接学习绝对深度是不适定的和具有挑战性的[18，31]。相反，我们建议使用加权相对误差分量来增加标准损失，从而产生联合绝对-相对深度损失或JAReD：L=1Σ|y−y|+λ1π。 y−y（八）明.这使我们能够有效地转换静态-JAReDNN.y.Net主干到一个可调的搜索空间，通过用PyGlove的mu-table对象替换任何标准计算节点，例如。将Conv 2d（ kernel=3 ）转换为 Conv 2d （ kernel=oneof（[3，5，7]））。此外，我们扩展了搜索空间，以包括融合IBN [56，64，67]模块以及标准的反向瓶颈（IBN）[48]。尽管激发了更多的可训练参数，但如果战略性地放置，融合IBN可能会在边缘设备上提供更好的效率，例如。通过NAS。这是因为工业加速器比它们的依赖性同行更适合常规卷积，例如。导致某些张量形状和核尺寸的加速[64]。我们的最终搜索空间由以下每层决策定义：• 图层类型：{IBN，融合IBN}• 内核大小：{3，5}• 输出通道倍增器：{0.5，0.75，1.0，1.5}• 膨胀比：{3，6}对我们的基本EfficientNet主干的所有16个IBN块执行搜索，以及其他搜索参数，产生大小为（2 <$2 <$4<$2）16= 280<$1的表达性搜索空间。2E24.3.2. 深度估计噪声和JAReD损失深度估计的不稳定性。在我们的研究中，我们发现深度预测的准确性在相同设置的不同训练运行中可能会有很大的这在表中进行了说明。1通过标准深度培训的结果，1个损失。请注意，深度误差的标准差在相同的运行中，分别为4.4%和4.1%，高于分割mIoU。如此大的变化选项卡. 1表明，JAReD可以帮助显着降低深度估计噪声-所有任务的STD都降低了，特别是相对误差的波动降低了87.8%。此外，JAReD可以同时提高精度，绝对误差和相对误差分别下降了4.7%和8.6%。4. 实验4.1. 设置数据集和任务。我们使用两个流行的多任务密集预测数据集来评估我们提出的方法：[14]第二季第14集CityScapes包含2975张训练图像和500张驾驶场景的验证图像，而NYU-v2由1449张密集标记的RGBD室内图像组成我们使用AdaShare提供的预处理版本 [53]。我们共同学习CityScapes的语义分割（19类）和深度预测对于NYU-v2，我们研究了分割，深度预测和表面法线估计的3任务学习。基线。我们采用标准的做法来评估我们提出的技术对单任务（ST）和香草多任务（MT）的版本，这是有效的，在我们的情况下，基于。我们将这些称为边缘基线。为了进行公平的比较，我们参考AdaShare [53]使用的训练超参数来匹配它们的基线性能，并且只比较相对的改进。实施详情。对于所有实验，我们使用EfficientNet-B 0[55]作为我们的骨干。我们使用正则化进化[45]作为我们的搜索控制器，因为它可以用更少的搜索时间产生紧凑和准确的模型深度损失Miouσ%AbsEσ%RelEσ%L138.638.92.51.60.017630.016804.41.90.35410.32374.10.51406--联系我们模型分段深度分段深度平均值方法#PGFLOP速度MiouPACC AbsERelE简体中文PAccAbsERelE公司简介TD∆TST基线[53]42.687.1-40.2074.70.0170.330-------MT基线[53]21.343.6-37.7073.80.0180.340-6.2-1.2-5.9-3.0-3.7-4.5-4.1[41]第四十一话42.648.4-40.3074.30.0150.300+0.2-0.5+11.8+9.1-0.1+10.4+5.1机场[47]42.648.4-39.8074.20.0160.310-1.0-0.75.96.1-0.8+6.0+2.6[21]第二十一话44.150.1-41.5074.20.0170.3103.2-0.70.06.1+1.3+3.0+2.2MTAN [36]51.357.9-40.8074.30.0150.320+1.5-0.5+11.8+3.0+0.5+7.4+3.9丹麦[1]23.951.2-38.0074.20.0170.370-5.5-0.70.0-12.1-3.1-6.1-4.6AdaShare [53]21.387.1-41.5074.90.0160.3303.20.35.90.0+1.8+2.9+2.3ST edge baselineMT edge baselineEDNASEDNAS+JAReD3.43.44.34.32.31.24.14.1×1.0×1.2×1.3×1.340.0438.6446.5246.1188.6888.4990.6190.47.0157.0171.0143.0143.340.354.316.281--3.5+16.2+15.1--0.2+2.2+2.0--8.5+8.9+9.1--4.1+6.9+17.4--1.9+9.2+8.6--6.3+7.9+13.3--4.1+8.5+10.9表2：两项任务的CityScapes结果。最好的数字用粗体表示，第二好的数字用下划线表示。ST代表单一任务。MT代表多任务。我们将FLOP乘以需要多次运行以获得不同的每个任务预测的方法的任务数。FLOP计数单位为千兆（G），参数计数单位为百万（M）。这两者以及我们模型我们参考[53]中的表8和表11以及其第一作者，以获得先前作品的完整测量结果分段深度表面法线平均方法mIoUPACCAbsERelE平均值θ 11θ 22θ 30°TST边缘23.158.30.500.2013.850.881.290.8-MT边缘19.554.80.550.2216.541.973.085.1-11.3ST [53]27.558.90.620.2517.534.973.385.7-[第53话24.157.20.580.2316.642.573.284.6+2.0MT边缘19.554.80.550.2216.541.973.085.1-0.1表3：NYUv2基线。 ST和MT是来自[53]的先前大规模模型，而edge表示我们的边缘友好基线从而缩短了实验周期。尽管如此，我们希望其他控制器，例如。PPO [49]，如以前的作品[54，67]所使用的，也可以工作。我们使用Adam [30]优化器和余弦学习率调度器进行所有训练，包括NAS期间的代理任务和最佳候选者的最终训练，以减少超参数调整工作。对于完整的训练，我们对每个模型训练3次，并取类似于表1的平均结果来减少噪音。所有模型都是从头开始训练的，没有任何预先训练的权重。我们通过在CoralEdgeTPU [13]上对模型进行基准测试来获取挂钟延迟测量。补充资料载有进一步的详情评估指标。我们使用平均交集超过并集（mIoU）和像素精度（PAcc）进行语义分割，并使用平均绝对误差（AbsE）和平均相对误差（RelE）进行深度预测。对于NYU-v2上的表面法线估计，我们使用所有像素的平均角度距离误差（MeanE），以及角度距离小于阈值θ11的像素的百分比。25度22度5°、30 °，分别记为θ11、θ22、θ30。根据其他作品[40，53，59]，我们计算一个单一的评价分数相对于单任务基线，对所有任务Ti的所有相对增益Ti求平均。我们的补充材料中提供了这些指标的正式定义。4.2. 结果用于2任务CityScapes的EDNAS。选项卡. 2显示了我们在CityScapes数据集上进行19类语义分割和深度估计的2任务学习的实验。在这个实验中，MT边缘基线和它的大规模对应物共享相同的-4.1的BMPT，表明它们都经历了类似水平的负迁移和MTL难度。在[53]之后，我们提出了相对于ST基线模型的MTL增益。所提出的EDNAS 表现出很强的多任务性能，其最大阈值T=+8.5，优于所有先前的方法。由于MT边缘基线的完整训练和EDNAS发现的架构是相同的，因此它表明与普通多任务模型相比，联合MTL-DP和NAS可以产生+8.5 -（-4.1）= +12.6的优异相对改进。贾瑞德损失。从Tab。2，我们看到，所提出的JAReD损失能够大大改善深度估计，相对增益为13.3%。这反过来又进一步加强了整体多任务性能，在EDNAS已经很强的结果（EMT =+8.5）之上显著提高了+2.4。总之，我们提出的两种技术在4个单独指标中的3个指标上优于所有以前的方法，即 PIMIoU ， PIMPAcc 和PIMRelE，以及所有平均指标，即PIMTS，PIMTD和PIMT。边缘有效推理。关于边缘效率，与现有的基于ResNet的方法相比，ED-NAS和EDNAS+JAReD仅使用1/5的更重要的是，EDNAS发现的模型实际上能够保持与普通MT基线相同的设备速度，即使不是稍微快一点，尽管有+12.6的改进。与单独的单任务推理相比，这相当于延迟提高了30%，并且进一步1407Seg深度表面法线Avg方法mIoU PAccAbsE RelE平均值Eθ 11θ 22θ30公司简介TD∆TMT基线[53]24.157.20.580.2316.642.573.284.6----[41]第四十一话25.457.60.580.2317.241.470.582.9+3.0+0.0-3.0+0.0机场[47]23.856.90.580.2417.238.971.883.9-0.9-2.2-3.7-2.3[21]第二十一话21.653.90.660.2617.137.473.785.6-8.1-13.4-3.3-8.3MTAN [36]26.057.20.570.2516.643.773.384.4+3.9-3.5+0.7+0.4丹麦[1]23.954.90.970.3117.136.073.485.9-2.4-51.0-4.1-19.2AdaShare [53]30.262.40.550.2016.645.071.783.0+17.2+9.1+0.5+8.9大地电磁边缘基线19.554.80.550.2216.541.973.085.1----EDNAS22.157.70.510.2014.349.579.289.4+9.3+8.2+11.3+9.6EDNAS+JAReD22.158.10.510.2012.656.183.992.4+9.7+8.2+20.3+12.7表4：三任务NYUv2结果。我们感兴趣的任务包括40类语义分割，深度估计和表面法线估计。最好的数字用粗体表示，第二好的数字用下划线表示。ST代表单任务，MT代表多任务。我们将FLOP乘以需要多次运行以获得不同的每个任务预测的方法的任务数。先前工程的测量结果见[53]模型分段深度分段深度平均值方法#PGFLOP速度MiouPACC AbsERelE简体中文PAccAbsERelE公司简介TD∆TST边缘基线ST边缘+最大LRST edge+maxLR+JAReD3.43.43.42.32.32.3×1.0×1.0×1.040.0455.0255.0288.6892.2992.29.0157.0121.0116.340.288.168-+37.4+37.4-+4.1+4.1-+23.2+26.7-+15.3+50.5-+20.7+20.7-+19.3+38.6-+20.0+29.7ST edge+maxLR+JAReD3.42.3×1.055.0253.8058.1757.9758.5492.2991.9492.7892.7392.78.0116.0124.0118.0119.0117.168.159.156.158.156--2.2+5.4+5.7+6.4--0.4+0.5+0.5+0.5--7.4-2.9-1.8-1.3-+5.7+6.2+7.4+7.4--1.3+3.1+2.9+3.5--0.9+2.8+1.6+3.1--1.1+3.0+2.3+3.3MT edge+maxLR+JAReD3.41.2×1.2Ttransfer：NAS-Seg→− MT4.12.5×1.3Ttransfer：NAS-Dep→− MT3.62.5×1.3EDNAS+maxLR+JAReD4.34.1×1.3表5：CityScapes的更强基线 ST边缘基线和ST边缘+maxLR具有相同的训练设置，唯一的例外是它们的学习率分别为3e-4和1 e-2这证明了我们提出的联合学习的好处，可以发现和训练更好的多任务架构，以便在边缘平台上进行密集预测。推广到3-Task NYUv 2。与MT基线具有类似准确度下降的Cityscapes不同，对于NYUv 2，我们注意到MT边缘基线（MT=-11.3）和大规模MT模型（MT=+2.0）中的负转移3.这表明，在NYUv2数据上进行多任务训练对于计算有限的边缘模型可能更具挑战性由于MTL困难水平的这种差异，我们直接使用MT模型（而不是ST模型）作为基准来衡量所获得的改进请注意，尽管与ST边缘设置相比存在如此大的差距，但我们的MT边缘模型仍与先前研究的计算量大的ST基线相当，其中可忽略的ST边缘T=-0.1。NYUv2结果来自Tab。4显示EDNAS和JAReD继续在基线上实现一致和显著的改进（平均可信度分别为+9.6和+12.7），与我们在Cityscapes上观察到的相似。更强基线的稳健性。为了进一步证明EDNAS作为发现用于密集预测的更好的多任务架构的解决方案的鲁棒性，我们感兴趣的是用更强的基线来检查其性能（表1）。（五）。虽然之前的工作[53]只使用了1 e-4到1e-3的学习率，但我们也用其他学习率进行了实验，当简单地提高学习率同时保持其他设置相同时，我们观察到了性能的巨大跳跃，即ΔT=+20.3我们利用这种简单的调整来获得更强的边缘基线，最大学习率为maxLR= 1 e-2。更进一步，我们将JAReD损失添加到我们的ST边缘基线中，以证明JAReD损失的有效性，即使对于单任务深度估计也是如此，并获得我们最强的基线用于评估。我们用类似的设置（+maxLR和+JAReD）训练EDNAS发现的架构的结果说明了我们提出的方法的强度，其相对多任务增益为3.3.我们强调，+3.3，尽管比我们迄今为止看到的改进要小，但仍然可以与Tab中显示的大多数最先进的方法进行比较。2，这是在一个+30%强ST基线之上1408指数层步幅内核滤波器膨胀指数层步幅内核滤波器膨胀0Conv2d2332–0Conv2d2332–1FusedIBN131611FusedIBN132412伊本253662伊本233663FusedIBN152463伊本133664FusedIBN236064FusedIBN254065FusedIBN134035FusedIBN154036FusedIBN2512036伊本238067伊本1312037FusedIBN1312038FusedIBN158068FusedIBN138069FusedIBN1516869FusedIBN13168310FusedIBN1584310FusedIBN1356611FusedIBN1584611FusedIBN13112312FusedIBN25288312FusedIBN25192613FusedIBN1396313FusedIBN13192614FusedIBN1396614伊本15192315FusedIBN1396315伊本15192316FusedIBN15160616FusedIBN152403表6：EDNAS发现的主干架构-二、联合学习vs迁移学习选项卡. 5还示出了当与NAS发现的单任务模型到多任务设置的转移相比时EDNAS的性能。虽然与我们的基线ST和MT模型相比，转移架构可以带来相当大的改进此外，还重要的是注意到，与所传递的分割模型的性能增益相比，所传递的深度估计网络的性能增益因此，我们可能无法提前知道哪些特定任务比其他任务传输得更好，这进一步说明了我们的EDNAS的功能和优势。EDNAS-Found架构分析。选项卡. 6给出了由ED-NAS发现的用于CityScapes上的多任务分割和深度估计的骨干架构的总结。这是与CityScapes实验部分中呈现的模型相同的模型。除了第一个Conv 2D层是一个固定的主干，下面的16层（1-16）都是可调的。我们的第一个观察结果是，FusedIBN在搜索算法中比常规IBN更受青睐，占据了16个可调层中的14个。这可能是由于现代边缘加速器（如Coral Edge TPU [13]）对于正常卷积比对于深度可分离卷积更优化。因此，它们可以利用密集计算来提高准确性和推理延迟。其次，我们注意到，在我们搜索的前5个模型中，有4个在第2层和第7层有IBN模块，包括Tab中的模块。6.剩下的建筑师--表7：通过单任务NAS发现的骨干架构-骨干架构的示例发现单任务NAS针对CityScapes上的深度估计。我们怀疑多任务学习可以受益于更多的表达层，如FusedIBN;因此，与Tab相比，这样的层更少6可能与先前实验中所见的较低准确度相关层7也具有IBN，但层2没有。因此，我们认为，即使很少使用，如果有策略地放置，IBN层仍然是有益的，例如。通过EDNAS。选项卡. 7提供了我们的单任务NAS为深度估计找到的架构的示例我们观察到，融合IBN模块的数量一致且相当低，即11个，而表Tab中为14个。6，该算法是由EDNAS提出的多任务NAS算法。类似的观察也适用于用于分割的单任务NAS，其具有12个FusedIBN层。我们推测，多任务学习可能需要更强大和更有表现力的层来捕捉跨任务的细微差别。因此，使用单独任务执行间接搜索的单任务NAS可能无法识别和满足这些需求，导致更少的FusedIBN块和更差的准确性，如在转移实验中所看到的。5. 结论在这项工作中，我们的两个主要贡献包括EDNAS和JAReD损失。前者是一种新颖且可扩展的解决方案，它利用MTL和h-NAS的协同作用来提高边缘平台上密集预测任务的准确性和速度。后者是一种易于采用的增强深度损失，同时减轻噪声并进一步提高精度。通过大量的实验，我们表明，所提出的技术可以优于最先进的方法，最大限度地减少设备上的计算成本，推广到不同的数据和训练设置，以及发现有意义和有效的架构。1409引用[1] 安灿昊金恩宇和吴松惠深度弹性网络与多任务学习的模型选择。在ICCV，2019年。[2] 作者：Tanya Amert，Ming Yang，Saujas Nandi，ThanhVu，James H.Anderson和F.唐纳森·史密斯多目标跟踪中的调度不稳定性的代价：历史-vs. -准确性权衡IEEEInternationalSymposiumonReal-TimeDistributedComputing（ISORC），2020年。[3] Hadjer Benmeziane 、 Kaoutar El Maghraoui 、 HamzaOuarnoughi 、 Smail Niar 、 Martin Wistuba 和 NaigangWang。硬件感知神经架构搜索：综述与分类学.在IJCAI，2021年。[4] David Bruggemann 、 Menelaos Kanakis 、 StamatiosGeorgoulis和Luc Van Gool。自动搜索资源高效的分支多任务网络。在BMVC，2020年。[5] DavidBruggemann ， MenelaosKanakis ， AntonObukhov，Stamatios Georgoulis和Luc Van Gool。探索多任务密集预测的关系上下文。ICCV，2021。[6] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。2019年，在ICLR[7] 蔡荣红，罗建平。多目标进化神经结构搜索的多任务学习。在CE

下载后可阅读完整内容，剩余1页未读，立即下载