AutoLoss-Zero：通用任务的损失函数自动搜索

138 浏览量更新于2023-10-25 收藏 779KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1009AutoLoss-Zero：从零开始搜索一般任务的李浩1傅天文2*<$，戴继峰4，5，李洪生1，高煌4，朱锡洲3香港中文大学-商汤科技联合实验室2香港中文大学信息工程系3商汤科技研究院4清华大学5上海交通大学清源研究院haoli@link.cuhk.edu.hk，futianwen@ie.cuhk.edu.hk，daijifeng001@gmail.comhsli@ee.cuhk.edu.hk，gaohuang@tsinghua.edu.cn，zhuwalter@sensetime.com摘要在深度网络中各种组件的自动化设计方面取得了重大进展。然而，具有各种评估指标的通用任务的损失函数的自动设计仍然研究不足。以前手工制作损失函数的工作严重依赖于人类的专业知识，这限制了它们的可扩展性。同时，由于搜索空间的巨大性，损失函数的搜索也是非常重要的.现有的努力主要通过在特定任务和特定度量上采用特定于任务的算法来解决这个问题这种工作如果没有艰苦的人力，就不能扩展到其他在本文中，我们提出了AutoLoss-Zero，这是一个通用的框架，从零开始搜索损失函数的通用任务。具体而言，我们设计了一个基本的搜索空间，只包括原始的数学运算符，以适应异构的任务和评价指标。一个变种的进化算法是用来发现损失函数的基本搜索空间。为了提高搜索效率，提出了一种丢失拒绝协议和梯度等价性检查策略，适用于一般任务。对各种计算机视觉任务的大量实验表明，我们搜索的损失函数与现有的损失函数相当或优于现有的损失函数，这些损失函数可以很好地推广到不同的数据集和网络。应发布代码。1. 介绍近年来，Au-toML在深度学习方面取得了令人兴奋的进展[15，35，36，41，42，68]。许多组件的自动设计已经被探索，从体系结构（例如，神经架构[50]和标准化激活操作[35]）到学习策略。*同等贡献。[2]这项工作是在李昊和付天文在商汤科技实习时完成的。‡通讯作者。GIES（例如，数据增强策略[15]，dropout pat [42]和训练超参数[16]）。然而，为了自动化整个深度学习过程，一个重要的组成部分还没有得到充分的研究，即通用任务的损失函数的自动损失函数是深度网络训练中不可或缺的部分。在各种任务中，包括语义分割[7，65]，对象检测[19，51]，实例分割，对于分类[3，23]和姿态估计[56]，交叉熵（CE）和L1/L2损失分别是分类和回归的默认选择。由于默认损失函数通常是特定评估指标的近似值，因此在替代损失和最终评估指标之间通常存在不一致。例如，对于对象检测中的边界框定位，广泛使用L1损失，而IoU度量是标准评估度量[63]。在语义分割中也观察到类似的差异[31]，其中一些度量标准测量整个图像的准确性，而其他度量标准则更多地关注分割边界。网络训练和评估之间的不一致导致性能下降的次优解决方案。许多手工制作的损失函数已经提出了不同的评估指标。由于大多数期望的指标是不可微的，不能直接用作训练目标，许多现有的作品[4，19，29，33，44，53，61]通过仔细分析特定的评估指标来设计CE和L1/L2损失另一系列作品[2，38，43，45，52，63，66]基于特定评估指标的数学表达式手工制作巧妙的替代损失尽管这些手工制作的损失函数显示出其目标度量的改进，但它们严重依赖于专业知识和对特定场景的仔细分析，这限制了它们的可扩展性。在本文中，我们的目标是自动化设计的损失函数的一般任务。虽然有几个关于损失函数搜索的先驱作品[30，31，37，58]，但它们是1010所有这些都局限于特定任务和特定的评估标准，具有不能应用于一般任务的任务特定分类。例如，[31]通过参数化语义分割的评估度量来构建搜索空间，这很难应用于对象检测中的mAP度量; [37]提出了一种用于对象检测的拒绝协议，该协议是基于人类专业知识对mAP度量属性的具体分析而设计的由于各种任务和评估指标的异质性，搜索通用任务的损失函数更具挑战性。搜索空间应该由基本原语操作符组成，以便容纳这种异质性，并且搜索算法应该足够有效同时，在搜索中不应涉及特定任务的搜索。本文提出了一个通用的损失函数搜索框架，适用于各种评估指标，在不同的任务，命名为 AutoLoss-Zero。我们只使用原始的数学运算符来构建搜索空间，以享受高度的多样性和表现力。采用演化算法的一种变体，以最少的人类专业知识从头开始发现具体来说，AutoLoss-Zero将损失函数公式化为仅由原始数学运算符组成的计算图（见表1）。计算图从零开始随机构建，并根据其在目标评估指标上的性能在搜索算法中，为了提高搜索效率，我们提出了一种损失拒绝协议，有效地过滤掉了没有希望的损失函数候选，从而大大提高了搜索速度。一个梯度等价性检查策略的开发，以避免重复评估的等价损失函数。没有特定于任务或特定于度量的设计的丢失拒绝协议和梯度等价性检查策略通常适用于各种任务和度量。我们在各种计算机视觉任务上验证了我们的框架，包括语义分割，对象检测，实例分割和姿态估计。对COCO [34]、Pas- cal VOC [17]和Cityscapes [13]等大规模数据集的广泛实验表明，搜索的损失与现有手工制作和专门搜索的损失函数相当或更好。消融研究表明，我们搜索的损失函数可以有效地通用到不同的网络和数据集。我们的主要贡献可概括如下：• AutoLoss-Zero是一个通用的AutoML框架，用于从头开始搜索损失函数，以执行具有最少人类专业知识的通用任务。在各种计算机视觉任务上证明了其有效性。• 提出了一种新的损失拒绝协议，有效地过滤掉不希望的损失函数。一个梯度-还制定了对等检查战略，以避免重复评价。这些技术极大地提高了搜索效率，并特别关注于使泛化到所有任务和指标而无需额外的努力。• 搜索的损失函数本身是贡献，因为它们可以在不同的模型和数据集之间转移，具有竞争力的性能。2. 相关工作手工制作的损失函数的流行评估metrics已经研究了许多作品。大部分以前的工作开发的损失函数变量的基础上，标准的交叉熵损失和L1/L2损失。对于分类，[29，33，53，61]通过合并不同的样本权重来减轻样本的不平衡。[4，44]建议对边界像素处的损失进行加权，以提供更准确的边界。对于回归，提出了Smooth-L1损失[19]以提高稳定性和收敛性。另一项研究[2，38，43，45，52，63，66，67]通过手工制作可微扩展或指标替代品作为损失函数，包括分割IoU [2，45]，F1评分[38]，边界框IoU [52，63，66，67]和平均精度[43]，来处理损失函数和各种评估指标之间的不一致。虽然这些手工制作的损失在不同的场景下都是成功的，但它们在很大程度上依赖于仔细的设计和专业知识来分析特定指标的属性。相比之下，我们提出了一个自动化的损失设计框架，通常适用于不同的任务和指标。本文还研究了不可微评价指标的直接优化问题。对于结构SVM [57]，[26，46，64]提出了非梯度方法来直接操作-优化理想指标。[22，39，55]应用损失增强推理从度量的期望中导出梯度。然而，计算复杂度很高，这需要针对不同的度量专门设计有效的算法策略梯度[1，47，48，54，60]也被用来直接优化不可微的指标。然而，这些方法存在以下问题：1）复杂的动作空间，这需要任务特定的近似[48]; 2）梯度估计的高方差和目标不稳定性[59]。最近，[5，40]采用错误驱动学习进行对象检测，这仅限于特定场景。虽然这些方法缓解了培训目标与评估指标之间的不一致，但它们需要对目标指标进行特定的分析和设计。通用任务的AutoML长期以来一直在机器学习研究中追求[25]。最近的工作包括自动搜索神经架构（NAS）[36，41，68]，标准化激活操作[35]，丢弃模式[42]，数据增强[15]和训练超参数[16]。现有的大部分工程旨在-1011XC将基于专家设计的操作器[36，41，68]构建的体系结构化，或者在固定公式中搜索特定的超参数[15，16，42]。我们的工作与AutoML-Zero [49]和EvoNorm [35]有着相似的理念，它们采用进化算法从原始的数学运算中搜索ML算法或规范化激活运算。然而，对于损失函数，搜索空间去-元素运算符表达式Arity加x+y2Mulx×y2负x1ABS|X|1Inv1/（x+x）110、《易经》（|X|+1）1实验e1Tanhtanh（x） 1符号是完全不同的，有独特的属性，可以用于高效搜索。我们介绍1）一个方形x2Sqrt sign（x）·√1|+ 1|+ ϵ1具有特定ini-<$Aggregation算子损失函数的有效搜索空间表达式Arity初始化和变异操作;以及2）丢失拒绝平均nhw1 ΣNHWnhw xnchw1协议和一个梯度等价性检查策略，平均c1cxnchw1证明了搜索算法的有效性。损失函数搜索近年来引起了研究者的兴趣。所有的先驱作品[30，31，37，58] 仅限于特定的任务和指标，具有特定于任务的逻辑。具体来说，[30，58]搜索人脸识别的最佳损失。搜索的损失函数是交叉熵损失的现有手工变体的最佳组合。由于所得到的目标本质上是现有损失函数的集成，因此它不能很好地解决交叉熵损失与许多目标度量之间的不对准。最近，[31]提出通过用参数化函数替换度量中的逻辑运算来搜索语义分割的损失函数然而，这样的参数化不能容易地扩展为通用度量，例如对象检测中的mAP，其中匹配和排名难以被参数化。一个密切相关的工作是[37]，它搜索用于对象检测的损失函数。与我们的方法类似，[37]也将损失函数公式化为原始算子的组合。然而，[37]从特定于对象检测的性能良好的手工损失函数中此外，[37]设计了专门用于目标检测的丢失拒绝协议，并且不能应用于其他任务。相比之下，我们的方法可以同时搜索多个损失分支从随机初始化，而无需从任何人为设计的损失函数。我们的方法没有针对特定任务或指标的专门设计，可应用于一般任务。3. 方法给定一个任务（例如，语义分割和对象检测）和相应的评估度量（例如，mIoU和mAP），AutoLoss-Zero旨在从头开始自动搜索适当的损失函数，用于训练神经网络。提出了一个通用的搜索空间，其中每个损失函数被表示为一个计算图。该图将网络预测和地面实况作为输入，并将其转换为最终损失值。与Max-Pooling3×3Max-Pooling3×3（x）1最小合并3×3最小合并3×3（x）1表1.本原算子集H. x和y具有（N，C，H，W）的相同形状，它们是算子的输入张量。=10−12是一个小的正数，用于避免无穷大的值或梯度。这一基本操作符集在我们所有的实验中是共享的。每个聚合运算符都是一个映射，它将输入张量的元素替换为聚合值。Max/Min-Pooling的步幅和填充都设置为1。因此，所有运算符都保持输入张量的形状。最少的人类专业知识，只有原始的数学运算（见表1）被用作中间计算节点，以适应不同任务和度量之间的高度多样性。一个有效的进化算法被用来搜索给定任务和度量的损失函数。为了实现进化，定义了有效的随机初始化和变异操作。提出了一种新的丢失拒绝协议和梯度等价性检查策略，以提高搜索效率，适用于一般任务。与[31，37]不同，我们的方法设计特别注重通用性，因此没有采用特定于任务的算法3.1. 搜索空间大多数AutoML方法的搜索空间[15，35，36，41，42，68]是专门为特定目的而设计的，不适合损失函数。在损失函数搜索中，[31]提出了一个专门用于语义分割的损失函数搜索空间，它不能扩展到通用任务。在[30，58]中，搜索空间只是现有损失函数的组合，不能形成新的损失函数。[37]的搜索空间也是基元的，这与我们的最相似。然而，[37]的基元是用于对象检测的特定任务的约束集。在本小节中，我们设计了一个通用的搜索空间，用于适用于一般任务和评估指标的损失函数。AutoLoss-Zero旨在搜索适当的损失函数，以训练最大化给定评估度量的网络。损失函数L（yω，y;Nω）定义在网络预测模型及其训练目标1012^日志你好，MulSqrt添加score=？输出^Mul1Mul评分=0.30输出占目前人口的通过梯度-等效性检查战略代理任务评价等效拒绝我的天后代人口（千人=2 500人）^1评分=0.75重复使用以前的分数评价后代^日志Tanh阴性对照组^添加Tanh添加日志^entMulNeg···MulMulSqrt添加平方Sqrt添加评分=0.65输出得分=0.25输出得分=0.35输出最古老评分=0.75输出最新MulSqrt评分=0.35输出Tanh添加联系我们步骤1.锦标赛选择输入运算符输出最好的随机选择步骤2.突变步骤3.更新人口(Only保留最多的记录人口=2，500人）图1.搜索管道概述。其中Nω是用ω参数化的网络。搜索目标可以用公式表示为嵌套优化，由于某些任务可能具有多个丢失分支（例如，目标检测中的分类和回归分支MaxLf（L;λ）=λ.ΣNω（L）;Seval，（一）将每个分支的损失表示为一个单独的计算图，并将它们的损失值相加S.T. ω（L）= argminE（y∈S）[L（yω，y;Nω）]，作为最后的损失。对于M个分支的损失，给定ω列1 2 M其中f（L;f）是损失函数L的评估分数在给定的度量下，ω（L）是网络参数，预测{y}，y}，. -是的-是的和他们的地面实况列车-将目标{y1，y2，. - 是的- 是的，yM}，最后的用L. E[·]是数学期望。ΣM损失函数表示为L（y≠，y）=i=1 Li（yi，yi）.Strain和Seval是在搜索过程中，尊重我的价值。网络预测y和其训练目标y具有相同的形状（N，C，H，W）。对于每个张量，我们使用N，C，H，W来表示其批次，通道，宽度和高度的大小，分别为1。当量（1）给出了一个通用的优化公式，但不能用简单的搜索方法在有限的时间内进行简单的优化我们设计的搜索空间和算法，以有效地优化方程。（1）不失一般性。损失函数表示损失函数L表示为计算图G。计算图是有根树，其中叶节点是输入（即，网络预测和训练目标），根是输出。中间计算节点是从一组原始数学运算（见表1）中选择的，这些运算将输入转换为最终损失值。计算图的输入张量通过从{y，y∈，1}替换来采样，其中包括附加常数1输出张量o具有与输入相同的形状（N，C，H，W），其被进一步聚合以形成最终损失值，原始运算符。表1总结了在我们的搜索空间中使用的原始操作符集合H，包括元素操作符和聚合操作符，其使得能够在跨越空间和通道维度的形成交换。每个聚合运算符都是一个映射，它用聚合值替换为了保证计算的有效性，所有的本原算子都保持了输入张量的形状。3.2. 搜索算法受AutoML [35，49]最近应用的启发，采用进化算法的一种变体来搜索损失函数。在损失函数搜索的现有工作中[30，31，37，58]，还采用了强化学习或进化算法的变体然而，[30，31，37，58]中的搜索方法被设计用于在特定任务和特定度量中搜索，具有任务特定的分类，这几乎不能应用于一般任务。在这里，AutoLoss-Zero以最少的人类专业知识从随机初始化中搜索损失函数以获得通用任务。所提出的方法没有针对特定任务或指标的专门设计，这广泛适用于通用任务。1ΣL（y）=NHW全国妇女委员会吴恩丘.（二）图1展示了AutoLoss- Zero的搜索管道。在初始化时，K个损失函数（K=20，通过去这里，我们不对通道维度进行归一化遵循交叉熵损失的通常做法。1对于没有空间维度的预测和训练目标，我们设置H= 1和W= 1而不失一般性。故障）随机生成以形成初始种群。每次进化随机选取群体的T比率（T=5%），选择评价分数最高的一个作为亲本，即，选择比赛[20]。的最古老我的天人口（千人=2 500人）^1最新联系我们日志Tanh^Neg^Tanh添加添加TanhMulNegMul1···添加MulMul添加Mul平方SqrtSqrt评分=0.65输出得分=0.30输出得分=0.25输出得分=0.35输出得分=0.35输出突变丢失拒绝（或复制/重新初始化）协议1013��1��Lo gSqrtLo g Loog Log Add��MulMulMulMulMul输出输出输出输出输出输出b=1B深度=0开始深度计采样算子Depth=深度采样输入插入缺失更换深度=深度+1完成图2.损失函数的随机初始化。parent用于通过精心设计的突变操作产生后代。在[35，49]之后，仅保留最新的P损失函数（默认情况下P=2500由于搜索空间非常稀疏，对于没有希望的损失函数，开发了一种新的损失拒绝协议，以有效地过滤掉与给定评估度量不负相关在搜索过程中，将重复单个损失函数的初始化/变异过程，直到得到的损失函数可以通过损失拒绝协议。为了进一步提高搜索效率，梯度等价性检查策略的发展，以避免重新评估数学上等价的损失函数。与[35，49]类似，采用轻量级代理任务来降低评估损失函数的计算成本，这将在本小节的末尾讨论。损失函数的随机分布为了确保通用性，[37]中的启发式初始化不应是被利用相反，每个初始损失函数的计算图是随机生成的。图2说明了损失函数生成的从具有根的图开始（即，输出节点），每个节点将从原始运算符集中随机采样一个或两个运算符H（见表1），并作为其子节点附加到图中根有一个孩子。对于每个计算节点，子节点的数量由其运算符arity决定。当计算节点到达目标深度D（默认情况下D=3）时，它会随机选择输入张量作为其子节点。输入张量将是计算图的叶节点。每个随机生成的计算图具有D+1的深度，在从根到叶节点的每条路径上具有D个突变变异过程受到[49]的启发，但候选变异操作是专门为图3.候选变异操作。• 更换. 从H中随机抽取一个算子来替换随机选择的非根节点。如果非根节点的子节点多于运算符arity，则具有与arity相同数量的子节点的随机子集被保持为子节点。否则，它将随机选择输入作为额外的子节点。为了产生后代，给定的计算图通过三个顺序步骤处理：1. 以10%的概率直接复制图形。2. 如果不执行复制，则以50%的概率随机重新初始化完整的计算图。3. 如果不执行重新初始化，则顺序执行两个变异操作，从{插入、删除、替换}。丢失拒绝协议。我们的搜索空间是高度灵活的，其中只有原始操作被用来构建损失函数。与[35，37，49]类似，这种灵活性导致了大而稀疏的搜索空间。大多数损失函数候选者导致网络性能并不比随机猜测更好。在损失函数搜索中，为了提高搜索效率，[37]设计了一个损失拒绝协议，在训练网络之前过滤掉没有希望的损失函数。但是，它是专门为对象检测而设计的，不能直接应用于一般任务。在这里，我们提出了一种新的丢失拒绝协议，是一般适用于各种任务和指标。受最小化适当损失函数应对应于最大化给定评估度量的事实的启发，我们开发了一种有效的损失拒绝协议，一般任务。给定来自训练集S train的B个随机样本（默认情况下B = 5）和一个随机初始化的网络Nω0，我们记录网络预测和相应的训练 ta r ，得到 { （ y_b ，y_b）}B。为了有效地估计给定评估方法之间的相关性，Ric和候选损失函数L，相关性得分g（L;λ）计算为我们的搜索空间图3显示了候选突变1ΣBg（ L; λ）=（y操作，其定义为：Bb=1bbBB（三）S.T.y（L）=argminy L（yb，yb），• 插入。从H中随机抽样的算子在-bb中在随机选择的非根节点和其父节点之间插入。如果操作符的arity为2，它将随机选择一个输入作为附加子对象。• 删除。一个中间的计算节点被随机选择和删除。对于被移除的节点，它的一个子节点被随机选取成为其父节点的新子节点。其中y（L）是使用损失L优化的预测。较大的g（L;k）表示最小化损失L对应于最大化评估度量k。否则，如果g（L;n）小于阈值η，则损失函数L被认为是没有希望的，其应当被拒绝。在此，为了加快拒绝过程，直接将损失函数优化应用于网络预测输出输出添加丹内输出添加对数平方丹内省输出添加LogSqrt��登录···1014y∈b，而不是网络参数ω。由于省略了网络计算，所以拒绝过程是非常有效的在单个GPU上，所提出的丢失拒绝协议可以达到500到1000个丢失函数的吞吐量每分钟在搜索中，初始化/变异过程直到得到的损失函数可以通过损失拒绝协议。等效性检查战略到避免再-评估数学上等价的损失函数，一提出了梯度等价性检验策略。对于每个损失函数L，我们计算其梯度范数w.r.t.在丢失拒绝协议中使用的网络预测为B{L/yb<$2}b= 1。如果对于所有B样本，函数在两个显著值内具有相同的梯度范数，铁路超高数字，则它们被认为是等效的，并且将重用以前的代理任务。损失函数的估计需要网络训练，这是搜索中花费时间最多的部分类似于AutoML作品[35，49]，为了加速搜索，在损失函数评估中采用了用于网络训练的轻量级代理任务。具体而言，采用更少的训练迭代，更小的模型和下采样图像（参见第4节和附录A ）。我们通过停止具有无效损失值的网络训练（即，NaN和Inf值）。4. 实验实施详情。对于进化算法，种群初始化为K=20个随机生成的损失函数，并限制为最近的P=2500个损失。锦标赛选择的比例[20]被设置为T=当前人口的5%在随机初始化和突变过程中，表1中所有运算符的采样概率相同。计算图的初始深度D=3。对于损失拒绝协议和梯度等效性检查策略，B=5个样本从Strain中随机选取。搜索和再训练实验在4个NVIDIAV100 GPU上进行。的代理任务的设计是在48小时内进行300次评价。更多详情见附录A。4.1. 语义分割设置. 语义分割涉及将图像中的每个像素分类到特定类别中。我们的实验使用了带有额外注释的PASCALVOC 2012 [17][21 目标评估指标包括平均 IoU（mIoU）、频率加权IoU（FWIoU）、全局准确度（gAcc）、平均准确度（mAcc）、边界IoU（BIoU）[28]和边界F1评分（BF1）[14]。前四个指标衡量整体分割精度，其他两个指标评估边界精度。在搜索过程中，我们使用DeepLabv 3 + [8]和ResNet-50 [24]作为网络。在[31]之后，我们简化了代理任务通过将输入图像下采样到128×128的分辨率，并将训练时间表减少到3个epoch（正常训练时间表的1/10）。在搜索过程之后，我们重新训练分割网络以ResNet-101 [24]作为30个epoch的主干。输入图像分辨率为512×512。再训练设置与[8]相同，除了使用搜索的损失函数。更多详情见附录A.1。结果表2将我们搜索的损失与广泛使用的交叉熵损失、其他度量特定的手工制作的损失函数以及Auto Seg-loss（ASL）[31]、CSE-Autoloss（CSE）[37]和AutoML-Zero（AML）[49]搜索的替代损失进行了比较。请注意，ASL受到限制一个专门设计的搜索空间的语义分割，不能简单地扩展到处理通用指标; CSE设计的初始化和拒绝协议，专门用于对象检测，我们尽我们最大的努力，以实现它的语义分割。结果表明，我们的搜索损失始终优于手动设计的损失，并在所有目标指标上与ASL的搜索损失相当或更好。CSE未能找到比CE更好的损失函数，无论初始化。AML被设计用于搜索具有超过10个评估的机器学习算法，并且无法找到与我们相同时间和计算资源的任何性能良好的损失函数。附录B给出了已发现的损失函数的公式，它表明中间聚合（例如，非线性操作之间的 Max-Pooling3×3 和Meannhw）可能对mAcc、BIoU和BF 1等指标具有潜在优势。搜索函数的泛化。到验证搜索损失的泛化能力，我们使用CE损失和最初在PASCAL VOC [17]上使用ResNet50 [24]搜索DeepLabv3+ [8]的损失在不同的数据集和网络上进行重新训练实验。由于计算资源有限，我们只比较mIoU和BF 1指标。表3总结了PASCALVOC 和 Cityscapes [13]的结果，使用 DeepLabv 3 + /PSPNet [65]和ResNet-50 / ResNet-101作为网络。结果表明，搜索的损失函数在不同的数据集之间具有很好的推广性，可以应用于各种语义分割网络。4.2. 对象检测设置. 对象检测是检测属于某些类的实例的边界框和类别的任务。为了评估我们的算法，我们在广泛使用的COCO数据集上进行了实验[34]。目标评估指标是平均精度（mAP）。我们使用Faster R-CNN [51]与ResNet-50 [24]和FPN[32]作为检测网络。有4个损失分支，即，RPN [51]子网络和Fast R-CNN [19]子网络的分类和回归分支1015损失函数地图ClsRPN注册RPNClsRCNN注册 RCNNCEL1CE L137.3CEL1[63]第六十三话37.9CEL1[52]第五十二话37.6CEL1CSE-自动-A [37]38.5CEL1CSE-RandInit0.0CEL1我们38.0我们38.1表4. ResNet-50 [24]在COCO [34]上的对象检测结果。Cls和Reg分别是分类和回归分支，其中下标RPN和RCNN分别表示RPN [51]子网络和Fast R-CNN [19]子网络。CSE-RandInit表示我们对CSE-Autoloss [37]的实现，该实现从随机损失函数而不是CEI [37]和GIoU [52]损失中恢复。数据集CocoVOC网络ResNet-101ResNet-50损失函数地图地图CE + L1 + CE + IoULoss [63]我们39.739.980.480.6表2. DeepLabv 3 + [8]与ResNet-101 [24]在PASCAL VOC [17]上的语义分割结果。每个损失函数的目标度量结果用下划线表示，公差为0.5的最高结果用粗体表示。根据他们的论文，重新实现了AutoML-零（AML），CSE-带有CE初始化的Autoloss（CSE）和随机初始化（CSE-RandInit）。数据集城市景观VOC网络R101-DLv3+R50-DLv3+R101-PSP损失函数MiouBF1MiouBF1MiouBF1交叉熵80.062.276.261.877.964.7Miou美国手语[31]我们80.780.466.563.878.478.066.962.878.978.565.764.9BF1美国手语[31]我们6.716.078.077.51.410.470.879.21.611.571.876.4表3.不同数据集和网络之间语义分割的搜索损失函数的泛化损失最初是在PASCAL VOC [17]上使用ResNet-50 [24]搜索DeepLabv 3 + [8] 。 “R50” 和 “R101” 分别是 ResNet-50 和ResNet-101 的缩写。 “DLv3+” and “PSP” denote theDeepLabv3+ and PSPNet [网络我们从头开始同时搜索4个分支的损失函数。在[52]之后，我们使用预测和地面实况框之间的交叉，联合和封闭区域作为回归损失输入。在搜索过程中，我们用1/4的COCO数据训练网络，作为代理任务。我们进一步简化了网络，只使用FPN的最后三个特征级别，并减少了一半的检测头的通道。在搜索过程之后，我们用搜索到的损失函数重新训练检测网络。重新训练超参数与表5.在不同数据集和网络之间进行对象检测的搜索损失的泛化。最初在COCO[34]上搜索ResNet-50 [24]MM检测[6]。更多详情见附录A.2。结果表4将我们搜索的损失函数与手工制作的损失函数和[37]搜索的函数进行了比较。我们的方法的有效性仅在快速R-CNN [19]子网络的2个分支上搜索，并且在所有4个分支上搜索。结果表明，我们的搜索损失与现有的手工制作和搜索损失函数相当。请注意，[37]专门为对象检测设计了搜索空间和策略，并且在没有手工初始化的情况下无法找到任何合理的损失函数，而AutoLoss- Zero是从头开始搜索损失函数的通用框架;[31]通过参数化评估指标来构建搜索空间，由于复杂的匹配和排名过程，这几乎无法应用于mAP。已发现损失函数的公式见附录B。边界框回归的搜索损失函数与GIoULoss [52]具有相似的表达式，证实了手工损失函数的有效性搜索函数的泛化。我们验证表5中搜索的损失函数的泛化能力。损失最初是用ResNet-50 [24]在COCO [34]上搜索的，并用于训练具有不同骨干的网络（即，ResNet-101 ）和不同数据集（即， PASCAL VOC[17]）。结果表明，我们搜索的损失函数可以很好地推广到不同的目标检测网络和数据集。损失函数FWIoUGACCMACCBIoUMiouBF1交叉熵91.395.287.370.678.765.3WCE [53]85.691.192.661.869.637.6[38]第三十八话91.395.187.569.977.864.4Lova` sz [2]91.895.488.672.579.766.7DPCE [4]91.895.587.871.979.866.5SSIM [44]91.795.487.971.579.366.4FWIoU美国手语[31]我们91.991.795.495.289.287.775.172.980.078.765.764.6GACC美国手语[31]我们91.891.795.595.389.088.774.173.679.779.464.464.8MACC美国手语[31]我们85.989.291.393.792.792.672.973.769.875.335.644.1BIoU美国手语[31]我们69.969.562.680.581.367.179.279.349.050.039.034.4CSE [37]91.495.287.072.678.164.1MiouCSE-RandInitAML [49]89.659.593.964.483.14.964.61.371.94.056.50.4美国手语[31]92.195.788.273.481.068.9我们92.195.789.174.180.766.0CSE [37]91.895.488.573.779.465.1CSE-RandInit69.375.69.03.05.31.0BF1AML [49]0.52.64.71.70.81.1美国手语[31]1.02.76.57.41.974.8我们4.29.111.926.17.376.710164.3. 实例分割设置. 实例分割是检测实例的分割掩码和类别的任务。我们还在COCO [34]上进行了实验，除了目标度量是mAP，在掩码上定义了IoU。掩码R-CNN [23]与ResNet-50 [24]和FPN [32]是0.600.400.200.000 100 200 300 400#代理任务评估(a) 语义分割0.080.060.040.020.000 100 200 300 400#代理任务评估(b) 对象检测用作网络。我们搜索所有5个损失分支同步代理任务与对象检测相同我们使用MMDetec [6]的默认超参数进行重新训练。更多详情见附录A.3。结果表6（a）总结了结果。损失函数-图4.搜索效率的消融研究每条曲线表示当前人群中前5名损失的平均分数损失函数Miou随机搜索2.2我们80.7损失函数地图随机搜索0.0我们38.1通过AutoLoss-Zero从头开始搜索的tion与(a) 语义分割(b) 对象检测现有的人工设计的损失函数。发现的损失函数见附录B。4.4. 姿态估计设置. 姿态估计是定位人体关键点的任务。在COCO上进行实验[34]。我们使用[62]和Resnet-50 [24]作为网络。在[12]之后，利用[62]提供的人员检测结果。在搜索过程中，我们将网络训练4个epoch作为代理任务。我们在搜索后使用MMPose的默认训练设置使用搜索到的损失函数重新训练网络[12]。更多详情见附录A.4。结果表6（b）将我们搜索的损失函数与广泛使用的MSE损失进行了比较。从随机初始化的损失函数开始，我们搜索的损失函数略优于MSE损失，证明了AutoLoss-Zero的有效性。附录B给出了已发现的损失函数的公式。搜索函数学习正则化项以惩罚过大的预测值。损失函数地图CE + L1 + CE + L1 + CE34.6CE + L1 + CE + IoULoss [63] + CE34.4CE + L1 + CE + GIoULoss [52] + CE34.7我们34.8损失函数地图MSE71.5我们72.0表7.随机搜索和我们的算法的再训练结果。提速#探索损失朴素进化论+ 丢失拒绝协议+对等性检查策略+†停止训练无效的损失值1×∼700×∼1000×∼5000×∼300 52.1×1053.2×1061.5×10表8. AutoLoss-Zero退化变体在目标检测上的搜索速度。†NaN和Inf）。可以探索，确保AutoLoss-Zero可以在合理的时间内探索巨大而稀疏的搜索空间。更多讨论见附录C。5. 结论AutoLoss-Zero是一个通用的框架，用于从头开始搜索搜索空间仅由基本的原始算子组成。一个变种的进化算法的搜索，其中丢失拒绝协议和梯度等价性检查策略，以提高搜索效率。AutoLoss-Zero可以在各种任务中发现与现有损失函数相当或优于现有损失函数的损失函数，只需最少的人力专业知识。(a) 实例分割(b) 姿态估计局限性。AutoLoss-Zero仍然需要一定的时间表6. 实例分割和姿态估计结果[24]第在（a）的前三行中，五个损耗分别对应于ClsRPN、RegRPN 、 ClsRCNN 、 RegRCNN 和 Mask 分支。 “MSE” in (b)denotes the mean square error loss used by4.5. 搜索效率我们使用mIoU度量和mAP度量消除了AutoLoss-Zero在语义分割和对象检测上的搜索效率图4显示了搜索过程，表7显示了重新训练的结果。由于我们的搜索空间的高稀疏性和有限的搜索成本（300个候选损失函数评估），没有合理的损失函数可以发现与随机搜索。表8进一步显示了AutoLoss-Zero在48小时内探索的损失函数数量。超过106损失函数-代理任务上的评估，并且如果没有足够的搜索时间，性能可能会下降。未来的工作可能会探索更有效的算法来减少搜索时间。潜在的负面社会影响。我们在GPU可能会消耗大量的电力，排放类似于搜索时间的限制，这个问题也可以通过更有效的搜索算法来缓解致谢本研究得到国家重点研发计划（2020AAA0105200）、北京人工智能研究院和清华大学国强研究所的支持，部分由香港研究资助局的一般研究基金资助。14204021，14207319，14203118，14208619），部分由研究影响基金资助号。R5001-18，部分由中大策略基金资助。+朴素的进化+损失拒绝+等效性检查搜索随机K拒绝lenceChec+损失+Equiva搜索演变随机+天真搜索mIoU搜索mAP1017引用[1] Dzmitry Bahdanau 、 Philemon Brakel 、 Kelvin Xu 、Anirudh Goyal 、 Ryan Lowe 、 Joelle Pineau 、 AaronCourville和Yoshua Bengio。一种用于序列预测的演员-评论家算法。arXiv预印本arXiv：1607.07086，2016。2[2] Maxim Berman ， Amal Rannen Triki ， and Matthew BBlasch

下载后可阅读完整内容，剩余1页未读，立即下载