AutoMLforLossFunctionSearchinVisualAnalysis

165 浏览量更新于2023-10-12 收藏 816KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8410AM-LFS：用于损失函数搜索的李楚明1 *，欣元1*，陈立1*，顾明浩1，魏武1，杨俊杰1，万里欧阳21商汤科技集团有限公司2悉尼大学SenseTime计算机视觉研究小组，澳大利亚{李楚明，袁新，林晨，郭明浩，吴伟，严俊杰}@ sensetime.com;万里.杨@ sydney.edu.au摘要设计有效的损失函数在可视化分析中起着重要作用。大多数现有的损失函数设计依赖于手工制作的算法，这需要领域专家探索大的设计空间，这通常是次优的并且耗时。在本文中，我们提出了用于损失函数搜索的AutoML（AM-LFS），它利用REINFORCE在训练过程中搜索损失函数。这项工作的关键贡献是搜索空间的设计，它可以通过在一个统一的公式中包含一堆现有的流行损失函数来保证不同视觉任务我们还提出了一个有效的优化框架，可以在训练过程中动态优化损失函数的分布参数在四个基准数据集上的广泛实验结果表明，在没有任何技巧的情况下，我们的方法在各种计算机视觉任务中优于现有的手工制作的损失函数。1. 介绍近年来，卷积神经网络显著提高了各种视觉分析任务的性能，例如图像分类[16，33，10]，人脸识别[22，37，5]，人员重新识别[24，38，34，6]和对象检测[8，28]，这是由于其在学习区分特征方面的高能力。除了从更深的网络中开发功能以获得更好的性能之外，在最近的作品中，更好的损失函数也被证明可以有效地提高计算机视觉框架的性能[22，20]。传统的基于CNN的视觉框架通常将广泛使用的softmax损失应用于高级特征。L-softmax [23]是softmaxloss的变体，它为每个类添加了乘法角，以提高分类和验证任务中的特征[22]通过将L-softmax [23]应用于人脸识别，引入了A-softmax*平等贡献10210010-210- 410- 67 8 9 10 11 12 13 14 15输入图1.提出了损失函数搜索空间的动机。该图表明，我们的搜索空间中的候选损失函数（虚线）可以很好地近似相应的经验损失函数（实线）。X轴表示损失输入，y轴表示对数标度的输出损失值。权重归一化的点火任务。[39，37]将角度裕度移动到余弦空间，以克服[22]的优化困难，并实现最先进的性能。[5]可以通过结合附加的角度裕度来获得用于人脸识别的更具区分性的深度特征。除了上述基于边缘的softmax损失函数之外，焦点损失[20]是softmax损失的另一种变体，其被提出采用重新加权方案来解决对象检测中的数据不平衡问题。虽然这些方法比传统的softmax损耗提高了性能，但它们仍然存在一些局限性：(1) 大多数现有的方法依赖于手工制作的启发式，需要领域专家的巨大努力来探索大的设计空间，这通常是次优的和耗时的。(2)这些方法通常是特定于任务的，当应用于其他视觉任务时可能缺乏可移植性通过利用AutoML方法在精心设计的损失函数搜索空间中进行探索，可以提出通用解决方案以进一步提高性能。在本文中，我们提出了AutoML损失函数ArcFace 0.5我们的ACosineFace 0.5我们的BSphereFace0.5我们的C原创SoftmaxOurs D焦点损失0.5我们的E损失8411搜索（AM-LFS）方法从超参数优化的角度。基于对损失函数现有修改的分析，我们设计了一个新颖有效的搜索空间，如图1所示，并将损失函数的超参数表示为用于采样的参数化概率分布。提出的搜索空间包含了一系列流行的损失设计，其抽样候选损失函数可以调整不同难度下样本的梯度，并在训练过程中平衡类内距离和类间距离的重要性我们进一步提出了一个双层框架，它允许参数化分布与网络参数同时优化在这种双层设置中，内部目标是采样损失相对于网络参数的最小化，而外部目标是奖励的最大化（例如，精度或mAP）相对于损失函数分布。在AM-LFS训练完成后，可以直接部署网络参数进行评估，然后摆脱大量的重新训练步骤。此外，由于我们的方法是基于损失层而不修改特定任务的网络架构，它可以很容易地应用到现成的现代分类和验证框架。我们总结这项工作的贡献如下：(1) 我们提供了一个分析的基础上现有的损失函数的设计，并提出了一种新的和有效的搜索空间，可以保证不同的视觉任务的推广和转移能力。(2) 我们提出了一个有效的优化框架，可以动态优化的分布采样的损失函数。(3) 所提出的方法提高了流行的分类，人脸和人re-id数据库，包括CIFAR-10，MegaFace，Market-1501和DukeMTMC-reID的最先进的方法的性能2. 相关工作2.1. 损失函数损失函数在各种计算机视觉任务的深度特征学习中起着重要作用。 Softmax损失是基于CNN的视觉框架的广泛使用的损失。大余量Softmax（L-Softmax）[23]通过向每个身份添加乘法角度约束来修改软最大损失，以改善分类和验证任务中的特征区分。SphereFace [22]将L-Softmax应用于具有权重归一化的深度人脸识别。CosineFace [39，37]和ArcFace [5]可以通过结合余弦函数来实现MegaFace的最新性能，具有更多的区分性深度特征搜索person reid数据集。对于对象检测，焦点损失[20]和梯度协调检测器[17]采用重新加权方案来解决类别不平衡问题。然而，噪声标签可能导致误导梯度，这可能被梯度重新加权方案放大并导致训练失败。2.2. AutoMLAutoML是一种基于AI的解决方案，通过提供更快的解决方案创建和优于手工设计的模型来解决具有挑战性的任务。近年来，自动搜索神经网络结构（NAS）的研究极大地提高了神经网络的性能。NAS利用强化学习[48，47，46]和遗传算法[27，42，31]来搜索性能超过许多手动设计架构的可传输网络块。然而，所有上述方法在搜索期间需要大量计算，特别是数千GPU天。最近的努力，如[21，25，26]，利用几种技术试图降低搜索成本。[21]是一种基于差分的方法，其利用双层优化过程来联合训练实值结构参数和模型参数。有几种方法试图通过将推理延迟作为约束[36，1]或隐式编码拓扑信息[9]来自动搜索具有快速推理速度的架构。除了网络架构搜索，[12]还利用Au-toML技术进行有效的模型压缩，其中修剪率由强化学习自动决定。[41]教师的榜样[7]用动态损失函数指导学生模型训练。然而，如何设计一个通用的搜索空间，以各种领域的任务和一个有效的优化框架仍然是一个悬而未决的问题。3. 方法在本节中，我们首先从一个新的角度重新审视几个损失函数设计，然后分析它们对训练过程的影响，并将它们重新表达为一个统一的表达式。因此，我们提出了一个新的搜索空间的基础上的统一表达，包括现有的流行的损失函数设计的良好性能。我们还提出了一个优化框架，利用Au- toML方法在整个训练过程中进行有效的损失函数搜索，如图2所示。3.1. 再论损失函数设计Softmax损失：最广泛使用的softmax损耗可以写为边缘和附加角边缘。球体-eReID [6]采用sphere softmax并训练模型1Σ1Σ.Σefyi端到端，以实现挑战的最新成果L=N我−对数我Σjefj、（1）8412（不不不Jǁe∑B��（正倒向更新日志t+1=0（普雷特样品L1火车一个时代………...1...………CIBB获得奖励...……...更新日志同步广播图2.我们提出的AM-LFS方法的双层优化框架。在这种双层设置中，内部目标是关于网络参数的采样损失的最小化，而外部目标是奖励的最大化（例如，精度或mAP）w.r.t损失函数分布在每个训练时期之后，我们将具有最高奖励的模型参数广播给每个样本进行同步。其中xi和yi是第i个输入特征，而标签是req。 fj表示得分向量f的第j个元素（j ∈ [1，C]，其中C是类别数），N是训练集的长度。 f通常是全连接层W的激活。我们进一步将fj表示为WTXi，其中Wj是W的第j列.因此，fj可以公式化为：表1.给出了L-softmax、A-softmax和ArcFace等变换的表达式。转换表达式L-softmax [23]t（x）=cos（m·arccos（x）） A-softmax [22]t（x）=x+mArcFace [5]t（x）=cos（arccos（x）+m）fj=Wjxicos（θj），（2）其中θj（0≤θj≤π）是向量Wjxi，Wj和xi是Wj和xi的L2范数.注意如果Wj或xi被归一化，则<$Wj<$=1或<$xi<$=1因此，原始softmax损耗可以重写为：其中t用于区分具有不同变换的基于边际的softmax损失函数。我们还列出了几种变换，包括L-softmax，A-softmax，ArcFace及其相应的表达式。3.1.WeyiΣǁǁxiǁcos(θyi)焦点损失：这也是一个变体，可以通过在另一个位置Li=−logΣWjxicos（θj）J（三）位置，可以描述为我们可以很容易地获得原始softmax的几个变体Lt=−τ（log（py））（5）损失，例如基于边缘的softmax损失和焦点损失将变换插入Eq. 3.第三章。基于边际的Softmax损失：基于边际的损失函数族可以通过在范数Wyixi和cos（θyi）之间插入连续可微变换函数t（）来获得，其可以写为：τ（x）= x（1 − ex）α。（六）3.2. 损失函数在本节中，我们首先讨论基于余量的softmax损失函数对训练过程的影响，.Lt=−logeWyixit（cos（θyi））Σ基于对相对意义分析的新视角、（四）加11CIBB0LBL8413ieWyixit（cos（θyi））Σ+j/=yie<$Wj<$$>xi<$cos（θj）类内距离和类间距离的一致性。我们8414我我我我我yi||fi||Lp我我JJi′ye定义类间距离dj为特征xi和类中心Wj之间的距离。类内距离可以以类似的方式定义。为了简化，我们假设Wj和xi是归一化的，这意味着<$Wj<$=<$xi<$$>=1和fj=cos（θj）。在此假设下，fj和dj之间的关系可描述如下：d2=（xi− Wj）2= 2 − 2fj。（七）因此，我们可以替代地分析基于边际的软最大损失对fyi和fj的影响影响可以计算为传递到激活层f的梯度的范数。具体地，损失层相对于fyi和fj的梯度为：||=（1 − p t）t ′（f），（8）||= (1 −pt)t′(f ),(8)在训练过程中的导数t′（fy）除了基于边缘的softmax损失之外，我们还分析了焦点损失的影响焦点损失相对于激活f的梯度等于原始softmax 损失乘以τ ′（log（py）的梯度。这种梯度对训练过程产生了完全不同但非常有效的影响，它随着对数似然性单调下降，并有助于平衡不同难度水平的样本。3.3. 搜索空间基于上述分析，我们可以将两个变换τ和t插入到原始softmax损失中以生成具有统一公式的损失函数，其具有平衡（1）类内距离和类间距离，（2）不同难度水平的样本的能力。统一的公式可以写成：∂fyiyiyi||=p t，（9）||= pt,(9)Lτ，t=−τ（log. pt），（15）哪里fjj我其中τ和t是任何具有正梯度的函数为了-pt=eWyixit（cos（θyi））、（10）确定τ有一个有界定义域[0，1]，因此约化在这个空间中搜索的复杂性，我们交换τyiWyxit（cos（θy））Wei i+j i jj yi和日志，pt=eWjxicos（θj）（十一）Lτ，t=−对数（τ.ptΣ）。（十六）e<$Wyi<$$>xi<$t（cos（θyi））+<$ji=yieWjxicos（θj）我们证明，这两个搜索空间定义在方程。15和我们进一步将类内距离与类间距离的相对重要性定义为相对于基于余量的softmax损失的梯度的范数的比率，其描述如下：Lt当量16个相等：对于等式中的任何τ1（x），15，我们可以通过简单地在等式中设置τ2（x）=eτ1（log（x））来获得相同的损失函数。十六岁我们的搜索空间由τ和t，其对训练过程的影响由以下决定||∂fi||（1−pt）根据上面的分析计算导数τ’和t’作为rt=yi =yit′（f），（十二）iLtJTYIJ结果，我们简单地将候选集设置为分段线性均匀划分定义域的函数，而相对于原始softmax损耗，该显著性比为确保每个间隔内的独立斜率和偏差。以函数t为例：Lot t t t t t||∂fi||（1−po）t（x）=aix+bi，x∈[i，i+1]，（17）ro=yi=yi.（十三）我哦哦||J||j其中ζt=[Z0，…[M]（M是间隔的数量）是区间的端点，以及ζt-ζt=（ζt-（t）/M其中〇是恒等变换。保证金的影响对于i∈[0，M-1]。i+1i M0基于类内距离的相对重要性的损失到类间距离可以被计算为rt和ri：我们还分析了搜索空间中组件的有效性。不同区间的样本难度不同。例如，较大值的区间（1−pt）我pt=jt（f）=ΣǁWtǁǁxiǁcos(θt)t=/yieWjxicos（θj）t′（f）包含具有较小类内距离dyi的更容易的样本。由于t′表示类内o（1−po）yiΣǁWtǁǁxiǁcos(θt)yi我们把每一个时间间隔都用指数来表示。里伊伊t=/yieOjeW jǁǁxiǁ cos（θj）我ypRpeJ不8415我悬垂斜率t′=at，以确保损失函数可以指示-=t′（fy）（14）在这里，我们得出结论，基于余量的softmax损耗层平衡类内和类间不同难度级别的类距离类似地，τ我我我主要用作控制器以改变相对信号。类内距离对类间距离的重要性不同难度样本的显著性埃尔斯偏差bt和bτ保证了我我8416i=1θ不每一个间隔都来自前一个间隔。我们将定义域设置为常数，将定义域均匀划分为M间隔。定义θ=[atT，btT，aτT，bτT]T。给定损失函数Lθ=Lt，τ仅由θ决定。因此，我们的搜索空间可以由L={Lθ}参数化。算法1：AM-LFS输入：初始化模型Mω0，初始化分布µ0，总训练次数T，分布学习率η输出：最终模型Mω3.4. 优化假设我们有一个参数化的网络模型Mω不对于t=1到T，做样本B超参数θ1，.θB通过分布N（µt，σI）;通过ω，训练集合Dt={（xi，yi）}n和验证集Dv，分别针对一个时期训练模型Mωt，其中我们的损失函数搜索的目标是最大化模型Mω在maxR（θ）=r（Mω*（θ），Dv）采样的超参数并得到Mω1，…MωB;t t计算得分R（θ1），. R（θB）确定得分最高的模型指数i=arg maxR（θj）;J使用公式更新µt+1（二十）更新Mωt+1=Mωi端S. t.ωθ（θ）= argminωΣ（x，y）∈DtLθ（Mω（x）、（y）、（18）返回MωT这是指标准的双层优化问题[3]，其中损失函数参数θ被视为超参数。我们训练了模型参数ω，使训练损失Lθ在内部水平上最小化，同时寻找一个好的损失函数超参数θ，导致模型参数ωε在外部水平上使验证集Dv为了解决这个问题，我们提出了一个超参数B超参数采样优化方法{θ1，.θB}，并使用它们来训练当前模型。在我们的AM-LFS中，我们将这些超参数θ建模为独立的高斯分布，描述为θ<$N（μ，σI）。（十九）在训练一个epoch之后，生成B模型，并且这些模型的奖励用于通过REINFORCE [40]更新超参数的分布，如下所示：1ΣB1501 [44]和DukeMTMC-reID [29，45]，以显示我们的方法对分类，人脸识别和人员重新识别任务的有效性。4.1. 实现细节由于我们的AM-LFS利用了一个双层优化框架，我们的实施设置可以分为内层次和外层次。在内部水平，为了公平的竞争，我们保持了所有的实验设置，如预热阶段，学习率，小批量大小和学习率衰减与特定任务上请注意，对于具有多分支损耗的基线例如，在MGN [38]中，我们仅将AL-LFS应用于8个softmax损耗分支，同时保持三重损耗不变。在外层，我们优化了损失函数在搜索空间中的分布，分布参数的梯度由REINFORCE算法从固定数量的样本中计算得到。奖励是准确率第一，µt+1=µt+ηBi=1R（θi）<$θlog（g（θi;μt，σ））（20）rank 1值和mAP用于分类、人脸识别和人的重新识别。我们正常化了，其中g（θ;μ，σ）是高斯分布的PDF。得分最高的模型将在下一个epoch中使用。最后，当训练收敛时，我们直接取得分最高的模型r（Mw<$（θ），Dv）作为最终模型，而不需要任何再培训。为了简化问题，我们将σ固定为con-稳定和优化超过µ。我们的AM-LFS的训练过程总结在算法1中。4. 实验我们在四个基准数据集上进行了实验，包括CIFAR-10 [15]，MegaFace [14]，Market-8417将每个样本返回的奖励设置为零均值和单位方差，作为每个样本的奖励。对于所有数据集，样本B和间隔M的数量分别设置为32和6。请注意，我们也在4.6节中对这些数字进行了研究。对于分布参数，我们使用Adam优化器，学习率为0.05，并设置σ = 0。二、完更新的分布参数，我们广播将具有最高mAP的模型参数分配给每个样本以用于同步。对于所有数据集，每个采样模型都使用2个Nvidia 1080TI GPU进行训练，因此总共需要64个GPU。84184.2. 数据集产品类别：CIFAR-10数据集由分辨率为32 × 32的自然图像组成。 CIFAR-10由10个类别的60，000张图像组成，每个类别6，000张图像。课训练集和测试集分别包含50，000和10，000个图像。在CIFAR数据集上，我们采用了遵循[19，13]的标准数据增强方案（移位/镜像），并使用通道均值和标准差对输入数据进行归一化。人脸识别：对于人脸识别，我们将CASIA-Webface[43]设置为训练数据集，MegaFace作为测试数据集。CASIA-Webface包含来自10，575个身份的494，414个训练图像。MegaFace数据集作为最大的公共可用测试基准发布，其目的是在百万级干扰项下评估人脸识别算法的性能。为了执行开集评估，我们小心地移除训练数据集和测试数据集之间的重叠标识。人员ReID：对于人员重新识别，我们使用Market-1501和DukeMTMC-reID来评估我们提出的AM-LFS方法。市场-1501包括以下图像从6个不同的摄像头拍摄了1，501人。通过DPM检测器预测的边界框裁剪行人。整个数据集分为训练集和测试集，训练集包含751人的12，936张图像，测试集包含750人的3，368张查询图像和19，732张图库图像。在我们的实验中，我们选择了单查询模式，其中特征提取只有一个查询图像。 DukeMTMC-reID 是Duke-MTMC的一个子集，用于人员重新识别，其中包含由8个高分辨率相机捕获的1，812个不同身份的36，411个注释边界框图像。至少有两台摄像机观察到了总共1,404个身份，剩下的408个身份是干扰物。训练集包含702个身份的16，522个图像，测试集包含其他702个身份。4.3. 关于CIFAR 10我们在CIFAR-10数据集[15]上使用ResNet-20 [11]演示了我们的方法我们使用标准交叉熵训练模型，以获得原始的top-1测试误差8。百分之七十五表2示出了与标准交叉熵（CE）[4]和通过学习教导（L2 T-DLF）[41]方法的可以观察到，在所有三种损失函数方法中，我们的AM-LFS帮助ResNet-20实现了6的最佳性能。92%的top-1错误率。我们还看到，最近提出的L2T-DLF将softmax丢失的错误率降低了1。12%，因为L2T-DLF引入了通过教师模型输出的动态损失注意，AM-LFS可以进一步将L2 T-DLF的前1错误率降低0。71%，其中表2.使用ResNet-20在数据集CIFAR-10上的结果，显示了噪声标签的比率，使用标准交叉熵，L2 T-DLF和AM-LFS的前1个测试错误率（%）。噪声比（%）CE [4]L2T-DLF [41]AM-LFS08.757.636.921012.05-10.052015.05-12.73该方法具有更有效的损失函数搜索空间和优化策略设计。除了常规的实验外，我们还进行了CIFAR-10噪声标签实验，其中标签类可以通过给定的噪声比随机翻转到任何其他标签，以证明AM-LFS在训练过程中具有数据重新加权的特性如表2所示，AM-LFS始终优于基线softmax损失2。00%和2。在10%和20%的噪声比下为32%分别4.4. 关于MegaFace我们比较了所提出的AM-LFS与三种最先进的损失函数方法，包括SphereFace，CosineFace和ArcFace。我们使用了具有20层的修改后的ResNet表3显示了MegaFace rank1@1e6在各种损失函数下的性能对于SphereFace和CosineFace，我们直接报告了原始论文的结果。对于ArcFace，我们通过运行作者提供的源代码来自己训练模型来报告他们的结果我们可以观察到，我们提出的AM-LFS优于所有比较的方法6。1%，1.0%和1. 1%，分别。主要原因是从我们提出的搜索空间中采样的候选项可以很好地近似所有这些比较的损失函数，这意味着它们的良好特性可以在训练阶段得到充分的探索和利用同时，我们的优化策略使动态损失可以指导不同时期的模型训练，这有助于进一步提高区分力。4.5. Market 1501和DukeMTMC reID的结果我们通过将其应用于一些现有的竞争对手，包括Spher-eReID，SFT和MGN，证明了我们的AM-LFS的有效性。我们在两个数据集上与当前最先进的方法进行比较，以显示我们在现有基线上的性能优势。我们在所有候选数据集上报告了秩-1和秩-5的平均精度（mAP）和累积匹配特征（CMC）。在Market-1501数据集上，我们只在单查询模式下进行实验。Market-1501数据集和DukeMTMC-reID数据集的结果如下8419表3.使用ResNet-20在MegaFace数据集上与最先进的损失函数进行比较。对于SphereFace和Cosine-Face，我们直接报告了原始论文的结果。对于ArcFace，我们通过运行源代码来报告结果。表5.使用ResNet 50在DukeMTMC-ReID数据集上与最先进的方法进行比较，显示mAP，等级1和等级5。RK是指执行重排序操作。方法mAPrank1 rank5由他们各自的作者提供，由我们自己使用相同的CosineFace设置。方法MegaFace rank1@1e6[22]第二十二话67.4CosineFace [37]72.5ArcFace [5]72.4AM-LFS73.5表4.使用ResNet 50与Market- 1501数据集上的最新方法进行比较，RK是指执行重排序操作。方法地图rank1rank5MLFN [2]74.390.0-美国有线电视新闻网[18]75.791.2-DuATM [32]76.691.497.1部分对齐[34] 79.6 91.7 96.9PCB [35] 77.4 92.3 97.2[6] 100.0 100.0 100.0SFT [24] 82.7 93.4-表6.根据Market-1501数据集和DukeMTMC-reID数据集上的mAP，通过将 B 设置为 4 ， 8 ， 16 ， 32 ，使用我们基于SphereReID基线模型的AM-LFS，样本数量的影响。分别示于表4和表5中。我们根据是否应用我们的AL-LFS 将结果分为两组。对于 Market-1501 ， MGN（ RK ） +AM- LFS 的表现优于最佳竞争对手 MGN（RK）0。4%的mAP。我们观察到，MGN秩1表现出退化（0。5%）。主要原因是AM-LFS利用mAP相关奖励进行指导，这可能并不总是与秩1值一致。对于DukeMTMC-reID，MGN（RK）+AM-LFS在mAP和秩1方面优于所有比较方法。我们的结论是，尽管基线模型 SphereReID ， SFT 和 MGN 已经在 Market- 1501 和DukeMTMC-ReID上取得了非常高的结果，但将AM-LFS应用于它们仍然可以帮助培养更好的模型，从而持续提高性能。4.6. 消融研究组件的有效性：我们通过演示（1）所提出的损失函数搜索空间本身可以导致 AM-LFS 我们在Market- 1501上训练了SphereReID模型，方法是从初始分布中抽取候选样本，同时不更新该分布。在收敛时，该模型的mAP为84。0%，比原来的基准线高出0.百分之四我们针对建议的搜索空间进行了这项研究，即使在引导随机搜索设置下，也可以保证基线模型的性能增益。我们进一步实现了分布的优化，并获得了额外的性能增益0。百分之四因此，我们得出结论，损失函数搜索空间的设计和适当的优化程序是至关重要的良好性能。样品调查：通过改变AM-LFS中的参数B，研究了样本数对优化过程的影响。注意，它的成本更高在一些实施例中，计算资源（GPU）被配置为随着B的增加训练小批数据。我们在表中报告了从{4，8，16，32}中选择的不同B值的性能结果6在市场上的mAP-1501和DukeMTMC-reID方面PSE [30]62.079.889.7MLFN [2]62.881.0-美国有线电视新闻网[18]63.880.5-DuATM [32]64.681.890.2部分对齐[34]69.384.492.2PCB+RPP [35]69.283.3-ShpereReID [6]68.583.990.6SFT [24]73.286.993.9MGN [38]78.488.7-[38]第38届世界杯足球赛88.690.9-ShpereReID+我们的69.884.392.0SFT+我们73.887.095.1MGN [38]86.995.7-方法B=4B=8B=16B=32[38]第38届世界杯足球赛94.296.6-Market-150183.683.884.284.4SphereReID+我们的84.495.098.1dukemtmc-Reid68.468.969.769.8SFT+我们83.293.697.9MGN+我们88.195.898.4MGN（RK）+我们的94.696.198.48420表 7.根据 Market-1501数据集和DukeMTMC-reID 数据集的mAP，使用我们基于SphereReID基线模式1的AM-LFS，通过将M设置为3、6、10，间隔数量的影响。的t的t的t的t的t的t0 1 2 3 4 5关于SphereReID结果表明，当B较小时，性能下降，因为没有足够的样本不能获得有效的梯度我们还观察到50时代1000.51斜率a1.5当我们继续扩大B时，性能表现出饱和。为了权衡性能和训练效率，我们选择在训练期间将B间隔调查：通过改变AM-LFS中的区间参数M，研究了搜索空间中的区间数对算法性能的影响。根据我们对搜索空间的设计，不同难度级别的样本被分配到特定的间隔，这使得类内距离和类间距离之间能够动态权衡。表.图7示出了关于Market-1501数据集和DukeMTMC-reID数据集上的M 当我们将间隔数设置为较小的数字（M = 3）时，mAP表现出较低的值，因为间隔不足以处理训练期间的所有级别的困难示例。当我们设置一个大的区间数（M=10）时，网络很难训练，并且精度下降，因为过多的分布参数很难优化。我们还观察到，最佳性能是在M = 6的中等值下实现的。收敛性调查：为了评估我们的AM-LFS的训练过程，我们需要对训练收敛进行调查，特别是在外部层面。然而，由于我们的AM-LFS在训练过程中学习动态损失函数分布，因此跟踪平均奖励也不是一个好主意，因为这个信号非常嘈杂，这会造成训练过程不稳定的错觉。其主要原因是外部层损失函数分布的小的更新可能导致内部层网络参数的大的变化。因此，我们选择跟踪一个更直观的度量，分布参数来研究我们的方法的收敛性。从图3中，我们可以看到，随着历元的增加，分布参数趋于收敛到特定值，这表明AM-LFS可以以稳定的方式进行训练梯度分布可视化：我们在图4中可视化类内距离项fyi的梯度分布，以证明AM-LFS比Market-1501数据集上的SphereReID中的基线Sphere softmax损失函数具有更高的区分能力。当AC-图3.AM-LFS的收敛性分析20151050-5-1-0.5 0 0.5 1激活图4. Sphere Soft- maxLoss和我们的AM-LFS的梯度分布的可视化。如果阈值（x轴）增加，则帧内距离将减小，其中数据样本处于相对容易的水平。相反，当激活值（x轴）减小时，数据样本处于硬电平。从图4可以看出，AM-LFS关于硬示例的梯度低于基线sphere softmax的梯度，这导致关注类间距离。我们认为，AM-LFS可以动态地权衡类内距离和类间距离的重要性，从而提高模型5. 结论在本文中，我们提出了用于损失函数搜索的AutoML我们精心设计了一个有效的和任务无关的搜索空间和双层优化框架，保证了不同视觉任务的通用性和可移植性。虽然本文仅展示了AM-LFS应用于分类，人脸识别和人物识别数据集的有效性，但它也可以轻松地应用于其他现成的现代计算机视觉框架，以完成各种任务，这是一项有趣的未来工作。softmax ours梯度数据集M=3M=6M=10Market-150183.884.484.2dukemtmc-Reid68.669.869.508421引用[1] 韩才、朱立庚、宋涵。Proxylessnas：目标任务和硬件上的直接神经结构搜索。 CoRR， abs/1812.00332 ，2018。[2] 作者：Timothy M. Hospedales和Tao Xiang。用于人员重新识别的多级分解网络。在CVPR中，第2109-2118页[3] Beno t Colson，Patrice Marcotte，and Gilles Savard.二层优化概述。Annals OR，153（1）：235[4] 放大图片作者：Peter Tjerk de Boer，Dirk P. Kroese，Shie Mannor，and Jumven Y.鲁宾斯坦关于交叉熵方法的教程。Annals OR，134（1）：19[5] Jiankang Deng，Jia Guo，and Stefanos Zafeiriou. 弧面：用于深度人脸识别的附加角边缘损失 CoRR ，abs/1801.07698，2018。[6] 邢凡、魏江、罗昊、飞梦娟。球体：用于人物重新识别的深超球流形嵌入。CoRR，abs/1807.00537，2018。[7] 杨帆，飞天，秦涛，李向阳，刘铁岩。学会教书。在ICLR，2018年。[8] 罗斯湾娘娘腔。快速R-CNN。在ICCV，第1440-1448页，2015中。[9] 郭明昊，赵忠，吴伟，林大华，严俊杰。Irlas：用于架构搜索的反向强化学习。 arXiv 预印本 arXiv ：1812.05285，2018。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[12] Yihui He， Ji Lin ，Zhijian Liu ，Hanrui Wang，Li-JiaLi，and Song Han. AMC：移动设备上的模型压缩和加速自动化。参见ECCV，第815-832页[13] 高煌，孙宇，刘壮，丹尼尔·塞德拉，和Kilian Q.温伯格深度随机的深度网络。参见ECCV，第646-661页[14] 放大图片作者：Steven M. Seitz，Daniel Miller，andEvan Brossard. megeface基准：100万张人脸用于大规模识别。在CVPR中，第4873[15] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。[16] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[17] Buyu Li，Yu Liu，and Xiaogang Wang.梯度协调单级检测器。CoRR，abs/1811.05181，2018。[18] Wei Li，Xiatian Zhu，and Shaogang Gong.和谐的关注网络，人的再认同。在CVPR中，第2285-2294页[19] Min Lin，Qiang Chen，and Shuicheng Yan.网络中的网络。CoRR，abs/1312.4400，2013。[20] 放大图片创作者：林宗毅， Priya Goyal ， Ross B.Girshick，Kaiming He，andP i otrDoll a'r. 密集目标检测的焦面损失。在ICCV，第2999-3007页[21] 柳寒笑，凯伦西蒙尼扬，杨一鸣。 Darts：差异化架构搜索。arXiv预印本arXiv：1806.09055，2018.[22] 刘未央，温延东，余智定，李明，拉吉比丘，宋乐Sphereface：用于人脸识别的深度超球面在CVPR中，第6738-6746页[23] Weiyang Liu，Yandong Wen，Zhiding Yu，and MengYang.卷积神经网络的大余量softmax损失。在ICML，第507-516页[24] 罗传晨，陈云涛，王乃艳，张兆祥.光谱特征变换用于人的再识别。CoRR，abs/1811.11405，2018。[25] Renqian Luo，Fei Tian，Tao Qin，Enhong Chen，andTie-Yan Liu.神经结构优化。神经信息处理系统进展，第7827-7838页，2018年[26] Hieu Pham、Melody Y Guan、Barret Zoph、Quoc V Le和Jeff Dean。通过参数共享进行高效的神经架构搜索。arXiv预印本arXiv：1802.03268，2018。[27] Esteban Real ， Alok Aggarwal ， Yanping Huang ， andQuoc V Le.用于图像分类器架构搜索的正则化进化。arXiv预印本arXiv：1802.01548，2018。[28] 任少卿，何开明，Ross B.Girshick和Jian Sun。更快的R-CNN：朝向利用区域建议网络的实时对象检测。在NeurIPS，第91-99页[29] 放大图片作者：Ergys Ristani，Francesco Solera，RogerS.邹，丽塔·库奇亚拉，卡洛·托马西.多目标、多相机跟踪的性能测量和数据集。ECCV，第17-35页，2016年[30] M. Saquib Sarfraz，Arne Schumann，Andreas Eberle，and Rainer Stiefelhagen.一种姿态敏感的嵌入，用于扩展交叉邻域重新排序的个人重新识别。在CVPR，第420-429页[31] Shreyas Saxena 和 Jakob Verbeek 卷积神经结构。在NIPS，第4053-4061页[32] [1] Jianlo

下载后可阅读完整内容，剩余1页未读，立即下载