深度学习的圆损失优化方法-统一观点

47 浏览量更新于2023-10-24 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6398−- -圆损失：对相似度优化的统一观点Yif an Sung1，Changmao Cheng1，Yuhan Zhangg2，Chi Zhangg1，Liang Zhengg3，Zhongdao Wangg4，YichenWei g11北京航空航天大学3澳大利亚国立大学4清华大学{peter，chengchangmao，zhangchi，weiyichen}@ megvii.com摘要本文提出了一种深度特征学习的对相似度优化观点，旨在最大化类内相似度sp，最小化类间相似度sn。我们发现大多数损失函数，包括三重损失和softmax交叉熵损失，将Sn和Sp嵌入到相似对中，并寻求减少（sn−sp）。这样的优化方式是不灵活的，1布吕普0TBT'C一第1章1布吕普0T BT'C一第1章因为每个单个相似性得分上的惩罚强度被限制为相等。我们的直觉是，如果相似性得分偏离最佳值很远，则应该强调它。为此，我们简单地重新加权每个相似性，以突出显示优化程度较低的相似性得分。它会导致循环损失，这是由于其圆形决策边界而命名的。Circle loss对于两种基本的深度特征学习范式有一个统一的公式，即使用类级标签和成对标签进行学习。分析表明，圆损失提供了一个更灵活的优化方法，一个更明确的收敛目标，相比损失函数优化（SNSP）。在实验中，我们证明了Circle loss在各种深度特征学习任务上的优越性。在人脸识别、人物重新识别以及几个细粒度图像检索数据集上，所实现的性能与最新技术水平相当。1. 介绍本文对两种基本的深度特征学习范式，即从具有类级别标签的数据和具有成对标签的数据中学习。前者采用分类损失函数（例如，softmax交叉熵损失[25，16，36]）来优化样本和权重向量之间的相似性。后者利用度量损失函数（例如，，三重损失[9，22]）以优化样品之间的相似性。在我们的解释中，这两种学习方法之间没有内在的区别。他们都试图尽量减少*同等缴款。†通讯作者。(a)（b）第（1）款图1：流行的优化方式约简（sn−sp）与建议的优化方式约简（αnsn）αpsp）。(a)减少（snsp）倾向于不灵活的优化（A、B和C都具有关于sn和sp的相等梯度），以及am-双稳态收敛状态（决策边界上的T和T′均可接受）。（b）对于（αnsn−αpsp），循环损耗动态地调整其在sp和sn上的梯度，从而受益于灵活的优化过程。对于A，它强调增加sp;对于B，它强调减少，ingsn.而且，它有利于收敛于圆形决策边界上的一个指定点T，从而建立了一个明确的收敛目标。类间相似性Sn以及最大化类内相似性Sp。从这个角度来看，我们发现许多流行的损失函数（例如，，三重损失[9，22]，softmax交叉熵损失及其变体[25，16，36，29，32，2]）共享类似的优化模式。它们都把SN和SP嵌入到SIM中-ilarity pairs and seek to reduce（sn−sp）.在（sn−sp）中，增加sp等价于减少sn。我们认为这种对称优化方式容易出现以下两个问题。• 缺乏优化的灵活性。限制Sn和Sp上的惩罚强度相等。给定指定的损失函数，关于sn的梯度和sp具有相同的振幅（如第2节所述）。在某些情况下，例如，sp是小的并且sn已经接近0（图1（a）中的这是低效和不合理的。6399−--S−pn→→np{··· }{··· }npnpnpnJ···{}···∀ ∈• 模棱两可的收敛状态。优化（sn−sp）通常会导致s p的决策边界sn=m（m是保证金）。这种决策边界允许模糊性（例如：、（1）收敛。例如，T具有{sn，sp}={0。2，0。5}且T′具有{s′，s′}=做了些小改动我们对各种深度特征学习任务进行了广泛的实验，例如人脸识别，人员重新识别，汽车图像检索等。对所有在这些任务中，我们展示了Circle0的情况。四，零。7 .第一次会议。它们都得到边际m= 0。3 .第三章。然而，在这方面，将它们相互比较，我们发现且sp仅为0。1.一、因此，模糊收敛损害了特征空间的可分性。有了这些见解，我们得出了一个直觉，即不同的相似性得分应该有不同的惩罚强度。如果相似性得分偏离最优值很远，则应该受到强烈的惩罚。否则，如果相似性分数已经接近最优值，则应该对其进行优化语气温和地为此，我们首先将（ sn−sp ）推广为（αnsn−αpsp），其中αn和αp是独立的权重因子，允许sn和sp以不同的速度学习。然后，我们将αn和αp实现为线性函数w.r.t.sn和sp，以使学习速度适应优化状态：相似性得分偏离最优值越远，加权因子将越大。这种优化的结果是决策边界αnsnαpsp=m，在（sn，sp）空间中产生一个圆形，因此我们将所提出的损失函数命名为Circle loss。简单来说，圈丢失本质上从以下三个方面重塑了深度特征学习的第一，统一损失函数。从统一的相似对优化的角度来看，我们提出了一个统一的损失函数的两个基本的学习范式，学习类级别的标签和成对的标签。二是灵活优化。在训练期间，反向传播到sn（sp）的梯度将被αn（αp）放大。那些优化程度较低的相似性得分将具有较大的加权因子，并因此获得较大的Gra-1。如图1（b）中，A、B和C上的优化彼此不同。三是明确衔接地位。在圆形决策边界上，圆形损失有利于特定的收敛状态（相应地，它建立了一个确定的优化模型，损失与性能等同于最新技术水平。2. 统一的视角深度特征学习的目标是最大化类内相似性sp，以及最小化类间相似性sn。例如，在余弦相似性度量下，我们期望sp1和sn0。为此，使用类级别标签的学习和使用成对标签的学习是两个基本范例。它们通常被单独考虑，并具有重要意义。对于损失函数来说，它们彼此之间的关系是不同的。给定类别级别标签，第一个基本上学习将每个训练样本分类到其目标类别，具有分类损失，例如 L2-Softmax [21] ， Large-margin Soft- max [15] ， AngularSoftmax [16]，NormFace [30]，AM-Softmax [29]，CosFace [32]，ArcFace [2].这些方法也被称为基于代理的学习，因为它们优化了样本和代表每个类的一组代理之间的相似性。相反，给定成对标签，第二个直接学习成对相似性（即，样本之间的相似性），因此不需要代理，例如，、重复性丢失[5，1]、三重丢失[9，22]、提升结构丢失[19]、N对丢失[24]、组蛋白丢失[27]、角度丢失[33]、基于边缘的丢失[38]、多相似性丢失[34]等。本文从统一的角度看待这两种学习方法，对基于代理或成对相似性没有偏好。给定特征空间中的单个样本x，让我们假设有K个类内模拟，相似性得分和L类间相似性得分与x相关联。我们将这些相似性得分分别表示为{si}（i = 1，2，.，K）和s（j= 1，2，. ，L）。为了最小化每个sj以及最大化si（i1，2，K，j1，2，L），我们提出了一个统一的损失函数：目标和利益的可分性。本文的主要贡献概括为ΣLuni= log 1 + 阿克里尔Σexp（γ（sj−si+m））如下所示：n pi=1j =1ΣΣLΣK（一）Σ我们提出了Circle loss，这是一个用于深度特征学习的简单损失函数通过重新加权每个相似性得分，=log1+exp（γ（sj+m））j=1i=1exp（γ（−si）），在有监督的情况下，循环损失有利于深度特征学习，具有灵活的优化和明确的收敛目标。其中γ是比例因子，m是更好的裕度相似性分离当量1是直觉。它迭代每个相似对以减少（sj−si）。我们注意到它生成三重态我们提出了圆损失与兼容性，以两个类-水平标签和成对标签。循环损失退化为三重损失或softmax交叉熵损失，损失或分类损失，只需稍加修改。给定类级别标签，我们计算x和权重向量wi（i=1，2，···，N）之间···6400nJyǁ ǁǁ ǁn联系我们|P||N|P−JInJp我ITNǁǁ ǁL巴恩A BL萨普A B卢恩布吕普卢恩布吕普L巴恩L萨普一BB一卢恩布吕普卢恩布吕普L巴恩A BL萨普AB卢恩布吕普卢恩布吕普(a) 三重损耗（b）AMSoftmax损耗（c）循环损耗图2：损失函数的梯度。(a)三重丢失。(b)AM-Softmax损失。(c)圈的损失。三重态损失和AM-Softmax损失都缺乏优化的灵活性相对于sp（左）和sn（右）的梯度被限制为相等，并且在收敛时（相似对B）突然减小例如，在A处，类内相似性得分sp已经接近1，并且仍然引起大的梯度。此外，决策边界平行于sp=sn，这允许模糊收敛。相比之下，所提出的循环损失分配不同的梯度相似性分数，这取决于它们的距离最佳。对于A（Sn和Sp都很大），圆损法着重于Sn的优化.对于B，由于sn显著减小，因此圆损失减小了其梯度，从而强制执行适度的惩罚。圆损失具有圆形决策边界，并促进准确的收敛状态。（N是训练类的数量）。具体来说，我们通过以下公式获得（ N-1 ）个类间相似性分数： sj=wTx/（wj<$$>x <$）（wj是第j个[24]多相似性损失[34]等。在样品间进行“软”硬开采。随着γ的增大，开采强度逐渐增大，当γ→+∞时，开采强度重新增大。非目标权重向量）。另外，我们得到一个类内相似性得分（省略上标）sp=wTx/（wyx）。在这些前提下， Eq 。 1 退化为 AM-Softmax [29 ， 32] ，Softmax损失的重要变体（即，softmax交叉熵损失）：在[22，8]中得到了典型的硬采矿结果。梯度分析。当量2和Eq。3显示三重损失，Softmax损失及其几种变体可以解释为Eq. 1.一、换句话说，它们都优化了（sn−sp）。在只有一个sp和sn的玩具场景下，我们可视化了三重态损失的梯度ΣLam= log 1 +NΣ−1j=1Σexp（γ（sj+m））exp（−γsp）（二）和图中的AM-Softmax损失。2（a）和（b），从中我们得出以下意见：=− logexp（γ（sp − m））。• 首先，在损失达到决策边界exp（γ（s-m））+<$N−1exp（γsj）（）（。pj=1n此外，当m= 0时，Eq. 2进一步退化为Normface[30]。通过将余弦相似度替换为内积并设置γ= 1，最终退化为Softmax损失。给定成对标签，我们计算x和小批量中其他特征之间的相似性得分。具体地，sj=xTx/（xj=xt）（xj是负样本集中的第j个样本）和s=x x/（xix）（xi是正样本集中的第i个样本）。相应地，K= ，L= .当量1退化到三重态损失，硬开采[22，8]：关于sp和sn两者是彼此相同的。状态A有sn，sp= 0。八比零。8，表示良好的类内紧性。然而，A仍然接收到关于sp的大梯度。这导致在优化过程中缺乏灵活性。其次，梯度在收敛之前保持（大致）恒定，并在收敛时突然减小与状态A相比，状态B更接近决策边界并且更好地优化。然而，损失函数（三重损失和AM-Softmax损失两者）对A和B实施近似相等的惩罚。这是另一个证据的可信度。L=lim 1 L三γ→+∞γ1= limuniΣlog 1 + 阿克里尔Σexp（γ（sj−si+m））（三）• 第三，决策边界（白色虚线）平行于snsp=m。任何两点（例如、T图中的T′1）在这个边界上有一个相等的sim-γ→+∞γΣΣ= max s −sn pi=1j =1.m的ilarity gap，因此，n p+Σ具体来说，我们注意到，在Eq。3、“exp（·）achieve. 换句话说，损失函数（sn−sp+m）对T或T′没有偏好，运算被提升结构损失[19]，N对增益所利用，并且易于模糊收敛。前-·6401p- --n np pn→→n np pΣnpnnppppnps>1-m且s m<。这个问题的实验证据将在第4.6节中获得。这些问题起源于最小化（sn−sp）的优化方式，其中减少sn等价于增加sp。在下面的第3节中，我们将把这种优化方式转换为更一般的方式，提供更高的灵活性。3. 一种新的损失函数3.2.类内和类间边距在损失函数优化（sn-sp）中，增加一个裕度m可以加强优化[15，16，29，32]。由于sn和−sp处于对称位置，因此sn上的正裕量等价于sp上的负裕量。因此，它仅需要单个裕度m。在循环损失中，sn和sp处于不对称位置。自然地，它需要sn和sp的相应裕度，其由下式表示：3.1.自定进度加权我们考虑通过以下方式来增强优化的灵活性：LLcircle=log1+exp（γαj（sj−n））j=1i=1exp（−γαi（si−））<$（六）允许每个相似性分数根据其当前优化状态以其自己的速度学习。我们首先忽略了其中，Bn和Bn是类间和类内利润率分别。等式中的边缘项m1、转移统一损失基本上，Eq中的圈损失6期望si”和通过以下方式将其纳入建议的Circle损失我叫<约翰。我们进一步分析了设置的blog和blogpΣL圆= log 1 +阿克里尔exp .γ（αjsj−αisi）通过推导决策边界。为了简单起见，我们在二元分类的情况下，决策i=1j =1ΣΣLn n p pΣK（四）Σ在αn（sn<$n） αp（sp <$p）=0处达到边界。结合Eq.5，决策边界由下式给出= log 1个以上j=1exp（γαjsj） i=1exp（−γαisi），（sn -On+n）2+（s-Op+ Op）2=C（7）其中αj和αi是非负加权因子。.22Σn p当量 4是从Eq. 1通过将（sj−si）转化为其中C=（On−<$n）2+（Op−<$p）2/4。（αjsj−αisi）。在训练期间，关于当量图7显示决策边界是一个圆，如图所示第1段（b）分段。圆心就是（αjsj−αisi）与αj（αi）相乘，当返回时-在s=（O+ π）/2，s=（O+ π）/2，其半径n n p p n pJ Innppp传播到sn（sp）。当相似度得分偏离太远时从其最佳（i. e. ，Onforsj andOp forsi），它应该等于C。有五个超参数用于圆损失，即，Op，得到较大的权重因子，从而得到有效的更新梯度大为此，我们在a中定义αi和αj在Eq. 5和方程中的γ、γp、γn六、我们减少超-自我调节方式：，αi= [O−si]，+p n（五）通过设置Op= 1+m，On=−m，Op=1−m，n=m。因此，Eq.7减少为：αj=[sj−On]+，2 2 2n n（sn−0）+（sp−1）= 2m。（八）其中[·]+是而αj是非负的。p在等式中定义的决策边界。8、我们对圈损有了另一种直观的解读。它旨在-讨论。在su下重新缩放余弦相似性，透视法是现代分类法的一种常用方法损失[21，30，29，32，39，40]。传统上，所有相似性分数共享相等的比例因子γ。当我们将分类损失函数中的softmax值视为样本属于某个类别的概率时，相等的重新缩放是自然的相比之下，Circle loss在重新缩放之前将每个相似性得分与独立的权重因子相乘。因此，它摆脱了相等重新缩放的约束，并允许更灵活的优化。除了最大化sp1和sn0的情况。参数m控制决策边界的半径，并且可以被视为松弛因子。换句话说，循环损失预计I jp n因此，只有两个超参数，即，规模因子γ和松弛裕度m。我们将在4.5节中通过实验分析m和γ的影响。3.3. Circle Loss圆损耗相对于sj和si的梯度为更好的优化的好处，另一个意义，这种重新加权（或重新缩放）策略涉及推导如下：n p.j22潜在的解释。圈损失放弃在-L圆=Zexp γ（（sn）SppΣ6402nnpp-m）γ（sj+m），（9）将样本以较大概率分类到其目标类别的解释。相反，它拥有一个相似对opti-和J.S.JΣLl=1.γ（（sl）2-m2）n信息化视角，兼容两种学习方式圆exp .γ（（si−1）2— m2）我范例斯岛=ZKk=1.γ（（sk−1）2-m2）<$γ（sp−1−m），（10）exppexp6403··−≤−××其中Z = 1 − exp（−L圆）。在二元分类的玩具场景下（或只有单个sn和sp），我们在图2（c）中可视化m的不同设置下的梯度，从中我们得出以下三个观察结果：• sn和sp上的平衡优化。我们记得，最小化（sn−sp）的损失函数总是具有相等的梯度sp和sn，并且是不灵活的。相比之下，呈现动态惩罚强度。在指定的相似对{sn，sp}中，如果sp与s n相比被更好地优化（例如，，A={0. 八比零。8}在图2（c）），循环损失分配一个较大的梯度sn（反之亦然），以便减少n具有更高的优越性。平衡优化的实验证据将在第4.6节中获得。梯度逐渐减弱。在训练开始时，相似性得分偏离最佳值很远，并获得大的梯度（例如，，随着训练逐渐接近收敛，相似性分数上的梯度相应地衰减（例如，，第4.5节中的实验结果表明，学习效果对γ的各种设置都是鲁棒的（在等式中）。6），我们将其归因于自动衰减的梯度。一个（更）明确的趋同目标。圆损失有一个圆形的决策边界，有利于T而不是T ′（图1）的收敛。这是因为与决策边界上的所有其他点相比，T在sp和sn之间具有最小的间隙换句话说，T′在sp和sn之间有更大的差距，并且本质上更难维持。相比之下，最小化（snsp）的损失具有齐次决策边界，即决策边界上的每个点都具有相同的难度。实验上，我们观察到，在收敛之后，圈损失导致更集中的相似性分布，如在第4.6节和图中详细描述的。五、4. 实验我们全面评估了两种基本学习方法，即循环损失的有效性。使用类级别标签学习和使用成对标签学习。对于前一种方法，我们在人脸识别（第4.2节）和人员重新识别（第4.3节）任务上评估了我们的方法。对于后一种方法，我们使用细粒度图像检索数据集（第4.4节），这些数据集相对较小，并鼓励使用成对标签进行学习。我们表明，圈损失是主管在这两种设置。第4.5节分析了两个超参数的影响，即，Eq.6和方程中的松弛因子m8.我们证明了在合理的设置下，圆损失是鲁棒的。最后，第4.6节通过实验证实了圆损耗的特性。4.1. 设置人脸识别我们使用流行的数据集MS- Celeb-1 M [4]进行训练。原生MS-Celeb-1 M数据是有噪声的，并且具有长尾数据分布。我们清洁脏的样品并排除几个尾部标识（每个标识3个图像）。结果是3。6M图像和79.九千个身份。为了进行评估，我们采用MegaFaceChallenge 1（MF 1）[12]，IJB-C [17]，LFW [10]，YTF [37]和CFP-使用FP [23]数据集和官方评估协议。我们还抛光了探头组和1M牵引器在MF1上进行更可靠的评估，遵循[2]。对于数据预处理，我们调整对齐的人脸图像的大小，112 112，并将RGB图像的像素值线性归一化为[ 1，1][36，15，32]。我们只通过随机水平翻转来增加训练样本。我们选择流行的残差网络[6]作为我们的骨干。所有模型都经过182k次迭代训练。学习率从0.1开始，分别在总迭代次数的50%、70%和90%时减少10。我们的方法的默认超参数是γ= 256和m= 0。25、如果没有说明对于所有的模型推断，我们提取512-D特征嵌入，并使用余弦距离作为度量。人员重新识别。人物再识别（re-ID）的目的是在不同的观察中发现同一个人的外观。我们评估我们的方法对两个流行-常规数据集，即，Market-1501 [41]和MSMT 17 [35]。Market-1,501包含1，501个身份、12，936个训练图像和19，732个图库图像，这些图像是用6个相机捕获的。MSMT17包含4，101个身份，126，411张由15台相机拍摄的图像，并呈现长尾样本分布。我们采用两种网络结构，即以ResNet50为骨干的全局特征学习模型和名为MGN的部分特征模型[31]。我们采用MGN是考虑到其具有竞争力的性能和相对简洁的结构。原始MGN在每个零件特征分支上使用Sofmax损失进行训练。为了简单起见，我们的实现将所有零件特征连接到一个特征向量中。对于循环损失，我们设置γ= 128和m= 0。二十五细粒度图像检索。我们使用三个数据集对细粒度图像检索进行评估，即CUB- 200-2011 [28]，Cars 196[14]和Stanford Online Prod。ucts [19].CARS-196包含16，183个图像，属于196个类别的汽车。前98个类用于训练，后98个类用于测试。CUB-200- 2010有200种不同的鸟类。我们使用前100个类的5，864张图像进行训练，最后100个类的5，924张图像进行测试。SOP是一个大型数据集，由120053张图片组成，属于22634类在线产品。训练集包含11，318类，包括59，551幅图像，其余11，316类，包括60，499幅图像用于测试。实验装置如下[19]。我们使用BN-Inception [11]作为主干，6404表1：MFC1数据集上的人脸识别和验证结果。“Rank1” denotes rank-1 identification表4：在重新ID任务上的圈损失的评估。我们报告R-1准确度（%）和mAP（%）。牧师 “Veri” 表示验证TAR（真接受率）在1 e-6 FAR（错误接受率）下使用1Mdistractor。“R34” and “R100” denote using ResNet34 and ResNet100backbones,损失函数等级1（%）验证（%）R34R100R34R100Softmax92.3695.0492.7295.16标准面[30]92.6295.2792.9195.37AM-Softmax [29，32]97.5498.3197.6498.55ArcFace [2]97.6898.3697.7098.58CircleLoss（我们的）97.8198.5098.1298.73表2：使用ResNet 34主干的LFW、YTF和CFP-FP上的人脸验证准确率（%）。损失函数LFW [10]YTF [37]CFP-FP [23]Softmax99.1896.1995.01标准面[30]99.2596.0395.34AM-Softmax [29，32]99.6396.3195.78ArcFace [2]99.6896.3495.84CircleLoss（我们的）99.7396.3896.02表3：IJB-C 1：1验证任务的TAR比较损失函数TAR@FAR（%）学习512-D嵌入。我们采用P-K抽样策略[8]构造P=16、K= 5的小批量。对于循环损失，我们设置γ =80和m = 0。4.第一章4.2. 人脸识别对于人脸识别任务，我们比较了圆形损失与几个流行的分类损失函数，即。、vanilla Softmax、NormFace[30]、AM-Softmax [29]（或CosFace [32]）、ArcFace[2]。在原文献[29，2]的基础上，设γ= 64，m= 0。对于 AM-Softmax ， γ = 35 ，并且 γ= 64 ， m= 0 。 5 、ArcFace。我们在表1中报告了MegaFace Challenge 1数据集（MFC 1）的识别和验证结果。圈损失略优于不同条件下的同行-市场-1501 MSMT 17ENT骨干。例如，使用ResNet 34作为骨干，在等级-1准确度下，Circle损失超过最具竞争力的一个（Ar-cFace）+0.13%。以ResNet100为骨干，虽然ArcFace达到了98.36%的高等级1准确率，但Circle loss仍然优于它+0.14%。同样的意见也适用于核查指标。表2总结了面部验证结果对 [10][11][12][13][14][15][16][17]我们注意到，这些数据集的性能已经接近饱和。具体而言，ArcFace比AM-Softmax高+0.05%，+0.03%，+0.07%。圆形损失仍然是最好的，超过ArcFace +0.05%，分别为+0.06%和+0.18%我们在表3中进一步比较了IJB-C 1：1验证任务中AM-Softmax 和 ArcFace 的 Circle 损失。在 ResNet34 和ResNet100骨干网下，循环损耗都具有相当大的优势。例如，使用 ResNet 34 ，在 “TAR@FAR= 1 e-4” 和“TAR@FAR= 1 e-5”上，圆损失分别显著超过Arc- Face+1.16%和+2.55%4.3. 人员重新识别我们在表4中评估了re-ID任务的Circle损失。 MGN[31]是最先进的方法之一，用于学习多粒度部件级特征。最初，它使用Softmax损失和三重损失来促进联合优化。为了简单起见，我们的“MGN（ResNet 50）+AM-Softmax”和“MGN（ResNet 50）+循环损失”的实现我们从表4中得出三个结论。首先，我们发现圈损失可以实现与最新技术水平相比具有竞争力的重新识别准确性。我们注意到，在MSMT17上，“JDGL”略高于“MGN + Circle loss”[ 35 ]。JDGL [42]使用生成模型来增强训练数据，并显着提高了长尾数据集的re-ID。其次，将Circle loss算法与AM-Softmax算法进行比较，观察到Circle loss算法的优越性，这与人脸识别任务的实验结果一致。第三，将1e-31e-41e-5ResNet34，AM-Softmax [29，32]95.8792.1481.86ResNet34，ArcFace [2]95.9492.2884.23ResNet34，CircleLoss（我们的）96.0493.4486.78ResNet100，AM-Softmax [29，32]95.9393.1988.87ResNet100，ArcFace [2]96.0193.2589.10ResNet100，CircleLoss（我们的） 96.2993.9589.60方法R-1地图R-1地图[26]第二十六93.881.668.240.4MGN [31]（Softmax+Triplet）95.786.9--JDGL [42]94.886.077.252.3ResNet50 + AM-Softmax92.483.875.649.3ResNet50 + CircleLoss（我们的）94.284.976.350.2MGN + AM-Softmax95.386.676.551.86405表5：三个细粒度图像检索数据集上的R@K（%）的比较上标表示嵌入大小。[14]第十九届中国国际汽车工业展览会[19](a) 比例因子m（b）松弛因子m图3：两个超参数的影响。在（a）中，循环损耗在比例因子γ的各种设置上表现出高鲁棒性。在（b）中，在松弛因子m的大范围内，圆损耗超过AM-Softmax和ArcFace的最佳性能。“MGN + Circle loss”, we find that part-level features这意味着循环损失与专门为重新识别设计的零件模型兼容。4.4. 细粒度图像检索我们评估了三个细粒度图像检索数据集上的成对标记数据的圆损失的兼容性，即。、CUB-200-2011、Cars 196和斯坦福在线产品。在这些数据集上，大多数方法[19，18，3，20，13，34]采用鼓励的成对标签学习设置。我们在表5中将圈损失与这些最先进的方法进行了比较。我们观察到Circle loss在所有三个数据集上都达到了有竞争力的性能。在竞争方法中，LiftedStruct [19]和Multi-Simi [34]是专门设计的，具有精心设计的硬挖掘策略，用于使用成对标签进行学习。[18][20][21][22][23][24][25][26][27][28][29相比之下，提出的Circle损失实现了与最先进水平相当的性能，没有任何花里胡哨的东西。图4：训练过程中sp和sn我们在前2k次迭代中线性延长曲线，以突出显示初始训练过程（在绿色区域中）。在早期训练阶段，圈损失迅速增加sp，因为sp偏离初始化时的最优值，从而吸引更高的优化优先级。4.5. Hyper参数我们分析了两个超参数的影响，即。，Eq.6和方程中的松弛因子m。8关于人脸识别任务。比例因子γ确定每个相似性得分的最大比例。比例因子的概念在Softmax损失的许多变体中至关重要我们通过实验评估了它对循环损失的影响，并与其他几种涉及尺度因子的损失函数对于AM-Softmax和Circle损耗，我们将γ从32变化到1024对于ArcFace，我们只将γ设置为32、64和128，因为在我们的实现中，γ越大，它结果在图1B中可视化。3.第三章。与AM-Softmax和ArcFace相比，Circle loss算法对γ具有很强的鲁棒性。Circle loss对γ的鲁棒性的主要原因是梯度的自动衰减。随着训练过程中相似性得分接近最佳值，加权因子逐渐减小。因此，梯度自动衰减，导致适度优化。松弛因子m确定圆形决策边界的半径。我们从-0变化m。2比0。3MFC1的1级准确度（%）MFC1的1级准确度（%）R@1R@2R@4R@8R@1R@2R@4R@8R@1R@10R@102R@103[19]第十九话43.656.668.679.653.065.776.084.362.580.891.997.4HDC384 [18]53.665.777.085.673.783.289.593.869.584.492.897.7HTL512 [3]57.168.878.786.581.488.092.795.774.888.394.898.4ABIER512 [20]57.571.579.887.482.089.093.296.174.286.994.097.8ABE512 [13]60.671.579.887.485.290.594.096.176.388.494.898.2[34]第三十四话65.777.086.391.284.190.494.096.578.290.596.098.7CircleLoss51266.777.486.291.283.489.894.196.578.390.596.198.66406−(b)圆损（m=0.325）图5：收敛后相似性分布的可视化。蓝点标记在整个训练过程中穿过决策边界的相似对。绿点标记收敛后的相似对。(a)AM-Softmax寻求最小化（sn−sp）。在训练期间，相似性对通过宽个通道好吗收敛后，相似对在（sn，sp）空间中分散在一个相对较大的区域在（b）和（c）中，圈出损失具有循环决策边界。相似对通过一个狭窄的通道穿过决策边界，聚集成一个相对集中的区域。(with0的情况。05作为间隔），并将结果可视化在图中。3（b）款。据观察，在从0. 05到0。25、Circleloss超越了Arcface以及AM-Softmax的最佳性能，表现出相当程度的鲁棒性。4.6. 特征调查分析优化过程。为了直观地理解学习过程，我们在图中显示了整个训练过程中sn和sp的变化。4，从中我们得出两点意见：首先，在初始化时，所有sn和sp得分都很小。这是因为随机化特征在高维特征空间中倾向于彼此远离[40，7]。相应地，sp得到显著更大的权重（与sn相比），并且sp上的优化主导了训练，导致图中相似性值4.第一章这一现象证明了圈损保持了灵活和平衡的优化。其次，在训练结束时，与AM-Softmax相比，Circleloss实现了更好的类内紧凑性和类间离散性（在训练集上）由于循环损失在测试集上实现了更高的性能，我们认为它表明了更好的优化。收敛性分析。我们分析了图1中圆损失的收敛状态。五、我们研究了两个问题：在训练过程中，由SN和SP组成的相似对如何越过决策边界，以及它们如何被分解。在（sn，sp）空间中的贡献。结果示于图五、在图5（a）中，AM-Softmax损耗采用m = 0的最佳设置。三十五在图5（b）中，圆损耗采用折衷设置m= 0。325（a）和（b）的决策边界彼此相切，允许直观的比较。在图5（c）中，圆损耗采用其最佳设置m= 0。二十五比较图5（b）和（c）对图。5（a）中，我们发现循环损失在决策边界上呈现出相对较窄的通道，以及更集中的收敛分布（特别是当m= 0时）。第25段）。结果表明，与AM-Softmax损失相比，Circle损失对所有相似对的一致收敛性更强.这一现象证实了Circle loss具有更明确的收敛目标，从而提高了特征空间的可分性5. 结论本文提供了深度特征学习优化过程的两个见解。首先，大多数损失函数，包括三重损失和流行的分类损失，通过将类间和类内相似性嵌入到相似性对中来进行优化。第二，在监督下的相似性对内，每个相似性得分倾向于不同的惩罚强度，取决于其到最优值的距离。这些见解导致了Circle损失，这使得相似性分数可以以不同的速度学习。循环损失有利于深度特征学习，具有高度的优化灵活性和更明确的收敛目标。它有两个基本的学习方法，即一个统一的公式。分类标签学习和成对标签学习。对各种深度特征学习任务，例如人脸识别、人的重新识别和细粒度图像检索，Circle loss实现了与现有技术水平相当的性能(c)圆损耗（m=0.25）(a)AMSoftmax（m=0.35）6407引用[1] S.乔普拉河Hadsell和Y.乐存。学习相似性度量有区别地，与应用到人脸验证。在Proceedings of the IEEEComputer Society Conference on Computer Vision andPattern Recognition，第1卷，第539-546页2[2] J. Deng，J.Guo，N.Xue和S.Zafeiriou. Arcface：用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议上，2019年。一、二、五、六[3] W. GE. 深度度量学习与分层三元组丢失。在欧洲计算机视觉会议上，2018年9月。7[4] Y.郭湖，加-地 Zhang， Y. Hu，X.他和J.高。Ms-celeb-1m：大规模人脸识别的数据集和基准。在2016年欧洲计算机视觉会议上。5[5] R. Hadsell，S. Chopra和Y.乐存。通过学习不变映射进行降维。在IEEE计算机协会计算机视觉和模式识别会议论文集，第2卷，第1735IEEE，2006年。2[6] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集，2016年。5[7] L. 他，Z。Wang，Y.Li和S.王. Softmax解剖：为了理解嵌入式学习的类内和类间目标。 CoRR ，abs/1908.01281，2019。8[8] A.赫尔曼斯湖Beyer和B. Leibe为三胞胎的丢失辩护，进行人员重新鉴定。arXiv预印本arXiv：1703.07737，2017。三、六[9] E. Hoffer和N.艾伦使用三重网络的深度度量学习。在基于相似性的模式识别国际研讨会上，第84-92页。施普林格，2015年。一、二[10] G. B. Huang，M. Ramesh，T. Berg和E.学习米勒。在野外贴上标签的脸：研究无约束环境下人脸识别的数据库。技术报告07-49，马萨诸塞大学，阿默斯特，2007年10月。五、六[11] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。第32届国际机器学习会议论文集，第448-456页，2015年。5[12] I. Kemelmacher-Shlizerman，S. M. Seitz，D. 米勒和E.布拉萨megeface基准：100万张人脸用于大规模识别。在IEEE计算机视觉和模式识别会议集，第4873-4882页，2016年。5[13] W.金湾，澳-地Goyal，

下载后可阅读完整内容，剩余1页未读，立即下载