深度度量学习中的损失函数及其在视觉识别任务中的作用

67 浏览量更新于2023-10-12 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1escosani cos（ap）、具有Tuplet Margin Loss的俞宝生与陶大成UBTECH悉尼人工智能中心，计算机科学学院，悉尼大学工程学院，达灵顿，新南威尔士州2008年，澳大利亚{宝生.余，大成.陶}@ sydney.edu.au摘要深度度量学习，其中损失函数起着关键作用，已被证明在视觉识别任务中非常有用。然而，现有的深度度量学习损失函数，如对比损失和三重损失，通常依赖于精心选择的样本（对或三重）来快速收敛。在本文中，我们提出了一种新的深度度量学习损失函数，即tuplet margin loss，使用从每个小批量中随机选择的样本。具体而言，所提出的元组余量损失隐式地对硬样本进行上加权并且对容易样本进行下加权，同时引入角度空间中的松弛余量以减轻对最硬样本的过拟合问题。此外，我们解决的问题，对内的变化，通过解开类特定的信息，以提高tu-plet利润损失的推广。在三个广泛使用的深度度量学习数据集CARS 196、CUB200 -2011和Stanford Online Products上的实验结果表明，与现有的深度度量学习方法相比，这些方法有显著的改进。1. 介绍深度度量学习专注于学习与语义相似性一致的深度特征嵌入，即，小的类内变化和大的类间变化[38，35]。已经证明，深度度量学习方法在视觉识别任务中非常有价值，例如一次性学习[5，29]，图像检索[9，18]，人的重新识别[5，29]。识别[39，12]和面部识别[27，23]。随着训练数据规模的不断扩大，无论是样本数量还是类别数量，深度度量学习损失函数在大规模视觉识别任务中都引起了越来越多的关注[23，17]。深度度量学习损失函数可以分为两大类：（1）基于分类的损失函数，例如，大余量softmax损失[14]和中心损失[36];以及（2）基于距离的损失函数，例如，[27 ][28][29]然而，现有的损失函数通常遭受几个固有的绘制-1简单0困难cosani cos（ap）图1：图1是一个图，说明了tuplet边际损失函数。给定元组（x a，x p，x n1，. . . ，xnk-1），元组余量损失指数地对元组内的硬三元组进行上加权，并对元组内的易三元组进行下加权。具体来说，每一个损失三元组（xa，xp，xni）由比例因子s>1和违规裕度cosθani−cosθap定义。松弛裕度β>0用于减轻硬边界上的过拟合问题通过更多地关注“中等难度的三胞胎”（阴影区域）来测试三胞胎。详见第3.3节。背后具体而言，基于分类的损失函数通常为每个类别使用分类层或参考点[36]，其中计算和对设备内存的要求都随着类别的数量线性增加[8]。最近，已经开发了几种方法，如动态类选择[43]和分布式并行加速[4]，以缓解基于分类的损失函数中的计算不考虑重分类层或大量参考点，基于距离的损失函数直接优化类内和类间距离之间的裕度，并且与类的数量无关[23]。然而，现有的基于距离的损失函数，例如，三重态损失，6490=0联系XpXn我XaXaXXn我p6491第1章第2章E2A1挪威2（一）第1章第1章第2章A1E2（b）第（1）款第1章挪威2只执行一组随机抽样的元组。受对象检测的焦点损失的启发[13]，我们以指数方式增加每个元组内的硬三元组的权重并降低每个元组内的简单三元组的权重（参见图1中的示例）。然而，指数加权方案通常倾向于通过过拟合每个元组中的最硬三元组来在类内和类间距离之间形成相对大的裕度。为了解决这个问题，我们在角空间中引入了一个松弛的边缘，以更多地关注用于改变加权方案的松弛裕度的直观示例是图2：对内变化的图示。高度表示成对距离，即，颜色填充条用于正对，图案填充条用于负对。在（a）和（b）中，正对和负对之间都有明显的界限，即， i= 1，2，我们有d（xai，x pi）0）的梯度将以指数方式加权，6496我我K而相对于易三重态的梯度（α i>0）将呈指数下降加权。也就是说，比例因子s可以用于从随机采样的元组中隐式地探索硬三元组以实现快速收敛。基于元组的损失函数根据硬三元组的违反边界指数地增加硬三元组的梯度的权重，其中最硬的三元组比其他三元组计数得多。结果，基于元组的损失函数通常通过过拟合最难的三元组，即，θ ani ∈ θ ap，θ i = 1，. . . ，k-1。（十一）为了解决上述问题，我们引入了松弛保证金β≥0以形成如下的松弛（11）：θ ani <$θ ap− β，<$i = 1，. . . ，k-1。（十二）然后可以通过将松弛裕度β应用到基于元组的损失函数中来导出所提出的元组裕度损失，如下所示：(a)λ= 0（b）λ = 0。5图5：对内变化最小化的图示。通过最小化对内变异，所有正对（或负对）具有更一致和紧凑的分布，而不管类别信息如何。此外，对内变化最小化可以被视为基于距离的损失函数的正则化。从两个不同类的正（或负）对的距离，差值P（D1）和P（D2）则指示L二重态.= log 1 +k−1i=1Σes（cosθani−cos（θap−β））. （十三）类相关信息。因此，我们认为，从训练集学习到的类相关信息降低了深度度量学习模型对看不见的测试数据的可推广性。我们将这种新的损失函数称为元组边际损失。图4显示了拟议的松弛边缘的影响。具体而言，所提出的松弛裕度不仅改变了正负对中的成对距离的分布，而且迫使损失更加关注因此，所提出的松弛余量通过降低在最难的三元组上过拟合的风险来改善基于元组的损失函数的性能我们将上述类相关分布公式化如下。令 Di表示正（或负）对的成对距离，其中所有锚点示例都来自类别i。考虑到每个小批是从k个类中随机抽取的，每个类有n个样本，所有正对（或负对）上的两两距离的分布可以表示为P（Di）的平均混合，即，1Σk3.4. 配对内变异基于距离的损失函数，包括建议的P（D）=K i=1P（Di）.tuplet边缘损失，优化类内和类间距离之间的边缘。然而，共享同一锚点示例的阳性和阴性对之间存在明显的差异，定理 1. 给定一设置的独立分布P（Di），i=1，. . .，k，以及它们的平均混合P（ D），则我们得到D的方差如下：并不总是表示一个好的概括[1]。一个直观的例子如图2所示，σ2=1σ2+1（µ-μ）2，对类相关距离度量的推广性较差。具体地说，给定两个三元组（xa1，xp1，xn1）和Kii=1k2i jI j（xa2，xp2，xn2），其中xa1和xa2来自不同的其中ui和σ2表示Di的均值和方差，re。类内距离小，类间距离通常由三元组约束来描述，即，d（x ai，x pi） d（xa2，xn2）.具体地说，如果两个随机变量D1和D2表示两两分别为。证据见附录。由定理1可知，每个类中的方差σ2和不同类之间的差|可以很好地被它们的混合物所捕获，即，|canbewell-capturedbytheiraveragedmix- ture, i.e., 所有正（或负）对的方差σ2。受此启发，我们减少了班级的影响来自训练数据的相关信息，例如，偏见和6497++βR@1R@2R@4R@8R@16089.493.996.397.898.80.0590.995.097.098.198.90.1091.595.497.398.599.20.1589.094.496.998.599.20.2085.292.095.597.799.0λR@1R@2R@4R@8R@16091.595.497.398.599.20.393.596.697.998.899.40.593.796.798.198.999.31.093.696.498.098.899.31.592.696.097.598.599.1(a) 不同β的比较表1：松弛余量和对内变化最小化的有效性在（a）中，我们使用相同的λ=0对不同的β进行实验。在（b）中，我们使用β = 0。1，并在不同的λ下进行实验。噪声，通过最小化每种类型对内的方差σ2我们将每种类型的对中的变化称为对内变化，并如下最小化所有正对的对内变化：Lpos=E[（1−π）µap−cosθap]2，（ 15）其中[·]+=max（0，·），µap=E[cosθap]是所有正对的平均余弦相似度，一个小的正标量<$=0。01用于收敛。类似地，我们将所有负对的损失函数定义为Lneg=E[cosθan− （ 1+μan ） ]2 。（十六）对内变化最小化的图示可以在图5中找到。最后，我们通过联合最小化元组边缘损失和对内损失来学习深度特征嵌入，如下所示：L=Ltuplet+λ（Lpos+Lneg），（ 17）其中λ>0形成两个损失函数之间的折衷4. 执行我们使用Pytorch1实现了所提出的方法。为了训练，所有图像的大小都调整为224×224，当边界框可用时，我们裁剪图像。我们以概率0随机水平翻转所有训练图像。5、数据扩充。我们在大多数实验中使用ResNet-50 [7]作为骨干网络，同时我们证明了所提出的方法的可扩展性，以一个更大的模型使用ResNet-101。我们所有的模型都是从ImageNet上预训练的权重初始化的[3]。除非提及，否则我们使用512的特征维度和256的批量大小（即，k=32和n=8）。我们使用新加坡元，0的情况。9，权重衰减为0。0001学习率从0开始。01，并且对于每30个时期除以10。我们训练我们的模型最多100个epoch，并报告最佳epoch的性能。1https://pytorch.org64985. 实验我们在三个流行的图像检索数据集上对所提出的方法进行了评估，CARS 196 [11]，CUB 200 -2011 [30]和斯坦福在线产品[18]。我们使用相同的评估指标，Recall@K指标，以及与[18]相同的训练/测试协议• CARS196 [11]包含196种不同车型的16，185张图像，分为两部分：所有8054来自前98个类别的图像用于训练，而剩余的8131个图像用于测试。• CUB 200 -2011 [30]包含200种不同鸟类的11，788张图片前100张类用于训练，其余5924个图像用于测试。• 斯坦福在线产品[18]包含22，634种不同产品的120，053张图片。全部59，551张图片前11，318个类别用于训练，其余11，316个类别的60，502个图像用于测试。5.1. Tuplet保证金损失为了证明所提出的元组边缘损失的有效性，特别是松弛边缘和对内变化最小化，我们在CARS196数据集的裁剪版本上针对不同的β和λ进行了许多实验。我们使用ResNet-50作为骨干网络，并将其他超参数固定为：s = 64，k = 32和n = 8。实验结果示于表1中。具体地，在表1（a）中，我们看到所提出的元组余量损失通过使用适当的松弛余量β = 0极大地改善了基于元组的损失函数的性能。1 .一、在表1（b）中，利用所提出的对内变化最小化方法，通过清晰的裕度进一步改善了元组裕度损失的性能，例如，R@1从91。5%至93。百分之七。5.2. 与当前技术我们将提出的tuplet边际损失与最新的最先进的方法进行了比较，例如Angular [34]，HDC6499方法CARS196CUB200-2011R@1R@2R@4R@8R@16R@1R@2R@4R@8R@16[25]第二十五话71.179.786.591.6-51.063.374.383.2-Angular [34]71.481.487.592.1-54.766.376.083.9-[17]第十七话73.282.486.487.8-49.261.967.972.4-HDC [42]73.783.289.593.896.753.665.777.085.691.5保证金[37]79.686.591.995.197.363.674.483.190.094.2比尔[19]78.085.891.195.197.355.367.276.985.191.7A-BIER [20]82.089.093.296.197.857.568.778.386.291.9ABE [10]85.290.594.096.1-60.671.579.887.4-TML（我们的）86.392.395.497.398.762.573.983.089.494.2方法CARS196（裁剪）CUB 200 -2011（裁剪）R@1R@2R@4R@8R@16R@1R@2R@4R@8R@16HDC [42]83.889.893.696.297.860.772.481.989.293.7保证金[37]86.992.795.697.698.763.975.384.490.694.8比尔[19]87.292.295.397.498.563.774.082.589.393.8A-BIER [20]90.394.196.897.998.965.575.883.990.294.2ABE [10]93.095.997.598.5-70.679.886.992.2-TML（我们的）93.796.798.198.999.273.783.089.793.696.4表2：CARS 196和CUB 200 -2011的结果。方法R@1R@10R@100R@1000取消[18]62.179.891.397.4[28]第二十八话63.981.792.297.7[25]第二十五话67.783.893.097.8HDC [42]69.584.492.897.7Angular [34]70.985.093.598.0保证金[37]72.786.293.898.0[17]第十七话73.7---比尔[19]72.786.594.098.0A-BIER [20]74.286.994.097.8ABE [10]76.388.494.898.2TML（我们的）78.091.296.799.0表3：斯坦福在线产品的结果。具体来说，由于某些类别的图像有限，我们为每个小批次随机抽样4个图像为了获得适当数量的元组，每个小批量包含从96个类中采样的示例[42]，Margin [37]，Proxy-NCA [17]。具体而言，为了公平比较CARS 196和CUB 200 -2011，我们报告了使用和不使用紧密绑定框的性能。对于表2和表3中的实验，我们使用ResNet-50作为骨干网络，并将其他超参数固定为：s = 64，β= 0。1，且λ = 0。五、除非另有说明，我们对每个小批量使用k = 32和n =8。我们看到，提出的tuplet边际损失（TML）显着优于所有其他方法，包括几种基于集成的方法，BIER[19]，A-BIER [20]和ABE [10]。此外，作为典型的深度度量学习损失函数，所提出的元组边际损失可能会通过这些基于集成的框架进一步改进。5.3. 消融研究我们对CARS196数据集的裁剪版本进行了几项消融研究，以更好地了解tuplet边缘丢失中的我们使用ResNet- 50作为骨干网络，并将其他参数固定为：0的情况。1，λ=0。五、实验结果的规模面-tors和特征嵌入维数如图所示，表4和表5。具体来说，更大的比例因子s使模型更容易拟合所有训练数据，同时增加了过度拟合的风险。在表4中，我们发现s=64在我们的实验中是一个很好的权衡，这与基于分类的损失函数[22，33，31，4]中的经验一致。在表5中，我们看到，所提出的元组边缘损失也适用于较小的特征尺寸，例如，128，这在实践中计算效率更高。为了进一步证明不同批量大小和骨干网络对所提出的元组余量损失的影响，我们对CARS196的裁剪版本进行了许多实验。为了公平比较，我们固定以下超参数，s=64，β=0。1，且λ=0。五、在表6中，我们可以看到，在更强大的骨干网络中，元组余量损失可以实现更好的性能在6500图6：CARS 196和CUB 200 -2011的检索结果第一列引用查询图像。骨干R@1R@2R@4R@8R@16ResNet-5093.796.798.198.999.3ResNet-10194.396.798.298.999.3表6：不同骨干网的比较我们使用k=32和n=8。表4：不同比例因子的比较我们使用k =32，n= 8，特征维数为512。表7：不同批量的比较我们使用ResNet-50作为骨干网络。表5：不同特征尺寸的比较我们使用k=32，n=8，比例因子s=64。表7中，我们发现所提出的元组边缘损失对不同的批量大小不是非常敏感，而最佳性能是通过小批量大小实现的，这与分类任务中的损失函数类似6. 结论在本文中，我们提出了一个新的基于元组的损失函数，元组边缘损失，用于深度度量学习。我们引入了一个松弛余量来缓解过度拟合的问题在最困难的样本上进行处理，并解决对内变化的问题具体来说，所提出的tuplet边际损失使用随机采样的数据，并且对不同的批量大小不太敏感，这使得在大规模分布式训练环境中检查其可扩展性变得有趣，我们将其留给未来的研究。7. 确认Baosheng Yu和Dacheng Tao得到了澳大利亚研究委员会项目FL-170100117和DP-180103424的部分SR@1R@2R@4R@8R@16169.179.987.592.996.3877.684.689.793.595.91686.391.394.296.297.63291.294.596.597.998.76493.796.798.198.999.312892.196.197.998.899.4KnR@1R@2R@4R@8R@1632493.296.397.898.799.332893.796.798.198.999.364492.296.297.798.699.264892.395.897.598.599.1昏暗R@1R@2R@4R@8R@1612892.395.897.598.599.125693.196.297.698.699.151293.796.798.198.999.3102493.596.497.898.899.16501引用[1] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.除了三重态损失：一个深度的四元组网络用于人的重新识别。在IEEE计算机视觉和模式识别会议论文集中，第403-412页二、五[2] Sumit Chopra Raia Hadsell和Yann LeCun。学习相似性度量有区别地，与应用到人脸验证。计算机视觉和模式识别（CVPR）IEEE会议论文集，第1卷，第539-546页，2005年1[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第248- 255页。Ieee，2009年。6[4] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议（CVPR）中，第4690-4699页一二三四七[5] 李飞飞，罗伯·费格斯，皮埃特罗·裴罗纳。对象类别的一次性 IEEE Transactions on Pattern Analysis andMachine Intelligence，28（4）：594-611，2006。1[6] Weifeng Ge ， Weilin Huang ， Dengke Dong ， andMatthewR. Scott.深度度量学习与分层三元组丢失。欧洲计算机视觉会议，2018年。二、三[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition（CVPR），第770-778页，2016中。6[8] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失，进行人员重新鉴定。arXiv预印本arXiv：1703.07737，2017。一、二、三[9] Junshi Huang ， Rogerio S Feris ， Qiang Chen ， andShuicheng Yan.基于双属性感知排序网络的跨域图像检索。在2015年IEEE国际计算机视觉会议（ICCV）的会议记录中，第1062- 1070页第1、3条[10] Wonsik Kim、Bhavya Goyal、Kunal Chawla、JungminLee和Keunjoo Kwon。深度度量学习的基于注意力的集成在欧洲计算机视觉会议（ECCV）的论文集，2018。三、七[11] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。在2013年IEEE计算机视觉研讨会国际会议论文集，第554-561页。二、六[12] Wei Li ， Rui Zhao ，Tong Xiao ，and Xiaogang Wang.Deep- reid：深度过滤配对神经网络，用于人物重新识别。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第152-159页，2014年。第1、3条[13] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE国际计算机视觉会议（ICCV）的论文集，第2980-2988页，2017年2[14] Weiyang Liu，Yandong Wen，Zhiding Yu，and MengYang.卷积神经网络的大余量softmax损失。国际机器学习会议，第507-516页，2016年。一、二[15] Weiyang Liu，Yan-Ming Zhang，Xingguo Li，ZhidingYu，Bo Dai，Tuo Zhao，and Le Song.深层超球面学习。神经信息处理系统，第3950-3960页，2017年。3[16] Yu Liu，Hongyang Li，and Xiaogang Wang.重新思考大规模识别的特征鉴别和聚合 arXiv 预印本 arXiv ：1710.00870，2017年。3[17] Yair Movshovitz-Attias、Alexander Toshev、Thomas KLe- ung、Sergey Ioffe和Saurabh Singh。没有大惊小怪的距离- ric学习使用代理。在IEEE国际计算机视觉会议（ICCV）的会议记录中，第360-368页，2017年。一、二、三、七[18] Hyun Oh Song ， Yu Xiang ， Stefanie Jegelka 和 SilvioSavarese。通过提升结构化特征嵌入进行深度度量学习。在计算机视觉和模式识别（CVPR）IEEE会议论文集，第4004- 4012页一二三六七[19] Michael Opitz、Georg Waltner、Horst Possegger和HorstBischof 。稳健地提高独立嵌入的 IEEEInternationalConference on Computer Vision （ ICCV ）， 2017 年。三、七[20] Michael Opitz、Georg Waltner、Horst Possegger和HorstBischof。使用bier进行深度度量学习：稳健地推进独立嵌入。IEEE关于模式分析和机器智能的交易，2018。三、七[21] Omkar M Parkhi，Andrea Vedaldi，Andrew Zisserman等人。英国机器视觉会议（BMVC），2015年。2[22] Rajeev Ranjan，Carlos D Castillo，and Rama Chellappa.L2约束的softmax损失用于区分性人脸验证。arXiv预印本arXiv：1703.09507，2017。三、四、七[23] FlorianSchroffDmitryKalenichenkoJamesPhilbinFacenet：用于人脸识别和聚类的统一嵌入在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第815- 823页，2015年。一、二、三[24] 马修·舒尔茨和托尔斯滕·约阿希姆从相对比较中学习距离度量。神经信息处理系统的进展，第41-48页，2004年。1[25] 孙奇赫改进的具有多类n对损失目标的深度度量学习。神经信息处理系统进展，第1857-1865页，2016年。二、三、四、七[26] Hyun Oh Song、Stefanie Jegelka、Vivek Rathod和KevinMurphy。通过设施位置进行深度度量学习。在IEEE计算机视觉和模式识别会议（CVPR）的Pro-CENTRAL中，第8卷，2017年。3[27] Yi Sun， Yuheng Chen ， Xiaogang Wang ， and XiaoouTang.通过联合识别-验证的深度学习人脸表示。神经信息处理系统的进展，第1988-1996页，2014年。第1、3条[28] 叶夫根尼娅·乌斯季诺娃和维克多·伦皮茨基。使用直方图损失学习深度嵌入。在神经网络的进展-6502Formation Processing Systems，第41703、7[29] Oriol Vinyals ，Charles Blundell，Tim Lil

下载后可阅读完整内容，剩余1页未读，立即下载