没有合适的资源?快使用搜索试试~ 我知道了~
深度随机集成用于度量学习
用于度量学习的深度随机集成洪璇1、理查德·苏文尼尔2、罗伯特·普利斯11计算机科学系乔治华盛顿大学{xuanhong,pless} @ gwu.edu2计算机与信息科学系坦普尔大学souvenir@temple.edu抽象。学习嵌入函数将语义相关的输入映射到特征空间中的附近位置,支持各种分类和信息检索任务。在这项工作中,我们提出了一种新颖的,可推广的和快速的方法来定义一个家庭的嵌入函数,可以用来作为一个合奏,以改善结果。每个嵌入函数都是通过将训练标签随机打包成小子集来学习的。 我们的实验表明,这些嵌入合奏创建有效的嵌入功能。集合输出定义了一个度量空间,该度量空间提高了CUB-200-2011、Cars-196、In-Shop Clothes Retrieval和VehicleID上的图像检索的最新性能。1介绍图像嵌入通常被优化以将语义相似的输入映射到特征空间中的附近位置。此后,诸如分类和图像检索之类的任务可以在学习的特征空间中被重铸为诸如邻域查找之类的简单操作这种方法已经应用于许多问题。嵌入的深度学习方法使用来自许多类的数据进行训练,并基于来自相同或不同类的图像对优化损失函数[3,5],来自同一类的输入被迫比来自不同类的输入更接近的三元组图像[16],或大型图像集合的函数[9,2,20,7]。对于这些优化函数中的许多,将输入图像嵌入到高维空间中由于过拟合而导致性能差。最近的一些工作[13]提出了一种使用集成方法进行高维嵌入的方法,学习将图像映射到独立输出空间的集合我们提出了一种不同的方法来学习一个强大的,高维嵌入空间。而不是重新加权输入示例来创建独立的2洪璇、理查德·苏文尼尔、罗伯特·普利斯Fig. 1. 标准深度嵌入方法(左)训练网络将所有图像从一个类映射到输出空间中的附近位置。我们的方法(右)学习映射的集合。集合的每个模型学习将类的小子集分组的映射图像由集合中的每个模型映射,并且输出坐标被连接。输出嵌入,我们建议对类标签进行分组。图1说明了这个想法。我们学习了一组嵌入,这些嵌入都是用相同的输入数据训练的,但分配给数据点的标签不同我们将类分组为Meta类(每个元类包含几个类),并学习由其元类标记的输入的嵌入我们基于来自CARS196数据集的数据在图2中显示了元类的可视化示例。第一个元类将来自Porches和Audi特定型号的图像分组在一起,因此第一个嵌入将寻求将所有这些图像映射到同一位置。对于类到元类的每个分组,学习类似地嵌入相同元类的所有元素的嵌入。我们训练了许多这样的嵌入,将不同的类随机分组为元类。最后的嵌入是每个低维嵌入的坐标的级联。这种方法适用于许多嵌入式架构的选择。我们使用ResNet-18 [6]和Inception V3 [19]架构显示了实验结果我们的贡献如下。用于度量学习的3– 我们引入随机分组标签的想法,作为一种方法,使一个大家庭的相关嵌入模型,可以用作一个合奏。– 我们说明了不同的参数选择有关的嵌入效果确定系综内嵌入的大小和数量– 我 们 证 明 了 对 CUB-200-2011 [21] , Cars-196 [8] , In-Shop ClothesRetrieval [24]和VehicleID [10]数据集的检索任务的最新技术水平的改进。2相关工作2.1图像嵌入图像嵌入属于距离度量学习的范畴。从机器学习和计算机视觉的角度来看,在这一领域已经有了相当多的工作。在这里,我们重点介绍了最近使用卷积神经网络进行图像嵌入的方法。学习嵌入函数有很多方法。三重态损失(例如[16])定义了一个基于图像三元组的损失函数(两个来自同一类,一个来自不同类),如果它没有将同一类输入映射到比不同类更接近的位置,则会惩罚网络。由于训练通常是分批执行的,因此自然会考虑优化批次中所有图像的嵌入位置的损失函数,无论是通过同时考虑所有三元组(由批次定义)还是通过惩罚同类和不同类图像之间的距离直方图[7,12,20]。No Fuss Embeddings [11]表明,使用分类网络的输出层为一次性学习和图像检索任务提供了非常有用的嵌入函数这具有更快收敛的优点(因为每个输入图像具有特定标签,并且损失函数不取决于其他输入被映射到哪里),这消除了困扰一些三元组损失方法的硬示例挖掘中的一些挑战虽然可以设计三重损失方法来减轻这些挑战[7],但我们选择[11]作为我们实验中的嵌入方法,主要是因为它的速度。2.2集成CNN集成算法已被更广泛地用于分类问题。一个示例应用了boosting模型的变体,该变体添加了在较小网络失败的示例上训练的额外网络层[22]。在集合中创建多样性的其他方法是训练不同架构的网络集合来解决相同的问题并组合结果[4]。据我们所知,唯一创建嵌入合奏的作品是BIER [13]。这遵循一个提升模型,通过重新加权示例来增量地创建集成嵌入,以便驱动后续与这种方法相比,我们的方法是不连续的,因此平凡的并行化。此外,正如我们在第4节中所展示的,我们的方法在许多基准数据集上的性能优于BIER4洪璇、理查德·苏文尼尔、罗伯特·普利斯图二. CAR196数据集的元类。将Porches和Audis的特定模型分组到一个类中并学习那些类被映射到相同位置的嵌入可能是违反直觉的,但是这种方法使得容易定义成为有效集合的许多不同但相关的嵌入问题3训练随机集成嵌入我们的训练方法是创建一个相关模型的集合,并为每个模型学习一个嵌入。为了创建我们的集合的一个成员,模型i,我们将来自训练集Y的类标签集合划分为元类集合Mi,其中元类的数量是参数D,并且每个元类的大小大致相同。集合中的所有模型都以相同的方式计算,唯一的区别是基于元类Mi的映射φi来自Y的不同随机分区。我们将嵌入的数量定义为L。 为了计算新输入x的最终嵌入,我们将每个嵌入的输出连接起来以获得最终输出向量Φ = φ1(x),φ2(x),. . . φ L(x)>。对于一次性学习或图像检索任务,该函数Φ代替标准嵌入函数。用于度量学习的5总的来说,这种方法有一系列参数和选择,其中两个最突出的是:1. D,类别标签集合Y被划分成的元类别的数量2. L,系综中包括的嵌入函数的数量存在与基于由类划分Mi定义的嵌入问题来学习Φi相关的选择的集合。如果φi被表示为一个深度神经网络,我们考虑以下问题:1. φi的输出嵌入维数是多少?2. 表示函数φi的网络结构是什么?3. 用于训练φi的损失函数是什么?我们选择使用ResNet-18和Inception V3架构进行实验,并遵循无干扰嵌入方法[11],输出维度等于元类的数量D(除非另有说明)。考虑到这些选择,第4节将性能表征为元类的数量(以及因此每个元类的大小)和所使用的集合的大小的函数所有测试都在PyTorch平台上运行[14]。对于我们的实验,我们使用来 自 PyTorch 模 型 动 物 园 的 ResNet 18 和 Inception V3 实 现 , 它 们 在ILSVRC 2012-CLS数据上进行了预训练[15]。输入图像的大小被重新调整为256 × 256像素。我们采用了标准的数据增强方案(随机水平翻转和随机作物填充10像素的每一边)。对于预处理,我们使用通道均值和标准差对图像进行归一化。所有网络都使用随机梯度下降(SGD)进行训练在所有数据集上,我们使用批量大小为128的9个epochs进行训练。初始学习率被设置为0.01,并且每3个时期除以10。4实验评价我们将我们的方法,深度随机集合度量学习(DREML)与7种最先进的方法进行比较(在可用的情况下使用已发表的结果):具有半硬负挖掘的三重学习[17],N对深度度量损失[18],基于代理的方法[11],硬感知深度级联嵌入(HDC)[23],鲁棒地提升独立嵌入(BIER)[13],Fash-ionNet基准[24]和组敏感三重采样(GS-TRS)[1]。4.1参数选择图3显示了CAR196数据集的不同选择的嵌入数量(我们的参数L)和元类数量(我们的参数D)的性能权衡左图显示了随着集成规模的增长而显着的改进,而它很小,并且有一个明显的渐近行为,超过这个行为添加新的嵌入并没有帮助。的6洪璇、理查德·苏文尼尔、罗伯特·普利斯右图显示性能还取决于Meta类的大小。当D小时,每个元类的类的数量大,使得嵌入问题更难;当D大时,每个元类的类的数量小,导致集合中的多样性更少。图4探索了对于固定Meta类大小增加系综大小的效果。我们看到嵌入之间的点积的分布对于CAR196数据集,对于训练数据集和验证数据集两者,相同类别(实线)和不同类别(虚线)中的对象变得另外,来自不同类别的具有大点积(例如,大于0.75)的对的数量减少。这与所观察到的召回性能的改善是一致的。对于剩余的实验,我们采用多个DREML模型,表示为DREML({I,R},D,L),其中元组指示架构(I)nceptionV 3或(R)esNet18以及D和L的值。图三. 左:CAR196数据集上的Recall@1准确度,具有不同的D(不同的线)和L(在x轴上)。右:具有各种D的最大集合模型的Recall@1精度。极端情况下性能较差,因为单个模型必须处理每个类的许多元类(小D)或缺乏多样性(大D)。表1.CUB200和CAR196数据集上的检索和聚类性能公司简介CAR196方法R@1 R@2 R@4 R@8 NMI R@1 R@2 R@4 R@8 NMI三重42.6 55.0 66.4 77.2 55.451.5 63.8 73.5 81.4 53.4N对51.0 63.3 74.3 83.271.1 79.7 86.5 91.6 64.0代理49.2 61.9 67.9 72.4 59.573.2 82.4 86.4 88.7 64.9HDC53.6 65.7 77.0 85.6−73.7 89.5 93.8−BIER55.3 67.2 76.9 85.1−78.0 85.8 91.1 95.1−DREML(I,12,48)78.5 86.2 91.3 94.489.8 94.0 96.6 97.979.1DREML(R,12,48)80.5 87.4 91.9 94.779.486.0 91.7 95.0 97.2用于度量学习的7图4.第一章对于来自训练类(红色)和验证类(蓝色)的图像,相同类(实线)和不同类(虚线)中的图像特征向量的成对点积分布所示为1、4、24个网络集合的分布,所有网络集合的输出维度均为24。随着网络数量的增长,相同和不同类别的分布分开。4.2检索性能我们遵循[12]中描述的评估方案来评估两个数据集CUB 200和CAR 196上的Recall@K对于In-Shop Clothes Retrieval和PKU VehicleID数据集,我们遵循[24]和[10]中描述的评估方案并评估Recall@K。表1显示了CUB200和CAR196数据集的检索性能结果。CUB200数据集[21]包含200种鸟类,11,788张图像。我们将前100个类分为训练类(5,864张图像)和测试类(5,924张图像)。CAR196数据集[8]包含196个类别的汽车和16,185张图像。我们使用标准分割,前98个类用于训练(8,054张图像),其余的类用于测试(8,131张图像)。对于每个数据集,表1示出了K= 1、 2、 4、 8的Recall@K此外,包括归一化互信息(NMI)分数作为聚类性能的度量,如[12]中所建议的。结果表明,在两个数据集的检索精度和聚类性能显着改善。两个数据集都包含大量的类内变异性;在CUB 200中,鸟在非常不同的背景前以不同的姿势显示。图6(左上角)突出显示了这种可变性,并显示了我们的方法用于CUB200(左上)和CAR196(右上)。In-Shop Clothes Retrieval(ICR)数据集[24]包含11,735类服装,其中包含54,642张图像。在[24]中的设置之后,只有7,982类服装物品具有52,712个图像用于训练和测试。3,997个类用于训练(25,882个图像),3,985个类用于测试(28,760个图像)。将测试集划分为查询集和图库集,其中查询集包含3,985个类别的14,218幅图像,图库集包含3,985个类别的12,612幅图像。然后,给定测试集中的目标图像,我们在图库集中检索最相似的图像。表2示出了检索和聚类结果,其示出了比BIER结果的略微改进从绝对值来看,DREML在In8洪璇、理查德·苏文尼尔、罗伯特·普利斯Shop Clothes数据集与其他数据集的比较;该数据集具有更多的类、每类更少的示例以及实质的类内变化。示出该变化的示例结果示于图6(左下)中。表2.In-Shop Clothes数据集上的检索性能方法R@1 R@10 R@20 R@30时尚网53.073.076.077.0HDC62.184.989.091.2BIER76.992.895.296.2DREML(R,192,48)78.4 93.7 95.8 96.7北京大学VehicleID(VID)[10]数据集包含由监控摄像头捕获的训练集包含13,134辆车的110,178幅我们遵循标准实验协议[10]对小型、中型和大型测试集进行测试,其中分别包含800辆汽车的7,332张图像、1,600辆汽车的12,995张图像和2,400辆汽车的20,038张表3显示了PKU Vehicle-ID数据集的检索和聚类结果该数据集具有显著较少的类内变异性,但一些邻近的类非常相似。示例检索结果和图像在图6(右下)中示出。表3.VID数据集上的检索性能数据大小小介质大方法R@1 R@5 R@1 R@5 R@1 R@5GS-TRS75.083.074.1八十二点六73.2八十一点九BIER82.6九十点六79.3八十八点三76.0八十六点四DREML(R,192,12)88.5 94.8 87.2 94.2 83.1 92.44.3嵌入不可见类我们的方法在嵌入看不见的类方面表现良好,在特征空间中更有效地分散新的示例。我们相信,这个属性有助于解释我们的方法检索任务的性能提高。我们使用No Fuss Embedding方法和96个训练类来定义96维嵌入。然后,我们将来自98个标准测试类的输入映射到这个嵌入上。因为No Fuss Embedding迫使点位于超球面上,所以我们使用点积作为相似性的度量,并计算看不见的类中的每个点与任何训练类中最相似点的相似性用于度量学习的9图五. CAR196数据集上每个测试图像与最接近的训练图像的点积。图5显示了这种分布。蓝线是单个网络的分布,大多数未见过的这表明,当将新类映射到嵌入空间时,它们通常被映射到非常接近现有类的位置,嵌入空间内的这种拥挤可能会限制召回性能。我们用另外3个网络重复这个实验。对于相同的96个训练类别,我们将它们分为24个元类,每个元类的大小为4,并执行相同的实验(如橙色曲线所示,向右移动第二远)。这不是集成嵌入,但我们假设由不相似输入组成的Meta类鼓励将新图像推离现有图像更远的嵌入最后的两条曲线示出了分别使用4个(绿色)和24个(红色)总嵌入函数的集成嵌入的结果。在这些嵌入中,新图像被映射到它们倾向于远离训练图像的位置,并且因为它们更加分散,所以嵌入在表示看不见的类别时可能更有效。5讨论深度随机度量学习集成(DREML)是一种创建不同嵌入函数集成的我们认为这是一个方便的工具,可能具有广泛的适用性,并已在四个数据集上证明了结果,这些数据集跨越了从CUB 200和CAR 196中的中等数量的类别到具有数万个类别的In-Shop Clothes和Vehicle ID基于集成的方法,我们和10洪璇、理查德·苏文尼尔、罗伯特·普利斯图六、CUB 200、CAR 196、In-Shop Clothes Retrieval和PKU VehicleID数据集的检索结果我们检索与查询图像最相似的4个图像正确结果以绿色突出显示,不正确结果以红色突出显示。用于度量学习的11BIER论文在所有四个数据集上的表现都大大优于非集成方法。CARS196和CUB200数据集具有中等量的训练数据,并且我们相信我们构建元类的方法创建了一种“更好的嵌入”,其有效地将所有我们的数据集都用于具有对于较大的数据集,我们的方法在性能上类似于用于In-Shop Clothes Retrieval数据集的BIER,其由于颜色和姿势变化而具有实质性的类内变化,并且总体上与每个类具有很少示例的许多类不太平衡。对于所有数据集大小,我们都优于北京大学车辆ID数据集的BIER,这可能是因为我们的集成方法比BIER对相对较小的类内变化更鲁棒我们的方法的缺点是我们训练了大量的网络,在 我 们 优 于 BIER 的 情 况 下 , 我 们 展 示 了 12个 网 络 ( 用 于 In-ShopClothes数据集)和48个网络(用于CUB,CAR和VID数据集)的集合结果探索这种集成方法的好处是否可以在单个网络中复制是有趣的。引用1. Bai,Y.,(1996年),美国,高氏,Lou,Y.,王,S.,黄,T.,Duan,L.:将类内方差并入细粒度视觉识别。CoRR abs/1703.00196(2017),http://arxiv.org/abs/1703.001962. 陈伟,陈旭,张杰,Huang,K.:除了三重态损失:一个深度的四元组网络用于人的重新识别。In:Proc.CVPR。卷2017年第23. Chopra,S.,哈德塞尔河LeCun,Y.:学习相似性度量有区别地,与应用到 人 脸 验 证 。 计 算 机 视 觉 与 模 式 识 别 , 2005 年 。 CVPR2005 年 。IComputterS o c ietyConferenceon. vol. 第1页。 539-546 IEEE(2005年)4. 郭杰,Gould,S.:用于对象检测的具有数据增强的深度cnn集成。arXiv预印本arXiv:1506.07224(2015)5. 哈德塞尔河Chopra,S.,LeCun,Y.:通过学习不变映射进行降维。In:ComputerVisionandPatternRecognition,2006IEEEcomputersocietyconferenceon. vol. 第2页。 1735- 1742年。02The Dog(2006)6. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。IEEE计算机视觉与模式识别会议(CVPR)(2016年6月)7. Hermans*,A.,Beyer*,L.,莱贝B:三重人格丧失的辩护。arXiv预印本arXiv:1703.07737(2017)8. Krause,J.,斯塔克M. Deng,J.,李菲菲:用于细粒度分类的3D对象表示。第四届国际IEEE 3D表示和识别研讨会澳大利亚悉尼(2013)9. 劳,麻省理工Thome,N.脐带,M.:四元组图像相似性学习。在:C〇mputerV is i sin(ICCV),2013IEEEInternatinalC〇nferenceon中。pp. 249-256 IEEE(2013)10. 刘洪,田,Y.,王玉,庞湖,加-地黄T:深度相对远程学习:区分类似车辆 的 区 别 。 在 : ProceedingsoftheIEEEConferenceonC 〇mputerVisisinandPattermRec 〇 gnitin中。pp. 216712洪璇、理查德·苏文尼尔、罗伯特·普利斯11. Movshovitz-Attias,Y.Toshev,A.Leung,T.K.,Ioffe,S.,Singh,S.:没有大惊小怪的距离度量学习使用代理。在:IEEE计算机视觉国际会议(ICCV)(2017年10月)12. 哦宋H Xiang,Y.,中国科学院,Jegelka,S.,Savarese,S.:通过提升结构化 特 征 嵌 入 进 行 深 度 度 量 学 习 。 IEEE 计 算 机 视 觉 与 模 式 识 别 会 议(CVPR)(2016年6月)13. Opitz,M.,Waltner,G. Possegger,H.,Bischof,H.:Bier -鲁棒地提升独立嵌入。在:IEEE计算机视觉国际会议(ICCV)(2017年10月)14. Paszke,A.,格罗斯,S.,Chintala ,S.,Chanan,G.,Yang,E.,DeVito,Z.,林芝,Desmaison,A.,安蒂加湖Lerer,A.:pytorch中的自动微分。在:NIPS-W(2017)15. Russakovsky,O.,Deng,J.,Su,H.,Krause,J.,Satheesh,S.,妈妈,S.,黄志,Karpathy,A.,Khosla,A.Bernstein,M.Berg,A.C.,李菲菲:ImageNet大规模视觉识别挑战。International Journal of ComputerVision(IJCV)115(3),211http://doi. org/10。1007/s11263-015-0816-y16. Schroff,F.,Kalenichenko,D. Philbin,J.:Facenet:用于人脸识别和聚类的统一嵌入。在:Proceedings of the IEEE conference on computervisionandpatter nregni t iti on中。pp. 81517. Schroff,F.,Kalenichenko,D. Philbin,J.:Facenet:用于人脸识别和聚类的统一嵌入。IEEE计算机视觉与模式识别会议(CVPR)(2015年6月)18. Sohn,K.:改进的深度度量学习与多类n对损失目标。在:Lee,D.D. , Sugiyama , M., Luxburg ,U.V. ,居 永岛 加内特 河( 编辑 )AdvancesinNeuralInformationProcessingSystems29 , pp.1857CurranAssociates,Inc.(2016年)19. 塞格迪角Vanhoucke,V.,Ioffe,S.,Shlens,J.,Wojna,Z.:重新思考计算机视觉的概念架构。IEEE计算机视觉与模式识别会议(CVPR)(2016年6月)20. Ustinova,E.,Lempitsky,V.:使用直方图损失学习深度嵌入。在:新一代生产系统中的设备。pp. 417021. Welinder,P. Branson,S.,Mita,T.,Wah,C.,Schroff,F.,Belongie,S. , 佩 洛 娜P. : 200. 第 200 章 大 结 局 Tech. Rep. CNS-TR-2010-001 ,California Institute of Technology(2010)22. Yuan,Y., 杨,K.,Zhang,C.: 硬感知深度级联嵌入。Corrabs/1611.05720(2016),http://arxiv.org/abs/1611.0572023. Yuan,Y.,杨,K.,Zhang,C.:硬感知深度级联嵌入。在:IEEE计算机视觉国际会议(ICCV)(2017年10月)24. 刘紫薇,罗平,S.Q.X.W.,唐X:Deepfashion:支持强大的服装识别和检索与丰富的注释。在:IEEE计算机视觉和模式识别会议(CVPR)会议记录(2016年6月)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功