没有合适的资源?快使用搜索试试~ 我知道了~
4884学习密度感知嵌入研究Soumyadeep Ghosh,Richa Singh,MayankVatsa IIIT-Delhi,印度{soumyadeepg,rsingh,mayank}@ iiitd.ac.in摘要深度度量学习算法已被用于学习区分性和可推广的模型,这些模型对于分类看不见的类是有效的。提出了一种新的抗噪深度度量学习算法.所提出的方法,称为密度感知度量学习,强制模型学习嵌入,这些嵌入被拉向每个类的聚类器的最密集区域。 它是通过迭代地将中心的估计值移向聚类的密集区域来实现的,从而导致更快的收敛和更高的泛化能力。除此之外,该方法对训练数据中的噪声样本具有鲁棒性,通常作为离群值存在。在两个交叉模态人脸识别数据库和两个流行的物体识别数据库上的详细实验和分析表明了该方法的有效性。它具有卓越的收敛性,需要更少的训练时间,并且比几种流行的深度度量学习方法具有更好的准确性。1. 介绍卷积神经网络(CNN)等分类模型损失函数试图使相同类的嵌入在输出流形中彼此接近。 在该嵌入空间中,距离的直接计算给出了两个图像之间的相异性分数。几个不同的应用已经研究了深度度量学习算法的使用,例如人员重新识别[4,13,21],3D对象检索[12],生物网络,ric recognition [7,20,23,24],robot perception [15],patch匹配[11,31]和对象识别[18,27]。在文献中,已经提出了非常有效的深度度量学习方法,例如三重损失[20]和四重损失[3]。然而,这些损失函数的一个主要限制是它们严重依赖于挖掘硬样本进行训练[13,20,21,30]。在三重损失[20]中,对于N个训练类和每个训练类中的K个样本,(一)(b)第(1)款图1:说明传统和建议的度量学习技术的差异。(a)传统的基于中心损失的深度度量学习算法将类的数据拉向该类的中心。(b)所提出的密度感知深度度量学习算法将每个类的样本拉向相应聚类的最密集区域类,用于训练的三元组总数可以高达N(N−1)K2(K−1),这显著增加了大型数据集的训练时间。这些方法的另一个局限性是收敛速度慢,这在很大程度上取决于培训课程的适当选择。此外,本发明还在训练数据中存在异常值(噪声/质量差的样本),以及它们在三元组中的参与可能会损害训练过程。据我们所知,还没有研究来了解训练数据的离群值和密度分布对深度度量学习算法性能的影响。如图1(a)所示,传统的基于中心损耗A类B类密度感知深度度量学习A类B类传统的基于中心的度量学习48852一深度度量学习方法[12,26]生成每个类的嵌入,这些嵌入更接近该特定类的样本的质心然而,它们没有考虑训练数据的分布。在存在离群值的情况下,这种方法在大型数据库上的收敛可能很慢,并且离群值/噪声训练样本可能对判别模型的训练产生不利为了缓解这一挑战,所提出的算法通过计算中心,考虑每个类别的相应聚类的最密集区域,最大限度地减少离群值的影响(图1(b))。使用经典均值漂移算法[6]的哲学,均值的估计值从质心的初始估计值移动到更密集的区域。该移位中心嵌入用于学习判别模型。本文的研究贡献可以概括如下:• 提出的密度感知深度度量学习算法提供了一个通用框架,可以使用任何深度度量学习方法进行有效训练,特别是使用噪声数据。对比损失Hermans等人[13]提出了一种三元组挖掘技术,通过从训练集中的一批N个随机采样图像中为每个锚图像选择k个最难的正样本和k个最近,Heet al. [12]提出了三重中心损失,其中锚点集合的中心和最近的负簇的中心被用于三重损失的损失函数中,用于人的重新识别。3. 密度感知度量学习所提出的方法通过在训练期间将数据的密度并入聚类中,为深度度量学习范式在深入研究详细的配方之前,先简要说明一下背景。3.1. 背景在 一 古典 图案 分类 场景、数据Z→从n迪弗费伦特类是一个可用的,Z→为{z1,z′,z2,., z i,z′,. z n},其中z i和z′是两个图像1i i• 详细分析并与其他流行的深度度量学习方法在四个具有挑战性的人脸和物体图像数据库上进行比较,所提出的方法给出了更好的识别准确性,在减少训练时间的情况下表现出更好的收敛性,并且对有噪声的训练数据有弹性。2. 相关工作Hadsell等人[10]提出了对比损失,这是第一个使用深度神经网络训练判别模型的深度度量学习方法之一。他们使用单个损失函数在输出嵌入空间中拉正对和推负对。同级别的I。设第i个类包含ni个训练样本。深度度量学习算法的目标是学习函数gθ(z):RS−→RT,其中S是源数据流形的维数,T是输出嵌入空间的维数。模型g,θ表示模型的可训练参数为了说明,设{x,y}是模型g的嵌入流形上的点对。距离度量函数被定义为:D{x,y}:RT×RT−→R(1)在本文中,欧氏距离被用作距离度量,其可以被定义为:模型这种训练判别神经网络的方法-这项工作,俗称暹罗网络,D{x,y}=<$gθ(x)−gθ(y)<$2(二)在几个扩展[18,23,24]中,这些扩展在各种图像识别问题上产生了出色的结果最近,深度度量学习最流行的方法之一是三重损失[20]。三元组损失迫使模型学习一个嵌入空间,在这个空间中,相似类的样本被映射得更靠近彼此,而其他类的样本被推开。Wen等人[26]使用softmax和中心损失的组合进行面部识别。后来,Chenet al. [3]提出了四重损失,除了三重损失所使用的锚、阳性和阴性样品之外,还使用了额外的他们表明,额外的负项有助于训练一个更通用的模型。此后,几种方法试图改进基于三重态和四重态损失的方法。Yuan等[30]提出了一种基于集成的技术,用于挖掘用于使用大间隔最近邻分类(Large Margin Nearest NeighborClassifi)阳离子[25],可以使用典型的深度度量学习损失L,其通过将类内嵌入一起拉到一个集群中并推动类间嵌入来最小化根据训练集Z,使用三个图像形成3元组,即作为类别a的样本的za、作为同一类别a的另一图像的正样本z′以及作为另一类别b的图像的负样本zb。损失函数可以表示为:Σ ΣL=D{Z→a,Z→′a}−D{Z→a,Z→b}+α(3)+<$(Z→a,Z→′a,Z→b)∈τ其 中 , τ 是 训 练 数 据 中 所 有 3 元 组 的 集 合 ,[f]+=max(f,0),α是margin参数,Z→a,Z→′a和Z→b是所有锚点、正样本和负样本的集合从训练集准备。4886移动平均值加载预训练模型计算中心C’C一C’C一偏移中心估计使用新中心计算损失更新g(.)的权重围场区域一一一一Σ一ΣW C图2:所提出的算法迭代地找到聚类中最密集区域的中心估计值。当与深度度量学习算法一起使用时,该中心有望提供有效的训练和更好的收敛性。(best以颜色观看)。3.2. 其中,z i是封闭区域内的第i个点。图-a′为了呈现所提出的方法,标准损失度量(等式3)被重新公式化,其中锚za被替换为类别a的中心。中心嵌入Ca计算为以下所有嵌入的平均值:图2显示了新的平均值Ca,预计将在更密集的区域。新均值的差值C′和旧的平均值Ca给出了平均位移向量,该向量可以表示为:a级因此,损失函数可以表示为:pg(zi)Σ ΣV=i=1a−naa(六)→′→阿平纳L= D{ Ca,Za} − D{ Ca,Zb}+α+Σ(四)迭代地重复该过程,直到均值偏移为其中Ca=nag(za)na可忽略不计,从而导致收敛。Ca表示对应于类别a的聚类的质心,包含na个训练样本。然而,根据聚类的密度(如图2所示),可以应用均值漂移算法[6]来迭代地达到由聚类的3.2.1将平均值移至更密集的区域重申,Ca是聚类的初始质心,其通过取3.2.2加权均值漂移质心的上述计算不考虑所考虑的平均值周围的点的任何权重为了使离质心较近的点具有重要性,我们可以对封闭区域中的每个点i使用一个权系数Wi。中心相对于权重Wi的第k估计可以计算为,Wk−1g(i)a级 现在,从Ca,选择最近的p个点(在Ck=i=1i一a<$zi∈{z1,z2. zp}(7)apW Ck−1aaaa模型g)的嵌入流形,点对应于类A的集群中,我们采取的平均只有这些p点,其中p na。我们将嵌入流形中包含这些p个点的质心(图2中的红色虚线圆)周围的区域称为封闭区域,并将这些p个点的集合称为封闭区域i=1iaC k−1是均值的第(k − 1)次估计。相应的均值偏移矢量可以表示为,Σ ΣpWiCk−1g(zi)点新中心C ′的估计值可以计算为:Vk=i=1aapk−1i=1ia-Ck−1(八)g( zi)这里,p是第k个迭代的包围点C′=i=1a{z1,z2. zp}(5)第i阿帕阿一aa而Za是iA类的数据点。迭代迭代4887一一一Σ一Σ222一Ll2W Cθ a θaθb3.3. 使用核密度估计(KDE)为了选择由特定类别a的质心Ca表示的聚类中的每个点i的权重Wi,我们可以使用通常由非参数密度估计技术使用的核密度估计用于选择权重的统一核可以表示为:算法1:密度感知三重态损失。输入:CNN模型gθ,训练数据{Z→}输出:训练模型gθ参数:e(epochs),θ(g的参数),m(批量大小),k(批量数),p(包围点数),s(均值漂移迭代),tp(硬阳性选择阈值),tn(硬阴性选择阈值),f(封闭区域半径)Epoch=1至edo的?i?1Wi=¨¨cif-a−za<$f<0否则(九)生成三元组:2初始化:X={}(所选硬三元组的空集合3初始化:池={}(空样本池其中,-a−zi-给出点zi到4对于每个类a= 1到n,a a类a的聚类质心Ca。如果点z i在封闭区域内,则均匀核指定到点zi的权重c。封闭区域具有半径f,因此所有的56端从a类中随机选择b个图像池=池中随机选择的图像与质心的距离为f或更小的点Ca被赋予相同的权重c。而不是直接使用7对于池中每个类a的每个图像zi,8选择zi作为锚图像9对于池中的每个图像zy,使得zy=/ZIDO封闭区域的半径的参数,也可以在所有点10中考虑封闭点拉拉如果a=l且D{zi,zy}>tp,则X=X<$zy11如果ai=l且D{zi,zy}tn,则X=X<$zy<在A类的集群中。算法1概述了以下步骤所提出的方法使用三重态损失。一Ll端端计算中心:4. 密度感知深度度量学习12Cana g(za)na三重态和四重态损失提出的密度感知度量学习是一种轮班中心:每班13人14对于k=1到s做通用配方,并可纳入任何深15W=K(Ck−1−zi)=.iuéaa é度量学习损失函数 在这里,我们提出了公式-cif-k−1−zi-f
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功