没有合适的资源?快使用搜索试试~ 我知道了~
Munawar Hayat∗†Salman Khan∗‡Syed Waqas Zamir∗Jianbing Shen∗⋆Ling Shao∗firstname.lastname@inceptioniai.org𝜎𝐰𝑨𝐰𝑩𝐰𝑪𝑑𝐵,𝐶𝑑𝐴,𝐵𝑑𝐴,𝐶λ164690高斯亲和力用于最大边界类别不平衡学习0� 人工智能创新研究院,† 堪培拉大学,‡ 澳大利亚国立大学,�北京理工大学0摘要0现实世界的物体类别出现不平衡的比例。这对于偏向频繁类别的分类器构成了重大挑战。我们假设改善分类器的泛化能力应该改善在不平衡数据集上的学习。在这里,我们引入了第一个混合损失函数,它在一个公式中同时执行分类和聚类。我们的方法基于欧几里得空间中的“亲和度度量”,带来以下好处:(1)直接强制执行分类边界的最大边界约束,(2)一种可行的方法来确保均匀间隔和等距的聚类中心,(3)灵活性以学习多个类原型以支持特征空间中的多样性和可区分性。我们的大量实验证明了在多个不平衡数据集上的显著性能改进,这些数据集属于视觉分类和验证任务。所提出的损失可以轻松地作为可微分块插入到任何深度架构中,并且对不同程度的数据不平衡和损坏标签表现出鲁棒性。01. 引言0深度神经网络在本质上对数据需求量大,并且需要大量数据进行成功训练。对于不平衡数据集,其中有几个(可能重要)类别的表示稀缺,学习的模型会偏向高度丰富的类别。这是因为稀缺类别在训练过程中的表示较少,导致训练的联合分布模型 p ( x, y ) 与测试集的 p ( x ′ , y ′ )之间存在不匹配。这导致了稀有类别的召回率降低,在许多场景中这些类别是非常重要的。例如,恶性病变相对于良性病变来说是罕见的,但不应该被错误分类。0前两位作者贡献相同0图1.亲和力损失将分类和聚类集成到一个目标中。在欧几里得空间中,它的灵活公式允许在类之间强制执行边界,控制学习的聚类,类原型的数量以及类原型之间的距离。这种最大边界学习在通过学习平衡的分类区域和可推广的类边界来克服类别不平衡方面非常有帮助。0对于传统的识别任务,软最大化损失是一个常见的选择。然而,通过大量实验证明,它不太适合处理训练和测试分布之间的不匹配。这部分是由于在分类空间中没有直接强制执行边界,并且缺乏一种原则性的方法来控制类内变化和类间分离。在这里,我们提出最大边界学习可以改善泛化能力,从而通过学习所有类别的平衡表示来减轻分类器对更频繁类别的偏见。值得注意的是,最近的一些工作专注于在软最大化损失函数中引入最大边界约束[10, 34,33]。由于软最大化损失在角度域(向量点积或余弦相似度)中计算相似性,直接强制执行角度边界是不合适的,现有的工作要么涉及近似,要么做出限制性假设(例如,点位于超球面上)。本文提出了一种新的损失公式,用于64700通过同时减少类内变化和最大化类间距离来增强泛化能力。与之前的工作相比,一个显著的区别是在欧几里得空间中自动学习类别代表原型,具有内在的灵活性以强制执行某些几何约束。这与软最大化损失不同,软最大化损失中更丰富的类别倾向于在投影特征空间中占据额外的空间,而稀有类别则得到了扭曲的表示。所提出的目标被命名为“亲和力损失函数”,因为它基于以Bergman散度定义的高斯相似度度量。所提出的损失函数学习将输入图像映射到一个具有判别性的欧几里得空间,在该空间中,与类别代表原型的距离为每个类别提供了直接的相似度度量。类别原型是嵌入空间中的关键点,围绕这些关键点聚集了特征点[46]。亲和力损失函数在训练过程中促使分类器具有更简单、更平衡和更具泛化能力的归纳偏好。因此,所提出的损失函数具有以下优势:(1)在欧几里得空间中同时聚类和分类特征向量的内在机制,(2)确保均匀间隔和等距离类别原型的可行方法(当嵌入维度d和原型数量n满足关系:n < d +1),(3)除了均匀间隔的原型之外,我们的公式还确保围绕原型形成的聚类在形状上均匀(以二阶矩的形式),以及(4)所得到的分类器对不同级别的标签噪声和类别不平衡表现出鲁棒性。所提出的损失函数是一个可微分的模块,适用于不同的网络架构,并且可以与常用的正则化技术(包括dropout、权重衰减和动量)相辅相成。通过对多个数据集进行广泛评估,我们证明它实现了一个高度平衡和具有泛化能力的分类器,相比之前的技术有显著的改进。02. 相关工作0类别不平衡学习:不平衡的数据集表现出复杂的特征,从这样的数据中学习需要设计新的技术和范例。现有的类别不平衡方法可以分为两大类,即1)数据级别和2)算法级别的方法。数据级别的方案修改数据的分布,例如通过过采样少数类别[44, 7, 14, 15, 21]或欠采样多数类别[26,3]。这些方法通常容易受到冗余和过拟合(对于过采样)以及关键信息丢失(对于欠采样)的影响。相比之下,算法级别的方法改进分类器本身,例如通过成本敏感学习。这些方法基于类别的重要性融入先验知识。0或者在训练数据中对表示进行加权[27, 41,24]。这些方法已经应用于不同的分类器,包括SVMs[51]、决策树[64]和Boosting[52]。一些工作进一步探索了集成成本敏感分类器来解决不平衡问题[19,25]。这些成本敏感方法面临的一个主要挑战是类别特定成本只在开始时定义,缺乏在训练过程中动态更新成本的机制。深度不平衡学习:最近有一些尝试从不平衡数据中学习深度模型[20, 24, 5, 55, 39,22]。例如,[20]的方法首先使用神经网络对训练数据进行欠采样,然后使用基于SMOTE的技术重新平衡数据。[55,39]直接优化不平衡分类准确率来训练深度模型。Wang等人[56]提出了一种元学习方法,逐渐将模型参数从多数类向较少频繁的类别转移。Khan等人[22]使用不确定性估计来解决类别不平衡问题。一些工作[24,5]训练成本敏感的深度网络,交替优化类别成本和网络权重。在训练深度模型时持续确定类别成本仍然是一个开放且具有挑战性的研究问题,并且使得在学习大规模数据集时优化变得困难[18]。联合损失公式:在深度网络中用于分类的流行损失函数包括合页损失、软最大化损失、欧几里得损失和对比损失[23]。三元组损失可以同时进行识别和聚类,但由于大规模数据集上的三元组组合数量巨大,其训练是困难的[43]。由于这些损失函数在特征空间中的可区分性能力有限,最近的文献探索了多个损失函数的组合[38]。在这方面,[47]表明了软最大化和对比损失的组合可以同时强制执行类内紧凑性和类间可分性。在类别分类和聚类方面,[57]提出了“中心损失”,使用单独的目标函数进行分类和聚类。最大间隔学习:间隔最大化学习目标在机器学习中一直被广泛使用。支持向量机中的合页损失是最早的最大间隔学习框架之一[16]。一些最近的工作旨在将最大间隔学习与交叉熵损失函数相结合。其中,大间隔软最大化[34]直接在点积相似度上强制执行类间可分性,而SphereFace[33]和ArcFace[10]分别在超球面流形上强制执行乘法和加法角度间隔。特征空间的超球面假设使得得到的损失对于除人脸识别之外的应用不太具有泛化性。此外,在角度上强制执行基于间隔的分离在实现上是困难的。Lism ∝̸̸d(fi, wj) = exp�− ∥fi − wj∥2σ�,(3)64710在大间隔学习中,将类别分离到一个特定的超球面区域是一个不适定的问题,需要近似或假设(例如,单位球)[12]。本文提出了一种新的灵活的损失函数,同时进行聚类和分类,并能够直接强制执行最大间隔约束。接下来,我们将介绍所提出的损失函数。03. 最大间隔框架0我们提出了一种混合多任务的公式来进行不平衡数据集上的学习。所提出的公式将分类和聚类结合在一个单一的目标中,最小化类内变化的同时实现最大化的类间分离。我们首先解释为什么传统的软最大损失(SL)不适用于大间隔学习,然后介绍我们的新目标函数。03.1. 软最大损失0给定输入-输出对{x i,yi},深度神经网络使用由θ参数化的函数F将输入转换为特征空间表示fi,即f =F(x;θ)。然后,软最大损失可以计算标签空间中预测与实际标签之间的差异,如下所示:0Lsm = 10N0�0i − log�exp(wTyifi)�0j exp(wTjfi)0� ,(1)0其中i∈[1,N],j∈[1,C],N和C分别是训练样本和类别的数量。值得注意的是,我们在软最大损失的定义中包含了最后一个全连接层,这在进一步分析中将会有用。另外,为了简洁起见,我们在方程1中没有提及单位偏置。尽管软最大损失是多类分类中最常用的选择之一,但在接下来的讨论中,我们将论证它不适用于类别不平衡学习,原因是它具有几个局限性。0SL的局限性:方程1中的损失函数计算内积�w,f�,它衡量了特征表示在每个类向量wj上的投影。目标是将fi与正确的类向量wyi完全对齐,从而最大化数据的似然性。由于软最大损失依赖于向量点积,它具有以下局限性:(1)没有固有机制来确保最大间隔约束。软最大损失的类间间隔计算是棘手的。大间隔约束有助于在不平衡分布中更好地泛化,并且对输入扰动具有鲁棒性。(2)学习到的投影向量在分类空间中不一定等距分布。也就是说,理想情况下,最近的投影向量之间的角度应该相等(例如,2π)。0k0在实践中,多数类别的投影向量占据了比少数类别更多的角度空间。这在不平衡的MNIST数据集上已经可视化,并导致对测试样本的泛化性能较差。学习到的不同类别的投影向量的长度∥wj∥2不一定相同。文献中已经表明,少数类别的投影向量比多数类别的投影向量更弱(即幅度较小)。对少数类别的投影向量进行人工增强幅度的代价敏感学习已被证明对于不平衡学习是有效的。0SL对于不平衡学习的不适用性:我们将上述局限性归因于未直接强制执行类别边界的最大间隔约束。考虑到软最大损失(方程1)的定义,我们可以将表达式简化如下:0j ≠ yi exp(wTjfi−wTyifi) (2)0类对 { j, k } 的决策边界由 w T j F ( x ) = w T k F ( x )的情况给出,即类边界在类对之间共享。此外,最小化 L ism 需要 w T j F ( x ) > w T k F ( x ) : k � = j以正确分配类别给 x。这是一个“相对约束”,因此softmax损失函数 L sm不一定:(a) 减少类内变异,(b)强制类对之间有一个间隔。为了解决这些问题,我们接下来提出了我们的新损失函数。03.2. 带有高斯亲和性的最大间隔学习0欧几里得空间相似度度量:我们提出使用高斯相似度度量在欧几里得空间中测量输入特征的类相似性,而不是使用向量点积计算与类原型的相似性,其中高斯相似度度量基于Bergman散度(平方ℓ2距离)。0距离):0其中,σ 表示加权参数。这为我们提供了:(a)直接强制最大化间隔约束的灵活性,(b)对于多类具有等间距分类边界,(c)控制学习簇的方差,从而增强类内紧凑性,(d)在欧几里得域中使用标准距离度量相似性,最重要的是(e)在单个目标函数中同时进行分类和聚类。我们注意到,这样的基于距离的相似性函数已经在半监督[35]或少样本学习[46]中使用过,但在最大间隔框架中尚未探索过。方程式3中的函数是一个有效的度量,我们将在下面证明。d(fi, wj) = exp�− ∥fi∥2 + ∥wj∥2 − 2⟨wj, f⟩σ�,(4)⟨wj, f⟩ = σ log d(fi, wj) + ∥fi∥2 + ∥wj∥22(5)Lmm =�jmax�0, λ + d(fi, wj) − d(fi, wyi)�(6)̸64720(a) Softmax (b) 聚类+Softmax (c) 亲和损失0少数类多数类0图2.以倒数第二层激活为基础的2D特征空间投影(即仅考虑2个神经元进行2D可视化)。模型在不平衡的MNIST数据上进行训练(仅保留数字0-4的10%样本),使用不同的损失函数:(a)softmax损失在角度空间中学习花瓣,注意少数类特征向量较弱(长度较短)且占据较小的角度空间,(b)中心损失通过进行聚类来减少类内变异。然而,少数类向量倾向于在中心附近拥挤,并且彼此之间混淆,(c)提出的亲和损失函数学习了均匀形状的等间距簇,适用于多数类和少数类。0few-shot设置[46]中已经使用了这样的函数,但在类不平衡学习中尚未在最大间隔框架中探索。如果实数相似度函数 d( a , b ) 满足以下条件,则函数3是一个有效的度量:0命题1. 相似度函数 d ( a , b )对于任何实值输入都是一个有效的相似度度量。0证明. 如果实数相似度函数 d ( a , b )满足以下条件,则它将定义一个有效的相似度度量[31]:0• 非负性: d ( a , b ) ≥ 00• 对称性: d ( a , b ) = d ( b , a )0• 等价性: d ( a , a ) = d ( b , b ) = d ( a , b ) 当且仅当 a = b0• 自相似性: d ( a , a ) ≥ d ( a , b )0• 三角相似性: d ( a , b ) + d ( b , c ) ≤ d ( a , c )+ d ( b , b ) .0由于上述所有条件对于 d ( ∙ )都成立,因此它是一个有效的相似度度量。0Dot-product和Gaussian相似性之间的关系:提出的Gaussian相似性度量与点积的关系如下:0直观上,上述关系意味着softmax损失与特征向量的尺度/大小的依赖性。0和类别原型。它得出两个结论:(1)可以看出 d ( f i , w j) 介于 [0 , 1] 之间,因为 ∥ f i ∥ 2 + ∥ w j ∥ 2 ≥ 2 � w j ,f � ,而 � w j , f �可以具有较大的幅度。(2)当向量的幅度被归一化为相等时,高斯度量可以被认为是一个倒数弦距离。在这种情况下,点积与高斯相似度成正比,如果在我们提出的相似度度量中没有包含额外的约束,两种相似度度量将表现得相似。然而,我们的公式的主要灵活性在于明确引入了边界约束,接下来我们将介绍如何强制类别之间的边界。强制类别之间的边界:注意,某些变体的软最大化损失引入了基于角度的边界约束[33,10],然而,角度域中的边界在计算上是昂贵的,并且只能作为近似实现,因为它们难以处理。我们的公式允许在损失函数中直接引入边界惩罚。基于公式 3的提出的最大间隔损失函数如下所示:0其中 j � = y i , d ( f i , w y i )是样本与其真实类别的相似度, d ( f i , w j )是样本与其他类别的相似度, λ是强制的边界。均匀分类区域:软最大化损失不能确保所有类别的均匀分类区域。因此,对于采样不足的少数类别来说,在特征空间中得到的表示相对于更频繁的类别而言是缩小的。为了确保等距离的权重向量,我们提出了以下方法:Number of ImagesR(w) = E[(∥wj − wk∥2 − µ)2], s.t. j < k,(7)µ =2C2 − C�j
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功