类分布不匹配下的对比编码主动学习

42 浏览量更新于2023-10-14 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8927类分布不匹配下主动学习的对比编码潘渡1，2，赵素云1，2，*，陈辉2，†，柴淑文2，†，陈红1，2，李翠萍1，2中国人民大学数据工程与知识工程教育部重点实验室1中国人民大学北京2{杜攀，赵素云，陈辉1025，柴树文，冲，李翠萍}@ ruc.edu.cn摘要主动学习（AL）是成功的基础上的假设，标记和未标记的数据是从相同的类分布。然而，其性能在类别分布失配下确定，其中未标记数据包含标记数据的类别分布之外的许多样本。为了有效地处理类分布不匹配的问题，我们提出了一个基于对比编码的人工智能框架CCAL。与现有的AL方法，专注于选择最丰富的样本进行注释，CCAL提取语义和鲜明的特征，通过对比学习，并结合它们在一个查询策略，选择最丰富的未标记的样本与匹配的类别。理论上，我们证明了CCAL的AL误差有一个严格的上界。实验上，我们评估其性能CIFAR10，CIFAR100，和人工的交叉数据集，由五个数据集组成，因此，CCAL实现了国家的最先进的性能，以显着较低的成本。据我们所知，CCAL是第一个与AL类分布不匹配的工作。1. 介绍深度学习在很大程度上依赖于足够的标记数据，在监督学习方面取得了前所未有的突破[23]。然而，获得大量的标记数据是不切实际的，因为标记需要巨大的人力和财力成本[36]。主动学习（AL）选择信息量最大的样本来查询其标签，提供有竞争力的目标模型，同时相对于监督学习节省注释成本[36]。在传统的AL方法中，通常假设标记和未标记的数据是从相同的类分布中提取的，即，未标记数据的类别与标记数据的类别相同。不幸的是，这种假设在许多情况下都无法维持。* 通讯作者†同等贡献狗狗猫猫标记数据和未标记数据已标记数据未标记数据狗鹿车飞机猫马花船ID_COOD_CID_C：标记数据的类内分布OOD_C：标记数据的类外分布图1：类分布不匹配的实例。未标记数据包含一些在标记数据的类分布之外的样本。由于未标记数据总是包含标记数据的类分布之外的大量样本，即，未标记数据的某些类别不存在于标记数据中。例如，当通过关键字过滤（“狗”，“猫”）从互联网上抓取大量图像（如图1所示）[49在包含看不见的病变的医学诊断[11，48]和包含许多自然风景的遥感图像的房屋注释中已经发现了相同的问题。这些场景已经被形式化为学习框架，称为类分布不匹配[11][7]。在类分布不匹配的情况下，如果只关注“最具信息量”的样本，AL算法这种现象的一个主要原因是将查询具有不匹配类别的大量样本，这些样本对于目标模型是无效因此，在提高类分布不匹配的样本查询（有效查询）信息的同时，降低无效查询的代价是十分必要的启发式地，我们引入无效查询错误和有效查询错误来对抗问题，如等式2中所述1.一、具体地，无效查询错误归因于那些对于改进目标模型无效的查询样本，并且有效查询错误归因于8928狗独特分数Maxmindissipate（）=1dissipate（）=0.4不相似的（）=0.1与标记数据标签（犬）=0.1标签（犬）=0.9标签（犬）=0.95最小值最大值语义分数标记数据Oracle查询分数未标记数据目标模型图2：CCAL正在组合语义分数Ssem和区别性分数Sdis以选择用于注释的样本。查询数据对整个数据的代表性越小例如，在图1中，受子章节3.5中呈现的理论分析的启发，我们提出了基于对比编码的AL框架，其通过对比学习提取语义和区别特征，称为CCAL，如图2所示。一方面，语义特征作为类别级特征，可以用来过滤类别不匹配的无效样本，从而减少CCAL中的无效查询错误。另一方面，区别性特征在个体层次上进行描述，可以选择最具代表性和信息性的特征，扩展决策边界，减少有效查询错误。结合语义和区分，CCAL选择具有匹配类别的最具信息量的样本，在类分布不匹配的任务中表现出色我们的理论研究表明，CCAL的AL误差有一个严格的上限。在不同数据集上的实验结果进一步验证了CCAL方法的有效性。1.1. 贡献本研究的主要贡献是：1) 提出了一个AL框架，称为CCAL，它结合了语义与独特性作为一个新的AL标准，并选择最具信息量的未标记的样本与匹配的类别下的类分布不匹配的查询。这是第一个工作的AL相关的类分布不匹配，以我们所知。2) 学习语义特征和区别性特征，分别在类别和个体两个层次上描述样本，有助于远离类别不匹配的未标记样本，从未标记数据中选择类别匹配的信息量最大的样本。3) 将AL错误分为无效查询错误和有效查询错误，证明了在类分布不匹配的情况下，CCAL的AL错误有一个紧上界本文的其余部分组织如下。在第二节中，我们回顾了一些相关的工作。在第3节中，所提出的方法CCAL和理论研究进行了介绍。第4节介绍了实验，随后是第5节中的结论。2. 相关工作主动学习：AL通过主动选择最有价值的数据来查询其标签来降低标签成本[36]。现有的AL方法可以大致分为基于池的方法和基于生成的方法。大多数基于样本池的方法根据样本的信息性、代表性或两者来评估样本[40]。第一个考虑信息性，包含不确定性[45，41，44]，委员会的质疑[29，37]等。定义不确定性的一种简单方法是使用模型预测的样本的后验概率[24，18，33]。熵[28]这是最常用的方法之一最近，Sinha et al.[38]建议根据未标记样本是否与标记样本共享相同的分布来评估不确定性Yoo等人[50]通过估计样本损失来考虑不确定性。第二个是关于代表性，其重点是多样性[9]和密度[31]等。Coreset [35]是一种经典的基于多样性的方法，其最小化特征空间中采样点与剩余点之间的欧氏距离已经证实，最好同时考虑信息性和代表性，而不是其中任何一个[46，15]。T等人。[1]测量关于最终（输出）层中参数的梯度幅度的不确定性，并收集一批示例，其中梯度跨越不同的方向集以捕获多样性。基于生成的方法尝试生成信息性样本以减少注释预算。GAAL [53]旨在在目标模型的决策边界处生成样本;首次将生成式对抗网络引入人工智能。BGADL [42]结合了AL和数据增强[43]，以连续生成信息样本，从而加速训练模型的学习然而，上面提到的AL方法是基于标记和未标记的数据来源于相同的类分布的假设。因此，他们的表现在阶级分布下急剧恶化不匹配。对比学习：对比学习是一种有效的表征学习工具，它产生了一个特定的特征空间，有利于下游任务。实施对比学习的一种实用方法是在训练中建立正反对8929.Σ表示样本长度为X-X，butover X，其中X=X∪X表示相同的--查询查询查询p. . 我我.我我D. . 我我.我我i=1Y⊆≤。E（x，y）D[l（x，y;w）]−∩l（x，y;w）+pi=1l（x，y;w）l（xi，yi;w）−l（x，y;w）+l（x，y;w）L我我 i=1UJ j=1vnUY Y{≪D DD阶段和嵌入锚靠近阳性样品，而推动它远离负的[17]。近年来，对比学习由于其在自我监督学习中的成功而获得了极大的关注[22]。转换在对比学习中至关重要，一些研究[6，30，5，39]专注于设计各种增强以产生有用的表征。SimCLR [5]是一种自定进度的方法，它同时考虑了实例的潜在价值CSI [39]将样本与其自身的分布移位增强进行此外，各种方法试图通过将对比学习与聚类相结合来学习不变特征，例如[25]和[4] 。除此之外，为了确保对比学习的效果，Dosovitskiy et al.[8]提出了一种存储库机制来存储在训练过程中计算的表示。MoCo [12]将对比学习视为字典查找问题，其中动态字典设计有队列，并认为最近的表示更重要。Khosla等人[19]利用对比学习来整合类别信息，其中认为从相同类别获得的样本是正对，而从不同类别获得的样本是负对。半监督学习：半监督学习标签数据的分配。1.1. AL误差分析在AL中，群体风险由遗传差距、训练误差和AL误差共同控制我们将群体风险公式化为Eq.1.一、由方程式1，泛化差距是XIDC中群体风险与泛化损失之间的差距;训练误差是平均经验损失tr tr L ID C查询为在AL中建立目标模型而训练的样本; AL误差由有效查询错误和无效查询错误组成。无效查询误差是由于那些查询的样本XOODC，它们对于改进目标模型无效;它是通过Xre上的平均经验损失来测量的，其中XreID C ID C查询在查询过程中被XOODC替换有效查询误差通过Xtr上的平均经验损失与X ID\re=X IDCX re上的平均经验损失之间的差来测量。当这些查询的样本，即， X IDC，信息量越大，越小都有效查询错误和无效查询错误。在Eq中表示1、P=|XIDC|，q=|XT R|，d=|Xre|.E（x，y）D[l（x，y;w）](SSL)旨在解决标记数据不足的问题.1ΣIDCID C.. 1Σqi=1trtr.与AL不同，它利用未标记的数据来改善目标模型广义间隙}vtrainin{，g错误个文件夹. 1pΣ−dIDID\re1Σqtr特河pi=1qi=1. 1 Σre re re.pi=1bition mismatch，Guo et al.提出了一种深度SSL帧-工作，DS3 L [11]，它选择性地使用未标记的数据，以确保监督学习的准确性不受影响。UASD [7]结合了自蒸馏和外有效质量{e，ry error}AL错误（C{，CAL错误）vinvalidqu{，eryerror}（1}）分布滤波，其产生软目标以避免灾难性错误传播。3. 拟定方法：CCAL设标记数据为D=（XL，YL）={（XL，YL）}传统的策略在类分布不匹配方面有查询许多未看到的类的样本的风险，从而导致注释预算的极大浪费和更高的AL错误。为了更高的泛化能力和更少的标注预算，我们提出了一种结合se-命名为CCAL，以最小化和未标记的数据作为D=X U={X U}，其中标记的样品是i.i.d. 空间上的，即，L和n L n U。每个标记样本属于标记空间中的K个已知类别中的一个，并且然而，未标记的人的类别可以被排除在类下分布失配中。令X_ID_C和X_OOD_C表示类分布中和类分布外的样本。分别对标记的数据的分布进行分析然后，整个数据可以被重新定义为X IDC和X OODC的组合。具体而言，X LX IDC，X UX IDC=和X OODC X U。假设X查询是由AL循环中所有查询样本组成的查询集，则它可能包含来自X IDC和X OODC的样本。因此，X查询是X IDC和X OODC的集合，其AL错误，尤其是无效查询错误。其次，我们利用对比学习提取语义和区别性特征，形成一个组合的查询策略。最后，我们给出了一个定理来分析AL误差的上界，从理论上证明了CCAL的有效性1.1. 学习语义特征在类分布不匹配的情况下，现有AL方法的一个缺点是不可见类中样本数量的急剧增加因此，过滤具有不匹配类别的未标记样本具有重要意义。启发式地，一种可行有效的手段query查询指示在类分布中和类分布外查询的样本-处理这个棘手的问题是区分XIDC和Q+更多标签数据基于类分布的场景.vv8930狗狗花花鹿鹿：狗（ID_C）：鹿（OOD_C）：花（OOD_C）语义特征区分特征提取：查询得分高的未标记数据：具有高语义分数的：具有高独特分数的标记数据即未标记数据，即i，k----Σ∪{x（+）}a我我J我我D相似不相似相似不相似语义分数查询分数区别性得分积极锚负语义特征提取正锚负区别特征提取狗花鹿积极锚负积极锚负(a) 语义对比(b) 区别性的对比(c) 联合查询策略。图3：有效的CCAL框架，其通过对比学习提取语义和区别特征，并结合语义得分Ssem和区别得分Sdis来选择用于标记的样本。XOODC在语义学上。对比学习是这样一种区分方法，它不关注细节信息，而是学习样本的不变语义属性[22]。基于Wu et al.[47]中，通过在CCAL中通过对比学习提取语义特征来学习样本的语义。具体地，正样本是随机应用若干变换的样本，诸如随机裁剪、水平翻转等。而负的一个是从剩余的未标记数据中随机采样的，如图3（a）所示。询问。因此，这样的样本将不会显著改善目标模型的性能，因此，在查询处理中，有必要提取有标签数据和无标签数据的区别特征，并过滤掉那些无信息的样本。由[39]提示，旋转变换[10]使样本输入分布移位，但保留不变语义。我们认为旋转的样本是负样本，语义特征学习中的变换增加了正样本。这允许特征提取器集中-设B={xi}a表示一个批次，且x（+）表示对特征的独特性进行评估。述样本xi=1i设x表示样本x旋转k度。我被随机和独立的i，k i如上所述的凹进变换。然后，posi-tiv e对可以表示为（x，x+），并且neg在ive然后，位置对可以表示为（x（i，k，x（+）），并且ii将n∈g ativ ∈1表示为（x∈i，k，B∈R）的情况。鲜明的对比-对为（xi，Bi）。情感对比的损失被公式化为Eq. 二、i，k损失用公式表示为Eq.4.第一章ˆ|BR|Σ一个|B|.Σ1L（B;R）=1 Σ ΣL（x，x+，BR）的方式Ls（B）=|Bˆ|i=1Lconxi，x+，B−i、（二）|B|R|R|Σi=1k∈Rconi，ki，k−i，k（四）xi ∈ X L∪ X U，L con是一个对比学习损失[5].然后，语义特征zs（·）可以通过等式（1）学习二、其中，BR包括除其中B={xi}a，B~−i={x{j}j+logp（k|x（i，k）i∪{x+}j=i，i=1i=1J8931··我J用于测量未标记与通过语义特征学习来大致区分，考虑-i，ndi，sti，nd·基于定义为Eq.3 .第三章。Ssem。xUΣ=σΣmaxcos.zs（xL），zs（xU）ΣΣ，（3）−i，kx i，k和xi，k。然后，通过等式（1）学习的不同的iv e特征。4，zd（·），是其中σ[ ]是Min-Max归一化运算符[16]。当量3达到最大语义相似度将未标记的样本与标记的数据进行比较。越大具有相同语义的标记样本。每个无标签示例使用伪语义标签进行注释，该伪语义标签是与其最近标记的一个的标记相同给予未标记样本xU，令xL和xL表示其最接近的+8932我i i，st i，nd8933语义得分的值越大，则语义得分的概率越高属于已知类别的未标记的一个，并且8934无效查询错误越低。因此，语义得分是可用于设计查询策略。89351.2. 学习显著特征8936以及具有相同语义的标记，则未标记样品的独特性可8937用Eq.其中σ[]是归一化运算符与Eq相同。3 .第三章。8938S dis（x U）= 1 −σΣcos。z d（x U），z d（x L）Σ−cos。zd（xU），8939类内和类外分布的样本可以是我zd（xL8940）Σ +cos。zd（xL我），zd（xL8941i，st）ΣΣ。我（五）8942有效地减少了无效查询错误。但如果仅语义得分被用作查询度量，许多非8943第一个两项是等式的σ[]5测量差异8944的xU到标记的样本。差异越大，8945类分布内的信息样本可以大于与标记样本的相似性XU，随后8946我∈e查询e，Y）;e−x1+e·−·联系我们--Q我.我我6− 2α（λ+λ T K）++2个p.p我. Σ一个较小的区别。第三项在某种程度上度量xU的信息。一个大一点的使U算法一：CCAL中的联合查询策略输入：标记数据（XL，YL），未标记数据xi更小。总而言之，价值S_dis越小，样本x_U的区分度越高，有效查询误差越小。这意味着独特的分数可以在最终的查询策略中使用。1.3. 联合查询策略如图3（c）所示，如果仅使用语义特征，则可以查询类别分布例如，在图3（c）中的左上图的绿色区域中，图像“狗”附近的那些点对目标模型的然而，简单地使用区别性特征可能会导致许多无效查询.例如，在图3（c）中的右上图的粉红色区域中，具有标签“花”的那些点因此，有效的查询应该包含类分布内的那些样本，但具有独特的特征。因此，设计一种结合语义和区别性特征的对比编码策略至关重要。平衡语义得分和区别得分的一种简单方法是将它们带到相同的范围内并进行分配XU，预算：b，类别数标记数据：K，语义编码器：θ s，独特编码器：θ d输出：（XL，YL），XU1计算XL和XU的语义特征利用θs：zs（XL）=θs（XL），zs（XU）=θs（XU）;②计算XL和XU的区别特征利用θd：zd（XL）=θd（XL），zd（XU）=θd（XU）;对于AL循环中的e，3do4Xquerye=;5使用等式2计算Ssem（XU）3、获得伪语义集XU1，1YL.其中XUl由具有相同伪语义标签l的未标记样本组成;6forlinYLdo7使用等式（1）计算S dis（X U1）5个;8使用等式（1）计算S查询（XU16个;9选择未标记的样品maxb/KS查询（XUl），然后添加到X查询;不同的权重，如βSsem+Sdis。然而，这种想法不适合于类分布不匹配。是10端部11给定标签Y查询X查询甲骨文;同时将所有样本的语义得分扩大或缩小β是不合理的由于语义得分较低的样本更有可能处于类外分布，因此应联合缩小它们的语义得分12（XL，YL）←（XL，YL）∪（XIDC13XU←XU−X查询;14的端15 Return（XL，YL），XU;ID C查询e查询分数。相反，具有更高语义得分应该被扩大。因此，我们通过映射将语义得分从[0，1]扩大到pingtanh[x]=1−e−x，然后我们得到最终策略失配是AL误差，也称为CCAL误差。此外，本发明还我们在定理S查询为Eq.六、S query（x U）= tanhΣψ。Ssem（xU）ΣΣ+Sdis（xU）（6）其中ψ（Ssem（·））=k×（Ssem（·）-t），非线性定理1给定p i.i.d.从D抽取的样本为p函数，tanh[·]，selectiv ely叙述语义得分{xi，yi}i=1，并且具有大小q，dre的点的集合Xtr，Xre。并且引入k来控制tanh[ ]的斜率。S查询的值越大，AL误差越低。用于CCAL查询的算法的细节在算法1中示出。1.4. 理论研究在这一小节中，我们讨论和分析了AL误差的上界，并验证了其有效性分别为。如果损失函数l（，y;w）对所有y，w都是λlLipschitz连续的，并且以T为界，则回归函数是λµLipschitz连续的，训练误差l（xj，yj;w）=0，j1，2，...，q，且CCAL策略能最大化信息测度S_dis（S_dis的定义见附录）的下界α;概率至少为1-γ，的CCAL。如等式1所示。1、人口风险共同控制好吧1pΣ−dID\reID\re1Σtr tr.受到泛化差距、训练误差和AL的影响错误. 经验上，已经广泛观察到。 p i=1Dl（xi，yi;w）−qj=1l（xj，yj;w）训练误差可以减少到接近零卷积神经网络（CNN）。理论上已经证明了1. pi=1l（xre，yre;w）。、（七）.+不超过ee1.一、

下载后可阅读完整内容，剩余1页未读，立即下载