没有合适的资源?快使用搜索试试~ 我知道了~
7993主动域自适应的区别性裕度学习谢明酒店1* 李宇熙2*王亚标2罗泽坤2甘振业2孙忠义2迟明敏1王培31复旦大学2腾讯优图实验室3中国科学院国家自然科学基金会{mxie20,mmchi} @ fudan.edu.cn{yukiyxli,caseywang,zekunluo,wingzygan,zhongyisun,jasoncjwang} @tencent.comwangpei@nao.cas.cn摘要尽管大量的努力集中在提高无监督或少镜头半监督设置下的自适应能力(DA),最近主动学习的解决方案开始吸引更多的关注,由于其适用于以更实用的方式传递模型,而目标数据上的注释资源有限。然而,大多数主动学习方法并不能够处理数据分布之间的域间隙,另一方面,一些主动域自适应方法(ADA)通常需要复杂的查询函数,容易产生过拟合。本文提出了 一 种 简 洁 而 有 效 的 ADA 方 法 - 按 区 别 间 隔 选 择(SDM),它由最大间隔损失和间隔采样算法组成。我们提供的理论分析表明,SDM的工作原理就像一个支持向量机,存储决策边界周围的硬例子,并利用它们来找到信息和可转移的数据。此外,本文还提出了两种改进方法,一种是根据边缘损失自适应调整梯度,另一种是考虑梯度方向,提高边缘采样的选择性我们用标准的主动学习设置对SDM进行了基准测试,证明我们的算法在具有良好的数据可扩展性的情况下取 得 了 有 竞 争 力 的 结 果 。 代 码 可 在https://github.com/www.example.com 上 获得。1. 介绍领域自适应问题已经在迁移学习社会中得到了广泛的研究,其中自适应算法是*两位作者对这项工作的贡献相等。工作是在谢明在腾讯优图实验室实习期间完成的†通讯作者图1.这是我们的“按不同边距选择”管道的简单概念图。在每个采样步骤之前,用最大间隔目标训练模型,并且对位于与不同分类中心具有相似距离的间隔中的未标记数据进行采样以增强训练数据。旨在将在源域上训练的模型推广到具有不同数据分布的目标域[4]。在大多数研究中,来自目标域的语义标签被假设为不可用[4,8,12,13,24](UDA)或只有少数目标样本被标记[21,23,29](SSDA)。然而,在更实际的意义上,虽然很难标注目标域中的所有数据,但在给定一定的标注成本预算的情况下,适量的标注数据应该是可以接受的。考虑到这一点,域自适应变成了一个主动学习问题(AL),它专注于额外标记有限的数据,以最大限度地提高机器学习算法[2,6,17,30,32,37,38]。然而,目前大多数主动学习算法都来自纯半监督场景,其中未标记数据被假设为符合与标记数据相同的分布。这些方法通常专注于设计一个独特的查询函数来描述未标记数据样本的信息量或代表性,这高度依赖于数据特征的不确定性[6,32]或结构分布[2,30]。相反,在领域自适应问题中,任务模型最初只使用源数据进行训练,而查询函数通常与任务模型的预测相关,在这种情况下,大多数目标数据将被识别为不确定数据,而无论其在fea中的位置如何。7994真实空间因此,抽样方法倾向于抽取一些容易分类的目标样本,对有偏决策边界的影响较小。近年来,针对领域自适应场景下的数据选择问题进行了一些研究.然而,这些方法要么设计复杂的和手工制作的查询功能与故意设计的架构[11,27],或选择数据在一个繁琐的方式高复杂性[26]。这些复杂的设计使得查询功能和选择策略容易被过度使用,适用于特定的转移场景,难以扩展到更一般的情况。此外,这些方法中的大多数简单地在训练期间平等地利用所有源数据[11,26,34],这容易偏向源域并导致不可靠的查询。此外,上述研究很少讨论它们的训练目标和查询功能之间的内在联系,忽略了在选择过程中两个领域数据之间的潜在基于上述考虑,本文提出了一种简单而有效的主动学习策略--通过评估数据样本到不同类别聚类的距离(如图1所示)来解决领域自适应问题,该策略被称为选择性差异边缘(SDM)。与以往大多数通过纯未标记目标数据的不确定性或多样性来选择数据的努力不同[11,26,27,30,32],SDM试图通过它们与源域中的一些“硬示例”的关系来选择未标记数据然而,而不是显式地建模这样的数据关系,我们隐式地描述了未标记的样本和潜在的硬源样本之间的相似性,通过一个简单的最大间隔损失函数。直觉上,边缘损失将引导网络最大化来自源域中不同类别聚类的接近样本之间的距离,同时忽略良好分类的源样本的影响。该方法通过一个简单的边缘采样查询函数,帮助检测仍然位于训练决策边界附近的信息丰富的目标样本通过将这些数据收集到训练集中,可以进一步细化决策边界的流形理论上,通过使用简化的线性模型进行分析,我们证实了用间隔损失训练的模型可以像支持向量机[7]一样,只收集此外,从简单的SDM基线,我们进一步扩展到两个变种的战略在训练阶段,为了动态调整边缘损失的梯度以适应不同难度的样本,我们提出了将原始边缘损失扩展为一种动态形式,并加入自适应调制因子和最大logit正则化器。另一方面,在样本选择时,为了提高选择性,采用了边缘采样的一阶梯度函数作为查询函数中的附加指导,导致选择目标样本,该目标样本以其估计梯度在最快方向上减小采样此外,这两种变体可以进一步组合在一起以构建更有效的主动学习管道。我们的SDM算法在经典的主动学习设置下在不同的领域适应基准上进行了评估,如EST-Home [28]和Office- 31 [35],此外,我们还将我们的方法扩展到CIFAR-10上的一般主动学习任务[18],证明我们的方法可以实现最先进的结果,具有更低的查询复杂性和良好的数据可扩展性。简而言之,我们的贡献可以归纳为三个方面:• 本文提出了一种简洁有效的主动域自适应学习方法--理论分析表明,这种SDM框架像SVM一样工作,可以采用硬样本来挖掘信息目标。• 从SDM基线派生出两个变体。一种是在训练阶段动态调整边缘损失梯度,另一种是利用边缘采样函数的一阶梯度来提高选择性。• 在多个领域自适应基准上进行的实验表明,我们的方法可以在有限的注释预算下实现2. 相关工作域适配。域自适应的目标是将在源域上训练的模型推广到目标数据分布[4]。域自适应的核心问题在于源域和目标域的特征空间和标签空间的不匹配为了解决这个问题,以前的自适应主要集中在引导深度神经网络学习一些域不变表示和分类器。具体来说,对抗训练[12,24]用于将特征分布与域匹配对齐,应用熵约束[13,29]或最大预测秩[8]等正则化器来隐式约束跨域特征空间。最近,也有一些工作将域对齐视为最小化两个集合之间的一对一最佳匹配成本[10]。上述方法的一个共同特点是它们都假设目标域中的注释不可访问或仅对少数数据可访问,从而导致无监督或半监督的域自适应设置。然而,在更实际的场景中,通常允许来自目标域的适度数量的标记数据,7995˜˜˜~D~D D联系我们D··D CITDΣ|D|∈ {···}D {}已经有一些基于伪标签的方法证明了一些正确标记的目标数据足以有力地使模型从源域适应目标域[5,22,23,33]。因此,新的需求出现,以最大限度地提高模型的传输能力,给出了适当的预算,注释的目标数据样本,这是高度重叠的研究兴趣,主动学习社区。主动学习。主动学习的研究目的是选择合适的样本进行标记,并将其用于扩充原始训练集,最大限度地提高模型性能[31]。为了衡量标记样本的价值,查询函数通常被设计为向每个样本分配查询分数以进行排名和选择。传统上,查询函数由不确定性度量决定,如熵,得分边缘[3]或最小置信度[20]。最近,提出了一些先进的主动学习流水线,这些流水线通常伴随着精心设计的训练过程,其中变分自动编码器被广泛用于对错误预测的概率进行建模[6]或直接学习二元分类器[32,38]或样本损失排序器[17,37]以选择样本。此外,还有其他研究从附加样本的覆盖率开始,并朝着最大多样性的目标选择数据[2,30]。上述方法在一致数据分布的主动学习任务上都取得了令人满意的性能,但没有一种方法在设计时特别考虑了标记数据和未标记数据之间潜在的域间隙。因此,这些查询函数或抽样策略易于选择数据,训练难度较小。主动域适配。AADA [34]是最早将主动学习技术专门应用于领域自适应的研究之一,它采用跨领域对抗学习的方法来构建样本查询函数。[11,27]的工作考虑了目标偏差,设计了一系列训练目标和规则来衡量目标样本的不确定性和领域性,[11]进一步提出了一种随机选择策略来提高样本的多样性。CLUE [26]的方法设计了一种熵加权聚类算法,将目标数据的多样性和不确定性纳入统一的聚类框架。然而,这些方法中的大多数依赖于场景特定的先验和具有一系列超参数的复杂查询函数,使得这些方法容易过拟合到特定的传输场景而不是通用的。此外,还有一些复杂的操作,如对抗示例[11,27]或具有高复杂度的聚类[26]相比之下,我们的SDM算法在训练和数据选择方面都很简单,具有深刻的理论解释,通过只利用源域中的一些困难的例子,我们的策略可以在不同的基准点上取得有希望的结果。图2.领域自适应的主动学习循环图示3. 方法3.1. 问题公式化在主动域自适应问题中,标记的源域表示为s=(x s,ys),具有数据x s及其语义标记ys1,2,K,其中K是类类型的数量,未标记的目标域表示为Dt={x t}。同时,我们将标记的目标集表示为t,它最初是空集。利用这些初始数据和给定的注释预算B,可以构建活动域自适应循环,如图2所示。 对未标记的数据进行多次采样,对于每一个被选中的数据x<$t∈Dt/Dt,标注者将为其分配标签y<$t,并且在每一次采样步骤之后用新标记的目标数据(x<$t,y<$t)来扩充t,然后可以用st来训练模型,之后利用更新的模型从集合t/t中选择新的目标数据进行标注。重复该过程,直到附加的目标样本数量达到预算 t= B。 为了便于表示,我们将我们的模型描述为提取数据特征f = g(x)的特征提取器g()和线性分类器c()的组合。将特征分类为大小为K的类logit向量。3.2. 按独特边距3.2.1管道在经典范例中,来自s的所有标记数据t可以用来训练新的深度网络,这被先前的ADA方法广泛遵循[11,26,27]。然而,这种策略会使训练模型在初始阶段偏向于高数据密度的源域中的某些显著区域,从而阻碍查询功能检测到信息丰富的目标数据。为了减轻这种面向源的偏差,我们建议只利用源域中的“硬示例”来构建我们的训练目标,因为这些示例对于用较少的域偏差信息来因此,我们设计了类别明智的边际损失,以监督网络输出,由于其固有的选择性属性L m(x,y)=[m-c(g(x))y + c(g(x))i]+(1)i=y7996·ISISSIS∈ DSE ∈RSSS S S+−xp∈S+PH+−pxtt/t由查询函数Q( xt)测量,如等式(3),在梯度之后,+−+其中,[x]+表示零裁剪操作max(0,x),下标y和i表示向量的第y和第i项,并且m是控制期望的边缘宽度的超参数根据等式(1),我们仅看到具有相似分类的样本I(x;S)定义为:I(x;S)=0δ(m> wT xp−wT xp)xT x(5)真实类和其他类之间的分数可以比较--δ(m> wT xn−wT xn)xT x为深度网络贡献梯度,因此模型不会被冗余源样本所支配,并且是eas-xn∈S−− +n转移到目标域。另一方面,由于等式(1)中的损失显式地扩大了不同类别聚类之间的差距,因此自然要更多地关注目标域中类别得分之间差距较小的那些样本,因为它们将对当前学习的决策边界产生影响。因此,提出了一种边缘抽样查询函数来评估未标记目标样本p=softmax(c(g(xt)(2)Q(x)=1−(p1<$−p2<$)<$xt∈Dt/D<$t(3)其中下标2表示最大值的指数-其中δ()等于1,如果里面的条件成立,否则等于0。从定义中,我们看到指示符(xi)仅关注x与靠近分类边界的那些标记样本xp,xn之间的相似性,即,对于当前分类器难以区分的模糊样本,当x与批量中的模糊正样本xp具有较强的相似性时,(xi)增大,相反,当x更接近模糊负样本时,(xi)得到较小的值。根据定义1,我们主张命题1成立1.提案 如果未标记的样品在计算查询函数之前,先用softmax运算将logit向量映射到归一化概率,以保证Q(x)∈(0,1)的标度。 样本中类别差距越小在批次上输入递减步骤,则以下单张力保持不变• 如果p+( xt)> p−( xt),Q( xt)是单调递减的,具有,则分配较大的Q(x)值。因此,未标记的目标数据可以通过等式(3)中的度量重新排名,并且排名靠前的样本被标记以增强训练集。3.2.2理论见解为了进一步讨论边际损失如何帮助我们的模型在边际抽样查询函数下选择信息样本,我们将我们的模型简化为参数化二元线性分类问题c(g(x))=[w+,w-]Tx,其中数据特征xD只能归类为正或负,在此设置下,我们证明了查询函数Q(x)与训练期间x与具体来说,我们将训练批表示为=+-,其中+表示阳性样本集,−包含所有负样本在一批,这些训练样本是前,训练一个具有正权重的二元线性分类器关于I(xt;S)的cally• 如果p+( xt) p−( xt),则Q( xt)相对于I(xt;S)单调递增对于命题1,我们看到在类似于支持向量机[7]的机制下执行我们的边际损失,其中仅收集少数硬示例(如支持向量)作为组件以决定目标样本xt的查询函数得分,例如。 如果经训练的分类器预测样本Xt更可能是正的,即p+(xt)> p-(xt),则xt越接近现有的硬正样本,查询函数值Q(xt)将越小相比之下,当xt更接近一些硬负样本时,裕度损失将强加更大的Q(xt)得分。可转让性。 值得注意的是,SDM不仅适用于数据选择,而且在理论上有助于域转移。根据[29]的分析,我们定义了一个基于边缘的域分类器空间,w+和负权重w−经由如等式(1)的裕度损失H={h(x)}=. (|w Tx−w Tx| ≥m)|W,W∈ RD(六)p+(x)=ewT xwTxwTxp( x)=ewT xwTx−wTx(四)然后,我们可以得到命题2,以验证SDM有助于在一定的假设下缩小域间隙[4‡e+ +e−e+ +e−第二个提案对于源数据和目标数据xs Ps,xt数据选择。利用等式(4)中的公式,我们将带符号局部相似性指标I(x; S)定义为定义1。在训练之后,可以通过样本x属于某个类别的预测概率来区分样本x−7997P ≤ P定义1:有符号局部相似性指标(Signed LocalSimilarity Indicator) 给定 样本特征x,其有符号局部相似性指标t,给定等式(6)的边缘域分类器族,如果(h(x t)= 1)(h(x s)= 1),然后优化双任意裕度损失等价于极小化[ 4 ]定义的域H-发散ydH(Ps,Pt)的上界.证据可以在补充材料中找到。7998˜⟨··⟩L图3.一阶微分余量查询示例。左图显示了损失函数和查询函数的梯度方向偏离很大的情况。右图说明了一个示例,其中来自损失和查询函数的特征梯度共享相似的更新方向并产生高查询分数。3.3. 变体动态调整的保证金损失。 虽然公式(1)中的损失可以隐含地选择硬源数据,但它仍然存在一些缺陷。首先,所有硬样本在后向梯度方面的贡献相等。此外,边缘约束只考虑样本到不同类别决策边界的相对距离,忽略了对地面真值类别标签绝对得分的考虑到这一点,我们提出了一个动态的边缘损失版本,以自适应地调整后向梯度的边缘大小成比例,并附加一个最大logit正则化器,以确保梯度从地面真理类不会消失,即使边缘足够大,比预定义的mL<$m ( x , y ) =<$αi[m−c ( g ( x ) ) y+c ( g(x))i]+−c(g(x))y以确保损失项和边缘采样的梯度在特征空间Q(x)=Q(x)+λfLm(x,y),fQm(x)(8)其中,是余弦相似性度量,λ是平衡因子。然而,不可能在选择之前获取未标记样本的注释y,相反,我们采用概率梯度估计fm(x),它是一致的,边缘抽样fL其中,符号p、1、2遵循来自等式(3)的相同定义 通过等式(8)中的修改的查询函数,采样数据不仅接近训练模型的决策边界,而且保证了快速收敛到非模糊状态。该变体被称为“SDM-G”。此外,这两种变体并不相互排斥,并且可以同时利用以获得组合的主动学习管道,如4. 实验4.1. 设置数据集和指标。在我们的实验中,我们首先评估我们的框架在两个主流的do-main适配基准上的性能,即Office-Home [28]和Office- 31 [35]。然后,我们进一步将我们的方法扩展到单域数据集CIFAR-10 [18],以验证SDM的通用性。Office-31数据集包括3个不同的域Iyc( g( x))y− c( g( x))i(七)在图像分布不均衡的情况下,共有31个对象类别的4110幅图像。该数据集是一个更具挑战性的基准,由4个不同的do-αi=1−m在等式(7)中,我们将校正裕度修改为调制因子αi,并将其用于调制除地面实况之外的其他类别的分数。通过这种调制,具有较小裕度的损失项将被强调并产生较大的梯度以将样本推离相应的分类聚类,帮助我们的网络自适应地专注于不同难度的硬源示例。此外,在等式(7)中附加了最大logit项,以约束我们的网络始终将大得分分配给对地面实况类的预测。这种变体被称为梯度方向一致性查询。为了提高我们的查询函数的选择性,从等式(3)中的基本边缘采样导出,我们进一步考虑其变化。受[2]应用权重变化来描述数据重要性的启发,我们期望来自新附加样本的梯度将其特征表示f推向最小化边缘采样函数的方向,如图3所示,这相当于电源和65种不同类型的物体。CIFAR-10是一个广泛用于不同机器学习任务的数据集,共有10个常见类别的50000张图像。在[11]的工作之后,对于Office-31和E-Home上的实验,我们报告了所有传输场景的结果,并对最终通信的不同场景的准确性进行了平均。我们的主动学习循环仅从源域的数据开始,在每个采样步骤中,目标数据的1%被采样,总共进行5次采样步骤。对于CIFAR-10,我们的训练过程从10%的完整训练数据开始,在每个采样步骤中,采样5%的数据,预算设置为30%的训练数据。实施细节。 我们的实验是用Pytorch框架实现的。根据[11]的设置,我们采用常用的ResNet50 [14]架构,该架构在ImageNet [19]上进行了预训练,作为我们的特征提取器和分类器。与以前的一些ADA方法[11,26]结合无监督域自适应方法并使用目标域的数据进行训练不同,在我们的实现中,我们避免了对未标记数据进行训练7999ResNet [14]81.575.063.195.265.799.480.0ResNet [14]42.166.373.350.759.062.651.937.971.265.242.676.658.3跑56.878.077.758.970.770.560.953.276.871.557.581.867.9ENT56.880.082.059.475.873.862.354.680.373.658.885.770.2CONF57.781.382.260.876.574.261.954.580.473.459.485.970.7Mar58.681.381.760.376.273.663.455.280.573.860.586.370.9QBC [9]56.978.078.458.573.369.660.253.376.170.357.183.167.9[25]第二十五话56.076.878.158.472.669.258.451.275.470.156.482.467.1AADA [34]56.678.179.058.573.771.060.153.177.070.657.084.568.3ADMA [15]57.279.079.458.274.071.160.252.277.671.057.585.468.6BADGE [2]59.281.081.660.874.973.363.754.279.273.659.785.770.6TQS [11]58.681.181.561.176.173.361.254.779.773.458.986.170.5SDM-AG61.282.282.766.177.976.166.158.481.076.062.587.073.1表1.在预算为5%数据的情况下,在Bullet-Home数据集上的分类准确率(%)。其中,SDM-AG93.594.881.9100.081.9100.092.0表2.Office-31数据集上的分类准确率(%),预算为5%的数据。“RAN” represents random对于任何无监督学习技术,这也使得我们的SDM适合于主动学习的池化和顺序设置在训练过程中,我们首先用初始数据训练我们的网络10个epoch,其中包含边际损失和辅助交叉熵损失,之后我们开始采样步骤。采样过程每两个时期执行一次,直到标记的目标数据达到总预算。 学习率设置为0。01,批量大小设置为72。 我们将等式(1)中的超参数裕度m设置为1,并且将等式(8)中的λ设置为0。01详细消融研究。4.2. 主要结果我们比较我们的“SDM-AG”管道与其他主动学习方法在不同的基准。我们将使用纯初始源数据训练的ResNet50作为我们的基线方法进行比较,考虑了经典主动学习策略的方法[2,9,16,25],此外,我们还将我们的方法与最新的最先进的ADA方法进行比较[11,15,26,34]。此外,我们还-图4.实验结果在CIFAR-10数据集上从10%到30%的训练数据。“RAN” is random sampling and “ENT” is entropy-based使 用 一 些 常 用 的 简 单 查 询 函 数 , 如 随 机 抽 样(RAN ), 基于熵 的抽样( ENT), 最小置 信度(CONF)和边缘抽样(MAR)进行查询在表1中给出了对EQUIP-Home的比较结果。从这个表中,我们可以看到我们的SDM-AG管道优于经典的主动学习方法或设计有复杂选择策略的最新ADA方法。具体来说,我们的SDM-AG方法可以带来+2。与最先进的主动学习方法(如TQS [11]或BADGE [2])相比,平均准确度提高了6%此外,可以观察到,在源和目标之间具有较大差异的一些更困难的场景中(例如,C到A和P到A),从我们的SDM-AG方法的改进是更显着的。总的来说,我们的方法可以实现+14。与纯源数据的基线相比,平均性能提高了8%。在Office-31的数据集上也可以找到类似的结果,如表2所示。尽管在该基准中的一些传输场景是饱和的,但是仍然可以观察到,SDM-AG在一些具有挑战性的场景上实现了比其他最先进的方法[11,26,34]更大的性能增益,并且我们的简单流水线可以优于所有比较的方法。办公室-31A→ W A→ D W→ A W→ D D→ A D→ W平均值方法→ C A →P A→ R C →A C →P C →R P →A P →C P →R R→ A R →CR → P平均值方法办公室-家庭一跑87.184.175.598.175.899.686.7UCN [16]89.887.978.299.078.6100.088.9QBC [9]89.787.377.198.678.199.688.4[25]第二十五话88.186.076.298.377.499.687.6AADA [34]89.287.378.299.578.7100.088.8ADMA [15]90.088.379.2100.079.1100.089.4[26]第二十六话88.191.476.1100.076.198.688.48000∼方法调整梯度A→CA→PA→RC→AC→PC→RP→AP→CP→RR→AR→CR→PAvg基线58.681.381.760.376.273.663.455.280.573.860.586.370.9SDM60.579.681.465.376.574.965.856.580.675.261.185.771.9SDM-A✓✓✓✓60.781.582.165.776.876.366.358.180.275.262.786.672.7SDM-G61.281.982.765.677.676.166.058.080.875.861.886.972.9SDM-AG61.282.282.766.177.976.166.158.481.076.062.587.073.1表3.不同配置下的消融研究,5%的目标标记数据在EQUIP-Home数据集上。样品策略训练损失ACC∆熵交叉熵差数损失70.2470.52+0.28最小置信度交叉熵差数损失70.6871.22+0.54保证金样本交叉熵差数损失70.9471.92+0.98表4.不同类型的训练损失和采样策略在Bull-Home数据集上的不同组合比较。“Acc”表示所有12个传输场景的平均准确度。表示利润损失的改善。方法的平均域适应精度。此外,我们还扩展了我们的实验和比较,在CIFAR-10的基准上,一般的主动学习设置没有领域在每个采样步骤的训练后评价结果,并在图4中绘图。可以观察到,我们的SDM流水线仍然可以优于大多数其他最先进的方法[2,30,32],而不考虑标记数据的数量,并且与一些最新的AL算法[1,36]相当同样值得注意的是,当查询的数字的数量很小(例如,10%-20%的训练数据),SDM的性能大大优于所有竞争对手,包括最近提出的DAAL [36]或CDAL[1],表明我们的SDM算法对低预算的主动学习场景。4.3. 仔细的分析在这一节中,我们详细分析了我们的算法的组成部分。如果未指定,则分析将使用我们的默认设置在后台-主页上进行在具有容限损失和通过容限采样选择数据的情况下,在大多数情况和总体性能上实现了相对于交叉熵基线的一致改进。结果表明,这种改进是SDM整体解的结果,而不是简单地包含采样策略。不同变体的有效性。接下来,我们investi-门的改进不同的变种的基础上,我们的SDM基线。 结果列于表3中。 从表中,我们观察到SDM-A和SDM-G与简单的SDM流水线相比都可以带来显著的性能增益,证明了改进的动态标记丢失和具有梯度指导的查询功能可以分别有利于主动学习过程。此外,我们看到两个变体的组合,即。SDM-AG可以进一步将平均性能提高到最多73。1%,并在Office- Home数据集的大多数场景上实现最佳效果。保证金损失和抽样之间的兼容性。在命题1的讨论中,我们已经表明,具有间隔损失的训练本质上有助于间隔采样,特别是从目标域中挖掘信息数据。在本节中,我们将进一步研究这一性质的实证结果。为此,我们测试了训练目标和查询函数之间的不同组合。对于训练损失,我们研究了间隔损失和常用的交叉熵损失,对于采样策略,除了间隔采样之外,还采用了常用的最小置信度和熵采样策略。测试结果如表4所示,从表中我们可以得出结论:(1)不考虑我们使用的采样策略,边缘损失可以带来比交叉熵训练的管道更好的效果。(2)在性能增益方面(表4中的Δ R),边际抽样策略在平均准确性方面获得最大增益相对于交叉熵基线的改进。首先,我们进行实验,调查SDM的优越性,一个简单的主动学习基线。为此,我们设计了一种基线方法,其中网络使用纯交叉熵损失进行训练,但选择具有与等式(3)相同的边缘采样标准的样本不同转移场景的比较如表3所示。据观察,我们的SDM范式,即。模型训练这表明边际损失本质上适合于基于相对边际的数据选择策略,以挖掘用于域转移的信息数据,这与命题1一致。不同预算规模的变化。注释预算B是主动学习的重要参数,因为它决定了要标记的可用目标数据,因此我们测试了域自适应性能如何随8001O×方法查询复杂性时间(s)BADGE [2][26]第二十六话O(BNKD)O(tNBD)11.471.65TQS [11]O(NMK+NlogN)2.19(a)P至C(b)R至A图5.不同预算规模下的性能差异在不同的Scnarios上的数据集。(a)m的分析(b)λ的分析图6. SDM超参数在不同情景下的敏感性分析。增加预算。为了进行横向比较,我们还将SDM与其他两种ADA方法TQS [11]和CLUE [26]进行了比较。此外,我们还与最近的无监督DA方法(如CDAN [24]和ATDOC [23])进行了比较,以查看实现与这些方法竞争的结果所需的样本数量。预算规模B控制在目标数据的0%-20%范围结果绘制为图5中的曲线。与TQS和CLUE相比,SDM-AG方法无论预算大小都能获得一致的改进,这种优势在R到A的场景下更加明显,说明我们的方法可以从预算B的增长中稳定受益,并且不易饱和。与ATDOC和CDAN算法相比,我们的方法在标记数据量仅为目标数据量的5%的情况下就能获得相当的结果,证明了算法的有效性。超参数的敏感性 我们进一步测试我们的SDM管道中的超参数如何影响域自适应的整体性能,看看我们的算法是否对某些参数敏感。具体地说,我们在可容忍的范围内调整等式(7)中的训练裕度m和等式(8)中的平衡因子λ,并在不同难度的三个场景(P到C、R到C、R到A)上测试准确度结果绘制为图6中的曲线。在所有的场景中,我们看到精确度随着调整的超参数而略有变化这一观察结果表明,我们的方法是稳定的,对特定的超参数不敏感复杂性分析。最后,通过对算法的复杂度和运行时间的分析,证明了本文提出的SDM算法是一个简单的流水线算法SDM-AG(我们的)O(NKD+NlogN)零 点 零六七表5.比较不同方法的复杂度和运行时间。B是预算大小,K是类的数量,D是特征维度,N是目标样本的数量,t是[26]中的聚类迭代,M是[11]中的委员会大小。ADA方法。具体地说,我们比较了一轮数据查询和采样的理论复杂度和实际运行时间我们将SDM与最先进的聚类方法[2,26]和排名方法[11]进行比较。对于所有的方法,我们忽略了网络向前传递的运行时间和复杂性,因为这是共同的步骤并且消耗相同的时间,并且对于所有的基于秩的方法,我们作为一个稳定的比较排序算法应用于复杂性的下限(NlogN)来对所有数据进行排序。比较结果列于表5中,读者可以参考附录材料了解更多有关SDM复杂度推导的详细信息在表5中,我们看到基于排名的方法不依赖于预算大小B,从而产生更有效的复杂性。在运行时间方面,SDM实现了24. 6查询速度与最接近的竞争对手[26]相比,比TQS [11]快得多,因为TQS需要解析来自多个分类器的结果,并运行额外的域名判别网络。5. 结论本文针对主动域自适应问题,提出了一种简单有效的解决方案--按区别性间隔选择(SDM)。我们提供了理论分析,以显示如何与利润损失训练模型选择信息数据,并进一步提出了两个变种,以加强模型的训练和数据采样。综合实验结果表明,该算法是解决主动域自适应问题的一种简洁、稳定和优越的方法。确认这项工作得到以下基础的支持:国家自然科学基金项目No. 11988101、国家自然科学基金项目62171139、国家重点研发&计划项目(2017 YFA 0402600)、国家自然科学基金项目U2031117、中国科学院青年创新促进会(id. 2021055)、中国科学院基础研究青年科学家项目(YSBR-006)、中国科学院-中国科学院FAST科技成果培养项目。8002引用[1] Sharat Agarwal、Himanshu Arora、Saket Anand和ChetanArora。积极学习的情境多样性。欧洲计算机视觉会议,第137-153页Springer,2020年。7[2] JordanTAsh,ChichengZhang,AkshayKrishnamurthy,John Langford,and Alekh Agarwal.通过不同的、不确定的梯度下限进行深度批量主动在2019年国际学习代表会议上。一、三、五、六、七、八[3] Maria-Florina Balcan,Andrei Broder和Tong Zhang。基于Mar- gin的主动学习。计算学习理论国际会议,第35-50页。Springer,2007. 3[4] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论。Machine Learning,79(1):151-175,2010. 一、二、四[5] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch:半监督学习的整体方法。神经信息处理系统的进展,32,2019。3[6] Jongwon Choi 、 Kwang Moo Yi 、 Jihoon Kim 、 JinhoChoo、Bengjip Kim、Jinyeop Chang、Youngjune Gwon和Hyung Jin Chang。Vab-al:用变分贝叶斯方法解决主动学习中的类不平衡和困难。在IEEE/CVF计算机视觉和模式识别会议论文集,第6749-6758页,2021年。 第1、3条[7] 科琳娜·科尔特斯和弗拉基米尔·瓦普尼克支持向量网络。Machine learning,20(3):273-297,1995. 二、四[8] 崔树豪,王树辉,卓俊宝,李亮,黄庆明,田琦.区分性和多样性:标签不足情况下的批核范数最大化。在IEEE/CVF计算机视觉和模式识别会议论文集,第3941-3950页一、二[9] Ido Dagan和Sean P Engelson。训练概率分类器的基于委员会的在Machine Learning Proceedings 1995中,第150-157页。Elsevier,1995年。6[10] Bhara thBhushanDamodaran , BenjaminKellenber ger ,Re'miFlamary,Devis Tuia和Nicolas Courty。Deepjdot:用于无监督域自适应的深度联合分布优化传输。欧洲计算机视觉会议,第447-463页,2018年。2[11] Bo Fu,Zhangjie Cao,Jianmin Wang,and MingshengLong.用于主动域适配的可转移查询选择。在IEEE/CVF计算机视觉和模式识别会议论文集,第7272-7281页,2021年。二三五六八[12] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志,17(1):2096-2030,2016。一、二[13] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学 习 。 在 AdvancesNeuralInformationProcessingSystems,第529-536页,2004中。一、二[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在IEEE/CVF计算机视觉国际会议论文集,第770-778页五、六[15] Sheng-Jun Huang,Jia-Wei Zhao,and Zhao-Yang Liu. 具有主动模型自适应的深度cnn的成本效益训练。第24届ACM SIGKDD知识发现数据挖掘国际会议论文集,第1580-1588页,2018年6[16] AjayJJoshi , ZahhPorikli , andNikolaosPPapanikolopou- los.多类图
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功