弱适应学习：使用弱注释器解决跨域数据不足问题

59 浏览量更新于2023-10-13 收藏 910KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8917弱适应学习：使用弱注释器解决跨域数据不足问题徐世超*，王立旭*，王逸轩*，朱启西北大学，埃文斯顿，美国{shichaoxu2023，lixuwang2025，yixuanwang2024} @ u.northwestern.edu，qzhu@northwestern.edu摘要数据的数量和质量是数据驱动学习方法的关键因素。在一些目标问题域中，可用的数据样本不多，这可能会严重阻碍学习过程。虽然可以利用来自类似域的数据来帮助通过域适配，但是获得用于那些源域本身的高质量标记数据可能是困难的或昂贵的。为了解决目标领域中分类问题的数据不足的挑战，我们提出了一种弱自适应学习（WAL）方法，该方法利用来自相似源域的未标记数据，低成本的弱标注器，基于特定任务的启发式算法，标记规则或其他方法产生标签（尽管不准确），以及目标域中的少量标记数据。我们的方法首先进行了理论分析的训练分类器的数据量和性能的弱注释器的错误界，然后引入了一个多阶段的弱适应学习方法，学习一个准确的分类器，通过降低错误界。我们的实验表明，我们的方法在学习一个准确的分类器有限的标记数据在目标域和未标记的数据在源域的有效性。1. 介绍机器学习（ML）技术，特别是基于深度神经网络的技术，在许多应用中表现出了巨大的潜力，这在很大程度上是因为它们能够学习和记忆嵌入在高质量训练数据中的知识[12]。拥有大量具有准确标签的数据样本可以实现有效的监督学习方法，以提高ML模型的性能。然而，在一些问题域或场景中可能难以收集许多数据样本，诸如用于在极端天气期间训练自动驾驶车辆。*这些作者对这项工作的贡献是相同的。天气（例如，雾、雪、冰雹）和自然灾害（例如，泥石流），或在森林火灾和地震期间用于搜索和救援机器人这种数据不可用问题的一种可能的解决方案是使用来自其他类似域的数据来训练目标域模型，然后用有限的目标域数据对其进行微调，即，通过域适应。以上述个案为例，冰雹天气的数据可能不多，但在大雨的日子，我们可以收集数据;虽然在美国大部分地区很难找到地震时的图像，但我们可以在日本收集图像，因为那里的地震更经常发生在不同的环境中。然而，在这些源域中获得大量高质量的标记数据仍然具有挑战性且成本高昂。为了解决上述跨领域的数据不足挑战，我们考虑利用低成本的弱注释器，该注释器可以基于某些标记规则/函数、特定于任务的启发式算法或其他方法（其在某种程度上可能是不准确的）自动生成大量标记数据。更具体地说，我们的方法考虑了以下分类问题的设置：为便于理解，本文将为目标领域采集的少量具有准确标签的数据样本称为目标领域数据或目标数据。还存在可以从类似但不同的源域（即，存在域差异），本文称之为源（域）数据。最后，还有一个弱注释器，它可以在数据样本上生成弱（可能不准确）标签我们的目标是学习一个准确的分类器的目标域的基础上标记的目标数据，最初未标记的源数据，和弱注释。我们在这里考虑的问题与半监督学习（SSL）相关但不同[39，9，23]。和无监督域自适应（UDA）[24，8，47，7]。在SSL的设置中，可用的训练数据由两部分组成-这与我们的问题不同，在我们的问题中存在域差异。8918源域和目标域。UDA的目标是根据源域中的标记数据和目标域中的未标记数据来调整模型，使其在目标域中表现良好这又与我们的问题非常不同，在我们的问题中，源域数据最初是未标记的，并且由弱注释器分配有不准确的标签，而目标域数据具有标签，但其数量很小。另一个相关的领域是积极无标签学习（PuL）[20，5]，一种样本选择方法。PuL的训练数据也由正数据和负数据两部分组成，任务是学习一个二元分类器，从大量的负数据中筛选出与正数据相似的样本。然而，目前的PuL方法通常在单个数据集而不是具有特征差异的多个域中进行实验为了解决我们的目标问题，我们首先开发了一个理论分析的训练分类器的数据量和弱注释器性能方面的错误界。然后，我们提出了一个弱适应学习（WAL）的方法来学习一个准确的分类器，通过降低误差界。WAL的主要思想是获得源域和目标域数据的跨域表示，然后使用标记的数据来估计弱注释器和目标域中理想最优分类器之间的分类误差/距离接下来，基于弱注释器分类误差的这种估计来重新标记所有数据。最后，新重新标记的数据用于学习目标域中的更好的分类器我们的工作做出了以下贡献：我们解决了数据不足的挑战，在主适应与一种新的弱适应学习方法，利用未标记的源域数据，有限数量的标记的目标域数据，和弱注释器。我们的方法包括一个理论分析的训练分类器的误差界和一个多阶段的WAL方法，提高了分类器的准确性，降低这样的误差界。我们在几个数字数据集和VisDA-C数据集上设置了域差异的实验中将我们的方法与各种基线进行了比较，并在CIFAR-10数据集上研究了没有域差异的情况。我们还对弱注释器准确性和标记数据样本数量的影响进行了消融研究，以进一步验证我们的想法。2. 相关工作我们介绍了弱监督学习和半监督学习的相关工作，以及样本数量的重要性您还可以在补充材料中找到更多关于领域适应的相关作品。2.1. 弱监督和半监督学习弱监督学习是一个大概念，可能有多个问题设置[51]。我们考虑在本文中sider的问题是不完全的监督设置，往往是解决半监督学习（SSL）的方法。标准SSL解决了用少量标记数据和大量未标记数据训练模型的问题。一些广泛应用的方法[39，9，36，2]将伪标签分配给未标记的样本，然后执行监督学习。并且有一些作品解决了这些样本标签中的噪声[31，11，25]。我们的目标问题是与SSL不准确的监督，但不同的是，因为我们认为（未标记的）源数据和（标记的）目标数据之间的功能差异正向无标记学习（PuL）通常被认为是SSL的一个子问题它的目标是学习一个二元分类器，从大量的未标记数据和少数阳性样本中区分阳性和阴性样本。几个作品[20，5]可以在选择与阳性数据相似的样本上实现很好的性能，并且也有使用PuL选择的样本来执行其他任务的作品[49，26]。2.2. 样本数量机器学习模型的训练，尤其是深度神经网络，往往需要大量的数据样本。然而，在许多实际场景中，没有足够的训练数据来支持学习过程，从而急剧降低模型性能[41，16，48]。已经提出了许多方法来弥补训练样本的缺乏，例如，数据重采样[44]、数据扩充[37]、度量学习和Meta学习[3，4，42，45]。并且有工作[33，1，3，46]对训练数据量与模型性能之间的关系进行理论分析。这些分析通常以限制模型的预测误差的形式，并提供关于训练数据的样本量如何影响模型性能的有价值的信息。在我们的工作中，我们还对训练模型的误差界进行了理论分析，不仅涉及数据量，而且还涉及弱注释器的性能。3. 理论分析3.1. 问题定义和表述我们考虑分类的任务，其目标是预测目标域中样本的标签可以访问两种源域数据样本最初是未标记的，并且来自联合概率分布Qs。它们可以由一个···8919i=1HQ12≥ −N（0，σ）QH.Σ2KL（QH）+ln^QHMQ HQ不∀^+2−弱注释器hw（其可能是不准确的），并且表示为Ds={（xs，ys）i}Ns，其中Ns是源数据样本目标得到域数据Dt={（xt，yt）i}Nt设置[33]。因此，为了简化问题，我们将界限实例化为设置H以符合Gaus-Gausz方程。具有零均值（µH= 0）和VarH=σ2的sian分布包括Ni=1t从目标分布中采集的样本变异这种简化与先前的PACH相同。Qt. 注意，Qt可以不同于Qs。并且我们使用Qs，Qs Qt，Qt代表边缘分布贝叶斯工程[33，34]。我们进一步假设参数-训练期间整个模型的测量变化也可以X Y X Y源域和目标域的实例。此外，如前所述，我们考虑仅存在少量目标域数据的情况，即，NtNs.我们的目标是为目标域学习一个准确的分类器。分类器从参数分布初始化，其表示所有可能分类器的假设参数空间。被认为符合经验高斯分布。如果我们将梯度反向传播引起的参数更新视为累积的随机扰动，则该高斯分布与模型参数无关，即，每个训练样本对应于小扰动[34]。并且我们将单个训练样本的平均值和方差表示如下：在下面的分析中，我们将定义分类器的分类风险，然后导出其界限。协议-µE[θpL（x，y）]σ2<$E<$（<$ΘpL（x，y） −μ）（<$Θp L（x，y） −μ）T<$（三）使用PAC-Bayesian框架[30，10]，从分布中提取的分类器的预期分类风险然后，给出了任意两点的KL散度的具体公式高斯分布pN（µ1，σ2），qN（µ2，σ2）为依赖于训练数据的概率是严格有界的。令hΘ表示从训练数据学习的分类器，并且其参数Θ从Q得出。我们认为假设上的先验参数分布H为如下所示σ2KL（p，q）=lnσ11σ2+（µ1−µ2）2 12σ22（四）独立于训练数据。并且给定在大小为m的训练数据集上具有概率1δ的αδ，h0的预期误差可以如下所述被限制[29]：.定理1. 对于分类器参数分布其独立于具有大小m、H和学习的后验参数分布Q从训练数据集，如果我们假设Q N（μQ，σ2）L（hΘ）≤L^（hΘ）+L^（hΘ）·Ω+Ω并且考虑分别从H、Q得出的Θp、ΘMΩ =δm−1（一）（Θ = Θp +（L（hΘp），和的KL散度为以等式中定义的符号为界。（3）如下：这里L（hΘ）是h对参数Θ的预期误差并且L1（h0）是根据时间域计算的经验误差。Mi=1KL（Q H）≤σ2+µ22σ2（五）ingset（L^（hΘ）=1Σm L（xi，yi），其中L表示H单个训练样本的损失）。由方程式（1），K-S（）表示参数分布Q和H之间的Kullback-Leibler（KL）散度。对于任意两个分布p，q，它们的KL散度的具体形式为KL（pq）=−E[p·lnp]。在大多数小批量训练的情况下，训练-损耗L^（hΘ）比Ω小得多，因此我们可以得到定理1的详细证明在我们的Supple-基本材料。利用上述风险定义，h相对于目标数据分布Qt的风险为R（h）=E（x，y）<$QtL（h（x），y）=L（hΘ）<$Qt（6）此外，我们还定义了两个类的分类距离另一个约束如下[33]： ..2mΣ在相同的域分布P下的筛选器h1和h2为L（hΘ）≤L（hΘ）+4KL（Q H）+lnδM（二）CDP（h1，h2）=ExPL（h1（x），h2（x））（7）然后，如果我们将从H中提取的训练之前h的模型参数表示为 Θp ，则 KL 散度可以写为 KL （ Q H ） =−E[Θ·（ln Θp−ln Θ）]。此外，两个域的差异距离如[28]中所定义：h1，h2，两个域P，Q的分布之间的差异距离为如上所述，利用来自hΘp的训练数据集来训练hΘ，并且我们认为通过基于梯度的方法来优化训练。因此，我们可以用公式表示（P，Q）= suph1，h2∈HDD8920H⊕⊕• ⊕∀∈H∀∈|CD∼P(h1,h2)−CD∼Q(h1,h2)|（八）Θ = Θp +（L（hΘp））。在这里，我们省略了学习率以简化公式。PAC-Bayesian误差界对于独立于训练数据的任何参数分布以及依赖于训练数据的优化Θp为了进一步分析，我们还在参数分布H中定义了两个算子：：h1，h2得双曲正弦值.XP，一个新的分类器h3=h1h2可以通过传导算子获得在h1和h2上，h3（x）=h1（x）+h2（x）.8921⊕⊕⊕Q^ ^您的位置：⊕R（hd）= EL（hd，h埃赫h）QXX^⊕√XT W OTWδ..ln⊕.ln^^^XHXHSδ不XXW•^ ^您的位置：.在本节中，我们将详细介绍• ：3.2. 误差界限分析令h〇s和h〇t分别表示对源数据和目标数据执行最佳的理想分类器hos= arg minh∈QRs（h），hot= arg minh∈QRt（h）在我们的方法中，我们设计了一个分类器，它学习弱注释器和地面真值之间的区别（细节将在第4节中介绍），我们将其表示为ddraw from。因此，我们可以得到一个模型，该模型是在h和d上进行上述算子的乘积，即，h d.这里h被设计用于近似弱标签。而对于hd的风险，我们可以得到以下关系式：介绍了受这些见解启发的弱适应学习过程。4. 弱适应学习方法4.1. 误差分析基于在Eq.因此，我们可以在我们的方法中努力实现以下想法，以提高目标域中的分类器性能：注释器的性能（2Lt（hw）+Ls（hw））：弱注释器提供的监督可以引导模型更好地针对给定任务。理想情况下，我们希望hw为源数据和目标数据生成更准确的标签，同时减少2Lt（hw）和Ls（hw）。实际上，我们可能只能让注释器在源域上表现得更好，而不能对目标域做太多的事情。• 域之间的差异（DD（Qt，Qs））：定理2. 对于所有L1（平均绝对误差[17]），L2X X（均方误差[14]）及其非负组合损失函数（Huber损失[50]，分位数损失[21]等），上述h d的分类风险可以用公式表示如下：在域自适应中充分研究了量化源域和目标域之间的差异的签名损失。在我们的方法中，我们提出了一种新的域间损失（称为分类MMD），以最小化DD（Qt，Qs），如稍后介绍的。T W OTW不X≤EQtL（h，hw）+EQtL（d，hoth）（十）源样本和目标样本的数量（Ns，Nt）：首先，d的学习需要基础事实的监督，因此我们只能使用标记的目标数据来进行训练。定理2的详细证明请参见我们的补充材料。然后，如果我们考虑训练损失L（h）（其等于所有训练样本的平均损失）几乎不受样本量的影响，并且对于两个域之间的差异也是一样的[27]，则我们可以将h d的误差界分成两部分，其中一部分表示为∆，不受样本量的影响根据等式（2）这两个部分可以写成如下（de-火车站D. 然后，在我们的方法中，h被设计为近似-匹配弱注释器，因此它可以看到足够的数据，我们只使用源数据来训练h。然而，在这方面，为了根据定理1进一步减小KL_h，我们还使用目标样本来训练h，这增加了训练数据的样本大小。此外，由于源数据的样本量远大于目标数据的样本量（即，目标数据的样本量）。例如，N tN s），方程中的KLd/Nt（11）dominates over√KL/N，在δ≤2/e的情况下，12ln2N/N从等式开始的不等式的尾推导（10）可以参见补充材料）：R（hd）= EQtL（hd，hhh）≤∆+4。KLd+4。KLh也严格优于8ln2Ns/Ns。因此，受少数目标样本影响的项主导总体错误风险。因此，直接将hd应用于目标域仍将受到样本不足的影响。但是，请注意，hd可以产生+12Nt2Ntδ +8NtNs2NsδNs（十一）更准确的标签源数据比弱注释者因此，我们在学习利用重新标记的源数据并利用这种增强进行监督学习的过程。其中∆ = 2Lt（hw）+Lt（d）+Ls（h）+L^s（hw）+DD（Qt，Qs）4.2. 学习过程这里，KL_d和KL_h表示训练的d、h和。根据定理1，该KL散度项受训练的影响，特别是受样本量的影响。我们将在下一节讨论从这个误差界中获得的见解，然后弱自适应学习（WAL）方法基于来自上述误差界限分析的观察我们的WAL过程的概述如图1所示。所设计的网络由三部分组成-（Φ 0，Φ 1，Φ2）。Φ0可视为两个源的共享要素网络·不⊖（九）8922Φ0Φ1L数据源域Φ2L = L L+L距离数据标签弱注释器我i=1◦--◦L LLL LL1W预目标域目标域阶段1：获得源数据和目标数据的公共表示阶段2：通过Φ2估计分类距离Φ0Φ1L =L L+L新标签数据源域L = L L+L数据弱注释器目标域阶段4：基于新数据集学习新分类器阶段3：基于分类距离和弱标签图1.弱适应学习（Weak Adaptation Learning，WAL）所设计的网络结构分为三个组件Φ0，Φ1，Φ2，算法有四个阶段。首先，我们使用组合损失函数来学习源和目标数据样本的Φ 0中的跨域表示。然后，在阶段2中，Φ2估计弱注释器与目标域中的理想最优注释器之间的分类距离。在阶段3中生成一个新的重新标记的数据集，然后在阶段4中使用它来学习所需的分类器。和目标数据，使用典型的分类网络，如VGG 、ResNet等。Φ1由Φ0输出后的三个全连接层组成。我们将Φ0和Φ1的组合记为F1。Φ2由跟随Φ0的输出的两个全连接层组成。Φ0和Φ2的组合表示为F2。详细的网络架构如补充资料所示我们的方法的工作流程在算法1中示出。算法1弱适应学习的工作流程1：初始化网络组件Φ0、Φ1、Φ2的参数。2：使用帮助从源数据和目标数据获得数据集D这有助于我们对输入进行编码，同时减轻特征表示中的域离散性。我们收集所有未标记的源数据和目标数据而不带它们的标签，并使用弱注释器hw为每个数据样本xi和y w= hw（xi）分配标签。我们将以这种方式获得的数据集表示为D = （x，y w）iNs+Nt。然后我们固定Φ2，只考虑网络的左部分，即F1= Φ1Φ0。它通常通过使用针对epl训练时期的数据集D的监督学习来训练，并且使用以下损失函数：弱注释者hw.3：使用D训练F1= Φ1◦Φ0，损失函数如下L=LKL +αL cmmd（十二）方程式=KL+α cmmd.4：固定Φ1的参数，并使用F2= Φ2Φ0来拟合目标数据hot的最佳分类器的距离和在这个损失函数中，有两个损失项，超参数α是一个比例因子，用于平衡两个损失函数的规模（我们将其设置为0。0001在我们的实验）。弱注释器hw与目标数据。5：使用源数据和目标数据生成新数据集。的第一项LKL Kullback-Leibler（KL）散度通过ynew=hw（x）+ Φ2（hw（x），Φ0（x））计算新标签。6：初始化Φ0、Φ1、Φ2的参数。损失情况如下：LKL=KL（yprey）（十三）7：修复Φ2并使用新数据集训练F1。损失函数如下=KL+α cmmd。8：输出分类器Fl。其中y1=KL（Φ1◦Φ0（x）hw（x））是F1的输出预测值，yw是第一：我们的第一个目标是获得一个共同的由弱注释器hw. 第二项Lcmmd旨在减轻域Φ0Φ1数据源域L = L L+L数据弱注释器Φ0Φ1新标签数据源域Φ2L = L L+L数据弱注释器目标域8923^ΣX|D|x∈DtL◦∈w2w−◦LLLXX11XXx∈D（S，i）DDΣ在神经网络中的特征表示水平上的源域和目标域的差异。基于[43]引入的基本MMD损失，我们进一步将其改为带有数据标签的版本。我们将该损失函数称为分类MMD损失（对应于下标cmmd），其被定义为：而CMMD损失将减少项（Qt，Qs）。阶段2使用新的分类器d来学习对应于项Lt（d）的分类距离。阶段3使用注释器和学习的数据来给出比仅由注释器给出的那些然后在阶段4中，通过重新标记的数据训练模型，使两者MLcmmd=M·∥|D（S，i）|Xi=1L^s（h）和DD（Qt，Qs）进一步减小。的设置-1ΣF（x）5. 实验结果（T，i）1tX（T，i）X其中M是类的数量，DX是来自所产生的数据集D的没有标签的数据，并且D（S，i）是源的补充材料可以被产于从https://arxiv.org/abs/2102.07358从DX与arg max（yXw）=i . 然后我们5.1. 数据集利用具有其准确标签的目标数据来继续在损失函数KL下训练网络组件F1达ep2训练时期，这有助于进一步微调我们通过目标数据的准确标签学习的特征。阶段2：在完成阶段1中的训练之后，下一步骤是估计目标数据的最佳分类器h〇t与弱注释器hw的距离。我们通过具有准确标签的可用目标数据来估计该距离。我们采用从阶段1训练的参数并且使用目标数据Dt训练网络分量F2= Φ2Φ0。对于输入数据样本x，它被带到Φ0和弱注释器中作为它们的输入。然后Φ2将Φ0（x）和hw（x）的输出特征作为输入特征（这两个特征被连接作为Φ2的输入特征）。对于数据样本（xt，y t）目标数据集D t，F2的学习使用以下分类器差异损失函数：LMSE=Φ2 （ h （ xt ）， Φ0 （ xt ）） − （ yt−h（xt））（15）网络在ep3个训练阶段进行训练。阶段3：第三步是生成新的数据集Dnew通过上面得到的网络F2。具体来说，我们从源数据和目标数据中收集数据x，并根据弱注释器和从前面步骤中获得的F2重新标记这些数据实验在三个应用场景上进行，具有域差异的数字识别（ SVHN[32] ， MNIST[6] 和 USPS[15] 数字数据集），具有域差异的对象检测（VisDA-C[35]）和没有域差异的对象检测（CIFAR- 10[22]）。关于空间，我们在补充材料中介绍了这些数据集的详细信息5.2. 培训设置所有的实验都是在一个装有Ubuntu的18.04 LTS配备NVIDIA TITAN RTX GPU卡。该实现基于Pytorch框架。上面提到的超参数α被设置为1e4。我们使用标准的Adam优化器[19]来优化学习。网络架构、网络组件的每个部分的学习速率、训练时期设置以及其他超参数在补充材料中指定。通过对训练应用早期停止，我们得到了不同性能的弱注释器。弱注释器的实现细节也可以在补充材料中找到。5.3. 基线实验设置我们用以下方法D新型 ={（x，y new）|x∈ D X，y新=hw（x）+ Φ2（hw（x），Φ0（x））}（十六）基线基线Bwa是弱者的表现在目标域中的实验中选择的注释器基线Bt是仅用目标数据训练F1基线阶段4：在最后一步中，我们再次关注F1= Φ1Φ0。我们固定网络组件Φ2的参数，并使用在阶段3中获得的新数据集D_new来训练Fl为了避免引入来自先前步骤的特征偏差我们清除所有先前的网络权重，并在训练之前重新初始化整个网络。训练持续ep4epochs，这一步的损失函数为=KL+αcmmd，与阶段1中的函数相同。最后，我们得到最终模型F1作为期望的分类器。综上所述，在阶段1中，我们在弱注释器的帮助下学习模型h，以减少经验损失L^s（h）。B f1是微调结果。它采用与F1相同的车型首先使用源域数据和生成的弱标签由弱注释器来训练它。然后，它使用目标域数据来微调最后三层。基线Bf2也是微调结果。不同之处在于，它不是对最后三层进行微调，而是训练所有网络参数。如前所述，我们的问题涉及半监督学习（SSL）和半监督局部自适应（SSDA）。对于SSL，虽然我们可以用从另一个域而不是目标域中提取的样本来替换未标记的数据，但我们无法找到一个好的F1（xs）（十四）本节中使用的超参数可以在补充材料中找到8924→ → → →→→→方法MS（%）MU（%）SU（%）SM（%）样品数量1000 300 300 1000B瓦59.06 73.28 73.28 76.41Bt61.14 89.20 89.27 94.795.5.对象识别各种方法对VisDA-C数据集的结果如图2所示。在这个任务中，我们使用了syn-Bf155.68 84.58 77.24 80.41作为源域数据集的thetic图像，以及真实的Bf277.92 94.10 94.92 95.52S+T 65.70 93.67 91.21耳鼻喉科MME 65.92 93.07 91.32 95.64风扇68.48 93.78 92.38 96.51我们的80.00 95.99 96.36 97.24世界图像作为目标域数据集。从表中可以看出，仅用目标数据训练的网络的性能仅为32。百分之八十六然后，当提供弱注释器时，它可以帮助两个微调基线B f1和B f2达到27。67%和35。分别为03%表1.不同方法在数字数据集上的准确性一种将弱注释器合并到SSL方法中的方法，以便与我们的方法进行公平比较对于SSDA，我们能够将其扩展到我们的设置进行比较。具体来说，我们增加了1,000个未标记的目标样本（加上1,000个标记的目标样本，这个设置在数字识别中会相应地改变，以保持设置的一致性）来满足半监督的要求，我们应用弱注释器来产生弱标签，而不是源数据的准确标签。我们将我们的方法与以下SSDA基线进行比较：FAN [18]、MME[40]、ENT [13]、S+T [4，38]。请注意，据我们所知，没有与我们的问题设置完全相同的先前工作。上述变动旨在使比较尽可能公平。另一件值得一提的事情是，大多数SSDA方法都是在ImageNet预训练模型上进行自适应，这会从ImageNet数据集中引入大量不相关的因此，我们禁用预训练，只允许使用可用数据进行训练。5.4.数字识别我们在数字识别数据集上评估我们的方法：SVHN（S）、MNIST（M）和USPS（U）。根据表1中所示的结果，当弱注释器比仅从所提供的目标数据学习的模型表现差得多时，28%在M U，73。28%，76。41%在S M上），其对应的基线Bf1也低于Bt，只有第二种微调方法Bf2优于或竞争于Bt这指示从源主数据学习并且具有弱标签的特征引入数据偏差，并且当来自前面层的参数被目标数据微调时，可以减轻该偏差。总的来说，我们可以清楚地看到，利用15，000个源域数据、有限数量的标记的目标域数据（第二行）和弱注释器，我们的方法可以以80胜过表1中的所有基线。00%在MS，95。M → U的99%，96。36%在S → U和97。24%在S-M.活泼地至于SSDA基线，它们都表现得非常并且它们被提供有更多的没有标签的目标样本最好的SSDA方法FAN只能达到32。百分之九十九我们的方法可以提供40的结果。83%，再次超过上述所有基线此外，我们还提供了额外的实验结果，使用不同的弱注释器的补充材料。4540.834035302520图2. VisDA-C数据集上不同方法的准确性。这个数字是用百分比来衡量的。此外，我们还使用CIFAR-10数据集对没有域差异的场景进行了测试。我们从数据集中随机选择10，000个数据样本作为源数据，另外1，000个样本作为目标数据。结果包括在表2中。正如我们所看到的，当弱注释器在48处给出时。96%的准确率，仅用目标数据训练的模型可以达到30. 46%，而我们的方法几乎是性能的两倍，达到61。71%，超过所有其他基线。5.6. 消融研究我们还研究了目标域样本的数量和弱注释器的性能如何为了减少域差异的影响，当我们研究这两个因素，我们进行消融研究CIFAR-10。5.6.1目标样本如图3所示，水平轴表示目标域数据的数量，垂直轴表示三十五点零三分三十二点八六32.9931.5131.3921.56二十七点27.67平均动脉压8925√。作为KL/N和ln /N的二阶导数，对于表2.不同方法在具有10个类的CIFAR-10数据集上的准确性（没有域差异）。这个数字是用百分比来衡量的。每个类别的准确度从第2列到第11列。平均精密度显示在最后一列中。我们的模型的性能使用相应数量的目标域样本。当保持弱注释与5.5节相同并将源数据的样本数量固定为10，000时，模型的精度随着目标域数据数量的增加而增加。当有足够的目标域数据时，它将逐渐饱和这种饱和现象可以用2NδN为正，而一阶导数为负。并且根据曲线，我们可以观察到当目标数据小于源数据时的性能改进相对高于当存在更多目标数据时的情况。其原因可以在我们的理论分析中找到，即，当源数据和目标数据的样本量变得更接近时，受目标数据量影响的项将不会在误差界上占主导地位。图3.我们学习的模型在不同数量的目标域样本下的性能。5.6.2弱注释器图4显示了我们的模型的性能如何随弱注释器的精度而变化的曲线。如图所示，当弱标记器执行最差时，准确度为23。79%，我们的模型可以达到42. 29%，这是一个比较明显的改善。随着弱注释器精度的提高，我们的模型相应地表现得更好。有趣的是，图4中的改善曲线近似为线性，这表明线性地改善是合理的。在错误界中添加弱注释器的术语。图4.我们学习的模型在弱注释器的不同准确性下的性能。6. 结论在这项工作中，我们提出了一种新的方法，利用弱注释器，以解决数据不足的挑战，在域适应，只有少量的数据样本是在目标域和源域中的数据样本是未标记的。我们的弱自适应的方法包括一个理论分析，推导出一个训练的分类器的数据量和弱注释器的性能方面的误差界，和一个多阶段的学习过程，通过降低误差界，提高分类器的性能。我们的方法显示出显着的改善基线的情况下，或没有域的差异，在各种数据集。7. 确认我们衷心感谢 NSF 资助 1834701 、 1839511 、1724341、2038853和ONR资助N 00014 -19-1-2496的支持引用[1] 罗恩·阿米特和罗恩·梅尔。基于扩展pac-bayes理论调整先验的元学习。在International Conference on MachineLearning中，第205PMLR，2018。2[2] Soufiane Belharbi、Ismail Ben Ayed、Luke McCaffrey和Eric Granger。联合分类的深度主动学习方法平面移动鸟猫鹿狗青蛙马船卡车最大平均接入点（%）B娃43.1865.6828.1325.9329.0046.1583.9141.7672.1251.0648.96Bt19.0863.3903.0330.1625.7722.6046.1150.8523.6125.7430.46Bf157.3877.5338.4633.5145.2733.1773.3358.2957.6760.2052.978926&弱注释器的分割。在IEEE/CVF计算机视觉应用冬季会议论文集，第3338-3347页，2020年。2[3] Tianshi Cao，Marc Law，and Sanja Fidler.少镜头学习中镜头数的理论分析。arXiv预印本arXiv：1909.11722，2019。2[4] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangFrank Wang，and Jia-Bin Huang.更仔细地观察少数镜头分类。在2019年的学习代表国际会议二、七[5] 陈旭熙、陈武扬、陈天龙、叶远、陈功、陈克威、王张扬。Self-pu：自我提升和校准的积极非标记训练。国际机器学习会议，第1510- 1519页。PMLR，2020年。2[6] 李登。用于机器学习研究的手写数字图像数据库IEEESignal Processing Magazine，29（6）：141-142，2012.6[7] 董家华、杨聪、孙乾、侯东东。语义可转移的弱监督内窥镜病变分割。在IEEE/CVF国际计算机视觉会议集，第107121[8] 董家华，杨聪，孙甘，钟必能，徐晓伟.可以转移的内容：用于内窥镜病变分割的无监督域自适应。在IEEE/CVF计算机视觉和模式识别会议论文集，第4023-4032页，2020年1[9] 魏王冬冬陈、周志华魏高。用于半监督深度学习的三层网络在2018年国际人工智能联合会议一、二[10] Pascal Germain，Francis Bach，Alexandre Lacoste，andSi-mon Lacoste-Julien. Pac-bayesian理论符合bayesian推理。在Proceedings of the 30th International Conferenceon Neural Information Processing Systems， pages 1884-1892，2016中。3[11] Aritra Ghosh，Naresh Manwani，and PS Sastry.使风险最小化容忍标签噪音。神经计算，160：93-107，2015。2[12] Ian Goodfellow ， Yoshua Bengio ， Aaron Courville ，Yoshua Bengio. 深度学习，第1卷。麻省理工学院出版社，剑桥，2016年。1[13] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习在Proceedings of the 17th International Conferenceon Neural Information Processing Systems，pages 5297[14] Richard F Gunst和Robert L Mason。回归中的有偏估计：使用均方误差的评估。 Journal of the AmericanStatistical Association，72（359）：616-628，1977. 4[15] 乔纳森·赫尔。一个用于手写文本识别研究的数据库。IEEE Transactions on pattern analysis and machineintelligence，16（5）：550-554，1994. 6[16] Justin M Johnson和Taghi M Khoshgoftaar。类不平衡的深度学习研究综述。Journal of Big Data，6（1）：1-54，2019。2[17] S 卡萨姆。基于平均绝对误差准则的量化。 IEEETransactions on Communications，26（2）：267-270，1978. 4[18] Taekyung Kim和Changick Kim。吸引、扰乱和探索：学习用于半监督域适应的特征对准网络。欧洲计算机视觉会议，第591-607页。Springer，2020年。7[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[20] Ryuichi Kiryo，Gang Niu，Marthinus C du Plessis，andMasashi Sugiyama.非负风险估计的正-无标记学习。arXiv预印本arXiv：1703.00593，2017。2[21] 罗杰·科恩克纵向数据的分位数回归。Journal of Multivariate Analysis，91（1）：74-89，2004.4[22] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009. 6[23] Junnan Li ， Richard Socher ， and Steven CH Hoi.Dividemix：使用带噪声标签的学习作为半监督学习。在2019年国际学习代表会议上。1[24] Rui Li，Qianfen Jiao，Wenming Cao，Hau-San Wong，and Si Wu.模型自适应：无源数据的无监督域自适应。在IEEE/CVF计算机视觉和模式识别会议论文集，第9641-9650页1[25] 刘同良和陶大成。通过重要性重新加权的噪声标签分类。IEEE Transactions on Pattern Analysis and MachineIntelligence，38（3）：447-461，2015。2[26] Mohammad Reza Loghmani 、 Markus Vincze 和 TatianaTommasi。开放集合域适应的正非标记学习。PatternRecognition Letters，136：1982[27] Yadan Luo ， Zijian Wang ， Zi Huang ， and MahsaBaktashmot- lagh.用于开集域自适应的渐进图学习。国际机器学习会议，第6468-6478页。PMLR，2020年。4[28] YishayMansour ， MehryarMohri ， andAfshinRostamizadeh.域适配：学习边界和算法。arXiv预印本arXiv：0902.3430，2009。3[29] 大卫·麦卡莱斯特。简化的pac-bayesian边界。在学习理论和内核机器中，第203施普林格，2003年。3[30] 大卫·A·麦卡莱斯特。一些pac-bayesian 定理MachineLearning，37（3）：355-363，1999. 3[31] N

下载后可阅读完整内容，剩余1页未读，立即下载