多源域自适应：理论保证的方法解决多个源域的多样性和目标域与源域之间差距的挑战

126 浏览量更新于2023-10-13 收藏 996KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9352STEM：一种有保证的多源域自适应方法Van-Anh Nguyen1，Tuan Nguyen2，Trung Le2，Quan Hung Tran3，DinhPhung2，41 VNU -越南2澳大利亚莫纳什大学数据科学与人工智能系3Adobe Research，San Jose，CA，美国4VinAI Research，越南vananhnt57@gmail.com，{tuan.ng，trunglm}@monash.edu，qtran@adobe.com，dinh. monash.edu摘要多源域自适应（MSDA）比传统的无监督域自适应更MSDA的两个基本挑战是：（i）如何处理多个源域中的多样性在本文中，为了解决第一个挑战，我们提出了一种理论保证的方法，结合领域专家在本地训练自己的源域，以实现一个组合的多源教师，全球预测以及混合的源域。为了解决第二个挑战，我们建议通过生成器或特征提取器来弥合潜在空间中的目标域和源域的混合物之间的差距。连同弥合差距的潜在空间，我们训练学生模仿预测的教师专家对源和目标的例子。此外，我们的方法是保证与严谨的理论提供了深刻的理由，每个组件如何在三个基准数据集上进行的大量实验表明，我们所提出的方法达到了最先进的perfor- mances，以我们所知的。1. 介绍深度学习的最新进展在收集大量注释数据的情况下执行视觉学习任务方面取得了巨大成功[26，64，50，54，3]。然而，由于域和标签移位的存在，直接将在源域上训练的学习模型的知识转移到新的目标域可能会不期望地降低其性能[49]。为了解决这些问题，采取了各种各样的方法主适应（DA）已经从浅域适应[45，16，5，6]到深域适应[13、32、51、12、55、9、29、41、40]。虽然常规DA旨在将知识从标记的源域转移到未标记的目标域，但是在许多现实世界的上下文中，标记的数据是从多个域收集的，例如，在不同条件下拍摄的图像（例如，在不同环境下拍摄的图像）。天气、姿势、光照条件、不同背景等）[70]。这就产生了一个非常实用和有用的-- 迁移学习的一个完整的设置称为多源域自适应（MSDA），其中我们需要将知识从多个不同的源域转移到单个未标记的目标域。对于多源域自适应，存在两个基本挑战：（i）如何处理标记的源域中的多样性，以及（ii）如何处理目标域和源域之间的域移位。第一个挑战使得难以训练预期在多个源域上良好工作的单个模型，这是由于需要解决施加在模型训练上的发散数据复杂性。为了克服这种挑战，受[36，23]的启发，我们提出通过使用由主鉴别器学习的系数混合领域专家预测来将领域专家组合成多源教师。我们严格的理论表明，该多源教师专家在混合源域上全局预测的性能至少优于最差域专家在其域上局部预测的性能（见定理1）。因此，如果我们能够培养合格的领域专家，他们的组合会导致另一个合格的专家具有更广泛的覆盖面。为了解决第二个挑战，如- orem3所建议的那样，我们采用了一个联合特征提取器，该提取器在对抗学习的帮助下将目标域和源域的混合映射到相同的潜在空间此外，与关闭潜在空间上的目标域和源域的混合的发散一起9353KX|∼y=1Σ：=πKΣ：=KΣ我Ki=11：Kπk=1K--其中密度函数pS（x，y）=|联系我们1：Kπ我们训练目标领域的学生在源和目标示例上模仿多源教师，同时对目标领域的学生实施聚类假设[4• 我们提出了一种名为S学生-教师集成多源域自适应（STEM）的方法，具有多源域自适应的理论保证。不仅推动我们设计我们的STEM，严谨的理论开发为我们提供了一个洞察力的理解，每个模型组件如何真正影响传输性能。• 我们在三个基准数据集上进行了广泛的实验，包括Digits-five，Office-Caltech 10和DomainNet。实验结果表明，我们的STEM在这三个基准数据集上实现了最先进的性能更具体地说，对于Digits-five和Office-Caltech 10数据集，我们的STEM赢得了所有对的基线，并超过了新的模型来处理类别转移，这是来源可能不完全共享其类别的情况。Peng等人。[47]介绍了一种模型，该模型在潜在空间中对齐源和目标特征分布的矩。在[71]中提出了一种多源提取模型，以分别微调生成器和分类器，并利用域权重来聚合目标预测。最后，工作在[61]部署了一个图卷积网络来在类别级别上进行3. 我们的建议3.1. 问题设置在本文中，我们解决的问题，多源域的主要适应中，我们有K个源域收集的数据和标签，和一个单一的目标域，只有收集的数据。我们希望将在标记的源域上学习的模型让我们表示源代码的收集数据和标签亚军基线平均下降3.2%和1.5%DS=.. sxk，ykΣΣNS 其中k是aki ii=1而对于DomainNet数据集，我们的STEM赢得了源域和标签y k∈ {1，2，...，M}，其中num-6对中有5对获得亚军，班别我M，并收集了无标签的数据亚军的基准线平均提高了6.0%。2. 相关工作靶域DT=tXNT。我们进一步为源域配备数据分发S1：K其密度函数为pS（x）。另外，我们-2.1. 无监督域自适应各种无监督域自适应（UDA）方法已成功地应用于将从标记的源域学习的模型推广到未标记的新目标域。几种现有方法基于基于差异的比对以最小化不同的差异度量，从而缩小源域和靶域之间的差距[32，59，56，68，31]。UDA的另一个分支利用了对抗学习，其中采用生成对抗网络[18，42，22，8，28]来对齐特征级源域和目标域[13，58，33，43]或像素级[15，2，53，66]。在类别级别上，一些方法利用双分类器[52，31]或域原型[63，46，65]来研究跨域的类别关系2.2. 多信源域自适应上述UDA方法主要考虑单源域自适应，其不如多源域自适应实用。[7，36，1]中的基础研究揭示了MSDA的广泛应用，例如[11，67]。基于以上工作，精细p S（yx）作为分配标签到源域的每个数据示例x。再-对于目标域，定义其数据空间为T，数据分布和密度函数分别为PT和PT（x）。我们进一步将为目标域分配标签的条件分布定义为pT（yx）。此外，我们将D表示为具有用于生成数据-标签对的密度函数p（x，y）的联合分布（即，（x，y）D）。注意，为了概念简化，我们重载概念D以表示用于生成数据-标签对的联合分布和从该分布采样的训练设h为分类器，其中h（x，y）指定分配数据示例x到类y1，...，并且h（x）= [h（x，y）]M是预测概率向量w.r. t。X. 我们考虑损失函数（h（x），y），定义广义损失w.r.t.数据-标签联合分布D如下：L（h，D）：=E（x，y）D[（h（x），y）]=∫（h（x），y）p（x，y）dxdy.最后，给定{1，… K}，Hoffman等人”[23]这是一个有力的理论保证。我们定义PSKk=1 πkPS 其是以下物质的混合物密度函数pS（x）=K解决MSDA问题。最近，赵等。DSπKk=1 πkDSπk pS（x）和[70]部署的域对抗网络，以对齐焦油-Kk=1 π kp S（x，y）. 此外，混合比例π可以获取域到源域。 Xu等人[67]提出了一个均匀分布[1，…，[1]或与之成比例K K1：K交叉熵和其他类似的损失，这是正常的-93541：K1：K1：KππKKπ联系我们.ΣK.Σ分类器（即， Lh，D≤ε）。K≤ϵπ pS（x，y）KKKSC.Σ1：KL.Σ≤L≤图1.用于多源域适应的STEM的总体框架，其由合作代理组成，即多源教师专家hS和目标域学生hT。我们的模型被训练为同时执行两个任务：（一）实现教师专家hS，首先使用其标签（橙色和紫色箭头）进行训练以获得领域专家hS，然后输出教师hS使用加权集成策略（黑色箭头）和（ii）训练学生hT，目的是在D的支持下模仿其教师专家hS（绿色箭头）的预测，以缩小潜在空间上源数据分布的混合与目标分布之间的差距源域中的训练示例的数量（即，1：K）。3.2. STEM的总体框架图1展示了我们的STEM的整体框架。源域和目标域经由共享生成器或特征提取器G被映射到潜在空间。在潜在的空间里，模仿多源教师专家hS对目标和源示例的预测。最后，我们开发了一个严格的理论来量化这种模仿的性能损失。3.3. 基于集成的教师专家在接下来的时间里，我们将介绍如何进行多-我们培训领域专家hS和源域DIS..源教师专家hS，一个合奏专家杠杆-针对这一点，我们可以将它们结合起来，实现多源教师专家hS.特别地，源域鉴别器被训练以区分源域，因此呈现分配检查的概率向源域申请。因此，如果有一个源-领域专家的年龄知识特别地，使用标记的源训练集DS，我们可以训练具有良好泛化能力的合格的主专家分类器HS LhS，DS对于一些小的ε >0）。的例如，与该示例更相关的领域专家对最终决策的贡献更大。此外，我们还提出了一个理论，证明了多源教师专家hS可以很好地预测源域的混合，其性能至少优于其源域上请注意，为了支持源下一个问题是如何将这些域结合在一起。perts来实现一个多源的教师专家h S，可以很好地工作在DS上（即，hS，DS）。受[36，23]的启发，我们利用领域专家通过如下加权组合实现更强大的多源教师专家KS域鉴别器C执行其任务，潜在表示-分离，从而增加它们对潜在的hS（x，y）=ΣΣπk pk（x，y）k=1j=1JJhS（x，y），（1）空间同时，在对抗学习框架[18]的帮助下，我们在判别器D的支持下训练G，以弥合目标分布和源分布混合之间的差距，这使得多源教师专家hS能够转移其知识以预测目标示例。此外，受知识蒸馏原理[21]的启发，我们可以引导学生提炼知识并超越老师，我们训练了一个额外的目标领域学生hT，其中y1，2，...，MhS（x，y）和hS（x，y）分别表示hS（x）和hS（x）的第y下面的定理表明，多源主教师专家hS可以很好地工作在混合联合分布DS上。更具体地，它比其源域上的最差域专家工作得更好，因此如果每个do-main专家是ε-合格的分类器（即，hS，DS），多源名师专家hS也是一名S SπNK鼓励使用来自各个源域的站点9355π.Σ1：KKC.Σ{}CπKKii）如果每个领域专家是ε-合格的分类器（即，KK1：Kπ1：KA= expR∥α Lα其中x具有标签y=m）来区分源域Km=1.ΣK在k|K定理1. 如果是凸函数，则以下状态成立（该定理的证明改编自[36，23]中的证明）：i）L. h S，DS Σ ≤ max1≤k≤KL. h S，DS Σ.为了利用多个源域的信息并鼓励学习多个源域不变表示以用于后续的迁移学习，我们使用特征提取器G来映射多个源域并将目标域映射到潜在空间。领域专家Lh S，DS ≤ ε），则多源教师专家h S也是ε-合格分类器（即，Lh S，DS≤ λ）。如何对领域专家hS进行加权，形成多源教师专家hS，至今仍是和源域鉴别器在潜在空间上训练等式中的公式。（2）改写为：h S（G（x），y）= ΣC（G（x），y，k）hS（G（x），y）.没有答案此外， [23] 提出使用 DC 编程（即，[ 10 ][11][12][13][14][15]然而，这种方法似乎过于复杂，并且没有任何令人信服的证据证明这种工作对真实世界数据集的有效性（即，在没有任何迁移学习的标准多源设置的上下文中，Office-31数据集的报告性能仅为大约84。7%）。在本文中，我们提出了一种新的方法来加权域专家，这是从以下理论观察暗示-vation. 假设我们有K个分布R1：K，密度函数为r1：K（z）. 我们形成数据实例z和标签t ∈ {1，…K}通过采样指数t Cat（π）（即，分类分布w.r.t. π），采样x Rt，并从D中收集（z，t）作为样本。有了这个设备，我们有了以下建议。第二个提案。如果我们训练一个源域的样本分类器C来使用 c ross-ent ropyloss （即，例如，CE（·，·）），最优源函数k=1首先，我们要强调的是，我们学习表征的原则与MSDA中的一些近期作品中的原则不同，典型的是[47]。在[47]中，矩距离被用来迫使多个源域的表示在潜在空间中是相同的，而我们鼓励单独源域的表示是分开的，以便源域判别器可以更有效地通过这种方式，我们增加了来自多个源域的表示的覆盖率，这使得来自目标域的表示更方便地适应迁移学习阶段的源表示。3.4. 多源教师专家在目标领域我们已经拥有了合格的多源教师专家hS，其期望预测从DS采样的井数据实例（即，D（S）的混合物），如定理11所示。主鉴别器C*定义为C*=argminCE（z，t）D[CE（ C（z），t）]满足C*（z）=Σπkrk（z）ΣK.1.一、很自然地会问影响因素的问题-当对目标联合分布DT进行预测时，增强h S的性能。下面的定理回答了这个问题。Σjπjrj（z）k=1定理3. 如果是凸函数，且上界为命题2建议我们一种方法来计算领域专家的权重在方程。（1）对于给定的一个正的常数L，一般损失由以下限制：hS，DT是上-SΣ。SSΣ1：KΣα−1y=m，分布p1：K（x，y=m）扮演以下角色：i) 一最大kLhk，Dk + L maxkEPS [∆p k（y |x）1]其中z=（x，y=m）。更具体地用于哪里. α。PTPSΣΣα−11的每个m1，…，M，我们采样t Cat（π），然后采样（x，y=m），并训练源域Rα。PTPSΣrepresentstheRe´ nyi diverg ence be-不鉴别器Cm（x，y=m）（即，只考虑（x，y）在这些分布和∆p（yx）之间：=Σ。p S（y=m|x）−p T（y=m|X）。ΣMr项Lαππ9356KαK.ΣLKK那个L. hS，DSΣ（x，y=m）。最后我们用m（x，y=m）来估计领域专家的权重此外，为了让-标签分配机制之间的标签移位一个单独的源域和目标域。初始训练源域鉴别器Cm，我们共享Σα−19357它们的参数，因此具有唯一的C，其接收ii) A + L max kEPS[p k（y|x）1]提供9358对（x，y），并预测其源域t。所以我们聘请专家型教师9359h S（x，y）= ΣC（x，y，k）h S（x，y）.（二）K9360≤ε，k = 1，...，K.我们现在解释定理3，它为9361我们在《易经》中，一般损失兴趣h S，DT的上界是三个术语，每个术语都有特定的含义。9362k=19363.Σ（iii）域移位项RPPe表示πππCKKKk=1K不Ck=1K不KDK领域专家的最坏一般损失hS∆p k（y|x）：=. p S（y=m|x）−p T（y=m|X）。KKKΣ1：KKm=1(i) 专家损失项maxkL. h S，DS Σ代表第4.2.4节）。这一术语意味着培训领域专家以使其工作良好在他们的领域。(ii) 的标签移位 term EPS[∆p k（y|x）1]其中Σ。K. ΣM指定表示源域上的地面实况目标标记函数和地面实况源标记函数。该术语是恒定的，反映所收集数据的特征。α T Sπ混合源分布Ps和Ps之间的数据移位目标分布PT。（iii）中的观察提示我们使用对抗性学习框架[18]来弥合代表性和非代表性之间的差距。图2.学生的动机hT.3.6. 我们的STEM3.6.1培养多源师资专家为了计算多源教师专家hS，我们同时在标记训练上训练领域专家hS多个源域和目标域的站点集合DS1：KC第3.6.3节）。1：K和要提供的源域鉴别器利用领域专家的权重。我们提出我们使用两种方法来训练C和C，K3.5.目标领域学生多源名师专家hS保证太好了。基本上，我们最小化：α>0并且考虑两个变体。Kk=1 Lie+αLC，其中在源数据分布PS的混合上工作得很好，而在对抗学习框架[18]中具有CRDD支持的生成器G旨在关闭潜在空间上源数据分布PS的混合与目标分布PT之间的理论导向的版本。对于面向理论的版本，我们将（G（x），y）馈送到源域判别器，目的是预测x因此，期望多源教师专家hS在目标域上良好地工作。然而，不适定Lie=E（x，y）DsΣCE . hS（G（x）），yΣΣ，GAN的问题（例如，模式崩溃问题）可能在训练期间发生，使得直接使用hS来预测潜在空间中的目标样本不是最佳解决方案，这促使我们设计学生网络hT。特别是LC=E（x，y，t）D[CE（C（G（x），y），t）]，hS（G（x），y）=ΣKC（G（x），y，k）hS（G（x），y），在图2a中，GAN完美地工作，因此hS和hT两者同样工作良好。在另一种情况下，由于GAN没有很好地混合源域和目标域的类别1和类别2（图2b），因此hS在源域上预测得很好，但在目标域上预测得不好。通过在hT[4]上强制执行聚类算法hT保留聚类并且被鼓励对同一聚类上的源数据和目标数据给出相同的预测），GAN的可能的不适定训练被容忍。另外，受知识蒸馏原理的启发[21]，我们可以指导学生进行蒸馏知识和超越其教师，我们建议培训其中，D通过对tCat（π）和（x，y）进行采样而形成D_S和C_E（·，·）是跨中心损失。简化版。对于简化版本，我们仅将G（x）馈送到该鉴别器，而不是将（G（x），y）馈送到源域鉴别器，目的是预测xLie = E（x，y）DsCE. hS（G（x）），yΣΣ，hT，其旨在模仿教师hS对混合源域和目标域的预测。这也有助于减轻GAN可能的不适定训练的负面影响，同时为我们提供了应用正则化技术（如VAT [37]和标签平滑）[38] tohT.我们注意到，在我们的框架中，很难将那些正则化技术直接应用于教师hS，但应用于hT是方便的。事实上，我们决定将VAT应用于hT（见第3.6.2节），并观察其在预测性能方面对教师的优势（见LC=E（x，t）D[CE（C（G（x）），t）]，hS（G（x），y）=KC（G（x），k）hS（G（x），y），其中通过对t Cat（π）和xPS进行采样而形成。根据我们在第4.2.2节中的消融研究，简化版本的性能略好于理论导向版本，同时由于其简单性而更容易训练。因此，我们坚持使用简化版本，并详细介绍基于此版本的其他组件的训练。. 尽量减少9364NTΣ。ΣΣπC..ΣΣLCΣCL+αL+L−γL，（3）ΣCL+αL+L+βL−γL。（四）πL我×i=1Σ。ΣΣΣ。ΣΣM3.6.2训练目标域学生算法1用于训练我们的STEM的伪代码。我们训练目标领域的学生t模仿老师输入：源DS..KkΣΣNS，目标D测试=HhS对目标和源ex的混合物的预测k=sxi，yi{tx}。Ki=1使用以下损失的样品：Lm=EPShT（G（x）），hS（G（x））+EPT. hT（G（x）），hS（G（x））ΣΣ.输出：分类器h S、h T、源鉴别器、生成器G。一曰：一个时代一个时代2：对于iter，在iter中每个epochdo3：源sxk，ykm的样本小批次虚拟对抗训练（Virtual adversarial training，VAT）[37]最小化预测熵的结[19]和目标{txi}i=1。i i i=1确保聚类假设[4]的目的已成功应用于UDA [55，27，44]。受此成功的启发，我们建议最小化4：根据（4）更新Gi，hS，hT。5：通过最小化来更新DD.6：结束第七章：端clus=Lent+Lvat，其中H是熵，Lent=EPTHhT（G（x）），Lvat=ExPTmaxx′ ： x′−x<θDKLhT（G（x ）），hT（G（x′））其中DKL表示Kullback-Leibler散度，θ是一个很小的正数。训练学生hT的总损失如下：4. 实验4.1. 基准数据集本节介绍我们的实验设置。我们在三个基准数据集上将 STEM 与 MSDA 的最新基线进行比较： Digits-five、Office-Caltech 10和DomainNet来展示其优点。斯图 =Lm +βL俱乐部，其中β >0是参数。3.6.3训练判别器鉴别器D用于从源数据分布P、S和P的混合中区分样本。4.1.1实验装置实施细节。在实验中，我们使用Adam优化器（β1=0. 5，β2= 0。999）[25] with Polyak av-对于Digits-five和Office-Caltech 10，使用eraging [48]，学习率分别设置为2×10- 4和10- 4为目标分布PT。训练的损失DπD如下：DomainNet，我们应用随机梯度下降（SGD）[57]（学习率= 5×10- 2，动量= 0。9、衰变L= −EPS [log D（G（x））] − EPT [log（1 − D（G（x）]。3.6.4培训生成器我们训练生成器G以将目标示例带到源示例的混合，并提供适当的表示用于学习hS和hT，损失如下：K即研究Kk=1其中γ >0是参数。3.6.5整体训练我们通过最小化来同时更新G、C、hS、hTK即m clusd kk=1我们可替换地通过最小化d 来更新D。此外，我们的STEM的伪代码在算法1中给出。速率= 510- 4），以优化模型。对于STEM，权衡超参数α固定为1 .一、0，而参数（β，γ）（每个参数的推荐范围为[10- 4，1]）被设置为（0. 1，0。1）对于数字五，（0.010 1）用于Office-Caltech 10，（10−4，10−4）用于DomainNet。性能比较。在之前的工作[61]之后，我们进行实验以评估MSDA标准的模型性能：（1）单最佳：单源域自适应结果中分类准确率最高的;（2）源组合：单源域适配的结果，其中源域是多个域的组合;（3）多源：从多个源域到目标域的适配的评估。4.1.2五位数的实验结果Digits-five 包含五个常见的数字数据集：[14 ][15][16][17][18][19][1 这是 MSDA中的基准数据集，其中有十个类对应于LL9365→→→ →→标准方法→mm→mt→up→sv→sy平均标准方法→W→D→C→A平均唯一最佳仅源代码59.297.284.7 77.7 85.2 80.8丹麦[32] 63.896.394.2 62.5 85.4八十点四珊瑚[56] 62.597.293.5 64.4 82.8 80.1丹麦[14] 71.397.692.3 63.5 85.4 82.0源合并只有源 99.0 98.3 87.8 86.1丹麦[32] 99.3 98.2 89.7 94.8 95.5ADDA[58]71.697.992.8 75.5 86.5八十四点八仅源代码63.490.588.7 63.5 82.4 77.7丹麦[32] 67.997.593.5 67.8 86.9八十二点七源合并多源丹麦[14] 70.897.993.5 68.5 87.4八十三点六JAN [35] 65.997.295.4 75.3 86.6八十四点一ADDA [58] 72.397.993.1 75.0 86.7 85.0丹麦克朗[52] 72.596.295.3 78.9 87.5 86.1MDAN [70] 69.598.092.4 69.2 87.4八十三点三DCTN [67] 70.596.292.8 77.6 86.8八十四点八M3 SDA [47] 72.898.496.1 81.3 89.6八十七点七MDDA [71] 78.698.893.9 79.3 89.7八十八点一CMSS [69] 75.399.097.7 88.4 93.7九十点八LtC-MSDA [61]85.699.098.3 83.2 93.0 91.8STEM（我们的） 100100 94.2 98.498.2表2.Office-Caltech 10数据集的分类准确率（%）4.1.4DomainNet上的实验结果DomainNet在[47]中首次引入，并已成为STEM（我们的） 89.799.498.4 89.9 97.5九十五点零表1.数字5的分类准确率（%）每个域。在每一个关于数字5的实验中，将选择一个域作为目标域，其余的作为源域。在表1中，我们报告了STEM与基线相比的性能我们的STEM在所有传输任务上都优于基线。据我们所知，LtC-MSDA[61]是目前最先进的数字五。与此基线相比，我们的STEM显著超过了一些迁移任务，即，嗯， sv和由4的相当大的余量组成。1%，6. 7%，4。5%，平均排名第一，显著差距为3。百分之二。4.1.3实验结果在EST-Caltech 10Caltech-Caltech 10 [17]由四个域组成：亚马逊（A）、加州理工学院（C）、数码单反相机（D）和网络摄像头（W）。每个领域有十个类别，图像总数为2533个。在这个实验中，我们分别以80%和20%的比例分割训练集和测试集，并使用在ImageNet上预训练的ResNet-101 [20]作为骨干。在表2中，我们给出了STEM的结果和基线。总体来看，可以看出我们的STEM在四个设置上都超越了基线，达到了98。平均2%。由于基线已经在所有适应任务上取得了令人印象深刻的表现，因此很难获得重大改进。然而，在两个适应任务（即，W和D），我们的模型产生了令人印象深刻的性能，两个满分为100%，而STEM在其他任务上也实现了显著的改进。只有源99.1 98.2 85.4 88.7 92.9DAN [32]99.5 99.1 89.2 91.6 94.8DCTN [67]99.4 99.0 90.2 92.7 95.3JAN [35]99.4 99.4 91.2 91.8多个MEDA [62]99.3 99.2 91.4 92.9来源MCD [52]99.5 99.1 91.5 92.1M3 SDA [47] 99.5 99.2 92.2 94.5 96.4CMSS [69]99.6 99.3 93.7 96.6 97.29366→→→最具挑战性的数据集。它由大约0的情况。来自6个领域的345个类别的600万张图片：cli- part （ clp ）、 infograph （ inf ）、 quickdraw（qdr）、real（rel）和sketch（skt）。值得注意的是，该数据集中的大量类别和巨大的噪声使得即使在单个域（特别是信息图域）中训练和测试监督分类任务时也难以获得令人满意的性能。此外，各领域分布的显著差异导致了知识转移时的领域转移问题。对于该数据集上的所有实验，我们利用在ImageNet上预训练的ResNet-101 [20]作为主干。我们将STEM与当前最先进的方法LtC-MSDA [61]进行了比较。如表3所示，我们的STEM在6个传输任务中的5个上超过了LtC-MSDA，其中8个有显著改进。9%在CLP任务上，9. 4%在QDR任务上，以及6.5%在rel任务上。平均而言，STEM也产生了令人印象深刻的6。0%。4.2. 消融研究4.2.1潜在空间可视化我们的STEM的成功的关键因素包括（i）在潜在空间中的目标域和源域的混合物的混合，以及（ii）目标示例位于源域中的它们的匹配类中。为了直观地展示为什么STEM可以实现良好的性能，我们利用t-SNE[60]来可视化潜在空间中目标和源示例的表示。值得注意的是，在图3中，我们可视化了其中靶结构域是USPS并且其余部分用作源结构域的情况。如图3（左）所示，当模型仅使用源域进行训练时，我们将源域和目标域的混合可视化。在图3（右）中，我们展示了在使用STEM方法训练模型时，目标示例与源域中的类匹配的准确很明显我们的STEM形式9367→C标准方法→clp→inf→pnt→qdr→rel→skt平均值仅源39.68.233.911.841.6 23.1 26.4丹麦[32] 39.1 11.433.316.242.1 29.7 28.6RTN [34]35.3 10.731.713.140.6 26.5 26.3表4.理论导向和简化版本的比较[35]第35话35.39.132.514.343.1 25.7 26.7建议方法DANN [14]37.9 11.433.913.741.5 28.6 27.8ADDA [58]39.5 14.529.114.941.9 30.7 28.4中文（简体）42.6 19.642.63.850.5 33.8 32.2只有源47.6 13.038.113.351.9 33.7 32.9DAN [32]45.4 12.836.215.348.6 34.0 32.1来源RTN [34]44.2 12.635.314.648.4 31.7 31.1[35]第三十五话40.9 11.135.412.145.8 32.3 29.6表5.VAT和熵项影响的烧蚀研究丹麦[14] 45.5 13.137.013.248.9 31.8 32.6ADDA [58] 47.5 11.436.714.749.1 33.5 32.2[52]54.3 22.1 45.77.658.4 43.5三十八点五多源STEM（我们的）72.028.261.525.772.660.2 53.4表3.DomainNet数据集上的分类准确率（%）图3.传输任务的t-SNE可视化在两种设置中具有标签和域信息：唯我者，唯我者，唯我者。每种颜色表示一个类，而圆形和三角形标记分别表示源数据和目标数据的混合。将源域和目标域划分到相同的聚类中，并且目标示例可以在源域中找到它们的匹配类，因此减轻了标签移位。这解释了我们的STEM的合格性能。4.2.2简化的面向理论的域鉴别器C我们进行消融研究以比较域鉴别器的两种变体：理论导向和简化版本（见第3.6.1节）。如表4所示，简化的变体比理论定向的变体表现更好。我们推测，这是因为简化的变体仍然保持了理论导向的变体的主要精神，同时由于其简单性而更容易训练。因此，我们在所有实验中选择简化的变体。4.2.3聚类假设效应我们现在推测VAT和条件熵项对模型性能的影响根据表5，单独添加Lvat（第一行）或Lent（第二行）改善了性能，而组合这两种损失（第三行）甚至进一步提高了性能。组件五位数字办公室-Caltech 10 DomainNetHShT92.7 97.9 51.695.0 97.9 53.4表6.教师和学生表现的比较4.2.4教师和学生的表现我们观察到学生hT的表现完全取决于教师hS的表现。接下来，我们比较了教师和学生在目标领域的表现我们报告了教师和学生如表6所示，学生的表现优于其教师，除了EST-Caltech 10数据集。这完全是有意义的，因为学生不仅严格模仿老师，而且通过强制执行聚类假设来加强泛化能力（见3.6.2节）。5. 结论在本文中，我们提出了学生-教师集成多源域自适应（STEM）的多源域自适应。我们的方法提供了强有力的理论保证，并提供了一个深刻的理解，每个模型组件如何真正影响传输环的性能。在三个基准数据集上进行的实验，包括Digits-five，Office-Caltech 10和DomainNet，表明我们的STEM达到了最先进的性能。确认这项工作得到了美国空军拨款FA 2386 -19-1-4040和FA9550 -19-S-0003的支持。方法→mm →mt理论C简体中文86.8九十九点一89.7九十增值税LentL→mm→向上83.04 96.86！86.25 96.11！86.82 97.11！！89.71 98.42MDAN [70]52.4 21.346.98.654.946.5三十八点四DCTN [67]48.6 23.548.87.253.547.338.2M3 SDA [47]58.6 26.052.36.362.749.5四十二点六MDDA [71]59.4 23.853.212.561.848.6四十三点二9368引用[1] S.本-戴维布利泽，K。克拉默，A。库莱萨F. Pereira和J. W.沃恩从不同领域学习的理论。马赫学习. ，79（1-2）：151- 175，2010年5月。二、二[2] K. Bousmalis，N.Silberman，D.Dohan，D.尔汗，还有D.克里希南无监督像素级域自适应生成对抗网络。在IEEE计算机视觉和模式识别会议的论文集，第3722-3731页，2017年。2.1[3] Z. Cao，T.西蒙，S。Wei和Y.酋长使用部分仿射场的实时多人2d姿态估计在IEEE计算机视觉和模式识别会议（CVPR）中，2017年7月。1[4] O. Chapelle和A.齐恩通过低密度分离的半监督分类。见 AISTATS ， 2005 年卷，第 57-64 页。Citeseer，2005年。1、3.5、3.6.2[5] N. 库尔蒂河Flamary，A.Habrard，和A.Rakotoma-monjy。域适应的联合分布最优运输。神经信息处理系统进展，第3730-3739页，2017年。1[6] N. 库尔蒂河 Flamary ， D. Tuia 和 A. Rakotoma-monjy。最佳传输域适应。IEEE Transactions onpattern analysis and machine intelligence ， 39（9）：1853-1865，2017。1[7] K. Crammer，M. Kearns和J.沃特曼从多个来源学习。芽孢杆菌中Schoül k opf ， J. C. Platt 和T.Hoffman，编辑，Advances in Neural InformationProcessing Systems 19 ，第 321-328 页。 MITPress，2007. 二、二[8] N. Dam，Q. Hoang，T. Le，T. D.阮氏H. Bui和D.冯三人瓦瑟斯坦甘通过摊销二元性。在第28届国际人工智能联合会议的会议记录中，第2202-2208页。人工智能组织国际联合会议，2019年7月。2.1[9] B. B. 达摩达兰 B. 凯伦伯格， R. 弗拉马里D. Tuia和N.库尔蒂Deepjdot：用于无监督域自适应的深度联合分布优化传输。计算机视觉- ECCV2018，第467-483页。Springer，2018. 1[10] T. P. Dinh和T.H. A. 乐直流电的凸分析方法。编程：理论、算法和应用。1997. 第3.3节[11] L. Duan，中国粘蝇D.Xu和S.昌利用Web图像识别消费者视频中的事件：一种多源域自适应方法。2012 年IEEE计算机视觉和模式识别会议，第1338-1345页二、二[12] G.法语，M. Mackiewicz和M.费雪。用于视觉域适应的自集成。在2018年国际学习表征会议1[13] Y. Ganin和V. Lempitsky通过反向传播的无监督域自适应。在2015年第32届机器学习国际会议的会议记录中。1、2.1[14]Y. 加宁 E. 乌斯季诺娃， H. 阿贾坎 P·杰曼H. 拉罗谢尔 F. 拉维奥内特 M. Marchand和V. Lempitsky神经网络的领域对抗训练。 J. 马赫学习. Res. ，17（1）：20964.1.2、4.1.4[15] M. Ghifary，W.B. Kleijn，M.Zhang，L.Balduzzi，还有W. 李用于无监督域自适应的深度重建分类网络在European Conference on Computer Vision 中，第597-613页施普林格，2016年。2.1[16] B. 龚，K.Grauman和F.煞用地标连接点：判别式学习域不变特征，用于无监督域自适应。在Proceedings of the 30 th International Conference onMachine Learning，第222-230页，2013年6月17-19日。1[17] B.贡，Y. Shi，F. Sha和K.格劳曼用于无监督域适应的测地线流核。第2066-2073页，2012年6月。4.1.3[

下载后可阅读完整内容，剩余1页未读，立即下载