多源域自适应的信息论正则化方法

90 浏览量更新于2023-10-13 收藏 979KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9214HOH多源域自适应的信息论正则化方法朴尚万李建荣韩国大田{pky3436，sangwan}@kaist.ac.kr摘要对抗性学习策略在处理单源域自适应（DA）问题方面表现出显著的性能，并且最近被应用于多源DA（MDA）问题。虽然大多数现有的MDA策略依赖于多域鉴别器设置，其对潜在空间表示的影响一直知之甚少。在这里，我们采用信息论方法来识别和解决多域鉴别器对MDA的潜在不利影响：域判别信息的分解、有限的计算可扩展性以及训练期间损失梯度的大变化。我们通过将对抗性DA置于信息规则化的背景这也提供了一个理论上的理由，使用一个单一的和统一的域鉴别。基于这一思想，我们实现了一种新的神经网络架构，称为多源信息正则化自适应网络（MIAN）。大规模的实验表明，MIAN，尽管其结构简单，可靠和显着优于其他国家的最先进的方法。1. 介绍尽管大量研究已经证明了深度学习解决具有挑战性任务的能力，但问题大多局限于类似类型或单一领域。一个剩余的挑战是被称为域转移[15]的问题，其中从单个源域收集的信息直接传输到看不见的目标域可能导致显著的性能损害。域自适应（DA）方法旨在通过学习将两个域的数据映射到公共特征空间来缓解这个问题。鉴于DA的几个理论结果[3，45]和算法[23，25，11]都集中在只给出单源域数据集的情况下，我们考虑了一个更具挑战性和一般化的知识转移问题，称为多源无监督DA（MDA）。根据一个开创性的理论基于MDA [2]的结果，已经提出了许多深度MDA方法，主要依赖于对抗框架。大多数现有的对抗MDA工作[44，46，21，48，47，43]都集中在近似每个源和目标之间的成对域差异的所有组合，这不可避免地需要训练多个二进制域鉴别器。虽然在这方面已经取得了实质性的技术进步，但使用多个域鉴别器的缺陷本文重点研究了使用多域判别器对MDA在数量和质量方面的潜在不利影响。首先，域判别信息不可避免地分布在多个判别器上。例如，这样的鉴别器主要关注每个源和目标之间的域偏移，而忽略源域之间的差异此外，多个源-目标鉴别器设置通常使得难以近似源的混合与目标域之间与使用组合散度的界限相比，基于成对散度的界限不足以灵活地适应域结构[2]。第二，多域并行计算设置的计算负载随着源域的数量（N）而迅速增加，这显著地限制了可伸缩性。第三，它可能会破坏训练的稳定性，因为早期的工作解决了多个对抗性的最小-最大问题。为了克服这样的限制，而不是依赖于多个成对域差异，我们约束潜在的表示和域标签之间的互信息。本研究的贡献总结如下。首先，我们表明，这种互信息正则化是密切相关的显式优化的- 源域和目标域之间的分歧。这提供了理论上的见解，即传统的对抗DA可以转化为信息理论的规则化问题。其次，从这些理论研究结果中，我们推导出一个新的MDA优化问题：minimiz-9215、y不ZV ∈VX → ZXZ → YYX →{}H不.X、不、J使用单个域鉴别器在多个域上消除对抗性损失这个问题的算法解决方案被称为多源信息正则化自适应网络（MIAN）。第三，我们表明，我们的单域鉴别器设置用于惩罚每个成对的组合域之间的差异给定的域和其他的混合物。此外，通过分析信息正则化方面的现有研究，我们发现了多个鉴别器设置的另一个负面影响：随机梯度的方差显著增加。尽管其结构简单，但我们证明了MIAN在各种MDA系统上都能有效工作，包括DIGITS-Five [30]、Office-31 [32]和据我们所知，这是第一个研究，以弥补MDA和信息正则化之间的差距，并表明，一个单一的域鉴别器是足够的适应。此外，与没有鲁棒性理论证明的所提出的方法[21，46，30]相比，我们的分析不需要对域系数进行任何假设或估计。在我们的框架中，表示被蒸馏为独立的域，从而使性能相对不敏感的显式加权策略。3. 理论见解我们首先介绍了标记的MDA问题的分类一组源域和目标域Office家庭数据集[41]。有趣的是，MIAN可靠且显著优于几种现有技术的方法，由{DS}N表示M和DT。令X S=M包括采用域鉴别器SEPA的那些JSIj=1 而YSiii=1=Si，j=1我是一组m. i. d.样品[44]每一个人都有自己的归宿，都有自己的归宿。每个成对域的深度特征分布的部分从D.设X=，xj，m（DX）m是m的集合[30 ]第30段。2.相关作品已经使用了几种DA方法来尝试学习域不变表示。随着深度神经网络的使用越来越多，当代工作的重点是将来自源域的深度潜在表示与来自目标域的深度潜在表示进行匹配。已经引入了几种测量方法来处理域偏移，例如最大平均差异（MMD）[24，23]、重叠距离[36，37]和Wasserstein距离[7]。再-最近，由于生成对抗网络的发展，对抗DA方法[11，40，19，34，33]已经成为主流方法[14]。然而，上述单源DA方法不可避免地为了多源DA而牺牲性能。一些MDA研究[3，2，28，18]为算法级解决方案提供了[3，2]解释了相对于多个源域的加权组合，来自目标域的未标记样本的真实风险的扩展上限在这些理论研究之后，已经提出了使用浅层模型[9，8，5]以及深度神经网络[27，30，21]的最近，一些对抗MDA方法也被提出。[44]实现了k路域判别器和分类器来对抗域和类别转移。[46]还使用了多个鉴别器来优化平均情况泛化边界。[48]通过最小化源和目标i.i.d. 从边缘分布D X生成的样本。域标签及其概率分布由V和V（V）表示，其中V和V（V）是域标签的集合。与先前的工作[17，12，27，13]一致，域标签通常可以在我们的框架中被视为随机潜在随机变量。然而，为了简单起见，我们采用给定样本的真实分布的经验版本，假设所有样本的域标签都是已知的。样本的潜在表示由Z给出，并且编码器被定义为F：，其中和分别表示数据空间和潜在空间。因此，Z Si和Z T分别指编码器F（X Si）和F（X T）的输出。为了符号简单，当N =1时，我们将从D Si、X Si和Z Si中省略索引i。分类器被定义为C：其中是类标签空间。3.1. 问题公式化为了与我们的公式进行比较，我们将单源DA转换为一个约束优化问题.来自目标域的未标记样本的真实风险T（h）在三项之和之上有界[2]：（1）真实风险S（h）假设h在源域上;（2）H-源域分布与靶域分布之间的散度dH（DS，DT）;（3）最优联合风险λ*.定理1（[2]）. 假设类是一组二元分类器h：0，1。则对于给定的域分布DS和DT，h∈ H，域.而不是使用单独的编码器，域discriminator或分类器为每个源域如前所述其中dH（DS，DT）= 2sup Eh∈Hx<$DΣI（h（x）= 1）Σ−工作，我们的方法使用统一的网络，从而提高可靠性，资源效率和可扩展性。到达贝斯特ExDXΣI（h（x）=1）Σ。SI（a）是指示函数X不SI不 j=192161ΣHZ →VV{}. ΣΣ∈VΣV{}VZ → VZ∈ZΣ∈V−ΣHΣΣΣM如果a为真，则其值为1，否则为0。经验H-散度d（XS，XT）可以是com-i（X S，XT）详细证明见[31]和补充材料。我们可以推导出定理2的经验版本如下：如下所示[2]：H引理1.I（Z;V）= maxhv（z）：Σv∈Vhv（z）=1，z（五）.ΣΣ−1Mloghvi（zi）+H（V），dH（ XS，XT）= 21分钟h∈H M x∈XS I[h（x）=0]+（二）v∈Vi：vi=v其中M是总表示样本的数量，i1I[h（x）=1]ΣΣ是样本索引，并且vi是对应的域x∈XT在引理1之后，域分类器h：可以用于计算经验散度。假设最优联合风险λ足够小，正如大多数对抗性DA研究中所假设的那样[33，6]。因此，可以获得第i个样本的标签利用这个等式，我们将我们的信息约束的目标函数和引理1的结果。用于二进制分类 =0、1在ZS和ZT的大小相等M/2的情况下，我们提出以下信息正则化极大极小问题：理想的编码器和分类器通过解决以下最小-最大问题来最小化εT（h）的上限F，C= arg minF、CL（F，C）+βI（Z;V）F*，C*= arg min L（ F，C）+ βd（ Z，Z）= arg minmaxF，Ch∈HL（F，C）+F、CHS TβΣΣ ΣΣ= arg min maxL（F，C）+F，C h∈HMi：zi∈ZSlogh（zi）+j：zj∈ZTlog（1 −h（zj）），（六）βm i：zi∈ZSI[h（zi）= l]+j：zj∈ZTI[h（zj）=0]Σ，其中β是拉格朗日乘数，h（zi）hvi=1（zi）（三）其中L（F，C）是来自源域的样本的损失函数，β是拉格朗日乘数，β=0，1，使得每个源实例和目标实例分别被标记为1和0，并且h是二进制域分类器。3.2. MDA的信息正则化极大极小问题直观地，将给定域中的学习表示适配到其他域不是高度期望的，特别是当表示本身不是充分域独立的时。这促使我们探索独立于领域学习表征的方法。受当代公平模型训练研究[31]的启发，潜在表示和域标签I（Z;V）之间的互信息可以表示如下：定理2. 设P Z（z）是Z的分布，其中z。设h是域分类器h：，其中是特征空间，并且是域标签的集合。设hv（z）是V的条件概率，其中v给定Z=z，由h定义。则以下成立：I（Z;V）= maxhv（z）：v∈Vhv（z）=1，z以及1h（zi）hvi=0（zi），其中h（zi）表示zi属于源域的概率此设置自动消除条件vhv（z）=1，z。注意，我们已经适应了熵H（V）保持恒定的简单情况。3.3. 相对于其他MDA方法的领域判别信息的整合。（3）和（6）之间的关系为我们提供了一个理论见解，即最小化潜在表示和域标签之间的互信息的问题与使用对抗学习方案最小化散度密切相关。这种关系清楚地表明了MDA信息规则化的重要性与现有的MDA方法[44，46]相比，现有的MDA方法不可避免地将领域判别知识分布在N个不同的领域分类器上，上述目标函数（6）使得我们能够将这样的信息与单域分类器h无缝地集成。这将在第4节中进一步讨论。梯度的方差。使用单域判别器也有助于减小梯度的方差随机梯度中的大方差减慢了收敛，这导致性能差[20]。在这里，我们分析了现有优化约束通过排除加权源PVv∈V㈤E zP Z|vΣloghv（四）（z）+H（V）组合策略，我们可以近似地表达现有的对抗MDA方法9217uuu∈UΣΣ|ΣΣΣuKI（ Z; X，V）≤Ex，v<$PDKL[PZ|x，v RZ]N NnΣkZ k |uu1 .一、ΣΣ ΣΣM作为信息约束的总和：ΣI（Zk;Uk）=ΣIk+ΣH（Uk），（7）这意味着我们的框架可以显着提高稳定性的随机梯度优化相比，现有的方法，特别是当模型被认为是哪里k=1k=1k=1从许多领域学习。3.4. 信息瓶颈理论Ik= maxhk（z）：Σu∈U hk（z）=1，在本节中，我们弥合了现有（八）PUk（u）Eu∈UzPΣloghk（zk）Σ，对抗式DA方法与信息瓶颈理论[38，39，1]。[38]研究了学习编码Z的问题，以便它最大限度地提供有关Uk是的第k 域标签为U={0，1}，PZk|u= 0（·）=PZ|v=N+1（·），对应于ta_get_do。Y类，同时对样品提供最低限度的信息X：主，PZk|u= l（·）=PZ|v=k（·），对应于第k个源域，并且hk（zk）是条件概率minP enc（z|x）βI（Z;X）−I（Z;Y），（13）由第k个鉴别器指示符定义的u 的给定zk从而从第k个源域生成样本同样，我们将熵H（Uk）视为常数。给定M=m（N+1）个样本，其中m表示每个域的样本数量，（7）是：N N n其中β是拉格朗日乘数。事实上，The Role瓶颈项I（Z;X）匹配潜在表示和域标签之间的互信息I（Z;V）。我们促进密切合作的两个信息瓶颈的条款纳入I（Z; X，V）。定理3. 设P Z|x，v（z）是条件概率的ΣI（ Z;U）=1ΣI+ΣH（ U），（9）Z的分布，其中z∈ Z，由编码器F定义∈ X ∈ V哪里K Kk=1MKk=1Kk=1给定样本x和域标记v。让RZ（z）表示Z的先验边缘分布则以下不等式成立：Ik =maxΣΣloghk（zi）.（10）ΣΣ为了简单起见，我们做了一个简化的假设--+MaxzΣP V（v）EPz|vΣ log hv（z）Σ所有的一切 V ar[Ik] 对所有kvv∈Vhv（z）=1，v∈V（十四）并且对于所有11对，C〇v[Ik，Ij]也是如此则（9）的变化由下式给出：NV arI（Zk;Uk）k=1定理3 的证明使用链式法则：I （Z;X ，V ）=I（Z;V）+I（Z;XV）。详细证明见补充材料。而I（Z;X）的作用|五是净化潜表象N N n=Var[I]+ 2Cov[I，I]从给定域生成的，I（Z;V）充当代理用于对齐纯化表示的正则化M2k=1KK Jk=1j =k在不同的领域。因此，使用变分信息瓶颈[1]的现有DA方法[26，35]可以是=1时。NV ar[I]+ N（N − 1）Cov[I，I]。作为具有单源的定理3的特殊情况进行回顾M 2（N+1）2k（N+1）2K J（十一）域由于早期的作品解决N个对抗性极大极小问题，协方差项被另外包括在内，并且其对方差的贡献不会随着N的增加而减少。换句话说，随着域的数量增加，协方差项可以支配梯度的变化。相比之下，我们的约束（5）的方差是相反的。与（N+1）2成比例。设Im是（5）中除1之外然后方差（5）由下式给出：uuhk（z）：u∈U hk（z）=1，u∈Ui：ui=uX、V+H（V）9218ΣΣ4. 多源信息正则化自适应网络在本节中，我们提供了我们提出的架构的细节，称为多源信息正则化自适应网络（MIAN）。MIAN使用图1中描述的三个子组件解决了MDA的信息约束V ar I（Z;V）=1V ar[Im2（ N+ 1）2m]Σ。（十二）信息正规化。为了估计（5）中的经验互信息I（Z;V），域分类器h9219HVSv′vZv′ with |Zv′|为HM我[k=vi]（16）中的条件概率向量h（z）给定内部最小化中的统一域鉴别器h，我们训练1−I[h（zi）]HΣ Σ Σ图1：多源域自适应的拟议神经架构：多源信息正则化自适应网络（MIAN）。多源和目标域输入数据被馈送到编码器中我们将任意源域表示为Si和Sj。域鉴别器输出logit向量，其中每个维度对应于每个域。应该被训练以最小化softmax交叉熵。让V={1，2，… N +1}，并将h（z）表示为N +1维对于每个v，这种散度的平均值为dH（）。假设大小为m的样本Zv和Zv。样本z. 设1是所有1的N +1维向量，并且1[k=v]是其第v个值为1并且否则为0的N + 1维向量。给定M =m（N +1）个样本，目标为：m/N，对所有v′∈ V.因此，对于Z中的每第j个样本，域标签vj= vvvc。那么经验H散度（V）定义如下：ˆ1ΣˆminH11吨M[k=vi] logh（zi）Σ。（十五）dH（V）=N+1v∈V dH（Zv，Zvc）v∈Vi：vi=v=1Σ2。1−minΣ1ΣI[hv （zi）=0]在本研究中，我们将softmax交叉熵（15）稍微修改为多个二进制交叉熵。具体地说，我们显式地最小化了除真第v个域之外的其余域的条件概率.让1N+1v∈V1+ M j：Σvj=h∈HI[hv]vMi：vi=v（zj）=1]ΣΣ，成为[k=v]1[k=v]。那么修改后的目标（十七）域的函数为：其中I[hv（z）=1]对应于N+1的第v个值一维独热分类向量I[h（z）]，不同于最小−1Σ 电子邮件logh（z）v∈Vi：vi=v+1T[k=vi]log（1−h（zi））Σ，h近似d（五）如下：其中编码器训练的目标函数是最大化（16）。我们的目标函数也与h*=arg max1Σ。ΣI[hv]（zi）=1]GAN [14]的目标函数，并且我们通过实验发现使用GAN [29]的变体目标函数效果稍好。h∈HMv∈Vi：vi=v+ΣI[hv（zj）=0]Σ在此，我们表明目标（16）与优化（1）成对组合域的平均值密切=arg min−1Σj：vj=Σv.1TI[h（z）]（十八）给定域和混合域之间的差异其他的dH（V），和（2）每对H-的平均值h∈HMv∈Vi：vi=v+ 1T[k[k=vi]i.ΣΣD−H每个给定域的条件概率向量每个Dv和Dvc，其中Zvc=（十六）每个域之间的差异。设每个Dv和Dvc表示第V个域和剩余vi]、9220NN个域具有相同的混合权重1。然后我们可以定义H-散度为dH（Dv，Dvc），其中后一等式是通过重新排列第一等式中的求和项而获得的9221HHVv∈VN+1HVΣVHOVH基于（16）和（18）之间的密切关系，我们可以将信息正则化和- 给定多源域的散度优化;最小化d（）与潜在表示之间的互信息和域标签。因为输出分类向量I[h（z）]通常来自argmax运算，所以（18）中的目标相对于r.t. z. 然而，我们的框架对鉴别器有一个可区分的目标，如（16）所示最小化dH（）有两个额外的好处。首先，它包括-目标和a之间源的混合物（在（17）中v=N+1）。注意，它直接影响目标样本的经验风险的上界（[2]中的定理5此外，隐含地包括目标和其他源之间的域差异的其他分歧（（17）中的V N+1）的协同化加速了适应。其次，dH（）下界每个域之间的每个成对散度的平均值：引理2. 设dH（）=1dH（Dv，Dvc）.设为一个hypothesis类。然后，我们将模型的这个版本称为 MIAN-γ 。由于vanillaMIAN足以优于其他最先进的方法（第5节），因此在补充材料中进一步讨论了MIAN-γ5. 实验为了评估MIAN的性能，我们使用以下基准数据集进行了大规模模拟：数字-5、Office-31和Office-Home。为了进行公平的比较，我们使用与所提出的方法相同的主干体系结构和优化器设置对于仅源和单源DA标准，我们引入两种MDA方法[44，30]：（1）源组合，即，所有的源域被合并到单个源域中;（2）单最佳，即，报告目标域上的最佳由于篇幅有限，关于模拟设置、所用基线模型和数据集的详细情况5.1. 仿真结果数字5、Office-31、1dH（V）≤N（ N+ 1）v∈V，u∈VdH（Dv，Du）的情况。（十九）和Office-Home的数据分别总结在表1、2和3中。我们发现MIAN的性能优于大多数其他详细的证明在附录中提供。这意味着不仅可以间接惩罚每个源域和目标域之间的域偏移注意，已知该特性对MDA有益[21，30]。与我们的单域分类器设置不同，现有的方法[21]需要一个约（N2）域分类器以近似域分布的所有成对组合裂缝在这方面，在资源效率方面，使用单个域分类器的所提出的方法与现有方法之间没有比较。来源分类。除了学习上面所示的独立于领域的潜在表示之外，我们还使用标记的源领域数据集来训练分类器。为了最小化源域上的经验风险，我们使用通用softmax交叉熵损失函数，其中标记的源域样本为L（F，C）。衰减批次光谱惩罚。适用于以上信息理论的见解，我们进一步描述了现有的对抗DA方法的潜在副作用信息正则化可能导致覆盖隐式熵最小化，特别是在训练的早期阶段，损害潜在特征表示的丰富性。为了防止这样的病理现象，我们引入了一种新的技术，称为衰减批量光谱惩罚（DBSP），这是为了控制SVD熵的特征空间。我们的版本与原始批量光谱惩罚相比提高了训练效率[6]。国家的最先进的单源和多源DA方法的大幅度。请注意，我们的方法在具有高域转移的困难任务传输中表现出显着的改进，例如MNIST-M，Amazon或Clipart，这是MDA的关键性能指标。5.2. 消融研究和定量分析域鉴别器的设计为了量化通过统一域鉴别器实现的性能改进的程度，我们比较了MIAN的三个不同版本的性能（图2a，2b）。不像[29]那样，LS使用（16）中的目标函数多D采用与源域的数量一样多的鉴别器，这与现有的方法类似为了公平比较，所有其他实验设置都是固定的。结果表明，所有的版本与统一的鉴别器可靠地优于多维的准确性和可靠性。这表明，统一的域鉴别器可以大大提高任务的性能。随机梯度的方差关于上述分析，我们比较了用不同可用域判别器计算我们使用小批量样本训练了MIAN和Multi D。在训练的早期阶段之后，我们计算了完整训练集上编码器顶层和底层的权重和偏置的梯度。图2c、2d示出了具有统一鉴别器的MIAN。9222一表1：五位数数据集的准确度（%）SYNTH表示合成数字[10]。五位数数据集的基线结果取自[30]。标准型号MNIST-MMNISTUSPSSVHNSYNTHAvg来源-仅来源[16]63.7092.3090.7171.5183.4480.33组合DAN [23]67.8797.5093.4967.8086.9382.72DANN [11]70.8197.9093.4768.5087.3783.61来源[16]63.3790.5088.7163.5482.4477.71DAN [23]63.7896.3194.2462.4585.4380.44[11]第十一话71.3097.6092.3363.4885.3482.01JAN [25]65.8897.2195.4275.2786.5584.07ADDA [40]71.5797.8992.8375.4886.4584.84MEDA [42]71.3196.4797.0178.4584.6285.60中文（简体）72.5096.2195.3378.8987.4786.10DCTN [44]70.5396.2392.8177.6186.7784.79[30]第三十话69.7698.5895.2378.5687.5686.13来源M3 SDA-β[30]72.8298.4396.1481.3289.5887.65眠84.3697.9196.4988.1893.2392.03表2：Office-31数据集的准确度（%标准型号Amazon DSLR Webcam平均仅源代码[16] 55. 23 ± 0. 72 95. 59 ± 1. 3787. 06 ± 1. 5079. 29单最佳来源-合并多源DAN [23] 64.19±0.56100.00±0.0097.45±0.44 87.21JAN [25] 69.57±0.27 99.80±0.00 97.4±0.26 88.92仅来源[16] 60.80±2.00 92.68±0.31 86.91±2.37 80.13DSBN [4] 66.82±0.35 97.45±0.22 94.00±0.38 86.09JAN [25] 70.15±0.19 95.20±0.36 95.15±0.23 86.83DANN [11] 68.15±0.42 97.59±0.60 96.77±0.26 87.50DAN [23] 65.77±0.74 99.26±0.23 97.51±0.41 87.51DANN+BSP [6] 71.13±0.44 96.65±0.30 98.32±0.26 88.70微电脑[34] 68.57±1.06 99.49±0.2599.30±0.3889.12DCTN [44] 62.74±0.50 99.44±0.25 97.92±0.29 86.70M3 SDA [30] 67.19±0.22 99.34±0.19 98.04±0.21 88.19M3 SDA-β[30] 69.41±0.82 99.64±0.1999.30±0.3189.45米安74.65± 0.4899.48±0.35 98.49±0.5990.87MIAN-γ76.17± 0.2499.22±0.35 98.39±0.7691.26产生与多维一致的梯度的指数较低方差。因此，当给定大量域时，使用统一鉴别器更可行。代理A-距离。分析性能改进-为了验证这一猜想，我们对域鉴别器的目标进行了消融研究（图3b、3c）。除了使用统一域鉴别器的目标为（15）或（16）之外，所有其他实验设置都是固定的虽然这两情况下有助于适应，使用（16）产生较低的d（V）和在深度方面，我们测量了代理距离（PAD）作为域差异的经验近似[11]。由于广义误差ε在区分焦油-获取和源样本，PAD定义为d=2（1−2）。更高的测试精度。H互信息的估计我们测量了-p互信息I（Z;V），假设图3a示出了MIAN一产生较低的PADH（V）为常数。图3d示出了MIAN产生源域和目标域的平均值，潜在地与鉴别器的修改的目标相为了验证这一最低的I（Z;V），确保所获得的表示-Tion实现了低级别的域依赖性。进行实证9223∼∼A表3：Office-Home数据集的准确度（%）。标准模型艺术剪贴画产品现实世界平均仅来源[16] 64.58±0.68 52.32±0.63 77.63±0.23 80.70±0.81 68.81来源-合并多源DANN [11] 64.26±0.59 58.01±1.55 76.44±0.47 78.80±0.49 69.38DANN+BSP [6] 66.10±0.27 61.03±0.39 78.13±0.31 79.92±0.13 71.29DAN [23] 68.28±0.45 57.92±0.65 78.45±0.0581.93±0.3571.64微电脑[34] 67.84±0.38 59.91±0.55 79.21±0.61 80.93±0.18 71.97M3 SDA [30] 66.22±0.52 58.55±0.62 79.45±0.52 81.35±0.19 71.39DCTN [44] 66.92±0.60 61.82±0.46 79.20±0.58 77.78±0.59 71.43米安69.39± 0.50 63.05± 0.61 79.62± 0.1680.44±0.2473.12MIAN-γ69.88± 0.35 64.20± 0.68 80.87± 0.3781.49±0.2474.11(a) 准确度（MNIST-M）（b）准确度（SVHN）(a) 差异（b）准确度（c）方差（MNIST-M）（d）方差（SVHN）(c) d（五）(d) I（Z;V）图2：（a）（b）：（a）MNIST-M和（b）SVHN作为靶结构域的测试准确度（c）（d）：在对数标度中，对于作为靶结构域的（c）MNIST-M和（d）SVHN，在1000步之后的随机梯度的方差。越少越好。支持3.4节中对抗性DA和信息瓶颈理论之间的桥梁。6. 结论在本文中，我们提出了一个统一的信息规范化框架MDA。提出的框架允许我们检查现有的对抗DA方法，并激励我们实现一个新的神经架构MDA。具体来说，我们提供了理论论据和经验证据来证明使用多个判别器的潜在陷阱：领域判别知识的分解、有限的计算效率和目标的高方差。该模型不需要复杂的设置，如图像生成，预训练，或多个网络，这是经常采用的图3：（a）代理距离。（b）第（1）款(c)消融研究在域鉴别器的目标上。CEN代表（15）中的多类交叉熵损失，而BCE代表（16）中的二进制类交叉熵损失。（d）经验信息I（Z;V）。我们处理H（V）= log |V|.在现有的MDA方法[47，48，44，46，22]。致谢这项工作得到了韩国政府资助的信息&通信技术促进研究所（IITP）的支持（第100号）。 2017-0-00451）（No.2019- 0-01371，Development of brain-inspired AIwith human-like intelligence）、韩国政府（MSIT）资助的韩国国家研究基金会（NRF）（NRF-2019 M3 E5D2 A01066267）和三星电子的三星研究资助中心（项目编号SRFC-TC 1603 -06）。H9224引用[1] Alexander A Alemi 、 Ian Fischer 、 Joshua V Dillon 和Kevin Murphy。深层次的变信息瓶颈。arXiv预印本arXiv：1612.00410，2016。4[2] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza、Fernando Pereira和Jennifer Wortman Vaughan。从不同领域学习的理论。Machine learning，79（1-2）：151-175，2010. 一、二、三、六[3] John Blitzer，Koby Crammer，Alex Kulesza，FernandoPereira，and Jennifer Wortman.学习域自适应边界。神经信息处理系统的进展，第129 - 136页，2008年。一、二[4] Woong-Gi Chang、Tackgeun You、Seonguk Seo、SuhaKwak和Bohyung Han。用于无监督域自适应的特定于域的批量归一化。在IEEE/CVF计算机视觉和模式识别会议论文集，第7354-7362页，2019年。7[5] Rita Chattopadhyay ， Qian Sun ， Wei Fan ， IanDavidson，Sethuraman Panchanathan，and Jieping Ye.多源域自适应及其在疲劳早期检测中的应用。 ACMTransactionsonKnowledgeDiscoveryfromData（TKDD），6（4）：1-26，2012. 2[6] Xinyang Chen ， Sinan Wang ， Mingsheng Long ， andJianmin Wang. 可转让性与可辨别性：用于对抗域适应的批处理谱扩展在国际机器学习会议上，第1081-1090页三六七八[7] Nicolas Courty，Rémi Flamary，Amaury Habrard，andAlain Rakotomamonjy.域适应的联合分布最优运输。神经信息处理系统进展，第3730-3739页，2017年。2[8] 段立新，徐东，常世福。利用Web图像进行消费者视频中的事件识别：多源域自适应方法。在2012年IEEEConference on Computer Vision and Pattern Recognition，第1338-1345页中。IEEE，2012。2[9] Lixin Duan，Dong Xu，and Ivor Wai-Hung Tsang.多源域自适应：一种依赖于域的规则化方法。 IEEETransactions on Neural Networks and Learning Systems，23（3）：504-518，2012。2[10] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督域自适应。arXiv 预印本arXiv ： 1409.7495 ，2014。7[11] Yaroslav Ganin ， Evgeniya Ustinova ， Hana Ajakan ，Pascal Germain，Hugo Larochelle，François Laviolette，Mario Marc- hand，and Victor Lempitsky.神经网络的领域对抗训练。机器学习研究杂志，17（1）：2096-2030，2016。一、二、七、八[12] 龚伯青，克里斯汀·格劳曼，费莎。重塑视觉数据集以适应领域。神经信息处理系统进展，第1286-1294页，2013年2[13] Rui Gong，Wen Li，Yuhua Chen，and Luc Van Gool.Dlow：适应和泛化的域流。在IEEE计算机视觉和模式识别会议论文集，第2477-2486页，2019年。2[14] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio生成性对抗网。在神经信息处理系统的进展，第2672二、五[15] Arthur Gretton ， Alex Smola ， Jiayuan Huang ， MarcelSchmitt-full ， KarstenBorgwardt ， andBernhardSchölkopf.核均值匹配协变量偏移。机器学习中的数据集转移，3（4）：5，2009。1[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。七、八[17] 朱迪·霍夫曼，布莱恩·库利斯，特雷弗·达雷尔，凯特·萨恩科。发现多源域自适应的潜在域。欧洲计算机视觉会议，第702-715页。Springer，2012. 2[18] Judy Hoffman，Mehryar Mohri，and Ningshan Zhang.多源适应算法和理论神经信息处理系统进展，第8246-8256页，2018年2[19] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu 、 Phillip Isola 、 Kate Saenko 、 Alexei A Efros 和Trevor Darrell。苏铁：周期一致的对抗域适应。arXiv预印本arXiv：1711.03213，2017。2[20] 李·约翰逊和张彤。使用预测方差减少加速随机梯度下降。神经信息处理系统的进展，第315-323页，2013年。3[21] Yitong Li，David E Carlson，等.通过多域匹配提取关系神经信息处理系统进展，第6798-6809页，2018年。一、二、六[22] Chuang Lin ， Sicheng Zhao ， Lei Meng ， and Tat-SengChua.用于视觉情感分类的多源域适应arXiv预印本arXiv：2001.03886，2020。8[23] Mingsheng Long ， Yue Cao ， Jianmin Wang ， andMichael I Jordan.使用深度适应网络学习可转移特征。arXiv预印本arXiv：1502.02791，2015年。一、二、七、八[24] Mingsheng Long ， Jianmin Wang ， Guiguang Ding ，Jiaguang Sun，and Philip S Yu.用于非监督域自适应的转移联合匹配。在Proceedings of the IEEE conference oncomputer vision and pattern recognition ， pages 1410-1417，2014中。2[25] Mingsheng Long，Han Zhu，Jianmin Wang，and MichaelI Jor-dan.使用联合自适应网络的深度迁移学习第34届机器学习国际会议论文集-第70，第2208JMLR。org，2017.1、7[26] Yawei Luo ， Ping Liu ， Tao Guan ， Junqing Yu 和 YiYang。领域自适应语义分割的重要性感知信息瓶颈。在IEEE国际计算机视觉会议论文集，第67784[27] Massimiliano Mancini ， Lorenzo Porzi ， Samuel RotaBulò，Barbara Caputo，and Elisa Ricci.通过发现潜在域来增强域在IEEE计算机视

下载后可阅读完整内容，剩余1页未读，立即下载