不同分布的多源域自适应中的Wasserstein重心传输方法及性能评估

133 浏览量更新于2024-01-22 收藏 673KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16785多源域自适应Eduardo FernandesMontesuma巴西福塔莱萨联邦大学eduardomontesuma@alu.ufc.brFred Maurice Ngole` MboulaUniversite 'Paris-Saclay，Institut LIST，CEAF-91120 Palaiseau，Francefred-maurice. cea.fr摘要在标签分布Ps（Y）上Pt（Y），或在条件下-函数分布Ps（Y |X）P t（Y|X）。这些案件多源域自适应是一项关键技术，它允许模型在来自不同概率分布的数据上进行训练。为了克服这种学习场景所带来的挑战，我们提出了一种方法，用于构建源和目标域之间的中间域， Wasserstein 重心传输（WBT）。该方法依赖于Wasserstein空间上的重心一旦源被聚合，它们就使用标准的局部适应最优传输框架被传输到目标域此外，我们在多源场景的背景下重新审视了复杂的单源域适应任务。特别是，我们将我们的al-租m对象和人脸识别数据集。此外，为了使应用范围多样化，我们还研究了音乐类型识别和音乐语音识别的任务。实验结果表明，该方法具有与现有技术相似的性能。1. 介绍标准的数据驱动算法基于训练和测试数据遵循相同概率分布的假设。当这个假设不成立时，这种情况也被称为分布偏移，这些算法可能会遭受性能下降。在这种情况下，许多预测模型需要在新数据上重新训练，忽略以前的知识。在下列领域有各种分布变化的例子：应用的机学习，例如图像[22][23][27]、自然语言[3][2]和语音[15][24]处理。这在文献中被称为迁移学习。分别称为目标移位和条件移位。在本文中，重点是无监督域自适应。因此，我们将训练和测试数据称为来自不同域，分别是源Ds和目标域Dt。根据[17]，非监督域自适应的目标是帮助学习Dt上的预测模型，使用在Ds中学习的知识，而不使用目标域中的任何标签此外，如[3]首次指出的，概率分布之间的距离对模型在目标域上的性能起着重要作用这启发了各种算法来探索用于域自适应的统计分歧最小化策略。特别是，如[4]的开创性工作中所提出的，可以使用最优传输来实现这一点。最优运输是一种数学理论，最初是在最小努力下运输质量的背景下设计的[26]。由于质量和概率分布之间存在自然关联，因此最优传输适合于设计匹配不同分布的变换。这个理论对域适应有两个贡献：定义了一个匹配Ps和Pt的传输映射T，以及定义了分布之间的距离，即Wasserstein距离。在域适应的最佳运输的贡献，Wasserstein距离是特别感兴趣的这项工作。事实上，它度量了概率分布的空间，因此几何概念，如重心的概念可以扩展到这个空间[1]。后一个概念对于多源域自适应（MSDA）设置特别有用。域适应中的多源情况对应于当一个人可以访问来自不同域的数据迁移学习可以进一步分类，根据-电源{Ds}N. 这个案子很有挑战性kk=1这是分配转移的本质。首先，特征分布在训练集和测试集之间发生变化，即需要最小化从每个Psk到Pt的距离。在下文中，我们提供了我们的贡献，Ps（ X）Pt（X）. 这个案子通常被称为-我们的算法和论文结构。主要适应[17]。此外，转移也可能发生捐款。我们的贡献是双重的：（1）我们支持，16786我提出了一种新的MSDA方法--Wassertein重心输运法。(2)与最新技术水平的比较，用于单源域自适应的重新访问数据集可以适应MSDA方案。特别地，在声学和视觉适应数据集上对算法进行评估。直觉我们提出了一种基于Wasserstein重心的MSDA求解算法。直觉告诉我们-我们的方法与这两种方法有一些相似之处。首先，JCPOT通过Wasserstein重心估计类比例。其次，WJDOT可以被视为分布P sk和P f之间的重心，使用α作为重心权重。我们的方法，然而，是不同的，在这个意义上说，Wasserstein重心是用来建立一个中间域的运输，从源到目标。聚合所有源域{Ds}N变成一个单一的领域，关于瓦塞尔斯坦kk=1Db穿过瓦瑟斯坦重心。一旦聚合-在完成了域适配步骤之后，可以采用标准域适配。纸结构。本文的其余部分组织如下：第二部分介绍了领域适应，最佳传输，声学和视觉识别.第3节详细介绍了WBT算法。第4节详细介绍了数值实验及其结果，并对结果进行了讨论。最后，第五部分对本文进行了总结。2. 相关工作在本节中，我们将介绍域自适应和域自适应最优传输（OTDA）的最新技术。此外，将特别注重多来源背景下的实际适应。领域自适应是迁移学习的一个子主题，首先由[17]定义第一个考虑数据分布不匹配的工作是[13]，他提出了一种检测和估计变化的方法。从那时起，这种方法在[3]，[7]和[2]中正式化。后者的工作提供了一个坚实的理论基础，空间，它首先由[1]正式化，其中提出了Wasserstein重心作为一个优化问题。作者所作的处理是相当理论化的。以他们的工作为基础[6]提出了一种利用Sinkhorn算法[5]计算 Wasserstein质心的尽管有新的方法可用，如[14]，但由于其简单性，我们使用[6]提出的方法3. 该方法在本节中，我们将讨论WBT算法及其在MSDA中的应用。在这方面，我们在3.1节介绍了最优传输的理论背景，在3.2节介绍了OTDA的基于类的正则化方法，在3.3节介绍了Wasserstein重心的概念，在3.4节介绍了WBT算法。最后，在第3.5节中，我们基于[20]的理论结果对我们的算法进行了理论讨论。在下面的讨论中，我们将采用离散方法来实现最佳传输，因为它更适合大多数机器学习应用。在这种情况下，人们不知道源和目标分布µs和µt，但多源域自适应。可以访问样本Xs={xs}ns 且Xt={xt}t。i i=1j j=1最优运输在后一个问题是最近的，它是在[4]的开创性作品中首次引入的，该作品提出了解决域自适应-这些样本引起经验分布μs和μt。每一个分布都是由它的超分布唯一定义的端口Xs（分别Xt）和样本权重ωs（分别ωt）。我们I j通过最小化源和目标分布之间的Wasserstein距离来解决问题。这个ap-将进一步假设ωs（resp.ωt）是均匀的，即，ωs=n−1（resp. （1）如[4]。”（《礼记》）µgt）i s t然后在[20]中正式确定了方法，其中还评论了利用沃瑟斯坦重心解决MSDA案的可能性。据我们所知，只有两个最佳的运输为基础的方法来解决MSDA的情况下存在。可以表示为，μs（x）=1sni=1 δ（x −xs），，（1）这些是联合分类比例和最优运输（JCPOT）[19]和加权联合配送最优运输（WJDOT）[24]。第一个算法是为了解决MSDA问题时，有一个不匹配的是-其中δ是delta Dirac函数。3.1. 背景在这一节中，我们将转移问题目标分布之间，即Ps（Y）P t（Y）.的学习，重点是领域适应，并详细说明如何第二种方法提出了利用联合分布P（X，Y）和加权向量α的估计来解决标准MSDA问题。在后一种情况下，由于目标标签不可用，作者建议将最优运输可以用来解决这个问题。形式上，域是一对D=（X，μ）[17]，其中X是特征空间，μ是其概率分布。因此，在域自适应中，有Ds=（Xs，µs），用Pt（X，Y）代替Pf（X，Y）=Pt（X，f（X）），其中f是Dt=（Xt，µt），含µsµ t。此外，还假定，预测功能。标签条件分布P（Y|（X）保存S16787我我yIjJ跨域，即P s（Y|X）=P t（Y|X）。这对应于协变量偏移假设。为了简单起见，我们可以假设Xs<$Rd和Xt<$Rd是欧几里得空间。最优输运在区域适应背景下的应用首先由[4]提出，其中，非线性输运模型（AU-1）其中H（γ）是矩阵γ的熵。这是对原始优化问题的近似，但具有线性收敛的理想性质，并且依赖于矩阵-向量运算。此外，最优运输理论对机器学习做出了第二个贡献。令C ij= ||xs−Thors认为，由于一个未知的transform，Xt||方程3进一步定义了所谓的WassersteinJP反应T：Xs→Xt。此外，T还被迫保存马萨诸塞州在经验分布方面，这是等价的对于该条件，距离，Wp（µs，µt）=最小化Σ Cij γij，（5）pγ∈（μ，μ）ωt=Σ ωs。sti，jJ Ii：T（xi）=xt它是概率分布空间上的距离p阶矩有限的情形，Pp（X）。这个空间后一个条件可以通过push-for ward运算符T# 来表示，因此T#μs=μt[4]。更重要的是，可以通过以下方式确定g i v enµs和µst，T-称为Wasserstein空间[26]。p的常用值是1和2，因此使用101和102范数作为成本c（xs，xt）。这些案件导致瓦瑟斯坦最小化问题[18]，∗Σ不 =argminc（xs，T（xs）），（2）距离分别为W1和W2此外，类似于等式3和等式5，等式4与称为Sinkhorn距离的距离相关联[5]，我我T# µs= µt iS（μs，μt）=最小化ΔC，γΔF−ΔH（γ）。其中c：Rd×Rt→R是成本泛函。这个问题被称为最优运输的Monge公式这一定义带来了一些技术上的困难(1)方程2可能没有经验分布的解[18]。(2)等式2不是凸的。问题（1）对于机器学习来说尤其成问题，因为μs和μt不是先验已知的。在这种情况下，人们只能获得经验分布μs和μt。此外，（2）从优化角度来看是有问题的这些困难可以克服与所谓的康托洛维奇松弛[26]。这通过根据耦合γ重新公式化等式2来完成，Σγ∈ε（μs，μt）如[4]所述，一旦估计出γω，源域样本就可以通过遵循由Wasserstein或Sinkhorn距离定义的测地线被传输到目标域这对应于每个源样本的优化问题，Σx∈s=ar gminγijc（x，xt），ix∈XjSJ这个问题有一个封闭的形式为102-成本，称为重心映射[4]。在这种情况下，源样本由X_s=nsγX_t给出。γij=argminc（xs，xt）γij=γC，γF，（3）γ∈ε（μεs，μεt）i，j其中，（μs，μt）是n个μs和μt 之间的所有耦合的集合，·，·F是矩阵的Frobenius内积，C ij= c（xs，xt）是成本矩阵。3.2. 基于类的正则化在应用最优传输进行域自适应的背景下，在实践中已经证实，除了熵正则化之外，还使用基于类的正则化，ij化产生更好的性能[4]。这也是Kantorovich公式具有比Monge首先，方程3至少有一个解，即平凡耦合γ ij=µs（xs）µ t（xt）。理论上支持[20]。如下所述，我们描述了一个与我们的工作相关的类正则化器它对应i j到Laplacian正则化子，由[4]提出第二，它是一个关于γ的凸问题。事实上，等式3是矩阵元素γ ij上的线性规划。Laplacian正则化器基于相似矩阵Ss（i，j）∈Rns×ns在样本xs和xs之间。在实际操作中，然而，求解i j的线性规划方法解决最佳运输问题的代价是昂贵的。注意到方程3是一个ns×nt变量的线性规划，随着每个域上样本数量的增加，它的伸缩性很差到我们继续[4]，并考虑Ss（i，j）作为邻接最近邻图的矩阵，即，.如果xs在xs的k个最近邻中，则为1为了解决这个问题，[5]提出了另一种优化方法。问题，Ss（i，j）i j，0否则γ=argminγ∈ε（μs，μt）C，γ此外，条件Ss（i，j）= 0，对于i，j，yss为类稀疏性而强制执行罚款可以计算SJ16788不不Sǫ使用下面的公式，一个重要的区别已经由[6]关于c（γ）=1 Σ Ss（i，j）||xs−xs||二、Wasserstein重心的经验计算。其中一个有两个不同的优化问题，即2si，ji j2固定支撑和自由支撑的重心。第一个对应于固定µb的支撑Xb，并求解这个方程是等效到αc（γ）=Tr（XTγ TL s γXt）对于L s=diag（S s1）−Ss，邻接矩阵S s的拉普拉斯算子。最后，重复不对St强制类稀疏性的过程产生下面的惩罚项，αc（γ）=（1−α）Tr（XTγT Ls γXt）+αTr（XTγL t γ TXs）。（六）请注意，该惩罚项惩罚源域中彼此接近的样本，使其不被反式转换。公式8用于样本权重ωb。第二种对应于固定ωb（其被认为是均匀的，或通过上述方法找到）并相对于支撑Xb优化方程8。3.4. 瓦瑟斯坦重心运输WBT算法的目标是将所有的源域聚合到一个中间域，然后将其传输到目标域。这个聚合过程是通过Wasserstein重心完成的。对于质心的计算，不作任何假设移植到目标域中的远程点，每当这些属于同一个类。同样的推理也可以被...（1）在nb=上支持μbNk=1 nsk 点，−1使用St将其应用于逆传输。利用前两节中提出的理论，我们可以陈述用于单源域自适应的一般OTDA框架，其包括由下式提出的最小化问题，γ=argminC，γF−H（γ）+ηc（γ），（7）（2）权系数ωb是固定一致的，等于nb.第一个假设试图确保每个源数据点表示在重心域上，第二个假设是应用最优传输进行域自适应的标准。注意，由于对于源域中的每个点，在重心域中具有一个点，我们也可以用向量的级联来人为地标记Xb的支持，如下所示，γ∈ε（μs，μt）kk=1y b=y sk，其中j=k × i。（八）此外，我们将用Sc表示其相关距离j i在发行版之间，本着同样的精神，和Sinkhorn距离3.3. Wasserstein空间的重心由于p-Wasserstein距离度量了空间Pp（X），它允许几何概念的扩展，例如重心的概念在这种背景下，瓦塞尔-斯坦重心首先由[1]正式定义为，这一步对于域适应的成功至关重要因为传输源→重心→目标应该保持数据的类结构。此外，由于权重是固定的，因此仅需要求解自由支撑为了在不同的域中保持类结构，使用了基于类的惩罚[4]。该惩罚期限定义如下，定义1给定{μs}N，其中μs∈Pp（X），μk，和。kk=1kL如果YS YB给定正常数{λk}N，使得kλk= 1，Γij（ys，yb）=i j，k=1N N0 if y s = y b{μsk}k=1的重心，权重{λk}k=1表示为ij“乙，乙。cl（γ;ys，yb）=i、jΓijγ ij。（九）中国µlb=ar gminλkW p（μs，μb）..其中yb表示人工分配给barycen的标签，p（X）PKk=1ter的点，并且L max i，j C ij是超参数。这种惩罚最初是针对半监督的计算Wasserstein重心最优输运的问题，经验测量的N第一次被认为是[6]，和目标标签。我们注意到WBT的背景，没有信息-kk=1并应用于两种情况：（1）直方图的质心用于扰动图像的可视化;（2）具有均匀质心的聚类。尽管它们与数据分析相关n16789需要关于目标标签的信息，因为等式9是相对于重心标签计算。来自等式9的惩罚被添加到重心计算成本函数，导致下面的等式10。这可以被解释为考虑不同的观点16790不KN类在特征空间中相距很远。因此，通过以下最小化问题进行重心计算，给定一个具有基标号函数（Ds，fs）的域，我们现在采用缩写形式：Ss（h）=SDs（h，fs）. 错误的概念可以扩展到自然地对于多个源域的情况。给我一个机会-Scl（µsk，µb）=最小化C，γF−H（γ）γ∈ε（μs，μt）+cl（γ;ys，yb），（十）对于α∈RN，使得h由下式给出，Nj=1 αj= 1，α-加权误差中国µlb=ar gminλ kS cl（μsk，μsb）.中国α（h）=α j<$sj（h）。μ∈ Pp（X）k=1在这种情况下，我们提出了一种方法来解决MSDA问题，通过传输的Wassertein barycen- ter的源到目标域。这对应于以下优化问题：j=1注意，方程12可以通过用经验平均值代替期望算子来近似。在这种情况下，我们将经验误差函数表示为，ns中国α（h）=ααj|.|.中国最小化p（X）λkS cl（μsk，μ）+S c（μst，μ）。（十一）j=1nji=1此外，为了下一次会议的目的，我们将k=1假设nsj=βj n，对于j=1βj = 1。在这些条件下-这个极小化问题对应于两个独立性，我们可以重述[20]的定理4，dent步骤：（1）Wasserstein Barycenter的计算，对应于最小化等式11右侧的总和，以及（2）将µb传输到µt，对应于最小化Sc（µt，µb）。这两个步骤总结在算法1中，算法1是[6]的算法2的改编版本。算法1Wassertein重心迁移定理1设Xsj，j∈ {1，· · ·，N}，Xt是N+1个大小为nsj和ndrawn i.i.d.的样本。从omµsj和µtrespectivel y。设μsj和μst为相应的经验测度。如果h<$α是<$$>α的经验极小元，且h<$=minimize<$t（h），则对任意固定的α和δ∈（0，1），h∈H概率至少为1-δ（在样本选择sksknskt（h要求：源域样本Dsk={（xi，yi）}i=1，tar-T得到域样本Dt={xt}nt，初始重心支持Nii=10N中国（13）Xb，重心标签yb和权重{λk}k=1当Xb对于k= 1不收敛于do时，···Ndoγk←方程的解10个。其中，+2αj（W1（μsj，μt）+λj+c2），j=1结束，Xb←nbend whileNk=1 λk γTXs...2K中国j=12jlog（2/δ）‚.中国，βj.Kα jy←方程的解 4.以µb为源，以µt为目标。c1= 2+2，，Xs←nsγXt确保：传输的源样品Xμs。n- 是的.βj=1.ΣC2=2log（1/δ）/μ′1 1+，nsjnt3.5.理论保证在本节中，我们提供了理论上的见解，以使我们的方法合理化。在[2]之后，这对应于证明我们的过程使目标误差界最小化。我们首先定义假设h在域D上的误差的概念，定义2（由于[2]）假设函数h∈ H关于域D上的标记函JαKJ16791数f的误差由下式给出：λj=minimizeλsj（h）+λt（h）。h∈H证明在[20]中有概述，并遵循[2]中定理4的相同原理.为完整起见，在补充材料中列出。在最后一个定理的讨论中，[20]证明了最小化方程13右侧的Wasserstein距离等价于以下优化问题：1000ND（h，f）= Ex|f（x）= 0|]中。（十二）µ=最小化μ∈Pp（X）Nj=1αjW1（μsj，μs）+W1（μs，μst），16792K这是方程11的非正则化版本。此外，重要的是要提到，如[20]所述，Wasserstein距离的最小化不足以用于改善目标误差的自适应。实际上，λj在边界13中起着重要作用，基于类的正则化对于控制它很重要。简而言之，如果点上具有不同的类xb和xb，和节奏分量、速度和20梅尔倒谱系数（MFCC）。对象识别：对于对象识别任务，我们使用由Office数据集[22]和Caltech-256数据集[12]组成的Caltech-256数据集。第一个数据集有三个域： Amazon 、 DSLR 和Webcam。这些域中的每一个都呈现出不同的分辨率和AC。I j重心被转移到相同的目标xt，联合误差的增加同样的推理也可以应用于将辐射源输运至重心的问题。因此，基于类的正则化在域自适应的上下文中产生更好的结果，因为它已经在实践中得到验证[4]。4. 实验与讨论4.1. 数据集为了建立所选算法之间的比较，选择了四个领域适应任务：音乐类型识别（MGR），音乐语音识别（MSD），对象和人脸识别。这些数据集是根据它们在迁移学习文献中的相关性选择的。例如，先前在Turrisi等人的工作中考虑了MSD。[24]，在[4]中探索了面部识别，并且对象识别是领域适应中最常用的基准之一下面描述了每个数据集，每个任务的摘要如表1所示。任务域样本数量#特性#类清洁10005610/2音乐体裁识别与音乐语音识别F16Buccaneer2驱逐舰发动机10001000100056565610/210/210/2工厂210005610/2加州理工1123409610Webcam295409610对象识别亚马逊958409610DSLR157409610PIE053332102468PIE071629102468面部识别PIE091632102468PIE291632102468表1.MSDA方案中考虑的每个任务的摘要MGR和MSD：原始的MGR数据集[25]是一个分类数据集，由10种不同音乐类型的音乐样本组成（蓝调，古典，乡村，迪斯科，嘻哈，爵士，金属，流行，雷鬼和摇滚），每种都有100个样本。另一方面，MSD数据集[10]由64个音乐样本和64个语音样本组成。音乐类型没有区别。在这两个数据集中，每个样本都是一个持续时间为30秒的.wav文件为了模拟域自适应场景，每个音频样本都覆盖有特定的噪声，这些噪声是使用Pydub库从噪声数据集1中选择的[21]。使用Librosa库[9]在两个数据集上共提取了56个特征，包括色谱图的均值和方差、均方根误差、光谱带宽和滚降、过零率、谐波第1http://spib.linse.ufsc.br/noise.html收购条件。第二个数据集由从Google和Picsearch下载的各种类别的图像组成。在加州理工学院数据集的上下文中，这两个数据集通过只考虑它们共有的类来合并。得到的数据集有2533个样本，提取了De- CAF [8]特征。这些特征对应于在imageNet上训练的卷积神经网络的第7层激活，然后针对对象识别进行微调[4]。人脸识别：对于这项任务，使用了 CMU Pose ，Illumination，Expression（PIE）数据集[23]，该数据集由来自68个个体的超过40，000张32×32面部识别任务对应于识别每个图像上的个体。从图像的总数中，选择四个不同的相机用于适应任务：c05（左姿势）、c07（向上姿势）、c09（向下姿势）和c29（右姿势）。每个摄像机被视为一个单独的域，并表示为PIEX，其中X对应于摄像机编号。单源域适应与多源域适应：视觉适应数据集先前在[4]中考虑过，在单源域适应的背景下。这两个数据集都有四个领域，导致12个单源领域适应实验。每个实验对应于不同域之间的每个可能的源与靶对。在MSDA上下文中考虑时，有四个实验是可能的，选择一个域作为目标，并将所有其他域作为源。4.2. 听觉适应对于声学自适应实验，将4种算法与WBT进行比较：（1）核均值匹配（KMM）[11]，其由基于核的重要性估计技术组成，（2）传递分量分析（TCA）[16]，其是通过最大均值离散（MMD）度量的最小化来学习子空间的算法，（3）通过Sinkhorn算法的最优传输[4]，具有和不具有额外的拉普拉斯正则化（等式6）。这些分别表示为OT-Laplace和OT-IT。（4）JCPOT [19]及其变体JCPOT-LP，其对应于标签传播的使用[19]。关于表2中的结果，我们注意到两种方法与其他方法相比具有非常低的性能在16793任务经理MSD方法海盗2摧毁引擎F16工厂2平均海盗2摧毁引擎F16工厂2平均基线22.90 ±0.8438.25 ±0.9151.57 ±1.1147.80 ±0.3440.13± 11.0782.43 ±1.7551.57 ±2.5688.89 ±2.7250.02 ±2.2168.23± 17.59KMM21.75 ±0.9939.25 ±0.6649.81 ±1.6947.37 ±0.7139.54± 10.9987.12 ±2.7952.35 ±2.9474.86 ±5.5850.41 ±2.1766.18± 15.44TCA58.95 ±1.2760.67 ±2.0768.75 ±2.1159.82 ±0.5062.04 ±3.9190.43 ±1.4087.14 ±4.9995.12± 2.0284.76 ±3.3089.36 ±3.88OT-IT56.35 ±0.8461.92 ±1.6466.72 ±1.8661.77 ±1.6561.69 ±3.6789.26 ±1.5682.84 ±2.7884.97 ±3.0991.21 ±2.0487.07 ±3.32奥特-拉普拉斯58.02 ±1.4560.47 ±1.7566.55 ±1.6063.87±1.5162.23 ±3.2487.28 ±2.9784.38 ±1.7686.14 ±2.7990.61 ±1.6887.10 ±2.27JCPOT35.87 ±0.4148.47 ±2.9751.92 ±3.2551.95 ±1.7547.05 ±6.6092.55 ±2.1187.89 ±1.3988.67 ±1.6782.41 ±2.2287.88 ±3.61JCPOT-LP36.40 ±0.3952.92 ±1.3256.30 ±0.3751.52 ±2.2849.28 ±7.6289.06 ±1.3884.97 ±3.2390.24 ±1.7186.13 ±1.8887.13 ±2.13WBT21.37 ±2.2524.30 ±2.7125.30 ±6.0222.70 ±2.2523.41 ±1.5056.88 ±9.5456.63 ±6.8856.63 ±6.5659.38 ±2.6157.38 ±1.15WBT注册70.60± 1.2783.05± 0.9784.40± 1.7190.17± 0.4682.05± 7.1396.27± 1.6092.98± 1.3894.92 ±0.6896.87± 0.9495.26± 1.49仅目标67.43 ±1.4367.96 ±2.9166.86 ±2.0068.37 ±1.8767.41 ±0.5690.51 ±3.9893.07 ±3.8189.23 ±4.2592.30 ±3.6291.27 ±1.50表2. MGR和MSD任务的结果。结果按任务分组，每一列代表一个单独的实验，列名称作为目标域。表中所示的值是以百分比表示的所获得的准确度。使用5倍交叉验证程序对这些值进行平均，并显示± σ的区间。任务对象识别人脸识别方法亚马逊DSLRwebcam加州理工平均PIE05PIE07PIE09PIE29平均基线90.55± 1.3696.83± 1.3388.36± 1.3382.95± 1.2689.67± 4.9726.57± 2.5142.99± 2.0255.45± 2.7531.73± 2.0739.18± 11.11PCA91.67± 1.3998.09± 3.8192.61± 4.8183.58± 1.4591.49± 5.1726.75± 2.5543.15± 2.2355.45± 2.8131.73± 2.4239.27± 11.07TCA86.83± 4.7189.32± 1.3397.51± 1.1880.79± 2.6588.61± 6.0019.67± 2.5412.74± 1.9012.23± 2.9811.91± 3.1014.13± 3.21OT-IT69.31± 2.7774.26± 0.6674.69± 2.2373.08± 0.8772.83± 2.1249.50± 3.7559.41± 4.2657.48± 3.9252.78± 4.5354.79± 3.89奥特-拉普拉斯70.50± 2.2275.59± 1.6875.39± 3.6974.89± 0.4874.09± 2.0951.13± 3.7463.24± 4.3760.41± 4.3856.42± 4.7361.57± 5.77JCPOT79.23± 3.0981.77± 2.8193.93± 0.6077.91± 0.4583.21± 6.3443.11± 4.5670.44± 4.1873.21± 5.0158.98± 4.9661.43± 11.85JCPOT-LP83.45± 0.1581.51± 1.6591.35± 1.9179.65± 0.5483.99± 4.4542.43± 4.9173.90± 2.6477.27± 3.6860.35± 3.5663.49± 13.71WJDOT94.24± 0.90100.00± 0.0089.33± 2.9185.93± 2.0792.37± 5.30不可用不可用不可用不可用不可用WBT59.86± 2.4860.99± 2.1564.13± 2.3862.80± 1.6161.99± 1.647.90± 0.9212.50± 1.8811.02± 2.2712.49± 1.4510.98± 1.87WBT注册92.74± 0.4595.87± 1.4396.57± 1.7685.01± 0.8492.55± 4.5851.10± 4.4480.66± 3.9379.58± 4.0466.74± 5.7369.52± 13.81仅目标94.98± 1.2994.74± 3.7196.78± 2.3691.43± 2.0694.48± 1.9397.67± 1.8695.66± 4.6598.02± 2.3398.11± 1.6497.36± 0.99表3.物体和面部识别的结果该表的组织和符号与表2相似。在第一种情况下，重要性估计过程的主要假设是Pt（X）的支持度包含在Ps（X）的支持度中。这不一定是真的，因为噪声的类型可以相对于提取的特征创建非常不同的信号此外，请注意，WBT reg是测试方法中性能最好的算法，将基线提高了41。91%的平均MGR，和27。03%为MSD。对于MGR，当与第二好的方法（OT-拉普拉斯）相比时，它呈现出19的平均改进。百分之八十二此外，它甚至改进了仅目标的情况，其中假设分类器仅在标记的目标数据上进行训练和评估准确度的平均提高为14。百分之六十四同样的考虑也适用于MSD，但在这种情况下，第二好的是TCA，性能差距为5。9%。与仅目标的情况相比，WBT reg的性能增益为3。百分之九十九这证明了源域携带可以改进分类的信息的4.3. 视觉适应对于视觉适应实验，将6种算法与WBT进行比较：（1）主成分分析（PCA），其包括将整个数据集（源和目标）投影到几个主成分上[4]，（2）TCA，（3）OT-IT和OT-Laplace，（4）JCPOT和JCPOT-LP，以及（5）WJDOT [24]。对于WJDOT，由于代码不是公开的，因此其结果仅显示对象识别任务，其结果在[24]中报告的结果显示在表3中。对象识别：Caltec-Office数据集的结果显示在表2的左侧。对于这项任务，WJDOT是在测试的不同策略中具有更高准确性的方法。我们的方法是最好的平均而言，具有0. 18%，相对于WJDOT。特别是，当比较这两种方法时，对于这个特定的任务，WJDOT只使用关于一个源域的信息，如[24]中所报告的，并在其补充材料中显示。相比之下，WBT和WBTreg平等地使用关于所有源域的信息（统一权重）。事实证明，我们的方法在webcam和caltech域上获得了更高的性能，这表明其他域所携带的信息在重心计算的上下文中仍然是有用的当考虑到其他最佳传输方法时，WBTreg显示出相当高的性能。例如，通过将所有源域合并为单个域，并使用标准OTDA框架，最多产生74的准确度。09%（OT-Laplace），17. 比WBTreg的表现低71%这突出了在执行传输时区分域的重要性。此外，与JCPOT相比，其性能为7。比我们的低81%此外，值得注意的是，尽管JCPOT是为MSDA设计的，但它在这里的使用超出了其假设（目标偏移，如[19]中所讨论的），证明了其较低的性能。人脸识别：关于PIE数据集16794图1.面部适应结果示例（在屏幕上最佳）。每一行对应一个单独的域。特别地，第一行示出了来自三个源域（向上、向左和向下姿态）的样本，而最后一行示出了目标域（右姿态）。在两者之间，示出了由各种算法生成的域WBT算法设法仅最小化源和重心之间的然而，λj保持无界，因为支撑点可以自由移动。在最坏的情况下，可能发生来自不同类别的点被移动到重心中的同一点，对应于λj增长的情况。我们的实验与以前的文献[4][20]一致，在这个意义上，使用基于类的正则化大大改善了我们的结果。第二点可以根据应用领域进行说明。特别地，WBTreg设法改善声学适应的仅目标情况，而对于视觉适应，情况并非总是如此。我们注意到，在这两个任务之间，在由等式11提出的优化问题的复杂性上存在显著的差距，因为存在用于声学适应的56个特征、用于对象识别的4096个特征和用于面部识别的1024个特征。5. 结论我们提出了一种新的方法， MSDA 使用重心的Wasserstein空间，WBT算法。我们的方法适合OTDA框架，在这个意义上，它通过从如表3右侧所示。为此任务中，WBT reg是性能最好的方法，提高了6。3%的平均水平，相对于第二好的JCPOT。由于本例中用于传输的特征是原始图像，因此它允许Wasserstein重心的具体可视化。图1显示了在PIE数据集的适应中涉及的各个领域之间的比较。在该示例中，对应于右姿态的相机29被用作目标域。可以看出，由重心（第二行）构建的中间域主要由正面姿态组成，而运输的样品（第三行）显示出预期的右侧姿态。此外，与其他方法相比，PCA和TCA表现出较差的性能。如图1所示，这两种方法生成的投影是一个恒定的图像。这与使用提取的特征而不是原始信号的其他自适应任务形成了鲜明的对比，表明在后一种情况下，可能不存在图像共享共同特征的子空间。4.4. 一般性评论关于表2和表3，可以同时做两点说明。首先，WBT的性能，没有基于类的正则化，是相当低于其他方法。性能下降的原因在第3.5节中进行了简要讨论。当在等式10中不存在基于类的正则化器时，源为目标。为此，我们通过Wasserstein重心构建一个中间域，然后将重心传输到目标域。由Wasserstein重心构建的中间域的使用在声学和视觉适应任务中均显示出最先进的性能。当特征数量较少时，我们的方法能够在很大程度上改善最乐观的情况，即在目标域上训练和评估分类器时，表明源域携带的信息是有用的。当任务上的特征数量很高时，我们的方法仍然是最好的，但其结果不那么突出。此外，我们的研究结果支持这样的说法，即基于类的正则化对于成功应用域自适应的最佳传输是重要的。特别是在质心计算过程中，当忽略了这种正则化子时，计算性能明显下降.最后，我们指出，我们的方法可以进一步推广，支持任何类型的单源域自适应算法的运输重心→目标。引用[1] 马夏尔·阿盖和纪尧姆·卡里尔瓦瑟斯坦空间的重心。SIAM Journal on Mathematical Analysis，43（2）：904[2] Shai Ben-David ， John Blitzer ， Koby Crammer ， AlexKulesza ， FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning，79（1-2）：151目标PCATCAOT-Laplace JCPOTWBT重心源16795[3] ShaiBen-D a vid，JohnBlitze r，KobyCramme r，andFernando[18]Gabr i elP e yr e'，MarcoCuturi，etal. 计算最优佩雷拉.域适应的表示分析。在神经信息处理系统的进展，页运输基金会和信托基金11（5-6）：355在机器学习，137[4] 尼古拉斯·考特，雷·米·弗拉马尔，德·维斯·图亚，阿兰 · 拉克 · 奥托马蒙吉。最佳传输域适应。 IEEEtransactionsonpatternanalysisandmachineintelligence，39（9）：1853[5] 马可·库图里Sinkhorn距离：最佳运输的光速计算。神经信息处理系统的进展，第2292-2300页，2013年[

下载后可阅读完整内容，剩余1页未读，立即下载