多源域自适应中的T-SVDNet方法解决了域偏移问题

68 浏览量更新于2023-10-14 收藏 13.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

99910T-SVDNet：探索多源域自适应的高阶原型相关性0Ruihuang Li 1 *，Xu Jia 2 †，Jianzhong He 3，Shuaijun Chen 4，Qinghua Hu 1 †01 天津大学智能与计算学院，2 大连理工大学，3 华为技术有限公司，4 华为诺亚方舟实验室0{liruihuang, huqinghua}@tju.edu.cn，xjia@dlut.edu.cn，chensj1110@163.com，0jianzhong.he@huawei.com0摘要0大多数现有的域自适应方法只关注从单一源域进行自适应，然而，在实践中，有许多相关的源可以利用，以帮助提高目标域的性能。我们提出了一种名为T-SVDNet的新方法来解决多源域自适应（MDA）任务，其特点是将张量奇异值分解（T-SVD）纳入神经网络的训练流程中。总体而言，充分探索多个域和类别之间的高阶相关性，以更好地弥合域差距。具体而言，我们对一组原型相似性矩阵进行堆叠得到的张量施加张量低秩（TLR）约束，旨在捕捉不同域之间的一致数据结构。此外，为了避免噪声源数据带来的负面转移，我们提出了一种新颖的不确定性感知加权策略，根据不确定性估计的结果自适应地为不同的源域和样本分配权重。在公共基准测试上进行的大量实验证明了我们的模型在解决MDA任务方面相对于最先进的方法的优越性。代码可在https://github.com/lslrh/T-SVDNet获得。01. 引言0深度学习方法以大量的训练数据作为动力，展现出卓越的性能。然而，将在某个视觉域上学到的知识直接转移到具有不同分布的其他域，会导致性能显著下降，原因是0* 本文的部分工作是在华为诺亚方舟实验室实习期间完成的†通讯作者0域偏移的存在[42]。为了解决这个问题，一些主要的方法，如迁移学习和无监督领域自适应（UDA），努力提取域不变特征。基于差异的方法通过最小化源域和目标域之间的差异来减小域差距，例如最大均值差异（MMD）[25]，相关对齐[35]和对比域差异[16]。对抗方法试图通过对抗训练[34,38]或基于GAN的损失[14,46]来对齐源域和目标域。这些方法只关注单一源域的域自适应。然而，在许多实际应用场景中，有许多以不同方式收集的相关源可用，这些源可以帮助提高目标域的性能。0简单地将各种来源合并为一个并不是充分利用多个来源中丰富的信息的有效方法，甚至可能比单一来源的方法表现更差，因为多个来源之间的域差距会在学习过程中造成混淆[44]。一些多源域自适应（MDA）方法[41, 24, 45, 32,12]专注于将多个源域和目标域通过将它们投影到一个域不变特征空间中进行对齐。这可以通过明确地最小化不同域的差异[12, 13,32]或学习一个对抗鉴别器来对齐不同域的分布[41, 43,24]来实现。然而，消除数据的分布差异有可能牺牲判别能力。此外，这些方法只实现了成对匹配，忽略了所有域之间的高阶关系。MDA中另一种广泛使用的方法是分布加权组合规则[13, 43,24]，它将预训练的源分类器的加权组合作为目标域的分类器。尽管在MDA任务上表现出了合理的性能，但它们没有考虑到域内的加权关系。99920在不同训练样本之间进行分类，因此底层嘈杂的源数据可能会损害目标学习的性能，这被称为“负迁移”[30]。为了解决上述限制，我们提出了一种名为T-SVDNet的新方法，将张量奇异值分解（T-SVD）纳入神经网络的训练流程中。在MDA任务中，尽管不同域之间存在较大的域差异，但属于相同类别的数据在不同域之间共享基本的语义信息。因此，我们假设来自不同域的数据应该遵循某种类别结构。基于这个假设，我们探索多个域和类别之间的高阶关系，以在原型相关水平上强制源域和目标域的对齐。具体而言，我们对通过堆叠一组原型相似性矩阵获得的张量施加张量低秩（TLR）约束，以使类别之间的关系在域之间保持一致，通过追求张量的最低秩结构。此外，为了避免由嘈杂的训练数据引起的负迁移[30]，我们提出了一种新颖的不确定性感知加权策略，以引导适应过程。它可以根据不确定性估计的结果动态地为不同的域和训练样本分配权重。为了同时使用分类损失和低秩正则化器训练整个框架，我们采用了一种替代优化策略，即在低秩张量固定的情况下优化网络参数，并在网络参数不变的情况下优化低秩张量。我们在几个公共基准数据集上进行了广泛的评估，取得了比现有MDA方法更显著的改进。总体而言，本文的主要贡献可以总结如下：•我们提出了T-SVDNet，从张量的角度探索多个域和类别之间的高阶关系，促进域不变性和类别可区分性。•我们设计了一种新颖的不确定性感知加权策略，以平衡不同的源域和样本，从而充分利用干净数据，避免嘈杂数据引起的负迁移。•我们提出了一种替代优化方法来训练具有低秩正则化器的深度模型。在基准数据集上进行的广泛评估证明了我们方法的优越性。02. 相关工作0帮助在标记源域上学习模型；另一个适应性术语旨在对齐源域和目标域的分布。这些SDA方法可以根据对齐策略大致分为三组：（1）基于差异的方法旨在最小化在相应层上明确测量的差异，包括最大均值差异（MMD）[25]、相关对齐[35]和对比域差异[16]；（2）一些基于对抗训练的方法通过混淆训练良好的域判别器来对齐不同的数据分布[38,37]。多源域自适应（MDA）。在实际应用中，数据可能来自多个相关域[2,36]，这涉及更丰富的信息，但也带来了处理域偏移的困难。因此，MDA方法变得越来越受欢迎。早期的MDA方法主要集中在基于加权组合的源分类器[13, 24, 22,34]上，基于这样的假设，目标分布可以由源分布的混合来近似[3,1]。Hoffman等人[13]将分布组合视为DC编程，并推导出更紧密的域泛化界限。除了最小化目标和每个源域之间的域差异之外，Li等人[24]还考虑了成对源域之间的关系，并提出了更紧密的多源域差异界限。MDA方法中使用了许多显式的差异度量，如MMD[12]、L2距离[33]和矩距离[32]。一些方法还专注于不同域之间的基于原型的对齐[31, 40,39]。至于旨在混淆判别器以提取域不变特征的对抗MDA方法，优化目标可以是H-散度[43]、Wasserstein距离[45,24]。不确定性估计。量化和测量不确定性具有重要的理论和实际意义[9,19]。在贝叶斯建模中，有两个主要类别的不确定性[17]：认知不确定性和随机不确定性。前者通常被称为模型不确定性，它捕捉模型参数的不确定性，而后者则考虑到从观测中固有的噪声。已经提出了许多用于估计深度学习中的不确定性的方法[4, 10,8]。借助这些技术，许多计算机视觉任务的鲁棒性和可解释性得到了改善，例如目标检测[7, 21]和人脸识别[6]。03. 方法0在MDA设置中，有M个标记的源域S1，S2，∙ ∙∙，SM和一个无标记的目标域T。每个源域Sm包含Nm个观测值......|(xi,ΛDcf(xi),(2)f Dc |I := αf Dc |I + (1 − α)f Dc |I−1,(3)GDci,cj = K(f Dci , f Dcj ) = exp(−),(4)99930FFT0T-SVD0IFFT0收缩0共享权重0旋转0多域特征提取器原型相似性矩阵张量低秩约束0图1. T-SVDNet的框架。给定M个标记的源域S1，∙ ∙∙，SM和一个无标记的目标域T，我们首先提取输入图像的特征，并以在线方式计算每个类别和每个域的原型fDc。此外，通过一组相似性矩阵GS1，∙ ∙∙，GSM，GT建模成对原型之间的关系。然后，我们将这些原型相似性矩阵堆叠成一个3阶张量G∈RC×C×(M+1)，在其中施加张量低秩约束以探索不同域之间的高阶关系。最后，结合低秩正则化器，采用交替优化策略有效地训练模型。0{ ( x S m i , y S m i ) } N m i=1，其中yi是期望的标签，而在目标域T中，标签y不可用。大多数现有的MDA模型可以表示为以下映射函数：0Mmda：XS1∪ ∙ ∙ ∙ XS∪XT→YS1∪ ∙ ∙ ∙ YSM，(1)0其中Mmda在源域中的标记样本（XS，YS）和目标域中的无标记样本XT上进行训练。在本节中，我们提出了T-SVDNet，通过利用堆叠一组原型相似性矩阵（见图1）得到的张量，充分探索所有域之间的高阶关系。此外，我们提出了一种新颖的不确定性感知加权策略，实现域内和域间的加权，以减少负迁移（见图2）。本节的组织如下：首先在第3.1节中构建原型相似性矩阵。然后在第3.2节和第3.3节中分别提出张量低秩约束和不确定性感知加权策略。最后，在第3.4节中制定总目标函数，并在第3.5节中提出一种新颖的交替优化方法。03.1. 原型相似性矩阵0在提出的T-SVDNet中，我们首先通过特征提取器f(∙)将输入图像映射到潜在空间，然后基于小批量的特征嵌入更新每个类别的质心（原型）[31, 40, 39]。对于D∈{S1, ∙ ∙ ∙ , SM,T}，第c个类别的原型fDc计算如下：0fDc = 10�0其中ΛDc是属于第c个类别的域D中的训练样本集，即ΛDc ={(xi, yi) ∈ D| yi =c}。值得注意的是，对于无标记的目标域，我们首先为具有高分类置信度的样本分配伪标签ˆyi。为了减少每个小批量采样的随机性并稳定训练过程，根据指数移动平均（EMA）方法更新类别原型：0其中α是指数衰减率，I表示当前迭代次数。然后我们使用高斯核来建模类间关系，并构造一系列原型相似性矩阵GS1，∙∙ ∙，GSM，GT：0�� fDci − fDcj �� 20其中fDci和fDcj是来自域D的一对类别中心，γ是偏差参数，在实验中设置为0.05。03.2. 通过T-SVD实施张量低秩约束0与仅考虑成对匹配的传统方法不同，我们在原型相关性水平上实现了所有域的高阶对齐。具体来说，我们将原型相似性矩阵堆叠成一个三阶张量G∈RC×C×(M+1)，其中C和M分别表示类别和域的数量。然后我们对组装的张量施加张量低秩（TLR）约束。p(yi|xi) = N(µi, σ2i ),(8)p(yi|xi, σi) = Softmax� 1σ2ih(xi)�.(9)99940算法1：T-SVD0输入：G∈Rn1×n2×n3；输出：U, S, V；01 Gf = FFT(G, 3);02 for k = 1:n3 do03 [U(k)f, S(k)f, V(k)f] = SVD(G(k)f);04 end05 U, S, V = IFFT(Uf, 3), IFFT(Sf, 3), IFFT(Vf, 3);0为了探索域间的高阶相关性并强制使类别之间的关系在域间保持一致，我们首先给出T-SVD和张量秩的定义如下：0定义1（T-SVD）给定张量G∈Rn1×n2×n3，张量奇异值分解定义为矩阵外积的有限和[29]：0G =0mi2)0i=1 U(:,i,:) * S(i,i,:) * V(:,i,:)T, (5)0其中U和V是尺寸为n1×n1×n3和n2×n2×n3的正交张量，S是尺寸为n1×n2×n3的张量，其每个前面切片都是一个对角矩阵。*表示张量乘积（T-product）。0T-SVD也可以在傅里叶域中更高效地计算。具体来说，可以通过沿G的第三个维度进行快速傅里叶变换（FFT）得到Gf，并在Gf的每个前面切片上进行矩阵奇异值分解：0G(k)f = U(k)f ∙ S(k)f ∙ V(k)Tf, k = 1, ..., n3 (6)0其中∙表示矩阵乘积。我们用G(k)f表示第k个前面切片。0G的第k个前面切片，即G(k)f = G(:, :,k)。T-SVD的结果最终通过在第三个维度上对Uf、Sf、Vf进行逆FFT得到（见算法1）。0定义2（张量秩）[18, 28]G∈Rn1×n2×n3的秩是一个向量p∈Rn3×1，其中第k个元素等于G(k)f的秩。0然而，在优化过程中，我们需要一个充分的凸松弛来处理张量秩的ℓ1范数。为此，我们将其定义为张量核范数，即所有前面切片S(k)f的奇异值之和：0∥G∥TNN =0n30k=10mi2)0i=1 |S(k)f(i,i)|. (7)0Softmax0不确定性预测器0分类器0图2.不确定性感知加权策略。每个样本被建模为由均值µ和方差σ参数化的高斯分布。分类损失通过估计的数据不确定性σ进行加权。0张量旋转。由于张量G的每个前面切片G(k)只包含来自单个域的信息，我们将其水平（或垂直）旋转以获得GRot（见图1）。这样，每个前面切片GRot将涉及来自不同域的信息。最后，对旋转后的张量GRot施加张量低秩约束有助于探索不同域之间的高阶关系。通过追求每个前面切片G(k)f在傅里叶域中的最低秩，强制执行跨域的类间数据结构保持一致。03.3. 不确定性加权策略0我们提出了一种新颖的不确定性加权策略，以自适应地平衡不同的源和减轻由噪声数据引起的负迁移。考虑到数据的不确定性可以捕捉数据中的噪声，即它反映了输出的可靠性[17,6]，我们可以根据不确定性估计的结果对不同的源和样本进行加权。如图2所示， g µ ( ∙ ) 和 g σ ( ∙ )分别用于分类器和不确定性预测器。网络的输出被建模为由均值 µ 和方差 σ参数化的高斯分布。具体而言，均值由原始特征向量作用，而方差量化训练样本的不确定性。对于回归任务，高斯似然性定义为：0对于分类任务，我们经常通过softmax函数将模型输出压缩，并获得一个缩放后的分类概率：0这可以解释为玻尔兹曼分布（吉布斯分布），而 σ 2 i作为重新缩放的温度log p(yi = c|xi, σi) = 1σ2ihc(xi) − log�c′̸=cexp( 1σ2ihc′(xi)),(10)Lcls(θ) = − 1MM�m=11NmNm�i=1log p(yi = c|xi, σi)= 1MM�m=11NmNm�i=11σ2iLCE(θ) + log�c′ exp� 1σ2i hc′(xi)��c′ exp�hc′(xi)�� 1σ2i≈ 1MM�m=11NmNm�i=11σ2iLCE(θ) + logσi,(11)Ltotal = Lcls(θ) + λ ∥G∥⊛ ,s.t. G = ΨR(GS1, · · · , GSM , GT ),(12)10AfUf·A(k)f= U(k)f· D99950输出的对数似然性为：0其中 h c ( x i ) 表示向量 h ( x i ) 的第 c个元素。然后，总分类损失定义为：0其中 L CE ( θ ) 表示分类交叉熵损失，其中 h ( x i )未经缩放。 M 和 N m 分别表示域和样本的数量。 logσi 防止 σ过大。具有较大不确定性的噪声数据将被分配较小的权重，即 1 /σ 2 。方程11的推导过程在补充材料中提供。03.4. 目标函数0所提出模型的总目标函数如下：0其中 � 表示两个操作：张量旋转和张量核范数， Ψ R表示将所有域特定的原型相似性矩阵堆叠成张量的操作。 θ表示神经网络参数。第一项是分类损失，第二项对堆叠张量施加TLR约束，旨在实现域的高阶对齐。03.5. T-SVDNet的优化0T-SVDNet的优化在算法2中呈现。为了使问题可行，我们引入一个辅助变量，并在网络参数收敛时交替更新它。辅助变量。为了优化方程12中的目标函数，我们首先引入一个辅助张量 A 来替代 G ，将原始优化问题转化为以下问题：0min θ,ALcls+λ∥A∥�+02∥A−G∥2F，(13)0其中η是惩罚参数。它从一个小的初始正标量η0开始，逐渐增加到最大值0算法2：T-SVDNet的优化0输入：训练数据S1，∙∙∙，SM，T；输出：T-SVDNet的模型参数θ；01 for iter=1 to maxiter do02 • 更新θ03θf←θf−∂(Lcls+η02∥A−G∥2F)/∂θf;0;θσ←θσ−∂Lcls/∂θσ;05 • 更新A07 Gf=FFT(GRot,3);08fork=1:n3do09 [U(k)f,S(k)f,V(k)f]=SVD(G(k)f);0η(S(k)f)∙V(k)Tf;011 end012ARot=IFFT(Af,3);013 A=Rotate(ARot);014η=min(ρη,ηmax)015 end0通过迭代截断值ηmax更新，即通过η=min(ρη,ηmax)更新，其中ρ表示增加的速率，所有实验中设置为1.1。我们以这种增量方式更新η的原因是随机初始化的A可能导致训练过程开始时梯度下降的错误方向。更新网络参数θ。通过梯度下降固定特征提取器θf，分类器θµ和不确定性预测器θσ的参数。更新辅助变量A。当网络参数固定时，我们通过以下方式优化与A相关的子问题：0min Aλ∥A∥�+02∥A−G∥2F。(14)0我们在傅里叶域中用类似Alg.1的基本过程解决这个问题。我们首先将张量GRot转换到傅里叶域Gf，并对每个k-th前面切片G(k)f进行矩阵SVD，并获得U(k)f，S(k)f，V(k)f。然后，0可以更新辅助变量的每个前面切片A(k)f0通过在傅里叶域中对G(k)f进行收缩操作[5, 20]，定义如下：0η(S(k)f)∙V(k)Tf，(15)0其中Dλ/η(S(k)f)=S(k)f∙J(k)f是奇异值收缩算子。J(k)f是一个对角矩阵，第i个对角元素为J(k)f(i,i)=(1-λ0ηS(k)f(i,i))+。最后，更新0A是通过从Af进行逆快速傅里叶变换获得的。MDDA78.63 ± 0.6198.78 ± 0.4293.91 ± 0.4879.33 ± 0.8089.71 ± 0.7288.12DCTN70.53 ± 1.2496.23 ± 0.8292.81 ± 0.2777.61 ± 0.4186.77 ± 0.7884.79M3SDA72.82 ± 1.1398.43 ± 0.6896.14 ± 0.8181.32 ± 0.8689.58 ± 0.5687.65T-SVDNetpart90.05 ± 0.9199.24 ± 0.0898.61 ± 0.1684.03 ± 1.2294.92 ± 0.1793.37T-SVDNetall91.22 ± 0.7499.28 ± 0.1198.63 ± 0.2284.86 ± 1.4795.71 ± 0.3093.94DCTN84.6786.7271.8495.6084.71M3SDA84.2085.6874.6294.4784.74T-SVDNet90.4390.6185.4998.5091.2599960标准方法→mm→mt→up→sv→syn平均0单一最佳0仅源52.90±0.6097.20±0.6084.70±0.8077.70±0.8085.20±0.6080.80DAN63.78±0.7196.31±0.5494.24±0.8762.45±0.7285.43±0.7780.44DANN71.30±0.5697.60±0.7592.33±0.8563.48±0.7985.34±0.8482.01CORAL62.53±0.6997.21±0.8393.45±0.8264.40±0.7282.77±0.6980.07ADDA71.57±0.5297.89±0.8492.83±0.7475.48±0.4886.45±0.6284.840源组合0仅源63.37±0.7490.50±0.8388.71±0.8963.54±0.9382.44±0.6577.71DAN67.91±0.8297.52±0.6093.45±0.4167.79±0.6286.90±0.5082.69DANN70.80±0.7797.91±0.6993.53±0.7668.54±0.5287.40±0.9083.61ADDA72.32±0.7497.88±0.6093.10±0.7975.02±0.8086.69±0.5585.02MCD72.50±0.6796.21±0.8195.33±0.7478.89±0.7887.47±0.6586.10JAN65.88±0.6897.21±0.7395.42±0.7775.27±0.7186.55±0.6484.070多源0表1. Digits-Five上的分类结果。最高值以蓝色粗体字突出显示，第二高值以绿色粗体字显示。04. 实验0在本节中，我们对几个基准数据集进行了广泛的评估，并使用最先进的方法进行了比较。04.1. 数据集0Digits-Five [15]包含5个不同的领域，包括MNIST(mt)，MNIST-M (mm)，SVHN (sv)，USPS(up)和Synthetic Digits(syn)。每个领域都包含从‘0’到‘9’的10个数字。如果使用所有数据进行训练，将会进一步提高性能。为了公平比较，我们在两种设置（T-SVDNet part和T-SVDNetall）上报告结果（见表1）。PACS[23]是一个小规模的多领域数据集，包含来自4个领域的9991张图像：photo (P)，art-painting (A)，cartoon(C)，sketch(S)，它们的风格不同。这些领域共享相同的七个类别。DomainNet[32]是一个用于多源域适应的大规模数据集。由于类别和样本数量众多（345个类别，约60万张图像）以及较大的领域偏移，DomainNet是迄今为止最困难的数据集，其中包含6个不同的领域：clipart (clp)，infograph (inf)，painting(pnt)，quickdraw (qdr)，real (rel)和sketch (skt)。04.2. 比较方法0对于所有实验，我们将我们的方法与最先进的单源和多源域适应算法进行比较。具体而言，采用两种策略来训练单源模型：Single Best和SourceCombination。前者报告了所有领域中的最佳结果，而后者简单地将所有源领域组合在一起。总体而言，这些比较方法可以大致分为两个主要组：（1）基于对抗的方法包括DANN [11]，ADDA [38]，MCD [34]，DCTN [41]，MDAN[43]和MDDA [45]；（2）另一个0方法 → A → C → S → P 平均0仅源域 75 . 97 73 . 34 64 . 23 91 . 65 76 . 30 MDAN 83 . 5482 . 34 72 . 42 92 . 91 82 . 80 MDDA 86 . 73 86 . 24 77 . 5693 . 89 86 . 110表2. PACS上的分类结果。最高值以蓝色粗体字突出显示，第二高值以绿色粗体字显示。0典型的策略是差异最小化，代表性的方法包括DAN[25]，JAN [27]，RTN [26]，CORAL [35]和M 3 SDA[32]。Source-Only直接将在源领域中训练的模型转移到目标领域。为了公平比较，在所有实验中，我们使用相同的模型架构和数据预处理程序作为比较方法。更多实现细节请参见补充材料。04.3. 实验结果0Digits-Five上的结果显示在表1中。总体而言，我们的方法在所有领域中名列前茅，平均准确率达到93.37%，比第二好的方法MDDA高出约5.25%。特别是在‘ → mm ’和‘→ syn’任务上，与MDDA相比，性能提升分别约为11.42%和5.21%。如果使用所有训练数据，性能将进一步提高到93.94%，远远超过其他算法。PACS上的结果显示在表2中。我们的方法T-SVDNet在所有领域上都取得了最佳性能，平均准确率达到91.25%，比第二好的方法MDDA高出5.14%。特别是在‘ → S’任务上，我们的方法比MDDA提高了7.93%的性能。DomainNet上的实验结果报告在表3中。总体而言，T-SVDNet取得了最佳性能99970标准方法 → clp → inf → pnt → qdr → rel → skt 平均0单一最佳0Source-Only 39.6 ± 0.6 8.2 ± 0.8 33.9 ± 0.6 11.8 ± 0.7 41.6 ± 0.8 23.1 ± 0.7 26.4 DAN 39.1 ± 0.5 11.4 ± 0.833.3 ± 0.6 16.2 ± 0.4 42.1 ± 0.7 29.7 ± 0.9 28.6 RTN 35.3 ± 0.7 10.7 ± 0.6 31.7 ± 0.8 13.1 ± 0.7 40.6 ± 0.626.5 ± 0.8 26.3 JAN 35.3 ± 0.7 9.1 ± 0.6 32.5 ± 0.7 14.3 ± 0.6 43.1 ± 0.8 25.7 ± 0.6 26.7 ADDA 39.5 ± 0.814.5 ± 0.7 29.1 ± 0.8 14.9 ± 0.5 41.9 ± 0.8 30.7 ± 0.7 28.4 DANN 37.9 ± 0.7 11.4 ± 0.9 33.9 ± 0.6 13.7 ±0.6 41.5 ± 0.7 28.6 ± 0.6 27.8 MCD 42.6 ± 0.3 19.6 ± 0.8 42.6 ± 1.0 3.8 ± 0.6 50.5 ± 0.4 33.8 ± 0.9 32.20源组合0Source-Only 47.6 ± 0.5 13.0 ± 0.4 38.1 ± 0.5 13.3 ± 0.4 51.9 ± 0.9 33.7 ± 0.5 32.9 DAN 45.4 ± 0.5 12.8 ±0.9 36.2 ± 0.6 15.3 ± 0.4 48.6 ± 0.7 34.0 ± 0.5 32.1 RTN 44.2 ± 0.6 12.6 ± 0.7 35.3 ± 0.6 14.6 ± 0.8 48.4 ±0.7 31.7 ± 0.7 31.1 ADDA 47.5 ± 0.8 11.4 ± 0.7 36.7 ± 0.5 14.7 ± 0.5 49.1 ± 0.8 33.5 ± 0.5 32.2 JAN 40.9 ±0.4 11.1 ± 0.6 35.4 ± 0.5 12.1 ± 0.7 45.8 ± 0.6 32.3 ± 0.6 29.6 MCD 54.3 ± 0.6 22.1 ± 0.7 45.7 ± 0.6 7.6 ±0.5 58.4 ± 0.7 43.5 ± 0.6 38.50多源0MDAN 52.4 ± 0.6 21.3 ± 0.8 46.9 ± 0.4 8.6 ± 0.6 54.9 ± 0.6 46.5 ± 0.7 38.4 MDDA 59.4 ± 0.6 23.8 ± 0.853.2 ± 0.6 12.5 ± 0.6 61.8 ± 0.5 48.6 ± 0.8 43.20DCTN 48.6 ± 0.7 23.5 ± 0.6 48.8 ± 0.6 7.2 ± 0.5 53.5 ± 0.6 47.3 ± 0.5 38.2 M 3 SDA 58.6 ± 0.5 26.0 ± 0.952.3 ± 0.6 6.3 ± 0.6 62.7 ± 0.5 49.5 ± 0.8 42.6 T-SVDNet 66.1 ± 0.4 25.0 ± 0.8 54.3 ± 0.7 16.5 ± 0.9 65.4 ±0.5 54.6 ± 0.6 47.00表3. DomainNet上的分类结果。最佳值以蓝色粗体字体突出显示，次佳值以绿色粗体字体突出显示。0方法 → mm → mt → up → sv → syn 平均增益0Source-Only 67.25 ± 0.81 98.88 ± 0.49 97.87 ± 0.43 77.76 ± 0.92 92.41 ± 0.57 86.83 - T-SVDNet (+E) 73.85 ± 0.8498.96 ± 0.35 97.87 ± 0.65 77.86 ± 0.84 92.44 ± 0.39 88.19 1.36 ↑ T-SVDNet (+E+T) 88.76 ± 0.41 99.16 ± 0.26 98.09 ±0.14 82.94 ± 0.90 94.47 ± 0.62 92.68 5.85 ↑ T-SVDNet (+E+T+U) 91.22 ± 0.74 99.28 ± 0.11 98.63 ± 0.22 84.86 ± 1.4795.71 ± 0.30 93.94 7.11 ↑0表4. 在Digits-Five上对模型的关键组件进行消融研究。0在六个任务中有五个取得了最好的结果。在六个领域上，它的平均准确率为47.0%，在列表中排名第一，相比于MDDA，性能提升了3.8%，这主要归因于对不同领域和类别之间高阶关系的全面探索。值得注意的是，许多MDA方法的性能在‘→qdr’任务上明显下降，由于负迁移，而我们的方法由于不确定性加权策略，仍然获得了更好的性能。通过在训练时过滤掉靠近决策边界的噪声源样本，避免了负迁移，同时充分利用了噪声强度较低的干净数据。05. 分析0消融研究。我们进一步验证了我们框架中一些关键组件的效果。表4显示了在Digits-Five数据集上进行的对照实验的结果。作为参考，我们报告了直接将在源域上训练的模型转移到目标域的Source-Only的性能。为了方便起见，‘+E’，‘+T’，‘+U’分别表示目标域上的熵最小化约束，张量低秩约束和不确定性加权。根据表4，我们有以下观察结果：（1）熵最小化明显提升了性能，这是由于对目标域的利用；（2）值得注意的是，张量低秩约束在‘→mm’任务上显著提高了14.91%的性能。这归因于不同域之间的高阶对齐和域不变特征的提取；（3）不确定性加权策略显著提升了性能。0图3. “→mm”任务上的张量核范数和分类准确率曲线。0egy进一步提高了平均性能1.26％，这表明我们的模型能够在领域之间学习更具传递性的特征。TLR约束的影响。我们计算张量核范数（TNN），通常用作张量秩的近似度量。如图3所示，我们比较了带有和不带有TLR约束的TNN曲线。我们发现带有TLR的TNN在前几个时期内显著下降，并稳定在大约46左右，而不带TLR的基线下降缓慢，并且更早地变得稳定。这证明我们提出的TLR约束是有效的，并带来了很大的性能改进。特征可视化。为了证明我们模型的传递能力，我们在PACS上可视化了不同模型在'→C'任务上的特征嵌入。如图4（a）所示，由Source-Only学习的目标特征几乎与源领域和不同类别不匹配。99980图4.PACS上'→C'任务上特征嵌入的t-SNE可视化。顶部行表示类别信息（每种颜色代表一类）。底部行表示领域信息（红色：源领域；紫色：目标领域）。0图5.Digits-Five上'→mm'任务的相似性矩阵可视化。顶部行表示没有TLR约束的模型，底部行表示T-SVDNet。蓝色和绿色分别代表源领域和目标领域。0目标领域完全混合在一起。与M3SDA和Source-Only相比，我们的方法产生了具有更清晰边界的聚类，这表明T-SVDNet在目标上具有更好的传递能力，并且能够消除领域差异而不牺牲判别能力。相似性矩阵的可视化。为了进一步验证TLR约束的效果，我们在Digits-Five数据集上可视化了三个领域的原型相似性矩阵，如图5所示。与没有TLR约束的基线（顶部行）相比，我们的方法（底部行）能够捕捉到更清晰的类别数据结构。具体来说，底部行的矩阵包含较少的领域特定噪声，因为我们搜索了一个最低秩的张量结构，并强制要求原型之间的相关性在不同领域中保持一致。特别是在目标领域（MNIST-M）上，与Source-Only相比，噪声大幅减少。这些结果表明TLR约束在对齐源领域和目标领域方面的有效性。0图6. (a) Digits-Five上不同领域的不确定性分布。 (b)MNIST上单一领域的不确定性分布随噪声强度r的增加而变化。0不确定性估计。我们进行定性和定量实验来证明模型测量噪声强度（数据不确定性）的能力。（1）领域间加权。图6（a）显示了'→mm'任务上不同领域的不确定性分布。总体而言，估计的不确定性与领域质量高度相关。例如，高质量领域MNIST（蓝色曲线）的不确定性分布比低质量领域SVHN（绿色曲线）更集中。（2）领域内加权。如图6（b）所示，我们将从高斯分布N（0，I）中采样的噪声添加到原始图像中，即˜xi = xi +rϵi，其中ϵ表示噪声，r控制噪声的强度。根据图6（b），当噪声强度较小时（r = 0.1），噪声和干净样本（r =0）的曲线高度重叠。然而，随着噪声强度的增加（r =0.5，1），不确定性分布变得更加分散。06. 结论0在本文中，我们提出了用于多源领域自适应的T-SVDNet，其特点是将张量奇异值分解纳入神经网络训练过程中。通过原型相似性矩阵建模类别关系，旨在捕捉复杂的数据结构。此外，通过对领域特定相似性矩阵堆叠的张量施加低秩约束，充分探索不同领域之间的高阶关系。此外，提出了一种新颖的不确定性感知加权策略，用于组合不同领域的数据分布，从而减少由噪声数据引起的负迁移。我们采用交替优化算法来高效地训练T-SVDNet。在三个公共基准数据集上进行的大量实验证明了与最先进方法相比的有利性能。07. 致谢0本工作得到中国国家重点研发计划的支持，编号为2019YFB2101901，以及中国国家自然科学基金的支持，编号为61925602和61732011.99990参考文献0[1] Shai Ben-David, John Blitzer, Koby Crammer, AlexKulesza, Fernando Pereira, and Jennifer Wortman Vaughan.从不同领域学习的理论. 机器学习, 79(1):151–175, 2010.0[2] Himanshu S Bhatt, Arun Rajkumar, and Shourya Roy.用于跨领域分类的多源迭代自适应. pages 3691–3697, 2016.0[3] John Blitzer, Koby Crammer, Alex Kulesza, FernandoPereira, and Jennifer Wortman. 领域自适应的学习界限. pages129–136, 2007.0[4] Charles Blundell, Julien Cornebise, Koray Kavukcuoglu,and Daan Wierstra. 神经网络中的权重不确定性.arXiv预印本arXiv:1505.05424, 2015.0[5] Jian-Feng Cai, Emmanuel J. Cand`es, and Zuowei Shen.用于矩阵补全的奇异值阈值算法. Siam Journal on Optimization,20(4):1956–1982, 2010.0[6] Jie Chang, Zhonghao Lan, Changmao Cheng, and YichenWei. 面部识别中的数据不确定性学习. In2020年IEEE/CVF计算机视觉与模式识别会议论文集, pages5710–5719, 2020.0[7] Jiwoong Choi, Dayoung Chun, Hyun Kim, and Hyuk-JaeLee. 高斯yolov3: 使用定位不确定性的准确快速目标检测器. In2019年IEEE/CVF国际计算机视觉会议论文集, pages 502–511,2019.0[8] Roberto Cipolla, Yarin Gal, and Alex Kendall.使用不确定性进行多任务学习以衡量场景几何和语义的损失. In2018年IEEE/CVF计算机视觉与模式识别会议论文集, pages7482–7491, 2018.0[9] Michael Havbro Faber.在工程决策分析中处理不确定性和概率.海洋力学和北极工程学会交易杂志, 127(3):243–248, 2005.0[10] Yarin Gal and Zoubin Ghahramani.Dropout作为贝叶斯近似:

下载后可阅读完整内容，剩余1页未读，立即下载