学习域自适应问题中的希尔伯特空间

24 浏览量更新于2023-10-15 收藏 13.67MB PDF 举报

域自适应

特征学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

38450学习不变的希尔伯特空间进行域自适应0Samitha Herath 1, 2, Mehrtash Harandi 1, 2和Fatih Porikli 101 澳大利亚国立大学，2DATA61-CSIRO堪培拉，澳大利亚0{samitha.herath, mehrtash.harandi}@data61.csiro.au, fatih.porikli@anu.edu.au0摘要0本文介绍了一种学习方案，用于构建一个希尔伯特空间（即，一个沿着其内积的向量空间），以解决无监督和半监督域自适应问题。这是通过学习从每个域到潜在空间的投影，沿着潜在空间的马氏距离同时最小化域方差的概念，同时最大化判别能力的度量来实现的。特别地，我们利用黎曼优化技术来匹配从不同域中投影到潜在空间的样本的统计特性（例如，一阶和二阶统计量）。在有类标签的情况下，我们进一步认为共享相同标签的样本形成更紧凑的聚类，同时将来自不同类别的样本分开。我们对使用手工制作和深度网络特征的视觉域自适应任务的提议进行了广泛的评估和对比。我们的实验表明，即使使用简单的最近邻分类器，所提出的方法也可以胜过几种最先进的方法，从更复杂的分类方案中受益。01. 引言0本文提出了一种学习算法，以解决无监督[21, 16,49]和半监督[27, 14,29]域自适应问题。我们的目标是学习一个最小化域差异的潜在空间。我们展示了这样一个空间可以通过首先匹配投影域的统计特性（例如，协方差矩阵），然后调整潜在空间的马氏距离到标记数据，即最小化共享相同类标签的样本之间的距离，同时将具有不同类标签的样本分开。我们通过使用黎曼几何的概念来共同学习投影到潜在空间和潜在空间上的马氏距离的几何解决方案。由于深度学习的发展，我们正在目睹图像技术分类准确性的快速增长，如果子-0大量的标记数据已经提供[35, 48, 25,26]。然而，将获得的知识应用于有限的标记数据（甚至没有标签）的新应用远非明确[33, 37, 19, 8,51]。更复杂的是，由于数据集的固有偏差[50,47]，大量辅助数据的直接使用并不能保证性能的提升。例如，ImageNet[43]数据对于设计用于分类手机相机拍摄的图像的应用几乎没有用处。域自适应（DA）是将可用的辅助资源中的知识转移到新问题中以减少这种不希望的影响的科学。解决DA问题的最自然的方法是通过识别最小化域不匹配概念的公共空间的结构。一旦获得这样的空间，就可以在其中设计一个分类器，希望该分类器在域之间的不匹配最小化的情况下表现得同样好。为此，几项研究假设：要么1.目标1域的子空间是执行DA并学习源域应如何映射到其中的正确空间[45, 29]，要么2.来自源域和目标域的子空间对于分类同样重要，因此尝试学习它们的演变[22, 21]或相似度度量[46, 52,14]。客观地说，许多解决方案（包括上述方法）的常见做法是通过将学习问题的两个元素分开来简化学习问题。也就是说，算法首先固定一个空间（例如，在[16,29]中固定源子空间），然后学习如何相应地从域中转移知识。一个好奇的人可能会问，为什么我们首先要求一个预定义和固定的空间。在本文中，我们提出了一种学习方案，避免了这种分离。也就是说，我们不假设DA的空间或变换是已知的和固定的。01在DA术语中，目标域指与任务直接相关的数据。源域数据用作知识传递的辅助数据。Z =�W Ts xsj�ns � �W Tt xtj�ntlj=1,Ld = 1NpNp�k=1ℓβ�M, yk, z1,k − z2,k, 1�+ r(M),(2)withℓβ�M, y, x, u�= 1β log�1 + exp�βy(xT Mx − u)��.(3)38460本质上，我们提出通过共同映射将域映射到Hilbert空间的结构（即其度量）来学习。这通过以下贡献实现：0（i）我们提出学习潜在空间的结构，以及源域和目标域的相关映射，以解决无监督和半监督DA的问题。（ii）为此，我们提出在潜在空间中最大化判别能力的概念。同时，我们希望潜在空间最小化源域和目标域之间的统计不匹配（见图1的概念图）。（iii）鉴于所得问题的复杂性，我们对问题进行了严格的数学建模。具体而言，我们利用Riemannian几何和矩阵流形上的优化技术来解决我们的学习问题2。（iv）我们对比了我们的解决方案与几种基线和最先进的方法在解决无监督和半监督DA问题方面的性能。02. 提出的方法0在这项工作中，我们有兴趣学习一个不变的潜在空间（ILS），以减少域之间的差异。我们首先定义我们的符号。粗体大写字母表示矩阵（例如X），粗体小写字母表示列向量（例如x）。In是n×n的单位矩阵。Sn++和St(n,p)分别表示SPD和Stiefel流形，并将在稍后正式定义。我们用Xs�Rs和Xt�Rt表示源域和目标域。源域和目标域的训练样本分别由{xsi,ysi }nsi=1和{ xti}nti=1表示。目前，我们假设只有源数据被标记。稍后，我们将讨论如何从标记的目标数据中受益的提出的学习框架。我们在学习ILS时的想法是确定从源域和目标域到潜在p维空间H�Rp的变换Ws: Xs→H和Wt:Xt→H。我们还希望为潜在空间配备一个马氏度量M∈Sp++，以减少投影后的源样本和目标样本之间的差异（见图1的概念图）。为了学习Ws，Wt和M，我们提出最小化形式为L = Ld + λLu的代价函数。（1）0在方程1中，Ld是标记样本之间的差异度量。项Lu量化了统计差异的概念。02 我们的实现可在https://sherath@bitbucket.org/sherath/ils.git上找到。0L是潜在空间中源样本和目标样本之间的差异度量。因此，最小化L会导致学习一个潜在空间，不仅减少标记样本之间的差异，而且从统计角度上匹配域。组合权重λ用于平衡这两个项。方程1中的下标“d”和“u”代表“判别”和“无监督”。这样命名的原因很快就会变得清楚。下面我们详细介绍Ld和Lu的形式和性质。02.1. 判别损失0方程1中引入Ld的目的是为了给潜在空间H提供一个度量，以最小化来自同一类别的样本之间的差异，并最大化来自不同类别的样本之间的差异。设Z ={zj}nj=1为H中的标记样本集。在无监督领域自适应中，zj =WTsxsj且n = ns。在半监督领域自适应中，0j = 10在这里，我们假设提供了ntl个标记的目标样本（从可用的nt个样本中选择）。从H中的标记样本中，我们创建N p对，形式为(z1,k, z2,k)，k=1,2, ..., N p，以及它们的相关标签yk∈{−1,1}。这里，当且仅当z1,k的标签与z2,k的标签相似时，yk=1，否则为−1。也就是说，如果yk=1，则(z1,k,z2,k)是相似的，否则是不相似的。为了学习度量M，我们认为相似对之间的距离应该很小，同时使不相似对之间的距离很大。特别地，我们定义Ld为，0在这里，ℓβ是根据大间隔结构量身定制的广义逻辑函数（参见图2），具有一个间隔u3。首先注意到方程3中的二次项（即xTMx）测量了如果根据方程2使用，则z1,k和z2,k之间的马氏距离。还要注意，ℓβ�∙，∙，x，∙�=ℓβ�∙，∙，−x，∙�，因此样本在对中的顺序不重要。为了更好地理解函数ℓβ的行为，假设函数被输入一个相似的对，即yk=1。对于0暂时保持间隔为u=1，稍后将用此来解释软间隔扩展。r(M) = 1pδs(M, Ip).(4)δs(P , Q) = log det�P + Q2log det�P Q�,(5)Np�k=1ℓβ�M, yk, z1,k − z2,k, 1 + ykǫk�+r(M) + 1 ��ǫ2k,(6)38470图1.我们提议的概念图。标记形状表示实例标签，颜色表示它们的原始域。源域和目标域都使用变换Ws和Wt映射到潜在空间。在潜在空间中定义的度量M被学习以最大化其中样本的判别能力。虚线椭圆表示域分布。我们的损失函数的统计损失旨在减少潜在空间中的这种差异。我们的学习方案共同确定变换Ws和Wt以及度量M。此图最好以彩色显示。0为了讨论的目的，也假设β=1。在这种情况下，如果z1,k和z2,k之间的距离减小，ℓβ会减小。对于一个不相似的对（即yk=−1），为了获得更小的目标，相反的情况应该发生。也就是说，一对样本之间的马氏距离应该增加。0函数ℓβ�∙，∙，x，∙�可以理解为铰链损失函数的平滑可微形式。实际上，如果β→∞，ℓβ�∙，∙，x，∙�渐近地达到铰链损失函数。ℓβ�∙，∙，x，∙�的平滑行为不仅在优化方案中受到欢迎，而且避免了潜在空间中的样本坍缩为一个点。0图2.对于参数β的不同值，我们提出的ℓβ(3)在u=1时的行为。这里，横轴是马氏距离的值，函数是为y=+1绘制的。当β→∞时，函数趋近于铰链损失。也绘制了软间隔情况的示例（参见方程6），其中β=5。图像最好以彩色显示。0按照度量学习的一般做法，我们通过r(M)对度量M进行正则化。从logdet(∙)函数导出的差异是文献中正则化马氏距离度量的熟悉面孔[13, 45]。0在可能的选择中，我们使用Stein di-0在这项工作中，我们使用收敛[11]。因此，0� − 10对于 P ，Q ∈ S ++。我们之所以使用斯坦散度，是因为它具有独特的性质。斯坦散度是对称的，对仿射变换不变，并且与SPD流形上的测地线距离密切相关[11, 24, 9]。0软间隔扩展0对于 β 的较大值，方程 2中的代价函数寻求相似对的距离小于1，同时认为不相似对的距离大于1。这种在 ℓ β � ∙ , ∙ , x , ∙ �的设计中的硬间隔并不理想。例如，在有大量对的情况下，通常会有异常值。强制异常值适应硬间隔可能导致过拟合。因此，我们提出了方程 3的软间隔扩展。软间隔通过根据以下规则将非负松弛变量 � k与一对相关联来实现0L d = 10N p0N p0其中也考虑了松弛变量的正则化。02.2. 匹配统计属性0由于统计差异，领域之间存在不兼容性。匹配一阶38480在适应的目的上，研究了两个领域的统计量[40, 2,29]4。在我们的框架中，匹配领域均值可以很容易地实现。特别地，令 ¯ x s i = x s i − m s 和 ¯ x t j = x t j − m t分别为中心化的源样本和目标样本，其中 m s 和 m t是相应领域的均值。很容易得出潜在空间中的领域均值为零，因此实现了匹配。为了超越一阶统计量，我们提出了匹配二阶统计量（即协方差矩阵）。领域的协方差反映了其特征之间的关系。因此，匹配源域和目标域的协方差实际上改善了跨特征关系。我们使用 L u 损失函数在方程 1中捕捉源域和目标域在潜在空间中的协方差不匹配。鉴于协方差矩阵是SPD流形上的点，我们利用斯坦散度来衡量它们之间的差异。这导致我们将 L u 定义为0L u = 0p δ s ( W T s Σ s W s , W T t Σ t W t ) , (7)0其中 Σ s ∈ S s ++ 和 Σ t ∈ S t ++是源域和目标域的协方差矩阵。我们强调，如上所述的匹配统计属性是一种无监督技术，使我们能够处理无监督领域自适应。02.3. 分类协议0在学习了 W s ，W t 和 M之后，将来自源域和目标域（如果有的话）的训练样本分别使用 W s M 1/2 和 W t M 1/2映射到潜在空间。对于来自目标域的查询 x t q，其潜在空间表示为 M 1/2 W T t x t q，随后由最近邻分类器进行分类。3. 优化0我们算法的目标是学习转换参数（W s 和 W t ）、度量 M和松弛变量 � 1 , � 2 , ...� N p （参见方程 6 和方程 7）。与降维的一般实践一致，我们建议对 W s 和 W t进行正交约束。即 W T s W s = W T t W t = I p。我们在补充材料中提供了一个实验证明正交约束如何提高所提出框架的判别能力。04最大均值差异（MMD）[5]在领域自适应中的使用是文献中一个被广泛采用的想法（例如[40, 2,29]）。从经验上讲，确定MMD归结为计算将领域样本提升到再生核希尔伯特空间时的领域均值之间的距离。一些研究声称通过MMD匹配一阶统计量是一种较弱的领域自适应形式。我们不支持这种说法，因此不认为我们的解决方案是通过最小化MMD来进行领域自适应的方法。我们注意到，对于所有的s ∈ S ，有 W T s ¯ x s i = W T s ¯ x s i = 0。这对于目标领域也成立。0方程1中描述的问题确实是一个非凸和约束优化问题。可以采用投影梯度下降法（PGD）[7]来最小化方程1。在PGD中，优化通过将梯度下降更新投影到约束集上来进行。例如，在我们的情况下，我们可以先忽略W_s上的正交约束来更新W_s，然后使用特征分解将结果投影到正交矩阵集合上。因此，可以通过交替更新W_s、W_t、度量M和松弛变量来进行优化。在PGD中，为了进行投影，约束集需要是闭合的，尽管在实践中可以使用开放集。例如，SPD矩阵集合是开放的，尽管可以使用特征分解将对称矩阵投影到该集合上。经验上，PGD在解决我们的问题时表现出不稳定和数值不稳定的行为。这可以归因于方程1的非线性性质，问题中存在开放集约束，或者可能是两者的组合。为了减轻上述困难，我们提出了一种更原则的方法来最小化方程1，即利用黎曼优化技术。我们稍作偏离，并简要描述下面的黎曼优化方法。0在黎曼流形上的优化。0考虑形式为的非凸约束问题0最小化f(x) s.t. x∈M, (8)0其中M是一个黎曼流形，即非正式地说，它是一个在局部类似于欧几里得空间的光滑曲面。在黎曼流形上的优化技术（例如共轭梯度法）从初始解x(0)∈M开始，通过沿着梯度确定的测地线迭代改进解。例如，在黎曼梯度下降法（RGDM）的情况下，更新规则如下0x(t+1) = τx(t) − αgrad f(x(t)), (9)0其中α>0是算法的步长。这里，τx(∙):TxM→M被称为重返映射6，它沿着下降方向移动解，同时确保新解在流形M上，即它在约束集内。TxM是M在x处的切空间，可以将其视为一个向量空间，其向量是在M上定义的所有函数的梯度。06严格来说，与指数映射相反，重返映射只保证在测地线上局部地拉动切向量，即靠近切空间原点。然而，重返映射通常比指数映射更容易计算，并且在黎曼优化中已被证明是有效的[1]。38490由于空间限制，我们将更多关于黎曼优化技术的细节推迟到补充材料中。现在，可以说在黎曼流形上进行优化需要黎曼梯度的形式、重返映射和目标函数关于其参数的梯度（用�表示）。方程1中的约束是正交性（变换W_s和W_t）和度量M的正定性。这些约束的几何性质由Stiefel[30, 23]和SPD[24,10]流形捕捉，形式上定义为0定义1（Stiefel流形）：具有正交列的（n×p）维矩阵，其中p≤n，配备Frobenius内积[1]，构成一个紧致的黎曼流形，称为Stiefel流形St(p, n)。0St(p, n) � {W∈Rn×p: WTW = Ip}. (10)0定义2（SPD流形）：具有仿射不变黎曼度量（AIRM）[42]的（p×p）维实对称正定矩阵的集合形成SPD流形Sp++。0Sp++ � {M ∈ Rp×p: vTMv > 0, �v ∈ Rp - {0p}}. (11)0可以使用Riemannian优化交替更新Ws、Wt和M以及松弛变量。如上所述，这样做的要素是1.Stiefel和SPD流形的Riemannian工具，以及2.目标函数对其参数的梯度形式。为了完全公正，在表1中我们提供了Stiefel和SPD流形的Riemannian度量、Riemannian梯度形式和回退。在表2中，提供了方程1对Ws、Wt和M以及松弛变量的梯度。推导的细节可以在补充材料中找到。关于松弛变量的一个小注记值得一提。为了保持�k的非负约束，我们定义�k =evk，并对vk进行优化。这反过来使得松弛变量的优化无约束。0注1从几何角度来看，我们可以利用参数空间的乘积拓扑结构来避免交替优化。更具体地说，集合0M prod. = St(p, s) × St(p, t) × Sp++ × RNp，(12)0可以使用乘积拓扑的概念给出一个Riemannian流形的结构[1]。0注2在图3中，我们比较了PGD、交替Riemannian优化和使用乘积几何的优化的收敛行为。虽然优化在07注意，文献对这个选择和另一种Riemannian度量形式存在分歧。详见[15]。0图3.使用PGD（红色曲线）、交替Riemannian优化（蓝色曲线）和乘积拓扑（绿色曲线）优化方程1。使用乘积拓扑的优化收敛更快，但使用交替Riemannian优化可以获得更低的成本。0M prod.收敛更快，交替方法导致更低的损失。这种行为类似于随机梯度下降与批量梯度下降之间的差异。注3优化的复杂性取决于标记对的数量。如果处理一个非常大规模的问题，可以随机采样相似/不相似对的集合[39, 44,4]。在我们的实验中，我们没有遇到任何使用一台配备32GB内存的i7台式机进行优化的困难。04. 相关工作0关于领域自适应的文献涵盖了非常广泛的范围（参见[41]进行最近的调查）。我们的解决方案属于子空间学习的领域自适应（DA-SL）类别。因此，我们仅限于在DA-SL范畴下的方法进行回顾。构建潜在空间的一个值得注意的例子是Daum´eIII等人的工作[12]。特别地，作者提出使用两个固定和预定义的变换将源域和目标域数据投影到一个共同的高维空间。作为要求，该方法仅接受具有相同维度的域，因此不能直接用于适应异构域。Goplan等人观察到连接源域和目标域子空间的测地线传达了DA的有用信息，并提出了采样测地线流（SGF）方法[22]。测地线流核（GFK）是SGF技术的改进，其中不是在测地线上采样几个点，而是使用整个曲线进行域自适应[21]。在这两种方法中，域子空间是固定的，并通过主成分分析（PCA）或偏最小二乘回归（PLS）[34]获得的。与我们的解决方案相反，在SGF和GFK学习中，域子空间与知识转移算法是不相交的。在我们的实验中，我们将看到St(p, n)SpMRetractionuf(W + ξ)M12 expm(M − 12 ξM − 12 )M12W s βNpiisjt∇Mℓβ1Np (1 + r−1)−1(W Ts xsi − W Tt xtj)(xsiT W s − xtjT W t)∇vkℓβ−1Np evk(1 + r−1)−1∇W sLu1pΣsW s�2�W Ts ΣsW s + W Tt ΣtW t�−1−�W Ts ΣsW s�−1�38500表1. St(p, n)和Sp++上的Riemannian度量、梯度和回退。这里，uf(A) = A(A^TA)^(-1/2)，得到一个正交矩阵，sym(A) = 102 ( A + A T ) 且 expm( ∙ ) 表示矩阵指数。0矩阵表示 W ∈ R n × p M ∈ R p × p0黎曼度量 g ν ( ξ, ς ) = Tr( ξ T ς ) g S ( ξ, ς ) = Tr � M − 1 ξ M − 1 ς �0黎曼梯度 � W ( f ) − W sym � W T � W ( f ) �0表2. 软间隔 ℓ β 和 L u对模型参数和松弛变量的梯度。为了简化问题，我们只考虑一个标记为相似（y k = +1）的对 x s i 和 x t j。这里，r = exp � β � ( W T s x s i − WT t x t i ) T M ( W T s x s i − W T t x t i ) − 1 − e v k ��。0我们的方法确定的子空间甚至可以提升GFK的性能，显示了联合学习领域子空间和知识传递的重要性。在[38]中，字典学习用于插值中间子空间。通过固定一个域的子空间/表示来进行域自适应是许多最近工作中的一个流行主题，因为它简化了学习方案。例如，最大间隔自适应[27,14]，[45]的度量/相似度学习及其核扩展[36]，[29]的地标方法，[16,17]的对齐技术，[49]的相关匹配以及使用最大均值差异（MMD）[5]进行DA的方法[40,2]。与上述方法不同，一些研究选择联合学习领域表示和知识传递方法。两个代表性的工作是HeMap[46]和流形对齐[52]。HeMap学习两个投影以最小化实例差异[46]。然而，该问题的制定要求在训练中需要相等数量的源实例和目标实例。[52]的流形对齐算法试图在潜在空间中保持标签结构。然而，该算法必须能够访问源域和目标域的标记数据。我们的解决方案学习所有转换到潜在空间的变换。我们不依赖于分离地学习到的子空间表示DA框架。通过使用潜在空间，我们的算法不受源数据和目标数据具有相似维度或结构的应用的限制。05. 实验评估0我们在半监督和无监督设置下进行了大量实验，涵盖了手工特征（SURF）到当前最先进的深度网络特征（VGG-Net）。为了比较，我们使用原始作者提供的实现。我们的方法被标记为ILS。05.1. 实现细节0由于不同对的数量自然比相似对的数量多，我们从不同对中随机抽样，以保持这两组的大小相等。我们使用PCA对投影矩阵Ws和Wt进行初始化，遵循传导协议[21, 16, 27,29]。对于半监督设置，我们使用在相似对协方差上学习的马氏距离度量M进行初始化[31]，对于无监督设置，我们使用单位矩阵进行初始化。对于我们的所有实验，我们设置λ=1。我们在补充材料中展示了我们的解决方案对λ的鲁棒性。我们使用[6]提供的工具箱进行实现。0备注4：为了简化确定方程3中的β的方法，我们提出了一种在我们的实验中被证明有效的启发式方法。为此，我们建议将β设置为相似对距离的标准差的倒数。05.2. 半监督设置0在我们的半监督实验中，我们遵循[28]提供的Of�ce+Caltech10数据集的标准设置，使用其提供的训练/测试划分。Of�ce+Caltech10数据集包含来自4个不同来源和10个对象类的图像。相应的领域是亚马逊、网络摄像头、单反相机和Caltech。我们对DA-SL算法使用20维子空间。我们使用SURF[3]进行手工特征实验。我们使用[48]的网络模型提取VGG-Net特征进行深度网络特征实验8。我们将我们的性能与以下基准进行比较：1-NN-t和SVM-t：仅在目标领域上训练的基本最近邻（1-NN）和线性SVM分类器。HFA[14]：该方法基于最大边界框架进行潜在空间学习。与其原始实现一样，我们使用RBF核SVM进行评估。MMDT[27]：该方法同时学习源领域和目标领域之间的转换，并使用线性SVM进行分类。CDLS[29]：这是跨领域地标搜索算法。我们使用作者推荐的参数设置（δ = 0.5，参见[29]的表示）。0在无监督实验中，我们同样使用SURF和VGG-FC6特征。38510表3和表4分别报告了使用手工制作的SURF和VGG-FC6层特征的性能。对于SURF特征，我们的解决方案在12个案例中有7个获得了最佳性能，对于VGG-FC6特征，我们的解决方案在9个集合中排名第一。我们注意到1-NN-t基准在SURF和VGG-FC6特征上的表现最差。因此，很明显所使用的特征不利于最近邻分类器。我们观察到Caltech和Amazon领域包含最多的测试实例。尽管所有测试方法在这些领域上的性能都有所下降，特别是在Caltech上，但我们的方法在几乎所有领域转换中都排名第一。05.3. 无监督设置0在无监督领域自适应问题中，只有来自源领域的标记数据可用[16,21]。我们针对这个设置进行了两组实验。(1)我们在Of�ce+Caltech10数据集上评估对象识别性能。与半监督设置类似，我们使用SURF和VGG-FC6特征。我们的结果表明，我们的方法学习到的转换是优越的领域表示。(2)我们分析了当领域差异逐渐增加时我们的性能。这个实验是在PIE-Face数据集上进行的。我们将我们的方法与以下基准进行比较：01-NN-s和SVM-s：仅在源领域上训练的基本1-NN和线性SVM分类器。GFK-PLS[21]：使用偏最小二乘（PLS）实现来初始化源子空间的测地流核算法。结果通过核NN进行评估。SA[16]：这是子空间对齐算法。结果使用1-NN进行评估。CORAL[49]：相关对齐算法，使用线性SVM在由相关匹配形成的相似性矩阵上进行训练。05.3.1 Of�ce+Caltech10（无监督）0我们在Of-�ce+Caltech10数据集上遵循[21]提供的原始协议。请注意，几个基线确定每个领域的最佳维度，以在SURF特征上实现最大准确性。我们观察到，在使用SURF特征的解决方案中，维度在[20,120]范围内提供一致的结果。对于VGG特征，我们经验性地发现维度为20最适合与比较的DA-SL算法。表5和表6分别展示了使用SURF和VGG-FC6特征的无监督设置结果。对于这两种特征类型，我们的解决方案在12个领域转换中有8个获得了最佳性能。0图4. 当GFK [ 21 ]和SA [ 16]的初始PCA子空间被PLS和我们的Ws转换矩阵替换时，在Of�ce-Caltech数据集上的准确率增益。0学习的转换作为子空间表示：我们将GFK [ 21 ]和SA [ 16]都视为DA-SL算法。这两种方法都使用PCA子空间来适应领域。然而，没有强烈的理由认为PCA子空间有利于捕捉迁移学习的领域结构。Gong等人[ 21 ]表明，当使用PLS9来定义源子空间时，他们的性能会提高。然而，这种子空间学习与他们的领域自适应技术是不相关的。我们注意到，更合适的初始化方法是使用一个与领域自适应框架一起学习的子空间表示。我们通过使用我们学到的源转换矩阵Ws作为[ 21 ]和[ 16]的源子空间初始化来经验性地证明了这一点。图4比较了使用PLS和我们的Ws初始化相对于PCA空间的准确率增益。很明显，我们的Ws初始化获得了最高的分类准确率增益。这证明Ws能够学习到更有利于DA的子空间表示。05.3.2 PIE-Multiview人脸0PIE多视图数据集包括来自不同视角、光照条件和表情的67个人的人脸图像。在这个实验中，我们将C27（向前看）作为源领域，C09（向下看）和C05、C37、C02、C25（从左向右逐渐增加角度，见图5）作为目标领域。我们期望人脸倾斜角度能够反映迁移学习的复杂性。我们将图像归一化为32×32像素，并将灰度图像向量化作为特征。经验上，我们观察到如果特征被归一化为单位ℓ2范数，GFK [ 21 ]和SA [16]的性能会更好。因此，我们在评估中使用了ℓ2归一化特征。所有基于子空间的方法（即[ 21 , 16]）的子空间维度都是100。表7列出了倾斜角度增加时的分类准确率。我们的解决方案在4个视图上取得了最佳得分，并在C09上取得了第二好的得分。随着倾斜角度的增加，0尽管使用了有标签的数据，但这种方法属于无监督设置，因为它不使用有标签的目标数据。1-NN-t34.533.619.729.535.918.927.133.418.629.233.534.1SVM-t63.757.232.246.056.529.745.362.132.045.160.256.3HFA [14]57.455.131.056.556.529.042.960.530.943.858.155.6MMDT [27]64.656.736.447.767.032.246.974.134.149.463.856.5CDLS [29]68.760.435.351.860.733.550.768.534.950.966.359.81-NN-t81.079.167.876.177.965.277.181.765.678.380.277.7SVM-t89.188.277.386.587.776.387.388.376.387.587.884.9HFA [14]87.987.175.585.187.374.485.986.974.886.286.087.0MMDT [27]82.577.178.784.785.173.683.686.171.885.982.877.9CDLS [29]91.286.978.187.488.578.288.190.777.988.089.786.3A→WA→DA→CW→AW→DW→CD→AD→WD→CC→AC→WC→D1-NN-s23.122.320.014.731.312.023.051.719.921.019.023.6SVM-s25.633.435.930.467.723.434.670.231.243.830.540.3GFK-PLS [21]35.735.137.935.571.229.336.279.132.740.435.841.1SA [16]38.637.635.337.480.332.338.083.632.439.036.839.6CORAL [49]38.738.340.337.884.934.638.185.934.247.239.240.7A→WA→DA→CW→AW→DW→CD→AD→WD→CC→AC→WC→D1-NN-s60.952.370.162.483.957.557.086.748.081.965.955.6SVM-s63.151.774.269.889.464.758.791.855.586.774.861.5GFK-PLS [21]74.163.577.777.992.971.369.992.464.086.276.566.5SA [16]76.064.977.176.690.470.769.090.562.383.976.066.2CORAL [49]74.867.179.081.292.675.275.894.664.789.477.667.61-NN-s92.555.728.514.811.0SVM-s87.865.035.815.716.7GFK-PLS [21]92.574.032.114.112.3SA [16]97.985.947.916.613.9CORAL [49]91.474.835.313.413.238520表3. 使用SURF特征在Of�ce + Caltech10 [ 21 ]数据集上进行半监督领域自适应实验，评估设置为[ 27]。最佳得分（加粗蓝色），第二好得分（蓝色）。0A → W A → D A → C W → A W → D W → C D → A D → W D → C C → A C → W C → D0ILS（1-NN） 59.7 49.8 43.6 54.3 70.8 38.6 55.0 80.1 41.0 55.1 62.9 56.20表4. 使用VGG-FC6特征在Of�ce + Caltech10 [ 21 ]数据集上进行半监督领域自适应实验，评估设置为[ 27]。最佳结果（加粗蓝色），第二好结果（蓝色）。0A → W A → D A → C W → A W → D W → C D → A D → W D → C C → A C → W C → D0ILS（1-NN）90.7 87.7 83.3 88.8 94.5 82.8 88.7 95.5 81.4 89.7 91.4 86.90表5. 使用SURF特征在Of�ce + Caltech10 [ 21 ]数据集上进行无监督领域自适应结果，评估设置为[ 21]。最佳结果（以粗体蓝色表示），第二佳结果（以蓝色表示）。0ILS（1-NN）40.6 41.0 37.1 38.6 72.4 32.6 38.9 79.1 36.9 48.6 42.0 44.10表6. 使用VGG-FC6特征在Of�ce + Caltech10 [ 21 ]数据集上进行无监督领域自适应结果，评估设置为[ 21]。最佳结果（以粗体蓝色表示），第二佳结果（以蓝色表示）。0ILS（1-NN）82.4 72.5 78.9 85.9 87.4 77.0 79.2 94.2 66.5 87.6 84.4 73.00图5.PIE-Multiview人脸数据的两个实例。这里，来自C27的视图被用作源领域。其余视图被视为每个变换的目标。表7.PIE-Multiview结果。当将正面人脸图像视为源领域时，性能随着人脸方向的变化而变化。0摄像机姿态 → C09 C05 C37 C25 C020ILS（1-NN）96.6 88.3 72.9 28.4 34.80换句话说，当摄像机角度变化时，特征结构会在一定程度上发生变化。换句话说，特征变得异质。然而，我们的算法即使在这种具有挑战性的条件下也能提高准确性。0结论0在本文中，我们提出了一种解决半监督和无监督领域自适应（DA）问题的解决方案。我们的解决方案学习了一个潜在空间，其中领域差异被最小化。我们证明了这样的潜在空间可以通过以下方式获得：1.最小化可用标记数据上的歧视能力的概念，同时2.匹配领域之间的统计特性。为了确定潜在空间，我们将学习问题建模为在Riemann流形上的最小化问题，并使用矩阵流形上的优化技术来解决。0从实证上看，我们证明了所提出的方法在半监督和无监督设置中优于最先进的DA解决方案。通过所提出的框架，我们可以看到将我们的解决方案扩展到具有随机优化技术的大规模数据集、多源DA和领域泛化[ 20 , 18]的可能性。在算法扩展方面，我们期待使用字典学习[ 32]和高阶统计匹配。38530参考文献0[1] P.-A. Absil, R. Mahony, and R. Sepulchre.矩阵流形上的优化算法。普林斯顿大学出版社，2009年。 4 , 50[2] M. Baktashmotlagh, M. Harandi, and M. Salzmann.分布匹配嵌入用于视觉领域适应。机器学习研究杂志，17（108）：1-30，2016年。 4 , 60[3] H. Bay, T. Tuytelaars, and L. Van Gool.Surf：加速的鲁棒特征。在欧洲计算机视觉会议上，第404-417页。Springer，2006年。 60[4] S. Bonnabel.流形上的随机梯度下降。IEEE自动控制交易，58（9）：2217-2229，2013年。 50[5] K. Borgwardt, A. Gretton, M. J. Rasch, H.-P. Kriegel, B.Schoelkopf, and A. Smola.通过核最大均值差异集成结构化生物数据。生物信息学，22：e49-e57，2006年。 4 , 60[6] N. Boumal, B. Mishra, P.-A. Absil, and R. Sepulchre.Manopt，用于流形优化的Matlab工具箱。机器学习研究杂志，15:1455-1459，2014年。 60[7] S. Boyd and L. Vandenberghe.凸优化。剑桥大学出版社，纽约，美国，2004年。 40[8] Q. Chen, J. Huang, R. Feris, L. M. Brown, J. Dong, and S.Yan.基于细粒度服装属性的人物描述的深度领域适应。在计算机视觉和模式识别（CVPR）IEEE会议上的论文集中，第5315-5324页，2015年。 10[9] A. Cherian, V. Morellas, and N. Papanikolopoulos.正定矩阵的贝叶斯非参数聚类。IEEE模式分析与机器智能交易，38（5）：862-874，2016年。 30[10] A. Cherian and S. Sra.正定矩阵：数据表示和计算机视觉应用。在Riemannian几何和应用的算法进展中，第93页，2016年。 50[11] A. Cherian, S. Sra, A. Banerjee, and N. Papanikolopou-los.Jensen-Bregman对数行列式散度及其在协方差矩阵的高效相似性搜索中的应用。IEE

下载后可阅读完整内容，剩余1页未读，立即下载