没有合适的资源?快使用搜索试试~ 我知道了~
1视觉域自适应张静,李万青,菲利普·奥贡博纳澳大利亚伍伦贡大学高级多媒体研究实验室网址:jz960@uowmail.edu.au,wanqing@uow.edu.au,网址:www.example.com,philipo@uow.edu.au摘要本文提出了一种新的无监督域自适应跨域视觉识别方法。我们提出了一个统一的框架,减少了转移之间的 域 统 计 和 几 何 , 简 称 为 联 合 几 何 和 统 计 对 齐(JGSA)。具体来说,我们学习两个耦合投影,将源域和目标域数据投影到低维子空间中,在低维子空间中,几何位移和离散位移同时减少。目标函数可以有效地解决在一个封闭的形式。大量的实验已经验证了所提出的方法显着优于几个国家的最先进的域自适应方法在一个合成数据集和三个不同的现实世界的跨域视觉识别任务。1. 介绍统计学习理论的一个基本假设是训练和测试数据来自相同的分布。不幸的是,这种假设在许多应用中并不成立。例如,在视觉识别中,由于环境、传感器类型、分辨率和视角,训练和测试之间的分布可能是不一致的。在基于视频的视觉识别中,除了基于图像的视觉识别中的因素外,还涉及到更多的因素。例如,在动作识别中,主题、执行风格和执行速度进一步增加域转移。标记数据是劳动密集型和昂贵的,因此在新的域中重新标记大量数据是不切实际的。因此,一个现实的策略,域自适应,可以用来采用以前标记的源域数据,以提高在新的目标域的任务。根据目标标记数据的可用性,域自适应通常可以分为半监督和无监督域自适应。半监督方法需要目标域中一定量的标记训练样本,而无监督方法不需要标记数据。然而,在半监督和无监督域自适应中,are required.在本文中,我们专注于无监督的主自适应,这被认为是更实际和具有挑战性的。最常用的领域自适应方法包括基于实例的自适应,特征表示自适应和基于分类器的自适应[1,2]。在非监督域自适应中,由于目标域中没有标记数据,基于分类器的自适应是不可行的。或者,我们可以通过最小化域之间的分布发散以及经验源误差来处理这个问题[3]。通常假设分布发散可以通过基于实例的自适应方法来补偿,例如重新加权源域中的样本以更好地匹配目标域分布,或者通过基于特征变换的方法来补偿,该方法将两个域的特征投影到具有小分布偏移的另一个子空间中。基于实例的方法需要严格的假设[1,4]:1)源域和目标域的条件分布相同,并且2)源域中的数据的特定部分可以通过重新加权而被重新用于目标域中的学习。而基于特征变换的方法放宽了这些假设,仅假设存在两个域的分布相似的公共空间本文遵循基于特征变换的在文献中确定了两种主要类别的特征变换方法[5],即数据中心方法和子空间中心方法。数据中心方法寻求将来自两个域的数据投影到域不变空间中的统一变换,以减少域之间的分布分歧,同时保留原始空间中的数据属性,例如[6,7,8,9]。 以数据为中心的方法只利用两个域的共享特征,当两个域的分布有较大差异时,这种方法就失效了,因为不可能存在一个公共空间,使得两个域的分布相同,同时数据属性也得到最大程度的保留。对于子空间中心方法,通过操纵两个区域的子空间来减少区域移动,使得子空间18591860每个单独域的空间都有助于最终映射[10,11,12]。因此,域特定的功能被利用。例如,Gong et al.[10]将两个子空间看作Grassmann流形上的两点,在它们之间的测地线路径上找点作为源子空间和目标子空间之间的桥梁。费尔南多等人[11]使用线性变换矩阵直接对准源和目标子空间。然而,以子空间为中心的方法只对两个域的子空间进行操作,而没有考虑两个域的投影数据之间的分布偏移。以数据为中心和以子空间为中心的方法的局限性将在第4.1节的综合数据集上进行说明。在本文中,我们提出了一个统一的框架,减少了分布和几何分歧之间的领域,同时利用共享和领域特定的功能。具体来说,我们学习两个耦合投影,将源数据和目标数据映射到各自的子空间。 在投影后,1)目标域数据的变化被最大化以保持目标域数据属性,2)源数据的判别信息被保留以有效地传递类信息,3)源和目标域之间的边缘和条件分布差异被最小化以统计地减小域移位,4)两个投影的差异被限制为小以几何地减少域移位。因此,与基于数据中心的方法不同,我们不需要统一变换可以在保持数据属性的同时减少分布偏移与基于子空间中心的方法不同,我们不仅减少了子空间几何的移动,而且减少了两个域的分布移动。此外,我们的方法可以很容易地扩展到一个核化的版本,以处理的情况下,域之间的位移是非线性的。目标函数可以有效地解决在一个封闭的形式。所提出的方法已经通过在合成数据集和三个不同的真实世界跨域视觉识别任务上的综合实验进行了验证:对象识别(Of-256 , Caltech-256 ) 、 手 写 数 字 识 别 ( USPS ,MNIST ) 和 基 于 RGB-D 的 动 作 识 别 ( MSRAc-tion3DExt,G3 D,UTD-MHAD和MAD)。2. 相关工作2.1. 数据中心方法Pan等人。[6]提出了转移成分分析(TCA),以使用最大平均离散度(MMD)[13]学习 RKHSTCA是一种典型的以数据为中心的方法,变换φ(·),其将来自两个域的数据投影到新的空间中以减少差异。在TCA中,作者的目标是最小化k维嵌入中源数据和目标数据的样本均值之间的距离,同时保持原始空间中的数据属性。联合分布分析(JDA)[7]通过使用目标域的伪标签不仅考虑边缘分布偏移而且考虑条件分布偏移来改进转移联合匹配(TJM)[8]通过联合重新加权实例并找到公共子空间来改进TCA。散射分量分析(SCA)[9]考虑了源域的类内和类间散射。然而,这些方法需要一个强有力的假设,即存在一个统一的变换,以映射到一个共享的子空间的源和目标域具有小的分布偏移。2.2. 子空间中心法如上所述,子空间中心方法可以解决仅利用两个域的共同特征的数据中心方法的问题。费尔南多等人[11]建议一种以子空间为中心的方法,即子空间对齐(SA)。模拟退火的核心思想是对齐源基向量(A)与目标(B)使用变换矩阵M。A和B分别通过源域和目标域上的PCA获得。因此,他们不假设存在统一的变换来减少域移位。然而,由于域偏移,使用线性映射映射源子空间后,投影的源域数据的方差在这种情况下,SA无法在对齐子空间之后最小化域之间的分布。此外,SA不能处理两个子空间之间的移位是非线性的情况子空间分布对齐(SDA)[14]通过考虑正交主成分的方差来改进SA然而,基于对齐的子空间来考虑因此,只有每个本征方向的幅度被改变,当域偏移很大时,这仍然可能失败。这已经通过图2中的合成数据和真实世界数据集上的实验结果的说明得到了验证。3. 关节几何和统计对准本节详细介绍了联合几何和统计对准(JGSA)方法。3.1. 问题定义我 们 从 术 语 的 定 义 开 始 。 源 域 数 据 表 示 为Xs∈RD×ns,从分布Ps(Xs)中抽取,目标域数据表示为Xt∈RD×nt,从分布Pt(Xt)中抽取,其中D是数据实例的维数,ns和nt是数字分别在源域和目标域中的样本的数目。我们专注于无监督域适应问题。在无监督域自适应中,有足够的标记1861SD×nSnnFF不nnsss源域数据,Ds={(xi,yi)}ns,xi∈RD,且不含Ci=1tDSb=n(c)(m(c)−m<$s)(m(c)−m<$s)T(6)标记的目标域数据,Dt={(xj)}j=1,xj∈R,s s s在训练阶段。 我们假设特征空间和LA-c=1域之间的bel空间是相同的:Xs=Xt,其中X(c)∈R(c)是源样本所属的集合,SYs=Yt。由于数据集移位,Ps(Xs)/=Pt(Xt)。ing到类c,m(c)=1<$n(c)x(c),m<$=1Σnsx,与以往的领域自适应方法不同,(c)Si=1isnsi=1i不假定存在统一变换φ(·)H(c) =I(c)−11(c)(1(c))T是中心矩阵,s s(c)s sS使得Ps(φ(X s))= Pt(φ(X t))且Ps(Ys|φ(X s))=P(Y|φ(X)),因为当类c内的数据,I(c)∈Rn(c)×n(c)是单位矩阵,t t s1 ∈Rn(c)(c)第(1)款数据集偏移很大。3.2. 制剂为了解决以数据为中心和以子空间为中心的方法的局限性,所提出的框架(JGSA)通过利用两个域的共享和域特定特征,在统计和几何上减少了域分歧。该JGSA是制定通过找到两个cou-Ss 是列向量,全为1, 是c类中的源样本数量。3.2.3分布发散最小化我们采用MMD准则[13,6,7]来比较域之间的分布,该准则计算k维嵌入中源数据和目标数据的样本均值之间的距离,Pled投影(A用于源域,B用于目标域)以获得各个域的新表示,使得1)目标域的方差最大化,2)信源域的判别信息是预先确定的;1最小值甲乙丙nsΣxi∈XsA T x i−1Σntxj∈XtBTxj(七)3)源和目标分布的发散较小; 4)源和目标子空间之间的发散较小。3.2.1目标方差最大化为了避免将特征投影到不相关的维度中,我们鼓励目标域的方差最大化,Long等人[7]已经提出利用由源域分类器预测的目标伪标签来表示目标域中的类条件数据分布然后对目标域的伪标签进行迭代精化,进一步减小两个域之间条件分布的差异。我们遵循他们的想法来最小化域之间的条件分布偏移,各自的子空间。因此,可以如下实现方差不min甲乙丙ΣCǁc=11(c)第(1)款SΣx∈X(c)ATxi−1(c)第(1)款不Σx∈X(c)BTxj(八)最大Tr(BBB)(1)isjt哪里St=Xt Ht XT(二)因此,通过结合边际和条件分布移位最小化项,最终分布偏离者-是目标域散射矩阵,H T =I−11 1T是能量最小化项可以重写为ttntttnΣ ΣΣΣ中心矩阵,1t∈Rt是列向量,一个。最小Tr.[AT BT]MsMstA(九)3.2.2源判别信息保存由于源域中的标签是可用的,我们可以使用标签信息来约束新的表示,甲乙丙哪里ΣCMs=X s(L s+Mts Mt BL(c))XT,Ls=11s1T,nn1862SSSn不源域数据的处理是有区别的。ss2sc=1s最大Tr(AT一Sb A)(3)(L(c))ij.1=(n(c))2xi,xj∈X(c)(十)最小Tr(AT Sw A)(4)一其中,Sw是类内散布矩阵,Sb是最小值。ΣCMt=X t(L t+0否则L(c))XT,Lt=11t1T,源域数据的类间散布矩阵,tt2tc=1μ m定义如下,(c)第(1)款1(n(c))2xi,xj∈X(c)(十一)ΣCS=X(c)H(c)(X(c))T(5)(Lt)ij=0不0否则ws s sc=1不1863W0ΣCMst=X s(L st+L(c))XT,Lst= −11s1T,其中I∈Rd×d是单位矩阵。Stt1.1.1.1.1.1.1.1.1.1.1.1.1.1.1nsn t不(十二)最小化(15)的分母鼓励小边际分布和条件分布发生变化,−1xi∈X(c),xj∈X(c)(c)第(1)款n(c)n(c)st在源域中的类内方差最大化(Lst)ij=tMts=X t(Lts+0否则C L(c))XT,Lts= −11t1T,(15)的分子鼓励大的目标域变化,并且在源域中类间方差大类似于JDA,我们还迭代地更新TSS1.1.1.1.1.1.1.1.1.1.1.1.1.1.1nsn tS(十三)目标域数据使用所学习的变换来IM。证明标签质量直到收敛。−1xj∈X(c),xi∈X(c)(c)第(1)款n(c)n(c)st(Lts)ij=st0否则注意,这与TCA和JDA不同,因为我们不使用统一子空间,因为可能不存在3.3. 优化为了优化公式15,我们将[AT BT]重写为WT。 然后,目标函数和相应的约束可以重写为:这样一个共同的子空间,其中两个分布-mains也是类似的。最大.T r WTΣΣ ΣΣβSb00µStWΣΣ(16)3.2.4子空间发散最小化类似于SA [11],我们也减少了WT r WTMs+λI+βSwMst−λIWMts−λI Mt+(λ+µ)I域通过移动靠近源和目标子空间。如所提及的,附加的变换矩阵M被重新表示。请注意,目标函数对于W. 因此,我们将目标函数(16)重写为需要将源子空间映射到目标子空间,.最大T r WTΣ ΣΣβSb0W(十七)SA.然而,我们没有学习一个额外的矩阵来映射这两个子空间。相反,我们同时优化A和B,这样可以保留源类信息和目标方差,并且两个子空间移动S.T.TrW0µSt.Σ ΣΣWTMs+ λI + βSwMst− λIW= 1Mts−λI M t+(λ+µ)I与此同时,更近。我们使用以下项来移动(17)的拉格朗日函数是两个子空间关闭:最小值A−B<$2(十四).L=T r WTΣ ΣΣβSb00µStWA、B、F(14)与(9)一起使用,两者都是共享的,也是共同的。..+T rWTΣMs+λI+βS wM st−λI Mts−λI M t+(λ+µ)IΣW−I中国(18)Φ利用主要的特定特征,使得两个域在几何上和统计上很好地对准。通过设置导数=0,我们得到:3.2.5总体目标函数Σ ΣβSb00µStW=ΣMs+λI+βS wM st−λI Mts−λI M t+(λ+µ)IΣ宽Φ(19)我们通过合并上述五个量((1)、(3)、(4)、(9)和(14))来制定JGSA方法,如下:µ{目标变量}+β{类别变量之间}Max{分布偏移}+λ{子空间偏移}+β{类内变量}其中,λ、μ、β是平衡每个量的重要性的权衡参数,Var。表示方差。我们遵循[9]进一步施加Tr(BT B)小的约束以控制B的规模。具体地,我们旨在通过求解以下优化函数来找到两个耦合投影A和B其中Φ =diag(λ1,.,λ k)是k个前导特征值,并且W=[W1,.,包含了相应的特征向量,可以通过广义特征值分解解析求解.一旦得到变换矩阵W,就可以很容易地得到子空间A和B. JGSA的伪代码总结在算法1中。3.4. 核化分析JGSA方法可以推广到再生核希尔伯特空间(RKHS)中的非线性问题,.ΣTr[ATBT]βSb0µStΣ1864最大ΣΣΣ ΣΣ一BΣΣ中国(15)一些核函数φ。 我们使用表示定理P=Φ(X)A和Q=Φ(X)B来核化我们的方法,其中X =[X s,X t]表示所有源和目标训练。甲乙丙T r [AT BT]Ms+λI+βSwMst−λI AMts−λI M t+(λ+µ)I B对于样本,Φ(X)=[Φ(X1),.,[1],n是一个数。所有样本的BER。因此,目标函数变为,186500SS不不Ss算法1:关节几何和统计对齐输入:数据和源标签:Xs、Xt、Ys;参数:λ= 1,μ= 1,k,T,β。输出:变换矩阵:A和B;嵌入:Zs,Zt;自适应分类器:1.根据(2)、(3)、(4)、(10)、(11)、(12)和(13)构建St、Sb、Sw、Ms、Mt、Mst和Mts原始源域数据;2个重复3求解广义特征分解问题式(19),并选取k个前导特征值的k个对应特征向量作为变换W,得到子空间A和B;4将原始数据映射到相应的子空间,得到嵌入:Zs=ATXs,Zt=BTXt;5在{Zs,Ys}上训练分类器f以更新伪标签在tar中得到域Yt=f(Zt);6根据(10)、(11)、(12)和(13)更新Ms、Mt、Mst和Mts7直到收敛;8在{Zs,Ys}上获得最终自适应分类器f。4. 实验在本节中,我们首先在一个合成数据集上进行实验,以验证JGSA方法的有效性。然后,我们评估我们的方法跨域对象识别,跨域数字识别,跨数据集RGB-D为基础的动作识别。代码可在线获取1.我们将我们的方法与几种最先进的方法进行比较:子空间对齐(SA)[11]、子空间分布对齐(SDA)[14]、测地线流核(GFK)[10]、传递分量分析(TCA)[6]、联合分布分析(JDA)[7]、传递联合匹配(TJM)[8]、散射分量分析(SCA)[9]、最优传输(OTGL)[15]和核流形对齐(KEMA)[1 6]。我们使用原始论文推荐的所有基线方法的参数对于JGSA,我们在所有实验中固定λ=1,μ=1,这样分布偏移,子空间偏移和目标方差被视为同等重要。我们的实验验证了固定参数对不同类型的任务都能得到满意的结果。因此,子空间维数k、迭代次数T和正则化参数β是自由参数。4.1. 合成数据.ΣT r[PTQT]βSb0µStΣΣ ΣΣPQ在这里,我们的目标是合成数据样本,以证明我们的方法可以保持域结构,MaxP、Q.T r[PTΣQT] Ms+λI+βSwMst−λIMts−λI Mt+(λ+µ)IΣΣ中国(20)PQ以及减少域移位。合成的源和目标域样本都是从三个RBF1分布的混合物中提取的每一个RBFian分销代表-其中所有的Xt在St,Sw,Sb,Ms,Mt,Mst中用Φ(Xs)代替,mts在内核化版本中。我们用Φ(X)A和Φ(X)B代替P和Q,得到目标函数如下:怨恨一个阶级。全局平均值以及第三类平均值在域之间移动。原始数据是三维的。对于所有方法,我们将子空间的维数设置为2。图2说明了原始的合成数据集和不同方法对数据集的局部自适应结果。.ΣTr[ATBT]βSb0µStΣΣ ΣΣ一B可以看出,在SA方法之后,在对齐子空间之后,域之间的分歧因此,我们认为,Max甲乙丙.T r[ATΣBT]Ms+λK+βS wM st−λK Mts−λK M t+(λ+µ)KΣΣ中国(21)一B对齐的子空间对于减少域不是最佳的如果不考虑分布发散,则偏移。SDA方法没有表现出明显的改善其中S不 =KKT,Sw=Ks H(c)KT,其中由于方差偏移基于对齐的子空间(可能不是最优的),如SA中K= Φ(X)TΦ(X),Ks=Φ(X)TΦ(Xs),Kt = Φ(X)Φ(Xt),Kt=Φ(X)TΦ(Xt) =Kt−1tK−Kt1n+1tK1n,1t ∈Rnt×n 和1n ∈Rn×n是矩阵,1 .一、在S中,m(c)=1<$n(c)k(c),m<$=1<$ns k,TCA方法有效地减少了畴移然而,由于可能不存在统一的子空间来减少域移位并保持nbs(c)第(1)款Si=1isnsi=1i原创信息同时即使有条件关于K I=Φ(X)Tφ(xi)。在MMD方面,Ms=分布移位减少(JDA)或实例重新加权K(L公司简介L(c))KT,M=K(L公司简介L(c))KT,(TJM),class-1和class-2仍然无法区分。ssc=1 sΣstttc=1t tSCA考虑总分散度、域分散度和类Mst=Ks(Lst+CL(c))KT,Mts =Kt(Lts+C(c)c=1st t使用统一映射进行分散然而,可能没有前-c=1 L ts)K T. 一旦核化目标函数它是一个满足所有约束的公共子空间(21),我们可以用同样的方法简单地解决它。n1866作为原始目标函数来计算A和B。1http://www.uow.edu.au/1867显然,JGSA可以很好地对齐这两个域,即使源域和目标域之间的偏移很大。4.2. 真实世界的数据集我们在三个跨域视觉识别任务上评估我们的方法:对象识别(Office,Caltech- 256)、手写数字识别(USPS,MNIST)和基于RGB-D的动作识别(MSRD3DExt,G3 D,UTD-MHAD和MAD)。示例图像或视频帧如图1所示。亚马逊加州理工学院美国邮政MSR与G3D MSR与MAD MSR与Utd图1:对象数据集、数字数据集的示例图像,以及基于RGB-D的动作数据集的深度图的示例视频帧。4.2.1设置对象识别我们采用Gong等人发布的Office+Caltech对象数据集。[10 ]第10段。该数据集包含来自四个不同领域的图像:亚马逊(从在线商家下载的图像),网络摄像头(网络摄像头的低分辨率图像),数码单反相机(数码单反相机的高分辨率图像)和加州理工学院-256. Amazon、Webcam和DSLR是[17]中研究域转移影响 的 三 个 数 据 集 。 Caltech-256 [18] 包 含 从 Googleimages下载的256个对象类。选择四个数据集共有的十个类:背包、自行车、计算器、耳机、键盘、笔记本电脑、显示器、鼠标、马克杯和投影仪。考虑两种类型的特征:SURF描述符(使用从Amazon图像的子集训练的码本用800 bin直方图编码)和Decaf6特征(其是卷积的第6个完全连接层的激活)。在imageNet上训练的网络)。如[10]所示,1-最近邻分类器(NN)被选为基本分类器。 对于自由参数,我们设置k = 30,T = 10,β= 0。1.一、数字识别对于跨域手写数字识别任务,我们使用MNIST [19]和USPS [20]数据集来评估我们的方法。MNIST数据集包含60,000个示例的训练集和10,000个大小为28×28的示例的测试集。USPS数据集由7,291个训练图像和2,007张大小为16×16的测试图像。 十选择两个数据集的共享类。 我们遵循[7,8]的设置,通过在USPS中随机采样1,800个图像以形成源数据,并在MNIST中随机采样2,000个图像以形成目标数据,来构建一对跨域数据集USPS→MNIST然后,源和目标对被切换以形成另一个数据集MNIST→ USPS。所有图像都统一调整大小16×16,每个图像由一个特征向量表示对灰度像素值进行编码。 对于免费参数-我们设k = 100,T = 10,β= 0。01.基于RGB-D的动作识别对于跨数据集的基于RGB-D的动作识别,选择四个基于RGB-D的动作识别数据集,即MSRAc-tion 3DExt [21,22],UTD-MHAD [23],G3D[24],以及MAD [25].所有四个数据集都由RGB和深度传感器捕获。我们选择MSRD3DExt和其他三个数据集之间的共享操作,形成6个数据集对。在MSRD3DExt和G3D之间有8个常见操作:挥手、向前出拳、拍手、向前踢腿、慢跑、网球挥杆、网球发球和高尔夫挥杆。MSRAc-tion 3DExt和UTD-MHAD之间有10个常见操作:挥手、手抓、右臂高抛、画x、画圈、双手前拍、慢 跑 、 网 球 挥 杆 、 网 球 发 球 、 接 球 和 抛 球 。 在MSRD3DExt和MAD之间有7个共享动作:挥手、前冲、投掷、前踢、侧踢、慢跑和网球挥杆。本地HON4D [26]功能用于跨数据集动作识别任务。我们通过类似于[26]的过程选定的关节包括头、颈、左膝、右膝、左肘、右肘、左腕、右腕、左肩、右肩、髋、左髋、右髋、左踝和右踝。 我们对于分辨率为320×240的深度图,使用24×24×4的面片尺寸,对于分辨率为640×480的深度图,使用48×48×4的面片尺寸,然后将面片分成3×3×1的网格。由于大多数现实世界的应用程序的行动识别-为了识别目标域中的未知数据,我们进一步使用跨主题协议将目标域划分为训练集和测试集,其中一半的主题用作训练,其余的主题用作测试,当数据集被评估为目标域时。请注意,目标训练集也是未标记的。对于自由参数,我们设置k=100和β=0。01. 为了避免过度拟合目标训练集,我们在动作识别任务中设置T=1。LibLINEAR [27]通过遵循原始论文[26]用于动作识别。1868原始20−2−4SA2200−2−2−4−4SDATCA3210−1−2−3JDA3210−1−2−3−4−2 0 2 4 6Z1TJM3210−1−2−3−4−2 0 2 4 6Z1SCA420−2−4 −2 0 2Z1提出210−1−2−6 −4 −2 0 2Z1−4 −2 0 2Z1−4−2 0 2 4 6Z1−2−1 0 1 2 3Z1图2:基线域自适应方法和建议的JGSA方法在合成数据上的比较表1:跨域对象数据集的准确度(%)数据集的符号:Caltech:C; Amazon:A; Webcam:W; DSLR:D。特征冲浪无咖啡因6数据原SASDAGfKTCAJDATJMSCAJGSA原始JGSA线性JGSARBFJDAOTGLJGSA原始JGSA线性JGSARBFC→A36.0149.2749.6946.0345.8245.6246.7645.6251.4652.3053.1390.1992.1591.4491.7591.13C→W29.1540.0038.9836.9531.1941.6938.9840.0045.4245.7648.4785.4284.1786.7885.0883.39C→D38.2239.4940.1340.7634.3945.2244.5947.1345.8648.4148.4185.9987.2593.6392.3692.36A→C34.1939.9839.5440.6942.3939.3639.4539.7241.5038.1141.5081.9285.5184.8685.0484.86A→W31.1933.2230.8536.9536.2737.9742.0334.9245.7649.4945.0880.6883.0581.0284.7580.00A→D35.6733.7633.7640.1333.7639.4945.2239.4947.1345.8645.2281.5385.0088.5485.3584.71W→C28.7635.1734.7324.7629.3931.1730.1931.0833.2132.6833.5781.2181.4584.9584.6884.51W→A31.6339.2539.2527.5628.9132.7829.9629.9639.8741.0240.8190.7190.6290.7191.4491.34W→D84.7175.1675.8085.3589.1789.1789.1787.2690.4590.4588.5410096.25100100100D→C29.5634.5535.8929.3030.7231.5231.4330.7229.9230.1930.2880.3284.1186.2085.7584.77D→A28.2939.8738.7328.7131.0033.0932.7831.6338.0036.0138.7391.9692.3191.9692.2891.96D→W83.7376.9576.9580.3486.1089.4985.4284.4191.8691.8693.2299.3296.2999.6698.6498.64平均40.9344.7244.5243.1343.2646.3846.3345.1650.0450.1850.5887.4488.1889.9889.7688.97表2:跨域数字数据集的准确度(%)。数据原SASDAGfKTCAJDATJMSCAJGSA原始MNIST→USPS65.9467.7865.0061.2256.3367.2863.2865.1180.44USPS→MNIST44.7048.8035.7046.4551.2059.6552.2548.0068.15平均55.3258.2950.3556.8453.7763.4757.7756.5674.30表3:基于跨数据集RGB-D的动作数据集的准确度(%)。数据原SASDATCAJDATJMSCAJGSA线性MSR→G3D72.9277.0873.9668.7582.2970.8370.8389.58G3D→MSR54.4768.0967.3250.5865.3763.0455.2566.93MSR→UTD66.8873.7573.7565.0077.5065.0064.3876.88UTD→MSR62.9367.9166.6757.6361.0660.1255.1461.37MSR→MAD80.7185.0083.5779.2982.8682.1478.5786.43MAD→MSR80.0981.4880.5681.0283.3379.6379.6385.65平均69.6775.5574.3067.0575.4070.1367.3077.81源-1目标−1源−2目标−2源−3目标−320X2−20−4−224X1X3Z2Z2Z2Z2Z2Z2Z21869MSR→MAD MSR→ MAD基线USPS→MNISTUSPS→ MNIST基线 W→AW→ A基线MSR→MAD MSR→ MAD基线USPS→MNISTUSPS→ MNIST基线 W→AW→ A基线90 90 90807060504030202−152 −132 −112 −92 −72 −52 −32 −121β值8070605040302010 30 50 70 90 110 130 150 170 190k值80706050403020123456789 10T值(a) 正则化参数β(b) 子空间k(c) 迭代次数T图3:JGSA对不同类型数据集4.2.2结果和讨论三种类型的真实世界跨域(对象,数字和动作)数据集的结果如表1,2和3所示。JGSA原函数表示JGSA方法在原始数据空间上的结果,而JGSA线性和JGSARBF分别表示线性核和RBF核的结果。我们遵循JDA报告原始特征空间中数字数据集的结果。对于动作识别任务,由于原始空间的高维性,很难在原始空间中进行特征分解,因此,使用线性核来获得结果。可以观察到,JGSA在大多数数据集上优于最先进的自适应方法。如前所述,子空间中心方法的一般缺点是域之间的分布偏移没有明显减少。以数据为中心的方法显式地减少了数据迁移然而,可能不存在既减少分布偏移又保持原始数据的属性的统一因此,JGSA在大多数情况下优于以子空间为中心和以数据为中心的方法。的数据集。我们还比较了对象识别任务中算法的原始版本和内核化版本(表1)。结果表明,原始版本和核化版本平均可以获得相似的结果。为了评估伪标记的有效性,我们将我们的方法与半监督方法KEMA [16]进行了比较。我们在8个加州理工学院的数据集对上使用了与KEMA相同的Decaf7我们的方法获得了90.18%(线性)和89.91%(径向基函数),这两个都高于KEMA报道的89.1%。我们还评估了跨平台的运行时复杂度-域对象数据集(具有线性内核的SURF)。平均运行时间为28.97s,约为最佳基线方法(JDA)的三倍。这是因为JGSA同时学习两个映射,与JDA相比,用于特征分解的矩阵的大小是JDA的两倍。4.2.3参数敏感性我们分析了JGSA在不同类型数据集上的参数敏感性,以验证可以选择宽范围的参数值来获得满意的性能。曼斯。不同类型数据集上的结果已经验证了固定λ=1和μ=1对于所有三个任务都是足够的。因此,我们仅评估 其 他 三 个 参 数 ( k 、 β 和 T ) 。 我 们 在USPS→MNIST , W→A ( SURF 描 述 子 , 具 有 线 性ker,nel)和用于说明的MSR→MAD数据集,图3所示 实线为JGSA使用不同的参数,虚线表示通过每个数据集的最佳基线方法获得的结果。在其他数据集上也观察到类似的趋势。β是源域的类内方差和类间方差的折衷参数。如果β太小,则不考虑源域的类信息.如果β太大,分类器将过拟合到源域。然而,从图3a可以看出,β(β∈[2−15,0. 5])可以被选择以获得比最佳基线方法更好的结果。图3b示出了各种k与精度之间的关系。我们可以选择k∈[20,180]以获得比最佳基线方法更好的结果。对于迭代次数T,物体和数字识别任务的结果可以在几次迭代后收敛到最佳值。然而,对于动作识别,准确性没有明显变化(图3c)。这可能是因为我们使用了不同的协议进行动作识别,如第4.2.1节所述。在迭代标记(其在目标训练集上完成)之后,映射可以足够好地拟合目标训练集,但对于测试集来说不一定是这种情况。5. 结论在本文中,我们提出了一种新的框架,非监督域自适应,称为联合几何和统计对齐(JGSA)。JGSA通过同时考虑源域和目标域数据的几何和统计特性,并利用共享的和特定于域的特征来减少域偏移。综合实验的合成数据和三种不同类型的现实世界的视觉识别任务验证了JGSA的有效性相比,一些国家的最先进的领域适应方法。MSR→MAD MSR→ MAD基线USPS→MNISTUSPS→ MNIST基线 W→AW→ A基线准确度(%)准确度(%)准确度(%)1870引用[1] S. J. Pan和Q.杨,“迁移学习的调查”,IEEE知识与数据工程学报,第22卷,第2009年。第10页。1345-1359,2010. 1[2] L. Shao,F.Zhu,和X.Li,号26第5页。10191[3] S. 本-戴维布利泽,K。克拉默,A。库莱萨河Pereira和J.W. Vaughan , “A theory of learning from differentdomains,”Machine learning,vol. 79,no.第1-2页。1511[4] A. Margolis,代表:2011. 1[5] Y. Yang和T. Hospedales,BMVA Press,September 2015,pp. 1.1-1.12. 1[6] S.潘岛W.曾俊泰Kwok和Q. Yang,号22第2页。199一、二、三、五[7] M. Long , J. Wang , G. Ding , J. Sun , and P. Yu ,“Transferfeaturelearningwithjointdistributionadaptation” , Proc. IEEE International Conference onComputer Vision。IEEE,2013,pp. 2200-2207. 一二三五六[8] M. Long,J. Wang,G. Ding,J. Sun,and P. S. Yu,IEEE,2014年,第1410-1417. 一、二、五、六[9] M. Ghifary,D. Balduzzi,W. B. Kleijn和M. Zhang,“散射分量分析:域自适应和域泛化的统一框架,”IEEE模式分析和机器智能学报,卷。PP,第99号,第103页。1-1,2016年。一、二、四、五[10] B.贡,Y. Shi,F. Sha和K. Grauman,2066-2073. 二、五、六[11] B.费尔南多,A.哈布拉德M. Sebban和T. Tuytelaars,2960-2967. 二、四、五[12] B. Fernando,T. Tommasi和T. Tuytelaars,60-66,2015年。2[13] A. Gretton,K.M. Borgwardt,M.J. 拉施湾Sch oélk opf,以及A. Smola,723-773,2012。二、三[14] B. Sun和K. Saenko,二、五[15] N. 库尔 蒂河Flamary ,D. Tuia 和A. Rakotomamonjy,PP,第99号,第103页。1-1,2016年。5[16] D. Tuia和G.Camps-Valls,“Kernel manifold alignment fordomain adaptation , ”PloS one , vol. 11 , no. 2 , 第e0148655页,2016年。五、八[17] K.萨延科湾库利斯,M。Fritz和T. Darrell,Springer,2010,pp. 213-226. 6[18] G. Griffin,A.Holub,和P.Perona,代表:2007. 6[19] Y.莱肯湖Bottou,Y. Bengio和P. Haffner,“Gradient-basedlearningappliedtodocumentrecognition,”Proceedings of the IEEE,vol.86,no.第11页。22786[20] J.J.Hull,“一个手写文本识别研究的数据库”,IEEE模式分析和机器智能学报,第16卷,第1999年。第5页。550-554,1994。6[21] W. Li,Z. z
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功