收稿日期:20160107;修回日期:20160307 基金项目:国家“863”计划资助项目;安徽省自然科学基金资助项目(1308085QF99,
1408085MKL46)
作者简介:刘振(1989),男,安徽淮南人,博士研究生,主要研究方向为智能信息处理、机器学习(ahulz@163.com);杨俊安(1965),男,教授,
博士,主要研究方向为智能计算、数据融合;刘辉(1983),男,讲师,博士,主要研究方向为智能信息处理、通信对抗;王伟(1987),男,讲师,博士
(后),主要研究方向为智能信息处理、计算机视觉.
基于域相关性与流形约束的多源域迁移学习分类算法
刘 振
1,2
,杨俊安
1,2
,刘 辉
1,2
,王 伟
1,2
(1.电子工程学院,合肥 230037;2.安徽省电子制约技术重点实验室,合肥 230037)
摘 要:针对传统机器学习要求训练样本和测试样本具有相同分布的假设在实际应用中难以满足的问题,进行
了迁移学习的研究。当源域与目标域的相关性较小时,粗暴式地强制性迁移不仅不能促进目标域学习,甚至会
降低学习性能,即出现负迁移问题。为此,提出了一种基于多重相似性的多源域迁移学习方法。该方法首先从
域—域和样本—域两个层面来更加准确地衡量目标域与多个源域的相关性;然后根据目标域分类器与相关源域
分类器对目标域无标记样本具有相似决策值的平滑性流形假设,实现源域知识向目标域迁移的目的。在公共数
据集上的实验结果表明,所提出的迁移学习方法不仅能够从多个不同源域中挖掘更多的知识用于目标域学习,
而且能够根据域间相似性有选择地进行迁移,可以有效地避免负迁移问题。
关键词:迁移学习;多源域迁移;域相似性;流形假设
中图分类号:TP181 文献标志码:A 文章编号:10013695(2017)02035106
doi:10.3969/j.issn.10013695.2017.02.007
Multisourcetransferclassificationlearningbasedoncombinationof
domainrelevanceandmanifoldconstraint
LiuZhen
1,2
,YangJun’an
1,2
,LiuHui
1,2
,WangWei
1,2
(1.ElectronicEngineeringInstitute,Hefei230037,China;2.KeyLaboratoryofElectronicRestrictionofAnhuiProvince,Hefei230037,China)
Abstract:Inmanytraditionalmachinelearningalgorithms,amajorassumptionwasthatthetrainingsamplesandthetest
sampleshadthesamedistribution.However,thisassumptiondidnotholdinmanyrealapplications.Inrecentyears,transfer
learninghadattractedasignificantamountofattentiontosolvethisproblem.Therelationshipbetweendomainsaffectedtheef
fectivenessofthetransfer.Ratherthanimprovingthelearning
,bruteforceleveragingofasourcepoorlyrelatedtothetarget
mightdecreasetheclassifierperformance,i.e.,negativetransfer.Thispaperproposedanovelmultisourcetransferlearning
methodbasedonmultisimilarity.Themethodexploredmoreaccuraterelationshipbetweenthesourceandtargetdomainby
multisimilaritymetric.Then
,themethodtransferredtheknowledgeofthesourcestothetargetbasedonsmoothnessassump
tion,whichenforcedthatthetargetclassifiersharedsimilardecisionvalueswiththerelevantsourceclassifiersontheunlabeled
instancesfromthetargetdomain.Experimentalresultsontoyandreallifedatasetsdemonstratethattheproposedmethodcan
increasethechanceoffindingthesourcescloselyrelatedtothetargettoreducethenegativetransferandalsoimportsmore
knowledgefrommultiplesourcesforthetargetlearning.
Keywords:transferlearning;multiplesourcetransfer;domainsimilarity;manifoldassumption
!
引言
机器学习已经广泛应用于许多知识挖掘和计算领域,其中
大部分算法都基于如下两个假设:
a)训练数据(源域)和测试
数据(目标域)都具有相同的特征空间和特征分布;b)在学习
过程中有充足的训练数据。在实际应用中,这两种假设往往难
以满足,也就是说:数据 x及其标记 y的联合分布 P(x,y)在源
域和目标域之间往往是不相同的,即源域分布 P
S
(x,y)不等于
目标域分布 P
T
(x,y);此外,收集与目标域分布相同的训练样
本往往代价很高有时甚至难以获得。迁移学习
[1,2]
不需要传
统机器学习的这种假设,能够从与目标域不同但相似的一个或
多个源域数据集中挖掘有用知识并迁移到目标域学习中,因而
得到了广泛的关注和研究。随着研究的不断深入,迁移学习已
经被广泛应用于多个领域,如文本处理
[3]
、计算机视觉
[4,5]
、网
络识别
[6]
、自动控制
[7]
等。
对于单源域迁移学习,目前已有较多的研究
[1]
。然而,如
果源域与目标域之间的相关性比较小,粗暴式地强制性迁移不
仅不能促进学习,还很可能会降低分类器性能,即负迁移问题。
在现实中,往往存在多个不同的源域,每个源域都或多或少地
拥有可用于目标域学习的知识。单源域迁移仅仅利用一个源
域进行学习,造成了资源的浪费,也会限制目标域学习性能的
提升。多源域迁移学习不仅能够提高发现与目标域相似源域
的机会以避免负迁移问题,而且能够从多个源域中挖掘更多的
知识用于目标域学习。因此,近年来多源域迁移学习成为一个
研究的热点。
源域与目标域之间不仅存在一些特征是域特有的,而且还
第 34卷第 2期
2017年 2月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.34No.2
Feb.2017