收稿日期:20191008;修回日期:20191129 基金项目:国家自然科学基金资助项目(61876044,62076074)
作者简介:肖燕珊(1981),女,广东中山人,教授,博导,博士,主要研究方向为机器学习、多示例学习;梁飞(1994),男(通信作者),江西瑞金
人,硕士研究生,主要研究方向为机器学习、数据挖掘(csfeiliang@163.com);刘波(1978),男,河南鹤壁人,教授,博导,博士,主要研究方向为机器
学习、数据挖掘.
基于弱标签的多示例迁移学习方法
肖燕珊
a
,梁 飞
a
,刘 波
b
(广东工业大学 a.计算机学院;b.自动化学院,广州 510006)
摘 要:作为监督学习的一种变体,多示例学习(MIL)试图从包中的示例中学习分类器。在多示例学习中,标
签与包相关联,而不是与单个示例相关联。包的标签是已知的,示例的标签是未知的。MIL可以解决标记模糊
问题,但要解决带有弱标签的问题并不容易。对于弱标签问题,包和示例的标签都是未知的,但它们是潜在的变
量。现在有多个标签和示例,可以通过对不同标签进行加权来近似估计包和示例的标签。提出了一种新的基于
迁移学习的多示例学习框架来解决弱标签的问题。首先构造了一个基于多示例方法的迁移学习模型,该模型可
以将知识从源任务迁移到目标任务中,从而将弱标签问题转换为多示例学习问题。在此基础上,提出了一种求
解多示例迁移学习模型的迭代框架。实验结果表明,该方法优于现有多示例学习方法。
关键词:多示例学习;迁移学习;弱标签
中图分类号:TP39304 文献标志码:A 文章编号:10013695(2021)01025012504
doi:10.19734/j.issn.10013695.2019.10.0591
Multiinstancetransferlearningmethodbasedonweaklabels
XiaoYanshan
a
,LiangFei
a
,LiuBo
b
(a.SchoolofComputer,b.SchoolofAutomation,GuangdongUniversityofTechnology,Guangzhou510006,China)
Abstract:Asavariantofsupervisedlearning,MILattemptstolearnclassifiersfrominstancesinbags.Inmultiinstancelear
ning
,labelsareassociatedwithbags,notindividualinstances.Thelabelofbagisknown,thelabelofinstanceisunknown.MIL
cansolvethelabelambiguityproblem,butitisnoteasytosolvetheproblemofweaklabels.Fortheweaklabelsproblem,the
labelsofbagsandinstancesareunknown,buttheyarepotentialvariables.Nowthattherearemultiplelabelsandinstances,it
canapproximateestimatethelabelsofbagsandinstancesbyweightingthedifferentweaklabels.Thispaperproposedanew
transferlearningbasedmultiinstancelearning(TMIL)frameworkbasedontransferlearningtosolvetheproblemofweakla
bels.Firstly,itconstructedatransferlearningmodelbasedonthemultiinstancemethod,whichcouldtransferknowledgefrom
thesourcetasktothetargettask
,thustransformingtheweaklabelsproblemintoamultiinstancelearningproblem.Onthisba
sis,itproposedaniterativeframeworktosolvethemultiinstancetransferlearningmodel.Experimentalresultsshowthatthis
methodissuperiortotheexistingmultiinstancelearningmethod.
Keywords:multipleinstancelearning(MIL);transferlearning;weaklabels
0 引言
对于传统的监督学习,每个训练样本都被标记,而多示例
学习(MIL)
[1,2]
是监督学习的一种变体,MIL的标记对象不再
是一个样本,而是一个包。每个包是若干个样本组成的集合,
这些样本也称为示例,并且每个包都有一个训练标签,但包中
的示例没有标签。如果包中至少有一个正示例,那么这个包被
称为正包;对于一个负包,包中所有的示例都是负示例。
MIL
的目的是从给定标签的正包和负包中学习分类器,并将未知标
签的包进行预测,划分为正包或负包。多示例学习在现实生活
中得到了广泛的应用,如文本分类
[3,4]
、图像分类
[5,6]
、药物活
性预测
[7,8]
等。在文本分类中,每一篇文章都由若干段组成,
每一段都有自己的主题。因此,把每一篇文章都当做一个包,
每一段内容都当做一个示例,然后研究人员利用带标签的包来
构建多示例学习分类器进行预测。在图像分类领域中,图像可
以根据它们所具有的不同颜色、纹理和形状进行分割,每张图
像可以看成一个包,图像分割出来的区域就是示例;在药物活
性检测领域中,药物活性好坏是根据分子与靶位点的结合程度
决定的,活性好的分子会紧密地与靶位点相结合,活性差的分
子则不会与靶位点紧密结合。现有的多示例学习算法有很多,
比如
Andrews等人
[9]
提出的 miSVM,它将示例显式地作为包
标签的隐 含变 量,其目 的是 最大化 示 例 之间的 间 距。文 献
[10]引入了低秩矩阵恢复技术来寻找低噪声的子空间,并提
出了一种基于子空间的示例原型选择方法。
迁移学习
[11,12]
是机器学习和数据挖掘领域中的一个重要
研究方向。对于传统的机器学习,试图一开始就学习和训练每
个任务,而迁移学习则试图将源任务中的知识迁移到目标任务
中。文献[13]提出了一种新的多示例迁移学习问题,其主要
目标是在相似但不相同的领域、任务和分布之间传递知识。文
献[14]提出了一种选择性的多示例迁移学习方法。尽管在多
示例学习上进行了大量研究,大多数人都认为 MIL中包的标
签是真实的标签。然而在实际应用中,可能会有模糊的标签,
这些标签往往被认为是弱标签
[15,16]
。在实际问题中,人类语言
标注在许多自然语言处理任务中起着至关重要的作用,这个过
程中不可避免地会出现弱标签问题。第一个原因是标注数据通
常是一个昂贵的劳动过程,而且数据的数量可能很大,所以专家
不可能正确地标记所有数据;另一个原因是标签分配通常由非
专家提供,因此专家通常很难为每个示例指定所有标签。
第 38卷第 1期
2021年 1月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol38No1
Jan.2021