弱标签下迁移学习驱动的多示例方法提升性能

需积分: 45 33 浏览量更新于2024-08-13 2 收藏 913KB PDF 举报

本文主要探讨的是"基于弱标签的多示例迁移学习方法"这一主题。多示例学习(Multi-instance Learning, MIL)是一种监督学习的扩展，其核心思想是在缺乏单个样本明确标签的情况下，通过分析包含多个样本的集合（包）的标签来推断每个个体样本的特性。在传统的MIL中，每个包都有一个已知的标签，而包内的样本则可能没有单独的标签，这是其独特之处，有助于处理标记模糊问题。然而，本文关注的是更复杂的情况——弱标签问题。在这种情况下，不仅包的标签是未知的，而且每个示例的标签也是潜在的。由于信息不足，常规的MIL方法无法直接应用。为了克服这个挑战，研究者提出了一种新颖的迁移学习框架，它利用已有的标注数据（即源任务的知识）来指导对目标任务的学习，将弱标签问题转化为多示例学习问题。在这个框架中，首先构建了一个基于多示例方法的迁移学习模型，通过跨任务的知识共享，帮助估计示例和包的潜在标签。模型设计的关键在于如何有效地迁移源任务的知识，并将其整合到目标任务的学习过程中，以便更准确地处理弱标签。接着，文章提出了一个迭代的求解策略，通过逐步优化模型参数，以找到最佳的加权方案，使得对多示例的处理更为精确。这种方法的优势在于它能够更好地处理不确定性，并且在实际应用中表现出了优于现有多示例学习方法的性能。实验部分展示了新方法的有效性，通过对多个数据集的对比分析，证明了基于弱标签的多示例迁移学习框架在解决实际问题时具有显著的优势。研究的成果对于那些面临弱标签问题，特别是那些希望通过迁移学习来增强学习能力的领域，如计算机视觉、自然语言处理等，具有重要的理论价值和实践意义。这篇文章贡献了一个有效的策略，通过结合迁移学习和多示例学习技术，解决了弱标签问题，为未来在大规模、标签稀疏或噪声数据集上的学习提供了新的思考角度和解决方案。

收稿日期：２０１９１００８；修回日期：２０１９１１２９　　基金项目：国家自然科学基金资助项目（６１８７６０４４，６２０７６０７４）

作者简介：肖燕珊（１９８１），女，广东中山人，教授，博导，博士，主要研究方向为机器学习、多示例学习；梁飞（１９９４），男（通信作者），江西瑞金

人，硕士研究生，主要研究方向为机器学习、数据挖掘（ｃｓｆｅｉｌｉａｎｇ＠１６３．ｃｏｍ）；刘波（１９７８），男，河南鹤壁人，教授，博导，博士，主要研究方向为机器

学习、数据挖掘．

基于弱标签的多示例迁移学习方法



肖燕珊

ａ

，梁　飞

ａ

，刘　波

ｂ

（广东工业大学ａ．计算机学院；ｂ．自动化学院，广州５１０００６）

摘　要：作为监督学习的一种变体，多示例学习（ＭＩＬ）试图从包中的示例中学习分类器。在多示例学习中，标

签与包相关联，而不是与单个示例相关联。包的标签是已知的，示例的标签是未知的。ＭＩＬ可以解决标记模糊

问题，但要解决带有弱标签的问题并不容易。对于弱标签问题，包和示例的标签都是未知的，但它们是潜在的变

量。现在有多个标签和示例，可以通过对不同标签进行加权来近似估计包和示例的标签。提出了一种新的基于

迁移学习的多示例学习框架来解决弱标签的问题。首先构造了一个基于多示例方法的迁移学习模型，该模型可

以将知识从源任务迁移到目标任务中，从而将弱标签问题转换为多示例学习问题。在此基础上，提出了一种求

解多示例迁移学习模型的迭代框架。实验结果表明，该方法优于现有多示例学习方法。

关键词：多示例学习；迁移学习；弱标签

中图分类号：ＴＰ３９３０４　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２１）０１０２５０１２５０４

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１９．１０．０５９１

Ｍｕｌｔｉｉｎｓｔａｎｃｅｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｍｅｔｈｏｄｂａｓｅｄｏｎｗｅａｋｌａｂｅｌｓ

ＸｉａｏＹａｎｓｈａｎ

ａ

，ＬｉａｎｇＦｅｉ

ａ

，ＬｉｕＢｏ

ｂ

（ａ．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒ，ｂ．ＳｃｈｏｏｌｏｆＡｕｔｏｍａｔｉｏｎ，ＧｕａｎｇｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０００６，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ａｓａｖａｒｉａｎｔｏｆｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ，ＭＩＬａｔｔｅｍｐｔｓｔｏｌｅａｒｎｃｌａｓｓｉｆｉｅｒｓｆｒｏｍｉｎｓｔａｎｃｅｓｉｎｂａｇｓ．Ｉｎｍｕｌｔｉｉｎｓｔａｎｃｅｌｅａｒ

ｎｉｎｇ

，ｌａｂｅｌｓａｒｅａｓｓｏｃｉａｔｅｄｗｉｔｈｂａｇｓ，ｎｏｔｉｎｄｉｖｉｄｕａｌｉｎｓｔａｎｃｅｓ．Ｔｈｅｌａｂｅｌｏｆｂａｇｉｓｋｎｏｗｎ，ｔｈｅｌａｂｅｌｏｆｉｎｓｔａｎｃｅｉｓｕｎｋｎｏｗｎ．ＭＩＬ

ｃａｎｓｏｌｖｅｔｈｅｌａｂｅｌａｍｂｉｇｕｉｔｙｐｒｏｂｌｅｍ，ｂｕｔｉｔｉｓｎｏｔｅａｓｙｔｏｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｏｆｗｅａｋｌａｂｅｌｓ．Ｆｏｒｔｈｅｗｅａｋｌａｂｅｌｓｐｒｏｂｌｅｍ，ｔｈｅ

ｌａｂｅｌｓｏｆｂａｇｓａｎｄｉｎｓｔａｎｃｅｓａｒｅｕｎｋｎｏｗｎ，ｂｕｔｔｈｅｙａｒｅｐｏｔｅｎｔｉａｌｖａｒｉａｂｌｅｓ．Ｎｏｗｔｈａｔｔｈｅｒｅａｒｅｍｕｌｔｉｐｌｅｌａｂｅｌｓａｎｄｉｎｓｔａｎｃｅｓ，ｉｔ

ｃａｎａｐｐｒｏｘｉｍａｔｅｅｓｔｉｍａｔｅｔｈｅｌａｂｅｌｓｏｆｂａｇｓａｎｄｉｎｓｔａｎｃｅｓｂｙｗｅｉｇｈｔｉｎｇｔｈｅｄｉｆｆｅｒｅｎｔｗｅａｋｌａｂｅｌｓ．Ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｎｅｗ

ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｂａｓｅｄｍｕｌｔｉｉｎｓｔａｎｃｅｌｅａｒｎｉｎｇ（ＴＭＩＬ）ｆｒａｍｅｗｏｒｋｂａｓｅｄｏｎｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｔｏｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｏｆｗｅａｋｌａ

ｂｅｌｓ．Ｆｉｒｓｔｌｙ，ｉｔｃｏｎｓｔｒｕｃｔｅｄａｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｍｏｄｅｌｂａｓｅｄｏｎｔｈｅｍｕｌｔｉｉｎｓｔａｎｃｅｍｅｔｈｏｄ，ｗｈｉｃｈｃｏｕｌｄｔｒａｎｓｆｅｒｋｎｏｗｌｅｄｇｅｆｒｏｍ

ｔｈｅｓｏｕｒｃｅｔａｓｋｔｏｔｈｅｔａｒｇｅｔｔａｓｋ

，ｔｈｕｓｔｒａｎｓｆｏｒｍｉｎｇｔｈｅｗｅａｋｌａｂｅｌｓｐｒｏｂｌｅｍｉｎｔｏａｍｕｌｔｉｉｎｓｔａｎｃｅｌｅａｒｎｉｎｇｐｒｏｂｌｅｍ．Ｏｎｔｈｉｓｂａ

ｓｉｓ，ｉｔｐｒｏｐｏｓｅｄａｎｉｔｅｒａｔｉｖｅｆｒａｍｅｗｏｒｋｔｏｓｏｌｖｅｔｈｅｍｕｌｔｉｉｎｓｔａｎｃｅｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｍｏｄｅｌ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｉｓ

ｍｅｔｈｏｄｉｓｓｕｐｅｒｉｏｒｔｏｔｈｅｅｘｉｓｔｉｎｇｍｕｌｔｉｉｎｓｔａｎｃｅｌｅａｒｎｉｎｇｍｅｔｈｏｄ．

Ｋｅｙｗｏｒｄｓ：ｍｕｌｔｉｐｌｅｉｎｓｔａｎｃｅｌｅａｒｎｉｎｇ（ＭＩＬ）；ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ；ｗｅａｋｌａｂｅｌｓ

０　引言

对于传统的监督学习，每个训练样本都被标记，而多示例

学习（ＭＩＬ）

［１，２］

是监督学习的一种变体，ＭＩＬ的标记对象不再

是一个样本，而是一个包。每个包是若干个样本组成的集合，

这些样本也称为示例，并且每个包都有一个训练标签，但包中

的示例没有标签。如果包中至少有一个正示例，那么这个包被

称为正包；对于一个负包，包中所有的示例都是负示例。

ＭＩＬ

的目的是从给定标签的正包和负包中学习分类器，并将未知标

签的包进行预测，划分为正包或负包。多示例学习在现实生活

中得到了广泛的应用，如文本分类

［３，４］

、图像分类

［５，６］

、药物活

性预测

［７，８］

等。在文本分类中，每一篇文章都由若干段组成，

每一段都有自己的主题。因此，把每一篇文章都当做一个包，

每一段内容都当做一个示例，然后研究人员利用带标签的包来

构建多示例学习分类器进行预测。在图像分类领域中，图像可

以根据它们所具有的不同颜色、纹理和形状进行分割，每张图

像可以看成一个包，图像分割出来的区域就是示例；在药物活

性检测领域中，药物活性好坏是根据分子与靶位点的结合程度

决定的，活性好的分子会紧密地与靶位点相结合，活性差的分

子则不会与靶位点紧密结合。现有的多示例学习算法有很多，

比如

Ａｎｄｒｅｗｓ等人

［９］

提出的ｍｉＳＶＭ，它将示例显式地作为包

标签的隐含变量，其目的是最大化示例之间的间距。文献

［１０］引入了低秩矩阵恢复技术来寻找低噪声的子空间，并提

出了一种基于子空间的示例原型选择方法。

迁移学习

［１１，１２］

是机器学习和数据挖掘领域中的一个重要

研究方向。对于传统的机器学习，试图一开始就学习和训练每

个任务，而迁移学习则试图将源任务中的知识迁移到目标任务

中。文献［１３］提出了一种新的多示例迁移学习问题，其主要

目标是在相似但不相同的领域、任务和分布之间传递知识。文

献［１４］提出了一种选择性的多示例迁移学习方法。尽管在多

示例学习上进行了大量研究，大多数人都认为ＭＩＬ中包的标

签是真实的标签。然而在实际应用中，可能会有模糊的标签，

这些标签往往被认为是弱标签

［１５，１６］

。在实际问题中，人类语言

标注在许多自然语言处理任务中起着至关重要的作用，这个过

程中不可避免地会出现弱标签问题。第一个原因是标注数据通

常是一个昂贵的劳动过程，而且数据的数量可能很大，所以专家

不可能正确地标记所有数据；另一个原因是标签分配通常由非

专家提供，因此专家通常很难为每个示例指定所有标签。

第３８卷第１期

２０２１年１月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３８Ｎｏ１

Ｊａｎ．２０２１

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38679276

粉丝: 2
资源: 911

弱标签下迁移学习驱动的多示例方法提升性能

基于 pytorch实现图像风格迁移示例 完整代码+数据 可直接运行

基于迁移学习的语音克隆系统包含数据集及教程

第八周学习笔记1

pytorch-multi-label-classifier-master

python编写基于DCNN的滚动轴承迁移诊断代码，以同时减少源域分类损失和源域与目标域的MMD损失为总的损失训练神经网络

四种少样本设置（即 one-shot, two-shot, five-shot 和 ten-shot

基于深度学习的大豆病害检测系统全部代码

halcon不同标签检测

用pytorch实现从源域数据中选择一些和目标域相似的样本，并将这些样本迁移到目标域中

用相似度从源域数据集迁移样本到目标域形成新的数据集pytorch

最新资源

基于 pytorch实现图像风格迁移示例完整代码+数据可直接运行