集成自训练算法优化：结合主动学习与置信度投票

需积分: 20 115 浏览量更新于2024-09-06 收藏 691KB PDF 举报

"结合主动学习与置信度投票的集成自训练方法" 集成自训练算法是半监督学习领域的一种重要技术，旨在通过利用未标记数据来增强分类器的性能。该方法基于集成学习，即组合多个分类器的预测结果，以此提高整体预测的准确性和稳定性。在传统的集成自训练过程中，通常采用类别投票或平均置信度的方式来挑选那些被多个分类器一致预测的样本，作为可靠的标记样本添加到训练集。然而，这种方法存在一些局限性。首先，仅仅依赖高置信度可能会忽略掉那些虽然置信度较低，但多个分类器预测结果一致的样本，这些样本可能包含了有价值的信息。其次，当使用异构的集成分类器时，不同的分类器可能对高置信度样本的类别判断不一致，这使得这些样本难以被有效地利用。针对这些问题，论文提出了一种结合主动学习与置信度投票策略的集成自训练算法。主动学习是一种有效的半监督学习策略，它允许算法在学习过程中主动请求人类专家对特定样本进行标注。在该算法中，如果一个样本的置信度不高但多个分类器的投票结果一致，那么这个样本会被视为具有潜在价值，并通过主动学习的方式提交给人工标注，以便获取更准确的标签信息。具体来说，该算法首先运用集成分类器对无标记样本进行预测，然后根据置信度和投票一致性两个维度来筛选样本。一方面，选择那些置信度高且预测结果一致的样本进行自动标记；另一方面，对于那些置信度低但投票一致的样本，采用主动学习策略，邀请专家进行人工标注。通过这种方式，算法不仅能够充分利用高置信度样本，还能够挖掘并利用低置信度样本的潜在价值，从而提高模型的泛化能力。在UCI数据集上的实验表明，这种结合主动学习与置信度投票的集成自训练算法相比于传统方法，能更好地处理数据标注的瓶颈问题，有效提升了分类器的性能。实验结果验证了该算法的有效性和实用性，为半监督学习领域提供了一个新的优化策略。这篇论文的研究工作强调了在集成自训练中结合置信度和投票一致性的重要性，并通过引入主动学习来克服仅关注高置信度样本的局限性。这种方法有望在实际应用中，特别是在大数据标注资源有限的情况下，提升机器学习模型的学习效率和准确性。

2016，52（20）

1 引言

集成自训练算法是利用集成学习的思想，结合多个分

类器对未标注样本进行共同预测，再添加可靠的未标注

样本及其类标号到训练集中，用扩展后的训练集重新训

练分类器，从而提高分类器的性能，用来解决数据标注

瓶颈问题。其中，集成自训练算法怎样选择可靠的样本

一直是学者们研究的问题

[1-6]

。在文献[1]中，MFA Hady，

F.Schwenker 提出 Co-Training By Committe e 自训练算

法框架，通过集成多个分类器对无标注样本进行分类，

以最大后验概率作为置信度，选出置信度高的样本加入

到训练集中。由于选取最大后验概率的时候，可能会出

现重复的最大后验概率值的问题，王双等人在文献[2-3]

结合主动学习与置信度投票的集成自训练方法

黎隽男，吕佳

LI Junnan, LV Jia

重庆师范大学计算机与信息科学学院，重庆 401331

College of Computer and Information Science, Chongqing Normal University, Chongqing 4 01331, China

LI Junna n, LV Jia. Ensemble self-train ing method bas ed on active learning and confidence voting. Co mputer Engi-

neering and Applications, 2016, 52（20）：167-171.

Abstract：The self-training algorithm based on ensemble learning is a semi-supervised algorithm. Many scholars choose

reliabl e samples by vote or aver age confid ence of en semble c lassifiers. Voting strategies based on confidence tend to

choose a sample with high confidence or low confidence but unanimou s vote of ensemble classifiers. The lat ter scenario

may mistakenly label a sample near the decision boundary. If t he heterogeneous ensemble classifiers are used, it may lead

to the p roblem that a s ample of high con fidence has diffe rent labels labeled by ensemble classifiers. Therefore, unlabeled

samples labeled by ensemble classifie rs can not be effe ctively added t o the t raining set. An ensemble self-training a lgorithm

based on active learning and confidenc e voting is proposed to s olve the problems above. The al gorithm reasonably adjusts

the voting strategy, and labels a unlabelled sample with high c onfidence and unanim ous vote o f ensemble classifiers. At

the same time, the active learning is used to label samples with low confidence and inconsistent votin g of ensemble classi-

fiers, so as to compensate f or the shortcoming t hat the ensem ble self-training algorithm focuses only on sam ples with high

confid ence, while ignoring useful information o f samples of low confidence. The effec tiveness of the proposed algorithm

is verified by a comparative experiment on the UCI data s et.

Key words ：ensem ble self-training; active learni ng; weighted K Nearest Neighbor（KNN）; naive Bayes; confidence

摘要：基于集成学习的自训练算法是一种半监督算法，不少学者通过集成分类器类别投票或平均置信度的方法选

择可靠样本。基于置信度的投票策略倾向选择置信度高的样本或置信度低但投票却一致的样本进行标记，后者这

种情形可能会误标记靠近决策边界的样本，而采用异构集成分类器也可能会导致各基分类器对高置信度样本的类

别标记不同，从而无法将其有效加入到有标记样本集。提出了结合主动学习与置信度投票策略的集成自训练算法

用来解决上述问题。该算法合理调整了投票策略，选择置信度高且投票一致的无标记样本加以标注，同时利用主动

学习对投票不一致而置信度较低的样本进行人工标注，以弥补集成自训练学习只关注置信度高的样本，而忽略了置

信度低的样本的有用信息的缺陷。在 UCI 数据集上的对比实验验证了该算法的有效性。

关键词：集成自训练算法；主动学习；加权 K 最近邻（KNN）；朴素贝叶斯；置信度

文献标志码：A 中图分类号：TP18 1 doi：10.3778/j.issn.1002-833 1.1605-0175

基金项目：重庆市科委科研项目（No.cstc2014jcyjA40011）。

作者简介：黎隽男（1992—），男，硕士研究生，研究领域为机器学习，E-mail：455207292@qq.com；吕佳（1978—），通讯作者，女，博

士，教授，研究领域为数据挖掘、机器学习。

收稿日期：2016-05-16 修回日期：2016-09-14 文章编号：1002-8331（20 16）20-0167-05

C omputer Engineering and Applications 计算机工程与应用

167

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38743506

粉丝: 351
资源: 2万+

集成自训练算法优化：结合主动学习与置信度投票

自训练adaboost分类器

论文研究-图像数据高置信度关联规则的提取方法研究.pdf

论文研究-一种基于纹理和颜色置信融合的运动目标检测方法.pdf

论文研究-高置信度关联规则的挖掘.pdf

论文研究-基于主轴分析和嵌入置信度的彩色边缘检测.pdf

论文研究-基于互信息置信度的网格连续汉语语音检索.pdf

最新资源