二次集成学习提升医疗数据挖掘效果

需积分: 9 78 浏览量更新于2024-08-11 收藏 413KB PDF 举报

"二次集成学习在医疗数据挖掘中的应用 (2014年)，作者：魏秀参、慕鑫、杨杨，发表于《计算机科学与探索》2014年第9期，第1113-1119页。" 在医疗数据挖掘领域，二次集成学习是一个重要的技术，它在解决类别不平衡和训练样本不足的问题上表现出色。这篇2014年的论文主要探讨了如何利用这种学习策略来优化医疗数据的分类任务。CCDM 2014 数据挖掘竞赛提供了医学诊断数据，其中包括多类标签问题和多类分类问题，这两个问题在实际医疗场景中普遍存在。类别不平衡是指在数据集中，不同类别的实例数量差异悬殊，可能导致分类器过于偏向多数类，而忽视少数类。而训练样本较少则可能限制模型的学习能力，使其难以捕获数据的复杂模式。为了解决这些问题，论文提出了一种名为二次集成学习的新框架。二次集成学习的基本思想是，首先使用一次集成学习方法（如AdaBoost、Bagging或Random Forest等）生成多个基础分类器。这些基础分类器对原始训练集进行分析，找出置信度较高的样本，即那些被大多数基础分类器正确分类的实例。然后，将这些高置信度样本加入到原始训练集中，形成一个增强的训练集。最后，基于这个增强的训练集，进行二次学习，训练一个新的分类器，期望它能具有更好的泛化性能。论文通过实验对比显示，二次集成学习相对于传统的集成学习方法，如单一的随机森林或者支持向量机，在处理医疗数据挖掘任务时，特别是在类别不平衡和样本量有限的情况下，能够获得更优的分类效果。这表明，二次集成学习能够有效地捕捉数据的复杂性，提高对罕见类别的识别能力，从而改善医疗诊断的准确性。总结来说，二次集成学习是一种适应医疗数据特点的机器学习策略，它通过两次学习过程优化了模型的训练，增强了对不平衡数据和小样本问题的处理能力，对于提升医疗领域的数据挖掘质量和效率有着重要的实践意义。这一方法为医疗数据分析提供了一条新的路径，有助于在未来的研究中进一步提升医疗决策支持系统的性能。

魏秀参，慕鑫，杨杨.二次集成学习在医疗数据挖掘中的应用[J].计算机科学与探索，2014，8（9）：1113-1119.

二次集成学习在医疗数据挖掘中的应用

􀆽

魏秀参

，慕鑫，杨杨

南京大学计算机软件新技术国家重点实验室，南京 2 10023

An Application in Medical Data Minin g Based on Twice Ensemble Learning

􀆽

WEI Xiushen

, MU Xin, YANG Yang

State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210023, C hina

+ Corresponding a uthor : E-mail: weixs@lamda.nju.edu.cn

WEI Xiushen, MU Xin, YA NG Yang. An application in medical data mining based on twice ensemble lear ning.

Journal of Frontiers of Computer Science a nd Technology, 2014, 8(9)：1113-1119.

Abs tract: This CCDM 2014 Data Mining Co mpetition focused on the medical diagn osis datasets. It proposed two

popular problems in real world, i.e., multi-label problem and multi-c lass classification problem. In order to solve these

data m ining tasks much better, aiming at the problems of class imbalance and les s training instances, this paper proposes

a new learning framework, i.e., the twice ensemble learning framework, to tackle t hese difficulties. This new frame-

work can get so me instances with higher confidence, and inputs them into the original training dataset. Finally, it ca n

obtain classi fiers wit h higher g eneralization capability. The results of this competition show that the twice ensemble

learning framewor k can get very ideal performance on these two p roblems.

Key wo rds: twice learning; ensemble learning; class imbalance learning; data mining

摘要：CCDM 2014数据挖掘竞赛基于医学诊断数据，提出了实际生活中广泛出现的多类标问题和多类分类

问题。针对两个问题出现的类别不平衡现象以及训练样本较少等特点，为了更好地完成数据挖掘任务，借助

二次学习和集成学习的思想，提出了一个新的学习框架

—

—二次集成学习。该学习框架通过首次集成学习得

到若干置信度较高的样本，将其加入到原始训练集，并在新的训练集上进行二次学习，进而得到泛化性能更高

的分类器。竞赛结果表明，与常用的集成学习相比，二次集成学习在两个问题上均取得了非常理想的结果。

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Co mpute r Sci ence and Techn ology

1673-9418/2014/08(09)-1113-07

doi: 10.3778/j.issn.1673-9418.1403064

E-mail: fcst@vip.163 .com

http://www.ceaj.org

Tel: +86 -10-89056056

* The National Natural Science Foundation of China under Grant Nos. 61273301, 61105043 (国家自然科学基金); the Natural Science

Foundation of Jiangsu Province of China under Grant No. B K2011566 (江苏省自然科学基金).

Received 2014-02, Accepted 2014-04.

CNKI网络优先出版：2014-04-24, http://w ww.cnki.net/kcms/doi/10.3778/j.issn.1673-9418.1403064.html

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38531630

粉丝: 2
资源: 887

二次集成学习提升医疗数据挖掘效果

二次集成学习在医疗数据挖掘中的应用.pdf

数据挖掘技术在医疗大数据中的应用研究.pdf

数据挖掘技术在医疗领域中的应用研究.pdf

数据挖掘集成学习算法

数据挖掘中数据集成的主要方法

数据仓库与数据挖掘技术应用过程中存在的问题

数据挖掘与数据仓库的应用

java weka数据挖掘,基于 JAVA 的 WEKA 数据挖掘平台分析及二次开发

数据仓库与数据挖掘技术应用过程中的对策

集成学习在生物医学信息学中的发展和应用

最新资源