基于互信息的核极学习机:融合准确性和差异性

需积分: 4 0 下载量 108 浏览量 更新于2024-08-29 收藏 157KB PDF 举报
本文主要探讨了在集成学习领域中解决准确性和多样性平衡问题的新方法——基于互信息的选择性集成核极端学习机(Selective Ensemble of Extreme Learning Machine with Kernels based on Mutual Information, SEKELM)。该研究针对集成学习中常见的挑战,即如何在多个基学习器(Base Learners)中选择最优化的一组来提高整体性能,而不会导致过拟合或信息冗余。 核心思想是采用了核极端学习机(Kernel Extreme Learning Machine, KELM),这是一种具有结构简单、训练快速且泛化能力强的机器学习模型。KELM通过核函数将输入数据映射到高维特征空间,从而处理非线性和非凸问题,这是其在集成学习中脱颖而出的原因。 为了实现准确性和差异性的平衡,作者引入了相关性准则来度量学习器之间的准确性关联,以及冗余性准则来衡量学习器之间的相似性或信息重叠。通过这两个准则,集成学习问题被转换成了一个变量选择问题,目标是在保证准确性的同时,尽量减少学习器间的冗余信息,以增强模型的多样性。 作者选择互信息作为选择策略,因为互信息可以量化两个随机变量之间共享的信息量,最大化相关性则意味着选择具有互补信息的学习器,而最小化冗余性则避免了过多重复的信息。这种基于互信息的最大相关最小冗余准则有效地指导了选择过程,使得集成后的模型在保持高预测精度的同时,能够展示出良好的泛化能力和多样性。 实验部分,作者通过在UCI基准数据集上的回归和分类任务上进行仿真,展示了所提算法相较于传统集成学习方法的显著优势。结果显示,基于互信息的选择性集成核极端学习机在保持较高预测准确性的前提下,能够有效降低学习器之间的冗余,从而提升整体集成系统的性能。 总结来说,本文创新性地将信息论的互信息理论与核极端学习机的集成学习策略相结合,提供了一种有效的模型选择策略,这对于在复杂数据集上实现集成学习的高效和准确性具有实际价值。此外,这种方法也为其他领域的集成学习研究提供了新的思考角度和实践方法。