归纳学习下连续型数据的高效区间划分方法

需积分: 0 0 下载量 146 浏览量 更新于2024-09-05 收藏 188KB PDF 举报
该篇论文深入探讨了"归纳式学习中连续型数据的区间划分问题",由陈秉正和韩春鹏两位作者在清华大学经济管理学院发表于2001年4月的《系统工程理论与实践》第4期,文章编号为100026788(2001)0420001207。在当前归纳式学习方法中,处理连续型样本数据的分组是一个关键挑战,因为这直接影响到生成的规则能够准确反映变量间的相互关系,进而影响新样本的识别能力。现有的解决方案对于连续数据的分组并未完全满足需求。 论文提出了一种创新的区间划分方法,首先基于类相关离散化策略,引入极大熵法进行初始区间划分。这种方法旨在找到一种既能保持数据特性又能最大化信息熵的方式,确保划分的合理性。接着,作者采用多因素优选法来动态调整这些区间的边界,这种优化过程考虑了多个影响因素,以提高划分的精度和稳定性。 论文的核心部分是引入二阶概率统计检验,将实际意义融入到区间合并的过程中,以确保划分结果不仅在统计上有效,而且在实际应用中有明确的实际含义。这种方法的目的是尽可能地减少噪声影响,同时保持数据之间的内在联系。 作者以中国宏观经济的某些指标为例,展示了新提出的区间划分方法的有效性。结果显示,这种方法能够有效地揭示这些指标间的复杂关系,并在实际应用中取得了良好的识别和分析效果。 论文的关键词包括归纳式学习、分类和离散化,强调了这项工作在机器学习领域的重要性和实用性。整体而言,这篇论文为处理归纳式学习中连续型数据的区间划分问题提供了一种新颖且实用的方法,为相关领域的研究者和实践者提供了有价值的参考。