分辨矩阵与直接求核法:数据挖掘中的关键属性约简策略
需积分: 13 154 浏览量
更新于2024-07-12
收藏 9.07MB PPT 举报
属性约简是数据挖掘过程中的一个重要步骤,它有助于减少特征数量,提高模型的效率和准确性。《数据挖掘原理与SPSS Clementine应用宝典》一书中,11.3.1节详细介绍了两种常见的属性约简方法:分辨矩阵求核约简和直接求核集方法。
分辨矩阵求核约简方法:
这种方法基于一个m*m阶矩阵D,每个元素Dij代表决策表中第i行和第j行两个属性的子集。矩阵对角线为0,意味着同一行的属性不会相互比较。通过计算不同属性之间的相关性或区别性,该方法试图找出那些对于预测目标变量最具影响力或最不相关的属性组合。这个过程可以使用统计量如卡方检验或互信息来度量属性之间的关系强度。
直接求核集方法:
这种直接求核集的方法通常涉及寻找最优的属性子集,该子集能够提供最佳的分类性能,同时避免过拟合。它可能包括各种搜索算法,如递归特征消除(RFE)或基于遗传算法的优化。这种方法更注重实际的性能提升,而非理论上的相关性分析。
数据挖掘在现代社会中有着广泛的应用,如商业智能中的市场细分和客户行为分析。例如,通过挖掘客户资料,企业可以识别出购买电脑的客户群体特征,如年龄、收入、居住地和学历,从而制定更有针对性的营销策略。
数据挖掘的定义:
数据挖掘被定义为从大量数据中自动发现模式、关联和知识的过程。与信息检索相比,数据挖掘不仅寻找预先定义好的信息,还关注未知关系的挖掘。商业定义中,数据挖掘帮助企业发现潜在规律,支持决策并提升竞争优势。
发展历史:
数据挖掘的概念起源于1989年的IJCAI会议,其中知识发现成为讨论重点。随着时间发展,KDD(知识发现和数据挖掘)讨论专题逐渐兴起,推动了这一领域的研究和实践。
《数据挖掘原理与SPSS Clementine应用宝典》提供了深入理解和应用这两种属性约简方法的实用指南,帮助读者在实际项目中有效挖掘和利用数据中的有价值信息。
2021-09-29 上传
2011-01-08 上传
2010-03-07 上传
2010-03-07 上传
2021-09-29 上传
2021-09-29 上传
2021-09-29 上传
2021-09-29 上传
2021-09-29 上传
欧学东
- 粉丝: 897
- 资源: 2万+
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常