数据挖掘原理与SPSS-Clementine应用指南

需积分: 13 11 下载量 81 浏览量 更新于2024-08-23 收藏 9.07MB PPT 举报
"数据挖掘原理与SPSS-Clementine应用宝典" 本资源摘要信息是关于数据挖掘原理和SPSS-Clementine应用的综合性知识点,涵盖数据挖掘的定义、发展历史、社会需求、技术定义、商业定义等方面的内容。 一、数据挖掘的定义 数据挖掘是从大量的、不完善的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 二、数据挖掘的发展历史 数据挖掘的发展历史可以追溯到1989年的IJCAI会议,当时数据库中的知识发现讨论专题首次被提出。1991-1994年,KDD讨论专题进一步推动了数据挖掘的发展。 三、数据挖掘的社会需求 数据挖掘的社会需求来自于人类积累的数据量以每月高于15%的速度增加,如果不借助强有力的挖掘工具,仅依靠人的能力来理解这些数据是不可能的。例如,著名的“啤酒尿布”案例,美国加州某个超级卖场通过数据挖掘发现,下班后前来购买婴儿尿布的男顾客大都购买啤酒,于是经理当机立断,重新布置货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放置佐酒食品,同时还把男士日常用品就近布置。这样,上述几种商品的销量大增。 四、数据挖掘的技术定义 数据挖掘和信息检索的相同点是从档案文档或数据库中抽取感兴趣的数据和信息。区别在于数据检索对信息的抽取规则是事先定义好的,抽取的是外在信息。数据挖掘于挖掘寻找现象之间事先未知的关系和关联。 五、数据挖掘的商业定义 数据挖掘是按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。 六、数据挖掘的应用实例 例如,某经营公司对多年来的客户资料进行挖掘后发现,大多数购买电脑的客户具有下面的特点:1、年轻(20—45岁之间);2、收入高;3、居住地:城市;4、学历高;基于此,此经营公司可以根据这些客户的特点有目的的做一些广告或者促销。 七、参数设置 在数据挖掘过程中,需要设置收集、超出、由、操作和交叠字段等参数。收集字段是选择一个字段,其变量值将在“超出”中被聚集,并显示在下面给定字段的变量值范围中。超出字段是选择一个字段,其变量值将被用来显示上面指定的收集图字段。由字段是在创建一个3-D图像时被激活,这个选项允许用户选择一个用来按类别显示收集图字段的设定或标记字段。操作字段是选择收集图中的每个条柱都分别代表什么。选项包括“合计”、“平均值”、“最大值”、“最小值”、“标准差”。交叠字段是选择一个符号型字段来指示上述已选定字段的变量值的类别。选择一个转换收集图的交叠字段,可为每个类别都建立不同颜色的多重条柱。交叠方式有:颜色、面板、动画。 本资源摘要信息提供了数据挖掘的定义、发展历史、社会需求、技术定义、商业定义、应用实例和参数设置等方面的知识点,旨在帮助读者更好地理解数据挖掘的原理和应用。