商务智能:数据处理、关联规则与分类详解

需积分: 10 0 下载量 98 浏览量 更新于2024-08-06 收藏 736KB PDF 举报
商务智能与决策是一个重要的领域,它结合了数据处理、数据挖掘的多种技术,包括关联规则分析、分类和聚类。这份文档主要聚焦于考试常考的部分知识点。 首先,数据处理是基础,文档介绍了两种常见的规范化方法:最大最小规范化,通过调整数值范围使其在0-1之间,确保了数据的一致性和可比性;小数定标规范化则是通过移动小数点位置来适应属性值的最大绝对值。数据立方体作为数据仓库的一种模型,涉及基本理解与物理模型,如星形模型(由中心表和相关维表组成)、雪花模型(维表规范化导致数据细化)以及事实星座(多个事实表共享维表)。 关联规则是数据挖掘的核心概念,它探讨的是数据项之间的频繁项集和支持度置信度。一项集如{𝐴}表示单个商品,而{𝐴,𝐵}和{𝐴,𝐵,𝐶}则代表更复杂的组合。关联规则描述了商品间的购买规律,例如"𝐷→𝐴"意味着"D"经常与"A"一起出现。支持度是某规则出现的频率,置信度则是规则A在D出现时B也出现的概率。闭项集是指所有超集支持度不同的最小项集,极大频繁项集不仅频繁且没有超集的支持度更高。序列的概念在此处也有所提及,子序列是父序列的一部分。 分类方法是另一个关键部分,以决策树为例,它使用基尼指数来衡量节点纯度,选择划分属性时优先降低不确定性。基尼指数越大,表示分类越不纯。决策树通过最大化增益(减少节点纯度的改进)进行构建。在分类过程中,减枝策略(如剪枝)可能会提高模型的泛化能力,但有时会牺牲一定的准确性,文档中提到的一个例子展示了剪枝前后错误率的变化。 文档还提到了评估分类模型的指标,如精确率(TPR),它是真正例占总预测为正例的比例,用于评价模型的性能。 商务智能与决策涉及数据预处理、数据关系探索、以及基于这些发现的预测和分类技术,这些都是现代商业环境中理解和优化决策过程的重要工具。通过学习和掌握这些知识点,可以有效地应用于数据分析、市场营销、客户行为预测等多个实际场景。