DataMining入门:与统计分析的区别及与DataWarehousing的关系

1 下载量 193 浏览量 更新于2024-08-30 收藏 145KB PDF 举报
"数据挖掘入门必看10个问题探讨了DataMining与统计分析的区别以及DataWarehousing与DataMining的紧密联系。DataMining并非魔术,而是依赖于丰富的数据来发现有价值的信息。它与统计学的关系密切,许多DataMining技术如CART、CHAID源于统计学,但其应用更为便捷且面向非专业统计背景的用户。DataMining工具适应了从大型数据库中获取和分析数据的企业需求,更注重实践应用。另一方面,DataWarehousing作为数据的集中存储,是一个经过处理和整合的大型数据库,旨在为决策支持和数据分析提供服务。两者的关系可以理解为DataMining是从DataWarehousing这个矿坑中提取有价值信息的过程。" 在这个摘要中,我们可以提炼出以下几个关键知识点: 1. **DataMining与统计分析的关系**:DataMining虽然与统计分析有深厚的理论基础,但其重点在于处理大量实际数据并提供易用的工具,而不局限于统计理论。DataMining更强调实践应用,而统计分析可能更偏向理论研究。 2. **DataMining技术**:CART(Classification and Regression Trees)和CHAID(Chi-squared Automatic Interaction Detection)是两种常见的DataMining技术,它们源于统计学的多变量分析。 3. **DataMining的优势**:能够处理大数据量,工具使用门槛较低,适应现代企业的需求,直接从大型数据库中抽取数据进行分析。 4. **DataWarehousing的概念**:数据仓库是一个集中的、经过处理的大型数据库,用于存储决策支持系统所需的数据,目的是在合适的时间提供正确的信息给决策者。 5. **DataWarehousing与DataMining的联系**:DataMining依赖DataWarehousing提供的数据源,通过深入分析这些数据来挖掘隐藏的有价值信息。 这些知识点为初学者提供了理解DataMining和DataWarehousing基本概念的框架,并指出了两者在实际应用中的区别和协同作用。学习DataMining不仅需要了解相关的统计学原理,还要掌握如何利用数据仓库来准备和提取数据,以便进行有效的数据分析。