数据挖掘期末总结:从分析步骤到预处理关键技术

需积分: 5 5 下载量 47 浏览量 更新于2024-06-18 收藏 3.17MB DOCX 举报
本资源是山东大学软件学院数据挖掘课程的期末总结,涵盖了数据分析的基本步骤、大数据的4V理论、不同度量尺度的统计方法、数据对象相似性计算方法、属性相关性的衡量以及数据预处理的主要任务。 1. 数据分析的基本步骤主要包括: - 明确目的和思路:首先需要明确分析目标,构建分析框架,确定分析的角度和指标。 - 数据收集:通过各种设备和技术手段获取大量数据。 - 数据处理:对原始数据进行清洗和整理,去除无用信息,提升数据质量。 - 数据分析:选择合适的统计方法对数据进行深入研究,揭示其中的规律和模式。 - 数据展现:通过图表等形式直观展示数据特征。 - 报告撰写:编写结构清晰、结论明确、建议实用的分析报告。 2. 大数据的4V理论: - 数据量大(Volume):数据规模庞大,超出传统处理能力。 - 数据类型繁多(Variety):包括结构化、半结构化和非结构化数据。 - 处理速度快(Velocity):数据产生的速度非常快,需要实时或近实时处理。 - 价值密度低(Value):大量数据中蕴含的价值相对较低,需要高效提炼。 3. 四种基本度量尺度及其适用的统计度量: - 定类尺度:众数作为集中趋势,异众比率衡量离散程度。 - 定序尺度:除了众数,还包括中位数和四分位数,离散度量有异众比率和四分位差。 - 定距尺度:除了定序尺度的统计量,还可使用平均数、方差或标准差、离散系数等。 - 定比尺度:与定距尺度类似,但可以使用几何平均数。 4. 数据对象的相似性计算方法: - 余弦相似度:衡量两个向量之间的夹角,适用于文本等高维数据。 - Jaccard相似系数:用于比较集合的相似性,常用于分类数据。 - 闵可夫斯基距离:包括曼哈顿距离、欧几里得距离和契比雪夫距离,适用于不同类型的距离计算。 5. 数据属性的相关性度量: - 相合系数:如斯皮尔曼等级相关系数适合有序数据,皮尔森积矩相关系数(PMCC)适用于数值型数据。 - 卡方检验:用于多元标称属性的相关性检验,评估实际频度与期望频度之间的差异。 6. 数据预处理的主要任务: - 数据清理:处理缺失值、异常值、噪声数据和数据一致性问题。 - 数据集成:将来自不同来源的数据整合在一起,处理数据冗余和冲突。 这些知识点涵盖了数据挖掘和数据分析的基础,对于理解和实践数据科学项目具有重要的指导作用。