数据分析与数据挖掘复习要点

需积分: 11 17 下载量 40 浏览量 更新于2024-08-11 5 收藏 989KB DOCX 举报
"这份文档是山东大学潘鹏老师提供的数据仓库和数据挖掘复习题,用于2021年5月的期末复习。涵盖了数据分析流程、大数据4V理论、数据度量尺度、相似性计算、相关性分析、数据预处理任务以及脏数据和缺失值处理等核心知识点。" 1. 数据分析的基本步骤包括: - 明确目的和思路:定义项目目标,规划分析路径。 - 数据收集:构建数据库,获取所需数据。 - 数据处理:数据清洗,转化,提取,计算,确保数据质量。 - 数据分析:运用统计学和数据挖掘技术,探索数据内在规律。 - 数据展现:通过图表、表格等形式展示分析结果。 - 报告撰写:结构化报告,清晰呈现结论和建议。 2. 大数据的4V理论: - Volume(规模化):数据量巨大。 - Variety(多样化):数据类型繁多,结构复杂。 - Velocity(快速化):数据生成和更新速度快。 - Value(商业价值高、价值密度低):虽然总体价值高,但单个数据点的价值密度较低。 3. 四种基本度量尺度的集中趋势和离散度量: - 定类数据:集中趋势用众数,离散程度用异众比率。 - 定序数据:集中趋势用中位数,离散程度用四分位差。 - 定距和定比数据:集中趋势用平均数(均值),离散程度用方差和标准差。离散系数作为相对离散程度的度量。 4. 数据对象的相似性计算方法: - 闵可夫斯基距离:包括欧式距离(p=2)和曼哈顿距离(p=1)。 - 契比雪夫距离:适用于最大差异的情况。 - 马式距离:考虑了数据的方差,适用于不同尺度的数据比较。 5. 数据属性的相关性分析: - 斯皮尔曼等级相关系数:适用于非线性关系的等级数据。 - 皮尔森积矩相关系数:适用于线性关系的连续数据。 6. 数据预处理的主要任务及问题: - 数据清洗:处理缺失值,识别和去除异常值,平滑噪声,修正不一致性。 - 数据集成:合并来自不同来源的数据,形成一致的数据存储。 - 数据规约:减少数据的规模,保持分析结果的相似性,包括维度规约、数值规约和数据压缩。 - 数据变换:进行规范化(如z-score标准化)和聚集(如汇总统计)。 7. 脏数据的类型及其原因: - 不完全数据:数据缺失,可能源于数据收集不全或分析需求的变化。 - 噪声数据:包含错误或孤立点,可能由收集、录入、转换过程中的问题引起。 - 不一致数据:编码或名称差异,可能由于不同的数据源或数据更新规则导致。 8. 缺失值处理方法: - 忽略元组:不考虑含有缺失值的记录,但可能导致信息损失。 - 手工填写:人工填补,适用于少量且关键的缺失值。 - 自动填充:使用推理方法(如贝叶斯或决策树)预测最可能的值。 9. 噪声数据定义与产生原因: - 噪声数据是测量误差或偏差,影响分析的准确性和效果。 - 原因包括:错误的数据采集工具,数据录入错误,数据传输过程中出现问题等。