山东大学数据仓库数据挖掘期末复习关键点解析

需积分: 47 152 浏览量更新于2024-08-09 24 收藏 6.12MB DOCX 举报

"这份资料包含了山东大学数据仓库与数据挖掘课程2021年期末考试的复习题及答案，适用于山东大学软件学院的学生进行备考。内容涵盖了数据分析的基本流程、大数据的4V理论、数据度量尺度、数据相似性和相关性的度量方法、数据预处理任务、脏数据类型及其成因、缺失值处理策略、噪声数据的定义和处理方法、数据集成的概念及其解决的问题。" 数据分析的基本步骤包括六个环节：首先，明确分析目的和思路，为整个项目设定方向；其次，进行数据收集，构建数据库；接着，进行数据处理，如清洗、转化、提取和计算，确保数据质量；然后，执行数据分析，通过统计和挖掘发现规律；再后，数据展现，用图表、表格等形式呈现结果；最后，撰写报告，清晰表述分析过程和结论。大数据的4V理论强调了其特征：Volume（大量化）指数据规模巨大；Variety（多样化）表示数据类型多样；Velocity（快速化）意味着数据生成和处理速度极快；Value（商业价值高、价值密度低）指出尽管数据总量庞大，但有价值的信息可能相对稀少。数据对象的相似性度量方法通常有欧氏距离、曼哈顿距离、余弦相似度等，而数据属性的相关性可通过斯皮尔曼等级相关系数、皮尔森相关系数等统计方法进行衡量。数据预处理主要包括数据清洗、数据转换、数据规约和数据整合等任务，旨在解决数据质量问题，如不一致性、不完整性、异常值和冗余等问题。脏数据主要分为数据不完整、数据不准确、数据不一致和数据过时四种类型，其主要原因是数据收集、录入、传输过程中的错误和技术限制。缺失值的处理方法多样，包括忽略含有缺失值的记录、人工填写（不切实际）、使用全局变量替代、根据属性中心度量填充、以及运用统计方法推断最可能的值。噪声数据是测量误差导致的偏离真实值的数据，可能源自错误的收集工具、数据录入问题、传输问题、技术限制或命名不一致性。检测噪声数据的方法包括统计分析、3δ原则、距离检测和基于模型或密度的方法。处理噪声数据可选择删除异常记录、视作缺失值处理，或不处理（如通过分箱、回归、聚类等方法）。数据集成是将分布在不同位置、结构各异的数据源融合在一起，让用户能统一访问。解决的主要问题有模式集成、属性冗余、实体识别、数据冗余和冲突检测，涉及数据的一致性、关联性和可访问性。

7.脏数据主要有哪几种？产生的主要原因是什么？

8.缺失值的处理方法有哪些？

忽略元组、人工填写（人为填充，工作量大，不可行）、全局变量（采用全局常量来替换空缺值）、

使用属性的中心度量、使用同类样本属性的中心度量、使用最可能的值（利用回归、贝叶斯计算公

式推断最可能的值）。

剩余13页未读，继续阅读

AmazingZeen

粉丝: 2
资源: 1

山东大学数据仓库数据挖掘期末复习关键点解析

刘莹 数据挖掘期末考试的一些问答题答案

山大数据挖掘与数据仓库复习提纲

中国科学院大学2017年数据挖掘期末考试题

Linux期末考试复习试题含答案.doc

2021数据库期末考试复习题及答案详解

java期末考试复习题_java期末考试复习试题

软件工程期末考试复习题（含答案）

Linux期末考试复习试题(含答案)要点.pdf

成都理工大学《数据结构》期末考试复习题（部分含答案）.pdf

数据结构c语言版期末考试复习题库

最新资源

刘莹数据挖掘期末考试的一些问答题答案