山东大学数据仓库数据挖掘期末复习关键点解析

需积分: 47 74 下载量 152 浏览量 更新于2024-08-09 24 收藏 6.12MB DOCX 举报
"这份资料包含了山东大学数据仓库与数据挖掘课程2021年期末考试的复习题及答案,适用于山东大学软件学院的学生进行备考。内容涵盖了数据分析的基本流程、大数据的4V理论、数据度量尺度、数据相似性和相关性的度量方法、数据预处理任务、脏数据类型及其成因、缺失值处理策略、噪声数据的定义和处理方法、数据集成的概念及其解决的问题。" 数据分析的基本步骤包括六个环节:首先,明确分析目的和思路,为整个项目设定方向;其次,进行数据收集,构建数据库;接着,进行数据处理,如清洗、转化、提取和计算,确保数据质量;然后,执行数据分析,通过统计和挖掘发现规律;再后,数据展现,用图表、表格等形式呈现结果;最后,撰写报告,清晰表述分析过程和结论。 大数据的4V理论强调了其特征:Volume(大量化)指数据规模巨大;Variety(多样化)表示数据类型多样;Velocity(快速化)意味着数据生成和处理速度极快;Value(商业价值高、价值密度低)指出尽管数据总量庞大,但有价值的信息可能相对稀少。 数据对象的相似性度量方法通常有欧氏距离、曼哈顿距离、余弦相似度等,而数据属性的相关性可通过斯皮尔曼等级相关系数、皮尔森相关系数等统计方法进行衡量。 数据预处理主要包括数据清洗、数据转换、数据规约和数据整合等任务,旨在解决数据质量问题,如不一致性、不完整性、异常值和冗余等问题。 脏数据主要分为数据不完整、数据不准确、数据不一致和数据过时四种类型,其主要原因是数据收集、录入、传输过程中的错误和技术限制。 缺失值的处理方法多样,包括忽略含有缺失值的记录、人工填写(不切实际)、使用全局变量替代、根据属性中心度量填充、以及运用统计方法推断最可能的值。 噪声数据是测量误差导致的偏离真实值的数据,可能源自错误的收集工具、数据录入问题、传输问题、技术限制或命名不一致性。检测噪声数据的方法包括统计分析、3δ原则、距离检测和基于模型或密度的方法。处理噪声数据可选择删除异常记录、视作缺失值处理,或不处理(如通过分箱、回归、聚类等方法)。 数据集成是将分布在不同位置、结构各异的数据源融合在一起,让用户能统一访问。解决的主要问题有模式集成、属性冗余、实体识别、数据冗余和冲突检测,涉及数据的一致性、关联性和可访问性。