数据科学复习重点:选择题及解析

0 下载量 93 浏览量 更新于2024-08-04 收藏 34KB DOCX 举报
"南开大学的数据科学导论复习资料,涵盖了数据处理、数据挖掘和机器学习等多个方面的知识点,包括数据变换、数据清洗、决策树、K近邻法、回归分析和神经网络等概念。" 本复习资料详尽地梳理了数据科学的基础知识,主要涉及以下几个方面: 1. 数据变换:在第1题中提到了“线损率”的构造,这是数据变换的一个例子,用于发现潜在的异常行为。数据变换包括简单的函数变换、规范化、属性构造和连续属性离散化,其目的是将原始数据转化为更利于分析的形式。 2. 数据清洗:第3题讨论了数据质量检验,脏数据包括异常值、不一致的值和重复值,但不包括普通值。数据清洗是确保数据质量的关键步骤,去除或修正这些脏数据是数据分析的前提。 3. 决策树:第4题介绍了决策树的划分条件,当样本全属于同一类别、属性集为空、样本集为空或无法正确分类时,决策树会进行节点划分。决策树是一种非参数的监督学习方法,常用于分类和回归任务。 4. 数据收集:第5题提及系统日志收集的基本特征,包括高可用性、高可靠性和可扩展性,但不包括高效率。这表明日志收集系统需要稳定、可靠且能够适应不断增长的数据量。 5. K近邻法(KNN):第6题指出K值的选择是KNN的基本要素之一,除此之外还包括距离度量和分类决策规则。KNN是一种基于实例的学习,用于分类和回归。 6. 回归分析:第7题提到一元回归参数估计的求解方法,不包括欧式距离法。最常用的方法有最大似然法、矩估计法和最小二乘法。第15题解释了残差的概念,它是真实值与预测值的差,是评估回归模型性能的重要指标。 7. 聚类:第9题列举了划分聚类、层次聚类和密度聚类作为主要的聚类方法,而距离聚类不属于其中。聚类是无监督学习的一种,用于发现数据的内在结构和群体。 8. 特征选择与工程:第10题和第11题强调了特征选择的常见方法和子问题,包括过滤式、封装式和嵌入式,以及特征创建、提取和选择,但不包括特征识别。 9. 异常值和重复值:第12和13题讨论了异常值和重复值的问题,它们是数据预处理中常见的挑战,需要通过特定的方法来检测和处理。 10. 相似性和距离度量:第14题提到了几种距离计算方法,如欧氏距离、曼哈顿距离和马氏距离,但对角距离不在其中。 11. 回归方程标准化:第14题指出,通过变量标准化得到的回归方程称为标准化回归方程,有助于消除变量尺度的影响。 12. 感知机:第17题提到,为解决复杂分类问题,感知机至少需要一个隐含层,感知机是神经网络的早期形式,用于二分类问题。 这些知识点覆盖了数据科学的基础概念,对于理解数据处理流程、构建预测模型和解决实际问题具有重要意义。通过深入理解和应用这些概念,学生可以更好地掌握数据科学的核心原理。