数据科学复习重点：选择题及解析

93 浏览量更新于2024-08-04 收藏 34KB DOCX 举报

"南开大学的数据科学导论复习资料，涵盖了数据处理、数据挖掘和机器学习等多个方面的知识点，包括数据变换、数据清洗、决策树、K近邻法、回归分析和神经网络等概念。" 本复习资料详尽地梳理了数据科学的基础知识，主要涉及以下几个方面： 1. 数据变换：在第1题中提到了“线损率”的构造，这是数据变换的一个例子，用于发现潜在的异常行为。数据变换包括简单的函数变换、规范化、属性构造和连续属性离散化，其目的是将原始数据转化为更利于分析的形式。 2. 数据清洗：第3题讨论了数据质量检验，脏数据包括异常值、不一致的值和重复值，但不包括普通值。数据清洗是确保数据质量的关键步骤，去除或修正这些脏数据是数据分析的前提。 3. 决策树：第4题介绍了决策树的划分条件，当样本全属于同一类别、属性集为空、样本集为空或无法正确分类时，决策树会进行节点划分。决策树是一种非参数的监督学习方法，常用于分类和回归任务。 4. 数据收集：第5题提及系统日志收集的基本特征，包括高可用性、高可靠性和可扩展性，但不包括高效率。这表明日志收集系统需要稳定、可靠且能够适应不断增长的数据量。 5. K近邻法（KNN）：第6题指出K值的选择是KNN的基本要素之一，除此之外还包括距离度量和分类决策规则。KNN是一种基于实例的学习，用于分类和回归。 6. 回归分析：第7题提到一元回归参数估计的求解方法，不包括欧式距离法。最常用的方法有最大似然法、矩估计法和最小二乘法。第15题解释了残差的概念，它是真实值与预测值的差，是评估回归模型性能的重要指标。 7. 聚类：第9题列举了划分聚类、层次聚类和密度聚类作为主要的聚类方法，而距离聚类不属于其中。聚类是无监督学习的一种，用于发现数据的内在结构和群体。 8. 特征选择与工程：第10题和第11题强调了特征选择的常见方法和子问题，包括过滤式、封装式和嵌入式，以及特征创建、提取和选择，但不包括特征识别。 9. 异常值和重复值：第12和13题讨论了异常值和重复值的问题，它们是数据预处理中常见的挑战，需要通过特定的方法来检测和处理。 10. 相似性和距离度量：第14题提到了几种距离计算方法，如欧氏距离、曼哈顿距离和马氏距离，但对角距离不在其中。 11. 回归方程标准化：第14题指出，通过变量标准化得到的回归方程称为标准化回归方程，有助于消除变量尺度的影响。 12. 感知机：第17题提到，为解决复杂分类问题，感知机至少需要一个隐含层，感知机是神经网络的早期形式，用于二分类问题。这些知识点覆盖了数据科学的基础概念，对于理解数据处理流程、构建预测模型和解决实际问题具有重要意义。通过深入理解和应用这些概念，学生可以更好地掌握数据科学的核心原理。

《数据科学》课程期末复习资料

一、客观部分：（单项选择、判断）

（一）、选择部分1、通过构造新的指标-线损率，当超出线损率的正常范围，

则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的（C）简单

函数变换B.规范化 C.属性构造 D.连续属性离散化2、实体识别属于以下哪个过程（B

）A.数据清洗 B.数据集成C.数据规约D.数据变换3、数据质量检验的主要任务就是检

查原始数据中是否存在“脏数据”，概括性来说，脏数据不包括以下（A）A.普通值

B.异常值 C.不一致的值D.重复值4、决策树在什么情况下结点需要划分（D）当前结点

所包含的样本全属于同一类别当前属性集为空，或是所有样本在所有属性上取值相

同当前结点包含的样本集为空还有子集不能被基本正确分类5、系统日志收集的基本

特征不包括（D）A.高可用性 B.高可靠性C.可扩展性D.高效率6、k近邻法的基本要素

不包括（C）oA.距离度量B.k值的选择C.样本大小D.分类决策规则7、一元回归参数估

计的参数求解方法不包括（D）。

A,最大似然法B.距估计法C.最小二乘法 D,欧式距离法8、下列选项不是BFR的对象是（

B）A.废弃集 B.临时集 C.压缩集 D.留存集9、聚类的主要方法不包括（D）A.划分聚类

B.层次聚类C.密度聚类D.距离聚类10、以下哪一项不是特征选择常见的方法（D）A.过

滤式 B.封装式 C.嵌入式 D.开放式 11、以下哪一项不是特征工程的子问题（D）A.特

征创建B.特征提取C.特征选择 D.特征识别12、比如一张表，从业务上讲，一个用户

应该只会有一条记录，那么如果某个用户出现了超过一•条的记录，这就产生了（

C）A,异常值B.不一致的值C.重复值D.缺失值13、对于相似性与相异性的度量方法，基

于距离的方法，以下哪一项不符合要求

（D）A.欧氏距离B.曼哈顿距离C.马氏距离 D.对角距离14、通过变量标准化计算得到的回

归方程称为（A）

A.标准化回归方程B.标准化偏回归方程C.标准化自回归方程D.标准化多回归方

程15、一元线性回归中，真实值与预测值的差称为样本的（D）。

A.误差 B.方差C.测差 D.残差16、在回归分析中，自变量为（），因变量为（D）。

A.离散型变量，离散型变量 B.连续型变量，离散型变量C.离散型变量，连续型变量

D.连续型变量，连续型变量17、为了解决任何复杂的分类问题，使用的感知机结构应

下载后可阅读完整内容，剩余6页未读，立即下载

xinkai1688

粉丝: 374
资源: 8万+

数据科学复习重点：选择题及解析

csp - j初试模拟卷.docx

南开大学复习资料-计算机高级网络技术0001.docx

微信小程序项目计划规划优质方案书--精选.doc.docx

南开大学复习资料-计算机原理0001.docx

南开大学复习资料-大学计算机基础.docx

南开大学复习资料-网络爬虫与信息提取0001.docx

执业兽医资格考试复习资料-兽医公共卫生学.docx

南开大学复习资料-电子商务.docx

部编一年级下期末复习---知识归类.docx

聚焦专业共同体---科学教研组总结.docx

最新资源