南开大学数据科学导论期末复习：关键知识点解析

76 浏览量更新于2024-08-04 收藏 34KB DOCX 举报

南开大学的数据科学导论期末复习资料包含了丰富的理论和实践知识，主要围绕数据科学的核心概念和技术展开。以下是部分内容的详细解析： 1. 数据变换技术：复习了数据处理中的关键步骤，如构造新指标（如线损率）属于属性构造（C），即根据业务需求创造出新的数据特征来表示或预测某一现象。 2. 数据处理流程：实体识别（B）是数据集成过程的一部分，它涉及到识别和统一数据源中的实体，以便后续分析。 3. 数据质量控制：数据质量检验关注的是数据的准确性，脏数据通常指异常值（B）、不一致的值（C）和重复值（D），而非普通值。 4. 决策树算法：节点划分的条件包括样本集不能被基本正确分类（D），这确保了模型的划分是有意义的。 5. 系统日志管理：系统日志收集应具备高可用性（A）、高可靠性和可扩展性（B），但效率并非其基本特征。 6. 机器学习方法：k近邻法（KNN）涉及距离度量（A）、k值选择，但样本大小不是其基本要素（C）。 7. 回归分析：一元回归参数估计方法包括最大似然法、距离估计法和最小二乘法（A、B、C），欧式距离法（D）不属于这个范畴。 8. 主成分回归（BFR）的目标集包括废弃集、临时集、压缩集和留存集，排除了样本大小这一选项。 9. 聚类方法：常见类型有划分聚类（A）、层次聚类（B）、密度聚类，距离聚类（D）本身就是一个聚类方法，故不属于此列。 10. 特征选择：常见方法包括过滤式、封装式和嵌入式（A、B、C），开放式并不是一个标准术语。 11. 特征工程：子问题包括特征创建、特征提取和特征选择（A、B、C），特征识别一般不属于这个范畴。 12. 数据清洗：如果用户出现多条记录，意味着数据一致性问题，这是重复值（C）的体现。 13. 相似性度量：基于距离的方法包括欧氏距离（A）、曼哈顿距离（B）和马氏距离（C），对角距离（D）不适用于这些方法。 14. 回归模型：标准化回归方程（A）是指通过变量标准化处理后的模型，常用于减少模型间的比较难度。 15. 回归分析指标：样本残差（D）指的是实际值与预测值之间的差异，反映了模型的预测精度。 16. 回归分析变量类型：自变量通常为连续型变量（D），而因变量同样为连续型变量，因为回归分析处理的是两个变量间的关系。 17. 感知机模型：解决复杂分类问题时，至少需要一个隐含层（B），这体现了深度学习中的非线性建模能力。这些知识点涵盖了数据预处理、机器学习基础、数据质量管理和回归分析等多个方面，是南开大学数据科学导论课程的重要复习内容。

《数据科学》课程期末复习资料

一、客观部分：（单项选择、判断）

（一）、选择部分1、通过构造新的指标-线损率，当超出线损率的正常范围，

则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的（C）简单

函数变换B.规范化 C.属性构造 D.连续属性离散化2、实体识别属于以下哪个过程（B

）A.数据清洗 B.数据集成C.数据规约D.数据变换3、数据质量检验的主要任务就是检

查原始数据中是否存在“脏数据”，概括性来说，脏数据不包括以下（A）A.普通值

B.异常值 C.不一致的值D.重复值4、决策树在什么情况下结点需要划分（D）当前结点

所包含的样本全属于同一类别当前属性集为空，或是所有样本在所有属性上取值相

同当前结点包含的样本集为空还有子集不能被基本正确分类5、系统日志收集的基本

特征不包括（D）A.高可用性 B.高可靠性C.可扩展性D.高效率6、k近邻法的基本要素

不包括（C）oA.距离度量B.k值的选择C.样本大小D.分类决策规则7、一元回归参数估

计的参数求解方法不包括（D）。

A,最大似然法B.距估计法C.最小二乘法 D,欧式距离法8、下列选项不是BFR的对象是（

B）A.废弃集 B.临时集 C.压缩集 D.留存集9、聚类的主要方法不包括（D）A.划分聚类

B.层次聚类C.密度聚类D.距离聚类10、以下哪一项不是特征选择常见的方法（D）A.过

滤式 B.封装式 C.嵌入式 D.开放式 11、以下哪一项不是特征工程的子问题（D）A.特

征创建B.特征提取C.特征选择 D.特征识别12、比如一张表，从业务上讲，一个用户

应该只会有一条记录，那么如果某个用户出现了超过一•条的记录，这就产生了（

C）A,异常值B.不一致的值C.重复值D.缺失值13、对于相似性与相异性的度量方法，基

于距离的方法，以下哪一项不符合要求

（D）A.欧氏距离B.曼哈顿距离C.马氏距离 D.对角距离14、通过变量标准化计算得到的回

归方程称为（A）

A.标准化回归方程B.标准化偏回归方程C.标准化自回归方程D.标准化多回归方

程15、一元线性回归中，真实值与预测值的差称为样本的（D）。

A.误差 B.方差C.测差 D.残差16、在回归分析中，自变量为（），因变量为（D）。

A.离散型变量，离散型变量 B.连续型变量，离散型变量C.离散型变量，连续型变量

D.连续型变量，连续型变量17、为了解决任何复杂的分类问题，使用的感知机结构应

下载后可阅读完整内容，剩余6页未读，立即下载

zzzzl333

粉丝: 792
资源: 7万+

南开大学数据科学导论期末复习：关键知识点解析

南开大学复习资料-数据科学导论0001.docx

基于jsp的网上办公系统--开题报告.docx

南开大学复习资料-大数据导论0001.docx

南开大学复习资料-大数据导论.docx

南开大学复习资料-大学计算机基础.docx

部编一年级下期末复习---知识归类.docx

教师资格证考试《综合素质》复习资料-仅供参考.docx

1基于matlab项目--数据可视化.docx

山东大学数据科学导论2017-2018期末考试.docx

4.《电子技术基础》复习题-直流稳压电源.docx

最新资源