南开大学数据科学导论期末复习:关键知识点解析

0 下载量 76 浏览量 更新于2024-08-04 收藏 34KB DOCX 举报
南开大学的数据科学导论期末复习资料包含了丰富的理论和实践知识,主要围绕数据科学的核心概念和技术展开。以下是部分内容的详细解析: 1. 数据变换技术:复习了数据处理中的关键步骤,如构造新指标(如线损率)属于属性构造(C),即根据业务需求创造出新的数据特征来表示或预测某一现象。 2. 数据处理流程:实体识别(B)是数据集成过程的一部分,它涉及到识别和统一数据源中的实体,以便后续分析。 3. 数据质量控制:数据质量检验关注的是数据的准确性,脏数据通常指异常值(B)、不一致的值(C)和重复值(D),而非普通值。 4. 决策树算法:节点划分的条件包括样本集不能被基本正确分类(D),这确保了模型的划分是有意义的。 5. 系统日志管理:系统日志收集应具备高可用性(A)、高可靠性和可扩展性(B),但效率并非其基本特征。 6. 机器学习方法:k近邻法(KNN)涉及距离度量(A)、k值选择,但样本大小不是其基本要素(C)。 7. 回归分析:一元回归参数估计方法包括最大似然法、距离估计法和最小二乘法(A、B、C),欧式距离法(D)不属于这个范畴。 8. 主成分回归(BFR)的目标集包括废弃集、临时集、压缩集和留存集,排除了样本大小这一选项。 9. 聚类方法:常见类型有划分聚类(A)、层次聚类(B)、密度聚类,距离聚类(D)本身就是一个聚类方法,故不属于此列。 10. 特征选择:常见方法包括过滤式、封装式和嵌入式(A、B、C),开放式并不是一个标准术语。 11. 特征工程:子问题包括特征创建、特征提取和特征选择(A、B、C),特征识别一般不属于这个范畴。 12. 数据清洗:如果用户出现多条记录,意味着数据一致性问题,这是重复值(C)的体现。 13. 相似性度量:基于距离的方法包括欧氏距离(A)、曼哈顿距离(B)和马氏距离(C),对角距离(D)不适用于这些方法。 14. 回归模型:标准化回归方程(A)是指通过变量标准化处理后的模型,常用于减少模型间的比较难度。 15. 回归分析指标:样本残差(D)指的是实际值与预测值之间的差异,反映了模型的预测精度。 16. 回归分析变量类型:自变量通常为连续型变量(D),而因变量同样为连续型变量,因为回归分析处理的是两个变量间的关系。 17. 感知机模型:解决复杂分类问题时,至少需要一个隐含层(B),这体现了深度学习中的非线性建模能力。 这些知识点涵盖了数据预处理、机器学习基础、数据质量管理和回归分析等多个方面,是南开大学数据科学导论课程的重要复习内容。