期末复习必备:机器学习经典题目详解与算法对比

需积分: 2 17 下载量 34 浏览量 更新于2024-06-17 3 收藏 5.08MB PPTX 举报
本题库是针对机器学习期末复习而设计的,包含了丰富的考试题目和知识点,涵盖了从基础概念到高级算法的深入理解。以下是一些重要的知识点概要: 1. **归一化处理**:部分题目提到无需归一化的机器学习算法,这可能涉及到那些对数据尺度不敏感的算法,如决策树(某些情况下),因为它们可能能自动适应输入数据的范围。 2. **项目流程**:完整机器学习项目通常包括数据收集、预处理、特征工程、模型选择、训练、验证、调整和评估等步骤。 3. **LR与SVM**:线性回归(LR)与支持向量机(SVM)的区别在于前者是基于最小化残差平方损失,后者通过最大化间隔找到最优决策边界,SVM可处理非线性问题通过核函数。 4. **GBDT与XGBoost**:两者都是集成学习方法,GBDT(Gradient Boosting Decision Trees)强调连续改进,XGBoost在效率上有所提升并引入了更复杂的优化策略。 5. **损失函数**:常见的损失函数有均方误差(MSE)、交叉熵等,用于衡量模型预测与实际结果的差距。 6. **分类器类型**:线性与非线性分类器的区别在于能否处理非线性关系,线性更简单,非线性则复杂但可能更好地捕捉数据结构。 7. **L2与L1正则化**:L2侧重于惩罚大权重,L1则倾向于稀疏性,有助于特征选择。 8. **贝叶斯方法示例**:Google的拼写检查可能使用贝叶斯模型,通过统计单词出现的概率来纠正拼写错误。 9. **EM算法**:一种迭代优化算法,常用于隐马尔可夫模型(HMM)中的参数估计。 10. **数据预处理**:涉及缺失值处理、异常值检测、标准化等步骤,以提高模型性能。 11. **梯度消失**:深度神经网络中的一种现象,可能导致深层网络学习困难。 12. **特征工程**:对原始数据进行转换和提取关键特征的过程,以提高模型表现。 13. **不平衡数据**:处理数据集中不同类别的样本数量差异,例如采样策略或调整模型。 14. **分类算法**:如逻辑回归、决策树、SVM、KNN、神经网络等,各有优缺点,适用于不同的场景。 15. **优化算法**:如梯度下降、牛顿法、遗传算法等,各有适用场景和效率特点。 16. **RF与GBDT**:决策树集成的不同变种,RF侧重多样性,GBDT强调连续改进。 17. **超平面距离**:线性分类器中的几何概念,用于解释模型的判别能力。 18. **算法比较**:EM算法、HMM、CRF等概率建模方法在序列数据处理中的应用和特性。 19. **核函数**:SVM中的非线性映射工具,如多项式、高斯核等。 20. **Boosting与Bagging**:集成学习方法,Boosting强调顺序学习,Bagging则是并行学习,两者在模型组合上有差异。 21. **共线性与过拟合**:共线性导致变量间高度相关,可能增加过拟合风险。 22. **Dropout原理**:通过随机失活神经元来减少过拟合,用贝叶斯概率论解释。 23. **特征选择**:根据模型需求和数据特性选择最有影响力的特征。 24. **数据预处理技术**:填充缺失值、编码、特征缩放等。 25. **模型评估**:如准确率、精确率、召回率、F1分数等,用于衡量模型性能。 26. **OOB(Out-of-Bag)**:随机森林中的一个重要评估机制,计算未被选入某个决策树的样本预测结果,评估模型泛化能力。 27. **朴素贝叶斯分类**:基于特征独立假设的概率模型,计算文档属于类别c的概率。 28. **VC维**:用于衡量模型复杂度的理论概念,表示模型能够表达的函数集合的大小。 29. **k-means**:聚类算法的选择,确定k值的方法可能涉及肘部法则、轮廓系数等。 30. **偏差与方差**:衡量模型的拟合能力和泛化能力,解决方法包括模型复杂度调整、正则化等。 31. **EM算法的应用**:主要在概率模型的参数估计中,如高斯混合模型(GMM)。 32. **XGBoost特征评分**:通过特征重要性得分来评估特征对模型性能的影响。 这些知识点全面覆盖了机器学习的基础、算法选择、模型优化和评估等多个方面,对于期末复习非常有帮助。