期末复习必备：机器学习经典题目详解与算法对比

需积分: 2 34 浏览量更新于2024-06-17 3 收藏 5.08MB PPTX 举报

本题库是针对机器学习期末复习而设计的，包含了丰富的考试题目和知识点，涵盖了从基础概念到高级算法的深入理解。以下是一些重要的知识点概要： 1. **归一化处理**：部分题目提到无需归一化的机器学习算法，这可能涉及到那些对数据尺度不敏感的算法，如决策树（某些情况下），因为它们可能能自动适应输入数据的范围。 2. **项目流程**：完整机器学习项目通常包括数据收集、预处理、特征工程、模型选择、训练、验证、调整和评估等步骤。 3. **LR与SVM**：线性回归（LR）与支持向量机（SVM）的区别在于前者是基于最小化残差平方损失，后者通过最大化间隔找到最优决策边界，SVM可处理非线性问题通过核函数。 4. **GBDT与XGBoost**：两者都是集成学习方法，GBDT（Gradient Boosting Decision Trees）强调连续改进，XGBoost在效率上有所提升并引入了更复杂的优化策略。 5. **损失函数**：常见的损失函数有均方误差（MSE）、交叉熵等，用于衡量模型预测与实际结果的差距。 6. **分类器类型**：线性与非线性分类器的区别在于能否处理非线性关系，线性更简单，非线性则复杂但可能更好地捕捉数据结构。 7. **L2与L1正则化**：L2侧重于惩罚大权重，L1则倾向于稀疏性，有助于特征选择。 8. **贝叶斯方法示例**：Google的拼写检查可能使用贝叶斯模型，通过统计单词出现的概率来纠正拼写错误。 9. **EM算法**：一种迭代优化算法，常用于隐马尔可夫模型（HMM）中的参数估计。 10. **数据预处理**：涉及缺失值处理、异常值检测、标准化等步骤，以提高模型性能。 11. **梯度消失**：深度神经网络中的一种现象，可能导致深层网络学习困难。 12. **特征工程**：对原始数据进行转换和提取关键特征的过程，以提高模型表现。 13. **不平衡数据**：处理数据集中不同类别的样本数量差异，例如采样策略或调整模型。 14. **分类算法**：如逻辑回归、决策树、SVM、KNN、神经网络等，各有优缺点，适用于不同的场景。 15. **优化算法**：如梯度下降、牛顿法、遗传算法等，各有适用场景和效率特点。 16. **RF与GBDT**：决策树集成的不同变种，RF侧重多样性，GBDT强调连续改进。 17. **超平面距离**：线性分类器中的几何概念，用于解释模型的判别能力。 18. **算法比较**：EM算法、HMM、CRF等概率建模方法在序列数据处理中的应用和特性。 19. **核函数**：SVM中的非线性映射工具，如多项式、高斯核等。 20. **Boosting与Bagging**：集成学习方法，Boosting强调顺序学习，Bagging则是并行学习，两者在模型组合上有差异。 21. **共线性与过拟合**：共线性导致变量间高度相关，可能增加过拟合风险。 22. **Dropout原理**：通过随机失活神经元来减少过拟合，用贝叶斯概率论解释。 23. **特征选择**：根据模型需求和数据特性选择最有影响力的特征。 24. **数据预处理技术**：填充缺失值、编码、特征缩放等。 25. **模型评估**：如准确率、精确率、召回率、F1分数等，用于衡量模型性能。 26. **OOB（Out-of-Bag）**：随机森林中的一个重要评估机制，计算未被选入某个决策树的样本预测结果，评估模型泛化能力。 27. **朴素贝叶斯分类**：基于特征独立假设的概率模型，计算文档属于类别c的概率。 28. **VC维**：用于衡量模型复杂度的理论概念，表示模型能够表达的函数集合的大小。 29. **k-means**：聚类算法的选择，确定k值的方法可能涉及肘部法则、轮廓系数等。 30. **偏差与方差**：衡量模型的拟合能力和泛化能力，解决方法包括模型复杂度调整、正则化等。 31. **EM算法的应用**：主要在概率模型的参数估计中，如高斯混合模型（GMM）。 32. **XGBoost特征评分**：通过特征重要性得分来评估特征对模型性能的影响。这些知识点全面覆盖了机器学习的基础、算法选择、模型优化和评估等多个方面，对于期末复习非常有帮助。