山大网安期末复习：机器学习与过拟/欠拟合详解

版权申诉

5星 · 超过95%的资源 73 浏览量更新于2024-08-20 9 收藏 517KB PDF 举报

在19级山东大学网络空间安全学院期末复习材料《19级山大网安机器学习复习.pdf》中，主要涵盖了机器学习及其在人工智能领域中的地位、关键步骤、过拟合和欠拟合的理解、方差和偏差的概念、正则化的应用以及减少过拟合和欠拟合风险的方法。以下是详细解读： 1. **机器学习与人工智能的关系**: - 人工智能是一种广义的概念，涵盖了一系列模拟人类智能的技术，如专家系统、规则引擎等。 - 机器学习则是实现人工智能的一种具体方法，它使计算机能够通过数据自我学习，构建预测模型。 2. **机器学习的三个步骤**: - 定义模型函数集（function set）：确定模型的基本结构。 - 定义损失函数：衡量模型性能的量化标准，如均方误差或交叉熵。 - 优化模型：寻找最佳函数，通常是通过迭代算法（如梯度下降）调整参数。 3. **过拟合与欠拟合**: - 过拟合发生在模型过度适应训练数据，对新数据泛化能力弱，表现为训练集表现好，测试集表现差。 - 欠拟合则是模型过于简单，无法捕捉数据的复杂模式，训练集和测试集表现都不理想。 4. **方差与偏差**: - 方差高表示模型对训练数据的波动性大，可能源于模型复杂度过高。 - 偏差则代表模型对真实数据的平均预测误差，过低的偏差意味着模型过于简单，缺乏复杂性。 5. **正则化**: - 目的在于控制模型复杂度，防止过拟合。 - 通过在损失函数中添加正则项，限制参数的大小，促进模型的简洁性。 6. **降低过拟合和欠拟合的方法**: - 过拟合：增加数据量，选择合适的模型复杂度，正则化，使用集成学习。 - 欠拟合：添加新特征，提高模型复杂度，适当减弱正则化。 7. **梯度下降和Adagrad**: - 梯度下降是最基础的优化算法，通过迭代更新模型参数以最小化损失函数。 - Adagrad针对不同参数自适应调整学习率，防止某些参数更新过快或过慢。 8. **随机梯度下降**: - 针对大规模数据集，随机梯度下降采用每次随机选取一个样本来计算梯度，加快了训练速度，但也可能导致不稳定性。这份复习资料对于理解机器学习在网络安全中的应用及如何有效避免模型在训练过程中出现的常见问题非常有帮助。考生应熟悉这些概念并能灵活运用在期末考试中。

•机器学习与人工智能、深度学习三者的关系、区别

人工智能：机器展现的人类智能

机器学习：实现人工智能的一种方法，计算机利用已有的数据(经验)，得出了某种模型，并利用此模型预测

未来的一种方法

深度学习：实现机器学习的一种技术

•机器学习三步骤

定义一个 model 即 function set

定义一个 goodness of function 损失函数去评估该 function 的好坏

找一个最好的 function

•解释过拟合和欠拟合现象

过拟合是指模型在训练数据拟合呈过当的情况，反应到评估指标上，就是模型在训练集上的表现很好，但

在测试集和新数据上的表现很差。（特征项过多，有很大的方差）

欠拟合指的是模型在训练和预测时都不好的情况。（特征项过少，有很大的偏差）

•解释方差和偏差的概念

方差的含义：方由所有采样得到的大小为 m 的训练数据集训练出的所有模型的输出的方差。方差通常是由

于模型的复杂度相对于训练样本数 m 过高导致的

偏差的含义：由所有采样得到的大小为 m 的训练数据集训练出的所有模型的输出的平均值和真实模型输出

之间的偏差。偏差通常是由于我们对学习算法做了错误的假设所导致的

偏差度量的是单个模型的学习能力，而方差度量的是同一个模型在不同数据集上的稳定性。

下载后可阅读完整内容，剩余6页未读，立即下载

-XXYHZ-

粉丝: 2
资源: 1

山大网安期末复习：机器学习与过拟/欠拟合详解

山东大学软工机器学习限选课概念总结

山东大学软工机器学习限选课PPT总结

山东大学 软件学院 机器学习ppt.zip

山东大学网安学院网络安全csdn

山大 机器学习 考试 site:csdn.net

山东大学2019年-数据结构-期末试卷真题.pdf

山东大学数据结构课程试卷(一)及参考答案.pdf

山东大学软件学院机器学习基础csdn

山东科技大学机器学习

山东大学高级机器学习孙浩亮

最新资源

山东大学软件学院机器学习ppt.zip

山大机器学习考试 site:csdn.net