机器学习简介:模型评估、线性模型和深度学习

需积分: 15 8 下载量 195 浏览量 更新于2024-07-07 3 收藏 2.86MB DOCX 举报
机器学习期末复习 机器学习是人工智能的一个重要学科分支,是实现智能化的关键。经典定义:利用经验改善系统自身的性能。通过训练集使学习模型获得参数进一步进行测试。构造的网络深度越高,节点越多,性能越好。 模型评估与选择是机器学习中非常重要的一步。过拟合和欠拟合是模型评估中两个重要的概念。过拟合是学习器学习能力过于强大,把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降。欠拟合是学习器学习能力低下,对训练样本的一般性质尚未学好,不能够很好地拟合数据。过拟合指模型的训练误差远小于它在测试数据集上的误差。 留出法和交叉验证法是模型评估中两种常用的方法。留出法是将数据集分成训练集和测试集,训练模型后在测试集上进行评估。交叉验证法是将数据集分成K个部分,每次使用其中K-1个部分作为训练集,剩下的一个部分作为测试集,最后取K次结果的平均值作为最终结果。 查准率、查全率和F1度量是机器学习中常用的评估指标。查准率是算法挑出来的西瓜中有多少比例是好西瓜。查全率是所有的好西瓜中有多少比例被算法挑了出来。F1度量是查准率和查全率的调和平均值,对查准率和查全率有不同偏好。 AUC是机器学习中常用的评估指标,基于ROC线下面积,用来评价二分类模型优劣的常用指标,AUC值越高通常表明模型的效果越好。 线性模型是机器学习中的一种常用模型,试图学得一个通过属性的线性组合来进行预测的函数。线性回归是线性模型的一种,通过在数据集上建立线性模型,建立代价函数,以优化代价函数为目标确定模型参数从而得到模型用以后续的预测。代价函数通常是均方误差,衡量预测值与数据集真实值之间差距的函数。 二分类任务是机器学习中的一种常见任务,由线性回归模型推出对率函数,对率函数为联系函数。可以通过“极大似然法”来估计w和b,给定数据集。最大化似然函数是一个高阶可导连续凸函数,可以用经典的数值优化方法。 LDA(线性判别分析)是一种常用的降维技术,将样例投影到一条直线(低维空间),监督降维技术。其思想是类类距离越小、类间距离越大。目标函数过程是先定义后使异类/同类最大化->最大化广义瑞利商->等价形式拉格。