山东大学2018机器学习期末试题解析：重点概念与算法

需积分: 0 194 浏览量更新于2024-08-04 1 收藏 523KB DOCX 举报

"山东大学2018年机器学习期末考试题1包含了多个与机器学习和数据挖掘相关的知识点，如过拟合的解决方案、不同类型的机器学习、决策树算法、神经网络、支持向量机、集成学习以及聚类算法等。" 在机器学习领域，过拟合是一个常见的问题，它发生在模型在训练数据上表现极好，但在未知数据上表现不佳的情况。解决过拟合的有效方法包括获取更多数据以进行数据集增强，选择适合问题复杂度的模型，以及减少特征的数量。数据集增强通过增加数据的多样性来帮助模型更好地泛化，而控制模型复杂度（如使用正则化）和特征选择则可以避免模型过度依赖特定训练样本或特征。数据挖掘是对大量观测数据的分析，以发现其中的模式和规律，使数据更易于理解和应用。机器学习则是一个更宽泛的概念，涉及让计算机通过经验学习和改进任务性能。根据监督程度，机器学习可以分为有监督学习（如决策树算法）、无监督学习、半监督学习、强化学习和主动学习。其中，主动学习通过有选择地获取和标记数据以优化模型性能。 ID3、C4.5和CART是决策树算法的例子，用于分类任务。ID3基于信息增益选择特征，而C4.5和CART则使用增益率或基尼不纯度作为选择标准，C4.5是ID3的改进版。神经网络是模拟人脑学习过程的计算模型，常用于复杂模式识别和非线性关系的学习。支持向量机（SVM）是另一种机器学习模型，其VC维概念反映了模型的复杂性和泛化能力。集成学习通过组合多个弱学习器形成强学习器，如随机森林和梯度提升机。K-means是常用的聚类算法，用于将数据点分组到不同的类别中。神经网络的特点包括大规模并行处理能力、容错性、自我适应和组织结构，以及能够模拟非线性关系。激活函数是神经网络中引入非线性的关键，常见的有sigmoid、ReLU和Leaky ReLU等。批量学习是指在处理所有训练样本后更新权重，确保模型能准确估计梯度向量，以提高学习效率和准确性。

名词解释（5' * 4）

1. 机器学习/数据挖掘

数据挖掘：是通过对(大规模)观测数据集的分析,寻找确信的关系,并将数据以一种可理解的

且利于使用的新颖方式概括数据的方法.

机器学习：如果说计算机程序可以从经验E中学习有关某类任务T和绩效指标P的信息，则该

计算机程序是否可以通过经验E来提高在任务T中的绩效（由P衡量）

2. 主动学习/无监督学习/有监督学习/强化学习/半监督学习/在线学习/（课本P13）

主动学习通过一定的算法查询最有用的未标记样本，并交由专家进行标记，然后用查询到

的样本训练分类模型来提高模型的精确度。

深度学习（英语：deep learning）是机器学习的分支，是一种以人工神经网络为架构，对

资料进行表征学习的算法。

3. ID3（决策树算法。）（C4.5/CART算法）

ID3算法（Iterative Dichotomiser 3 迭代二叉树3代）是一个由Ross Quinlan发明的用于决

策树的算法。以信息增益为标准来选择划分属性。

C4.5算法是由Ross Quinlan开发的用于产生决策树的算法。该算法是对Ross Quinlan之前

开发的ID3算法的一个扩展。C4.5算法以增益率为标准来选择最有划分属性。C4.5算法产生的

决策树可以被用作分类目的，因此该算法也可以用于统计分类。

4. 神经网络/支持向量机（VC维）/集成学习/K-means

神经网络：（人工）神经网络是模仿大脑学习过程的计算模型，它们具有神经元的基本特

征及其在大脑中的相互连接，通常情况下，计算机会编程来模拟这些特征。

VC维：VC维被定义为算法可以破碎（shatter）的最大点集的基数，在这里破碎（shatter）意为若

对于一个假设空间H，如果存在m个数据样本能够被假设空间H中的函数按所有可能的2^h种形式分开，

则称假设空间H能够把m个数据样本破碎（shatter）

集成学习：

K-means：k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法

神经网络的特点：大规模并行处理、结实、自适应和组织、足以模拟非线性关系、硬件

激活函数：

批量学习：在批处理学习中，在呈现所有N个训练样本之后，对多层感知器的突触权重进行调整。一次代

表所有N个样本的训练过程称为训练的一个时期。因此，批处理学习的成本函数由平均误差能量Eav定

义。

下载后可阅读完整内容，剩余4页未读，立即下载

高工-老罗

粉丝: 25
资源: 314

山东大学2018机器学习期末试题解析：重点概念与算法

机器学习期末考：主动学习、决策树与神经网络解析

山东大学软件学院机器学习期末复习指南

山东大学2018级人工智能实验班机器学习期末考题回顾与关键知识点梳理

山东科技大学编译原理期末考试题A卷.doc

山东大学计算机学院人工智能实验班（2018级）自然语言处理期末考试题.pdf

山东大学软件学院机器学习期末考试

山东大学2020年1月机器学习期末考试题目整理.pdf

山东大学计算机学院人工智能实验班（2017级）计算机视觉期末考试题.pdf

人机交互期末考试题及答案

2004级编译原理期末考试题.doc

最新资源