机器学习期末考：主动学习、决策树与神经网络解析

需积分: 0 41 浏览量更新于2024-08-05 2 收藏 822KB PDF 举报

"山东大学2018机器学习期末考试题1" 这道期末考试题涵盖了机器学习和数据挖掘的核心概念，以及多种学习方法和技术。首先，让我们深入理解这些知识点： 1. 机器学习与数据挖掘： - 数据挖掘是从大量数据中发现有价值信息的过程，它包括预处理、模式发现和知识表示等步骤。目标是将原始数据转化为可理解和有用的知识，以支持决策制定。 - 机器学习是人工智能的一个分支，通过让计算机从数据中学习规律，以提高执行特定任务的能力。它的核心思想是“学习”，即系统能根据经验自我改进。 2. 不同类型的机器学习： - 有监督学习：利用已知标签的数据进行训练，例如分类和回归问题。 - 无监督学习：在没有标签的情况下，通过寻找数据中的内在结构和相似性进行聚类或降维。 - 半监督学习：介于有监督和无监督之间，利用少量标记数据和大量未标记数据进行学习。 - 强化学习：通过与环境交互，学习如何做出最优决策，以最大化长期奖励。 - 主动学习：系统可以选择最有价值的未标记样本进行标注，以最高效地提升模型性能。 - 在线学习：模型连续接收新样本并立即更新，适用于流式数据或实时预测。 3. 决策树算法： - ID3：早期的决策树构建算法，基于信息增益选择最佳特征进行分裂，适合离散属性较多的数据集。 - C4.5：ID3的改进版，引入了增益率作为分裂标准，更抗过拟合，同时支持连续属性的处理。 - CART：分类与回归树，适用于连续和分类目标变量，采用基尼不纯度或Gini指数作为分裂准则。 4. 其他算法和技术： - 神经网络：模拟人脑神经元结构的计算模型，广泛应用于图像识别、自然语言处理等领域。其特点包括大规模并行处理、自适应性等。 - 支持向量机（SVM）：通过构建最大间隔超平面进行分类，VC维是衡量其泛化能力的一个关键概念。 - 集成学习：结合多个弱学习器形成强学习器，如随机森林和梯度提升机，提高整体预测性能。 - K-means：是最简单的聚类算法之一，通过迭代优化找到最优的k个聚类中心。 5. 其他概念： - 批量学习：在训练神经网络时，一次性处理所有训练样本或一批样本来更新权重，有助于稳定学习过程。 - 激活函数：神经网络中的非线性函数，如sigmoid、ReLU，引入非线性使得网络能学习更复杂的模式。这些知识点构成了机器学习的基础，理解和掌握它们对于解决实际问题至关重要。在学习过程中，需要通过实践和理论相结合，不断探索和应用这些概念，才能真正提升机器学习的技能。

名词解释（5' * 4）

1. 机器学习/数据挖掘

数据挖掘：是通过对(大规模)观测数据集的分析,寻找确信的关系,并将数据以一种可理解的

且利于使用的新颖方式概括数据的方法.

机器学习：如果说计算机程序可以从经验E中学习有关某类任务T和绩效指标P的信息，则该

计算机程序是否可以通过经验E来提高在任务T中的绩效（由P衡量）

2. 主动学习/无监督学习/有监督学习/强化学习/半监督学习/在线学习/（课本P13）

主动学习通过一定的算法查询最有用的未标记样本，并交由专家进行标记，然后用查询到

的样本训练分类模型来提高模型的精确度。

深度学习（英语：deep learning）是机器学习的分支，是一种以人工神经网络为架构，对

资料进行表征学习的算法。

3. ID3（决策树算法。）（C4.5/CART算法）

ID3算法（Iterative Dichotomiser 3 迭代二叉树3代）是一个由Ross Quinlan发明的用于决

策树的算法。以信息增益为标准来选择划分属性。

C4.5算法是由Ross Quinlan开发的用于产生决策树的算法。该算法是对Ross Quinlan之前

开发的ID3算法的一个扩展。C4.5算法以增益率为标准来选择最有划分属性。C4.5算法产生的

决策树可以被用作分类目的，因此该算法也可以用于统计分类。

4. 神经网络/支持向量机（VC维）/集成学习/K-means

神经网络：（人工）神经网络是模仿大脑学习过程的计算模型，它们具有神经元的基本特

征及其在大脑中的相互连接，通常情况下，计算机会编程来模拟这些特征。

VC维：VC维被定义为算法可以破碎（shatter）的最大点集的基数，在这里破碎（shatter）意为若

对于一个假设空间H，如果存在m个数据样本能够被假设空间H中的函数按所有可能的2^h种形式分开，

则称假设空间

H能够把m个数据样本破碎（shatter）

集成学习：

K-means：k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法

神经网络的特点：大规模并行处理、结实、自适应和组织、足以模拟非线性关系、硬件

激活函数：

批量学习：在批处理学习中，在呈现所有N个训练样本之后，对多层感知器的突触权重进行调整。一次代

表所有N个样本的训练过程称为训练的一个时期。因此，批处理学习的成本函数由平均误差能量Eav定

义。

下载后可阅读完整内容，剩余4页未读，立即下载

yxldr

粉丝: 24
资源: 326

机器学习期末考：主动学习、决策树与神经网络解析

机器学习期末复习题及答案

山东大学2020年1月机器学习期末考试题目整理.pdf

山东大学2018机器学习期末试题解析：重点概念与算法

山东科技大学编译原理期末考试题A卷.doc

山东大学计算机学院人工智能实验班（2018级）自然语言处理期末考试题.pdf

山东大学软件学院机器学习期末考试

山东大学计算机学院人工智能实验班（2017级）计算机视觉期末考试题.pdf

人机交互期末考试题及答案

2004级编译原理期末考试题.doc

山东大学软件学院2020年硕士高级机器学习期末考题及复习资料

最新资源