机器学习期末考:主动学习、决策树与神经网络解析

需积分: 0 54 下载量 2 浏览量 更新于2024-08-05 2 收藏 822KB PDF 举报
"山东大学2018机器学习期末考试题1" 这道期末考试题涵盖了机器学习和数据挖掘的核心概念,以及多种学习方法和技术。首先,让我们深入理解这些知识点: 1. 机器学习与数据挖掘: - 数据挖掘是从大量数据中发现有价值信息的过程,它包括预处理、模式发现和知识表示等步骤。目标是将原始数据转化为可理解和有用的知识,以支持决策制定。 - 机器学习是人工智能的一个分支,通过让计算机从数据中学习规律,以提高执行特定任务的能力。它的核心思想是“学习”,即系统能根据经验自我改进。 2. 不同类型的机器学习: - 有监督学习:利用已知标签的数据进行训练,例如分类和回归问题。 - 无监督学习:在没有标签的情况下,通过寻找数据中的内在结构和相似性进行聚类或降维。 - 半监督学习:介于有监督和无监督之间,利用少量标记数据和大量未标记数据进行学习。 - 强化学习:通过与环境交互,学习如何做出最优决策,以最大化长期奖励。 - 主动学习:系统可以选择最有价值的未标记样本进行标注,以最高效地提升模型性能。 - 在线学习:模型连续接收新样本并立即更新,适用于流式数据或实时预测。 3. 决策树算法: - ID3:早期的决策树构建算法,基于信息增益选择最佳特征进行分裂,适合离散属性较多的数据集。 - C4.5:ID3的改进版,引入了增益率作为分裂标准,更抗过拟合,同时支持连续属性的处理。 - CART:分类与回归树,适用于连续和分类目标变量,采用基尼不纯度或Gini指数作为分裂准则。 4. 其他算法和技术: - 神经网络:模拟人脑神经元结构的计算模型,广泛应用于图像识别、自然语言处理等领域。其特点包括大规模并行处理、自适应性等。 - 支持向量机(SVM):通过构建最大间隔超平面进行分类,VC维是衡量其泛化能力的一个关键概念。 - 集成学习:结合多个弱学习器形成强学习器,如随机森林和梯度提升机,提高整体预测性能。 - K-means:是最简单的聚类算法之一,通过迭代优化找到最优的k个聚类中心。 5. 其他概念: - 批量学习:在训练神经网络时,一次性处理所有训练样本或一批样本来更新权重,有助于稳定学习过程。 - 激活函数:神经网络中的非线性函数,如sigmoid、ReLU,引入非线性使得网络能学习更复杂的模式。 这些知识点构成了机器学习的基础,理解和掌握它们对于解决实际问题至关重要。在学习过程中,需要通过实践和理论相结合,不断探索和应用这些概念,才能真正提升机器学习的技能。