机器学习基石：训练与测试关键，理论与实践结合

需积分: 0 100 浏览量更新于2024-08-05 收藏 1016KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

在林轩田的《机器学习基石》课程笔记第五部分中，重点探讨了Training versus Testing的概念。前四节课概述如下： 1. **定义与目标**：首课明确了机器学习的目标，即寻找最佳的函数g，使得预测模型在未知数据上的表现良好，即找到最优的g以最小化期望误差。这个目标的关键在于模型的泛化能力，确保它不仅在训练样本上表现好，也能在未见过的新数据上保持一致。 2. **可行性与统计学基础**：第二节课深入分析了机器学习的可行性，通过NFL定理指出在理想情况下机器学习看似不可能，但当样本数据充足且假设函数（hypothesis）集合有限时，机器学习是可行的。学习过程依赖于统计学原理，如霍夫丁不等式，它确保了模型不会过度拟合（BadData）并具有良好的泛化性能。 3. **分类与学习流程**：后续章节涉及监督学习中的二元分类问题，使用批量数据（batch learning）并通过算法如PLA和pocket等实现模型训练。机器学习的核心问题围绕着模型复杂度（M，hypothesis数量）与泛化误差之间的平衡。 4. **核心问题**：课程总结了两个核心问题：一是找到简单但表现良好的模型（足够小的hypothesis），二是保证模型能在新数据上表现出稳定的性能（保证）。有限的hypothesis集（M小）有助于保证第一个问题，但可能无法保证第二个问题。随着M增大，虽然选择余地增加，但也可能导致过拟合或第一个问题失效。 5. **M与核心问题的关系**：hypothesis集的大小M对这两个核心问题至关重要。当M较小，利用霍夫丁不等式可以保证模型简洁性，但可能无法找到最佳解决方案；反之，M过大可能导致模型过于复杂，失去泛化能力。因此，M的选择需要在模型复杂度和泛化性能之间寻找一个适当的平衡点。通过这些内容，我们可以理解机器学习并非一蹴而就，而是涉及到理论与实践相结合的过程，需要在模型复杂性和泛化能力之间进行精细调整。理解这些概念对于设计和实施有效的机器学习模型至关重要。

资源详情

资源推荐

作者：红色石头公众号：AI有道（id：redstonewill）



上节课，我们主要介绍了机器学习的可行性。首先，由NFL定理可知，机器学习貌似

是不可行的。但是，随后引入了统计学知识，如果样本数据足够大，且hypothesis个

数有限，那么机器学习一般就是可行的。本节课将讨论机器学习的核心问题，严格证

明为什么机器可以学习。从上节课最后的问题出发，即当hypothesis的个数是无限多

的时候，机器学习的可行性是否仍然成立？

我们先来看一下基于统计学的机器学习流程图：





该流程图中，训练样本D和最终测试h的样本都是来自同一个数据分布，这是机器能够

学习的前提。另外，训练样本D应该足够大，且hypothesisset的个数是有限的，这样

根据霍夫丁不等式，才不会出现BadData，保证，即有很好的泛化能

力。同时，通过训练，得到使最小的h，作为模型最终的矩g，g接近于目标函数。

这里，我们总结一下前四节课的主要内容：第一节课，我们介绍了机器学习的定义，

目标是找出最好的矩g，使，保证；第二节课，我们介绍了如何让

林轩田《机器学习基石》课程笔记5Trainingversus

Testing

一、RecapandPreview

下载后可阅读完整内容，剩余9页未读，立即下载

爱设计的唐老鸭

粉丝: 27
资源: 291

机器学习基石：训练与测试关键，理论与实践结合

massive-MIMO-small-cells-master.zip

Software.Testing.2nd.Edition （Sams）软件测试（英文版）

see the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

SettingWithCopyError: A value is trying to be set on a copy of a slice from a DataFrame See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy这个错误怎么解决

One-versus-All方法python实现一个简单多元分类问题

One-versus-All方法python实现一个简单多元分类问题并计算置信度

One-versus-All方法python实现

one-versus-rest算法实现

简述机器学习的一对其余拆分策略

one-versus-one算法实现

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy tnl_data['ot_Label'] = ot_label_enc.fit_transform(tnl_data['OverTime'])

one-versus-rest五分类算法实现

载入数据的one-versus-rest五分类算法代码

A value is trying to be set on a copy of a slice from a DataFrame See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy df['Revenue'].loc[df['Revenue'] == False] = 0

最新资源