机器学习理论基础：为何可能与泛化误差分解

需积分: 0 60 浏览量更新于2024-08-05 收藏 1.32MB PDF 举报

"该资源是一份关于机器学习理论的面试准备指南，主要讲解了机器学习的基础理论，包括学习任务的困难性分析、学习算法的理论保证以及如何利用这些理论指导算法设计。章节内容涵盖为什么机器学习是可能的，以及泛化误差的分解。文章适合有一定微积分、线性代数和概率论基础的读者，提供了详细的推导步骤和背景知识，以帮助初学者理解。此外，文中还设有问题和解答环节，以帮助巩固学习内容。" 在机器学习领域，学习理论是理解和评估算法性能的关键。本章首先介绍了机器学习的目标，即通过学习过程找到一个模型（学习器）来最小化预测误差。误差分为两种类型：训练误差（经验误差）和泛化误差。训练误差衡量的是学习器在训练数据上的表现，而泛化误差则反映了模型在未知数据上的预测性能。机器学习的核心挑战在于寻找具有强泛化能力的模型，即在未见过的数据上也能表现良好。 1.1 节探讨了机器学习的目标，定义了误差和泛化的概念。学习器的目标是找到一个假设h，使其在样本空间中的泛化误差尽可能小。然而，1.2 节提出的“没有免费的午餐定理”揭示了一个基本的悖论：不存在一种在所有问题上都优于其他算法的通用学习策略。这意味着选择学习算法时必须考虑具体的问题和应用背景。学习理论还涉及到学习的可行性，即为何机器学习是可能的。这通常与学习问题的复杂性和数据的分布有关。例如，如果问题具有某种结构，或者数据具有某种规律性，那么可能存在有效的学习方法。此外，学习理论还研究如何量化这种可能性，比如通过VC维、 PAC（Probably Approximately Correct）学习理论等来分析学习算法的收敛性和错误界限。本章并未深入到具体的机器学习流派和技术，而是为后续章节打下理论基础，包括对学习算法的理论保证，如学习算法的收敛性、错误率分析等。这些问题对于理解学习算法的性能边界和设计新的学习算法至关重要。最后，文中强调了实践应用的重要性，通过设置问题和快速问答环节，鼓励读者积极参与思考，加深对机器学习理论的理解，并将其应用于实际问题中。这样的学习方式有助于读者不仅掌握理论知识，还能培养解决问题的能力。

第二章学习理论

张皓

https://haomood.github.io/homepage/

zhangh0214@gmail.com

摘要

在本章, 我们介绍机器学习的理论基础. 其目

的是分析学习任务的困难本质、为学习算法提

供理论保证、并根据分析结果指导算法设计.

本章将介绍为什么机器学习是可能的, 以及对

泛化误差进行分解.

本系列文章有以下特点: (a). 为了减轻读者的

负担并能使尽可能多的读者从中收益, 本文试

图尽可能少地使用数学知识, 只要求读者有基

本的微积分、线性代数和概率论基础, 并在第

一节对关键的数学知识进行回顾和介绍. (b).

本文不省略任何推导步骤, 适时补充背景知识,

力图使本节内容是自足的, 使机器学习的初学

者也能理解本文内容. (c). 机器学习近年来发

展极其迅速, 已成为一个非常广袤的领域. 本

文无法涵盖机器学习领域的方方面面, 仅就一

些关键的机器学习流派的方法进行介绍. (d).

为了帮助读者巩固本文内容, 或引导读者扩展

相关知识, 文中穿插了许多问题, 并在最后一

节进行问题的 “快问快答”.

1 为什么机器学习是可能的

1.1 机器学习的目标

定义 1 (误差 (error)). 学习器的实际预测输出和样本的

真实预测输出之间的差异. 学习器在训练集 D 上的误

差称为训练误差 (training error) 或经验误差 (empirical

error)

ˆe(h) :=



i=1

I(h(x

) = y

) . (1)

学习器在新样本上的误差称为泛化误差 (generalization

error)

e(h) := E[I(h(x) = y)] = Pr(h(x) = y) . (2)

定义 2 (泛化 (generalization)). 学得模型 h 适用于未

见示例的能力.

学习的目的就是为了使得学习得到的假设 h 逼近

真相 f . 更确切地说, 机器学习的目标是使学得的模型

具有强泛化能力 (泛化误差 e(h) 小), 能很好地适用于

整个样本空间, 而不仅仅在训练样本上工作得很好 (训

练误差 ˆe(h) 小).

1.2 没有免费的午餐

定理 1 (没有免费的午餐定理 (no free lunch theorem)).

对任意两个学习算法 A 和 B, 若在某些问题上 A 比 B

好, 则必然存在另外一些问题 B 比 A 好.

Proof. 为简单起见, 假设样本空间 X 和假设空间 H 都

是离散的. 对某个特定的学习算法, 令 p(h | D) 为基于

训练数据 D 产生假设 h 的概率. 则该算法在训练集外

所有样本上的期望误差为

e := E

x∈X −D

[I(x) = f (x)]]



h∈H



x∈X −D

I(h(x) = f (x)) p(x) p(h | D) . (3)

考虑二分类问题, 真相 f : X → {0, 1} 可以是任何

下载后可阅读完整内容，剩余7页未读，立即下载

高工-老罗

粉丝: 22
资源: 314

机器学习理论基础：为何可能与泛化误差分解

机器学习工程师面试宝典-06-集成学习1

机器学习工程师面试宝典-07-决策树1

机器学习基础：Scikit-learn简介与实践

Python机器学习入门：Scikit-learn库快速入门

Python机器学习入门：Scikit-learn库详解

Python机器学习入门：Scikit-learn库的实战指南

Python中的机器学习库：Scikit-learn介绍

机器学习---计算学习理论

机器学习python工程师面试题

机器学习实战 基于scikit-learn pdf

最新资源

机器学习实战基于scikit-learn pdf