机器学习基础：从数据中自动学习

需积分: 9 69 浏览量更新于2024-07-17 收藏 588KB PDF 举报

"该资源是关于机器学习的概述，涵盖了机器学习的基本定义、与模式识别的关系，以及机器学习在处理复杂识别任务中的应用，以手写体数字识别为例进行了阐述。" 在机器学习中，计算机通过模拟人类学习过程，从数据中自动获取知识和技能，以改善自身的性能。这一领域的从业者需要具备编程能力、统计学知识和相关领域专业知识。机器学习的核心在于从数据中学习规律，构建模型，然后将这些模型用于新数据的预测。它不仅包括监督学习（如手写体数字识别，其中包含有标注的训练数据），也涉及无监督学习、半监督学习等多种学习方式。机器学习与模式识别有所关联，早期模式识别主要关注特定应用，如语音识别、图像识别等，而机器学习则更侧重于寻找解决问题的一般性方法。随着技术的发展，机器学习已经成为解决复杂识别任务的主流方法。例如，在手写体数字识别任务中，传统的编程方法难以建立有效的识别算法，而机器学习则通过大量的训练数据，让计算机学习并形成模型，以自动识别新的手写数字。在这个过程中，学习算法是关键。它分析训练数据，提取特征，并构建模型。这些模型可以是线性的，也可以是非线性的，取决于问题的复杂度和数据的性质。模型的性能通常通过交叉验证和各种评估指标（如准确率、召回率、F1分数等）来衡量。机器学习的种类繁多，包括监督学习（如支持向量机、决策树、随机森林、神经网络等）、无监督学习（如聚类、主成分分析、自编码器等）和强化学习（如Q学习、深度Q网络等）。每种方法都有其适用的场景和优势，选择合适的机器学习模型是解决实际问题的关键。此外，机器学习还涉及到特征工程，即从原始数据中构建有意义的输入特征，这对模型的性能至关重要。同时，模型的训练也需要考虑过拟合和欠拟合问题，通过正则化、早停等策略来优化模型的泛化能力。在实际应用中，还需要关注数据的质量、平衡性、噪声等问题，以及如何有效地进行模型的调参和部署。本章的介绍只是机器学习的冰山一角，后续章节将深入探讨各种机器学习算法的原理、实现细节以及实际应用案例，帮助读者全面理解和掌握机器学习的精髓。

28 2019 年 4 月 4 日第 2 章机器学习概述

0-1 损失函数最直观的损失函数是模型预测的错误率，即 0-1 损失函数（0-1

Loss Function）。

L(y, f(x, θ)) =











0 if y = f(x, θ)

1 if y = f(x, θ)

(2.14)

= I(y = f(x, θ)), (2.15)

其中 I(·) 是指示函数。

虽然 0-1损失能够客观的评价模型的好坏，但缺点是数学性质不是很好：不

连续且导数为

，难以优化。因此经常用连续可微的损失函数替代。

平方损失函数平方损失函数（Quadratic Loss Function）经常用在预测标签 y

为实数值的任务中。

L(y, f(x, θ)) =



y −f(x, θ)



. (2.16)

平方损失函数一般不适用于分类问题。

参见习题2-1。

交叉熵损失函数交叉熵损失函数（Cross-Entropy Loss Function）一般用于分

类问题。假设样本的标签 y ∈ {1, ···C}为离散的类别，模型 f(x, θ) ∈ [0, 1]

的

输出为类别标签的条件概率分布，即

p(y = c|x, θ) = f

(x, θ), (2.17)

并满足

(x, θ) ∈ [0, 1],

c=1

(x, θ) = 1. (2.18)

我们可以用一个 C 维的 one-hot向量y 来表示样本标签。假设样本的标签为

k，那么标签向量 y 只有第 k 维的值为 1，其余元素的值都为 0。标签向量 y 可以

看作是样本标签的真实概率分布，即第 c 维（记为 y

，1 ≤ c ≤ C）是类别为 c

的真实概率。假设样本的类别为 k，那么它属于第 k 类的概率为 1，其它类的概

率为 0。

对于两个概率分布，一般可以用交叉熵来衡量它们的差异。标签的真实分

交叉熵参见第E.3.1节。

布 y 和模型预测分布 f(x, θ) 之间的交叉熵为

L(y, f(x, θ)) = −

c=1

log f

(x, θ). (2.19)

邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/

剩余33页未读，继续阅读

白杨树~

粉丝: 51
资源: 21

机器学习基础：从数据中自动学习

第1讲 人工智能与机器学习概述.pdf

chap-机器学习概述.pptx

iscsi-initiator-utils-6.2.0.874-4.el7.x86_64

sudo iscsiadm -m node -T iqn.2000-01.com.synology:MDA-Review3.default-target.abef3 -p 172.16.41.204 -U

chap-password

E:\QTfile\qtcourse\chap04\03-calculator\widget.cpp:38: error: use of undeclared identifier 'PushButton'

最新资源

第1讲人工智能与机器学习概述.pdf