机器学习核心概念解析

需积分: 0 113 浏览量更新于2024-08-03 收藏 1.06MB PDF 举报

"本文主要介绍了机器学习的一些核心概念和关键要素，包括表示、评估和优化。作者强调了在机器学习项目中，正确地表示输入数据、设计有效的评估函数以及选择合适的优化方法对于实现高质量的分类器至关重要。文章还提到了机器学习在多个领域的广泛应用，并指出实践中积累的‘民间知识’对于提升项目效率和结果的重要性。" 在机器学习中，表示（Representation）是首要的考虑因素。这意味着我们需要将数据转换成计算机能够理解和处理的形式，这通常涉及到特征工程。选择合适的表示方式决定了学习器（Learner）可以探索的假设空间，即可能的分类器集合。如果实际的最优分类器不在这个假设空间内，那么机器就无法学习到它。如何选择和构造特征（Features）对于学习过程的效果有着直接影响。评估（Evaluation）是另一个关键环节。一个评估函数用于区分优秀的分类器和较差的分类器，它是优化过程的基础。在机器学习算法内部，可能会使用特定的评价标准进行优化，这可能与我们期望分类器在真实世界应用中优化的目标有所不同。理解这一差异对于确保模型的泛化性能至关重要。优化（Optimization）是寻找得分最高的分类器的过程。这通常涉及到搜索算法，如梯度下降或遗传算法等。优化技术的选择不仅影响学习速度，还可能影响最终生成的分类器的质量，特别是在评估函数存在多个局部最优解的情况下。初学者通常会先采用现成的优化工具，随着经验的积累，可能会发展出针对特定任务的定制优化策略。机器学习类型多样，本文主要关注的是分类（Classification），这是一种常见的任务，其中系统接收一组输入特征并输出一个离散的类别。例如，垃圾邮件过滤器就是一个分类问题，输入是电子邮件的特征向量，输出是垃圾邮件或非垃圾邮件的判断。机器学习已广泛应用于各种领域，如搜索引擎、垃圾邮件过滤、推荐系统等，而且它的影响力还在不断增长。然而，开发机器学习应用时，除了理论知识，实践经验，尤其是如何有效解决表示、评估和优化问题的“民间知识”，对项目的成功起着至关重要的作用。本文旨在分享这些实践中的智慧，帮助开发者缩短学习曲线，提高项目效率，从而创造出更出色的机器学习解决方案。

关于机器学习的⼀些有⽤的知识

佩德罗·多明⼽斯

计算机科学与⼯程系

华盛顿⼤学西雅图, WA

98195-2350, 美国

pedrod@cs.washington.edu

1. 简介

表⽰。分类器必须以某种形式表⽰

计算机可以处理的形式语⾔。相反，为学习器选择表⽰形

式相当于选择它可能学习的分类器集。这个集合称为

假设

空间

学习者的。如果分类器不在假设空间中，则⽆法学

习。我们将在后⾯的部分中解决的⼀个相关问题是如何表

⽰输⼊，即使⽤哪些特征。

机器学习系统⾃动从数据中学习程序。这通常是⼿动构建它们的

⼀个⾮常有吸引⼒的替代⽅案，并且在过去⼗年中，机器学习的

使⽤在整个计算机科学及其他领域迅速传播。机器学习⽤于⽹络

搜索、垃圾邮件过滤器、推荐系统、⼴告投放、信⽤评分、欺诈

检测、股票交易、药物设计和许多其他应⽤。⻨肯锡全球研究所

最近的⼀份报告断⾔，机器学习（⼜名数据挖掘或预测分析）将

成为下⼀波创新浪潮的驱动⼒[15]。有兴趣的实践者和研究⼈员

可以使⽤⼏本精美的教科书（例如，[16, 24]）。然⽽，成功开发

机器学习应⽤程序所需的许多“⺠间知识”在他们⾝上并不容易

获得。因此，许多机器学习项⽬花费的时间⽐必要的时间⻓得

多，或者最终产⽣的结果不太理想。然⽽，许多⺠间知识却相当

容易交流。这就是本⽂的⽬的。

评估。评估函数（也称为

客观的

功能

或者

评分函数）

需要区分好的分类器和坏的分类器。

为了便于优化（⻅下⽂）并且考虑到下⼀节中讨论的问

题，算法内部使⽤的评估函数可能与我们希望分类器优化

的外部函数不同。

优化。最后，我们需要⼀个⽅法来搜索

得分最⾼的语⾔的分类器。优化技术的选择对于学习器的

效率⾄关重要，并且如果评估函数具有多个最优值，也有

助于确定⽣成的分类器。对于新学习者来说，开始使⽤现

成的优化器是很常⻅的，后来被定制设计的优化器所取

代。

存在许多不同类型的机器学习，但出于说明⽬的，我将重点关注

最成熟且使⽤最⼴泛的⼀种：分类。尽管如此，我将讨论的问题

适⽤于所有机器学习。A

分类器

是⼀个输⼊（通常）离散和/或连

续向量的系统

特征值

并输出⼀个离散值，

班级

。例如，垃圾邮件

过滤器将电⼦邮件分类为“垃圾邮件”或“⾮垃圾邮件”，其输

⼊可能是布尔向量x = (X1, . 。。， Xj, . 。。,Xd），在哪⾥Xj=1 如

果j字典中的第⼀个单词出现在电⼦邮件中，并且 Xj=否则为 0。A

学习者

输⼊⼀个

训练集

的

例⼦

（X我, y我），在哪⾥X我=（X我，1

, . 。。， XID) 是观察到的输⼊，y我是对应的输出，输出⼀个分类

器。学习器的测试是这个分类器是否产⽣正确的输出yt对于未来

的例⼦Xt（例如，垃圾邮件过滤器是否正确地将以前未⻅过的电

⼦邮件分类为垃圾邮件或⾮垃圾邮件）。

表 1 显⽰了这三个组件的常⻅⽰例。例如，k-最近邻通过查找来

对测试⽰例进⾏分类k最相似的训练⽰例并预测其中的⼤多数类

别。基于超平⾯的⽅法形成每个类的特征的线性组合，并预测具

有最⾼值组合的类。决策树在每个内部节点测试⼀个特征，每个

特征值有⼀个分⽀，并在叶⼦处进⾏类预测。算法 1 显⽰了布尔

域的基本决策树学习器，使⽤信息增益和贪婪搜索 [20]。信息增

益(Xj,y)是特征之间的互信息Xj和班级y。制作节点(x,c0，C1) 返回

⼀个测试功能的节点X并且有C0作为孩⼦ x =0 和C1作为孩⼦x =1.

2. 学习=表征+评估+优化

假设您有⼀个您认为机器学习可能有⽤的应⽤程序。您⾯临的第

⼀个问题是可⽤的学习算法种类繁多，令⼈眼花缭乱。使⽤哪⼀

个？实际上有数千本可供使⽤，⽽且每年还会出版数百本。不迷

失在这个巨⼤空间中的关键是要意识到它仅由三个组件的组合组

成。其组成部分是：

当然，并⾮表 1 每⼀列中的⼀个组件的所有组合都具有同等意

义。例如，离散表⽰⾃然地与组合优化相结合，⽽连续表⽰则与

连续优化相结合。然⽽，许多学习器同时具有离散和连续成分，

事实上，每⼀种可能的组合都出现在某些学习器中的⽇⼦可能并

不遥远！

从英语翻译成中⽂(简体) - www.onlinedoctranslator.com

下载后可阅读完整内容，剩余8页未读，立即下载

会发光的葫芦娃

粉丝: 6
资源: 1

机器学习核心概念解析

A Few Useful Things to Know about Machine Learning.pdf )

Udemy - Deep Learning Convolutional Neural Networks in Python

中国新能源汽车&充电桩（2018-2022）数据-最新出炉.zip

JDK17 win64位版本下载

【SCI一区】Matlab实现哈里斯鹰优化算法HHO-CNN-LSTM-Attention的风电功率预测算法研究.rar

Python 实现PSO-RBF和RBF粒子群优化算法优化径向基函数神经网络多输入单输出回归预测（含完整的程序和代码详解）

【SCI一区】Matlab实现斑马优化算法ZOA-CNN-LSTM-Attention的风电功率预测算法研究.rar

【JCR一区级】Matlab实现人工蜂鸟优化算法AHA-CNN-BiLSTM-Attention的故障诊断算法研究.rar

基于SpringBoot + Vue + MySQL 实现平行志愿录取系统（数据库设计&毕业设计）

Window7系统小游戏（扫雷、红花大作战...）

最新资源