机器学习基石:二元分类、多元分类与回归解析

需积分: 0 0 下载量 10 浏览量 更新于2024-08-05 收藏 826KB PDF 举报
"林轩田《机器学习基石》课程笔记3 -- Types of Learning1" 在机器学习领域,我们经常面临各种不同类型的学习任务,这些任务的区别主要在于输出空间Y和数据标签yn。下面我们将深入探讨这些概念。 一、Learning with Different Output Space Y 1. 二元分类(Binary Classification): 这是最基础的分类问题之一,它的输出空间只有两个可能的值,例如y={-1, +1}。在信用卡发放的例子中,-1表示拒绝申请,+1表示批准申请。二元分类广泛应用于垃圾邮件检测、疾病诊断和许多其他二选一的问题。模型可以是线性的,如逻辑回归,也可以是非线性的,如支持向量机。 2. 多元分类(Multiclass Classification): 当输出可能的类别超过两个时,我们称之为多元分类。例如,y={1, 2, ..., K},K>2。这在图像识别(识别数字或物体)、语音识别等场景中十分常见。解决多元分类问题的算法包括k-近邻(k-NN)、决策树以及各种神经网络模型。 3. 回归(Regression): 回归问题关注的是预测连续值的输出,如房屋价格或股票收益。输出变量y属于实数域R,这包括线性回归、多项式回归、岭回归和lasso回归等模型。回归任务用于预测数值型的结果,如温度、销售额等。 4. 结构化学习(Structured Learning): 结构化学习的输出不仅仅是单一的值,而是具有某种结构的数据,比如序列、树或者图。这种问题在自然语言处理、计算机视觉等领域尤为常见。结构化学习的解决方案通常源于多分类问题的扩展,如序列标注、句法分析等。虽然不作为本课程的主要内容,但其在复杂问题解决中占有重要地位。 二、Learning with Different Data Label yn 在机器学习中,训练数据通常包含输入特征x和对应的输出标签yn。这里的yn可以是上述讨论的各种类型,即分类标签(二元或多元)或回归值。监督学习是利用带有标签的数据训练模型,使得模型能够对新的、未知的数据进行预测。无监督学习则没有标签信息,模型需从数据中自行发现模式。半监督学习和强化学习则介于两者之间,分别使用少量标签数据或通过与环境交互来学习。 理解不同类型的机器学习任务至关重要,因为这直接影响到我们选择何种模型以及如何构建和优化模型。二元分类和回归是机器学习的基础,而多元分类和结构化学习则提供了处理更复杂问题的能力。掌握这些基础知识,有助于我们更好地应对实际中的各种机器学习挑战。