机器学习入门:任务T与NAS在群晖NAS上的实践

需积分: 2 92 下载量 186 浏览量 更新于2024-08-09 收藏 6.76MB PDF 举报
"本文档是关于机器学习基础的教程,特别是针对NAS(Synology群晖)环境下的初次使用。文档深入浅出地介绍了机器学习的基本概念,包括任务T、性能度量P和经验E,以及相关的学习算法。同时,提到了线性代数、概率与信息论、数值计算等基础知识在机器学习中的应用。" 在机器学习中,任务T是指要解决的具体问题,它可以是分类、输入缺失分类等。以行走机器人为例,任务T就是让机器人学会行走。机器学习通过处理样本(example),即带有量化的特征(feature)的数据,来让系统学习并完成任务。样本通常表示为向量,其中的元素代表不同的特征。例如,图像识别任务中,一张图片的像素值就是其特征。 常见的机器学习任务包括分类,它要求算法根据输入数据分配到预定义的类别。分类可以是多类别的,如对象识别,如PR2机器人识别饮料种类。此外,输入缺失分类是更具挑战性的任务,因为它涉及处理不完整信息的情况。 文档还涵盖了线性代数的基础,如标量、向量、矩阵和张量,这些都是机器学习中不可或缺的数学工具。矩阵和向量的乘法、逆矩阵、线性相关和子空间、范数、特征分解等概念,对于理解和实现机器学习算法至关重要。 概率与信息论部分介绍了概率论的基本概念,如随机变量、概率分布(离散型和连续型)、期望、方差和协方差,以及贝叶斯规则。这些概念在建立概率模型和处理不确定性数据时扮演关键角色。 数值计算方面,讨论了计算中可能遇到的上溢和下溢问题、病态条件、基于梯度的优化方法和约束优化问题。例如,线性最小二乘问题就是一个典型的优化问题。 最后,文档提到了学习算法的关键组成部分——性能度量P,用于评估模型的性能,以及经验E,即用于训练模型的数据。正则化是防止过拟合的手段,而超参数和验证集的选择对模型的泛化能力有着直接影响。点估计则是在统计学中用于估计总体参数的方法。 这份教程全面地概述了机器学习的基础知识,为在NAS上进行机器学习实践提供了必要的理论背景。