台大机器学习基础课程学习笔记:机器学习定义及PLA算法

4星 · 超过85%的资源 需积分: 15 90 下载量 174 浏览量 更新于2024-09-09 收藏 1.37MB DOC 举报
台大机器学习基础课程学习笔记 机器学习的定义是指计算机程序通过经验E,学习某些任务T,并在性能指标P下提高其性能。简单来说,就是让机器在某些方面提高(如搜索排名的质量),给机器一些数据(用户的点击数据等),然后让机器获得某些经验(Learning to rank的一种模型,也就是数学公式)。这里需要强调的是,提高指标,必须要有某种指标可以量化这种提高,这点还是很关键的。 机器学习的应用场景有很多,例如搜索排名、图像识别、自然语言处理等等。机器学习的三个要素是:1.有规律可以学习;2.编程很难做到;3.有能够学习到规律的数据。编程很难做到可以有多种,大部分原因是系统太复杂,很难用Rule-based的东西去解决,例如搜索排名,现在影响排名的因素有超多几百种,不可能去想出这些因素的规则,因此,这时候用机器学习就是恰到好处。 机器学习的步骤包括:输入、假设集合、输出。输入是指数据,通过提取出feature vector来使用,也就是那个training examples,假设集合是用来选取最终f的。输出就是f(或近似f)。机器学习的算法有很多,例如 PLA(Perceptron Learning Algorithm)、Linear Regression、Decision Tree、Random Forest等等。 PLA算法是机器学习的基本算法之一。它的主要思想是通过不断地训练,来找到最优的模型参数,使得模型的性能达到最佳。PLA算法的优点是简单、易于实现,但其缺点是收敛速度慢,需要大量的数据和计算资源。 机器学习的优点是可以处理大规模的数据,自动地学习规律,并且可以实时地更新模型。但是,机器学习也存在一些缺点,例如需要大量的数据和计算资源,模型的可解释性不强,需要专门的技术和经验。 机器学习是一种非常有前途的技术,可以应用于很多领域,例如搜索排名、图像识别、自然语言处理等等。但是,机器学习也需要具备一定的技术和经验,否则可能会出现一些问题。