机器学习关键点：表示、评价与优化

4星 · 超过85%的资源需积分: 9 115 浏览量更新于2024-07-21 收藏 171KB DOCX 举报

在深入探讨机器学习的基石时，首先要理解的是学习的三个核心组成部分：表示（Representation）、评价（Evaluation）和优化（Optimization）。表示方法决定了我们能够处理的问题类型和可用的数据结构，它的重要性在于构建合适的模型架构，如线性回归、神经网络等，以适应不同的问题场景。评价函数则是评估模型性能的关键，它通过计算预测值与实际值之间的差异，如均方误差（MSE），来指导优化过程，帮助我们了解模型的拟合程度。优化方法是训练过程中不可或缺的一部分，它决定了模型收敛速度和最终性能。梯度下降是最常见的优化算法，通过沿着损失函数的负梯度方向调整参数，以最小化误差。然而，当损失函数不是凸函数时，优化可能陷入局部极小值而非全局最优，这就需要其他高级优化技术，如牛顿法或随机梯度下降。泛化能力是机器学习的最终目标，这意味着我们的模型不仅要在训练数据上表现良好，还要能对未见过的数据做出准确预测。作者强调，避免过度拟合至关重要，因此在训练过程中，我们需要将数据集划分为训练集和验证集（或测试集），通常遵循交叉验证的方法，比如k折交叉验证，确保模型在未知数据上的泛化性能。这样做是为了防止模型过度适应训练样本，从而丧失在实际应用中的有效性。机器学习涉及选择适当的表示、设计有效的评价标准以及运用高效的优化策略，同时注重模型的泛化能力，以确保模型能够在真实世界环境中稳定且准确地运作。理解并掌握这些核心概念是成为一名出色机器学习工程师的基础。

至于之前说的那些关联规则也好，协同过滤也好，余弦相似性也好，其实就是

研究知识点与知识点之间关系所建立的模型。

针对于基于内容推荐，其知识点就是内容之中的各种属性，比如影片推荐，其

知识点可能就是各种评论数据、点播数据、顶踩数据、影片类型、演员、导演

以及其中的一些情感分析等等；又比如博文，其知识点可能就是一个个带权的

词，至于这个词就涉及到词的抽取了，再说到词的权重，可能就会涉及到

TFIDF 模型、LDA 模型了。

而针对基于用户，其知识点最直接的体现就是用户的行为了，就是用户与内容

之间的关系，不过深究下去，又会发现，其实跟内容的知识点也紧密联系，只

不过这可能不止一个内容实体，而是多个内容实体的集合。

（5）文本单词的加权模型

前面正好提到了 TFIDF 以及 LDA 模型，所以顺带也就讲讲文本单词相关的加权

模型吧。

说到文本挖掘，可能大部分人都熟悉 TFIDF 模型，既然涉及到了，那就简单的

说一说。我们知道，文本的知识点就是一个个的单词，虽然都是单词，但也总

有哪个词重要程度高一点，哪些词重要程度会低一点吧。

或许有人会说，出现多的词就重要。没错，那就是词频，简单的来想，这种思

路并没有错，并且，早期的文本挖掘模型就是这么做的。当然，效果肯定是一

般般的。因为那些经常出现的词往往都是一些没用的常用词，对文章的作用并

不大。

直到 TFIDF 模型的出现，才根本性地解决了文本挖掘知识点建模的问题。如何

判断一个词的重要程度，或者专业点的说法就是判断其对文章的贡献度？

剩余43页未读，继续阅读

lm365cn

粉丝: 0
资源: 21

机器学习关键点：表示、评价与优化

机器学习所需的线性代数知识

USTC中科大机器学习与知识发现project之推荐系统

机器学习入门必备知识点.pdf

机器学习

机器学习理论知识 机器学习基础入门教程 7. 基于实例的学习-k近邻（共17页）.pptx

Python机器学习机器学习实战文档

《机器学习导论》课后作业+《PRML》模式识别期末复习知识点.zip

轻松看懂机器学习十大常用算法知识分享.pdf

基于知识图谱的机器学习研究前沿探析.pdf

p5-机器学习示例：机器学习示例

最新资源

机器学习理论知识机器学习基础入门教程 7. 基于实例的学习-k近邻（共17页）.pptx