机器学习核心概念解析

计算机术语库

需积分: 34 173 浏览量更新于2024-08-05 收藏 26KB TXT 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这是一个机器学习课程的术语表，包含了各种重要的机器学习概念和技术，来源自https://www.aminer.cn/ml_taxonomy。" 机器学习是人工智能的一个分支，它涉及到让计算机通过数据学习并改善其表现，而无需显式编程。以下是这个术语表中的一些关键概念： 1. **监督学习(Supervised Learning)**：一种机器学习方法，其中模型通过已标记的数据（输入与相应的正确输出）进行训练，以便在未来可以预测未知数据的输出。 2. **无监督学习(Unsupervised Learning)**：与监督学习相反，无监督学习处理未标记的数据，目的是发现数据中的模式、聚类或结构。 3. **半监督学习(Semi-supervised Learning)**：结合了监督学习和无监督学习，通常用于大量未标记数据和少量标记数据的情况。 4. **强化学习(Reinforcement Learning)**：学习过程通过与环境交互来获得奖励或惩罚，目标是最大化累积奖励。 5. **主动学习(Active Learning)**：允许模型选择最有价值的数据点进行标记，以提高学习效率。 6. **在线学习(Online Learning)**：模型在接收新数据时不断更新和改进，适应不断变化的环境。 7. **迁移学习(Transfer Learning)**：将一个任务（通常是在大量数据上训练的预训练模型）的知识应用于新的、相关任务，以改善新任务的学习效果。 8. **自动机器学习(AutoML)**：自动化机器学习流程，包括特征工程、模型选择和超参数调整等步骤。 9. **表示学习(Representation Learning)**：学习数据的有意义的表示，以便更好地进行机器学习任务。 10. **闵可夫斯基距离(Minkowski Distance)**：一组通用公式，用于计算两个向量之间的距离，包括曼哈顿距离和欧几里得距离。 11. **梯度下降(Gradient Descent)**：优化算法，用于找到函数的最小值，常用于训练神经网络。 12. **随机梯度下降(Stochastic Gradient Descent)**：是梯度下降的一种变体，每次迭代只考虑一个或一小批样本，速度更快但可能不稳定。 13. **过拟合(Over-fitting)**：模型在训练数据上表现很好，但在未见过的数据上表现较差，通常由于模型复杂度过高。 14. **正则化(Regularization)**：防止过拟合的技术，通过添加惩罚项限制模型复杂度。 15. **交叉验证(Cross-validation)**：评估模型性能的方法，通过将数据集分成训练集和测试集多次迭代来减少偏差。 16. **感知器(Perceptron)**：最早的监督学习算法之一，用于二分类问题，基于线性决策边界。 17. **逻辑回归(Logistic Regression)**：用于分类问题的线性模型，其输出是事件发生的概率。 18. **最大似然估计(Maximum Likelihood Estimation)**：一种估计参数的统计方法，寻找使数据出现概率最大的参数值。 19. **牛顿法(Newton's method)**：优化算法，用于找到函数的局部极小值。 20. **K近邻算法(K-Nearest Neighbor, K-NN)**：基于实例的学习，类别由其最近邻的多数类别决定。 21. **马氏距离(Mahanalobis Distance)**：考虑了数据协方差的欧氏距离，能更好地衡量多维空间中的样本距离。 22. **决策树(Decision Tree)**：通过一系列基于特征的规则来进行分类或回归的模型。 23. **朴素贝叶斯分类器(Naive Bayes Classifier)**：基于贝叶斯定理的分类模型，假设特征之间相互独立。 24. **泛化误差(Generalization Error)**：模型在未见过的数据上的预期误差。 25. **PAC学习(PAC Learning)**：理论框架，探讨在有限样本下学习算法的一般性和准确性。 26. **经验风险最小化(Empirical Risk Minimization)**：通过最小化训练数据上的损失函数来选择模型。 27. **增长函数(Growth Function)**：描述在有限样本大小下，模型可以学习到的分类函数的数量。 28. **VC维(VC-dimension)**：衡量模型复杂度的度量，表示模型能够完全分类的最大数据点集合的大小。 29. **结构风险最小化(Structural Risk Minimization)**：在泛化误差和模型复杂度之间寻求平衡的优化策略。 30. **特征分解(Eigendecomposition)**：矩阵分解形式，常用于数据分析和图像处理。 31. **奇异值分解(Singular Value Decomposition, SVD)**：矩阵分解技术，用于降维、数据压缩和解决线性系统等问题。 32. **伪逆矩阵(Moore-Penrose Pseudoinverse)**：非方阵的逆，用于解决非齐次线性方程组和其他数学问题。 33. **边缘概率(Marginal Probability)**：单个变量的概率，不考虑其他变量的影响。 34. **条件概率(Conditional Probability)**：给定一个事件发生时，另一个事件发生的概率。这些术语构成了机器学习领域的基础，理解和掌握它们对于深入学习和应用机器学习至关重要。

资源推荐