机器学习基础：向量、矩阵与数组入门

需积分: 9 78 浏览量更新于2024-07-15 收藏 19.09MB PDF 举报

"机器学习入门技术笔记.pdf" 这篇机器学习入门技术笔记涵盖了广泛的基础知识，是初学者了解和掌握机器学习的良好参考资料。笔记由Chris Albon编写，并由飞龙翻译，遵循CC BY-NC-SA 4.0协议，鼓励社区共同参与和完善。笔记内容分为多个部分，包括： 1. **数据科学和人工智能技术** - 这部分可能介绍了数据科学与AI的基本概念，以及它们在现实世界中的应用。 2. **向量、矩阵和数组** - 这是数学基础，特别是线性代数在机器学习中的应用。向量和矩阵是表示数据的基本工具，而数组操作是Python中进行数据分析的关键。笔记中讲解了如何创建和操作这些对象，以及如何进行转置和选择元素。 3. **数据准备** 和 **数据预处理** - 数据预处理是机器学习流程的重要环节，包括清洗、规范化、缺失值处理等，确保数据适合模型训练。 4. **图像预处理** - 图像数据在深度学习中尤其重要，这部分可能涵盖图像缩放、归一化、颜色空间转换等技巧。 5. **文本预处理** - 文本数据的处理涉及分词、去除停用词、词干提取等步骤，以便将文本转化为可被机器学习算法处理的形式。 6. **日期时间预处理** - 时间序列数据的处理，如转换为数值形式、提取特征等。 7. **特征工程** - 通过特征选择和构造新特征来提高模型性能。 8. **特征选择** - 选择对预测目标最有影响力的特征，减少计算复杂度和过拟合风险。 9. **模型验证** - 如交叉验证，用于评估模型的泛化能力。 10. **模型选择** - 比较不同模型的性能，选择最优模型。 11. **线性回归** - 基础的预测模型，用于连续变量的预测。 12. **逻辑回归** - 分类模型，适用于二分类问题。 13. **树和森林** - 包括决策树、随机森林等，用于分类和回归任务。 14. **K最近邻** (KNN) - 非参数方法，基于实例的学习。 15. **支持向量机** (SVM) - 边界最大化的方法，适用于分类和回归。 16. **朴素贝叶斯** - 基于概率的分类器，假设特征之间相互独立。 17. **聚类** - 将数据分为相似组，如K-means、层次聚类等。 18. **Keras** - 用于构建深度学习模型的高级API，易于使用且兼容TensorFlow。 19. **数据整理** - 数据清洗和格式调整，确保数据质量。 20. **数据可视化** - 使用图表帮助理解数据和模型结果。 21. **统计学** - 机器学习的基础，包括概率论和假设检验。这些章节深入浅出地介绍了机器学习的核心概念和技术，为读者提供了扎实的理论基础和实践经验。通过学习这些笔记，读者能够逐步掌握机器学习的各个重要方面，从而在实践中构建有效的预测模型。

#加载库

fromsklearnimportdatasets

importmatplotlib.pyplotasplt

数字是手写数字的数据集。每个特征是8×8图像的一个像素的强度。

#加载数字数据集

digits=datasets.load_digits()

#创建特征矩阵

X=digits.data

#创建目标向量

y=digits.target

#查看第一个观测的特征值

X[0]

'''

array([0.,0.,5.,13.,9.,1.,0.,0.,0.,0

.,13.,

15.,10.,15.,5.,0.,0.,3.,15.,2.,0

.,11.,

8.,0.,0.,4.,12.,0.,0.,8.,8.,0

.,0.,

5.,8.,0.,0.,9.,8.,0.,0.,4.,11

.,0.,

1.,12.,7.,0.,0.,2.,14.,5.,10.,12

.,0.,

0.,0.,0.,6.,13.,10.,0.,0.,0.])

'''

观测的特征值展示为向量。但是，通过使用 images方法，我们可以将相同的特

征值加载为矩阵，然后可视化实际的手写字符：

二、数据准备

#加载数字数据集

iris=datasets.load_iris()

#创建特征矩阵

X=iris.data

#创建目标向量

y=iris.target

#查看第一个观测的特征值

X[0]

#array([5.1,3.5,1.4,0.2])

为分类制作模拟数据

fromsklearn.datasetsimportmake_classification

importpandasaspd

#创建模拟的特征矩阵和输出向量，带有100个样本，

features,output=make_classification(n_samples=100,

#十个特征

n_features=10,

#五个实际预测输出分类的特征，

n_informative=5,

#五个随机特征，和输出分类无关，

n_redundant=5,

#三个输出分类

n_classes=3,

#第一类有20%的观测，第二类

有30%，

#第三类有50%，'None'表示

均衡分类。

weights=[.2,.3,.8])

#查看前五个管泽志和它们的10个特征

pd.DataFrame(features).head()

二、数据准备

剩余447页未读，继续阅读

江湖人称王某人的程序员

粉丝: 98
资源: 53

机器学习基础：向量、矩阵与数组入门

java入门笔记.pdf

“机器学习基石”笔记.pdf

黄海广-机器学习个人笔记v5.26.pdf

机器学习学习笔记.pdf

斯坦福大学机器学习的数学基础.pdf

visionpro_学习笔记.pdf

deeplearning深度学习笔记v5.72.pdf

机器学习算法导论.pdf

基于同态加密的机器学习研究综述.pdf

人工智能之机器学习.pdf 清华大学人工智能研究所

最新资源