Python机器学习入门：从环境配置到模型选择

版权申诉

24 浏览量更新于2024-07-19 1 收藏 6.75MB PDF 举报

"这份PDF是关于Python机器学习的入门教程，涵盖了从基础知识到核心概念的详细讲解，包括环境配置、数据获取、特征工程以及不同类型的机器学习算法。" 在Python机器学习领域，这份资料首先介绍了机器学习的基本概念，强调了它是通过分析数据来发现规律，并用这些规律对未知数据进行预测的过程，适用于解决预测性问题。接着，资料详细讲解了环境安装，提供了多个Python包的安装源，如豆瓣、阿里云、华中理工大学、山东理工大学和中国科学技术大学的镜像站，推荐使用`pip`命令安装`sklearn`、`numpy`、`jupyter`和`pandas`等常用库，并给出了相应的命令。进入实质性的学习阶段，资料详述了数据集的处理，包括如何将数据集划分为训练集和测试集，以及数据集通常包含的特征值x和目标值y。数据获取的方法涉及`numpy`、`sklearn`内置数据集以及`pandas`库的使用，这些都是处理和分析数据的基础工具。在特征工程部分，资料讨论了特征的转换、抽取和预处理。转换器用于改变特征的形式，而特征抽取则针对字符串类型的数据进行提取。对于文章类数据，可能需要进行文本特征的抽取。特征预处理主要针对数值型特征，包括归一化和标准化，以消除数据量纲影响和缩小区间。当特征维度过高时，会引入特征降维技术，如主成分分析PCA，以减少计算复杂性并保留重要信息。接下来，资料介绍了机器学习的两大主流类别——监督学习和无监督学习。监督学习包括分类和回归算法，分类算法的输出是离散型（如数字1,2,3,4,5,7），而回归算法的输出是连续型（如[1~2]）区间。模型选择与调优是监督学习中的重要环节，通过交叉验证和参数调整来优化模型性能。无监督学习则主要关注聚类算法，如K-Means，它能根据特征自我组织成不同的群组。遗憾的是，半监督学习和强化学习在这份入门资料中未做详细讲解，可能是由于这些主题较为复杂且通常在进阶学习中才会涉及。总体而言，这份PDF教程是Python机器学习初学者的良好起点，它全面覆盖了从环境搭建到实际模型应用的关键步骤，适合对机器学习感兴趣的读者系统学习。

3 merge()合并表格数据,条件：俩个表格必须有相同的列或者索引，

4 根据相同的索引列进行表格合并。一个相同的列或索引用on=index1，

5 多个列用on=[index1,index2...]

6 """

7 #去读四张表的数据

8 prior=pd.read_csv("./特征工程用到数据/order_products__prior.csv")

9 print(prior)

10 products=pd.read_csv("./特征工程用到数据/products.csv")

11 print(products)

12 orders=pd.read_csv("./特征工程用到数据/orders.csv")

13 print(orders)

14 aisles=pd.read_csv("./特征工程用到数据/aisles.csv")

15 print(aisles)

16 #将4个表格合并成1个

17 table1=pd.merge(prior,products,on="product_id")

18 table2=pd.merge(table1,orders,on='order_id')

19 table3=pd.merge(table2,aisles,on="aisle_id")

20 #pd.crosstab统计指定的两列数据之间的对应次数关系（两列数据按照x，y坐标形式交

叉成一个计数表格）

21 print(table3.shape)#显示行列数

22 cross=pd.crosstab(table3['user_id'],table3['aisle'])

23 print(cross)

1.4.4字典类型数据

获取pandas的DataFrame类型文字类型数据时（如泰坦尼克案例），我们可以将

DataFrame转换成字典列表类型,方便用机器容易识别的字典类特征工程抽取（特征工程中

介绍章），方法如下：

1 DictList=DataFrame.to_dict(orient="records")#

2 DictList=[{"age":31,"pclass":"2nd","sex":"female"},

3 {"age":31,"pclass":"2nd","sex":"male"}]

2.特征工程

什么是特征工程

特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发

挥更好的作用的过程。为了计算机更好的去理解、学习数据

意义：会直接影响机器学习的效果

2.1:转换器

剩余53页未读，继续阅读

vikingred

粉丝: 1
资源: 12

Python机器学习入门：从环境配置到模型选择

python机器学习教程-从零开始掌握Python机器学习：十四步教程.pdf

黑马python机器学习入门笔记

Python学习笔记.pdf

python 给以.pdf和.PDF结尾的文件进行重命名

零基础python机器学习快速入门

python机器学习导论笔记

python数据科学手册图灵出品.pdf

python机器学习基础源码.zip

python机器学习入门资料

python机器学习 预测分析核心算法 pdf

最新资源

python机器学习预测分析核心算法 pdf