Python机器学习实践：k-近邻与决策树算法探索

版权申诉

5星 · 超过95%的资源 88 浏览量更新于2024-07-20 4 收藏 1.52MB DOC 举报

"这是一个关于Python机器学习的实验报告，涵盖了贝叶斯算法、逻辑回归、PCA和SVD降维等多个主题。报告中详细介绍了k-近邻(k-NN)算法和决策树的实验过程，包括实验目的、所需设备、实验内容、代码实现以及模型调优。" 在Python机器学习领域，实验报告详细阐述了k-近邻(k-NN)算法的实践应用。k-NN是一种基于实例的学习方法，用于分类和回归任务。在实验一中，主要目标是理解和实践k-NN算法，同时对决策树算法进行验证。实验设备仅需装有Python环境和开发工具如PyCharm的个人计算机。实验内容包括以下几个关键步骤： 1. **数据准备**：首先，从`sklearn.datasets`模块导入`load_iris`来获取鸢尾花数据集，这是一种常见的多类分类问题的数据集。接着，使用`train_test_split`将数据划分为训练集和测试集，随机状态设置为22以确保可复现性。 2. **特征预处理**：为了消除特征之间的尺度差异，采用了`StandardScaler`进行标准化处理。标准化使得数据的均值为0，标准差为1，有助于k-NN算法中距离计算的公平性。 3. **模型构建**：创建一个`KNeighborsClassifier`对象，这是`sklearn.neighbors`模块中的k-NN分类器。实验中还提到了使用`GridSearchCV`进行参数调优，这是一个交叉验证的方法，用于寻找最佳的超参数组合。 4. **模型训练与评估**：在标准化后的训练集上训练模型，并在测试集上进行预测。预测结果可以用来评估模型的性能，例如通过准确率、精确率、召回率等指标。此外，报告中提到的其他实验，如贝叶斯算法，通常涉及朴素贝叶斯分类器，它基于贝叶斯定理和特征条件独立假设。逻辑回归则是一种广泛使用的二分类模型，适用于处理离散型输出。PCA（主成分分析）和SVD（奇异值分解）则是常用的降维技术，它们能减少数据的复杂性，同时保留大部分信息。这些实验不仅加深了对机器学习算法的理解，还提供了实践经验，帮助学生掌握如何在实际问题中应用这些算法。通过这种方式，学生可以更好地理解和评估不同算法在解决特定问题时的性能。

plt.show()

2.决策树算法

import pandas as pd

from sklearn.feature_extraction import DictVectorizer

from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeClassifier, export_graphviz

from sklearn import tree

import pydotplus

import os

数据：

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt

# #

导入路径

os.environ['PATH']+= os.pathsep+'C:/PyCharm/Graphviz/bin'

# # 1

、获取数据

titan = pd.read_csv(r'E:\titanic\train.csv')

# titan = pd.read_csv("E:/titanic/train.csv")

# titan = pd.read_csv("E:\\titanic\\train.csv")

同上

# 2

、数据的处理

认为：选择

'Pclass','Age','Sex'

作为特征值对目标值

'Survived'

会有影响，其它可能无影响

x=titan[['Pclass','Age','Sex']] #

里层

[]

相当于把三个键合为一个，外层

[]

字典的键值对读取操作

y = titan['Survived']

# # print(x)

# print(y)

# age

数据存在缺失。

缺失值需要处理，将特征当中有类别的这些特征进行字典特征抽取

x['Age'].fillna(x['Age'].mean(), inplace=True)

特征中出现类别符号，需要进行

one-hot

编码处理

(DictVectorizer)

x=x.to_dict(orient="records") #

需要将数组特征转换成字典数据

分割训练集合测试集

x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)

字典特征提取

transfer = DictVectorizer(sparse=False)

x_train= transfer.fit_transform(x_train)

x_test= transfer.transform(x_test)

剩余17页未读，继续阅读

虫子师兄

粉丝: 35
资源: 13

Python机器学习实践：k-近邻与决策树算法探索

Python机器学习实验报告要点解析

Python机器学习实验报告详细解读

Python机器学习实验报告深度解析

《Python机器学习》实验报告.doc.zip

《Python机器学习》实验报告.doc

燕大《Python机器学习》实验报告 .doc 燕大软件机器学习实验报告，

(完整版)Python基础学习笔记.doc

燕大《Python机器学习》实验报告 .doc

python学习笔记精品.doc

Python环境下的机器学习资源.doc

最新资源