鸢尾花分类实践：使用sklearn的logistic回归与数据预处理

版权申诉

5星 · 超过95%的资源 96 浏览量更新于2024-09-11 2 收藏 266KB PDF 举报

"这篇资源是关于使用Python的scikit-learn（sklearn）库进行机器学习分类实践，特别是基于逻辑回归（Logistic Regression）对鸢尾花数据集（Iris dataset）进行分类的教程。文章介绍了sklearn库的基础知识，包括它的功能、封装的算法类型，以及在实践中用到的一些numpy函数和sklearn的方法。" 在机器学习领域，scikit-learn（简称sklearn）是一个不可或缺的工具，它提供了一个高效且易于使用的环境来进行各种机器学习任务。sklearn库支持多种学习策略，如监督学习和非监督学习，涵盖了广泛的算法，如回归、降维、分类和聚类。在这个实例中，我们将专注于分类问题，使用逻辑回归算法来对鸢尾花数据集进行分类。首先，我们来看一下numpy库中的两个矩阵连接函数：np.c_[] 和 np.r_[]。np.c_[]用于按行连接两个矩阵，而np.r_[]则是按列连接。例如： ```python import numpy as np a = np.array([[1,2,3], [4,5,6]]) b = np.array([[7,8,9], [10,11,12]]) # 按行连接 c = np.c_[a, b] # 按列连接 d = np.r_[a, b] ``` 接下来，numpy的ravel()函数用于将一个多维数组转换成一维数组，这在处理数据和准备输入模型时非常有用： ```python a = np.array([[1,2,3], [4,5,6], [7,8,9]]) b = a.ravel() ``` 在实践中，我们还需要了解如何输出信息。print()函数默认会在输出末尾添加换行符，而sys.stdout.write()方法则不会自动换行，而是持续更新输出流： ```python import sys sys.stdout.write("Hello, ") sys.stdout.write("World!") # 输出：Hello, World! ``` 最后，sklearn.model_selection模块中的train_test_split()函数是数据划分的标准工具，它能够将数据集分割为训练集和测试集，以便进行模型训练和验证： ```python from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) ``` 在鸢尾花分类任务中，我们首先加载鸢尾花数据集，然后预处理数据（可能包括标准化或归一化），接着使用train_test_split将数据划分为训练集和测试集。之后，我们可以创建一个逻辑回归模型，拟合训练数据，然后在测试数据上评估模型的性能。sklearn库提供了fit()方法来训练模型，predict()方法来进行预测，以及score()方法来评估模型的准确度。总结来说，这个资源通过实例展示了如何利用sklearn进行机器学习分类，特别关注了numpy的数据操作和sklearn的模型训练与数据划分过程。通过对鸢尾花数据集的分类，学习者可以掌握基础的机器学习流程和关键函数的使用。

基于基于sklearn的的logistic回归对于鸢尾花的机器学习分类实践回归对于鸢尾花的机器学习分类实践

sklearn(scikit-learn)是是python机器学习常用的第三方模块，是一个开源的机器学习库，它支持监督学习和非监督学习。它还为模型拟合、数据预处理、模型选择和评估以及许多其机器学习常用的第三方模块，是一个开源的机器学习库，它支持监督学习和非监督学习。它还为模型拟合、数据预处理、模型选择和评估以及许多其

他实用工具提供了各种工具。他实用工具提供了各种工具。sklearn对机器学习的常用算法进行了封装，包括回归、降维、分类、聚类等。对于以下的机器学习分类实践所用到的函数及方法进行说明。对机器学习的常用算法进行了封装，包括回归、降维、分类、聚类等。对于以下的机器学习分类实践所用到的函数及方法进行说明。

1.np.c_[ ]

和和

np.r_[ ]

的用法解析的用法解析

>>> import numpy as np

>>> a=np.array([[1,2,3],[4,5,6]])

>>> a

array([[1, 2, 3],

[4, 5, 6]])

>>> b=np.array([[7,8,9],[10,11,12]])

>>> b

array([[ 7, 8, 9],

[10, 11, 12]])

>>> c=np.c_[a,b] >>> c

array([[ 1, 2, 3, 7, 8, 9],

[ 4, 5, 6, 10, 11, 12]])

>>> d=np.r_[a,b] >>> d

array([[ 1, 2, 3],

[ 4, 5, 6],

[ 7, 8, 9],

[10, 11, 12]])

np.c_[ ]是按照行将两个矩阵连接起来，而np.r_[ ]是按照列将两个矩阵连接起来。

2.numpy

的扁平化函数的扁平化函数

ravel()

ravel()函数是将多维数组转换为一维数组

>>> a=np.array([[1,2,3],[4,5,6],[7,8,9]])

>>> a

array([[1, 2, 3],

[4, 5, 6],

[7, 8, 9]])

>>> b=a.ravel()

>>> b

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

3.sys.stdout.write()

方法与方法与

print()

方法对比方法对比

print()在控制台打印我们要输出的内容时会在末尾自动加上换行符,然而write()方法是将输出内容写入输出流中，并且输出流会不断更新使得旧的内容被新的覆盖掉，最后只会得到程

序中最后一次迭代的结果。

4.sklearn.model_selection

的的

train_test_split

方法方法

train_test_split()函数会根据输入数据和输出的类别标签自动将数据划分为训练数据集和测试数据集。X_train,X_test, y_train, y_test

=cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0) x_train,x_test,y_train,y_test分别为划分出来的输入训练数据，输入测试数据，输出训练数据和输出测试数

据。若test_size的值是0~1的数，那么该参数指的是测试样本数量占总样本数量的百分比；若test_size是大于1的正整数，那么参数指的是测试样本的数量。random_state指的是随机

数种子。这里随机数种子即seed实际上代表着随机数的序号。该序号与每个随机数相对应，相当于随机数固定存放在数组中，而seed参数则相当于随机数在数组中的下标索引。如果

设置了seed的值，则每次执行程序所产生的随机数或者随机序列均相等，即都为同一个随机数或者随机序列。原因是，每次执行程序都会产生同一个位置处(seed的值)的随机数或者

随机序列。如果没有设置seed参数的取值，那么每次执行程序所产生的随机数或者随机序列均不等。

5.metrics.accuracy_score

分类准确率分数计算函数分类准确率分数计算函数

函数的官方文档说明如下所示：

def accuracy_score(y_true, y_pred, normalize=True, sample_weight=None):

"""Accuracy classification score.

In multilabel classification, this function computes subset accuracy:

the set of labels predicted for a sample must *exactly* match the

corresponding set of labels in y_true.

Read more in the :ref:`User Guide `.

Parameters

----------

y_true : 1d array-like, or label indicator array / sparse matrix

Ground truth (correct) labels.

y_pred : 1d array-like, or label indicator array / sparse matrix

Predicted labels, as returned by a classifier.

normalize : bool, optional (default=True)

If ``False``, return the number of correctly classified samples.

Otherwise, return the fraction of correctly classified samples.

sample_weight : array-like of shape (n_samples,), default=None

Sample weights.

Returns

-------

score : float

If ``normalize == True``, return the fraction of correctly

classified samples (float), else returns the number of correctly

classified samples (int).

The best performance is 1 with ``normalize == True`` and the number

of samples with ``normalize == False``.

如果参数normalize为True,则函数返回正确分类样本数占总训练或测试样本总数的百分比，若为False则返回正确分类的样本数量。

这里我用的是sklearn库自带的鸢尾花数据集进行监督学习。通过from sklearn import datasets iris=datasets.load_iris() 导入鸢尾花数据集，通过print(dir(iris))dir()函数查看数据集的属性，得到含

有6个属性的属性列表['DESCR', 'data', 'feature_names', 'filename', 'target', 'target_names'] 我们可以通过print(iris.DESCR)查看数据的特征描述，具体如下所示：

Iris plants dataset

--------------------

**Data Set Characteristics:**

:Number of Instances: 150 (50 in each of three classes)

:Number of Attributes: 4 numeric, predictive attributes and the class

:Attribute Information:

- sepal length in cm

- sepal width in cm

- petal length in cm

- petal width in cm

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38691055

粉丝: 10
资源: 930

鸢尾花分类实践：使用sklearn的logistic回归与数据预处理

python机器学习入门-鸢尾花data建立python机器学习

Java实现逻辑回归算法(LogRegression)对iris数据集分类

鸢尾花（iris）数据集，用于机器学习训练，预测的经典数据集, csv格式

机器学习逻辑回归模型鸢尾花数据集

用python使用决策树、支持向量机、logistic回归、随机森林模型对鸢尾花数据进行分类

鸢尾花分类逻辑回归Python

spyder逻辑回归鸢尾花

鸢尾花二分类逻辑回归

sklearn运用逻辑回归

鸢尾花分类逻辑回归Python带图

最新资源