利用sklearn实现线性回归与梯度下降实战教程

需积分: 5 115 浏览量更新于2024-06-14 1 收藏 5.4MB PDF 举报

本篇文章主要介绍了如何利用Python的sklearn库进行线性回归分析，并结合梯度下降算法进行代码实践。首先，作者通过matplotlib库展示了数据可视化部分，创建了简单的线性关系图形，如一条直线y = 0.5x + 2。接着，他们引入了两个样本点（2,3）和（6,5），计算并确认了这两点之间的直线斜率，其值为0.5。在sklearn库中，线性回归被定义在`sklearn.linear_model.LinearRegression`模块下。这个模块包含的几个关键属性包括： 1. `intercept_`: 这是模型的截距项，即当所有特征值都为0时，预测结果的常数部分。对于上述例子中的直线，截距为2.00，意味着当x为0时，预测的y值为2。 2. `coef_`: 这是模型的系数向量，对应于特征对预测值的影响。在这个简单的一维线性模型中，系数就是斜率，表示特征x对y的单个影响值。在实际操作中，为了训练线性回归模型，需要将数据转换成适合sklearn处理的形式。`x`通常被编码为一个二维数组，其中每一行代表一个样本，每一列表示一个特征。在这个例子中，尽管只有一个特征（x），但依然按照矩阵形式输入，以便于扩展到多特征的情况。接下来，作者导入了`LinearRegression`类，并准备进行模型训练。虽然这部分代码没有直接展示，但可以推测接下来会实例化一个`LinearRegression`对象，然后使用`fit()`方法拟合数据，传入训练集的`x`和`y`值。在训练完成后，可以使用`predict()`方法对新的数据进行预测，或者通过`coef_`和`intercept_`属性查看模型的参数。此外，文章还提到了梯度下降算法，这是一种优化方法，常用于寻找函数最小值，特别是在机器学习中进行参数估计时。虽然未在提供的代码片段中直接体现，但可以推断，在实际应用中，可能会用到梯度下降来调整模型参数，使得损失函数达到最小，从而提高线性回归模型的准确性。这篇文章围绕sklearn库中的线性回归功能和基本的梯度下降原理，引导读者进行数据预处理、模型训练以及理解模型参数的意义。通过实例代码，读者可以了解如何在Python中实现简单的线性回归，并掌握关键的模型参数设置和优化方法。

2024/3/25 23:27

sklearn线性回归与梯度下降算法代码实践

file:///C:/Users/20572/Downloads/sklearn线性回归与梯度下降算法代码实践.html

6/33

.. _diabetes_dataset:

Diabetes dataset

----------------

Ten baseline variables, age, sex, body mass index, average blood

pressure, and six blood serum measurements were obtained for each of n =

442 diabetes patients, as well as the response of interest, a

quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

:Number of Instances: 442

:Number of Attributes: First 10 columns are numeric predictive values

:Target: Column 11 is a quantitative measure of disease progression one year after

baseline

:Attribute Information:

- age age in years

- sex

- bmi body mass index

- bp average blood pressure

- s1 tc, total serum cholesterol

- s2 ldl, low-density lipoproteins

- s3 hdl, high-density lipoproteins

- s4 tch, total cholesterol / HDL

- s5 ltg, possibly log of serum triglycerides level

- s6 glu, blood sugar level

Note: Each of these 10 feature variables have been mean centered and scaled by the s

tandard deviation times the square root of `n_samples` (i.e. the sum of squares of e

ach column totals 1).

Source URL:

https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

For more information see:

Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani (2004) "Least Ang

le Regression," Annals of Statistics (with discussion), 407-499.

(https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)

((442, 10), (442,))

In [11]:

#特征变量

X = diabetes. data

#因变量

y = diabetes. target

In [12]:

X. shape, y. shape

Out[12]:

In [13]:

f r o m sklearn.linear_model i m p o r t LinearRegression

#划分训练集和测试集

f r o m sklearn.model_selection i m p o r t train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 8)

#模型实例化+模型训练

lr = LinearRegression(). fit(X_train, y_train)

print("训练数据集得分：{:.2f}". format(lr. score(X_train, y_train)))

print("测试数据集得分：{:.2f}". format(lr. score(X_test, y_test)))

2024/3/25 23:27

sklearn线性回归与梯度下降算法代码实践

file:///C:/Users/20572/Downloads/sklearn线性回归与梯度下降算法代码实践.html

7/33

训练数据集得分：0.53

测试数据集得分：0.46

岭回归实践

训练数据集得分：0.43

测试数据集得分：0.43

岭回归的参数调节

训练数据集得分：0.15

测试数据集得分：0.16

训练数据集得分：0.52

测试数据集得分：0.47

In [1]:

#导入岭回归模块

f r o m sklearn.linear_model i m p o r t Ridge

In [2]:

#模型实例化

ridge = Ridge()

In [3]:

#导入糖尿病数据集

f r o m sklearn.datasets i m p o r t load_diabetes

diabetes = load_diabetes()

X = diabetes. data #特征变量

y = diabetes. target #因变量

In [4]:

#划分训练集和测试集

f r o m sklearn.model_selection i m p o r t train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 8)

In [5]:

#模型训练

ridge. fit(X_train, y_train)

print("训练数据集得分：{:.2f}". format(ridge. score(X_train, y_train)))

print("测试数据集得分：{:.2f}". format(ridge. score(X_test, y_test)))

In [6]:

#正则化系数alpha = 10

ridge10 = Ridge(alpha = 10). fit(X_train, y_train)

print("训练数据集得分：{:.2f}". format(ridge10. score(X_train, y_train)))

print("测试数据集得分：{:.2f}". format(ridge10. score(X_test, y_test)))

In [7]:

#正则化系数alpha = 0.1

ridge01 = Ridge(alpha = 0.1). fit(X_train, y_train)

print("训练数据集得分：{:.2f}". format(ridge01. score(X_train, y_train)))

print("测试数据集得分：{:.2f}". format(ridge01. score(X_test, y_test)))

In [19]:

i m p o r t matplotlib.pyplot a s plt

f r o m sklearn.linear_model i m p o r t LinearRegression

# 模型系数的可视化比较

plt. plot(ridge. coef_, 's', label = 'Ridge alpha = 1')

plt. plot(ridge10. coef_, '^', label = 'Ridge alpha = 10')

plt. plot(ridge01. coef_, 'v', label = 'Ridge alpha = 0.1')

plt. plot(lr. coef_, 'o', label = 'linear regression')

plt. xlabel("系数序号")

plt. ylabel("系数量级")

plt. hlines(0,0, len(lr. coef_))

plt. legend(loc = 'best')

plt. grid(linestyle = ':')

剩余32页未读，继续阅读

李逸666

粉丝: 15
资源: 2

利用sklearn实现线性回归与梯度下降实战教程

线性回归梯度下降样例代码

梯度下降实现线性回归代码.py

梯度下降算法线性回归数据

利用sklearn实现机器学习算法：线性回归、逻辑回归、决策树、随机森林、SVM等.zip

利用梯度上升算法进行PCA分析的sklearn实践指南

梯度下降算法与线性回归模型的关系深度解析

梯度下降算法在线性回归问题中的应用

梯度下降算法详解：如何在PyTorch中构建高效线性回归模型

Python机器学习应用：使用sklearn中的线性回归进行回归分析

梯度下降算法原理与实践：预测模型参数调整的基石

最新资源