逻辑回归实战：梯度下降法预测学生入学概率

152 浏览量更新于2024-08-29 1 收藏 268KB PDF 举报

本文主要探讨了如何利用梯度下降法求解逻辑回归问题。逻辑回归是一种常用的分类算法，特别适用于二分类问题，通过拟合一个线性或非线性的决策边界来预测目标变量的概率。在本文的案例中，作者使用Python编程语言，结合了`numpy`、`pandas`等数据处理库以及`sklearn.linear_model.coordinate_descent`模块中的梯度下降优化方法。首先，案例简介部分介绍了要解决的问题：根据学生两次考试的成绩数据，建立一个逻辑回归模型来预测他们被录取的概率。数据集包含两个考试分数（test1和test2）和一个录取结果（result）。通过导入必要的库并处理可能的警告，如ConvergenceWarning，以确保算法的稳定运行。在数据可视化阶段，作者使用matplotlib库对数据进行初步探索和可视化，以便更好地理解数据分布和潜在的关系。这有助于识别特征之间是否存在相关性，以及这些特征与目标变量之间的潜在模式。接下来，文章的核心内容集中在构建逻辑回归模型上。模型的关键组成部分包括： 1. **Sigmoid函数**：这是一种用于将线性输出映射到(0,1)概率范围内的函数，使得输出更符合实际二分类问题的概率解释。Sigmoid函数通常表示为f(x) = 1 / (1 + exp(-x))，在这里，x是输入特征经过线性变换后的值。 2. **Model函数**：该函数接收输入特征，并通过线性变换和Sigmoid函数转换，生成预测的概率值。在逻辑回归中，这个模型通常表示为y_pred = 1 / (1 + e^-(wx + b))，其中w是权重向量，b是偏置项。 3. **Cost函数**：也称为损失函数，用来衡量模型预测值与真实标签之间的差异。对于逻辑回归，常用的损失函数是交叉熵损失（Cross-Entropy Loss），它鼓励模型输出接近真实标签的概率分布。 4. **Gradient函数**：计算Cost函数关于模型参数（w和b）的梯度，梯度的方向指示参数更新的方向。在梯度下降中，负梯度方向通常用于最小化损失函数。 5. **Descent（梯度下降）**：这是优化算法的核心，通过迭代地沿着梯度的反方向更新模型参数，使损失函数逐渐降低，直至达到局部最优解。这里可能涉及到批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）或者小批量梯度下降（Mini-Batch Gradient Descent）。 6. **精度评估**：最后，作者会通过计算准确率、精确率、召回率等指标来评估模型在测试集上的性能，并可能进行模型调整和优化。文章的参考资料链接到一个更深入的Python数据分析与机器学习教程，提供了更多的逻辑回归实践案例和理论支持。总结来说，本文主要展示了如何通过梯度下降法解决逻辑回归问题，涉及数据预处理、模型构建、损失函数计算、参数优化以及性能评估等关键步骤。通过实例，读者可以了解逻辑回归在实际问题中的应用，以及如何使用Python工具进行高效实现。

求解逻辑回归求解逻辑回归—-梯度下降梯度下降

文章目录文章目录案例简介数据可视化建立分类器sigmoid函数：映射到概率的函数model 函数: 返回预测结果值cost : 根据参数计算损失gradient : 计算每个参数的梯度方向descent : 进行参数

更新精度

案例简介案例简介

参考资料参考资料

逻辑回归函数

Python数据分析与机器学习-逻辑回归案例分析

案例内容案例内容

现在有一份学生两次考试的结果的数据

根据数据建立一个逻辑回归模型来预测一个学生的入学概率。

数据内容：两个考试的申请人的分数和录取决定。

# 导入相应的包

import numpy as np

import pandas as pd

import matplotlib as mpl

import warnings # 警告处理

import matplotlib.pyplot as plt

import os

from matplotlib.font_manager import FontProperties

from sklearn.linear_model.coordinate_descent import ConvergenceWarning # 警告处理

%matplotlib inline

# 设置显示中文字体

my_font = FontProperties(fname="/usr/share/fonts/chinese/simsun.ttc")

# fontproperties = my_font

# 设置正常显示符号

mpl.rcParams["axes.unicode_minus"] = False

# 拦截异常

warnings.filterwarnings(action = 'ignore', category = ConvergenceWarning)

# 加载数据

# 从本地导入数据

path = '/root/zhj/python3/code/data/LogiReg_data.txt'

# header=0 是指将文件中第 0 行（一般理解应该是第一行）作为“列名”。

# 如果没有设置则默认取第一行，

# 设置为 None 的时侯 Pandas 会用自然数 0、1、2……来标识列名。

pdData = pd.read_csv(path, header=0, names=['test1', 'test2', 'result'])

# 为了区别header属性，用数据维度进行试验

pdData1 = pd.read_csv(path, names=['test1', 'test2', 'result'])

pdData2 = pd.read_csv(path, header=None, names=['test1', 'test2', 'result'])

print("查看前10行数据")

print("="* 31)

print(pdData.head(10))

print("="* 31)

print("查看数据维度")

print("header=0的数据维度：",pdData.shape)

print("header默认值的数据维度：",pdData1.shape)

print("header=None值的数据维度：",pdData2.shape)

查看前10行数据

===============================

test1 test2 result

0 30.286711 43.894998 0

1 35.847409 72.902198 0

2 60.182599 86.308552 1

3 79.032736 75.344376 1

4 45.083277 56.316372 0

5 61.106665 96.511426 1

6 75.024746 46.554014 1

7 76.098787 87.420570 1

8 84.432820 43.533393 1

9 95.861555 38.225278 0

===============================

查看数据维度

header=0的数据维度： (99, 3)

header默认值的数据维度： (100, 3)

header=None值的数据维度： (100, 3)

数据可视化数据可视化

# 根据result把数据分为两类

positive = pdData[pdData['result'] == 1] # 返回result为1的数据

negative = pdData[pdData['result'] == 0] # 设置图片大小，分辨率

fig, ax = plt.subplots(figsize=(20,8),dpi=80)

# 绘制散点图----s:标量，默认为20；c:散点颜色；marker:散点形状；label：标签

ax.scatter(positive['test1'], positive['test2'], s=30, c='b', marker='o', label='合格')

ax.scatter(negative['test1'], negative['test2'], s=30, c='r', marker='v', label='不合格')

# 设置图例

ax.legend(prop=my_font)

ax.set_xlabel('test1 Score') # 横坐标

ax.set_ylabel('test2 Score') # 纵坐标

# 展示图片

plt.show()

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38596485

粉丝: 2
资源: 892

逻辑回归实战：梯度下降法预测学生入学概率

logistic regression (逻辑回归实验数据）

python实现逻辑回归与梯度下降策略

对数几率回归（逻辑回归）梯度下降优化

机器学习-基于逻辑回归的梯度下降求解逻辑回归.zip

梯度下降求解逻辑回归

GradientDescentFlow--- 梯度下降流串行计算

梯度下降法详解-梯度下降法

《机器学习》算法实例-逻辑回归算法-梯度上升算法

逻辑回归模型梯度下降法求解最小值

最优化--梯度下降法--牛顿法

最新资源