利用Python实现逻辑回归：预测大学录取

106 浏览量更新于2024-09-01 1 收藏 662KB PDF 举报

在编程作业2中，吴恩达教授指导我们学习和实践逻辑回归（Logistic Regression）这一概念，这是一种在二分类问题中常用的统计模型。作业的目标是使用Python 3.6环境构建一个逻辑回归模型，预测一个学生被大学录取的可能性，依据两个考试成绩（'Exam1'和'Exam2'）作为输入特征。首先，准备工作至关重要，我们通过`pandas`库读取名为'ex2data1.txt'的数据集，该数据包含了申请人的考试成绩以及他们是否被录取的信息。通过`head()`函数查看前五行数据，并利用`describe()`了解数据的统计特性。在这个阶段，可能遇到错误，比如当尝试使用`seaborn`库中的颜色时，因为`_ColorPalette`对象不可哈希，解决方法是调整`seaborn`的设置，如使用`"notebook"`风格和自定义画板颜色。接下来，作业涉及的主要概念包括： 1. **Sigmoid函数**：这是一个S型函数，也称作逻辑函数，其输出值范围在0到1之间，常用于将线性函数的结果转换为概率形式，使得结果易于理解和解释。 2. **Cost函数（代价函数）**：逻辑回归的代价函数通常采用交叉熵的形式，衡量模型预测概率与真实标签之间的差异。优化这个函数是通过梯度下降法找到最佳模型参数。 3. **Gradient Descent（梯度下降）**：这是一种迭代优化算法，通过计算成本函数关于参数的梯度（方向），沿着梯度的反方向更新参数，直到找到最小化代价的最优解。在这个作业中，我们需要实现参数的梯度计算和更新过程。 4. **拟合参数（θ0, θ1, θ2）**：这些参数代表了模型对每个特征的权重和截距，是通过最小化代价函数来确定的。在本任务中，目标是求解这三个参数，从而确定录取决策的分界线。 5. **预测和验证**：使用训练集中的数据，通过计算sigmoid函数的结果并设定阈值（通常为0.5）来预测学生的录取情况。然后，我们会计算预测的准确性，评估模型性能。 6. **决策边界**：逻辑回归模型在二维空间中形成的决策边界，它将不同类别的数据分开。通过分析参数，我们可以理解模型如何基于考试成绩区分录取和不录取的申请者。 7. **推导**：这里可能涉及理论上的推导，例如梯度下降算法背后的数学原理，或者sigmoid函数如何与逻辑回归结合。 8. **代码实现**：具体到Python代码层面，涉及到导入必要的库，如`numpy`、`sklearn.metrics`等，以及使用这些库函数来执行上述步骤。比如，`sigmoid`函数的实现、模型预测、`classification_report`的使用等。编程作业2围绕逻辑回归的核心概念展开，旨在通过实际操作加深对二元分类问题的理解，并掌握机器学习模型训练和评估的关键步骤。完成这个项目后，你将具备使用逻辑回归处理实际问题的能力，并能根据数据调整和优化模型。

编程作业编程作业2 logistic_regression（逻辑回归）（逻辑回归）(吴恩达吴恩达)

文章目录文章目录编程作业2 logistic_regression（逻辑回归）1.准备数据2.sigmoid 函数3.cost function(代价函数)4.gradient descent(梯度下降)5.拟合参数6.用训练集预测和验证7.寻找决策边

界8.推导

编程作业编程作业2 logistic_regression（逻辑回归）（逻辑回归）

推荐运行环境：python 3.6 建立一个逻辑回归模型来预测一个学生是否被大学录取。根据两次考试的结果来决定每个申请人的录取机会。有以前的申请人的历史数据，可以用它作为

逻辑回归的训练集 python实现逻辑回归目标：建立分类器（求解出三个参数 θ0 θ1 θ2）即得出分界线备注:θ1对应’Exam 1’成绩,θ2对应’Exam 2’ 设定阈值，根据阈值判断录取结果

备注:阈值指的是最终得到的概率值.将概率值转化成一个类别.一般是＞0.5是被录取了,＜0.5未被录取. 实现内容：

sigmoid : 映射到概率的函数 model : 返回预测结果值 cost : 根据参数计算损失 gradient : 计算每个参数的梯度方向 descent : 进行参数更新 accuracy: 计算精度

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

plt.style.use('fivethirtyeight') #样式美化

import matplotlib.pyplot as plt

from sklearn.metrics import classification_report#这个包是评价报告

1.准备数据准备数据

data = pd.read_csv('ex2data1.txt',names = ['exam1', 'exam2', 'admitted'])

data.head() #看前五行

data.describe()

##Error case1 TypeError:unhashable type :_ColorPalette 运行问题更换方案运行问题更换方案sns.set(context=“notebook”, style=“darkgrid”, palette=sns.color_palette(“RdBu”,

2),color_codes=False) 因为自定义了画板颜色因为自定义了画板颜色

sns.set(context = "notebook",style = "darkgrid",palette = sns.color_palette("RdBu",2)) #设置样式参数,默认主题 darkgrid（灰色背景+白网格）,调色板 2色

sns.lmplot('exam1','exam2',hue = 'admitted',data = data, #hue参数是将name所指定的不同类型的数据叠加在一张图中显示

size = 6,

fit_reg =False, #fit_reg'参数，控制是否显示拟合的直线

scatter_kws = {"s":50})

plt.show()

def get_X(df):#读取特征

# """

# use concat to add intersect feature to avoid side effect

# not efficient for big dataset though

# """

ones = pd.DataFrame({'ones': np.ones(len(df))})#ones是m行1列的dataframe

data = pd.concat([ones, df], axis=1) # 合并数据，根据列合并 axis = 1的时候，concat就是行对齐，然后将不同列名称的两张表合并加列

return data.iloc[:, :-1].values # 这个操作返回 ndarray,不是矩阵

def get_y(df):#读取标签

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38625708

粉丝: 4
资源: 944

利用Python实现逻辑回归：预测大学录取

Logistic_Regression_with_a_Neural_Network_mindset.rar

吴恩达深度学习Logistic Regression with a Neural Network mindset

斯坦福机器学习编程作业machine-learning-ex2，Logistic Regression逻辑回归题目，满分，2015最新作业答案

03_logistic_regression_逻辑回归_

ex2_Logistic_逻辑回归_matlab_

吴恩达_logistic_源码

吴恩达老师《机器学习》课后习题2之逻辑回归(logistic-regression)

吴恩达深度学习与神经网络课程_LogisticRegression网络识别猫

【吴恩达课后编程作业】第二周作业 - Logistic回归-识别猫的图片资源.zip

吴恩达LogisticRegression识别猫数据集

最新资源