从线性回归到逻辑回归：深入理解分类模型

需积分: 9 86 浏览量更新于2024-07-19 收藏 2.19MB PDF 举报

"该资源为PDF文档，主题从线性回归过渡到逻辑回归，主要讨论逻辑回归在分类任务中的应用，特别是二元分类问题。文档介绍了线性回归的基础，包括一元、多元和多项式回归，然后引出广义线性回归模型，强调其灵活性。重点转向逻辑回归，作为解决非正态分布响应变量的分类工具，特别是针对伯努力分布的二元问题。文档还提到了联连函数的概念，以及在逻辑回归中如何使用它来连接解释变量和响应变量。" 正文：在统计建模和机器学习领域，从线性回归到逻辑回归的转变反映了模型应用的多样性。线性回归，如我们在第2章中所学，是预测连续数值型变量的常用方法，包括一元、多元和多项式形式。然而，当面对分类问题时，线性回归不再适用，因为它的预测结果并不总是适合离散的类别。逻辑回归是解决分类问题的一种重要工具，尤其是二元分类，即目标变量只有两种可能状态，如是/否、0/1、真/假等。不同于线性回归假设响应变量遵循正态分布，逻辑回归处理的是概率分布，如伯努力分布，它描述了二项事件发生的概率。例如，预测患者患病与否、音频中是否存在人声、体育比赛的胜负等都是典型的二元分类问题。在逻辑回归中，联连函数起到关键作用，它将线性模型的输出转换为介于0和1之间的概率值。对于逻辑回归，最常用的联连函数是 logistic 函数，也称为 sigmoid 函数，它将线性组合的解释变量映射到一个概率值，这个概率值反映了属于某一类别的可能性。逻辑回归的这种特性使得它能够为二元分类提供概率预测，不仅给出类别预测，还能提供预测的置信度。除了基本的二元逻辑回归，文档可能还会涉及多元逻辑回归，用于处理有多个类别的分类问题。在多元分类中，模型需要预测一个实例属于某一类别的概率，并且通常会用到多分类算法如softmax函数。此外，特征抽取方法也是解决分类问题的重要部分，通过选择或转换输入变量，可以提高模型的预测能力。从线性回归到逻辑回归的转变体现了模型的适应性和解决问题的多样性。逻辑回归以其独特的能力处理分类问题，尤其是二元分类，使其在许多现实世界的问题中发挥着重要作用，例如医学诊断、市场预测、文本分类等。通过理解并掌握逻辑回归，我们可以更好地应对那些需要预测离散结果的挑战。

In[3]:

vectorizer = TfidfVectorizer()

X_train = vectorizer.fit_transform(X_train_raw)

X_test = vectorizer.transform(X_test_raw)

最后，我们建一个LogisticRegression实例来训练模型。和LinearRegression类

似，LogisticRegression同样实现了fit()和predict()方法。最后把结果打印出来看看：

In[5]:

classifier = LogisticRegression()

classifier.fit(X_train, y_train)

predictions = classifier.predict(X_test)

In[25]:

for i, prediction in enumerate(predictions[-5:]):

print('预测类型：%s. 信息：%s' % (prediction, X_test_raw.iloc[i]))

分类模型的运行效果如何？有线性回归的度量方法在这里不太适用了。我们感兴趣的是分类是否正确

（如第一章介绍的肿瘤预测问题），并不在乎它的决策范围。下面，我们来介绍二元分类的效果评估

方法。

二元分类效果评估方法

二元分类的效果评估方法有很多，常见的包括第一章里介绍的肿瘤预测使用的准确率（accuracy），

精确率（precision）和召回率（recall）三项指标，以及综合评价指标（F1 measure）， ROC AUC

值（Receiver Operating Characteristic ROC，Area Under Curve，AUC）。这些指标评价的样本分

类是真阳性（true positives），真阴性（true negatives），假阳性（false positives），假阴性

（false negatives）。阳性和阴性指分类，真和假指预测的正确与否。

在我们的垃圾短信分类里，真阳性是指分类器将一个垃圾短信分辨为spam类。真阴性是指分类器将

一个正常短信分辨为ham类。假阳性是指分类器将一个正常短信分辨为spam类。假阴性是指分类器

将一个垃圾短信分辨为ham类。混淆矩阵（Confusion matrix），也称列联表分析（Contingency

table）可以用来描述真假与阴阳的关系。矩阵的行表示实际类型，列表示预测类型。

预测类型：ham. 信息：Are u coming to the funeral home

预测类型：ham. 信息：Love isn't a decision, it's a feeling. If we

could decide who to love, then, life would be much simpler, bu

t then less magical

预测类型：ham. 信息：Dont think so. It turns off like randomlly w

ithin 5min of opening

预测类型：spam. 信息：Hey happy birthday...

预测类型：ham. 信息：None of that's happening til you get here th

ough

剩余18页未读，继续阅读

qq_39196361

粉丝: 4
资源: 8

从线性回归到逻辑回归：深入理解分类模型

Logistic回归总结（非常好的机器学习总结资料）

linear_regression.pdf

linear-regression.pdf

4-from-linear-regression-to-logistic-regression.zip

iris1 logistic-Lasso-Ridge-LinearRegression.ipynb

Machine-Learning-Logistic-Regression-:机器学习逻辑回归，参考http

matlab图像拆分与拼接代码-data-sci-salary-logistic-regression:数据科学工资逻辑回归

accord-statistics-regression-(linear-and-logistic

File "DDIMDL.py", line 24, in <module> from sklearn.linear_model.logistic import LogisticRegression ModuleNotFoundError: No module named 'sklearn.linear_model.logistic'

from sklearn.LogisticRegression import LogisticRegression from sklearn.DecisionTreeClassifier import DecisionTreeClassifier

最新资源