逻辑回归 Logistic Regression：分类问题与决策边界

90 浏览量更新于2024-08-28 收藏 710KB PDF 举报

"机器学习之逻辑回归（LogisticRegression）" 逻辑回归（Logistic Regression），虽然名字中含有“回归”，但它实际上是一种广泛应用于二分类问题的监督学习算法。在分类问题中，我们试图预测一个离散的结果，例如邮件是否是垃圾邮件（0或1），或者交易是否欺诈（0或1）。与线性回归不同，逻辑回归不直接预测连续值，而是通过一个非线性的转换，即逻辑函数（Sigmoid Function），将线性模型的输出映射到(0,1)之间，这使得结果可以解释为概率。 1. 分类问题分类问题涉及预测数据属于特定类别之一的情况。在二分类问题中，有两个可能的类别，通常称为负向类（negative class）和正向类（positive class）。例如，负向类可能是正常的交易，而正向类可能是欺诈交易。用0和1表示这两个类别方便计算和理解。 2. Hypothesis Representation 逻辑回归的假设函数（Hypothesis）采用线性形式，类似于线性回归，但它的输出通过逻辑函数转换，如下所示： \[ H_\theta(x) = \sigma(\theta^Tx) \] 其中，\(\sigma\) 是Sigmoid函数，定义为 \( \sigma(z) = \frac{1}{1+e^{-z}} \)，\( \theta \) 是参数向量，\( x \) 是特征向量。Sigmoid函数将线性组合 \(\theta^Tx\) 映射到(0,1)之间，代表了正向类的概率。 3. 决策边界决策边界（Decision Boundary）是将数据空间划分为两个类别区域的分界线。对于逻辑回归，这个边界是由Hypothesis函数的输出等于0.5的位置决定的。随着参数\( \theta \) 的改变，决策边界也会相应变化。当新的数据点落在边界上时，模型可能会预测为两类中的任意一个，具体取决于概率阈值。 4. 成本函数为了优化参数\( \theta \)，我们需要定义一个成本函数（Cost Function）。在逻辑回归中，通常使用交叉熵损失函数（Cross-Entropy Loss Function），也称为对数似然损失。对于二分类问题，成本函数J(θ)可表示为： \[ J(\theta) = -\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}\log(H_\theta(x^{(i)})) + (1 - y^{(i)})\log(1 - H_\theta(x^{(i)}))] \] 其中，\( m \) 是样本数量，\( y^{(i)} \) 和 \( x^{(i)} \) 分别是第i个样本的标签和特征。 5. 模型训练通过梯度下降法（Gradient Descent）或更高效的优化算法（如拟牛顿法或随机梯度下降），我们最小化成本函数J(θ)，从而找到最优的参数\( \theta \)。优化的目标是使模型在训练数据上的预测尽可能接近实际的类别标签。 6. 多分类问题逻辑回归也可以扩展到处理多于两个类别的问题，例如通过一对多（One-vs-All）或多项式逻辑回归（Multinomial Logistic Regression，也称softmax回归）。在多项式逻辑回归中，每个类别都有一个独立的线性模型，所有模型共享同样的特征，但具有不同的权重向量。逻辑回归因其简单、高效和易于理解，在许多实际应用中仍然非常流行，包括广告点击率预测、信用风险评估、疾病诊断等。然而，对于某些复杂的数据分布和非线性问题，其他方法如支持向量机（SVM）、决策树或神经网络可能更为适用。

机器学习之逻辑回归（机器学习之逻辑回归（LogisticRegression））

1. Classification

之前的文章中，我们讨论的垃圾邮件分类实际上就是一个分类问题。类似的例子还有很多，例如一个在线交易网站判断一次交

易是否带有欺诈性（有些人可以使用偷来的信用卡，你懂的）。再如，之前判断一个肿瘤是良性的还是恶性的，也是一个分类

问题。

在以上的这些例子中，我们想预测的是一个二值的变量，或者为0，或者为1；或者是一封垃圾邮件，或者不是；或者是带有

欺诈性的交易，或者不是；或者是一个恶性肿瘤，或者不是。

我们可以将因变量（dependant variable）可能属于的两个类分别称为负向类（negative class）和正向类（positive class）。

可以使用0来代表负向类，1来代表正向类。

现在，我们的分类问题仅仅局限在两类上：0或者1。之后我们会讨论多分类问题，也就是说，变量 y 可以取多个值，例如

0，1，2，3。

那么，我们如何来解决一个分类问题呢？来看以下例子：

现在有这样一个分类任务，需要根据肿瘤大小来判断肿瘤的良性与否。训练集如上图所示，横轴代表肿瘤大小，纵轴表示肿瘤

的良性与否，注意，纵轴只有两个取值，1（代表恶性肿瘤）和0（代表良性肿瘤）。

通过之前的博文，我们已经知道对于以上数据集使用线性回归来处理，实际上就是用一条直线去拟合这些数据。因此，你得到

的 Hypothesis 可能如下：

那么，如果你想做出预测，一种可行的方式是如下：

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38631978

粉丝: 3
资源: 933

逻辑回归 Logistic Regression：分类问题与决策边界

机器学习实验二logistic Regression

逻辑回归logistic regression

16.逻辑回归LogisticRegression分析鸢尾花数据1

机器学习之逻辑回归(Logistic Regression).mda

基于python实现逻辑回归Logistic Regression

ex2-logistic regression_逻辑回归_机器学习_逻辑回归python_python_

逻辑回归_逻辑回归_LogisticRegression_逻辑回归python_

机器学习——逻辑回归logistic实现二分类（matlab）

逻辑回归 LogisticRegression：分类与决策边界

机器学习 第四讲 Logistic Regression和广义线性模型

最新资源

机器学习第四讲 Logistic Regression和广义线性模型