逻辑回归详解：分类利器，优点与正则化

需积分: 0 191 浏览量更新于2024-08-05 收藏 708KB PDF 举报

逻辑回归是机器学习领域中一种用于解决分类问题的统计模型，它在许多场景下表现出良好的性能。与线性回归的主要区别在于处理任务的性质：线性回归关注连续变量的预测，而逻辑回归则专注于二分类问题，将连续的输出通过Sigmoid函数映射到[0,1]的概率空间，从而实现类别判断。逻辑回归的公式表达了一种对数几率回归的思想，通过输入特征x和权重w计算预测概率P(S=1|X;w)。损失函数采用交叉熵损失，即伯努利分布的负对数似然，这个函数在最大化似然估计时用于估计模型参数。优化过程通常使用梯度下降等优化算法，使得损失函数最小化。逻辑回归的优点包括： 1. **强健的线性关系**：它对线性关系较强的数据表现良好，能够捕捉到简单的决策边界。 2. **抗噪声能力**：由于概率输出，逻辑回归能够更好地处理数据中的噪声，即使存在不准确或缺失的数据点，依然能给出相对可靠的预测。 3. **计算效率**：相比于复杂的深度学习模型，逻辑回归的训练速度较快，适合处理大规模数据集。 4. **概率输出**：逻辑回归不仅能做出0或1的硬判决，还能提供预测结果的概率，这对于排序任务（ranking model）很有用。正则化是逻辑回归防止过拟合的重要手段，主要有L1和L2正则化。L1正则化通过添加权重绝对值的惩罚项，鼓励模型产生稀疏解；L2正则化则通过平方和惩罚，使权重向量趋向于零但不为零，有助于保持模型参数的稳定。特征离散化是逻辑回归中的一个重要实践，它可以提高模型的鲁棒性，减少异常值的影响，并帮助模型在处理非连续特征时更好地理解和建模。例如，将年龄这一连续特征转化为离散区间，可以使模型对年龄变化更敏感，同时也降低了模型复杂性，减小过拟合的风险。对于多分类问题，逻辑回归可以扩展为多项逻辑回归（Softmax Regression），通过softmax函数将输出转换为多个类别的概率分布，从而支持多类别分类。这表明逻辑回归并非只能局限于二分类，而是可以通过适当的变形适用于不同的分类场景。

机

器

学

习

与

深

度

学

习

⾯

试

系

列

五

（

逻辑

回

归

）

什么

是

逻辑

回

归

？与

线

性

回

归

有

什么

不

同

？

逻辑

回

归

处

理

的

是

分

类

问题

，

线

性

回

归

处

理

的

是

回

归

问题

，

这

是

两

者

的

最本

质

的

区

别

。

线

性

回

归

的

⼀

般

形式

是

，

的

取

值

范

围

是

。

对

于

逻辑

回

归

，

就

是

把

的

结

果

带

⼊

⼀个

⾮

线

性

变

换

的

函

数

（

挤

压

函

数

）

中

，

即可

得

到

[0,1]

之

间

取

值

范

围

的

数

，

可

以

把

它

看

成

是

⼀个

概

率

值

(

;

)

，

它

表

示

当

前

样本标

签

为

的

概

率

（

为

正

样本

，

为

负

样本

）

。

如

果

我

们

设

置

概

率

阈

值

为

0.5

，

那

么

⼤

于

0.5

可

以

看

成

是

正

样本

，

⼩

于

0.5

看

成

是

负

样本

，

就

可

以

进

⾏

分

类

了

。

逻辑

回

归

的

⼀

般

性

公

式

为

：

，

整

理

可

得

：

，

这

样

逻

辑

回

归

可

以

看

作

是

对

的

对

数

⼏

率

回

归

，

故

称

回

归

(

逻辑

回

归

)

。

逻辑

回

归

损

失

函

数

是

什么

？

怎

么

推

导

？

记

为

样本

的真

实

标

签

，

为

预

测

其

标

签

为

的

概

率

，

逻辑

回

归

损

失

函

数

是

交

叉

熵

损

失

函

数

：

。

由

，

显

然

：

。

将

两个

式

⼦

结

合

起

来

：

，

这

是

⼀个

伯

努利分

布

。

对

于

个

样本

，

由独

⽴

同

分

布

假

设

可

知

：

。

由

最

⼤

似

然

法

，

要

估

计

中

的

参

数

和

，

只

需

要

求

的

最

⼤

值

，

即

：

下载后可阅读完整内容，剩余3页未读，立即下载

宝贝的麻麻

粉丝: 40
资源: 294

逻辑回归详解：分类利器，优点与正则化

机器学习、深度学习面试题合集（300+）.pdf

机器学习与深度学习面试系列一（特征工程）1

机器学习面试精华：逻辑回归详解与概率解释

最新版的机器学习和深度学习面试题目， 涉及机器学习和深度学习理论和实践

1.机器学习、深度学习面试笔试题300+1

机器学习、深度学习、kaggle、天池面试指南

深度学习面试书：深度学习面试宝典（含数学，机器学习，深度学习，计算机视觉，自然语言处理和SLAM等方向）

机器学习-深度学习算法岗面试-300题合集.pdf

机器学习&深度学习面试问题与答案总结

校招算法面试：机器学习与深度学习笔记

最新资源

最新版的机器学习和深度学习面试题目，涉及机器学习和深度学习理论和实践