Stanford机器学习：逻辑回归与过拟合解决方案- Regularization

3星 · 超过75%的资源需积分: 46 32 浏览量更新于2024-09-13 收藏 569KB PDF 举报

"这篇资源是关于Stanford大学机器学习课程中的逻辑回归（Logistic Regression）以及如何解决过拟合问题的教程，由Jackie_Zhu撰写，并提供了相关的博客链接。主要内容涉及逻辑回归在分类问题中的应用，特别是面对二分类问题时的优势，以及如何通过正则化（Regularization）技术来应对过拟合。" 在机器学习中，逻辑回归是一种广泛使用的分类算法，尤其适用于处理二分类问题。与传统的线性回归不同，逻辑回归不直接预测连续的数值输出，而是用来估计事件发生的概率，其输出结果位于0到1之间。当我们面临一个问题，比如判断邮件是否为垃圾邮件或肿瘤是良性还是恶性，这类问题就属于分类问题，而逻辑回归恰好能有效地处理这类问题。在描述中提到的例子中，线性回归用于预测肿瘤的性质，但其输出可能超出0和1的范围，这显然不适合分类任务。逻辑回归引入了一个S型函数，通常称为sigmoid函数，形式为g(z) = 1 / (1 + e^-z)，它将线性回归的连续输出映射到(0,1)区间，使得预测结果可以解释为正类的概率。如果预测概率H(x;θ)大于0.5，我们倾向于将样本归类为正类；反之，如果小于0.5，则归类为负类。 Sigmoid函数的特性使得逻辑回归可以进行分类，但仅靠线性决策边界（即θ*x = 0的直线）可能不足以区分复杂的数据集。在这种情况下，我们可以引入多项式特征，比如x的平方项（x1^2，x2^2等），以创建非线性的决策边界，就像在多项式回归中所做的那样。这样做能够更好地适应数据的复杂结构，从而提高模型的分类性能。然而，增加更多的特征（或者更高的多项式阶数）也可能导致过拟合，即模型过度适应训练数据，而在新的、未见过的数据上表现不佳。为了解决过拟合，我们需要使用正则化技术。正则化通过对模型参数施加约束来防止模型过于复杂，常见的正则化方法有L1和L2正则化。L1正则化倾向于产生稀疏的模型，即许多参数接近于0，而L2正则化则使得所有参数都相对较小，但不强制为0。正则化的强度可以通过一个超参数λ来控制，通过调整λ的大小可以在过拟合和欠拟合之间找到平衡。逻辑回归是处理二分类问题的强大工具，通过sigmoid函数将线性模型的输出转化为概率，而正则化则是防止模型过拟合的关键策略。在实际应用中，我们需要根据数据的特性和任务需求，灵活地选择特征工程和正则化参数，以构建最有效的分类模型。

根据这个式子就可以来预测输出的分类了。和前面的线性回归一样，h(x)大于 0.5 的话，

输出有更大的概率是正类，所以把它预测成正类。

从 S 型曲线可以看出，h(x)是单调递增的，如果 h(x)>0.5 则 theta*x>0 反之，theta*x<0,

这个反映到 x 的坐标下，theta*x=0 刚好是一条直线，theta*x>0 和 theta*x<0 分布在该

直线的两侧，刚好可以把两类样本分开。

如果数据是这样的，很明显一条直线无法将它隔开

剩余11页未读，继续阅读

Jackie_Zhu

粉丝: 342

Stanford机器学习：逻辑回归与过拟合解决方案- Regularization

Standford 机器学习学习笔记线性回归和多项式回归

Standford机器学习 线性回归CostFunction和Normal equation的推导

Standford 机器学习应用的建议及机器学习系统的设计

Standford机器学习 聚类算法（clustering）和非监督学习

standford机器学习神经网络（Neural Network）表示

standford机器学习课程练习和学习资料合集（matlab代码）.zip

standford 吴恩达老师 机器学习的笔记

机器学习课程资源-standford Ng

Coursera_Standford_Algorithm:Standford算法编程问题的解决方案

machine-learning-standford-andrewng:这是斯坦福大学在吴哥（Andrew NG）的指导下在Coursera上进行的机器学习课程的进度

最新资源

Standford机器学习线性回归CostFunction和Normal equation的推导

Standford机器学习聚类算法（clustering）和非监督学习

standford 吴恩达老师机器学习的笔记