偏差方差权衡 python
时间: 2023-11-21 15:55:58 浏览: 86
偏差-方差权衡是机器学习中一个重要的概念,它涉及到模型的泛化能力。高偏差意味着模型欠拟合,高方差意味着模型过拟合。在Python中,我们可以通过绘制学习曲线来诊断偏差-方差问题。
学习曲线是一种可视化工具,用于评估模型的表现。它显示了模型在训练集和验证集上的表现随着训练样本数量的增加而变化的情况。通过观察学习曲线,我们可以判断模型是否存在偏差或方差问题。
下面是一个简单的例子,演示如何使用Python绘制学习曲线:
```python
from sklearn.model_selection import learning_curve
from sklearn.linear_model import LinearRegression
import numpy as np
import matplotlib.pyplot as plt
# 生成随机数据
X = np.random.rand(100, 1)
y = 2 + 5 * X + np.random.randn(100, 1)
# 定义模型
model = LinearRegression()
# 绘制学习曲线
train_sizes, train_scores, test_scores = learning_curve(model, X, y, cv=10)
train_mean = np.mean(train_scores, axis=1)
train_std = np.std(train_scores, axis=1)
test_mean = np.mean(test_scores, axis=1)
test_std = np.std(test_scores, axis=1)
plt.plot(train_sizes, train_mean, 'o-', color="r", label="Training score")
plt.plot(train_sizes, test_mean, 'o-', color="g", label="Cross-validation score")
plt.fill_between(train_sizes, train_mean - train_std, train_mean + train_std, alpha=0.1, color="r")
plt.fill_between(train_sizes, test_mean - test_std, test_mean + test_std, alpha=0.1, color="g")
plt.xlabel("Training examples")
plt.ylabel("Score")
plt.legend(loc="best")
plt.show()
```
上述代码中,我们使用`sklearn`库中的`learning_curve`函数生成学习曲线。该函数需要传入模型、训练数据、目标数据和交叉验证的折数。最后,我们使用`matplotlib`库绘制学习曲线。
阅读全文