利用python对iris数据集进行嵌入式特征选择,分别使用了l1正则化和l2正则化进行特征筛选,并比较两种正则化特征筛选的区别
时间: 2023-07-26 17:06:18 浏览: 124
首先,我们需要导入iris数据集和一些必要的库。可以使用sklearn库中的load_iris函数来加载iris数据集,并使用pandas库将其转换为DataFrame格式。然后,我们可以使用train_test_split函数将数据集分为训练集和测试集。
```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import pandas as pd
iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
X_train, X_test, y_train, y_test = train_test_split(iris_df, iris.target, test_size=0.2, random_state=42)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```
接下来,我们将使用L1正则化和L2正则化来进行特征选择。我们可以使用sklearn库中的Lasso和Ridge模型来实现。
```python
from sklearn.linear_model import Lasso, Ridge
# L1正则化
lasso = Lasso(alpha=0.1)
lasso.fit(X_train_scaled, y_train)
# L2正则化
ridge = Ridge(alpha=0.1)
ridge.fit(X_train_scaled, y_train)
```
然后,我们可以输出每个特征的系数和截距,以及模型的评分。
```python
print("Lasso coefficients:", lasso.coef_)
print("Lasso intercept:", lasso.intercept_)
print("Lasso score:", lasso.score(X_test_scaled, y_test))
print("Ridge coefficients:", ridge.coef_)
print("Ridge intercept:", ridge.intercept_)
print("Ridge score:", ridge.score(X_test_scaled, y_test))
```
最后,我们可以比较L1正则化和L2正则化的特征选择效果。L1正则化通常会将一些系数压缩为0,从而实现特征选择的效果。而L2正则化则会将所有系数都缩小,但不会将其压缩为0。
```python
print("Lasso selected features:", iris_df.columns[lasso.coef_ != 0])
print("Ridge selected features:", iris_df.columns[ridge.coef_ != 0])
```
通过上述代码,我们可以看到L1正则化选择了两个特征,而L2正则化选择了所有特征。这说明L1正则化更倾向于选择重要的特征,而L2正则化则更倾向于保留所有特征。在实际应用中,我们需要根据具体的问题选择使用哪种正则化方法。
阅读全文