请你用python生成一个能处理连续且有缺失值的数据的决策树
时间: 2023-07-15 07:11:27 浏览: 102
好的,我可以为你提供代码来生成一个能处理连续且有缺失值的数据的决策树。我们将使用`sklearn`中的`DecisionTreeClassifier`模型,并使用`SimpleImputer`来填充缺失值。
首先,让我们导入需要的库:
``` python
from sklearn.tree import DecisionTreeClassifier
from sklearn.impute import SimpleImputer
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
```
接下来,我们将加载鸢尾花数据集并将其拆分为训练集和测试集:
``` python
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)
```
然后,我们将创建一个`SimpleImputer`对象,该对象将用中位数填充缺失值:
``` python
imputer = SimpleImputer(strategy='median')
```
现在,我们可以使用`fit`方法来拟合训练数据集并使用`transform`方法来转换训练和测试数据集中的缺失值:
``` python
X_train_imputed = imputer.fit_transform(X_train)
X_test_imputed = imputer.transform(X_test)
```
最后,我们可以使用`DecisionTreeClassifier`模型来训练决策树并使用测试集来评估模型的性能:
``` python
dtc = DecisionTreeClassifier(random_state=42)
dtc.fit(X_train_imputed, y_train)
y_pred = dtc.predict(X_test_imputed)
accuracy = accuracy_score(y_test, y_pred)
print(f'Test accuracy: {accuracy:.2f}')
```
这样,我们就生成了一个能够处理连续且有缺失值的数据的决策树。
阅读全文