1.收集了某校学生的就业数据,与就业相关的特征如下: 根据样本数据,划分训练集与测试集(train_test_split函数)(30分) 2.采用KNN建立分类模型,分析模型的准确率。(30分) from sklearn import neighbors knn = neighbors.KNeighborsClassifier() knn.fit(X_train, y_train) y_pred_knn = knn.predict(X_test) 3.采用DecisionTreeClassifier决策树模型建模,比较各因素的重要性(feature_importances_),并分析模型的准确率。(40分) from sklearn import tree dtc = tree.DecisionTreeClassifier() dtc.fit(X_train, y_train) y_pred_dtc = dtc.predict(X_test)
时间: 2024-03-19 11:45:38 浏览: 59
1. 收集了某校学生的就业数据,与就业相关的特征如下:
特征:
- 学生姓名
- 学生性别
- 学生年龄
- 学生专业
- 毕业时间
- 就业状态(已就业/未就业)
- 工作类型(行政/技术/销售等)
- 工作地点
- 月薪水平
根据样本数据,划分训练集与测试集(train_test_split函数):
```
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
```
其中,X表示特征数据,y表示标签数据(即是否就业),test_size表示测试集占比,random_state表示随机种子,用于保证每次划分的结果一致。
2. 采用KNN建立分类模型,分析模型的准确率。
```
from sklearn import neighbors
knn = neighbors.KNeighborsClassifier()
knn.fit(X_train, y_train)
y_pred_knn = knn.predict(X_test)
from sklearn.metrics import accuracy_score
acc_knn = accuracy_score(y_test, y_pred_knn)
print("KNN模型的准确率为:", acc_knn)
```
3. 采用DecisionTreeClassifier决策树模型建模,比较各因素的重要性(feature_importances_),并分析模型的准确率。
```
from sklearn import tree
dtc = tree.DecisionTreeClassifier()
dtc.fit(X_train, y_train)
y_pred_dtc = dtc.predict(X_test)
importance = dtc.feature_importances_
print("各特征的重要性:", importance)
acc_dtc = accuracy_score(y_test, y_pred_dtc)
print("决策树模型的准确率为:", acc_dtc)
```
其中,feature_importances_属性可以获取决策树模型中各特征的重要性。准确率可以使用accuracy_score函数计算。
阅读全文