Excel表格里有10万个数据其中归类后是100个标签,如何对应标签利用独热编码自动对应进行特征值化,在python编程进行分类划分,给出完整代码
时间: 2023-06-13 07:08:24 浏览: 107
爬虫代码,数据集寻找加自动分类,训练集,测试集自动生成!下载就可用,python
可以使用 pandas 和 scikit-learn 库来进行数据处理和分类划分。
首先,读取 Excel 表格数据并进行数据预处理:
```python
import pandas as pd
from sklearn.preprocessing import MultiLabelBinarizer
# 读取 Excel 表格数据
data = pd.read_excel('data.xlsx')
# 把标签列转换成列表形式
labels = data['标签'].apply(lambda x: x.split(';')).tolist()
# 对标签进行独热编码
mlb = MultiLabelBinarizer()
labels_onehot = pd.DataFrame(mlb.fit_transform(labels), columns=mlb.classes_)
# 合并原始数据和独热编码后的标签
data = pd.concat([data, labels_onehot], axis=1)
# 删除原始标签列和无用列
data = data.drop(['标签', 'ID'], axis=1)
```
然后,进行分类划分和训练模型:
```python
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data.iloc[:, :-100], data.iloc[:, -100:], test_size=0.2, random_state=42)
# 训练决策树模型
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
# 预测测试集结果
y_pred = clf.predict(X_test)
# 输出模型评估结果
print("Accuracy:", clf.score(X_test, y_test))
```
完整代码如下:
```python
import pandas as pd
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
# 读取 Excel 表格数据
data = pd.read_excel('data.xlsx')
# 把标签列转换成列表形式
labels = data['标签'].apply(lambda x: x.split(';')).tolist()
# 对标签进行独热编码
mlb = MultiLabelBinarizer()
labels_onehot = pd.DataFrame(mlb.fit_transform(labels), columns=mlb.classes_)
# 合并原始数据和独热编码后的标签
data = pd.concat([data, labels_onehot], axis=1)
# 删除原始标签列和无用列
data = data.drop(['标签', 'ID'], axis=1)
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data.iloc[:, :-100], data.iloc[:, -100:], test_size=0.2, random_state=42)
# 训练决策树模型
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
# 预测测试集结果
y_pred = clf.predict(X_test)
# 输出模型评估结果
print("Accuracy:", clf.score(X_test, y_test))
```
阅读全文