写一个用决策树对excel中的文本做分类的代码
时间: 2024-02-06 18:11:42 浏览: 99
数据挖掘课设—-适合练练手
好的,以下是一个用决策树对Excel中的文本进行分类的Python代码:
```python
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.feature_extraction.text import CountVectorizer
# 读取Excel文件
df = pd.read_excel('data.xlsx')
# 提取特征
count_vect = CountVectorizer()
X_counts = count_vect.fit_transform(df['text'])
# 训练决策树模型
clf = DecisionTreeClassifier()
clf.fit(X_counts, df['label'])
# 预测新数据
new_data = ['This is good', 'That is bad']
X_new_counts = count_vect.transform(new_data)
predicted = clf.predict(X_new_counts)
# 输出预测结果
print(predicted)
```
在这个例子中,我们首先使用`pandas`库中的`read_excel`方法读取Excel文件中的数据,并提取出文本和标签列。然后使用`CountVectorizer`类来进行特征提取。接着,我们使用`DecisionTreeClassifier`类来训练决策树模型,并使用测试集数据进行预测。最后,我们输出了预测结果。需要注意的是,在这个例子中,我们假设Excel文件中有一个名为`text`的列来存储文本数据,和一个名为`label`的列来存储标签数据。你需要根据你的实际情况进行相应的修改。
阅读全文