文本数据集聚类的python代码怎么写
时间: 2024-05-11 17:18:17 浏览: 99
文本数据集聚类可以使用Python中的scikit-learn库进行实现。以下是一个简单的文本聚类示例代码:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import pandas as pd
# 读取数据
text_data = pd.read_csv('text_data.csv')
# 利用TfidfVectorizer将文本数据转换成向量
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(text_data['text'])
# 使用KMeans进行聚类
kmeans = KMeans(n_clusters=5)
kmeans.fit(X)
# 打印聚类结果
clusters = kmeans.labels_
for i, text in enumerate(text_data['text']):
print("Cluster ", clusters[i], ": ", text)
```
在这个示例中,我们首先将文本数据集读取为一个pandas DataFrame。然后,我们使用TfidfVectorizer将文本数据转换成向量,使用KMeans进行聚类。最后,我们打印出每个文本所属的聚类。请注意,这只是一个基本的聚类示例,您可以根据实际情况对代码进行修改和优化。
阅读全文