首页文本数据集聚类的python代码怎么写

文本数据集聚类的python代码怎么写

时间: 2024-05-11 17:18:17 浏览: 99

文本数据集聚类可以使用Python中的scikit-learn库进行实现。以下是一个简单的文本聚类示例代码： ```python from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans import pandas as pd # 读取数据 text_data = pd.read_csv('text_data.csv') # 利用TfidfVectorizer将文本数据转换成向量 vectorizer = TfidfVectorizer(stop_words='english') X = vectorizer.fit_transform(text_data['text']) # 使用KMeans进行聚类 kmeans = KMeans(n_clusters=5) kmeans.fit(X) # 打印聚类结果 clusters = kmeans.labels_ for i, text in enumerate(text_data['text']): print("Cluster ", clusters[i], ": ", text) ``` 在这个示例中，我们首先将文本数据集读取为一个pandas DataFrame。然后，我们使用TfidfVectorizer将文本数据转换成向量，使用KMeans进行聚类。最后，我们打印出每个文本所属的聚类。请注意，这只是一个基本的聚类示例，您可以根据实际情况对代码进行修改和优化。

阅读全文