首页k-means实现文本聚类代码

k-means实现文本聚类代码

时间: 2023-09-26 11:09:12 浏览: 100

以下是一个简单的k-means文本聚类的示例代码： ```python from sklearn.cluster import KMeans from sklearn.feature_extraction.text import TfidfVectorizer # 假设有一些文本数据存储在一个列表中，每个元素代表一篇文章 text_data = ['This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document?'] # 使用TfidfVectorizer将文本转换为tf-idf向量 vectorizer = TfidfVectorizer(stop_words='english') tf_idf = vectorizer.fit_transform(text_data) # 使用k-means聚类算法将文本数据分成两个簇 kmeans = KMeans(n_clusters=2, random_state=0).fit(tf_idf) clusters = kmeans.labels_ # 输出每个文本所属的簇 for i in range(len(text_data)): print("文本“{}”所属的簇为{}".format(text_data[i], clusters[i])) ``` 上述代码使用sklearn库中的KMeans类实现了k-means聚类算法。首先，使用TfidfVectorizer将文本转换为tf-idf向量，然后使用KMeans类将向量分成两个簇。最后，输出每个文本所属的簇。

阅读全文