用python对两个txt文本进行kmeans的代码
时间: 2024-01-07 14:05:37 浏览: 70
下面是一个对两个txt文本进行kmeans聚类的示例代码:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
# 读取两个txt文本
with open('text1.txt', 'r', encoding='utf-8') as f1:
text1 = f1.read()
with open('text2.txt', 'r', encoding='utf-8') as f2:
text2 = f2.read()
# 计算TF-IDF特征
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform([text1, text2])
# 执行kmeans聚类
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
# 输出聚类结果
print(kmeans.labels_)
```
在上面的代码中,我们首先使用Python的文件读取功能读取了两个txt文本。然后使用TF-IDF特征提取方法将这两个文本转换为特征向量,并使用KMeans算法对这些特征向量进行聚类。最后输出每个文本所属的类别。这里我们将聚类数设置为2,即将两个文本聚为两类。
需要注意的是,这只是一个简单的示例代码,实际应用中需要根据具体的需求进行调整和优化,比如对文本进行预处理、调整聚类数、选择合适的特征提取方法等。同时,也需要注意文件编码和路径的设置。
阅读全文